苹果和所有的巨型企业一样,想尽可能多地了解它的客户。但它同时也把自己标榜为硅谷的隐私冠军,不像其广告驱动的竞争对手,希望尽可能少地了解你。该公司目前公开吹嘘其在数学上一个不起眼的分支,正在成功处理这种矛盾。
北京时间今天凌晨,在苹果全球开发者主题演讲中,软件工程高级副总裁Craig Federighi,强调苹果并不收集用户资料,iMessage和Facetime的加密都是点对点的,计算尽量在你的个人设备而不是苹果的服务器上完成。但Federighi也承认,事实上,尤其是在大数据分析和机器学习的时代,收集用户信息对做出好的软件至关重要。他给出的答案相当含糊:“微分隐私”(differential privacy)。
“我们认为你应该有强大的功能和十足的隐私,”Federighi告诉开发者人群。 “微分隐私是在统计和数据分析方面的研究课题,它使用散列,二次抽样和噪声注入,使众包学习成为可能,同时保持个人用户的数据完全私密。苹果一直在这方面做着超级重要的工作,以使微分隐私能大规模运用。”
微分隐私,从苹果的发言翻译过来,就是尽可能多研究一群人,同时尽可能少地研究任何个人的统计科学。有了微分隐私,苹果可以收集、存储其用户的数据,从而收集有用的概念,比如说,人们喜欢和想要的东西。但它不能提取关于某个人单一的、特定的东西,因为这可能代表了侵犯隐私。而且,在理论上,黑客或情报机构也不能。
“有了大型数据集包括个人的记录,你可能想把数据库作为一个整体,运行一个机器学习算法,获得统计的见解,但要防止一些旁观者或攻击者,在数据集了解到一些特定的[个人]信息。”宾夕法尼亚大学的计算机科学教授Aaron Roth说,Federighi在主题演讲中提到Roth写了一本关于微分隐私的书。(该书为Algorithmic Foundations of Differential Privacy《微分隐私算法的基础》由Roth与微软研究员Cynthia Dwork所写。)“微分隐私可以让你从大型数据集获得见解,但数学证明了,没有人可以了解其中的个体。”
Roth指出,所谓的“数学证明”,微分隐私并不仅仅试图混淆或“匿名”用户的数据。他认为,这种匿名的做法,往往会失败。例如,在2007年,Netflix发布了观众的电影分级数据的大集合,消除了人们的姓名和其他身份细节,只公布了他们的Netflix评级,作为比赛的一部分,以优化其建议。但研究者很快将Netflix的数据与IMDB公众审查数据交叉对比,找出类似的模式,并添加名称回Netflix所谓的匿名数据库。
对于那种去匿名招数也有对策,比如说,消除了Netflix的电影标题,只保持他们的流派。但是也不能保证其他一些聪明的技巧或交叉对比数据不能撤消混淆。 “如果你从数据中删除人们的名字,也不会停止聪明的人交叉对比。”罗斯说。 “可是微分隐私可以阻止这样的事情。”
Roth解释,微分隐私旨在数学上证明,某种形式的数据分析不能揭示任何个体,不管是否具有任何给定的私人数据输入,一个算法的输出保持相同。罗斯说。 “因为微分隐私具有可证明的保证,打破了循环。所以它是未来的防护。”
Federighi一直强调微分隐私,可能意味着苹果实际上,在给它的服务器发送更多的数据,以进行进行分析,就像谷歌、Facebook和所有其他科技公司一样。但是Federighi暗示苹果只通过变换、微分、私人的形式传输数据。事实上,Federighi将三个变换命名为:散列法,一个不可逆地将数据转化成唯一、随机的字符串的加密功能;二次采样,或只采取数据的一部分;和噪声注入,加入随机数据,掩盖了真正的、敏感的个人信息的。
当WIRED问及苹果如何应用微分的更多信息时,苹果代表的答复只提到了iOS 10预览指南,介绍了如何将技术用在最新版本的iOS上:
从iOS 10开始,苹果采用微分隐私技术,以发现大量用户的使用模式,而不损害个人隐私。为了掩盖一个人的身份,微分隐私把数学噪声增加个人使用模式的小样本中。随着越来越多人用同样的模式,便开始出现通用模式,它可以通知和提升用户体验。在iOS 10,这一技术将有助于提高快速打字和emoji建议,聚焦深度链接的建议和在Notes中查找提示。
苹果在采用微分隐私技术时,是否带着必要的严谨性,充分保护客户的隐私,这是另外一个问题。
via wired