2011 年微软进行的一项调查显示,有 94% 的用户认为基于地理位置的服务具有价值。但是调查中也显示,52% 的人也关注与使用地理位置数据有关的隐私问题。
我们在生活中使用 GPS、IP 地址及 Wi-Fi 获取基于位置的服务,实现实时导航、本地天气、地理定位的功能,但在无形之中,它也泄露了我们的隐私。
此前数据科学家 Anthony Tockar 在西北大学读研究生时,就采用可公开获取的位置数据,通过交叉参考公共新闻与照片,跟踪位于纽约市的名人。
隐私问题已经成为了研究界所关注的焦点,南洋理工大学的萧小奎表示,「现在的计算能力与公开数据的规模可以使我们更容易地从数据中识别对方。」
雷锋网消息,日前萧教授与微软亚洲研究院的谢幸博士已经发现了一种可以缓解隐私问题的一种方式。这种名为 PrivTree 的数据操作技术能对地理位置数据进行预处理,以保障个人隐私。随后,这些已经进行过隐私处理的数据可以安全地应用于任何预测分析,而不会对隐私造成进一步风险。
PrivTree 的原理是通过数学方法的「模糊」(blurring) 对地理信息进行处理,但保持整个数据集的总体准确性。以下图为例,数据集里的个体在地图上呈现各自的坐标。
接下来,PrivTree 通过两个步骤对地理位置信息进行模糊处理。
地图分区 (Map Partitioning),也就是基于数据点的密度,将图片分割成若干区域。
位置扰动 (Location Perturbation),即采用统计分析方法,个体受扰动方案随机被摸除、添加或混洗以保证隐私及统计的准确性。在对每个子区域的应用位置扰动后,新的地理位置数据库最终形成。
这些新数据点遵循与原始数据类似分布,但每个个体的真实位置被掩盖了。这些被处理过的数据可以做为 PrivTree 的数据释出。而这个数据集能够拓展为支持各类位置数据的应用——比如你每天的慢跑路线会上传到健康应用程序。具体论文《PrivTree: A Differentially Private Algorithm for Hierarchical Decompositions》已经被 ACM SIGMOD 2016 收录。
萧教授表示,「微软亚洲研究院在管理海量地理位置数据上有着丰富经验,比如北京出租车数据等。这些数据能够帮助我们开发测试我们的模型。」他计划进一步将 PrivTree 技术集成到微软基于位置的服务里,为用户提供隐私保护。
「数据隐私是云计算时代所面临的一个关键挑战,尤其是对于包含大量个人信息的用户生成的位置数据。我们希望这项合作能够为所有人建立一个更加安全的世界,」谢幸博士表示。
当然,雷锋网也同样期待这项技术能早日应用于实际领域。
via microsoft,雷锋网编译