◆数据挖掘与隐私保护
摘要: 大数据领域的计算能力突飞猛进,要做到“大海捞针”不仅是可能的,而且已经成为现实。大数据技术使得数据科学家能够聚集海量数据,并且能够从中识别出异常点与数据模式。在这种发现的模型中,为了找到针,你得先有个 ...
大数据领域的计算能力突飞猛进,要做到“大海捞针”不仅是可能的,而且已经成为现实。大数据技术使得数据科学家能够聚集海量数据,并且能够从中识别出异常点与数据模式。在这种发现的模型中,为了找到针,你得先有个大海;为了获得准确的洞见,你所需要的信息量得足够大。
例如,麻省理工学院Broad研究所的基因科学家发现,海量的基因数据在识别遗传变异对疾病的影响中有着至关重要的作用。当样本的数据量“达到某个拐点时,一切都变了”, 统计学上的意义便突然显示出来。但是,对于更多数据的获取,尤其是像基因数据等私人敏感的数据,由于各种原因,对于这些研究者来已经成为一个巨大的挑战或者负担,其中一个主要的原因就是美国的隐私法律限制了他们对数据的访问。另一位医疗行业的科学家指出,当你的数据很有可能帮助医疗人员在更短的时间内做出更加精确的诊断,并且很可能在关键的时候能够救人一命。
知识挖掘、机器学习、人工智能等技术的研究和应用使得大数据分析的力量越来越强大,同时也为对个人隐私的保护带来了更加严峻的挑战。当数据起初是与某个具体的人或者设备相关联时,一些隐私保护技术可以设法去除数据与个人身份之间的连接;同时,另外一些的技术在努力地把这些断开的连接复原。当知道一个人所关联的一些信息,就可以从不包括其个人识别信息的数据中推断出这个人的身份标识。
一些大的互联网公司能够将大量的小数据结合在一起,从而构造出某个人清晰的行为图谱,进而预测他们的偏好与行为。这些数据在消费者市场上非常有价值,它能够精确地向确定的一些人主动推送某些产品或者服务。不幸的是,这种“完美的个性化”也会在价格、服务与机会方面造成微妙的或是不明显的歧视,有可能对个人造成真实的伤害。
万维网的发明者Tim Berners-Lee教授认为,斯诺登事件之后,人们对互联网的隐私保护问题越来越关注,由于政府和一些大公司的对在线活动的控制,使得互联网的开放性和独立性受到了严重的威胁。他呼吁制定一个权利法案,以保护互联网的独立性,并确保用户隐私不受侵犯。