手记

强烈推荐 :一文了解AI时代的数据风险

当今,在基于数据的个性化推荐算法机制满足了人们猎奇心、窥探欲、表演欲,让人们在网络中寻找到共鸣感和认同感时,我们未曾意识到一些新问题和新风险的出现。这些新问题和风险能够影响个人对世界的认知,影响群体达成共识,甚至影响到整个时代的价值观。根据清华新闻与传播学院彭兰教授的观点,目前数据时代所面临的风险来自以下几个方面:


 


客观性数据可能成为后真相时代的另一种推手;


个性化算法虽然带来了个人信息服务水平的提升,但也给人们带来偏见、歧视、思想被禁锢等困扰;


相关权利保护则受到更多挑战,特别是在隐私权和被遗忘权方面。


在这里我还是要推荐下我自己建的大数据学习交流裙:805+127+855

 


下面,我们将进行详细解读。



风险一:大数据带来的假象


 


2016年,《牛津英语词典》将“后真相”(post-truth)作为年度词汇,揭示世界进入了后真相时代。罗辑思维曾对该名词做出一个精辟的总结:“过去,我们相信认知源于事实;现在,认知本身就是事实”。


 


这其中原因,技术自然逃离不了干系。例如谷歌和脸书等公司开发的算法是基于用户从前的搜索和点击进行的,随着每次搜索和每次点击,用户就发现自己的偏见再次得到确认。如今的社交媒体已成为大部分人获得新闻信息的主要渠道,其中的推荐算法机制引导我们进入观念类似者的小群体空间内,它只为用户提供他们喜欢、或选择相信的信息,是否真实并不重要。


 


后真相现象提醒我们,数据与算法这些看上去客观的手段与方法,并不一定能带来更多真相,反而可能走向它的反面。如果应用数据的过程不遵守一套完整的规范,或者在数据应用中出现了漏洞而未能察觉,未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。根据彭兰教授的观点,数据生产的每一个步骤都存在导致假象的风险:


 


1. 数据样本偏差带来的“以偏概全”


 


尽管已经进入到“大数据”时代,而大数据的卖点之一是“全样本”,但事实上,在现实中,获得“全样本”并不是一件容易的事。


 


在国内,由于历史原因,很多行业本身就缺乏完整、系统的数据积累,或者由于隐私、信息安全等问题,能公开的只有不完整的数据。譬如医疗行业和政府部门,如何打破信息孤岛,在哪种程度范围内做到公开、透明、共享,依旧是急需攻克的难题。


 


至于互联网数据则更是资源紧缺。目前互联网数据都被少数拥有巨大流量的平台垄断,其他中小型企业由于先天数据不足的缺陷,只能依赖于网络爬虫从这些大平台爬取数据。此前马蜂窝被爆1800万条以上的所谓真实用户数据是抄袭自其他OTA平台,暴露了互联网行业普遍数据造假的潜规则。所以,用户所看到的对一个酒店或餐厅的好评,并不一定是真实信息,很有可能由网络机器人爬取而来。如果说数据缺失能够导致“以偏概全”,数据造假则是直接简单粗暴地蒙蔽用户了。总之,行业数据可能存在样本不完整的问题,这也必然对数据分析结果的完整性、代表性产生影响。


2. “脏数据”带来的污染


 


 


除了样本的问题外,用各种方式获取的数据,本身质量也可能存在问题。部分缺失的数据、重复的数据、失效的数据、造假的数据等,都被称为 “脏数据”。尽管数据处理前都会要求数据清洗,但这未必能完全消除脏数据带来的污染。某些数据分析者也可能因为一些原因无视脏数据的存在,甚至会制造一些脏数据。


 


 


 


此前人工智能对话系统微软小冰刚上线时,由于她是用实时对话的数据进行训练的,所以用户给她一些不好的对话后,导致小冰飙脏话就是数据污染的很直接例证。不久前,亚马逊的AI招聘系统被爆出性别歧视也是同样道理。从技术上讲,机器学习过程不会引入任何偏差,但训练数据中存在的任何偏差都将在算法中忠实地展现出来。AI的性别歧视,只是成功模仿了亚马逊当前的招聘状态。


 


 


 


因此,数据质量永远是数据分析立项后首先要考虑的。首先要理解数据来源、数据统计和收集逻辑、数据入库处理逻辑;其次是理解数据在数据仓库中是如何存放的,字段类型、小数点位数、取值范围,规则约束如何定义的;第三是明确数据的取数逻辑,尤其是从数据仓库中如何用SQL取数的,其中特别是对数据有没有经过转换和重新定义;第四是拿到数据后必须要有数据审查的过程,包括数据有效性验证、取值范围、空值和异常值处理等。当这些工作都做充足之后才能进行下一步分析。


 


 


 


3. 数据分析模型偏差带来的方向性错误


 


 


在美国畅销书《大规模杀伤数器:大数据如何加深不公和危害民主》中,作者提到现在的数据科学家,习惯用模拟的方式概括人类的行为,以群体画像推导个人行为,依此判定。这本质上没有问题,问题出在反馈上:大部分的模型根本没有矫正的环节,如果模型的结果有偏差,系统本身无从得知,根据错误结果持续优化,最终反而变本加厉。此外,作者还认为建立怎样的数据分析模型取决于我们自己,我们的价值观、我们的欲望,影响我们种种决策:收集哪些数据,提起什么样的问题。所谓的模型,是指内嵌于数学的观点。



除了以上三个环节可能造成假象外,包括数据挖掘能力有限、数据解读能力有限,都有可能带来偏差。总之,当今的某些大数据分析在某种意义上就是在分析甚至“制造”人们的视角,然后将符合视角的“事实”推送给他们,虽然推送的“事实”似乎是客观的,但是,当它们被放置在人们的“视角”下时,就成为了影响主观判断和态度的重要手段。


 


2016年美国总统大选,多家民调机构的预测结果的失败,让人们质疑数据的客观性与准确性。而时隔两年之后曝出的Facebook数据泄露事件,在某种意义上是对民调结果失灵的一个回应,尽管我们并不能确定剑桥分析公司对大选结果的干预究竟起了多大作用。这一事件还有着更深层的寓意,它提醒我们面临的一个新挑战:一方面,数据分析的目标是追求客观地描述事物;另一方面,数据分析也可能会成为对客观事物或客观进程的干预力量。可以预见的是,未来两者之间的博弈可能会成为常态。


在这里我还是要推荐下我自己建的大数据学习交流裙:805127855, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。

 


风险二:数据时代个人所面临的风险


 


在大数据时代,从个人角度看,目前数据应用与他们最直接的关联,是各种具有个性化算法推荐的应用。但事实上,这种算法既会对个人视野格局产生影响,也会暴露用户隐私。


 


1. 算法是否会将人们囚禁在信息茧房中?


 


“信息茧房”一词出自于美国学者桑斯坦,在他看来,信息茧房意味着人们只听他们选择和愉悦他们的东西。


 


尽管每个人都有自己的阅读偏好是正常的现象,但如果每个人关注的只是自己兴趣内的那一小片天地,他对这以外的世界,就会越来越缺乏了解。这或许不会影响到他个人的生活,但是,在需要公共对话的时候,人们会缺乏共同的 “视角”。而共同 “视角”的缺乏,意味着人们对一些事实的判断会出现差异,共识难以形成。同时,信息环境的封闭与狭隘,也可能会进一步固化人们的某些观点与立场。

从面向个人的算法角度看,要尽可能减少信息茧房效应,就要在算法设计时深入理解考虑用户行为与需求中的矛盾,例如能够及时预测用户需求的迁移或扩展,或者提供一些惯性之外的信息,给个体带来新体验等。


 


除了以算法来完成面向个体的内容推荐,算法也可以用于公共性内容的匹配,也就是通过算法洞察公众的共同心理,使具有公共价值的内容到达更广的人群,也同样可能帮助个体挣脱茧房的束缚。


 


2. 算法是否会将人们囚禁在偏见与固有的社会结构中?


 


算法的另一种风险,是对社会偏见的继承,以及这些偏见可能带来的文化或社会禁锢。当算法用于不当的目的时,会对某些人群或个体造成歧视与伤害。算法不仅在归纳与“同构”现有文化中存在偏见、歧视,还可能用某种方式将它们放大。譬如此前举例的亚马逊AI招聘系统性别歧视一样,机器的歧视来自于数据的偏差,而数据的偏差来自于人的偏见。


 


这一点,一些大数据的开发者体会更深,如国内大数据应用领域的代表性学者周涛所言,“让我们不安的是,这种因为系统设计人员带来的初始偏见,有可能随着数据的积累和算法的运转慢慢强化放大。”


 


3. 算法是否会使人陷入“幸福地被操纵”?


 


或许,个性化算法还会带来另一个深层风险, 那就是在个性化服务下,个体逐渐失去自主判断与选择能力,越来越多地被算法或机器控制。从人的本性来说,懒惰是天然的,想以最小的成本或付出获得最大的报偿,是人之常情,个性化服务在这方面迎合了人性,但是,它也可能正在以方便、幸福的名义,渐渐地使人们对它产生依赖,并在不知不觉中被其麻痹,被其囚禁。

风险三 个人权利的让渡是数据时代的必然代价?


 


 


 


数据时代对普通个体的另一个深层影响,是个体的全面数据化。在未来,用户的数据将更为多元,将通过更多渠道生成、保存,这也意味着用户数据中暗藏的风险更大,数据权利的保护面临更大的挑战。 


 


 


 


1. 用户缺乏对自己数据的知情能力


 


 


此前李彦宏一句“中国人对隐私问题不敏感,愿意用隐私换取便利、安全或者效率”的言论让自己成为众矢之的。事实上,对于普通用户而言,并非他们不介意隐私被暴露,而是并不知道自己的隐私会如何被侵犯,以及被侵犯到何种程度。他们与那些掌握并利用甚至可能出卖他们的隐私数据的公司之间是不平等的。在缺乏对自己数据的知情能力的情况下,隐私保护根本无从谈起。


 


 


 


虽然在某些时候,以隐私换便利是用户的一种不得已的选择,但用户应该有权利知道,出让的是哪些隐私数据,能获取哪些便利,以便他们做出权衡。但今天的网络服务提供者多数并没有提供充分的解释,即使有一些隐私条款,也往往语焉不详或者暗藏陷阱。


 


 


 


2. 用户数据的边界问题值得探讨


 


 


此外,还有用户数据使用权限边界问题。譬如之前第三方公司剑桥分析利用心理测试APP来收集Facebook用户数据一样。即使用户同意向某个服务商提供个人信息,但服务商是否有权向第三方透露?而第三方是否又可以再次将数据转手?网络中的数据都是相互关联的,获取未经授权的关联数据是否合法?或许在理论上做出限定是容易的,但在现实中的操作,又并非那么简单。


 


 


 


3. 用户是否应该拥有绝对隐身的权利


 


 


再一个事关用户隐私权的问题是,今天的用户是否应该拥有一种隐身能力,使自己的数据不被他人获取或存储,从而在根本上保护自己。或许,这在国内将很难被执行。譬如人脸识别技术已被广泛用于街头巷尾的摄像头,尽管“天眼”织就“天网”让罪犯无处可逃,而对于普通个体而言,同样让人感觉到这是一种无处不在的监视。


 


 


 


在个体被随时随地“数字化”映射的情况下,隐身,也是保护隐私的一个重要方面。虽然在法律上要独立形成一种“隐身权”或许并不现实(它更有可能是隐私权中的一部分),但至少在技术层面,需要给予用户更多的“隐身”可能。在物联网将广泛应用的未来,隐身许可将变得更为重要。


 


 


 


4. 保护用户隐私的法律并不能完全保护隐私


 


 


在保护用户隐私的法律方面,2012年欧盟出台《一般数据保护条例》,称信息主体有权要求信息控制者删除与其个人相关的资料信息。该权利被称为被遗忘及擦除权。在国内,2016年颁布的《网络安全法》正式确认了个人对其网上个人信息的“删除权”:“个人发现网络运营者违反法律、行政法规的规定或者双方的约定收集、使用其个人信息的,有权要求网络运营者删除其个人信息。”这些都是对数字时代个人信息的存留风险做出的法律回应。


 


 


 


不过,目前被遗忘权或删除权更多地是在学界和法律界被讨论,大多数普通人并不知道它的存在。并且,即使有被遗忘权或删除权,个体也会面临比以往更多的风险。虽然谨言慎行或许是人们自认为的减少风险的办法,但在算法通过若干点赞就可以判断用户的性格的情况下,在未来各种传感器可以随时随地捕捉人的数据的情况下,被记忆仍会是常态。

以上是对数据与算法时代可能面临风险的探讨。大数据学习交流裙:8051+278+55尽管数据与算法应用的价值不可否定,但我们需要对数据和算法应用的失误或失范有足够的警惕,也需要增强对抗风险的能力。在国内,由于观念、基础条件、规范等方面的障碍,都意味着大数据应用的推进需要时间。任何功利、草率的思维和行为都是对数据应用的损害而非推动。在数据技术的大跃进过程中,我们也需要回归原点,完成一些基本建设,譬如数据素养的培养、数据资源基础设施建设、数据质量评估体系建立、信息伦理规范的约束等。在这个时代,数据、算法将会成为决定我们生存方式的重要因素。识别、抵抗这其中的种种风险,也应该成为我们生活的一部分,成为各种数据应用机构的基本责任。


0人推荐
随时随地看视频
慕课网APP