• 电  话:+86-0512-62807996
    传  真:+86-0512-62808596
    地  址:中国(江苏)自由贸易试验区苏州片区苏州工业园区东平街287号广鸿大厦4楼511室
    Email:jerry@zhenhong188.com.cn

大数据应用潜藏的歧视风险

点击次数:更新时间:2016-10-21 16:10:01【打印】【关闭】

随着科技进步,因特网与云端技术应用,近年从业界到各国政府都看中大数据数据可提供的价值,相继提出以大数据数据为主的商业模式与政策规划。当大数据分析应用渐趋普及的同时,有关运用大数据数据的可能风险,也逐渐受到重视。大数据分析应用可能产生风险,讨论焦点多半集中在确保隐私及个资,与其相关去识别化之议题。除此之外,大数据应用可能带来潜在的歧视议题,成为亦近期关注的焦点。

美国联邦交易委员会(Federal Trade Commission, FTC)在2016年1月6日公布针对大数据的一份研究报告:”Big Data: A Tool for Inclusion or Exclusion? Understanding the Issues” 指出,大数据愈趋重要,无疑增进消费者在众多领域之福祉;然而接续的重要议题是,企业应确保在运用大数据分析时合于法律,且在保护消费者权益的价值与原则下,持续提供消费者益处及机会,并极小化可能产生的风险,避免造成歧视。

再者,白宫在2016年5月公布了2016大数据报告,” Big Risks, Big Opportunities: the Intersection of Big Data and Civil Right” ,同样谈到在运用大数据分析可能造成的歧视性后果。报告直接指出,「大数据分析可能在不经意间歧视了某些特定公民。


大数据预测未来犯罪机率 
针对大数据应用可能带来的潜在歧视,近日著名的案例是美国著名独立媒体ProPublica所作的一份调查报告 “Machine Bias” 。这份调查报告中指出,运用大数据预测未来犯罪机率的「风险评估数字」呈现对黑人的严重偏见。 

在美国,当刑事被告面临宣判,法官可以用几个因素来判断最适合的刑罚,这些判断因素之一是所谓的「风险评估分数」(risk assessment score),用以预测被告未来是否会犯其他罪行的数字。「风险评出分数」可能会影响保释金数字、治疗计划或刑期长短。如果被告得到的「风险评出分数」较高,法官在裁量的时候,容易因为认为他们被告未来可能再犯罪的可能性高而因此让他们接受更多惩罚。ProPublica调查报告证实了某些司法人员的疑虑,大数据分析应用在刑事体系时出了大错,特别是当它牵涉到了种族。ProPublica调查报告显示,白人被告常被认为是低犯罪风险,尤其跟黑人相比;运用的公式特别容易错误地认定黑人被告未来可能犯罪,对黑人错误标识的比例是白人的两倍。但是美国法官仍然使用「风险评估分数」作为裁量刑罚的判断标准,最终造成种族歧视并形成不公平的结果。 

隐藏在大数据中立客观下的歧视 
在大数据应用下,歧视被包裹在「技术中立」的外衣中。在普遍认为大数据应用的软件和算法是客观的前提下,做决定的主体以大数据分析所得到的「预测」作为其决定的依据,忽视其中潜藏的歧视与偏见,做出的决定可能只是更加强化原本的歧视,所带来的后果将更加严重。诚如美国白宫CTO Megan Smith的文章 中提到:「技术是有可能带有偏见的,可能是挑选的基数太少、使用数据不完整,或是算法本身就有问题。将数据转为信息的演算系统并非万无一失,他们依赖在不完美的输入、逻辑、可能性以及设计这系统的人。」 
运用大数据分析进行「预测」,藉以判断某些类型的人可能「倾向」某些特定行为,但为什么他们会有这样的「倾向」,则需要更进一步缜密的分析与探讨。值得深思的是,大数据分析与一般以为传统的统计学有所不同。传统统计学使用的数据是以精密设计挑选、符合母体特征的样本,藉以「推论」母体可能的情况。然而,大数据特性之一为「量」(Volume)大,就是因为此一特性,分析者无法判断所获得的数据数据是否真正符合母体特性,获得的数据数据即使量大但很有可能有许多偏差。即便最终使用大数据分析得到良好的预测结果,仍然无法得知完整因果关系的推论过程。

但完整的推论过程才是做决定时的重要关键。以白宫报告中提到大学运用大数据分析的例子而言。美国大学时常运用大数据分析来预测学生的毕业比率,大数据分析的结果指出,家庭收入是影响学生毕业比率的显著影响因素,低收入家庭的学生退学比例较高,这使得大学在一开始招收学生时倾向拒绝低收入家庭的学生。就结果看来,似乎会让人以为低收入家庭的学生能力不足,但低收入家庭的学生中途退学的真正原因多半是无法负担高额学费,而非是在校成绩不佳。大学运用大数据分析却忽略其中的因果关系,最终造成对低收入家庭学生的歧视性结果。

大数据的研究伦理 
英国内阁总理办公室在2016年5月19日释出了第一版的「资料科学伦理架构」(Data Science Ethical Framework) 。在提出此伦理架构之时,英国内阁总理幕僚长Matt Hancock指出 ,政府在政策制定时,使用到数据的情况越来越多,为了在数据数据使用上更明确地保护数据隐私与安全,并更加重视研究过程的伦理议题,英国政府决定针对此一议题进行讨论,希望未来政府部门在使用以及释出数据时,能有所遵循依归。 
英国政府的第一版「资料科学伦理架构」(Data Science Ethical Framework)指出,政府部门在使用数据数据来进行计划时,有6个原则必须要遵循,包括:(1) 开启一项计划时,必须确定是对未来计划使用者及大众有利;(2) 在使用数据数据与工具时,对民众的权利侵犯最小化;(3) 在运用数据时,要尽量使用最好的演算模型;(4) 运用资料时,须注意民众观感;(5) 进行计划时,对于自己使用的数据、模型以及算法时,要尽量保持公开透明;(6) 确保数据数据的安全。

虽然这项伦理架构仍在初步阶段,内容有待加强,但英国政府的作为,仍是标识对于大数据分析研究伦理议题重视的重要一步。 

适当的规范导正技术的合理发展 
大数据应用工具快速发展,我们期待的是让人们可以获得公平与机会,惟技术发展至今,人们须重新回头检视大数据分析带来的风险与挑战。不论公私部门,以大数据分析为基础所做出的决定对于人类社会都有重大影响力,因此未来如何建构大数据分析研究的伦理架构,确保大数据应用从一开始数据数据的搜集、汇整、分析到应用的完整过程,能符合伦理与法律规范,将会是未来的重要课题。唯有重视并减少大数据应用的负面影响,才能回归当初希望运用大数据分析技术带来公平与机会的初衷,为人类社会带来真正的益处。

  2014苏州振宏信息科技有限公司 苏ICP备10070324号
振宏科技始终专注于网络安全技术,一直引导发展网络准入控制系统,桌面管控系统,网络运维监控系统。详询:0512-62807996
全国免费咨询电话:0512-62807996