首页科技快讯我是一名数据科学家，但我对大数据持怀疑态度

我是一名数据科学家，但我对大数据持怀疑态度

来源：晰数塔互联网快讯时间：2019年08月07日 14:09

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：都说未来是数据时代。数据说明一切，数据不会骗人。数据是罗塞塔之石，可皮衣一切人类代码。现实果真如此吗？纽约大学数据科学教授Andrea Jones-RooyJuly不同意这种说法。因为数据并不是客观的现实，它也是由人来定义的，会存在各种偏差。所以我们需要仔细甄别，周全考虑。原文标题是：I’m a data scientist who is skeptical about data

几千年来，我们一直都在靠轶事、直觉以及老太太的故事来做为我们观点的证据，今天我们大多数人都要求大家要用数据来支持自己的论点和想法。无论是治愈癌症，解决职场的不平等，还是赢得选举，数据现在都被认为是罗塞塔石，几乎可以破译人类所有现存的代码。

但在这一片狂热当中，我们已经将数据与真相混为一谈。这种认知，对我们理解、解释以及改进我们所关心的事物的能力，会产生危险的影响。

我这么讲对自己是有风险的。我是纽约大学数据科学教授和企业的社会科学顾问，我为他们进行定量研究，帮助他们理解和改进多样性。我靠数据谋生，但我却总发现不管我跟学生还是客户交谈时，我都要提醒他们数据其实并不是现实的完美体现：数据这东西基本上是人类的杜撰，因此会受制于偏见和局限，以及其他随之而来的不完美。

这种误解最清晰的表现是从会议室到教室都能听到的问题，当好心人试图弄清楚棘手问题的真相时：

“数据是怎么说的？”

数据什么都没说。说话的是人类。他们说的是数据当中他们注意到的或者要寻找的东西，数据从一开始之所以存在，是因为人类选择去收集它们，并且利用率人类制造的工具去收集数据。

数据说明不了问题的任何东西，它的作用不会大过可以造房子的锤子或者做马卡龙的杏仁粉。数据是发现的必要因素，但是你需要有人来选择它，塑造它，然后把它变成洞察。

因此，数据的有用程度只能跟它的质量以及掌握它的人的技能一样。（如果你曾经试过制作马卡龙就知道我说的了。我就试过。我们只能说那种数据肯定不符合法国糕点店的标准。）

因此，如果数据本身不能做任何事情或者说明不了任何东西的话，那数据是什么？

数据是什么？

在某个时间和地点，数据是这个世界某个方面不完美的相似物。（我知道，这个定义远不如我们所希望的那么性感。）这是当人们想要了解关于某个东西的一些东西，试图去测量它，然后以特定方式去组合这些测量值时的结果。

以下是我们会把不完美引入到数据当中的四种主要方法。

随机偏差

系统偏差

测量选择偏差

排除偏差

但是，这些错误并不意味着我们应该抛弃所有数据，意味着一切都是不可知的。而是意味着要深思熟虑地进行数据收集，问问我们自己可能错过了什么，并对收集更多数据表示欢迎。

这种观点不是反科学或反数据。相反，这两者的优势来自于清楚我们自身工作的局限性。意识到可能会出现的错误可令我们的推断更加强大。

首先是随机偏差。随机错误发生在当人类决定要去测量某些东西之时，由于设备损坏或他们自己的错误，导致记录的数据是错误的。其形式可以是将温度计挂在墙上测量温度，或者用听诊器来计算心跳。如果温度计坏了，它可能无法告诉你正确的度数。听诊器可能没坏，但是计数的人可能会错过一次心跳。

随机错误会对我们的余生造成很大的影响（当我们没有勤勉地记录温度和心跳时），其形式之一是医疗筛检中的误报。例如，乳腺癌的误报意味着筛检结果说患有癌症，但其实没有。发生这种情况的可能原因有很多，其中大部分可归结为在将关于世界的事实（是否患有癌症）转化为数据（通过乳房X线照片和人得出数据）的过程中的失误。

这种错误造成的后果也是非常真实的。研究表明，误报可导致出现多年负面的心理健康的后果，哪怕患者的身体状况良好。从好的方面来说，对误报的恐惧也会导致对筛查更加小心谨慎（......这会进一步增加误报的可能性，算了不说了，这离题了）。

一般来说，只要我们的设备没坏并且我们努力做到了最好，我们希望这些错误在统计上是随机的，因此会随着时间的推移而慢慢被中和掉——尽管如果你的医疗筛查是错误之一的话，这并不算一个很大的安慰。

其次是系统偏差。系统误差是指这样一种可能性，即某些数据以牺牲其他数据为代价不断进入到你的数据集，从而可能导致你对世界做出错误的结论。这可能是由于许多不同的原因而导致的：你抽样谁，什么时候抽样，或者加入你的研究或填写你的调查的人是谁。

选择偏差就是一种常见的系统误差。比方说，用来自Twitter推文的数据来理解公众对特定问题的情绪如何，这种作法是有瑕疵的，因为我们大多数人都不会发推文——而且那些发推的人并不总是将自己的真实感受示于人。相反，来自Twitter的数据集就是：一种了解方式，通过它可以知道选择了参与到该特定平台的部分人跟世界分享了什么东西，仅此而已。

2016年的美国总统大选就是例子，一系列的系统误差可能导致了民意调查错误地偏向于希拉里·克林顿。人们很容易得出结论认为其实一切民意调查都是错误的——也许是，但跟我们平时想象的可能不一样。

有一种可能性是选民不太可能会报告说自己将投票给特朗普，因为大家认为这是不受欢迎的选择。我们称之为社会期望偏差。停下来思考一下这个问题很有帮助，因为如果我们事先对这种偏差更加警惕的话，我们可能就会将它植入到我们的模型里面，从而更好地预测选举结果。

令人遗憾的是，医学研究的系统偏差也到处可见：医学研究的对象往往是那些已经生病并且有手段找医生或者参加临床试验的人。作为克服这一缺点的办法之一，可穿戴技术的发展稍微令人有点兴奋。比方说，如果有Apple Watch的每个人都可以将他们的心率和每天的步数发送到云端，那么我们就会拥有更多的数据，而且偏差更小。但这可能也会引入一种全新的偏差：现在的数据有可能会偏向西方世界的富裕成员。

第三是选择测量内容选择偏差。当我们以为我们正在测一样东西，但事实上测的却是其他东西时就会发生这种情况。

有很多公司对想办法做出更客观的招聘和晋升决策都比较感兴趣，我跟他们有过合作。为此他们往往会求助于技术：我们如何给经理提供更多的数据，好让他们做出更好的决策？我们怎么才能应用正确的筛选条件来确保招聘人员能找到最优秀的人才？

但很少有人会停下来问一下自己在测量的数据是不是他们想要测量的东西。比方说，如果我们正在寻找顶尖的求职者，我们可能更青睐那些上名牌大学的人。但这可能并非衡量人才的手段，而是衡量社交网络成员不仅仅是衡量人才的标准，它可能只是衡量你是否具备某些社交网络成员资格的一种标准，这种资格能为某些人提供一系列“合适”的机会，让他们得以能进入一所优秀的大学。一个人的GPA成绩可能是衡量一个人选择自己能胜任的课程的能力很好手段，而他们的SAT成绩可能是他们父母在请私教方面的财力的一种可爱的表达。

企业以及我的学生对最前沿的方法论如此痴迷，以至于他们都忽略了一个更深层次的问题：为什么我们要用这种方式去衡量这个？还有没有可以更彻底去了解人的方式？而且，根据我们手上的数据，我们如何对过滤器进行调整才能减少这种偏差？

最后一个，是排除偏差。当数据集里面系统性地忽略了某个群体时就会发生这种情况，而这就会为进一步的排除创造出先例。

比方说，现在女性比男性更容易死于心脏病，这被认为主要是因为大多数心血管数据都是基于男性的，而男性经历的症状与女性的不同，从而导致诊断的不正确。

关于白人女性在美国竞选政治职位时的表现的数据目前有很多，但是有色人种的就不是很多，相对于竞选过程当中的白人女性，她们会面临着不同的偏差。在我们进行这些研究之前，我们就会试图从有关橙子的数据推断出苹果——但其结果要比一盆不均衡的水果沙拉要糟糕得多。

选择去研究一样东西还可以激励对该专题进行进一步的研究，这本身就是一种偏差。由于根据现有数据集做东西要比创建自己的数据集更容易，因此研究人员经常会围绕着某些主题展开研究——比如参与竞选的白人女性或男性的心血管健康——而牺牲了其他人。如果你反复多次如此这般，突然之间的男性就成了默认的心脏病研究对象，而白人女性就成了默认的政治参与研究对象。

其他的例子比比皆是。衡量“领导力”可能会激励大家在会议中表现得更加积极，从长远来看这会破坏沟通。给SAT中增加“逆境”分可能会怂恿父母搬到不同的社区，以便让他们的得分更高。

我看到这在多元化领域也产生了影响：DiversityInc等尝试苹果公司多样性的组织已经选择若干用来奖励公司的指标——比方说，“领导认可”的衡量标准是是否设有首席多元化官（Chief Diversity Officer）。为了给这个方框打勾，它可能会刺激一些并无任何实际用途的行为，比如任命一个没有实权的CDO。

为什么我们仍然需要相信数据

在反智主义、假新闻以及另类事实和伪科学横行的时代，我其实非常不愿意这么说。有时我感觉我们科学家几乎都没有坚持下去。但我相信数据和科学之所以有用，并不是因为它是完美的和完整的，而是因为我们认识到我们自身努力的局限性。就像我们想要用统计数据和算法对事情进行仔细分析一样，我们也需要仔细地收集数据。我们有多谦卑，对自身局限性的认识有多深，我们自己就有多强。

这并不意味着要抛弃数据。这意味着当我们的分析中包含有证据时，我们应该考虑影响其可靠性的偏差。我们不应该仅仅去问“它说明了什么？”而且还要问，“ 数据是谁收集的？他们是怎么做的？那些决定是如何影响结果的？”

我们需要去质疑数据，而不是仅仅因为我们已经把一个数字分配给某个东西，就假设那个东西突然之间就变成冰冷的真相。当你遇到一项研究或一个数据集时，我恳请你问问自己：这幅图中可能缺了什么？还有没有其他办法可以去考虑究竟发生了什么？这个特定的衡量手段包含了什么，排除了什么，激励了什么？

我们需要对数据考虑周全，因为我们正在开始关注统计数据，算法和隐私。只要数据被认为是冰冷、确切、绝对可靠的事实，对我们周围的世界，我们就有可能产生并且强化许多不准确的理解的风险。

原文链接：https://qz.com/1664575/is-data-science-legit/

译者：boxi。