首页专业知识周以真：信息伪造是数字社会的巨大挑战

周以真：信息伪造是数字社会的巨大挑战

来源：晰数塔互联网快讯时间：2019年12月27日 11:20

编者按：本文来自微信公众号“腾讯研究院”（ID：cyberlawrc），作者周以真，36氪经授权发布。

周以真：信息伪造是数字社会的巨大挑战

周以真教授是全球知名计算机科学家，现任哥伦比亚大学数据科学研究院主任、美国计算机协会（ACM，Association for Computing Machinery）会士，曾任微软全球资深副总裁。她对“计算思维”（Computational Thinking）简洁清晰的定义获得了计算科学界广泛的认可。同时，她也是数据向善（Data for Good）的积极倡导者。

近期就“科技向善”的主题接受腾讯研究院访谈时，周以真教授认为，科技向善的一大困难是，目前的数据科学家们大都没有接受过足够的伦理训练；而数字社会发展至今的一个巨大技术挑战是，伪造信息泛滥且难以根除，会侵蚀数字社会的信任基石。

腾讯研究院：您是数据向善的倡导者，您如何理解数据向善？

周以真：我认为数据向善有两层含义。一是通过数据来解决棘手的社会问题，比如气候变化、医疗健康、能源问题与社会公正。以数据为导向的研究在各个领域中都有很多，比如公共卫生学、生物学、气候科学、地球科学以及社会工作学等。所以如果这些领域可以运用其数据来解决社会问题，他们就是在践行“数据向善”。

第二，在运用数据时要对其负责，和我们使用技术一样。这就是算法偏见与公正问题的来源所在。我们希望在收集公民的数据时，保留用户权利并保障用户隐私，我们希望确保能够以负责任的方式来管理他人的数据。当我们分析数据时，我们希望保证我们对那些提供数据的人做出了公平的推断。

因此，当我提到数据向善时，我指的是数据要造福社会，并要通过负责、公平、道德和隐私保护的方式良好地使用数据。

腾讯研究院：当用数据造福社会与负责任地使用数据产生冲突时，您认为哪一个更加重要？

周以真：我认为两者并不会冲突，他们更多是互补的。实际上当冲突出现时，就不在我所提到的“数据向善”的两层含义之中了。第一层数据向善与解决重大的社会挑战有关，这些问题不能够依靠一个学科、一个人或者一个国家来解决。比如，气候变化就是个全球范围的问题。医疗也是如此：全世界每个人都可能得癌症，而不是某个国家的特例。如果我们能够理解癌症的机制并治疗癌症，就能造福所有人。

第二个含义是以负责任的方式使用数据，这是公平、道德和隐私发挥作用的地方，也是可能发生冲突的地方。人脸识别技术就是一个典型的例子：当这项技术被警方和执法部门善用，就可以帮助我们发现坏人和罪犯，这听起来是件好事。但这也可能是件坏事。受到环境、文化、政治和社会的影响，人脸识别技术也会被认为是侵犯隐私的。比如在欧洲，人们非常重视隐私，因此在他们应该不会愿意在公共场所引入人脸识别，这就是冲突所在。

技术本身是理智的，但我们使用技术的方法可以是“向善”或者“向恶”的，这是一种文化或一个社会对于善恶判断的价值体系。在一个国家被认为是好的东西，在其他国家可能不是；同样在某些国家被认为是恶的，在其他国家可能并不坏。因此，价值体系、社会规范、文化和社会都在定义什么是善、什么是恶中发挥了作用，对于任何技术都是如此。

腾讯研究院：如果我们要治疗癌症，并需要个人的信息来帮助我们的技术进步，我们需要在确保合理使用个人信息的前提下进一步开发技术。这是否意味着负责任地使用技术比技术发展本身更重要？

周以真：我认为我们不应该说哪一个更重要，这只是一个边缘的案例，它是建立在我们有隐私保护技术的基础之上的。例如，允许医院在不泄露患者信息的情况下共享患者数据。但当你不能发明一种技术来解决隐私保护问题时，就需要将政策、指导方针或实践付诸实施，并需要做出主观判断。无论是谁将指导这一过程，都是在权衡一件事是否比另一件事更重要或更好。这需要依靠主观判断来做出决定。

腾讯研究院：您在世界人工智能大会上提到了保护隐私、透明度，在我们的实际工作中，这些应该如何保证？

周以真：这取决于具体是哪一个属性。一些属性，比如公平，实际上是可以被形式化的。公平包含多个概念，每个概念都可以被形式化。一旦你可以形式化其中一个属性，那么理想状态下，你就会希望能自动地确定一个机器学习的模型或算法是否公平。

当我们谈及带有偏见的机器学习模型时，我认为重要的是要记住，偏见来源于我们用来训练模型的数据。你可以去修正模型，去收集更多数据，你可以做许多事情来使减少模型和决策系统的偏见。

当下，我们没有自动化的方式去检测我们的模型是否有偏见。我们只能为工程师提供指导，在不同的数据集中测试模型是否会做出带有偏见的决策。如果的确如此，你就需要修复模型或收集更多的训练数据集。这是我们现在能做的最好的了。目前我们最前沿的认知只是“认识到机器学习模型存在偏见”。好在我们现在已经意识到了这件事。下一步，我们要展开行动，且最理想的状态是通过自动化的方式。否则，就要依靠人类来完成这种乏味的修正模型偏见的工作。当然，我所谈及的这些都是研究要做的事。

还有一些属性是很难被形式化的，比如伦理。几个世纪以来，哲学家一直在讨论一些伦理问题，并且没有数学方程式可以采集伦理原则。伦理原则是定性判断，是社会规范和文化差异的表现。因此，指导一台机器去遵守伦理、判断一台机器或机器学习是否符合道德是很难的。

腾讯研究院：有哪些产品或服务，您认为是科技向善的好例子？又有哪些您认为是负面例子？

周以真：比如，有很多项目试图通过数据来了解癌症并治疗患者，或者通过数据了解气候变化。因此，就数据向善的第一个概念而言，有无数的例子。因为每个学科都有数据，每个学科都在使用数据试图解决问题。

腾讯研究院：践行科技向善，您觉得科技公司最应该做什么？

周以真：首先，需要确保客户的信任。科技公司在提供服务时，他们收集人们的许多数据，并用数据为人们提供服务。腾讯就是如此，从用户处收集大量数据，并运用这些数据为用户提供服务。

在此之上，最重要的是要让客户在提供个人信息时保持信任。当科技公司收集他们的数据时，应该要对用户负责，未经允许的情况下不能够分享这些数据。如果企业所在国有允许企业与他人分享数据的规定，企业在遵守规定的同时要知道，这件事最终关乎客户的信任问题。一旦科技企业使客户数据被不良使用或泄露，或让客户感到难堪，这对科技公司而言将会是一个恶性公关事件。

到那时，客户可能不愿再使用该公司的服务，这对于企业必然造成不利影响。因此，对科技企业而言，重要的是通过良好保管客户的数据来确保信任。这是企业和客户之间的一份契约，客户会期待科技企业以某种方式来对待他们和他们的数据，因此科技企业不能违反这份契约。

当科技企业想要改变条款时，需要告知客户。假设突然之间，企业决定与其他公司或者政府共享数据，企业最好告知用户这一决定，客户必须知道你是如何使用他们的数据的。

对科技企业的工程师而言，因为没有自动化的工具来判断一件事情是否是公平或者道德的，那么他们能做的最好的事就是拿出一套原则，包括对于工程师的指导方针。当工程师收集数据、存储数据、管理数据、分析数据、为客户提供产品或服务时，你可以将他们必须考虑的东西付诸实施。

对内，可以考虑建立一些审查流程，比如成立内部审查委员会。假设一家科技企业想要推出一个新的APP，且这个APP需要从特定人群中收集数据，那么工程师们应该接受审查委员会的审查，确保他们是通过适当的方式收集数据、正确存储数据，并实施了所有的安全和隐私保障措施。这样，只有需要访问数据的人才能获得权限。如果工程师正在构建机器学习模型，他们可以测试其是否存在偏差，因为指导方针会包含这样的规定。

因此，科技企业首先要做的是拿出一套原则，就如微软的六条原则一样。不同领域的科技企业可以根据自己的情况自行制定，也可以效仿其他领先公司的条款。这一套原则要包括对于工程师的指导方针，以及负责审计整个程序、确保工程师遵守指导方针的审查委员会。

腾讯研究院：对于科技企业而言，践行科技向善，您觉得最大的困难何在？

周以真：就科技向善而言，我认为目前最大的障碍是我们正在讨论的许多问题，比如公平、道德、透明度等等，都是工程师没有接受训练去思考的问题。作为一个计算机科学家，我上学的时候从来没有上过伦理学课。你知道，工程师通常不需要考虑伦理问题。当他们遇到问题，他们就解决问题。他们创造一些技术，他们解决问题，然后继续应对下一个问题。但现在，社会意识到数据可能会被用来做坏事。我认为最大的障碍是确保工程师对这些涉及公平、道德和隐私的问题保持敏感，但他们没有接受过此类训练。

对于目前最大的技术挑战，我有一个不同的答案：伪造信息变得非常容易。对此我还没有想到一个很好的解决办法。数字信息是非常容易被改变的，你只要改动一点，整个文件都会被更改。改变一条新闻、一个图像、一些信息……每个人都可以轻而易举地做到这件事，因为数字信息就像是电子，它只是一个很小的点，而不是一个物理制造的物体——要改变这类物体，你必须拿锤子敲击它或者将它重新包装。因此，数字信息非常容易改变和传播。数字技术与其他类型的技术有很大区别，而数字技术社会没有预料到的是，坏人利用这些特性来传播虚假信息有多么容易。

我们已经到了任何人可以写任何内容的时点，因此你在互联网上读到的内容总是可疑的。你不知道你读到内容是不是真的，你获得的信息是否是可信的——这就导致了社会对信息的不信任感。社会机构（比如媒体）、政府机构、银行以及科技企业都会遭受危机，因为任何事情都可能是假的。这就是为什么信任关系如此重要。如果客户相信一家科技企业，所以他们会对该企业提供的内容保持信任，尽管我们都知道破坏这种信任是很简单的。

这就是我认为对我们而言最严峻的技术挑战，并且我不知道有什么技术手段可以解决这个问题。因为这种攻击不是针对数据本身的，它针对的是载体目标，是我们的大脑和认知。那些试图通过假信息愚弄我们的人，实际上是在试图操纵我们对世界的理解。这不是单单依靠技术就可以解决的问题，我认为我们都应该意识到这个被我们所创造出来的问题有多么难以解决。当我们平息了某一处谣言，它会迅速在另一个地方出现，这种情况下我们如何才能制止谣言的传播？这个问题与我们之前谈到的人脸识别带来的冲突一样，需要依靠判断作出决定。

例如一家运营新闻业务的科技企业，可能会有一些新闻对特定人群造成伤害，或者它会被错误解读、煽动暴力，这种情况下要不要把这些新闻压下去？是不是会对言论自由造成影响？因此，这个冲突是很难解的。

腾讯研究院：您如何看待学界、业界、政府在科技向善中所扮演的不同角色？

周以真：我认为政府、学界与行业都在科学的进步与技术生态环境的创新中有各自的定位。学术界的角色是做长期的基础调研，提出那些我们可能未来10年、20年都不会遇到的问题，但这正是长期研究的意义所在。学术界还要培育训练下一代学生，他们将会成为未来的企业员工。

行业的角色在于采纳创意并将其扩展到产品和服务中，这些产品与服务将面向大众、社会和消费者。行业的角色不在于不断发展最先进的技术，这是学界需要研究的事，他们的重点在于通过创造产品与服务来造福社会、获得盈利。他们雇佣从高校毕业的学生，而政府的角色在于为基本研究提供资金。在高校中，只有拿到资金才能够为研究生、教职工支付工资，为实验室支付研究经费。通常来讲，这些经费来自于政府。

总的来看，这是一个良性循环，三者相互依赖、相互支持。学界培养出训练有素的人才，然后他们为业界工作；业界制造销往消费者的产品并获利，从而为员工支付工资。在学术界，要做研究就需要经费，这些钱通常来自于政府。政府的受益则在于，行业盈利后会向政府交税，这些税款则可以帮助政府为学术研究提供资金支持。

（以上内容为【科技向善 · 大咖说】精简版，完整版本请期待《科技向善白皮书2020》）