首页科技快讯大数据下一个十年将如何演进？

大数据下一个十年将如何演进？

来源：晰数塔互联网快讯时间：2019年11月12日 13:37

编者按：本文来自“InfoQ”（微信公众号ID：infoqchina），作者 Oleksii Kharkovyna，译者夏夜，36氪经授权发布。

当下我们生活在数据的时代里。机器学习和数据分析技术已经成为了我们当今生活密不可分的一部分。那接下来会怎样呢？

在这篇博客中，我不打算预测数据科学面对的未来是什么，不会去猜测它的未来是光明有前途，还是毫无希望。这里我只结合自己，还有我认识的一些人的经历，提供一些决定性因素帮忙做预测。

抛开这些，我先大致勾勒一下今后 10 年影响数据科学未来的关键因素。我希望它会在工作流程上带给你一些有价值的见解。不用多说，这只是我的个人预测。如果你感兴趣，请继续读下去！

01 数据科学的未来：我怎样看待？

1、更多的数据科学策略

数据科学就是通过定量的方式解决问题的一门学科。在过去，由于缺少数据或数据处理能力，我们只能依赖其它东西，比如“独裁者的突发奇想”、“专家的直觉”和“普遍的共识”等。今天，这些根本都不管用了，而且毫无疑问，10 年后它们的作用会更有限。数据科学家转而在搭建一些系统，这些系统可以输出语音、预测、给出期望并输出真正的结果。

数据科学技术的泡沫不会破裂，相反，数据驱动策略的引入将继续占据主流。更多的人会关注数据，从数据中获得真知灼见，所以数据科学团队成为任何成功组织机构，至少是大部分组织不可或缺的一部分，由此组织之间会竞争，渴望争得领域前沿的位置。

2、更多界定明确的角色

因此数据科学会更受欢迎，绝大多数顾客会更清楚数据科学家到底是做什么的。现在，数据科学家是一个宽泛的头衔。目前领域内的人使用相关名称和描述时有一些不严谨，所以外界对该领域中人的角色有很多困惑。

我们一般把数据科学领域的角色分成 4 类，它们角色职能不同但有重叠。

数据架构师——开发数据架构，以有效地捕获、整合、组织、中心化和维护数据。

数据分析师——处理和解释数据，为公司提供有执行意义的预测。

数据科学家——一旦数据体量和产生速率达到一定水平，需要复杂技术时，他们会对数据进行分析。

数据工程师——开发、测试和维护数据架构，保证随时使用和分析数据。

我认为随着时间推移，所有这些角色我们会更熟悉，我们也会更了解它们的不同点。因此，顾客会对什么可得什么不可得，有更切实际的期待，头脑中会有更清晰的工作流程，还有从中获得的收益。

3、更多的软技能需求

随着时间推移，我们会更清楚地看到，大量的数据科学家会熟练运用 Python 或 R 语言。但是，向管理层推销你的想法的能力，说服他们相信你的洞察和见解才值得追求的能力，这种能力会怎样？可视化描述可以承担一半工作，而另一半就是老旧的市场营销能力。结果，我们会看到市场更青睐那些知道如何围绕出售产品创造关键性对话的人。因此，那些能将硬软技能结合的人会永远吃香。

4、数据会更多，处理数据的人工智能也会更多

现在我们谈一些严肃的东西。每天我们产生的数据量多到难以想象，以我们现在的速度，每天产生数据量有 2.5 个 10 的 18 次方字节，而且这个速度只会加快。看一下 Raconteur 网站做出的每日关键数据信息图：

5 亿推特信息；

2940 亿电子邮件；

四千万亿字节的 Facebook 数据；

四万亿字节的单位车联网数据；

650 亿条 WhatsApp 信息；

50 亿条搜索信息；

到 2025 年，预计全球每天将产生 463 艾字节（463*10^18 字节）数据，相当于每天 212,765,957 张 DVD 的数据量！

实际上，仅靠数据科学家，无法管理和处理这么庞大的数据。届时，人工智能很可能成为协助数据科学家处理数据的有效工具。自动化数据分析工具和机器学习会“聪明”到取代数据科学家做例行工作，比如探索性数据分析、数据清理、统计建模和构建机器学习模型。

5、更少的代码，相当少的代码

据特斯拉 AI 总监 A. Karpathy 说，不久的将来，我们可以不用写代码了。我们只需要找到数据，并输入到机器学习系统即可。此种场景下，软件工程师的角色会成为“数据监管者”。未来大多数程序员都不再需要复杂的软件仓库，不用写复杂的程序。Karpathy 说，程序员会从事搜集、清理、操作、标记、分析数据以及对神经网络产生的数据进行可视化的工作。

机器学习正在引领一种新的计算范式，在该范式中训练机器才是关键技能。随着机器学习技术的普及，以及通过工具的抽象达到更高程度，我们会看到大部分编程工作会逐渐消失。最终，制造产品的大部分步骤将是屏幕上的拖拽、刷卡、指向和点击操作。从业者会从中解放出来，在解决问题时更有策略性和创造性。你在《星际迷航》中看到过有谁写计算机程序吗？没有。

诸如 R 语言、Python 和 Spark 这样的工具会变得无用武之地吗？大多数数据科学家不再需要通过写程序的方式做统计分析或训练机器学习模型了吗？没有这么简单。无论如何，把希望寄托于这些方面意义不大。你仍然需要理解和熟悉所有这些处理过程，机器学习只是辅助一些日常事务。

6、尽可能多地使用 API（应用程序接口）

大部分公司是先做好一件事情，攒到名气，然后以此起步，以开源 API 的形式贡献到社区。10 年后，大部分软件的制作方式会可见地接入到终端，最大程度地利用一切所需的服务生成解决方案。数据科学家能快速构建测试模型，一次建立和测试多种算法，最后和整个团队可视化验证结果。未来随着适时地引入深度的技术思考，科学家将不再白费力气做重复工作了。

7、自我学习

传统的学术环境将逐渐失去意义。信息经济需要能快速改变信息的途径。人们通过 3-4 年的学习毕业后，所学的技能已经过时。人们开始掌控自己的学习过程为自己赋能，未来得以生存的学院将是那些拥抱在线学习、快速更新课程授予方式的学院。未来的学习会基于你能构建什么而定义，而不是缺乏现实世界应用的基础原理。

Q1. 数据科学家是否会被自动化算法替代

根据广受欢迎的 CRISP-DM 数据分析项目的管理方法论，数据分析项目的实施分为 6 个阶段，每个阶段中，分析师或者数据科学家都是直接参与的：

业务理解

数据理解