首页科技快讯 “任务执行者”：AI浪潮下的人类劳作

“任务执行者”：AI浪潮下的人类劳作

来源：晰数塔互联网快讯时间：2023年07月16日 09:44

本文来自微信公众号：神经现实（ID：neureality），作者：Josh Dzieza，译者：ChatGPT&光影，编辑：宴梁，题图来源：视觉中国

从内罗毕的大学毕业几个月后，30岁的乔（化名）得到了一份标注员的工作。这是一份繁琐的工作，工作内容是处理用于训练人工智能的原始信息。AI是通过在大量数据中寻找模式来学习的，但首先这些数据需要由人类进行分类和标注。这涉及一支庞大的劳动力队伍，他们大多隐藏在机器的背后。乔的工作是为自动驾驶汽车进行影像标注，他需要逐帧识别各种拍摄角度下的全部车辆、行人、骑行者，以及驾驶员需要注意的所有事物。这是一项困难且重复的工作。一段几秒钟的影像需要8个小时来进行标注，而乔的报酬大约是10美元。

然后，在2019年，一个机会出现了：乔为一家迫切渴求标注员的新公司运行一个标注训练营，以此他可以赚取四倍于以往的收入。每两周，会有50个新人进入内罗毕的一座办公大楼开始他们的学徒期。对这项工作的需求似乎无穷无尽。他们被要求对镜子自拍照中的衣服进行分类，透过机器人吸尘器的眼睛判断它们所处的房间，以及在摩托车的雷达扫描图上画框。通常会有超过一半的学生坚持不到训练营结束。乔得体而委婉地解释说：“有些人不知道如何长时间待在一个地方。”他也承认：“这确实非常无聊。”

但这是一份工作，而当地的工作机会并不多。乔培养出了数百名毕业生。离开训练营之后，他们各自回到家，在卧室和厨房里独自工作，并被禁止向任何人透露他们正在做的事情。这实际上并不成问题，因为他们自己也很少清楚自己在做什么。

为自动驾驶汽车标记物体还是容易搞懂的，但对扭曲的对话片段进行分类，区分它们是机器人还是人说的，这是在做什么呢？又或者要求你上传一张面无表情盯着摄像头的照片，然后上传一张笑脸的照片，再然后上传一张戴着摩托车头盔的照片，这又是什么样的训练？每个项目都只是某个更大工序的一小部分，很难搞清它们实际在训练AI做什么。项目的名字里也没有任何线索：螃蟹生成、鲸鱼片段、林地陀螺、药箱香肠。这些都是给无逻辑的工作使用的无逻辑的项目代号。

而至于雇佣他们的公司，大多数标注员只知道它叫Remotasks，这是一个向任何懂英语的人提供工作的网站。像我采访的大多数标注员一样，乔在听到我的介绍后才知道，Remotasks实际上是一家名为Scale AI的公司下设的面向工人的子公司，而Scale AI是一家价值数十亿美元的硅谷数据供应商，其客户包括OpenAI和美国军方。Remotasks和Scale AI的网站都没有提到对方。

公众对语言模型，如OpenAI的聊天机器人ChatGPT的讨论，主要集中于它们可能会使之实现自动化的所有工作。但即使是最令人印象深刻的AI系统背后，也有人，而且是大量的人在标注数据以训练它，并在它混乱时澄清数据。只有买得起此类数据的公司才能参与竞争，而那些得到这些数据的公司有很强的动力对其进行保密。结果就是，除了少数例外，我们对塑造这些AI系统行为的信息知之甚少，对那些塑造这些系统的人更是几乎一无所知。对于乔的学生们来说，他们所从事的是一份没有任何正常外在形式的工作：没有时间表，没有同事，对他们在做什么或为谁工作一无所知。

实际上，他们很少称之为工作——只是“任务”。他们是任务执行者。人类学家大卫·格雷伯（David Graeber）将没有意义或目标的工作定义为“狗屁工作”，这种工作本应被自动化，但由于官僚主义、社会地位或惰性的原因而没有自动化。这些AI的工作是其对立面：人们想要自动化的工作，并且经常认为其已经实现自动化，但实际仍然需要人类的参与。这些工作有其目的，只是工作者常常不知道它是什么。

当前人工智能繁荣发展。聊天机器人听起来几乎就像人类，人们只需通过简单的提示就能让AI生成艺术作品，这些技术背后的公司则有着高达数十亿美元的估值。而这一切，都始于一项前所未有的乏味且重复的劳动壮举。

2007年，人工智能研究员、当时在普林斯顿大学任教的李飞飞，怀疑改进图像识别神经网络（一种已经停滞多年的机器学习方法）的关键是用更多的数据进行训练——要有数百万个经过标注的图像，而不是几万个。问题是，她的本科生团队需要几十年的时间和数百万美元的资金来标注那么多的照片。

李飞飞在亚马逊的众包平台Mechanical Turk上找到了数千名工人，以低廉的价格雇佣他们在世界各地完成小的任务。最终得到的标注数据集（名为ImageNet）使得机器学习取得了突破性的进展，重新激活了这个领域，并带来了接下来十年的发展。

标注依然是制作AI的基础部分，但工程师们时常视其为一个暂时而不便的先决条件，它所通向的是搭建模型这一更为夺目的工作。你尽可能便宜地获取最多标注数据来训练模型，理论上，如果模型有效，你就再也不需要标注员了。然而，标注工作从未真正结束。就像研究人员所说的那样，机器学习系统是“脆弱的”，它无法应付在训练数据中没有被很好表示的事物。

这些被称为“边缘情况”的失败，可能会带来严重的后果。2018年，一辆Uber的自动驾驶测试车撞死了一名女性。因为虽然该自动驾驶系统的程序设计要求它避开骑自行车的人和行人，但它却不知道如何对待推着自行车走在街上的人。越多的人工智能系统被投入世界，去给人们提供法律咨询和医疗帮助，它们就会遇到越多的边缘情况，也就需要更多的人去处理这些情况。这已经催生了一个全球性的行业，在其中，像乔这样的人会利用他们独特的人类能力来帮助机器。

一

在过去的六个月里，我与全球二十多名标注员交谈过。虽然他们中的很多人在训练最前沿的聊天机器人，但这些人在做的是维持AI运行所需的频繁手工劳动。有人在对TikTok视频的情感内容进行分类，有人在辨认垃圾电子邮件的新变体，还有人在对在线广告的性挑逗度做精确的判定。其他一些人则在查看信用卡交易，推断它们与哪种购买行为相关，或者检查电商平台的推荐，判断那件衬衫是否真的是你在购买了其他衬衫后可能会喜欢的。人们正在纠正客服聊天机器人，监听Alexa收到的请求，对视频通话中的人的情绪进行分类。他们在标注食物，以便智能冰箱不会因为新包装而搞混；他们在检查智能安全摄像头，然后发出警报；他们还在帮助一头雾水的自动化拖拉机识别玉米。

“全球有一条完整的供应链，”非营利性组织Partnership on AI的项目和研究负责人索纳姆·金达尔（Sonam Jindal）说，“业界的普遍认识是，这项工作并非开发的关键部分，也不会长久需要。所有的激动人心都是关于构建人工智能，一旦我们建成了，就再也不需要这项工作，那为什么还要考虑它呢？但它是AI的基础设施。人类的智能是人工智能的根本，我们需要将这些工作视为AI经济中的真实工作，它们将会伴随我们很长一段时间。”

OpenAI、谷歌、微软等耳熟能详的名字背后的数据供应商有着不同的形式。有的是私人外包公司，他们设有像呼叫中心一样的办公室，比如把公司开在肯尼亚和尼泊尔的CloudFactory。乔在转到Remotasks之前就在那里以1.20美元的时薪进行标注工作。也有像Mechanical Turk和Clickworker这样的“众包”网站，任何人都可以注册完成任务。

介于这两者之间的是Scale AI一类的服务商。任何人都可以注册，但是每个人都必须接受培训，通过资格考试，并接受绩效监控。标注是一项大生意。2016年创立的Scale AI，到2021年已估值73亿美元，创立公司时仅19岁的亚历山大·王Alexandr Wang因此被福布斯称为“最年轻的白手起家的亿万富翁”，尽管该杂志在最近一篇专题报道中指出，自那时起他在二级市场的股份已经下跌。

这个错综复杂的供应链被刻意设计得难以厘清。根据业内人士的说法，购买数据的公司要求严格保密。（这也是Scale AI解释为什么Remotasks有不同名称时给出的理由。）标注工作会泄露太多关于正在开发的系统的信息，而且大量的工作人员导致秘密的泄露很难防止。标注员被反复警告不要向任何人，甚至包括他们的朋友和同事透露他们的工作，除了公司别名、项目代号。而且关键的是，极其分散的劳动使得他们即使想要谈论，也没有足够的信息。（大多数工作人员要求使用化名，以免被从平台上除名。）

因此，对于从事标注工作的人数并没有准确的估计，但我们知道这是一个庞大的群体，并且还在不断扩大。近期一篇谷歌研究院论文给出的数量级是“数以百万计”，且可能最终将发展到“数以十亿计”。

自动化进程常常以出人意料的方式展开。医疗数据标注公司Centaur Labs的首席执行官埃里克·杜海姆（Erik Duhaime）回忆起几年前，一些杰出的机器学习工程师预测AI会让放射科医生的工作变得多余。然而，这个预测没有成真，于是人们普遍的看法转变为，放射科医生会将AI作为工具使用。这些观点都与他所看到的现象略有出入。

杜海姆表示，AI在特定任务上的表现非常出色，这使得工作被分解并分配给专门的算法和专门的人。他举了一个假设的例子。一个AI系统可能能够发现癌症，但只能在某种特定类型的设备产生的某种特定类型的图像中。因此，你现在需要一个人来检查AI是否被提供了正确类型的数据，或许还需要另一个人来检查它的工作成果，然后把结果传递给另一个编写报告的AI，然后报告又被传给另一个人，等等。“AI并未取代工作，”他说，“但它的确改变了工作的组织方式。”

如果你觉得AI是一台灵活的思考机器，你可能会看不到这一点。但是，只要你稍微拉开一点帷幕，你就会发现它看起来更为熟悉。这是硅谷特有的新一代劳动力分配方式。在其中，新科技的未来主义光环掩盖了庞大的制造机构和让它运转的人们。杜海姆深入对比历史中的相似情形，认为这是数字时代的一次工匠向工业制造的转变：原本内在连贯的单一生产过程被拆分成一个个任务，并按照生产线的顺序排列，其中一些步骤由机器完成，另一些步骤由人类完成，但其工作方式都发生了变化。

人们会担心AI带来的颠覆，对此经常有一种反驳的论点，即AI自动化的是任务，而非工作，而这些任务会是一些枯燥无味的事情，人们于是可以有更多时间去追求更有成就感和更加人性化的工作。但同样可能的是，AI的崛起会像过去一些节省劳动力的技术的情形。比如可能会像电话或打字机，它们虽然消灭了传递消息和手写这样的繁重任务，但新兴的通信、商务和文书工作却带来了新的需求，需要新类型的工作人员，如文员、会计、打字员来处理这些工作。当AI来取代你的工作，你可能并不会失去工作，但你的工作可能会变得更加陌生，更加孤立，更加枯燥。

今年早些时候，我注册了Scale AI的Remotasks。流程很简明。在输入了我的计算机配置、互联网速度和一些基本联系信息之后，我发现自己进入了“培训中心”的页面。想要接触到有偿任务，我首先需要完成一个相关的（无偿的）入门课程。

培训中心中有一系列名字晦涩的课程，比如胶水游泳衣、海报坚果树。我点击了一个叫做“GFD 断句”的东西，发现它在教你如何标注社交媒体照片中的服装。

然而，其中的指示却很奇怪。首先，它们基本上是一些重复的指示，其怪异的颜色和某些大写字母的排版方式让人联想到那些拼贴的炸弹威胁信。“对于真实的、能被人穿戴或本来就打算让人穿戴的物品，务必要进行标注。”指示中写道。“

所有以下物品都应被标注，因为它们是真实的，并且可以被现实生活中的人穿戴”，这条指示在Air Jordans的广告图片、有人头戴Kylo Ren头盔的图片，以及假人模特穿着连衣裙的图片上面一再重复。上面有一个酸橙绿色的框再次解释：“务必标注真实的、能被真实的人穿戴的物品。”

Remotasks的服装标注指示。

—The Verge

我浏览到手册的底部，发现了一条大号鲜红字体的指示，它仿佛在握住你的肩膀猛烈地摇晃你：“下面的物品不应被标注，因为人们无法真正穿上这些物品！”该指示上面的照片内容是C-3PO、《阿拉丁神灯》中的茉莉公主，以及一只有眼睛的卡通鞋子。

我对自己分辨能被真人穿上的真实衣物和不能被真人穿上的非真实衣物的能力充满信心，于是我开始了测试。马上我就遭到了一种本体论式的狡猾攻击：一张女性穿着连衣裙的杂志照片。服装的照片是真实的服装吗？我原以为，人类不能穿着一张服装的照片，所以答案是不。然而，错误！在AI的视角中，真实服装的照片就是真实的服装。接着出现了一张女子在昏暗的卧室里对着全身镜自拍的照片。她穿着的上衣和短裤是真实的。那么它们的倒影呢？也是真实的！真实服装的倒影也是真实的服装。

经过令人尴尬的大量试错，我终于进入到实际的工作环节。此时我却惊恐地发现，那些我一直努力理解的指示已经被大量更新和细化，现在已经变成了整整43页的指令：不要标注装满衣服的打开的行李箱；要标注鞋子但不要标注脚蹼；要标注紧身裤但不要标注打底裤；不要标注毛巾，哪怕它被穿在身上；要标注戏服，但不要标注盔甲。如此等等。

德国魏岑鲍姆研究所（Weizenbaum Institute）的研究员米拉格罗斯·米切利（Milagros Miceli）称，行业内普遍存在指令混乱的情况。这在一定程度上是机器学习系统的学习方式导致的。人类只需几个例子就能理解“衬衫”的概念，而机器学习程序需要数千个例子，而且这些例子需要严格遵循一致的分类，同时又足够多样化（比如当中要有Polo衬衫、户外穿着的衬衫、挂在架子上的衬衫），以便这个只能教一个学一个的系统能处理现实世界的多样性。“想象一下，你要把复杂的现实简化，让一个呆笨至极的机器可以理解。”她说。

二

为机器简化现实的行为，却让人类的工作变得繁复。编写指示的人必须制定规则，让人类以完全一致的方式进行分类工作。为此，他们经常创造出人类不会使用的分类。如果让一个人标注照片中的所有衬衫，他可能不会标注镜子中的衬衫，因为他知道那只是反射，并不真实。

然而在对世界没有丝毫认知的AI眼中，一切都只是像素的组合，二者完全等同。当一个数据集中，有些衬衫得到了标注，而另一些（被反射的）衬衫没有得到标注时，模型就无法正常工作。于是，工程师就返回供应商，更新指示：务必标注衬衫的反射图像。很快，你就会看到一个43页的指南，细则严谨，红字满篇。

“在你一开始工作时，规则相对简单，”一位因保密协议而要求匿名的Scale AI前员工说，“然后他们收到了一千张返回的图片，他们说，‘等一下’，接着好多工程师开始互相争论。这很大程度上是人的事情。”

从事标注员的工作往往要放下人类的理解，非常、非常直接地遵循指示——就像一位标注员所说的，像一个机器人一样思考。这是一种奇怪的心理状态，尽最大努力遵循荒谬但严谨的规则，就像在迷幻药物的影响下参加标准化考试。

标注员无一例外都会遇到令人困惑的问题，比如，这是一件红底白条纹的衬衫，还是白底红条纹的衬衫？如果一只藤编碗装满了苹果，它算“装饰碗”吗？豹纹是什么颜色？当指示说要标注交通管制人员时，是否也要标注在人行道上吃午餐的交通管制人员？每个问题都必须回答，一个错误的猜测可能会导致你不被允许继续这项任务，并被分配到一个全新的任务中，而这个新任务又有着新的令人困惑的问题。

Remotasks上的大部分工作是按件支付的，一个任务的收入从几分钱到几美元不等。因为完全任务可能只需几秒钟，也可能需要几个小时，所以工资难以预测。当Remotasks刚开始进入肯尼亚时，标注员表示，它的薪酬相对较高——根据任务的不同，平均每小时大约5到10美元。但随着时间的推移，这个数额在降低。

Scale AI的发言人安娜·弗兰科（Anna Franko）表示，公司中的经济学家会分析项目的具体情况、所需技能、地域生活成本及其他要素，“以确保报酬是公平且有竞争力的”。Scale AI的前员工也称其薪酬遵循一种类似动态定价的机制，会随着标注员的供给量及数据需求的迫切度而调整。

根据我与工人们的谈话以及招聘启事，坐标在美国的Remotasks标注员时薪为10至25美元，而精通某些领域的人可望获得更高收益。截至今年年初，我所咨询的肯尼亚标注员的时薪已跌至1至3美元。

这是在他们有钱赚的时候。关于Remotasks的工作，最常见的牢骚便是其多变性。虽然它足够稳定成为一个长期的全职工作，但又过于不可预测而无法提供安全感。标注员花费数小时阅读指示，完成无偿培训，只为完成十几个任务，然后项目就告终结。接下来可能连日无新任务，然后毫无预兆地，一个完全不同的任务出现了，它可能持续几个小时至数周。任何任务都可能是他们的最后一项任务，他们永远不知道下一项任务何时来临。

根据工程师和数据供应商的说法，这种繁荣与萧条的市场需求周期是由AI的开发节奏造成的。培训一个大型模型需要大量的标注，之后是更多的迭代更新，工程师们希望尽快完成这一切，以便赶上他们的目标发布日期。可能在几个月的时间里，市场对标注员的需求是几千名，然后只需要几百名，接着只需要几十名某种类型的专家，然后又是数千名。“问题是，谁为这些波动付出代价？”Partnership on AI的金达尔说，“因为现在，是工人在承受。”

三

为了顺利完成任务，标注者联手同行。维克多（Victor），一位在内罗毕的大学里开始为Remotasks工作的人，听到我在标注交通管制人员的任务中所遇到的困扰时告诉我，所有人都知道要避开那个任务：太棘手，报酬太低，不值得。就像很多标注者一样，维克多使用非正式的WhatsApp群组，在好的任务出现时广而告之。当他摸索出完成新任务的方法时，他会发起临时的Google会议，向他人展示这一方法。任何人都可以加入，并一同工作一段时间，分享技巧。“我们培养出了互助的文化，因为我们知道，靠一个人的力量无法掌握所有的诀窍。”他说。

由于工作总是无预警地出现和消失，任务执行者总是需要保持警觉。维克多发现，项目通常在深夜冒出来，所以他养成了每隔三个小时左右就醒来检查任务队列的习惯。当有任务出现时，他会尽可能长时间保持清醒来工作。有一次，维克多连续36个小时没有睡觉，给一些拍摄人群的照片标注肘部、膝部和头部——他都不知道为什么要做这些。还有一次，他熬夜太久，母亲问他眼睛出了什么问题。他照镜子才发现眼睛肿了。

标注者通常只知道他们正在为不知在哪里的公司训练AI，但有时候，遮挡的面纱会掉落——指示中提到了品牌，或者聊天机器人透露了太多。“我读完后，Google了一下，发现我正在为一个25岁的亿万富翁工作。”一位工人说。当我们交谈时，他正在给点了达美乐披萨的人的情绪做标注。“如果我把某人变成了亿万富翁，而我每周只挣几块钱，我真的是在这里浪费我的生命。”

维克多自称是AI的“狂热爱好者”，他开始标注工作就是因为他希望能帮助实现一个完全自动化的后工作时代。但是今年早些时候，有人在他的WhatsApp群组里分享了一篇《时代》杂志的文章。文章说有些工人正在训练ChatGPT识别有害内容，但是供应商Sama AI支付他们的时薪低于2美元。“人们愤怒于这些公司赚取如此多的利润，却付给我们如此微薄的工资。”维克多说。在我告知后，他才知道Remotasks与Scale AI的关联。他从事的一项任务的指示几乎与OpenAI使用的指示相同，这意味着他可能也在以3美元的时薪训练ChatGPT。

“我记得有人在网络上发帖说，将来我们会被人们铭记。”他说。“又有人回应说，‘我们比步兵还要受虐。未来没人会记得我们。’这句话我记得特别清楚。我们的工作，我们的努力，无人能认识，无人会记得。”

识别衣物、标记客服对话，只是现有标注工作中的一部分种类。近来，市场上最火爆的岗位是聊天机器人的训练师。因为这项工作需要特定的专业知识或语言流利，并且工资通常会根据地区进行调整，所以这个工作往往薪酬更高。特定类型的专业标注者可以赚取每小时50美元甚至更高。

安娜（化名）当时在德克萨斯州寻找工作，无意间发现了一个在线工作的通用列表，并提交了申请。这是Remotasks。通过了入门考试后，她被引入了一个有1500人的Slack聊天室，他们正在为一个代号为“Dolphin”的项目进行训练。她后来发现这其实就是Google DeepMind的聊天机器人Sparrow，它是与ChatGPT竞争的众多机器人之一。她的工作就是一整天与它对话。她说：“每小时14美元的工资，做的多还有奖金，这肯定比在当地的Dollar General商店每小时赚10美元强多了。”

另外，她也真的很享受这份工作。她曾与机器人讨论过科幻小说、数学悖论、儿童谜语和电视节目。有时，机器人的回答让她发笑。有时，她又找不出要说什么。“有些日子，我的大脑就像，我实在是不知道现在应该问它什么了，”她说，“所以我手头有一个小本子，我已经写了大约两页的内容——就是在网上搜了一些有趣的主题——我想，今天我应该能对付得了七个小时的工作，不过，情况并非总是如此。”

每次安娜给出提示指令，Sparrow都会提供两种回应，然后她选择最好的那个，由此生成了所谓的“人类反馈数据”。当ChatGPT于去年底首次亮相时，人们认为其令人印象深刻的自然对话风格，应归功于大量的网络数据训练。但是，训练ChatGPT及其竞争者的语料，经过了多轮人工标注的过滤。一群承包商会编写一些样例，以说明工程师希望机器人如何回应。这些样例是成对的形式：问题后紧跟正确答案；对电脑程序的描述后紧跟功能代码；犯罪咨询后紧跟礼貌的拒绝。在这些样例上训练模型后，又会引入更多的承包商，继续给模型提示，并对其回应进行等级排序。这就是安娜正在对Sparrow做的事情。

评级人员所要遵循的具体标准会有所不同，可能是诚实，或是有帮助，或者只是个人喜好。关键在于他们正在生成人类品味的数据，一旦有足够的数据，工程师们就可以训练出第二个模型，它将大规模地模拟人类标注员的喜好，自动化排序过程，并被用来训练AI以人类赞同的方式行事。结果我们得到了一个看起来非常像人的机器人，它在大多数情况下会拒绝有害的请求，并在解释自身的AI本质时看上去就好像有自我意识一样。

换句话说，ChatGPT之所以看起来像人，是因为它是由模仿人类标注员的AI训练出来的。人类标注员所训练的AI也在模仿人类，这些人类假装自己是基于人类写作材料被训练出来的AI的进阶版本。

这一路线曲折的技术被称为“通过人类反馈进行强化学习”（RLHF），其效果如此显著，以至于我们需要暂停一下来充分理解它的局限性。例如，当标注员教模型怎样是准确的时，该模型并未学习如何以逻辑或外部信息校验答案，甚至不会学习“准确”这一概念到底是什么。模型仍旧是一台模仿人类写作模式的文本预测机器，只不过现在其训练语料库已增加了定制的样例，且模型被调整以偏好这些样例。也许会出现这样的情况：模型从其语言图谱中标记为准确的部分中提取模式，其生成的文本刚好与事实相符。但也可能出现这样的情况：模型模仿准确文本中自信的风格和专业术语，却写出完全错误的内容。没有任何保证说标注者标记为准确的文本事实上就是准确的，而且即使它是，也无法保证模型从中学到正确的模式。

这一动态发展过程使得聊天机器人的标注过程变得非常精细。它必须严谨一致，因为粗糙的反馈，如将仅看起来正确的材料标记为准确的，可能会将模型训练成更具说服力的胡说八道者。OpenAI和DeepMind的一项早期联合项目使用了RLHF（通过人类反馈进行强化学习），以训练一只虚拟的机器人手臂抓取物品，结果它同时还学会了将手放在物体和评级人员之间晃动，这样它只是在人类监督者那里看起来抓住了物品。对一个语言模型的回答进行评级总会有些主观，因为这涉及语言。任何长度的文本都会有多个元素，它们可能正确，可能错误，或者文本整体具有误导性。OpenAI的研究人员在另一篇研究RLHF的早期论文*中遇到了这个困难。研究人员试图让模型总结文本，最终发现他们只有60%的时间同意一个总结是好的。“与机器学习中的许多任务不同，我们的问询没有明确的基于客观事实的答案。”他们感叹道。

当安娜评估Sparrow的回应时，她需仔细注意其准确性、有用性和无害性，同时确认这个模型没有给出医疗或财务建议，没有将自身拟人化，也没有触犯其他准则。为了成为有效的训练数据，模型的回答必须在可量化的意义上得到排序：一个会告诉你如何制作炸弹的机器人，以及一个因太过无害而拒答任何问题的机器人，哪一个“更好”？

在一篇DeepMind的论文中，当Sparrow的制造者轮流进行标注时，四位研究人员激烈地争论起他们的机器人是否对一位向它寻求恋爱建议的用户进行了性别假设。据DeepMind的研究科学家杰弗里·欧文（Geoffrey Irving）说，公司的研究人员每周会开展标注会议，他们在会上重新评价数据并讨论模棱两可的案例。当遇到尤其棘手的案例时，他们会咨询伦理或主题专家。

四

安娜经常发现自己必须在两个糟糕的选择中做出决定。“即使它们都绝对错误，错到可笑，你仍然需要弄清哪个更好，然后写下你的理由。”她说道。有时，当两个回应都很糟糕时，她被鼓励自己写出更好的回应，她大概有一半的时间会这么做。

因为反馈数据难以收集，所以它的价格较高。根据了解行业的人士，像安娜正在生产的这种基本偏好的类型大约为每条1美元。但是，如果你想训练一个模型进行法律研究，你需要一个有法律训练的人，这会变得昂贵。每个参与者都不愿透露他们花了多少钱，但通常来说，专业的书面示例可以要价几百美元，而请专业人士评级可能要花费50美元或更多。有一位工程师告诉我，他花高达300美元买了一段苏格拉底式对话的示例。另一人告诉我，他花15美元买了一首“关于金鱼的黑色幽默的五行诗”。

OpenAI、微软、Meta以及Anthropic对于有多少人为其模型提供标注，他们获得了多少薪酬，以及这些人分布在世界哪些地区等问题均未发表评论。DeepMind（Google子公司）的欧文表示，为Sparrow工作的标注者的薪酬至少达到了能在其所在地“维持生活的时薪”。安娜对Remotasks“一无所知”，但Sparrow的情况相对更为公开。于是她从正在训练的AI那里获取信息。

安娜并不是个例，很多跟我交谈过的标注者从AI那里获取的信息，甚至比从雇主那里得到的更多。有几个人通过询问AI所在公司的服务条款，了解了他们为谁工作。安娜说：“我直接问它，‘你的目的是什么，Sparrow?’”它提供了指向DeepMind网站的链接，并解释说它是一种AI助手，其创造者使用RLHF进行训练，以使其有助于人类并保证其安全性。

直到最近，辨认出语言模型的糟糕输出还是一件相对容易的事，那些输出看起来就像胡言乱语。但随着模型的改进，这个问题变得越来越难——这就是所谓的“可扩展监督”（scalable oversight）问题。Google在其AI助手Bard的首秀上无意中展示了现代语言模型中的错误有多难被发现，当时Bard犯了一个错误，它自信地宣称詹姆斯·韦伯太空望远镜“拍摄了首张在我们太阳系之外的行星的照片”——这是错误的。这样的发展轨迹意味着，标注越来越需要特定的技能和专业知识。

去年，刘易斯（化名）在Mechanical Turk上完成一项任务后收到了一条消息，他被邀请申请一个从未听说过的平台。这个平台叫做Taskup.ai，其网站异常简洁，只有一个深蓝色的背景，上面的文字写道：“按需完成任务并获得报酬。”他提交了申请。

这份工作的报酬比他之前尝试过的任何工作都要好，时薪通常约为30美元。这份工作也更具挑战性。他需要精心设计复杂的场景，诱导聊天机器人给出危险的建议，以考验模型保持角色设定的能力。他也会探讨科学话题，这些话题深奥到需要做大量的研究。刘易斯觉得这份工作“令人满足且振奋”。他在检查一个模型尝试用Python编程的过程中，也在不断学习。他不敢连续工作超过四个小时，以免心力耗竭，犯下错误，而他希望保住这份工作。

“如果有一件事是我可以改变的，那我希望能了解更多关于工作另一端的情况，”他说，“我们只知道完成工作所需的信息，但如果我能知道更多，那我或许能做得更好，并考虑将此作为一种职业。”

除了刘易斯，我还与其他八位类似的工作者交谈过。他们大多都在美国。他们也是在一些平台上填写了调查问卷，或完成了任务后，被Taskup.ai或其他几个类似的通用网站，如DataAnnotation.tech或Gethybrid.io招募过来。他们的工作通常是训练聊天机器人，不过相比他们之前在其他网站的工作，新工作要求更高的质量，训练目的也更加特殊和专业。有一个人的任务是演示电子表格中宏的操作，另一个人只需进行对话并根据她想要的任何标准来评估回应。她经常问聊天机器人一些她七岁的女儿在谈话中提出的问题，比如“什么是最大的恐龙？”和“写一个关于老虎的故事”。“我还没有完全理解他们想要用它做什么。”她对我说。

Taskup.ai、DataAnnotation.tech和Gethybrid.io似乎归同一家公司所有：Surge AI。其首席执行官埃德温·陈（Edwin Chen）并未证实也未否认这一联系，但他愿意谈论他的公司以及他如何看待标注工作的发展。

“我一直觉得标注领域过于简单化。”Surge AI办公室里的陈在视频电话中说道。他在Google、Facebook和Twitter做过AI相关的工作，之后于2020年创办了Surge AI，因为他确信众包的标注工作是不够的。“我们希望AI能讲笑话，能撰写出色的市场营销文案，或者在我需要治疗或其他什么的时候能帮助我，”陈说，“你不能要求五个人分别想一个笑话，然后将它们组合成一个主流答案。并非所有人都能讲笑话或解决Python编程问题。这种低质量、低技能的标注观念需要变得更丰富，要能够抓取那些我们希望AI系统拥有的人类技能、创造力和价值观。”

去年，Surge AI重新标注了谷歌对Reddit帖子的情绪分类数据集。之前，谷歌曾将每条发言从上下文中剥离，并将它们送给印度的工作人员进行标注。熟悉美国互联网文化的Surge AI员工发现，30%的标注都是错误的。像“hell yeah my brother”这样的帖子被归入烦恼的类别，“Yay， cold McDonald’s. My favorite”被归入喜爱的类别。

Surge AI声称会对其工作人员进行资质审查，例如，做创意写作任务的人要有创意写作经验。但陈表示，Surge AI找到工作人员的具体方式是“独有且保密的”。就像Remotasks一样，工作人员通常需要完成培训课程，但与Remotasks不同的是，根据我与标注者的交谈，他们是有报酬的。陈说，拥有数量较少、训练有素的工人，同时产生更高质量的数据，这使Surge AI能够比其他同行提供更好的报酬。但他拒绝进一步的说明，只说人们得到了“公平和合乎道德的工资”。我采访的工人每小时的收入在15到30美元之间，但他们只是所有标注者中的一小部分，陈说，现在这个群体已经有10万人。他解释说，这种保密是由于客户对保密性的要求。

Surge AI的客户包括OpenAI、谷歌、微软、Meta和Anthropic。Surge AI擅长反馈和语言标注，ChatGPT推出后，它收到了大量的请求。陈说：“我原以为每个人都知道RLHF的力量，但我猜人们并没有从内心深处理解它。”

新的模型非常令人印象深刻，它们激发了另一轮预测，即标注即将实现自动化。考虑到涉及的成本，需要标注的公司有很大的财务压力来实现这一点。Anthropic、Meta以及其他公司，近期在利用AI大幅减少指导模型所需的人工标注方面取得了一定的突破，其他开发者也开始使用GPT-4生成训练数据。然而，近期的一篇论文发现，GPT-4训练出来的模型可能学会了模仿GPT的权威式风格，但准确性反而有所下降。此外，尽管人工智能的提升使得某种形式的标注变得过时，但对更复杂类型的标注的需求反而上升。这场争议在今年初被推向公众视野，当时Scale AI公司的首席执行官亚历山大·王在推特上预测，人工智能实验室会像对待算力一样，在人类数据上投入大量资金。OpenAI的首席执行官萨姆·阿特曼（Sam Altman）回应说，随着人工智能的改进，对数据的需求将会下降。

五

陈对AI是否有一天可以无需人类反馈表示怀疑，但他确实看到，随着模型的改进，标注工作变得更加困难。像许多研究者一样，他认为将来的发展路径是人们会借助AI系统来监督其他AI。Surge AI最近与Anthropic进行了一项概念验证实验的合作。他们让人类标注员在不可靠的AI助手的帮助下回答长长的问题，其理论是，人类将不得不探究他们的AI助手的弱点，并协作推理出正确的答案。另一种可能的方式是让两个AI进行辩论，再由人类最终判定哪个是正确的。“我们还没看到这些方式真的被很好地实践，但它们开始变得必要，因为标注员越来越难跟上模型的发展了。” OpenAI的研究科学家约翰·舒尔曼（John Schulman）最近在伯克利的一次演讲中说道。

“我认为你总是需要一个人来监控AI正在做什么，因为它们就是这样一种外星人一样的存在。”陈说道。机器学习系统实在是太奇怪了，人们不能完全信任它。他还补充说，如今最令人叹为观止的那些模型，在人类看来都有些诡异的弱点。例如，GPT-4能够生成复杂而令人信服的文章，却无法区分出哪些词是形容词。“要不然就是模型变得非常优秀，在所有事物上都超越了人类。如果是这种情况，你就进入了乌托邦，谁会在意人类要不要监督AI这种事情呢？”

2022年末，乔开始听到他的学生反馈，他们的任务队列经常为空。然后，他收到一封电邮，告知他肯尼亚的培训营将要关闭。他继续在线培训工作者，但他开始担忧未来。“有迹象表明工作无法持久。”标注工作正在离开肯尼亚。他从网上认识的同事那里听说，任务正在转向尼泊尔、印度和菲律宾。“公司从一个地方转向另一个地方，”乔说，“他们在当地没有基础设施，因此他们可以灵活地转移到运营成本更低的地方。”

AI行业与手机和汽车制造商的一个不同之处在于其流动性。工作内容不断变化，工作不断被自动化，并被新类型的数据需求取代。这是一条生产线，但这条生产线可以被无限次且即时地重新配置，转移到拥有合适的技能、带宽和工资组合的任何地方。

最近，报酬最高的工作在美国。五月份，Scale AI开始在自己的网站上发布标注工作，寻求几乎所有在AI预计会征服的领域中经验丰富的人。招聘的专业AI训练者所属的领域包括：健康指导、人力资源、金融、经济、数据科学、编程、计算机科学、化学、生物、会计、税收、营养学、物理、旅游、K-12 教育、体育新闻和自助学习等。你可以以45美元的时薪教机器人法律，或者以25美元的时薪教它们诗歌。有些岗位在招聘通过安全审查的人，这很可能是为了帮助训练军用AI。Scale AI最近推出了一个名为Donovan的防御语言模型，亚历山大·王将其称为“AI战争中的弹药”，并借其赢得了军方机器人战车项目的合同。

安娜还在德克萨斯州培训聊天机器人。她的同事们变成了审查员和Slack管理员——她不清楚原因，但这给了她希望，这个兼职或许能成为一个长期的工作。她唯一不担心的就是自动化会让她失去工作。“我的意思是，它能做的事情令人惊讶，”她如此评价聊天机器人，“但它仍然会做一些真的很奇怪的事情。”

Remotasks首次来到肯尼亚时，乔认为标注会是一个好的职业。即使工作机会已经转移到其他地方，他仍决心将其变为他心中的好职业。他推断，内罗毕有数千人知道如何做这项工作——毕竟他培训过许多人。乔在市里租了个办公室，并开始寻找客户。他找到了一项为建筑公司标注蓝图的工作，又找到了一项为某农业项目标注被虫子咬坏的水果的工作，还有那些为自动驾驶汽车和电商做标注的常规工作。

但他发现自己的愿景难以实现。他现在只有一个全职员工，之前他有两个。“我们没有持续的工作流。”他说。有好几周的时间，因为客户仍在收集数据，所以他们没有任何事情可以做。而当客户完成数据收集，他必须引进短期合同工以满足客户的期限要求。“客户并不在乎我们是否有稳定的工作。只要数据集完成，一切就结束了。”

于是，一些工作者决定不让他们的技能被浪费，工作机会在哪里，他们就追去哪里。他们租用代理服务器来伪装他们的位置，购买假身份证以通过安全检查，假装自己是在新加坡、荷兰、密西西比或任何有任务的地方工作。这是一件冒险的事情。根据多位工作者的说法，Scale AI对于被发现伪装位置的账号变得越来越严厉。在其中一次打击行动中，我的账号被封禁，可能是因为我一直在使用VPN查看其他国家工作者页面的内容，我的全部1.50美元左右的收入都被冻结。

“现在我们变得有点狡猾，因为我们注意到在其他国家他们支付的薪酬很高”，维克多说，他在马来西亚做任务的收入是肯尼亚的两倍。“你得谨慎行事。”

另一位肯尼亚的标注员说，他的账号因莫名的原因被暂时封禁后，他决定不再按规则办事。现在，他有多个国家的多个账号，在报酬最高的地方做任务。他说，他工作迅速，在质检中得分很高，而这要感谢ChatGPT。他说，这个机器人很棒，让他能在几分钟内快速完成10美元的任务。我们交谈时，他正在让它根据七个不同的标准评估另一个聊天机器人的回应，用一个AI在训练另一个AI。

后记

安静虫：国内互联网公司也有类似的数据标注需求。它们会把一些简单的任务放在自己的众包平台上。我找到并下载了腾讯搜活帮。小红书的帖子显示，去年12月份腾讯搜活帮的月榜收入排名前三分别为8455，6897，5413元。但更多人的反馈是，培训考核的题目怎么也做不对，且审核时间久。工作数量也不稳定，比如我看的时候搜活帮只有两个任务。其中的视频快判任务（貌似是最简单的任务之一）中，一个价值300元宝的任务包有十个题目（每题包含1到2分钟的视频），需判断视频内容和评论是否合适。1000元宝兑换1元人民币。

这里多是大学生兼职，高于5k的月收入预计是熟手。这符合BOSS上的一般数据标注员的工资：2k~7k。有人反应搜活帮的任务越来越少，不清楚是因为任务的周期性，还是因为任务被外包给专业的标注公司了。

市面上也存在高要求的数据标注工作，比如一些AI数据标注师、语义分析师、语音标注专员，其薪资可达10k以上；更专业者、更有经验者薪酬更高。种种情况与本文所述没有太大差异。这确实是一个目前来看短期不会消失的行业。

原文：https://www.theverge.com/features/23764584/ai-artificial-intelligence-data-notation-labor-scale-surge-remotasks-openai-chatbots

本文来自微信公众号：神经现实（ID：neureality），作者：Josh Dzieza，译者：ChatGPT&光影，编辑：宴梁