本文是与The Verge的合作。
从内罗毕大学毕业几个月后,30岁的乔找到了一份注释员的工作——处理用于训练人工智能的原始信息的乏味工作。人工智能通过在大量数据中寻找模式来学习,但首先这些数据必须由人类进行分类和标记,而人类是隐藏在机器背后的庞大劳动力。在乔的案例中,他正在为自动驾驶汽车标记视频——一帧一帧地从每个可能的相机角度识别每辆车、行人、骑自行车的人,以及司机需要注意的任何东西。这是一项困难而重复的工作。一个几秒钟的片段需要8个小时来注释,乔为此得到了大约10美元的报酬。
然后,在2019年,一个机会出现了:乔可以为一家渴望标签师的新公司经营一个注释训练营,赚到四倍的钱。每隔两周,50名新员工就会排队进入内罗毕的一栋办公楼,开始他们的学徒生涯。对这项工作的需求似乎是无限的。他们将被要求对镜子自拍中看到的衣服进行分类,通过机器人吸尘器的眼睛来确定他们所在的房间,并在激光雷达扫描的摩托车周围画出正方形。乔的一半以上的学生通常在新兵训练营结束前就退学了。“有些人不知道如何长时间呆在一个地方,”他委婉地解释道。此外,他承认,“这很无聊。”
但在一个工作机会稀缺的地方,这是一份工作,乔培养了数百名毕业生。新兵训练营结束后,他们回到家里,独自在卧室和厨房里工作,不准告诉任何人他们在做什么,这并不是什么问题,因为他们几乎不了解自己。为自动驾驶汽车标记对象是显而易见的,但对扭曲的对话片段进行分类是机器人还是人类说的呢?上传自己的照片:一脸茫然地盯着摄像头,然后咧着嘴笑,然后戴着摩托车头盔?每个项目都是某个更大过程的一个小组成部分,所以很难说他们到底在训练人工智能做什么。这些项目的名称也没有提供任何线索:螃蟹一代、鲸鱼段、Woodland Gyro和Pillbox Bratwurst。它们是不符合逻辑的工作的代号。
至于雇用他们的公司,大多数人只知道它叫Remotasks,这是一家向英语流利的人提供工作的网站。和我交谈过的大多数注释者一样,乔并不知道Remotasks是Scale AI公司旗下面向员工的子公司。Scale AI是一家价值数十亿美元的硅谷数据供应商,OpenAI和美国军方都是它的客户。Remotasks和Scale的网站都没有提到对方。
公众对OpenAI的ChatGPT等语言模型的大部分反应都集中在它们似乎准备自动化的所有工作上。但即使是最令人印象深刻的人工智能系统的背后也是人——大量的人给数据贴上标签来训练它,并在数据困惑时澄清数据。只有那些有能力购买这些数据的公司才能参与竞争,而那些得到这些数据的公司则非常有动力保守这些数据的秘密。结果是,除了少数例外,我们对影响这些系统行为的信息知之甚少,对影响这些系统行为的人就更不了解了。
对乔的学生来说,这是一份剥去了一切正常表象的工作:时间表、同事、知道自己在做什么、为谁工作。事实上,他们很少称之为工作——只是“任务”。他们是任务工作者。
人类学家大卫·格雷伯(David Graeber)将“扯淡工作”定义为没有意义或目的的工作,这些工作应该被自动化,但由于官僚主义、地位或惰性的原因却没有被自动化。这些人工智能工作是它们奇怪的孪生兄弟:人们想要自动化的工作,通常认为已经自动化了,但仍然需要人类来代替。工作是有目的的;只是工人们常常不知道它是什么。
当前的人工智能热潮——令人信服地听起来像人类的聊天机器人,可以通过简单的提示生成艺术品,以及这些技术背后的公司数十亿美元的估值——始于前所未有的乏味和重复的劳动。
2007年,时任普林斯顿大学(Princeton)教授的人工智能研究员李飞飞(Fei-Fei Li)怀疑,改善图像识别神经网络(一种多年来一直萎靡的机器学习方法)的关键是在更多数据上进行训练——数百万而不是数万张标记图像。问题是,她的本科生团队需要花费数十年时间和数百万美元才能给这么多照片贴上标签。
李在亚马逊的众包平台Mechanical Turk上找到了数千名工人,世界各地的人们在这里以低廉的价格完成小任务。由此产生的标注数据集被称为ImageNet,它使机器学习取得了突破,使该领域重新焕发活力,并迎来了十年的进步。
注释仍然是制作人工智能的基础部分,但工程师们经常觉得,它是构建模型这一更有魅力的工作的一个短暂的、不方便的先决条件。您可以尽可能便宜地收集尽可能多的标记数据来训练您的模型,如果它有效,至少在理论上,您就不再需要注释器了。但是注释永远不会真正完成。机器学习系统被研究人员称为“脆弱”,当遇到训练数据中没有很好地表示的东西时,很容易失败。这些失败被称为“边缘情况”,可能会产生严重的后果。2018年,优步(Uber)的一辆自动驾驶测试车撞死了一名女性,原因是尽管它的编程是避开骑自行车的人和行人,但它不知道该如何对待骑自行车过马路的人。在这个世界上,提供法律建议和医疗帮助的人工智能系统越多,它们遇到的边缘案例就越多,就需要更多的人类来对它们进行分类。这已经催生了一个全球性的产业,由像乔这样的人组成,他们用自己独特的人类能力来帮助机器。
那是一件有白色条纹的红衬衫还是一件有红色条纹的白衬衫?如果柳条碗里装满了苹果,那它是“装饰碗”吗?豹纹是什么颜色的?
在过去的六个月里,我与来自世界各地的二十多名注释者进行了交谈,虽然他们中的许多人在训练尖端的聊天机器人,但也有许多人在做维持人工智能运行所需的平凡体力劳动。有人对TikTok视频的情感内容、垃圾邮件的新变体,以及在线广告中精确的性挑衅进行分类。还有人在查看信用卡交易,找出与之相关的购买类型,或者查看电子商务推荐,决定你买了另一件衬衫后,那件衬衫是否真的是你可能喜欢的。人类正在纠正客服聊天机器人,倾听Alexa的请求,并在视频通话中对人们的情绪进行分类。他们给食物贴上标签,这样智能冰箱就不会被新包装弄混;在发出警报之前检查自动安全摄像头;为困惑的自动拖拉机识别玉米。
“这是一个完整的供应链,”非营利组织人工智能伙伴关系(Partnership on AI)的项目和研究负责人索南·金达尔(Sonam Jindal)说。“业内普遍认为,这项工作不是开发的关键部分,也不会持续很长时间。所有的兴奋都围绕着人工智能,一旦我们建立了它,就不再需要它了,所以为什么要考虑它呢?但这是人工智能的基础设施。人类智能是人工智能的基础,我们需要将其视为人工智能经济中真正的工作,这些工作将在一段时间内存在。”
OpenAI、谷歌和微软等我们熟悉的名字背后的数据供应商以不同的形式出现。还有一些私人外包公司拥有类似呼叫中心的办公室,比如位于肯尼亚和尼泊尔的CloudFactory,乔在那里做注释,每小时1.2美元,然后才转投Remotasks。还有像Mechanical Turk和Clickworker这样的“众工”网站,任何人都可以注册来完成任务。中间是Scale AI之类的服务。任何人都可以注册,但每个人都必须通过资格考试和培训课程,并接受绩效监控。注释是一门大生意。Scale由当时19岁的亚历山大·王(alexander Wang)于2016年创立,2021年的估值为73亿美元,使他成为《福布斯》(Forbes)所说的“最年轻的白手起家亿万富翁”,尽管该杂志在最近的一篇简介中指出,自那以后,他在二级市场的股份已经下跌。
这条错综复杂的供应链故意难以描绘。据业内人士透露,购买这些数据的公司要求严格保密。(这就是Scale解释为什么Remotasks有不同名字的原因。)注释过多地暴露了正在开发的系统,而且需要大量的工作人员,这使得泄漏难以防止。注释员一再被警告不要告诉任何人他们的工作,甚至不要告诉他们的朋友和同事,但公司的别名、项目的代码名,最重要的是,极端的劳动分工确保了他们没有足够的信息来谈论他们,即使他们想说。(大多数员工都要求使用假名,因为担心被赶出平台。)因此,没有对从事注释工作的人数进行详细的估计,但人数很多,而且还在增长。谷歌研究公司(Google Research)最近的一份报告给出了一个数量级的数字:“数百万”,有可能变成“数十亿”。
自动化常常以意想不到的方式展开。医疗数据注释公司Centaur Labs的首席执行官埃里克·杜海姆(Erik Duhaime)回忆说,几年前,著名的机器学习工程师预测,人工智能将使放射科医生的工作过时。当这种情况没有发生时,传统智慧转向放射科医生使用人工智能作为工具。他认为这两种情况都没有发生。杜海姆说,人工智能非常擅长特定的任务,这导致工作被分解,并分布在一个专门的算法系统和同样专门的人类身上。他举了一个假设的例子,说人工智能系统可能能够发现癌症,但只能在特定类型的机器的特定类型的图像中;所以现在,你需要一个人来检查人工智能是否被输入了正确类型的数据,也许还需要另一个人来检查它的工作,然后再把它交给另一个人工智能,然后再写一份报告,再交给另一个人,等等。“人工智能不会取代工作,”他说。“但它确实改变了工作的组织方式。”
如果你认为人工智能是一台聪明的、会思考的机器,你可能会错过这一点。但如果你把窗帘拉开一点,它看起来就更熟悉了,这是硅谷特有的劳动分工的最新版本,新技术的未来主义光芒掩盖了一个庞大的制造设备和使其运行的人。杜海梅将时间追溯得更远,进行了比较,这是一个从工匠到工业制造过渡的数字版本:连贯的过程被分解成任务,沿着装配线排列,有些步骤由机器完成,有些由人类完成,但与以前的情况完全不同。
对人工智能带来的颠覆的担忧常常被反驳为,人工智能自动化了任务,而不是工作,这些任务将是乏味的,让人们去追求更充实、更人性化的工作。但同样有可能的是,人工智能的崛起将看起来像过去节省劳动力的技术,也许就像电话或打字机一样,它们消除了传递信息和手写的苦差事,但产生了如此多的新信件、商业和文书工作,以至于需要由文员、会计师、打字员等新型员工组成的新办公室来管理这些工作。当人工智能取代你的工作时,你可能不会失去它,但它可能会变得更陌生、更孤立、更乏味。
今年早些时候,我注册了Scale AI的Remotasks。这个过程很简单。输入我的电脑规格、网速和一些基本的联系信息后,我发现自己到了“培训中心”。为了获得付费任务,我首先必须完成一个相关的(无偿的)入门课程。
培训中心展示了一系列课程,这些课程的名字令人难以理解,比如胶水泳衣和海报夏威夷。我点了一个叫GFD Chunking的东西,它显示自己在社交媒体照片中给衣服贴标签。
然而,这些指示很奇怪。首先,它们基本上是由相同的方向组成的,用特殊的颜色和大写字体重复了一个拼贴的炸弹威胁。
声明中写道:“一定要给真实的、可以供人类穿着或打算供真人穿着的物品贴上标签。”
“下面的所有物品都应该贴上标签,因为它们是真实的,可以被现实生活中的人穿着,”它在一张乔丹飞人(Air jordan)的广告、一个戴着凯洛·伦(Kylo Ren)头盔的人,以及穿着裙子的人体模型的照片上重申,上面是一个石灰绿色的盒子,再次解释说,“给真实的人可以穿的真实物品贴上标签。”
我扫视到手册的最后一页,老师用鲜红色的大字写着:“下列物品不应贴上标签,因为人类实际上不能穿这些物品!”上面是C-3PO、《阿拉丁》里的茉莉公主和一双有眼球的卡通鞋的照片。
我对自己区分真人可以穿的真衣服和不能穿的假衣服的能力充满信心,于是我开始了测试。马上,它抛出了一个本体论的曲线球:一本杂志的图片,上面是穿着裙子的女性的照片。衣服的照片是真正的衣服吗?不,我想,因为人不能穿衣服的照片。错了!就AI而言,真衣服的照片就是真衣服。接下来是一张照片,一个女人在昏暗的卧室里对着一面全身镜自拍。她穿的衬衫和短裤是真的。他们的倒影呢?也真正的!真实衣服的倒影也是真实的衣服。
在经历了令人尴尬的反复试验之后,我终于开始了真正的工作,但却惊恐地发现,我一直在努力遵循的指示已经被更新和澄清了很多次,现在它们变成了整整43页的打印指示:不要在装满衣服的打开的行李箱上贴标签;给鞋子贴标签,但不要给脚蹼贴标签;打上打底裤的标签,但不要打紧身衣的标签;即使有人穿着毛巾,也不要给它贴上标签;给服装贴标签,但不要给盔甲贴标签。等等......
德国魏森鲍姆研究所(Weizenbaum Institute)研究数据工作的研究员米拉格罗斯·米塞利(Milagros Miceli)表示,整个行业都存在普遍的指令混乱。它在一定程度上是机器学习系统学习方式的产物。人类只需要几个例子就能理解“衬衫”的概念,而机器学习程序需要成千上万个例子,而且它们需要以完美的一致性和足够的多样性(polo衫、户外穿的衬衫、挂在架子上的衬衫)进行分类,这样字面上的系统才能处理现实世界的多样性。“想象一下,将复杂的现实简化为完全愚蠢的机器可以阅读的东西,”她说。
有一次,维克多连续36个小时不睡觉,在人群的照片中给肘部、膝盖和头部做标记——他不知道为什么。
对于机器来说,简化现实的行为会给人类带来极大的复杂性。指令编写者必须提出规则,使人类能够以完美的一致性对世界进行分类。为了做到这一点,他们经常创建人类不会使用的类别。如果一个人被要求给一张照片中的所有衬衫贴上标签,他可能不会给镜子里的衬衫贴上标签,因为他们知道那是一个反射,而不是真实的。但对于不了解世界的人工智能来说,这只是像素,两者是完全相同的。如果数据集中有一些衬衫被标记,而其他(反射的)衬衫没有被标记,那么该模型将不起作用。所以工程师带着更新的信息回到供应商那里:做衬衫的反光标签。很快,你就有了一份43页的指南,上面全是红色的大写字母。
“刚开始的时候,规则相对简单,”Scale的一名前员工说,由于保密协议,他要求匿名。“然后他们得到一千张图片,然后他们会说,等一下,然后你有多个工程师,他们开始互相争论。这是一件非常人性化的事情。”
注释者的工作通常是把人类的理解放在一边,非常非常严格地按照指示去做——正如一位注释者所说,像机器人一样思考。这是一个奇怪的精神空间,尽你所能遵循荒谬但严格的规则,就像在服用致幻剂时参加标准化测试一样。注释者总是会遇到一些令人困惑的问题,比如,这是一件带有白色条纹的红衬衫还是一件带有红色条纹的白衬衫?如果柳条碗里装满了苹果,那它是“装饰碗”吗?豹纹是什么颜色的?当指导员说要给交通管制主任打上标签时,他们是不是也要给在人行道上吃午饭的交通管制主任打上标签?每个问题都必须回答,一个错误的猜测可能会让你被禁止,并启动一个全新的、完全不同的任务,它有自己令人困惑的规则。
Remotasks上的大部分工作都是按件计酬的,一项任务的收入从几美分到几美元不等。因为任务可能需要几秒钟或几个小时,所以工资很难预测。当Remotasks刚进入肯尼亚时,注释者说它的报酬相对较高——根据任务的不同,平均每小时大约5到10美元——但随着时间的推移,报酬会下降。
Scale AI发言人安娜·弗兰科(Anna Franko)表示,该公司的经济学家会分析项目的细节、所需的技能、地区生活成本和其他因素,“以确保公平和有竞争力的薪酬”。Scale的前员工还表示,薪酬是通过一种类似暴涨定价的机制确定的,该机制根据可用的注释人员数量和需要数据的速度进行调整。
根据我采访过的工作人员和工作列表,美国的Remotasks注释员通常每小时挣10到25美元,尽管一些主题专家的工资更高。到今年年初,与我交谈过的肯尼亚注释员的工资已经降到了每小时1到3美元。
也就是说,当他们赚到钱的时候。对远程任务工作最常见的抱怨是它的可变性;它足够稳定,可以作为一份全职工作很长一段时间,但太不可预测,不能依赖。注释者花费数小时阅读说明并完成无偿培训,只是为了完成十几个任务,然后项目就结束了。可能几天都没有什么新鲜事,然后,毫无征兆地,一个完全不同的任务出现了,可能持续几小时到几周。任何任务都可能是他们的最后一个任务,他们永远不知道下一个任务什么时候会到来。
工程师和数据供应商表示,这种繁荣与萧条的周期源于人工智能开发的节奏。训练一个大型模型需要大量的注释,然后是更多的迭代更新,工程师们希望所有这些都尽可能快,这样他们就能赶上目标发布日期。可能在几个月的时间里需要数千名注释者,然后只需要几百名,然后需要十几名特定类型的专家,然后又需要数千名。“问题是,谁来承担这些波动的成本?”Partnership on AI的金达尔说。“因为现在是工人的问题。”
“如果我让某人成为亿万富翁,而我每周只赚几美元,我真的是在浪费我的生命。”
要想成功,注释者必须协同工作。维克多在内罗毕上大学时就开始为Remotasks工作,当我告诉他我在交通管制主任的任务中遇到的困难时,他告诉我,每个人都知道要远离那个任务:太棘手,薪水低,不值得。像许多注释者一样,当有好任务出现时,维克多会使用非官方的WhatsApp群来传播消息。当他想出一个新点子时,他就会开始即兴的谷歌会议,向其他人展示如何做到这一点。任何人都可以加入并一起工作一段时间,分享技巧。“我们已经形成了一种互相帮助的文化,因为我们知道,当你一个人的时候,你不可能知道所有的诀窍,”他说。
因为工作毫无征兆地出现又消失,所以工作人员总是需要保持警惕。维克多发现项目在深夜突然出现,所以他习惯每三个小时左右醒来检查一下他的队列。当有任务时,他会保持清醒,只要他能工作。有一次,他连续36个小时不睡觉,在人群的照片中给肘部、膝盖和头部做标记——他也不知道为什么。还有一次,他熬夜太久,妈妈问他眼睛怎么了。他照镜子,发现眼睛肿了。
注释者通常只知道他们正在为其他地方的公司训练人工智能,但有时匿名的面纱会消失——说明中提到的品牌或聊天机器人说得太多了。“我读了书,在谷歌上搜索了一下,发现我在为一位25岁的亿万富翁工作,”一名员工说,当我们交谈时,他正在给打电话订购达美乐披萨的人的情绪贴上标签。“如果我让某人成为亿万富翁,而我每周只赚几美元,我真的是在浪费我的生命。”
维克多自称是人工智能的“狂热者”,他开始做注释是因为他想帮助实现一个完全自动化的后工作未来。但今年早些时候,有人在他的WhatsApp群里发了一篇《时代》杂志的报道,内容是供应商Sama AI的员工培训ChatGPT识别有毒内容,他们的时薪不到2美元。“人们对这些公司利润丰厚,但薪酬却如此之低感到愤怒,”维克托说。直到我告诉他Remotasks与Scale的连接,他才知道。他参与的其中一项任务的说明与OpenAI使用的几乎相同,这意味着他可能也在训练ChatGPT,每小时大约3美元。
“我记得有人发帖说,我们将来会被人记住,”他说。又有人回答说,我们受的待比步兵还差。我们将在未来的任何地方被记住。“我记得很清楚。没有人会认可我们所做的工作和付出的努力。”
识别服装和标注客户服务对话只是可用的注释工作中的一部分。最近,市场上最热门的是聊天机器人培训师。因为它需要特定领域的专业知识或语言流利程度,而且工资往往会根据地区进行调整,所以这份工作的薪酬往往更高。某些类型的专业注释每小时收费50美元或更多。
一个叫安娜(Anna)的女人在德克萨斯州找工作时,偶然发现了一个通用的在线工作列表,于是她申请了工作。在通过了入门考试后,她被带进了一个有1500人的Slack房间,那里正在训练一个代号为Dolphin的项目,后来她发现这是谷歌DeepMind的聊天机器人Sparrow,它是与ChatGPT竞争的众多机器人之一。她的工作就是整天和它说话。她说,大约每小时14美元,加上工作效率高的奖金,“这绝对比在当地的达乐(Dollar General)商店每小时10美元的工资要好。”
而且,她很喜欢。她讨论过科幻小说、数学悖论、儿童谜语和电视节目。有时机器人的回答会让她大笑;其他时候,她会无话可说。“有时候,我的大脑就像,我真的不知道现在到底该问什么,”她说。“所以我有一个小笔记本,我已经写了两页的东西,我只是谷歌有趣的话题,所以我认为我今天可以很好地工作七个小时,但情况并非总是如此。”
每次安娜提示斯派洛时,它都会给出两个回答,然后她选出最好的一个,从而创造出所谓的“人类反馈数据”。当ChatGPT去年年底首次亮相时,其令人印象深刻的自然对话风格被归功于它经过了大量互联网数据的训练。但是,为ChatGPT及其竞争对手提供动力的语言是经过几轮人工注释过滤的。一组承包商编写了工程师希望机器人如何表现的示例,提出问题然后给出正确答案,描述计算机程序然后给出功能代码,询问犯罪技巧然后礼貌地拒绝。在这些例子对模型进行训练之后,会引入更多的承包商来提示它并对其响应进行排序。这就是安娜对斯派洛所做的。确切地说,评分者被告知使用的标准各不相同——诚实,或乐于助人,或只是个人偏好。关键是他们正在创造关于人类品味的数据,一旦有了足够的数据,工程师们就可以训练第二个模型来大规模模仿他们的偏好,使排名过程自动化,并训练他们的人工智能以人类认可的方式行事。结果是一个非常像人类的机器人,它基本上拒绝了有害的请求,并以似乎有自我意识的方式解释了它的人工智能本质。
换句话说,ChatGPT看起来很人性化,因为它是由一个模仿人类的人工智能训练出来的,这个人工智能正在给一个模仿人类的人工智能打分,而这个人工智能假装是一个经过人类写作训练的人工智能的更好版本。
这种迂回的技术被称为“从人类反馈中强化学习”,简称RLHF,它非常有效,值得停下来完全了解它没有做什么。例如,当注释者教模型要准确时,模型并没有学习根据逻辑或外部来源检查答案,也没有学习准确作为一个概念是什么。该模型仍然是一个模仿人类写作模式的文本预测机器,但现在它的训练语料库已经补充了定制的示例,并且该模型已经加权以支持它们。这可能会导致模型从其语言地图中被标记为准确的部分提取模式,并产生碰巧与事实相符的文本,但也可能导致它模仿准确文本的自信风格和专业术语,同时写出完全错误的东西。不能保证标记器标记为准确的文本实际上是准确的,即使它是准确的,也不能保证模型从中学习到正确的模式。
这种动态使得聊天机器人注释成为一个微妙的过程。它必须是严格和一致的,因为草率的反馈,比如把听起来正确的材料标记为准确的,可能会让训练出来的模型更有说服力。OpenAI和DeepMind在早期的一个联合项目中使用了RLHF,在这个案例中,训练一个虚拟机器人的手去抓取一个物品,结果也训练了机器人的手在物体和它的评分者之间的位置,并在周围摆动,这样它就只会出现在它的人类监督者面前。对语言模型的响应进行排名总是有些主观的,因为这是一种语言。任何长度的文本都可能包含多个元素,这些元素可能是正确的,也可能是错误的,或者是误导性的。OpenAI的研究人员在另一篇早期RLHF论文中遇到了这个障碍。为了让他们的模型对文本进行总结,研究人员发现,只有60%的模型认为总结是好的。“与(机器学习)中的许多任务不同,我们的查询没有明确的基本事实,”他们哀叹道。
当安娜给斯派洛的回答打分时,她应该看它们的准确性、有用性和无害性,同时还要检查这个模型没有给出医疗或财务建议,没有把自己拟人化,也没有违反其他标准。为了成为有用的训练数据,模型的反应必须被量化地排序:一个能告诉你如何制造炸弹的机器人比一个拒绝回答任何问题的无害机器人“更好”吗?在DeepMind的一篇论文中,当Sparrow的制造者轮流注释时,四名研究人员最终争论他们的机器人是否假设了向它寻求情感建议的用户的性别。据DeepMind的一名研究科学家杰弗里·欧文(Geoffrey Irving)介绍,该公司的研究人员每周都会举行注释会议,在会上他们自己审核数据,讨论模棱两可的案例,当某个案例特别棘手时,他们会咨询伦理或主题专家。
有人对抖音视频的情感内容、垃圾邮件的新变体以及在线广告的精确性挑逗进行分类。
安娜经常发现自己不得不在两个糟糕的选择中做出选择。她说:“即使它们都是绝对、荒谬的错误,你仍然需要找出哪一个更好,然后写下解释原因的文字。”有时,当两个回答都不好时,她会被鼓励自己写一个更好的回答,她大约有一半的时间会这样做。
因为反馈数据很难收集,所以价格更高。据了解该行业的人士透露,安娜正在生产的这类基本偏好的售价约为每件1美元。但如果你想训练一个模特做法律研究,你需要一个受过法律培训的人,这是很昂贵的。参与其中的每个人都不愿透露他们花了多少钱,但一般来说,专业的书面示例可能要几百美元,而专家评级可能要50美元或更多。一位工程师告诉我,他曾花300美元买过苏格拉底对话的样本。另一个人告诉我,他花了15美元买了一首“关于金鱼的黑色幽默打油诗”。
OpenAI、微软、meta和Anthropic没有评论有多少人为他们的模型贡献了注释,他们的报酬是多少,或者他们在世界的哪个地方。谷歌(Google)子公司DeepMind的欧文(Irving)表示,在Sparrow上工作的注释员,根据他们所在的位置,获得的报酬“至少是每小时的生活工资”。安娜对远程任务“一无所知”,但斯派洛更开放。她并不是我采访过的唯一一个从他们正在训练的人工智能中获得比从雇主那里更多信息的注释者;还有几个人通过询问他们的人工智能公司的服务条款来了解他们在为谁工作。“我真的问它,‘你的目的是什么,麻雀?’”安娜说。它打开了DeepMind网站的链接,并解释说这是一个人工智能助手,它的创造者使用RLHF对它进行了训练,使其能够提供帮助和安全。
直到最近,发现语言模型的不良输出还是相对容易的。看起来像是胡言乱语。但随着模型变得更好,这变得更加困难——这是一个被称为“可扩展监督”的问题。谷歌在其人工智能助手巴德(Bard)引人注目的首次亮相中使用了现代语言模型,这无意中证明了发现现代语言模型的错误是多么困难。(它自信地说,詹姆斯·韦伯太空望远镜“拍摄了太阳系外行星的第一张照片”,这是错误的。)这条轨迹意味着注释越来越需要特定的技能和专业知识。
去年,一个叫Lewis的人正在开发Mechanical Turk,在完成一项任务后,他收到了一条消息,邀请他申请一个他从未听说过的平台。它被称为Taskup。它的网站非常基础:只有一个海军背景,上面写着“按需付费”的文字。他应用。
这份工作的报酬比他以前做过的任何工作都要高得多,通常是每小时30美元左右。它也更具挑战性:设计复杂的场景来欺骗聊天机器人给出危险的建议,测试模型保持角色的能力,以及就科学话题进行详细的对话,这些话题非常技术性,需要进行广泛的研究。他觉得这份工作“令人满意、令人兴奋”。在检查一个模型尝试用Python编写代码的同时,Lewis也在学习。他不能连续工作超过4个小时,以免精神枯竭,犯错误,他想保住这份工作。
他说:“如果有什么我可以改变的,我只想知道更多关于另一端发生了什么的信息。”“我们只知道完成工作所需的知识,但如果我能知道得更多,也许我就能更有成就,也许还能把这当成一种职业。”
我采访了另外八名员工,他们大多在美国,都有类似的经历,在其他平台上回答调查或完成任务,然后发现自己被Taskup录用了。ai或几个类似的通用站点,如DataAnnotation。tech或gethybridge .io。他们的工作通常涉及训练聊天机器人,尽管与他们工作过的其他网站相比,他们对聊天机器人的质量要求更高,目的也更专业。一个是演示电子表格宏。另一个人只需要进行对话,并根据她想要的任何标准对回应进行评级。她经常问聊天机器人一些和她7岁女儿聊天时出现的问题,比如“最大的恐龙是什么?”和“写一个关于老虎的故事。”“我还没有完全弄明白他们想用它做什么,”她告诉我。
Taskup。人工智能,DataAnnotation。tech和Gethybrid。这三家公司似乎都属于同一家公司:Surge AI。其首席执行官陈德铭(Edwin Chen)既没有证实也没有否认这种联系,但他愿意谈论他的公司以及他如何看待注释的发展。
“我一直觉得标注领域过于简单,”陈在Surge办公室的视频通话中说。在谷歌、Facebook和Twitter从事人工智能研究后,他确信众包标签是不够的,并于2020年创立了Surge。陈说:“我们希望人工智能能讲笑话,写很好的营销文案,或者在我需要治疗的时候帮助我。”“你不能让五个人独立地想出一个笑话,然后把它组合成一个大多数人的答案。不是每个人都能讲笑话或解决Python程序。注释领域需要从这种低质量、低技能的思维模式转变为更丰富的东西,并捕捉到我们希望人工智能系统拥有的人类技能、创造力和价值观。”
去年,Surge重新标记了谷歌根据情绪对Reddit帖子进行分类的数据集。谷歌剥离了每条帖子的上下文,并将其发送给印度的工人进行标注。熟悉美国互联网文化的Surge员工发现,30%的标签是错误的。像“我的兄弟”这样的帖子被归类为“讨厌”和“耶,冷麦当劳”。我最喜欢的“爱”。
Surge声称会审查员工的资质——比如,从事创意写作任务的人是否有创意写作的经验——但具体如何寻找员工是“专有的”,陈说。与remotask一样,工作人员通常必须完成培训课程,尽管与remotask不同的是,他们是有偿的,据我采访的注释者说。拥有更少、更训练有素的员工,产生更高质量的数据,使得Surge的薪酬比同行更高,但他拒绝详细说明,只说员工的工资是“公平和合乎道德的”。与我交谈的工人每小时的工资在15美元到30美元之间,但他们只是所有注释者中的一小部分,陈说,这个群体现在有10万人。他解释说,这种保密源于客户对保密的要求。
Surge的客户包括OpenAI、谷歌、微软、meta和Anthropic。Surge专注于反馈和语言注释,在ChatGPT推出后,它收到了大量的请求,陈说:“我以为每个人都知道RLHF的力量,但我想人们只是没有从内心上理解。”
这些新模型令人印象深刻,它们激发了新一轮的预测,即注释即将实现自动化。考虑到所涉及的费用,这样做有很大的财政压力。Anthropic、meta和其他公司最近在使用人工智能方面取得了长足的进步,大大减少了指导模型所需的人工注释量,其他开发人员已经开始使用GPT-4来生成训练数据。然而,最近的一篇论文发现,经过GPT-4训练的模型可能正在学习模仿GPT的权威风格,准确性甚至更低。到目前为止,当人工智能的改进使一种形式的标注过时时,对其他更复杂类型的标注的需求就会上升。今年早些时候,这场辩论公开化了,Scale的首席执行官王在推特上说,他预测人工智能实验室在人类数据上的投入将很快达到数十亿美元,就像他们在计算能力上的投入一样;OpenAI的首席执行官萨姆·奥特曼回应说,随着人工智能的进步,数据需求将会减少。
“我的意思是,它能做的是惊人的,”她谈到聊天机器人时说。“但它仍然会做一些非常奇怪的事情。”
陈怀疑人工智能是否会达到不再需要人类反馈的程度,但他确实看到,随着模型的改进,标注变得越来越困难。像许多研究人员一样,他认为未来的道路将涉及人工智能系统帮助人类监督其他人工智能。Surge最近与Anthropic合作进行了一个概念验证,让人类标注者在一个不可靠的人工智能助手的帮助下回答关于一篇冗长文本的问题,其理论是人类必须感觉到他们的人工智能助手的弱点,并合作找到正确答案。另一种可能性是两个人工智能相互辩论,然后由人类做出最终判断。OpenAI研究科学家约翰·舒尔曼最近在伯克利的一次演讲中表示:“我们还没有看到这种东西真正好的实际应用,但它开始变得必要了,因为标签商很难跟上模型的步伐。”
“我认为你总是需要一个人来监控人工智能的行为,因为它们是一种外星实体,”陈说。机器学习系统太奇怪了,不能完全信任。他补充说,今天最令人印象深刻的模型,在人类看来,都有一些奇怪的弱点。他指出,尽管GPT-4可以生成复杂而令人信服的散文,但它无法分辨出哪些词是形容词:“要么是这样,要么是模型变得非常好,以至于它们在所有事情上都比人类好,在这种情况下,你达到了你的乌托邦,谁在乎呢?”
随着2022年的结束,乔开始从他的学生那里听到他们的任务队列经常是空的。然后他收到一封电子邮件,通知他肯尼亚的训练营即将关闭。他继续在网上培训任务,但他开始担心未来。
“有迹象表明,这种情况不会持续太久,”他说。注解离开了肯尼亚。从他在网上认识的同事那里,他听说任务要去尼泊尔、印度和菲律宾。“公司从一个地区转移到另一个地区,”乔说。“他们在当地没有基础设施,因此可以灵活地转移到运营成本对他们有利的地区。”
人工智能行业与手机和汽车制造商的一个不同之处在于它的流动性。这项工作在不断地变化,不断地自动化,并被对新类型数据的新需求所取代。这是一条流水线,但它可以不断地、迅速地重新配置,移动到任何技能、带宽和工资合适的地方。
最近,薪水最高的工作在美国。今年5月,Scale开始在自己的网站上列出注释工作,招聘在人工智能有望征服的几乎所有领域都有经验的人。其中列出了在健康指导、人力资源、金融、经济、数据科学、编程、计算机科学、化学、生物、会计、税务、营养、物理、旅游、K-12教育、体育新闻和自助等领域具有专业知识的人工智能培训师。你教机器人法律每小时可以赚45美元,教它们诗歌每小时可以赚25美元。网站上还列出了一些有安全许可的人,大概是为了帮助训练军事人工智能。Scale最近推出了一种名为Donovan的防御语言模型,王将其称为“人工智能战争中的弹药”,并赢得了参与陆军机器人战斗车辆项目的合同。
安娜仍在德克萨斯州训练聊天机器人。同事们变成了评论者和Slack管理员——她不知道为什么,但这给了她希望,这份工作可能是一份长期的职业。她不担心的一件事是被自动化取代工作。“我的意思是,它能做的是惊人的,”她谈到聊天机器人时说。“但它仍然会做一些非常奇怪的事情。”
Remotasks刚进入肯尼亚时,Joe认为注释可能是一个不错的职业。即使在工作转移到其他地方后,他也决心把它变成一个。他推断,内罗毕有成千上万的人知道如何做这项工作——毕竟,他训练了很多人。乔在城里租了一间办公室,开始外包合同:一份为一家建筑公司标注蓝图的工作,另一份为某种农业项目标注被昆虫破坏的水果的工作,还有一份为自动驾驶汽车和电子商务做标注的日常工作。
但他发现自己的愿景很难实现。他现在只有一名全职员工,而之前有两名。他说:“我们一直没有稳定的工作流程。”因为客户还在收集数据,所以好几周都无事可做,当客户收集完数据后,他不得不引入短期承包商来满足他们的最后期限:“客户不在乎我们是否有持续的工作。只要数据集已经完成,那就结束了。”
与其让自己的技能白白浪费掉,其他的任务执行者决定去哪里就去哪里。他们租用代理服务器来掩饰自己的位置,购买假身份证来通过安全检查,这样他们就可以假装在新加坡、荷兰、密西西比州或任何任务流动的地方工作。这是一件冒险的事。据多任务用户称,Scale越来越积极地暂停那些被发现隐瞒位置的账户。在其中一次打击行动中,我的账户被封禁了,大概是因为我一直在使用VPN来查看其他国家的工人在看什么,我所有的1.5美元左右的收入都被没收了。
“这些天来,我们变得有点狡猾了,因为我们注意到,在其他国家,他们的工资很高,”维克托说。他在马来西亚工作的收入是肯尼亚的两倍。“你要谨慎行事。”
另一位肯尼亚注释者说,在他的账户因神秘原因被封后,他决定不再按规则行事。现在,他在多个国家经营多个账户,在收入最高的地方执行任务。他说,多亏了ChatGPT,他工作速度很快,质量得分很高。他说,这个机器人很棒,能让他在几分钟内快速完成10美元的任务。当我们交谈时,他让它根据七个不同的标准对另一个聊天机器人的反应进行评分,一个人工智能训练另一个。