AI发展的两个里程碑:一场竞拍和ChatGPT的诞生。
编者按:本文来自微信公众号 腾讯科技(ID:qqtech),作者:郝博阳,创业邦经授权转载。
“深度学习三巨头”这个称谓在AI的热潮之中对各位读者而言肯定不陌生。但深度学习人才济济之中,是靠什么评价标准单单拎出Hinton,Yann Lecun,Yoshua Bengio这三位称之为巨头?没有比赛,辩论,排名,这个名头是靠着AI领域最著名的记者凯德·梅茨早在18年用笔定下的。
作为《连线》杂志资深作家,《纽约时报》人工智能栏目主笔,《深度学习革命》作者凯德·梅茨在十几年的从业经历之中基本上采访了所有AI领域的知名专家,Sam Altman 在发布ChatGPT前和他咨询意见,Hinton离开谷歌后找他谈心。通过接触这些核心人物,他还得以深入微软,谷歌,meta这样的AI巨头之中挖掘出各种核心商业决策背后的核心时刻和戏剧场面,前段时间写成的《深度学习革命》一书,也首次披露了十年前那场改变人工智能进程的秘密竞拍。
书中细致报道了发生在2012年,那场对整个人工智能行业都产生了深远影响的竞拍会。
2012年12月,在太浩湖滑雪山脚下的一家赌场酒店中,因腰椎间盘突出而无法坐下的Hinton和他的两名学生入住了一周。他和他刚刚成立,还没有任何产品的公司接受着这个世界上最有名的公司们一轮轮的竞拍,这些公司中,有微软,谷歌,Deepmind 和百度。
最戏剧性的画面出现在Hinton应付百度派出的时任研究院副院长余凯的突然来访时,为了“不让他认为我已经衰老了”,每次都要求他的学生们收拾好为了让他腰痛缓解临时用沙发垫搭出的雨棚,这让他们颇为手忙脚乱。在某次来访中,Hinton面对着余凯落下了的背包还和学生纠结了半天是否要翻找其中百度底价的信息。但最终还是尊严让他们作罢。最后,在一周时间后,Hinton接受了谷歌的报价,把这个还完全是空壳的公司以4400万美元的价格卖给了这个巨头,并掀开了巨头AI战争的帷幕。
在他的职业生涯中,这样充满细节和戏剧冲突的场景处处可见。因此称他为AI领域最深入的观察者并不为过。
在这次访谈中,梅茨再次展示了他对于AI领域的广博学识,从深度学习的历史和核心时刻,谈到AI的未来与对人类社会的影响。他还特别对中国的人工智能情况做出了他观察家式的评价。
他认为Sam Altman之所以能让OpenAI脱颖而出,主要在于其强大的谈判能力促成了OpenAI和微软的合作。他也认为中美在AI上的差距不如大众所想的那么远,因为现有技术本身没有什么护城河。对于AI的未来,他有着和Hinton相似的忧虑,会担心AGI的出现会给社会带来巨大的变革。
旁观者清,以下是来自AI观察者的灼见。
中美差距没那么大,AI没有护城河问:现在关于OpenAI的故事已经成为人们关注的焦点,你在书中已经写了很多关于它的建立和历程的故事。你能谈谈Sam Altman吗?是什么品质使他能够领导OpenAI走到今天的位置?
凯德·梅茨:Sam 很有野心,他擅长说服人们做他想让他们做的事情。坦白说,他擅长组建团队,并让他们走上特定的道路。这不仅仅是关于开发技术的水平。他们需要大量的资金来做到这一点。训练这些类型的系统需要数千万美元,甚至数亿美元。我曾说过,分析所有的互联网文本并学习,并让这些系统自己学习,这需要花费数月时间,需要大型计算系统支持,而这些系统实际上是由大型科技公司拥有和控制的。
Sam大约在2019年就筹集了10多亿美元。因此,他的相当一部分技能就是通过谈判来促成这笔交易。这是一笔巨额交易,Sam获得了他所需的资金,也获得了他所需的算力。后来,他们从微软筹集了另外的110多亿美元,也就是总共筹集了近130亿美元。这是他如此关键的一个重要原因。
问:您提到了微软,但它在上一波人工智能浪潮中完全落后于竞争对手。那为什么微软在这波AI浪潮中能够抓住这个机会,如此迅速的行动起来?
凯德·梅茨:这对微软来说是一个有趣的动作。他们曾经在这场竞争落后过,但他们意识到正在建立的技术的重要性。他们之前也遇到了很多困难,他的对手谷歌和其他公司有一个可以使用这项技术的场景:谷歌首先在安卓手机和它的数字助手Google Home上大规模部署了神经网络,用于语音识别。因此,当你在家里使用这些智能音箱时,它们可以回答你的问题。谷歌能如此快的开始部署这项技术,因为他们有可以部署它的场景和硬件。而微软没有这个场景。
但是,当微软终于尝试部署它时,他们还是遇到了别的问题。几年前,他们在美国推出了一个名为Tay的聊天机器人,它几乎一上架就开始产生一些冒犯人的信息,包括种族主义信息。微软只能很快就将其下架了。
这是AI技术在美国发展过程中的故事的一面,因为这些系统有时会产生不必要的文本,这些文本对某些人有偏见,产生仇恨言论。因此大公司很难下决心推出这种产品,他们不想冒那样的风险。但是微软通过和OpenAI的合作,由OpenAI来推出这个系统,这样人们就不会像对微软那样对其缺陷做出强烈的反应。人们会接受这些缺陷来自一个小而不知名的公司,但不会接受来自像微软这样知名的公司的缺陷。
问:根据你的观察,中美在人工智能领域的差距有多大?你认为中国在人工智能方面有哪些优势?
凯德·梅茨:中国在这方面已经有一段时间的研究了。有很多人和公司了解这里所涉及的技术,但也可能存在困难。训练这些系统所需的计算机芯片,在最高水平上是由美国公司制造的。现在有贸易禁令,这些芯片不能销售给中国。这可能是一个劣势。
当涉及到构建这种技术时,我们将看到它如何发挥作用。Sam Altman最近表示,他觉得中国落后了两年。这是一个估算。我认为,整个行业可以很快跟上他和他公司所做的事情。我们已经开始看到这种情况了,我认为这在中国也可以发生。
问:这种差距是在变大还是变小?
凯德·梅茨:由于贸易禁令的原因,很难说清楚。这是一个中国面临的困难。据我所知,中国正在努力建造、设计和供应数据中心所需的芯片和设备。
无论是在中国还是在美国,我们都将不得不面对贸易摩擦对竞争发挥的诸多潜在作用。现在人们普遍认为,OpenAI的技术目前领先于大多数竞争者。但这个世界上仍有许多其他公司拥有着足够的知识和资金,并可以接触到所需的资源来进行真正竞争。
因此,在AI竞争上我们还处于早期阶段,还有许多道路需要去探索。结果还需要等等看。
问:你在书中提到了百度。中国的这家公司也在2012年开始尝试这种人工智能技术,这已经是这场竞赛的早期阶段了。你认为今天为什么它没有展现出优势?你认为这种情况的主要影响因素是什么?
凯德·梅茨:我认为是想法在推动这个领域发展的。深度学习在全世界都很有名,中国的研究人员也建立了类似的技术。但就像在美国一样,人们对我之前提到的人类反馈训练这一步骤的效果感到惊讶。因此,他们在将这种技术(人类反馈训练)应用于大型语言模型方面比美国的许多人慢了一步。
问:你提到了很多其他公司也在这场竞赛中,除了像OpenAI、Google和meta这样的大公司之外,还有哪些值得关注的小公司呢?
凯德·梅茨:有一家名为Anthropic的公司,它由一群离开OpenAI的人创立的。这个公司不太知名,但在这个领域里他们将会变得很重要。他们帮助构建了许多形成ChatGPT的技术,并建立了自己的聊天机器人,但尚未向普通公众发布。我估计它的能力会和ChatGPT相当。
在多伦多有一家名为Coherence的公司也正在做类似的事情;在美国有一家由前谷歌员工创立的公司叫做Character.AI;还有一家叫做Inflection AI的公司,是由DeepMind的创始人之一创立的。DeepMind是另一个位于伦敦的重要实验室,基本上是由谷歌拥有的。
问:对于在AI细分领域发展的的公司,它们的机会在哪里?
凯德·梅茨:这些小领域的工作方式是,一旦有人构建了一个被称为大型语言模型的系统,你就可以使用它来构建各种其他技术。你可以构建一个聊天机器人,你可以构建一个搜索引擎,你可以构建一个个人导师。因此,OpenAI正在做的是他们构建了这个核心系统。他们称之为GPT-4,然后他们向任何想使用它的其他企业提供这个系统。这是创建其他应用程序的一种方式。
这就是我们开始看到的。我认为你会看到像OpenAI这样的公司提供这种服务。每个人都可以使用它在其上来构建自己的应用程序。因此,我认为有各种各样的机会,公司可以利用这个核心服务,然后在其上构建新的东西并销售这些应用程序。但是最难的是构建这个核心服务,没有多少公司能够做到这一点。在美国有谷歌、微软、meta等巨头,另外只有少数初创公司拥有所需的资金和人才。就像我之前说的,你需要数亿美元来构建这个核心系统。因此目前对于小公司来说,在构建基础模型方面与它们竞争是很困难的。
很多人认为,随着价格的下降和开源项目的不断改进,人们将更容易地构建自己的核心系统,这种情况最终会发生改变。但我并不确定。
AI发展的两个里程碑:一场竞拍和ChatGPT的诞生问:您作为一名资深的AI作者,在自己长达十几年的职业生涯中基本上一直都在专注于深度学习这个领域,并结识了这个领域中的所有重要角色,参与了其间的各个决定性时刻。是什么契机让您关注到这个领域?
凯德·梅茨:大约在2011年或2012年,我加入了旧金山的《连线》杂志。这是我决定专注于的领域之一。在十多年前那个时候已经可以嗅到这个领域将会变得非常重要了。那时发生了几个关键事件,让我对这项技术产生了兴趣。
Hinton是《深度学习革命》这本书中的主角,我写了一些关于他的崛起以及神经网络这个关键概念的文章,正是这个概念推动了过去10年中许多进步的实现。他最终于2013年加入了谷歌。
后来我才知道,这是全球几家最大的科技公司之间的一场竞拍,包括谷歌、微软和中国的百度等。那是一个关键时刻,你可以看到一些事情开始发生。多年来,我开始越来越多地报道这个领域,并认识了像Hinton和他的老同事Yann Lecun这样的人,他最终加入了Facebook,现在是meta,以及其他领域的人。我们开始在《连线》杂志上进行大量报道,然后它的影响越来越大。最终,我决定写一本关于这个领域的书,当我从《连线》杂志转到《纽约时报》时,我继续报道这个领域。
问:作为长期跟踪AI的记者,就像穿越了周期一般,你经历了机器学习领域的低谷时期,在那段时间中明斯基的符号主义大行其道,深度学习被认为从原理上都不可能产生出有效的人工智能。在你看来是什么让Hinton等人坚持下来的?
凯德·梅茨:Hinton在1972年开始研究神经网络。在那时,几乎没有人相信它会成功,因为整个人工智能领域都放弃了神经网络这个方向。但Hinton是一个有主见的人,真正相信自己的信仰,他坚定不移地坚持着这个方向。
到了80年代,很大程度上是因为Hinton 自己的努力,这项技术取得了一些重大进展。很多人开始重新相信这个想法。但到了90年代初,人们又放弃了,但他继续工作,对吧?他一直保持着一贯的态度。他们相信这个想法会继续改进,他们是正确的。这个故事之所以如此有趣,部分原因是即使在面对如此多的怀疑,甚至是来自他们亲密的同事,他们仍然继续工作。
真正让整个行业大开眼界的时刻是现在被称为AlexNet论文的那个时刻。这是由Hinton和他在多伦多大学的两个学生撰写的研究论文,展示了神经网络在图像识别方面可以取得很大的成功,可以识别照片中的物体,如花朵、汽车、人、动物等等。
当这篇论文在2012年发表时,它让谷歌、微软、百度和Facebook都大开眼界。我们能看到这场人才争夺战,看到这场将这个想法应用于地球上一些最大的公司内部的热潮,不仅应用于图像识别,还应用于语音识别、翻译等等。那篇论文是一个关键时刻。这就是为什么我的书以那篇论文为开端,那是Hinton将自己的公司拍卖给出价最高者的时刻,那引发了其他一切的发展。
从那时起一直到今天,我们一直在持续进步。上面提到的2012年的行业意识觉醒是一个关键时刻,而10年之后的此刻,ChatGPT发布了,这是另一个关键时刻。当我们回顾AI的历史的时候,这两个时刻都是非常重要的转折点。
问:在您的书中,您描述了深度学习的发展过程,像AlphaGo、Deepfake和GPT系列这样的产品里程碑式的产品都引发了广泛的公众讨论。但直到ChatGPT出现,每个人才真正感到真正的工业革命来临,到底是什么让GPT系列如此与众不同?
凯德·梅茨:这是一个很好的问题。GPT和ChatGPT的相关技术已经被开发了有一段时间了。在过去的五年中,几家公司一直在开发这种技术,OpenAI最终开发了Chat GPT,谷歌、meta(前Facebook)和微软等公司也在五年前开始开发所谓的大型语言模型。
这个技术的基础想法是建立一个神经网络,一个可以从数据中学习的数学系统。尽可能多地输入文本,然后它会分析这些文本,在分析这些文本的过程中,它学会了自己生成文本。通过分析维基百科文章、博客文章、聊天记录和互联网上的各种内容,它识别出了我们组合单词的方式中的模式,并学会了这种方式。在过去的几年中,我们看到了这种技术的成果,并且有好几个有趣的系统被发布了。
OpenAI发布了GPT-2,GPT-3,它们都很令人印象深刻。我们可以看到这些系统开始像人类一样产生文本。但真正让普通大众意识到这一点的是ChatGPT的发布。其他公司甚至在几个月前、几周前就已经发布了他们自己的聊天机器人,比如 meta(前Facebook)在科学界发布了一个聊天机器人,但这对人们来说不仅无趣,而且还遭到嘲讽。因为它会产生虚假信息,人们对此感到非常不满。meta很快就将其下架了。但在那之后不久,OpenAI在Twitter上发布了ChatGPT。
它之所下火爆的部分原因是发布方式,部分原因是发布公司。但ChatGPT确实在某些关键技术方面得到了改进。因为在构建这些从整个互联网中学习的大型语言模型的过程中,他们将人类反馈应用于其中。他们让人类评价这个聊天机器人的回答。他们让人类评价一个回答是好的吗?它是真实的吗?它有用吗?他们给它一个赞或一个踩,然后他们将这些评分反馈到系统中,并让它从这些评分中学习。
通过这种方式,他们能够将其磨砺到几乎每次询问聊天机器人时,它都会产生令人信服的文本。它可能不总是正确的,仍然会产生虚假信息,但它能够以一种人类真正会用的回应方式与人们交流。不仅和领域内的专家交流,而是任何人。这真正抓住了人们的想象力。人们对这种技术的看法发生了实实在在的转变,不仅是普通人,也转变了很多这个技术领域的研究人员。ChatGPT的火爆开启了这种类型技术的新时代以及一个朝着越来越令人印象深刻的人工智能进发的新竞赛。
问:所以你认为,ChatGPT取得成功的技术关键因素主要是RLHF(人类反馈学习)?
凯德·梅茨:没错,如果你使用一些过去的版本,比如GPT-3,当你用特定方式提问它时,有时它能令人印象深刻。比如你要求它用唐纳德·特朗普的方式演讲,大概有一半的几率它会产出一个令人印象深刻的演讲。这有点像掷骰子,有时它会给你想要的东西,有时它不会。在这种情况这个系统不会引起普通人的注意。但他们采用了这个基本系统,但每次系统产生一个回答时,他们都让标注员对它进行评分。它可以从人类那里获取评分信息,了解他们如何评价这些回答,然后用这个来再训练这个系统。标注员是在告诉GPT什么样的回答是好的,什么样的回答是不好的。
最终,OpenAI得到了一个聊天机器人,几乎每次都能像人类一样交谈。他们把这个系统放在普通人面前,当下这种火热讨论就是人们回应它出现的方式。在Twitter上,任何人都可以使用它,人们真正回应了它。
AGI还远,但它的到来,会取代人类一切的工作价值问:前段时间马斯克接受采访时说AGI会在5,6年内实现,您觉得AGI会是一个唾手可得的目标吗?
凯德·梅茨:这确实很难说,在这个问题上有很多争议。我们知道今天的AI系统还远远达不到那个水平。它们可以以令人印象深刻的方式产生语言,但它们无法像人类一样进行推理,也没有人类的常识。
很多人认为,我们需要新的方法来赋予它们这种能力,而我们目前的方法无法让它们达到AGI。它们需要更多地了解物理世界,而不仅仅是了解语言。对于这个问题有很多争论和分歧,但它肯定不是今天我们需要考虑的问题,目前我们也还不够接近AGI。
问:您觉得现在的系统相较于真正的通用人工智能还欠缺什么?
凯德·梅茨:当使用这些系统时,可以很容易发现现阶段AI的缺陷。如果试图让它们像人类一样进行推理,有时它们可以模仿,但大多数时候它们做不到。
这是真正的难点。它们与AGI之间的最大差别在于,产生似是而非的文本和能够真正地进行推理。
这些系统非常擅长处理过去发生的事情,也就是说一些在互联网上有记录的事情。但它们并不谈论未来,并推测可能会发生什么。你和我可以进行这样的对话,我们在谈论未来,思考可能会发生什么。这些系统不擅长这样做。它们擅长模仿它们以前看到的东西。因此它们非常擅长通过标准化测试。它们在法律考试、高中科学和数学考试等方面的表现非常出色,媒体也对此大肆宣传。
但其他研究表明,如果你只给它们全新的问题,也就是在它们接受训练之后编写的问题,它们的表现就不如前。因此当它们回答所有这些标准化问题时,它们并不一定在进行推理。它们所做的是重复以前看到的东西。
问:关于AI的威胁,比如不透明性,您在书中记录了Hinton说的一段有趣的话”人们需要忍受‘黑匣子‘问题,即使你看不到内部的运作机制,他们也会做他们应该做的事", 但最近Hinton退出谷歌,您也对他进行了采访,在其中他表达了对AI的很多担忧。您是如何理解Hinton对于AI态度的发生转变这件事的?
凯德·梅茨:他的想法肯定发生了变化。当我出版这本书时,他认为AI的风险相当遥远。但在过去一年中,当他看到我们现在看到的ChatGPT这种技术时,他改变了想法。
他开始意识到在某些方面系统比人脑更强大。你和我无法理解整个互联网,这是人力不可及的。我们无法从这么多的数据中进行学习,但系统可以。他担心它们被用于传播虚假信息,在这种情况下,文本不是真实的,图像不是真实的,视频不是真实的。
除此以外,他还担心系统开始夺走人们的工作;也担心某些更大的问题,比如自动化系统被用于战场,被用作武器;他甚至担心在更长的时间内,我们会失去对AI的控制。
问:Hinton 的老同僚Yann Lecun和其他人工智能科学家最近真的讨论了很多关于媒体对人工智能能力和威胁的夸大。你认为他是对的吗?媒体可能会以何种方式使这些事情变得比实际情况更加复杂?
凯德·梅茨:我认为媒体确实存在夸张。当Chat GPT首次发布时,人们没有看到它的缺陷,过了很久,他们才意识到它会产生错误信息来误导人们,包括记者在内的很多人都很难理解到底发生了什么,因此,他们在传播过程中会继续对人们产生误导。在这种情况下,很容易发生过度炒作。
当然,有时候故意地夸大来自于误解,但有些人会故意炒作,有些人则是无意识的。但我认为,大部分还是因为人们并不完全理解他们所看到的东西。
问:你认为当前人工智能繁荣的历史意义是什么?它是新工业革命的开始吗?
凯德·梅茨:这是有可能的。我认为我们将会继续看到这些系统的改进。它们将能够处理不仅仅是文本,还有图像。我们已经看到OpenAI构建的最新版本技术可以接收图像并描述其中的内容,回答有关它的问题。这还没有公开,但这是他们所构建的一部分。它越来越多的技能将类似于人类,并不断改变人们的工作。
因此,我认为过去6个月所看到的一切表明,未来几年我们将迎来一个真正的大变革。这一变革看起来确实会像第一次工业革命一样产生深远的影响。我们还处于早期阶段。这些事情往往比人们想象的进展缓慢。但我认为我们正在朝着这个方向前进。
问:您觉得AI将会如何重塑这个社会?在AGI实现之时人的价值在何处?
凯德·梅茨:我认为如果真的拥有一个能做任何人类大脑可以做的事情的系统,也就是所谓的AGI,对人类来说那将是一个困难的处境。
如果机器可以做人类的所有事,那么工人的价值就会降为零,因为使用机器比雇佣人类更便宜。在我看来,这对人类来说并不是个好处境。但现在AI还没有到那个地步。
以计算机程序员为例,今天,系统可以很好的生成计算机程序和计算机代码,但代码可能仍然存在缺陷,还是需要一个有经验的人类程序员来接手他们生成的代码,并将其编辑、整合到更大的程序中,最终构建一个应用程序。随着时间的推移,这些系统变得越来越好,它们会越来越多地取代人类所做的事情。现阶段的问题是,AI很快就会开始取代那些经验不足的初级程序员,那些处于程序员行业底端的人,他们做的事和AI差不多,写一些基础代码并将其交给更有经验的人去整合。
随着AI的不断改进,机器肯定会越来越多地改变事情,但我们还没有到当下就靠AI突然取代大量工作的地步。
另外一个我的担忧就是这些系统可以生成逼真的文本和图像。它们甚至正在开始即时生成视频,我们将无法分辨互联网上的真实和虚假,并且要不得不改变我们在浏览互联网上几乎任何东西时的心态(变得更谨慎和怀疑)。你必须问问大众是否有能力从整体上改变他们的思维方式(以不被影响)。