机器之心已经体验上了Bard。
编者按:本文来自微信公众号 机器之心(ID:almosthuman2014),创业邦经授权发布。
在 OpenAI GPT-4 发布、微软将 GPT-4 接入 Office 全家桶这样一波碾压后,谷歌也有了新的动作!
刚刚,谷歌宣布正式公开发布其聊天机器人产品 Bard。谷歌表示此举是为了广泛获得来自用户的反馈,以支持其在对话式生成模型赛道上与微软竞争。
据谷歌 CEO 桑达尔·皮查伊的推特,此次开放使用将首先从美国和英国的用户开始 —— 用户可以申请加入 Bard 的候补名单(waitlist)。
此外,Bard 目前仅支持英语,且不具备编码能力,因此不支持有关代码的响应。
虽然来得比微软和百度晚,但可以看得出,这次谷歌是有备而来:在短短的一个小时后(没错,就是在写稿过程中),机器之心就已经获得了体验资格。
Bard 能做什么呢?
Bard 是由谷歌 LaMDA 模型提供支持的实验型对话 AI 服务,利用来自互联网的信息提供最新、高质量的回复。谷歌说了,它是对搜索引擎的补充,而不是一种搜索。
作为一个对话 AI 系统,谷歌将 Bard 描述为了「富有创造力且能为你提供帮助的协作者,可以激发你的想象力,提高你的工作效率,并将你的 idea 变成现实。」
网站地址:https://bard.google.com/
比如,Bard 可以解释大语言模型为什么会出错、闪电为什么两次击中同一个地方,可以帮助你着手写自己的第一篇小说、为你的周末钓鱼和露营准备装箱单,可以帮你完成艺术工作室的标语、概述你的关于夏季无酒精鸡尾酒配方的博客,并建议在你的纯素食谱中添加高蛋白质食物,等等。
Bard 目前仅支持英语,但谷歌表示正努力支持尽可能多的语言。此外,Bard 目前还不具备编码能力,因此不支持有关代码的响应。
此外,虽然在发布之前,谷歌测试人员为 Bard 提供了大量的反馈,帮助它提升回复质量、安全性和准确性。但 Bard 目前仍是实验性的,因此有些回答可能不准确,也有可能出现冒犯性陈述,因此需要仔细检查 Bard 的回复内容。
还有一点,目前谷歌对 Bard 的上下文对话能力有意进行了限制。随着 Bard 不断地学习,它在更长对话中的上下文对话能力将会提升。
Bard 能力展示
前文已经提到,经过大量测试的 Bard 已经学到了很多东西,提高它性能的下一步关键是从更多人那里获得反馈。
Bard 能在瞬间生成文本块,这与 ChatGPT 逐字输出答案的方式不同。此外,Bard 还有一个优势,其给出的答案包含三个不同的版本或草稿,用户可以切换其中任何一个答案。
此外用户界面还有一个按钮,上面写着「Google it」,如果用户想要查询 web 结果可以使用该按钮。
下图展示了 Bard 给出的三种不同版本或草稿:
如下所示,Bard 可以帮助你集思广益,假如你想一年阅读完 20 本书,要求 Bard 给个方法完成该项任务,Bard 会给你一些建议。
然而,Bard 在回答准确性上仍欠佳,还是会出错。这不禁让人回想到上个月,Bard 在首秀 Demo 中出现事实性错误,导致 Alphabet 的市值损失了 1000 亿美元。
不过现在的 Bard 仍然会出错,例如 Bard 在回答一个问题时错误地声称蕨类植物需要明亮的间接光;当被要求写 4 段文字时,Bard 写出了 9 段文字。比如下图展示的就是出现错误的 Bard:
Krawczyk 表示:「我们知道这项技术的局限性,所以我们在推出这项技术的速度上非常谨慎。」
我们从上面的演示中也能看到,与 ChatGPT 和 Bing 一样,主文本框下方还有一个显着的免责声明,警告用户「Bard 可能会显示不代表谷歌观点的不准确或令人反感的信息」。
机器之心初体验
也许是老黄的 GPU 到位得快,在加入等待列表不久,我们就获得了 Bard 的体验资格。
对话界面
比较明确的是,目前 Bard 确实不支持中文,支持语音输入。
首先,让 Bard 做个自我介绍。
我们也让它与 ChatGPT 做个对比,生成结果如下。可以看出,它提供了三种草稿供用户选择。
从对话中,Bard 透露出它是实时联网。我们也测试了下,它竟然知道 GPT-4 发布时间是 3 月 14 日。
简单数学题也会做。不过在尝试纠正它时,它会忽视答案是否准确。
另外,和 ChatGPT 一样,Bard 也会瞎编乱造。
上星期,GPT-4 展示了多模态的识图能力,其中就有总结 InstructGPT 论文的展示,在这里 Bard 还不能识图,不过它可以搜到 InstructGPT 并评价一番:
在 GPT-4 的展示里,人类让 AI 解释了一下图 2,那么 Bard 能不能做到呢?首先图 2 是这样:
Bard 说:
GPT-4 是这么说的:
最后,我们也尝试了让 Bard 生成一篇「发布 Bard」的报道,它自己写了篇新闻,看起来也令人满意。
总体而言,这是一次有趣的探索,有令人惊喜的地方,也有一些地方做的不够好。后续我们会带来更多体验。