百度文心大模型正不断降低AI技术开发和应用的门槛,保持技术迭代和创新突破,更强有力地支撑人工智能技术的高速发展及产业应用。
随着数据的井喷、算法的进步和算力的突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”)已成为人工智能发展的新方向。4月16日,2021百度认知AI创意赛“AI创意派”决赛正式举行,这是业内首次将先进的AI大模型能力开放给公众使用,实现了大模型在激发创意、落地应用上的突破。文心大模型首场技术开放日也同期举行,文心大模型背后的“技术天团”首次集中亮相,解读大模型无限创意背后的硬核AI技术。
大模型助力创意应用,为创意插上腾飞羽翼
元宇宙虚拟人生、AI版“反诈App”、续写一本小说、神奇植物都有啥……这些趣味DEMO和落地方案,均是由AI创意派参赛选手基于百度飞桨文心大模型开发创造的。据统计,本次AI创意赛共吸引全国各地近2000名不同年龄、不同技术基础的选手参与其中,收集超过300份创意方案,作品覆盖教育、医疗、金融、娱乐、科技、心理健康等多个领域。最终,开发创意组9组选手脱颖而出闯入决赛,最终“说文”、“图言”、“AI起论文标题”等项目摘得大奖。
百度集团副总裁吴甜在比赛现场表示,“创意在民间。人工智能和大模型要面向公众开放,只有门槛低到了所有人都可方便地用起来,才能真正大规模爆发出各种创意。这是文心大模型的努力方向。文心源于产业实践,也将在产业中广泛落地。本次创意赛中,选手展现了基于文心大模型的丰富创意,让我们看到了大模型广泛应用的前景。”
本次创意赛邀请了中国科学技术协会专家库科普实体资源开发类专家白藕,天津大学北洋讲席教授、智能与计算学部副主任兼人工智能学院院长胡清华,哈尔滨工业大学计算机科学与技术学院人工智能专业负责人张宇,南方科技大学科学与人类想象力研究中心主任吴岩,线性资本董事总经理黄松延,百度技术委员会主席吴华,百度飞桨总架构师于佃海,百度高校合作部总监李轩涯等来自产业、学术以及投资方等各界嘉宾作为评委专家,对参赛项目做出了精彩的点评。多位评委专家表示,大模型是目前AI行业发展的新趋势。通过本次创意赛,挖掘了多支具备开发和创意双重实力的参赛队伍,丰富了大模型落地的想象空间。
获得本次AI创意赛冠军“顶尖派”的参赛项目“说文”的代表卓君表示,百度飞桨开放了ERNIE 3.0知识增强大模型能力,不仅让我们体会到了大模型的真正实力,也让每一位对AI感兴趣的人都可以充分发挥创造力,去实现关于文字、语言的创意想法。
自2019年,百度便深耕大模型研发并成功打造文心大模型家族。目前,文心大模型已成为产业级知识增强大模型,包含NLP(自然语言理解)大模型、CV(计算机视觉)大模型、跨模态大模型,既有基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台。
与行业其他大模型相比,文心大模型具备“知识增强”的核心特色。文心大模型基于大规模知识和海量无结构数据的融合深度学习,不断吸收文本数据中词汇、结构、语义等方面的知识,使得文心大模型的理解能力和生成能力不断进化提升,并面向不同人群提供丰富的工具组件及平台,助力各行各业的创意应用。
以此次创意赛所使用的ERNIE 3.0为例,作为NLP大模型中的一员,不仅拥有很强的语言理解能力,还能够实现视频、歌词、艺术画等创意作品的自动生成,用AI为创意插上腾飞羽翼。尤其是在AIGC(AI generated content,人工智能创造内容)领域,借助大模型的跨模态综合技术能力,可以激发创意,提升内容多样性,降低制作成本,实现大规模应用。如在本次AI创意赛中,就涌现了像传记生成、高考志愿推荐、心理树洞等诸多创意应用。
吴甜还演示了近期在海外引发关注的“虎年春晚上的中国文化”视频,该视频由百度研究院的智能视频合成平台VidPress自动生成,背后就使用了文心大模型的文本摘要、语义分析和跨模态理解等多项技术,打开了AIGC智能创作想象空间。
在现场的大模型互动区,观众也可以亲身体验到大模型在歌词生成、画作生成和对话机器人等应用,同时文创集市上也展现了基于大模型能力生成的T恤、马克杯、帆布袋、画册、明信片等创意周边,切身感受大模型在创意领域的落地应用。
深耕产业级大模型,文心大模型实现技术、落地双领先
作为国内最早开始进行大模型研发的科技企业之一,百度在2019年3月率先发布中国首个正式开放的预训练模型ERNIE1.0,并持续投入于大模型的研发升级。2021年12月,ERNIE 3.0升级为全球首个知识增强千亿大模型,成为目前为止全球最大的中文单体模型,在60多项权威的自然语言理解和生成任务上取得了世界领先效果。
目前,文心系列模型中已有多个大模型达到世界领先水平。例如,百度打造了全球首个百亿参数中英文对话大模型PLATO-XL,首个聚焦中英文场景大规模OCR结构化预训练模型VIMER - StrucTexT,全球最大规模中文跨模态生成模型ERNIE-ViLG等。
超大规模模型的训练和推理,给深度学习框架带来很大考验。在文心大模型的背后,我国首个自主研发、功能丰富、开源开放的产业级深度学习平台飞桨提供了有力支撑。飞桨研制了端到端自适应分布式训练框架,实现多硬件支持,并行效率高达90%,有效支持文心大模型高效、稳定训练。基于飞桨与百舸集群,文心大模型在算法、框架、算力层面实现完全自主技术创新,为中国产业智能化转型打造AI大底座。
除了技术上的不断创新,文心大模型作为“产业级”大模型,驱动AI规模化落地应用是其核心价值。截至目前,文心大模型已支持数百家企业与机构,开发者数量超过6万,已在数百个场景中落地应用,产业应用数量居业界首位。
据吴甜介绍,文心大模型已大规模应用于百度内部的各类产品,包含搜索、信息流、小度智能屏、百度地图等,显著提升了产品智能化体验。基于文心的开放能力,对外的日调量超过了五千万次。文心大模型现已通过飞桨平台、百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业。
除了AI创意派的决赛活动,4月16日上午,百度还举办了首场文心大模型技术开放日,文心大模型背后的“技术天团”首次集中亮相,百度技术委员会主席吴华,百度计算机视觉首席科学家王井东,百度飞桨总架构师于佃海,百度杰出研发架构师孙宇分享了大模型技术发展趋势洞察、文心大模型最新技术突破及产业应用实践,为技术爱好者带来一场干货满满的AI技术盛宴。
从AI核心技术到AI基础平台,坚持技术创新及开放生态,百度文心大模型正不断降低AI技术开发和应用的门槛,保持技术迭代和创新突破,更强有力地支撑人工智能技术的高速发展及产业应用。