5620亿参数！谷歌发布史上最大“通才”AI模型

发布时间：2023-03-08 22:09:18来源：

周一，来自谷歌和柏林工业大学的一组人工智能研究人员推出了史上最大的视觉语言模型 ——PaLM-E，参数量高达 5620 亿（GPT-3 的参数量为 1750 亿）。

PaLM-E 是迄今为止已知的最大 VLM（视觉语言模型）。作为一种多模态具身 VLM，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力（模型有不可预测的表现）。

据谷歌称，当得到一个高级命令，如“把抽屉里的米片拿给我”，PaLM-E 可以为带有手臂的移动机器人平台（由谷歌机器人公司开发）生成一个行动计划，并自行执行这些行动。

PaLM-E 通过分析来自机器人摄像头的数据来实现这一目标，而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要，使机器人控制更加自主。

PaLM-E 还很有弹性，能够对环境做出反应。例如，PaLM-E 模型可以引导机器人从厨房里拿一袋薯片，由于 PaLM-E 集成到了控制回路中，它对任务中可能发生的中断有了抵抗力。在一个视频例子中，一名研究人员从机器人手中抓起薯片并移动它们，但机器人找到了薯片并再次抓起它们。

另外，PaLM-E 模型也可控制机器人自主完成原需人类指导的复杂任务。除了机器人技术外，谷歌研究人员还观察到使用大型语言模型作为 PaLM-E 核心的几个有趣效果，其中一个是 PaLM-E 能表现出“正向转移”，这意味其可将从一个任务中学到的知识和技能转移到另一个任务中，相较单任务机器人模型能有更好的表现。

谷歌研究人员计划未来将探索 PaLM-E 在现实世界中有更多应用，例如家庭自动化或工业机器人，也希望 PaLM-E 能够激发更多关于多模态 AI 的应用。

曾报道，身为谷歌 AI 劲敌的微软近期也发表了「ChatGPT for Robotics」的论文，以类似的方式结合视觉数据和大型语言模型来控制机器人。

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

财经推荐

教育&科普

图片快讯丨国家主席习

高适：燕歌行·并序韩愈：谒衡岳庙遂宿岳寺题门楼韩愈：石鼓歌韩愈：山石