当前位置: 直线机 >> 直线机优势 >> 大模型机器人,发展到什么阶段了
本文整理自险峰主题沙龙《AI浪潮下:机器人领域新机遇》,主持:邓卓兵,嘉宾:杨健勃、邵天兰、弭宝瞳、李宇浩、许华旸、曾祥永、谢思为、董豪,原文标题:《现实与梦想:聊聊AI与机器人》,头图来自:视觉中国
一、大模型+机器人发展到了什么阶段?如何看待未来的趋势?
嘉宾A:首先,大模型+机器人还处于非常早的技术探索期,一个很明显的特征就是技术路线还没开始收敛。
比如深度学习,年它刚登场时,和今天大模型一样惊艳,直接把图像识别准确率提升到了90%多,年又出现了AlphaGO,直到、19年,深度学习才逐渐收敛,最直观的反映就是高引论文开始没那么多了。
因为早期大家还在尝试不同路线,到后面慢慢形成共识,彼此的东西越做越像,模型结构上也就不会再有大的质变。目前大模型还远没到这个阶段,微软谷歌英伟达,彼此之间甚至连任务定义还都不一样。
第二是算力算法的进步速度。举个例子,年时,你用电脑跑一个5亿参数的模型(在今天看起来都属于小模型),动辄也要跑半个小时;但现在你用最常见的因特尔CPU,跑5亿参数只需要零点几秒,甚至不需要挂AI芯片,也几乎没有成本。
所以,我们今天看大模型创业,需要多少个GPU,一算账要好多钱,就觉得这件事干不了,但10年之后再看,这些可能都不是问题。现在英伟达等巨头都在算力方面发力,对此我还是比较有信心的。
第三是大模型+机器人还远未形成固定的产品形态。
我们看人类历史,机械的进步=控制力的进步:比如第一次工业革命,诞生了气缸这样的基础组件;到第二次工业革命,有了基础控制和自动化,人类开始能够通过机械操控机械;到计算机革命时代,有了PLC(可编程控制器),开始用电脑控制机械,再后来,我们用3D视觉AI控制机械,到现在用大模型控制机械。
可以看到,每个时代之间不是替代关系,而是补充关系:不是说有了计算机,机械控制就没用了,而是通过计算机对机械控制赋能,让机械有了更强的能力,由此诞生出了更多的产品形态。
大模型也是一样,机器人进化和人类进化很类似:首先,机器人要能站得稳,能走直线,不会摔倒——对应到人脑,就是小脑部分要解决的问题;后来慢慢发展出了语音识别、图像识别,这时已经对应到了大脑中某个特定区域;到现在大模型出来之后,相当于进化到了前额叶的部分,AI也开始能具备一些“基本智力”。
所以,未来我们比较看好AI的三个方向:
1、根据常识处理异常:比如说自动驾驶,现在AI已经可以做到识别障碍物,但是如果路边有人举个牌,说前方桥断请绕行,AI能不能明白这些字的含义?再比如路上看到交警向你打手势,AI能不能根据常识,知道自己要靠边停车?
2、高层次抽象任务:比如说我和机器人说,“请把这个房间收拾一下”,再比如在仓库场景中说,“请按清单打包发货”,这些都属于高层次抽象任务——它不是一个单独的指令,而是要向下拆解成很多子任务和子指令。
3、主动感知:比如我让AI从冰箱里拿瓶水,打开冰箱后如果没看见水,机器就会停在这一步,但如果是人就知道再翻一下,看看水是不是放在最里面了?
以上种种这些,过去的AI还都做不到,但大模型很可能会实现。举个例子,现在微软使用GPT的技术,已经可以做到简单的抽象任务,比如你和机器人说“把饭热一下”,它知道要去找微波炉。
换句话说,现在已经可以通过语言模型,让机器人在热饭和微波炉之间建立联系——AI知道要找到微波炉,打开,把饭放进去。
包括谷歌、英伟达也都开始尝试,在大语言模型上加入跨模态和机器人操作,这方面网上的视频资料很多,也非常震撼,大家感兴趣可以找来看看。
二、大模型为机器人带来了哪些通用能力?有什么是值得我们憧憬的?
险峰:过去机器人更像一种专用设备,各种能力要依赖于工程师写代码,但大模型出现后,AI出现了泛化能力,GPT已经成功颠覆传统软件行业,那我们该如何憧憬大模型对机器人带来的影响?
嘉宾B:机器人虽然带了个“人”字,但它依然还是一个效率提升的工具,既然是工具就要分场景、分功能,比如天上用的和地下用的,室内用的和室外用的机器人肯定不一样。
所以,我认为很难出现一个可供所有机器人使用的统一大模型。更可能是不同专业公司,根据不同场景,搭建出一个个垂直大模型,再与机器人做深入的结合。
嘉宾C:我觉得带来的改变主要有三个方向:
第一是效率提升,比如高空擦玻璃,这个行业过去三五年最大的变化,是慢慢把高空工人替换成了机器人,因此效率提高了3-6倍,同时还收集了大量工艺参数,但这些参数还是要靠人做数据分析,如果可以通过大模型进行泛化,效率还会进一步提升。
第二是场景感知。举个例子,一块玻璃有没有洗干净,过去很难判断,因为户外场景下,光线环境非常复杂,不管是雷达、超声都不好使,只能靠人为判定,如果大模型可以让机器有了人的感知能力,自主判断一块玻璃是否达到了物业验收标准,就能进一步提效。
第三是产品设计。过去要做一款机器人产品,第一步先要访谈大量客户,梳理需求,形成产品洞见,一个产品成败50%取决于产品定义的方向选择,大家如果创过业应该都知道,写PRMID非常耗时,但现在可以借助大模型实现创新,比如把一部分工作交给GPT去解决。
嘉宾D:我们是做2C服务类机器人的,其实站在客户的视角,他不管你具体做的什么机器人,他的认知就你这东西能不能替代我一个人工?能不能够减员增效?但坦白讲现在的机器人很难实现1对1替代。
机器人拆开就四件事:感知、决策、控制、交互,现在这四件事机器都没办法做得像人,核心原因还是智能化水平不够。一年前我们还认为,没有任何方法能解决这些问题,但突然GPT出现了,现在我们也在尝试用它开发新的产品线。
但我认为至少5年内,还很难出现人形的大模型机器人,从我掌握的知识背景来看,挑战有点过大,如果大家对大模型机器人的憧憬是变形金刚或者高达,那可能还需要等很多年。
嘉宾E:大模型首先要有大数据,比如训练ChatGPT,用的是网上的文本文字,但是训练机器人,往往要用3D数据,网上没有现成的,只能靠人工采集,效率很低,所以之前我们看到一些机器人公司,采了半年的数据,训练的模型还是只能在局部环境里使用。
未来,大模型可能会不一样,比如可以在虚拟环境里训练AI,然后更高效地匹配真实世界;或者直接利用2D数据训练3D机器人,比如刚才主持人提到的,给机器人看人类搬东西的视频,慢慢机器人也学会了搬东西,这两种方法未来都有可能成功。
对于通用大模型机器人,我还是比较乐观的。我们说最简单的智能机器人其实是无人机,能跟随你拍照,但和周围环境还没有太多互动;后面出现了自动驾驶,AI开始和地面环境做交互;再后来有了机械臂,开始和真实世界直接物理接触。
整个过程中,难度其实是不断上升的,所以我觉得等自动驾驶完全成熟以后,通用型机器人就会慢慢出现,因为整条技术路线是相通的,可以慢慢迁移过去。
三、大模型给机器人交互方式带来哪些变化?
险峰:刚才大家谈了机器人如何感知、理解和执行任务,如果有一天大模型机器人具备了很超前的智力,在交互方式上会怎么变化?
嘉宾F:用户对于家用机器人可能会有期待,希望交互更顺畅、更智能,但我们做工业机器人的还没有迫切需求。工业场景中,语音交互一直也不是主流,大家还是更习惯用操作杆和遥控器;所以未来,VR+手势可能会是比较好的方向。
嘉宾G:我们做服务机器人的,交互方案已经很结构化了,就是给客户提供一个用起来很爽的pad——但我们也发现,客户仍然会不满足,因为服务行业普遍教育程度不是很高,他们不希望有任何学习成本,所以我认为,基于自然语言交互的服务型机器人一定会有需求。
嘉宾H:交互可以分成两类,一是机器与人的交互,二是机器与环境的交互。
人的交互,其实不只是和机器人,应该叫智能硬件+大模型,比如小爱或者小度,你告诉它把房间灯关了,有时不一定能真的关上,但有了大模型,它可以通过光线感知到灯到底有没有关。
另一个是多语言能力,比如之前只能和它用中文交流,现在可以多种语言切换,直接卖给海外客户,也不需要重建新的数据集。
还有就是陪伴和情感需求,特别是海外用户,比如英国一家做人形机器人的公司叫AMECA,大家可以搜搜它们的产品,已经有点恐怖谷效应了,未来机器人接入大模型后,对于需要情感陪伴的人可能是个好消息,尤其是老年人。
(图:AMECA机器人)
至于机器与环境的交互,我觉得核心竞争力还是要收集到每个细分场景的小模型。
举个例子,特斯拉要用人形机器人造车,就先要收集每个工艺环节的数据,比如把一块挡风玻璃安在车身上,机器人具体需要调动哪些“关节”和“肌肉”,如何判断安装的位置在哪,这是一整套非常专精的小模型。
现在国内也有公司在做类似的事情,用大模型底座调度生成自己的小模型,目前这条路看起来是走得通的。
嘉宾J:我认为人机交互方式越简单越好,以前我也用过很多智能家居,但是用到最后我宁愿不用,还是普通开关更方便。
其实最好的交互就是没有交互,比如我拿着一个大箱子往前走,机器人能知道要帮我开门,或者接过来帮我拿;我吃完饭走了,机器人知道应该要收拾餐具,类似于这些对人类意图的识别,如果大模型机器人具备了高级智力,或许更值得期待。
四、大模型能否解决机器人数据收集难、生成难的问题?
险峰:刚才很多嘉宾都提到,机器人训练数据“收集难、生成难”,大家如何看大模型对机器人数据的影响?会有哪些新的变化?
嘉宾K:目前我们的做法还是:前段靠仿真,中段靠真实作业效果,最后由人来做评估修正;我觉得不只是我们,现在很多工业场景里机器人的工作方式,在工艺层面已经和用人工完全不一样了,很难单纯地迁移过来,不是说看看人类的录像就能解决的。
嘉宾L:我觉得做通用人形机器人,收集数据可能没有那么难,我们内部讨论过,包括OpenAI的CTO也讲过类似的逻辑,就是人身上能收集到的数据密度其实挺高的,比如你给1万个人带上传感器,跑上一年所有数据都有了。
这件事本身不难,主要还是商业伦理的问题,但我觉得还是钱的问题,比如你给10万人装传感器,一人一年给10万美金,总会有人愿意,这个数据量也完全够用了。
嘉宾M:我展开讲讲数据收集,目前主要有三条技术路线:
一是收集动作库:它比较适合于生产流水线——每个工位上的动作不会有太大变化,但需要多次重复的任务;它的优点是只需要训练一次,后面机器人就不需要做大调整,但缺点是非常耗时。
比如PaLM-E,效果确实非常好,但为了训练它,谷歌用了13台机器人,收集了17个月数据,一共收集了亿个参数,而这还只是家用机器人,只需要一个底盘+一条机械臂+摄像头,如果是用在工业流水线上,采集的时间和数据量都是要翻倍的。
(图:谷歌的PaLM-E机器人)
第二条路线叫遥操作,也就是特斯拉正在做的:给人戴上VR和触觉传感器,把整套传感数据投射到机器人身上,直接告诉机器人如何像人一样运动。
比如腾讯做的四足机器狗,研究人员在一条金毛身上装了一套的动捕设备,再将收集到的数据抽象压缩到神经网络模型中;以前的机器狗动作极其僵硬,但用了金毛数据后的机器狗就变得非常灵活。
第三条路径叫模仿学习,就是人直接在机器人面前演示一遍,机器人就学会了。比如家政或者保洁工作,我打开洗衣机把东西放进去,只需要教一遍,不需要采集数据,也不需要动捕。
这个事情可能大家听起来比较科幻,但像CMU、MIT都已经发过不少论文,尽管还没有看到这个技术直接用在哪个场景上,但如果未来能实现,会是非常颠覆性的事情。
总之,目前每条技术路径上,都有很多公司或高校在尝试,最后很可能是几条路线混合在一起,发展出一套最适配的AI+机器人解决方案。所以这段时间,我们一直在密切
转载请注明:http://www.aideyishus.com/lkgx/5943.html