大模型机器人,发展到什么阶段了_直线机优势

当前位置： 直线机 >> 直线机优势 >> 大模型机器人,发展到什么阶段了

大模型机器人,发展到什么阶段了

发布时间:2023/12/18 13:17:11

中国白癜风治疗去哪里 http://www.jk100f.com/baidianfengzixun/zhuyishixiang/22766.html

本文整理自险峰主题沙龙《AI浪潮下：机器人领域新机遇》，主持：邓卓兵，嘉宾：杨健勃、邵天兰、弭宝瞳、李宇浩、许华旸、曾祥永、谢思为、董豪，原文标题：《现实与梦想：聊聊AI与机器人》，头图来自：视觉中国

一、大模型+机器人发展到了什么阶段？如何看待未来的趋势？

嘉宾A：首先，大模型+机器人还处于非常早的技术探索期，一个很明显的特征就是技术路线还没开始收敛。

比如深度学习，年它刚登场时，和今天大模型一样惊艳，直接把图像识别准确率提升到了90%多，年又出现了AlphaGO，直到、19年，深度学习才逐渐收敛，最直观的反映就是高引论文开始没那么多了。

因为早期大家还在尝试不同路线，到后面慢慢形成共识，彼此的东西越做越像，模型结构上也就不会再有大的质变。目前大模型还远没到这个阶段，微软谷歌英伟达，彼此之间甚至连任务定义还都不一样。

第二是算力算法的进步速度。举个例子，年时，你用电脑跑一个5亿参数的模型（在今天看起来都属于小模型），动辄也要跑半个小时；但现在你用最常见的因特尔CPU，跑5亿参数只需要零点几秒，甚至不需要挂AI芯片，也几乎没有成本。

所以，我们今天看大模型创业，需要多少个GPU，一算账要好多钱，就觉得这件事干不了，但10年之后再看，这些可能都不是问题。现在英伟达等巨头都在算力方面发力，对此我还是比较有信心的。

第三是大模型+机器人还远未形成固定的产品形态。

我们看人类历史，机械的进步=控制力的进步：比如第一次工业革命，诞生了气缸这样的基础组件；到第二次工业革命，有了基础控制和自动化，人类开始能够通过机械操控机械；到计算机革命时代，有了PLC（可编程控制器），开始用电脑控制机械，再后来，我们用3D视觉AI控制机械，到现在用大模型控制机械。

可以看到，每个时代之间不是替代关系，而是补充关系：不是说有了计算机，机械控制就没用了，而是通过计算机对机械控制赋能，让机械有了更强的能力，由此诞生出了更多的产品形态。

大模型也是一样，机器人进化和人类进化很类似：首先，机器人要能站得稳，能走直线，不会摔倒——对应到人脑，就是小脑部分要解决的问题；后来慢慢发展出了语音识别、图像识别，这时已经对应到了大脑中某个特定区域；到现在大模型出来之后，相当于进化到了前额叶的部分，AI也开始能具备一些“基本智力”。

所以，未来我们比较看好AI的三个方向：

1、根据常识处理异常：比如说自动驾驶，现在AI已经可以做到识别障碍物，但是如果路边有人举个牌，说前方桥断请绕行，AI能不能明白这些字的含义？再比如路上看到交警向你打手势，AI能不能根据常识，知道自己要靠边停车？

2、高层次抽象任务：比如说我和机器人说，“请把这个房间收拾一下”，再比如在仓库场景中说，“请按清单打包发货”，这些都属于高层次抽象任务——它不是一个单独的指令，而是要向下拆解成很多子任务和子指令。

3、主动感知：比如我让AI从冰箱里拿瓶水，打开冰箱后如果没看见水，机器就会停在这一步，但如果是人就知道再翻一下，看看水是不是放在最里面了？

以上种种这些，过去的AI还都做不到，但大模型很可能会实现。举个例子，现在微软使用GPT的技术，已经可以做到简单的抽象任务，比如你和机器人说“把饭热一下”，它知道要去找微波炉。

换句话说，现在已经可以通过语言模型，让机器人在热饭和微波炉之间建立联系——AI知道要找到微波炉，打开，把饭放进去。

包括谷歌、英伟达也都开始尝试，在大语言模型上加入跨模态和机器人操作，这方面网上的视频资料很多，也非常震撼，大家感兴趣可以找来看看。

二、大模型为机器人带来了哪些通用能力？有什么是值得我们憧憬的？

险峰：过去机器人更像一种专用设备，各种能力要依赖于工程师写代码，但大模型出现后，AI出现了泛化能力，GPT已经成功颠覆传统软件行业，那我们该如何憧憬大模型对机器人带来的影响？

嘉宾B：机器人虽然带了个“人”字，但它依然还是一个效率提升的工具，既然是工具就要分场景、分功能，比如天上用的和地下用的，室内用的和室外用的机器人肯定不一样。

所以，我认为很难出现一个可供所有机器人使用的统一大模型。更可能是不同专业公司，根据不同场景，搭建出一个个垂直大模型，再与机器人做深入的结合。

嘉宾C：我觉得带来的改变主要有三个方向：

第一是效率提升，比如高空擦玻璃，这个行业过去三五年最大的变化，是慢慢把高空工人替换成了机器人，因此效率提高了3-6倍，同时还收集了大量工艺参数，但这些参数还是要靠人做数据分析，如果可以通过大模型进行泛化，效率还会进一步提升。

第二是场景感知。举个例子，一块玻璃有没有洗干净，过去很难判断，因为户外场景下，光线环境非常复杂，不管是雷达、超声都不好使，只能靠人为判定，如果大模型可以让机器有了人的感知能力，自主判断一块玻璃是否达到了物业验收标准，就能进一步提效。

第三是产品设计。过去要做一款机器人产品，第一步先要访谈大量客户，梳理需求，形成产品洞见，一个产品成败50%取决于产品定义的方向选择，大家如果创过业应该都知道，写PRMID非常耗时，但现在可以借助大模型实现创新，比如把一部分工作交给GPT去解决。

嘉宾D：我们是做2C服务类机器人的，其实站在客户的视角，他不管你具体做的什么机器人，他的认知就你这东西能不能替代我一个人工？能不能够减员增效？但坦白讲现在的机器人很难实现1对1替代。

机器人拆开就四件事：感知、决策、控制、交互，现在这四件事机器都没办法做得像人，核心原因还是智能化水平不够。一年前我们还认为，没有任何方法能解决这些问题，但突然GPT出现了，现在我们也在尝试用它开发新的产品线。

但我认为至少5年内，还很难出现人形的大模型机器人，从我掌握的知识背景来看，挑战有点过大，如果大家对大模型机器人的憧憬是变形金刚或者高达，那可能还需要等很多年。

嘉宾E：大模型首先要有大数据，比如训练ChatGPT，用的是网上的文本文字，但是训练机器人，往往要用3D数据，网上没有现成的，只能靠人工采集，效率很低，所以之前我们看到一些机器人公司，采了半年的数据，训练的模型还是只能在局部环境里使用。

未来，大模型可能会不一样，比如可以在虚拟环境里训练AI，然后更高效地匹配真实世界；或者直接利用2D数据训练3D机器人，比如刚才主持人提到的，给机器人看人类搬东西的视频，慢慢机器人也学会了搬东西，这两种方法未来都有可能成功。

对于通用大模型机器人，我还是比较乐观的。我们说最简单的智能机器人其实是无人机，能跟随你拍照，但和周围环境还没有太多互动；后面出现了自动驾驶，AI开始和地面环境做交互；再后来有了机械臂，开始和真实世界直接物理接触。

整个过程中，难度其实是不断上升的，所以我觉得等自动驾驶完全成熟以后，通用型机器人就会慢慢出现，因为整条技术路线是相通的，可以慢慢迁移过去。

三、大模型给机器人交互方式带来哪些变化？

险峰：刚才大家谈了机器人如何感知、理解和执行任务，如果有一天大模型机器人具备了很超前的智力，在交互方式上会怎么变化？

嘉宾F：用户对于家用机器人可能会有期待，希望交互更顺畅、更智能，但我们做工业机器人的还没有迫切需求。工业场景中，语音交互一直也不是主流，大家还是更习惯用操作杆和遥控器；所以未来，VR+手势可能会是比较好的方向。

嘉宾G：我们做服务机器人的，交互方案已经很结构化了，就是给客户提供一个用起来很爽的pad——但我们也发现，客户仍然会不满足，因为服务行业普遍教育程度不是很高，他们不希望有任何学习成本，所以我认为，基于自然语言交互的服务型机器人一定会有需求。

嘉宾H：交互可以分成两类，一是机器与人的交互，二是机器与环境的交互。

人的交互，其实不只是和机器人，应该叫智能硬件+大模型，比如小爱或者小度，你告诉它把房间灯关了，有时不一定能真的关上，但有了大模型，它可以通过光线感知到灯到底有没有关。

另一个是多语言能力，比如之前只能和它用中文交流，现在可以多种语言切换，直接卖给海外客户，也不需要重建新的数据集。

还有就是陪伴和情感需求，特别是海外用户，比如英国一家做人形机器人的公司叫AMECA，大家可以搜搜它们的产品，已经有点恐怖谷效应了，未来机器人接入大模型后，对于需要情感陪伴的人可能是个好消息，尤其是老年人。

（图：AMECA机器人）

至于机器与环境的交互，我觉得核心竞争力还是要收集到每个细分场景的小模型。

举个例子，特斯拉要用人形机器人造车，就先要收集每个工艺环节的数据，比如把一块挡风玻璃安在车身上，机器人具体需要调动哪些“关节”和“肌肉”，如何判断安装的位置在哪，这是一整套非常专精的小模型。

现在国内也有公司在做类似的事情，用大模型底座调度生成自己的小模型，目前这条路看起来是走得通的。

嘉宾J：我认为人机交互方式越简单越好，以前我也用过很多智能家居，但是用到最后我宁愿不用，还是普通开关更方便。

其实最好的交互就是没有交互，比如我拿着一个大箱子往前走，机器人能知道要帮我开门，或者接过来帮我拿；我吃完饭走了，机器人知道应该要收拾餐具，类似于这些对人类意图的识别，如果大模型机器人具备了高级智力，或许更值得期待。

四、大模型能否解决机器人数据收集难、生成难的问题？

险峰：刚才很多嘉宾都提到，机器人训练数据“收集难、生成难”，大家如何看大模型对机器人数据的影响？会有哪些新的变化？

嘉宾K：目前我们的做法还是：前段靠仿真，中段靠真实作业效果，最后由人来做评估修正；我觉得不只是我们，现在很多工业场景里机器人的工作方式，在工艺层面已经和用人工完全不一样了，很难单纯地迁移过来，不是说看看人类的录像就能解决的。

嘉宾L：我觉得做通用人形机器人，收集数据可能没有那么难，我们内部讨论过，包括OpenAI的CTO也讲过类似的逻辑，就是人身上能收集到的数据密度其实挺高的，比如你给1万个人带上传感器，跑上一年所有数据都有了。

这件事本身不难，主要还是商业伦理的问题，但我觉得还是钱的问题，比如你给10万人装传感器，一人一年给10万美金，总会有人愿意，这个数据量也完全够用了。

嘉宾M：我展开讲讲数据收集，目前主要有三条技术路线：

一是收集动作库：它比较适合于生产流水线——每个工位上的动作不会有太大变化，但需要多次重复的任务；它的优点是只需要训练一次，后面机器人就不需要做大调整，但缺点是非常耗时。

比如PaLM-E，效果确实非常好，但为了训练它，谷歌用了13台机器人，收集了17个月数据，一共收集了亿个参数，而这还只是家用机器人，只需要一个底盘+一条机械臂+摄像头，如果是用在工业流水线上，采集的时间和数据量都是要翻倍的。

（图：谷歌的PaLM-E机器人）

第二条路线叫遥操作，也就是特斯拉正在做的：给人戴上VR和触觉传感器，把整套传感数据投射到机器人身上，直接告诉机器人如何像人一样运动。

比如腾讯做的四足机器狗，研究人员在一条金毛身上装了一套的动捕设备，再将收集到的数据抽象压缩到神经网络模型中；以前的机器狗动作极其僵硬，但用了金毛数据后的机器狗就变得非常灵活。

第三条路径叫模仿学习，就是人直接在机器人面前演示一遍，机器人就学会了。比如家政或者保洁工作，我打开洗衣机把东西放进去，只需要教一遍，不需要采集数据，也不需要动捕。

这个事情可能大家听起来比较科幻，但像CMU、MIT都已经发过不少论文，尽管还没有看到这个技术直接用在哪个场景上，但如果未来能实现，会是非常颠覆性的事情。

总之，目前每条技术路径上，都有很多公司或高校在尝试，最后很可能是几条路线混合在一起，发展出一套最适配的AI+机器人解决方案。所以这段时间，我们一直在密切

转载请注明:http://www.aideyishus.com/lkgx/5943.html

------分隔线----------------------------

上一篇文章：在线直线度测量仪安装在矫直机前提供实时数
下一篇文章：划重点二轮复习各科该如何拉开差距

热点文章

想胸肌更大更饱满厚实,必须加强胸

大模型机器人,发展到什么阶段了

最新文章

热点文章

推荐文章