专访商汤智能产业研究院院长田丰冰山之下的_直线机资源

当前位置： 直线机 >> 直线机资源 >> 专访商汤智能产业研究院院长田丰冰山之下的

专访商汤智能产业研究院院长田丰冰山之下的

发布时间:2025/5/11 12:27:44

白癜风专家李从悠 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/9lmgq2e/

钱学森在《从飞机、导弹说到生产过程的自动化》一书中写下：“用机器代替人的体力劳动，是第一次工业革命，即机械化；用机械系统来替人作非创造性的脑力劳动，是第二次工业革命，即自动化。”

3月15日，由工业和信息化部工业文化发展中心牵头成立的AI应用工作组主办，每日经济新闻承办、数智未来场景实验室协办的“Sora的启示：AI应用再飞跃”主题沙龙活动在京成功举办。

活动期间，商汤智能产业研究院院长田丰在接受《每日经济新闻》记者专访时提到，当前我们正在经历“机械化”到“自动化”阶段。

大模型，是人类迈向自动化的关键基础设施。随着Sora的推出，围绕大模型的竞争继续提速。就Sora带来的启示、智能基础设施的建设、算力的普惠之路，《每日经济新闻》记者与田丰展开对话。

田丰认为，我们既要借鉴OpenAI的“踏脚石理论”，同时也要学习钱学森所推崇的科研要遵循“冰山理论”。“我们不能只看水面上，别人做到哪儿，我们就马上去跟，也要看到水面之下应该怎么走。”田丰表示。

商汤智能产业研究院院长田丰图片来源：受访者提供

Sora的启示：寻找踏脚石

ScalingLaws（尺度定律），指的是模型训练计算量、训练数据规模、模型参数量与模型效能之间的正相关关系，一个更通俗的说法是“大力出奇迹”。

“Sora虽然不完美并且处于早期阶段，但它确实是尺度定律的又一次验证，也是一个大模型工程化的进展。”在田丰看来，Sora的诞生，首先代表着尺度定律的又一次成功。

田丰指出，Sora所采用的DiffusionTransformer（DiT）架构，是多种已有架构之间的工程化融合，故而具备Diffusion（扩散）等架构的长处，也不可避免地带有一些缺陷。目前，全球范围内的研究者同时在探索不同架构方向。田丰将这种探索比喻为一棵科技树，Sora是在其中某一条路径上领先，而其他研究者会在其他路径上积极探索，最终互相借鉴，让AI基础科研更快发展。

田丰认为，Sora所带来的另一个启示是，Sora是OpenAI迈向AGI（人工通用智能）的“踏脚石”。

“新奇事物的重要性在于，它们往往可以成为踏脚石探测器，因为任何新奇的东西，都是催生更新奇事物的潜在踏脚石。”OpenAI科学家在其撰写的《为什么伟大不能被计划》一书中，提到了“踏脚石”。

在专访中，田丰也反复提及“踏脚石理论”。他表示，在基础研发中，想达到A点，有可能需要往反方向走到B点，进而再到达A点。因为创造力是一种“搜索”，基础研发是在庞大“解空间”中通过多个路径深入探索，而无法完全通过目标找到最短的直线。“怎么去定义踏脚石，就是一定要有新奇性。”

田丰表示，基于这个理论，中国技术研发也要找到更多踏脚石。“你有更多的踏脚石之后，就能发现跨领域、跨学科的相关性，上面‘长’出的基础研发突破就会更多。”

除此之外，田丰同样谈到钱学森所推崇的“科研遵循‘冰山理论’”，即人们看到的AI“技术突变”只是水面之上的“冰山一角”，水面之下还有更多“隐藏创新”在支撑。“我们不能只看水面上，别人做到哪儿，我们就马上去跟，也要看到水面之下基础科研布局，应该怎么走。”

那在大模型竞争中，水面之下的技术应该如何挖掘？

田丰认为，目前大家有不同的探索方向。例如，自动驾驶的大模型旨在模拟现实世界，实现自动驾驶的仿真，并通过神经网络来完成感知、决策、执行及反馈等任务。而特斯拉将自动驾驶模式迁移到人形机器人上。于是，人形机器人的出现，又可以进一步作为数据和反馈来源，验证基础大模型对现实世界的认知误差、纠正幻觉。

当前对于大模型的验证还依赖于人类反馈强化学习（ReinforcementLearningfromHumanFeedback，简称RLHF），而这面临反馈速度慢、成本高以及人的自身认知偏差等问题。因此，科研界同样在尝试采用“具身智能”等其他新研究方向，以在复杂多变的物理世界环境中直接验证机器智能，让人工智能不再局限于对人的模仿，而是更直接地探索世界、纠偏认知。

“通往AGI的路，绝对不是只有一条。”田丰认为，基于这样多元化的探索，才会有可能逐步到达AGI。而单纯依靠模仿人类思考方式的大模型，对于极为复杂的整个物理世界，尤其是人类已知知识以外的更大的知识领域是无法去探索的。正如钱学森所说——“NothingisFinal”，现在认为正确的人类知识，在下一个时代看来就会具有局限性和偏差。

田丰在沙龙中演讲图片来源：每经记者韩阳摄

数据竞速：AI合成数据大有可为

对于通用大模型而言，尺度定律（ScalingLaws），有没有可能在某一阶段失效？

“（在）训练数据用光时”——这是田丰的答案。

田丰认为，数据多模态非常重要。“文字语言具有最高的知识密度，但是光有文字语言也不够，视觉和语言的融合也很重要。”他表示，纯视觉学习未必会学到物理之间的因果关系，视觉加语言的数据，会带来更好的训练效果，让大模型能够理解复杂环境、复杂任务中的表征和表意内容，也能让Sora现在存在的一些物理上的混乱，得到改善。

从数据层面看，田丰认为，目前存在多个潜在的训练数据增长点。

首要的是人们日常使用的应用。例如微博，每日有.6亿用户在微博发帖，这为模型训练提供了丰富的增量数据。其次，具身智能的传感技术，同样能够提供数据增量，例如自动驾驶汽车和人形机器人都是数据收集器。此外，商汤目前的卫星遥感智能解译技术，能够观察地球物理环境每一天发生的多维度变化，同样提供了大量的数据资源。

当现实世界产生的数据仍旧不足时，就需要同时在AI合成数据层面进行科研探索。田丰介绍，目前，合成数据仍处于前期阶段，生成的数据质量参差不齐。业界期待多模态大模型不仅能输入多模态数据，同时还能产出接近真实世界的高质量多模态数据。

但当前，如果视频数据自动标注的描述文字不精准，则会造成“Garbagein,garbageout”（指输入的垃圾数据会导致大模型输出的垃圾结果），其风险依旧摆在AI合成数据面前，各国AI基础科研团队正在攻坚。

对此，田丰则认为，业界都憧憬做成“世界模拟器”，但目前生成的视频数据与真实世界仍有较大距离。Sora所生成的最好的视频内容是“我的世界”游戏视频，几乎与玩家实际体验无异。这得益于OpenAI对“我的世界”游戏公司与游戏引擎的收购。

游戏引擎为了让玩家感觉更真实，无论是光照、纹理还是人和物体之间的交互，都比较接近现实世界。所以Sora用这样的训练数据来生成，使得大模型能够从中学习并理解游戏中的复杂因果关系，进而生成逼真的内容。更为重要的是，游戏世界会一直产生大量较低成本的世界仿真数据，比从现实中收集要快很多。

“但它（指Sora为代表的大模型）是不是真正理解现实世界、物理世界的所有因果规律？其实，人类目前仍没有完全理解和掌握。”田丰继续说道，从这个角度而言，合成数据很重要的一点是，我们应像对抗神经网络的逻辑一样，必须有另一个模型验证合成数据与事实的接近程度。

将视线聚焦于当前的数据竞争态势，田丰表示，中国拥有14亿人口，每天都在产生海量的数据，这就意味着巨大的潜力，我们有能力以更低的成本来采集这些数据。此外，中国还拥有亿的物联网终端，其中尚未采集到的各类数据——如工业传感信号等，都是极具价值的资源。若能成功采集到这些数据，将成为训练垂类大模型的优质素材，也能帮助大模型更深入地理解产业场景中事物之间的因果关系。此外，在合成数据方面，大家也均处于起步阶段，还在互相竞争。

田丰认为，人工智能是当今社会数据资源最大的需求方，若能在数据领域构建出完善的体制机制，使数据成为市场化流通的关键要素，那么便能在数据层面持续推动尺度定律，加速大模型的进步。

图片来源：每日经济新闻靳水平摄

如何实现AGI？两条路径并行

如何实现AGI？田丰提出两个方向。从生成智能的角度来看，生成式人工智能正在逐步转向更具创意性的工作，这需要更多大模型的“幻觉”想象力。在这条路径上，“幻觉”并不是坏事，创作科幻小说、科幻电影就体现出了这一点——想象力在其中扮演着至关重要的角色。爱因斯坦也曾经提出“想象力比知识更为重要”。另一个方向则更加侧重于科学和工业产业具体问题的解决，这就需要致力于减少幻觉，持续提高准确度和可靠性，一旦能够达到人类科学家、工程师的平均水平，突破“工业红线”，大模型就能全面普及到各个行业产业和科研领域。

在田丰看来，大模型实则是公共基础设施的一部分，是智能基础设施，而基础设施的特点就是重资产型、重资本型。

在现有情况下，大模型研发与应用是一个长期投资。一方面，基础模型不能跟进到GPT4，就自认为“领先全球”，另一方面，在国产基础模型与国际缩小差距的同时，也要积极探索新的发展方向。“开拓者创造方向，跟随者选择方向，领先者并不代表永远的成功，而可能被具有强大创新能力的跟随者赶超。”从这一角度看，长周期持续的人工智能基础科研、基础建设资本投入至关重要，这也是充分发挥制度创新的机遇。

尽管资本通常会

转载请注明:http://www.aideyishus.com/lkzp/8461.html

------分隔线----------------------------

上一篇文章：重磅利好来袭,6只人形机器人优质股,
下一篇文章：迈瑞投资,这一械企开启申购

热点文章

手绘线条的训练方法最基础的线条

专访商汤智能产业研究院院长田丰冰山之下的

最新文章

热点文章

推荐文章