直线机

专访商汤智能产业研究院院长田丰冰山之下的

发布时间:2025/5/11 12:27:44   
白癜风专家李从悠 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/9lmgq2e/

钱学森在《从飞机、导弹说到生产过程的自动化》一书中写下:“用机器代替人的体力劳动,是第一次工业革命,即机械化;用机械系统来替人作非创造性的脑力劳动,是第二次工业革命,即自动化。”

3月15日,由工业和信息化部工业文化发展中心牵头成立的AI应用工作组主办,每日经济新闻承办、数智未来场景实验室协办的“Sora的启示:AI应用再飞跃”主题沙龙活动在京成功举办。

活动期间,商汤智能产业研究院院长田丰在接受《每日经济新闻》记者专访时提到,当前我们正在经历“机械化”到“自动化”阶段。

大模型,是人类迈向自动化的关键基础设施。随着Sora的推出,围绕大模型的竞争继续提速。就Sora带来的启示、智能基础设施的建设、算力的普惠之路,《每日经济新闻》记者与田丰展开对话。

田丰认为,我们既要借鉴OpenAI的“踏脚石理论”,同时也要学习钱学森所推崇的科研要遵循“冰山理论”。“我们不能只看水面上,别人做到哪儿,我们就马上去跟,也要看到水面之下应该怎么走。”田丰表示。

商汤智能产业研究院院长田丰图片来源:受访者提供

Sora的启示:寻找踏脚石

ScalingLaws(尺度定律),指的是模型训练计算量、训练数据规模、模型参数量与模型效能之间的正相关关系,一个更通俗的说法是“大力出奇迹”。

“Sora虽然不完美并且处于早期阶段,但它确实是尺度定律的又一次验证,也是一个大模型工程化的进展。”在田丰看来,Sora的诞生,首先代表着尺度定律的又一次成功。

田丰指出,Sora所采用的DiffusionTransformer(DiT)架构,是多种已有架构之间的工程化融合,故而具备Diffusion(扩散)等架构的长处,也不可避免地带有一些缺陷。目前,全球范围内的研究者同时在探索不同架构方向。田丰将这种探索比喻为一棵科技树,Sora是在其中某一条路径上领先,而其他研究者会在其他路径上积极探索,最终互相借鉴,让AI基础科研更快发展。

田丰认为,Sora所带来的另一个启示是,Sora是OpenAI迈向AGI(人工通用智能)的“踏脚石”。

“新奇事物的重要性在于,它们往往可以成为踏脚石探测器,因为任何新奇的东西,都是催生更新奇事物的潜在踏脚石。”OpenAI科学家在其撰写的《为什么伟大不能被计划》一书中,提到了“踏脚石”。

在专访中,田丰也反复提及“踏脚石理论”。他表示,在基础研发中,想达到A点,有可能需要往反方向走到B点,进而再到达A点。因为创造力是一种“搜索”,基础研发是在庞大“解空间”中通过多个路径深入探索,而无法完全通过目标找到最短的直线。“怎么去定义踏脚石,就是一定要有新奇性。”

田丰表示,基于这个理论,中国技术研发也要找到更多踏脚石。“你有更多的踏脚石之后,就能发现跨领域、跨学科的相关性,上面‘长’出的基础研发突破就会更多。”

除此之外,田丰同样谈到钱学森所推崇的“科研遵循‘冰山理论’”,即人们看到的AI“技术突变”只是水面之上的“冰山一角”,水面之下还有更多“隐藏创新”在支撑。“我们不能只看水面上,别人做到哪儿,我们就马上去跟,也要看到水面之下基础科研布局,应该怎么走。”

那在大模型竞争中,水面之下的技术应该如何挖掘?

田丰认为,目前大家有不同的探索方向。例如,自动驾驶的大模型旨在模拟现实世界,实现自动驾驶的仿真,并通过神经网络来完成感知、决策、执行及反馈等任务。而特斯拉将自动驾驶模式迁移到人形机器人上。于是,人形机器人的出现,又可以进一步作为数据和反馈来源,验证基础大模型对现实世界的认知误差、纠正幻觉。

当前对于大模型的验证还依赖于人类反馈强化学习(ReinforcementLearningfromHumanFeedback,简称RLHF),而这面临反馈速度慢、成本高以及人的自身认知偏差等问题。因此,科研界同样在尝试采用“具身智能”等其他新研究方向,以在复杂多变的物理世界环境中直接验证机器智能,让人工智能不再局限于对人的模仿,而是更直接地探索世界、纠偏认知。

“通往AGI的路,绝对不是只有一条。”田丰认为,基于这样多元化的探索,才会有可能逐步到达AGI。而单纯依靠模仿人类思考方式的大模型,对于极为复杂的整个物理世界,尤其是人类已知知识以外的更大的知识领域是无法去探索的。正如钱学森所说——“NothingisFinal”,现在认为正确的人类知识,在下一个时代看来就会具有局限性和偏差。

田丰在沙龙中演讲图片来源:每经记者韩阳摄

数据竞速:AI合成数据大有可为

对于通用大模型而言,尺度定律(ScalingLaws),有没有可能在某一阶段失效?

“(在)训练数据用光时”——这是田丰的答案。

田丰认为,数据多模态非常重要。“文字语言具有最高的知识密度,但是光有文字语言也不够,视觉和语言的融合也很重要。”他表示,纯视觉学习未必会学到物理之间的因果关系,视觉加语言的数据,会带来更好的训练效果,让大模型能够理解复杂环境、复杂任务中的表征和表意内容,也能让Sora现在存在的一些物理上的混乱,得到改善。

从数据层面看,田丰认为,目前存在多个潜在的训练数据增长点。

首要的是人们日常使用的应用。例如微博,每日有.6亿用户在微博发帖,这为模型训练提供了丰富的增量数据。其次,具身智能的传感技术,同样能够提供数据增量,例如自动驾驶汽车和人形机器人都是数据收集器。此外,商汤目前的卫星遥感智能解译技术,能够观察地球物理环境每一天发生的多维度变化,同样提供了大量的数据资源。

当现实世界产生的数据仍旧不足时,就需要同时在AI合成数据层面进行科研探索。田丰介绍,目前,合成数据仍处于前期阶段,生成的数据质量参差不齐。业界期待多模态大模型不仅能输入多模态数据,同时还能产出接近真实世界的高质量多模态数据。

但当前,如果视频数据自动标注的描述文字不精准,则会造成“Garbagein,garbageout”(指输入的垃圾数据会导致大模型输出的垃圾结果),其风险依旧摆在AI合成数据面前,各国AI基础科研团队正在攻坚。

对此,田丰则认为,业界都憧憬做成“世界模拟器”,但目前生成的视频数据与真实世界仍有较大距离。Sora所生成的最好的视频内容是“我的世界”游戏视频,几乎与玩家实际体验无异。这得益于OpenAI对“我的世界”游戏公司与游戏引擎的收购。

游戏引擎为了让玩家感觉更真实,无论是光照、纹理还是人和物体之间的交互,都比较接近现实世界。所以Sora用这样的训练数据来生成,使得大模型能够从中学习并理解游戏中的复杂因果关系,进而生成逼真的内容。更为重要的是,游戏世界会一直产生大量较低成本的世界仿真数据,比从现实中收集要快很多。

“但它(指Sora为代表的大模型)是不是真正理解现实世界、物理世界的所有因果规律?其实,人类目前仍没有完全理解和掌握。”田丰继续说道,从这个角度而言,合成数据很重要的一点是,我们应像对抗神经网络的逻辑一样,必须有另一个模型验证合成数据与事实的接近程度。

将视线聚焦于当前的数据竞争态势,田丰表示,中国拥有14亿人口,每天都在产生海量的数据,这就意味着巨大的潜力,我们有能力以更低的成本来采集这些数据。此外,中国还拥有亿的物联网终端,其中尚未采集到的各类数据——如工业传感信号等,都是极具价值的资源。若能成功采集到这些数据,将成为训练垂类大模型的优质素材,也能帮助大模型更深入地理解产业场景中事物之间的因果关系。此外,在合成数据方面,大家也均处于起步阶段,还在互相竞争。

田丰认为,人工智能是当今社会数据资源最大的需求方,若能在数据领域构建出完善的体制机制,使数据成为市场化流通的关键要素,那么便能在数据层面持续推动尺度定律,加速大模型的进步。

图片来源:每日经济新闻靳水平摄

如何实现AGI?两条路径并行

如何实现AGI?田丰提出两个方向。从生成智能的角度来看,生成式人工智能正在逐步转向更具创意性的工作,这需要更多大模型的“幻觉”想象力。在这条路径上,“幻觉”并不是坏事,创作科幻小说、科幻电影就体现出了这一点——想象力在其中扮演着至关重要的角色。爱因斯坦也曾经提出“想象力比知识更为重要”。另一个方向则更加侧重于科学和工业产业具体问题的解决,这就需要致力于减少幻觉,持续提高准确度和可靠性,一旦能够达到人类科学家、工程师的平均水平,突破“工业红线”,大模型就能全面普及到各个行业产业和科研领域。

在田丰看来,大模型实则是公共基础设施的一部分,是智能基础设施,而基础设施的特点就是重资产型、重资本型。

在现有情况下,大模型研发与应用是一个长期投资。一方面,基础模型不能跟进到GPT4,就自认为“领先全球”,另一方面,在国产基础模型与国际缩小差距的同时,也要积极探索新的发展方向。“开拓者创造方向,跟随者选择方向,领先者并不代表永远的成功,而可能被具有强大创新能力的跟随者赶超。”从这一角度看,长周期持续的人工智能基础科研、基础建设资本投入至关重要,这也是充分发挥制度创新的机遇。

尽管资本通常会

转载请注明:http://www.aideyishus.com/lkzp/8461.html

------分隔线----------------------------