让物理世界学会思考，高通Nakul在MWC解读工业AI和具身智能

2026/03/05 11:59阅读量 5

在2026年MWC上，高通执行副总裁Nakul Duggal指出人工智能正从云端向边缘侧深度下沉，以“世界模型”为核心的系统性智能成为竞争新制高点。高通通过收购Arduino构建开发者生态，推动视觉-语言-行动（VLA）模型及具身智能在工业与机器人领域的规模化落地。他强调生成式AI将打破传统规则束缚，而硬件架构的优化是未来实现通用具身智能的关键基础。

大家上午好！感谢各位的邀请。各位的发言非常精彩，很高兴能与在座各位同仁共聚一堂。
我们正看到，随着各行各业开始拥抱人工智能，整个工业生态系统正在经历一场巨大的变革。过去几年，当我们思考网络如何构建、产业如何发展以及解决方案如何部署时，主流路径是将智能迁移到云端，并在云端完成处理。然而，随着人工智能开始大规模部署，越来越多的行业正在重新思考：AI在日常工作中发挥的作用。正如多位同仁此前所提到的，边缘正变得越来越智能，模型能力也在不断提升，这使我们能够在多个平台上推动解决方案的落地。这一趋势几乎适用于所有垂直行业生态。
此外，我们开始看到AI在边缘侧部署的环境非常广泛。这些场景涵盖移动应用、固定场景应用，以及在许多情况下的无人化应用，当然还包括各种尺寸的终端。
当我们从更宏观的角度思考这一变化究竟意味着什么、究竟发生了哪些改变时，可以看到一个根本性的转变：随着边缘侧变得越来越智能，它正在具备环境感知能力（situational awareness），并能够在边缘侧直接做出决策，而在过去这需要依赖云端来完成。过去五年间，模型变得越来越智能，并且越来越贴合其运行的数据环境。随着模型具备更强的模式识别能力，并能够在真实世界运行中不断学习和优化，智能体正在各类应用场景中变得越来越智能。
与此同时，我们也正在看到机器到机器（machine-to-machine, M2M）应用的重大转变。过去，这类应用更多是采集数据并发送到云端处理；而现在，它们正逐渐在实现独立智能运行。除了机器之间的交互之外，随着大语言模型（LLM）的发展，当人被纳入系统闭环后，机器与人之间进行沟通和交互也变得非常直接和简单。而这一整轮转型，正在我们所处的每一个产业生态系统中展开。
在过去几年中，高通一直在一个重要领域表现突出，那就是将XR技术引入工业应用、消费应用以及商业应用生态之中。如今，人们已经可以在智能眼镜等设备上运行小型模型。例如，当你看到某个事物时，可以让眼镜拍下一张照片，并直接向设备提出问题。随后，这个查询请求可以被发送到你的手机，或同一系统中的本地设备，无需通过云端进行处理，然后再将答案返回给你。这种能力在过去是无法实现的。在与客户的交流中我们发现，这类技术进步正在彻底改变一线工作人员的工作方式，同时也在改变智能能力在边缘侧部署和应用的方式。
要让这一切真正发生，实际上需要使用全新的工具。你需要能够以新的方式处理数据——无论是结构化数据、半结构化数据，还是各种形式的非结构化数据，都必须具备处理能力。同时，还需要能够处理真实世界数据，在许多情况下还包括合成数据，并在不同场景中对数据进行很好地融合与整合。通过这些数据对模型进行训练，并进一步微调，最终将这些模型部署到实际应用中。
随着这一工具在越来越多的应用场景中运行，其能力正变得越来越强大，发展势头也在不断增强。通过这种方式，我们就有可能将人工智能真正推进到边缘侧。除了持续推出各类产品之外，我们采取的一个重要策略，是专注于构建生态系统。在过去六个月中，高通完成的一项重要收购就是Arduino。
我们意识到，当开始思考AI和边缘计算时，未来可能出现的应用场景几乎是无限的。实际上，很难提前预测或判断未来究竟会出现哪些具体应用。因此，我们采取的方法是：确保能够将技术交到数百万开发者手中。这一策略可以覆盖教育领域、商业领域以及消费领域。从硬件开发平台到开发工具链，我们为开发者提供完整的能力，使他们能够在边缘侧构建应用。
通过这样的方式，我们正在把这一整套能力整合起来，使开发者生态能够获得数据访问能力——无论是示例应用（sample apps），还是连接他们自己的数据库。同时，开发者还可以编程模型、在边缘硬件平台上部署模型，并且这一平台具有较低成本。这些模型随后可以通过反馈闭环不断训练与优化，并最终在广泛的工业生态系统中部署应用。正是通过这种方式，我们能够推动非常复杂的应用真正落地。
在这个例子中，我们可以看：计算机视觉正逐步演进到视觉语言模型，并进一步迈向视觉-语言-行动模型（VLA模型）。这一演进让我们能够以一种全新的架构方式来思考系统设计——例如摄像头与连接能力如何协同工作，从而对摄像头所看到的场景进行完整的态势感知与分析，并将这些信息实时提供给整个生态系统使用。
目前，我们正在多个应用场景中推进这类能力的发展。例如：部署在边缘侧的固定摄像头、安装在工业网关上的摄像头，以及安装在无人机上的摄像头。这些设备可以通过各种无线网络进行连接，无论是专用无线网络、公共无线网络，还是其他类型的专有或开放网络，都可以支持相关应用的运行，应用既可以结合云端能力，也可以使用本地部署的计算设备。因此，各种不同的部署模式都是可行的。而令人惊讶的是，这些能力真正变得现实，其实只是在过去大约24个月甚至更短的时间内发生的，发展速度非常快。
对我们来说，一个重要的认识是：客户正在采用的网络架构将会发生变化。正如大家刚才提到的，要让智能能力真正下沉到边缘侧，整个生态系统还需要完成大量的能力建设与协同。
我们正处在一个非常令人振奋的时代。我相信大家都会同意，“具身智能”（Embodied AI）是一个相对新的概念。我们过去并未充分认识到智能正被嵌入进物理世界，而如今，让物理实体具备智能、能够学习，并在学习过程中持续改进，已经成为一个全新的方向。我们正在朝着在机器人中实现通用智能的道路迈进。
从根本上看，生成式AI的出现带来了重要变化。它使我们能够摆脱传统基于规则的系统，转而构建能够适用于各种环境的智能系统——无论是在云端、边缘侧，还是在机器人之中——都能具备持续学习的能力。
当把这一能力应用到机器人领域时，一个非常有意思、但同时也充满挑战的问题是：机器人需要面对的环境往往并不是结构化环境。机器人并不是运行在虚拟世界中，而是运行在真实的物理世界里。因此，在很多方面仍然有大量工作需要完成，例如：如何定义机器人所处的物理环境，以及如何对机器人进行训练——尤其是在需要高精度操作、高速度响应，以及与人协同工作的场景下。
目前，我们仍处在这一转型的早期阶段。但人工智能发展的速度，以及AI算法在特定任务上不断提升精度和能力的速度，已经开始明显加快。
从高通公司的角度来看，这段发展历程其实非常有意思。我在高通负责多个业务领域，其中我们已经在ADAS驾驶辅助领域深耕多年。我们逐渐认识到，从根本上来说，驾驶辅助就是将人或货物从 A 点运输到 B 点。某种意义上，它其实是一种运输机器人。这种系统并不需要具备很高的灵活性，它主要需要做的是在遵循既定规则的前提下避开障碍物并完成路径行驶。因此，从驾驶辅助的定义来看，可以说基于规则的驾驶辅助其实已经存在了很长时间。而随着基于 Transformer 的人工智能技术开始应用，如果将这些能力引入其中，这一领域的发展正在开始加速。
但如果把这些能力进一步应用到真正的物理机器人上，就会出现许多不同之处。机器人需要面对的是精度、操作范围以及执行等问题。在这种情况下，目标不再只是从 A 点移动到 B 点，而是要真正对物体进行物理操作，并完成具体任务。
正是在这一背景下，我们发现架构层面正在发生新的变化。模型将越来越依赖于视觉、语言和行动的结合，而在此基础之上，我们还将进一步提升系统能力，使其具备物理智能。
所有这些发展也带来了一个新的问题：我们是否可以在不考虑物理硬件形态的情况下，直接为具身对象部署人工智能？我们认为，具身智能系统中的物理硬件，其实类似于大脑和神经系统。这套“神经系统”在过去并没有被我们真正视为人工智能生态系统中的一部分。因此，我们正在投入大量时间思考：未来应该构建怎样的系统架构，去统筹身体各个部分，例如四肢、双手以及各种执行启等。
在这一过程中，我们看到 Daniel Kahneman 提出的系统1（System 1）思维——也就是说，需要思考哪些能力属于类似“系统1”的能力。这些能力帮助我们更好地理解，未来系统中哪些基础能力和核心组件需要被构建。
从根本上来说，我们认为硬件本身以及不同类型的硬件，再加上硬件对数据的基础获取能力以及对机器人实际运行环境的接入能力——也就是机器人真正存在并执行任务的环境——都将成为关键基础。这些因素将决定我们如何采集任务相关的数据、训练机器人，并将任务训练逐步转化为我们所构建的技能能力。随着时间推移，通过持续的数据采集和技能训练，并结合针对具体任务设计的硬件，我们将能够推动具身智能迈向新的阶段。
我们确实生活在一个非常令人兴奋的时代。很高兴今天能在这里与大家交流，非常感谢大家的时间。

阅读原文详情

准备好启动您的定制项目了吗？