vivo胡柏山:在AI同质化时代,以“感知能力”构建端侧护城河
vivo总裁胡柏山在博鳌亚洲论坛提出,随着算力和模型能力的供应链化与开源化,端侧AI竞争核心将转向“感知能力”,即连接数字世界与物理世界的能力。vivo正通过光学、成像处理及感知理解三层架构,将手机打造为具备视觉、听觉等多模态感知的终端,并以此为基础推动智能手机向主动服务的Agent Phone演进。此外,vivo计划将这一感知中枢延伸至IoT生态及机器人领域,强调长期技术投入而非短期热点追逐。
事件概述
2026年3月,在博鳌亚洲论坛上,vivo总裁、首席运营官胡柏山针对当前AI行业的焦虑情绪提出了“冷静”的战略判断:算力终将同质化,感知才是未来的护城河。面对行业普遍存在的“大模型狂飙”和参数规模竞赛,vivo选择聚焦端侧AI与产业链协同,致力于解决AI如何真正理解物理世界的问题。
核心战略:感知能力赛道
vivo认为,随着芯片工艺进步(如联发科、高通、苹果等旗舰SoC的AI算力提升)以及开源大模型(如Llama、Gemma、Qwen系列)的成熟,算力和模型能力已不再是稀缺资源或竞争壁垒。企业必须寻找新的差异化方向,vivo给出的答案是以影像为基础,构建AI落地物理世界的视觉感知中枢。
该战略的技术架构包含三层:
- 光学系统层:决定“看得到”的边界。vivo通过与蔡司的深度合作,持续优化镜头设计、镀膜工艺及色彩科学。
- 成像处理层:决定“看得清”的能力。依托自研V3影像芯片(6nm制程,AI算力提升40%),支持4K级别实时画面增强、多帧降噪及HDR融合。
- 感知理解层:决定“看得懂”的深度。这是核心差异化所在,利用蓝心大模型矩阵对图像和视频进行深度语义分析,识别物体、场景、关系及用户情绪,将物理世界的信息转化为可决策的数字信号。
Agent Phone:从被动工具到主动伙伴
胡柏山指出,智能手机将进化为Agent Phone(智能代理手机)。两者的本质区别在于交互逻辑:
- 传统智能手机:基于“输入-反馈”模式,处于被动响应状态。
- Agent Phone:基于“感知-理解-行动”模式,能够主动感知环境、理解用户需求并预判行动。
实现这一转变的关键挑战包括意图理解(从模糊表述推断真实需求)、任务规划(跨App、跨服务的自动拆解与执行)以及隐私边界。vivo的解法是将感知和推理过程尽可能保留在端侧,通过与Arm、联发科建立联合实验室,以及与清华、北大等高校合作,共同定义面向端侧AI的新一代算力架构。
产品落地与生态延伸
- 阶段性成果:vivo宣布即将发布搭载相机Agent能力的新一代旗舰机型X300 Ultra与X300s,展示Agent Phone的核心能力,但明确表示这并非终极形态。
- IoT生态角色:vivo计划将手机作为IoT生态的“眼睛”,通过汇聚多维感知信息,实现对电视、音箱、空调等设备的统一智能调度。
- 机器人布局:vivo成立机器人Lab,专注于室内三维重建、动态障碍物识别等感知技术突破。其目标并非直接推出消费级机器人,而是将手机积累的影像技术与AI算法外溢至机器人领域,使其成为感知生态的延伸载体。
战略定力
胡柏山引用《道德经》“企者不立,跨者不行”,强调感知能力的构建需要五年甚至十年的长期投入,短期内难以变现。在行业追逐热点的背景下,vivo选择坚持长期主义,相信时间会犒赏那些愿意在基础技术上“下笨功夫”的企业。
