AI的下一个前沿:不仅是推理,更是知道何时再次查看
2026/05/20 16:00阅读量 4
当前AI系统擅长推理,但缺乏与人类类似的元认知闭环——即高效感知不确定性并主动“再看一眼”的能力。主要瓶颈在于数据存储格式仍为单体式,导致AI无法按需分层、随机访问数据。文章提出分层随机访问的计算感知数据架构,使数据成为感知的API,对于实时视觉和物理AI至关重要。
事件概述
当前AI系统与人类认知的关键差异在于元认知(metacognition)——即对自身知道的与不知道的感知。人类会快速扫描环境、形成假设、感知不确定性,然后定向聚焦细节。AI虽然具备推理能力,但缺乏这样高效、低延迟的感知闭环。
核心问题:为什么AI无法“看更仔细”?
- 预测不等于自我认知:模型能生成可信答案,但内部缺乏“我需要更多证据”的可靠信号。
- 推理循环与感知循环脱节:即便模型能够思考,其依赖的视觉或传感器数据通常是“单次通过”的固定表征,而非动态查询。
- 数据层静态化:当前数据格式(如PDF、JPEG、视频)均为单体式,AI验证细节时必须完整加载和解码整个文件,无法廉价“扫视”后再对局部进行“注视”。
关键方向:计算感知的分层数据架构
Yann LeCun正推进联合嵌入预测架构(JEPA),Google则布局Agentic Vision。其共同核心是建立AI“大脑”与“感知”之间的反馈循环。但实时多传感器系统不能等待单体文件完全加载,需要具备以下能力:
- 快速获取数据的“概要”(gist)以形成假设
- 评估自身置信度
- 仅查询验证假设所需的特定高分辨率残差
实时场景下的紧迫性
对于视觉AI和物理AI(如自动驾驶、机器人、NVIDIA Cosmos),实时运行的系统无法通过批处理绕过效率瓶颈。瓶颈在于I/O、内存搬运和数据预处理,而非仅仅是更聪明的模型。如果每个传感器(雷达、激光雷达、4K视频、MRI等)都必须先完整获取和解码,AI才能判断数据是否相关,系统将变得缓慢、功耗高且难以扩展。
解决方案:数据即接口
需要使视觉数据具备分层、并行、可随机访问的特性,让应用只获取所需的质量层级、区域或平面。这种计算感知的数据架构,相当于将数据改造为AI感知的API,而非单体文件。
