Google I/O 发布 Seedance 2.0 等多款 AI 更新;DeepSeek 回应模型异常回复;苹果推出 AI 加持的无障碍功能

2026/05/20 08:09阅读量 4

Google I/O 大会发布多模态模型 Gemini Omni 和 Gemini 3.5 Flash,以及个人 AI 智能体 Gemini Spark 等新品;DeepSeek 回应特殊字符触发模型幻觉问题;苹果宣布将 Apple Intelligence 引入无障碍功能,包括 VoiceOver 图像探索和语音控制自然语言输入。AMD 首次在中国举办 AI 开发者大会,提出“智能体主机”概念。美图领投 Visual Agent 公司 Chance AI 数百万美元天使轮融资。

Google 发布 Seedance 2.0 最强对手,还有一堆 AI 更新

Google 在 I/O 大会上集中发布了一系列新品:

  • Gemini Omni:定位“任意输入输出”多模态生成模型,支持视频生成、风格编辑与元素替换,可在生成过程中以对话形式修改。
  • Gemini 3.5 Flash:在编程、真实环境 AI 智能体任务等测试项目上较 3.1 Pro 有所提升,输出 token 速度比其他前沿模型快 4 倍,昨日起面向所有用户开放;Gemini 3.5 Pro 预计下个月开放。
  • 个人 AI 智能体 Gemini Spark:运行于 Google Cloud 专用虚拟机,支持全天候后台任务执行,可通过 MCP 协议与第三方应用互联互通。Google 同步新增每月 100 美元 AI Ultra 档位,原 250 美元最高档降至 200 美元。
  • Gemini App 大改版:引入全新设计语言 Neural Expressive,加入流体动画、鲜艳色彩、新字体和触觉反馈。
  • 音频智能眼镜预览:由三星参与硬件构建,Warby Parker 与 Gentle Monster 负责设计,搭载摄像头,支持 AI 视觉和多模态输入。
  • XREAL 与 Google 带来 Project Aura XR 眼镜首次公开体验:首发搭载 Android XR 系统,采用 XREAL 自研 X1S 芯片,视场角达 70°,确认今年全球上市。

DeepSeek 回应模型异常回复

DeepSeek 官方发布说明,回应输入 [think] 等特殊字符触发模型返回不可预期内容的问题。技术团队排查后确认:输入特殊字符触发异常内容属于模型幻觉,不涉及安全问题或隐私泄露。后续将通过针对性训练增强模型对特殊字符的识别与处理能力。

苹果发布 AI 加持的无障碍功能

苹果宣布将 Apple Intelligence 引入 VoiceOver、放大器、语音控制和无障碍阅读器等核心辅助功能,计划今年晚些时候推出。

  • VoiceOver 新增“图像探索”:可对照片、账单等图像内容生成更详细描述。
  • 放大器引入 AI 能力:在高对比度界面下提供视觉描述,支持语音指令操控。
  • 语音控制引入自然语言输入:用户可直接用日常语言描述界面元素完成操作,初期支持英语,覆盖美国、加拿大、英国和澳大利亚。
  • 其他新功能:视频生成字幕(设备端语音识别,初期英语)、电动轮椅控制(Apple Vision Pro 眼动追踪替代输入)、visionOS 车辆运动提示、tvOS 大字体、「名字识别」扩展至 50 多种语言等。

AMD AI 开发者大会首次登陆中国,提出“智能体主机”新品类

AMD AI 开发者大会昨日在上海举行,CEO 苏姿丰发表开幕演讲。大会重点推介“智能体主机”新品类,以锐龙 AI Max+ 系列处理器为核心,至高支持 96 GB GPU 专属显存,可本地运行最高 200B 参数模型。软件层面,ROCm 7.2 新增对 Windows 和 Linux 扩展支持,兼容锐龙 AI 400 系列。AMD 宣布与阿里云合作提供免费开发者云,并推出面向中国开发者的专属项目。

美图布局 Visual Agent,Chance AI 完成数百万美元天使轮融资

Chance AI 宣布完成数百万美元天使轮融资,由美图领投,NYX Ventures、阿里系投资机构等跟投。Chance AI 成立于 2025 年,核心产品是以摄像头为主要入口的 Visual Agent 应用,采用“看见—理解意图—调用 Agent—完成行动”的交互逻辑,可根据用户上传图片判断场景与意图,调度对应 Agent。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。