日本乐天AI模型被指“套壳”DeepSeek-V3,暴露本土研发困境

日本乐天公司高调发布的号称“日本最强”的Rakuten AI 3.0大模型,因在配置文件中未声明底层架构而遭开源社区揭露实为基于中国DeepSeek-V3微调的日语版本。尽管该模型在日语任务上表现优异且成本较低,但其隐瞒开源底座归属的行为违背了开源精神,引发舆论批评。这一事件折射出日本在AI领域面临的人才短缺与基础技术依赖问题,迫使企业不得不借助中国开源模型进行本土化开发。

事件概述

2026年3月17日,日本科技公司乐天(Rakuten)发布新一代AI大模型Rakuten AI 3.0,宣称其为日本最大、性能最强的国产模型,并拥有7000亿参数规模。然而,发布数小时后,开源社区发现该模型在Hugging Face上的config.json文件中明确标注底层架构为deepseek_v3,即直接基于中国开源模型DeepSeek-V3构建。乐天最初未在发布时披露此事实,也未保留原模型的许可证和归属声明,直到被社区“抓包”后才补发NOTICE文件。

核心信息

  • 模型真相:Rakuten AI 3.0并非从零自研,而是基于DeepSeek-V3架构,利用日语数据进行持续预训练、推理能力整合及本土化微调的版本。
  • 性能表现:根据乐天公布的数据,该模型在Japanese MT-Bench等日语综合基准测试中超越了GPT-4o,在敬语表达、商务邮件、文档分析等本土语境任务中表现强劲。得益于MoE稀疏架构,其单次推理激活参数较少,成本约为前沿闭源模型的10%。
  • 争议焦点:乐天的主要问题不在于使用开源底座,而在于营销宣传中刻意强调“自主研发”“日本最强”,却隐瞒了DeepSeek的架构贡献,违反了开源社区关于保留原许可证和归属权的原则。
  • 行业背景:此类现象在日本并非孤例。据日经新闻网报道,日本企业推出的前10大模型中,有6个基于DeepSeek或Qwen(阿里千问)开发。例如ABEJA公司推出的ABEJA QwQ 32b模型,同样基于Qwen2.5+QwQ-32B底座,但因其公开透明地说明了技术路径,未引发同等程度的负面舆论。

值得关注

  • 人才与技术缺口:日本IT行业长期面临人才短缺问题,经产省测算显示2030年IT人才缺口可能高达45万人。这促使日本政府和企业将生成式AI视为弥补人力不足的捷径,通过自然语言指令快速生成代码和系统。
  • 数字化滞后:日本在数字化转型方面进展缓慢,直至2024年仍在讨论废除软盘提交规定和减少传真机使用。这种基础设施和思维模式的滞后,使得日本企业在定义新技术游戏规则时显得力不从心。
  • 战略反思:Rakuten AI 3.0事件被视为日本科技领域落后于世界的缩影。在软件、数据和大模型主导的竞赛中,日本企业难以完全依靠自身力量从头训练基座模型,不得不站在包括中国开源模型在内的全球技术成果之上进行二次开发。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。