大模型被指“消极怠工”：实测五大主流模型表现与背后原因解析

2026/03/14 16:10阅读量 97

近期网友反映大模型回复敷衍、回避深度思考，导致“消极怠工”话题登上热搜。实测显示，DeepSeek、豆包、元宝、千问、文心一言在图片生成数量、数据分类准确性及事实查询能力上表现各异，部分模型存在偷工减料或事实错误。分析认为，这并非AI情绪问题，而是技术训练、算力成本优化与用户期望提升之间博弈的结果。

事件概述

近期，“大模型消极怠工”成为网络热议话题。用户普遍反馈 AI 回复变浅、回避敏感或复杂问题、过度模板化甚至编造事实。为验证这一现象，《BUG》栏目选取了 DeepSeek、豆包、元宝、千问、文心一言五家主流大模型进行实测。

核心实测结果

测试涵盖四个维度的需求，各模型表现差异显著：

多模态生成能力（生成10张保护消费者权益海报）
- DeepSeek：非多模态模型，仅提供10个文字创意。
- 豆包：一次性生成10张海报，但风格高度雷同，被指有“偷懒”嫌疑。
- 元宝：仅生成1张九宫格拼接图，交付数量存疑。
- 千问：生成10张不同风格海报，但画面中存在多处文字错误。
- 文心一言：仅生成4张风格类似的海报，未达数量要求。
复杂数据分析（《福布斯》全球亿万富豪榜国籍分类）
- 豆包：按大洲分类列出24个国家人数，质量相对最优。
- DeepSeek：列出5个国家上榜人数。
- 元宝：仅列3国且未说明人数，同时将第40届榜单误判为2018年版本，出现明显事实错误。
- 千问：仅单独列出3个国家人数。
- 文心一言：未分别列出人数，仅举例6个国家。
实时数据查询（3月1日-13日伦敦布伦特原油期货价格）
- 豆包、千问：完整整理出3月1日至13日的每日收盘价。
- DeepSeek：仅整理至3月6日，称后续数据暂未查询到。
- 元宝、文心一言：均回复无法直接访问或获取数据。
动态信息统计（港交所内地企业上市名单）
- DeepSeek：不完全统计，列出17家。
- 豆包：按月列出，1月6家、2月6家、3月3家。
- 千问：按月列出，1月13家、2月11家、3月6家。
- 元宝、文心一言：均表示无法提供确切名单。
自我评估与互评
- DeepSeek：直言被吐槽最集中的是豆包和自身。
- 豆包：承认自己是目前被吐槽“消极怠工”最集中、体感最明显的模型。
- 元宝、千问、文心一言：均以“定义不科学”、“不应主观排名”为由回避直接评价竞争对手。

原因分析

分析人士指出，AI“消极怠工”本质是技术、成本与安全策略的三重博弈：

技术与安全策略：模型基于训练数据和算法概率运行。若训练数据中包含大量简略回答，或为了安全合规被过度调整，会导致模型倾向于回避挑战性问题或给出模板化回复。
算力成本与资源调配：运行大模型需消耗巨大算力。部分服务商（如字节系）可能将免费应用的算力优先调配至高变现领域（如即梦、剪映），通过引导用户确认需求来防止算力挤兑，客观上造成响应变慢或生成受限。
用户期望落差：随着AI能力提升，用户期望从“回答问题”升级为“主动推理”。当模型未能达到预期时，易被解读为“摸鱼”。

应对建议

专业人士建议，面对此类情况，用户可通过以下方式优化交互体验：

明确要求输出深度与格式。
针对模糊回答进行追问和纠错。
提出开放性问题以激发模型推理能力。

阅读原文详情

事件概述

核心实测结果

原因分析

应对建议

准备好启动您的定制项目了吗？