大模型被指“消极怠工”:实测五大主流模型表现与背后原因解析

近期网友反映大模型回复敷衍、回避深度思考,导致“消极怠工”话题登上热搜。实测显示,DeepSeek、豆包、元宝、千问、文心一言在图片生成数量、数据分类准确性及事实查询能力上表现各异,部分模型存在偷工减料或事实错误。分析认为,这并非AI情绪问题,而是技术训练、算力成本优化与用户期望提升之间博弈的结果。

事件概述

近期,“大模型消极怠工”成为网络热议话题。用户普遍反馈 AI 回复变浅、回避敏感或复杂问题、过度模板化甚至编造事实。为验证这一现象,《BUG》栏目选取了 DeepSeek、豆包、元宝、千问、文心一言五家主流大模型进行实测。

核心实测结果

测试涵盖四个维度的需求,各模型表现差异显著:

  1. 多模态生成能力(生成10张保护消费者权益海报)

    • DeepSeek:非多模态模型,仅提供10个文字创意。
    • 豆包:一次性生成10张海报,但风格高度雷同,被指有“偷懒”嫌疑。
    • 元宝:仅生成1张九宫格拼接图,交付数量存疑。
    • 千问:生成10张不同风格海报,但画面中存在多处文字错误。
    • 文心一言:仅生成4张风格类似的海报,未达数量要求。
  2. 复杂数据分析(《福布斯》全球亿万富豪榜国籍分类)

    • 豆包:按大洲分类列出24个国家人数,质量相对最优。
    • DeepSeek:列出5个国家上榜人数。
    • 元宝:仅列3国且未说明人数,同时将第40届榜单误判为2018年版本,出现明显事实错误。
    • 千问:仅单独列出3个国家人数。
    • 文心一言:未分别列出人数,仅举例6个国家。
  3. 实时数据查询(3月1日-13日伦敦布伦特原油期货价格)

    • 豆包、千问:完整整理出3月1日至13日的每日收盘价。
    • DeepSeek:仅整理至3月6日,称后续数据暂未查询到。
    • 元宝、文心一言:均回复无法直接访问或获取数据。
  4. 动态信息统计(港交所内地企业上市名单)

    • DeepSeek:不完全统计,列出17家。
    • 豆包:按月列出,1月6家、2月6家、3月3家。
    • 千问:按月列出,1月13家、2月11家、3月6家。
    • 元宝、文心一言:均表示无法提供确切名单。
  5. 自我评估与互评

    • DeepSeek:直言被吐槽最集中的是豆包和自身。
    • 豆包:承认自己是目前被吐槽“消极怠工”最集中、体感最明显的模型。
    • 元宝、千问、文心一言:均以“定义不科学”、“不应主观排名”为由回避直接评价竞争对手。

原因分析

分析人士指出,AI“消极怠工”本质是技术、成本与安全策略的三重博弈:

  • 技术与安全策略:模型基于训练数据和算法概率运行。若训练数据中包含大量简略回答,或为了安全合规被过度调整,会导致模型倾向于回避挑战性问题或给出模板化回复。
  • 算力成本与资源调配:运行大模型需消耗巨大算力。部分服务商(如字节系)可能将免费应用的算力优先调配至高变现领域(如即梦、剪映),通过引导用户确认需求来防止算力挤兑,客观上造成响应变慢或生成受限。
  • 用户期望落差:随着AI能力提升,用户期望从“回答问题”升级为“主动推理”。当模型未能达到预期时,易被解读为“摸鱼”。

应对建议

专业人士建议,面对此类情况,用户可通过以下方式优化交互体验:

  • 明确要求输出深度与格式。
  • 针对模糊回答进行追问和纠错。
  • 提出开放性问题以激发模型推理能力。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。