深度拆解Skill:七成是提示词,三成靠外部封装
2026/05/19 20:45阅读量 3
本文从Transformer模型底层机制出发,指出Skill本质上是占据context window前段位置的提示词,通过self-attention影响后续token生成概率。模型外部封装(触发路由、权限边界、模块化元数据)才是Skill真正价值所在,并总结出信息密度、Markdown结构、首次触发语锚定等实操要点。
事件概述
针对“Skill本质就是提示词”的观点,本文从技术原理和实践经验两个层面进行拆解,认为该说法对了七成,但其余三成(模型外部的封装能力)才是Skill的核心价值。
核心信息
-
模型视角:Skill只是带位置优势的提示词
- Skill被加载时,文本被token化后放入context window,大模型没有专属的“Skill执行引擎”。
- 模型之所以遵循Skill逻辑,是因为RLHF训练使其养成了遵循context开头系统格式指令的pattern。
-
作用机制:以“引力场”方式偏移生成概率
- Tokenization:臃肿Skill会挤占工作记忆,如398行Skill约占2000-3000个token。
- 位置编码(RoPE):靠前的Skill指令随对话变长影响力被稀释,导致长对话后期人设丢失。
- Self-attention:只有与当前任务语义高度相关、信息密度高的Skill内容才能获得高attention权重。
- 输出概率:纯否定指令(如“不要用感叹号”)反而会激活目标token,效果差。
-
真正差异:模型外部的可管理性封装
- Skill的YAML frontmatter(触发路由、权限边界、模块化元数据)不进入context window,而是给Agent运行时处理。
- 这些外部机制解决了Skill的按需加载、权限控制、版本管理等问题,让工作流更可控。
-
实操要点
- 信息密度至上:每个token都消耗context预算,用具体可校验的指令(如##标题+3-5条核心要点+来源标注)替代空泛描述。
- 利用Markdown结构:##标注、列表、引用块等能借助预训练先验获得更高遵循率。
- 首次触发语即调性锚点:自回归模型第一个输出token会强力影响后续内容,触发语的调性会被全程自我强化。
- 否定规则需搭配正面表述:先给正面指令,再加否定约束,最后补充正确示例。
- 子模块懒加载:如“首席蒸馏官”Skill将全量3000token占用降至1000token,省出空间给用户内容和模型思考。
值得关注
该分析揭示了Skill作为AI Agent可复用单元的技术本质:底层仍依赖提示词,但通过外部封装实现了组件化、可控化和可管理性。信息密度和结构设计是提升Skill效果的关键。
