Anthropic新方法：用下游连接破解模型特征因果“孪生”难题

AIHOT小编

2026-06-02 21:17

大型语言模型的内部表征一直存在一个棘手问题：两个特征在激活模式上几乎一致，但对最终输出的因果影响却可能截然不同。Anthropic可解释性团队在其Transformer Circuits系列研究中发布的最新成果，正试图为这一“特征孪生”困境提供系统解法。该方法不再仅依赖激活值的统计分析，而是引入下游连接的结构化信息，通过计算基于共激活统计的虚拟权重（TWERA）对特征的下游连接进行加权排序，从而判别哪个特征才是真正驱动特定输出的因果组件。

传统可解释性研究往往聚焦于神经元的激活模式——观察一个特征在多大程度上被激活，以及它与输入之间的相关性。但这是一种“表象层面”的分析：两个特征可以在相同的输入上产生相似的激活曲线，却沿着不同的计算路径影响后续层甚至最终输出。Anthropic团队指出，这种因果混淆在应对对抗性攻击或模型对齐审计时尤为危险——审计者可能误以为某个与有害输出相关的特征已被抑制，但实际上另一个“长相相似”的特征仍能沿不同路径触发相同结果。

新方法的核心逻辑是通过特征的下游连接（即该特征如何连接到后续层或输出单元）来评估其实际因果效力。研究团队提出TWERA（Temporal Weighted Edge Relevance Analysis）指标，它利用特征之间的共激活统计量计算出虚拟权重，并对每条下游连接的影响力进行排序。实验中，仅依靠激活值的分类器在预测输出时准确率有限，而加入下游连接信息后，模型可以更准确地判定哪个特征会引导特定输出。这意味着，可解释性研究从“静态激活空间”迈向了“动态计算路径”的因果归因层次。

这一进展对于模型安全与对齐工作具有直接价值。当前的安全审计常依赖探测（probing）或特征可视化来识别模型内部的危险行为模式，但“假阳性”风险始终存在：一个被标记为“说谎”的特征可能只是与真正说谎特征存在共激活关联，本身并非因果驱动者。利用TWERA方法，审计者可以排除这些“虚假相关”的特征，减少试错成本，将有限的干预资源集中在真正的因果组件上。同时，对于研究Transformer电路机制的学者而言，该方法提供了一种更精确的组件识别方式——不仅是“哪些单元参与计算”，而且是“哪些单元在因果链中真正起到了切换作用”。

值得思考的是，下游连接的引入也带来了新的挑战：特征之间可能存在递归依赖或跨层反馈机制，简单的虚拟权重是否足以覆盖所有非线性交互？Anthropic团队在论文中承认了这种局限性，并指出未来可能需要结合激活扰动实验（如因果干预）来验证TWERA排序的鲁棒性。不过，从当前实验结果看，仅凭下游连接信息就已显著优于纯激活基线，说明可解释性研究的“结构转向”正被赋予更多权重。

对从事可解释性研究的团队而言，这项工作的启发在于：不要只盯着特征“是什么”（激活值），更要关注特征“连接到哪里”（下游结构）。在模型对齐审计的实际操作中，建议将TWERA作为一种预筛选工具：先用激活模式筛选出疑似特征，再通过下游连接排序剔除因果无关项，最后再用少量干预实验验证确认真实因果角色。这种层级策略有望在算力和人工成本之间取得平衡，推动可解释性从“描述”走向“因果诊断”。