来源：Hacker News · AI · 北美洲 · 05-02 21:15

研究称语言模型的“拒答”行为可由单一方向特征调控

原标题：Refusal in Language Models Is Mediated by a Single Direction

AI 情报摘要

研究发现，语言模型拒答机制可能集中在单一内部表示方向上，既有助于安全可解释性，也带来被规避的风险。

该研究可能推动模型安全机制的可解释性分析，同时提高业界对拒答策略被定向绕过的警惕。

情绪：敏感 · 相关：arXiv / Hacker News / 大语言模型 / 北美洲 · LLM 已生成

一篇 arXiv 论文指出，大语言模型对有害或受限请求的拒答行为，可能主要由模型内部表示空间中的一个“拒答方向”介导。研究显示，识别并干预该方向可显著影响模型是否拒绝回答，引发对AI安全机制可解释性与绕过风险的讨论。