Heretic 是一个全自动移除语言模型安全审查("safety alignment")的工具。它无需昂贵的后训练,通过方向消融(directional ablation,亦称 "abliteration")技术,结合基于 Optuna 的 TPE 参数优化器,自动寻找最优消融参数。
核心理念:在最小化模型拒绝回答次数(refusals)的同时,最大程度保持原模型的智力能力(通过最小化 KL 散度实现)。整个过程完全自动,不需要理解 Transformer 内部机制,只要会用命令行就能操作。
-e-w/heretic
