Heretic 是一个全自动移除语言模型安全审查（"safety alignme

Heretic 是一个全自动移除语言模型安全审查（"safety alignment"）的工具。它无需昂贵的后训练，通过方向消融（directional ablation，亦称 "abliteration"）技术，结合基于 Optuna 的 TPE 参数优化器，自动寻找最优消融参数。

核心理念：在最小化模型拒绝回答次数（refusals）的同时，最大程度保持原模型的智力能力（通过最小化 KL 散度实现）。整个过程完全自动，不需要理解 Transformer 内部机制，只要会用命令行就能操作。

-e-w/heretic