GitHub - MyDarapy/ablate-compliance: identifying and ablating the activation-space directions that enable jailbreaks in large language models

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
results		results
src		src
README.md		README.md
intervention_result.png		intervention_result.png
requirements.txt		requirements.txt

Repository files navigation

identifying and ablating the activation-space directions that enable jailbreaks in large language models

No releases published