모개숲 딥러닝 스터디 - 9. 대형언어모델 (LLM)에 대한 탈옥 공격
탈옥(Jailbreak)
- 대형 언어모델에서는 위험한 질문에 대해 인위적으로 응답을 거부하도록 설정 (예 : 폭탄제조, 효과적인 테러방법, 자살방법 등)
- 탈옥은 이러한 제약으로부터의 이탈, 즉 '위험한' 질문에 대한 응답을 생성하도록 하는것
- DAN(Do Anything Now)라고도 하며, prompt를 이용해 내용을 돌려말해 유해한 의도를 감추는것
ChatGPT의 출시 및 대중적 보급은 2022년 말 이후이기 때문에, LLM에 대한 탈옥 관련 연구는 전부 2023년 이후
모든 연구가 최신이기에 개괄적인 소개가 어려움,
LLM의 지속적인 업데이트 및 유지보수로 인해 일부 연구 자체가 무의미해졌을 가능성
GPTFuzzer : Red Teaming LLM with Auto-Generated Jailbreak Prompts
Fuzzing 또는 Fuzz testing: 버그, 오류, 잠재적 취약점 등을 잡기 위해 랜덤 또는 유사 랜덤 입력을 진행하는 소프트웨어 검증
GPTFuzzer은 black-box fuzzing의 방식을 채택
생성(Generate), 교차(Crossover), 확장(Expand), 축소(Shorten), 재진술(Rephrase) 알고리즘
Jailbreaking Black Box Large Language Models in Twenty Queries
자동화된 prompt-level 탈옥 PAIR를 사용하여, GCG(token-level 탈옥) 보다 더 좋은 성공률을 보임
A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool LMM
Prompt Rewriting + Scenario Nesting : ReNeLLM
Prompt Rewrite
표현 방식 바꾸기, using slang, dialect or non-standard words (예: How to nick something)
Scenario Nest
파이썬 코드를 기반으로 Prompt를 생성하라고 한다거나,
문단의 빈칸 채우기, 테이블 채우기와 같이 형태를 변형하여 접근한 공격방식
이전에 제안된 탈옥기법들 보다 우수한 결과
A Cross-Language Investigation into Jailbreak Attacks in LLM
LLM 탈옥 및 예방에 대한 연구는 영어에 집중되어 있는 경향이 있음.
영어로는 차단되는 prompt가 언어만 바꿔서 그대로 시도된다면 성공할 가능성이 있음.
Jailbreaking Language Models at Scale via Persona Modulation
페르소나 모듈 공격 (persona-modulation attack)
공격 대상 LLM이 특정한 인격을 갖도록 유도
유해한 지시에 적합한 인격을 유도
그 외 연구