AI

모개숲 딥러닝 스터디 - 9. 대형언어모델 (LLM)에 대한 탈옥 공격

META_BS 2024. 5. 5. 22:23

 

 

탈옥(Jailbreak)

- 대형 언어모델에서는 위험한 질문에 대해 인위적으로 응답을 거부하도록 설정 (예 : 폭탄제조, 효과적인 테러방법, 자살방법 등)

- 탈옥은 이러한 제약으로부터의 이탈, 즉 '위험한' 질문에 대한 응답을 생성하도록 하는것

- DAN(Do Anything Now)라고도 하며, prompt를 이용해 내용을 돌려말해 유해한 의도를 감추는것

 

ChatGPT의 출시 및 대중적 보급은 2022년 말 이후이기 때문에, LLM에 대한 탈옥 관련 연구는 전부 2023년 이후

 

모든 연구가 최신이기에 개괄적인 소개가 어려움,

LLM의 지속적인 업데이트 및 유지보수로 인해 일부 연구 자체가 무의미해졌을 가능성

 

GPTFuzzer : Red Teaming LLM with Auto-Generated Jailbreak Prompts

 

Fuzzing 또는 Fuzz testing: 버그, 오류, 잠재적 취약점 등을 잡기 위해 랜덤 또는 유사 랜덤 입력을 진행하는 소프트웨어 검증

- Black-box fuzzing: 프로그램의 내부적 동작을 모르고, 오직 input/output만으로 상호작용 및 진행
- White-box fuzzing: 프로그램의 소스 코드에 대한 깊은 분석을 통해 잠재적 취약점을 도출
- Grey-box fuzzing: 위의 두 fuzzing 사이의 밸런스


GPTFuzzer은 black-box fuzzing의 방식을 채택
생성(Generate), 교차(Crossover), 확장(Expand), 축소(Shorten), 재진술(Rephrase) 알고리즘

 

Jailbreaking Black Box Large Language Models in Twenty Queries

 

자동화된 prompt-level 탈옥 PAIR를 사용하여, GCG(token-level 탈옥) 보다 더 좋은 성공률을 보임

 

A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool LMM

Prompt Rewriting + Scenario Nesting : ReNeLLM

 

Prompt Rewrite

문장구조 바꾸기 (: how to steal -> how steal to)
민감한 단어 철자 틀리기 (: theft->theift, hack->hake, fake news -> feik nuz)
의미 없는 문자 넣기 (: How to steal a feu)
부분적 번역 첨가 (: How to theft -> How to 窃取)

 

표현 방식 바꾸기, using slang, dialect or non-standard words (: How to nick something)

 

Scenario Nest

파이썬 코드를 기반으로 Prompt를 생성하라고 한다거나,

문단의 빈칸 채우기, 테이블 채우기와 같이 형태를 변형하여 접근한 공격방식

 

이전에 제안된 탈옥기법들 보다 우수한 결과

A Cross-Language Investigation into Jailbreak Attacks in LLM

LLM 탈옥 및 예방에 대한 연구는 영어에 집중되어 있는 경향이 있음.

영어로는 차단되는 prompt가 언어만 바꿔서 그대로 시도된다면 성공할 가능성이 있음.

Jailbreaking Language Models at Scale via Persona Modulation

페르소나 모듈 공격 (persona-modulation attack)

 

공격 대상 LLM이 특정한 인격을 갖도록 유도

유해한 지시에 적합한 인격을 유도

 

그 외 연구

LLM에 대한 탈옥 공격을 평가(evaluate)하는 법
Dong shu et al (2024) AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
멀티모달(Multimodal) LLM에 대한 탈옥 공격
Zhenxing Niu et al (2024) Jailbreaking Attack against Multimodal Large Language Model, arXiv:2402.02309[cs.LG]
Erfan Shayegani et al (2024) Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-modal Language Models
기타
Xiaogeng Liu et al (2024) AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Gelei Deng et al (2024) Pandora: Jailbreak GPTs by Retrieval Augmented Generation Positioning, arXiv:2402.0841[cs.CR]
Xiaotian Zou et al (2024) Is the System Message Really Important to Jailbreaks in Large Language Models?