Adversarial Attack
AI 모델을 공격할 수 있는 다양한 방법이 존재
Evasion attack
데이터에 노이즈(사람은 구분불가)를 섞거나 변형을 가해 AI 모델의 예측을 어렵게 함
Backdoor attack(Poisoning)
훈련 데이터를 조작하여 모델이 특정상황에서 원하는대로 동작하도록 만드는 공격기법
정상작동하는 것처럼 보이나, 특정 입력에 대해 의도된 결과를 출력
Latent backdoor attack
잠재 백도어 공격은 백도어 공격의 일종으로, 백도어가 훈련데이터에 삽입되었으나 공격자가 원할 때까지 활성화되지 않는 방식
조건이 충족되면 백도어가 활성화, 더 은밀한 방법
Extraction attack
모델에 다양한 입력을 제공하고 출력 결과를 분석하여 모델의 동작 방식을 추론하거나 파라미터를 알아내 모델 자체를 재현할 수 있는 방법
Inversion attack
공격자가 모델의 출력을 역으로 추적하여 원래의 입력 데이터를 추론하려는 공격 기법 (개인정보 공격)
Adversarial examples are not bugs, they are feature
Feature = Useful features + Useless features 로 구성된다고 볼 수 있다.
주목해야할 특징은 Robust features와 Non-robust features로 나뉜다.
사람은 Robust features를 통해 이미지를 파악
AI는 어떤 특징을 통해 대상을 인식하는가?
AI는 Non-Robust feature만을 통해 사물을 인식하고 있었다
Robust feature와 Non robust feature 데이터셋을 분리시키고, 이를 학습시켜 robust feature를 통해 non-robust feature를 찾아낸다.
찾아낸 frog의 non-robust feature를 개의 이미지(robust)와 합성시켜봤더니 frog가 나왔다
non-robust 결과와 robust 결과가 같은 Robust dataset (파란색)을 사용하여 훈련했더니 높은 정확도가 나왔다
training image(초록색)은 낮은 정확도를 보여준다...
AI는 사람과 다른 방식으로 대상을 인식하고 있었고,
사람이 인식하지 못하는 사소한 간섭만으로 공격이 가능해짐이 증명됨
Adversarial Laser Beam: Effective Physical-World Attack to DNNs in a Blink
레이저로 인한 피해가 AI에도 적용되는가?
다양한 파장의 레이저를 가정하고 이미지에 합성하여 AI에게 추론을 시켜본 결과, 이미지 분류에 어려움이 있음
실제로 레이저를 사서 비춰봤을때도 이미지 분류 혼동
외부 공격에 대한 전반적인 대응 수단이 필요함
Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation
기존에 없는 단어를 가지고 생성형 AI한테 이미지들을 훈련시킴 (있는 단어면 shifting 발생)
unique word가 내가 제공한 이미지라고 인식하고 이것을 생성
Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
악의적인 합성, 오용을 막기 위한 Personalization 방해 기법 제안
모델에게 이미지를 학습시킬 때 손실함수를 최대화 하는 특정 노이즈를 찾는다 (사람에게는 인식불가)
찾아낸 노이즈 + 원본 이미지 = Anti-Dreambooth image
특정 생성형 모델 뿐만 아니라 다양한 모델에 대해 훈련을 방해시킬 수 있음
Summary
현업자의 경우, AI모델의 오작동, 악용에 대한 대응 방안을 상정하여 개발, 연구하면 좋음
언젠가 만들어질 AI 관련 법안과 윤리 원칙에 대해 대비하자. (취업 시장도?)
개인 & 민감 정보를 아무 곳에나 올리지 말자 (ChatGPT, SNS 등)
지나가는 차나 비행기에 레이저를 쏘지 말자.
AI학습할거면 인터넷에서 아무거나 주운 데이터 쓰지 말자.
1기 마무리
아주 유익한 스터디였습니다