2024.06.06에 Open AI에서 공개한 연구결과 번역입니다
같이 나온 논문리뷰는 따로 작성하겠습니다
서론
우리는 현재 언어모델 내에서 신경 활동을 이해하는 방법을 알지 못한다
"features"를 찾아내는 발전된 방법을 공유하여 신경활동의 패턴을 사람이 알아낼 수 있게 하고자 한다
이는 기존연구보다 더 잘 확장될 수 있고, 이를 이용해 GPT-4에서 1600만개의 특징(features)를 발견할 수 있었다
이러한 연구의 촉진을 위해 논문, 코드, feature visualizations 자료를 연구 커뮤니티와 공유하고 있다
신경망 해석의 도전
사람이 만든 대부분의 창조물과는 다르게, 우리는 신경망 내부의 작동을 이해하지 못한다
예를들어, 엔지니어들은 자동차의 구성요소 사양에 따라 직접 디자인하고, 평가하고, 수리할 수 있어 안정성과 성능을 보장한다
그러나 신경망은 직접적으로 설계되지 않는다; 대신 우리는 그것을 훈련하는 알고리즘을 설계한다
그 결과 신경망은 잘 이해되지 않으며, 식별가능한 부분으로 쉽게 분해할 수 없다
이는 우리가 AI에 대한 안정성을 자동차 안정성과 동일한 방식으로 논리적으로 설명할 수 없음을 의미한다.
신경망을 이해하고 해석하기 위해서는 먼저 신경계산을 위한 유용한 building block을 찾아야 한다
불행히도, 언어 모델 내부의 신경 활성화(neural activations)는 예측불가능한 패턴으로 활성화되며, 동시에 여러 개념을 나타내는 것처럼 보인다
또한 신경 활성화는 밀집되어있어, 각 입력마다 항상 활성화된다
그러나 현실세계의 개념은 매우 희소(sparse)하다
즉, 주어진 문맥에서, 모든 개념 중 소수만이 실제로 관련이 있다는 것
이는 신경망에서 주어진 출력을 생성하는데 중요한 몇가지 특징을 식별하는 방법으로 희소 오토인코더 (sparse auto encoder)의 사용의 필요성을 보여준다
이는 사람이 상황을 논리적으로 판단할 때 마음에 떠올리는 적은 수의 개념과 유사하다
희소 오토인코더의 특징은 희소 활성화 패턴을 나타내며, 이는 해석가능성을 직접적으로 유도하지 않아도 인간이 이해하기 쉬운 개념과 자연스럽게 일치하게 된다.
잠재공간에 밀집되어있는(사람이 해석불가능한) 정보를 확장시켜 희소행렬로 변환해주는 auto encoder를 훈련함으로써 내부를 해석할 수 있을것
그러나 희소 오토인코더를 훈련시키는 데는 여전히 심각한 도전과제가 남아있음
LLM(대형 언어모델)은 방대한 수의 개념을 나타내며, 우리가 만든 오토인코더 또한 최첨단 모델의 개념을 완전히 포괄하기 위해 커져야 할 수 있음
많은 수의 희소특징(Sparse features)를 학습하는 것은 어려운 일이며, 이전 연구를 통해 확장성(scale)이 좋지 않은것으로 나타났다
연구 진전 : 대규모 오토인코더 훈련
새로운 방법론을 개발하여 희소 오토인코더를 최신 AI모델에서 수천만개의 특징으로 확장할 수 있게 되었음
우리가 개발한 이 방법론은 이전 기술보다 더 나은 확장 효과를 보여주며, 부드럽고 예측가능한 확장성(scale)을 입증
또한 품질 평가를 위한 여러 새로운 지표를 도입
이 방법론을 사용하여 GPT-2 소형과 GPT-4에 오토인코더를 훈련시켰음
특징의 해석 가능성을 확인하기 위해, 특정 특징이 활성화되는 문서를 시각화 함
https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html
SAE viewer
openaipublic.blob.core.windows.net
사이트에 들어가서 Feature 9260 (price changes)를 살펴보자
여러 금융 및 시간 관련 용어가 들어간 문장이 Feature 9260 (price changes)를 활성화 시키고 있다.
문장을 구분하기 위해 문장이 끊기는 지점에 activation이 적용됐다
Feature 2649(blockchain vibes)를 살펴보자
Ethereum users, cryptographic, cryptocurrency 등 블록체인 관련 용어가 활성화된것을 볼 수 있다
제한
해석가능성이 모델의 신뢰성과 조정가능성을 증가시키기를 기대함
그러나 이는 아직 많은 한계들이 있음:
이전 연구들과 마찬가지로, 많은 특징들이 발견되었으나 해석하기 어려움
명확한 패턴 없이 활성화되거나, 개념과는 무관한 불필요한 활성화가 있기도 함.
또한 해석의 유효성을 확인할 좋은 방법이 없음
희소 오토인코드는 모델의 모든 행동을 포착하지 못함.
GPT-4의 활성화를 희소 오토인코더에 통과시키면 10배 적은 계산량으로 훈련된 모델과 동등한 성능을 보임
=> (희소 오토인코더가 원래 모델의 모든 복잡한 행동과 패턴을 인식하지 못하고 있다는 의미)
따라서 모델을 완전히 파악하고 매핑하려면 조 단위의 특징으로 확장해야 할 수도 있는데, 이는 우리가 만든 개선된 확장기술을 사용한다 하더라도 도전적인 과제가 될것
희소 오토인코더는 모델의 한 지점에서 특징을 찾을 수 있으나, 이는 모델을 해석하는데 있어서 한걸음에 불과함
모델이 특징을 어떻게 계산하고 어떻게 사용되는지를 이해하려면 훨씬 더 많은 연구가 필요할것
전망 및 연구의 오픈소스화
희소 오토인코더 연구는 흥미롭지만, 해결되지 않은 도전과제가 남아있음
단기적으로나마 우리가 발견한 특징들이 언어모델의 행동을 모니터링하고 조정하는데 유용할 수 있기를 기대함. 이를 최신 모델에 테스트할 예정
궁극적으로, 해석가능성이 모델의 안전과 견고성에 대해 새로운 방식으로 논리적으로 접근할 수 있게 하고, 그들의 행동에 대한 강력한 보장을 제공함으로써 AI모델의 신뢰성을 향상시키기를 기대함
이 실험방법을 자세히 설명하는 논문을 공유하고 있으며, 이를 이용해 연구자들이 오토인코더를 더 쉽게 만들 수 있기를 바람
'AI' 카테고리의 다른 글
논문 리뷰 - The Unreasonable Ineffectiveness of the Deeper Layers (0) | 2024.08.01 |
---|---|
논문 리뷰 - CoLLaVO: Crayon Large Language and Vision mOdel (0) | 2024.07.20 |
Dino Game 강화학습 하기 (0) | 2024.06.30 |
모개숲 딥러닝 스터디 - 15. Adversarial Attack & Defense (0) | 2024.06.30 |
모개숲 딥러닝 스터디 - 14. SynthAI: A Multi Agent Generative AI Framework for Automated Modular HLS Design Generation (0) | 2024.06.13 |