https://www.e-patentnews.com/11435
≪특허뉴스≫ 멀티모달 대형언어모델, GPT-4V를 뛰어넘다
MoAI멀티모달대형언어모델성능(사진=KAIST) ©특허뉴스기존컴퓨터비전모델을활용해시각성능이획기적으로향상된공개형멀티모달대형언어모델‘콜라보&
www.e-patentnews.com
카이스트에서 시각 성능이 획기적으로 향상된 멀티모달 LLM을 개발
Abstract
LLM의 놀라운 성공과 지시사항 튜닝(instruction tuning)은 Vision Language Models(VLMs)을 다목적 모델로 진화시키고 있다
그러나 현재 VLM이 실제로 '이미지에 어떤 객체가 있는가?' 또는 '특정 경계상자(bounding box)에 해당하는 객체는 무엇인가?' 와 같은 객체수준의 이미지 이해능력을 진정으로 갖추고 있는지에 대해서 탐구되지 않았다
해당 연구결과는 현재 VLM의 이미지 이해 능력이 비전언어 작업에서의 zero-shot 성능과 강하게 상관관계가 있음을 보여준다
이는 기본적인 이미지 이해를 우선시 하는것이 VML이 VL(Vision Language) 작업에서 뛰어난 성과를 거두기 위해 중요하다는것을 시사한다.
객체수준의 이미지 이해를 향사이키기 위해, 새로운 visual prompt 튜닝 방식인 Crayon Prompt를 통합한 CoLLaVO를 제안한다
또한 Dual QLoRA 학습전략을 통해 제로샷에서 여러 Vision Language 벤치마크에서의 성과를 크게 향상시키는 방법을 제시한다
Instroduction
기존 LLM 모델의 성공에 자극받아, 자연어 지시를 통해 작업을 통합적으로 수행하는, 일반 목적으로 사용할 수 있는 모델에 대한 수요가 급증하고 있고 있다
이는 instruction tuning의 등장을 이끌어 냈다
InstructBLIP, LLaVA1.5, Qwen-VL과 같은 모델은 자연어 지시를 사용하여 다양한 비전언어(VL)작업을 수행하며 뛰어난 zero-shot 성능을 보여준다
그러나 현재의 주요 VLM들이 세밀한 객체 정보를 종합적으로 이해하고 있는지, 그리고 이러한 이해가 각 객체와 관련된 VL 작업에서의 제로샷 성능에 어떻게 영향을 미치는지는 아직 연구된 바 없다
따라서 객체수준의 이미지 이해와 다양한 개체에 대한 Vision Language 작업에서의 zero-shot 성능을 분석하겠다
객체수준의 이미지 이해를 설명해기 위해 BLIP2, InstructBLIP, LLaVA1.5, QwenVL을 비교해보았다
Class2Binary(C2B)와 Box2Class(B2C) 테스트 결과, GT : GroundTruth
네 가지 baseline 모델들이 여러 객체 범주에서 객체 수준의 이미지 이해에 대해 정확도가 평균 이하로 낮은 성능을 보인다
이러한 현상은 동시발생객체에 대한 편향이나 객체크기와 같은 다양한 요인에 의해 발생한다
위 그래프를 통해 VLM이 보여주는 객체 수준의 이미지 이해 수준과 zero-shot 성능 사이에 강한 상관관계가 있음을 알 수 있으며, 이러한 경향은 모든 모델에서 일관되게 나타난다
따라서 VLM의 객체 수준 이미지 이해 능력을 향상시키는 것은 VL작업에서의 zero-shot 성능을 크게 향상시킬 것이다
Crayon Prompt는 주어진 이미지에 대해 panomic segmentation으로 부터 생성된 panomic color map에서 시작된다
panomic color map은 객체에 대한 의미 정보와 그들의 번호를 포함한다
이러한 정보를 활용하여, 의미와 번호 임베딩을 나타내는 학습가능한 쿼리로 두가지를 요소를 대체하였고, 이를 Crayon Prompt라 한다
특정 영역에 주의를 집중시키이 위해 이미지에 빨간 동그라미를 그려주는 방식에서 영감을 받았다.(Shtedritski et al.,2023)
그러나 이런 방식은 이미지 내용을 왜곡할 수 있어 VL작업에 위험을 줄 수 있으며, 전경과 배경 객체를 동시에 고려할 수 없다
대신 Crayon Prompt는 Panomic color map 덕분에 이러한 위험을 피할 수 있다
이미지 위에 직접 시각적으로 표시하지 않고, 멀티모달 언어모델의 각 어텐션 모듈 레이어에 이미지 임베딩 기능으로 통합하여 이미지의 원래 시각적 맥락을 그대로 유지한다.
두개의 QLoRA 모듈을 포함하는 Dual QLoRA 학습 전략을 사용한다. 한 모듈은 crayon 지시를 위해 훈련되고, 다른 모듈은 시각적 지시 튜닝 데이터셋을 위해 고정되며, 반대도 동일하게 적용된다
또한 파라미터 효율적인 훈련을 위해 LoRA 대신 양자화된 QLoRA를 사용한다
위를 바탕으로, Crayon Prompt와 VLM이 협력하여 객체수준의 이미지 이해를 향상시키고, 결과적으로 zero-shot Vision Language 성능에 영향을 미치는 새로운 LLM 및 VisionModel인 CoLLaVO를 제안한다
해당 논문에서의 기여는 다음과 같다:
- 현재 VLM의 객체수준 이미지 이해가 zero-shot VL 작업과 강한 상관관계가 있음을 처음으로 밝힘
- 객체수준의 이미지 이해를 향상시키고, 복잡한 VL 성능과 함께 효과적으로 유지하는 Crayon Prompt와 Dual QLoRA를 제안
- 이러한 모든 요소를 적용하여, zero-shot VL 성능을 크게 향상한 CoLLaVO-7B를 선보임
CoLLaVO
CoLLaVO의 구조는 비전인코더, Crayon Prompt, Backbone MLM, 비전 및 언어 구성 요소 간의 MLP 커넥터로 구성된다.
이미지 이해에 능숙한 CLIP을 비전 인코더로 사용한다
CoLLaVO에서 사용된 Backbone MLM은 InternLM-7B를 사용했다.
GELU활성화 함수를 갖춘 두개의 MLP가 브릿지를 연결한다
Crayon Prompt Tuning(CPT)
CoLLaVO는 이미지 내 모든 객체를 인식해야 한다. 여기에는 전경과 배경 객체가 포함된다
이를 인식하기 위해, panoptic segmentation model을 사용하여 panoptic color map을 생성한다
panoptic color map은 133개의 전경 및 배경 객체범주를 구별할 수 있게 하며, 의미(Semantic)과 번호(Numbering) 정보를 포함한다
학습가능한 두 쿼리를 활용하여, color map을 대체하고 이를 Backbone MLM에 결합하여 Crayon Prompt를 생성한다
Crayon Prompt-based Instruction Tuning(CIT)
Crayon Prompt Tuning(CPT)는 Crayon Prompt와 MLP 커넥터의 의미 및 번호를 학습하고, 이를 Backbone MLM과 정렬하여 CoLLaVO의 객체 수준 이미지 이해를 향상시키는 데 중점을 둔다.
반면, Crayon Prompt-based Instruction Tuning(CIT)는 crayon instruction을 활용하여 복잡한 질문응답 VL 작업을 처리한다.
이는 의미와 번호 쿼리와 MLP커넥터를 다시 학습시키며, CoLLaVO의 Backbone MLM과 함께 훈련된다
CIT에서 MLM을 훈련할 때, Dual QLoRA 학습전략을 도입하여 객체수준 이미지 이해와 복잡한 VL성능을 따로 관리하며 두가지 측면을 효과적으로 유지할 수 있도록 한다
Experiments
객체 수준 이미지 이해
객체 범주의 정확성 평가를 Class2Binary(C2B)와 Box2Class(B2C)를 이용해 진행하였다
CoLLaVO는 C2B와 B2C 작업에서 대부분의 다른 모델들을 능가하는것을 볼 수 있다
또한, Top-20의 정확도와 Bottom-20의 정확도 간의 성능 격차가 가장 작다
이를 통해 CoLLaVO가 여러 객체 범주에서 견고한 객체수준의 이미지 이해를 가지고 있음을 보여준다
Zero-shot VL 평가
CoLLaVO는 GPT-4V, Gemini-Pro, Qwen-VL-Pro와 같은 여러 폐쇄형 VLM 및 다수의 오픈 소스 VLM을 능가한다
특히 시각적 인식 및 인지능력을 보여주는 벤치마크에서 다른 모델보다 상당한 차이를 보이며 뛰어난 성과를 보여준다
Crayon Prompt와 CIT의 효과
Crayon Prompt의 의미/번호 임베딩을 제거한 모델을 만들어 비교해본 결과, 이러한 임베딩 작업이 CoLLaVO의 성능을 크게 향상시켜 줌을 알 수 있었다
또한 Dual QLoRA, Image-CIT, VL-CIT가 zero-shot 성능을 향상시키는데 중요한 역할을 했음을 알 수 있다.
'AI' 카테고리의 다른 글
논문 리뷰 - Noise Injection Node Regularization For Rubust Learning (0) | 2024.08.09 |
---|---|
논문 리뷰 - The Unreasonable Ineffectiveness of the Deeper Layers (0) | 2024.08.01 |
OpenAI가 GPT-4의 내부를 해석하는 방법 : Extracting Concepts from GPT-4 (0) | 2024.07.01 |
Dino Game 강화학습 하기 (0) | 2024.06.30 |
모개숲 딥러닝 스터디 - 15. Adversarial Attack & Defense (0) | 2024.06.30 |