본문 바로가기
etc/IT 뉴스

[220502] “무엇이든 물어봐”...딥마인드, 소량의 데이터 만으로 학습하는 시각 언어 모델 공개

by injeolmialmond 2022. 6. 19.

“무엇이든 물어봐”...딥마인드, 소량의 데이터 만으로 학습하는 시각 언어 모델 공개 < 테크 < 기사본문 - AI타임스 (aitimes.com)

 

“무엇이든 물어봐”...딥마인드, 소량의 데이터 만으로 학습하는 시각 언어 모델 공개 - AI타임

구글의 딥마인드(Deepmind)가 주어진 몇 장의 사진과 텍스트로 학습하고 사진을 설명하거나 질문에 응답할 수 있는 시각 언어 모델(Visual Language Model)을 공개했다. 이 새로운 모델은 다중 모드(Multi-m

www.aitimes.com

 

다중 모드 작업을 위해 소량의 데이터로 학습하는 퓨샷 학습
이미지나 비디오 및 텍스트로 구성된 간단한 인터페이스 구성
이미지 또는 비디오가 삽입된 텍스트를 수집해 텍스트를 생성
몇 가지 예제로 미세조정 학습 없이도 다양한 문제들을 해결

 

구글의 딥마인드(Deepmind)가 주어진 몇 장의 사진과 텍스트로 학습하고 사진을 설명하거나 질문에 응답할 수 있는 시각 언어 모델(Visual Language Model)을 공개했다. 이 새로운 모델은 다중 모드(Multi-modal) 작업을 위해 소량의 데이터로 학습하는 '퓨샷 학습(few-shot learning)'을 기반으로 이미지나 비디오 및 텍스트로 구성된 입력을 받아 주어진 입력과 관련된 텍스트를 출력한다.

 

지능에 있어서 중요한 점은 간단한 지시가 주어졌을 때 새로운 작업을 수행하는 방법을 빠르게 배우는 능력이다. 예를 들어 어린이는 책에서 동물 사진 몇 장을 본 후에 동물원에서 실제 동물을 알아볼 수 있다. 그러나 일반적인 시각적 모델이 새로운 작업을 학습하려면 해당 작업에 대해 특별히 레이블이 지정된 수만 개의 예제를 학습해야 한다. 

 

목표가 ‘세 얼룩말’과 같이 이미지에서 동물을 식별하고 수를 세는 것이라면 수천 개의 이미지를 수집하고 각 이미지에 종류와 수량을 표시해야 한다. 레이블 지정 프로세스는 시간과 비용면에서 비효율적일 뿐 아니라 새로운 작업을 할 때마다 새 모델을 훈련시켜야 한다. 딥마인드는 최근 발표된 논문에서 작업과 관련된 최소한의 정보만 제공해서 이 프로세스를 더 쉽고 효율적으로 수행할 수 있는 ‘플라밍고(Flamingo)’ 모델을 공개했다. 

 

플라밍고는 몇 가지 구체적인 예제만 가지고 추가적인 미세조정(fine-tuning) 학습 없이도 다양한 문제들을 해결할 수 있다. 플라밍고는 간단한 인터페이스를 통해서 이미지나 비디오 및 텍스트로 구성된 간단한 프롬프트 입력을 받아 입력과 관련된 언어를 출력할 수 있다. 

 

플라밍고는 다중모드 대화를 할 수 있다. 오픈AI(OpenAI)의 DALL-E 2에서 생성한 '수프 몬스터' 이미지에 대해 질문하면 플라밍고의 답을 들을 수 있다. 예를 들어 ‘이 사진은 무엇인가요?”라고 질문하면 ‘괴물 얼굴로 덮힌 수프 한 그릇’이라고 대답한다.

플라밍고의 다중 모드 대화 예시.(사진=딥마인드)

플라밍고는 스트룹(stroop) 테스트를 통과하고 식별할 수도 있다. 예를 들어 몇 가지 예를 미리 제공하면 플라밍고는 패턴을 학습해 새로 주어진 녹색으로 씌어진 ‘YELLOW’ 단어에 대해 ‘색상은 녹색이고 단어는 YELLOW’라고 답한다. 또한 플라밍고도 이것이 스트룹 테스트 임을 알 수 있다.

플라밍고의 스트룹 테스트 예시.(사진=딥마인드)

또한 두가지 동물 사진의 예, 동물의 이름을 식별하는 텍스트 및 동물을 찾을 수 있는 위치에 대한 설명을 보여준 후 새 이미지를 제공하면 플라밍고는 관련 설명을 출력할 수 있다. 예를 들어 다람쥐 ‘chinchilla’와 ‘시바견’ 사진을 보여주고 각각 칠레와 일본에 많이 있다고 알려준후 ‘홍학’ 사진을 보여주면 플라밍고는 이 동물이 홍학이고 카리브해에서 발견할 수 있다고 설명한다.

두 가지 동물 사진의 예, 동물의 이름을 식별하는 텍스트 및 찾을 수 있는 위치에 대한 설명이 주어지면 플라밍고는 새 이미지가 주어지면 이 스타일을 모방해 관련 설명을 출력할 수 있다.(사진=딥마인드)

 

일반적인 언어모델과의 차이점은 모델이 텍스트가 삽입된 이미지 또는 비디오를 모두 포함하는 다중 모드 프롬프트를 수집할 수 있어야 한다는 것이다. 플라밍고는 이미지 또는 비디오가 삽입된 일련의 텍스트 토큰을 수집하고 텍스트를 출력으로 생성할 수 있는 시각적으로 조절된 텍스트 생성 모델이다. 플라밍고는 각각 사전 훈련되고 고정된 대형 언어 모델과 시각적 임베딩 모델 사이에 새로운 아키텍처 구성 요소를 추가함으로써 두 모델을 통합한다.

 

퍼시버 리셈플러(Perceiver Resampler)는 비전 인코더(Vision Encoder)를 고정된 언어 모델에 연결해 비전 인코더의 다양한 이미지 또는 비디오 기능이 입력으로 사용해 고정된 수의 시각적 출력을 생성한다. 그런 다음 GATED XTTN-DENSE를 통해 언어 모델을 조정해 시각적 표현을 텍스트로 생성 출력한다. 

 

그런 다음 기계 학습 목적으로 레이블이 지정된 데이터를 사용하지 않고 웹에서만 제공되는 상호 보완적인 대규모 다중 모드 데이터를 선택해 학습한다. 이 방법에 따라 최근에 도입된 컴퓨팅 최적화 7000억 매개변수의 언어 모델 ‘Chinchilla’에서 시작해 최종 플라밍고 모델인 8000억 매개변수의 시각 언어 모델을 훈련한다. 이 학습이 완료되면 플라밍고 모델은 추가 작업별 조정 없이 간단한 몇 번의 학습을 통해 비전 작업에 직접 적용할 수 있게 된다.

 

연구한 16개의 작업에서 플라밍고는 작업당 4개의 예제만 제공했을 때 이전의 모든 퓨샷 학습을 능가한다. 여러 경우에 동일한 플라밍고 모델이 각 작업에 대해 개별적으로 미세 조정 및 최적화되고 여러 작업별 데이터를 더 많이 사용하는 방법보다 성능이 뛰어나다. 

작업별 최신 성능에 대한 16개의 다양한 다중 모드 작업에 대한 플라밍고의 퓨샷 성능(왼쪽)과 16개 벤치마크 중 3개에 대한 예상 입력 및 출력의 예(오른쪽).(사진=딥마인드)

플라밍고는 최소한의 작업별 예제로 이미지 및 비디오 이해 작업에 적용할 수 있는 효과적이고 효율적인 범용 모델 제품군이다. 플라밍고와 같은 모델은 실용적인 방식으로 사회에 도움이 될 것이라는 믿음을 가지고 있으며 모든 사람의 이익을 위해 안전하게 배포될 수 있도록 유연성과 기능을 지속적으로 개선하고 있다. 


일단 few-shot learning에 대해서 생소했기 때문에 해당 개념에 대해 찾아보았다. 보통은 비전 분야에서 많이 사용되고, 이미지의 경우 레이블을 달아야 보통 학습을 할 수 있기에, 레이블링 작업이 매우 중요하지만 한 편으로 그만큼 공수가 많이 드는 작업이기에.. few-shot learning이 도움이 될 수 있다고 한다!

Few shot learning 정리 - ZZAEBOK’S BLOG

 

Few shot learning 정리

 

zzaebok.github.io

하지만 그냥 데이터가 적다고 해서 few-shot learning인건 아니다. 이 학습방식의 포인트는 query하려는 데이터를 접하지 않았어도, 주어진 태스크를 해낼 수 있다는 것. (물론 접한 경우도 포함되긴 한다.) 예를 들어서 여러 동물들을 학습하도록 training set을 주고, (그 속에 호랑이는 없다고 하자) , 이제 호랑이를 포함한 n개의 사진을 support set으로 준다. 마지막으로 query image로 호랑이를 주고, 이 사진 속 동물은 어느 클래스랑 비슷한가?를 맞추도록 하는 것이다.

 

이렇게 few-shot learning에 대해서 읽어보고 나니, 위 기사 속의 예시들이 왜 제시되었는지 이해가 갔다! (물론 개념적인 부분은 조금 더 깊은 리서치가 필요하겠지만) 몬스터 수프의 경우, DALL-E가 만든 사진이기에 당연히 해당 모델이 접한 적 없는 이미지일 것이다! 또 친칠라-시바 -> 플라밍고의 예시에서도 가장 기본적인 few-shot-learning 설명 예시를 든 것이다.

 

조금 더 이론적으로 발전된 게시물도 찾았으나 너무 어려워서 다음에 다시 읽어보는 걸로..ㅎㅎ

그냥 인공지능에 있어서 데이터 의존성을 줄이기 위한 노력으로 few-shot learning과 meta-learning이라는 커다란 개념들이 제시되었고, 이러한 학습 방식을 채택한 모델들 중에서 플라밍고가 존재한다는 것만 머리속에 넣고 가야겠다.

Few-Shot Learning (velog.io)

 

Few-Shot Learning

Few-Shot Learning

velog.io

 

댓글