초거대 멀티모달 AI ‘minDALL-E(민달리)’의 업그레이드 버전

'사막에 있는 에펠탑'이라는 텍스트 조건에 의해 생성된 샘플 이미지 <사진=카카오브레인>
'사막에 있는 에펠탑'이라는 텍스트 조건에 의해 생성된 샘플 이미지 <사진=카카오브레인>

[현대경제신문 하지현 기자] 카카오브레인은 초거대 멀티모달(multimodal) 인공지능(AI) ‘민달리(minDALL-E)’ 업그레이드 버전인 이미지 생성모델 ‘RQ-트랜스포머’를 최대 오픈소스 커뮤니티 ‘깃허브(GitHub)’에 공개했다고 19일 밝혔다.

39억 개 매개변수(파라미터)로 구성된 RQ-Transformer는 3000만 쌍의 텍스트 및 이미지를 학습한 AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시킨 모델이다.

카카오브레인 독자 기술로 개발된 RQ-Transformer는 민달리 대비 모델크기는 3배, 이미지 생성속도와 학습 데이터셋 크기는 2배 늘렸다.

고해상도 이미지를 2차원 코드맵으로 표현하는 기존 기술과 달리 RQ-Transformer는 3차원 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어 높은 품질 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다.

카카오브레인은 ‘RQ-Transformer’ 기술 우수성을 인정받아 오 6월에 열리는 세계적인 학술대회 ‘CVPR 2022’에서 해당 논문을 발표할 예정이다. 이미지 생성 모델 연구개발을 담당하고 있는 카카오브레인 GM(Generative Model)팀은 이미지를 생성하고 생성 속도를 향상시키기 위한 연구를 진행해 나갈 예정이다.

김일두 카카오브레인 대표는 “인간 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다”면서 “이번에 공개한 획기적인 텍스트 투 이미지(text-to-image) AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것”이라고 말했다.

저작권자 © 현대경제신문 무단전재 및 재배포 금지