IT 지식

텍스트만 주면 작품을 만드는 인공지능 DALL·E의 무궁무진함

이도울 2021. 1. 8. 09:00
SMALL

살바도르 달리와 영화 월 E에서 이름을 따온 DALL·E

요즘 핫한 인공신경망(Neural Network) 기술을 이용해 만들어진 DALL·E의 능력이 엄청나다. DALL·E는 테슬라의 설립자 일론 머스크가 공동의장으로 있는 OPEN AI에서 만든 인공신경망 모델이다. DALL·E는 초현실주의 화가 살바도르 달리와 디즈니 픽사 제작 영화 월E에서 이름을 따왔다. 이름처럼 정말 놀라운 기능을 갖고 있다.

 

초현실주의 화가 살바도르 달리와 디즈니 픽사 영화 월E의 이름이 합쳐진 인공신경망 모델 DALL.E

 

DALL·E는 무엇인가?

DALL·E는 문자-이미지쌍의 데이터를 이용, 학습시켜, 문자로 이미지를 생성할 수 있게 해주는 모델이다. 예를 들면, 우리가 인식하기에 딸기라는 사진과 딸기라는 문자, 기린 사진과 기린이라는 문자등등의 데이터를 합친 쌍(Pair Dataset)을 기계에 학습시킨 것이다. 

 

출처) OPEN AI 홈페이지

 

GPT-3처럼 달리도 트렌스포머(TRANSFOMER) 언어 모델이다. 그것은 최대 1280개의 토큰(텍스트 256개, 이미지 1024개)이 포함 된 단일 데이터 스트림으로 텍스트와 이미지를 모두 수신하고 모든 토큰을 차례로 생성할 수 있는 최적의 가능성을 찾는다. 여기서 토큰은 개별 어휘의 모든 기호다. 영어를 사용하는 인간의 어휘(vocabulary size)에는 각 26자의 알파벳 토큰이 있다고 본다면,  DALL·E의 어휘에는 텍스트와 이미지 개념 모두에 대한 토큰이 있다. 특히 이미지에 대한 설명(caption)은 어휘크기가 16384인 최대 256개의 BPE(Byte pair encoding - 압축알고리즘)으로 인코딩된 토큰을 사용하여 표현되고 이미지는 어휘크기가 8192인 1024개의 토큰을 사용하여 표현한다. 이미지는 256*256 해상도로 전처리되어 훈련되고, VAE로 32*32 그리드로 압축된다.

 

주어진 텍스트 |  an armchair in the shape of an avocado. an armchair imitating an avocado. (아보카도 모양의 의자)

달리에서 생성한 이미지 |

DALL·E의 능력

DALL·E의 능력은 언어의 구성구조를 탐구하는 다양한 문장에 대해 그럴듯한 이미지를 만들 수 있다는 것이다. 달리는 여러 개체, 속성, 공간 관계를 동시에 제어하고 적절하게 표현해낸다.

 

주어진 텍스트 | an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants

달리에서 생성한 이미지 |

적은 수의 속성과 위치는 일정 수준의 능력을 보이지만, 더 많은 물체가 등장할 수록 물체와 색상의 연관성을 혼동하고 성공률이 감소한다. 특히 의미상 동등한 텍스트는 종종 올바르게 해석하지 못한다.

 

DALL·E의 기능들

속성제어
여러개체 그리기
원근감과 3차원 시각화
내부 및 외부구조 시각화
상황 별 세부정보추론
관련없는 개념 결합
동물 일러스트
제로 샷 시각적 추론
지리 지식
시간적 지식

 

a photo of a television from the 20s 

 

앞으로 더욱 정교해진 모델이 만들어 낼 예술과 기술들이 경이로우면서 한편으로 두렵기도 하다. 인공지능이 세상을 지배할 것이라는 우려는 아니다. 하루가 다르게 바뀌는 세상속에서 우리는 어떻게 지식을 받아들여야 하는지에 대한 고민이다. OPEN AI 연구소는 앞으로 이 기술이 가지고 올 직업에 미치는 경제적 영향, 편향 가능성, 윤리적 문제를 연구할 예정이다.

LIST