IT

Microsoft가 텍스트로 이미지를 자동 생성 할 수있는 AI 기술 개발

오델리아 2018. 1. 19. 14:17

Microsoft가 텍스트로부터 실제와 착각 할 수준의 가상 이미지를 자동 생성하는 새로운 AI 기술 "AttnGAN"을 개발했다. "노란 몸으로, 검은 날개를 가지고, 짧은 부리를가진 새"라고 입력하면, 마치 실재하는 조류 인것 같은 자연스러운 이미지를 자동 생성 할 수있다.


사진이나 이미지로부터 설명(캡션)을 자동으로 생성하는 AI는 Google 등에 의해 개발되어 왔다. Microsoft도 비슷한 기술을 개발하고 있고, 이미 Office에 도입되어 있는 기술도 있다.



"이미지 → 자막"이라는 방향으로 개발되어 온 AI 기술에 대해, 새로운 Microsoft 연구소가 개발 한 기술은 "캡션 → 이미지"라는 방향으로 활용 될 것이다. 즉, 원하는 이미지의 설명을 텍스트로 입력하면, 그것에 맞는 이미지를 AI가 자동으로 생성 해 준다는 것이다. 이 AI 기술을 개발 한 연구진은 간단하게 "drawing bot"이라고 부르고 있다고.


다음의 이미지 생성 프로세스는 "노란 몸체에 검은 날개를 가지고있고, 짧은 부리의 새"라는 텍스트를 입력하고 drawing bot에 이지미에 맞는 이미지를 생성시킨 것. 놀랍게도 최종 완성된 조류(오른쪽 아래)의 이미지는 진짜 새의 사진에서 선택 한 것이 아니라 픽셀 단위로 처음부터 생성되었고 "컴퓨터가 상상하는 새를 그린것"이라는 것. 즉, 앞으로 "Bing에서 문구를 조합하여 검색하여 나타난 사진 이미지는 실제 조류가 아닐지도 모른다"라고 Microsoft 연구소 딥 러닝 기술 센터의 주임 연구원 Xiaodong He 씨는 말하고 있다.





종래의 "이미지 → 자막"의 AI 기술은, 많은 특징 중에서 확실한 정보를 엄선 해주면 좋았던 것에 대해, "캡션 → 이미지"의 AI 기술인 drawing bot은 일부 정보를 바탕으로 부족한 정보를 스스로 보충 해 재구성하는 과정을 거치기 때문에, 기술적 인 난이도가 크게 높아진다. 이 drawing bot을 실현하기 위한 기술의 핵심은 "Generative Adversarial Network"(GAN)이라는 기술이라는 것. GAN으로 생성 된 이미지는 "discriminator"라는 품질을 판단하는 모델에 의해 세련되어 진다.


"캡션 → 이미지"의 과정에서는, "파랑새"와 "상록수"와 같은 간단한 텍스트 입력으로 이미지를 생성하는 작업은 그리 어려운 것은 아니지만, "노란 날개", "붉은 복부" 등의 복잡한 조건이 가해지면, 전체 문장을 하나의 정보로 포착하기 때문에 설명에 대한 자세한 정보가 손실되는 문제점이 있었다라는 것. 


그래서 drawing bot에서는, 인간이 그림을 그릴 때, 반복 설명을 참고하여, 이미지를 표현하는 단어에 세심한주의를 지불하는 행동을 참고하고 "주의"의 개념을 수학적으로 표현하는 "AttnGAN"라는 매개 변수를 만들었다. 이렇게 하면 입력 된 텍스트를 개별 단어로 분할하여 이미지의 자세한 내용울 구축할 수 있다.



또한 AttnGAN에서는, 인간이 가진 "상식"의 개념을 기계 학습에 의해 AI 습득하고 있다. 여기에서는 이미지와 캡션 쌍에 대해 기계 학습 교육이 행해지지만, 새 이미지의 대부분은 "나뭇 가지에 앉아있다"에서부터, "새"가 속하는 "상식"에 대해서 배운다는 것.




이상과 같이 drawing bot에서는 "주의"와 "상식"의 2개의 기계 학습 과정을 결합 한 AttnGAN에 의해 설명문에 있던 이미지를 생성하고, 생성 된 이미지의 품질을 판단하는 모델 "discriminator"에 거치는 것으로, 마치 실제 사진과 착각 할것같은 퀄리티의 이미지 생성이 가능하게 되었다는 것이다. 



또한 AttnGAN으로 생성 된 이미지의 품질은 기존의 GAN 기술로 만든 이미지 품질의 3배에 도달하고 있다고 한다.


"AI가 생성 한 인공물"은 위화감이 거의 없는 경이적인 수준에 도달하고 있는 drawing bot이지만, Microsoft에 따르면, 기술적으로 몇 가지 작은 결함이 보이고, 미완성의 기술이라는 것. 개량을 더하는 것으로, 장래적으로는 스케치의 보조로할 수있고, 음성 인식으로 만든 사진을 세련되게 하고, 인간이 일체 손을 가하지 않고 텍스트 기반의 각본으로 애니메이션 영화를 제작하는 등의 용도로 활용하는 것을 목표로 하고 있다.