OpenAI의 DALL-E 2 (2022), DALL-E 3 (2023), 및 GPT Image 1 (2025)의 하늘을 나는 정지 신호
최초의 현대적인 텍스트-이미지 모델인 alignDRAW는 2015년 토론토 대학교 연구원들이 소개했다. alignDRAW는 이전에 소개된 DRAW 아키텍처(어텐션 메커니즘이 있는 순환변분 오토인코더 사용)를 확장하여 텍스트 시퀀스에 조건화되도록 했다.[4] alignDRAW로 생성된 이미지는 작은 해상도(크기 조정을 통해 얻은 32×32 픽셀)였으며 '다양성이 낮다'고 여겨졌다. 이 모델은 훈련 데이터에 없는 객체(빨간색 스쿨버스 등)로 일반화할 수 있었고, "파란 하늘을 나는 정지 신호"와 같은 새로운 프롬프트를 적절히 처리하여 훈련 세트의 데이터를 단순히 "기억"하는 것이 아님을 보여주는 결과물을 나타냈다.[4][6]
2016년, Reed, Akata, Yan 외 연구진은 텍스트-이미지 작업에 생성적 적대 신경망을 처음으로 사용했다.[6][7] 제한된 특정 도메인 데이터 세트에서 훈련된 모델로 "뚜렷하고 두꺼운 둥근 부리를 가진 완전히 검은 새"와 같은 텍스트 캡션에서 새와 꽃의 "시각적으로 그럴듯한" 이미지를 생성할 수 있었다. 보다 다양한 COCO (Common Objects in Context) 데이터 세트에서 훈련된 모델은 "멀리서 보면... 고무적인" 이미지를 생성했지만, 세부 사항의 일관성이 부족했다.[6] 이후의 시스템에는 VQGAN-CLIP,[8] XMC-GAN, GauGAN2 등이 있다.[9]
광범위한 대중의 관심을 끈 최초의 텍스트-이미지 모델 중 하나는 오픈AI의 DALL-E로, 2021년 1월에 발표된 트랜스포머 시스템이다.[10] 더 복잡하고 현실적인 이미지를 생성할 수 있는 후속 모델인 DALL-E 2는 2022년 4월에 공개되었고,[11] 이어서 2022년 8월에는 스테이블 디퓨전이 공개되었다.[12] 2022년 8월에는 텍스트-이미지 개인화를 통해 텍스트-이미지 기반 모델의 훈련 세트에 포함되지 않은 새 객체의 작은 이미지 세트를 사용하여 모델에 새로운 개념을 가르칠 수 있게 되었다. 이는 텍스트 역변환, 즉 이러한 이미지에 해당하는 새로운 텍스트 용어를 찾는 방식으로 이루어진다.
다른 텍스트-이미지 모델에 이어, 언어 모델 기반의 텍스트-비디오 플랫폼인 Runway, Make-A-Video,[13] Imagen Video,[14] Midjourney,[15] Phenaki[16] 등이 텍스트 및 텍스트/이미지 프롬프트에서 비디오를 생성할 수 있다.[17]
아키텍처 및 훈련
클릭 가능한 SVG 이미지 맵으로 보여주는 AI 예술 기계 학습 모델의 상태와 주목할 만한 모델 및 응용 프로그램을 보여주는 상위 수준 아키텍처
텍스트-이미지 모델은 다양한 아키텍처를 사용하여 구축되었다. 텍스트 인코딩 단계는 장단기 메모리 (LSTM) 네트워크와 같은 순환 신경망으로 수행할 수 있지만, 그 이후로는 트랜스포머 모델이 더 인기 있는 옵션이 되었다. 이미지 생성 단계에서는 조건부 생성적 적대 신경망 (GAN)이 일반적으로 사용되었으며, 최근 몇 년 동안 확산 모델도 인기 있는 옵션이 되었다. 텍스트 임베딩에 조건화된 고해상도 이미지를 직접 출력하도록 모델을 훈련하는 대신, 저해상도 이미지를 생성하도록 모델을 훈련하고 하나 이상의 보조 딥 러닝 모델을 사용하여 업스케일링하여 더 미세한 세부 사항을 채우는 인기 있는 기술이 있다.
텍스트-이미지 모델은 종종 웹에서 스크래핑한 (텍스트, 이미지) 쌍의 대규모 데이터 세트에서 훈련된다. 2022년 이매진 모델에서 구글 브레인은 텍스트 전용 코퍼스에서 별도로 훈련된 대형 언어 모델을 사용하는 것으로부터 긍정적인 결과를 보고했으며(가중치는 이후 고정됨), 이는 그때까지의 표준 접근 방식에서 벗어난 것이다.[18]
데이터 세트
텍스트-이미지 모델을 훈련하는 데 일반적으로 사용되는 세 가지 공개 데이터 세트의 이미지 및 캡션 예시
텍스트-이미지 모델을 훈련하려면 텍스트 캡션과 쌍을 이루는 이미지 데이터 세트가 필요하다. 이러한 목적으로 일반적으로 사용되는 데이터 세트 중 하나는 COCO 데이터 세트이다. 마이크로소프트가 2014년에 출시한 COCO는 인간 주석자가 생성한 이미지당 5개의 캡션이 있는 다양한 객체를 묘사하는 약 123,000개의 이미지로 구성된다. 원래 COCO의 주요 초점은 이미지에서 객체와 장면을 인식하는 것이었다. Oxford-120 Flowers와 CUB-200 Birds는 각각 약 10,000개의 이미지로 구성된 더 작은 데이터 세트로, 각각 꽃과 새로 제한된다. 이러한 데이터 세트는 주제 범위가 좁기 때문에 고품질 텍스트-이미지 모델을 훈련하기가 덜 어렵다고 여겨진다.[7]
텍스트-이미지 모델 훈련을 위한 가장 큰 공개 데이터 세트 중 하나는 50억 개 이상의 이미지-텍스트 쌍을 포함하는 LAION-5B이다. 이 데이터 세트는 웹 스크래핑과 고품질 예술 작품 및 전문 사진과의 유사성을 기반으로 자동 필터링하여 만들어졌다. 그러나 이로 인해 논란의 여지가 있는 콘텐츠도 포함되어 있어 사용 윤리에 대한 논의가 이루어지고 있다.
일부 최신 AI 플랫폼은 텍스트에서 이미지를 생성할 뿐만 아니라 합성 데이터 세트를 생성하여 모델 훈련 및 미세 조정을 개선한다. 이러한 데이터 세트는 저작권 문제를 피하고 훈련 데이터의 다양성을 확대하는 데 도움이 된다.[19]
품질 평가
텍스트-이미지 모델의 품질을 평가하고 비교하는 것은 여러 바람직한 속성을 평가하는 문제이다. 텍스트-이미지 모델에 특정한 바람직한 점은 생성된 이미지가 생성에 사용된 텍스트 캡션과 의미적으로 일치한다는 것이다. 이러한 품질을 평가하기 위해 자동화된 방식과 인간 판단을 기반으로 하는 방식 등 여러 가지 방법이 고안되었다.[7]
이미지 품질과 다양성을 평가하기 위한 일반적인 알고리즘 메트릭은 인셉션 점수 (IS)로, 텍스트-이미지 모델이 생성한 샘플 이미지에 대해 사전 훈련된 인셉션v3이미지 분류 모델이 예측한 레이블 분포를 기반으로 한다. 이 점수는 이미지 분류 모델이 단일 레이블을 높은 확률로 예측할 때 증가하며, 이는 "뚜렷한" 생성 이미지를 선호하도록 설계된 방식이다. 또 다른 인기 있는 메트릭은 관련 프레쳇 인셉션 거리로, 사전 훈련된 이미지 분류 모델의 최종 레이어 중 하나에서 추출한 특징에 따라 생성된 이미지와 실제 훈련 이미지의 분포를 비교한다.[7]
↑ 가나다Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (November 2015). 《Generating Images from Captions with Attention》. 《ICLR》. arXiv:1511.02793.
↑Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (2016년 2월 29일). 《Generating Images from Captions with Attention》. 《International Conference on Learning Representations》. arXiv:1511.02793.