멀티모달 학습

멀티모달 학습( - 學習, 영어: multimodal learning)은 텍스트, 오디오, 이미지, 비디오와 같이 모달리티라고 불리는 여러 유형의 데이터를 통합하고 처리하는 딥 러닝의 한 유형이다. 이러한 통합은 복잡한 데이터에 대한 더 총체적인 이해를 가능하게 하여 시각 질문 응답, 교차 모달 검색,[1] 텍스트-이미지 생성,[2] 미적 순위 지정,[3] 이미지 캡셔닝[4]과 같은 작업에서 모델 성능을 향상시킨다.

구글 제미나이GPT-4o와 같은 대규모 멀티모달 모델은 2023년 이후 점점 더 인기를 얻고 있으며, 다양한 활용성과 실제 현상에 대한 폭넓은 이해를 가능하게 한다.[5]

동기

데이터는 일반적으로 서로 다른 정보를 담고 있는 다양한 모달리티와 함께 제공된다. 예를 들어, 이미지 자체에 표현되지 않은 정보를 전달하기 위해 이미지에 캡션을 추가하는 것은 매우 일반적이다. 마찬가지로, 텍스트로는 분명하지 않을 수 있는 정보를 설명하기 위해 이미지를 사용하는 것이 더 간단한 경우도 있다. 결과적으로, 유사한 이미지에 다른 단어가 나타나면 이 단어들은 같은 것을 묘사할 가능성이 높다. 반대로, 단어가 겉으로는 비슷하지 않은 이미지를 묘사하는 데 사용되면 이 이미지들은 같은 객체를 나타낼 수 있다. 따라서 다중 모달 데이터를 다루는 경우, 모델이 다른 모달리티의 결합된 정보를 포착할 수 있도록 정보를 공동으로 나타낼 수 있는 모델을 사용하는 것이 중요하다.

멀티모달 트랜스포머

트랜스포머는 텍스트를 넘어선 모달리티(입력 또는 출력)에도 사용/적용될 수 있으며, 일반적으로 모달리티를 "토큰화"하는 방법을 찾는 방식으로 이루어진다.

멀티모달 모델은 처음부터 훈련되거나 미세 조정을 통해 훈련될 수 있다. 2022년 연구에서는 자연어만으로 사전 훈련된 트랜스포머를 매개변수의 0.03%만으로 미세 조정하여 다양한 논리 및 시각 작업에서 LSTM과 경쟁할 수 있음을 발견하여 전이학습을 입증했다.[6] LLaVA는 언어 모델(Vicuna-13B)[7]과 비전 모델(ViT-L/14)로 구성된 시각-언어 모델이며, 선형 계층으로 연결된다. 선형 계층만 미세 조정된다.[8]

비전 트랜스포머[9]는 입력 이미지를 일련의 패치로 분해하고, 이를 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리함으로써 트랜스포머를 컴퓨터 비전에 적용한다.

컨포머(Conformer)[10]와 이후의 휘스퍼[11]음성 인식에 대해 동일한 패턴을 따르며, 먼저 음성 신호를 스펙트로그램으로 변환한 다음, 이를 이미지처럼 처리한다. 즉, 일련의 패치로 분해하고 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리한다.

퍼시버[12][13]는 멀티모달리티를 위해 설계된 트랜스포머의 변형이다.

이미지 생성을 위한 주목할 만한 아키텍처로는 DALL-E 1 (2021), Parti (2022),[14] Phenaki (2023),[15] 및 Muse (2023)가 있다.[16] 이후 모델과 달리 DALL-E는 확산 모델이 아니다. 대신, 자기회귀적으로 텍스트를 생성한 다음 이미지의 토큰 표현으로 변환하고, 이를 변분 오토인코더로 이미지로 변환하는 디코더-온리 트랜스포머를 사용한다.[17] Parti는 인코더-디코더 트랜스포머로, 인코더는 텍스트 프롬프트를 처리하고 디코더는 이미지의 토큰 표현을 생성한다.[18] Muse는 마스킹되지 않은 이미지 토큰으로부터 마스킹된 이미지 토큰을 예측하도록 훈련된 인코더-온리 트랜스포머이다. 생성 중에 모든 입력 토큰은 마스킹되며, 가장 높은 신뢰도의 예측은 다음 반복에 포함되어 모든 토큰이 예측될 때까지 계속된다.[16] Phenaki는 텍스트-비디오 모델이다. 이는 사전 계산된 텍스트 토큰을 조건으로 하는 양방향 마스크드 트랜스포머이다. 생성된 토큰은 비디오로 디코딩된다.[15]


멀티모달 딥 볼츠만 머신

볼츠만 머신은 1985년 제프리 힌턴테리 세즈노프스키가 발명한 확률적 신경망의 일종이다. 볼츠만 머신은 홉필드 네트워크확률적, 생성적 대응물로 볼 수 있다. 이들은 통계 역학의 볼츠만 분포의 이름을 따서 명명되었다. 볼츠만 머신의 단위는 가시 단위와 숨겨진 단위의 두 그룹으로 나뉜다. 각 단위는 활성화되었는지 여부를 나타내는 이진 출력을 가진 뉴런과 같다.[19] 일반 볼츠만 머신은 모든 단위 간의 연결을 허용한다. 그러나 일반 볼츠만 머신을 사용하여 학습하는 것은 머신의 크기에 비례하여 계산 시간이 기하급수적으로 증가하기 때문에 비실용적이다. 다음 섹션에서 설명할 더 효율적인 아키텍처는 제한된 볼츠만 머신이라고 불리며, 여기서는 숨겨진 단위와 가시 단위 사이에서만 연결이 허용된다.

멀티모달 딥 볼츠만 머신은 이미지 및 텍스트와 같은 다양한 유형의 정보를 동시에 처리하고 학습할 수 있다. 이는 각 모달리티(예: 이미지용 하나, 텍스트용 하나)에 대해 별도의 딥 볼츠만 머신을 추가 최상위 숨겨진 계층에서 연결함으로써 특히 가능하다.[20]

응용 분야

멀티모달 기계 학습은 다양한 영역에서 수많은 응용 분야를 가지고 있다:

  • 교차 모달 검색: 교차 모달 검색은 사용자가 다른 모달리티(예: 텍스트 설명을 기반으로 이미지 검색)에서 데이터를 검색할 수 있도록 하여 멀티미디어 검색 엔진 및 콘텐츠 추천 시스템을 개선한다. CLIP과 같은 모델은 데이터를 공유 공간에 임베딩하여 효율적이고 정확한 검색을 용이하게 하며, 제로샷 설정에서도 강력한 성능을 보여준다.[21]
  • 분류 및 누락 데이터 검색: 멀티모달 딥 볼츠만 머신은 서포트 벡터 머신잠재 디리클레 할당과 같은 전통적인 모델보다 분류 작업에서 뛰어난 성능을 보이며, 이미지 및 텍스트와 같은 멀티모달 데이터 세트에서 누락된 데이터를 예측할 수 있다.
  • 헬스케어 진단: 멀티모달 모델은 의료 영상, 유전체 데이터 및 환자 기록을 통합하여 진단 정확도와 조기 질병 감지, 특히 암 검진을 개선한다.[22][23][24]
  • 콘텐츠 생성: DALL-E와 같은 모델은 텍스트 설명을 기반으로 이미지를 생성하여 창작 산업에 이점을 제공하며, 교차 모달 검색은 동적 멀티미디어 검색을 가능하게 한다.[25]
  • 로봇공학 및 인간-컴퓨터 상호 작용: 멀티모달 학습은 음성, 시각, 촉각과 같은 감각 입력을 통합하여 로봇공학과 AI의 상호 작용을 개선하고, 자율 시스템 및 인간-컴퓨터 상호 작용에 도움을 준다.
  • 감정 인식: 시각, 오디오, 텍스트 데이터를 결합하여 멀티모달 시스템은 감정 분석감정 인식을 향상시키며, 고객 서비스, 소셜 미디어 및 마케팅에 적용된다.

같이 보기

각주

  1. Hendriksen, Mariya; Bleeker, Maurits; Vakulenko, Svitlana; van Noord, Nanne; Kuiper, Ernst; de Rijke, Maarten (2021). “Extending CLIP for Category-to-image Retrieval in E-commerce”. arXiv:2112.11294 [cs.CV]. 
  2. “Stable Diffusion Repository on GitHub”. CompVis - Machine Vision and Learning Research Group, LMU Munich. 2022년 9월 17일. 2023년 1월 18일에 원본 문서에서 보존된 문서. 2022년 9월 17일에 확인함. 
  3. 《LAION-AI/aesthetic-predictor》, LAION AI, 2024년 9월 6일, 2024년 9월 8일에 확인함 
  4. Mokady, Ron; Hertz, Amir; Bermano, Amit H. (2021). “ClipCap: CLIP Prefix for Image Captioning”. arXiv:2111.09734 [cs.CV]. 
  5. Zia, Tehseen (2024년 1월 8일). “Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024”. 《Unite.ai》. 2024년 6월 1일에 확인함. 
  6. Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor (2022년 6월 28일). 《Frozen Pretrained Transformers as Universal Computation Engines》. 《Proceedings of the AAAI Conference on Artificial Intelligence》 (영어) 36. 7628–7636쪽. doi:10.1609/aaai.v36i7.20729. ISSN 2374-3468. 
  7. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org”. 《lmsys.org》 (영어). 2024년 8월 11일에 확인함. 
  8. Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (2023년 12월 15일). 《Visual Instruction Tuning》. 《Advances in Neural Information Processing Systems》 (영어) 36. 34892–34916쪽. 
  9. Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (2021년 6월 3일). “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. arXiv:2010.11929 [cs.CV]. 
  10. Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). “Conformer: Convolution-augmented Transformer for Speech Recognition”. arXiv:2005.08100 [eess.AS]. 
  11. Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). “Robust Speech Recognition via Large-Scale Weak Supervision”. arXiv:2212.04356 [eess.AS]. 
  12. Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021년 6월 22일). “Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206 [cs.CV]. 
  13. Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2021년 8월 2일). “Perceiver IO: A General Architecture for Structured Inputs & Outputs”. arXiv:2107.14795 [cs.LG]. 
  14. “Parti: Pathways Autoregressive Text-to-Image Model”. 《sites.research.google》. 2024년 8월 9일에 확인함. 
  15. Villegas, Ruben; Babaeizadeh, Mohammad; Kindermans, Pieter-Jan; Moraldo, Hernan; Zhang, Han; Saffar, Mohammad Taghi; Castro, Santiago; Kunze, Julius; Erhan, Dumitru (2022년 9월 29일). 《Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions》 (영어). 
  16. Chang, Huiwen; Zhang, Han; Barber, Jarred; Maschinot, A. J.; Lezama, Jose; Jiang, Lu; Yang, Ming-Hsuan; Murphy, Kevin; Freeman, William T. (2023년 1월 2일). “Muse: Text-To-Image Generation via Masked Generative Transformers”. arXiv:2301.00704 [cs.CV]. 
  17. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021년 2월 26일), 《Zero-Shot Text-to-Image Generation》, arXiv:2102.12092 
  18. Yu, Jiahui; Xu, Yuanzhong; Koh, Jing Yu; Luong, Thang; Baid, Gunjan; Wang, Zirui; Vasudevan, Vijay; Ku, Alexander; Yang, Yinfei (2022년 6월 21일), 《Scaling Autoregressive Models for Content-Rich Text-to-Image Generation》, arXiv:2206.10789 
  19. Dey, Victor (2021년 9월 3일). “Beginners Guide to Boltzmann Machine”. 《Analytics India Magazine》 (미국 영어). 2024년 3월 2일에 확인함. 
  20. “Multimodal Learning with Deep Boltzmann Machine” (PDF). 2014. 2015년 6월 21일에 원본 문서 (PDF)에서 보존된 문서. 2015년 6월 14일에 확인함. 
  21. Hendriksen, Mariya; Vakulenko, Svitlana; Kuiper, Ernst; de Rijke, Maarten (2023). “Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study”. arXiv:2301.05174 [cs.CV]. 
  22. Quach, Katyanna. “Harvard boffins build multimodal AI system to predict cancer”. 《The Register》 (영어). 2022년 9월 20일에 원본 문서에서 보존된 문서. 2022년 9월 16일에 확인함. 
  23. Chen, Richard J.; Lu, Ming Y.; Williamson, Drew F. K.; Chen, Tiffany Y.; Lipkova, Jana; Noor, Zahra; Shaban, Muhammad; Shady, Maha; Williams, Mane; Joo, Bumjin; Mahmood, Faisal (2022년 8월 8일). 《Pan-cancer integrative histology-genomic analysis via multimodal deep learning》. 《Cancer Cell》 (영어) 40. 865–878.e6쪽. doi:10.1016/j.ccell.2022.07.004. ISSN 1535-6108. PMC 10397370 |pmc= 값 확인 필요 (도움말). PMID 35944502. S2CID 251456162. 
  24. Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). “Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models”. arXiv:1911.03393 [cs.LG]. 
  25. Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). “Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models”. arXiv:1911.03393 [cs.LG]. 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya