멀티모달 학습( - 學習, 영어: multimodal learning)은 텍스트, 오디오, 이미지, 비디오와 같이 모달리티라고 불리는 여러 유형의 데이터를 통합하고 처리하는 딥 러닝의 한 유형이다. 이러한 통합은 복잡한 데이터에 대한 더 총체적인 이해를 가능하게 하여 시각 질문 응답, 교차 모달 검색,[1] 텍스트-이미지 생성,[2] 미적 순위 지정,[3] 이미지 캡셔닝[4]과 같은 작업에서 모델 성능을 향상시킨다.
구글 제미나이 및 GPT-4o와 같은 대규모 멀티모달 모델은 2023년 이후 점점 더 인기를 얻고 있으며, 다양한 활용성과 실제 현상에 대한 폭넓은 이해를 가능하게 한다.[5]
동기
데이터는 일반적으로 서로 다른 정보를 담고 있는 다양한 모달리티와 함께 제공된다. 예를 들어, 이미지 자체에 표현되지 않은 정보를 전달하기 위해 이미지에 캡션을 추가하는 것은 매우 일반적이다. 마찬가지로, 텍스트로는 분명하지 않을 수 있는 정보를 설명하기 위해 이미지를 사용하는 것이 더 간단한 경우도 있다. 결과적으로, 유사한 이미지에 다른 단어가 나타나면 이 단어들은 같은 것을 묘사할 가능성이 높다. 반대로, 단어가 겉으로는 비슷하지 않은 이미지를 묘사하는 데 사용되면 이 이미지들은 같은 객체를 나타낼 수 있다. 따라서 다중 모달 데이터를 다루는 경우, 모델이 다른 모달리티의 결합된 정보를 포착할 수 있도록 정보를 공동으로 나타낼 수 있는 모델을 사용하는 것이 중요하다.
멀티모달 트랜스포머
트랜스포머는 텍스트를 넘어선 모달리티(입력 또는 출력)에도 사용/적용될 수 있으며, 일반적으로 모달리티를 "토큰화"하는 방법을 찾는 방식으로 이루어진다.
멀티모달 모델은 처음부터 훈련되거나 미세 조정을 통해 훈련될 수 있다. 2022년 연구에서는 자연어만으로 사전 훈련된 트랜스포머를 매개변수의 0.03%만으로 미세 조정하여 다양한 논리 및 시각 작업에서 LSTM과 경쟁할 수 있음을 발견하여 전이학습을 입증했다.[6] LLaVA는 언어 모델(Vicuna-13B)[7]과 비전 모델(ViT-L/14)로 구성된 시각-언어 모델이며, 선형 계층으로 연결된다. 선형 계층만 미세 조정된다.[8]
비전 트랜스포머[9]는 입력 이미지를 일련의 패치로 분해하고, 이를 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리함으로써 트랜스포머를 컴퓨터 비전에 적용한다.
컨포머(Conformer)[10]와 이후의 휘스퍼[11]는 음성 인식에 대해 동일한 패턴을 따르며, 먼저 음성 신호를 스펙트로그램으로 변환한 다음, 이를 이미지처럼 처리한다. 즉, 일련의 패치로 분해하고 벡터로 변환하여 표준 트랜스포머의 토큰처럼 처리한다.
퍼시버[12][13]는 멀티모달리티를 위해 설계된 트랜스포머의 변형이다.
이미지 생성을 위한 주목할 만한 아키텍처로는 DALL-E 1 (2021), Parti (2022),[14] Phenaki (2023),[15] 및 Muse (2023)가 있다.[16] 이후 모델과 달리 DALL-E는 확산 모델이 아니다. 대신, 자기회귀적으로 텍스트를 생성한 다음 이미지의 토큰 표현으로 변환하고, 이를 변분 오토인코더로 이미지로 변환하는 디코더-온리 트랜스포머를 사용한다.[17] Parti는 인코더-디코더 트랜스포머로, 인코더는 텍스트 프롬프트를 처리하고 디코더는 이미지의 토큰 표현을 생성한다.[18] Muse는 마스킹되지 않은 이미지 토큰으로부터 마스킹된 이미지 토큰을 예측하도록 훈련된 인코더-온리 트랜스포머이다. 생성 중에 모든 입력 토큰은 마스킹되며, 가장 높은 신뢰도의 예측은 다음 반복에 포함되어 모든 토큰이 예측될 때까지 계속된다.[16] Phenaki는 텍스트-비디오 모델이다. 이는 사전 계산된 텍스트 토큰을 조건으로 하는 양방향 마스크드 트랜스포머이다. 생성된 토큰은 비디오로 디코딩된다.[15]
멀티모달 딥 볼츠만 머신
볼츠만 머신은 1985년 제프리 힌턴과 테리 세즈노프스키가 발명한 확률적 신경망의 일종이다. 볼츠만 머신은 홉필드 네트워크의 확률적, 생성적 대응물로 볼 수 있다. 이들은 통계 역학의 볼츠만 분포의 이름을 따서 명명되었다. 볼츠만 머신의 단위는 가시 단위와 숨겨진 단위의 두 그룹으로 나뉜다. 각 단위는 활성화되었는지 여부를 나타내는 이진 출력을 가진 뉴런과 같다.[19] 일반 볼츠만 머신은 모든 단위 간의 연결을 허용한다. 그러나 일반 볼츠만 머신을 사용하여 학습하는 것은 머신의 크기에 비례하여 계산 시간이 기하급수적으로 증가하기 때문에 비실용적이다. 다음 섹션에서 설명할 더 효율적인 아키텍처는 제한된 볼츠만 머신이라고 불리며, 여기서는 숨겨진 단위와 가시 단위 사이에서만 연결이 허용된다.
멀티모달 딥 볼츠만 머신은 이미지 및 텍스트와 같은 다양한 유형의 정보를 동시에 처리하고 학습할 수 있다. 이는 각 모달리티(예: 이미지용 하나, 텍스트용 하나)에 대해 별도의 딥 볼츠만 머신을 추가 최상위 숨겨진 계층에서 연결함으로써 특히 가능하다.[20]
응용 분야
멀티모달 기계 학습은 다양한 영역에서 수많은 응용 분야를 가지고 있다:
- 교차 모달 검색: 교차 모달 검색은 사용자가 다른 모달리티(예: 텍스트 설명을 기반으로 이미지 검색)에서 데이터를 검색할 수 있도록 하여 멀티미디어 검색 엔진 및 콘텐츠 추천 시스템을 개선한다. CLIP과 같은 모델은 데이터를 공유 공간에 임베딩하여 효율적이고 정확한 검색을 용이하게 하며, 제로샷 설정에서도 강력한 성능을 보여준다.[21]
- 분류 및 누락 데이터 검색: 멀티모달 딥 볼츠만 머신은 서포트 벡터 머신 및 잠재 디리클레 할당과 같은 전통적인 모델보다 분류 작업에서 뛰어난 성능을 보이며, 이미지 및 텍스트와 같은 멀티모달 데이터 세트에서 누락된 데이터를 예측할 수 있다.
- 헬스케어 진단: 멀티모달 모델은 의료 영상, 유전체 데이터 및 환자 기록을 통합하여 진단 정확도와 조기 질병 감지, 특히 암 검진을 개선한다.[22][23][24]
- 콘텐츠 생성: DALL-E와 같은 모델은 텍스트 설명을 기반으로 이미지를 생성하여 창작 산업에 이점을 제공하며, 교차 모달 검색은 동적 멀티미디어 검색을 가능하게 한다.[25]
- 로봇공학 및 인간-컴퓨터 상호 작용: 멀티모달 학습은 음성, 시각, 촉각과 같은 감각 입력을 통합하여 로봇공학과 AI의 상호 작용을 개선하고, 자율 시스템 및 인간-컴퓨터 상호 작용에 도움을 준다.
- 감정 인식: 시각, 오디오, 텍스트 데이터를 결합하여 멀티모달 시스템은 감정 분석 및 감정 인식을 향상시키며, 고객 서비스, 소셜 미디어 및 마케팅에 적용된다.
같이 보기
각주
- ↑ Hendriksen, Mariya; Bleeker, Maurits; Vakulenko, Svitlana; van Noord, Nanne; Kuiper, Ernst; de Rijke, Maarten (2021). “Extending CLIP for Category-to-image Retrieval in E-commerce”. arXiv:2112.11294 [cs.CV].
- ↑ “Stable Diffusion Repository on GitHub”. CompVis - Machine Vision and Learning Research Group, LMU Munich. 2022년 9월 17일. 2023년 1월 18일에 원본 문서에서 보존된 문서. 2022년 9월 17일에 확인함.
- ↑ 《LAION-AI/aesthetic-predictor》, LAION AI, 2024년 9월 6일, 2024년 9월 8일에 확인함
- ↑ Mokady, Ron; Hertz, Amir; Bermano, Amit H. (2021). “ClipCap: CLIP Prefix for Image Captioning”. arXiv:2111.09734 [cs.CV].
- ↑ Zia, Tehseen (2024년 1월 8일). “Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024”. 《Unite.ai》. 2024년 6월 1일에 확인함.
- ↑ Lu, Kevin; Grover, Aditya; Abbeel, Pieter; Mordatch, Igor (2022년 6월 28일). 《Frozen Pretrained Transformers as Universal Computation Engines》. 《Proceedings of the AAAI Conference on Artificial Intelligence》 (영어) 36. 7628–7636쪽. doi:10.1609/aaai.v36i7.20729. ISSN 2374-3468.
- ↑ “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org”. 《lmsys.org》 (영어). 2024년 8월 11일에 확인함.
- ↑ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (2023년 12월 15일). 《Visual Instruction Tuning》. 《Advances in Neural Information Processing Systems》 (영어) 36. 34892–34916쪽.
- ↑ Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (2021년 6월 3일). “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. arXiv:2010.11929 [cs.CV].
- ↑ Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). “Conformer: Convolution-augmented Transformer for Speech Recognition”. arXiv:2005.08100 [eess.AS].
- ↑ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). “Robust Speech Recognition via Large-Scale Weak Supervision”. arXiv:2212.04356 [eess.AS].
- ↑ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021년 6월 22일). “Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206 [cs.CV].
- ↑ Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2021년 8월 2일). “Perceiver IO: A General Architecture for Structured Inputs & Outputs”. arXiv:2107.14795 [cs.LG].
- ↑ “Parti: Pathways Autoregressive Text-to-Image Model”. 《sites.research.google》. 2024년 8월 9일에 확인함.
- ↑ 가 나 Villegas, Ruben; Babaeizadeh, Mohammad; Kindermans, Pieter-Jan; Moraldo, Hernan; Zhang, Han; Saffar, Mohammad Taghi; Castro, Santiago; Kunze, Julius; Erhan, Dumitru (2022년 9월 29일). 《Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions》 (영어).
- ↑ 가 나 Chang, Huiwen; Zhang, Han; Barber, Jarred; Maschinot, A. J.; Lezama, Jose; Jiang, Lu; Yang, Ming-Hsuan; Murphy, Kevin; Freeman, William T. (2023년 1월 2일). “Muse: Text-To-Image Generation via Masked Generative Transformers”. arXiv:2301.00704 [cs.CV].
- ↑ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021년 2월 26일), 《Zero-Shot Text-to-Image Generation》, arXiv:2102.12092
- ↑ Yu, Jiahui; Xu, Yuanzhong; Koh, Jing Yu; Luong, Thang; Baid, Gunjan; Wang, Zirui; Vasudevan, Vijay; Ku, Alexander; Yang, Yinfei (2022년 6월 21일), 《Scaling Autoregressive Models for Content-Rich Text-to-Image Generation》, arXiv:2206.10789
- ↑ Dey, Victor (2021년 9월 3일). “Beginners Guide to Boltzmann Machine”. 《Analytics India Magazine》 (미국 영어). 2024년 3월 2일에 확인함.
- ↑ “Multimodal Learning with Deep Boltzmann Machine” (PDF). 2014. 2015년 6월 21일에 원본 문서 (PDF)에서 보존된 문서. 2015년 6월 14일에 확인함.
- ↑ Hendriksen, Mariya; Vakulenko, Svitlana; Kuiper, Ernst; de Rijke, Maarten (2023). “Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study”. arXiv:2301.05174 [cs.CV].
- ↑ Quach, Katyanna. “Harvard boffins build multimodal AI system to predict cancer”. 《The Register》 (영어). 2022년 9월 20일에 원본 문서에서 보존된 문서. 2022년 9월 16일에 확인함.
- ↑ Chen, Richard J.; Lu, Ming Y.; Williamson, Drew F. K.; Chen, Tiffany Y.; Lipkova, Jana; Noor, Zahra; Shaban, Muhammad; Shady, Maha; Williams, Mane; Joo, Bumjin; Mahmood, Faisal (2022년 8월 8일). 《Pan-cancer integrative histology-genomic analysis via multimodal deep learning》. 《Cancer Cell》 (영어) 40. 865–878.e6쪽. doi:10.1016/j.ccell.2022.07.004. ISSN 1535-6108. PMC 10397370 . PMID 35944502. S2CID 251456162.
- ↑ Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). “Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models”. arXiv:1911.03393 [cs.LG].
- ↑ Shi, Yuge; Siddharth, N.; Paige, Brooks; Torr, Philip HS (2019). “Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models”. arXiv:1911.03393 [cs.LG].
|