Model teksta u sliku

Model teksta u sliku je model mašinskog učenja koji uzima ulazni opis prirodnog jezika i proizvodi sliku koja odgovara tom opisu.

Modeli teksta u sliku počeli su da se razvijaju sredinom 2010-ih tokom početka buma veštačke inteligencije, kao rezultat napretka u dubokim neuronskim mrežama. Godine 2022, za izlaze najsavremenijih modela teksta u sliku – kao što su OpenAI-ov DALL-E 2, Google Brain-ov Imagen, Stability AI-ov Stable Diffusion i Midjourney – počelo se smatrati da se približava kvalitetu realnih fotografija i ljudske umetnosti.

Modeli teksta u sliku generalno kombinuju jezički model, koji pretvara ulazni tekst u latentnu reprezentaciju, i generativni model slike, koji proizvodi sliku uslovljenu tom reprezentacijom. Najefikasniji modeli su generalno obučeni na ogromnim količinama slikovnih i tekstualnih podataka preuzetih sa veba.^[1]