Model teksta u sliku![]() Model teksta u sliku je model mašinskog učenja koji uzima ulazni opis prirodnog jezika i proizvodi sliku koja odgovara tom opisu. Modeli teksta u sliku počeli su da se razvijaju sredinom 2010-ih tokom početka buma veštačke inteligencije, kao rezultat napretka u dubokim neuronskim mrežama. Godine 2022, za izlaze najsavremenijih modela teksta u sliku – kao što su OpenAI-ov DALL-E 2, Google Brain-ov Imagen, Stability AI-ov Stable Diffusion i Midjourney – počelo se smatrati da se približava kvalitetu realnih fotografija i ljudske umetnosti. Modeli teksta u sliku generalno kombinuju jezički model, koji pretvara ulazni tekst u latentnu reprezentaciju, i generativni model slike, koji proizvodi sliku uslovljenu tom reprezentacijom. Najefikasniji modeli su generalno obučeni na ogromnim količinama slikovnih i tekstualnih podataka preuzetih sa veba.[1] Reference
|
Portal di Ensiklopedia Dunia