Генератыўны штучны інтэлект![]() Генератыўны штучны інтэлект — катэгорыя сістэм штучнага інтэлекту, прызначаных для стварэння змесціва, такога як тэкст, відарысы, аўдыя і іншыя віды сінтэтычных даных. Тэхналогія атрымала развіццё са з’яўленнем такіх алгартымаў машыннага навучання, як генератыўныя спаборныя сеткі і трансформеры[1][2]. Мадэлі для генерацыі змесціва будуюцца на аснове вялікіх набораў даных. У працэсе навучання мадэль атрымлівае здольнасць імітаваць структуры з сапраўдных даных і генераваць з іх дапамогай новыя, сінтэтычныя даныя . Найбольшае распаўсюджанне ў галіне генерацыі змесціва атрымалі такія тыпы мадэлей, як трансформерныя і дыфузныя мадэлі, генератыўныя спаборныя сеткі і варыяцыйныя аўтакадавальнікі[3]. ГісторыяПершымі генератыўнымі мадэлямі былі скрытыя маркаўскія мадэлі і мадэлі гаусавых сумесей , распрацаваныя ў 1950-х гадах. Яны маглі генераваць даныя паслядоўнай прыроды, напрыклад маўленне і часавыя шэрагі[4]. У галіне апрацоўкі натуральнай мовы класічнымі мадэлямі для генерацыі тэксту сталі імавернасныя мадэлі , заснаваныя на n-грамах слоў. Такія мадэлі ацэньваюць размеркаванне імавернасцей сустрэць тое ці іншае слова ў тэксце побач з іншымі словамі і ствараюць найбольш імаверныя паслядоўнасці слоў[4]. Наступным крокам у генерацыі тэксту сталі рэкурэнтныя нейронныя сеткі , што дазволілі генераваць даўжэйшыя сказы, улічваючы больш далёкія элементы ў паслядоўнасці. Такія механізмы, як доўгая кароткатэрміновая памяць і вентыльны рэкурэнтны блок паказалі здольнасць падтрымліваць кантэкст даўжынёй да двухсот элементаў[4]. У галіне камп’ютарнага зроку традыцыйнымі метадамі генерацыі відарысаў былі сінтэз і накладанне тэкстур. Складанасць і разнастайнасць відарысаў, атрыманых такім чынам, была абмежавана неабходнасцю ўручную задаваць прыкметы для накладання[4]. У 2014 годзе з’явіліся першыя генератыўныя спаборныя сеткі, што маглі ствараць відарысы больш якасныя і рэалістычныя, чым гэта ўдавалася папярэднім алгарытмам[4][5]. Архітэктура трансформерных мадэлей была прадстаўлена ў 2017 годзе ў рабоце Ашыша Васвані і ягоных калег з Google Brain[6]. Першапачаткова трансформеры прымяняліся ў задачах апрацоўкі натуральнай мовы і паказвалі лепшыя вынікі, чым рэкурэнтныя нейронныя сеткі. Праз некаторы час архітэктура была пашырана на задачы камп’ютарнага зроку. Таксама былі распрацаваны трансформерныя мадэлі, здольныя спалучаць у сабе даныя некалькіх тыпаў (мадальнасцей), напрыклад CLIP , якая працуе як з тэкстамі, так і з відарысамі. Трансформерная архітэктура лягла ў аснову такіх генератыўных мадэлей як GPT для напісання тэксту і DALL-E для стварэння відарысаў паводле тэкставага апісання[4]. У 2022 годзе даследчай арганізацыяй OpenAI быў прадстаўлены чат-бот ChatGPT, які можа генераваць рэплікі, што сімулююць дыялог паміж людзьмі, а не проста працягваць тэкст, як гэта робяць звычайныя мадэлі генерацыі тэксту. Такая здольнасць дасягаецца з дапамогай навучання з падмацаваннем праз водгукі людзей , якія аддаюць перавагу карысным адказам, падобным да рэплік у дыялогу[4]. У 2023 годзе былі выпушчаны аналагічныя мадэлі Claude ад Anthropic і Google Bard[7][8]. Асноўныя архітэктурыГенератыўныя спаборныя сеткіАрхітэктура генератыўных спаборных сетак складаецца з дзвюх нейронных сетак: генератара і дыскрымінатара. Задача генератара — ствараць элементы даных (напрыклад, відарысы), у той час як дыскрымінатар павінен адрозніваць згенераваныя даныя ад сапраўдных. Дзве сеткі паступова навучаюцца разам, што прыводзіць да іх узаемнага ўдасканалення. Навучанне спыняецца тады, калі дыскрымінатар не можа адрозніць сапраўдныя даныя ад сфабрыкаваных[3]. Перавага такой архітэктуры ў тым, што яна дазваляе навучанне на неразмечаных даных. Асноўныя тэхнічныя цяжкасці — неабходнасць знайсці раўнавагу ў навучанні дзвюх сетак і схільнасць генератара ствараць вельмі падобныя адзін да аднаго элементы даных, што прыводзіць да нізкай разнастайнасці вынікаў генерацыі[3]. Варыяцыйныя аўтакадавальнікіВарыяцыйны аўтакадавальнік складаецца з кадавальнага і дэкадавальнага модулей. Кадавальны модуль трансфармуе ўваходныя даныя ў прастору меншай памернасці, што завецца скрытай прасторай. Пасля да рэпрэзентацыі дадаецца выпадковы шум з пэўнай дысперсіяй і дэкадавалььны модуль трансфармуе элементы скрытай прасторы назад у першапачатковую прастору даных. Сэмпліраванне з скрытай прасторы і прымяненне дэкадавальніка дазваляе генераваць новыя даныя[3]. ТрансформерыТрансформерная архітэктура выкарыстоўвае механізм увагі для таго, каб мадэль магла вывучыць залежнасці паміж элементамі паслядоўнасцей (напрыклад, словамі ў сказе), незалежна ад таго, як далёка адзін ад аднаго яны знаходзяцца. З’яўленне трансформераў пашырыла магчымасці штучнага інтэлекту ў такіх задачах як генерацыя тэксту і машынны пераклад. Трансформерная архітэктура стала асновай для такіх мадэлей, як GPT і BERT[3]. Дыфузныя мадэліУ аснове дыфузных мадэлей ляжыць працэс паступовага дадавання выпадковага гаусавага шуму да элементаў даных, пакуль яны не ператворацца ў чысты шум. Атрыманыя зашумленыя даныя выкарыстоўваюцца каб навучыць мадэль выконваць гэты працэс у адваротным кірунку, ператвараючы шум у зыходныя элементы даных[9]. Дыфузныя мадэлі выкарыстоўваюцца ў камп’ютарным зроку для генерацыі відарысаў паводле тэкставага апісання, нават калі апісанні адлюстроўваюць нерэалістычныя сцэнарыі, не прадстаўленыя ў даных для навучання мадэлі. Таксама з дапамогай дыфузных мадэлей можна рашаць такія задачы як павелічэнне разрознасці і рэдагаванне відарысаў[9]. У 2022 годзе быў распрацаваны метад генерацыі відэа па тэкставым апісанні з дапамогай дыфузных мадэлей[10]. ВыкарыстаннеГенератыўны штучны інтэлект выкарыстоўваецца для рашэння крэатыўных задач у шэрагу галін бізнэсу, тэхналогій, навукі і мастацтва, такіх як напрыклад:
Крыніцы
|
Portal di Ensiklopedia Dunia