Ясалма интеллект һәм татар телеЯсалма интеллект һәм татар теле — фәнни-технологик юнәлеш, ул ясалма интеллект технологияләрен, аеруча зур тел модельләрен (LLM), татар теленә карата куллануны һәм үстерүне өйрәнә. Машина тәрҗемәсеннән аермалы буларак, генератив модельләр булган текстны тәрҗемә итеп кенә калмый, ә яңа, оригиналь эчтәлек (текстлар, сурәтләр, аудио) булдыра. Бу юнәлеш 2020-нче еллар башында, аеруча GPT-3 кебек нигез модельләрнең киң таралуы белән актив үсеш ала башлады. Ул үзенә контент генерацияләү, сөйләм синтезы, шулай ук тел ресурсларын (корпуслар, датасетлар) булдыру һәм үстерү кебек өлкәләрне кертә. Татар теле өчен ресурсларТатар теле өчен ясалма интеллект үсеше сыйфатлы лингвистик ресурсларга нигезләнә. Бүгенге көндә төп нигез булып зур күләмле корпуслар һәм махсус өйрәтү датасетлары тора. Корпуслар«Туган тел» татар гомумтел корпусы — хәзерге татар әдәби теленең лингвистик ресурсы. 2018 елның декабренә аның күләме 180 миллионнан артык сүз кулланышын тәшкил иткән. Проект ТР Фәннәр академиясенең «Гамәли семиотика» институты һәм Казан федераль университеты хезмәткәрләре тарафыннан эшләнгән[1]. Татар теленең язма корпусы — татар телендәге иң зур электрон текстлар җыелмаларының берсе. 2010 елдан башлап үстерелә һәм, нигездә, web-ресурслар материалында төзелгән. Аның күләме 500 миллионнан артык сүзне тәшкил итә. Корпус публицистик, сәнгатьле һәм фәнни текстларны үз эченә ала[2]. Махсус датасетларTatarTTS — татар телендә сөйләм синтезы өчен булдырылган ачык датасет. Ул ике профессиональ диктор (ир-ат һәм хатын-кыз) тарафыннан яздырылган якынча 70 сәгатьлек аудиоязманы үз эченә ала. Бу — үз төрендәге беренче зур күләмле иҗтимагый ачык мәгълүматлар җыелмасы. Проект 2024 елда тәкъдим ителгән[3]. Технологияләр үсешеТатар теле өчен ясалма интеллект технологияләре берничә этап аша үтте: башта системалар текстларны тәрҗемә итәргә өйрәнсә, соңрак алар яңа, оригиналь контент булдыру сәләтенә ия булды. Машина тәрҗемәсе һәм башлангыч тикшеренүләрТатар телен ясалма интеллект системаларына интеграцияләү буенча беренче зур адымнар машина тәрҗемәсе өлкәсендә ясалды. Яндекс компаниясе үзенең тәрҗемә системасына татар телен 2015 елда ук өстәде, бу технологияне киң кулланучыга җиткерде[4]. Фәнни даирәләрдә дә бу юнәлеш актив өйрәнелде. 2017 елда КФУ галиме Айдар Хөсәенов татар теленең бай морфологиясен исәпкә алып, N-граммлы тел модельләрен төзү буенча экспериментлар тәкъдим итте[5]. Соңрак, 2019 елда, Иннополис Университеты тикшеренүчеләре зур булмаган параллель корпусларда рус-татар тәрҗемәсенең сыйфатын яхшырту өчен төрле техник алымнарны анализладылар. Бу эшләр, нигездә, булган текстны бер телдән икенчесенә әйләндерүгә юнәлтелгән иде. Контент генерациясеЯңа, оригиналь текстлар булдыру сәләтенә ия булган генератив модельләр чоры 2022 елда башланды. Беренче адымнар (2022)Татар телендә оригиналь контент генерацияләү мөмкинлеге беренче тапкыр 2022 елның июлендә барлыкка килде. «Gerwin» компаниясе GPT-3 davinci моделенең татар теленә нечкә көйләнгән (fine-tuning) версиясен тәкъдим итте. Бу модель блог язмалары, социаль челтәрләр өчен постлар, хикәяләр кебек төрле форматтагы текстлар булдыра алды[6]. Соңрак, проект методологиясен күрсәтү өчен, шул чордагы датасетның бер өлеше ачык чыганакларга урнаштырылды[7]. Яңа буын модельләре (2023–2024)2023 елдан башлап, татар теле өчен генератив модельләр үсешенә эре технологик компанияләр һәм фәнни институтлар актив кушылды. 2023 елның маенда ТР Фәннәр академиясенең Гамәли семиотика институты «Татсофт» веб-сервисы нигезендә тавышлы тәрҗемә функциясен һәм белем алу, проектлар булдыру өчен «Татар чаты» нейрочелтәрен тәкъдим итте[8]. Соңрак, августта, SberDevices үзенең `mGPT-1.3B` күптелле моделенең татар теленә махсус көйләнгән версиясен чыгарды, бу модель тикшеренүчеләр өчен ачык[9]. 2024 елның сентябрендә узган «Kazan Digital Week» форумында МТС компаниясенең ясалма интеллект үзәге (МТС AI) татар теле өчен махсус эшләнгән `Cotype Rehmet` исемле зур тел моделен тәкъдим итте. Якынча 8 миллиард параметрдан торган бу модель текст генерацияләү һәм тәрҗемә итү кебек катлаулы мәсьәләләрне чишә ала[10]. Экспертлар фикере һәм проблемаларТехнологик уңышларга карамастан, белгечләр бу өлкәдә берничә системалы проблеманы билгеләп үтә. ТР Фәннәр академиясенең Гамәли семиотика институты директоры Ринат Гыйльмуллин фикеренчә, татар теле өчен ясалма интеллект модельләрен үстерүнең төп киртәләре — зур күләмле корпусларның, лингвистик анализ системаларының һәм куәтле серверларның җитеп бетмәве[11]. Фәнни басмалар да татар теле кебек агглютинатив телләрнең морфологик структурасының катлаулылыгы һәм ресурсларның җитәрлек булмавы телне эшкәртү системаларының нәтиҗәлелеген киметүен раслый[12]. Стратегик партнерлыкларРесурслар кытлыгы һәм модельләрне үстерү проблемаларын системалы хәл итү максатыннан, 2025 елда ТР Фәннәр академиясе, Иннополис Университеты һәм Ясалма интеллект тикшеренүләре институты (AIRI) арасында стратегик килешү төзелде. Партнерлыкның төп максатлары — Россиянең аз санлы халыклары телләре, беренче чиратта татар теле, белән эшләү өчен ясалма интеллект модельләрен үстерү, шулай ук Татарстанның цифрлы мирасын эшкәртү өчен суперкомпьютер мөмкинлекләрен куллану[13]. Мәгариф һәм популяштыруТехнологик үсеш белән беррәттән, бу өлкәдә мәгариф инициативалары да барлыкка килә. 2024 елда «Ачык университет» онлайн-проекты кысаларында ясалма интеллект мөмкинлекләрен өйрәнүгә багышланган бушлай курс тулысынча татар телендә эшли башлады. Курсның авторлары — ясалма интеллект белгече Сайдаш Мифтахов һәм Бөтендөнья татар яшьләре форумы рәисе Рәйнур Хәсәнов. Курсның үзенчәлеге — махсус фәнни терминологиянең тулысынча татар теленә тәрҗемә ителеп кулланылуы[14]. Шулай ук карагызИскәрмәләр
|
Portal di Ensiklopedia Dunia