Генеральний регіонально анотований корпус української мови![]() ![]() Генеральний регіонально анотований корпус української мови (ГРАК; англ. General Regionally Annotated Corpus of Ukrainian, GRAC) — це корпус української мови обсягом понад 1,7 млрд токенів, призначений для здійснення лінгвістичних досліджень з граматики, лексики, історії української літературної мови, а також для використання під час укладання словників та граматик. Корпус можна використати для вивчання мови, також при підготовці навчальних матеріалів, підручників, навчальних словників та вправ з використанням прикладів з реальних текстів, з урахуванням частотної сполучуваності тощо. Корпус не є взірцем нормативної української мови, в ньому можуть трапитися слова і сполучення, які не відповідають сучасним нормам літературної мови. Корпус охоплює період з 1816 по 2023 р. і на 3 грудня 2023 року містить понад 150 тисяч текстів близько 35000 авторів. Склад корпусуУ 10-й версії корпусу, доступній для пошуку з 20 жовтня 2020 року, 35 % становлять художні тексти. Деякі жанри художніх текстів виділені окремо: дитячі, фольклорні, драматичні твори та сценарії. З нехудожніх текстів:
Також до корпусу залучено деякі словники, де є фразові приклади і фразеологія, зокрема «Словарь української мови» Б. Грінченка і «Російсько-український словник сталих виразів» І. Виргана і М. Пилинської. За допомогою інструментів корпусу в словниках можна шукати не тільки слова, а й лексико-граматичні моделі у складі прикладів та фразеологічних виразів. Близько 20 % текстів в корпусі є перекладами. Корпус містить переклади з >80 мов, найбільше — з англійської та російської. ДатуванняТексти в корпусі датовано роком написання або останнім роком, коли твір міг бути написаний; перекладні тексти датовані роком створення перекладу. Додатково може бути зазначено також рік видання, за яким подано текст. Регіональна розміткаВ основу розмітки корпусу за регіонами покладено сучасний адміністративний поділ України. В корпусі представлені тексти з усіх областей України і з Криму. Один текст може належати до кількох регіональних підкорпусів (якщо автор або перекладач народився, вчився, жив тривалий час в різних регіонах). Крім регіональних підкорпусів, є підкорпуси творів авторів діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). Це здебільшого тексти емігрантів 1940-х років і, менша частка, — 1917-1920-х рр. Морфологічна розміткаГРАК працює на базі системи морфологічного аналізу nlp_uk, яку розробили спеціалісти гурту r2u. Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки). Дослідження на базі КорпусуНа базі Корпусу проведені дослідження української мови, зокрема історичної динаміки мовної норми[1] та частотності літер і їх сполучень для розроблення шрифтів[2]. Див. такожПримітки
Посилання
|
Portal di Ensiklopedia Dunia