Чеський національний корпусЧеський національний корпус (ЧНК) (чес. Český národní korpus) — великий електронний корпус писемної та розмовної чеської мови, розроблений Інститутом Чеського національного корпусу (ICNC) на факультеті мистецтв Карлового університету в Празі[1]. Корпус використовується для викладання та дослідження з корпусної лінгвістики. Його мета – систематично відображати чеську та інші мови в порівнянні з нею. Історія створенняІдея щодо створення ЧНК була вперше висунута у 1991 році та підтримана представниками Факультету філософії Карлового університету, Факультету математики та фізики Карлового університету, Університету Масарика, Університету Палацького, Інституту чеської мови Академії наук Чехії. Заснований був в 1994 році. Передумовами для створення корпусу слугували такі фактори, як відхилення сучасної чеської мови від загальноприйнятих норм (створення корпусу допомогло б позбавити чеську лексикографію від подібних відхилень) і стабілізація політичної ситуації (ширша співпраця з міжнародною науковою спільнотою допомогла привнесенню комп′ютерної лексикографії та корпусної лінгвістики, як окремих гілок, у чеську лінгвістику). УкладачіСтаном на 10 вересня 2017 року над Чеським національним корпусом працюють:
Склад та об'єм корпусу
Загальний об’єм корпусу складає понад 9 млрд слововживань, з яких лематизовано і розмічено тегами ~8894,5 млн. Сфери увагиЧеський національний корпус систематично зосереджується на таких сферах:
Джерела текстівОсновними джерелами текстів ЧНК є:
Окремий корпус ЧНК присвячений антиутопії Джорджа Орвелла «1984», порівняно невеликий розмір якої (80 000 слів і 20 000 пунктуаційних знаків) дозволив вручну розмітити текст майже бездоганно. ДоступНа сайті існує два види доступу: публічний і повний. Неавторизований користувач може шукати тільки в корпусі SYN2010, об′єм якого складає всього 100 млн слів, що становить одну дев′яносту всієї бази Чеського національного корпусу. SYN2010 складається[3] на 40% із художньої літератури, на 27% із технічної літератури і на 33% із журналістських робіт. Більшість текстів корпусу були створені з 2005 по 2009 рік. Слова видаються в форматі concordance lines, коли кожна стрічка являє собою частину тексту, в якому є заданий вислів. Для публічного доступу можливі використання базових регулярних висловлювань, також можливий пошук за ключовими словам. Зареєстрований користувач має повний доступ до бази даних Інституту ЧНК, а також до спеціального менеджера корпусу Bonito. СпівпрацяЗ корпусом співпрацюють такі наукові інституції:[4]
Також корпус співпрацює з факультетом слов’янських мов Браунського університету (США), факультетом філософії і літератури Гранадського університету (Іспанія), Інститутом німецької мови в Мангаймі (Німеччина), Амстердамським університетом (Нідерланди) та іншими великими науковими центрами. Примітки
|
Portal di Ensiklopedia Dunia