Чешский национальный корпус
Че́шский национа́льный ко́рпус (Český národní korpus или ČNK) — доступная для открытого поиска база письменных текстов в электронной форме на чешском языке, поддерживаемая Карловым университетом в Праге. Сайт доступен на чешском и английском языках. История созданияИдея ЧНК была впервые выдвинута в 1991 году и поддержана представителями Факультета философии Карлова университета, Факультета математики и физики Карлова университета, Масарикова университета, Университета Палацкого, Института чешского языка Академии наук Чехии. Предпосылками для создания корпуса послужили такие факторы, как отклонение современного чешского языка от общепринятых норм (создание корпуса помогло бы избавить чешскую лексикографию от подобных отклонений) и стабилизация политической ситуации (более широкое сотрудничество с международным научным сообществом помогло привнесению компьютерной лексикографии и корпусной лингвистики, как отдельных ветвей, в чешскую лингвистику). В 1994 году при Факультете философии Карлова университета был создан Институт Чешского национального корпуса, а также были подписаны соглашения о сотрудничестве Института с некоторыми институциями Чехии[1]. СоставителиПо состоянию на 10 сентября 2017 года над Чешским национальным корпусом работают:
Состав и объём корпуса
Общий объём корпуса составляет свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~8894,5 млн[3]. Источники текстовОсновным содержимым ЧНК являются:
Отдельный корпус ЧНК посвящён антиутопии Джорджа Оруэлла «1984», сравнительно небольшой размер которой (80 000 слов и 20 000 пунктуационных знаков) позволил вручную разметить текст почти безупречно[4]. ДоступНа сайте существует два вида доступа: публичный и полный. Неавторизированный пользователь может искать лишь в корпусе SYN2010, объём которого составляет всего 100 млн слов, что составляет одну девяностую всей базы Чешского национального корпуса. SYN2010 состоит[5] на 40 % из художественной литературы, на 27 % из технической литературы и на 33 % из журналистских работ. Большинство текстов корпуса были созданы с 2005 до 2009 года. Публичный доступ позволяет увидеть количество вхождений в SYN2010 и первые 50 примеров. Слова выдаются в формате concordance lines, когда каждая строка представляет собой часть текста, в которой присутствует заданное выражение. Для публичного доступа возможны использования базовых регулярных выражений, также возможен поиск по ключевым словам. Зарегистрированный пользователь имеет полный доступ к базе данных Института ЧНК, а также к специальному менеджеру корпуса Bonito. BonitoBonito (A Modular Corpus Manager Bonito) — графический пользовательский интерфейс (GUI) корпус-менеджера Manatee, созданный в Центре обработки естественного языка, который расположен на факультете информатики Института имени Масарика в Брно. Создатель — Павел Рыхлый (Pavel Rychlý), ассистент факультета[6]. СотрудничествоНа данный момент[уточнить] с корпусом сотрудничают следующие институции Чехии:
Также корпус сотрудничает с Факультетом славянских языков Брауновского университета (США), Факультетами филологии и искусств Санкт-Петербургского Государственного Университета (Россия), Факультетом философии и литературы Университета Гранады[англ.] (Испания), Институтом немецкого языка в Мангейме (Германия), Университетом Амстердама (Нидерланды) и другими крупными научными центрами[7]. См. такжеПримечания
Ссылки |
Portal di Ensiklopedia Dunia