Компьютерная лексикографияКомпью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей . Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям[1]. Компьютерная лексикография представлена совокупностью методов и программных средств обработки текстовой информации для создания словарей[2]. В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы — базы данных, компьютерные картотеки, программы обработки текста — позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её[3]. Множество различных компьютерных лексикографических программ разделяются на две большие группы: программы поддержки лексикографических работ и электронные словари различных типов, включающие лексикографические базы данных.История компьютерной лексикографии[4]Термин «Компьютерная лексикография» был придуман для обозначения области изучения машиночитаемых (электронных) словарей[5] и появился в середине 1960-х годов. Этой дисциплине уделяли мало внимания вплоть до начала 1990-х годов. Термин «машиночитаемый словарь» означает, что данные из словаря (хранящиеся в электронном виде) могут быть обработаны и исследованы с помощью современной вычислительной техники. Новаторские работы Эвенса[6] и Амслера[7] (1980) послужили толчком для расширения исследований электронных словарей, например, была проведена практическая работа с использованием Седьмого Энциклопедического словаря Вебстера[8]. Стимулом для этих исследований послужило также широкое использование Longman Dictionary of Contemporary English[9] в 1980-х, этот словарь по-прежнему является одним из лучших электронных словарей. Первоначально электронные словари имели такую же форму записи, как обычные словари, и исследователям приходилось тратить много времени для интерпретации такой формы записи (например, чтобы определить, к какой части речи относится определенное слово). С развитием технологий издатели решили отделить базу данных электронного словаря от того, как он выглядит при печати. Сегодня существуют более удобные формы записи, например расширяемый язык разметки XML. Используя XML, исследователи получают быстрый доступ к информации, хранящейся в электронном словаре. Основные понятия компьютерной лексикографии
Электронные словариЭлектронный словарь — это любой упорядоченный, относительно конечный массив лингвистической информации, представленный в виде списка, таблицы или перечня, удобного для размещения в памяти ЭВМ и снабженного программами автоматической обработки и пополнения[14]. Термин электронный словарь может быть использован для обозначения любого справочного материала, хранящегося в электронном виде и предоставляющего информацию о написании, значении или использовании слов. Таким образом, система проверки правописания в текстовом редакторе, устройство, которое сканирует и переводит напечатанные слова и электронная версия бумажного словаря — всё это электронные словари, имеющие сходные системы хранения и поиска[15]. В работе (Неси, 2000)[16] выделяют несколько категорий электронных словарей для изучения языков: интернет-словари, глоссарии для учебных онлайн-курсов, словари на компакт-дисках и карманные электронные словари. Неси[17] перечисляет несколько наиболее известных словарей на CD:
Онлайн-словариЭпоха Интернета сделала онлайн-словари доступными непосредственно с рабочего стола компьютера, а затем и со смартфона. Скинер в 2013 году отметил: «В список слов, которые чаще всего ищут в онлайн-версии словаря Merriam-Webster, сейчас входят слова „holistic“, „pragmatic“, „caveat“, „esoteric“ и „bourgeois“. Исторически целью лексикографии было разъяснение неизвестных слов читателям. И современные словари успешно с этим справляются.»[18] Существует большое количество веб-сайтов, работающих в качестве онлайн-словарей, обычно специализирующихся в каком-либо направлении. Некоторые из них содержат только те данные (часто включая неологизмы), которые были добавлены самими пользователями. Вот несколько наиболее известных примеров:
Взаимосвязь с задачами автоматической обработки текстаОт традиционных методов обработки естественного языка компьютерная лингвистика отличается тем, что в первом случае внимание сосредоточено на моделировании всего того, что изучает лингвистика в целом, тогда как во втором основное внимание обращается на расчленение процесса понимания языка и на теоретическую лингвистическую корректность и адекватность предложенных моделей. Компьютерная лингвистика тесно связана с центральной проблемой искусственного интеллекта — электронным представлением знаний. Основная задача компьютерной лингвистики — построение логико-лингвистических моделей и соответствующих им алгоритмов и программ[19]. Разрешение лексической многозначностиРешение задачи разрешение лексической многозначности (WSD) и развитие лексикографии, приносят пользу друг другу: WSD обеспечивает эмпирическую группировку смыслов и статистически значимые показатели контекста для новых или существующих значений. Кроме того, WSD позволяет создать семантическую сеть по данным машиночитаемых словарей. С другой стороны, лексикография предоставляет больший и лучший набор смыслов и собрание аннотаций к значениям слов, что может принести пользу WSD[20]. Извлечение информации[21]Извлечение информации (англ. information extraction)[22] — это задача автоматического извлечения структурированных данных (автоматическая идентификация выбранных типов объектов, отношений, или событий) из неструктурированных или слабо структурированных машиночитаемых документов. Проблема IE была обозначена на Message Understanding Conferences, где основной задачей было извлечь из текста определённые данные и поместить в заданные слоты шаблонов. Заполнение шаблонов не требует полного разбора текста, этого можно достигнуть путём сопоставления с неким образцом(например, с помощью регулярных выражений). Слоты шаблонов заполняются серией слов, обычно классифицированных. Например, имена людей, названия организаций, химические элементы и т. д. Для извлечения имён людей, например, могут применяться шаблоны, использующие электронные словари, содержащие списки имён и сокращений, предшествующих именам людей. Часто списки могут быть очень большими, например такие, как список названий компаний или записи географического справочника. Названия можно определить достаточно надежно, не выходя за рамки простых списков, так как в тексте они появляются в качестве просто существительных. Распознать и охарактеризовать событие в тексте тоже можно с помощью такой модели, но необходимо использование дополнительный лексической информации. События обычно описываются глаголами, и это описание может быть выражено в виде различных синтаксических шаблонов. Несмотря на то, что эти модели могут быть выражены с некоторой степенью достоверности (например, компания наняла человека или человек был нанят компанией) в качестве основы для сравнения строк, этот подход не позволяет достичь желаемого уровня общности. Распознание события влечет за собой частичный разбор предложения. Большей общности можно достигнуть путём расширения шаблонов требуемых семантических классов. Электронный словарь WordNet широко используется в IE, в частности, с использованием гиперонимических отношений как основы для определения семантических классов. Дальнейшее развитие в IE, вероятно, будет сопровождаться использованием более сложных вычислительных словарей. Ответы на вопросы[21]Несмотря на то, что большая часть исследований в теме «Ответы на вопросы» была проведена ещё в 1960-е годы, добавление тематики «Ответы на вопросы» на конференции TREC в 1998 г. позволило значительно продвинуться в этом направлении. С самого начала исследователи рассматривали эту задачу как включающую в себя семантическую обработку и предоставляющую удобный инструмент для определения значения слов. Это в целом оказалось так, но возникло много нюансов в обработке различных типов вопросов. Тезаурус WordNet стал использоваться практически во всех системах «Ответы на вопросы». Вопросы анализируются для определения того, какого «типа» требуется ответ, например, вопрос: «Какая длина …?» требует, чтобы ответ содержал номер и единицу измерения; кандидат в ответ использует данные WordNet, чтобы определить, существует ли термин для единицы измерения. Изучение способов использования WordNet в задаче «Ответы на вопросы» продемонстрировало полезность иерархических и других видов отношений в машиночитаемых словарях. За много лет ведения темы «Ответы на вопросы» на конференции TREC методы решения данной задачи постоянно совершенствовались, что позволяло задавать всё более сложные вопросы. Было придумано множество вопросов, для ответа на которые требуется как минимум разбор коротких текстов, содержащих ответ. Множество вопросов для получения ответов требуют более абстрактных рассуждений. Улучшения в решении задачи «Ответы на вопросы» по-прежнему в большой степени будут зависеть от достижений в компьютерной лексикографии. Реферирование текстовОбласть исследования автоматического реферирования текстов также выиграла от ряда оценочных мероприятий, известных как Document Understanding Conferences (в 2004 г.)[23]. При «добывающем реферировании» (англ. extractive summarization) (из текста извлекаются предложения, разительно отличающиеся от прочих) компьютерные словари используются существенно меньше, чем при построении аннотаций (англ. abstractive summarization). Во втором случае нужен более глубокий анализ текста, что ставит серьёзные требования перед машиночитаемым словарём[23]. Распознавание и синтез речиИспользование электронных словарей в технологиях распознавания речи ограничено. Машиночитаемые словари обычно содержат произношение, но эта информация обеспечивает только первый шаг в решении проблемы распознавания и синтеза речи. Электронный словарь речевой лексики включает в себя орфографическую форму слов или каноническое произношение. Словарь полных форм также содержит в словарной статье все формы слов; форм могут генерироваться на основе правил, но обычно все формы слов просто хранятся в словаре[24]. Знания канонического произношения недостаточно для обработки разговорного языка. Необходимо учитывать варианты произношения, являющиеся результатом областных различий, влияние родного языка для иностранцев, зависимость произношения и ударения от порядка слов. Некоторые из этих трудностей можно решить алгоритмически, но решение большинства из них возможно только благодаря более обширному набору информации. В результате речевые базы данных содержат эмпирические данные о фактическом произношении, фрагменты разговорной речи и её нотацию в письменной форме. Эти базы данных включают информацию о тех, чьи голоса записаны, типе речи, качестве записи и прочие данные. Самое главное, что эти базы данных содержат речевые данные в виде сигнала, записанного в аналоговой или цифровой форме. В связи с большими объёмами данных, участвующих в реализации основных систем распознавания и синтеза речи, эти системы ещё не содержат полный спектр семантических и синтаксических возможностей обработки озвученных данных[25]. ПреимуществаЭлектронные словари превосходят бумажные аналоги по своей функциональности, имея при этом ряд преимуществ:
Задачи компьютерной лексикографииПеред учёными и программистами при преобразовании бумажных словарей в машиночитаемые словари (Электронный словарь) встает множество проблем:
См. такжеПримечания
Литература
Ссылки |
Portal di Ensiklopedia Dunia