Нейронный машинный переводНейронный машинный перевод (англ. Neural Machine Translation, NMT) — подход к машинному переводу, в котором используется большая искусственная нейронная сеть. Он отличается от методов машинного перевода, основанных на статистике фраз, которые используют отдельно разработанные подкомпоненты[1]. ОписаниеСервисы перевода компаний Google, Яндекс, Microsoft и PROMT[2] уже используют нейронный перевод. Google использует нейронный машинный перевод Google (GNMT) вместо ранее использовавшихся статистических методов.[3] Майкрософт использует похожую технологию для перевода речи (в том числе в Майкрософт Переводчике и Skype Переводчике).[4] Гарвардской группой по обработке естественного языка была выпущена OpenNMT, система нейронного машинного перевода с открытым исходным кодом[5]. Яндекс.Переводчик имеет гибридную модель: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого технология CatBoost, в основе которой лежит машинное обучение, будет выбирать лучший из полученных результатов[6]. Модели NMT используют глубинное обучение и обучение признакам. Для их работы требуется лишь малая часть памяти по сравнению с традиционными системами статистического машинного перевода (SMT). Кроме того, в отличие от традиционных систем перевода, все части модели нейронного перевода обучаются совместно (от начала до конца), чтобы максимизировать эффективность перевода[7][8][9]. Двунаправленная рекуррентная нейронная сеть (RNN), также известная как кодировщик, используется нейронной сетью для кодирования исходного предложения для второй рекуррентной сети, также известной как декодировщик, которая используется для предсказания слов в конечном языке[10]. ИсторияРанние подходыВ 1987 году Роберт Б. Аллен продемонстрировал использование нейронных сетей с прямой связью для перевода автоматически сгенерированных английских предложений с ограниченным словарным запасом в 31 слово на испанский язык. В данном эксперименте размер входного и выходного уровней сети выбирался таким, чтобы он был достаточным для самых длинных предложений на исходном и конечном языках соответственно, поскольку в сети не было никакого механизма для кодирования последовательностей произвольной длины в представление фиксированного размера. В своём резюме Аллен уже намекал на возможность использования автоассоциативных моделей, одна из которых предназначена для кодирования источника, а другая — для декодирования цели[11]. Лонни Крисман развил работу Аллена в 1991 году, обучив отдельные сети рекурсивной автоассоциативной памяти (RAAM) (разработанные Джорданом Б. Поллаком[12]) для исходного и конечного языков. Каждая из сетей RAAM обучена кодировать предложение произвольной длины в скрытое представление фиксированного размера и снова декодировать исходное предложение из этого представления. Кроме того, две сети также обучены совместно использовать скрытое представление; таким образом, исходный кодер может создавать представление, которое целевой декодер может декодировать[13]. В 1997 году Форкада и Неко упростили эту процедуру, чтобы напрямую обучить исходный кодер и целевой декодер тому, что они назвали рекурсивной гетероассоциативной памятью[14]. Также в 1997 году Кастаньо и Касакуберта использовали рекуррентную нейронную сеть Элмана в другой задаче машинного перевода с весьма ограниченным словарным запасом и сложностью[15][16]. Несмотря на то, что эти ранние подходы уже были похожи на современные NMT, вычислительных ресурсов того времени было недостаточно для обработки наборов данных, достаточно больших для решения вычислительной сложности задачи машинного перевода реальных текстов[17][18]. Вместо этого в 1990-х и 2000-х годах появились другие методы, такие как статистический машинный перевод (SMT). Гибридные подходыВ то время, когда SMT был широко распространён, в некоторых работах использовались нейронные методы для замены различных частей статистического машинного перевода, в то же время все ещё использовался логарифмический линейный подход для их объединения[17][18]. Например, в различных работах совместно с другими исследователями Хольгер Швенк заменил обычную n-граммовую языковую модель[англ.] на нейронную и оценивал вероятности перевода фраз с помощью сети обратной связи[19]. См. такжеПримечания
Ссылки |
Portal di Ensiklopedia Dunia