Разговорный искусственный интеллект

Ра́зговорный и́скусственный интелле́кт — тип системы искусственного интеллекта (ИИ), позволяет понимать человеческую речь и выдавать ответы в естественной человеческой речи для введение диалогов^[1]. Разговорный ИИ обычно используется в больших языковых моделях.

Разговорный искусственный интеллект представляет собой форму искусственного интеллекта, которая позволяет автоматически распознавать, синтезировать, имитировать естественную человеческую речь. ИИ анализирует запросы в речевой или текстовой форме, обрабатывает и выдаёт ответы в той же форме^[2]. Разговорный ИИ способен понимать контекст и вести уникальные диалоги, адаптируясь к действиям пользователя и обучаясь с течением времени.

Модели разговорного искусственного интеллекта

ChatGPT — чат-бот с искусственным интеллектом от OpenAI, умеющий понимать и обрабатывать ответы в речевой или текстовой форме.^[3]
Claude — чат-бот с искусственным интеллектом от Anthropic, также умеющий понимать и обрабатывать ответы в речевой или текстовой форме, может выдавать более длинные ответы.^[4]
Grok — чат-бот с искусственным интеллектом от X.ai, также умеющий лучше понимать и обрабатывать ответы в текстовой форме, недавно получил возможность понимать и обрабатывать ответы в речевой форме.^[5]^[6]
LaMDA — семейство разговорных языковых моделей, разработанные Google.^[7]

История

В начале 1960-х годов, программа ELIZA, разработанная в 1966 году Джозефом Вайценбаумом в Массачусетском технологическом институте. Программа была создана для имитации роджерианского терапевта, используя методологию сопоставления шаблонов и подстановки для стимулирования разговора.^[8]

В 1972 году Кеннет Колби представил PARRY — чат-бот, имитирующий моделей мышление пациента с шизофренией. Демонстрировал использование обработки естественного языка в психиатрии.^[9]

Развитие голосовых технологий

Также вместе с этим развивались технологии распознавании и синтеза речи. Первые опыты начались еще в 1779 году с механического синтезатора речи Христиана Кратценштейна. В 1952 году машина Audrey от Bell Laboratories могла распознавать произносимые цифры от 0 до 9. В 1962 году компания IBM представила Shoebox — экспериментальную машину, могла распознавать 16 слов и способную выполнять простые арифметические операции.^[10]

Современный этап

В начале 1980-х и 1990-х годах появились более совершенные текстовые чат-боты. Значительный прорыв произошел с развитием интернета и мобильных технологий. Первым массовым прорывом стало распространение кнопочного интерфейса ботов в мессенджере Telegram. Вторым прорывом стали системы преобразования голоса в текст, называющийся speech-to-text, а третьим — внедрение искусственного интеллекта, сделавшего ботов более «человечными».^[11]

Технические основы

Обработка естественного языка (NLP)

NLP (Обработка естественного языка) является ключевой технологией разговорного ИИ, позволяющей системам понимать и интерпретировать человеческий язык. Она включает несколько этапов:^[12]^[13]

Токенизация — разделение текста на слова или фразы.
Анализ синтаксиса — понимание грамматической структуры предложения.
Распознавание сущностей — выделение именованных объектов (имена, даты, географические названия).
Определение намерений — выявление основной цели запроса.

Понимание естественного языка (NLU)

NLU представляет собой подраздел NLP, который отвечает за семантический анализ. В отличие от синтаксического анализа, NLU работает с использованием компьютерных алгоритмов, пытаясь понять значение слов в их естественном контексте.^[12]