Большая языковая модель

Большая языковая модель (БЯМ; англ. large language model, LLM) — языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя. LLM стали популярны после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач[1].

Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объем обучающих данных. Параметры представляют собой переменные и веса, используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель BERTbase компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объема данных для обучения, достигающего нескольких петабайт и содержащего триллионы токенов — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью.

Генеративные предобученные трансформеры (GPT и аналоги) представляют собой наиболее мощные БЯМ, которые могут адаптироваться к конкретным задачам посредством дополнительного обучения или подсказок, обладают способностью прогнозировать синтаксические, семантические и онтологические структуры языка, одновременно наследуя неточности и предвзятости из обучающих данных.

В текстовом формате БЯМ применяются для анализа и извлечения информации, суммаризации, ответов на вопросы, логических рассуждений, анализа тональности, создания контента и программного кода, а также машинного перевода. Мультимодальные возможности этих моделей охватывают работу с речью, аудио, изображениями и видео, включая создание подписей к изображениям, распознавание объектов, генерацию визуального контента, транскрипцию речи и анализ видеоматериалов.

История

В истории развития языковых моделей до 2017 года наблюдалось несколько значимых достижений: в 1990-х годах IBM разработала модели выравнивания, которые стали пионерами в области статистического языкового моделирования; в 2001 году сглаженная n-грамм модель, обученная на 0,3 млрд слов, достигла наилучших показателей перплексии для своего времени[2]; в 2000-х годах с распространением интернета исследователи начали создавать масштабные языковые датасеты («веб как корпус»[3]) для обучения статистических языковых моделей; к 2009 году статистические языковые модели доминировали над символьными в большинстве задач обработки языка благодаря их способности эффективно использовать большие объемы данных[4][5][6].

В 2012 году нейронные сети стали доминировать в обработке изображений[7], после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием sequence-to-sequence (seq2seq) глубоких LSTM-сетей, поскольку трансформеры на тот момент ещё не существовали.

В 2017 году на конференции NeurIPS исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»[8], целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на механизм внимания, разработанный Бахданау и соавторами в 2014 году[9]. В 2018 году была представлена модель BERT (encoder-only модель, в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться[10]. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг[11].

История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя GPT-1 появилась в 2018 году, именно GPT-2 (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений[12]. GPT-3 (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя ChatGPT, вызвавшего значительный медийный резонанс[13]. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя OpenAI не раскрыла её архитектуру и количество параметров[14]. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений o1, способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа.

В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: Transformer-X (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), Copilot (GitHub), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и BERT 2 (Google). Каждая модель внесла уникальный вклад в развитие обработки естественного языка (NLP), однако особое внимание исследователей привлекла техника обучения LoRA, которая стала центральным элементом в этой области.

В период с 2022 года БЯМ с открытым исходным кодом стали приобретать популярность, начиная с BLOOM и LLaMA, хотя оба имели ограничения по сфере применения. Модели Mistral AI (Mistral 7B и Mixtral 8x7b) получили более либеральную лицензию Apache. В январе 2025 года компания DeepSeek выпустила DeepSeek R1 — модель с открытыми весами, содержащую 671 млрд параметров, которая по производительности сравнима с OpenAI o1, но работает с гораздо меньшими затратами[15].

В марте 2022 года представлен новый метод квантования GPTQ, способный сжимать модели с сотнями миллиардов параметров до 3—4 бит на параметр без существенной потери точности, позволяя проводить инференс БЯМ с существенным сокращением необходимой видеопамяти[16], что сделало широко доступным запуск БЯМ на потребительских графических ускорителях.

23 мая 2023 года была представлена технология QLoRA (Quantized Low-Rank Adaptation), обеспечивающая ускоренный fine-tuning квантизированных моделей без потери качества и с меньшим объемом видеопамяти[17].

В марте 2023 года представлена библиотека llama.cpp для запуска больших языковых моделей без зависимостей, первоначально оптимизированное для работы на CPU. Проект включает командную строку, веб-интерфейс и поддерживает различные аппаратные платформы (x86, ARM, CUDA, Metal), использует собственный формат файлов GGUF (введен в августе 2023 года) для хранения тензоров и метаданных, поддерживает различные методы квантизации для снижения потребления памяти.

Распространение MoE моделей начинается с декабря 2023 года, компания Mistral AI выпустила Mixtral 8x7B — высококачественную разреженную БЯМ типа mixture of experts (SMoE) с открытыми весами, лицензированную по Apache License 2.0, которая превосходила Llama 2 70B на большинстве тестов за счёт шестикратного ускорения вывода[18].

Начиная с 2023 года, многие БЯМ приобрели мультимодальные возможности, позволяющие им обрабатывать или генерировать различные типы данных помимо текста, включая изображения, видео и аудио. Такие системы получили название «больших мультимодальных моделей» (LMMs), расширив функциональность языковых моделей за пределы исключительно текстовой обработки.

В период с апреля 2024 по февраль 2025 года появилось множество значимых разработок в области больших языковых моделей (LLM) и мультимодальных моделей (VLM). DeepSeek-AI представила серию моделей DeepSeek-V2 (май 2024), DeepSeek-V3 (декабрь 2024) и DeepSeek-R1 (январь 2025), использующих новую архитектуру с Multi-head Latent Attention (MLA). Компания MiniMax выпустила MiniMax-01 с архитектурой Lightning Attention в январе 2025 года. NVIDIA разработала Star-Attention (ноябрь 2024), обеспечивающую 11-кратное ускорение работы с длинным контекстом. Microsoft представила технологию YOCO (You Only Cache Once) в мае 2024 года. Moonshot AI выпустила Mooncake (июнь 2024) — архитектуру для эффективного обслуживания LLM. TriDao и соавторы опубликовали FlashAttention-3 (июль 2024), а Microsoft представила MInference 1.0 в том же месяце для ускорения работы с длинным контекстом.

В октябре 2024 года Anthropic запустила новую функцию «computer use» для обновленной модели Claude 3.5 Sonnet, позволяющую ИИ взаимодействовать с компьютерными интерфейсами подобно человеку. Эта возможность даёт Claude способность интерпретировать изображения экрана, перемещать курсор, нажимать кнопки и вводить текст через виртуальную клавиатуру[19]. 23 января 2025 OpenAI представила Operator для подписчиков ChatGPT Pro в США — веб-приложение, способное выполнять простые задачи в браузере, например, бронировать билеты на концерты или заполнять онлайн-заказы продуктов. Работает на базе новой модели Computer-Using Agent (CUA)[20].

В феврале 2025 года представлена модель LLaDA (Large Language Diffusion with masking), применяющая диффузионный подход к большим языковым моделям[21].

Характеристики

Хотя термин «большая языковая модель» не имеет формального определения, он обычно относится к моделям глубокого обучения, имеющим количество параметров порядка миллиардов и более[22]. БЯМ — модели общего назначения, которые превосходно справляются с широким спектром задач, в отличие от обучения одной конкретной задаче (например, анализу настроений, распознаванию именованных сущностей или математическим рассуждениям)[1][23]. Несмотря на обучение на простых задачах, таких как предсказание следующего слова в предложении, нейронные языковые модели с достаточным обучением и количеством параметров схватывают большую часть синтаксиса и семантики человеческого языка. Кроме того, большие языковые модели демонстрируют значительные общие знания о мире и способны «запоминать» большое количество фактов во время обучения[1].

Архитектура

В БЯМ чаще всего использовалась архитектура трансформера, которая с 2018 года стала стандартной техникой глубокого обучения для последовательных данных (ранее наиболее распространёнными были рекуррентные архитектуры, такие как модели с долгой кратковременной памятью). БЯМ обучаются без учителя на неаннотированном тексте. Трансформер при генерации вывода слева направо обучается максимизировать вероятность, назначенную следующему слову в обучающих данных, с учётом предыдущего контекста. В качестве альтернативы БЯМ может использовать двунаправленный трансформер (как в примере BERT), который присваивает распределение вероятностей по словам, имеющим доступ как к предыдущему, так и к последующему контексту[24]. В дополнение к задаче прогнозирования следующего слова или «заполнения пробелов» БЯМ могут быть обучены вспомогательным задачам, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений и модель должна предсказать, появятся ли они рядом в обучающем корпусе текстов[24].

Transformer

Модель трансформера

Архитектура Transformer (трансформер) представляет собой нейросетевую модель обработки последовательностей, состоящую из кодирующего (энкодер) и декодирующего (декодер) блоков, при этом современные исследования выявили эффективность различных её конфигураций. Модели на основе только энкодера (двунаправленные) предобучаются путем восстановления скрытых элементов текста и применяются для задач понимания содержания. Модели, использующие только декодер (авторегрессивные), оптимизированы для предсказания следующего элемента в последовательности и эффективны в задачах генерации текста. Полные модели трансформера (энкодер-декодер) комбинируют преимущества обоих компонентов: энкодер обрабатывает все входные элементы, а декодер генерирует выходные с доступом к представлениям энкодера, что делает их оптимальными для суммаризации, машинного перевода и генеративных вопросно-ответных систем.

Токенизация

Токенизация — ключевой этап предварительной обработки больших языковых моделей (LLM), который включает в себя разбор текста на отдельные части, называемые токенами. В качестве токенов могут выступать символы, подслова, знаки или слова, в зависимости от размеров и характера языковой модели. В LLM используются различные алгоритмы токенизации, такие как WordPiece, UnigramLM и Byte Pair Encoding (BPE, кодирование пар байтов).

Механизмы внимания

Схема self-attention

Механизмы внимания (англ. attention mechanism), применяемые в больших языковых моделях, способствуют улучшению архитектуры и производительности системы, поскольку обеспечивают представление входных последовательностей посредством установления взаимосвязей между токенами. Традиционные методы векторного представления слов, такие как Word2Vec и GloVe (Global Vectors for Word Representation), используют статистику совместного встречания слов в больших корпусах текста для создания векторов фиксированной размерности. Данные подходы не учитывают контекстуальные различия значений слов, в то время как механизм внимания позволяет моделям избирательно фокусироваться на релевантных частях входных последовательностей, обеспечивая учет контекстной информации. Механизм внимания позволяет моделям БЯМ динамически регулировать значимость отдельных слов с учетом их контекстуальной релевантности, что обеспечивает возможность захвата зависимостей между словами, находящимися на удалении друг от друга. Данный подход способствует формированию контекстуализированных представлений и разрешению неоднозначностей языка при обработке сложных текстов.

Схема multi-head attention

Механизм внимания self-attention позволяет модели учитывать различные позиции во входной последовательности для вычисления её представления, используя три основных элемента: запрос (query) — вектор, представляющий текущий фокус модели на конкретном слове, ключ (key) — вектор, служащий ориентиром для определения релевантности слова, и значение (value) — вектор, содержащий фактическую информацию, связанную с каждым словом[25].

Многоголовое внимание (англ. multi-head attention) является расширением механизма self-attention, позволяющим модели захватывать разнообразную контекстную информацию посредством параллельного выполнения нескольких операций self-attention, каждая из которых имеет собственные обученные преобразования запросов (англ. query), ключей (англ. key) и значений (англ. value). Данный механизм обеспечивает более точное контекстное понимание, повышенную устойчивость и выразительность модели[25]. Представлен в 2017 году[26]. Количество голов внимания варьируется в зависимости от конкретной модели: GPT-2 содержит 16 голов внимания, крупнейшая версия GPT-3 использует 96 голов, а GPT-4, согласно имеющимся данным, включает приблизительно 120 голов внимания[27].

Многозапросное внимание (англ. Multi Query Attention) — механизм обработки последовательностей в архитектуре трансформеров, представленный в работе «Fast Transformer Decoding: One Write-Head is All You Need» (2019)[28], который совершенствует стандартное мультиголовое внимание (MHA) посредством совместного использования пар ключ-значение для всех запросов в различных головках внимания, что существенно сокращает требования к пропускной способности памяти и ускоряет процесс декодирования. Используется в архитектурах моделей Falcon, PaLM, Llama 2 (7B, 13B)[29].

Сравнение механизмов MHA, GQA, MQA

Grouped Query Attention (GQA) — механизм внимания, представленный в работе «GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints» (2023)[30] как промежуточное решение между Multi-Head Attention (MHA) и Multi-Query Attention (MQA). Принцип работы GQA заключается в группировании нескольких запросов с совместным использованием набора пар ключ-значение для каждой группы, что позволяет сохранить способность модели выявлять сложные паттерны (как в MHA) при одновременном снижении требований к пропускной способности памяти (подобно MQA). Данный механизм обеспечивает оптимальный баланс между качеством моделирования и скоростью обработки, особенно эффективен в слоях декодера трансформера, где последовательный характер авторегрессивного декодирования создает ограничения памяти, тогда как в энкодерах, выполняющих вычисления параллельно, GQA обычно не применяется[31]. Механизм используется в архитектурах Meta Llama 2 (34B, 70B) и Llama 3 (8B, 70B), Mistral 7B, IBM Granite 3.0[32][33].

Mixture of Experts (MoE)

Архитектура Mixture of Experts (MoE, «смесь экспертов») в больших языковых моделях представляет собой подход, при котором модель разделяется на несколько специализированных компонентов («экспертов»), каждый из которых отвечает за конкретную область компетенции или тип задачи. Эти эксперты, обычно реализованные в виде нейронных сетей прямого распространения, совместно обрабатывают входные данные под управлением специальной маршрутизирующей (gating) нейронной сети. Маршрутизатор определяет, каким именно экспертам будут направлены те или иные входные токены, распределяя вычисления между ними. Чтобы обеспечить равномерное использование экспертов и эффективное распределение нагрузки, применяются специальные механизмы балансировки. Подход, впервые предложенный Джеффри Хинтоном в 1991 году, получил развитие в глубоких нейронных сетях с 2014 года и эволюционировал вплоть до 2022 года, когда Google и Meta продемонстрировали его применение в своих трансформерах[18].

Sparse Mixture of Experts (Sparse MoE) — дальнейшее развитие архитектуры Mixture of Experts, при котором для ответа на конкретный запрос используется только небольшая часть доступных экспертов, а не все сразу. Такой механизм становится возможным благодаря специальной маршрутизирующей модели, которая на основе характера входных данных заранее выбирает лишь те эксперты, ответы которых действительно будут ценны для текущего запроса. В результате существенно сокращается число параметров, задействованных в каждом вычислении, что позволяет радикально ускорить вывод без снижения качества.

Важно подчеркнуть, что эксперты в MoE не являются самостоятельными большими языковыми моделями и не взаимодействуют друг с другом в формате диалога, как бывает в мультиагентных системах БЯМ. Вместо этого Mixture of Experts — средство гибкого распределения «компетенций» внутри единой нейронной сети, где маршрутизатор динамически определяет степень участия каждого эксперта в решении поставленной задачи.

Модели Sparse MoE (SMoE) позволяют значительно ускорить вывод по сравнению с традиционными моделями аналогичного размера, сохраняя при этом сходное потребление видеопамяти. В модели MoE практически задействуются только активные параметры во время вывода, что позволяет ускорить процесс, несмотря на необходимость загрузки всей модели с разреженными параметрами. Так, в модели Mixtral 8x7B каждый из 8 экспертов содержит 5,6 млрд параметров (всего 46,7 млрд), но для вывода используются лишь 2 эксперта (12,8 млрд параметров), что иллюстрирует разницу между количеством загружаемых и активных параметров[34]. Современные эффективные модели, такие как DeepSeek V3 и DeepSeek R1, также опираются на Sparse MoE; они насчитывают примерно 671 млрд параметров, но используют из них лишь около 37 млрд одновременно, что обеспечивает в 18 раз меньшие вычислительные затраты без потерь в качестве.

Reasoning-LLM

Reasoning-LLM (reasoning large language models) представляют собой специализированный класс больших языковых моделей, оптимизированных для выполнения задач, требующих сложного логического анализа и пошагового рассуждения. В отличие от стандартных LLM, которые генерируют непосредственные ответы на основе статистических языковых закономерностей, reasoning-LLM моделируют процесс последовательного логического вывода, аналогичный человеческому мышлению. Архитектурно reasoning-LLM базируются на стандартной Transformer-парадигме. Принципиальное отличие заключается не в трансформации базовой архитектуры, а в методах обучения и инференса, оптимизированных для формирования эксплицитных рассуждений.

Главный внутренний механизм reasoning-LLM — генерация и использование цепочки мыслей (chain-of-thought, CoT), при которой, как показывает исследование работы модели OpenAI o1, проходят примерно 6 этапов размышления, включающих анализ задачи, декомпозицию на подзадачи, систематическое решение, рассмотрение альтернативных подходов, самопроверку и самокоррекцию. Данный механизм реализуется посредством специального обучения и настройки вывода, когда модель генерирует пару «решение + ответ», а цепочка рассуждений отделяется от основного ответа служебными токенами <think>…</think>[35].

Диффузионные БЯМ

В начале 2025 года представлена модель LLaDA (Large Language Diffusion with masking), применяющая диффузионный подход к большим языковым моделям. Модель прошла предварительное обучение на 2,3 трлн токенов и этап supervised fine-tuning на 4,5 млн образцов. Базовая версия LLaDA с 8 млрд параметров показала превосходство над LLaMA 2 и сравнимые или лучшие результаты по сравнению с LLaMA 3 аналогичного размера на множестве задач. В задаче обратного дополнения стихов LLaDA превосходит модели GPT-4o и Qwen 2.5[21].

Обучение

Самые ранние БЯМ обучались на корпусах, содержащих порядка нескольких миллиардов слов. Первоначальная версия GPT была обучена в 2018 году на BookCorpus, состоящем из 985 млн слов. В том же году BERT прошёл обучение на сочетании BookCorpus и английской Википедии, что соответствовало 3,3 млрд слов[24]. С тех пор учебные корпуса для БЯМ увеличились на порядки, достигнув сотен миллиардов или триллионов токенов[24].

Предварительное обучение БЯМ требует больших вычислительных ресурсов. Исследование 2020 года оценило стоимость обучения модели с 1,5 млрд параметров (на один-два порядка меньше, чем уровень техники в то время) в 1,6 млн $[36].

Анализ 2020 года показал, что возможности нейронных языковых моделей (измеряемые функцией потерь при обучении) плавно увеличивались по степенному закону от количества параметров, количества обучающих данных и вычислений, используемых для обучения[37][38]. Эти связи были проверены в широком диапазоне значений (до семи порядков), и не наблюдалось затухания отношения на верхнем конце диапазона (в том числе для размеров сети до триллионов параметров)[38].

В период с 2018 по 2020 год стандартный метод использования БЯМ для конкретной задачи NLP заключался в тонкой настройке модели с дополнительным обучением для конкретной задачи. Впоследствии обнаружилось, что более мощные БЯМ, такие как GPT-3, могут решать задачи без дополнительного обучения с помощью методов «подсказки», в которых решаемая задача представляется модели в виде текстовой подсказки, возможно, с некоторыми текстовыми примерами подобных задач и их решений[1].

Предварительное обучение

Pretrain (предварительное обучение) — процесс первоначального обучения БЯМ на масштабном наборе текстовых данных с целью формирования общего понимания языка и его структуры. Во время этого этапа модель приобретает базовые знания и навыки распознавания закономерностей текста. Предварительно обученные модели способны эффективнее осваивать специальные задачи, благодаря способности использовать ранее усвоенные языковые представления. Производители открытых моделей публикуют на Hugging Face с пояснением «base» в названии, например, Mistral-Small-3.1-24B-Base-2503. Такие модели чаще всего используются для дальнейшего дообучения и настройки под более конкретные нужды.

Продолжение предварительного обучения

Continued pretrain (продолжение предварительного обучения, continued pretraining) — подход, при котором уже предварительно обученная языковая модель дополнительно обучается на специфических или целевых данных с применением того же способа обучения (непосредственного обучения языкового моделирования на неразмеченных текстах). Отличие от fine-tuning заключается в том, что при continued pretrain модель изучает структуру и особенности нового домена или корпуса данных без изменения задачи обучения. Continued pretrain применяется для специализации моделей общего назначения под конкретные домены, такие как медицина, юриспруденция или финансы, где требуется понимание специфической терминологии и структуры текста. Этот метод улучшает способность моделей распознавать контексты и семантические взаимосвязи в новых областях, адаптирует их к особенностям конкретных языков или диалектов. Continued pretrain также делает последующее дообучение (fine-tuning) более эффективным, так как модель уже адаптирована к специфике новых данных, что упрощает ее настройку для конкретных задач, включая классификацию, ответы на вопросы и генерацию текста.

Тонкая настройка

Тонкая настройка (fine-tuning, дообучение) — практика модификации существующей предварительно обученной языковой модели путём её обучения (под наблюдением) конкретной задаче (например, анализ настроений, распознавание именованных объектов или маркировка частей речи). Это форма передаточного обучения. Обычно это включает введение нового набора весов, связывающих последний слой языковой модели с выходными данными последующей задачи. Исходные веса языковой модели могут быть «заморожены», так что во время обучения изучается только новый слой весов, соединяющий их с выходными данными. В качестве альтернативы исходные веса могут получать небольшие обновления (возможно, с замороженными более ранними слоями)[24].

В БЯМ различают несколько видов fine-tuning по охвату параметров: полное дообучение всех параметров модели (full fine-tuning), дообучение Parameter-Efficient Fine-Tuning (PEFT): только специализированных слоёв или голов модели (adapter fine-tuning), LoRA (низкоранговая адаптация) — подход, использующий низкоранговые изменения параметров с минимальными затратами ресурсов, а также prompt tuning.

Виды тонкой настройки в зависимости от цели:

  • Supervised Fine-Tuning (SFT): Модель дообучается на размеченных данных с парами «вход-выход», что делает этот метод простым и эффективным для решения разнообразных задач, таких как генерация текста, ответы на вопросы, суммаризация и перевод. Instruction Tuning — разновидность SFT, когда модель обучается следовать инструкциям, сформулированным естественным языком, для выполнения множества задач на основе единых принципов[39].
  • Direct Preference Optimization (DPO): Этот метод дообучения оптимизирует модель напрямую на данных предпочтений, используя функцию потерь, основанную на целях RLHF, что позволяет упростить процесс обучения и повысить стабильность системы[39].
  • Reinforcement Learning from Human Feedback (RLHF): Метод, сочетающий supervised learning и обучение с подкреплением, в котором модель оптимизируется с использованием алгоритмов, таких как PPO, на основе наград, сформированных с участием человеческих отзывов для достижения высокого качества выравнивания с предпочтениями пользователей[39].
  • Odds Ratio Preference Optimization (ORPO): Этот подход использует итеративное улучшение с помощью анализа отношения шансов, чтобы поэтапно дорабатывать модель на основе данных о предпочтениях для лучшего долгосрочного выравнивания[39].
  • Triple Preference Optimization (TPO): Метод представляет собой одноступенчатую оптимизацию, которая эффективно интегрирует обучение на данных предпочтений, достигая высококачественного выравнивания при меньших затратах данных и вычислительных ресурсов[40].
  • Parallel Alignment Fine-Tuning (PAFT): В этом подходе осуществляется параллельное выполнение supervised fine-tuning и выравнивания на данных предпочтений с последующим объединением параметров, что снижает затраты на выравнивание и улучшает общую производительность модели[41].

Обучение в контексте (In-context learning)

Обучение в контексте (In-context learning) — способность больших языковых моделей (LLM) выполнять новые задачи без явного дообучения, используя лишь текстовые подсказки, предоставленные в ходе взаимодействия. Вместо традиционного процесса дообучения на специализированных наборах данных, модель адаптируется к новой задаче, анализируя примеры и инструкции, представленные в текущем контексте.

Вводные примеры представляют собой методику, позволяющую моделям обработки естественного языка быстро адаптироваться к поставленной задаче посредством текстового запроса. Этот подход включает подтипы, такие как zero-shot—решение задачи исключительно на основе текстовой инструкции без явных примеров, one-shot или few-shot—подход, при котором в запрос включаются один или несколько примеров решения аналогичных задач.

Подсказка

В парадигме подсказок (prompting), популяризированной GPT-3[23], решаемая проблема формулируется с помощью текстовой подсказки, которую модель должна решить, предоставляя завершение (посредством статистического вывода). В «подсказке с несколькими выстрелами» подсказка включает небольшое количество примеров похожих пар (задача и решение). Например, задача анализа тональности маркировки тональности рецензии на фильм можно вызвать следующим образом[23]:

Review: This movie stinks.
Sentiment: negative

Review: This movie is fantastic!
Sentiment:

Если модель выдаёт «положительно», значит, она правильно решила задачу. В подсказках с «нулевым выстрелом» примеры решения не предоставляются[36][42]. Примером с нулевой подсказкой для задачи с ответом на вопрос может быть «Кто написал книгу „Происхождение видов“?».

Было показано, что малая производительность БЯМ позволяет достигать конкурентоспособных результатов в задачах обработки естественного языка, иногда превосходя предыдущие современные подходы к точной настройке. Примерами таких задач NLP являются перевод, ответы на вопросы, задачи с ограничениями, расшифровка слов и использование нового слова в предложении[42]. Создание и оптимизация таких подсказок называется инжинирингом подсказок и в настоящее время является активной областью исследований.

Вывод (инференс)

Вывод больших языковых моделей (англ. Large Language Model Inference) представляет собой стадию применения уже обученных моделей БЯМ к новым данным. На этом этапе модель генерирует текстовые ответы, переводит тексты, решает задачи программирования и осуществляет другие виды обработки естественного языка. Именно на этом этапе происходит реализация теоретического потенциала модели в практических приложениях, таких как чат-боты, голосовые помощники, автоматизированные переводчики и аналитические платформы.

Вывод — операция, во время которой обученная модель последовательно обрабатывает входные данные пользователя (промпт, prompt) и, основываясь на усвоенных во время обучения шаблонах и закономерностях, по частям («токен за токеном») строит наиболее вероятный текстовый вывод. В отличие от ресурсоёмкого обучения, вывод реализуется многократно и зачастую в реальном времени.

Параметры инференса

При генерации БЯМ можно задавать различные технические параметры (в отличие от подсказок в запросе), которые существенно влияют на финальный результат.

  • Температура (temperature) влияет на детерминированность или случайность генерируемых ответов. При более низких значениях алгоритм предпочитает наиболее вероятные токены, что обеспечивает точность и краткость, идеально подходящие для фактических ответов. При повышении температуры выбор становится более случайным, что способствует разнообразию и творческим идеям, например, при создании стихов.
  • Top-p sampling (nucleus sampling) — метод генерации текста языковыми моделями, при котором для выбора следующего слова учитываются лишь наиболее вероятные токены, чья суммарная вероятность превышает заданный порог p. Использование Top-p делает сгенерированный текст менее повторяющимся и более естественным по сравнению с классическими методами генерации текста, такими как beam search или максимальное правдоподобие
  • Top K — параметр, определяющий количество наиболее вероятных токенов, которые модель учитывает при генерации текста. Чем ниже значение Top K, тем более предсказуемым и повторяющимся будет ответ модели.
  • Max Tokens (максимальное количество токенов) — параметр задаёт максимальное число токенов, которые могут быть сгенерированы моделью в ответ на запрос (prompt).
  • Repetition Penalty (штраф за повторение) и Frequency Penalty (штраф за частоту) — два похожих, но различных подхода для уменьшения повторов в текстах, генерируемых языковыми моделями. Repetition Penalty применяется непосредственно к вероятности токенов, уже присутствующих в исходном тексте или недавно сгенерированных, уменьшая вероятность повторного использования этих токенов пропорционально их исходной вероятности. Frequency Penalty же учитывает частоту использования токенов в уже сгенерированном тексте и снижает вероятность повторного появления токенов тем сильнее, чем чаще они уже встречались ранее. Таким образом, Repetition Penalty направлен на предотвращение непосредственного повторения недавно использованных токенов, а Frequency Penalty — на снижение общей частоты повторяющихся слов или выражений в тексте.
  • Presence Penalty (штраф за присутствие) — параметр, используемый в языковых моделях для уменьшения повторения слов или токенов в генерируемом тексте. Он действует путём снижения вероятности повторного выбора слова, которое уже было использовано ранее, даже если оно встречалось всего один раз. На практике модель корректирует внутренние оценки (логиты), понижая баллы уже употреблённых слов, что побуждает её выбирать альтернативные варианты и тем самым увеличивать разнообразие текста. Значение Presence Penalty задаётся в диапазоне от −2,0 до 2,0 (по умолчанию 0), однако обычно рекомендуется использовать значения от −1 до 1, чтобы сохранить баланс между разнообразием и качеством генерируемого контента. Этот параметр особенно полезен в задачах, где важно избегать повторений, например, при создании чат-ботов для клиентской поддержки, которым необходимо генерировать разнообразные и информативные ответы. Presence Penalty (штраф за присутствие), Frequency Penalty (штраф за частоту) и Repetition Penalty (штраф за повторение) — три похожих, но различающихся подхода к управлению повторениями в текстах, генерируемых языковыми моделями. Presence Penalty снижает вероятность повторного использования слова сразу после первого его появления, независимо от того, сколько раз оно уже встречалось. Frequency Penalty действует мягче: он постепенно снижает вероятность повторного выбора слова пропорционально тому, как часто оно уже использовалось ранее, то есть чем чаще слово встречается, тем сильнее оно штрафуется. Repetition Penalty, в свою очередь, применяется в некоторых моделях (например, в алгоритмах генерации текста вроде GPT-2 и GPT-3 от OpenAI или в других реализациях) и представляет собой коэффициент, на который умножается вероятность уже использованных слов, снижая их привлекательность для повторного выбора. Таким образом, Presence Penalty наиболее строгий и сразу наказывает за любое повторение, Frequency Penalty действует постепенно и зависит от частоты повторений, а Repetition Penalty — коэффициент, напрямую уменьшающий вероятность повторного выбора уже использованных токенов.

LLM Streaming

Стриминг (LLM Streaming) — метод передачи данных от БЯМ клиенту по мере их генерации, а не после завершения всего ответа. В отличие от стандартного подхода, при котором модель полностью формирует ответ и только затем отправляет его клиенту, стриминг позволяет постепенно отображать контент, улучшая пользовательский опыт. Необходимость в LLM Streaming возникает из-за того, что генерация сложных ответов крупными языковыми моделями может занимать значительное время (до минуты и более). Пользователи, ожидающие завершения генерации, могут потерять терпение и покинуть приложение. Стриминг позволяет избежать долгого ожидания, показывая пользователю ответ постепенно, по мере его формирования. Например, ChatGPT использует этот подход, отображая текст слово за словом.

Технически LLM Streaming реализуется следующим образом: модель генерирует текст последовательно, токен за токеном (токен — минимальная единица текста). Система ожидает появления новых токенов, группирует их в небольшие порции и отправляет клиенту. Важно отметить, что стриминг в контексте БЯМ отличается от традиционного стриминга (например, потокового воспроизведения музыки или видео), поскольку здесь главная причина не размер данных, а постепенная скорость их генерации. Большинство инференс-движков и API-библиотек для работы c БЯМ поддерживает режим стриминга, который включается или выключается в зависимости от потребностей приложения.

Инференс‑движки

Инференс‑движок (от англ. inference engine) — программное обеспечение, предназначенное для оптимизации процесса использования уже обученной БЯМ. В отличие от этапа обучения, направленного на выявление закономерностей и параметрического представления языка, инференс фокусируется на быстрой и эффективной выдаче результатов при обработке входных запросов пользователя. Основное требование к таким системам — обеспечение низкой задержки (latency) и высокой пропускной способности (throughput) при выполнении операций, что особенно важно для приложений с реальным временем общения (чат-боты, системы перевода, поисковые системы). Задача инференс-движка состоит в том, чтобы максимально эффективно использовать вычислительные ресурсы (процессорные ядра и графические ускорители, например GPU или TPU) и минимизировать задержку между поступлением запроса и выдачей результата. Для достижения этого используют ряд технологий и оптимизаций, таких как:

  1. Квантизация (Quantization): сокращение размера модели путем перевода её параметров из высокоточных форматов (например float16) в форматы с меньшей точностью (int8, int4).
  2. Аппаратно-специфичные оптимизации: оптимизированное использование аппаратных возможностей (например, работа с ядрами Tensor Core и тензорный параллелизм).
  3. Эффективное управление памятью GPU: использование таких методов, как Paged Attention и Flash Attention, снижающих требования к оперативной памяти и ускоряющих вычисления.
  4. Технологии батчинга: одновременная обработка большого количества запросов (батч), что повышает пропускную способность модели.
  5. KV caching.

Примеры движков

  • vLLM: специализированный Python инференс-движок, обеспечивающий поддержку динамического батчинга и эффективно использующий GPU. Основные оптимизации — динамический batching, KV-кэширование (PagedAttention). Квантизации GPTQ, AWQ, INT4, INT8, and FP8.
  • TensorRT-LLM (Engine Building): инференс-сервер, основанный на низкоуровневых оптимизациях платформы NVIDIA TensorRT. Обеспечивает максимальный контроль и оптимальное аппаратное ускорение на GPU от NVIDIA. TensorRT требует ручного конвертирования и компиляции модели, но обеспечивает низкие задержки и высокие показатели производительности.
  • TGI (Text Generation Inference): оптимизированный инференс-сервер, тесно интегрированный с Hugging Face Hub, поддерживает баланс между производительностью, масштабируемостью и легкостью интеграции.
  • Ollama: открытый инференс-движок, использующий под капотом библиотеку llama.cpp и ориентированный на удобство управления и запуска моделей. Содержит большой репозиторий готовых моделей различных уровней квантизации GUFF. Оптимален для начинающего пользователя БЯМ.
  • Triton Inference позволяет командам развертывать модели искусственного интеллекта, используя такие фреймворки, как TensorRT, TensorFlow, PyTorch, ONNX, OpenVINO, Python и RAPIDS FIL. Он обеспечивает выполнение инференс-задач в облаке, дата-центрах, на периферийных устройствах и встраиваемых системах, поддерживая NVIDIA GPU, процессоры x86 и ARM, а также AWS Inferentia. Среди основных особенностей выделяются поддержка различных фреймворков глубокого обучения, одновременное выполнение моделей, динамическое планирование и пакетная обработка данных.

Ключевые метрики и показатели

Для оценки производительности inference-движков используются следующие метрики:

  • Время ожидания (Latency Metrics):
  • TTFT (Time to First Token): задержка до генерации первого токена в ответе.
  • E2E Latency (End-to-End Latency): время, затраченное на генерацию полного ответа.
  • ITL (Inter-Token Latency): задержка между генерацией последовательных токенов при потоковой генерации текста.
  • Пропускная способность (Throughput Metrics):
  • Токенов в секунду на сервер, GPU или на инстанс модели.
  • Запросов (промптов) в секунду, одновременно обрабатываемых сервером.

Оптимизация инференса

Техники оптимизации инференса — совокупность методов, направленных на повышение эффективности работы больших языковых моделей при сохранении качества генерируемого контента. Основные подходы включают квантизацию (снижение точности представления чисел), прунинг (удаление избыточных компонентов нейронной сети), дистилляцию знаний (передачу возможностей от большой модели к меньшей) и архитектурную оптимизацию (совершенствование структуры модели и механизмов внимания).

Квантизация (квантование) — техника уменьшения размера модели БЯМ и вычислительных требований путем преобразования чисел высокой точности в форматы с пониженной точностью, обеспечивающая ускорение инференса и экономию памяти. Типы квантизации включают равномерную (с постоянным шагом дискретизации), симметричную (с отображением нуля) и асимметричную (с сопоставлением граничных значений диапазонов). Квантизация применяется только к весам или к весам и активациям одновременно. Современные методы включают: LLM.int8() с сохранением выбросов в высокой точности; GPTQ с послойной минимизацией ошибок; AWQ и OWQ с анализом важности весов; SpQR с комбинированным подходом к обработке выбросов. Реализация осуществляется через фреймворки ZeroQuant, ZeroQuantV2, SmoothQuant (перераспределяющий сложность между компонентами) и OmniQuant (с отдельными обучаемыми параметрами). Основные стратегии внедрения: квантизация с учетом обучения (QAT), интегрирующая эффекты квантизации в тренировку, и пост-тренировочная квантизация (PTQ), применяемая к предобученным моделям без значительного переобучения[43].

Прунинг нейронных сетей — совокупность методов сокращения размера моделей при сохранении их производительности. Структурированный прунинг удаляет целые компоненты (строки, столбцы, каналы), обеспечивая совместимость с аппаратными ускорителями, в то время как неструктурированный прунинг устраняет отдельные веса, достигая более высокой степени сжатия, но требуя специализированной аппаратной поддержки. К методам структурированного прунинга относятся LoRaPrune, сочетающий прунинг с Low-Rank Adaptation, и LLM-Pruner, реализующий трехэтапный процесс (обнаружение структур, оценка важности, восстановление производительности). Неструктурированный прунинг представлен SparseGPT, рассматривающим прунинг как задачу разреженной регрессии, методом Prune and Tune с пошаговым дообучением и Wanda, выполняющим zero-shot прунинг без переобучения. Современные техники включают прунинг на основе чувствительности и уникальности нейронов, а также подходы zero-shot (без дополнительного обучения) и retraining-based (с дообучением после прунинга), что особенно актуально для больших языковых моделей[43].

Дистилляция знаний — техника передачи информации от большой модели-учителя к меньшей модели-ученику с сохранением функциональных возможностей. В методологии выделяют два подхода: с открытой архитектурой, позволяющие получить доступ к внутренним параметрам модели-учителя, и с закрытой архитектурой, оперирующие только выходными данными. К первому типу относятся MiniLLM, оптимизирующий обратную KL-дивергенцию, On-Policy дистилляция, использующая выборку из модели-ученика, и инициализация на основе усечения, заимствующая слои из большей модели. Второй тип включает дистилляцию на основе обучения в контексте (Meta-ICT, Multitask-ICT), дистилляцию по цепочке мыслей (SCOTT, PaD, Distilling Step-by-Step) для передачи навыков рассуждения и дистилляцию на основе инструкций (Lion, LaMini-LM), развивающую способность следовать текстовым указаниям при решении разнообразных задач[43].

Архитектурная оптимизация — комплекс методов повышения эффективности БЯМ на основе трансформеров, направленных на снижение вычислительных ресурсов и памяти при сохранении качества генерации. Механизм внимания, являющийся ключевым элементом успеха трансформеров, требует значительных объемов памяти из-за необходимости хранения кеша ключей и значений для всех предыдущих токенов. Основные стратегии оптимизации включают: Paged Attention, разделяющий кеш на блоки в несмежных областях памяти; Windowed Attention, использующий скользящие окна для снижения вычислительной сложности; Attention Sinks, сохраняющий первые токены для предотвращения коллапса модели; Flash Attention, минимизирующий перемещение данных между устройствами путем перегруппировки операций; и Speculative Decoding, ускоряющий декодирование через параллельную генерацию с помощью вспомогательной модели, что позволяет достичь 2-3-кратного увеличения производительности без снижения качества выходных данных[43].

Проблемы и ограничения

Несмотря на существенный прогресс в развитии БЯМ, сообщается о ряде проблем и ограничений, присущих существующим архитектурам.

  • Высокие вычислительные затраты. Последовательная генерация токенов ограничивает использование параллельных вычислений, что замедляет процесс генерации по сравнению с неавторегрессивными подходами. Обучение крупных моделей (напр., GPT-4) требует огромных ресурсов (энергии, времени, денег), что экологически и экономически затратно.
  • Ограничение длины контекста. Максимальная длина входного/выходного контекста фиксирована. Длинные тексты могут быть обрезаны, а внимание к дальним зависимостям ухудшается с расстоянием. Такой лимит обусловлен техническими особенностями архитектуры модели (обычно основанной на трансформерах), которые имеют квадратичную зависимость вычислительных затрат и расхода памяти от длины обрабатываемого контекста.
  • Галлюцинации — явление в работе БЯМ, при котором модель генерирует убедительно звучащие, однако неверные или необоснованные сведения. Такие ошибки связаны с отсутствием у нейросети истинного понимания данных и зависят от ограничений обучающих материалов, особенностей архитектуры модели, а также её неспособности проверять фактическую точность предоставляемой информации[44].
  • Накопление ошибок (англ. Error Propagation) в больших языковых моделях — процесс, при котором ошибки, допущенные моделью на начальной стадии генерации текста, приводят к нарастанию неточностей и искажений в дальнейших шагах. В результате небольшие первоначальные ошибки могут значительно повлиять на итоговое качество и контекстную согласованность сгенерированного содержимого[45].
  • Ограничение в композиционном мышлении. БЯМ на основе архитектуры трансформеров (ChatGPT и GPT-4) показывают ограниченную эффективность при решении задач, требующих многоступенчатой декомпозиции и синтеза подзадач. В частности, при умножении многозначных чисел и решении логических головоломок точность моделей составляет лишь 55-59 %. Согласно теоретическим исследованиям, частота ошибок экспоненциально растет с увеличением сложности задачи из-за особенностей авторегрессивной генерации контента[46].
  • Проблема повторов в тексте, генерируемом БЯМ, заключается в многократном воспроизведении слов, фраз или предложений, что приводит к снижению качества, ослаблению информативности и ухудшению восприятия получаемого материала. Эта проблема преимущественно обусловлена особенностями архитектуры и тренировки моделей, несовершенством методов декодирования и недостаточным контролем контекста при создании сгенерированного текста.
  • Реверсивное проклятие (англ. Reversal Curse) — феномен, наблюдаемый в автореграссивных больших языковых моделях, который характеризуется неспособностью модели обобщать информацию в обратном направлении. В частности, если модель обучена на утверждениях вида «A есть B», она не способна автоматически генерализовать знание в обратную сторону — «B есть A»[47].
  • Низкая управляемость БЯМ характеризуется затруднением в точном контроле содержания и формы их ответов, например, в соблюдении заданного стиля или избегании нежелательных тем. Степень их управляемости сильно зависит от качества используемых инструкций («промптов») и эффективности дополнительной тонкой настройки модели на конкретные задачи.
  • Проблема чувствительности к формулировкам у БЯМ заключается в их склонности генерировать существенно различные ответы при незначительном изменении формулировки исходного запроса. Это обусловлено внутренней архитектурой нейросетей, которые воспринимают небольшие изменения формулировки как качественно новые сигналы и, соответственно, могут выдавать разные результаты даже при сохранении исходного смысла.
  • Проблема компромисса между креативностью и точностью БЯМ заключается в необходимости соблюдения баланса между способностью модели создавать оригинальные, разнообразные ответы и поддержанием высокого уровня фактологической и логической достоверности информации. Усиление креативности зачастую ведет к росту числа ошибок и галлюцинаций в результатах модели, тогда как повышение точности за счёт строгого контроля снижает разнообразие и выразительность сгенерированных ответов.
  • Риски злоупотребления включают создание и распространение дезинформации, спама, вредоносного контента, такого как фишинг, а также генерацию правдоподобных deepfake-текстов. Подобное применение способно привести к значительным угрозам информационной и личной безопасности, компрометации репутации лиц и организаций, а также наносить вред социальной стабильности и доверию в интернете.
  • Проблема выравнивания (LLM Alignment). Проблемы этики и справедливости: модели воспроизводят стереотипы, токсичность или социальные предубеждения, присутствующие в обучающих данных.

Оценка

Перплексия

Перплексия (от англ. perplexity) — безразмерная величина в теории информации и обработке естественного языка, измеряющая эффективность вероятностной модели при предсказании данных. В языковых моделях, представляющих собой вероятностные распределения над текстами, перплексия оценивает способность модели предсказывать последовательности слов или токенов. Низкое значение перплексии свидетельствует о точном предсказании следующего элемента в последовательности, не отражая при этом фактической достоверности информации. Для измерения перплексии используются корпусы — структурированные коллекции текстов, на которых тестируются и обучаются языковые модели. Например, перплексия БЯМ для русского языка ruGPT-3 на тестовой выборке составляет для ruGPT-3 Large величину 13.6, для ruGPT-3 XL — 12.05[48][49]

Языковые модели обычно оцениваются по их перплексии на тестовом наборе данных, однако этот метод становится проблематичным для более крупных моделей, которые, обучаясь на всё больших корпусах текста, с высокой вероятностью могут непреднамеренно включать в себя части любого заданного тестового набора[42].

Бенчмарки

Тестовые наборы данных и эталонные тесты (бенчмарки) представляют собой специализированные инструменты, разработанные для оценки функциональных возможностей языковых моделей при решении конкретных практических задач. Данные инструменты позволяют измерять различные аспекты работы моделей, включая общую эрудицию, наличие предвзятости в ответах, способность к логическим рассуждениям на основе здравого смысла и умение решать математические задачи. Производители и исследователи БЯМ соревнуются и сравнивают свои модели в большом числе разнообразных бенчмарков, результаты которых публикуются на специальных лидербордах LLM, в пресс-релизах с каждым выпуском новой модели, а также в репозиториях Hugging Face вместе с публикацией файлов самой модели.

Основное ограничение бенчмарков заключается в быстром устаревании этих тестов: когда модель достигает почти идеальных результатов по определенному бенчмарку (явление, известное как «насыщение бенчмарка»), он перестает служить значимым индикатором прогресса, что требует разработки более сложных и нюансированных задач для дальнейшего развития возможностей моделей. Традиционные бенчмарки, такие как HellaSwag и MMLU (Massive Multitask Language Understanding), уже демонстрируют признаки насыщения, поскольку современные языковые модели достигают по ним высоких показателей точности.

Рейтинги моделей

  • Chatbot Arena, разработанная исследователями из UC Berkeley SkyLab и LMArena, представляет собой открытую платформу для коллективного тестирования искусственного интеллекта. Платформа ранжирует лучшие языковые модели и чат-боты на основе более 1 млн пользовательских голосов, используя модель Брэдли-Терри для формирования актуальных рейтинговых таблиц.
  • Artificial Analysis — исследование сравнивает производительность более 30 языковых моделей (LLM) по ключевым параметрам, включая качество генерации, цену, скорость вывода (токены в секунду), задержку (время до первого токена), размер контекстного окна и другие метрики. Результаты представлены в виде рейтинга, позволяющего пользователям выбрать оптимальную модель для своих задач с учетом соотношения качества, стоимости и производительности.
  • MTEB Leaderboard сравнивает текстовые эмбеддинги более 100 моделей на более чем 1000 языках. Информация о метриках, языках, задачах и их типах доступна в публикациях по каждому выбранному эталонному тесту, при этом любой желающий может добавить модель, новые тесты, помочь улучшить аннотации для zero-shot или предложить другие изменения в рейтинге.

Бенчмарки инференса LLM

Программы тестирования позволяют измерять скорость генерации БЯМ на конкретных аппаратных средствах.

  • GenAI-Perf представляет собой инструмент командной строки для измерения пропускной способности и задержки генеративных моделей, обслуживаемых через сервер вывода. Для больших языковых моделей GenAI-Perf предоставляет такие метрики, как пропускная способность выходных токенов, время до первого токена, задержка между токенами и пропускная способность запросов.
  • llama-bench — тестирование производительности БЯМ через инференс-движок llama.cpp

Бенчмарки безопасности LLM

  • LongSafety — всесторонний бенчмарк для оценки безопасности больших языковых моделей (LLM) при обработке текстов значительной длины, включающий семь категорий проблем безопасности и шесть пользовательских задач с 1543 тестовыми примерами средней длины 5424 слова.

Бенчмарки способностей LLM

  • MTEB (Massive Text Embedding Benchmark) — бенчмарк, разработанный для оценки качества текстовых эмбеддингов (векторных представлений текста), которые генерируют языковые модели. В отличие от бенчмарков, тестирующих генерацию текста или решение задач, MTEB фокусируется на эффективности векторных представлений в различных прикладных сценариях, таких как поиск, классификация, кластеризация и семантическое сходство.
  • MMLU (Massive Multitask Language Understanding) — оценивает способности модели к решению задач из 57 различных областей, включая естественные науки, гуманитарные дисциплины и математику. Тестирует энциклопедические знания и логическое рассуждение.
  • MMLU-Pro — усовершенствованный бенчмарк для оценки моделей понимания языка, основанный на Massive Multitask Language Understanding (MMLU) и включающий свыше 12 000 вопросов из академических экзаменов и учебников по 14 дисциплинам, таких как Биология, Химия, Право, Физика и др., при этом количество вариантов ответов увеличено с 4 до 10, что снижает вероятность случайного угадывания.
  • BIG-bench (Beyond the Imitation Game) — содержит свыше 200 разнообразных задач: от креативного письма до решения головоломок. Разработан коллективом исследователей для проверки обобщающих способностей моделей.
  • SuperGLUE — усовершенствованная версия бенчмарка GLUE. Включает задачи на понимание контекста, логический вывод и разрешение кореференции. Используется для проверки продвинутых навыков NLP.
  • HELM (Holistic Evaluation of Language Models) — комплексный фреймворк, объединяющий множество задач (например, MMLU, TruthfulQA) и метрик для оценки качества, надежности и этичности моделей в различных сценариях.
  • HumanEval — тестирование навыков генерации кода. Моделям предлагается дописать функции на Python, оценивается корректность решений через метрику pass@k.
  • GSM8K (Grade School Math 8K) — сборник из 8,5 тысяч математических задач уровня начальной школы. Проверяет способность к пошаговым рассуждениям и решению арифметических задач.
  • TruthfulQA — оценивает склонность моделей генерировать ложные или вводящие в заблуждение ответы. Включает вопросы с «ловушками», где правдивость ответа критически важна.
  • HellaSwag — тест на здравый смысл через завершение предложений. Модель выбирает наиболее логичное продолжение из нескольких вариантов, что требует понимания повседневных ситуаций.
  • WinoGrande — задачи на разрешение местоимений в контексте. Проверяет способность модели корректно интерпретировать контекст и устранять неоднозначности.
  • PIQA (Physical Interaction QA) — тест на понимание физических взаимодействий объектов (например, «как почистить зубы?»). Оценивает знание повседневных действий и законов физики.
  • RACE (ReAding Comprehension from Examinations) — даёт тексты и вопросы на понимание прочитанного из школьных экзаменов. Проверяет навыки анализа длинных текстов и логического вывода.
  • SQuAD (Stanford Question Answering Dataset) — популярный бенчмарк для извлечения ответов из текста. Модель должна находить точные фрагменты в предоставленном контексте.
  • CommonSenseQA — вопросы, требующие применения знаний о мире (например, «Где человек может хранить деньги?»). Тестирует базовый здравый смысл.
  • LAMBADA — определяет, насколько хорошо модель улавливает длинные контекстуальные зависимости. Модель должна предсказать последнее слово в предложении, которое невозможно угадать без полного понимания текста.
  • AlpacaEval — оценка качества выполнения инструкций. Ответы модели сравниваются с эталонными (например, от GPT-4) по параметрам точности, связности и полезности.

Бенчмарк ARC-AGI-2

В марте 2025 года фонд ARC Prize Foundation представил бенчмарк ARC-AGI-2[50], оценивающий способность систем искусственного интеллекта (ИИ) к адаптации к новым задачам (флюидный интеллект) с использованием базовых знаний и строгих ограничений по эффективности ($0.42 на задачу); при этом текущие ведущие модели ИИ, такие как Google Gemini 2.0 Flash (1.3 % точности) и OpenAI GPT-4.5 (0 %), значительно уступают людям (в среднем 60 % точности). Конкурс ARC Prize 2025 с общим призовым фондом в 1 млн $ (крайний срок подачи моделей — 3 ноября 2025 года) нацелен на достижение 85 % точности системой ИИ на приватном наборе данных из 120 задач, что подчеркивает смещение фокуса исследований в области искусственного общего интеллекта (ИОИ) на адаптивность и практическую эффективность, а не на запоминание. ARC-AGI фокусируется на задачах, которые относительно просты для людей, но сложны или невозможны для ИИ.

LLM-агенты

Обзор и набор инструментов LLM-агента ChemCrow

LLM-агенты (LLM Agents, агенты на основе больших языковых моделей) — программный комплекс, в котором БЯМ выступает в качестве центрального интеллектуального компонента, дополненного функциональными модулями в виде систем памяти, планирования этапов выполнения и инструментального взаимодействия с внешними ИТ-системами через выполнения кода, запуска подпрограмм, прямого обращения к базам данных или через API-запросы. Архитектурно LLM-агенты могут быть реализованы в различных конфигурациях: от простых одиночных агентов, ориентированных на конкретные задачи, до сложных мультиагентных систем с совместным или конкурентным взаимодействием. Несмотря на значительный потенциал в автоматизации когнитивных задач, LLM-агенты сталкиваются с рядом ограничений, включая проблемы контекстной памяти, непоследовательность результатов и сложности долгосрочного планирования, что обуславливает необходимость тщательного проектирования таких систем с учетом специфики прикладных задач[51][52].

Примеры LLM-агентов из исследований: диалоговые системы психологической поддержки[53], симуляторы экономического поведения[54], виртуальные города с агентами (Generative Agents[55], AgentSims[56]), системы для прогнозирования судебных решений[57], ассистенты для научных исследований[58], агент для химии, предназначенный для выполнения задач в областях органического синтеза, разработки лекарств и проектирования материалов (ChemCrow[59]), математические помощники (Math Agents), образовательные системы (EduChat, CodeHelp) и другие.

Microsoft Copilot, работая на основе моделей GPT-4, DALL-E 3 и Prometheus, функционирует как ИИ-агент, интегрированный с продуктами Microsoft 365, Windows и GitHub, автоматизирующий рабочие процессы и генерирующий контент с возможностью создания пользовательских решений через Copilot Studio.

Безопасность

Безопасность больших языковых моделей (LLM) представляет собой комплексную область исследований, посвященную анализу потенциальных рисков и разработке стратегий их минимизации при интеграции LLM в критически важные приложения. Данная область охватывает четыре основные категории проблем: несоответствие ценностей (модели могут генерировать контент, противоречащий человеческим ценностям), уязвимость к состязательным атакам (adversarial attacks), потенциальное злонамеренное использование и риски автономных систем искусственного интеллекта. Исследования также включают анализ безопасности LLM-агентов, роль интерпретируемости моделей в повышении безопасности, технологические дорожные карты, разрабатываемые ведущими компаниями и институтами, а также вопросы управления искусственным интеллектом, международного сотрудничества и регулирования. Для обеспечения безопасной интеграции LLM в общество необходим проактивный многоаспектный подход, объединяющий технические решения, этические принципы и эффективные механизмы регулирования, что способствует развитию искусственного интеллекта на благо человечества.[60].

Риски отравление данных и моделей

Отравление данных и моделей — целенаправленная манипуляция тренировочными данными, используемыми при предварительном обучении, дообучении или создании векторных представлений в системах машинного обучения с целью внедрения уязвимостей, скрытых функций или смещений. Данный тип атак представляет серьезную угрозу целостности искусственного интеллекта, поскольку воздействует на фундаментальную способность модели делать корректные выводы. Последствия отравления включают деградацию производительности, генерацию предвзятого или токсичного контента, и компрометацию систем, использующих отравленные модели. Наиболее распространенные техники отравления — внедрение вредоносных данных в процессе обучения, использование методов «Split-View» и «Front running», а также имплементация скрытых бэкдоров, активируемых специфическими триггерами. Для защиты от данной угрозы применяют отслеживание происхождения данных, верификацию источников, изоляцию непроверенных входных данных, версионирование датасетов и тестирование устойчивости моделей к враждебным воздействиям[61].

Отравление данных в медицинских БЯМ представляет собой процесс внедрения недостоверной медицинской информации в наборы данных, используемые для обучения больших языковых моделей, что приводит к генерации потенциально вредного медицинского контента. Исследования показывают, что значительная часть (27,4 %) медицинских понятий в популярных обучающих наборах содержится в уязвимых веб-источниках без экспертной проверки, таких как Common Crawl. Эксперименты демонстрируют, что даже минимальное количество дезинформации (0,001 % от обучающих токенов) существенно увеличивает риск генерации вредных медицинских рекомендаций, при этом такое отравление остается незаметным для стандартных медицинских бенчмарков[62].

Риски длинного контекста

Исследования создателей бенчмарка LongSafety показывают значительный разрыв в показателях безопасности: модель Claude-3.5-haiku демонстрирует наивысший показатель SRlong (77,7 %), в то время как большинство других систем не превышает отметку в 55 %. Проприетарные модели систематически превосходят модели с открытым исходным кодом по всем параметрам безопасности длинного контекста. Все системы искусственного интеллекта эффективнее обрабатывают темы физического и психического вреда, но обнаруживают существенные недостатки при работе с чувствительными темами, где безопасность большинства моделей падает ниже 50 %. Сравнительный анализ выявляет существенное снижение показателей безопасности при переходе от коротких к длинным контекстам, причем высокая безопасность в работе с короткими текстами не гарантирует сохранения этого качества при обработке длинных данных, что обосновывает необходимость выделения безопасности длинного контекста в отдельную область оценки языковых моделей[63].

Риски безопасности при тонкой настройке LLM

Исследования, проведенные в Стэнфордском институте искусственного интеллекта, ориентированного на человека (HAI), выявили значительные риски для безопасности, связанные с тонкой настройкой LLM. Даже небольшое количество вредоносных данных (всего 10 примеров) или использование безобидных наборов данных, направленных на повышение отзывчивости модели, может легко нарушить встроенные механизмы безопасности таких моделей, как ChatGPT-3.5 и Llama-2-Chat. В результате тонко настроенные модели могут начать отвечать на широкий спектр вредоносных запросов, включая запросы на создание вредоносного ПО и разжигание ненависти. Это сближает профиль риска закрытых моделей, доступных через API тонкой настройки, с профилем открытых моделей. Полученные данные свидетельствуют о том, что тонкая настройка часто приводит к удалению базовых защитных мер безопасности у выровненных языковых моделей. В настоящее время не существует надежных стратегий предотвращения вредоносной настройки моделей[64].

Нейроны безопасности как механизм защиты

Нейроны безопасности в больших языковых моделях представляют собой специализированные параметры нейронной сети, составляющие менее 1 % от общего числа параметров модели и отвечающие за предотвращение вредоносных запросов. Эти нейроны преимущественно расположены в слоях self-attention и коллективно функционируют на начальных уровнях сети. На основе исследований данных структур разработаны методы Safety Neuron Tuning (SN-Tune) и Robust Safety Neuron Tuning (RSN-Tune), позволяющие избирательно настраивать только эти нейроны, сохраняя общую производительность модели и целостность механизмов безопасности при тонкой настройке для специфических задач. Изучение нейронов безопасности открывает новые подходы к усовершенствованию больших языковых моделей путем целенаправленного воздействия на ключевые компоненты их архитектуры[65].

Список больших языковых моделей

С мая 2023 года по февраль 2025 года такие компании, как OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, DeepSeek, Amazon, Mistral AI, Meta AI, Nvidia, Microsoft, AI21 Labs, Databricks' Mosaic ML, Cohere, Inflection AI, Stability AI, Technology Innovation Institute, Salesforce, EleutherAI и Stanford CRFM, выпустили множество LLM. Эти модели доступны через API, имеют открытый исходный код или являются собственностью разработчика, а их размеры варьируются от миллионов до триллионов параметров[66] [неавторитетный источник].

Список больших языковых моделей
Название Дата релиза[a] Разработчик Число параметров[b] Размер корпуса текстов Лицензия[c] Примечания
BERT[англ.] 2018 Google 340 млн[67] 3,3 млрд слов[67] Apache 2.0[68] Ранняя и влиятельная языковая модель[1].
GPT-2[англ.] 2019 OpenAI 1,5 млрд[69] 40 GB[70] (~10 млрд токенов)[71] MIT[72] Универсальная модель на базе трансформенной архитектуры.
GPT-3 2020 OpenAI 175 млрд[36] 499 млрд токенов[71] Общедоступный веб-API Доработанный вариант GPT-3, получивший название GPT-3.5, стал общедоступным через веб-интерфейс под названием ChatGPT в 2022 году[73].
GPT-Neo Март 2021 EleutherAI[англ.] 2,7 млрд[74] 825 GiB[75] MIT[76] Первый из серии бесплатных альтернатив GPT-3, выпущенных EleutherAI. GPT-Neo превзошёл модель GPT-3 аналогичного размера в некоторых тестах, но был значительно хуже, чем самая большая GPT-3[76].
GPT-J Июнь 2021 EleutherAI[англ.] 6 млрд[77] 825 GiB[75] Apache 2.0 Языковая модель в стиле GPT-3.
Megatron-Turing NLG Октябрь 2021[78] Microsoft and Nvidia 530 млрд[79] 338,6 млрд токенов[79] Restricted web access Стандартная архитектура, но обученная на суперкомпьютерном кластере.
Claude[80] Декабрь 2021 Anthropic 52 млрд[81] 400 млрд токенов[81] Proprietary Модель с тонкой настройкой для предпочтительных ответов при разговоре[82].
GLaM (Generalist Language Model) Декабрь 2021 Google 1,2 трлн[83] 1,6 трлн токенов[83] Proprietary Модель с разреженной смесью экспертов (англ. sparse mixture-of-experts mode), что делает её более дорогой для обучения, но более дешёвой для выполнения логического вывода по сравнению с GPT-3.
LaMDA (Language Models for Dialog Applications) Январь 2022 Google 137 млрд[84] 1,56T слов[84] Proprietary Специализируется на генерации ответов в разговорах.
GPT-NeoX Февраль 2022 EleutherAI[англ.] 20 млрд[85] 825 GiB[75] Apache 2.0 На базе архитектуры Megatron.
Chinchilla Март 2022 DeepMind 70 млрд[86] 1,3 трлн токенов[86][87] Proprietary Модель с уменьшенным количеством параметров, обученная на большем количестве данных.
PaLM (Pathways Language Model) Апрель 2022 Google 540 млрд[88] 768 млрд токенов[86] Proprietary Направлена на достижение практических пределов масштаба модели.
OPT (Open Pretrained Transformer) Май 2022 Meta 175 млрд[89] 180 млрд токенов[90] Некоммерческое исследование[d] Архитектура GPT-3 с некоторыми адаптациями Megatron.
YaLM 100B Июнь 2022 Яндекс 100 млрд[91] 300 млрд токенов[92] Apache 2.0 75 % текста, использованного при обучении, написано на русском языке[92].
BLOOM Июль 2022 Коллаборация под управлением Hugging Face 175 млрд[37] 350 млрд токенов (1,6 TB)[93] Responsible AI По сути — GPT-3, но обучена многоязычному корпусу текстов (30 % английский, исключая языки программирования).
AlexaTM (Teacher Models) Ноябрь 2022 Amazon 20 млрд[94] 1,3 трлн[95] Общедоступный веб-API[96] Двунаправленная архитектура «последовательность к последовательности».
LLaMA Февраль 2023 Meta 65 млрд[97] 1,4 трлн[97] Некоммерческое исследование[e] Обучена на большом корпусе из 20 языков, чтобы добиться лучшей производительности с меньшим количеством параметров[97].
GPT-4 Март 2023 OpenAI Нет данных[f] Нет данных Общедоступный веб-API Доступна для пользователей ChatGPT Plus. Microsoft подтвердила, что в Bing Chat используется модель GPT-4[99].
StableLM Апрель 2023 Stability-AI 7 млрд[100] 800 млрд[100] Исходный код: Apache 2.0[100]
GigaChat Апрель 2023 Сбербанк Proprietary
YandexGPT 17 мая 2023 Яндекс Proprietary На основе YandexGPT работает виртуальный помощник «Алиса».

Примечания

Комментарии

  1. Это дата первого появления документации, описывающей архитектуру модели.
  2. Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели, имеющих разные размеры. В этих случаях здесь указывается размер самой большой модели.
  3. Это лицензия весов предварительно обученной модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведён.
  4. Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
  5. Лицензия Facebook и схема распространения ограничивали доступ к утверждённым исследователям, но веса моделей утекли и стали широко доступны.
  6. Как указано в техническом отчёте: «Учитывая конкурентную среду и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчёт не содержит дополнительных сведений об архитектуре (включая размер модели), оборудовании, обучающих вычислениях, построении набора данных, методе обучения, или подобную информацию»[98].

Источники

  1. 1 2 3 4 5 Manning, Christopher D. (2022). Human Language Understanding & Reasoning. Daedalus. Архивировано 17 ноября 2023. Дата обращения: 16 марта 2023.
  2. Goodman, Joshua (9 августа 2001), A Bit of Progress in Language Modeling, arXiv:cs/0108005
  3. Kilgarriff, Adam; Grefenstette, Gregory (September 2003). Introduction to the Special Issue on the Web as Corpus. Computational Linguistics. 29 (3): 333–347. doi:10.1162/089120103322711569. ISSN 0891-2017.
  4. Banko, Michele; Brill, Eric (2001). Scaling to very very large corpora for natural language disambiguation. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics — ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26–33. doi:10.3115/1073012.1073017.
  5. Resnik, Philip; Smith, Noah A. (September 2003). The Web as a Parallel Corpus. Computational Linguistics. 29 (3): 349–380. doi:10.1162/089120103322711578. ISSN 0891-2017. Архивировано 7 июня 2024. Дата обращения: 7 июня 2024.
  6. Halevy, Alon; Norvig, Peter; Pereira, Fernando (March 2009). The Unreasonable Effectiveness of Data. IEEE Intelligent Systems. 24 (2): 8–12. doi:10.1109/MIS.2009.36. ISSN 1541-1672.
  7. Chen L., Li S., Bai Q. et al. Review of Image Classification Algorithms Based on Convolutional Neural Networks // «Remote Sensing». — 2021. — Vol. 13. — № 22. — Article 4712. — P. 1—51. — DOI: 10.3390/rs13224712.
  8. Vaswani A., Shazeer N., Parmar N. et al. Attention is All you Need // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.
  9. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 [cs.CL].
  10. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). A Primer in BERTology: What We Know About How BERT Works. Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403. Архивировано 3 апреля 2022. Дата обращения: 21 января 2024.
  11. Movva R., Balachandar S., Peng K. et al. Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.
  12. Hern, Alex. New AI fake text generator may be too dangerous to release, say creators. The Guardian (14 февраля 2019). Дата обращения: 20 января 2024. Архивировано 14 февраля 2019 года.
  13. ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months. Euronews (30 ноября 2023). Дата обращения: 20 января 2024. Архивировано 14 января 2024 года.
  14. Heaven, Will. GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why. MIT Technology Review (14 марта 2023). Дата обращения: 20 января 2024. Архивировано 17 марта 2023 года.
  15. Sharma, Shubham. Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost (амер. англ.). VentureBeat (20 января 2025). Дата обращения: 26 января 2025.
  16. GPTQ: Accurate post-training quantization for generative pre-trained transformers.
  17. Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer. QLoRA: Efficient Finetuning of Quantized LLMs. — 2023-05-23. — doi:10.48550/arXiv.2305.14314.
  18. 1 2 Neves, Miguel Carreira. LLM Mixture of Experts Explained (англ.). TensorOps (29 января 2024). Дата обращения: 27 марта 2025.
  19. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (англ.). www.anthropic.com. Дата обращения: 29 марта 2025.
  20. OpenAI launches Operator—an agent that can use a computer for you (англ.). MIT Technology Review. Дата обращения: 29 марта 2025.
  21. 1 2 Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li. Large Language Diffusion Models. — 2025-02-18. — doi:10.48550/arXiv.2502.09992.
  22. Carlini N., Tramer F., Wallace E. et al. Extracting Training Data from Large Language Models // «USENIX Security Symposium». — 2021. — Vol. 6.
  23. 1 2 3 Wei, Jason. Emergent Abilities of Large Language Models. Дата обращения: 16 марта 2023. Архивировано 16 марта 2023 года.
  24. 1 2 3 4 5 Jurafsky, Dan. Speech and Language Processing / Dan Jurafsky, James H. Martin. — 3rd edition draft. — 2023-01-07. Архивная копия от 23 марта 2023 на Wayback Machine
  25. 1 2 What is Attention and Why Do LLMs and Transformers Need It? (англ.). www.datacamp.com. Дата обращения: 28 марта 2025.
  26. Vaswani A., Shazeer N., Parmar N. et al. Attention Is All You Need. — 2023-08-02. — doi:10.48550/arXiv.1706.03762.
  27. Krishna Teja Chitty-Venkata, Sparsh Mittal, Murali Emani, Venkatram Vishwanath, Arun K. Somani. A Survey of Techniques for Optimizing Transformer Inference. — 2023-07-16. — doi:10.48550/arXiv.2307.07982.
  28. Noam Shazeer. Fast Transformer Decoding: One Write-Head is All You Need. — 2019-11-06. — doi:10.48550/arXiv.1911.02150.
  29. Hugo Touvron, Louis Martin, Kevin Stone et al. Llama 2: Open Foundation and Fine-Tuned Chat Models. — 2023-07-19. — doi:10.48550/arXiv.2307.09288.
  30. Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. — 2023-12-23. — doi:10.48550/arXiv.2305.13245.
  31. Sisir Dhakal. Multi-Head, Multi-Query, and Grouped-Query Attention: Which One Should You Use?.
  32. AI, Novita. Decoding Group Query Attention: Implemented in Popular LLMs (амер. англ.). Novita AI Blog (2 августа 2024). Дата обращения: 1 апреля 2025.
  33. What is grouped query attention? | IBM (англ.). www.ibm.com (5 декабря 2024). Дата обращения: 1 апреля 2025.
  34. MoE: Как Смесь Экспертов меняет правила игры в мире AI. Хабр (16 февраля 2025). Дата обращения: 27 марта 2025.
  35. Филипенко, Кирилл. Reasoning-LLM: архитектура и обзор передовых моделей. Академия Selectel (19 марта 2025). Дата обращения: 28 марта 2025.
  36. 1 2 3 Wiggers, Kyle. The emerging types of language models and why they matter. TechCrunch (28 апреля 2022). Дата обращения: 16 марта 2023. Архивировано 16 марта 2023 года.
  37. 1 2 Ananthaswamy, Anil. In AI, is bigger always better? Nature (8 марта 2023). Дата обращения: 16 марта 2023. Архивировано 16 марта 2023 года.
  38. 1 2 Kaplan J., McCandlish S., Henighan T. Scaling Laws for Neural Language Models Заполните автора и заголовок. arXiv:abs/2001.08361.
  39. 1 2 3 4 Comparative Overview: SFT, DPO, ORPO, & RLHF.
  40. Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization. arxiv.org. Дата обращения: 29 марта 2025.
  41. PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning (англ.). arxiv.org. Дата обращения: 29 марта 2025.
  42. 1 2 3 Brown T. B., Mann B., Ryder N. et al. Language Models are Few-Shot Learners // «Advances in Neural Information Processing Systems». — 2020. — Vol. 33. — P. 1877—1901.
  43. 1 2 3 4 Leo Donisch, Sigurd Schacht, Carsten Lanquillon. Inference Optimizations for Large Language Models: Effects, Challenges, and Practical Considerations. — 2024-08-06. — doi:10.48550/arXiv.2408.03130.
  44. Xu S., Liu S., Culhane T. et al. Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata. — 2023-11-05. — doi:10.48550/arXiv.2305.14202.
  45. Ivankov, Alex. Autoregressive LLM: Advantages and Disadvantages (амер. англ.). Profolus (4 декабря 2023). Дата обращения: 28 марта 2025.
  46. Faith and Fate: Limits of Transformers on Compositionality.
  47. Berglund L., Tong M., Kaufmann M. et al. The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A". — 2024-05-26. — doi:10.48550/arXiv.2309.12288.
  48. Большая нейросеть для русского языка ruGPT-3. SberCloud (ООО «Облачные технологии»). Дата обращения: 3 октября 2021. Архивировано 3 октября 2021 года.
  49. Sber AI. Russian GPT-3 models (англ.). Sber AI. Sber AI (2021).
  50. Announcing ARC-AGI-2 and ARC Prize 2025 (англ.). ARC Prize. Дата обращения: 27 марта 2025.
  51. LLM Agents — Nextra (англ.). www.promptingguide.ai. Дата обращения: 29 марта 2025.
  52. What are LLM Agents? A Practical Guide (англ.). www.k2view.com. Дата обращения: 29 марта 2025.
  53. Zilin Ma, Yiyang Mei, Zhaoyuan Su. Understanding the Benefits and Challenges of Using Large Language Model-based Conversational Agents for Mental Well-being Support. — 2023-07-28. — doi:10.48550/arXiv.2307.15810.
  54. John J. Horton. Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?. — 2023-01-18. — doi:10.48550/arXiv.2301.07543.
  55. Park J. S., O'Brien J. C., Cai C. J. et al. Generative Agents: Interactive Simulacra of Human Behavior. — 2023-08-06. — doi:10.48550/arXiv.2304.03442.
  56. Jiaju Lin, Haoran Zhao, Aochi Zhang, Yiting Wu, Huqiuyue Ping, Qin Chen. AgentSims: An Open-Source Sandbox for Large Language Model Evaluation. — 2023-08-08. — doi:10.48550/arXiv.2308.04026.
  57. Sil Hamilton. Blind Judgement: Agent-Based Supreme Court Modelling With GPT. — 2023-01-12. — doi:10.48550/arXiv.2301.05327.
  58. Ziems C., Held W., Shaikh O. et al. Can Large Language Models Transform Computational Social Science?. — 2024-02-26. — doi:10.48550/arXiv.2305.03514.
  59. Bran A. M., Cox S., Schilter O. et al. ChemCrow: Augmenting large-language models with chemistry tools. — 2023-10-02. — doi:10.48550/arXiv.2304.05376.
  60. Dan Shi, Tianhao Shen, Yufei Huang, Zhigen Li, Yongqi Leng, Renren Jin, Chuang Liu, Xinwei Wu, Zishan Guo, Linhao Yu, Ling Shi, Bojian Jiang, Deyi Xiong. Large Language Model Safety: A Holistic Survey. — 2024-12-23. — doi:10.48550/arXiv.2412.17686.
  61. Admin, OWASPLLMProject. LLM04:2025 Data and Model Poisoning (амер. англ.). OWASP Top 10 for LLM & Generative AI Security. Дата обращения: 31 марта 2025.
  62. Alber D. A., Yang Z., Alyakin A. et al. Medical large language models are vulnerable to data-poisoning attacks (англ.) // Nature Medicine. — 2025-02. — Vol. 31, iss. 2. — P. 618—626. — ISSN 1546-170X. — doi:10.1038/s41591-024-03445-1.
  63. Lu Y., Cheng J., Zhang Z. et al. LongSafety: Evaluating Long-Context Safety of Large Language Models. — 2025-02-24. — doi:10.48550/arXiv.2502.16971.
  64. Stanford HAI (англ.). hai.stanford.eduundefined. Дата обращения: 31 марта 2025.
  65. Zhao Y., Zhang W., Xie Y. et al. Understanding and Enhancing Safety Mechanisms of LLMs via Safety-Specific Neuron (англ.). — 2024-10-04.
  66. Exploding Topics — Discover the hottest new trends. (англ.). Exploding Topics. Дата обращения: 31 марта 2025.
  67. 1 2 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 октября 2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v2 [cs.CL].
  68. BERT (13 марта 2023). Дата обращения: 16 марта 2023. Архивировано 13 января 2021 года.
  69. GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. Архивировано 14 ноября 2019 года.
  70. Better language models and their implications. openai.com. Дата обращения: 16 марта 2023. Архивировано 16 марта 2023 года.
  71. 1 2 OpenAI's GPT-3 Language Model: A Technical Overview (англ.). lambdalabs.com. Дата обращения: 16 марта 2023. Архивировано 27 марта 2023 года.
  72. gpt-2. GitHub. Дата обращения: 13 марта 2023. Архивировано 11 марта 2023 года.
  73. ChatGPT: Optimizing Language Models for Dialogue (англ.). OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. Архивировано 30 ноября 2022 года.
  74. GPT Neo (15 марта 2023). Дата обращения: 16 марта 2023. Архивировано 12 марта 2023 года.
  75. 1 2 3 Gao L., Biderman S., Black S. et al. The Pile: An 800GB Dataset of Diverse Text for Language Modeling Заполните автора и заголовок. arXiv:2101.00027.
  76. 1 2 Iyer, Abhishek. GPT-3’s free alternative GPT-Neo is something to be excited about. VentureBeat (15 мая 2021). Дата обращения: 16 марта 2023. Архивировано 9 марта 2023 года.
  77. GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront (англ.). www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
  78. Kharya, Paresh; Alvi, Ali. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model. Microsoft Research (11 октября 2021). Дата обращения: 16 марта 2023. Архивировано 13 марта 2023 года.
  79. 1 2 Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022-02-04). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". arXiv:2201.11990 Архивная копия от 15 апреля 2023 на Wayback Machine
  80. Product (англ.). Anthropic. Дата обращения: 14 марта 2023. Архивировано 16 марта 2023 года.
  81. 1 2 Askell A., Bai Y., Chen A. et al. A General Language Assistant as a Laboratory for Alignment Заполните автора и заголовок. arXiv:2112.00861.
  82. Bai Y., Kadavath S., Kundu S. Constitutional AI: Harmlessness from AI Feedback Заполните автора и заголовок. arXiv:2212.08073.
  83. 1 2 Dai, Andrew M; Du, Nan. More Efficient In-Context Learning with GLaM (англ.). ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. Архивировано 12 марта 2023 года.
  84. 1 2 Cheng, Heng-Tze; Thoppilan, Romal. LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything (англ.). ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. Архивировано 25 марта 2022 года.
  85. Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (1 мая 2022). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Proceedings of BigScience Episode #5. Vol. Proceedings of BigScience Episode #5. pp. 95–136. Архивировано 10 декабря 2022. Дата обращения: 19 декабря 2022.
  86. 1 2 3 Mensch, Arthur; Hoffmann, Jordan; Sifre, Laurent; Borgeaud, Sebastian. An empirical analysis of compute-optimal large language model training. Deepmind Blog (12 апреля 2022). Дата обращения: 16 марта 2023. Архивировано 13 апреля 2022 года.
  87. Hoffmann J., Borgeaud S., Mensch A. et al. Training Compute-Optimal Large Language Models Заполните автора и заголовок. arXiv:2203.15556.
  88. Narang, Sharan; Chowdhery, Aakanksha. Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 4 апреля 2022 года.
  89. Democratizing access to large-scale language models with OPT-175B (англ.). ai.facebook.com. Дата обращения: 16 марта 2023. Архивировано 12 марта 2023 года.
  90. Zhang S.. Roller S., Goyal N. et al. OPT: Open Pre-trained Transformer Language Models Заполните автора и заголовок. arXiv:2205.01068.
  91. Источник. Дата обращения: 20 июля 2023. Архивировано 20 июля 2023 года.
  92. 1 2 yandex/YaLM-100B: Pretrained language model with 100B parameters. Дата обращения: 20 июля 2023. Архивировано 16 июня 2023 года.
  93. bigscience/bloom · Hugging Face. huggingface.co. Дата обращения: 16 марта 2023. Архивировано 12 апреля 2023 года.
  94. 20B-parameter Alexa model sets new marks in few-shot learning (англ.). Amazon Science (2 августа 2022). Дата обращения: 16 марта 2023. Архивировано 15 марта 2023 года.
  95. Saleh S., Ananthakrishnan S., FitzGerald J. AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model // Заполните автора и заголовок. arXiv:2208.01448.
  96. AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog. aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
  97. 1 2 3 Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI (24 февраля 2023). Дата обращения: 16 марта 2023. Архивировано 3 марта 2023 года.
  98. GPT-4 Technical Report. OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
  99. Lardinois, Frederic. Microsoft’s new Bing was using GPT-4 all along. TechCrunch (14 марта 2023). Дата обращения: 14 марта 2023. Архивировано 15 марта 2023 года.
  100. 1 2 3 StableLM: Stability AI Language Models. — 2023-04-20. Архивировано 20 апреля 2023 года.
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya