Большая языковая модель
Большая языковая модель (БЯМ; англ. large language model, LLM) — языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя. LLM стали популярны после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач[1]. Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объем обучающих данных. Параметры представляют собой переменные и веса, используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель BERTbase компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объема данных для обучения, достигающего нескольких петабайт и содержащего триллионы токенов — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью. Генеративные предобученные трансформеры (GPT и аналоги) представляют собой наиболее мощные БЯМ, которые могут адаптироваться к конкретным задачам посредством дополнительного обучения или подсказок, обладают способностью прогнозировать синтаксические, семантические и онтологические структуры языка, одновременно наследуя неточности и предвзятости из обучающих данных. В текстовом формате БЯМ применяются для анализа и извлечения информации, суммаризации, ответов на вопросы, логических рассуждений, анализа тональности, создания контента и программного кода, а также машинного перевода. Мультимодальные возможности этих моделей охватывают работу с речью, аудио, изображениями и видео, включая создание подписей к изображениям, распознавание объектов, генерацию визуального контента, транскрипцию речи и анализ видеоматериалов. ИсторияВ истории развития языковых моделей до 2017 года наблюдалось несколько значимых достижений: в 1990-х годах IBM разработала модели выравнивания, которые стали пионерами в области статистического языкового моделирования; в 2001 году сглаженная n-грамм модель, обученная на 0,3 млрд слов, достигла наилучших показателей перплексии для своего времени[2]; в 2000-х годах с распространением интернета исследователи начали создавать масштабные языковые датасеты («веб как корпус»[3]) для обучения статистических языковых моделей; к 2009 году статистические языковые модели доминировали над символьными в большинстве задач обработки языка благодаря их способности эффективно использовать большие объемы данных[4][5][6]. В 2012 году нейронные сети стали доминировать в обработке изображений[7], после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием sequence-to-sequence (seq2seq) глубоких LSTM-сетей, поскольку трансформеры на тот момент ещё не существовали. В 2017 году на конференции NeurIPS исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»[8], целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на механизм внимания, разработанный Бахданау и соавторами в 2014 году[9]. В 2018 году была представлена модель BERT (encoder-only модель, в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться[10]. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг[11]. История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя GPT-1 появилась в 2018 году, именно GPT-2 (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений[12]. GPT-3 (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя ChatGPT, вызвавшего значительный медийный резонанс[13]. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя OpenAI не раскрыла её архитектуру и количество параметров[14]. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений o1, способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: Transformer-X (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), Copilot (GitHub), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и BERT 2 (Google). Каждая модель внесла уникальный вклад в развитие обработки естественного языка (NLP), однако особое внимание исследователей привлекла техника обучения LoRA, которая стала центральным элементом в этой области. В период с 2022 года БЯМ с открытым исходным кодом стали приобретать популярность, начиная с BLOOM и LLaMA, хотя оба имели ограничения по сфере применения. Модели Mistral AI (Mistral 7B и Mixtral 8x7b) получили более либеральную лицензию Apache. В январе 2025 года компания DeepSeek выпустила DeepSeek R1 — модель с открытыми весами, содержащую 671 млрд параметров, которая по производительности сравнима с OpenAI o1, но работает с гораздо меньшими затратами[15]. В марте 2022 года представлен новый метод квантования GPTQ, способный сжимать модели с сотнями миллиардов параметров до 3—4 бит на параметр без существенной потери точности, позволяя проводить инференс БЯМ с существенным сокращением необходимой видеопамяти[16], что сделало широко доступным запуск БЯМ на потребительских графических ускорителях. 23 мая 2023 года была представлена технология QLoRA (Quantized Low-Rank Adaptation), обеспечивающая ускоренный fine-tuning квантизированных моделей без потери качества и с меньшим объемом видеопамяти[17]. В марте 2023 года представлена библиотека llama.cpp для запуска больших языковых моделей без зависимостей, первоначально оптимизированное для работы на CPU. Проект включает командную строку, веб-интерфейс и поддерживает различные аппаратные платформы (x86, ARM, CUDA, Metal), использует собственный формат файлов GGUF (введен в августе 2023 года) для хранения тензоров и метаданных, поддерживает различные методы квантизации для снижения потребления памяти. Распространение MoE моделей начинается с декабря 2023 года, компания Mistral AI выпустила Mixtral 8x7B — высококачественную разреженную БЯМ типа mixture of experts (SMoE) с открытыми весами, лицензированную по Apache License 2.0, которая превосходила Llama 2 70B на большинстве тестов за счёт шестикратного ускорения вывода[18]. Начиная с 2023 года, многие БЯМ приобрели мультимодальные возможности, позволяющие им обрабатывать или генерировать различные типы данных помимо текста, включая изображения, видео и аудио. Такие системы получили название «больших мультимодальных моделей» (LMMs), расширив функциональность языковых моделей за пределы исключительно текстовой обработки. В период с апреля 2024 по февраль 2025 года появилось множество значимых разработок в области больших языковых моделей (LLM) и мультимодальных моделей (VLM). DeepSeek-AI представила серию моделей DeepSeek-V2 (май 2024), DeepSeek-V3 (декабрь 2024) и DeepSeek-R1 (январь 2025), использующих новую архитектуру с Multi-head Latent Attention (MLA). Компания MiniMax выпустила MiniMax-01 с архитектурой Lightning Attention в январе 2025 года. NVIDIA разработала Star-Attention (ноябрь 2024), обеспечивающую 11-кратное ускорение работы с длинным контекстом. Microsoft представила технологию YOCO (You Only Cache Once) в мае 2024 года. Moonshot AI выпустила Mooncake (июнь 2024) — архитектуру для эффективного обслуживания LLM. TriDao и соавторы опубликовали FlashAttention-3 (июль 2024), а Microsoft представила MInference 1.0 в том же месяце для ускорения работы с длинным контекстом. В октябре 2024 года Anthropic запустила новую функцию «computer use» для обновленной модели Claude 3.5 Sonnet, позволяющую ИИ взаимодействовать с компьютерными интерфейсами подобно человеку. Эта возможность даёт Claude способность интерпретировать изображения экрана, перемещать курсор, нажимать кнопки и вводить текст через виртуальную клавиатуру[19]. 23 января 2025 OpenAI представила Operator для подписчиков ChatGPT Pro в США — веб-приложение, способное выполнять простые задачи в браузере, например, бронировать билеты на концерты или заполнять онлайн-заказы продуктов. Работает на базе новой модели Computer-Using Agent (CUA)[20]. В феврале 2025 года представлена модель LLaDA (Large Language Diffusion with masking), применяющая диффузионный подход к большим языковым моделям[21]. ХарактеристикиХотя термин «большая языковая модель» не имеет формального определения, он обычно относится к моделям глубокого обучения, имеющим количество параметров порядка миллиардов и более[22]. БЯМ — модели общего назначения, которые превосходно справляются с широким спектром задач, в отличие от обучения одной конкретной задаче (например, анализу настроений, распознаванию именованных сущностей или математическим рассуждениям)[1][23]. Несмотря на обучение на простых задачах, таких как предсказание следующего слова в предложении, нейронные языковые модели с достаточным обучением и количеством параметров схватывают большую часть синтаксиса и семантики человеческого языка. Кроме того, большие языковые модели демонстрируют значительные общие знания о мире и способны «запоминать» большое количество фактов во время обучения[1]. АрхитектураВ БЯМ чаще всего использовалась архитектура трансформера, которая с 2018 года стала стандартной техникой глубокого обучения для последовательных данных (ранее наиболее распространёнными были рекуррентные архитектуры, такие как модели с долгой кратковременной памятью). БЯМ обучаются без учителя на неаннотированном тексте. Трансформер при генерации вывода слева направо обучается максимизировать вероятность, назначенную следующему слову в обучающих данных, с учётом предыдущего контекста. В качестве альтернативы БЯМ может использовать двунаправленный трансформер (как в примере BERT), который присваивает распределение вероятностей по словам, имеющим доступ как к предыдущему, так и к последующему контексту[24]. В дополнение к задаче прогнозирования следующего слова или «заполнения пробелов» БЯМ могут быть обучены вспомогательным задачам, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений и модель должна предсказать, появятся ли они рядом в обучающем корпусе текстов[24]. Transformer![]() Архитектура Transformer (трансформер) представляет собой нейросетевую модель обработки последовательностей, состоящую из кодирующего (энкодер) и декодирующего (декодер) блоков, при этом современные исследования выявили эффективность различных её конфигураций. Модели на основе только энкодера (двунаправленные) предобучаются путем восстановления скрытых элементов текста и применяются для задач понимания содержания. Модели, использующие только декодер (авторегрессивные), оптимизированы для предсказания следующего элемента в последовательности и эффективны в задачах генерации текста. Полные модели трансформера (энкодер-декодер) комбинируют преимущества обоих компонентов: энкодер обрабатывает все входные элементы, а декодер генерирует выходные с доступом к представлениям энкодера, что делает их оптимальными для суммаризации, машинного перевода и генеративных вопросно-ответных систем. ТокенизацияТокенизация — ключевой этап предварительной обработки больших языковых моделей (LLM), который включает в себя разбор текста на отдельные части, называемые токенами. В качестве токенов могут выступать символы, подслова, знаки или слова, в зависимости от размеров и характера языковой модели. В LLM используются различные алгоритмы токенизации, такие как WordPiece, UnigramLM и Byte Pair Encoding (BPE, кодирование пар байтов). Механизмы внимания![]() Механизмы внимания (англ. attention mechanism), применяемые в больших языковых моделях, способствуют улучшению архитектуры и производительности системы, поскольку обеспечивают представление входных последовательностей посредством установления взаимосвязей между токенами. Традиционные методы векторного представления слов, такие как Word2Vec и GloVe (Global Vectors for Word Representation), используют статистику совместного встречания слов в больших корпусах текста для создания векторов фиксированной размерности. Данные подходы не учитывают контекстуальные различия значений слов, в то время как механизм внимания позволяет моделям избирательно фокусироваться на релевантных частях входных последовательностей, обеспечивая учет контекстной информации. Механизм внимания позволяет моделям БЯМ динамически регулировать значимость отдельных слов с учетом их контекстуальной релевантности, что обеспечивает возможность захвата зависимостей между словами, находящимися на удалении друг от друга. Данный подход способствует формированию контекстуализированных представлений и разрешению неоднозначностей языка при обработке сложных текстов. ![]() Механизм внимания self-attention позволяет модели учитывать различные позиции во входной последовательности для вычисления её представления, используя три основных элемента: запрос (query) — вектор, представляющий текущий фокус модели на конкретном слове, ключ (key) — вектор, служащий ориентиром для определения релевантности слова, и значение (value) — вектор, содержащий фактическую информацию, связанную с каждым словом[25]. Многоголовое внимание (англ. multi-head attention) является расширением механизма self-attention, позволяющим модели захватывать разнообразную контекстную информацию посредством параллельного выполнения нескольких операций self-attention, каждая из которых имеет собственные обученные преобразования запросов (англ. query), ключей (англ. key) и значений (англ. value). Данный механизм обеспечивает более точное контекстное понимание, повышенную устойчивость и выразительность модели[25]. Представлен в 2017 году[26]. Количество голов внимания варьируется в зависимости от конкретной модели: GPT-2 содержит 16 голов внимания, крупнейшая версия GPT-3 использует 96 голов, а GPT-4, согласно имеющимся данным, включает приблизительно 120 голов внимания[27]. Многозапросное внимание (англ. Multi Query Attention) — механизм обработки последовательностей в архитектуре трансформеров, представленный в работе «Fast Transformer Decoding: One Write-Head is All You Need» (2019)[28], который совершенствует стандартное мультиголовое внимание (MHA) посредством совместного использования пар ключ-значение для всех запросов в различных головках внимания, что существенно сокращает требования к пропускной способности памяти и ускоряет процесс декодирования. Используется в архитектурах моделей Falcon, PaLM, Llama 2 (7B, 13B)[29]. ![]() Grouped Query Attention (GQA) — механизм внимания, представленный в работе «GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints» (2023)[30] как промежуточное решение между Multi-Head Attention (MHA) и Multi-Query Attention (MQA). Принцип работы GQA заключается в группировании нескольких запросов с совместным использованием набора пар ключ-значение для каждой группы, что позволяет сохранить способность модели выявлять сложные паттерны (как в MHA) при одновременном снижении требований к пропускной способности памяти (подобно MQA). Данный механизм обеспечивает оптимальный баланс между качеством моделирования и скоростью обработки, особенно эффективен в слоях декодера трансформера, где последовательный характер авторегрессивного декодирования создает ограничения памяти, тогда как в энкодерах, выполняющих вычисления параллельно, GQA обычно не применяется[31]. Механизм используется в архитектурах Meta Llama 2 (34B, 70B) и Llama 3 (8B, 70B), Mistral 7B, IBM Granite 3.0[32][33]. Mixture of Experts (MoE)Архитектура Mixture of Experts (MoE, «смесь экспертов») в больших языковых моделях представляет собой подход, при котором модель разделяется на несколько специализированных компонентов («экспертов»), каждый из которых отвечает за конкретную область компетенции или тип задачи. Эти эксперты, обычно реализованные в виде нейронных сетей прямого распространения, совместно обрабатывают входные данные под управлением специальной маршрутизирующей (gating) нейронной сети. Маршрутизатор определяет, каким именно экспертам будут направлены те или иные входные токены, распределяя вычисления между ними. Чтобы обеспечить равномерное использование экспертов и эффективное распределение нагрузки, применяются специальные механизмы балансировки. Подход, впервые предложенный Джеффри Хинтоном в 1991 году, получил развитие в глубоких нейронных сетях с 2014 года и эволюционировал вплоть до 2022 года, когда Google и Meta продемонстрировали его применение в своих трансформерах[18]. Sparse Mixture of Experts (Sparse MoE) — дальнейшее развитие архитектуры Mixture of Experts, при котором для ответа на конкретный запрос используется только небольшая часть доступных экспертов, а не все сразу. Такой механизм становится возможным благодаря специальной маршрутизирующей модели, которая на основе характера входных данных заранее выбирает лишь те эксперты, ответы которых действительно будут ценны для текущего запроса. В результате существенно сокращается число параметров, задействованных в каждом вычислении, что позволяет радикально ускорить вывод без снижения качества. Важно подчеркнуть, что эксперты в MoE не являются самостоятельными большими языковыми моделями и не взаимодействуют друг с другом в формате диалога, как бывает в мультиагентных системах БЯМ. Вместо этого Mixture of Experts — средство гибкого распределения «компетенций» внутри единой нейронной сети, где маршрутизатор динамически определяет степень участия каждого эксперта в решении поставленной задачи. Модели Sparse MoE (SMoE) позволяют значительно ускорить вывод по сравнению с традиционными моделями аналогичного размера, сохраняя при этом сходное потребление видеопамяти. В модели MoE практически задействуются только активные параметры во время вывода, что позволяет ускорить процесс, несмотря на необходимость загрузки всей модели с разреженными параметрами. Так, в модели Mixtral 8x7B каждый из 8 экспертов содержит 5,6 млрд параметров (всего 46,7 млрд), но для вывода используются лишь 2 эксперта (12,8 млрд параметров), что иллюстрирует разницу между количеством загружаемых и активных параметров[34]. Современные эффективные модели, такие как DeepSeek V3 и DeepSeek R1, также опираются на Sparse MoE; они насчитывают примерно 671 млрд параметров, но используют из них лишь около 37 млрд одновременно, что обеспечивает в 18 раз меньшие вычислительные затраты без потерь в качестве. Reasoning-LLMReasoning-LLM (reasoning large language models) представляют собой специализированный класс больших языковых моделей, оптимизированных для выполнения задач, требующих сложного логического анализа и пошагового рассуждения. В отличие от стандартных LLM, которые генерируют непосредственные ответы на основе статистических языковых закономерностей, reasoning-LLM моделируют процесс последовательного логического вывода, аналогичный человеческому мышлению. Архитектурно reasoning-LLM базируются на стандартной Transformer-парадигме. Принципиальное отличие заключается не в трансформации базовой архитектуры, а в методах обучения и инференса, оптимизированных для формирования эксплицитных рассуждений. Главный внутренний механизм reasoning-LLM — генерация и использование цепочки мыслей (chain-of-thought, CoT), при которой, как показывает исследование работы модели OpenAI o1, проходят примерно 6 этапов размышления, включающих анализ задачи, декомпозицию на подзадачи, систематическое решение, рассмотрение альтернативных подходов, самопроверку и самокоррекцию. Данный механизм реализуется посредством специального обучения и настройки вывода, когда модель генерирует пару «решение + ответ», а цепочка рассуждений отделяется от основного ответа служебными токенами <think>…</think>[35]. Диффузионные БЯМВ начале 2025 года представлена модель LLaDA (Large Language Diffusion with masking), применяющая диффузионный подход к большим языковым моделям. Модель прошла предварительное обучение на 2,3 трлн токенов и этап supervised fine-tuning на 4,5 млн образцов. Базовая версия LLaDA с 8 млрд параметров показала превосходство над LLaMA 2 и сравнимые или лучшие результаты по сравнению с LLaMA 3 аналогичного размера на множестве задач. В задаче обратного дополнения стихов LLaDA превосходит модели GPT-4o и Qwen 2.5[21]. ОбучениеСамые ранние БЯМ обучались на корпусах, содержащих порядка нескольких миллиардов слов. Первоначальная версия GPT была обучена в 2018 году на BookCorpus, состоящем из 985 млн слов. В том же году BERT прошёл обучение на сочетании BookCorpus и английской Википедии, что соответствовало 3,3 млрд слов[24]. С тех пор учебные корпуса для БЯМ увеличились на порядки, достигнув сотен миллиардов или триллионов токенов[24]. Предварительное обучение БЯМ требует больших вычислительных ресурсов. Исследование 2020 года оценило стоимость обучения модели с 1,5 млрд параметров (на один-два порядка меньше, чем уровень техники в то время) в 1,6 млн $[36]. Анализ 2020 года показал, что возможности нейронных языковых моделей (измеряемые функцией потерь при обучении) плавно увеличивались по степенному закону от количества параметров, количества обучающих данных и вычислений, используемых для обучения[37][38]. Эти связи были проверены в широком диапазоне значений (до семи порядков), и не наблюдалось затухания отношения на верхнем конце диапазона (в том числе для размеров сети до триллионов параметров)[38]. В период с 2018 по 2020 год стандартный метод использования БЯМ для конкретной задачи NLP заключался в тонкой настройке модели с дополнительным обучением для конкретной задачи. Впоследствии обнаружилось, что более мощные БЯМ, такие как GPT-3, могут решать задачи без дополнительного обучения с помощью методов «подсказки», в которых решаемая задача представляется модели в виде текстовой подсказки, возможно, с некоторыми текстовыми примерами подобных задач и их решений[1]. Предварительное обучениеPretrain (предварительное обучение) — процесс первоначального обучения БЯМ на масштабном наборе текстовых данных с целью формирования общего понимания языка и его структуры. Во время этого этапа модель приобретает базовые знания и навыки распознавания закономерностей текста. Предварительно обученные модели способны эффективнее осваивать специальные задачи, благодаря способности использовать ранее усвоенные языковые представления. Производители открытых моделей публикуют на Hugging Face с пояснением «base» в названии, например, Mistral-Small-3.1-24B-Base-2503. Такие модели чаще всего используются для дальнейшего дообучения и настройки под более конкретные нужды. Продолжение предварительного обученияContinued pretrain (продолжение предварительного обучения, continued pretraining) — подход, при котором уже предварительно обученная языковая модель дополнительно обучается на специфических или целевых данных с применением того же способа обучения (непосредственного обучения языкового моделирования на неразмеченных текстах). Отличие от fine-tuning заключается в том, что при continued pretrain модель изучает структуру и особенности нового домена или корпуса данных без изменения задачи обучения. Continued pretrain применяется для специализации моделей общего назначения под конкретные домены, такие как медицина, юриспруденция или финансы, где требуется понимание специфической терминологии и структуры текста. Этот метод улучшает способность моделей распознавать контексты и семантические взаимосвязи в новых областях, адаптирует их к особенностям конкретных языков или диалектов. Continued pretrain также делает последующее дообучение (fine-tuning) более эффективным, так как модель уже адаптирована к специфике новых данных, что упрощает ее настройку для конкретных задач, включая классификацию, ответы на вопросы и генерацию текста. Тонкая настройкаТонкая настройка (fine-tuning, дообучение) — практика модификации существующей предварительно обученной языковой модели путём её обучения (под наблюдением) конкретной задаче (например, анализ настроений, распознавание именованных объектов или маркировка частей речи). Это форма передаточного обучения. Обычно это включает введение нового набора весов, связывающих последний слой языковой модели с выходными данными последующей задачи. Исходные веса языковой модели могут быть «заморожены», так что во время обучения изучается только новый слой весов, соединяющий их с выходными данными. В качестве альтернативы исходные веса могут получать небольшие обновления (возможно, с замороженными более ранними слоями)[24]. В БЯМ различают несколько видов fine-tuning по охвату параметров: полное дообучение всех параметров модели (full fine-tuning), дообучение Parameter-Efficient Fine-Tuning (PEFT): только специализированных слоёв или голов модели (adapter fine-tuning), LoRA (низкоранговая адаптация) — подход, использующий низкоранговые изменения параметров с минимальными затратами ресурсов, а также prompt tuning. Виды тонкой настройки в зависимости от цели:
Обучение в контексте (In-context learning)Обучение в контексте (In-context learning) — способность больших языковых моделей (LLM) выполнять новые задачи без явного дообучения, используя лишь текстовые подсказки, предоставленные в ходе взаимодействия. Вместо традиционного процесса дообучения на специализированных наборах данных, модель адаптируется к новой задаче, анализируя примеры и инструкции, представленные в текущем контексте. Вводные примеры представляют собой методику, позволяющую моделям обработки естественного языка быстро адаптироваться к поставленной задаче посредством текстового запроса. Этот подход включает подтипы, такие как zero-shot—решение задачи исключительно на основе текстовой инструкции без явных примеров, one-shot или few-shot—подход, при котором в запрос включаются один или несколько примеров решения аналогичных задач. ПодсказкаВ парадигме подсказок (prompting), популяризированной GPT-3[23], решаемая проблема формулируется с помощью текстовой подсказки, которую модель должна решить, предоставляя завершение (посредством статистического вывода). В «подсказке с несколькими выстрелами» подсказка включает небольшое количество примеров похожих пар (задача и решение). Например, задача анализа тональности маркировки тональности рецензии на фильм можно вызвать следующим образом[23]: Review: This movie stinks. Sentiment: negative Review: This movie is fantastic! Sentiment: Если модель выдаёт «положительно», значит, она правильно решила задачу. В подсказках с «нулевым выстрелом» примеры решения не предоставляются[36][42]. Примером с нулевой подсказкой для задачи с ответом на вопрос может быть «Кто написал книгу „Происхождение видов“?». Было показано, что малая производительность БЯМ позволяет достигать конкурентоспособных результатов в задачах обработки естественного языка, иногда превосходя предыдущие современные подходы к точной настройке. Примерами таких задач NLP являются перевод, ответы на вопросы, задачи с ограничениями, расшифровка слов и использование нового слова в предложении[42]. Создание и оптимизация таких подсказок называется инжинирингом подсказок и в настоящее время является активной областью исследований. Вывод (инференс)Вывод больших языковых моделей (англ. Large Language Model Inference) представляет собой стадию применения уже обученных моделей БЯМ к новым данным. На этом этапе модель генерирует текстовые ответы, переводит тексты, решает задачи программирования и осуществляет другие виды обработки естественного языка. Именно на этом этапе происходит реализация теоретического потенциала модели в практических приложениях, таких как чат-боты, голосовые помощники, автоматизированные переводчики и аналитические платформы. Вывод — операция, во время которой обученная модель последовательно обрабатывает входные данные пользователя (промпт, prompt) и, основываясь на усвоенных во время обучения шаблонах и закономерностях, по частям («токен за токеном») строит наиболее вероятный текстовый вывод. В отличие от ресурсоёмкого обучения, вывод реализуется многократно и зачастую в реальном времени. Параметры инференсаПри генерации БЯМ можно задавать различные технические параметры (в отличие от подсказок в запросе), которые существенно влияют на финальный результат.
LLM StreamingСтриминг (LLM Streaming) — метод передачи данных от БЯМ клиенту по мере их генерации, а не после завершения всего ответа. В отличие от стандартного подхода, при котором модель полностью формирует ответ и только затем отправляет его клиенту, стриминг позволяет постепенно отображать контент, улучшая пользовательский опыт. Необходимость в LLM Streaming возникает из-за того, что генерация сложных ответов крупными языковыми моделями может занимать значительное время (до минуты и более). Пользователи, ожидающие завершения генерации, могут потерять терпение и покинуть приложение. Стриминг позволяет избежать долгого ожидания, показывая пользователю ответ постепенно, по мере его формирования. Например, ChatGPT использует этот подход, отображая текст слово за словом. Технически LLM Streaming реализуется следующим образом: модель генерирует текст последовательно, токен за токеном (токен — минимальная единица текста). Система ожидает появления новых токенов, группирует их в небольшие порции и отправляет клиенту. Важно отметить, что стриминг в контексте БЯМ отличается от традиционного стриминга (например, потокового воспроизведения музыки или видео), поскольку здесь главная причина не размер данных, а постепенная скорость их генерации. Большинство инференс-движков и API-библиотек для работы c БЯМ поддерживает режим стриминга, который включается или выключается в зависимости от потребностей приложения. Инференс‑движкиИнференс‑движок (от англ. inference engine) — программное обеспечение, предназначенное для оптимизации процесса использования уже обученной БЯМ. В отличие от этапа обучения, направленного на выявление закономерностей и параметрического представления языка, инференс фокусируется на быстрой и эффективной выдаче результатов при обработке входных запросов пользователя. Основное требование к таким системам — обеспечение низкой задержки (latency) и высокой пропускной способности (throughput) при выполнении операций, что особенно важно для приложений с реальным временем общения (чат-боты, системы перевода, поисковые системы). Задача инференс-движка состоит в том, чтобы максимально эффективно использовать вычислительные ресурсы (процессорные ядра и графические ускорители, например GPU или TPU) и минимизировать задержку между поступлением запроса и выдачей результата. Для достижения этого используют ряд технологий и оптимизаций, таких как:
Примеры движков
Ключевые метрики и показателиДля оценки производительности inference-движков используются следующие метрики:
Оптимизация инференсаТехники оптимизации инференса — совокупность методов, направленных на повышение эффективности работы больших языковых моделей при сохранении качества генерируемого контента. Основные подходы включают квантизацию (снижение точности представления чисел), прунинг (удаление избыточных компонентов нейронной сети), дистилляцию знаний (передачу возможностей от большой модели к меньшей) и архитектурную оптимизацию (совершенствование структуры модели и механизмов внимания). Квантизация (квантование) — техника уменьшения размера модели БЯМ и вычислительных требований путем преобразования чисел высокой точности в форматы с пониженной точностью, обеспечивающая ускорение инференса и экономию памяти. Типы квантизации включают равномерную (с постоянным шагом дискретизации), симметричную (с отображением нуля) и асимметричную (с сопоставлением граничных значений диапазонов). Квантизация применяется только к весам или к весам и активациям одновременно. Современные методы включают: LLM.int8() с сохранением выбросов в высокой точности; GPTQ с послойной минимизацией ошибок; AWQ и OWQ с анализом важности весов; SpQR с комбинированным подходом к обработке выбросов. Реализация осуществляется через фреймворки ZeroQuant, ZeroQuantV2, SmoothQuant (перераспределяющий сложность между компонентами) и OmniQuant (с отдельными обучаемыми параметрами). Основные стратегии внедрения: квантизация с учетом обучения (QAT), интегрирующая эффекты квантизации в тренировку, и пост-тренировочная квантизация (PTQ), применяемая к предобученным моделям без значительного переобучения[43]. Прунинг нейронных сетей — совокупность методов сокращения размера моделей при сохранении их производительности. Структурированный прунинг удаляет целые компоненты (строки, столбцы, каналы), обеспечивая совместимость с аппаратными ускорителями, в то время как неструктурированный прунинг устраняет отдельные веса, достигая более высокой степени сжатия, но требуя специализированной аппаратной поддержки. К методам структурированного прунинга относятся LoRaPrune, сочетающий прунинг с Low-Rank Adaptation, и LLM-Pruner, реализующий трехэтапный процесс (обнаружение структур, оценка важности, восстановление производительности). Неструктурированный прунинг представлен SparseGPT, рассматривающим прунинг как задачу разреженной регрессии, методом Prune and Tune с пошаговым дообучением и Wanda, выполняющим zero-shot прунинг без переобучения. Современные техники включают прунинг на основе чувствительности и уникальности нейронов, а также подходы zero-shot (без дополнительного обучения) и retraining-based (с дообучением после прунинга), что особенно актуально для больших языковых моделей[43]. Дистилляция знаний — техника передачи информации от большой модели-учителя к меньшей модели-ученику с сохранением функциональных возможностей. В методологии выделяют два подхода: с открытой архитектурой, позволяющие получить доступ к внутренним параметрам модели-учителя, и с закрытой архитектурой, оперирующие только выходными данными. К первому типу относятся MiniLLM, оптимизирующий обратную KL-дивергенцию, On-Policy дистилляция, использующая выборку из модели-ученика, и инициализация на основе усечения, заимствующая слои из большей модели. Второй тип включает дистилляцию на основе обучения в контексте (Meta-ICT, Multitask-ICT), дистилляцию по цепочке мыслей (SCOTT, PaD, Distilling Step-by-Step) для передачи навыков рассуждения и дистилляцию на основе инструкций (Lion, LaMini-LM), развивающую способность следовать текстовым указаниям при решении разнообразных задач[43]. Архитектурная оптимизация — комплекс методов повышения эффективности БЯМ на основе трансформеров, направленных на снижение вычислительных ресурсов и памяти при сохранении качества генерации. Механизм внимания, являющийся ключевым элементом успеха трансформеров, требует значительных объемов памяти из-за необходимости хранения кеша ключей и значений для всех предыдущих токенов. Основные стратегии оптимизации включают: Paged Attention, разделяющий кеш на блоки в несмежных областях памяти; Windowed Attention, использующий скользящие окна для снижения вычислительной сложности; Attention Sinks, сохраняющий первые токены для предотвращения коллапса модели; Flash Attention, минимизирующий перемещение данных между устройствами путем перегруппировки операций; и Speculative Decoding, ускоряющий декодирование через параллельную генерацию с помощью вспомогательной модели, что позволяет достичь 2-3-кратного увеличения производительности без снижения качества выходных данных[43]. Проблемы и ограниченияНесмотря на существенный прогресс в развитии БЯМ, сообщается о ряде проблем и ограничений, присущих существующим архитектурам.
ОценкаПерплексияПерплексия (от англ. perplexity) — безразмерная величина в теории информации и обработке естественного языка, измеряющая эффективность вероятностной модели при предсказании данных. В языковых моделях, представляющих собой вероятностные распределения над текстами, перплексия оценивает способность модели предсказывать последовательности слов или токенов. Низкое значение перплексии свидетельствует о точном предсказании следующего элемента в последовательности, не отражая при этом фактической достоверности информации. Для измерения перплексии используются корпусы — структурированные коллекции текстов, на которых тестируются и обучаются языковые модели. Например, перплексия БЯМ для русского языка ruGPT-3 на тестовой выборке составляет для ruGPT-3 Large величину 13.6, для ruGPT-3 XL — 12.05[48][49] Языковые модели обычно оцениваются по их перплексии на тестовом наборе данных, однако этот метод становится проблематичным для более крупных моделей, которые, обучаясь на всё больших корпусах текста, с высокой вероятностью могут непреднамеренно включать в себя части любого заданного тестового набора[42]. БенчмаркиТестовые наборы данных и эталонные тесты (бенчмарки) представляют собой специализированные инструменты, разработанные для оценки функциональных возможностей языковых моделей при решении конкретных практических задач. Данные инструменты позволяют измерять различные аспекты работы моделей, включая общую эрудицию, наличие предвзятости в ответах, способность к логическим рассуждениям на основе здравого смысла и умение решать математические задачи. Производители и исследователи БЯМ соревнуются и сравнивают свои модели в большом числе разнообразных бенчмарков, результаты которых публикуются на специальных лидербордах LLM, в пресс-релизах с каждым выпуском новой модели, а также в репозиториях Hugging Face вместе с публикацией файлов самой модели. Основное ограничение бенчмарков заключается в быстром устаревании этих тестов: когда модель достигает почти идеальных результатов по определенному бенчмарку (явление, известное как «насыщение бенчмарка»), он перестает служить значимым индикатором прогресса, что требует разработки более сложных и нюансированных задач для дальнейшего развития возможностей моделей. Традиционные бенчмарки, такие как HellaSwag и MMLU (Massive Multitask Language Understanding), уже демонстрируют признаки насыщения, поскольку современные языковые модели достигают по ним высоких показателей точности. Рейтинги моделей
Бенчмарки инференса LLMПрограммы тестирования позволяют измерять скорость генерации БЯМ на конкретных аппаратных средствах.
Бенчмарки безопасности LLM
Бенчмарки способностей LLM
Бенчмарк ARC-AGI-2В марте 2025 года фонд ARC Prize Foundation представил бенчмарк ARC-AGI-2[50], оценивающий способность систем искусственного интеллекта (ИИ) к адаптации к новым задачам (флюидный интеллект) с использованием базовых знаний и строгих ограничений по эффективности ($0.42 на задачу); при этом текущие ведущие модели ИИ, такие как Google Gemini 2.0 Flash (1.3 % точности) и OpenAI GPT-4.5 (0 %), значительно уступают людям (в среднем 60 % точности). Конкурс ARC Prize 2025 с общим призовым фондом в 1 млн $ (крайний срок подачи моделей — 3 ноября 2025 года) нацелен на достижение 85 % точности системой ИИ на приватном наборе данных из 120 задач, что подчеркивает смещение фокуса исследований в области искусственного общего интеллекта (ИОИ) на адаптивность и практическую эффективность, а не на запоминание. ARC-AGI фокусируется на задачах, которые относительно просты для людей, но сложны или невозможны для ИИ. LLM-агенты![]() LLM-агенты (LLM Agents, агенты на основе больших языковых моделей) — программный комплекс, в котором БЯМ выступает в качестве центрального интеллектуального компонента, дополненного функциональными модулями в виде систем памяти, планирования этапов выполнения и инструментального взаимодействия с внешними ИТ-системами через выполнения кода, запуска подпрограмм, прямого обращения к базам данных или через API-запросы. Архитектурно LLM-агенты могут быть реализованы в различных конфигурациях: от простых одиночных агентов, ориентированных на конкретные задачи, до сложных мультиагентных систем с совместным или конкурентным взаимодействием. Несмотря на значительный потенциал в автоматизации когнитивных задач, LLM-агенты сталкиваются с рядом ограничений, включая проблемы контекстной памяти, непоследовательность результатов и сложности долгосрочного планирования, что обуславливает необходимость тщательного проектирования таких систем с учетом специфики прикладных задач[51][52]. Примеры LLM-агентов из исследований: диалоговые системы психологической поддержки[53], симуляторы экономического поведения[54], виртуальные города с агентами (Generative Agents[55], AgentSims[56]), системы для прогнозирования судебных решений[57], ассистенты для научных исследований[58], агент для химии, предназначенный для выполнения задач в областях органического синтеза, разработки лекарств и проектирования материалов (ChemCrow[59]), математические помощники (Math Agents), образовательные системы (EduChat, CodeHelp) и другие. Microsoft Copilot, работая на основе моделей GPT-4, DALL-E 3 и Prometheus, функционирует как ИИ-агент, интегрированный с продуктами Microsoft 365, Windows и GitHub, автоматизирующий рабочие процессы и генерирующий контент с возможностью создания пользовательских решений через Copilot Studio. БезопасностьБезопасность больших языковых моделей (LLM) представляет собой комплексную область исследований, посвященную анализу потенциальных рисков и разработке стратегий их минимизации при интеграции LLM в критически важные приложения. Данная область охватывает четыре основные категории проблем: несоответствие ценностей (модели могут генерировать контент, противоречащий человеческим ценностям), уязвимость к состязательным атакам (adversarial attacks), потенциальное злонамеренное использование и риски автономных систем искусственного интеллекта. Исследования также включают анализ безопасности LLM-агентов, роль интерпретируемости моделей в повышении безопасности, технологические дорожные карты, разрабатываемые ведущими компаниями и институтами, а также вопросы управления искусственным интеллектом, международного сотрудничества и регулирования. Для обеспечения безопасной интеграции LLM в общество необходим проактивный многоаспектный подход, объединяющий технические решения, этические принципы и эффективные механизмы регулирования, что способствует развитию искусственного интеллекта на благо человечества.[60]. Риски отравление данных и моделейОтравление данных и моделей — целенаправленная манипуляция тренировочными данными, используемыми при предварительном обучении, дообучении или создании векторных представлений в системах машинного обучения с целью внедрения уязвимостей, скрытых функций или смещений. Данный тип атак представляет серьезную угрозу целостности искусственного интеллекта, поскольку воздействует на фундаментальную способность модели делать корректные выводы. Последствия отравления включают деградацию производительности, генерацию предвзятого или токсичного контента, и компрометацию систем, использующих отравленные модели. Наиболее распространенные техники отравления — внедрение вредоносных данных в процессе обучения, использование методов «Split-View» и «Front running», а также имплементация скрытых бэкдоров, активируемых специфическими триггерами. Для защиты от данной угрозы применяют отслеживание происхождения данных, верификацию источников, изоляцию непроверенных входных данных, версионирование датасетов и тестирование устойчивости моделей к враждебным воздействиям[61]. Отравление данных в медицинских БЯМ представляет собой процесс внедрения недостоверной медицинской информации в наборы данных, используемые для обучения больших языковых моделей, что приводит к генерации потенциально вредного медицинского контента. Исследования показывают, что значительная часть (27,4 %) медицинских понятий в популярных обучающих наборах содержится в уязвимых веб-источниках без экспертной проверки, таких как Common Crawl. Эксперименты демонстрируют, что даже минимальное количество дезинформации (0,001 % от обучающих токенов) существенно увеличивает риск генерации вредных медицинских рекомендаций, при этом такое отравление остается незаметным для стандартных медицинских бенчмарков[62]. Риски длинного контекстаИсследования создателей бенчмарка LongSafety показывают значительный разрыв в показателях безопасности: модель Claude-3.5-haiku демонстрирует наивысший показатель SRlong (77,7 %), в то время как большинство других систем не превышает отметку в 55 %. Проприетарные модели систематически превосходят модели с открытым исходным кодом по всем параметрам безопасности длинного контекста. Все системы искусственного интеллекта эффективнее обрабатывают темы физического и психического вреда, но обнаруживают существенные недостатки при работе с чувствительными темами, где безопасность большинства моделей падает ниже 50 %. Сравнительный анализ выявляет существенное снижение показателей безопасности при переходе от коротких к длинным контекстам, причем высокая безопасность в работе с короткими текстами не гарантирует сохранения этого качества при обработке длинных данных, что обосновывает необходимость выделения безопасности длинного контекста в отдельную область оценки языковых моделей[63]. Риски безопасности при тонкой настройке LLMИсследования, проведенные в Стэнфордском институте искусственного интеллекта, ориентированного на человека (HAI), выявили значительные риски для безопасности, связанные с тонкой настройкой LLM. Даже небольшое количество вредоносных данных (всего 10 примеров) или использование безобидных наборов данных, направленных на повышение отзывчивости модели, может легко нарушить встроенные механизмы безопасности таких моделей, как ChatGPT-3.5 и Llama-2-Chat. В результате тонко настроенные модели могут начать отвечать на широкий спектр вредоносных запросов, включая запросы на создание вредоносного ПО и разжигание ненависти. Это сближает профиль риска закрытых моделей, доступных через API тонкой настройки, с профилем открытых моделей. Полученные данные свидетельствуют о том, что тонкая настройка часто приводит к удалению базовых защитных мер безопасности у выровненных языковых моделей. В настоящее время не существует надежных стратегий предотвращения вредоносной настройки моделей[64]. Нейроны безопасности как механизм защитыНейроны безопасности в больших языковых моделях представляют собой специализированные параметры нейронной сети, составляющие менее 1 % от общего числа параметров модели и отвечающие за предотвращение вредоносных запросов. Эти нейроны преимущественно расположены в слоях self-attention и коллективно функционируют на начальных уровнях сети. На основе исследований данных структур разработаны методы Safety Neuron Tuning (SN-Tune) и Robust Safety Neuron Tuning (RSN-Tune), позволяющие избирательно настраивать только эти нейроны, сохраняя общую производительность модели и целостность механизмов безопасности при тонкой настройке для специфических задач. Изучение нейронов безопасности открывает новые подходы к усовершенствованию больших языковых моделей путем целенаправленного воздействия на ключевые компоненты их архитектуры[65]. Список больших языковых моделейС мая 2023 года по февраль 2025 года такие компании, как OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, DeepSeek, Amazon, Mistral AI, Meta AI, Nvidia, Microsoft, AI21 Labs, Databricks' Mosaic ML, Cohere, Inflection AI, Stability AI, Technology Innovation Institute, Salesforce, EleutherAI и Stanford CRFM, выпустили множество LLM. Эти модели доступны через API, имеют открытый исходный код или являются собственностью разработчика, а их размеры варьируются от миллионов до триллионов параметров[66] [неавторитетный источник].
ПримечанияКомментарии
Источники
|
Portal di Ensiklopedia Dunia