Дообучение моделей: короткий гайд

Что такое дообучение LLM, плюсы и минусы, когда оно оправдано (заводы, стройка, ритейл), а когда хватит облака с RAG или llm-wiki.

  • Что такое дообучение
  • Что дообучение даёт
  • Чем за это платишь
  • Когда брать дообучение, а когда не нужно
  1. Дообучение звучит как способ «сделать модель своей»: взять открытую LLM, обучить на ваших данных — и получить эксперта вашего домена.

  2. Дообучение решает узкий, но реальный класс задач: когда модель должна работать в закрытом периметре на доступном железе, без облака и без поиска по корпусу на каждый запрос.

  3. За его пределами дешевле и надёжнее облако с RAG или дисциплина llm-wiki.

  4. Этот текст — про то, как отличить одно от другого, без лишней теории и без выдуманной экономики.

  5. Это разбор одного способа дать LLM ваши знания из общего кластера.

  6. Карта всех способов и того, как они сочетаются, — в обзоре «Как дать LLM ваши знания».

Что такое дообучение

У базовой LLM знание и манера ответа закодированы в весах — миллиардах чисел, настроенных на огромном общем корпусе.

Дообучение (fine-tuning) продолжает эту настройку на ваших данных: модель досматривает примеры из вашего домена и сдвигает веса так, чтобы отвечать ближе к ним.

Ключевое отличие от двух других подходов — где живёт знание.

RAG оставляет веса нетронутыми и на каждом запросе подкладывает в контекст только релевантные найденные фрагменты — это и есть его токен-экономия; знание остаётся снаружи, в хранилище. llm-wiki тоже не трогает веса: знание заранее компилируется в связный набор коротких markdown-файлов (README ведёт к нужному файлу, один факт в одном месте, git-версии), и агент читает карту проекта, а не ищет случайные чанки; знание остаётся снаружи, в структурированном корпусе.

Дообучение вшивает знание и поведение внутрь весов — на рантайме нет ни поиска, ни большого промпта, модель отвечает сразу.

Есть и третий внешний слой — граф знаний / GraphRAG: для глобальных и многошаговых вопросов, где обычный RAG слаб, строят граф сущностей и связей и отвечают обходом графа. А для маленького стабильного знания под одну задачу иногда достаточно просто вставить его в промпт (in-context), без всякой инфраструктуры — правда, тогда оно жжёт токены на каждом вызове.

Внешних слоёв, таким образом, не два, а несколько; дообучение стоит особняком — оно единственное меняет саму модель.

Виды дообучения — по глубине вмешательства

  1. 01

    SFT / instruction-tuning

    Адаптация под поведение: учим модель формату, стилю и манере рассуждения домена на парах «вход → желаемый ответ». Это про то, как отвечать.

  2. 02

    LoRA / адаптеры

    Лёгкое дообучение: не трогаем основную массу весов, обучаем небольшой «адаптер» поверх. Дешевле, быстрее, легче держать несколько версий под разные задачи на одной базовой модели.

  3. 03

    Продолженный претрейн

    Адаптация под домен: дольше «доучиваем» модель на большом объёме доменных текстов, чтобы она впитала лексику и фактуру отрасли. Тяжелее всего, нужен самый большой и чистый корпус.

Что дообучение даёт

  1. Для большинства прикладных задач речь идёт о первых двух видах — поведение и формат, иногда с лёгким адаптером.

  2. Продолженный претрейн — отдельный, дорогой разговор.

  3. Сильные стороны дообучения — это не «модель становится умнее».

  4. Это конкретные следствия того, что знание оказалось внутри весов.

Три следствия, а не три прилагательных

Исполнение в периметре

Маленькая дообученная open-source модель работает локально и офлайн — на доступном железе, вплоть до edge-устройств, без выхода в облако. Данные не покидают контур; систему и веса вы забираете себе, без привязки к облачному вендору и его доступности. Это аргумент там, где приватность не пожелание, а требование.

Низкая задержка и дешёвый вызов

Нет поиска по хранилищу и нет большого промпта на каждый запрос — знание уже в весах. Меньше токенов на вызов, меньше латентность. При высоком объёме вызовов экономику определяет утилизация железа и отсутствие повторной облачной платы за каждый вызов — ниже ИТ-бюджет на инференс при высоком потоке (механизм — в разделе про экономику).

Поведение, а не только факты

Модель перенимает стиль рассуждения домена — как структурировать ответ, на что смотреть в первую очередь, каким языком отвечать. RAG и промпт тоже влияют на стиль через примеры, но платят за это контекстом на каждом вызове; дообучение фиксирует манеру в весах — стабильно и без расхода токенов.

Пример: ИИ-юрист

  1. Модель, дообученная на корпусе однотипных договоров компании, рассуждает как профильный юрист этой компании: знает структуру их договоров, типовые формулировки, на что смотреть в первую очередь.

  2. Она работает в периметре — договоры не уходят в облако — и не требует RAG на рантайме.

  3. Два условия, без которых пример не работает. Первое: паттерны и стиль должны быть стабильны.

  4. Если формы договоров и трактовки меняются каждый месяц, преимущество тает, и вопрос смещается к RAG/llm-wiki поверх живого корпуса. Второе: дообучение фиксирует манеру и структуру рассуждения, но не гарантирует фактическую и правовую корректность — её всё равно проверяет человек.

Дообучение покупает не интеллект, а место и манеру исполнения — модель отвечает локально и без подсказки.

Чем за это платишь

У вшитого знания есть зеркальная цена. Её стоит понимать до старта проекта, а не после.

Чем платишь за дообучение

Когда брать дообучение, а когда не нужно

Здесь стоит сказать прямо: дообучение нужно реже, чем кажется. Большинству задач достаточно облака с RAG или дисциплины llm-wiki — и это не компромисс, а правильный выбор по стоимости владения. Самый недооценённый пункт в минусах — заморозка: дообучение наказывает за частые изменения, чем подвижнее знание, тем чаще придётся переучивать и тем быстрее обесценивается вложение в обучение.

Подберем материалы под вашу задачу

Дообучение: брать или не нужно

Берём дообучение

  • Приватность / air-gap: данные физически не должны покидать периметр.
  • Edge / офлайн / слабая связь: модель должна работать без облака и без стабильного канала.
  • Высокий объём вызовов, где стоимость контекста доминирует: убрать большой промпт/RAG с рантайма — главная экономия.
  • Стабильный узкий домен + специфичное поведение или формат: знание меняется редко, а манера ответа важна.
  • Критична задержка: лишний шаг поиска недопустим.

Хватит облака + RAG/llm-wiki

  • Знание часто меняется (цены, каталог, документация, регламенты): переиндексировать дешевле, чем переучивать.
  • Нужны ссылки на источник и аудит ответа.
  • Корпус большой, а на каждый запрос нужен лишь срез.
  • Нет чистого размеченного датасета (у большинства его нет).
  • Нужна быстрая правка одного факта без цикла обучения.

Чаще всего ответ — оба слоя

  1. Самый частый практический ответ — оба слоя.

  2. Дообучить модель под доменное поведение и формат, RAG — под свежие факты.

  3. Тогда вшито то, что стабильно (манера, структура, лексика), а снаружи живёт то, что меняется (цифры, документы, регламенты).

  4. Дерево ниже помогает определить, в какую сторону клонит конкретная задача.

Как выбрать: дерево решения

Что важнее в задаче?

Признак

Приватность / air-gap, edge/офлайн, высокий объём вызовов или критична задержкаведёт к дообучению

Признак

Стабильный узкий домен + специфичное поведение или форматведёт к дообучению

Признак

Знание часто меняется, нужны ссылки и аудит, нет датасетаведёт к облаку + RAG

Решение

Дообучениечасто + RAG на свежие факты
Облако + RAG / llm-wikiпереиндексация вместо переобучения
Признаки приватности, edge/офлайн, высокого объёма вызовов или задержки склоняют к дообучению; стабильный узкий домен со специфичным поведением — тоже. Подвижное знание, требование ссылок и аудита или отсутствие чистого датасета склоняют к облаку с RAG/llm-wiki. На практике эти ветки часто совмещаются: дообученное поведение плюс RAG на свежие факты.

Три отрасли, три развилки

Один и тот же вопрос — «дообучать или нет» — в реальных контурах решается по-разному внутри одной компании. Разделитель почти всегда один: как часто меняется знание и есть ли связь.

Заводы, стройка, ритейл

Заводы

Ассистент у производственной линии: цех без стабильной сети, требование air-gap, слабое железо. Стабильные процедуры безопасности и работы с оборудованием → дообучить малую локальную модель, она работает офлайн в периметре. Но техрегламенты и мануалы, которые правят регулярно → выносим в RAG/llm-wiki, чтобы не переучивать модель на каждое изменение.

Стройка

Планшет на объекте, где связи может не быть: нормы, охрана труда, типовые процедуры стабильны → дообученная локальная модель уместна. А чертежи и спецификации меняются чуть ли не ежедневно — вшивать их в веса бессмысленно, это работа для RAG поверх живого корпуса документов.

Ритейл

Каталог и цены меняются постоянно — для этой подвижной части дообучение нерационально: переиндексация в RAG дешевле любого цикла обучения. Зато стабильная политика возврата, бренд-голос и офлайн-POS на кассе на краю сети → дообучение оправдано: поведение зафиксировано, работает без облака.

Граница — по скорости изменения, не по индустрии

Вывод не «дообучение для завода, RAG для ритейла». Вывод: в каждой отрасли стабильное поведение тяготеет к весам, а подвижные факты — к внешнему слою. Граница проходит не по индустрии, а по скорости изменения знания.

Дообучение, RAG и llm-wiki рядом

КритерийДообучениеRAGllm-wiki
Короткознание вшито в весапоиск по хранилищу в рантаймезнание скомпилировано в читаемый корпус
Свежесть знанийзаморожено на момент обучениямгновенная (переиндексация)по коммиту в репозиторий
Приватность / локальностьсильная сторона: офлайн в периметре на доступном железезависит от инфраструктуры хранилищазависит от того, где лежит корпус
Обновляемость одного фактатяжело (новый цикл обучения)легко (переиндексировать затронутые документы)легко (правка одного файла)
Нужен датасетда, качественный размеченныйнет, нужен корпус для индексанет, нужна дисциплина структуры
Аудит / ссылки на источникслабо («из весов»)сильно (ссылка на чанк)сильно (ссылка на файл)
Токены на вызовминимум (знание в весах)средне (тащим только релевантное)от чтения README-карты до нужной сводки — структура минимизирует объём

Читать таблицу по строкам «Свежесть» и «Обновляемость»: если знание подвижно — внешние слои выигрывают; если стабильно и должно жить в периметре без облака — выигрывает дообучение. Подробный разбор RAG — в материале об инструменте RAG; подход llm-wiki «No RAG» как корпоративная память — в Sloy.

Экономика: считаем утилизацию, а не цену токена

  1. Соблазнительно сравнить «дообучение vs облако» по цене за токен.

  2. Это неверная ось. У дообученной модели в периметре нет облачного тарифа за токен — стоимость вызова прячется в утилизацию и эксплуатацию железа.

  3. Экономику on-prem решает утилизация GPU, а не цена токена: простаивающий ускоритель дорог при любой «дешёвой» модели, а хорошо загруженный окупает себя при высоком потоке вызовов.

  4. Поэтому рублёвых сумм за железо или инференс мы здесь сознательно не печатаем — они зависят от вашей конфигурации, профиля нагрузки и горизонта владения.

  5. Стоимость контура считается под задачу.

On-prem выигрывает на утилизации, не на цене токена

Что делаем мы

  1. Да, KT.Team дообучает модели — в том числе так, чтобы модель работала локально, на доступном железе и внутри вашего периметра.

  2. Это уместно, когда задача попала в «правую» ветку дерева: приватность, edge/офлайн, высокий объём вызовов, стабильный домен со специфичным поведением.

  3. Поскольку речь об открытых моделях в вашем контуре, систему и веса вы забираете себе — без привязки к облачному вендору, его ценнику и его доступности. И так же честно: если знание у вас подвижно, датасета нет, нужны ссылки и аудит — вам это не нужно.

  4. Тогда мы соберём облако с RAG или дисциплину llm-wiki, и это будет дешевле во владении и проще в эксплуатации.

  5. Часто итог — комбинация: дообученное поведение плюс RAG на свежие факты.

  6. Если данные нужно держать под 152-ФЗ и обезличивать на входе в модель — это слой LLM Gateway, он работает и с дообученной, и с облачной моделью.

  7. Заходим короткими итерациями: сначала лёгкий адаптер и замер эффекта, потом расширение — чтобы вы платили за результат, а не за обещание.

Дообучение под домен и периметр

Модель, которая рассуждает как ваш специалист — и работает в вашем контуре

Локально · офлайн · в периметре

Подберём, что вшивать в веса, а что оставить во внешнем слое, соберём датасет и контур — и честно скажем, если стандартного облака с RAG вам достаточно.

Спроектировать контур дообучения

Куда дальше

  1. Полная карта способов дать LLM знания и как они сочетаются — «Как дать LLM ваши знания».

  2. Понимание против исполнения, веса против контекста — «Линза Карпатого». RAG как механизм извлечения в рантайме — инструмент RAG.

  3. Корпоративная память по принципу «No RAG» — Sloy.

  4. Модели под 152-ФЗ и обезличивание на входе — LLM Gateway.

  5. Внедрение ИИ короткими итерациями — для бизнеса.

  6. Цифры по стоимости моделей и калькулятор контуров — разбор LLM 2026.

Источники

Дата проверки: 30.06.2026

Обсудить статью: Дообучение моделей: короткий гайд

Отправить через: