Дообучение моделей: короткий гайд

Дообучение звучит как способ «сделать модель своей»: взять открытую LLM, обучить на ваших данных — и получить эксперта вашего домена.
Дообучение решает узкий, но реальный класс задач: когда модель должна работать в закрытом периметре на доступном железе, без облака и без поиска по корпусу на каждый запрос.
За его пределами дешевле и надёжнее облако с RAG или дисциплина llm-wiki.
Этот текст — про то, как отличить одно от другого, без лишней теории и без выдуманной экономики.
Это разбор одного способа дать LLM ваши знания из общего кластера.
Карта всех способов и того, как они сочетаются, — в обзоре «Как дать LLM ваши знания».

Главное

Дообучение меняет веса модели. Знание и поведение «вшиваются» внутрь модели, а не подаются на вход — этим оно отличается от RAG (извлечение в рантайме) и llm-wiki (компиляция знаний в читаемый корпус).
Главный выигрыш — не «ум», а место исполнения: маленькая дообученная модель работает локально, офлайн, в периметре, на доступном железе, с низкой задержкой и без большого промпта на каждый вызов.
Главная плата — заморозка знаний: то, что вшито, устаревает; обновить один факт нельзя «переиндексацией», нужно переучивать.
Дообучение оправдано при приватности/air-gap, edge/офлайн, высоком объёме вызовов и стабильном узком домене со специфичным поведением. В остальных случаях — облако + RAG/llm-wiki.
Частый правильный ответ — оба: дообучить под домен и поведение, RAG — под свежие факты.

Что такое дообучение

У базовой LLM знание и манера ответа закодированы в весах — миллиардах чисел, настроенных на огромном общем корпусе.

Дообучение (fine-tuning) продолжает эту настройку на ваших данных: модель досматривает примеры из вашего домена и сдвигает веса так, чтобы отвечать ближе к ним.

Ключевое отличие от двух других подходов — где живёт знание.

RAG оставляет веса нетронутыми и на каждом запросе подкладывает в контекст только релевантные найденные фрагменты — это и есть его токен-экономия; знание остаётся снаружи, в хранилище. llm-wiki тоже не трогает веса: знание заранее компилируется в связный набор коротких markdown-файлов (README ведёт к нужному файлу, один факт в одном месте, git-версии), и агент читает карту проекта, а не ищет случайные чанки; знание остаётся снаружи, в структурированном корпусе.

Дообучение вшивает знание и поведение внутрь весов — на рантайме нет ни поиска, ни большого промпта, модель отвечает сразу.

Есть и третий внешний слой — граф знаний / GraphRAG: для глобальных и многошаговых вопросов, где обычный RAG слаб, строят граф сущностей и связей и отвечают обходом графа. А для маленького стабильного знания под одну задачу иногда достаточно просто вставить его в промпт (in-context), без всякой инфраструктуры — правда, тогда оно жжёт токены на каждом вызове.

Внешних слоёв, таким образом, не два, а несколько; дообучение стоит особняком — оно единственное меняет саму модель.

Виды дообучения — по глубине вмешательства

01
SFT / instruction-tuning
Адаптация под поведение: учим модель формату, стилю и манере рассуждения домена на парах «вход → желаемый ответ». Это про то, как отвечать.
02
LoRA / адаптеры
Лёгкое дообучение: не трогаем основную массу весов, обучаем небольшой «адаптер» поверх. Дешевле, быстрее, легче держать несколько версий под разные задачи на одной базовой модели.
03
Продолженный претрейн
Адаптация под домен: дольше «доучиваем» модель на большом объёме доменных текстов, чтобы она впитала лексику и фактуру отрасли. Тяжелее всего, нужен самый большой и чистый корпус.

Что дообучение даёт

Для большинства прикладных задач речь идёт о первых двух видах — поведение и формат, иногда с лёгким адаптером.
Продолженный претрейн — отдельный, дорогой разговор.
Сильные стороны дообучения — это не «модель становится умнее».
Это конкретные следствия того, что знание оказалось внутри весов.

Три следствия, а не три прилагательных

Исполнение в периметре

Маленькая дообученная open-source модель работает локально и офлайн — на доступном железе, вплоть до edge-устройств, без выхода в облако. Данные не покидают контур; систему и веса вы забираете себе, без привязки к облачному вендору и его доступности. Это аргумент там, где приватность не пожелание, а требование.

Низкая задержка и дешёвый вызов

Нет поиска по хранилищу и нет большого промпта на каждый запрос — знание уже в весах. Меньше токенов на вызов, меньше латентность. При высоком объёме вызовов экономику определяет утилизация железа и отсутствие повторной облачной платы за каждый вызов — ниже ИТ-бюджет на инференс при высоком потоке (механизм — в разделе про экономику).

Поведение, а не только факты

Модель перенимает стиль рассуждения домена — как структурировать ответ, на что смотреть в первую очередь, каким языком отвечать. RAG и промпт тоже влияют на стиль через примеры, но платят за это контекстом на каждом вызове; дообучение фиксирует манеру в весах — стабильно и без расхода токенов.

Пример: ИИ-юрист

Модель, дообученная на корпусе однотипных договоров компании, рассуждает как профильный юрист этой компании: знает структуру их договоров, типовые формулировки, на что смотреть в первую очередь.
Она работает в периметре — договоры не уходят в облако — и не требует RAG на рантайме.
Два условия, без которых пример не работает. Первое: паттерны и стиль должны быть стабильны.
Если формы договоров и трактовки меняются каждый месяц, преимущество тает, и вопрос смещается к RAG/llm-wiki поверх живого корпуса. Второе: дообучение фиксирует манеру и структуру рассуждения, но не гарантирует фактическую и правовую корректность — её всё равно проверяет человек.

Дообучение покупает не интеллект, а место и манеру исполнения — модель отвечает локально и без подсказки.

Чем за это платишь

У вшитого знания есть зеркальная цена. Её стоит понимать до старта проекта, а не после.

Чем платишь за дообучение

Дорого и долго учить. Нужны вычисления, инженерное время и итерации обучения — это не «загрузил файлы и готово».
Знание заморожено на момент обучения. Дообученная модель знает мир таким, каким он был в датасете; поменялась реальность — модель об этом не узнает, пока её не переучат.
Нужен качественный размеченный датасет. Поведение модели — следствие данных; чистого, согласованного, репрезентативного датасета у большинства компаний просто нет, а собрать его — отдельный проект.
Тяжело обновить один факт. В RAG это переиндексация затронутых документов (обычно быстро), в дообученной модели — повод для нового цикла обучения.
Риск катастрофического забывания и переобучения. Дообучая под узкое, можно «вымыть» часть общих способностей или научить модель воспроизводить датасет вместо того, чтобы обобщать.
Хуже аудит «откуда ответ». RAG показывает источник чанка; дообученная модель отвечает «из весов» — проследить, почему именно так, сложнее.

Когда брать дообучение, а когда не нужно

Здесь стоит сказать прямо: дообучение нужно реже, чем кажется. Большинству задач достаточно облака с RAG или дисциплины llm-wiki — и это не компромисс, а правильный выбор по стоимости владения. Самый недооценённый пункт в минусах — заморозка: дообучение наказывает за частые изменения, чем подвижнее знание, тем чаще придётся переучивать и тем быстрее обесценивается вложение в обучение.

Подберем материалы под вашу задачу

Почта clients@kt.team Telegram @kt_team_blog

Дообучение: брать или не нужно

Берём дообучение

Приватность / air-gap: данные физически не должны покидать периметр.
Edge / офлайн / слабая связь: модель должна работать без облака и без стабильного канала.
Высокий объём вызовов, где стоимость контекста доминирует: убрать большой промпт/RAG с рантайма — главная экономия.
Стабильный узкий домен + специфичное поведение или формат: знание меняется редко, а манера ответа важна.
Критична задержка: лишний шаг поиска недопустим.

Хватит облака + RAG/llm-wiki

Знание часто меняется (цены, каталог, документация, регламенты): переиндексировать дешевле, чем переучивать.
Нужны ссылки на источник и аудит ответа.
Корпус большой, а на каждый запрос нужен лишь срез.
Нет чистого размеченного датасета (у большинства его нет).
Нужна быстрая правка одного факта без цикла обучения.

Чаще всего ответ — оба слоя

Самый частый практический ответ — оба слоя.
Дообучить модель под доменное поведение и формат, RAG — под свежие факты.
Тогда вшито то, что стабильно (манера, структура, лексика), а снаружи живёт то, что меняется (цифры, документы, регламенты).
Дерево ниже помогает определить, в какую сторону клонит конкретная задача.

Как выбрать: дерево решения

Что важнее в задаче?

Признак

Приватность / air-gap, edge/офлайн, высокий объём вызовов или критична задержкаведёт к дообучению

Признак

Стабильный узкий домен + специфичное поведение или форматведёт к дообучению

Признак

Знание часто меняется, нужны ссылки и аудит, нет датасетаведёт к облаку + RAG

Решение

Дообучениечасто + RAG на свежие факты

Облако + RAG / llm-wikiпереиндексация вместо переобучения

Признаки приватности, edge/офлайн, высокого объёма вызовов или задержки склоняют к дообучению; стабильный узкий домен со специфичным поведением — тоже. Подвижное знание, требование ссылок и аудита или отсутствие чистого датасета склоняют к облаку с RAG/llm-wiki. На практике эти ветки часто совмещаются: дообученное поведение плюс RAG на свежие факты.

Три отрасли, три развилки

Один и тот же вопрос — «дообучать или нет» — в реальных контурах решается по-разному внутри одной компании. Разделитель почти всегда один: как часто меняется знание и есть ли связь.

Заводы, стройка, ритейл

Заводы

Ассистент у производственной линии: цех без стабильной сети, требование air-gap, слабое железо. Стабильные процедуры безопасности и работы с оборудованием → дообучить малую локальную модель, она работает офлайн в периметре. Но техрегламенты и мануалы, которые правят регулярно → выносим в RAG/llm-wiki, чтобы не переучивать модель на каждое изменение.

Стройка

Планшет на объекте, где связи может не быть: нормы, охрана труда, типовые процедуры стабильны → дообученная локальная модель уместна. А чертежи и спецификации меняются чуть ли не ежедневно — вшивать их в веса бессмысленно, это работа для RAG поверх живого корпуса документов.

Ритейл

Каталог и цены меняются постоянно — для этой подвижной части дообучение нерационально: переиндексация в RAG дешевле любого цикла обучения. Зато стабильная политика возврата, бренд-голос и офлайн-POS на кассе на краю сети → дообучение оправдано: поведение зафиксировано, работает без облака.

Граница — по скорости изменения, не по индустрии

Вывод не «дообучение для завода, RAG для ритейла». Вывод: в каждой отрасли стабильное поведение тяготеет к весам, а подвижные факты — к внешнему слою. Граница проходит не по индустрии, а по скорости изменения знания.

Дообучение, RAG и llm-wiki рядом

Критерий	Дообучение	RAG	llm-wiki
Коротко	знание вшито в веса	поиск по хранилищу в рантайме	знание скомпилировано в читаемый корпус
Свежесть знаний	заморожено на момент обучения	мгновенная (переиндексация)	по коммиту в репозиторий
Приватность / локальность	сильная сторона: офлайн в периметре на доступном железе	зависит от инфраструктуры хранилища	зависит от того, где лежит корпус
Обновляемость одного факта	тяжело (новый цикл обучения)	легко (переиндексировать затронутые документы)	легко (правка одного файла)
Нужен датасет	да, качественный размеченный	нет, нужен корпус для индекса	нет, нужна дисциплина структуры
Аудит / ссылки на источник	слабо («из весов»)	сильно (ссылка на чанк)	сильно (ссылка на файл)
Токены на вызов	минимум (знание в весах)	средне (тащим только релевантное)	от чтения README-карты до нужной сводки — структура минимизирует объём

Читать таблицу по строкам «Свежесть» и «Обновляемость»: если знание подвижно — внешние слои выигрывают; если стабильно и должно жить в периметре без облака — выигрывает дообучение. Подробный разбор RAG — в материале об инструменте RAG; подход llm-wiki «No RAG» как корпоративная память — в Sloy.

Экономика: считаем утилизацию, а не цену токена

Соблазнительно сравнить «дообучение vs облако» по цене за токен.
Это неверная ось. У дообученной модели в периметре нет облачного тарифа за токен — стоимость вызова прячется в утилизацию и эксплуатацию железа.
Экономику on-prem решает утилизация GPU, а не цена токена: простаивающий ускоритель дорог при любой «дешёвой» модели, а хорошо загруженный окупает себя при высоком потоке вызовов.
Поэтому рублёвых сумм за железо или инференс мы здесь сознательно не печатаем — они зависят от вашей конфигурации, профиля нагрузки и горизонта владения.
Стоимость контура считается под задачу.

On-prem выигрывает на утилизации, не на цене токена

У дообученной модели в периметре нет повторяющейся облачной платы за каждый вызов; выигрыш или проигрыш по деньгам решает то, насколько плотно загружено железо, а не «дешевизна» токена.

под конфигурацию стоимость контура = железо × утилизация GPU + эксплуатация, считается под вашу задачу

простаивающий GPU дорог при любой модели; окупается он только при стабильно высоком потоке вызовов
конкретные рубли за железо и инференс зависят от нагрузки и горизонта владения — поэтому их считают, а не печатают
прикинуть конфигурацию и сравнить с облаком можно в калькуляторе

Посмотреть расчёт →

Что делаем мы

Да, KT.Team дообучает модели — в том числе так, чтобы модель работала локально, на доступном железе и внутри вашего периметра.
Это уместно, когда задача попала в «правую» ветку дерева: приватность, edge/офлайн, высокий объём вызовов, стабильный домен со специфичным поведением.
Поскольку речь об открытых моделях в вашем контуре, систему и веса вы забираете себе — без привязки к облачному вендору, его ценнику и его доступности. И так же честно: если знание у вас подвижно, датасета нет, нужны ссылки и аудит — вам это не нужно.
Тогда мы соберём облако с RAG или дисциплину llm-wiki, и это будет дешевле во владении и проще в эксплуатации.
Часто итог — комбинация: дообученное поведение плюс RAG на свежие факты.
Если данные нужно держать под 152-ФЗ и обезличивать на входе в модель — это слой LLM Gateway, он работает и с дообученной, и с облачной моделью.
Заходим короткими итерациями: сначала лёгкий адаптер и замер эффекта, потом расширение — чтобы вы платили за результат, а не за обещание.

Дообучение под домен и периметр

Модель, которая рассуждает как ваш специалист — и работает в вашем контуре

Локально · офлайн · в периметре

Подберём, что вшивать в веса, а что оставить во внешнем слое, соберём датасет и контур — и честно скажем, если стандартного облака с RAG вам достаточно.

Спроектировать контур дообучения

Куда дальше

Полная карта способов дать LLM знания и как они сочетаются — «Как дать LLM ваши знания».
Понимание против исполнения, веса против контекста — «Линза Карпатого». RAG как механизм извлечения в рантайме — инструмент RAG.
Корпоративная память по принципу «No RAG» — Sloy.
Модели под 152-ФЗ и обезличивание на входе — LLM Gateway.
Внедрение ИИ короткими итерациями — для бизнеса.
Цифры по стоимости моделей и калькулятор контуров — разбор LLM 2026.

Источники

Дата проверки: 30.06.2026

Дообучение моделей: короткий гайд

Что такое дообучение

Виды дообучения — по глубине вмешательства

SFT / instruction-tuning

LoRA / адаптеры

Продолженный претрейн

Что дообучение даёт

Три следствия, а не три прилагательных

Исполнение в периметре

Низкая задержка и дешёвый вызов

Поведение, а не только факты

Пример: ИИ-юрист

Чем за это платишь

Чем платишь за дообучение

Когда брать дообучение, а когда не нужно

Подберем материалы под вашу задачу

Дообучение: брать или не нужно

Берём дообучение

Хватит облака + RAG/llm-wiki

Чаще всего ответ — оба слоя

Как выбрать: дерево решения

Три отрасли, три развилки

Заводы, стройка, ритейл

Заводы

Стройка

Ритейл

Граница — по скорости изменения, не по индустрии

Дообучение, RAG и llm-wiki рядом

Экономика: считаем утилизацию, а не цену токена

On-prem выигрывает на утилизации, не на цене токена

Что делаем мы

Модель, которая рассуждает как ваш специалист — и работает в вашем контуре

Куда дальше

Источники

Обсудить статью: Дообучение моделей: короткий гайд

Продолжить по теме

Похожие кейсы

Сервис доставки продуктов по подписке для Danone

Brandquad PIM для «Кампари Рус»

Akeneo PIM для B2B-магазина Norgau

Связанные решения

Статьи по теме

Видео по теме

Новости по теме