AI

Дообучение моделей под задачи компании

Дообучение моделей (fine-tuning, LoRA) в KT.Team: когда промпта и RAG мало, как готовим датасет и меряем качество до/после, где живёт модель — контур и 152-ФЗ.

Наши клиенты

Клиенты и партнеры

Как выбираем механизм: промпт → RAG → дообучение

Дешёвый механизм первым, дообучение — по доказанному пределу

Дешёвые механизмы

Промпт и правиладни
RAG на ваших документахбаза знаний со ссылкой на источник

Проверка

Evals на рабочих задачахметрики качества на контрольном наборе

Если предел доказан

LoRA-дообучение открытой моделидатасет из ваших данных
Дообучение включается только там, где дешёвые механизмы упёрлись в качество на доменных данных — так мы не переизобретаем велосипеды

Когда дообучение оправдано — и когда нет

Когда оправдано

  • Модель должна говорить терминологией и стилем вашего домена: юридические формулировки, техрегламенты, отраслевой жаргон.
  • Классификация, извлечение и разметка на ваших данных, где промпт и RAG стабильно не дотягивают до нужной точности.
  • Нужен стабильный формат ответа для интеграции: модель отвечает строго по схеме, а не «как получится».
  • Модель работает локально в закрытом контуре, и важно выжать качество из компактной открытой модели.

Когда не нужно

  • Знания меняются каждую неделю — свежие факты это задача RAG, а не весов модели.
  • Рабочих примеров мало: на десятках пар «вход → ответ» дообучение не улучшит качество измеримо.
  • Задача решается промптом или несколькими примерами в контексте — дешёвый механизм ещё не исчерпан.
  • Нужен «чат обо всём» без измеримой метрики качества — не с чего фиксировать критерий приёмки.

Оценить, где ИИ даст эффект в вашем процессе

Что делаем: датасет, LoRA-адаптеры, метрики

  1. 01

    Разбор процесса и evals

    Фиксируем задачу и собираем контрольный набор рабочих примеров. Меряем базовое качество промпта и RAG — это точка отсчёта.

  2. 02

    Датасет из рабочих данных

    Собираем и чистим пары «вход → эталонный ответ» из документов, диалогов и учётных систем. Персональные данные обезличиваются до передачи в модель.

  3. 03

    LoRA-дообучение открытой модели

    Адаптеры вместо полного дообучения: быстрее и дешевле, процесс воспроизводим, а датасет и веса остаются собственностью компании.

  4. 04

    Замер до и после

    Та же метрика на том же контрольном наборе. Улучшение на evals — критерий приёмки, а не субъективное «стало лучше».

  5. 05

    Передача в эксплуатацию

    Модель встаёт в ваш контур, команда получает процесс обновления датасета и повторного дообучения — без зависимости от нас.

Где живёт модель: ваш контур и 152-ФЗ

Свой контур

Открытая модель с LoRA-адаптером работает на ваших мощностях — данные не покидают периметр компании.

LLM-шлюз для 152-ФЗ

Если часть трафика идёт во внешние модели, LLM-шлюз обезличивает персональные данные до модели и возвращает реальные значения в ответ.

RAG рядом, а не вместо

Дообучение отвечает за стиль, формат и доменные навыки; свежие факты подтягивает RAG-база знаний со ссылкой на источник.

Кейсы

Кейсы внедрения ИИ

Читать все

ИИзация по процессам

Один процесс — одна цена — оплата после результата

Дообучение — такой же процесс ИИзации: критерий приёмки фиксируем до старта в метриках качества на контрольном наборе, оплата — после принятого процесса. Ориентир цены — на странице цены и модели оплаты; экономику под ваши объёмы посчитайте в калькуляторе ИИзации.

  • Критерий приёмки — до старта
  • Оплата после принятия
  • Датасет и веса — ваши
Обсудить процесс под дообучение

Обсудить решение: Дообучение моделей под задачи компании

Отправить через: