Возможности LLM 2026: что выбрать под процесс и бюджет

Сравнение фронтирных, open-weight и российских LLM 2026 по цене инференса, контексту, лицензии, on-prem и 152-ФЗ. Как выбрать модель под процесс.

  • Не «одна лучшая», а модель под процесс
  • Сравнение 9 LLM 2026: цена, контекст, лицензия, on-prem
  • Важные оговорки по версиям (факт-чек)
  • Бенчмарки — с оговоркой

27.06.2026 Коротко: одной «лучшей» LLM нет.

Под reasoning — Fable 5 / Opus 4.8, под код в контуре — DeepSeek V4 / Qwen3-Coder, под 152-ФЗ без своего железа — GigaChat / YandexGPT.

Решает не цена за токен, а стоимость за прошедший приёмку результат. «Какая LLM лучшая?» — неправильный вопрос. Правильный: какая модель решает конкретный процесс с нужным качеством по минимальной стоимости результата и не нарушает требований к персональным данным. В enterprise РФ именно последнее чаще всего и останавливает пилот: модель выбрали, а в прод не пустили, потому что ИБ и юристы не согласовали передачу ПДн.

Под массовый контент, сложный reasoning и работу с ПДн в РФ-контуре выигрывают разные модели.

Ниже — сравнение девяти актуальных LLM на июнь 2026 по цене инференса, контексту, лицензии, on-prem и пригодности под 152-ФЗ, плюс методология, по которой мы в KT.Team выбираем модель под процесс, считаем стоимость за результат и ставим контур, где ПДн не утекают в зарубежное облако.

Данные по LLM устаревают за недели.

Все цифры даны на дату проверки 27.06.2026 с источником; где число вендорское или быстро меняется — это помечено.

Перед использованием в расчётах сверяйте прайс с первоисточником.

Не «одна лучшая», а модель под процесс

  1. Рынок LLM в 2026 — это не один лидер, а набор инструментов под разные задачи.

  2. Фронтирные closed-модели (Fable 5, Claude Opus 4.8, GPT-5.5) дают предельный интеллект на сложном reasoning и длинных агентских задачах, но стоят дорого за токен и недоступны для развёртывания в собственном контуре. Open-weight модели (DeepSeek V4, Qwen, Gemma, Llama) можно развернуть on-prem и полностью контролировать данные, но потолок качества ниже.

  3. Российские LLM (GigaChat, YandexGPT) закрывают 152-ФЗ нативно и принимают оплату в рублях.

  4. Выбор модели — это сопоставление профиля процесса (тип задачи, объём, чувствительность данных, требования к латентности) с профилем модели.

  5. Поэтому статья построена не как рейтинг, а как сравнительная таблица плюс правила выбора.

Сравнение 9 LLM 2026: цена, контекст, лицензия, on-prem

Цены за 1 млн токенов (input / output), если не указано иное. Для open-weight моделей цена API у провайдеров приведена как ориентир — главное в них лицензия, потому что веса можно крутить on-prem. «On-prem / РФ-контур» — возможно ли развернуть модель внутри периметра заказчика. Цены не-Anthropic вендоров — по их публичным прайсам; сверяйте с первоисточником на дату (см. блок «Источники»).

МодельВендорЦена in/out (1М)КонтекстЛицензияOn-prem / РФ-контурДанные в РФ / 152-ФЗПод что брать
**Fable 5**Anthropic$10 / $501MClosedНетНетСамый тяжёлый long-horizon reasoning и агентика
**Claude Opus 4.8**Anthropic$5 / $251MClosedНетНетЛучший дефолт «цена/интеллект» среди frontier-closed
**GPT-5.5**OpenAI~$5 / $30\*~1M+ClosedНетНетБольшой контекст, дешёвый кэш и batch
**DeepSeek V4**DeepSeekFlash $0,14 / $0,28; Pro $0,44 / $0,871M**MIT****Да**Да, если развернуть в РФКод и длинный контекст в контуре заказчика
**Qwen 3.x**Alibabaopen-weight (Apache 2.0)128–256K**Apache 2.0** (младшие); Max — closed**Да** (235B/Coder); Max — нетДа, если развернутьКод, мультиязычность, дешёвый on-prem
**Gemma 4**Googleself-host / ~$0,06–0,30 хостед256Kopen weights\***Да**Да, если развернутьДешёвый массовый инференс в контуре
**Llama 4**Metaself-host1M–10MCommunity License\*\***Да**Да, если развернутьЗрелая экосистема, очень длинный контекст
**GigaChat**Сбер0,065–0,65 ₽ / 1К ток.128K (256K open)Closed; GigaChat 3 — **MIT**Облако в РФ; open-weight — да**Да, ДЦ в РФ**RU-задачи без VPN; on-prem через GigaChat 3
**YandexGPT**Яндекс~0,2–0,4 ₽ / 1К ток.32K (Lite) / до 128K (Pro)Closed; 5 Lite — open (кастомная)Облако в РФ; Lite 8B — да**Да, заявлено ФЗ-152**RU-задачи без VPN, оплата в рублях

\* Цены и контекст GPT-5.5 — по публичным заявлениям OpenAI; сверяйте с актуальным прайсом на developers.openai.com на дату. Конкретные множители (порог длинного контекста, наценка за регион) указывайте только со ссылкой на страницу прайса. \* Лицензия Gemma 4 разрешает коммерческое использование, но исторически не полностью OSI-open (есть use-policy ограничения).

Перед on-prem читайте текст лицензии на HuggingFace. \*\* Llama 4 Community License — open-weight с ограничениями (AUP, порог 700 млн MAU). Это «open-weight с оговорками лицензии», а не классический open-source. ### Важные оговорки по версиям (факт-чек) Названия в задачах сравнения и реальность июня 2026 расходятся в нескольких местах — пишем как есть: - Qwen Max — не open-weight. Qwen3-Max (и более новый 3.7-Max) — проприетарные API-only модели Alibaba; веса не выкладываются.

Open-weight у Alibaba — это младшие Qwen3 (например, Qwen3-235B-A22B и Qwen3-Coder-480B, Apache 2.0). Для блока «развернуть в контуре» брать именно их. Источник: Qwen — Wikipedia. - Последняя open-weight Llama — это Llama 4. Самая свежая модель Meta (Muse Spark, апрель 2026) — закрытая, без открытых весов. Для open-weight-сравнения корректна именно Llama 4 (Scout/Maverick).

Источник: VentureBeat. - Fable 5 — это Anthropic. Подтверждено официальным анонсом Anthropic от 09.06.2026 и API-справочником (model ID `claude-fable-5`). Это самая мощная широко доступная модель Anthropic выше линейки Opus. - DeepSeek V4 — open weights под MIT. Самая чистая лицензия из всех open-weight в таблице: можно развернуть в РФ-контуре без оговорок про MAU.

Источник: DeepSeek docs. - GigaChat on-prem. Публичные источники подтверждают облако с обработкой в ДЦ РФ под 152-ФЗ и наличие open-weight GigaChat 3 (MIT). Поставку проприетарного облачного GigaChat «коробкой» на on-prem отдельно уточняйте у Сбера перед публичными обещаниями.

Бенчмарки — с оговоркой

Публичные бенчмарки годятся для шорт-листа, но не для выбора.

Они подобраны вендором и не отражают вашу задачу, ваш промпт и вашу приёмку.

Любая таблица «лучшая модель» устаревает за недели. - Fable 5: Anthropic в анонсе заявляет лидерство на SWE-bench и финансовых бенчмарках.

Конкретные проценты — вендорские; проверяйте в официальном анонсе на дату, не воспроизводите их как независимый факт. - DeepSeek V4: заявлена как сильнейшая open-weight по коду; конкретные значения SWE-bench / LiveCodeBench / GPQA и объём обучения смотрите в model card на HuggingFace и в api-docs.deepseek.com — если V4 уже выпущен, цифры предварительные и быстро меняются. - Русский язык: на бенчмарке MERA флагманы

Сбера (GigaChat 2 Max, GigaChat Ultra) держатся в топе по русскому; YandexGPT 5.1 Pro в публичном MERA-лидерборде отсутствует, прямое сравнение по нему затруднено.

Опираться в выборе нужно на прогон кандидатов на своих задачах.

Подберем материалы под вашу задачу

Ответим в течение 30 минут и пришлем релевантные кейсы, схемы или разборы под ваш контекст.

Как считать стоимость инференса за результат

Цена за 1 млн токенов — это unit cost, а не стоимость задачи. Модель в 5 раз дороже за токен может выйти дешевле за результат, если решает задачу за один проход вместо трёх и не требует ручной доработки. Сравнивать нужно стоимость завершённой задачи нужного качества. ###

Базовая формула

``` Стоимость одной попытки = (T_in × P_in + T_out × P_out) × N_итераций Стоимость результата = Стоимость одной попытки / Success_rate ``` - `T_in / T_out` — токены входа/выхода на одну попытку (мерить, не угадывать). - `P_in / P_out` — цена за токен. - `N_итераций` — reasoning-итерации и само-верификация внутри одного прохода задачи (а не повторные прогоны после провала). - `Success_rate` — доля задач, прошедших приёмку без ручной правки.

Делим на неё один раз: она уже учитывает, что часть прогонов придётся повторить. Чаще всего Success_rate просто не измеряют — поэтому дешёвая по токену модель оказывается дорогой по результату. Важно не задвоить ретраи: либо `N_итераций` считает попытки внутри прохода, а `Success_rate` — долю прошедших приёмку задач; либо умножаете на полное число прогонов и тогда не делите на Success_rate. Смешивать нельзя. ###

Множители, меняющие картину в разы

- Batch API — −50% к стоимости токенов у Anthropic (Batches API = 50% от стандартной цены) и у большинства других вендоров. Для ночных, не latency-чувствительных пайплайнов (классификация, обогащение) — прямая экономия вдвое. - Prompt caching — повторное чтение стабильного префикса (системный промпт, документы) стоит порядка 0,1× базовой цены входа (у Anthropic cache read ~0,1×, write ~1,25×). При 5-минутном TTL кэш окупается со второго запроса (1,25 + 0,1 < 2,0); при часовом TTL — с третьего.

Любой меняющийся байт в префиксе (`datetime.now()`, несортированный JSON, плавающий набор тулзов) молча ломает кэш. - Output дороже input обычно в 4–5 раз. У Anthropic — ровно ×5 (Opus 4.8 $5→$25, Fable 5 $10→$50). Болтливая модель с длинными преамбулами дороже немногословной при равном качестве — режьте формат вывода. - Reasoning/thinking кратно растит output-токены.

На простых задачах это чистый перерасход; «усилие» тюнят под задачу, а не ставят максимум по умолчанию. - Доплаты за длинный контекст. У Claude (Fable 5, Opus 4.8) контекст 1М по стандартной цене без long-context премии — для агентских и RAG-пайплайнов это материальная разница. У других вендоров за сверхдлинные промпты бывает наценка (порог и множитель сверяйте на прайсе вендора на дату). ###

Скрытые статьи TCO

За пределами прайса есть инженерная интеграция, поддержка промптов, eval-инфраструктура (без неё `Success_rate` не измерить) и — для on-prem — железо, DevOps, амортизация и простой GPU. Open-weight «бесплатна» по лицензии, но не по эксплуатации: при стабильной высокой нагрузке on-prem дешевле API, при рваной или малой — дороже. Считаем TCO под фактический профиль нагрузки процесса, а не цену за токен. ###

Процедура выбора модели под процесс

  1. Зафиксировать задачу и rubric приёмки (что значит «готово» — проверяемо, а не «выглядит хорошо»).
  2. Прогнать 2–4 модели-кандидата на одном репрезентативном наборе.
  3. Замерить по каждой: `T_in`, `T_out`, `N_итераций`, `Success_rate`, латентность p50/p95.
  4. Посчитать стоимость задачи с учётом batch/cache там, где они применимы в проде.
  5. Выбрать по стоимости за прошедший приёмку результат под этот процесс, а не по топу бенчмарка.

Персональные данные, on-prem и 152-ФЗ

  1. Здесь проваливается большинство AI-пилотов в РФ: модель выбрали, а в прод не пустили, потому что юристы и ИБ не согласовали передачу ПДн.

  2. Отправка ПДн в зарубежный LLM API — это трансграничная передача персональных данных.

  3. Под 152-ФЗ это требует отдельных правовых оснований, а с 2025 года введена оборотная ответственность за нарушения при обработке ПДн — это уже не «штраф на бухгалтерию», а риск уровня совета директоров.

  4. Все три фронтирные модели (Fable 5, Opus 4.8, GPT-5.5) — closed-source, доступны только через API вендора, on-prem невозможен, а прямой доступ из РФ у Anthropic и OpenAI заблокирован.

  5. Под процессы с ПДн в РФ они применимы только через слой обезличивания перед отправкой — сами по себе data-residency 152-ФЗ они не закрывают.

  6. Именно этот слой — обезличивание перед облаком и развёртывание в контуре — KT.Team делает как штатную часть AI-внедрения, а не как чужую инструкцию для самостоятельной сборки.

  7. Ниже два паттерна, которые мы ставим заказчику; оба у нас отработаны. ###

Два рабочих паттерна

Шлюз приватности (privacy gateway).

Минимизируем и обезличиваем данные до отправки в облачную LLM: ``` detect → classify → pseudonymize → [LLM API] → re-hydrate (деанонимизация) ```

Реальные значения (ФИО, телефоны, email, ИНН, СНИЛС, паспорта, номера карт и счетов, IP) заменяются на плейсхолдеры (`ИМЯ_1`, `ТЕЛЕФОН_2`), таблица соответствия остаётся внутри контура, а в ответ прокси подставляет оригиналы обратно. В реальный LLM уходит уже обезличенный текст — это и есть условие, при котором юрист и ИБ заказчика подписывают использование зарубежной frontier-модели.

Под капотом — Microsoft Presidio для детекции и spaCy с кастомным NER под русские форматы ПДн; у KT.Team это собрано в готовый шлюз приватности, который мы ставим в контур заказчика, а не отдаём как ТЗ на самостоятельную разработку.

Важная терминологическая точность, на которой мы не даём заказчику ошибиться перед регулятором: обезличивание необратимо, а псевдонимизация обратима по таблице — для LLM-пайплайна с деанонимизацией ответа это технически псевдонимизация, и такие данные с точки зрения закона остаются ПДн.

Это влияет на правовую квалификацию, на состав документов и на то, какие гарантии можно давать совету директоров.

Мы разводим эти понятия в проекте на старте, чтобы «обезличили» не превратилось в ложную защиту.

Чек-лист приёмки PII-пайплайна, по которому KT.Team сдаёт такой контур: каждый запрос проходит detect перед отправкой (пропуск ПДн = инцидент, recall детектора измерен на ваших данных, а не заявлен общими словами); таблица соответствия живёт только в РФ-контуре, шифруется, имеет TTL; реальные ПДн никогда не попадают в системный промпт, few-shot, логи, кэш и историю агента (всё это персистится и читаемо

— типичная утечка мимо «обезличивания»); зафиксировано правовое основание; в LLM уходит только необходимое для задачи.

Это тот уровень доказуемости, который проходит внутренний аудит и проверку регулятора, а не только демо. 2. On-prem на open-weight или РФ-облако.

Жёсткий data residency закрывается двумя путями, и оба KT.Team разворачивает под ключ.

Развернуть open-weight модель в контуре заказчика — ПДн не покидают периметр вообще, всё (включая обезличивание) делается внутри; это сценарий, когда требование «данные не выходят за периметр» не обсуждается.

Лучшие кандидаты по балансу «качество ÷ стоимость железа»: DeepSeek-V4-Flash (MIT), Qwen3-235B-A22B (Apache 2.0), Gemma 4 26/31B — последние реалистичны на 1–2 узлах с современными GPU и дают самый практичный вход в контур.

Подбор модели под железо и нагрузку, а не «возьмём самую большую», — это и есть наша работа: мы считаем TCO контура до закупки GPU.

Либо использовать российское облако (GigaChat, YandexGPT) с обработкой в ДЦ РФ по 152-ФЗ, когда своего железа нет.

Что из этого дешевле под ваш профиль нагрузки — решается расчётом, а не вкусом; как мы его ведём, описано на странице [AI для бизнеса](/solutions/ai-for-business).

Подробнее о правовых основаниях — в материале [«Требования 152-ФЗ к обработке персональных данных»](/blog/152-fz-personal-data-requirements-for-business), об оборотных штрафах — в [«Обработка персональных данных в 2025: как избежать штрафов»](/blog/personal-data-processing-2025-avoid-fines), а про [защиту периметра и DLP](/blog/cybersecurity-2025-siem-soc-soar-edr-xdr-dlp-waf-cryptography) — в обзоре кибербезопасности.

Как KT.Team выбирает модель под процесс

  1. Мы — enterprise B2B IT-интегратор с ai-native подходом.

  2. Выбираем так: - Модель под процесс.

  3. Под код — DeepSeek V4 или Qwen3-Coder; под массовый дешёвый инференс в контуре — Gemma 4; под длинный контекст — DeepSeek V4 (1М) или Llama 4 Scout (до 10М); под сложный reasoning без ПДн — Opus 4.8 или Fable 5; под 152-ФЗ без своего железа — GigaChat или YandexGPT. - Стоимость за результат.

  4. Считаем по формуле выше: множители batch/cache на дешёвых шагах, дорогой reasoning только там, где он поднимает `Success_rate`. - Работа с ПДн.

  5. Готовый шлюз приватности (Presidio/spaCy, detect → pseudonymize → re-hydrate) с измеренным recall детектора для облачных моделей и развёртывание open-weight в контуре для жёсткого data residency.

  6. На выходе — пайплайн, который проходит ИБ и юристов заказчика и доказуем перед регулятором, а не «мы вроде обезличиваем».

  7. Это связано с нашей гипотезой «ИИ короткими итерациями»: маленькие быстрые модели и дешёвые шаги закрывают большую часть работы, а тяжёлый дорогой reasoning подключается точечно.

  8. Так пилот даёт измеримый результат быстро и без переплаты. ИИ даёт ROI не сам по себе, а через платформу и процесс — [как показывает DORA 2026](/blog/dora-2026-ii-ne-daet-roi-ego-daet-vasha-platforma).

  9. Подробнее об этом подходе — на странице [AI для бизнеса](/solutions/ai-for-business) и в материале [«AI в бизнесе: как избежать провала»](/blog/ai-in-business-avoid-failure-choose-tech-pilot-success).

FAQ

FAQ

Какая LLM самая лучшая в 2026?

Такой нет. На сложном reasoning лидируют Fable 5 и GPT-5.5, на коде среди open-weight — DeepSeek V4, на русском — GigaChat. «Лучшая» определяется процессом, объёмом, чувствительностью данных и бюджетом. Сравнивать нужно стоимость прошедшего приёмку результата на ваших задачах.

Можно ли работать с персональными данными через зарубежные LLM?

Напрямую — нет: это трансграничная передача ПДн под 152-ФЗ с оборотной ответственностью с 2025 года. Использовать интеллект frontier-модели на чувствительных данных можно безопасно, но только через слой обезличивания: реальные ПДн заменяются на плейсхолдеры до отправки и подставляются обратно в ответ, таблица соответствия не покидает РФ-контур. Либо данные вообще не выходят за периметр — open-weight или РФ-модель в контуре. KT.Team ставит оба варианта под ключ с доказуемым перед ИБ и регулятором пайплайном; начать можно с короткого пилота — [AI для бизнеса](/solutions/ai-for-business).

Какие модели можно развернуть on-prem в РФ-контуре?

Open-weight: DeepSeek V4 (MIT), Qwen3-235B/Coder (Apache 2.0), Gemma 4, Llama 4 (Community License с оговорками), а также open-weight GigaChat 3 (MIT). Closed-модели (Fable 5, Opus 4.8, GPT-5.5) on-prem невозможны.

Как посчитать реальную стоимость инференса?

Не по цене за токен, а по стоимости результата: стоимость одной попытки `(T_in × P_in + T_out × P_out) × N_итераций`, делённая на `Success_rate` (долю задач, прошедших приёмку). С учётом batch (−50%), prompt caching (~0,1× на кэш-чтение) и скрытого TCO (eval, интеграция, для on-prem — железо и простой GPU).

Что выбрать для русскоязычных задач без VPN?

GigaChat (Сбер) или YandexGPT (Яндекс): обработка в ДЦ РФ, оплата в рублях, заявленное соответствие 152-ФЗ, лучшая работа с русским. Для жёсткого on-prem — open-weight GigaChat 3 (MIT) или YandexGPT 5 Lite (кастомная лицензия — читать условия).

Почему open-weight не всегда дешевле облачного API?

Лицензия бесплатна, эксплуатация — нет. Self-host окупается при стабильной высокой утилизации GPU; при рваной или малой нагрузке простой железа делает облачный API дешевле. Решает TCO под фактический профиль нагрузки, а не цена лицензии.

Вывод

Нет «одной лучшей» LLM — есть модель, подходящая под конкретный процесс.

Фронтирные closed-модели берут предельный интеллект, open-weight дают контроль данных и on-prem, российские LLM закрывают 152-ФЗ нативно.

Выигрывает тот, кто умеет три вещи: сопоставить процесс с моделью, посчитать стоимость за результат (а не за токен) и корректно работать с персональными данными — обезличиванием перед облаком или развёртыванием в контуре.

Именно так мы в KT.Team запускаем AI короткими итерациями: быстрый измеримый пилот без переплаты и без рисков по ПДн. ---

Обсудить статью: Возможности LLM 2026: что выбрать под процесс и бюджет

Отправить через: