Возможности LLM 2026: что выбрать под процесс и бюджет

27.06.2026 Коротко: одной «лучшей» LLM нет.

Под reasoning — Fable 5 / Opus 4.8, под код в контуре — DeepSeek V4 / Qwen3-Coder, под 152-ФЗ без своего железа — GigaChat / YandexGPT.

Решает не цена за токен, а стоимость за прошедший приёмку результат. «Какая LLM лучшая?» — неправильный вопрос. Правильный: какая модель решает конкретный процесс с нужным качеством по минимальной стоимости результата и не нарушает требований к персональным данным. В enterprise РФ именно последнее чаще всего и останавливает пилот: модель выбрали, а в прод не пустили, потому что ИБ и юристы не согласовали передачу ПДн.

Под массовый контент, сложный reasoning и работу с ПДн в РФ-контуре выигрывают разные модели.

Ниже — сравнение девяти актуальных LLM на июнь 2026 по цене инференса, контексту, лицензии, on-prem и пригодности под 152-ФЗ, плюс методология, по которой мы в KT.Team выбираем модель под процесс, считаем стоимость за результат и ставим контур, где ПДн не утекают в зарубежное облако.

Данные по LLM устаревают за недели.

Все цифры даны на дату проверки 27.06.2026 с источником; где число вендорское или быстро меняется — это помечено.

Перед использованием в расчётах сверяйте прайс с первоисточником.

Не «одна лучшая», а модель под процесс

Рынок LLM в 2026 — это не один лидер, а набор инструментов под разные задачи.
Фронтирные closed-модели (Fable 5, Claude Opus 4.8, GPT-5.5) дают предельный интеллект на сложном reasoning и длинных агентских задачах, но стоят дорого за токен и недоступны для развёртывания в собственном контуре. Open-weight модели (DeepSeek V4, Qwen, Gemma, Llama) можно развернуть on-prem и полностью контролировать данные, но потолок качества ниже.
Российские LLM (GigaChat, YandexGPT) закрывают 152-ФЗ нативно и принимают оплату в рублях.
Выбор модели — это сопоставление профиля процесса (тип задачи, объём, чувствительность данных, требования к латентности) с профилем модели.
Поэтому статья построена не как рейтинг, а как сравнительная таблица плюс правила выбора.

Сравнение 9 LLM 2026: цена, контекст, лицензия, on-prem

Цены за 1 млн токенов (input / output), если не указано иное. Для open-weight моделей цена API у провайдеров приведена как ориентир — главное в них лицензия, потому что веса можно крутить on-prem. «On-prem / РФ-контур» — возможно ли развернуть модель внутри периметра заказчика. Цены не-Anthropic вендоров — по их публичным прайсам; сверяйте с первоисточником на дату (см. блок «Источники»).

Модель	Вендор	Цена in/out (1М)	Контекст	Лицензия	On-prem / РФ-контур	Данные в РФ / 152-ФЗ	Под что брать
Fable 5	Anthropic	$10 / $50	1M	Closed	Нет	Нет	Самый тяжёлый long-horizon reasoning и агентика
Claude Opus 4.8	Anthropic	$5 / $25	1M	Closed	Нет	Нет	Лучший дефолт «цена/интеллект» среди frontier-closed
GPT-5.5	OpenAI	~$5 / $30\*	~1M+	Closed	Нет	Нет	Большой контекст, дешёвый кэш и batch
DeepSeek V4	DeepSeek	Flash $0,14 / $0,28; Pro $0,44 / $0,87	1M	MIT	Да	Да, если развернуть в РФ	Код и длинный контекст в контуре заказчика
Qwen 3.x	Alibaba	open-weight (Apache 2.0)	128–256K	Apache 2.0 (младшие); Max — closed	Да (235B/Coder); Max — нет	Да, если развернуть	Код, мультиязычность, дешёвый on-prem
Gemma 4	Google	self-host / ~$0,06–0,30 хостед	256K	open weights\*	Да	Да, если развернуть	Дешёвый массовый инференс в контуре
Llama 4	Meta	self-host	1M–10M	Community License\\	Да	Да, если развернуть	Зрелая экосистема, очень длинный контекст
GigaChat	Сбер	0,065–0,65 ₽ / 1К ток.	128K (256K open)	Closed; GigaChat 3 — MIT	Облако в РФ; open-weight — да	Да, ДЦ в РФ	RU-задачи без VPN; on-prem через GigaChat 3
YandexGPT	Яндекс	~0,2–0,4 ₽ / 1К ток.	32K (Lite) / до 128K (Pro)	Closed; 5 Lite — open (кастомная)	Облако в РФ; Lite 8B — да	Да, заявлено ФЗ-152	RU-задачи без VPN, оплата в рублях

\* Цены и контекст GPT-5.5 — по публичным заявлениям OpenAI; сверяйте с актуальным прайсом на developers.openai.com на дату. Конкретные множители (порог длинного контекста, наценка за регион) указывайте только со ссылкой на страницу прайса. \* Лицензия Gemma 4 разрешает коммерческое использование, но исторически не полностью OSI-open (есть use-policy ограничения).

Перед on-prem читайте текст лицензии на HuggingFace. \*\* Llama 4 Community License — open-weight с ограничениями (AUP, порог 700 млн MAU). Это «open-weight с оговорками лицензии», а не классический open-source. ### Важные оговорки по версиям (факт-чек) Названия в задачах сравнения и реальность июня 2026 расходятся в нескольких местах — пишем как есть: - Qwen Max — не open-weight. Qwen3-Max (и более новый 3.7-Max) — проприетарные API-only модели Alibaba; веса не выкладываются.

Open-weight у Alibaba — это младшие Qwen3 (например, Qwen3-235B-A22B и Qwen3-Coder-480B, Apache 2.0). Для блока «развернуть в контуре» брать именно их. Источник: Qwen — Wikipedia. - Последняя open-weight Llama — это Llama 4. Самая свежая модель Meta (Muse Spark, апрель 2026) — закрытая, без открытых весов. Для open-weight-сравнения корректна именно Llama 4 (Scout/Maverick).

Источник: VentureBeat. - Fable 5 — это Anthropic. Подтверждено официальным анонсом Anthropic от 09.06.2026 и API-справочником (model ID `claude-fable-5`). Это самая мощная широко доступная модель Anthropic выше линейки Opus. - DeepSeek V4 — open weights под MIT. Самая чистая лицензия из всех open-weight в таблице: можно развернуть в РФ-контуре без оговорок про MAU.

Источник: DeepSeek docs. - GigaChat on-prem. Публичные источники подтверждают облако с обработкой в ДЦ РФ под 152-ФЗ и наличие open-weight GigaChat 3 (MIT). Поставку проприетарного облачного GigaChat «коробкой» на on-prem отдельно уточняйте у Сбера перед публичными обещаниями.

Бенчмарки — с оговоркой

Публичные бенчмарки годятся для шорт-листа, но не для выбора.

Они подобраны вендором и не отражают вашу задачу, ваш промпт и вашу приёмку.

Любая таблица «лучшая модель» устаревает за недели. - Fable 5: Anthropic в анонсе заявляет лидерство на SWE-bench и финансовых бенчмарках.

Конкретные проценты — вендорские; проверяйте в официальном анонсе на дату, не воспроизводите их как независимый факт. - DeepSeek V4: заявлена как сильнейшая open-weight по коду; конкретные значения SWE-bench / LiveCodeBench / GPQA и объём обучения смотрите в model card на HuggingFace и в api-docs.deepseek.com — если V4 уже выпущен, цифры предварительные и быстро меняются. - Русский язык: на бенчмарке MERA флагманы

Сбера (GigaChat 2 Max, GigaChat Ultra) держатся в топе по русскому; YandexGPT 5.1 Pro в публичном MERA-лидерборде отсутствует, прямое сравнение по нему затруднено.

Сверяйте на mera.a-ai.ru.

Опираться в выборе нужно на прогон кандидатов на своих задачах.

Подберем материалы под вашу задачу

Почта clients@kt.team Telegram @kt_team_blog

Ответим в течение 30 минут и пришлем релевантные кейсы, схемы или разборы под ваш контекст.

Как считать стоимость инференса за результат

Цена за 1 млн токенов — это unit cost, а не стоимость задачи. Модель в 5 раз дороже за токен может выйти дешевле за результат, если решает задачу за один проход вместо трёх и не требует ручной доработки. Сравнивать нужно стоимость завершённой задачи нужного качества. ###

Базовая формула

``` Стоимость одной попытки = (T_in × P_in + T_out × P_out) × N_итераций Стоимость результата = Стоимость одной попытки / Success_rate ``` - `T_in / T_out` — токены входа/выхода на одну попытку (мерить, не угадывать). - `P_in / P_out` — цена за токен. - `N_итераций` — reasoning-итерации и само-верификация внутри одного прохода задачи (а не повторные прогоны после провала). - `Success_rate` — доля задач, прошедших приёмку без ручной правки.

Делим на неё один раз: она уже учитывает, что часть прогонов придётся повторить. Чаще всего Success_rate просто не измеряют — поэтому дешёвая по токену модель оказывается дорогой по результату. Важно не задвоить ретраи: либо `N_итераций` считает попытки внутри прохода, а `Success_rate` — долю прошедших приёмку задач; либо умножаете на полное число прогонов и тогда не делите на Success_rate. Смешивать нельзя. ###

Множители, меняющие картину в разы

- Batch API — −50% к стоимости токенов у Anthropic (Batches API = 50% от стандартной цены) и у большинства других вендоров. Для ночных, не latency-чувствительных пайплайнов (классификация, обогащение) — прямая экономия вдвое. - Prompt caching — повторное чтение стабильного префикса (системный промпт, документы) стоит порядка 0,1× базовой цены входа (у Anthropic cache read ~0,1×, write ~1,25×). При 5-минутном TTL кэш окупается со второго запроса (1,25 + 0,1 < 2,0); при часовом TTL — с третьего.

Любой меняющийся байт в префиксе (`datetime.now()`, несортированный JSON, плавающий набор тулзов) молча ломает кэш. - Output дороже input обычно в 4–5 раз. У Anthropic — ровно ×5 (Opus 4.8 $5→$25, Fable 5 $10→$50). Болтливая модель с длинными преамбулами дороже немногословной при равном качестве — режьте формат вывода. - Reasoning/thinking кратно растит output-токены.

На простых задачах это чистый перерасход; «усилие» тюнят под задачу, а не ставят максимум по умолчанию. - Доплаты за длинный контекст. У Claude (Fable 5, Opus 4.8) контекст 1М по стандартной цене без long-context премии — для агентских и RAG-пайплайнов это материальная разница. У других вендоров за сверхдлинные промпты бывает наценка (порог и множитель сверяйте на прайсе вендора на дату). ###

Скрытые статьи TCO

За пределами прайса есть инженерная интеграция, поддержка промптов, eval-инфраструктура (без неё `Success_rate` не измерить) и — для on-prem — железо, DevOps, амортизация и простой GPU. Open-weight «бесплатна» по лицензии, но не по эксплуатации: при стабильной высокой нагрузке on-prem дешевле API, при рваной или малой — дороже. Считаем TCO под фактический профиль нагрузки процесса, а не цену за токен. ###

Процедура выбора модели под процесс

Зафиксировать задачу и rubric приёмки (что значит «готово» — проверяемо, а не «выглядит хорошо»).
Прогнать 2–4 модели-кандидата на одном репрезентативном наборе.
Замерить по каждой: `T_in`, `T_out`, `N_итераций`, `Success_rate`, латентность p50/p95.
Посчитать стоимость задачи с учётом batch/cache там, где они применимы в проде.
Выбрать по стоимости за прошедший приёмку результат под этот процесс, а не по топу бенчмарка.

Персональные данные, on-prem и 152-ФЗ

Здесь проваливается большинство AI-пилотов в РФ: модель выбрали, а в прод не пустили, потому что юристы и ИБ не согласовали передачу ПДн.
Отправка ПДн в зарубежный LLM API — это трансграничная передача персональных данных.
Под 152-ФЗ это требует отдельных правовых оснований, а с 2025 года введена оборотная ответственность за нарушения при обработке ПДн — это уже не «штраф на бухгалтерию», а риск уровня совета директоров.
Все три фронтирные модели (Fable 5, Opus 4.8, GPT-5.5) — closed-source, доступны только через API вендора, on-prem невозможен, а прямой доступ из РФ у Anthropic и OpenAI заблокирован.
Под процессы с ПДн в РФ они применимы только через слой обезличивания перед отправкой — сами по себе data-residency 152-ФЗ они не закрывают.
Именно этот слой — обезличивание перед облаком и развёртывание в контуре — KT.Team делает как штатную часть AI-внедрения, а не как чужую инструкцию для самостоятельной сборки.
Ниже два паттерна, которые мы ставим заказчику; оба у нас отработаны. ###

Два рабочих паттерна

Шлюз приватности (privacy gateway).

Минимизируем и обезличиваем данные до отправки в облачную LLM: ``` detect → classify → pseudonymize → [LLM API] → re-hydrate (деанонимизация) ```

Реальные значения (ФИО, телефоны, email, ИНН, СНИЛС, паспорта, номера карт и счетов, IP) заменяются на плейсхолдеры (`ИМЯ_1`, `ТЕЛЕФОН_2`), таблица соответствия остаётся внутри контура, а в ответ прокси подставляет оригиналы обратно. В реальный LLM уходит уже обезличенный текст — это и есть условие, при котором юрист и ИБ заказчика подписывают использование зарубежной frontier-модели.

Под капотом — Microsoft Presidio для детекции и spaCy с кастомным NER под русские форматы ПДн; у KT.Team это собрано в готовый шлюз приватности, который мы ставим в контур заказчика, а не отдаём как ТЗ на самостоятельную разработку.

Важная терминологическая точность, на которой мы не даём заказчику ошибиться перед регулятором: обезличивание необратимо, а псевдонимизация обратима по таблице — для LLM-пайплайна с деанонимизацией ответа это технически псевдонимизация, и такие данные с точки зрения закона остаются ПДн.

Это влияет на правовую квалификацию, на состав документов и на то, какие гарантии можно давать совету директоров.

Мы разводим эти понятия в проекте на старте, чтобы «обезличили» не превратилось в ложную защиту.

Чек-лист приёмки PII-пайплайна, по которому KT.Team сдаёт такой контур: каждый запрос проходит detect перед отправкой (пропуск ПДн = инцидент, recall детектора измерен на ваших данных, а не заявлен общими словами); таблица соответствия живёт только в РФ-контуре, шифруется, имеет TTL; реальные ПДн никогда не попадают в системный промпт, few-shot, логи, кэш и историю агента (всё это персистится и читаемо

— типичная утечка мимо «обезличивания»); зафиксировано правовое основание; в LLM уходит только необходимое для задачи.

Это тот уровень доказуемости, который проходит внутренний аудит и проверку регулятора, а не только демо. 2. On-prem на open-weight или РФ-облако.

Жёсткий data residency закрывается двумя путями, и оба KT.Team разворачивает под ключ.

Развернуть open-weight модель в контуре заказчика — ПДн не покидают периметр вообще, всё (включая обезличивание) делается внутри; это сценарий, когда требование «данные не выходят за периметр» не обсуждается.

Лучшие кандидаты по балансу «качество ÷ стоимость железа»: DeepSeek-V4-Flash (MIT), Qwen3-235B-A22B (Apache 2.0), Gemma 4 26/31B — последние реалистичны на 1–2 узлах с современными GPU и дают самый практичный вход в контур.

Подбор модели под железо и нагрузку, а не «возьмём самую большую», — это и есть наша работа: мы считаем TCO контура до закупки GPU.

Либо использовать российское облако (GigaChat, YandexGPT) с обработкой в ДЦ РФ по 152-ФЗ, когда своего железа нет.

Что из этого дешевле под ваш профиль нагрузки — решается расчётом, а не вкусом; как мы его ведём, описано на странице [AI для бизнеса](/solutions/ai-for-business).

Подробнее о правовых основаниях — в материале [«Требования 152-ФЗ к обработке персональных данных»](/blog/152-fz-personal-data-requirements-for-business), об оборотных штрафах — в [«Обработка персональных данных в 2025: как избежать штрафов»](/blog/personal-data-processing-2025-avoid-fines), а про [защиту периметра и DLP](/blog/cybersecurity-2025-siem-soc-soar-edr-xdr-dlp-waf-cryptography) — в обзоре кибербезопасности.

Как KT.Team выбирает модель под процесс

Мы — enterprise B2B IT-интегратор с ai-native подходом.
Выбираем так: - Модель под процесс.
Под код — DeepSeek V4 или Qwen3-Coder; под массовый дешёвый инференс в контуре — Gemma 4; под длинный контекст — DeepSeek V4 (1М) или Llama 4 Scout (до 10М); под сложный reasoning без ПДн — Opus 4.8 или Fable 5; под 152-ФЗ без своего железа — GigaChat или YandexGPT. - Стоимость за результат.
Считаем по формуле выше: множители batch/cache на дешёвых шагах, дорогой reasoning только там, где он поднимает `Success_rate`. - Работа с ПДн.
Готовый шлюз приватности (Presidio/spaCy, detect → pseudonymize → re-hydrate) с измеренным recall детектора для облачных моделей и развёртывание open-weight в контуре для жёсткого data residency.
На выходе — пайплайн, который проходит ИБ и юристов заказчика и доказуем перед регулятором, а не «мы вроде обезличиваем».
Это связано с нашей гипотезой «ИИ короткими итерациями»: маленькие быстрые модели и дешёвые шаги закрывают большую часть работы, а тяжёлый дорогой reasoning подключается точечно.
Так пилот даёт измеримый результат быстро и без переплаты. ИИ даёт ROI не сам по себе, а через платформу и процесс — [как показывает DORA 2026](/blog/dora-2026-ii-ne-daet-roi-ego-daet-vasha-platforma).
Подробнее об этом подходе — на странице [AI для бизнеса](/solutions/ai-for-business) и в материале [«AI в бизнесе: как избежать провала»](/blog/ai-in-business-avoid-failure-choose-tech-pilot-success).

FAQ

Вывод

Нет «одной лучшей» LLM — есть модель, подходящая под конкретный процесс.

Фронтирные closed-модели берут предельный интеллект, open-weight дают контроль данных и on-prem, российские LLM закрывают 152-ФЗ нативно.

Выигрывает тот, кто умеет три вещи: сопоставить процесс с моделью, посчитать стоимость за результат (а не за токен) и корректно работать с персональными данными — обезличиванием перед облаком или развёртыванием в контуре.

Именно так мы в KT.Team запускаем AI короткими итерациями: быстрый измеримый пилот без переплаты и без рисков по ПДн. ---

Источники (дата проверки 27.06.2026): Anthropic — Fable 5 / Mythos 5 · API-справочник Anthropic (model ID `claude-fable-5`, кэш 04.06.2026) · OpenAI API — GPT-5.5 · DeepSeek docs — pricing · Gemma 4 overview · Qwen3 blog · Qwen — Wikipedia · Llama 4 · Muse Spark — VentureBeat · GigaChat API тарифы · GigaChat 3 — Habr/SberDevices ·

YandexGPT-5-Lite-8B (HuggingFace) · MERA · Privacy gateway / LLM — Habr (just_ai).

Возможности LLM 2026: что выбрать под процесс и бюджет

Не «одна лучшая», а модель под процесс

Сравнение 9 LLM 2026: цена, контекст, лицензия, on-prem

Бенчмарки — с оговоркой

Подберем материалы под вашу задачу

Как считать стоимость инференса за результат

Базовая формула

Множители, меняющие картину в разы

Скрытые статьи TCO

Процедура выбора модели под процесс

Персональные данные, on-prem и 152-ФЗ

Два рабочих паттерна

Как KT.Team выбирает модель под процесс

FAQ

Какая LLM самая лучшая в 2026?

Можно ли работать с персональными данными через зарубежные LLM?

Какие модели можно развернуть on-prem в РФ-контуре?

Как посчитать реальную стоимость инференса?

Что выбрать для русскоязычных задач без VPN?

Почему open-weight не всегда дешевле облачного API?

Вывод

Обсудить статью: Возможности LLM 2026: что выбрать под процесс и бюджет