AI-инструменты

RAG — корпоративная база знаний, которой можно доверять

Сотрудники тратят до 19–30% рабочего дня на поиск информации, а LLM без доступа к вашим данным выдумывает ответы. RAG-стек KT.

RAG — это не «чат с PDF», а слабосвязанный слой корпоративной памяти: retrieval, векторное хранилище, чанкинг и реранкинг поверх ваших вики и регламентов, где каждый ответ заземлён на проверяемый источник и отчуждаем от конкретного вендора модели.

Получить консультацию

19–30%рабочего дня уходит на поиск информации (McKinsey / IDC) — это и есть рынок, который закрывает RAG

74% → 89%recall@10: доля случаев, когда верный ответ попадает в топ результатов, после добавления реранкинга (Databricks)

+33–40%точность ответов от cross-encoder реранкинга за +~120 мс задержки (исследование RAG)

40–50%рутинных обращений закрывает поддержка с источниками в ответе, освобождая людей (RAG support benchmark)

AI-контур

AI-ассистент должен брать действие, а не просто отвечать текстом

Сквозной тезис AI-блока: пилот с измеримым эффектом, приватные данные под контролем, действия агента журналируются, качество проходит evals перед расширением.

1-2 чрутины в день снимает ассистент с сотрудника или руководителя

2-4 нед.достаточно для пилота на одном процессе с метрикой эффекта

40%agentic AI-проектов Gartner ожидает отменить без понятной ценности

Ассистент ≠ чат-бот

Чат-бот отвечает; ассистент проверяет регламент, ходит в системы, фиксирует отклонение и предлагает следующий шаг.

Control plane

Реестр агентов, владелец, права, память, evals, trace logs, kill-switch и бюджет на уровне enterprise-контура.

Данные

RAG даёт ответ со ссылкой на источник; LLM Gateway обфусцирует ПДн до модели и восстанавливает после ответа.

Процесскорпоративная памятьагентдействие в системежурнал и evals

Внутренние переходы

Контур управления агентами RAG с источниками LLM Gateway и ПДн

Источники

Anthropic: Building effective agents Gartner agentic AI cancellations Chip Huyen: AI Engineering

Отраслевые решения

Что можно сделать на RAG

Все решения

Возможности

Возможности RAG

Источники: вики, регламенты, продуктовые данные, базыЧанкинг + эмбеддингиВекторное хранилище (pgvector / Qdrant)Запрос пользователяRetrieval: top-k кандидатовРеранкинг (cross-encoder): top-nLLM с заземлённым контекстомОтвет + ссылка на источник (provenance)

Линейная схема анти-галлюцинационного контура. Слева источники знаний (вики, регламенты, продуктовые данные, базы) → чанкинг и эмбеддинги → векторное хранилище (pgvector / Qdrant). Запрос пользователя идёт в retrieval (top-k кандидатов) → cross-encoder реранкинг (top-n лучших) → LLM получает только отобранный контекст → ответ с ссылкой на источник. Модель отвечает ТОЛЬКО по retrieved-контексту, а не по своей памяти; стрелка provenance ведёт от ответа обратно к исходному документу. Контур слабосвязанный — каждый блок (хранилище, retrieval, реранкер, LLM) заменяем независимо.

Retrieval поверх корпоративных источников

Модель отвечает по вашим документам, вики и базам, а не по «памяти» из интернета — сотрудник получает ответ за секунды вместо часов поиска по 19–30% потерянного дня.

Grounding и ссылки на источник

Каждый ответ показывает, из какого документа он взят — ответы проверяемы, а галлюцинации отсекаются на уровне архитектуры, а не уговоров модели.

Векторное хранилище (pgvector / Qdrant)

Семантический поиск по миллионам фрагментов: находит ответ по смыслу, а не по точному совпадению слов. pgvector — когда данные уже в Postgres, Qdrant — когда нужен высоконагруженный поиск с фильтрами.

Чанкинг и подготовка контента

Документы режутся на осмысленные фрагменты с метаданными — модель получает «меньше, но точнее» контекста, что напрямую поднимает релевантность и снижает стоимость запроса.

Реранкинг (cross-encoder)

Второй этап переупорядочивает кандидатов по реальной релевантности: recall@10 растёт с 74% до 89%, точность ответов — на 33–40% за ~120 мс. Высокий ROI при минимальной задержке.

LLM-wiki — слой выверенных ответов

Дополнение к RAG: поверх стека ведём выверенную корпоративную wiki, и на критичные вопросы система отдаёт заранее проверенный ответ — это ещё сильнее снижает галлюцинации.

RAG для поддержки и сотрудников

40–50% рутинных обращений закрываются автоматически с источником в ответе; внутренний ассистент сокращает время поиска регламента с минут до секунд.

Слабосвязанный, отчуждаемый стек

Хранилище, retrieval и модель разнесены: можно сменить LLM или векторную БД, не переписывая всё. Решение легко передать между командами и подрядчиками — без vendor-lock.

Оценка качества и анти-галлюцинации

Метрики precision@K, provenance coverage и hallucination rate встроены в пайплайн — качество ответов измеряется, а не декларируется, и не деградирует молча после изменений.

Подход

Как мы внедряем RAG

Минимальная модификация ядра

Не форкаем и не патчим ядро RAG. RAG остаётся на стандартной обновляемой версии — бизнес-логику выносим в отдельные микросервисы рядом, поэтому обновления платформы не ломают ваши доработки.

Международные стандарты, а не велосипеды

Там, где есть зрелое международное решение, используем его, а не изобретаем собственный протокол или платформу. Прежде чем писать код — изучаем, как задача уже решена в индустрии.

Отчуждаемость

Решение слабосвязанное и задокументированное: его можно передать между командами и подрядчиками без переписывания. Вы не привязаны к нам.

Совместимость с AI

RAG в AI-контуре

Grounding для любой LLM

RAG-слой подаёт проверенный контекст в модель (GPT, Claude, open-source) — заземляет ответы на ваши данные независимо от того, какую LLM вы используете сегодня и сменили завтра.

Связка с MCP / контекстным слоем

Корпоративную базу знаний подключаем к агентам через MCP как стандартный источник: RAG отвечает за «что знаем», MCP — за «как агент это берёт». Оба слоя отчуждаемы и переиспользуемы.

Работа за LLM & Security Gateway

Retrieval и обращения к модели проходят через шлюз: маршрутизация моделей, бюджеты, observability и обфускация ПДн перед отправкой — корпоративные знания не утекают наружу.

Фундамент для AI-агентов

Агенты, которые обслуживают пользователей и вводят данные, опираются на RAG как на источник истины — это превращает «болтливого» ассистента в инструмент, отвечающий по фактам компании.

Увязка с платформой Sloy

RAG/LLM-wiki встраивается в Sloy как слой корпоративной памяти для enterprise-управления агентами: единое хранилище знаний, grounding и провенанс под несколькими агентами и сценариями.