AI-инструменты
RAG — корпоративная база знаний, которой можно доверять
Сотрудники тратят до 19–30% рабочего дня на поиск информации, а LLM без доступа к вашим данным выдумывает ответы. RAG-стек KT.
RAG — это не «чат с PDF», а слабосвязанный слой корпоративной памяти: retrieval, векторное хранилище, чанкинг и реранкинг поверх ваших вики и регламентов, где каждый ответ заземлён на проверяемый источник и отчуждаем от конкретного вендора модели.
AI-контур
AI-ассистент должен брать действие, а не просто отвечать текстом
Сквозной тезис AI-блока: пилот с измеримым эффектом, приватные данные под контролем, действия агента журналируются, качество проходит evals перед расширением.
Ассистент ≠ чат-бот
Чат-бот отвечает; ассистент проверяет регламент, ходит в системы, фиксирует отклонение и предлагает следующий шаг.
Control plane
Реестр агентов, владелец, права, память, evals, trace logs, kill-switch и бюджет на уровне enterprise-контура.
Данные
RAG даёт ответ со ссылкой на источник; LLM Gateway обфусцирует ПДн до модели и восстанавливает после ответа.
Отраслевые решения
Что можно сделать на RAG
Возможности
Возможности RAG
Retrieval поверх корпоративных источников
Модель отвечает по вашим документам, вики и базам, а не по «памяти» из интернета — сотрудник получает ответ за секунды вместо часов поиска по 19–30% потерянного дня.
Grounding и ссылки на источник
Каждый ответ показывает, из какого документа он взят — ответы проверяемы, а галлюцинации отсекаются на уровне архитектуры, а не уговоров модели.
Векторное хранилище (pgvector / Qdrant)
Семантический поиск по миллионам фрагментов: находит ответ по смыслу, а не по точному совпадению слов. pgvector — когда данные уже в Postgres, Qdrant — когда нужен высоконагруженный поиск с фильтрами.
Чанкинг и подготовка контента
Документы режутся на осмысленные фрагменты с метаданными — модель получает «меньше, но точнее» контекста, что напрямую поднимает релевантность и снижает стоимость запроса.
Реранкинг (cross-encoder)
Второй этап переупорядочивает кандидатов по реальной релевантности: recall@10 растёт с 74% до 89%, точность ответов — на 33–40% за ~120 мс. Высокий ROI при минимальной задержке.
LLM-wiki — слой выверенных ответов
Дополнение к RAG: поверх стека ведём выверенную корпоративную wiki, и на критичные вопросы система отдаёт заранее проверенный ответ — это ещё сильнее снижает галлюцинации.
RAG для поддержки и сотрудников
40–50% рутинных обращений закрываются автоматически с источником в ответе; внутренний ассистент сокращает время поиска регламента с минут до секунд.
Слабосвязанный, отчуждаемый стек
Хранилище, retrieval и модель разнесены: можно сменить LLM или векторную БД, не переписывая всё. Решение легко передать между командами и подрядчиками — без vendor-lock.
Оценка качества и анти-галлюцинации
Метрики precision@K, provenance coverage и hallucination rate встроены в пайплайн — качество ответов измеряется, а не декларируется, и не деградирует молча после изменений.
Подход
Как мы внедряем RAG
Минимальная модификация ядра
Не форкаем и не патчим ядро RAG. RAG остаётся на стандартной обновляемой версии — бизнес-логику выносим в отдельные микросервисы рядом, поэтому обновления платформы не ломают ваши доработки.
Международные стандарты, а не велосипеды
Там, где есть зрелое международное решение, используем его, а не изобретаем собственный протокол или платформу. Прежде чем писать код — изучаем, как задача уже решена в индустрии.
Отчуждаемость
Решение слабосвязанное и задокументированное: его можно передать между командами и подрядчиками без переписывания. Вы не привязаны к нам.
Совместимость с AI
RAG в AI-контуре
Grounding для любой LLM
RAG-слой подаёт проверенный контекст в модель (GPT, Claude, open-source) — заземляет ответы на ваши данные независимо от того, какую LLM вы используете сегодня и сменили завтра.
Связка с MCP / контекстным слоем
Корпоративную базу знаний подключаем к агентам через MCP как стандартный источник: RAG отвечает за «что знаем», MCP — за «как агент это берёт». Оба слоя отчуждаемы и переиспользуемы.
Работа за LLM & Security Gateway
Retrieval и обращения к модели проходят через шлюз: маршрутизация моделей, бюджеты, observability и обфускация ПДн перед отправкой — корпоративные знания не утекают наружу.
Фундамент для AI-агентов
Агенты, которые обслуживают пользователей и вводят данные, опираются на RAG как на источник истины — это превращает «болтливого» ассистента в инструмент, отвечающий по фактам компании.
Увязка с платформой Sloy
RAG/LLM-wiki встраивается в Sloy как слой корпоративной памяти для enterprise-управления агентами: единое хранилище знаний, grounding и провенанс под несколькими агентами и сценариями.
Проекты
Кейсы
AI-распознавание составов по штрихкоду
- Обработка ускорилась с 30 минут до 2 на партию из 10 изображений
- Точность распознавания состава составляет 80–95%
OSNO-VA: ИИ-бухгалтер
- Собрали AI-платформу
AI-аналитика рынка недвижимости
- Спроектировали ассистента
Контакты
Давайте обсудим ваш проект
Оставьте актуальные контакты и опишите задачу. Мы вернемся с уточняющими вопросами и предложением по следующему шагу.


