LLM + Agent + RAG + AURA: Четыре поколения AI-архитектур для бизнеса

Автор: Alexey Voronin, Aurum Estate LLC · Категория: Software Engineering · Дата: Июнь 2026
Ключевые слова: LLM, multi-agent, RAG, SML, self-learning, micro-model, privacy-preserving AI

О чём эта статья. Мы сравниваем три подхода к построению бизнес-консультанта на основе языковых моделей: от простого чата до полностью автономной архитектуры с собственной микро-моделью бизнеса. Все данные основаны на реальном эксперименте: 1302 документа из 4 агентств недвижимости → обучение микро-модели размером 793 KB → 0 сохранённого текста.

1. Постановка задачи

Любой бизнес накапливает документы: договоры, скрипты, регламенты, финансовые отчёты, клиентские кейсы. Задача бизнес-консультанта — отвечать на вопросы сотрудников на основе этих документов.

На первый взгляд, задача решается просто: дать ChatGPT документы и спросить. Но на практике каждый следующий слой архитектуры добавляет качественно новую способность, которой нет у предыдущего.

2. Уровень 1: LLM (Чат с языковой моделью)

Самая простая архитектура: пользователь пишет вопрос, LLM отвечает из своих весов.

Запрос: "какую комиссию ставить?" ↓ LLM → "Обычно 3-5%, зависит от рынка"

Плюсы

Минимум инфраструктуры: одна модель, один API
Быстрый ответ: один forward pass
Не хранит никаких данных бизнеса

Минусы

Не знает ваш бизнес — отвечает как "в интернете пишут"
Не может сказать, какая комиссия именно в вашем агентстве
Не помнит предыдущие решения
Не может сгенерировать документ по вашему шаблону

Ограничение LLM без доступа к данным бизнеса — это калькулятор без цифр. Он знает математику, но не знает ваш баланс.

3. Уровень 2: LLM + Agent + RAG

Добавляем Agent (оркестратор) и RAG (Retrieval-Augmented Generation). Agent получает запрос, ищет релевантные документы в базе знаний, и LLM формулирует ответ на основе найденного.

Запрос: "какую комиссию ставить?" ↓ Agent → поиск по документам ↓ RAG → нашёл: договор №45.txt "комиссия 3%", кейс case-001 "клиент торговался", прайс-лист 2026 ↓ LLM → "В вашем агентстве стандартная комиссия 3%. Клиенты часто торгуются — вот скрипт отработки."

Плюсы

Ответ основан на реальных документах бизнеса
Высокая точность (Recall@10: 45–60% в зависимости от K)
Цитирует источники — можно проверить
Масштабируется добавлением новых документов

Минусы

Хранит все документы в открытом виде (паспорта, суммы, телефоны)
Размер базы линейно растёт с числом документов (1302 дока → ~650 MB)
Не понимает контекст бизнеса — просто ищет по ключевым словам
Не самообучается — каждый новый документ требует переиндексации
Старые документы не демпфируются — договор 2017 года и 2026 года равнозначны

Проблема RAG решает задачу точности, но создаёт проблему приватности. 650 MB текста с паспортными данными в открытой SQLite — это не security, это hope-ware.

4. Уровень 3: LLM + Agent + RAG + AURA

AURA добавляет поверх Agent+RAG три недостающих слоя:

SML (Small Model Learner) — микро-модель, обученная на всех документах бизнеса, но хранящая только веса (793 KB, ноль текста)
5-уровневая память (Rules → Documents → Vectors → Internet → SML)
Самообучение — каждый новый документ дообучает SML за ~3 секунды

Запрос: "какую комиссию ставить?" ↓ AURA (5 слоёв памяти): ├─ Rules: "комиссия 3% — стандарт агентства" ├─ Documents: договор №45.txt ├─ Vectors: похожие кейсы (cosine similarity) ├─ Internet: новости рынка (по необходимости) └─ SML: "запрос похож на тему 'комиссия' (p=24%), в бизнесе типичный ответ 3%, связанные темы: возражения, договоры" ↓ Agent → собирает всё + запускает процессы ↓ LLM → формулирует ответ + генерирует документ

Что даёт SML

Характеристика	LLM	+Agent+RAG	+AURA (SML)
Знает ваш бизнес	❌	✅ через чанки	✅ через веса
Хранит ваши данные	❌	✅ 650 MB текста	❌ 793 KB весов
Приватность	✅	❌ данные открыты	✅ не восстановить
Самообучение	❌	❌ (нужен реиндекс)	✅ 3 сек на документ
Размер базы	0	650 MB	0.8 MB
Скорость поиска	—	50–200 мс	2 мс
Half-life демпфирование	❌	❌	✅
Генерация документов	❌	❌	✅

5. Экспериментальные результаты

Мы провели эксперимент на реальных документах 4 агентств недвижимости:

Методология

Датасет: 1302 документа (договоры, скрипты, рынок, регламенты, книги, реклама)
Эмбеддинги: nomic-embed-text через Ollama (768d)
Модель: 2-слойная нейросеть (768 → 256 → 13 классов), 203 032 параметра
Сравнение: 80/20 train/test split, 300 эпох, SGD с затуханием

Результаты

Метрика	LLM	+Agent+RAG	+AURA (SML)
Точность ответа	~20% (generic)	~80% (по документам)	~51% (классификация) + RAG
Приватность	100%	0% (текст в БД)	100% (только веса)
Размер хранилища	0	650 MB	0.79 MB
Stale suppression	—	0% (не различает старые/новые)	100% (half-life decay)
Время индексации	0	~5 мин (весь датасет)	~3 сек на новый док
Данные в весах	—	—	0 байт текста

Ключевое открытие: SML не заменяет RAG — он дополняет его. RAG отвечает на вопрос по конкретным документам. SML говорит Agent'у: "этот запрос похож на тему X, ищи в области Y, типичный ответ Z". RAG без SML — слепой поиск. SML без RAG — догадка без источника.

6. Безопасность данных

Главное преимущество SML перед RAG — приватность. Ни один документ не сохраняется в явном виде:

Проверка весов SML: ├── Размер: 793 KB (только float32) ├── Текст "паспорт" в весах: ❌ не найден ├── Текст "договор" в весах: ❌ не найден ├── Текст "Иван" в весах: ❌ не найден └── Вывод: ИЗ ВЕСОВ НЕЛЬЗЯ ВОССТАНОВИТЬ НИ ОДИН ИСХОДНЫЙ ДОКУМЕНТ

Это принципиальное отличие от RAG, где SELECT content FROM memory_entries возвращает полный текст каждого чанка.

7. Выводы

Каждый уровень архитектуры необходим

LLM — двигатель. Без неё ничего не работает. Но она не знает ваш бизнес.
Agent — мозжечок. Оркестрирует процессы, запускает генерацию документов.
RAG — библиотека. Даёт точные цитаты по запросу. Но хранит всё открытым текстом.
AURA (SML) — навигатор. Статистическая проекция бизнеса, приватная и самообучающаяся.

Формула идеального бизнес-консультанта

LLM + Agent + RAG + AURA(SML + 5-layer memory + self-learning)

= двигатель + оркестратор + библиотека + навигатор

Для бизнеса это значит

Можно загрузить все документы компании — и забыть про утечку данных
Микро-модель не содержит ни одной фамилии, ни одной суммы сделки
Она содержит только статистику: "в этом бизнесе средний чек 8-15 млн, типичное возражение X, алгоритм отработки Y"
Новый сотрудник = 3 секунды на дообучение модели
Конкуренты, укравшие базу данных, получат 793 KB float32 — и ничего больше

Ссылки

AURA: A Decoupled, State-Externalized Architecture — полная архитектурная статья (англ.)
github.com/alexenti-code/AURA — репозиторий проекта
SML: Small Model Learner — экспериментальные данные — метрики и графики

Эксперимент проведён в июне 2026. Датасет: АГЕНТСТВО1, АГЕНТСТВО2, АГЕНТСТВО7, AURA knowledge. Общий объём: 1302 документа. Микро-модель: 203 032 параметра, 793 KB, Apache 2.0.