← К списку исследований
LLM + Agent + RAG + AURA: Четыре поколения AI-архитектур для бизнеса
Автор: Alexey Voronin, Aurum Estate LLC ·
Категория: Software Engineering ·
Дата: Июнь 2026
Ключевые слова: LLM, multi-agent, RAG, SML, self-learning, micro-model, privacy-preserving AI
О чём эта статья. Мы сравниваем три подхода к построению бизнес-консультанта на основе языковых моделей: от простого чата до полностью автономной архитектуры с собственной микро-моделью бизнеса. Все данные основаны на реальном эксперименте: 1302 документа из 4 агентств недвижимости → обучение микро-модели размером 793 KB → 0 сохранённого текста.
1. Постановка задачи
Любой бизнес накапливает документы: договоры, скрипты, регламенты, финансовые отчёты, клиентские кейсы. Задача бизнес-консультанта — отвечать на вопросы сотрудников на основе этих документов.
На первый взгляд, задача решается просто: дать ChatGPT документы и спросить. Но на практике каждый следующий слой архитектуры добавляет качественно новую способность, которой нет у предыдущего.
2. Уровень 1: LLM (Чат с языковой моделью)
Самая простая архитектура: пользователь пишет вопрос, LLM отвечает из своих весов.
Запрос: "какую комиссию ставить?"
↓
LLM → "Обычно 3-5%, зависит от рынка"
Плюсы
- Минимум инфраструктуры: одна модель, один API
- Быстрый ответ: один forward pass
- Не хранит никаких данных бизнеса
Минусы
- Не знает ваш бизнес — отвечает как "в интернете пишут"
- Не может сказать, какая комиссия именно в вашем агентстве
- Не помнит предыдущие решения
- Не может сгенерировать документ по вашему шаблону
Ограничение LLM без доступа к данным бизнеса — это калькулятор без цифр. Он знает математику, но не знает ваш баланс.
3. Уровень 2: LLM + Agent + RAG
Добавляем Agent (оркестратор) и RAG (Retrieval-Augmented Generation). Agent получает запрос, ищет релевантные документы в базе знаний, и LLM формулирует ответ на основе найденного.
Запрос: "какую комиссию ставить?"
↓
Agent → поиск по документам
↓
RAG → нашёл: договор №45.txt "комиссия 3%",
кейс case-001 "клиент торговался",
прайс-лист 2026
↓
LLM → "В вашем агентстве стандартная комиссия 3%.
Клиенты часто торгуются — вот скрипт отработки."
Плюсы
- Ответ основан на реальных документах бизнеса
- Высокая точность (Recall@10: 45–60% в зависимости от K)
- Цитирует источники — можно проверить
- Масштабируется добавлением новых документов
Минусы
- Хранит все документы в открытом виде (паспорта, суммы, телефоны)
- Размер базы линейно растёт с числом документов (1302 дока → ~650 MB)
- Не понимает контекст бизнеса — просто ищет по ключевым словам
- Не самообучается — каждый новый документ требует переиндексации
- Старые документы не демпфируются — договор 2017 года и 2026 года равнозначны
Проблема RAG решает задачу точности, но создаёт проблему приватности. 650 MB текста с паспортными данными в открытой SQLite — это не security, это hope-ware.
4. Уровень 3: LLM + Agent + RAG + AURA
AURA добавляет поверх Agent+RAG три недостающих слоя:
- SML (Small Model Learner) — микро-модель, обученная на всех документах бизнеса, но хранящая только веса (793 KB, ноль текста)
- 5-уровневая память (Rules → Documents → Vectors → Internet → SML)
- Самообучение — каждый новый документ дообучает SML за ~3 секунды
Запрос: "какую комиссию ставить?"
↓
AURA (5 слоёв памяти):
├─ Rules: "комиссия 3% — стандарт агентства"
├─ Documents: договор №45.txt
├─ Vectors: похожие кейсы (cosine similarity)
├─ Internet: новости рынка (по необходимости)
└─ SML: "запрос похож на тему 'комиссия' (p=24%),
в бизнесе типичный ответ 3%,
связанные темы: возражения, договоры"
↓
Agent → собирает всё + запускает процессы
↓
LLM → формулирует ответ + генерирует документ
Что даёт SML
| Характеристика | LLM | +Agent+RAG | +AURA (SML) |
| Знает ваш бизнес | ❌ | ✅ через чанки | ✅ через веса |
| Хранит ваши данные | ❌ | ✅ 650 MB текста | ❌ 793 KB весов |
| Приватность | ✅ | ❌ данные открыты | ✅ не восстановить |
| Самообучение | ❌ | ❌ (нужен реиндекс) | ✅ 3 сек на документ |
| Размер базы | 0 | 650 MB | 0.8 MB |
| Скорость поиска | — | 50–200 мс | 2 мс |
| Half-life демпфирование | ❌ | ❌ | ✅ |
| Генерация документов | ❌ | ❌ | ✅ |
5. Экспериментальные результаты
Мы провели эксперимент на реальных документах 4 агентств недвижимости:
Методология
- Датасет: 1302 документа (договоры, скрипты, рынок, регламенты, книги, реклама)
- Эмбеддинги: nomic-embed-text через Ollama (768d)
- Модель: 2-слойная нейросеть (768 → 256 → 13 классов), 203 032 параметра
- Сравнение: 80/20 train/test split, 300 эпох, SGD с затуханием
Результаты
| Метрика | LLM | +Agent+RAG | +AURA (SML) |
| Точность ответа | ~20% (generic) | ~80% (по документам) | ~51% (классификация) + RAG |
| Приватность | 100% | 0% (текст в БД) | 100% (только веса) |
| Размер хранилища | 0 | 650 MB | 0.79 MB |
| Stale suppression | — | 0% (не различает старые/новые) | 100% (half-life decay) |
| Время индексации | 0 | ~5 мин (весь датасет) | ~3 сек на новый док |
| Данные в весах | — | — | 0 байт текста |
Ключевое открытие: SML не заменяет RAG — он дополняет его. RAG отвечает на вопрос по конкретным документам. SML говорит Agent'у: "этот запрос похож на тему X, ищи в области Y, типичный ответ Z". RAG без SML — слепой поиск. SML без RAG — догадка без источника.
6. Безопасность данных
Главное преимущество SML перед RAG — приватность. Ни один документ не сохраняется в явном виде:
Проверка весов SML:
├── Размер: 793 KB (только float32)
├── Текст "паспорт" в весах: ❌ не найден
├── Текст "договор" в весах: ❌ не найден
├── Текст "Иван" в весах: ❌ не найден
└── Вывод: ИЗ ВЕСОВ НЕЛЬЗЯ
ВОССТАНОВИТЬ НИ ОДИН
ИСХОДНЫЙ ДОКУМЕНТ
Это принципиальное отличие от RAG, где SELECT content FROM memory_entries возвращает полный текст каждого чанка.
7. Выводы
Каждый уровень архитектуры необходим
- LLM — двигатель. Без неё ничего не работает. Но она не знает ваш бизнес.
- Agent — мозжечок. Оркестрирует процессы, запускает генерацию документов.
- RAG — библиотека. Даёт точные цитаты по запросу. Но хранит всё открытым текстом.
- AURA (SML) — навигатор. Статистическая проекция бизнеса, приватная и самообучающаяся.
Формула идеального бизнес-консультанта
LLM + Agent + RAG + AURA(SML + 5-layer memory + self-learning)
= двигатель + оркестратор + библиотека + навигатор
Для бизнеса это значит
- Можно загрузить все документы компании — и забыть про утечку данных
- Микро-модель не содержит ни одной фамилии, ни одной суммы сделки
- Она содержит только статистику: "в этом бизнесе средний чек 8-15 млн, типичное возражение X, алгоритм отработки Y"
- Новый сотрудник = 3 секунды на дообучение модели
- Конкуренты, укравшие базу данных, получат 793 KB float32 — и ничего больше
Ссылки
AURA: A Decoupled, State-Externalized Architecture — полная архитектурная статья (англ.)
github.com/alexenti-code/AURA — репозиторий проекта
SML: Small Model Learner — экспериментальные данные — метрики и графики
Эксперимент проведён в июне 2026. Датасет: АГЕНТСТВО1, АГЕНТСТВО2, АГЕНТСТВО7, AURA knowledge. Общий объём: 1302 документа. Микро-модель: 203 032 параметра, 793 KB, Apache 2.0.