← AURA.KIM · Исследования Архитектура памяти

Архитектура AURA:
как победить деградацию памяти в мультиагентных ИИ-системах

Advanced Unified Retrieval Architecture · Июнь 2026

В индустрии искусственного интеллекта долгое время доминировал подход «train-then-deploy» (обучи и разверни). Однако в сценариях долгосрочного взаимодействия с бизнесом классические LLM сталкиваются с фундаментальными барьерами: бесконечным раздуванием KV-кэша, затуханием контекста и потерей фокуса.

Попытки решить эту проблему через интеграцию агентов часто приводят к так называемой автофагии (Autophagy) — феномену, когда модели, непрерывно обучаясь на собственных же данных и синтетических запросах, замыкаются в «эхо-камерах» и стремительно деградируют уже через 3–4 цикла.

AURA (Advanced Unified Retrieval Architecture) предлагает решение этой проблемы за счёт разделения когнитивных обязанностей на шесть специализированных ролей и внедрения асинхронных контуров самооптимизации.

1. Математический фундамент памяти AURA

Вместо линейного вытеснения старых сообщений из контекста, AURA использует концепцию динамического полураспада (halfLife по scope) и композитного скоринга. Каждому кванту памяти присваивается временной вес, зависящий от его контекстной области (scope).

Данные профиля пользователя (scope = user_profile) обладают практически бесконечным периодом полураспада, в то время как технические переменные текущей сессии (scope = session_task) затухают за считанные минуты.

Композитный скоринг

При каждом входящем запросе система осуществляет многофакторный гибридный поиск, балансируя параметры с помощью настраиваемых коэффициентов:

Score = α · semantic + β · recency + γ · importance

Запрос не передаётся в базу данных «вслепую». Слой агентской классификации (Agentic Intent Classification) предварительно определяет намерение пользователя и динамически пересчитывает коэффициенты α, β, γ. Для запроса «Что мы решили на вчерашнем созвоне?» классификатор максимизирует вес свежести (β). Для вопроса «Каковы базовые правила безопасности?» — вес важности (γ).

2. Шесть когнитивных ролей: от исполнения к самообучению

Главный барьер мультиагентных систем — изолированность памяти агентов. В AURA реализован механизм cross-role recall, позволяющий разным ролям извлекать инсайты из единой базы данных, стирая границы между контекстами смежных задач.

  1. Colleague (Исполнитель / RAG): фронтенд системы. Отвечает пользователю, используя текущий слепок знаний, при необходимости — контролируемый выход в веб.
  2. Intern (Синтетический Генератор / Эволюционер): непрерывно «атакует» систему. Генерирует каверзные, пограничные вопросы по специфике бизнеса для расширения покрытия памяти.
  3. Teacher (Валидатор & Тренер памяти): фильтрует бред от Intern. Оценивает применимость новых знаний и обновляет базу, прописывая базовые веса importance.
  4. Executor (Автономный Инженер / Кодер): анализирует неэффективность алгоритмов извлечения данных (частые промахи RAG) и самостоятельно пишет патчи для мета-конфигурации системы.
  5. Researcher (Мультиагентный Аудитор): осуществляет мониторинг телеметрии и логов, выявляет системные паттерны деградации и активирует контуры оптимизации.
  6. Mentor (Утверждающий / Guardrail): финальный рубеж контроля. Верифицирует изменения в коде от Executor на основе жестких математических ограничений.

3. Трёхконтурная модель выполнения: баланс скорости и чистоты

Каждое добавление новой роли в систему увеличивает количество шагов генерации текста и усложняет граф вызовов. Если в системе из трёх ролей цепочка рассуждений линейна O(N), то введение перекрёстной валидации порождает циклы обратной связи, превращая стоимость вычислений в экспоненциальную зависимость O(K^N).

[Пользователь] ── Запрос ──► ┌────────────────────────┐ │ Горячий контур (Online)│ ──► Ответ (~200ms) │ Colleague (RAG) │ └────────────────────────┘ │ Логи тестов ▼ ┌────────────────────────┐ │ Тёплый контур │ ◄── Генерация тестов (Intern) │ (Near-line) │ │ Teacher (Валидатор) │ ──► Коррекция весов памяти └────────────────────────┘ │ Метрики точности < 0.80 ▼ ┌────────────────────────┐ │ Холодный контур │ │ (Offline / Nightly) │ │ Executor (Кодер) │ ──► Генерация патча │ │ │ │ ▼ │ │ Mentor (Guardrail) │ ──► Валидация и деплой └────────────────────────┘

Заключение

Масштабирование ролей (3 → 6 → 9 → 12) подчиняется закону убывающей доходности. Переход от 3 ролей к 6 позволяет закрыть уязвимость марковских цепей и отсечь системный шум, поднимая чистоту памяти с пограничных 75% до контролируемых 92–95%. Дальнейшее расширение штата агентов до 9 или 12 ролей даёт минимальный прирост точности, но драматически бьёт по времени инференса и бюджетам.

Архитектурный паттерн 6 ролей с асинхронным разделением контуров на сегодняшний день является наиболее эффективным и безопасным решением для создания вечной корпоративной памяти ИИ-агентов.

← Все исследования AURA