Системы памяти в искусственном интеллекте: обзор рынка
Рынок AI в 2025–2026 годах переживает фундаментальный сдвиг. После бума генеративных моделей и «AI-агентов» выяснилось: модель без контекста и памяти бизнеса — это красивый, но почти бесполезный инструмент. Компании тратят миллионы на API AI-агентов, а через год понимают — результата нет.
Причина проста: LLM не помнит вчерашнего диалога, не накапливает знания компании, не учится на ошибках. Сессия начинается с нуля каждый раз.
В ответ на это сформировалось целое направление исследований — как дать нейросети долговременную память, которая не деградирует со временем. Мы проанализировали пять ключевых подходов и сравнили их с тем, как устроена AURA.
Titans (Google DeepMind, 2025)
Самая заметная работа периода. Google представила архитектуру, где нейронная сеть выступает как модуль долговременной памяти, динамически обновляющий свои веса прямо во время инференса.
Как это работает: на каждый входной токен модель решает: это важно? Это новое? Если да — запускает градиентный спуск и «запоминает» информацию в своих параметрах. Механизм data-dependent weight decay — веса затухают пропорционально объёму и новизне данных.
Результаты: на тесте needle-in-haystack (16K токенов) Titans показывает 80–96%, в то время как Mamba2 падает до 0–5%. Контекст до 2 млн токенов с сохранением точности.
Ограничения: требует градиентного спуска на каждом шаге — дорого. Пока не готово к продакшену. Риск деградации при долгой работе до конца не решён.
Fast Weight Programmers — универсальная математика
Группа исследователей доказала: почти все современные эффективные модели (Mamba2, RetNet, GLA, xLSTM, DeltaNet) — это математически один и тот же принцип: «веса, которые обновляются как градиентный спуск по локальной функции потерь». Разница между моделями — только в алгоритме обновления: что считать функцией потерь и как применять decay.
Вывод этой работы: выбор механизма памяти — это не архитектурное решение, а продуктовое. Все математические варианты уже открыты. Вопрос в том, как их применить к реальной задаче.
Absorber LLM и AllMem — тест-тайм обучение
Два параллельных подхода к одной задаче:
- Absorber LLM — «впитывает» исторический контекст в параметры модели через fine-tuning на лету. Константная сложность O(1) на токен, независимо от длины истории.
- AllMem — sliding window + test-time training (TTT) с механизмом anti-forgetting. 4K-окно достигает точности полного attention на 37K контексте.
Оба подхода — вариации одной идеи: обучаться на контексте, не перезаписывая всё, что было выучено раньше.
HDC / Vector Symbolic Architectures — альтернативный путь
Параллельно с нейросетевым подходом существует направление Hyperdimensional Computing (HDC). Вместо весов — высокоразмерные векторы (от 1024 до 10000 измерений). Информация кодируется не в градиентах, а в суперпозиции векторов через binding и bundling.
Плюсы: устойчивость к шуму, возможность суперпозиции множества знаний без конфликтов, интерпретируемость.
Минусы: низкая точность на сложных задачах, отсутствие в продакшене.
Исследование RESOLVE (2024) показало: основная проблема трансформеров — низкая размерность (768–4096) вызывает интерференцию между знаниями. HDC решает это простым увеличением размерности, но ценой производительности.
Как это соотносится с AURA
AURA — один из первых продуктов, реализующих принцип накопления бизнес-памяти не на уровне модели, а на уровне внешнего слоя с динамическим управлением знаниями.
| Технология | Уровень | Статус |
|---|---|---|
| Titans (Google) | Веса модели | Research |
| FWP | Математика | Теория |
| Absorber LLM | Веса модели | Research |
| AllMem | Веса модели | Research |
| HDC / VSA | Альтернативная архитектура | Research |
| AURA | Внешняя память + обвязка | Продукт (self-hosted) |
Система AURA обеспечивает преимущество перед конкурентами, перенося управление памятью с уровня архитектуры нейросетей (Google Titans) или простых векторных баз (Mem0/Zep) на системно-инженерный уровень. В отличие от аналогов, AURA гарантирует устойчивость к информационному шуму через контуры фильтрации, обеспечивает взаимозаменяемость LLM-ядер и поддерживает низкую стоимость масштабирования при высокой точности контекста.
Scope-based halfLife вместо weight decay. Google доказывает: data-dependent decay решает проблему забывания. Мы реализовали тот же принцип, но на уровне данных, а не весов. Законы (115-ФЗ) — halfLife 10 лет. Новости — 90 дней. Скрипты продаж — 2 года. Recency floor 0.05 — даже старые записи не обнуляются.
Agentic pipeline вместо единого update rule. FWP доказывает: разные алгоритмы обновления нужны для разных задач. Мы делаем то же самое: запрос про договор → документы. Про цену → база знаний. «Как быть» → прецеденты Mentor. Про новости → интернет.
Модель — расходник, знания — актив. Titans, Absorber, AllMem — все привязывают знания к весам конкретной модели. Сменить модель — потерять память. AURA хранит знания в независимом слое. Self-hosted SQLite, который можно скопировать и передать бизнесу.
Cross-role recall. Ни Titans, ни Absorber, ни Mem0 не передают знания между ролями. AURA делает это: решение Mentor автоматически доступно Colleague при ответе стажёру.
Выводы
- Принципы, которые исследователи доказывают в лабораториях (Titans, FWP, Absorber), AURA реализует уже сегодня — не в весах модели, а в слое обвязки. Дешевле, безопаснее, продукт готов.
- Прямых конкурентов на рынке нет. Mem0 — ближайший, но он облачный и без cross-role recall. Titans — ещё не продукт.
- Стратегия «держать знания в независимом слое» выигрывает. Потому что модель устареет через полгода, а знания бизнеса накапливаются годами.
- AURA — одна из первых операционных систем накопления знаний бизнеса, построенная на принципах, которые наука только начинает формулировать.
Читать следующую статью: Архитектура памяти: 6 ролей и business case →