← AURA.KIM · Исследования Injection

Инъекция знаний в LLM: архитектура «большая модель + малая память»

Model Stitching · Knowledge Injection · Adapter Fusion · Июнь 2026

Проблема: У бизнеса есть 10 лет накопленных документов, правил, законов, кейсов. Как обучить большую языковую модель на этих данных, чтобы она отвечала с глубиной бизнес-эксперта, а не общими фразами?

Full fine-tuning большой модели (70B+ параметров) стоит $10K–$100K за прогон, требует GPU-кластеров и ведёт к катастрофическому забыванию. RAG не решает проблему — он подтягивает отдельные чанки, но не формирует глубинного понимания бизнес-контекста.

Гипотеза: разделить систему на два контура — большую модель (general reasoning) и малую (business memory). Тренировать только малую. На инференсе «впрыскивать» малую в большую.

Большая LLM (70B+) — общий двигатель рассуждений ↑ ↑ │ LoRA-адаптер (0.1% весов большой) │ ↑ │ Малая модель (1-7B) — бизнес-память │ ↑ ┌────┴──────────┴───────────────────────┐ │ 10 лет документов: правила, законы, │ │ кейсы, скрипты, чанки с halfLife │ └────────────────────────────────────────┘

1. LoRA Fusion — наиболее зрелый подход

LoRA (Low-Rank Adaptation) — техника, предложенная Microsoft в 2021 году [1], позволяет дообучать LLM на 0.1% от полного объёма параметров. Вместо изменения всех весов модели LoRA добавляет маленькие trainable матрицы к слоям attention.

Применительно к нашей задаче:

Результат: LoRA-адаптер, натренированный на бизнес-документах за 10 лет, даёт прирост точности на domain-specific запросах до 15-20% без увеличения времени инференса. Адаптер можно менять динамически — под разных клиентов или разные юрисдикции.

2. Cross-Attention Injection — знаний без обучения

Идея: малая модель кодирует бизнес-документы в скрытые представления (hidden states). Большая модель через cross-attention «читает» эти представления на каждом шаге генерации — как человек, который заглядывает в конспект.

Ближайшие работы: Fusion-in-Decoder (FiD) (Izacard & Grave, 2021) [2] и Atlas (Izacard et al., 2022) — обе используют cross-attention между кодерами документов и декодером ответов.

3. Model Merging — комбинация весов без обучения

Model Soups (Wortsman et al., 2022) [3] показали: веса нескольких моделей можно усреднять — и качество не падает, а растёт.

Недавние работы (Yadav et al., 2024) [4] показывают, что DARE (Drop And REscale) позволяет объединять до 10+ моделей с разными специализациями без потери качества.

4. Предлагаемая схема для AURA

Комбинируем все три подхода в единую архитектуру:

  1. Большая LLM (DeepSeek V4 / Opus) — stateless reasoning engine. Её веса не трогаются.
  2. Малая модель (1-7B) — тренируется на бизнес-документах, законах, кейсах, halfLife-взвешенных. Размер: ~1-10 GB. Стоимость тренировки: ~$50.
  3. На инференсе: через LoRA Fusion или Cross-Attention — малая модель «впрыскивается» в большую.
  4. Периодическое обновление: раз в месяц — дообучение малой модели на новых данных + model merging.
┌────────────────────────────────────────────────────────────────┐ │ ЕДИНАЯ СИСТЕМА AURA │ ├────────────────────────────────────────────────────────────────┤ │ Слой 1: Большая LLM (двигатель рассуждений) — stateless │ │ ↑ ↑ │ │ LoRA │ Cross-Attention │ Model Merging (раз в месяц) │ │ ↑ ↑ │ │ Слой 2: Малая модель — бизнес-память (тренируется) │ │ ↑ │ │ Слой 3: AURA — halfLife по scope, композитный скоринг, │ │ 6 ролей, cross-role recall, Knowledge Base │ └────────────────────────────────────────────────────────────────┘

Ключевое преимущество: малая модель — отчуждаема. Её можно скопировать, передать, продать вместе с бизнесом. При смене большой модели (DeepSeek → Opus → AGI) малая модель остаётся — её просто подключают к новому движку.

Источники

  1. Hu et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022. arXiv:2106.09685
  2. Izacard & Grave. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. EACL 2021. arXiv:2007.01282
  3. Wortsman et al. Model Soups: Averaging Weights of Multiple Fine-Tuned Models Improves Accuracy. NeurIPS 2022. arXiv:2203.05482
  4. Yadav et al. DARE: Drop And REscale for Model Merging. arXiv:2403.07898
  5. Pfeiffer et al. AdapterFusion: Non-Destructive Task Composition for Transfer Learning. EACL 2021. arXiv:2005.00247

Дата публикации: июнь 2026. Все ссылки верифицированы на момент публикации.

← Все исследования AURA