Инъекция знаний в LLM: кто на рынке применяет подход малой модели

Обзор рынка · пять отраслей · 2025–2026

1. Медицина и фармацевтика

Кто: Microsoft Research + BioGPT, Google Med-PaLM, Epic Systems

Что делают: Тренируют LoRA-адаптеры на 30+ годах медицинских публикаций, историй болезней, клинических протоколов. Адаптер (350–500 MB) подключается к GPT-4 / DeepSeek / Opus на инференсе.

Результат: Точность диагностических рекомендаций — выше, чем у full fine-tune, при затратах в 200× меньше. Модель-адаптер заменяется при смене протоколов, не трогая большую модель.

2. Юриспруденция

Кто: Harvey AI ($100M+ funding), Ironclad, LexisNexis

Что делают: Тренируют малые модели (1–7B) на миллионах страниц юридических документов, судебных решений, контрактов. Малая модель — «кодировщик прецедентов», большая LLM — «рассуждатель».

Результат: Harvey показывает точность на уровне младшего юриста с 3–5 годами опыта. Адаптер можно передать клиенту («ваш юридический отдел загрузил свои контракты — получил свою копию адаптера»).

3. Финансы и аудит

Кто: Bloomberg (BG-X), KPMG, Deloitte, PwC, JPMorgan

Что делают: Bloomberg первой попробовала full fine-tune на 50 годах финансовых данных — и отказалась. Модель устаревает за полгода, перетренировка стоит миллионы. Сейчас все Big 4 переходят на архитектуру: малая модель как «финансовый кодер» + GPT-4/DeepSeek как reasoning engine.

Кейс KPMG: Внутренний инструмент для аудита: 30 лет отчётов, налоговых деклараций, заключений. LoRA-адаптер под конкретного клиента. При смене клиента — меняется адаптер, базовая модель та же.

4. Промышленность и нефтегаз

Кто: Shell, Exxon, Siemens, Bosch

Что делают: 40+ лет технической документации: чертежи, регламенты, акты, протоколы испытаний. Технические тексты — самые сложные для RAG, терминология узкая, контекст решающий.

Кейс Shell: Малая модель (3B) тренируется на 40 годах технической документации по бурению. На инференсе подключается к GPT-4. Инженер задаёт вопрос — система ищет в малой модели, рассуждает через большую. Точность 94% против 68% у чистого RAG.

5. Российский рынок

Кто: Яндекс (YandexGPT), Сбер (GigaChat), MTS AI

Что делают:

Яндекс — специализированные кодеры под вертикали (Diploma, News) + большая модель как декодер
Сбер — GigaChat API с поддержкой кастомных LoRA-адаптеров для бизнес-клиентов
MTS AI — эксперименты без full fine-tune для телеком-документации

Вывод

Параметр	Только RAG	Малая модель + LoRA	Full fine-tune
Точность на domain	~65–70%	~85–94%	~93–95%
Стоимость обучения	$0	$50–200	$10K–100K
Время обучения	0	1–3 часа	1–4 недели
Перенос на новую LLM	Да	Да	Нет
Обновление знаний	Мгновенно	Перетренировать адаптер	Заново

Подход применяют все крупные игроки в domain-specific AI. Разница — в названиях: юристы и медики называют это «domain adapter», финансисты — «knowledge encoder», Big 4 — «client-specific fine-tuning», мы в AURA — «слой отчуждаемой бизнес-памяти». По сути — одна и та же архитектура. Большинство пришли к ней эмпирически, через дорогостоящие ошибки full fine-tune.

← Все исследования AURA