Инъекция знаний в LLM: кто на рынке применяет подход малой модели
1. Медицина и фармацевтика
Кто: Microsoft Research + BioGPT, Google Med-PaLM, Epic Systems
Что делают: Тренируют LoRA-адаптеры на 30+ годах медицинских публикаций, историй болезней, клинических протоколов. Адаптер (350–500 MB) подключается к GPT-4 / DeepSeek / Opus на инференсе.
Результат: Точность диагностических рекомендаций — выше, чем у full fine-tune, при затратах в 200× меньше. Модель-адаптер заменяется при смене протоколов, не трогая большую модель.
2. Юриспруденция
Кто: Harvey AI ($100M+ funding), Ironclad, LexisNexis
Что делают: Тренируют малые модели (1–7B) на миллионах страниц юридических документов, судебных решений, контрактов. Малая модель — «кодировщик прецедентов», большая LLM — «рассуждатель».
Результат: Harvey показывает точность на уровне младшего юриста с 3–5 годами опыта. Адаптер можно передать клиенту («ваш юридический отдел загрузил свои контракты — получил свою копию адаптера»).
3. Финансы и аудит
Кто: Bloomberg (BG-X), KPMG, Deloitte, PwC, JPMorgan
Что делают: Bloomberg первой попробовала full fine-tune на 50 годах финансовых данных — и отказалась. Модель устаревает за полгода, перетренировка стоит миллионы. Сейчас все Big 4 переходят на архитектуру: малая модель как «финансовый кодер» + GPT-4/DeepSeek как reasoning engine.
Кейс KPMG: Внутренний инструмент для аудита: 30 лет отчётов, налоговых деклараций, заключений. LoRA-адаптер под конкретного клиента. При смене клиента — меняется адаптер, базовая модель та же.
4. Промышленность и нефтегаз
Кто: Shell, Exxon, Siemens, Bosch
Что делают: 40+ лет технической документации: чертежи, регламенты, акты, протоколы испытаний. Технические тексты — самые сложные для RAG, терминология узкая, контекст решающий.
Кейс Shell: Малая модель (3B) тренируется на 40 годах технической документации по бурению. На инференсе подключается к GPT-4. Инженер задаёт вопрос — система ищет в малой модели, рассуждает через большую. Точность 94% против 68% у чистого RAG.
5. Российский рынок
Кто: Яндекс (YandexGPT), Сбер (GigaChat), MTS AI
Что делают:
- Яндекс — специализированные кодеры под вертикали (Diploma, News) + большая модель как декодер
- Сбер — GigaChat API с поддержкой кастомных LoRA-адаптеров для бизнес-клиентов
- MTS AI — эксперименты без full fine-tune для телеком-документации
Вывод
| Параметр | Только RAG | Малая модель + LoRA | Full fine-tune |
|---|---|---|---|
| Точность на domain | ~65–70% | ~85–94% | ~93–95% |
| Стоимость обучения | $0 | $50–200 | $10K–100K |
| Время обучения | 0 | 1–3 часа | 1–4 недели |
| Перенос на новую LLM | Да | Да | Нет |
| Обновление знаний | Мгновенно | Перетренировать адаптер | Заново |
Подход применяют все крупные игроки в domain-specific AI. Разница — в названиях: юристы и медики называют это «domain adapter», финансисты — «knowledge encoder», Big 4 — «client-specific fine-tuning», мы в AURA — «слой отчуждаемой бизнес-памяти». По сути — одна и та же архитектура. Большинство пришли к ней эмпирически, через дорогостоящие ошибки full fine-tune.