Адаптация моделей

transfer learning foundation models fine-tuning PEFT in-context learning
2 / 8

Transfer learning

INPUT 224 × 224 CONV 1 края, цвета CONV 2 текстуры CONV 3 части объектов CONV 4 целые объекты FC + HEAD классификатор cat 0.82 dog 0.11 … 0.07 OUTPUT 1000 classes ПЕРЕНОСИМЫЕ СПЕЦИФИЧНЫЕ ДЛЯ ЗАДАЧИ СЛОЖНОСТЬ ПРЕДСТАВЛЕНИЙ низкая средняя высокая
фундаментальная идея Низкоуровневые признаки универсальны; высокоуровневые — специфичны для задачи.
refs Yosinski et al. 2014 — How transferable are features in deep neural networks? Zeiler & Fergus 2014 — Visualizing and Understanding Convolutional Networks
3 / 8

Foundation models

с нуля
Узкоспециализированная модель
Обучена под одну задачу — полезна только для неё. Новая задача → обучение с нуля.
data train one task
transfer learning
Foundation model → много задач
Предобучена на большом датасете на доступной задаче — выученные представления используются для downstream-задач.
FM task A task B task C…
CNN / ViTмикроскопия, гистология, медицинские снимки
CLIPпоиск картинка↔текст, zero-shot классификация
DNABERT, NTгеномика, регуляторные элементы
ESM-2, ProtBERTфункции белков, эффекты мутаций
Первый вопрос в начале нового проекта: есть ли foundation model для моей модальности?
4 / 8

Fine-tuning — это спектр

меньше переобучения
меньше catastrophic forgetting
нужно больше данных и вычислений
больше возможностей для специализации
Linear probe
Последний блок
Верхняя половина
Full fine-tuning
01

Заменить head

Изменилось пространство меток (1000 классов ImageNet → 5 типов клеток) — пересобираем финальный классификатор. Тело сети (backbone) сохраняет предобученные веса.

02

Меньший learning rate

В 10–100 раз меньше, чем при обучении с нуля — иначе предобученные признаки сотрутся за первую эпоху (catastrophic forgetting). Опционально — discriminative LR.

refs Howard & Ruder 2018 — Universal Language Model Fine-tuning for Text Classification (ULMFiT) Kirkpatrick et al. 2017 — Overcoming catastrophic forgetting in neural networks (EWC)
5 / 8

Модели стали слишком большими для fine-tuning

AlexNet
60M · 2012
BERT
110M · 2018
GPT-2
1.5B · 2019
GPT-3
175B · 2020
ESM-2
15B · 2022
DeepSeek-V4
1.6T · 2026
7B параметров, full fine-tuning, Adam, fp16 → ~80 ГБ GPU-памяти (веса + градиенты + состояние оптимизатора).
Проблема 1 — память

Full fine-tuning не помещается на одну GPU. Состояние оптимизатора само по себе в 4 раза больше модели.

Проблема 2 — хранение

По одной дообученной копии на каждую задачу = много полных копий огромной модели. Не масштабируется.

Можно ли адаптировать модель, не обновляя её основные веса?
6 / 8

PEFT: parameter-efficient fine-tuning

x W FROZEN · d×d + h A d × r B r × d TRAINABLE · r ≪ d

Математика

h = Wx + BAx

W — замороженные предобученные веса. A и B образуют low-rank поправку ΔW = BA — обычно ранг 4–16, не зависит от размера модели.

Почему это работает

Эмпирически: поправка, нужная для адаптации предобученной модели, имеет низкий внутренний ранг. Полная матрица d×d не нужна — даже для GPT-3 (d = 12288) хватает r = 1–8.

refs Houlsby et al. 2019 — Parameter-Efficient Transfer Learning for NLP (Adapters) Hu et al. 2021 — LoRA: Low-Rank Adaptation of Large Language Models Han et al. 2024 — Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey HuggingFace — peft library (huggingface.co/docs/peft)
7 / 8

Context engineering — адаптация LLM без обучения

задача пользователя
Запрос
harness
Контекст
prompt + найденные документы + tool definitions + skill instructions
замороженные веса
LLM
❄ градиенты не считаются
ответ / действие
Output
Что попадает в контекст:
01
Prompting

Инструкции и 2–10 примеров в промпте.

02
RAG

Автоматический поиск релевантных кусков текста в базе данных.

03
Tools

Вызываемые функции (BLAST, AlphaFold, БД). Модель сама решает, когда вызывать.

04
Skills

Переиспользуемые наборы инструкций под задачу.

refs Brown et al. 2020 — Language Models are Few-Shot Learners (GPT-3) Lewis et al. 2020 — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Yao et al. 2023 — ReAct: Synergizing Reasoning and Acting in Language Models Anthropic 2025 — Effective Context Engineering for AI Agents
8 / 8

Три семейства адаптации

Обучение с нуля
Нет foundation model для вашей модальности
Узкоспециализированная модельданные + архитектура + много вычислений
Fine-tuning
FM есть · есть размеченные данные · веса можно обновлять
Linear probeмаленький датасет, тело заморожено
PEFT (LoRA, adapters)модель слишком большая для full fine-tuning
Full fine-tuningданных хватает, модель влезает в память
Context engineering
LLM · веса обновлять не нужно
Promptingинструкции + примеры
RAGпоиск и подстановка документов
Toolsвызываемые функции
Skillsнаборы инструкций под задачу