Изменилось пространство меток (1000 классов ImageNet → 5 типов клеток) — пересобираем финальный классификатор. Тело сети (backbone) сохраняет предобученные веса.
В 10–100 раз меньше, чем при обучении с нуля — иначе предобученные признаки сотрутся за первую эпоху (catastrophic forgetting). Опционально — discriminative LR.
Full fine-tuning не помещается на одну GPU. Состояние оптимизатора само по себе в 4 раза больше модели.
По одной дообученной копии на каждую задачу = много полных копий огромной модели. Не масштабируется.
W — замороженные предобученные веса. A и B образуют low-rank поправку ΔW = BA — обычно ранг 4–16, не зависит от размера модели.
Эмпирически: поправка, нужная для адаптации предобученной модели, имеет низкий внутренний ранг. Полная матрица d×d не нужна — даже для GPT-3 (d = 12288) хватает r = 1–8.
Инструкции и 2–10 примеров в промпте.
Автоматический поиск релевантных кусков текста в базе данных.
Вызываемые функции (BLAST, AlphaFold, БД). Модель сама решает, когда вызывать.
Переиспользуемые наборы инструкций под задачу.