Адаптация моделей

transfer learning foundation models fine-tuning PEFT in-context learning

2 / 8

Transfer learning

фундаментальная идея Низкоуровневые признаки универсальны; высокоуровневые — специфичны для задачи.

refs Yosinski et al. 2014 — How transferable are features in deep neural networks? Zeiler & Fergus 2014 — Visualizing and Understanding Convolutional Networks

3 / 8

Foundation models

с нуля

Узкоспециализированная модель

Обучена под одну задачу — полезна только для неё. Новая задача → обучение с нуля.

data→ train→ one task

transfer learning

Foundation model → много задач

Предобучена на большом датасете на доступной задаче — выученные представления используются для downstream-задач.

FM→ task A task B task C…

CNN / ViTмикроскопия, гистология, медицинские снимки

CLIPпоиск картинка↔текст, zero-shot классификация

DNABERT, NTгеномика, регуляторные элементы

ESM-2, ProtBERTфункции белков, эффекты мутаций

Первый вопрос в начале нового проекта: есть ли foundation model для моей модальности?

4 / 8

Fine-tuning — это спектр

← меньше переобучения
меньше catastrophic forgetting

нужно больше данных и вычислений
больше возможностей для специализации →

Linear probe

Последний блок

Верхняя половина

Full fine-tuning

01

Заменить head

Изменилось пространство меток (1000 классов ImageNet → 5 типов клеток) — пересобираем финальный классификатор. Тело сети (backbone) сохраняет предобученные веса.

02

Меньший learning rate

В 10–100 раз меньше, чем при обучении с нуля — иначе предобученные признаки сотрутся за первую эпоху (catastrophic forgetting). Опционально — discriminative LR.

refs Howard & Ruder 2018 — Universal Language Model Fine-tuning for Text Classification (ULMFiT) Kirkpatrick et al. 2017 — Overcoming catastrophic forgetting in neural networks (EWC)

5 / 8

Модели стали слишком большими для fine-tuning

AlexNet

60M · 2012

BERT

110M · 2018

GPT-2

1.5B · 2019

GPT-3

175B · 2020

ESM-2

15B · 2022

DeepSeek-V4

1.6T · 2026

7B параметров, full fine-tuning, Adam, fp16 → ~80 ГБ GPU-памяти (веса + градиенты + состояние оптимизатора).

Проблема 1 — память

Full fine-tuning не помещается на одну GPU. Состояние оптимизатора само по себе в 4 раза больше модели.

Проблема 2 — хранение

По одной дообученной копии на каждую задачу = много полных копий огромной модели. Не масштабируется.

Можно ли адаптировать модель, не обновляя её основные веса?

6 / 8

PEFT: parameter-efficient fine-tuning

Математика

h = Wx + BAx

W — замороженные предобученные веса. A и B образуют low-rank поправку ΔW = BA — обычно ранг 4–16, не зависит от размера модели.

Почему это работает

Эмпирически: поправка, нужная для адаптации предобученной модели, имеет низкий внутренний ранг. Полная матрица d×d не нужна — даже для GPT-3 (d = 12288) хватает r = 1–8.

refs Houlsby et al. 2019 — Parameter-Efficient Transfer Learning for NLP (Adapters) Hu et al. 2021 — LoRA: Low-Rank Adaptation of Large Language Models Han et al. 2024 — Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey HuggingFace — peft library (huggingface.co/docs/peft)

7 / 8

Context engineering — адаптация LLM без обучения

задача пользователя

Запрос

→

harness

Контекст

prompt + найденные документы + tool definitions + skill instructions

→

замороженные веса

LLM

❄ градиенты не считаются

→

ответ / действие

Output

Что попадает в контекст:

01

Prompting

Инструкции и 2–10 примеров в промпте.

02

RAG

Автоматический поиск релевантных кусков текста в базе данных.

03

Tools

Вызываемые функции (BLAST, AlphaFold, БД). Модель сама решает, когда вызывать.

04

Skills

Переиспользуемые наборы инструкций под задачу.

refs Brown et al. 2020 — Language Models are Few-Shot Learners (GPT-3) Lewis et al. 2020 — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Yao et al. 2023 — ReAct: Synergizing Reasoning and Acting in Language Models Anthropic 2025 — Effective Context Engineering for AI Agents

8 / 8

Три семейства адаптации

Обучение с нуля

Нет foundation model для вашей модальности

Узкоспециализированная модельданные + архитектура + много вычислений

Fine-tuning

FM есть · есть размеченные данные · веса можно обновлять

Linear probeмаленький датасет, тело заморожено

PEFT (LoRA, adapters)модель слишком большая для full fine-tuning

Full fine-tuningданных хватает, модель влезает в память

Context engineering

LLM · веса обновлять не нужно

Promptingинструкции + примеры

RAGпоиск и подстановка документов

Toolsвызываемые функции

Skillsнаборы инструкций под задачу