Три прорыва, которые изменили ИИ навсегда

Еще пять лет назад нейросети умели только распознавать котиков на фото. Сегодня они пишут код, создают фильмы и ведут диалоги неотличимо от человека. Что произошло?

Трансформеры: архитектура, перевернувшая всё

В 2017 году исследователи Google представили архитектуру Transformer. Главное открытие — механизм внимания (attention), позволяющий модели понимать контекст и связи между словами, даже если они находятся далеко друг от друга.

Почему это важно:

Модель «видит» весь текст сразу, а не читает слово за словом
Обучение стало в разы быстрее благодаря параллельным вычислениям
Появилась возможность масштабировать модели до триллионов параметров

💎 Закон масштабирования: больше = лучше

Оказалось, что увеличение размера модели и объема данных дает предсказуемый рост качества. GPT-3 обучалась на 45 ТБ текста — это миллионы книг и сайтов.

Критическая масса достигнута:

При 100+ миллиардах параметров появляются «эмерджентные» способности
Модели начинают решать задачи, на которых их не обучали
Качество ответов растет нелинейно после определенного порога

Доступность вычислений и данных

Третий фактор — демократизация технологий:

Облачные GPU/TPU — аренда суперкомпьютеров стала доступной стартапам
Открытые датасеты — Common Crawl, Wikipedia, GitHub с петабайтами информации
Open source инструменты — PyTorch, TensorFlow, Hugging Face

🎯 Обучение с подкреплением от человека (RLHF)

Последний пазл — научить ИИ быть полезным. ChatGPT использует оценки людей, чтобы понять, какие ответы лучше. Модель учится не просто генерировать текст, а помогать пользователю.

Результат:

ИИ понимает намерения, а не только слова
Отказывается от вредных запросов
Адаптируется под стиль общения

Эффект снежного кома

Каждый прорыв усиливал другие. Трансформеры сделали возможным масштабирование. Масштабирование потребовало больше вычислений. Доступность вычислений привлекла инвестиции. Инвестиции ускорили исследования.

Цифры роста:

GPT-2 (2019) — 1.5 млрд параметров
GPT-3 (2020) — 175 млрд параметров
GPT-4 (2023) — предположительно 1+ трлн параметров

Что дальше?

Мы находимся в начале пути. Мультимодальность (текст + изображения + видео + звук), специализированные модели для медицины и науки, персонализированные ИИ-ассистенты — это лишь верхушка айсберга.

Генеративный AI стал возможен благодаря конвергенции математических открытий, инженерных решений и экономических факторов. И это только разминка. 🎪

Хотите быть в курсе всех новостей об искусственном интеллекте?

Посмотрите нашу подборку лучших телеграм-каналов про ИИ — там разбирают новые инструменты, делятся промптами и обсуждают будущее технологий.