По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.
При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.
Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.
@ai_for_devs




