Больше параметров = умнее модель? Связь размера и качества ИИ
Разбор, как число параметров (от малых до 540+ млрд) влияет на качество моделей; почему важнее данные, архитектура и оптимизация.
Разбор, как число параметров (от малых до 540+ млрд) влияет на качество моделей; почему важнее данные, архитектура и оптимизация.
Краткий обзор ключевых моделей — Transformer, GPT-3/4, AlphaGo, BERT, ResNet, DALL‑E, Stable Diffusion, LLaMA и мульти-модальных GPT-4V/Gemini.
Короткий разбор ключевых параллелей между мозгом и нейросетями: архитектура, обучение, слои, ассоциации и границы сходства.
Краткая история ИИ: от Дартмута и Deep Blue до AlexNet, AlphaGo и ChatGPT — ключевые вехи, сделавшие ИИ частью повседневной жизни.
Краткое объяснение интерпретируемости нейросетей: зачем нужна и какие методы (attention, LIME, SHAP) помогают понять решения ИИ в медицине и финансах.
Краткий разбор, почему AGI рассматривают как следующую большую цель человечества — возможности, риски и влияние на науку, экономику и общество.
Краткий обзор пяти направлений — SSM, MoE, новые рекуррентные модели, нейросимвольный ИИ и внешняя память — которые могут дополнить трансформеры.
Технические заметки по съемке и проявке рентген‑плёнки SFM: EI 25, 5.6, экспозиция 23 с, Photar ECO 1+79 при 23°; примечание про красный свет.
Австралийские учёные предлагают превращать кофейный жмых в биоуголь для бетона: +30% прочности при замене 15% песка и −26% выбросов CO2.
Краткий обзор четырёх проектов Google: Worldwide Tutor, Broad Medical AI, Civic Discourse Platform и Co‑Scientist и их цели.
Краткий обзор двух исследований по AI‑безопасности: «Rule of Two» от Meta и масштабные атаки на защиты prompt injection (успешность >90%).
Разбор исследований открытых весов GPT-oss: обнаружение «глитч‑токенов», следы данных с GitHub и упоминания в MIT Technology Review.
Перевод статьи о новом API /v1/responses от OpenAI: сочетание Chat Completions и Assistants, сохранение рассуждений, мультимодальность и встроенные инструменты.
Анонс Qwen3‑Omni — мультимодальная модель от Qwen: текст, картинки, аудио и видео; новая схема Thinker–Talker, MoE и SOTA по ряду бенчмарков.
GLM-4.6 от Z.ai: контекст до 200k токенов, улучшения в кодинге и агентности, ~15% экономии по токенам; ссылки на HuggingFace и ModelScope.
Разбор работы Anthropic: деление ошибок LLM на bias и variance, влияние на агентные цепочки и непредсказуемость поведения.
Исследование Anthropic, AI Security и Alan Turing показывает, что 250 «ядовитых» документов могут встроить бэкдор в LLM, активируемый словом <SUDO>.
О модели DeepSeek‑V3.2‑Exp: эксперимент с DeepSeek Sparse Attention для ускорения длинных контекстов; код открыт на GitHub и Hugging Face.
Анонс Kimi K2 Thinking: open source‑модель с поддержкой INT4, до 300 шагов рассуждений и рекордными результатами на Humanity's Last Exam, BrowseComp и SWE-Bench.
Краткий разбор работы 2020 года о scaling laws: качество LLM растёт при синхронном масштабировании модели, данных и вычислений; есть практические ограничения.