«Какой ещё агентный ИИ, если он инструкцию не выполняет?»
Дискуссия на Cursor: пользователи называют «агентные» ИИ маркетингом — модели теряют контекст и не выполняют простые инструкции, требуя .md и MCP-структуры.
Дискуссия на Cursor: пользователи называют «агентные» ИИ маркетингом — модели теряют контекст и не выполняют простые инструкции, требуя .md и MCP-структуры.
Miguel Grinberg объясняет, почему генеративные ИИ‑агенты не ускоряют работу и повышают риски — подробности на Хабр.
Cowork от Anthropic даёт Claude доступ к файловой системе — чтение, правка и создание файлов; есть коннекторы, skills и параллельные задачи. Отмечены риски: удаление файлов и prompt injection.
OpenRouter тестирует Sherlock Dash Alpha и Sherlock Think Alpha с контекстом 1,84 млн токенов; вероятно это обновлённый Grok 4, релиз — конец ноября–начало декабря.
Claude Code от Anthropic помог найти ошибку в Go‑реализации ML‑DSA: модель указала на «high bits» и подсказала идею автозапуска LLM при падении тестов.
Обновление Gemini CLI добавило PTY‑оболочку: интерактивный терминал с поддержкой vim, top, git rebase и корректными цветами терминала.
Google запустил Gemini CLI Extensions — фреймворк для подключения внешних инструментов к Gemini CLI; интеграции с Dynatrace, Figma, Cloud Run и публичный каталог.
Gemini 2.5 Computer Use — модель Google, которая управляет UI: клики, ввод, скриншоты в цикле; превью через Gemini API, Google AI Studio и Vertex AI.
Краткий обзор OpenAI DevDay 2025: Apps SDK, AgentKit, обновлённый Codex, и анонс GPT-5 Pro и Sora-2 в API.
Перевод статьи: автор сообщает, что в его проекте 90% кода пишет ИИ‑агенты, но ответственность за архитектуру остаётся за человеком. Источник — Хабр.
JetBrains предлагает бесплатные корпоративные лицензии в обмен на сбор рабочих данных (фрагменты кода, история редактирования, команды) с обещанием GDPR‑хранения.
Анонс Qwen3‑Omni — мультимодальная модель от Qwen: текст, картинки, аудио и видео; новая схема Thinker–Talker, MoE и SOTA по ряду бенчмарков.
Anthropic опубликовали тестовое задание по оптимизации производительности виртуальной машины: старт 147 734 такта, лучшие результаты Opus 4.5 около 1363 тактов.
Anthropic добавили нативную поддержку LSP в Claude Code — доступ к семантике кода, переходам, типам и символам для агентных сценариев.
Anthropic представили Claude Code с доступом к браузеру — чтение DOM, отслеживание ошибок в консоли и проверка фич прямо в браузере.
Краткий разбор внутреннего исследования Anthropic: 132 инженера, 53 интервью и 200 000 сессий Claude Code — выводы по продуктивности, навыкам и ролям.
Короткий разбор подхода Anthropic: разделение ролей (Initializer, Coding Agent), строгие JSON‑требования и E2E‑тесты через Puppeteer для стабильной длительной работы агентов.
OpenAI названа самой быстрорастущей бизнес‑платформой: свыше 1 млн бизнес‑клиентов, ChatGPT for Work — 7 млн рабочих мест; упоминания Booking, Cisco, Lowe’s.
Короткая заметка про Aardvark от OpenAI — агента на GPT-5 для поиска уязвимостей в репозиториях и подтверждения багов в изолированной среде.
GLM-4.6 от Z.ai: контекст до 200k токенов, улучшения в кодинге и агентности, ~15% экономии по токенам; ссылки на HuggingFace и ModelScope.