🤖 Немного боли, багов и побед — из закулисья проекта П
ока собирал этот проект, столкнулся с несколькими занятными моментами, которыми хочется поделиться. Во-первых — OpenAI и ссылки. Один день модель спокойно ест хабровскую ссылку и возвращает по ней текст. На следующий — “извините, я не умею читать по ссылке”. Это прям стабильная нестабильность. Я попробовал и Grok, и Claude, но в итоге остановился на OpenAI — по качеству генерации и контексту он пока всё же ближе к тому, что мне нужно. Просто теперь держу палец на пульсе и смотрю, когда оно снова «передумает».
Вторая тема — категоризация статей. Хотелось, конечно, что-то своё: сделать модель, натренировать классификатор, поиграться с embeddings. Но реальность в том, что результаты были… мягко говоря, не лучше встроенной категоризации Хабра. Тем не менее, опыт оказался полезным — теперь я понимаю, как можно делать приемлемую классификацию, даже если в источнике нет готовых тегов. Это пригодится, когда я начну подключать другие площадки.
Отдельная песня — n8n, или Натан, как я теперь его зову. С одной стороны — мощный инструмент, реально крутой. С другой — временами вообще не юзер-френдли. 😬 Где-то интерфейс ведёт себя странно, где-то блок ограничен десятью значениями (а мне надо 30), где-то Telegram-блок просто падает из-за точки в тексте. Да, точки. Пришлось вставлять код, кастомить HTML, городить фильтры — и, честно, в какой-то момент я уже думал: «а может, всё переписать на питоне и заоркестрить самому?»
Но в итоге додавил. Теперь внутри есть: • сохранение HTML слепка статьи, • проверка и нормализация по категориям, • кастомный фильтр по тематикам, • публикация в Telegram с защитой от диких символов.
Если кто-то уже работает с n8n, автоматизировал что-то интересное — напишите. Будет интересно обменяться болью и находками. А пока — я пойду смотреть, упала ли сегодня обработка ссылок 🤷♂️