Находки для парсинга данных

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

Открыть в Telegram Другие публикации

Автор:Nerdie

•13 октября 2025 г.

Часто делаю продукты, связанные с аналитикой чего-либо, поэтому скрейпинг - очень частая решаемая техническая задачка. И рабочий инструмент в решении этой задачки почти всегда apify.

Пояснения: — парсинг данных или скрейпинг — это автоматизированный сбор текстов / картинок и другого контента и данных с онлайн-источников.

— Apify — своего рода маркетплейс акторов-скрейперов, которые несложно подключить по API. В зависимости от решаемых задач подбирается нужный инструмент: для скрейпинга телеграма / линкедина / гугла и огромного количества иных ресурсов. Ну и у Apify есть очень популярный актор — content crawler, который отлично собирает контент с любой страницы. Он работает не в 100 процентах случаев, но все равно очень крут и популярен.

На прошлой неделе у меня никак не решалась одна задача, и я перепробовала кучу всяких ресурсов.

Делюсь находками и выводами:

Duckduckgo. Когда ни гугл поиск, ни яндекс поиск, ни гемини с openai не справились с задачей по нахождению конкретных поисковых запросов - duckduckgo отработал на ура. Подключала через Apify. Правда к концу недели почему-то вместо 3-10 секунд ожидания запросы начали обрабатываться по 60-90 секунд. Думаю, это было временное помутнение, его пришлось отключить, задачу решила другим способом, но в будущем точно буду иметь в виду.
SerpAPI. Дорогой, но единственный работающий гугл-парсер. Похоже гугл здорово подзатянул безопасность и ни один из протестированных мной скрейперов на apify на масштабе не способен выдавать стабильный результат: большое количество запросов возвращается пустыми. SerpAPI оказался самым продуктивным.
Browserless. Обходит капчу, делает скрины страницы и сам может из HTML достать нужные конкретные результаты. Подходит для структурированных страниц с защитой. Думаю ресурсы типа G2 тоже получилось бы соскрейпить.

Резюмирую:

SerpAPI для google поиска,
duckduckgo как альтернатива поисковикам,
browserless для скринов и HTML парсинга с обходом капчи.

Находки для парсинга данных

Читайте так же

Дайджест — любимые посты за 5 месяцев

А можно сделать так, чтобы ИИ не ошибался?

Figma AI: плагины, ускоряющие дизайн интерфейса