Находки для парсинга данных

парсинг данныхскрейпингapify

Находки для парсинга данных

Находки для парсинга данных Часто делаю продукты, связанные с аналитикой чего-либо, поэтому скрейпинг - очень частая решаемая техническая задачка. И рабочий инструмент в решении этой задачки почти всегда apify. Пояснения: парсинг данных или скрейпинг — это автоматизированный сбор текстов / картинок и другого контента и данных с онлайн-источников. — Apify — своего рода маркетплейс акторов-скрейперов, которые несложно подключить по API. В зависимости от решаемых задач подбирается нужный инструмент: для скрейпинга телеграма / линкедина / гугла и огромного количества иных ресурсов. Ну и у Apify есть очень популярный актор — content crawler, который отлично собирает контент с любой страницы. Он работает не в 100 процентах случаев, но все равно очень крут и популярен. На прошлой неделе у меня никак не решалась одна задача, и я перепробовала кучу всяких ресурсов. Делюсь находками и выводами: 1. Duckduckgo. Когда ни гугл поиск, ни яндекс поиск, ни гемини с openai не справились с задачей по нахождению конкретных поисковых запросов - duckduckgo отработал на ура. Подключала через Apify. Правда к концу недели почему-то вместо 3-10 секунд ожидания запросы начали обрабатываться по 60-90 секунд. Думаю, это было временное помутнение, его пришлось отключить, задачу решила другим способом, но в будущем точно буду иметь в виду. 2. SerpAPI. Дорогой, но единственный работающий гугл-парсер. Похоже гугл здорово подзатянул безопасность и ни один из протестированных мной скрейперов на apify на масштабе не способен выдавать стабильный результат: большое количество запросов возвращается пустыми. SerpAPI оказался самым продуктивным. 3. Browserless. Обходит капчу, делает скрины страницы и сам может из HTML достать нужные конкретные результаты. Подходит для структурированных страниц с защитой. Думаю ресурсы типа G2 тоже получилось бы соскрейпить. Резюмирую: - SerpAPI для google поиска, - duckduckgo как альтернатива поисковикам, - browserless для скринов и HTML парсинга с обходом капчи.