На своём вебинаре по Web Scraping я люблю говорить, что Web Scraping не является волшебной таблеткой на все случаи жизни. Но есть задачи, где с помощью скрейпинга можно облегчить себе жизнь и сделать все намного быстрее. 

Поэтому, важно в первую очередь исходить из поставленной задачи, потом подумать с помощью какого ресурса (источника) ее можно решить и затем выбирать инструмент для скрейпинга. 

В данной статье поделюсь тремя кейсами, которые мы и наши участники школы решали с помощью Web Scraping. Но на самом деле таких кейсов в рекрутинге намного больше. 

Кейс 1. Собрать емейлы для рассылки. 

Самый простой способ - использовать инструмент Email extractor Ирины Шамаевой. Он быстро в один клик копирует в буфер обмена все почты на странице и далее вставляет в таблицу. Однажды таким образом я выгрузила 500 почт за 5 минут. 

Где можно использовать: 

  • Github
  • X-ray запросы (например: site:linkedin.com/in "gmail.com" “Java developer” Ukraine)
  • TurboHiring

Для того, чтобы не переходить на каждую страничку выборки отдельно, можно использовать один из инструментов (которые во время скроллинга соединяют результаты в одну длинную страницу): AutoPagerize или PageZipper

Если помимо почт вам также нужны имена и дополнительная информация, попробуйте использовать Instant Data Scraper или Data Miner

Кейс 2. Выгрузить одним списком участников групп и ивентов. 

Где можно использовать: 

  • Группы в Facebook 
  • Meetup
  • Группы в LinkedIn 
  • Slack 

Для Facebook отлично работает DIG. Только учтите, что в ивентах он выгружает только тех людей, которых FB вам показывает, т.е. ваших друзей. Поэтому для ивентов его удобно использовать только в случае, если вы сами их организовываете. 

Но в группах, где список участников открыт можно выгрузить всех. 

Для Meetup я люблю использовать Spider. Он лёгок в использовании, просто подсвечиваете и выбираете нужные данные для выгрузки. 

Кейс 3. Автоматизировать какую-то рутинную задачу для социальных сетей.  

Что делали мы: 

  • автоматически принимал запросы в друзья в Linkedin;
  • автоматически отправляли запросы в LinkedIn с целью расширения контактов. 

Для этих целей идеально подходит PhantomBuster - мой самый любимый инструмент, точнее store с инструментами. В нем вы можете найти все, что угодно для разных целей и ресурсов. 

Если вам нужно поработать с большими объемами данных или автоматизировать свои повторяющиеся действия, посмотрите на данные инструменты. Они однозначно облегчат вам жизнь и сэкономят немного времени.