Сбор данных — рядовая операция, которую периодически выполняет специалист по маркетингу, рекламе и SEO-продвижению. Полученную информацию о конкурентах (цены, скидки, специальные предложения) или ключевые слова используют для формирования рекламной кампании и позиционирования бренда.

Две самые неприятные вещи, с которыми сталкиваются при парсинге в Google — это бан по IP и необходимость вводить капчу. С помощью этих защитных мер поисковый гигант отсеивает ботов. При этом, парсинг данных полностью легален и этичен со стороны специалиста. Сейчас все собирают данные для различных исследований. Вручную это слишком долго, поэтому этим занимаются боты. 

Однако, парсинг проводят и в злонамеренных целях. Google, не разбираясь, банит желающих парсить данные через свой сервис. Видя подозрительные действия, робот не банит сразу, а сперва предлагает ввести капчу, с которой бот не справится. 

Успешный парсинг без банов и капчи

Арсенал прокси

Если используете небольшое количество прокси, например, около пяти, то физически не сможете парсить большое количество данных. Первое, что вам понадобится для успешного парсинга — запастись несколькими десятками прокси, чтобы система защиты Google не посчитала многочисленные запросы с одного IP-адреса активностью робота и не воспрепятствовала им.

Частота запросов

В профессиональных программах для парсинга, таких как Scrapebox, можно настроить частоту запросов в секундах и минутах. Целесообразно настроить запрос каждого прокси с интервалом в 2-5 секунд. Трудно представить, что человек вновь и вновь осуществляет поиск раз в несколько секунд, но для системы защиты Google это приемлемый интервал. Этого достаточно, чтобы не вызвать подозрения и не нарваться на бан. При этом, за 10 минут один прокси сервер сделает 600 поисковых запросов.

Скорость запросов

Далее, установите ограничение по скорости. Если будете делать запрос на одну тему даже с разных прокси, систему защиты Google это насторожит и она начнет предлагать ввести капчу. Так увеличится риск бана. Установите различные интервалы для разных прокси: 2, 3, 5, 8 и больше секунд, чтобы смежные запросы не пересекались по времени. 

URL

Чтобы собрать данные в Google, требуется доступ к определенной части сайта. Наиболее распространенные поисковые запросы выполняются на странице https://www.google.com/search, более известной как общая страница поиска Google. Именно здесь большинство людей ищет информацию. При этом пользователи Chrome просто вводят нужную фразу в адресную строку, и перенаправляются в Google на страницу с готовыми результатами. Тогда как юзеры других браузеров, чтобы осуществить поиск в Google, сначала заходят на сайт.

Похожая статья:  Что такое прокси и зачем он нужен и как им пользоваться

Помните основной принцип: нужно организовать парсинг так, чтобы действия ботов выглядели максимально по-человечески. Это лучший способ избежать капч и банов. С этим связан основной момент, который привлекает внимание системы защиты Google. Боты используют поисковые операторы не посещая сайт поисковика. Человек бы так не сделал. Решение в том, чтобы настроить запрос конкретно на google.com. В большинстве программ, созданных для парсинга, предусмотрен функционал API, который делает это возможным. Если пишете свой скрипт, обязательно предусмотрите эту функцию.

Использование правильных операторов поиска

Операторы поиска применяют для выполнения специфических запросов в Google. Они служат для получения высоко релевантных данных. Наиболее популярные операторы поиска:

  • inurl
  • title
  • intext

По сути, это указания для Google по сортировке типов контента, что дает более конкретный список результатов. Боты широко используют операторы и поэтому Google относится к ним настороженно. Обычные люди редко заходят на google.com и вводят «inurl: кузнечики», чтобы найти сайты о кузнечиках. Они просто набирают в поиске: «кузнечики».

Еще хуже когда боты выполняют запросы с несколькими операторами. Если продолжим приведенный выше пример, выполнив поиск — «intext: эволюция кузнечика inurl: кузнечики» — мы получим еще более конкретную информацию, например сайты с кузнечиками в URL-адресе и текст, который относится к их эволюции.

Но для Google очевидно, что это не человек, который ищет информацию для доклада о кузнечиках, а поисковый бот. Старайтесь избегать хотя бы самых распространенных операторов. 

Таковы основные инструкции, выполняя которые, вы избежите и капчи и бана при парсинге. Итак, составим список:

  • Используйте много прокси.
  • Снизьте частоту и скорость запросов с каждого прокси.
  • Используйте правильный URL-реферер.
  • Не используйте популярные операторы поиска и их сочетания.

Помните, что все это делается для того, чтобы у системы защиты Google создалось впечатление, что поиск осуществляет человек, а не робот. Если вам это удастся, то вы не столкнетесь с капчами и банами. Чтобы выбрать хорошего поставщика прокси-серверов, посмотрите наш рейтинг прокси-сервисов

Получить приватное предложение для своих

Подпишись на нашу рассылку и получай приватные промокоды от 20% и выше

Один ответ на «Как парсить Google с помощью прокси: практические рекомендации»

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокси-сервисы
4,8 рейтинг
Proxys.io - поставщик качественных IPv4 и IPv6 прокси для решения любых задач по разумной цене.
4,3 рейтинг
Mobileproxy.space специализируется на аренде мобильных прокси
4,3 рейтинг
ProxyLine -- поставщик прокси, у которого в ассортименте 44 ГЕО.
4,3 рейтинг
Proxy6 - один из крупнейших поставщиков прокси для работы с социальными сетями, досками объявлений и софтом.