Como extrair as páginas de resultados de pesquisa do Google (SERPs)

Como fazer, Raspagem, Ago-01-20215 minutos de leitura

It needs no introduction that Google is the widely used platform for search-related queries of people across the globe. According to the Statista website, Google’s share of the global search market is 87.35%. Further, the stats have shown that Google exceeds 2 trillion users annually, indexing over 130 trillion pages. These statistics prove that Google

Não é preciso dizer que o Google é a plataforma mais utilizada pelas pessoas em todo o mundo para efetuar pesquisas. De acordo com o sítio Web Statista, a quota do Google no mercado global de pesquisa é de 87,35%. Além disso, as estatísticas mostram que o Google ultrapassa os 2 biliões de utilizadores por ano, indexando mais de 130 biliões de páginas.

Estas estatísticas provam que a Google tem dados abrangentes disponíveis publicamente sobre os seus SERPs, valiosos para os profissionais de marketing da Internet e outros. Assim, o scraping de SERPs tornou-se uma prioridade entre os profissionais de marketing da Internet. No entanto, quando se excede um determinado número de pedidos, o Google bloqueia o seu endereço IP.

Por isso, este artigo vai abordar a questão de como fazer scraping de SERPs sem ser bloqueado. Antes disso, abordaremos as noções básicas de Web scraping.

O que é a raspagem da Web?

Vamos supor que precisa de copiar um grande conjunto de dados de várias páginas Web. Inicialmente, poderá sentir-se tentado a copiar e colar o conteúdo numa folha de cálculo. No entanto, uma vez que se trata de um documento Web de grandes dimensões, a extração manual de dados seria morosa. Por isso, é necessário automatizar o processo de extração, o que lhe pouparia muito tempo.

Este processo de automatização da recolha de dados é conhecido por web scraping. Com este método, é possível descarregar a fonte HTML sem introduzir o URL do sítio Web num browser.

Para obter mais informações sobre a recolha de dados da Web, pode ler aqui.

O que é uma raspagem das páginas de resultados dos motores de busca (SERP)?

Tal como o web scraping, o scraping SERP é o processo de extrair os 10 primeiros resultados ou mais de uma pesquisa no Google para uma série de palavras-chave. A maioria das empresas de otimização para motores de busca (SEO) utiliza esta técnica para acompanhar as classificações dos sítios Web dos seus clientes para as palavras-chave visadas.

Também pode haver outras razões para efetuar a recolha de dados para SERPS, como a verificação de anúncios, a geração de leads e a agregação de conteúdos.

Normalmente, existem ferramentas de automatização para efetuar o scraping para SERPs, que descobrirá nas próximas secções deste artigo. Em alternativa, pode criar o seu próprio script utilizando linguagens de programação como o Python. No entanto, pode fazê-lo se estiver confiante na codificação e tiver conhecimentos técnicos superiores. Além disso, também pode usar o cURL para raspar os SERPs do Google.

Quando estas ferramentas recolhem dados de páginas Web relevantes, guardam-nos em bases de dados, ficheiros CSV, XML ou JSON. Em seguida, estes dados estão num formato estruturado que lhe permite determinar se os seus esforços de SEO estão a funcionar corretamente. Isto porque pode ver os posicionamentos da sua página ao longo do tempo.

Além disso, os SERP são constituídos não só por conteúdos textuais, mas também por imagens, vídeos, snippets em destaque, mapas de pesquisa local e muito mais.

Na próxima secção, descobrirá uma vantagem significativa da recolha de dados dos SERPs.

Como é que a recolha de SERPs ajuda a recuperar os danos causados pelos hackers?

Ser pirateado é algo que o afecta sempre negativamente. O seu sítio Web pirateado e as respectivas credenciais de início de sessão podem acabar na dark web. Os piratas informáticos podem até vender backlinks ou executar malware da dark web no seu sítio. Da mesma forma, a pirataria informática também tem um impacto negativo no contexto da SEO.

Uma das vantagens significativas da recolha de dados SERPs no Google é a sua capacidade de identificar os potenciais danos que os piratas informáticos podem causar. Depois de ter trabalhado arduamente para alcançar as suas classificações de SEO nos SERPs, os hackers podem facilmente infiltrar-se nas suas definições de segurança e estragar todos os seus esforços de SEO.

Pode encontrar informações pormenorizadas sobre como os piratas informáticos desviam os seus esforços de SEO aqui.

De acordo com um inquérito, 48% dos profissionais de SEO afirmaram que o Google demorou muitos meses a recuperar o estado original dos seus resultados SERF.

O acompanhamento dos SERPs para os seus sites fornece uma perspicácia útil sobre o que está a acontecer com as suas classificações. Também o ajudam a determinar os resultados potenciais das suas classificações durante as tentativas de pirataria informática. Por conseguinte, pode solicitar rapidamente ao Google que reponha as suas classificações anteriores. Como resultado, o tempo de inatividade do seu site e as quedas na classificação dos motores de busca seriam minimizados drasticamente.

Por outro lado, quando o seu sítio Web está infetado com malware, isso prejudica a sua classificação nos motores de busca. O seu sítio Web tem também uma maior probabilidade de ser colocado numa lista negra. De acordo com a Godaddy, isto é ainda mais grave para os sítios Web de pequenas empresas. 90% dos sítios da Godaddy não sabiam que o malware os tinha infetado.

Assim, a recolha contínua de todos os seus SERPs permite-lhe detetar antecipadamente potenciais tentativas de pirataria informática e ajuda certamente o Google a restaurar os seus resultados.

Como extrair resultados de pesquisa do Google?

Como já referi anteriormente, existem várias formas de efetuar scraping dos SERPs do Google. Nesta secção, irá descobrir várias formas de o fazer.

Visual Web Scraper

Octoparse

Trata-se de uma ferramenta geral de recolha de dados da Web que pode ser utilizada para recolher dados dos SERPs do Google. Não só extrai SERPs, como também é boa a extrair dados dos mapas do Google.

Uma das características mais importantes do Octoparse é o facto de evitar inteligentemente as medidas anti-raspagem dos sítios Web visados. Além disso, não requer que seja um programador para utilizar a sua ferramenta de raspagem visual. É bastante cómodo de utilizar e está disponível como solução baseada na nuvem, bem como como software instalável.

Pode encontrar mais informações sobre o Octoparse aqui.

Extensão do navegador

Webscraper.io

O Webscraper.io é uma extensão gratuita para o navegador Web Google Chrome. Pode extrair dados de páginas Web do Google sob a forma de HTML e CSS. Pode depois exportar os dados em formato CSV. A versão da extensão do navegador é totalmente gratuita e é suficiente para gerir as suas actividades de recolha de dados. Se optar pela opção baseada na nuvem, terá um custo.

Também pode extrair mapas do Google com esta extensão e convertê-los numa base de dados. Pode encontrar mais informações sobre esta extensão aqui.

API de pesquisa do Google

Sabia que o Google disponibiliza uma forma oficial de extrair dados do seu motor de busca? Embora tenha as suas limitações, tal como mencionado abaixo, está atualmente disponível para qualquer pessoa que necessite dos dados SERP. Eis as suas limitações:

Fornece informações limitadas em comparação com o raspador visual da Web, as extensões do navegador ou outras ferramentas de raspagem da Web.
O Google desenvolveu-o com o objetivo de pesquisar um único sítio Web ou um número reduzido de sítios Web. No entanto, é possível configurá-lo para pesquisar toda a World Wide Web (WWW), o que requer muitos conhecimentos técnicos.
É extremamente dispendioso, pois custar-lhe-ia uma fortuna enviar montes de pedidos.

Portanto, com suas limitações e custos, a API de pesquisa do Google não é a plataforma ideal para raspar resultados de SERPs. É sempre melhor usar os métodos alternativos mencionados ao longo deste artigo.

Utilizar Python, requests e BeautifulSoup

Para aqueles que são peritos em codificação com Python, este método seria útil. Reduziria, sem dúvida, o custo em primeiro lugar e teria mais controlo.

Neste programa, vamos extrair os SERPs para a consulta de pesquisa, "How to learn Python". Para simplificar as coisas, codificaríamos a consulta de pesquisa. Depois de extrair o conjunto de resultados, imprimimos o título dos resultados. Vamos mergulhar no assunto.

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Aqui vou explicar claramente cada linha de código:

pedidos de importação

Utilizamos a biblioteca de pedidos do Python para descarregar o SERP. Em seguida, o módulo request envia um pedido get para o servidor Google. Isto permite que o programa descarregue o conteúdo HTML do SERP.

from bs4 import BeautifulSoup

Depois, a linha seguinte é auto-explicativa, que carrega a biblioteca BeautifulSoup. Esta biblioteca possibilita a análise de documentos HTML e XML.

text = 'Como aprender programação Python'
url = 'https://google.com/search?q=' + text

Esta parte do código define o URL do motor de busca a partir do qual os dados serão recolhidos. Assim, defini o URL como google.com e, para a consulta de pesquisa, acrescentei o texto na variável de texto "How to learn Python programming" como consulta de pesquisa.

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/92.0.4515.107 Safari/537.36" )

Em seguida, o código acima define a cadeia de caracteres do agente do utilizador.

req = requests.get(url, headers=headers)

O código acima envia o pedido ao servidor Web para descarregar o conteúdo HTML solicitado dos resultados da pesquisa.

soup = BeautifulSoup(req.text, 'lxml')

Crie uma instância do BeautifulSoup com os dados que o código acima solicitou dos cabeçalhos de análise 'lxml'. É necessário instalar primeiro o pacote 'lxml' para que o código acima funcione.

for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Em seguida, utilizando um loop for, todas as etiquetas h3 são extraídas para apresentar os títulos.

Utilizar proxies residenciais para extrair os SERPs do Google

Como já foi referido, os motores de busca como o Google impõem restrições, incluindo a proibição do seu endereço IP, quando excede o limite de recolha de dados. É aqui que os proxies desempenham um papel crucial no mascaramento do seu endereço IP. De todos os proxies existentes, os proxies residenciais são a escolha ideal. Isto deve-se ao facto de os seus IPs serem originários de proprietários residenciais reais.

No entanto, quando se faz scraping dos primeiros SERPs, o Google vai notar que as suas acções são desumanas. Nesse caso, bloqueará o endereço IP do seu proxy e terá de lidar com captchas.

É aqui que a rede de proxies residenciais actua como a sua salvação. Quando se utiliza uma rede de proxies residenciais, cada um tem um endereço IP único. Assim, seria capaz de fazer scraping dos SERPs rodando os endereços IP. Assim, as suas acções apareceriam como humanas para o motor de busca.

Para uma explicação pormenorizada dos mandatos residenciais, consulte este artigo.

Implicações legais da utilização de proxies residenciais para extrair os SERPs do Google

Até agora, você deve ter uma idéia clara do que são os proxies residenciais e como eles podem ajudá-lo a superar as proibições de IP. Agora, vamos analisar um fator crucial que muitos utilizadores negligenciam quando fazem scraping dos SERPs do Google. Trata-se das implicações legais da utilização de proxies residenciais.

Em primeiro lugar, é legal usar proxies residenciais para extrair SERPs do Google. Assim, com isso em mente, pode sentir-se tentado a enviar pedidos ilimitados para motores de busca como o Google. Como tal, iria sobrecarregar os servidores do Google com um grande número de pedidos. Isto não é a coisa certa a fazer, mesmo de acordo com o algoritmo SERPs do Google.

Por conseguinte, tem de se certificar de que respeita sempre o sítio Web ou o motor de busca de destino de onde vai extrair os dados. Terá também de utilizar as melhores práticas de recolha de dados possíveis, incluindo o facto de o seu raspador respeitar o motor de busca alvo.

Deve limitar imediatamente os pedidos ou parar o processo de recolha de dados se você ou o seu fornecedor de proxy receberem uma queixa do servidor Web de destino. A queixa pode ser o facto de o servidor Web de destino estar a ter uma carga de trabalho elevada devido aos seus pedidos ilimitados. Por conseguinte, é necessário ter cuidado com esses factos.

Perguntas mais frequentes

É ilegal fazer scraping do Google?

Normalmente, o Google não gosta quando os "scrapers" recolhem os seus dados. Como já afirmei várias vezes neste artigo, ele pode banir seus endereços IP. Além disso, até o momento, o Google não tomou nenhuma ação por raspar demais os dados. Obviamente, as empresas de SEO não teriam uma saída se o Google tomasse tais ações.

Conclusão

Agora, esperamos que tenha adquirido um conhecimento geral dos diferentes métodos que os web scrapers utilizaram para extrair dados dos SERPs. Por fim, ficou a saber como pode utilizar proxies residenciais para extrair dados de SERPs, bem como as suas implicações legais.

Esperamos que este artigo seja útil para si e fique atento a mais artigos.

Por: ProxyScrape