Quais são as consequências da recolha de dados da Web sem proxies?

Proxies, Mar-06-20245 minutos de leitura

Já pensou nas consequências de recolher dados da Web sem proxies? A Internet contém enormes dados que vale a pena extrair para organizações empresariais, académicos e qualquer outro investigador. Quer seja para as empresas tomarem melhores decisões para se manterem na vanguarda do jogo ou para fins de investigação por parte dos académicos, há muitas formas de extrair dados que vão desde

Já pensou nas consequências de recolher dados da Web sem proxies? A Internet contém enormes dados que vale a pena extrair para organizações empresariais, académicos e qualquer outro investigador. Quer seja para as empresas tomarem melhores decisões para se manterem à frente do jogo ou para fins de investigação por parte dos académicos, há muitas formas de extrair dados, desde manuais a automáticas.

Obviamente, dada a riqueza de dados que a Internet possui, o método automático seria o método de extração de dados preferido entre os investigadores. No entanto, vale a pena investir tempo para saber se é necessário um proxy juntamente com métodos de extração automatizados, como a raspagem da Web.

Em primeiro lugar, analisaremos os cenários e os tipos de dados que os investigadores utilizam frequentemente para a extração de dados na Web.

Quais são os principais casos de utilização da extração de dados da Web?

Existem vários casos de utilização para a extração de dados, também conhecida como web scraping, que podemos classificar da seguinte forma:

1. Controlo dos preços

Se estiver no sector do comércio eletrónico, pode recolher dados sobre os preços dos seus concorrentes para determinar a melhor estratégia de preços adequada à sua organização. Também pode extrair dados de preços das bolsas de valores para análise de dados.

2. Geração de contactos

Um estudo recente efectuado pela Ringlead Statistics revelou que 85% dos profissionais de marketing B2B afirmam que a geração de leads é o seu arsenal mais vital de marketing de conteúdos. Por isso, para chegar aos seus potenciais clientes, está, sem dúvida, a chegar à Web.

Para obter contactos qualificados, são necessárias informações como o nome da empresa, o endereço eletrónico, o número de contacto, a morada, etc. Essas informações seriam redundantes em redes sociais como o LinkedIn e artigos em destaque.

3. Recrutamento

À semelhança da geração de leads, as empresas procuram-nos frequentemente nas plataformas das redes sociais quando recrutam potenciais empregados. O recrutamento em linha cresceu significativamente desde a pandemia, à medida que as pessoas começaram a trabalhar à distância.

Outra opção é a extração de dados de painéis de emprego em linha. Algumas das agências de emprego digitais também extraem dados de classificados de emprego para manterem as suas bases de dados de emprego actualizadas.  

4. Agregação de notícias

A maioria dos sítios Web de agregação de notícias em linha utiliza a raspagem da Web para extrair conteúdos noticiosos de vários sítios Web relevantes para as notícias. O scraper ou o scroller vai buscar os dados aos feeds RSS dos URLs armazenados.

5. Dados do comércio eletrónico

Os dados do comércio eletrónico são muito procurados para extração pelas agências de comércio eletrónico. De acordo com um estudo recente, 48% dos raspadores da Web extraem dados do comércio eletrónico.

Alguns destes dados relativos ao comércio eletrónico incluem os dados relativos aos preços dos concorrentes, que já discutimos anteriormente, e os dados relativos aos produtos e aos clientes.

Os dados dos clientes podem ser estatísticas e números relacionados com a demografia, padrões de compra, comportamentos e consultas de pesquisa nos motores de busca. Ao mesmo tempo, os dados sobre os produtos incluem a disponibilidade de stock, os vendedores mais importantes de um determinado produto e as suas classificações.

6. Agregação de contas bancárias

Muitas instituições financeiras, como os bancos, oferecem aos seus clientes a possibilidade de integrar dados de todas as suas contas bancárias e de todas as instituições financeiras com as quais efectuam transacções. Em seguida, pode utilizar os "web scrapers" para recolher as informações sobre as transacções das suas contas bancárias e transferi-las para um formato que possa compreender facilmente.

7. Conjuntos de dados necessários para a investigação

Existe uma grande quantidade de informação disponível na Internet para investigação académica a partir de fontes publicamente disponíveis. Se o autor disponibilizar o conteúdo publicamente, estas fontes incluem fóruns, sítios Web de redes sociais, publicações em blogues e sítios Web de investigação como o ResearchGate. 

Qual é o principal desafio que as ferramentas de raspagem da Web enfrentam?

Os cenários apresentados acima são apenas alguns exemplos dos tipos de dados que os investigadores podem extrair com base nas suas necessidades. Como se pode ver, a Web inclui uma enorme quantidade de dados que seria difícil de obter manualmente.

Se um sítio Web fornecer uma API (Interface de Programação de Aplicações), é mais fácil extrair dados. Mas, infelizmente, nem todos os sítios Web oferecem uma API. Por outro lado, uma desvantagem significativa de uma API é que não fornece acesso a todas as informações. Por conseguinte, é indubitável que necessitará de ferramentas de extração, tais como bots web scraper, para recolher essas informações.

Eis alguns dos desafios que terá de enfrentar quando utilizar um bot.

Não permitir o acesso de bots

Em primeiro lugar, tem de ler o ficheiro robot.txt que especifica quais as páginas web do sítio web alvo que tenciona extrair permite. 

Por isso, mesmo que tenha lido o ficheiro robot.txt, uma das principais preocupações da maioria dos sítios Web que pretende extrair é que não permitem que os bots acedam ao seu conteúdo. Fornecem conteúdos aos utilizadores a partir de navegadores Web reais. No entanto, teria de extrair o conteúdo manualmente quando utilizasse navegadores reais em computadores ou dispositivos móveis, o que seria muito complicado.

Além disso, algumas informações na Web, como os dados de preços, são actualizadas frequentemente. Assim, não terá de depender de dados desactualizados quando fizer a recolha manual.

Por isso, a solução definitiva seria emular seres humanos reais a fazer scraping de sítios Web e proxies.

A secção seguinte descreve os riscos significativos da recolha de dados sem proxies e o que estará a perder.

O que estaria a perder sem utilizar proxies?

Conteúdos com restrições geográficas

Se o utilizador não for da região ou do país onde o sítio Web está alojado, poderá não visualizar o conteúdo. O sítio Web anfitrião pode determinar a sua localização com base no seu endereço IP. Consequentemente, terá de se ligar a um endereço IP do país/região do sítio Web para poder visualizar os dados.

É muito provável que consiga contornar este problema utilizando um servidor proxy de uma nação ou área onde o acesso ao material é restrito. O material restrito geograficamente ficará, então, disponível para si.

Extrair dados de sítios Web sem utilizar um proxy é inquestionavelmente inseguro. Para o seu estudo, terá de recorrer a muitas fontes de dados de todo o mundo.

Não seria possível contornar os limites estabelecidos pelo sítio Web de destino

O sítio Web de destino limita frequentemente o número de consultas que uma ferramenta de scraper lhe pode enviar num determinado período de tempo. Consequentemente, se o alvo detetar um número infinito de pedidos do seu endereço IP, o sítio Web alvo colocá-lo-á na lista negra. Por exemplo, o envio de centenas de pedidos de raspagem em 10 minutos é uma boa ilustração de um cenário deste género.

Assim, na ausência de um servidor proxy, perderá a oportunidade de o servidor proxy distribuir os seus pedidos por muitos proxies. Isto é conhecido como rotação de proxy. Isto faz com que pareça que os pedidos vieram de vários utilizadores e não de uma única pessoa para a fonte de destino. Consequentemente, os sítios de destino não darão qualquer alarme.

Perder a oportunidade de rodar os agentes do utilizador

A maioria dos servidores Web de sítios Web inspecciona o cabeçalho do pedido HTTP quando se visita um sítio Web. O mesmo se aplica quando um robot de rastreio acede a um sítio Web. O cabeçalho HTTP é a cadeia de caracteres do agente do utilizador, que contém a versão do browser, a versão do sistema operativo, a compatibilidade e outros detalhes sobre o seu dispositivo. 

Por exemplo, quando se está a fazer scraping de um sítio Web através de um bot, o sítio Web alvo pode detetar que está a decorrer uma atividade não humana acedendo às informações do cabeçalho HTTP.

Quando se utilizam proxies rotativos, também se podem rodar os agentes do utilizador. Assim, o sítio Web de destino verá que os pedidos surgem de vários IPs com diferentes agentes de utilizador.

Pode encontrar mais informações sobre agentes do utilizador neste artigo.

Incapacidade de evitar as impressões digitais do browser

O browser cria uma impressão digital única com informações sobre o dispositivo do utilizador sempre que este visita um sítio Web. Os browsers utilizam estas informações para lhe proporcionar uma experiência de utilizador única.

Por isso, quando se recolhem dados através de um bot de recolha de dados, o sítio web alvo identifica as suas actividades como não humanas. Pode utilizar proxies rotativos com falsificação de agentes de utilizador para contornar este cenário.

Uma vez que existem tantas variáveis num único dispositivo, poderia facilmente manipular a informação do sistema e fazer com que parecesse humano. No entanto, sem proxies, isso é completamente impossível.

Para mais informações, pode consultar O que é uma impressão digital do browser e como evitá-la?

Incapacidade de o proteger de ataques maliciosos

Quando realiza qualquer atividade em linha, o seu endereço IP fica visível para a Internet pública. Nesse caso, ficará altamente vulnerável a ataques cibernéticos proeminentes, como ataques DDOS (Distributed Denial Of Service) e roubo de dados sensíveis e confidenciais. Podem descarregar conteúdos ilegais utilizando um endereço IP.

Poderá atenuar esses riscos utilizando proxies, uma vez que estes ocultam o seu endereço IP.

Ultrapassar os mecanismos anti-botting

Pode deparar-se com mecanismos anti-botting, tais como captchas, durante o processo de recolha de dados da Web quando envia demasiados pedidos em simultâneo para o sítio Web alvo utilizando o mesmo endereço IP.

É possível contornar totalmente esses captchas quando se utilizam proxies residenciais rotativos para rodar com diferentes endereços IP. Assim, o sítio Web de destino terá a impressão de que são diferentes utilizadores a enviar pedidos, evitando assim os captchas.  

Para obter mais informações sobre Como contornar CAPTCHAs durante a raspagem da Web, pode consultar esse artigo.

Não é possível utilizar browsers sem cabeça

Outro ativo crítico que imita o comportamento humano é a utilização de browsers sem cabeça. O navegador sem cabeça tem as funcionalidades de qualquer outro navegador, exceto o facto de não ter uma GUI. 

Uma das principais razões para a utilização de browsers sem cabeça é o facto de determinados conteúdos estarem enterrados no JavaScript, mas com os browsers sem cabeça, pode extraí-los facilmente.

No entanto, não é possível colher os frutos dos navegadores sem cabeça sem utilizar proxies.

Isto porque, mesmo quando se utiliza um navegador sem cabeça para extrair dados de alguns dos sítios Web alvo que são difíceis de extrair, é mais provável que o bloqueie, uma vez que está a emergir do mesmo endereço IP.

Por conseguinte, é possível criar muitas instâncias de navegadores sem cabeça para a recolha de dados com proxies rotativos.

Existem alternativas à utilização de proxies?

Como pode ver neste artigo, ao não utilizar proxies, arrisca-se muitas vezes a ser bloqueado por sítios Web alvo que podem também impor limites de velocidade com a impossibilidade de aceder a conteúdos com restrições geográficas. Antes de concluirmos, vamos analisar as alternativas à utilização de proxies.

Redes Privadas Virtuais (VPNs)

Tal como os proxies, as VPN também lhe permitem mascarar a sua identidade para aceder à Internet de forma anónima. Funciona reencaminhando todo o seu tráfego, quer este provenha de um navegador Web ou de uma aplicação instalada no seu sistema operativo, através de um servidor remoto. No processo, mascara o seu endereço IP e encripta todo o seu tráfego.

No entanto, a maior parte do tráfego VPN pode ser prolongado devido ao processo de encriptação. Ao contrário dos proxies, as VPNs são incompetentes para levar a cabo projectos de scraping em grande escala. Assim, são ideais apenas para quem deseja navegar anonimamente na Internet e para quem precisa de aceder a conteúdos com restrições geográficas.

Conclusão

Nesta fase, pode ter uma visão global da razão pela qual é essencial ter proxies para extrair dados da Web. Sem proxies, a quantidade de dados que poderia extrair é relativamente mínima. Na melhor das hipóteses, irá extrair menos dados com o seu endereço IP e bots.

No entanto, para extrair dados completos necessários à sua investigação, os proxies são a sua única salvação.