Ética na recolha de dados da Web

Raspagem, Jan-25-20225 minutos de leitura

A recolha de dados da Web não é um conceito novo, uma vez que toda a Internet se baseia nela. Por exemplo, quando se partilha a hiperligação de um vídeo do YouTube no Facebook, os seus dados são extraídos para que as pessoas possam ver a miniatura do vídeo na sua publicação. Assim, existem inúmeras formas de utilizar a recolha de dados para benefício de todos. Mas há

Índice

A recolha de dados da Web não é um conceito novo, uma vez que toda a Internet se baseia nela. Por exemplo, quando se partilha a hiperligação de um vídeo do YouTube no Facebook, os seus dados são extraídos para que as pessoas possam ver a miniatura do vídeo na sua publicação. Assim, existem inúmeras formas de utilizar a extração de dados para benefício de todos. Mas há alguns aspectos éticos envolvidos na recolha de dados da Web.

Suponhamos que se candidata a um plano de saúde e que fornece de bom grado as suas informações pessoais ao prestador em troca do serviço que este lhe presta. Mas e se um estranho fizer magia com os seus dados e os utilizar para fins pessoais? As coisas podem começar a tornar-se inadequadas, certo? É aqui que entra a necessidade de praticar a raspagem ética da Web. 

Neste artigo, discutiremos o código de conduta da raspagem da Web e as considerações legais e éticas.

Código de Conduta para a Recolha de Dados da Web

Para praticar a raspagem legal da Web, é necessário respeitar as seguintes regras simples.

Não quebre a Internet - É preciso saber que nem todos os sítios Web podem suportar milhares de pedidos por segundo. Alguns sítios permitem-no, mas outros podem bloqueá-lo se enviar vários pedidos utilizando o mesmo endereço IP. Por exemplo, se escrever um scraper que segue hiperligações, deve testá-lo primeiro num conjunto de dados mais pequeno e garantir que faz o que é suposto fazer. Além disso, é necessário ajustar as definições do seu raspador para permitir um atraso entre os pedidos. 

Ver ficheiro robots.txt - Os sítios Web utilizam ficheiros robots.txt para informar os bots se o sítio pode ou não ser rastreado. Ao extrair dados da Web, é necessário compreender e respeitar o ficheiro robots.txt de forma crítica para evitar ramificações legais. 

Partilhe o que puder - Se obtiver autorização para extrair os dados do domínio público e os extrair, pode divulgá-los (por exemplo, em datahub.io) para que outras pessoas os possam reutilizar. Se escrever um web scraper, pode partilhar o seu código (por exemplo, no Github) para que outros possam beneficiar dele. 

Não partilhe ilegalmente os conteúdos descarregados - Por vezes, não há problema em recolher os dados para fins pessoais, mesmo que a informação esteja protegida por direitos de autor. No entanto, é ilegal partilhar dados sobre os quais não se tem o direito de partilhar.

Pode pedir gentilmente - Se precisar de dados de uma determinada organização para o seu projeto, pode perguntar-lhes diretamente se podem fornecer-lhe os dados que deseja. Além disso, também pode utilizar as informações primárias da organização no seu sítio Web e poupar-se ao trabalho de criar um raspador Web. 

Considerações éticas sobre Web Scraping

É necessário ter em conta a seguinte ética ao extrair dados da Web.

Não roube os dados

É necessário saber que a recolha de dados da Web pode ser ilegal em determinadas circunstâncias. Se os termos e condições do sítio Web que queremos extrair proibirem os utilizadores de copiar e descarregar o conteúdo, então não devemos extrair esses dados e respeitar os termos desse sítio Web.

Não há problema em extrair os dados que não estão protegidos por um sistema de autenticação protegido por palavra-passe (dados publicamente disponíveis), tendo em conta que não se quebra o sítio Web. No entanto, pode ser um problema potencial se partilhar os dados extraídos. Por exemplo, se descarregar conteúdo de um sítio Web e o publicar noutro sítio Web, a sua recolha de dados será considerada ilegal e constituirá uma violação dos direitos de autor. 

Não quebre a Web

Sempre que se escreve um raspador Web, consulta-se um sítio Web repetidamente e acede-se potencialmente a um grande número de páginas. Para cada página, é enviado um pedido ao servidor Web que aloja o sítio. O servidor processa o pedido e envia uma resposta ao computador que executa o código. Os pedidos que enviamos consomem os recursos do servidor. Assim, se enviarmos demasiados pedidos num curto espaço de tempo, podemos impedir que os outros utilizadores regulares acedam ao sítio durante esse período.

Os hackers fazem frequentemente ataques de negação de serviço (DoS) para desligar a rede ou a máquina, tornando-a inacessível aos utilizadores pretendidos. Fazem-no enviando informações para o servidor que provocam uma falha ou inundando o sítio Web alvo com tráfego. 

A maioria dos servidores Web modernos inclui medidas para evitar a utilização ilegítima dos seus recursos, uma vez que os ataques DoS são comuns na Internet. Estão atentos a um grande número de pedidos provenientes de um único endereço IP. Podem bloquear esse endereço se este enviar vários pedidos num curto intervalo de tempo.

Perguntar e partilhar

Vale a pena perguntar aos curadores ou aos proprietários dos dados que planeia extrair, dependendo do âmbito do seu projeto. Pode perguntar-lhes se têm dados disponíveis num formato estruturado que se adapte às necessidades do seu projeto. Se quiser utilizar os seus dados para fins de investigação de uma forma que lhes possa interessar, pode poupar-se ao trabalho de escrever um raspador Web. 

Também pode poupar a outros o trabalho de escrever um raspador Web. Por exemplo, se publicar os seus dados ou documentação como parte de um projeto de investigação, alguém pode querer obter os seus dados para os utilizar. Se quiser, pode fornecer a outras pessoas uma forma de descarregar os seus dados brutos num formato estruturado, poupando assim t

Mais vale prevenir do que remediar

A legislação sobre privacidade de dados e direitos de autor difere de país para país. É necessário verificar as leis que se aplicam ao seu contexto. Por exemplo, em países como a Austrália, é ilegal recolher informações pessoais como números de telefone, endereços de correio eletrónico e nomes, mesmo que estejam disponíveis publicamente.

Deve aderir ao código de conduta de recolha de dados da Web para recolher dados para seu uso pessoal. No entanto, se pretender recolher grandes quantidades de dados para fins comerciais ou de investigação, é provável que tenha de procurar aconselhamento jurídico.

Proxies para raspagem ética da Web

Sabe que os proxies têm uma grande variedade de aplicações. O seu principal objetivo é ocultar o endereço IP e a localização do utilizador. Os proxies também permitem que os utilizadores acedam a conteúdos com restrições geográficas quando navegam na Internet. Assim, os utilizadores podem aceder às páginas ocultas, uma vez que os proxies contornam o conteúdo e as restrições geográficas.

Pode utilizar proxies para maximizar os resultados do scraper, uma vez que reduzem as taxas de bloqueio. Sem eles, é possível extrair o mínimo de dados da Web. Isto deve-se ao facto de os proxies ultrapassarem as taxas de rastreio, permitindo que os spiders extraiam mais dados. A taxa de rastreio indica o número de pedidos que pode enviar num determinado período de tempo. Esta taxa varia de sítio para sítio. 

Seleção de proxies

Pode escolher proxies em função dos requisitos do seu projeto. Pode utilizar um proxy privado ou um proxy partilhado.

  • Os proxies privados são os melhores se o seu projeto necessitar de um elevado desempenho e de uma ligação maximizada.
  • Os proxies partilhados têm um bom desempenho quando se trata de um projeto de pequena escala com um orçamento limitado.
  • Os proxies gratuitos são desaconselhados na extração de dados da Web. Isto deve-se ao facto de estarem abertos ao público e serem frequentemente utilizados para actividades ilegais.

Pode identificar as fontes de IP para além de escolher proxies para o seu projeto. Existem três categorias de servidores proxy. 

Proxies de centro de dados - Estes são os proxies mais baratos e práticos para a recolha de dados da Web. Estes IPs são criados em servidores independentes e utilizados de forma eficiente para realizar projectos de scraping em grande escala.

Proxies residenciais - Podem ser difíceis de obter, uma vez que estão associados a terceiros. 

Proxies móveis - São os mais caros e são óptimos para utilizar se tiver de recolher dados que só são visíveis em dispositivos móveis.

Conclusão sobre a ética da raspagem da Web

Até agora, discutimos que pode extrair dados da Internet tendo em conta as considerações legais e éticas. Por exemplo, não se deve roubar dados da Web. Não pode partilhar os dados sobre os quais não tem direito. Se precisar dos dados de uma organização para o seu projeto, pode perguntar-lhe se pode partilhar os seus dados em bruto num formato estruturado. Caso contrário, pode escrever o seu web scraper para extrair os dados do sítio Web, se eles o permitirem. Além disso, discutimos que pode escolher diferentes proxies, dependendo das necessidades do seu projeto. Pode utilizar o centro de dados ou IPs residenciais, uma vez que são muito utilizados para a extração de dados da Web.