A raspagem da Web será legal em 2024?

Guias, Abr-02-20225 minutos de leitura

Se tem experiência com scrapers da Web, sabe como podem beneficiar a sua empresa. A recolha de dados da Web fornece dados que pode utilizar para melhorar os seus produtos e serviços. Se os seus dados pessoais foram extraídos das suas páginas Web, pode estar aborrecido porque pode ter perdido negócios devido a

Se tem experiência com scrapers da Web, sabe como podem beneficiar a sua empresa. A recolha de dados da Web fornece dados que pode utilizar para melhorar os seus produtos e serviços.

Se os seus dados pessoais foram extraídos das suas páginas Web, pode estar aborrecido porque pode ter perdido negócios por causa disso. Os proprietários de sítios Web estão descontentes com o facto de o seu sítio Web ter sido extraído, porque os dados no seu próprio sítio Web são informações pessoalmente identificáveis.

Quando se faz data scraping na Web, está-se a pegar em informação que outra pessoa reuniu e a utilizá-la para os nossos próprios fins. Isto pode ser feito sem a autorização do proprietário do sítio Web. Em alguns casos, a recolha de dados pode violar os termos de serviço de um sítio Web.

Uma vez que muitas pessoas o fazem, presume-se que a utilização de ferramentas de raspagem da Web é legal. No entanto, também pode ter ouvido dizer que a raspagem da Web é ilegal e pode dar origem a pesadas multas. Então, qual é a verdade? A raspagem da Web é legal em 2023?

O que são dados da Web?

Antes de discutirmos a legalidade da recolha de dados da Web, é importante compreender o que são dados da Web. Os dados da Web são as informações que se encontram num sítio Web. Incluem o texto, as imagens, os vídeos e outros conteúdos que compõem um sítio Web e é o que se procura quando se faz web scraping.

Os dados da Web dividem-se em duas categorias: públicos e privados. Os dados publicamente disponíveis são informações a que qualquer pessoa pode aceder e qualquer pessoa pode aceder a estes sítios Web.

Os dados privados ou pessoais são dados que não permitem o acesso público e a pesquisa na Web destes dados pode ser ilegal.

Quando se trata de recolha de dados da Web, é preciso pegar em dados públicos e utilizá-los para os seus próprios fins, razão pela qual a recolha de dados da Web é legal na maioria dos casos.

O que é Web Scraping?

 A raspagem da Web é um método de extração de dados disponíveis publicamente a partir de páginas Web públicas. Os scrapers podem recolher dados como informações de contacto, imagens, vídeos e muito mais.

Existem muitas formas diferentes de extrair dados. Pode utilizar um simples raspador que apenas recolhe dados de texto ou um raspador mais sofisticado que também recolhe imagens e vídeos.

A raspagem da Web é quando o utilizador retira informações do sítio Web de outra pessoa e as utiliza para os seus próprios fins. Isto pode ser feito sem a autorização da pessoa que criou o sítio Web. Consoante os dados que extrai, a extração de dados da Web é legal ou ilegal.

Se as pessoas publicarem dados públicos num sítio Web público, é legal extrair esses dados. No entanto, se fizer scraping de dados privados ou protegidos por direitos de autor, pode estar a infringir a lei.

Existem muitos raspadores Web diferentes disponíveis online e alguns destes raspadores Web são gratuitos, enquanto outros requerem uma subscrição.

Porque é que as pessoas fazem scraping da Web?

As pessoas utilizam a raspagem da Web por uma variedade de razões. Algumas pessoas utilizam os web scrapers para extrair dados para fins de investigação, enquanto outras utilizam os web scrapers para recolher informações de contacto ou imagens. Eis algumas das razões mais comuns para fazer scraping na Web:

Recolher dados da concorrência

Uma empresa pode utilizar um raspador da Web para extrair dados sobre os seus concorrentes e utilizá-los para melhorar os produtos e serviços da empresa ou para descobrir novos nichos de mercado.

Campanhas de vendas e marketing

Os vendedores e os profissionais de marketing também utilizam scrapers da Web. Os profissionais de marketing utilizam scrapers da Web para recolher dados sobre potenciais clientes e mercados para criar campanhas de marketing direccionadas.

Os vendedores podem utilizar uma ferramenta de recolha de dados da Web para encontrar as informações de contacto de um potencial cliente e adicioná-lo a uma lista de chamadas ou de correio eletrónico. Esta é uma prática comum de geração de contactos possibilitada pela recolha de dados da Web.

Extrair notícias de diferentes fontes

Uma razão comum para extrair dados públicos é recolher notícias de diferentes fontes, o que é feito manualmente ou utilizando uma ferramenta agregadora de notícias.

Os jornalistas e os estudantes utilizam os raspadores de dados para trabalhos de investigação, artigos e investigações. A possibilidade de extrair dados publicamente disponíveis torna muito cómodo o trabalho de repórteres e investigadores.

Recolher dados para um modelo de aprendizagem automática

Os cientistas de dados e as grandes empresas utilizam raspadores da Web para compilar dados para modelos de aprendizagem automática. Estes dados podem ser utilizados para treinar o modelo para reconhecer padrões ou fazer previsões sobre eventos futuros.

Os raspadores da Web são uma ferramenta importante para os cientistas de dados, uma vez que concedem a estes modelos acesso automatizado a uma grande quantidade de dados a que, de outra forma, não teriam acesso. 

Websites de spam

Algumas pessoas também utilizam ferramentas de recolha de dados da Web para enviar spam a sítios Web. Isto acontece quando alguém recolhe endereços de correio eletrónico de um sítio Web e depois envia ao proprietário desse sítio Web mensagens de correio eletrónico indesejadas. Esta é uma das razões pelas quais alguns questionam a ética da recolha de dados da Web.

Roubar dados pessoais

Outra utilização pouco ética da raspagem da Web é o roubo de dados. Isto acontece quando alguém utiliza um Web scraper para recolher dados privados, como números de cartões de crédito ou credenciais de início de sessão, para cometer fraude ou roubo de identidade.

A recolha de dados da Web é legal se for utilizada para roubar dados pessoais? De modo algum.

Na maioria dos casos, a recolha de dados públicos é perfeitamente legal. No entanto, existem algumas excepções, que descrevemos neste artigo.

Quando é que a raspagem da Web é legal?

O Web scraping é legal na maioria dos casos. Se estiver a extrair dados de um sítio Web público, provavelmente não está a violar nenhuma lei. Nos Estados Unidos, não existem leis federais que restrinjam a recolha de dados de servidores Web, mas não pode adquirir um número excessivo de bots para acesso automático a servidores de uma só vez.

Na Europa, a situação jurídica é semelhante, uma vez que não existem leis específicas contra a recolha de dados na Web. No entanto, se estiver a fazer scraping de dados protegidos por leis e termos de serviço, poderá estar a violar o Regulamento Geral sobre a Proteção de Dados (RGPD), que é um conjunto de regulamentos que protegem a privacidade dos cidadãos europeus.

Existem algumas excepções a esta regra. Se estiver a extrair determinados dados de um sítio Web que exija um início de sessão ou um acesso pago, poderá estar a violar os termos de serviço desse sítio Web. 

Se fizer scraping de dados protegidos por direitos de autor, pode correr o risco de violação de direitos de autor se utilizar esses dados. Além disso, se estiver a extrair dados privados, como informações de contacto ou dados financeiros, também pode ter problemas legais.

Quais são os riscos da raspagem da Web?

Embora a raspagem da Web seja legal na maioria dos casos, existem alguns riscos associados a ela que deve conhecer. 

Violação dos Termos de Serviço

Todos os sítios Web têm os seus termos de serviço e a sua política de privacidade, e estes termos podem variar muito. Alguns sítios Web podem proibir totalmente a raspagem da Web, enquanto outros podem permiti-la em determinadas condições. Se violar os termos de serviço de um sítio Web, poderá estar sujeito a uma ação judicial ou a outros problemas legais.

Recolha de dados protegidos

Outro risco é o facto de poder recolher dados protegidos por direitos de autor. A lei dos direitos de autor protege as obras criativas, como livros, filmes e música. Se utilizar ferramentas de recolha de dados da Web para obter dados protegidos por direitos de autor, poderá estar em risco de violação de direitos de autor.

Além disso, também pode extrair dados privados, que incluem informações de contacto ou dados financeiros. Se recolher este tipo de dados sem a autorização do proprietário, poderá estar a violar os seus direitos de privacidade.

Violação das leis locais

Em alguns casos, existem regulamentos locais associados à recolha de dados da Web. Por exemplo, na União Europeia, o RGPD protege a privacidade dos cidadãos. Se aceder a dados protegidos pelo RGPD, poderá estar sujeito a uma coima ou a outras consequências legais.

A Lei sobre a Fraude e o Abuso de Computadores

O Computer Fraud and Abuse Act de 1986(CFAA) é uma lei federal dos EUA que proíbe o acesso não autorizado a sistemas informáticos. Se extrair dados de um Web site que requer autenticação sem a permissão do proprietário, poderá estar a violar a CFAA.

A lei proíbe o acesso não autorizado a "computadores protegidos", o que inclui qualquer computador em comércio ou comunicações interestaduais ou estrangeiras. Por outras palavras, se aceder a dados confidenciais a partir de um Web site nos Estados Unidos, poderá estar a violar a Lei sobre fraude e abuso informático.

O que é a fraude informática?

A fraude informática é qualquer tipo de atividade fraudulenta que envolva a utilização de um computador, o que inclui actividades como a invasão de um sistema informático, o roubo de dados ou a danificação de um sistema informático.

A raspagem da Web pode ser considerada fraude informática se estiver a aceder a dados sem a autorização do proprietário. Por exemplo, se aceder a dados pessoais de um sítio Web que está protegido por um acesso pago, pode estar a violar os termos de serviço desse sítio Web.

Além disso, se aceder a dados de um Web site que exija um início de sessão, também pode estar a violar os termos de serviço. O simples facto de contornar a janela pop-up e o ecrã de início de sessão pode ser considerado acesso não autorizado ao abrigo da CFAA.

Principais processos judiciais de raspagem da Web nos EUA

Nos EUA, há inúmeros exemplos de empresas que ultrapassaram os limites legais com a recolha de dados da Web. Eis alguns dos principais processos judiciais:

Linkedin vs. hiQ

Em 2019, o LinkedIn enviou uma carta de cessação e desistência à startup de dados hiQ, acusando-a de raspar perfis de usuários públicos na web. O LinkedIn alegou que a hiQ estava a violar a CFAA. A primeira ordem do Nono Circuito decidiu a favor da hiQ, mas o LinkedIn recorreu ao Supremo Tribunal dos EUA. Em junho de 2021, o Supremo Tribunal decidiu por um caso de revisão.

eBay vs. eBidder

Em 2000, o sítio de leilões em linha eBay processou a empresa iniciante de recolha de dados eBidder por ter efectuado a recolha de dados do seu sítio. O caso foi resolvido fora do Supremo Tribunal dos Estados Unidos e foi ordenado à eBidder que deixasse de efetuar a recolha de dados da eBay. A principal razão pela qual a eBay ganhou o processo foi o facto de os pedidos frequentes ao seu servidor Web causarem o esgotamento do sistema.

Facebook vs. Power Ventures

Em 2009, o Facebook processou o site de rede social Power Ventures por ter extraído dados de utilizadores da Web. Este foi um dos primeiros exemplos de uma ação judicial que teve como ponto de partida a propriedade intelectual. O Facebook alegou que a Power Ventures estava a violar os seus termos de serviço.

O Facebook ganhou a ação judicial com base no precedente legal de que os utilizadores do Facebook tinham direitos de propriedade intelectual. A Power Ventures estava a recolher dados pessoais, o que significa que uma parte substancial dos dados pessoais estava protegida pelas leis de privacidade de dados.

Melhores práticas éticas de Web Scraping

Se quiser garantir que está a extrair dados da Web de forma ética, existem algumas práticas que deve seguir:

Verificar os Termos de Serviço

Antes de começar a utilizar Web crawlers num sítio Web, certifique-se de que verifica os termos de serviço. Alguns sítios Web podem proibir totalmente a recolha de dados da Web, enquanto outros podem permiti-la em determinadas condições.

Obter autorização antes de recolher dados privados

Se pretender obter dados privados, como informações de contacto ou dados financeiros, deve primeiro obter a autorização do proprietário, contactando-o. Pode fazê-lo enviando um e-mail ou pedindo-lhe pessoalmente. Pode fazê-lo enviando-lhe uma mensagem de correio eletrónico ou pedindo-lhe pessoalmente.

Não recolha dados pessoais

Quando estiver a fazer scraping de dados, evite fazer scraping de dados sensíveis, como dados protegidos por direitos de autor, dados privados e outros tipos de informações sensíveis.

Cuidado ao fazer scraping de sítios Web locais

Se estiver a extrair dados públicos de um sítio Web local, certifique-se de que tem conhecimento de quaisquer regulamentos locais que possam ser aplicáveis. Por exemplo, na União Europeia, o GDPR protege a privacidade dos cidadãos, e a CFAA faz o mesmo nos Estados Unidos.

Seguir a regra de ouro

Se quiser minimizar os riscos, siga sempre a regra de ouro: trate os outros como gostaria de ser tratado. Se não quer que alguém recolha os seus dados sem a sua autorização, não o faça a outra pessoa.

A linha de fundo

A legalidade da recolha de dados da Web ainda é, por vezes, uma área cinzenta do ponto de vista jurídico. Mas há algumas coisas que pode fazer para garantir que está a fazer scraping de forma ética.

Verifique os termos de serviço do sítio Web que pretende extrair, obtenha autorização antes de extrair dados privados e tenha cuidado ao extrair dados sensíveis.

Além disso, certifique-se sempre de que acede aos dados com uma taxa de rastreio razoável para evitar sobrecarregar desnecessariamente os servidores do sítio Web. Desde que esteja a extrair dados acessíveis ao público, não deverá haver qualquer problema.

Lembre-se sempre de que existem utilizadores humanos do outro lado dos seus sítios Web alvo, por isso certifique-se de que segue a regra de ouro: trate os outros como gostaria de ser tratado.

Já esteve envolvido num projeto de raspagem da Web? Deixe-nos saber nos comentários abaixo!