Proxies para a investigação académica

Proxies, Sep-12-20215 minutos de leitura

A investigação académica implica a recolha de montes de dados de várias fontes, independentemente de a sua investigação ser quantitativa ou qualitativa. Devido à natureza abrangente destes dados em linha, os investigadores académicos têm de depender da tecnologia para os extrair. Uma dessas técnicas automatizadas que vamos explorar neste artigo é a raspagem da Web. No entanto, o web

A investigação académica implica a recolha de montes de dados de várias fontes, independentemente de a sua investigação ser quantitativa ou qualitativa. Devido à natureza abrangente destes dados em linha, os investigadores académicos teriam de depender da tecnologia para os extrair.

Uma dessas técnicas automatizadas que vamos explorar neste artigo é o web scraping. No entanto, o web scraping por si só não conduziria a resultados frutíferos. Teria de depender de proxies, bem como de considerações éticas.

Mas primeiro, vamos explorar a natureza destes dados. 

Principais características dos dados em linha para a investigação académica

Para a investigação académica, os dados na Web consistem em dados quantitativos e qualitativos estruturados, não estruturados e semi-estruturados. Estão dispersos pela Web em blogues, tweets, e-mails, bases de dados, páginas Web, tabelas HTML, fotografias, vídeos, etc.

Ao extrair quantidades tão grandes de dados da Web, é frequentemente necessário enfrentar vários desafios técnicos. Estes desafios devem-se ao volume, à variedade, à veracidade e à velocidade dos dados. Vejamos cada uma destas variáveis:

Volume - No que diz respeito ao volume de dados, estes são medidos em Zettabytes (milhares de milhões de gigabytes), uma vez que se apresentam sob a forma de grandes quantidades.

Variedade - Em segundo lugar, os repositórios ou as bases de dados em que estes dados são armazenados apresentam-se em vários formatos e assentam em múltiplas normas tecnológicas e regulamentares. 

Velocidade -Em terceiro lugar, os dados presentes na Web são dinâmicos, uma vez que são gerados a uma velocidade incrível.

Veracidade - A última caraterística dos dados disponíveis para investigação é a veracidade dos dados. Uma vez que os dados interagem anonimamente na Web devido à sua natureza livre e aberta, nenhum investigador poderá confirmar se os dados necessários estão disponíveis na Web, o que seria suficiente para afirmar a sua qualidade.

Devido às variáveis acima referidas, seria impraticável para os investigadores académicos iniciarem a recolha de dados manualmente. Assim, a prática mais emergente de recolha de dados para investigação é através de web-scraping. Esta prática será explorada na próxima secção.

Como é que o Web Scraping o pode ajudar na sua investigação académica?

Assim, o web scraping é a extração automática de dados da Web a partir de fontes como revistas académicas, fóruns de investigação, artigos académicos, bases de dados e outras fontes necessárias à investigação académica para análise posterior.

A raspagem da Web consiste nas seguintes fases:

Análise do sítio Web

Este é o processo de investigação da estrutura subjacente de uma entidade onde os dados estão armazenados. Esta entidade pode ser um sítio Web ou um repositório, como uma base de dados. O objetivo desta investigação é compreender como são armazenados os dados de que necessita. Para isso, é necessário compreender os elementos constitutivos da arquitetura da Web: HTML, CSS, XML, etc., para as linguagens de marcação e MySQL para as bases de dados Web.

Rastreio da Web

O rastreio de sítios Web consiste na criação de scripts automatizados utilizando linguagens de programação de alto nível, como Python, para navegar nas páginas Web e extrair os dados de que necessita. Tem a opção de criar scripts de raiz ou de comprar um script já desenvolvido.

Python contém bibliotecas como Scrapy e Beautiful Soap Library para rastreamento automático e análise de dados. Saiba mais sobre rastreamento e raspagem da Web neste artigo.

Organização dos dados

Depois de a ferramenta de rastreio recolher os dados necessários de um sítio Web ou repositório, é necessário limpá-los, pré-processá-los e organizá-los para análise posterior. Assim, poderá ser necessária uma abordagem programática para poupar tempo. Mais uma vez, linguagens de programação como Python contêm bibliotecas de Processamento de Linguagem Natural (PNL) que ajudam a organizar e limpar os dados. 

Por esta altura, já deve ter percebido que é bastante difícil automatizar todo o processo de raspagem. É necessário um certo grau de supervisão humana. 

Agora já tem uma visão geral de todo o processo de recolha de dados da Web. Está na altura de analisar alguns dos aspectos éticos da recolha de dados da Web, uma vez que tem de saber o que pode e não pode fazer durante a recolha de dados.  

Aspectos éticos da recolha de dados da Web para investigação académica

Só porque tem as ferramentas de rastreio automatizadas, isso significa que pode fazer scraping em qualquer lado? Incluindo os dados de pesquisa que estão por detrás de uma página de início de sessão ou de um fórum privado?

Embora existam áreas cinzentas na lei relacionadas com a recolha de dados da Web, deve ter em atenção que não é ético recolher dados a que um utilizador normal não deve aceder, o que discutiremos mais adiante.

Afinal, a raspagem da Web pode causar danos não intencionais aos proprietários de um sítio Web, por exemplo. Estes danos e perigos são difíceis de prever e definir.

Eis algumas das prováveis consequências nefastas da raspagem da Web:

Privacidade individual

Um projeto de investigação que se baseie na recolha de dados de um sítio Web pode acidentalmente pôr em perigo a privacidade de indivíduos envolvidos em actividades do sítio Web. Por exemplo, ao comparar os dados recolhidos de um sítio Web com outros recursos em linha e fora de linha, um investigador expõe involuntariamente quem criou os dados.

Privacidade organizacional e segredos comerciais

Tal como os indivíduos têm o direito à privacidade, as organizações também têm o direito de manter certas partes das suas operações privadas e confidenciais. 

Por outro lado, a raspagem automática pode facilmente expor segredos comerciais ou informações confidenciais sobre a organização a que pertence o sítio Web. Por exemplo, ao contar os anúncios de emprego num sítio Web de recrutamento, um utilizador inteligente poderia determinar aproximadamente as receitas da empresa. Este cenário conduziria a um prejuízo para a reputação da empresa e poderia mesmo levar a perdas financeiras.

Diminuição do valor organizacional

Se aceder a um sítio Web sem aceder ao seu frontend ou à sua interface, não ficará exposto às campanhas de marketing que um sítio Web utiliza para gerar receitas. Do mesmo modo, um projeto de raspagem da Web pode dar origem a um produto que os seus clientes provavelmente não comprarão ao verdadeiro proprietário do produto. Isto resultaria novamente em perdas financeiras para a organização, diminuindo os seus valores.

Recolha de dados das redes sociais para investigação académica

As redes sociais são uma das principais fontes de extração de várias formas de dados para investigação. Isto deve-se a diferentes informações, desde comportamentos sociais a notícias políticas. No entanto, de um ponto de vista ético, não é tão simples recolher todos os dados como pode parecer.

Uma das razões é que as redes sociais são constituídas por uma grande quantidade de dados pessoais. Uma variedade de regulamentos legais também protege estes dados. Além disso, as normas éticas da comunidade científica exigem que se salvaguarde a privacidade dos utilizadores. Isto implica que tem de evitar a todo o custo qualquer dano resultante da ligação a pessoas reais que a sua investigação menciona.

De facto, não pode ver nenhum dos seus sujeitos associados à sua investigação no seu ambiente privado. Isto aplica-se certamente ao acesso aos seus perfis no Facebook, ao mural ou às mensagens privadas a que não tem acesso. 

É óbvio que, ao efetuar uma investigação quantitativa, não prejudicará pessoalmente um indivíduo devido à fuga de dados. Assim, ao realizar uma investigação qualitativa, tenha em atenção a divulgação de informações pessoais ao citar as mensagens dos utilizadores como prova.

A solução definitiva seria a utilização da técnica de pseudonimização, que permite pesquisar dados e seguir as actividades do sujeito sem prejudicar a sua privacidade.

Como é que os proxies podem ajudar a fazer scraping ético para a investigação académica

Os proxies podem desempenhar um papel importante no que diz respeito à recolha de dados para investigação académica. Existem conjuntos gigantescos de dados de várias fontes para selecionar, e as restrições tornam a investigação mais complexa. Os proxies podem ajudá-lo a ultrapassar muitos destes obstáculos. Vamos descobrir como.

Contornar as restrições geográficas por localização - Algumas revistas e trabalhos académicos restringem o acesso a utilizadores de determinados países. Ao utilizar proxies, pode ultrapassar esta restrição, uma vez que mascara o seu endereço IP. Além disso, pode selecionar proxies residenciais de vários locais em todo o mundo para que os proxies não revelem a sua localização.

Automatizar o processo de recolha de dados - Como descobriu na secção anterior, os web scrapers podem recolher muitos dados. No entanto, não conseguem contornar as restrições impostas pelos sítios Web, como os captchas. Os proxies podem ajudá-lo a ultrapassar essas restrições e ajudar os scrapers a recolher a maior parte dos dados.

Ajuda-o a estar seguro e anónimo - Quando está a fazer projectos de investigação para organizações, pode ser vítima de hackers. Isto porque os hackers podem intercetar a sua ligação e roubar dados confidenciais. No entanto, será anónimo quando estiver atrás de um servidor proxy, uma vez que o seu endereço IP está oculto. Por conseguinte, o hacker não pode roubar os seus dados.

Que tipo de proxies é mais adequado?

Pode utilizar os proxies do centro de dados e residenciais para ocultar o seu endereço IP dos proxies disponíveis. 

Com os proxies residenciais, pode utilizar um conjunto de endereços IP de vários países, que já discutimos acima.

Além disso, quando se utiliza um conjunto de proxies, é possível rodá-los para que o sítio Web de destino apareça como fontes diferentes a aceder ao mesmo. Assim, é menos provável que receba um bloqueio de IP.

Além disso, certos sítios Web de investigação apresentam informações diferentes aos utilizadores de diferentes países. Assim, outra vantagem da rotação de proxies é que pode mudar a sua localização e verificar se os dados também mudam com estes proxies diferentes. Desta forma, garante que a sua investigação é completa e eficaz a partir de várias fontes de vários países. 

Proxies no jornalismo de dados

Quando os jornalistas de dados recolhem dados de revistas, a maioria preocupa-se em identificar-se. Alguns jornalistas acreditam que é essencial identificarem-se quando recolhem dados de sítios Web específicos. Isto é análogo a apresentar-se a alguém antes de conduzir uma entrevista.

Assim, se é um jornalista que prefere identificar-se, tem de escrever uma nota no cabeçalho HTTP com o seu nome e que é um jornalista. Pode também deixar o seu número de telefone, caso o webmaster queira contactá-lo.

Por outro lado, se for um jornalista que não deseja revelar-se quando recolhe dados para as suas histórias, pode recolher os dados anonimamente com a ajuda de proxies. No entanto, terá de respeitar as melhores práticas éticas e seguir as regras do sítio Web, como referimos acima. Trata-se de um cenário semelhante ao de uma entrevista secreta, em que o entrevistado não sabe que está a ser entrevistado. 

Conclusão

Esperamos que tenha compreendido o processo de extração de dados para investigação académica. Quando se procede à recolha de dados, há directrizes éticas que devem ser seguidas sem causar danos não intencionais aos proprietários dos sítios Web.

Os proxies podem ser a sua salvação nessas circunstâncias, para além de ultrapassarem as restrições mencionadas neste artigo.

Esperamos que tenha gostado da leitura e que implemente os métodos mencionados neste artigo para extrair os dados de investigação para a sua investigação.