Como fazer scraping do Reddit usando Python

Existem cinco formas de fazer scraping do Reddit, e são elas:

Raspagem manual - É o método mais fácil, mas menos eficiente em termos de velocidade e custo. No entanto, produz dados com elevada consistência.
Utilizar a API do Reddit - É necessário ter conhecimentos básicos de programação para extrair dados do Reddit utilizando a API do Reddit. Fornece os dados, mas limita o número de mensagens em qualquer tópico do Reddit a 1000.
APIs de terceiros revestidas de açúcar - É uma abordagem eficaz e escalável, mas não é eficiente em termos de custos.
Ferramentas de Web Scraping - Estas ferramentas são escaláveis e requerem apenas conhecimentos básicos de utilização de um rato.
Scripts de raspagem personalizados - São altamente personalizáveis e escaláveis, mas exigem um elevado calibre de programação.

Vamos ver como podemos fazer scrape do Reddit utilizando a API do Reddit com a ajuda dos seguintes passos.

Criar conta da API do Reddit

É necessário criar uma conta Reddit antes de avançar. Para utilizar o PRAW, tem de se registar na API do Reddit seguindo esta ligação.

Importar pacotes e módulos

Primeiro, importaremos os módulos internos do Pandas, ou seja, datetime, e dois módulos de terceiros, PRAW e Pandas, como mostrado abaixo:

importar praw
import pandas as pd
import datetime as dt

Obter instâncias do Reddit e do subreddit

Você pode acessar os dados do Reddit usando o Praw, que significa Python Reddit API Wrapper. Primeiro, tens de te ligar ao Reddit chamando a função praw.Reddit e armazenando-a numa variável. Depois, tens de passar os seguintes argumentos para a função.

reddit = praw.Reddit(client_id='PERSONAL_USE_SCRIPT_14_CHARS', \
                    client_secret='SECRET_KEY_27_CHARS ', \
                    user_agent='SEU_NOME_DA_APP', \
                    username='SEU_NOME_DE_USUÁRIO_REDDIT', \
                    password='A SUA PALAVRA-PASSE DE INÍCIO DE SESSÃO_REDITARIO')

Agora, você pode obter o subreddit de sua escolha. Então, chame a instância .subreddit do reddit (variável), e passe o nome do subreddit que você quer acessar. Por exemplo, você pode usar o subreddit r/Nootropics.

subreddit = reddit.subreddit('Nootropics')

Aceder aos fios

Cada subreddit tem as cinco formas diferentes de organizar os tópicos criados pelos Redditors:

.novo
.quente
.controverso
.dourado
.topo

Pode obter os tópicos mais votados como:

top_subreddit = subreddit.top()

Obterá um objeto do tipo lista com as 100 melhores submissões em r/Nootropics. No entanto, o limite de pedidos do Reddit é de 1000, pelo que pode controlar o tamanho da amostra passando um limite para .top as:

top_subreddit = subreddit.top(limit=600)

Analisar e descarregar os dados

Pode recolher todos os dados que quiser. No entanto, iremos recolher as seguintes informações sobre os tópicos:

id
título
pontuação
data de criação
corpo do texto

Para tal, armazenamos os nossos dados num dicionário e, em seguida, utilizamos um ciclo for, como se mostra abaixo.

topics_dict = { "title":[], \
                "score":[], \
                "id":[], "url":[], \
                "created": [], \
                "body":[]}

Agora, podemos extrair os dados da API do Reddit. Vamos anexar as informações ao nosso dicionário, iterando através do nosso objeto top_subreddit.

for submission in top_subreddit:
    topics_dict["id"].append(submission.id)
    resumo_de_tópicos["título"].append(submissão.título)
    resumo_tópicos["pontuação"].append(submissão.pontuação)
    resumo dos tópicos["criado"].append(submissão.criado)
    resumo_tópicos["corpo"].append(submissão.auto-texto)

Agora, colocamos os nossos dados em Pandas Dataframes, uma vez que os dicionários Python não são fáceis de ler.

tópicos_dados = pd.DataFrame(tópicos_dict)

Exportar CSV

É muito fácil criar ficheiros de dados em vários formatos no Pandas, pelo que utilizamos as seguintes linhas de código para exportar os nossos dados para um ficheiro CSV.

topics_data.to_csv('FILENAME.csv', index=False)

Melhores proxies do Reddit de 2021

Você sabe que o Reddit não é um site muito rigoroso quando se trata de restrições de uso de proxy. Mas você pode ser pego e penalizado se automatizar suas ações no Reddit sem usar proxies.

Portanto, vamos analisar alguns dos melhores proxies para o Reddit que se enquadram em duas categorias:

Proxies residenciais - Estes são os endereços IP que o fornecedor de serviços Internet (ISP) atribui a um dispositivo numa determinada localização física. Estes proxies revelam a localização real do dispositivo que o utilizador utiliza para iniciar sessão num sítio Web.

Proxies de centro de dados - Estes são vários endereços IP que não têm origem em nenhum fornecedor de serviços Internet. Adquirimo-los a um fornecedor de serviços na nuvem.

Seguem-se alguns dos principais proxies residenciais e de centros de dados para o Reddit.

Smartproxy

O Smartproxy é um dos principais fornecedores de proxy residencial premium, pois é eficaz para a automatização do Reddit. Ele tem um extenso pool de IPs e fornece acesso a todos os IPs assim que você se inscreve no seu serviço.

Stormproxy

O preço e a largura de banda ilimitada dos Stormproxies fazem deles uma boa escolha. Eles são acessíveis e baratos de usar. Eles têm proxies para vários casos de uso e fornecem os melhores proxies residenciais para automação do Reddit.

ProxyScrape

ProxyScrape é um dos populares fornecedores de serviços de proxy que se concentra na oferta de proxies para scraping. Também oferece proxies de centros de dados dedicados, juntamente com os proxies de centros de dados partilhados. Tem mais de 40 mil proxies de centros de dados que pode utilizar para extrair dados de sítios Web na Internet.

ProxyScrape fornece três tipos de serviços aos seus utilizadores, i.e.,

Proxies de Datacenter Premium

Procurações residenciais

Proxies dedicados

Proxies elevados

Highproxies trabalha com o Reddit e tem as seguintes categorias de proxies:

Proxies partilhados
Proxies privados
Proxies de sites classificados
Proxies de emissão de bilhetes
Proxies dos media

Proxies instantâneos

Também pode utilizar Instantproxies para a automatização do Reddit, uma vez que são muito seguros, fiáveis, rápidos e têm um tempo de atividade de cerca de 99,9%. Eles são os mais baratos de todos os proxies de datacenter.

Porquê utilizar Proxies do Reddit?

Precisa de proxies quando está a trabalhar com algumas ferramentas automáticas no Reddit. Isso acontece porque o Reddit é um site muito sensível que detecta facilmente acções automáticas e bloqueia o acesso do seu IP à plataforma. Por isso, se estiver a automatizar algumas das tarefas, como votos, publicações, aderir/desaderir a grupos e gerir mais do que uma conta, precisa definitivamente de utilizar proxies para evitar maus resultados.

Soluções alternativas para o Scrape Reddit

Pode optar pela recolha manual de dados se os seus requisitos de recolha de dados do Reddit forem pequenos. Mas se os requisitos forem grandes, terá de utilizar metodologias de recolha automatizada de dados, como ferramentas de recolha de dados da Web e scripts personalizados. Os raspadores da Web revelam-se eficientes em termos de custos e recursos quando os seus requisitos diários de raspagem não ultrapassam alguns milhões de publicações.

Então, vamos ver alguns dos melhores raspadores do Reddit como a melhor solução para raspar grandes quantidades de dados do Reddit.

Scrapestrom

O Scrapestorm é uma das melhores ferramentas de raspagem disponíveis no mercado, pois funciona muito bem quando se trata de raspar o Reddit. Utiliza a inteligência artificial para identificar automaticamente os principais pontos de dados na página Web.

Apify's Reddit Scraper

O raspador do Reddit da Apify facilita a extração de dados sem utilizar a API do Reddit. Isso significa que você não precisa de um token de API de desenvolvedor e autorização do Reddit para baixar os dados para uso comercial. Também pode otimizar o seu scraping utilizando o serviço de proxy integrado da plataforma Apify.

Conclusão

Discutimos cinco maneiras de extrair dados do Reddit, e a mais fácil é usar a API do Reddit, pois requer apenas habilidades básicas de codificação. PRAW é um wrapper Python para a API do Reddit que permite usar uma API do Reddit com uma interface Python limpa. Mas quando tiver grandes requisitos de raspagem do Reddit, pode extrair dados publicamente disponíveis do sítio Web do Reddit com a ajuda de raspadores do Reddit. Para automatizar as suas acções no sítio Web do Reddit, é necessário utilizar um centro de dados ou proxies residenciais.

Por: ProxyScrape

Como fazer scraping do Reddit usando Python

Índice

Porque é que precisa de fazer scraping do Reddit?

Desafios da recolha de dados do Reddit