quer ajudar? Aqui estão as suas opções:","Crunchbase","Sobre nós","Obrigado a todos pelo fantástico apoio!","Ligações rápidas","Programa de afiliados","Prémio","ProxyScrape ensaio premium","Tipos de proxy","Países substitutos","Casos de utilização de proxy","Importante","Política de cookies","Declaração de exoneração de responsabilidade","Política de privacidade","Termos e condições","Redes sociais","Facebook","LinkedIn","Twitter","Quora","Telegrama","Discórdia","\n © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Bélgica | VAT BE 0749 716 760\n"]}
As pessoas podem facilmente recolher e extrair informações de várias fontes, como o Facebook, o Reddit e o Twitter. Pode pensar-se num raspador como uma ferramenta especializada que extrai dados de uma página Web com precisão e rapidez. As APIs de raspagem ajudam os raspadores a evitar serem banidos por técnicas anti-raspagem que os sítios Web colocam. No entanto, é
As pessoas podem facilmente recolher e extrair informações de várias fontes, como o Facebook, o Reddit e o Twitter. Pode pensar-se num raspador como uma ferramenta especializada que extrai dados de uma página Web com precisão e rapidez. As APIs de raspagem ajudam os raspadores a evitar serem banidos por técnicas anti-raspagem que os sítios Web colocam. No entanto, a utilização de APIs é dispendiosa em comparação com uma ferramenta proxy gerida pelo próprio utilizador.
Já utilizou o Reddit? Se é um investigador social e passa muito tempo em linha, é provável que já tenha ouvido falar do Reddit. O Reddit apresenta-se como a "primeira página da Internet". É um fórum de discussão online onde as pessoas partilham conteúdos e notícias ou comentam as publicações de outras pessoas. Portanto, é uma fonte incrível de dados para profissionais de marketing da Internet e pesquisadores sociais.
O Reddit tem uma API chamada Python Reddit API Wrapper, abreviada para PRAW, para rastrear dados. Neste blogue, vou mostrar-lhe os passos de como fazer scrape do Reddit usando python. Mas antes disso, você precisa saber por que você tem que raspar o Reddit.
Se falarmos do design do Reddit, este está dividido em várias comunidades conhecidas como "subreddits". Pode encontrar qualquer subreddit do seu tópico de interesse na Internet. Os investigadores sociais efectuam análises, fazem inferências e implementam planos de ação quando extraem discussões do Reddit sobre um determinado tópico.
Pode extrair muitos pontos de dados do Reddit, tais como:
Pode extrair qualquer informação do Reddit que seja relevante para a sua atividade devido às seguintes necessidades:
Por exemplo,
O scraping do Reddit utiliza web scrapers (programas de computador) para extrair dados publicamente disponíveis do site do Reddit. É necessário utilizar os raspadores do Reddit devido às limitações que tem de enfrentar ao utilizar a API oficial do Reddit. No entanto, se utilizar o web scraper que não utiliza a API do Reddit para extrair dados do Reddit, estará a violar os termos de utilização do Reddit. Mas isso não significa que a raspagem da Web seja ilegal.
Para ter uma sessão de scraping sem problemas, terá de contornar os sistemas anti- scraping implementados pelo Reddit. As técnicas anti-raspagem mais comuns usadas pelo Reddit são:
Pode resolver o problema do rastreio de IP com a ajuda de proxies e rotação de IP. Por outro lado, pode resolver o problema dos Captchas utilizando soluções Captcha como o 2Captcha.
Existem cinco formas de fazer scraping do Reddit, e são elas:
Vamos ver como podemos fazer scrape do Reddit utilizando a API do Reddit com a ajuda dos seguintes passos.
É necessário criar uma conta Reddit antes de avançar. Para utilizar PRAW, tem de se registar na API do Reddit seguindo esta ligação.
Em primeiro lugar, importaremos os módulos internos do Pandas, ou seja, datetime, e dois módulos de terceiros, PRAW e Pandas, como mostrado abaixo:
importar praw
import pandas as pd
import datetime as dt
Você pode acessar os dados do Reddit usando o Praw, que significa Python Reddit API Wrapper. Primeiro, tens de te ligar ao Reddit chamando a função praw.Reddit e armazenando-a numa variável. Depois, tens de passar os seguintes argumentos para a função.
reddit = praw.Reddit(client_id='PERSONAL_USE_SCRIPT_14_CHARS', \
client_secret='SECRET_KEY_27_CHARS ', \
user_agent='SEU_NOME_DA_APP', \
username='SEU_NOME_DE_USUÁRIO_REDDIT', \
password='A SUA PALAVRA-PASSE DE INÍCIO DE SESSÃO_REDITARIO')
Agora, você pode obter o subreddit de sua escolha. Então, chame a instância .subreddit do reddit (variável), e passe o nome do subreddit que você quer acessar. Por exemplo, você pode usar o subreddit r/Nootropics.
subreddit = reddit.subreddit('Nootropics')
Cada subreddit tem as cinco formas diferentes de organizar os tópicos criados pelos Redditors:
Pode obter os tópicos mais votados como:
top_subreddit = subreddit.top()
Obterá um objeto do tipo lista com as 100 melhores submissões em r/Nootropics. No entanto, o limite de pedidos do Reddit é de 1000, pelo que pode controlar o tamanho da amostra passando um limite para .top as:
top_subreddit = subreddit.top(limit=600)
Pode recolher todos os dados que quiser. No entanto, iremos recolher as seguintes informações sobre os tópicos:
Para tal, armazenamos os nossos dados num dicionário e, em seguida, utilizamos um ciclo for, como se mostra abaixo.
topics_dict = { "title":[], \
"score":[], \
"id":[], "url":[], \
"created": [], \
"body":[]}
Agora, podemos extrair os dados da API do Reddit. Vamos anexar as informações ao nosso dicionário, iterando através do nosso objeto top_subreddit.
for submission in top_subreddit:
topics_dict["id"].append(submission.id)
resumo_de_tópicos["título"].append(submissão.título)
resumo_de_tópicos["pontuação"].append(submissão.pontuação)
resumo dos tópicos["criado"].append(submissão.criado)
resumo_tópicos["corpo"].append(submissão.auto-texto)
Agora, colocamos os nossos dados em Pandas Dataframes, uma vez que os dicionários Python não são fáceis de ler.
tópicos_dados = pd.DataFrame(tópicos_dict)
É muito fácil criar ficheiros de dados em vários formatos no Pandas, pelo que utilizamos as seguintes linhas de código para exportar os nossos dados para um ficheiro CSV.
topics_data.to_csv('FILENAME.csv', index=False)
Você sabe que o Reddit não é um site muito rigoroso quando se trata de restrições de uso de proxy. Mas você pode ser pego e penalizado se automatizar suas ações no Reddit sem usar proxies.
Por isso, vamos analisar alguns dos melhores proxies para o Reddit que se enquadram em duas categorias:
Proxies residenciais - Estes são os endereços IP que o fornecedor de serviços Internet (ISP) atribui a um dispositivo numa determinada localização física. Estes proxies revelam a localização real do dispositivo que o utilizador utiliza para iniciar sessão num sítio Web.
Proxies de centro de dados - Estes são vários endereços IP que não têm origem em nenhum fornecedor de serviços Internet. Adquirimo-los a um fornecedor de serviços na nuvem.
Seguem-se alguns dos principais proxies residenciais e de centros de dados para o Reddit.
O Smartproxy é um dos principais fornecedores de proxy residencial premium, pois é eficaz para a automatização do Reddit. Ele tem um extenso pool de IPs e fornece acesso a todos os IPs assim que você se inscreve no seu serviço.
O preço e a largura de banda ilimitada dos Stormproxies fazem deles uma boa escolha. Eles são acessíveis e baratos de usar. Eles têm proxies para vários casos de uso e fornecem os melhores proxies residenciais para automação do Reddit.
ProxyScrape é um dos populares fornecedores de serviços de proxy que se concentra na oferta de proxies para scraping. Também oferece proxies de centros de dados dedicados, juntamente com os proxies de centros de dados partilhados. Tem mais de 40 mil proxies de centros de dados que pode utilizar para extrair dados de sítios Web na Internet.
ProxyScrape fornece três tipos de serviços aos seus utilizadores, i.e.,
Highproxies trabalha com o Reddit e tem as seguintes categorias de proxies:
Também pode utilizar Instantproxies para a automatização do Reddit, uma vez que são muito seguros, fiáveis, rápidos e têm um tempo de atividade de cerca de 99,9%. Eles são os mais baratos de todos os proxies de datacenter.
Precisa de proxies quando está a trabalhar com algumas ferramentas automáticas no Reddit. Isso acontece porque o Reddit é um site muito sensível que detecta facilmente acções automáticas e bloqueia o acesso do seu IP à plataforma. Por isso, se estiver a automatizar algumas das tarefas, como votos, publicações, aderir/desaderir a grupos e gerir mais do que uma conta, precisa definitivamente de utilizar proxies para evitar maus resultados.
Pode optar pela recolha manual de dados se os seus requisitos de recolha de dados do Reddit forem pequenos. Mas se os requisitos forem grandes, terá de utilizar metodologias de recolha automatizada de dados, como ferramentas de recolha de dados da Web e scripts personalizados. Os raspadores da Web revelam-se eficientes em termos de custos e recursos quando os seus requisitos diários de raspagem não ultrapassam alguns milhões de publicações.
Então, vamos ver alguns dos melhores raspadores do Reddit como a melhor solução para raspar grandes quantidades de dados do Reddit.
O Scrapestorm é uma das melhores ferramentas de raspagem disponíveis no mercado, pois funciona muito bem quando se trata de raspar o Reddit. Utiliza a inteligência artificial para identificar automaticamente os principais pontos de dados na página Web.
O raspador do Reddit da Apify facilita a extração de dados sem utilizar a API do Reddit. Isso significa que você não precisa de um token de API de desenvolvedor e autorização do Reddit para baixar os dados para uso comercial. Também pode otimizar o seu scraping utilizando o serviço de proxy integrado da plataforma Apify.
Discutimos cinco maneiras de extrair dados do Reddit, e a mais fácil é usar a API do Reddit, pois requer apenas habilidades básicas de codificação. PRAW é um wrapper Python para a API do Reddit que permite usar uma API do Reddit com uma interface Python limpa. Mas quando tiver grandes requisitos de raspagem do Reddit, pode extrair dados publicamente disponíveis do sítio Web do Reddit com a ajuda de raspadores do Reddit. Para automatizar as suas acções no sítio Web do Reddit, é necessário utilizar um centro de dados ou proxies residenciais.