Web Scraping com MechanicalSoup

Python, Como fazer, Raspagem, Set-12-20245 minutos de leitura

A raspagem da Web tornou-se uma ferramenta essencial na era digital, especialmente para programadores Web, analistas de dados e profissionais de marketing digital. Imagine ser capaz de extrair informações valiosas de sítios Web de forma rápida e eficiente. É aqui que o MechanicalSoup entra em ação. Este guia irá explorar os meandros da utilização do MechanicalSoup para a recolha de dados na Web, oferecendo informações práticas e dicas para começar.

O papel do MechanicalSoup na recolha de dados da Web

MechanicalSoup é uma biblioteca Python concebida para simplificar a recolha de dados da Web, fornecendo uma interface direta para automatizar as interações com páginas Web. Lida eficientemente com formulários, links e pode navegar em sites que requerem acções básicas do utilizador, tais como submissões de formulários e navegação em links. Isto torna-a ideal para automatizar tarefas em sítios Web com conteúdo estático onde não são necessários comportamentos complexos do utilizador.

Introdução à configuração do MechanicalSoup para Web Scraping

Antes de nos debruçarmos sobre as especificidades da recolha de dados da Web, vamos primeiro configurar o MechanicalSoup. O processo de instalação é simples e pode ser concluído em poucos passos.

Instalar o MechanicalSoup

Para instalar o MechanicalSoup, precisa de ter o Python instalado na sua máquina. Pode então usar o pip, o instalador de pacotes do Python, para instalar o MechanicalSoup. Abra seu terminal e digite o seguinte comando:

pip install mechanicalsoup

Configurar o ambiente

Uma vez instalado o MechanicalSoup, a configuração do seu ambiente de desenvolvimento é crucial. Vai precisar de um editor de código, como o Visual Studio Code ou o PyCharm, para escrever e executar os seus scripts Python. Certifique-se também de que tem as bibliotecas "BeautifulSoup" e "requests" instaladas.

Primeiros passos com o MechanicalSoup

Criar o seu primeiro script de recolha de dados da Web com o MechanicalSoup envolve alguns passos básicos. Comece por importar as bibliotecas necessárias e inicializar um objeto de browser. Aqui está um exemplo simples para o ajudar a começar:

importar mechanicalsoup
browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.scrapethissite.com/pages/")

Compreender os conceitos básicos de Web Scraping com o MechanicalSoup

Agora que temos o MechanicalSoup configurado, vamos explorar os princípios básicos da recolha de dados da Web. Compreender estes fundamentos permitir-lhe-á construir scripts de scraping mais complexos.

Manuseamento de formulários

No MechanicalSoup, o método "select_form()" é utilizado para localizar e tratar os formulários.
O argumento para select_form() é um seletor CSS. No exemplo de código abaixo, estamos a utilizar este sítio para preencher um formulário de pesquisa simples de um campo. Uma vez que, no nosso caso, só há um formulário na página, browser.select_form() é suficiente. Caso contrário, teria de introduzir o seletor css para o select_form() método
Além disso, para visualizar os campos do formulário, pode utilizar a função print_summary() método. Isto fornecer-lhe-á informações detalhadas sobre cada campo. Dado que o formulário contém dois tipos de elementos - campos de texto e botões - só teremos de preencher o campo de texto e, em seguida, submeter o formulário:

importar mechanicalsoup


browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.scrapethissite.com/pages/forms/?page_num=1")

# Selecionar o formulário
formulário_de_busca = browser.select_form()

print(formulário_de_busca.print_summary())
search_form.set("q",'test')

browser.submit_selected()

Aqui está o resultado do código acima.

<input class="form-control" id="q" name="q" placeholder="Search for Teams" type="text"/>
<input class="btn btn-primary" type="submit" value="Search"/>

Tratamento da paginação

A recolha de dados da Web envolve frequentemente o tratamento de várias páginas de dados. O MechanicalSoup não oferece diretamente uma funcionalidade para paginar através de páginas utilizando ligações de paginação.
No exemplo de sítio Web que estamos a utilizar, a paginação tem o seguinte aspeto:

Eis o aspeto da estrutura HTML:

 
So what we will do is first select the list that holds the pagination links with "browser.page.select_one('ul.pagination')".
Then with ".select('li')[1::]" we select all "<li>" elements inside 'pagination' list starting from the second element. This will return a list of "<li>" elements and then we paginate each one of them in a "for loop" starting from the second element and for each "<li>" element we extract the "<a>" tag and then use it in "follow_link()" method to navigate to that page.
Here is the full example:  

importar mechanicalsoup


browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.scrapethissite.com/pages/forms/?page_num=1")

for link in browser.page.select_one('ul.pagination').select('li')[1::]:
    ligação_da_página_seguinte = ligação.select_one('a')
    browser.follow_link(link_da_página_seguinte)
   print(browser.url)

Configuração de proxies

Quando se trata de extrair dados de sítios Web ou de automatizar interações na Web, a utilização de proxies pode ser crucial para contornar restrições geográficas, gerir limites de taxa ou impedir proibições de IP. Utilizando o MechanicalSoup em combinação com a biblioteca "requests", podemos integrar perfeitamente as configurações de proxy, permitindo-lhe tirar partido destas vantagens de forma eficaz. Eis como pode configurar proxies no MechanicalSoup para as suas tarefas de recolha de dados da Web:

import mechanicalsoup
import requests

def create_proxy_browser():
    # Define your proxy configuration (example values)
    proxies = {
        "http": "rp.proxyscrape.com:6060:username:password",
        "https": "rp.proxyscrape.com:6060:username:password",
    }

    # Create a session object with proxy settings
    session = requests.Session()
    session.proxies.update(proxies)

    # Optionally, you can add headers or other session settings here
    session.headers.update({
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    })

    # Create a MechanicalSoup StatefulBrowser using the configured session
    browser = mechanicalsoup.StatefulBrowser(session=session)
    return browser

# Usage
browser = create_proxy_browser()
response = browser.open("https://www.scrapethissite.com/pages/forms/?page_num=1")
print(response.text)  # Outputs the content of the page

Considerações éticas e legais sobre Web Scraping

A raspagem da Web pode suscitar preocupações éticas e legais. É essencial compreender estas considerações para evitar potenciais problemas.

Respeitar as políticas do sítio Web

Verifique sempre os termos de serviço de um sítio Web antes de fazer scraping. Alguns sítios proíbem explicitamente a recolha de dados, enquanto outros podem ter diretrizes específicas. Ignorar estas políticas pode levar a consequências legais.

Evitar a sobrecarga dos servidores

Os pedidos frequentes a um sítio Web podem sobrecarregar os seus servidores, causando interrupções. Use atrasos entre os pedidos e respeite o arquivo `robots.txt` do site para evitar isso. Eis como pode adicionar um atraso:

importar time
time.sleep(2) # Atraso de 2 segundos

Privacidade dos dados

Certifique-se de que os dados que recolhe não violam os regulamentos de privacidade, como o RGPD. As informações pessoais devem ser tratadas com cuidado e só devem ser recolhidas quando necessário.

Conclusão

O Web scraping com o MechanicalSoup oferece uma solução poderosa e flexível para programadores Web, analistas de dados e profissionais de marketing digital. Seguindo os passos descritos neste guia, pode extrair eficientemente dados valiosos de websites, automatizar tarefas repetitivas e ganhar uma vantagem competitiva na sua área.

Quer seja um profissional experiente ou esteja apenas a começar, a MechanicalSoup fornece-lhe as ferramentas necessárias para ter sucesso. Lembre-se de considerar sempre os aspectos éticos e legais, seguir as melhores práticas e melhorar continuamente as suas competências.

Pronto para levar as suas capacidades de raspagem da Web para o próximo nível? Comece hoje mesmo a experimentar o MechanicalSoup e descubra todo o potencial da extração de dados da Web. Boa raspagem!