Primeiros passos com Robots.txt e Sitemaps para Web Scraping

Guias, 13 de novembro de 20245 minutos de leitura

No vasto panorama digital, onde inúmeros sítios Web competem pela atenção, é crucial compreender as regras de participação. Para os programadores Web, profissionais de SEO e criadores de conteúdos, a descodificação do robots.txt é fundamental para uma raspagem Web ética e eficaz. Este guia ajudá-lo-á a compreender como interagir de forma responsável com sítios Web utilizando robots.txt e mapas de sítios.

Compreender o papel do Robots.txt no rastreio da Web

O rastreio da Web está no centro da forma como os motores de busca descobrem e indexam conteúdos na Internet. Os sítios Web utilizam ficheiros robots.txt como ferramenta principal para gerir e controlar este comportamento de rastreio. Estes ficheiros servem como um conjunto de instruções para os robôs da Web, incluindo os bots dos motores de busca, orientando-os sobre o conteúdo a aceder ou a ignorar.

O objetivo do robots.txt é duplo. Ajuda os proprietários de sítios a protegerem informações sensíveis e a optimizarem o desempenho do servidor, ao mesmo tempo que fornece uma estrutura para a raspagem ética da Web.

Compreender o Robots.txt

Para ilustrar o funcionamento do ficheiro robots.txt, consideremos o exemplo deste sítio Web. Um ficheiro robots.txt típico inclui diretivas como User-agent, Disallow e Allow.

O User-agent especifica quais os bots que devem seguir as regras. Por exemplo, "User-agent: *" aplica-se a todos os bots.
O Disallow impede que os bots acedam a áreas específicas, como secções administrativas ou diretórios privados.
Permitir concede acesso a recursos específicos, assegurando que os ficheiros dinâmicos essenciais para as funções do sítio estão acessíveis.

Neste sítio Web, o robots.txt aparece da seguinte forma:

Como se pode ver, este sítio Web Não permite o acesso para estes caminhos URL:
- /wp-content/uploads/wc-logs/
- /wp-content/uploads/woocommerce_transient_files/
- /wp-content/uploads/woocommerce_uploads/
- /wp-admin/ (área de administração do WordPress)
Permitir o acesso especificamente para /wp-admin/admin-ajax.phppermitindo que os rastreadores cheguem a este ficheiro para a funcionalidade AJAX necessária.
Bloco Yoast SEO:
- A linha Não permitir: está vazio, o que significa que este bloco não acrescenta restrições adicionais.
- Mapa do site fornecido: https://daystate.com/sitemap_index.xmlque ajuda os motores de busca a localizar todos os URLs principais para indexação.

O que é um Sitemap?

Um mapa do sítio é um componente crucial de um sítio Web, que enumera todos os seus URLs importantes. Funciona como um roteiro para os motores de busca, permitindo-lhes descobrir e indexar rapidamente conteúdos novos ou actualizados.

Para os proprietários de sítios, os mapas de sítios têm um valor inestimável. Asseguram que todas as páginas relevantes são visíveis para os motores de busca, facilitando uma melhor indexação e classificação. As vantagens dos mapas de sítios vão para além da SEO, ajudando a experiência do utilizador ao garantir que o conteúdo é facilmente detetável.

O ficheiro https://daystate.com/robots.txt robots.txt inclui uma ligação para o seu mapa do sítio, fornecendo um caminho estruturado para os motores de busca seguirem. Esta ligação é essencial para um rastreio e indexação eficientes do conteúdo do sítio.

Este é o aspeto do mapa do sítio do Estado da Índia:

Por exemplo, vamos clicar em"https://daystate.com/product-sitemap.xml"

Como pode ver, podemos ver todos os URLs para os "Produtos" neste cenário. Abaixo está um script Python projetado para extrair cada produto. Ele começa analisando a página XML de produtos para extrair todos os URLs de produtos e, em seguida, itera através de cada URL para extrair o título e o preço do produto.

import re

import requests
from bs4 import BeautifulSoup


def fetch_xml_sitemap(sitemap_url) -> str:

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
    }

    response = requests.get(sitemap_url, headers=headers)
    response.raise_for_status()  # Check for request errors

    return response.content


def extract_endpoints(response_content):
    output_endpoints = []

    soup = BeautifulSoup(response_content, "xml")
    # Loop through each product entry in the sitemap
    for url in soup.find_all("url"):
        # Extract link, last modified date, and image (if available)
        endpoint = url.find("loc").text if url.find("loc") else None
        if endpoint is not None:
            output_endpoints.append(endpoint)

    return output_endpoints

def extract_product_info(product_url):
    headers = {
        "User-Agent": "input_user_agent"}

    proxy = {
        "http": "http://username:[email protected]:6060",
        "https": "http://username:[email protected]:6060"
    }

    response = requests.get(product_url, headers=headers, proxies=proxy)

    soup = BeautifulSoup(response.content, "html.parser")

    pattern = re.compile(r"^product-\d+$")
    try:
        product_div = soup.find("div", id=pattern)
        product_title = product_div.find("h1", {"class":"product_title entry-title"}).text
        product_price = product_div.find("bdi").text
        return product_title, product_price
    except:
        print("Error Extracting Product Information")
        return None, None

if __name__ == '__main__':
    url_sitemap = "https://daystate.com/product-sitemap.xml"

    sitemap_xml = fetch_xml_sitemap(url_sitemap)

    sitemap_urls = extract_endpoints(sitemap_xml)

    for url in sitemap_urls:
        print(extract_product_info(url))

Porque é que ambos os ficheiros são importantes para SEO e Web Scraping

Em conjunto, os ficheiros robots.txt e os mapas de sítios constituem a espinha dorsal das práticas de SEO e de raspagem ética da Web. Robots.txt orienta os rastreadores da Web para áreas permitidas, protegendo dados sensíveis e reduzindo a carga do servidor. Entretanto, os mapas de sítios aumentam a descoberta de conteúdos pelos motores de busca, assegurando que as novas páginas são prontamente indexadas.

Para os web scrapers, respeitar estes ficheiros é fundamental. Ignorar as diretivas robots.txt pode levar a penalizações, prejudicando a reputação e as classificações nos motores de busca. Os scrapers éticos seguem estas diretrizes, promovendo um ambiente digital respeitador.

Conclusão

Robots.txt e os mapas de sítios são ferramentas indispensáveis no rastreio da Web. Proporcionam uma abordagem estruturada para gerir o acesso e a indexação de sítios, beneficiando tanto os proprietários de sítios como os web scrapers.
Ao compreender e respeitar estes elementos, pode otimizar as suas estratégias digitais, melhorar a SEO e adotar práticas éticas de raspagem da Web. Lembre-se, a utilização responsável mantém o equilíbrio do ecossistema Web, garantindo uma experiência positiva para todas as partes interessadas.

Por: ProxyScrape