A raspagem da Web evoluiu de uma simples extração baseada em regras para técnicas mais avançadas que dependem de modelos de linguagem de grande dimensão (LLM) para a extração de dados sensíveis ao contexto. O ScrapegraphAI está na vanguarda dessa evolução, permitindo a raspagem da Web por meio de LLMs poderosos como OpenAI, Gemini e até mesmo modelos locais como Ollama. Neste blogue, vamos analisar o que é o ScrapegraphAI, como funciona e apresentar um exemplo real de raspagem de dados de um Web site com integração de proxy.
