Vamos a utilizar Python para escrapear el contenido de los dominios que mejor posicionan (top 3) para una determinada query y lo vamos a analizar con la Inteligencia Artificial de OpenAI para extraer insights.
Para ello, he montado un script en Python en el que vamos a utilizar serpAPI, un servicio utilizado para escrapear los resultados de búsqueda de Google sin ser banneado (se puede hacer sin tirar de esta API pero es mucho menos robusto y nos puede bannear fácilmente), junto al API de OpenAi para procesar los textos y extraer insights.
La librería que vamos a utilizar para escrapear el contenido principal de cada dominio es Trafilatura, para mi gusto la más robusta para este fin.
Requerimientos del script
- Regístrate de forma gratuita en serpAPI para obtener el API Key que necesitaremos en el script.
- Tambien es necesario que te registres en OpenAI para obtener el API Key necesario.
- Para usar el script, tendrás que hacerte una copia en tu Google Drive y seguir las instrucciones.
Link al script en Google Colab
¿Qué vamos a obtener?
El script escrapea el contenido principal de los dominios que posicionan primero (top 3) para una query determinada y lo analiza con OpenAI para extraer:
- Las principales conclusiones del texto
- Las entidades y su nivel de salience
- Las keywords más relevantes del texto y el número de veces (aprox.) que aparecen.
El resultado se descarga automáticamente en un excel:
Sobre el autor
Especialista SEO con gran foco en el área técnica. Entusiasta de la programación, en especial Python y Javascript, y la aplicación de ésta en el ámbito SEO para automatizar procesos o profundizar en ciertos ámbitos como el web scraping o el uso de APIs. He trabajado en proyectos SEO de muy diferente tamaño y sector lo que me permite obtener una perspectiva 360º de cómo trabajarlo.
gracias por aportar tanto valor en tus contenidos
Gracias Alex! Me encanta coleccionar cuadernos 😉