Contexto
En el año 2024 hubo una filtración masiva de los datos internos de Google debido a que alguien subió de forma erronea a un repositorio de Github un conjunto de datos de la API Content Warehouse.
Esto, junto a las declaraciones tras el juicio antimonopolio a Google LLC, donde salieron a la luz numerosas «perlas» internas, han sido un buen caldo de suposiciones, hipótesis y conjeturas basadas en datos fehacientes procedentes de las propias tripas del buscador.
He intentado hacer un análisis minucioso de todos estos documentos, junto a toda la información que navega por la web sobre el tema, para intentar sacar en claro algunos puntos que corroboran algunas de las hipótesis practicadas en la profesión SEO a la hora de trabajar (y otras que no).
Los principales módulos y estructuras de datos de la API de Google de los que se han extraído los atributos clave son los siguientes
GoogleApi.ContentWarehouse.V1.Model.PerDocData: Este es quizás el contenedor más importante, actuando como el «dossier digital» de cada URL. Contiene la gran mayoría de las señales utilizadas durante la fase de búsqueda, incluyendo métricas de autoridad, señales de experiencia de usuario y datos técnicosGoogleApi.ContentWarehouse.V1.Model.CompositeDoc: Este es el registro de nivel superior o «registro maestro» de Google para una URL. Contiene toda la información conocida sobre el documento, incluyendo sub-mensajes comoPerDocDataGoogleApi.ContentWarehouse.V1.Model.CompressedQualitySignals:Un mensaje crítico que contiene señales comprimidas y precálculos utilizados en la clasificación preliminar. Muchos atributos de Q* residen aquí.GoogleApi.ContentWarehouse.V1.Model.QualityNsrPQData: Un módulo que almacena los datos de PQ y los datos NSR. El NSR es el sistema de autoridad y confianza de un sitio (Q*)GoogleApi.ContentWarehouse.V1.Model.QualityNsrNsrData.
Vídeo resumen del artículo
Topicalidad (T*) y Calidad (Q*): Los dos grandes bloques de ranking SEO
Vamos a desmigajar lo que la propia filtración de Google y las declaraciones de sus empleados en el juicio antimonopolio han señalado durante el proceso para intentar identificar las señales que podrían ser el caldo de cultivo para los sistemas internos de clasificación de resultados.
En el documento filtrado existen 2.500 módulos y +14.000 señales que supuestamente integrarían en sus procesos de clasificación, aunque no tenemos información de cómo valoran cada una de estas señales ni los pesos otorgados.
En el juicio antimonopolio celebrado durante 2020-2025 se menciona específicamente que todas las señales se pueden agrupar en dos grandes bloques:
Topicalidad (T*)

En el juicio describen la «topicalidad» como la relevancia semántica que relaciona un documento (página) con una query o consulta de búsqueda. Es decir, cuan bien se alinea un documento o página, con la intención de búsqueda de la consulta del usuario.
Factores de Topicalidad (T*): Señales ABC (Anchors, Body, Clics)
Dentro de este gran bloque, se agrupan lo que denominan las señales ABC (Anchors, Body, Clics).
- Anchors (A) se refiere a los enlaces entrantes hacia esa página, y más concretamente al texto de ancla que utilizan los sitios que la referencian así como los enlaces internos de su sitio web. Cuando dominios externos apuntan a tu URL con frases que coinciden o están muy próximas a la consulta objetivo, Google interpreta que hay una validación externa del tema tratado: eso refuerza la relevancia semántica del documento con respecto a una determinada query. De igual modo, el anchor text más popular utilizado para enlazar internamente a esa página, supone una clara señal semántica sobre el contenido de la misma.
- Body (B) abarca el contenido interno del propio documento — los términos, su densidad, la semántica, la estructura, los encabezados, la coherencia temática y la profundidad de tratamiento del asunto —; es aquí donde se analiza el corpus semántico del contenido de una página, no sólo mediante palabras clave, sino mediante contextos, entidades y estructura útil.
- Clicks (C) mide el comportamiento del usuario ante los resultados presentados cuando realiza una búsqueda: por cuánto tiempo permanece (dwell time), si vuelve rápidamente al SERP (“pogo-stick”), o si profundiza en más contenido interno; este comportamiento es un fuerte indicio de que la página cumple —o no— con lo que el usuario esperaba al hacer clic. Este factor está directamente relacionado con el famoso sistema Navboost.
El sistema Navboost es un componente fundamental y profundamente integrado en la arquitectura de clasificación de Google, confirmado por el testimonio judicial y la documentación interna como una de sus señales de clasificación más importantes. Mide la relevancia y la satisfacción del usuario al analizar un período continuo de 13 meses de datos de clics y consultas para incorporar la satisfacción del usuario como el árbitro final de la calidad de un resultado ante una consulta específica.
Calidad (Q*)
La Calidad (Q*), fue identificada durante el juicio antimonopolio del Departamento de Justicia de EE. UU. contra Google como uno de los dos pilares fundamentales de las señales de clasificación de alto nivel de Google, funcionando esencialmente como el Sistema de Autoridad que evalúa la confiabilidad y el valor de un documento, independientemente de la consulta específica del usuario. El testimonio judicial de ejecutivos de Google confirmó que este sistema, que engloba la manifestación algorítmica de los principios de E-E-A-T (Experiencia, Expertise, Autoridad y Confianza), es fundamental para garantizar la calidad del motor de búsqueda. Específicamente, los testigos subrayaron que las «señales de calidad de página» son «tremendamente importantes» porque el objetivo central de Google es «mostrar resultados de búsqueda autorizados y confiables».

La Calidad (Q*) no es una puntuación única, sino una evaluación multifacética basada en docenas de señales clave.
Factores de Calidad (Q*)
Entre todo el compendio de información, atributos y señales, voy a intentar centrarme en las que creo que tienen mayor peso e importancia, aunque no hay ninguna información de los pesos que tiene cada atributo.
- Site Quality: El Site Quality parece medir la calidad percibida de un sitio en base a las búsquedas intencionadas o de marca que tenga un sitio y el número total de consultas genéricas que acaban en un clic a dicho sitio. Existe una patente sobre ello del propio Google.
- siteAuthority: El atributo
siteAuthorityes una señal central en la arquitectura de clasificación de Google, aunque su definición detallada en los extractos de la referencia de la API no se presenta como una entrada individual con su tipo de datos. Esta puntuación es un factor persistente y compuesto que es generalmente estático en múltiples consultas y actúa como la línea de base reputacional de un sitio. Determina el potencial de clasificación de todas las páginas en el dominio, demostrando que la reputación de todo el sitio es un componente crítico del potencial de ranking. ElsiteAuthority, junto conauthorityPromotionyunauthoritativeScore, es un input clave para el cálculo de la puntuación de calidad agregada interna conocida como Q* (Qstar) - PageRank: La evaluación de la autoridad y la confianza de un documento dentro del ecosistema de Google se basa en un sistema de múltiples capas que ha evolucionado a partir del concepto fundacional de PageRank. Se mencionan diferentes tipos de PageRank en los documentos de la filtracion:
- PageRank (PR) Fundamental: Este es el sistema central que mide la autoridad de una página basándose en la cantidad y calidad de los enlaces entrantes, utilizando la estructura de hipervínculos de la web como un sistema de «voto»
- PageRank_NS (Nearest Seeds): Esta es una formulación más moderna de PageRank, donde «NS» significa Nearest Seeds. Se describe como una medida de la distancia de una página con respecto a sitios «semilla» altamente confiables (trusted seed sites), como universidades o instituciones gubernamentales
- toolbarPagerank: Este atributo almacena la puntuación histórica pública (en una escala de 0 a 10) que se mostraba en la Google Toolbar. Aunque la barra de herramientas ha desaparecido, este valor se sigue almacenando como una señal de autoridad heredada o paralela
- homepagePagerankNs: Se define explícitamente como «El PageRank de la página de inicio del sitio, almacenado como una señal distinta e importante»
- domainAge / hostAge: Se utiliza para rastrear la fecha de inicio de hosts y dominios, lo cual es fundamental para el filtrado de spam y la aplicación de un «sandbox» a sitios nuevos que carecen de un historial de confianza.
- contentEffort: Una estimación basada en modelos de lenguaje grandes (LLM) del esfuerzo humano, la originalidad y los recursos invertidos en la creación de una página. Una puntuación alta indica un activo no comoditizado y difícil de replicar, siendo un factor de ranking positivo. El problema (me imagino) se da en la era actual, en la que la creación de contenido con tecnologías IA podría dificultar la identificación de contenido de alto/bajo esfuerzo, puesto que replica la naturalidad gramatical del lenguaje humano.
- OriginalContentScore: Mide la singularidad del contenido de la página, recompensando a las páginas que introducen información nueva y combatiendo el thin content o contenido duplicado.
- tofu: Un puntaje de calidad predictivo para las nuevas URL que aún no tienen datos históricos de interacción del usuario, lo que permite que el contenido nuevo compita antes de acumular clics. Existe una patente de Google donde explican una aproximación para predecir la calidad de un documento nuevo en base únicamente a su contenido.
- lastSignificantUpdate: Una marca de tiempo que solo se actualiza cuando el documento ha pasado por una revisión sustancial de contenido, distinguiendo los cambios irrisorios con los cambios sustanciales.
- site2vecEmbeddingEncoded: Una representación vectorial del contenido del sitio, que se utiliza para medir la similitud temática y la coherencia general del dominio.
- siteFocusScore: Cuantifica la dedicación y el enfoque de un sitio a un tema específico, favoreciendo a los sitios especialistas.
- siteRadius: Mide cuánto se desvía una página individual de la temática central del sitio. Un
siteRadiusbajo significa alta cohesión temática. Una página que se desvíe mucho del foco principal del sitio, supone un «outlier» y puede dificultar su posicionamiento. Generar muchos outliers dentro de tu web, puede distorsionar el foco temático de tu sitio y que éste pierda su autoridad temática (topical authority).
Factores de penalización SEO
La documentación de la API Reference, especialmente a través de los análisis de los modelos de calidad como PerDocData, CompressedQualitySignals y QualityNsrPQData, revela varias señales y atributos que funcionan como penalizaciones en el ranking de un documento. Además, existen módulos específicos que hacen mención al conocido sistema Spambrain, encargado de orquestar la clasificación de un documento/sitio como spam, midiendo principalmente señales de Anchors y Body


A continuación, se identifican las principales señales penalizadoras sintetizadas en formato bullet points:
- pandaDemotion: Señal principal del algoritmo Panda, que aplica una penalización a nivel de sitio (site-wide) basada en una evaluación general de contenido de baja calidad, duplicado, «delgado» (thin content) o una alta proporción de publicidad respecto al contenido.
- babyPandaDemotion y babyPandaV2Demotion: Representan iteraciones posteriores del algoritmo Panda. Su existencia confirma un proceso continuo de refinamiento en la aplicación de demociones por calidad de contenido
- lowQuality: Una puntuación de baja calidad (S2V) derivada de los datos de NSR. Funciona como un clasificador genérico o «catch-all» para diversos patrones de contenido de baja calidad que podrían no ser capturados por las señales específicas de Panda.
- vlq (Very Low Quality): Una puntuación a nivel de URL del modelo de «Muy Baja Calidad» (VLQ), cuyo objetivo es la democión de contenido escaso o spam
- badSslCertificate: Una bandera booleana simple pero potente que indica un certificado SSL defectuoso, actuando como un indicador de confianza negativo que afecta la clasificación y la experiencia del usuario
- scamness: Cuantifica la probabilidad de que una página sea engañosa o fraudulenta («scammy»), basándose en un modelo de aprendizaje automático. Es una señal de calidad negativa directa dentro del marco Q*.
- spamrank: Un puntaje que mide la probabilidad de que un documento enlace a sitios conocidos por ser spam. Penaliza a las páginas que se asocian con «vecindarios malos» según la métrica de PageRankNS
- KeywordStuffingScore: Una puntuación específica diseñada para detectar y penalizar el uso excesivo de palabras clave (keyword stuffing) en el contenido
- GibberishScore: Puntuación utilizada para identificar contenido generado automáticamente o sin sentido (nonsensical content), filtrando texto de baja calidad producido por máquinas
- serpDemotion: Penalización aplicada por malos valores recogidos en el sistema Navboost, como altas tasas de «pogo-sticking» (volver rápidamente a la SERP en busca de otro resultado)
- navDemotion: Una penalización aplicada debido a problemas de «mala navegación o experiencia del usuario» dentro del sitio web. Aquí podrían ser factores de mala experiencias los anuncios excesivos, pop ups intrusivos o arquitectura web mal definida.
- exactMatchDomainDemotion: Reduce el impulso de clasificación para dominios de baja calidad que coinciden exactamente con palabras clave (EMD). Me imagino que introdujeron este parámetro con el boom de nichos web «basura».
- anchorMismatchDemotion: Penaliza los enlaces entrantes cuando el texto ancla no es relevante temáticamente para la página de destino. Intento de spam para SEO negativo
- uacSpamScore: Un puntaje de spam derivado probablemente del feedback del usuario (como informes o bloqueos), una medida directa de la insatisfacción
- dupTokens y goldmineHasBoilerplateInTitle: Estas señales penalizadoras relacionadas con la calidad del título y el keyword stuffing se encuentran en los sistemas de evaluación de títulos y snippets.
Conclusiones
Todo este compendio de atributos, señales, declaraciones y datos son una mina de oro para cualquier profesional SEO que quiera profundizar en cómo se conforman los sistemas de clasificación de Google. Conocer la estructura base de los sistemas de ranking nos debe ayudar a construir un framework de trabajo como consultor SEO que se sustente en evidencia.
Dicho esto, mis conclusiones principales:
- La Calidad (Q*) parece ser el director de orquesta principal. Un proyecto web optimizado al 100% a nivel semántico que no ofrezca ninguna señal de autoridad, popularidad y relevancia en su sector tendrá limitada su visibilidad en buscadores.
- La visibilidad en buscadores depende de la construcción de la marca. El SEO no es sostenible sin una estrategia omnicanal que potencie la marca.
- Enfocarte a una temática concreta, construyendo autoridad sobre la misma, y cuidar la semántica de tus páginas para las consultas objetivo. Auditar cómo te enlazan y cómo enlazas internamente a tus páginas clave (anchors), y generar un contenido de valor, semánticamente rico y con una profundidad suficiente, te ayudará a alinearte con los sistemas de evaluación de la topicalidad (T*). Centrarte en responder lo que busca el usuario hará que tus páginas ofrezcan buenas puntuaciones para el sistema Navboost, retroalimentando así al sistema para que seas un buen candidato en los resultados.
- Los sistemas de clasificación utilizados por Google, y refinados durante +25 años, siguen y seguirán siendo la base para las respuestas generativas basadas en Inteligencia Artificial, como Google AI Mode. Aunque muchos «profesionales SEO» se empeñen en predicar la existencia del GEO/AEO/LLMO, la base para posicionar en asistentes de IA o Google AI Mode sigue siendo la misma por una simple razón: Google lleva clasificando de forma muy eficaz la vasta información de Internet durante muchos años, y aunque la interfaz de búsqueda cambie y el núcleo de funcionamiento del buscador se base en Inteligencia Artificial, las señales de clasificación seguirán siendo utilizadas por sus sistemas para identificar los mejores candidatos para responder una consulta de búsqueda.
Sobre el autor

Especialista SEO con gran foco en el área técnica. Entusiasta de la programación, en especial Python y Javascript, y la aplicación de ésta en el ámbito SEO para automatizar procesos o profundizar en ciertos ámbitos como el web scraping o el uso de APIs. He trabajado en proyectos SEO de muy diferente tamaño y sector lo que me permite obtener una perspectiva 360º de cómo trabajarlo.