Discrepancias en GSC alrededor de las Queries

Hace poco participé en una charla con unos colegas acerca de Google Search Console. En realidad, la conversación era acerca de Looker Studio y de cómo podíamos sacarle partido a la información que extraíamos de Google Search Console con el conector de Looker, pero la charla, como casi siempre en estos casos, fue derivando acerca de la fiabilidad de los datos de Looker. Uno de los participantes expresó su desconcierto acerca de los datos de queries que extraía de Google Search Console y, a partir de ahí, nos dimos cuenta de que existe cierto nivel de confusión, incluso entre profesionales del sector, acerca de la información que Google nos permite consultar a través de Google Search Console. Así que, en esta entrada vamos a intentar entender hasta qué punto puedo tener información sobre queries en Google Search Console, cuánta información puedo obtener y cómo de fiable es esa información.

Pequeño contexto. Si trabajas con SEO es posible que hayas oído hablar de un navegador llamado Google (es bastante conocido, puedes buscarlo en Bing). Una de las (más bien pocas) herramientas con las que podemos analizar cómo se está comportando nuestro site en Google es Google Search Console.

En realidad, más que una herramienta Google Search Console es algo así como un repositorio de herramientas y tests que tienen propósitos diferentes, pero a grandes rasgos podemos identificar dos grandes áreas. La parte que nos permite ver cómo Google “ve” nuestro site y la parte de “rendimiento”, donde podemos ver qué uso está haciendo Google de nuestro site en sus buscadores. Este último tiene una pinta así:

Estas es una página con poco tráfico orgánico en la que podemos encontrar las cuatro métricas con las que nos vamos a relacionar con GSC. Google nos permite jugar con las fechas e incluir distintos tipos de filtros. Nos vamos a quedar con dos métricas para simplificar: impresiones y clics. En esta propiedad nos queda algo así

Bien, este es el volumen total de impresiones y clics del site. Ahora vamos a consultar, por ejemplo, cuantas de estas búsquedas corresponden al tráfico de marca. Como en este caso es un site personal vamos a tomar el nombre como “marca” así que filtramos la cantidad de búsquedas que incluyen la palabra “Miguel”

Perfecto. No son muchas, pero es lo que hay. Ahora vamos a ver cuántos de esos clics se han generado con búsquedas que NO incluyen la palabra “Miguel” El resultado es

Obviamente, hay algo que no nos encaja. Si tenemos algo más de 1k clics, de los cuales 17 corresponden a búsquedas que incluyen un término y 193 a búsquedas que NO incluyen dicho término estamos sumando 210 clics, apenas un 20% del número de clics totales.

Hacemos otro ejercicio. Esta vez vamos a usar una regex para pedirle que nos incluya todas las búsquedas que incluyan cualquier caracter. Aplicamos el filtro y esto es lo que tenemos

En su documentación Google explica que un cierto número de queries son anónimizadas. Sin embargo, cuáles son las queries anonimizadas no es fácil de saber. La documentación que yo he encontrado es bastante ambigua al respecto

Anonymized queries are those that aren’t issued by more than a few dozen users over a two-to-three month period

https://developers.google.com/search/blog/2022/10/performance-data-deep-dive?hl=en

Así que, aunque no tenemos una definición muy explícita acerca de qué tipo de queries se anonimizan (sic) sí podemos suponer que es un fenómeno que afecta más a sites que tienen un tráfico compuesto por un porcentaje elevado de pequeñas búsquedas. Es decir, que afecta más a las búsquedas “longtail”.

Los dioses deben estar locos o cómo mis datos de Looker cambian entre gráficos.

Cuando los datos de Looker no son consistentes entre tablas creo que hay dos candidatos claros a ser los culpables de la diferencia. Uno, la fuente de datos. En esta entrada escribí acerca de cómo los datos de Google Search Console pueden variar bastante en función de si la tabla seleccionada es la de URL o la de site a la hora de utilizar el conector de Looker para Search Console. Aquí vamos a tratar al otro sospechoso habitual: el hecho de que se hayan incluido o no los datos de queries a la hora de crear el gráfico.

Para ver hasta qué punto el número de queries anónimas puede ser relevante en un site vamos a utilizar cuatro fuentes de datos diferentes. Vamos a ver los datos de GSC utilizando el conector de Looker para las tablas de site y de url y luego veremos el mismo periodo utilizando los datos que estamos exportando a un contenedor de Bigquery.

Como se ve, los datos cuadran como deben. En cada caso tenemos el mismo número de impresiones y clics ya sea a través del conector de Looker o del contenedor de Bigquery. Ahora vamos a incluir el dato del número de queries. Añadimos a la tabla el número de queries como métrica y tenemos este resultado

Como se puede ver, en el caso del conector de Looker, al incluir el número de Queries adapta los datos y sólo nos da el número de impresiones y clics que corresponde a esas queries. En BigQuery, en cambio, aunque el número de queries que nos da es el mismo (es decir, las que no son anónimas) mantienen la suma total de impresiones y clics.

En el siguiente gráfico podemos ver el peso que tienen las búsquedas anónimas dentro del tráfico total del site. En este caso estamos rondando el 50%. Nada mal.

Y para terminar un post que habla sobre tantas irregularidades y tanto desconciertos, pues cerramos con una canción de la que no falla nunca, de la que tiene la perfección por costumbre. Manual de cómo cantar lo que te dé la gana como si estuvieses saliendo de la ducha.

Miguel Carreira López
Miguel Carreira López

Trabajo en análisis web y SEO desde hace diez años. Creo que no hay nada que se pueda decir sobre el tráfico de una página web que no se pueda explicar mejor con un gráfico. Trabajo sobre todo con las herramientas de Google (GSC, Looker, Analytics) pero hay vida más allá. En los ratos libres escribo sobre libros en https://www.enestadocritico.com/