Resultados: Test para desindexar Urls

rothmack77onqjqh
Jul 24, 2020
7 min read

Después de darnos cuenta que existen unos cuantos métodos para desindexar urls, no tan conocidos o bien habituales, hemos decidido hacer un pequeño test probando todos y cada uno de los métodos que hemos compendiado.

Inicialmente este artículo cubría 6 casuísticas diferentes, a través de seis urls diferentes (urls antiguas, para ser exactos).

Casuísticas para desindexar urls

Después de una interesantísima conversación con mi amigo y gran posicionamiento SEO, hemos pensado en hacer este test mucho más completo, cubriendo 14 casuísticas diferentes.

Una vez tengamos los resultados de cada una, editaremos este post contando lo que hemos visto y compartiendo los hallazagos, con los logs en la mano y el seguimiento de desindexación de cada caso.

Las casuísticas analizadas son:

Los objetivos que perseguimos con estos test:

Metodología del test para desindexar urls

Replanteando los pasos que estamos siguiendo para el análisis son:

Hemos creado una url para cada test, sin css, links entrantes, todas y cada una parten en mismas condiciones.

Cada url tiene un title, una description, un h1 y tres párrafos de texto.

Añadiremos un sitemap específico de estas urls en GSC y referido en robots.txt

Se añadirá también un enlace en el footer o bien menú, apuntando a los 2 directorios creados, "pruebas" y "test".

programador paginas web á la indexación de todas las urls el día 30 de agosto a través de Google Search Console.

Una vez indizadas, meteremos a cada una, el método de desindexación indicado en la tabla

Revisaremos los logs diariamente para ver el comportamiento que ha seguido google respecto a estas urls.

Revisaremos la indexación de las quince urls con UrlProfiler, dos veces al día.

Según se vayan produciendo resultados, vamos a ir actualizando el blog post para compartir los resultados.

Responder 404 o bien 410

A pesar de que el contenido pueda seguir siendo rastreado cuando una url es eliminada, el 410 puede ser un método que se encuadra para casos de contenidos que no van a volver a estar disponibles.

Por ejemplo, en ciclos de urls con rotación o bien donde existan señales positivas posicionamiento web en buscadores, como rankings, tráfico orgánico, links.... este no debería ser el método escogido a priori, sino estimar reciclar esas urls redirigiendo, actualizando su contenido, etc.

Con el test, vamos a procurar ver las diferencias que existen entre contestar y cómo afecta en la desindexación de contenidos.

No obstante, la naturaleza del código de respuesta 410 le da el carácter de "permanente", por lo que a priori, a falta de tener los resultados del test, debería ser el que eliminase los contenidos del index más rápido.

Los test 1 y 2nos sacarán de dudas.

Eliminar en Google Search Console

Podemos eliminar la url a través de Google Search Console, vamos a "Índice de Google" > "Eliminación de url"

Nos va a permitir seleccionar la opción que más se adecúe a lo que queremos hacer:

Ocultar provisionalmente la url de los resultados y del caché

Nos detalla que tendrá efecto sobre las alteraciones de la url

Ocultar temporalmente la url del caché

Esta opción no la elimina de los resultados.

Ocultar provisionalmente la url

Aquí nos detalla que si queremos que sea permanentemente empleemos uno de los métodos recomendados:

- Hacerla privada con un login

- Eliminarla ( )

- Meta robots Noindex y dejarla abierta a rastreo

Con esta opción vamos a lanzar el test 4, por lo que la instrucción durará noventa días y posteriormente observaremos qué ocurre: si se indexa nuevamente o bien no.

La variante a este va a ser el test 3,ya que una vez utilicemos "Eliminar URL" en Google Search Console, más tarde vamos a bloquearla en robots.txt, para confirmar si se vuelve a indexar o bien no, dado que Google supuestamente no va a poder entrar a ver el contenido de la etiqueta meta robots, la teoría afirma que no debería indexarla pasados 90 días, veremos qué resultados obtenemos...

La funcionalidad de posicionamiento web las rozas de "Eliminar URL", es bastante eficaz y rápida, mas como "Explorar como Google", la petición se hace una a una.

[En asesoramiento web madrid , múltiples personas aconsejan esta extensión, en mi experiencia con esta clase de complementos, no me ha resuelto la necesidad de desindexar grandes listados de urls, por lo que para casos concretos de listados acotados, puede ser una buena solución, ¡como siempre y en toda circunstancia, depende!]

Añadir Meta Robots Noindex

El método de desindexación más limpio cuando el contenido va a continuar estando activo respondiendo 200 OK es añadir la etiqueta meta robots noindex, así como no bloquear la url o directorio a través de robots.txt, así nos aseguramos que la nueva etiqueta es vista. Cuando menos esto es lo recomendado en la teoría por Google 🙂

Para emplear este método, añadimos la etiqueta dentro del <head> de la url en cuestión:

<meta name="robots" content="noindex" />

Si nos enfrentamos a desindexar grandes volúmenes de urls con este método, la opción a utilizar puede ser buscar modos de agilizar el rastreo de esas urls, es decir, forzar a Google a que visite esas páginas, una idea puede ser:

Creando un sitemap específico para que las rastree y vea el "noindex"

Creando un mapa web con las urls implicadas.

Enlazando el mapa web en algún sitio muy rastreado.

Con el test 5, veremos cuánto tiempo tarda en desindexar la url, solo con la etiqueta meta noindex.

Con el test 6, además de añadir el noindex, usaremos la opción de "Eliminar URL", para confirmar si pasados los noventa días, permanece desindexada o bien no.

Añadir meta robots unavailable_after

Desde 2007 lleva esta opción que Google explicaba eny que Lino ya había publicadoentonces.

La forma de la etiqueta es así:

De este modo "solicitamos" a Google que desindexe el contenido desde esa data, el propio artículo afirma que puede tomar un día o bien más en procesar la petición.

Este método (y los meta robots del punto precedente) también se pueden usar a través de Cabeceras HTTP, podéis ver la documentación de Google al respecto:

Sin duda esta opción puede ser realmente útil para ciclos de urls que sabemos que expiran, pero que por otro motivos, no podemos hacer que expiren con cuatrocientos diez, como una pila de urls de productos que rompen stock.

Herramientas como Screaming Frog, siguen el contenido de este tag, pero no en el formato de ejemplo usado sino en la directiva general, por ejemplo esta sintaxis si es detectada por "la rana":

Esta sintaxis NO la detecta:

El test 7, pretende confirmar si esta etiqueta funciona para desindexar selectivamente desde una data específica y pretendemos hacer seguimiento a qué ocurre después, a nivel de rastreo y también indexación.

Añadir Disallow en Robots.txt

Aunque técnicamente no es un método de desindexación, sino de convencer a los robots de rastrear ciertos contenidos, en ocasiones se utiliza como forma de depreciar contenidos de un site y haciendo reducir su rastreo, Google los va priorizando cada vez menos.

Como concepto de posicionamiento web en buscadores básico, resulta conveniente rememorar el funcionamiento y uso de este fichero:

"(...) Si necesitas asegurarte de que no se indexa una URL, usa la metaetiqueta robots o bien la cabecera HTTP "X-Robots-Tag"

Más info en:y

Siguiendo con el test 8, se observará en los logs si deja de ser rastreada y con el paso del tiempo, si se desindexa o bien no, además, teóricamente debería aparecer en el snippet de Google el típico "La description de este sitio no se muestra....."

Añadir Noindex en Robots.txt

Ahora también se puede señalar la instrucción "noindex" dentro del archivo robots.txt, con líneas tal que:

Disallow: /example-page-1/ Disallow: /example-page-2/

Noindex: /example-page-1/ Noindex: /example-page-2/

La utilidad de este marcado, tal y como señalan enes poder indicar directivas por patrones de urls, de forma muy limpia y rápida.

Siguiendo con el test 9, queremos comprobar si se desindexa con este método, pues parece que no es una etiqueta "oficial" para Google, pero diferentes test, parece que marcha a la perfección.

Con el test diez,vamos a omitir la instrucción Disallow y solo emplea Noindex, en el fichero robots.txt, para confirmar si es obligatorio emplear las dos líneas o no. Meditando sobre una página que quisiéramos desindexar con el tag "noindex" en el <head> del html, el propio Google nos solicita que no bloqueemos por robots.txt, sin embargo este método "diferente", parece que "exige" las dos líneas, que supuestamente bloquea rastreo y también indexación.

Veremos qué sale 🙂

Gestión de Parámetros en Google Search Console

Otro tema a examinar es si podemos influir en la desindexación de contenidos, configurando los parámetros de Google Search Console, indicándole esta opción:

De igual modo que comentábamos sobre añadir un "disallow" y google irá dejando de rastrear y dar importancia a esos contenidos, y quizás con el tiempo, desindexar, ponemos el test 11en marcha para confirmar qué pasa con estas urls.

Para rizar un tanto más el rizo, a esta opción, le metemos una variante en el test 12,para examinar si el empleo de parámetros puede ser compatible con el empleo de "Disallow" en el archivo robots.txt, supuestamente la gestión de parámetros le dice "no rastrees esto",¿bloqueará el acceso a Google y dejará de tener efecto? ¡Todo incógnitas!

Redirección 301 a una url 404

Otro escenario curioso que deseamos probar es ver qué pasa con una redirección que apunta a un 404, por el hecho de que si se desindexa ya antes que otros métodos que hemos comentado, puede ser una gran opción alternativa para desindexar contenidos.

El test 13va a revisar si verdaderamente se desindexa o bien no y cuánto tiempo tarda en hacerlo. También chequearemos cuándo deja de rastrear el 404, en tanto que estamos 😀

Desindexar un directorio entero

Para finalizar, hemos pensado en confirmar si desindexando un directorio entero, desindexaríamos las urls que están dentro de dicho directorio.

Para este test 14, añadiremos Disallow y Noindex en el robots.txt y si logramos desindexar las urls que cuelgan de ese path, vamos a haber triunfado y nos quitaremos muchos inconvenientes de golpe 😀

Resultados del Experimento

Se solicitó la indexación exactamente el mismo 30 de agosto de 2017

Se solicitó la desindexación a los ocho días, el 8 de septiembre de dos mil diecisiete, cada url con su método.

Hemos analizado logs hasta exactamente el mismo 18 de marzo de 2018.

Aquí os mostramos el orden en el que se han desindexado y ciertos datos más, basándonos en los logs del servidor

El ranking de más rastreadas, quedaría así:

Reflexión

Eliminar por Google Search Console, es lo más rápido, mas si no se añade otro método, a los 3 meses vuelve a indexar.

Me sorprende la etiqueta " unavailable_after"más que nada porque nos equivocamos con el año y aún así, la ha desindexado (pusimos "unavailable_after: 22-Sep :00:00 EST" en lugar de 2017).

410 se fue ya antes que la de 404

Noindex y Disallow, han tardado lo mismo en desindexar

Noindex en robots.txt, pese a que Google confirmó que no era una directiva de aplicación, si acabó desindexada, aquí, sin duda, habría que poner foco en este, para sacar datos más concluyentes

Para desindexar un directorio entero, llama la atención que se desindexe primero una url y luego la otra y el propio directorio (cinco días de diferencia)

A día de el día de hoy la 3, cinco y ocho, están indizadas mas aparecen como resultados omitidos de Google

A día de el día de hoy, la cuatro se ha vuelto a indexar, puesto que la opción suprimir de Google Search Console, si no va a acompañada de un método de desindexación, puede volver a indexarse (como ciertamente ha ocurrido)

Hoy más que nunca, esperamos vuestros comentarios para poder ver si era lo que esperabais, si habéis vivido situaciones diferentes y poder generar debate a este respecto 🙂

Esperamos montar más experimentos en breve, stay tuned!