Page Indexing Issues Went Wrong: Evite estos errores

Page Indexing Issues Went Wrong Evite estos errores

Tengo una historia rápida para saber dónde las cuestiones de indexación de páginas arreglar causaron problemas en lugar de traer cambios positivos a la página web; Un cliente vino para problemas de indexación de página hecho por una tercera persona y fue afectado por un experto técnico de SEO novato que ha fijado todo al índice. Intentó arreglar el problema de la consola de búsqueda de Google bloqueado por robots.txt y Indización, aunque bloqueada por robots. Txt problemas estableciendo cada URL al índice.

Como puedes ver debajo de la captura de pantalla tiene números masivos de páginas indexadas y millones de páginas no indexadas. ¡Adivina qué! todas estas páginas son páginas de spam. Es porque el llamado experto técnico de SEO ha permitido cada URL de indexación. Los spammers encontraron esa oportunidad y adjuntaron tantas de estas páginas no deseadas

Problemas de indexación de página fue wring
Una captura de pantalla de un cliente con millones de páginas no deseadas arrastradas, indexadas y no indexadas.

Escenarios de Indización de Página Común: Cuándo Index vs. No-Index

Comprender qué páginas deben ser indexadas es crítico. Aquí hay un desglose completo:

Pages You shouldLD Index

Páginas de contenido primario:

– Página
– Páginas principales de productos y servicios
– Páginas de categoría (con contenido único)
– Blogs y artículos
– Páginas de aterrizaje con contenido original
– Acerca, Contacto y páginas de información clave

¿Por qué? Estas páginas proporcionan valor a los buscadores y representan su contenido principal.

Páginas que NO debe indexar

Páginas de resultados de búsqueda:
– Resultados de búsqueda interna del sitio (?s=keyword, ?q=search-term)
– Resultados filtrados (?color=blue cosechasize=large)
– Vistas clasificadas (?sort=price-asc)

¿Por qué? Estas crean combinaciones de URL infinitas que diluyen su presupuesto de arrastrar y crean problemas de contenido delgado.

Páginas de Utilidad:
– Páginas de inicio de sesión / registro
– Checkout y páginas de carrito
– Gracias páginas
– Paneles de cuenta de usuario
– Paneles de Admin

¿Por qué? No hay valor de búsqueda para usuarios externos y puede exponer áreas sensibles.

Páginas técnicas:
– URL de estadio/desarrollo
– Páginas de prueba
– Contenido duplicado con parámetros URL
– Versiones fáciles de imprimir
– AMP duplica (uso canónico en su lugar)

¿Por qué? Estos son duplicados técnicos que confunden motores de búsqueda.

No siempre es necesario indexar todo; de hecho, google no indexa todo como se ve en sus documentación oficial en la indexación de página.

Así que ese sitio web estaba bloqueando las páginas de búsqueda (con ? q=search terms) de buscar a través de robots.txt. Sin embargo, alguien ha cambiado su configuración para desbloquear las páginas de búsqueda para que puedan ser indexadas. Esta decisión fue errónea ya que Google no indexa todo y ahora el cliente está experimentando problemas de tantas páginas de spam que están siendo indexadas y muchos son parte de páginas de registro no indexadas.

Índice de páginas no importantes
Las páginas de spam se pueden ver en páginas indexadas

Control de Indización de plataformas

WordPress: Controlar lo que se indexa

Usando Yoast SEO:

  1. Editar la página/post que desea no-index
  2. Scroll a la caja de meta de Yoast SEO
  3. Haga clic en el icono de engranaje → Avanzado
  4. Set Permitir que los motores de búsqueda muestren esta página en resultados de búsqueda? a No
  5. Actualizar la página

Usando Rank Math:

  1. Editar la página
  2. Encontrar la caja de meta de Rank Math
  3. Haga clic en la pestaña Avanzadas
  4. Toggle Robots Meta a No Index

Bulk No-Index for Post Types:

Ir a SEO → Buscar Apariencia → [Post Type] y conjunto Mostrar [type] en resultados de búsqueda to No for:

– Medios/Asuntos
– Etiquetas (si el contenido delgado)
– Archivos de autor (para blogs de autor)

robots.txt para páginas de búsqueda:

# Disallow search result pages
Disallow: /*?s=
Disallow: /search/
Disallow: /?s=*

Shopify: Management Index Settings

Variantes de productos No-Index:

Shopify automatically canonicalizes product variations to the main product page. Verifique esto en el archivo `product.liquid` de su tema: líquido

Colecciones No-Index con filtros:

Añadir esto a tu tema collection.liquid: líquido

{% if current_tags %}
{% endif %}

Páginas de búsqueda de bloques en robots.txt:

Edita tu robots.txt.liquid file:

Disallow: /search
Disallow: /*?q=
Disallow: /collections/*+

WooCommerce: Variaciones de productos < Filtros

Páginas de Tienda Filtradas No-Index:

Instala Yoast WooCommerce SEO addon, entonces:

  1. Ir a SEO → Buscar Apariencia → WooCommerce
  2. Habilitación No-index for filtered shop pages

Variaciones del producto de la manija:

WooCommerce no crea URLs separadas para las variaciones (a diferencia de Shopify), pero asegúrese de que sus etiquetas canónicas son correctas: ?php

// In functions.php or custom plugin
add_filter('woocommerce_product_get_canonical_url', 'custom_canonical_url', 10, 2);
function custom_canonical_url($canonical_url, $product) {
return get_permalink($product->get_id());
}

Cómo recuperarse de errores de indexación

Si usted ha indexado accidentalmente miles de páginas no deseadas (como el ejemplo en nuestro estudio de caso), aquí está su proceso de recuperación:

Paso 1: Stop the Bleeding (Immediate)

Indización del bloque:

  1. Añadir etiquetas meta sin índice a tipos de página afectados
  2. Actualizar robots.txt para eliminar patrones de URL problemáticos
  3. Eliminar las referencias del mapa de sitio a las páginas de spam

Ejemplo robots.txt actualización:

# Block search pages
Disallow: /*?s=
Disallow: /search/
# Block filter parameters
Disallow: /*?filter=
Disallow: /*&filter=
# Block session IDs
Disallow: /*?sid=
Disallow: /*sessionid=

Paso 2: Quitar URLs de Spam del Índice de Google

Para pequeños lotes (traducido100 URLs):

  1. Ir a Google Search Console → Mudanzas
  2. Haga clic Nueva solicitud
  3. Introduzca el patrón de prefijo URL o URL
  4. Presentar (retiración temporal durante 6 meses)

Para grandes lotes (1000s de URL):
No se puede eliminar a granel en GSC, pero puede acelerar la desindización:

  1. Asegurar que las etiquetas de no índice estén en su lugar
  2. Submit updated sitemap (without spam URLs)
  3. Espera a la desindización natural (can take 2-4 weeks)
  4. Uso del parámetro URL

in GSC:
– Ir a Ajustes → Parámetros URL
– Agregar parámetros como ?s= o #filter=
– Set to No URLs o Que Googlebot decida

Paso 3: Supervisar los progresos

Track De-Indexing:

Utilice este operador de búsqueda semanalmente:

site:yoursite.com inurl:?s=
site:yoursite.com inurl:/search/

GSC Coverage Report:

Monitorear el Excluido sección para disminuciones en:

Duplicar sin canónico seleccionado por el usuario
Crawled – actualmente no indexado

Medida 4: Prevención de futuras cuestiones

Establecer alertas:

Crear un sistema de monitoreo para captar los problemas antes:

  1. Informes semanales de correo electrónico GSC – Activar en Ajustes
  2. Auditorías mensuales de cobertura – Comprobar nuevos patrones de exclusión
  3. Análisis del presupuesto de Crawl – Si Googlebot pierde tiempo en páginas basura

Crear documentación: Documenta tus reglas de indexación para que los futuros miembros del equipo no reviertan tus correcciones:

Identificar siempre: Productos, blogs, páginas centrales
❌ Never Index: Resultados de búsqueda, filtros, URL de sesión
NOVED condicional: Páginas de categoría (sólo con contenido único con palabras)

Real-World Case Study: Recovering from 2.3M Páginas de Spam indexadas

El problema: Un cliente vino a nosotros después de un SEO anterior expert cambió sus robots.txt para permitir que todas las páginas de búsqueda sean indexadas. Resultado:

Antes: ~15.000 páginas legítimas indexadas
Después del mal cambio: 2.3M páginas indexadas (en su mayoría spam)
Impacto del tráfico: 67% dgota en tráfico orgánico durante 3 meses

Nuestro proceso de recuperación:

Semana 1:
– URLs de búsqueda bloqueadas en robots.txt
– No-index meta etiquetas a la plantilla de búsqueda
– URLs de spam eliminadas del mapa de sitio XML

Semana 2-4:
– Presentado 500 solicitudes de eliminación (límite GSC)
– Progreso de desindización supervisado
– Enlaces internos fijos que apuntan a páginas de búsqueda

Resultados:
Mes 1: Páginas indexadas a 1.8M
Mes 2: Down to 800K indexed pages
Mes 3: Volver a las páginas indexadas de 18K (3K eran contenido nuevo legítimo)
Recuperación de tráfico: 89% of tráfico original restaurado

Lección clave: Nunca indexar páginas que acepten parámetros generados por el usuario. Si es anterior expert sugiere esto, obtener una segunda opinión.

Entonces, ¿cuál sería el enfoque correcto para fijar problemas de indexación de páginas?

Siempre sugiero que tampoco contratar a un experto de SEO quién puede evaluar su sitio web y tomar la decisión basado en las páginas reportadas en el registro de indexación de página.

Así que si tienes páginas sin índice ya sea a través de robots.txt o meta robot deberías comprobar si esa página es necesaria para ser indexada.

Idealmente, no debemos indexar las páginas de búsqueda o páginas que pueden aceptar términos de búsqueda generados por el usuario como que compartí muchas URLs de españa.

Lo mismo sucedió con este cliente causando tantas páginas no deseadas indexadas para los usuarios.

Por favor comparta si tiene alguna pregunta.

Marco de decisión: ¿Se debería indexar esta página?

Utilice este diagrama de flujo para cada página cuestionable:


Does the page provide unique value to searchers?
├─ Yes → Does it have substantial content (>200 words)?
│  ├─ Yes → Does it duplicate another page?
│  │  ├─ No → ✅ INDEX IT
│  │  └─ Yes → Set canonical to main version, no-index duplicate
│  └─ No → ❌ NO-INDEX (thin content)
└─ No → Is it a utility page (login, checkout, etc.)?
   ├─ Yes → ❌ NO-INDEX
   └─ No → Is it generated by URL parameters?
      ├─ Yes → ❌ NO-INDEX + Block in robots.txt
      └─ No → Consult with SEO expert

Referencia rápida: Indización de mejores prácticas por tipo de página

Tipo de página¿Un índice?MétodoNotas
PáginaEntendidoDefaultÍndice
Páginas de productosEntendidoDefaultPrincipales URLs del producto solamente
Variaciones de productos (colores)No hay disponibilidadCanónicoPunto a producto principal
Páginas de categoríaEntendidoCondicionalSólo si contenido único >300 palabras
Resultados de la búsquedaNo hay disponibilidadrobots.txt + metaNunca índice
Resultados filtradosNo hay disponibilidadrobots.txt + metaNunca índice
Pagination (page=2)Tal vezrel=»next/prev»O canónico a la página 1
BlogEntendidoDefaultÍndice
Archivo de la etiquetaTal vezCondicionalSólo si se comisaria con contenido único
Archivo de autoresTal vezCondicionalSitios multiautores únicamente
404 páginasNo hay disponibilidadCódigo de estadoDevuelve 404 automáticamente
Login/RegistroNo hay disponibilidadMeta no-indexPáginas de utilidad
Carrito/CheckoutNo hay disponibilidadMeta no-indexPáginas de utilidad
Gracias páginasNo hay disponibilidadMeta no-indexPáginas de conversión
AMP versionesNo hay disponibilidadCanónicoPunto a versión HTML
¿Fue útil este artículo?
No