Tengo una historia rápida para saber dónde las cuestiones de indexación de páginas arreglar causaron problemas en lugar de traer cambios positivos a la página web; Un cliente vino para problemas de indexación de página hecho por una tercera persona y fue afectado por un experto técnico de SEO novato que ha fijado todo al índice. Intentó arreglar el problema de la consola de búsqueda de Google bloqueado por robots.txt y Indización, aunque bloqueada por robots. Txt problemas estableciendo cada URL al índice.
Como puedes ver debajo de la captura de pantalla tiene números masivos de páginas indexadas y millones de páginas no indexadas. ¡Adivina qué! todas estas páginas son páginas de spam. Es porque el llamado experto técnico de SEO ha permitido cada URL de indexación. Los spammers encontraron esa oportunidad y adjuntaron tantas de estas páginas no deseadas

Escenarios de Indización de Página Común: Cuándo Index vs. No-Index
Comprender qué páginas deben ser indexadas es crítico. Aquí hay un desglose completo:
Pages You shouldLD Index
Páginas de contenido primario:
– Página
– Páginas principales de productos y servicios
– Páginas de categoría (con contenido único)
– Blogs y artículos
– Páginas de aterrizaje con contenido original
– Acerca, Contacto y páginas de información clave
¿Por qué? Estas páginas proporcionan valor a los buscadores y representan su contenido principal.
Páginas que NO debe indexar
Páginas de resultados de búsqueda:
– Resultados de búsqueda interna del sitio (?s=keyword, ?q=search-term)
– Resultados filtrados (?color=blue cosechasize=large)
– Vistas clasificadas (?sort=price-asc)
¿Por qué? Estas crean combinaciones de URL infinitas que diluyen su presupuesto de arrastrar y crean problemas de contenido delgado.
Páginas de Utilidad:
– Páginas de inicio de sesión / registro
– Checkout y páginas de carrito
– Gracias páginas
– Paneles de cuenta de usuario
– Paneles de Admin
¿Por qué? No hay valor de búsqueda para usuarios externos y puede exponer áreas sensibles.
Páginas técnicas:
– URL de estadio/desarrollo
– Páginas de prueba
– Contenido duplicado con parámetros URL
– Versiones fáciles de imprimir
– AMP duplica (uso canónico en su lugar)
¿Por qué? Estos son duplicados técnicos que confunden motores de búsqueda.
No siempre es necesario indexar todo; de hecho, google no indexa todo como se ve en sus documentación oficial en la indexación de página.
Así que ese sitio web estaba bloqueando las páginas de búsqueda (con ? q=search terms) de buscar a través de robots.txt. Sin embargo, alguien ha cambiado su configuración para desbloquear las páginas de búsqueda para que puedan ser indexadas. Esta decisión fue errónea ya que Google no indexa todo y ahora el cliente está experimentando problemas de tantas páginas de spam que están siendo indexadas y muchos son parte de páginas de registro no indexadas.

Control de Indización de plataformas
WordPress: Controlar lo que se indexa
Usando Yoast SEO:
- Editar la página/post que desea no-index
- Scroll a la caja de meta de Yoast SEO
- Haga clic en el icono de engranaje → Avanzado
- Set Permitir que los motores de búsqueda muestren esta página en resultados de búsqueda? a No
- Actualizar la página
Usando Rank Math:
- Editar la página
- Encontrar la caja de meta de Rank Math
- Haga clic en la pestaña Avanzadas
- Toggle Robots Meta a No Index
Bulk No-Index for Post Types:
Ir a SEO → Buscar Apariencia → [Post Type] y conjunto Mostrar [type] en resultados de búsqueda to No for:
– Medios/Asuntos
– Etiquetas (si el contenido delgado)
– Archivos de autor (para blogs de autor)
robots.txt para páginas de búsqueda:
# Disallow search result pages
Disallow: /*?s=
Disallow: /search/
Disallow: /?s=*
Shopify: Management Index Settings
Variantes de productos No-Index:
Shopify automatically canonicalizes product variations to the main product page. Verifique esto en el archivo `product.liquid` de su tema: líquido
Colecciones No-Index con filtros:
Añadir esto a tu tema collection.liquid: líquido
{% if current_tags %}
{% endif %}
Páginas de búsqueda de bloques en robots.txt:
Edita tu robots.txt.liquid file:
Disallow: /search
Disallow: /*?q=
Disallow: /collections/*+
WooCommerce: Variaciones de productos < Filtros
Páginas de Tienda Filtradas No-Index:
Instala Yoast WooCommerce SEO addon, entonces:
- Ir a SEO → Buscar Apariencia → WooCommerce
- Habilitación No-index for filtered shop pages
Variaciones del producto de la manija:
WooCommerce no crea URLs separadas para las variaciones (a diferencia de Shopify), pero asegúrese de que sus etiquetas canónicas son correctas: ?php
// In functions.php or custom plugin
add_filter('woocommerce_product_get_canonical_url', 'custom_canonical_url', 10, 2);
function custom_canonical_url($canonical_url, $product) {
return get_permalink($product->get_id());
}
Cómo recuperarse de errores de indexación
Si usted ha indexado accidentalmente miles de páginas no deseadas (como el ejemplo en nuestro estudio de caso), aquí está su proceso de recuperación:
Paso 1: Stop the Bleeding (Immediate)
Indización del bloque:
- Añadir etiquetas meta sin índice a tipos de página afectados
- Actualizar robots.txt para eliminar patrones de URL problemáticos
- Eliminar las referencias del mapa de sitio a las páginas de spam
Ejemplo robots.txt actualización:
# Block search pages
Disallow: /*?s=
Disallow: /search/
# Block filter parameters
Disallow: /*?filter=
Disallow: /*&filter=
# Block session IDs
Disallow: /*?sid=
Disallow: /*sessionid=
Paso 2: Quitar URLs de Spam del Índice de Google
Para pequeños lotes (traducido100 URLs):
- Ir a Google Search Console → Mudanzas
- Haga clic Nueva solicitud
- Introduzca el patrón de prefijo URL o URL
- Presentar (retiración temporal durante 6 meses)
Para grandes lotes (1000s de URL):
No se puede eliminar a granel en GSC, pero puede acelerar la desindización:
- Asegurar que las etiquetas de no índice estén en su lugar
- Submit updated sitemap (without spam URLs)
- Espera a la desindización natural (can take 2-4 weeks)
- Uso del parámetro URL
in GSC:
– Ir a Ajustes → Parámetros URL
– Agregar parámetros como ?s= o #filter=
– Set to No URLs o Que Googlebot decida
Paso 3: Supervisar los progresos
Track De-Indexing:
Utilice este operador de búsqueda semanalmente:
site:yoursite.com inurl:?s=
site:yoursite.com inurl:/search/
GSC Coverage Report:
Monitorear el Excluido sección para disminuciones en:
– Duplicar sin canónico seleccionado por el usuario
– Crawled – actualmente no indexado
Medida 4: Prevención de futuras cuestiones
Establecer alertas:
Crear un sistema de monitoreo para captar los problemas antes:
- Informes semanales de correo electrónico GSC – Activar en Ajustes
- Auditorías mensuales de cobertura – Comprobar nuevos patrones de exclusión
- Análisis del presupuesto de Crawl – Si Googlebot pierde tiempo en páginas basura
Crear documentación: Documenta tus reglas de indexación para que los futuros miembros del equipo no reviertan tus correcciones:
Identificar siempre: Productos, blogs, páginas centrales
❌ Never Index: Resultados de búsqueda, filtros, URL de sesión
NOVED condicional: Páginas de categoría (sólo con contenido único con palabras)
Real-World Case Study: Recovering from 2.3M Páginas de Spam indexadas
El problema: Un cliente vino a nosotros después de un SEO anterior expert cambió sus robots.txt para permitir que todas las páginas de búsqueda sean indexadas. Resultado:
– Antes: ~15.000 páginas legítimas indexadas
– Después del mal cambio: 2.3M páginas indexadas (en su mayoría spam)
– Impacto del tráfico: 67% dgota en tráfico orgánico durante 3 meses
Nuestro proceso de recuperación:
Semana 1:
– URLs de búsqueda bloqueadas en robots.txt
– No-index meta etiquetas a la plantilla de búsqueda
– URLs de spam eliminadas del mapa de sitio XML
Semana 2-4:
– Presentado 500 solicitudes de eliminación (límite GSC)
– Progreso de desindización supervisado
– Enlaces internos fijos que apuntan a páginas de búsqueda
Resultados:
– Mes 1: Páginas indexadas a 1.8M
– Mes 2: Down to 800K indexed pages
– Mes 3: Volver a las páginas indexadas de 18K (3K eran contenido nuevo legítimo)
– Recuperación de tráfico: 89% of tráfico original restaurado
Lección clave: Nunca indexar páginas que acepten parámetros generados por el usuario. Si es anterior expert sugiere esto, obtener una segunda opinión.
Entonces, ¿cuál sería el enfoque correcto para fijar problemas de indexación de páginas?
Siempre sugiero que tampoco contratar a un experto de SEO quién puede evaluar su sitio web y tomar la decisión basado en las páginas reportadas en el registro de indexación de página.
Así que si tienes páginas sin índice ya sea a través de robots.txt o meta robot deberías comprobar si esa página es necesaria para ser indexada.
Idealmente, no debemos indexar las páginas de búsqueda o páginas que pueden aceptar términos de búsqueda generados por el usuario como que compartí muchas URLs de españa.
Lo mismo sucedió con este cliente causando tantas páginas no deseadas indexadas para los usuarios.
Por favor comparta si tiene alguna pregunta.
Marco de decisión: ¿Se debería indexar esta página?
Utilice este diagrama de flujo para cada página cuestionable:
Does the page provide unique value to searchers?
├─ Yes → Does it have substantial content (>200 words)?
│ ├─ Yes → Does it duplicate another page?
│ │ ├─ No → ✅ INDEX IT
│ │ └─ Yes → Set canonical to main version, no-index duplicate
│ └─ No → ❌ NO-INDEX (thin content)
└─ No → Is it a utility page (login, checkout, etc.)?
├─ Yes → ❌ NO-INDEX
└─ No → Is it generated by URL parameters?
├─ Yes → ❌ NO-INDEX + Block in robots.txt
└─ No → Consult with SEO expert
Referencia rápida: Indización de mejores prácticas por tipo de página
| Tipo de página | ¿Un índice? | Método | Notas |
|---|---|---|---|
| Página | Entendido | Default | Índice |
| Páginas de productos | Entendido | Default | Principales URLs del producto solamente |
| Variaciones de productos (colores) | No hay disponibilidad | Canónico | Punto a producto principal |
| Páginas de categoría | Entendido | Condicional | Sólo si contenido único >300 palabras |
| Resultados de la búsqueda | No hay disponibilidad | robots.txt + meta | Nunca índice |
| Resultados filtrados | No hay disponibilidad | robots.txt + meta | Nunca índice |
| Pagination (page=2) | Tal vez | rel=»next/prev» | O canónico a la página 1 |
| Blog | Entendido | Default | Índice |
| Archivo de la etiqueta | Tal vez | Condicional | Sólo si se comisaria con contenido único |
| Archivo de autores | Tal vez | Condicional | Sitios multiautores únicamente |
| 404 páginas | No hay disponibilidad | Código de estado | Devuelve 404 automáticamente |
| Login/Registro | No hay disponibilidad | Meta no-index | Páginas de utilidad |
| Carrito/Checkout | No hay disponibilidad | Meta no-index | Páginas de utilidad |
| Gracias páginas | No hay disponibilidad | Meta no-index | Páginas de conversión |
| AMP versiones | No hay disponibilidad | Canónico | Punto a versión HTML |




