Ho una storia rapida per raccontare dove problemi di indicizzazione pagina che fissano ha causato problemi invece di portare cambiamento positivo al sito; Un cliente è venuto per pagina problemi di indicizzazione fissaggio fatto da una terza persona ed è stato colpito da un esperto tecnico di SEO che ha impostato tutto all'indice. Ha cercato di risolvere il problema della console di ricerca di Google bloccato da robots.txt e Indicizzato, anche se bloccato da robot. Tx problemi impostando ogni URL all'indice.
Come potete vedere sotto screenshot ha un numero enorme di pagine indicizzate e milioni di pagine non indicizzate. Indovina! tutte queste pagine sono pagine di spam. È perché il cosiddetto esperto tecnico SEO ha permesso ogni URL per l'indicizzazione. Spammers ha scoperto che l'opportunità e attaccato così tante di queste pagine indesiderate

Scenari di indicizzazione della pagina comune: Quando indicizzare vs. No-Index
Capire quali pagine dovrebbero essere indicizzate è fondamentale. Ecco una ripartizione completa:
Pagine che si dovrebbe indice
Pagine di contenuto primario:
– Homepage
– Principali pagine di prodotto/servizio
– pagine di categoria (con contenuti unici)
– Articoli e post sul blog
– Pagine di atterraggio con contenuto originale
– Informazioni, Contatti e pagine informative chiave
Perche'? Queste pagine forniscono valore ai cercatori e rappresentano il vostro contenuto di base.
Pagine che non dovresti indicizzare
Pagina dei risultati di ricerca:
– Risultati di ricerca del sito interno (traduzione:)
– Risultati filtrati (?colore=blue&size=large)
– Vista ordinata (?sort=prezzo)
Perche'? Questi creano infinite combinazioni di URL che diluiscono il tuo budget crawl e creano problemi di contenuti sottili.
Pagine utili:
– Login/logout pagine
– Pagine di checkout e carrello
– Grazie pagine
– dashboard account utente
– pannelli di amministrazione
Perche'? Nessun valore di ricerca per gli utenti esterni e può esporre aree sensibili.
Schede Tecniche:
– URL di staging/sviluppo
– Pagine di prova
– Duplicare il contenuto con i parametri URL
– Versione stampabile
– AMP duplicati (usare invece canonico)
Perche'? Questi sono duplicati tecnici che confondono motori di ricerca.
Non è sempre necessario indicizzare tutto; in realtà, Google non indicizza tutto come visto nel loro documentazione ufficiale indicizzazione pagina.
Così quel sito stava bloccando le pagine di ricerca (con ? q=search termini) dalla ricerca attraverso robots.txt. Tuttavia, qualcuno ha cambiato la sua impostazione per sbloccare le pagine di ricerca in modo da poter essere indicizzato. Questa decisione è stata sbagliata in quanto Google non indicizza tutto e ora il cliente sta vivendo problemi di così tante pagine di spam che vengono indicizzate e molti sono parte di pagine di registro non indicizzate.

Controllo di indicizzazione della piattaforma-Specific
WordPress: Controllo che cosa ottiene indicizzato
Usando Yoast SEO:
- Modificare la pagina/post che si desidera no-index
- Scroll alla metabox di Yoast SEO
- Fare clic sull'icona ingranaggi → Avanzato
- Set Permette ai motori di ricerca di mostrare questa pagina nei risultati di ricerca? a No
- Aggiorna la pagina
Utilizzando Rank Math:
- Modificare la pagina
- Trova la scatola meta di Rank Math
- Fare clic sulla scheda Avanzata
- Toggle Robots Meta a No Indice
Bulk No-Index per tipi di post:
Vai a SEO → Cerca Aspetto → [Post Type] e set Mostra [type] nei risultati della ricerca a No per:
– Media / allegati
– Tags (se contenuto sottile)
– Archivio dell'autore (per blog autore)
robots.txt per le pagine di ricerca:
# Disallow search result pages
Disallow: /*?s=
Disallow: /search/
Disallow: /?s=*
Shopify: Gestione delle impostazioni dell'indice
Varianti del prodotto No-Index:
Shopify canonica automaticamente le varianti del prodotto alla pagina principale del prodotto. Verificare questo nel file `product.liquid` del vostro tema: liquido
Collezioni No-Index con Filtri:
Aggiungi questo al tuo tema collezione.liquido: liquido
{% if current_tags %}
{% endif %}
Block Search Pages in robots.txt:
Modifica il tuo robots.txt.liquid file:
Disallow: /search
Disallow: /*?q=
Disallow: /collections/*+
WooCommerce: Variazioni di prodotto & Filtri
Pagine di negozio filtrate No-Index:
Installare Yoast WooCommerce SEO addon, quindi:
- Vai a SEO → Cerca Aspetto → WooCommerce
- Abilitare No-index per pagine di negozio filtrate
Variazioni del prodotto della maniglia:
WooCommerce non crea URL separati per variazioni (a differenza di Shopify), ma assicura che i tag canonici siano corretti: <?php
// In functions.php or custom plugin
add_filter('woocommerce_product_get_canonical_url', 'custom_canonical_url', 10, 2);
function custom_canonical_url($canonical_url, $product) {
return get_permalink($product->get_id());
}
Come recuperare da indicizzazione errori
Se avete accidentalmente indicizzato migliaia di pagine indesiderate (come l'esempio nel nostro caso di studio), ecco il vostro processo di recupero:
Passo 1: Fermare il Bleeding (Immediate)
Blocco ulteriore indicizzazione:
- Aggiungi meta tag non indici ai tipi di pagina interessati
- Aggiorna robot.txt per disabilitare i modelli di URL problematici
- Rimuovere i riferimenti sitemap alle pagine spam
Esempio robots.txt aggiornamento:
# Block search pages
Disallow: /*?s=
Disallow: /search/
# Block filter parameters
Disallow: /*?filter=
Disallow: /*&filter=
# Block session IDs
Disallow: /*?sid=
Disallow: /*sessionid=
Passo 2: Rimuovere gli URL di spam da Google’s Index
Per piccole pipistrelli (±100 URL):
- Vai a Google Search Console → Rimozioni
- Fare clic Nuova richiesta
- Inserisci il modello di prefisso URL o URL
- Inviare (eliminazione temporanea per 6 mesi)
Per grandi pipistrelli (1000 di URL):
Non è possibile rimuovere in massa in GSC, ma è possibile accelerare la de-indexing:
- Assicurarsi che i tag no-index siano in vigore
- Invia la mappa del sito aggiornata (without spam URLs)
- Attendere de-indexing naturale (can take 2-4 weeks)
- Utilizzare la gestione dei parametri URL
in GSC:
– Vai a Impostazioni → parametri URL
– Aggiungi parametri come ♪ o ♪filter=
– Set to Nessun URL o Lascia decidere Googlebot
Passo 3: Monitorare il progresso
Track De-Indexing:
Utilizzare questo operatore di ricerca settimanale:
site:yoursite.com inurl:?s=
site:yoursite.com inurl:/search/
Rapporto di copertura GSC:
Monitorare il Escluso sezione per diminuzioni in:
– Duplicare senza canonica selezionata dall'utente
– Crawled – attualmente non indicizzato
Passo 4: prevenire i futuri problemi
Impostare gli avvisi:
Creare un sistema di monitoraggio per catturare i problemi in anticipo:
- Settimane GSC Email Reports – Attiva in Impostazioni
- Audit mensili di copertura – Controllare nuovi modelli di esclusione
- Analisi del bilancio di Crawl – Se Googlebot spreca tempo su pagine spazzatura
Crea documentazione: Documentare le regole di indicizzazione in modo che i membri del team futuro non invertiscano le correzioni:
✅ Sempre Indice: Prodotti, post del blog, pagine principali
Risultati della ricerca, filtri, URL di sessione
⚠️ Condizionale: pagine di categoria (solo con contenuti unici >300 parole)
Real-World Case Study: Recuperare da 2.3M Pagine di Spam indicizzate
Il problema: Un cliente è venuto da noi dopo un SEO precedente esperto ha cambiato robots.txt per consentire a tutte le pagine di ricerca di essere indicizzato. Risultato:
– Prima: ~ 15.000 pagine legittime indicizzate
– Dopo il cattivo cambiamento: 2.3M pagine indicizzate (per lo più spam)
– Impatto del traffico: 67% drop nel traffico organico per 3 mesi
Il nostro processo di recupero:
Settimana 1:
– URL di ricerca bloccati in robots.txt
– Aggiunto no-index meta tags al modello di ricerca
– Rimuovi gli URL spam dalla mappa del sito XML
Settimana 2-4:
– Inviato 500 richieste di rimozione (limite GSC)
– Progressi di de-indexing monitorati
– Link interni fissi che puntano alle pagine di ricerca
Risultati:
– Mese 1: Fino a 1.8M pagine indicizzate
– Mese 2: Fino a 800K pagine indicizzate
– Mese 3: Torna a 18K pagine indicizzate (3K erano nuovi contenuti legittimi)
– Recupero del traffico: 89% of traffico originale restaurato
Lezione chiave: Non indici mai le pagine che accettano parametri generati dall'utente. Se un precedente esperto suggerisce questo, ottenere una seconda opinione.
Quindi quale sarebbe l'approccio giusto per risolvere problemi di indicizzazione pagina?
Suggerisco sempre di assumere un esperto SEO che può valutare il tuo sito web e prendere la decisione in base alle pagine riportate nel registro di indicizzazione pagina.
Quindi, se non hai pagine indicizzate o tramite robot robots.txt o meta, dovresti controllare se questa pagina è necessaria per essere indicizzata.
Idealmente, non dobbiamo indicizzare le pagine di ricerca o le pagine che possono accettare i termini di ricerca generati dall'utente come ho condiviso molti URL spammy.
Lo stesso è successo con questo client causando così tante pagine indesiderate indicizzate per gli utenti.
Si prega di condividere se avete domande.
Quadro di decisione: Questa pagina dovrebbe essere indicizzata?
Utilizzare questa scheda di flusso per ogni pagina interrogabile:
Does the page provide unique value to searchers?
├─ Yes → Does it have substantial content (>200 words)?
│ ├─ Yes → Does it duplicate another page?
│ │ ├─ No → ✅ INDEX IT
│ │ └─ Yes → Set canonical to main version, no-index duplicate
│ └─ No → ❌ NO-INDEX (thin content)
└─ No → Is it a utility page (login, checkout, etc.)?
├─ Yes → ❌ NO-INDEX
└─ No → Is it generated by URL parameters?
├─ Yes → ❌ NO-INDEX + Block in robots.txt
└─ No → Consult with SEO expert
Riferimento rapido: Indicizzazione delle migliori pratiche per tipo di pagina
| Tipo di pagina | Indice? | Metodo | Note |
|---|---|---|---|
| Homepage | ✅ Sì | Predefinito | Sempre indice |
| Pagine di prodotto | ✅ Sì | Predefinito | URL del prodotto principale solo |
| Varianti di prodotto (colori) | No | Canonico | Punto al prodotto principale |
| Pagine di categoria | ✅ Sì | Condizione | Solo se il contenuto unico > 300 parole |
| Risultati ricerca | No | robots.txt + meta | Mai indice |
| Risultati filtrati | No | robots.txt + meta | Mai indice |
| Pagina (pagina=2) | Forse | rel=”next/prev” | O canonico a pagina 1 |
| Blog | ✅ Sì | Predefinito | Sempre indice |
| Archivio per il tag | Forse | Condizione | Solo se curato con contenuti unici |
| Archivio autori | Forse | Condizione | Siti multi-autori |
| 404 pagine | No | Codice di stato | Ritorni 404 automaticamente |
| Accedi/Registro | No | Meta no-index | Pagine utili |
| Carrello/Checkout | No | Meta no-index | Pagine utili |
| Grazie pagine | No | Meta no-index | Pagine di conversione |
| Versioni AMP | No | Canonico | Punta alla versione HTML |




