Page Indexing Issues Went Wrong: Evitare questi errori

Page Indexing Issues Went Wrong Evitare questi errori

Ho una storia rapida per raccontare dove problemi di indicizzazione pagina che fissano ha causato problemi invece di portare cambiamento positivo al sito; Un cliente è venuto per pagina problemi di indicizzazione fissaggio fatto da una terza persona ed è stato colpito da un esperto tecnico di SEO che ha impostato tutto all'indice. Ha cercato di risolvere il problema della console di ricerca di Google bloccato da robots.txt e Indicizzato, anche se bloccato da robot. Tx problemi impostando ogni URL all'indice.

Come potete vedere sotto screenshot ha un numero enorme di pagine indicizzate e milioni di pagine non indicizzate. Indovina! tutte queste pagine sono pagine di spam. È perché il cosiddetto esperto tecnico SEO ha permesso ogni URL per l'indicizzazione. Spammers ha scoperto che l'opportunità e attaccato così tante di queste pagine indesiderate

I problemi di indicizzazione della pagina sono andati
Uno screenshot di un client con milioni di pagine indesiderate strisciate, indicizzate e non indicizzate.

Scenari di indicizzazione della pagina comune: Quando indicizzare vs. No-Index

Capire quali pagine dovrebbero essere indicizzate è fondamentale. Ecco una ripartizione completa:

Pagine che si dovrebbe indice

Pagine di contenuto primario:

– Homepage
– Principali pagine di prodotto/servizio
– pagine di categoria (con contenuti unici)
– Articoli e post sul blog
– Pagine di atterraggio con contenuto originale
– Informazioni, Contatti e pagine informative chiave

Perche'? Queste pagine forniscono valore ai cercatori e rappresentano il vostro contenuto di base.

Pagine che non dovresti indicizzare

Pagina dei risultati di ricerca:
– Risultati di ricerca del sito interno (traduzione:)
– Risultati filtrati (?colore=blue&size=large)
– Vista ordinata (?sort=prezzo)

Perche'? Questi creano infinite combinazioni di URL che diluiscono il tuo budget crawl e creano problemi di contenuti sottili.

Pagine utili:
– Login/logout pagine
– Pagine di checkout e carrello
– Grazie pagine
– dashboard account utente
– pannelli di amministrazione

Perche'? Nessun valore di ricerca per gli utenti esterni e può esporre aree sensibili.

Schede Tecniche:
– URL di staging/sviluppo
– Pagine di prova
– Duplicare il contenuto con i parametri URL
– Versione stampabile
– AMP duplicati (usare invece canonico)

Perche'? Questi sono duplicati tecnici che confondono motori di ricerca.

Non è sempre necessario indicizzare tutto; in realtà, Google non indicizza tutto come visto nel loro documentazione ufficiale indicizzazione pagina.

Così quel sito stava bloccando le pagine di ricerca (con ? q=search termini) dalla ricerca attraverso robots.txt. Tuttavia, qualcuno ha cambiato la sua impostazione per sbloccare le pagine di ricerca in modo da poter essere indicizzato. Questa decisione è stata sbagliata in quanto Google non indicizza tutto e ora il cliente sta vivendo problemi di così tante pagine di spam che vengono indicizzate e molti sono parte di pagine di registro non indicizzate.

Indicizzazione delle pagine non importanti
Le pagine di spam possono essere viste nelle pagine indicizzate

Controllo di indicizzazione della piattaforma-Specific

WordPress: Controllo che cosa ottiene indicizzato

Usando Yoast SEO:

  1. Modificare la pagina/post che si desidera no-index
  2. Scroll alla metabox di Yoast SEO
  3. Fare clic sull'icona ingranaggi → Avanzato
  4. Set Permette ai motori di ricerca di mostrare questa pagina nei risultati di ricerca? a No
  5. Aggiorna la pagina

Utilizzando Rank Math:

  1. Modificare la pagina
  2. Trova la scatola meta di Rank Math
  3. Fare clic sulla scheda Avanzata
  4. Toggle Robots Meta a No Indice

Bulk No-Index per tipi di post:

Vai a SEO → Cerca Aspetto → [Post Type] e set Mostra [type] nei risultati della ricerca a No per:

– Media / allegati
– Tags (se contenuto sottile)
– Archivio dell'autore (per blog autore)

robots.txt per le pagine di ricerca:

# Disallow search result pages
Disallow: /*?s=
Disallow: /search/
Disallow: /?s=*

Shopify: Gestione delle impostazioni dell'indice

Varianti del prodotto No-Index:

Shopify canonica automaticamente le varianti del prodotto alla pagina principale del prodotto. Verificare questo nel file `product.liquid` del vostro tema: liquido

Collezioni No-Index con Filtri:

Aggiungi questo al tuo tema collezione.liquido: liquido

{% if current_tags %}
{% endif %}

Block Search Pages in robots.txt:

Modifica il tuo robots.txt.liquid file:

Disallow: /search
Disallow: /*?q=
Disallow: /collections/*+

WooCommerce: Variazioni di prodotto & Filtri

Pagine di negozio filtrate No-Index:

Installare Yoast WooCommerce SEO addon, quindi:

  1. Vai a SEO → Cerca Aspetto → WooCommerce
  2. Abilitare No-index per pagine di negozio filtrate

Variazioni del prodotto della maniglia:

WooCommerce non crea URL separati per variazioni (a differenza di Shopify), ma assicura che i tag canonici siano corretti: <?php

// In functions.php or custom plugin
add_filter('woocommerce_product_get_canonical_url', 'custom_canonical_url', 10, 2);
function custom_canonical_url($canonical_url, $product) {
return get_permalink($product->get_id());
}

Come recuperare da indicizzazione errori

Se avete accidentalmente indicizzato migliaia di pagine indesiderate (come l'esempio nel nostro caso di studio), ecco il vostro processo di recupero:

Passo 1: Fermare il Bleeding (Immediate)

Blocco ulteriore indicizzazione:

  1. Aggiungi meta tag non indici ai tipi di pagina interessati
  2. Aggiorna robot.txt per disabilitare i modelli di URL problematici
  3. Rimuovere i riferimenti sitemap alle pagine spam

Esempio robots.txt aggiornamento:

# Block search pages
Disallow: /*?s=
Disallow: /search/
# Block filter parameters
Disallow: /*?filter=
Disallow: /*&filter=
# Block session IDs
Disallow: /*?sid=
Disallow: /*sessionid=

Passo 2: Rimuovere gli URL di spam da Google’s Index

Per piccole pipistrelli (±100 URL):

  1. Vai a Google Search Console → Rimozioni
  2. Fare clic Nuova richiesta
  3. Inserisci il modello di prefisso URL o URL
  4. Inviare (eliminazione temporanea per 6 mesi)

Per grandi pipistrelli (1000 di URL):
Non è possibile rimuovere in massa in GSC, ma è possibile accelerare la de-indexing:

  1. Assicurarsi che i tag no-index siano in vigore
  2. Invia la mappa del sito aggiornata (without spam URLs)
  3. Attendere de-indexing naturale (can take 2-4 weeks)
  4. Utilizzare la gestione dei parametri URL

in GSC:
– Vai a Impostazioni → parametri URL
– Aggiungi parametri come o ♪filter=
– Set to Nessun URL o Lascia decidere Googlebot

Passo 3: Monitorare il progresso

Track De-Indexing:

Utilizzare questo operatore di ricerca settimanale:

site:yoursite.com inurl:?s=
site:yoursite.com inurl:/search/

Rapporto di copertura GSC:

Monitorare il Escluso sezione per diminuzioni in:

Duplicare senza canonica selezionata dall'utente
Crawled – attualmente non indicizzato

Passo 4: prevenire i futuri problemi

Impostare gli avvisi:

Creare un sistema di monitoraggio per catturare i problemi in anticipo:

  1. Settimane GSC Email Reports – Attiva in Impostazioni
  2. Audit mensili di copertura – Controllare nuovi modelli di esclusione
  3. Analisi del bilancio di Crawl – Se Googlebot spreca tempo su pagine spazzatura

Crea documentazione: Documentare le regole di indicizzazione in modo che i membri del team futuro non invertiscano le correzioni:

✅ Sempre Indice: Prodotti, post del blog, pagine principali
Risultati della ricerca, filtri, URL di sessione
⚠️ Condizionale: pagine di categoria (solo con contenuti unici >300 parole)

Real-World Case Study: Recuperare da 2.3M Pagine di Spam indicizzate

Il problema: Un cliente è venuto da noi dopo un SEO precedente esperto ha cambiato robots.txt per consentire a tutte le pagine di ricerca di essere indicizzato. Risultato:

Prima: ~ 15.000 pagine legittime indicizzate
Dopo il cattivo cambiamento: 2.3M pagine indicizzate (per lo più spam)
Impatto del traffico: 67% drop nel traffico organico per 3 mesi

Il nostro processo di recupero:

Settimana 1:
– URL di ricerca bloccati in robots.txt
– Aggiunto no-index meta tags al modello di ricerca
– Rimuovi gli URL spam dalla mappa del sito XML

Settimana 2-4:
– Inviato 500 richieste di rimozione (limite GSC)
– Progressi di de-indexing monitorati
– Link interni fissi che puntano alle pagine di ricerca

Risultati:
Mese 1: Fino a 1.8M pagine indicizzate
Mese 2: Fino a 800K pagine indicizzate
Mese 3: Torna a 18K pagine indicizzate (3K erano nuovi contenuti legittimi)
Recupero del traffico: 89% of traffico originale restaurato

Lezione chiave: Non indici mai le pagine che accettano parametri generati dall'utente. Se un precedente esperto suggerisce questo, ottenere una seconda opinione.

Quindi quale sarebbe l'approccio giusto per risolvere problemi di indicizzazione pagina?

Suggerisco sempre di assumere un esperto SEO che può valutare il tuo sito web e prendere la decisione in base alle pagine riportate nel registro di indicizzazione pagina.

Quindi, se non hai pagine indicizzate o tramite robot robots.txt o meta, dovresti controllare se questa pagina è necessaria per essere indicizzata.

Idealmente, non dobbiamo indicizzare le pagine di ricerca o le pagine che possono accettare i termini di ricerca generati dall'utente come ho condiviso molti URL spammy.

Lo stesso è successo con questo client causando così tante pagine indesiderate indicizzate per gli utenti.

Si prega di condividere se avete domande.

Quadro di decisione: Questa pagina dovrebbe essere indicizzata?

Utilizzare questa scheda di flusso per ogni pagina interrogabile:


Does the page provide unique value to searchers?
├─ Yes → Does it have substantial content (>200 words)?
│  ├─ Yes → Does it duplicate another page?
│  │  ├─ No → ✅ INDEX IT
│  │  └─ Yes → Set canonical to main version, no-index duplicate
│  └─ No → ❌ NO-INDEX (thin content)
└─ No → Is it a utility page (login, checkout, etc.)?
   ├─ Yes → ❌ NO-INDEX
   └─ No → Is it generated by URL parameters?
      ├─ Yes → ❌ NO-INDEX + Block in robots.txt
      └─ No → Consult with SEO expert

Riferimento rapido: Indicizzazione delle migliori pratiche per tipo di pagina

Tipo di paginaIndice?MetodoNote
Homepage✅ SìPredefinitoSempre indice
Pagine di prodotto✅ SìPredefinitoURL del prodotto principale solo
Varianti di prodotto (colori)NoCanonicoPunto al prodotto principale
Pagine di categoria✅ SìCondizioneSolo se il contenuto unico > 300 parole
Risultati ricercaNorobots.txt + metaMai indice
Risultati filtratiNorobots.txt + metaMai indice
Pagina (pagina=2)Forserel=”next/prev”O canonico a pagina 1
Blog✅ SìPredefinitoSempre indice
Archivio per il tagForseCondizioneSolo se curato con contenuti unici
Archivio autoriForseCondizioneSiti multi-autori
404 pagineNoCodice di statoRitorni 404 automaticamente
Accedi/RegistroNoMeta no-indexPagine utili
Carrello/CheckoutNoMeta no-indexPagine utili
Grazie pagineNoMeta no-indexPagine di conversione
Versioni AMPNoCanonicoPunta alla versione HTML
Questo articolo è stato utile?
No