Indexer les questions qui ont échoué: Éviter ces erreurs

Indexer les questions qui ont été erronées Éviter ces erreurs

J'ai une histoire rapide à dire où les problèmes d'indexation des pages ont causé des problèmes au lieu d'apporter un changement positif au site; Un client est venu pour correction des problèmes d'indexation des pages fait par une troisième personne et il a été affecté par un expert SEO technique novice qui a tout mis à l'index. Il a essayé de résoudre le problème de la console de recherche Google bloqué par robots.txt et Indexé, bien que bloqué par les robots. TXT problèmes en définissant chaque URL à index.

Comme vous pouvez le voir ci-dessous, il a un grand nombre de pages indexées et des millions de pages non indexées. Devinez quoi ! toutes ces pages sont des pages de spam. C'est parce que le soi-disant expert SEO technique a permis chaque URL pour l'indexation. Spammers a trouvé cette opportunité et a joint tant de ces pages indésirables

Les problèmes d'indexation des pages ont été réglés
Une capture d'écran d'un client avec des millions de pages indésirables rampés, indexés et non indexés.

Scénarios d'indexation de la page commune: Quand à l'indice vs

Il est essentiel de comprendre quelles pages doivent être indexées. Voici une ventilation complète:

Pages que vous devez indexer

Pages de contenu principal :

– Accueil
– Principaux produits/services
– Pages de catégorie (avec un contenu unique)
– Articles et articles de blog
– Pages d'atterrissage avec contenu original
– À propos, Contact et pages d'information clés

Pourquoi ? Ces pages fournissent de la valeur aux chercheurs et représentent votre contenu de base.

Pages que vous ne devriez PAS indexer

Pages de résultats de recherche:
– Résultats de la recherche interne (?s=mot-clé, ?q=terme de recherche)
– Résultats filtrés (?color=bleu&size=large)
– Vues triées (?sort=prix-asc)

Pourquoi ? Ceux-ci créent des combinaisons d'URL infinies qui diluent votre budget et créent des problèmes de contenu mince.

Pages utilitaires :
– Pages de connexion/démarrage
– Checkout et pages du panier
– Merci pages
– Tableau de bord du compte utilisateur
– Panneaux d'administration

Pourquoi ? Aucune valeur de recherche pour les utilisateurs externes et peut exposer les zones sensibles.

Pages techniques :
– URLs de positionnement/développement
– Pages d'essai
– Dupliquer le contenu avec les paramètres URL
– Version imprimable
– Doublons AMP (utiliser plutôt canonique)

Pourquoi ? Ce sont des duplicatas techniques qui confondent les moteurs de recherche.

Il n'est pas toujours nécessaire de tout indexer ; en fait, google n'indexe pas tout comme vu dans leur documentation officielle sur l'indexation des pages.

Ainsi, ce site Web bloquant les pages de recherche (avec ? q=termes de recherche) de la recherche à travers robots.txt. Cependant, quelqu'un a changé son réglage pour débloquer les pages de recherche afin qu'elles puissent être indexées. Cette décision était erronée car Google n'indexe pas tout et maintenant le client rencontre des problèmes de tant de pages de spam étant indexés et beaucoup font partie de pages de journal non indexées.

Indexer les pages non importantes
Les pages de spam peuvent être vues dans les pages indexées

Contrôle d'indexation spécifique à la plate-forme

WordPress: Contrôler ce qui est indexé

Utilisation du référencement Yoast:

  1. Modifier la page/poste que vous voulez sans index
  2. Faites défiler vers la méta-boîte Yoast SEO
  3. Cliquez sur l'icône d'engrenage → Avancé
  4. Jeu Permettre aux moteurs de recherche de montrer cette page dans les résultats de recherche? à Numéro
  5. Mettre à jour la page

Utiliser Rank Math :

  1. Modifier la page
  2. Trouver la méta boîte Rang Math
  3. Cliquez sur l'onglet Avancé
  4. Basculer Robots Meta à Pas d'index

Numéro d'indice en vrac pour les types de postes :

Aller au référencement → Recherche Apparence → [Post Type] et set Afficher [type] dans les résultats de recherche à numéro pour:

– Médias/Attaches
– Étiquettes (si le contenu est mince)
– Archives d'auteur (pour les blogs d'un seul auteur)

robots.txt pour la recherche Pages:

# Disallow search result pages
Disallow: /*?s=
Disallow: /search/
Disallow: /?s=*

Shopify: Gestion des paramètres de l'index

Produit sans indice

Shopify automatiquement canonique les variantes de produit à la page de produit principale. Vérifiez ceci dans votre fichier thème `product.liquide` : liquide

Collections sans index avec filtres :

Ajouter ceci à votre thème recouvrement.liquide: liquide

{% if current_tags %}
{% endif %}

Block Pages de recherche dans robots.txt:

Modifier votre robots.txt.liquide file:

Disallow: /search
Disallow: /*?q=
Disallow: /collections/*+

WooCommerce: Variations de produits et filtres

Pages de boutique filtrées sans index :

Installez Yoast WooCommerce SEO addon, puis:

  1. Aller au référencement → Recherche Apparence → WooCommerce
  2. Activer Pas d'index pour les pages de magasin filtrées

Poignée Variations du produit :

WooCommerce ne crée pas d'URLs séparées pour les variations (contrairement à Shopify), mais veillez à ce que vos balises canoniques soient correctes : <?php

// In functions.php or custom plugin
add_filter('woocommerce_product_get_canonical_url', 'custom_canonical_url', 10, 2);
function custom_canonical_url($canonical_url, $product) {
return get_permalink($product->get_id());
}

Comment récupérer des erreurs d'indexation

Si vous avez accidentellement indexé des milliers de pages indésirables (comme l'exemple dans notre étude de cas), voici votre processus de récupération:

Étape 1: Arrêtez le saignement (immédiat)

Blocer l'indexation suivante :

  1. Ajouter des métabalises sans index aux types de page touchés
  2. Mettre à jour robots.txt pour refuser les modèles d'URL problématiques
  3. Supprimer les références sitemap aux pages de spam

Exemple de mise à jour robots.txt:

# Block search pages
Disallow: /*?s=
Disallow: /search/
# Block filter parameters
Disallow: /*?filter=
Disallow: /*&filter=
# Block session IDs
Disallow: /*?sid=
Disallow: /*sessionid=

Étape 2: Supprimer les URLs de Spam de l'index de Google

Pour les petits ensembles (<100 URL):

  1. Aller à Google Search Console → Suppressions
  2. Cliquez sur Nouvelle demande
  3. Saisissez le motif de préfixe URL ou URL
  4. Soumettre (déplacement temporaire pendant 6 mois)

Pour les gros lots (1000 d'URL) :
Vous ne pouvez pas retirer en vrac dans GSC, mais vous pouvez accélérer la désindexation:

  1. S'assurer que les étiquettes appropriées sans index sont en place
  2. Soumettre le plan du site mis à jour (without spam URLs)
  3. Attendre la désindexation naturelle (can take 2-4 weeks)
  4. Utiliser la gestion des paramètres URL

dans GSC:
– Allez dans Paramètres → Paramètres URL
– Ajouter des paramètres comme ?s= ou ?filtre=
– Réglé sur Pas d'URL ou Laissez Googlebot décider

Étape 3 : Surveiller les progrès

Décomposition de la voie :

Utilisez cet opérateur de recherche hebdomadaire:

site:yoursite.com inurl:?s=
site:yoursite.com inurl:/search/

Rapport de couverture du CGC :

Surveiller Exclusion section pour les diminutions de:

Dupliquer sans canonique sélectionné par l'utilisateur
Crawled – actuellement non indexé

Étape 4 : Prévenir les problèmes futurs

Configurer les alertes & #160;:

Créer un système de surveillance pour régler les problèmes rapidement :

  1. Rapports hebdomadaires par courriel du GSC – Activer dans les paramètres
  2. Vérifications mensuelles – Vérifier les nouveaux modèles d'exclusion
  3. Analyse budgétaire – Si Googlebot perd du temps sur les pages de pourriel

Créer une documentation : Documentez vos règles d'indexation afin que les futurs membres de l'équipe n'inversent pas vos corrections :

Index: Produits, billets de blog, pages de base
Never Index: Résultats de la recherche, filtres, URL de session
Conditionnel: Pages de catégorie (seulement avec un contenu unique > 300 mots)

Étude de cas sur le monde réel: récupération de 2,3M Pages de Spam indexées

Le problème: Un client est venu à nous après un précédent référencement expert a modifié leurs robots.txt pour permettre l'indexation de toutes les pages de recherche. Résultat :

Avant: ~15 000 pages légitimes indexées
Après le mauvais changement: 2.3M pages indexées (principalement pourriel)
Impact sur la circulation: 67% drop dans le trafic organique sur 3 mois

Notre processus de rétablissement :

Semaine 1:
– URLs de recherche bloquées dans robots.txt
– Ajout de métabalises sans index dans le modèle de recherche
– Supprimé les URL de spam du plan du site XML

Semaine 2-4:
– Présentation de 500 demandes de suppression (limite GSC)
– Suivi des progrès de désindexation
– Liens internes fixes pointant vers les pages de recherche

Résultats:
Mois 1: Jusqu'à 1,8M pages indexées
Mois 2 : Jusqu'à 800K pages indexées
Mois 3: Retour à 18K pages indexées (3K étaient un nouveau contenu légitime)
Récupération du trafic: 89% of trafic d'origine restauré

Leçon clé : N'indexez jamais les pages qui acceptent les paramètres générés par l'utilisateur. Si un précédent expert suggère ceci, obtenir un second avis.

Quelle serait donc la bonne approche pour résoudre les problèmes d'indexation des pages?

Je suggère toujours à l'un ou l'autre louer un expert en référencement qui peut évaluer votre site web et prendre la décision en fonction des pages rapportées dans le journal d'indexation des pages.

Donc, si vous n'avez pas d'index pages soit par robot.txt ou méta robot, vous devriez vérifier si cette page est nécessaire pour être indexée.

Idéalement, nous ne devrions pas indexer les pages de recherche ou les pages qui peuvent accepter des termes de recherche générés par l'utilisateur comme je partageais beaucoup d'URL spammy.

La même chose s'est produite avec ce client causant tant de pages indésirables indexées pour les utilisateurs.

Veuillez partager si vous avez des questions.

Cadre de décision : cette page devrait-elle être indexée?

Utilisez ce diagramme de flux pour chaque page douteuse:


Does the page provide unique value to searchers?
├─ Yes → Does it have substantial content (>200 words)?
│  ├─ Yes → Does it duplicate another page?
│  │  ├─ No → ✅ INDEX IT
│  │  └─ Yes → Set canonical to main version, no-index duplicate
│  └─ No → ❌ NO-INDEX (thin content)
└─ No → Is it a utility page (login, checkout, etc.)?
   ├─ Yes → ❌ NO-INDEX
   └─ No → Is it generated by URL parameters?
      ├─ Yes → ❌ NO-INDEX + Block in robots.txt
      └─ No → Consult with SEO expert

Référence rapide : Indexer les meilleures pratiques par type de page

Type de pageIndex ?MéthodeAnnexe
Page d'accueilOuiPar défautToujours indexer
Pages des produitsOuiPar défautURLs du produit principal uniquement
Variantes de produits (couleurs)NuméroCanoniquePoint vers le produit principal
Catégorie pagesOuiConditionnelSeulement si le contenu unique > 300 mots
Résultats de la rechercheNumérorobots.txt + métaNe jamais indexer
Résultats filtrésNumérorobots.txt + métaNe jamais indexer
Pagination (page=2)Peut-êtrerel = ,next/prev Ou canonique à la page 1
Articles de blogOuiPar défautToujours indexer
Archives par étiquettePeut-êtreConditionnelSeulement s'il est traité avec un contenu unique
Archives des auteursPeut-êtreConditionnelSites multi-auteurs seulement
404 pagesNuméroCode d'étatRetourne 404 automatiquement
Connexion/EnregistrementNuméroMéta sans indicePages utilitaires
Cart/DépartNuméroMéta sans indicePages utilitaires
Merci pagesNuméroMéta sans indicePages de conversion
Version AMPNuméroCanoniquePoint vers la version HTML
Cet article était - il utile?
OuiNuméro