Enquête sur les facteurs à l’origine du passage de l’état « En ligne » à « Pas en ligne » dans le Centre pour les éditeurs Google

SAKHRI Mohamed 2023-12-12

0 103 9 minutes de lecture

Enquête sur les facteurs à l’origine du passage de l’état « En ligne » à « Pas en ligne » dans le Centre pour les éditeurs Google

Résumé :
Ce rapport scientifique a pour but d’explorer les raisons pour lesquelles le statut des sites Web est passé de « En ligne » à « Non en ligne » dans le Centre pour les éditeurs de Google. L’étude examine les signes courants, tels que la longueur du titre, l’autorité, les URL indexées, la langue du contenu, la transparence et la qualité du contenu, ainsi que leur impact sur le statut des sites Web.

Introduction :
L’état d’un site Web dans Google Publisher Center peut grandement influencer sa visibilité et son accessibilité pour les utilisateurs. L’état « En ligne » signifie que la page de publication est disponible pour les utilisateurs, tandis que l’état « Pas en ligne » indique que la page de publication n’est pas accessible. Cette étude cherche à identifier les raisons de ce changement de statut, en se concentrant sur les signes communs qui peuvent déclencher de tels changements.

Méthodes :
Un échantillon de sites Web ayant l’habitude de passer de l’état « En ligne » à l’état « Non en ligne » a été analysé. Nous avons collecté des données auprès de la communauté d’aide Google Actualités et les avons analysées à l’aide du Netpeak Checker. Les facteurs suivants ont été pris en compte pour chaque site Web : la longueur du titre de la page d’accueil, les mesures d’autorité (Trust Flow de Majestic et Domain Authority de Moz), les URL indexées dans les pages de résultats des moteurs de recherche Google (SERP), la langue du contenu, la transparence et la qualité du contenu.

Principales raisons de l’absence de statut actif — ***Principales raisons du statut « Non actif ».***

Passage à l’état « Pas en ligne »

Résultats:

Les algorithmes de Google n’ont pas pu confirmer une réputation fiable dans tous les domaines que nous avons sélectionnés.

Lorsque Google recherche une description d’un site Web sur la fonction « À propos de la source » et ne trouve pas de bonne correspondance, cela signifie qu’il n’y a pas de sources notables et réputées qui ont publié des informations sur le site Web qui pourraient donner un aperçu de sa réputation. C’est important pour Google, car il veut s’assurer qu’il fournit des informations précises et utiles à ses utilisateurs.

Lire la suite : Le système « Topic Authority » de Google

Sur la base de la fonctionnalité « Premier indexé par Google », qui mesure le nombre d’années pendant lesquelles un site Web a été indexé par Google, nous avons constaté que les sites d’actualités spammés de notre échantillon ont un historique d’indexation plus court. Cela suggère que ces sites sont soit nouveaux, soit ont un contenu de mauvaise qualité.

Longueur du titre :
Il a été observé que la longueur médiane du titre était de 44 caractères et que la longueur maximale du titre était inférieure à 70 caractères. Les titres idéaux ont une longueur comprise entre 60 et 100 caractères. Des longueurs de titre inadéquates peuvent entraîner une réduction de la visibilité et des taux de clics, ce qui peut affecter le statut d’un site. D’autre part, les similitudes dans la longueur des en-têtes des pages d’accueil sont susceptibles d’être une coïncidence. Nous vous recommandons donc de vous concentrer sur d’autres fonctionnalités.

Manque d’autorité :
les classements Google Actualités sont également basés sur l’autorité, donc si un site d’actualités n’a pas beaucoup d’autorité, il n’apparaîtra pas dans les classements Google Actualités. L’autorité est une mesure de la fiabilité d’un site Web et est déterminée par un certain nombre de facteurs, notamment le nombre de liens vers le site à partir d’autres sites faisant autorité, la qualité du contenu du site et l’âge du site. Vous pouvez vérifier l’autorité de votre site à l’aide d’un outil tel que Moz (Domain Authority) ou Majestic (Trust Flow).

Sites Web avec des profils de liens spammés

La plupart des sites qui ont reçu le statut « Not Live » ont été créés au tournant de l’année 2020 ou plus tard, et dans la plupart des cas, avaient de faibles scores d’autorité, avec un score Trust Flow de 6 ou moins. De faibles scores d’autorité peuvent indiquer un manque de crédibilité ou de fiabilité, ce qui peut conduire à un changement de statut en « Pas en direct ».

Flux de confiance des sites qui ne sont pas en ligne.

Les sites Web avec des profils de liens de spam peuvent avoir un flux de confiance plus faible, un flux de citations plus élevé et un nombre plus élevé de backlinks et de domaines référents de mauvaise qualité.

URL indexées :
les sites Web de l’échantillon avaient moins de 1500 URL indexées dans Google SERP. Les URL indexées limitées peuvent être le signe d’une faible visibilité en ligne ou d’un contenu insuffisant, ce qui peut entraîner un changement de statut. Les pages indexées au cours des 2 dernières années ont un score de spam légèrement plus élevé. Le score de spam a une corrélation négative modérée de -0,43 avec les URL indexées par Google. Les sites Web qui sont plus indexés ont tendance à avoir des scores de spam plus faibles, car Google est moins susceptible d’indexer les pages vraiment spammées.

Langue du contenu et DNS du pays :
la plupart des sites de l’échantillon utilisaient l’anglais comme langue de contenu et avaient un DNS de pays des États-Unis. À notre avis, il s’agit d’un signe supplémentaire que le statut des sites dont le contenu est principalement en anglais destiné au public américain a changé pour devenir « Not Live ».

Manque de transparence :
dans le contexte des règles de contenu de Google, la « transparence » fait référence à l’exigence selon laquelle les éditeurs doivent être ouverts et honnêtes quant à leurs sources et à leurs méthodes. Cela signifie qu’ils doivent divulguer les sources des informations qu’ils publient et doivent fournir des preuves à l’appui de l’exactitude et de la fiabilité de leurs reportages.

La transparence est un aspect important de l’intégrité journalistique et permet de garantir l’exactitude et la fiabilité des informations incluses dans les actualités de Google. Il aide également les utilisateurs à comprendre le contexte et les sources de l’information qu’ils lisent, et leur permet de prendre des décisions éclairées quant à la crédibilité de l’information.

Les sites Web de l’échantillon présentaient un manque de transparence dans leurs :

Dates et signatures
Informations sur les auteurs, la publication et l’éditeur
Informations sur l’entreprise ou le réseau à l’origine du contenu
Coordonnées

La transparence est essentielle pour établir la confiance avec les utilisateurs, et son absence peut avoir un impact négatif sur la crédibilité et le statut d’un site Web.

Manque de contenu de qualité :
les classements Google Actualités sont basés sur la qualité du contenu, donc si un site d’actualités n’a pas de contenu de haute qualité, il n’apparaîtra pas dans les classements Google Actualités.

Les éditeurs qui proposent un contenu informatif, opportun, original et pertinent qui respecte les règles de Google en matière de contenu peuvent être pris en compte dans les surfaces d’actualités de Google.

Il s’est avéré que les sites Web de l’échantillon avaient un contenu de mauvaise qualité. Dans de nombreux cas, il s’agit d’un contenu non lié à l’actualité qui a été créé par l’intelligence artificielle sans aucune vérification appropriée ni effort humain.

L’utilisation de l’automatisation, y compris l’IA, pour produire du contenu dans le but principal de manipuler les classements de recherche constitue une violation des règles de Google en matière de spam. Si vous utilisez largement l’automatisation pour produire du contenu de mauvaise qualité sur de nombreux sujets, votre contenu peut être considéré comme donnant la priorité aux moteurs de recherche plutôt qu’aux personnes, ce qui n’est pas conforme à ce que les systèmes de classement de Google cherchent à récompenser. Cela peut entraîner une baisse du classement des moteurs de recherche et une diminution du trafic sur votre site. Il est important de créer un contenu utile, fiable et axé sur les personnes, qui s’aligne sur les principes E-A-T de Google pour éviter ces conséquences.

Dans le contexte des Directives d’évaluation de la qualité de la recherche, le contenu de mauvaise qualité fait référence à un contenu qui ne répond pas à l’intention de l’utilisateur ou qui offre une mauvaise expérience utilisateur. Il peut s’agir d’un contenu non pertinent, inutile ou offensant pour les utilisateurs, ainsi que d’un contenu créé avec peu ou pas d’effort, de talent, de compétence, d’originalité, de curation manuelle ou de valeur ajoutée pour les utilisateurs. Des exemples de contenu de mauvaise qualité peuvent inclure des pages avec un contenu superficiel ou spammé, du contenu généré automatiquement ou du contenu qui repose fortement sur des mots-clés ou des liens non pertinents.

Des éléments de mauvaise qualité dans la conception d’un site Web peuvent indiquer une mauvaise qualité du site et du contenu. Il peut s’agir d’images à faible résolution, de combinaisons de couleurs peu attrayantes, de polices inappropriées, d’une disposition inappropriée des éléments ou d’une abondance d’éléments qui entravent la navigation de l’utilisateur, ralentissent le chargement du site ou créent de la confusion. Par exemple, un excès de bannières publicitaires et de pop-ups qui dérangent les utilisateurs pourrait signifier une mauvaise qualité du site. Les images à basse résolution qui sont trop petites pour être visualisées peuvent amener un utilisateur à remettre en question la qualité du contenu. De plus, si les schémas de couleurs d’un site diffèrent considérablement et nuisent à la lisibilité, les utilisateurs peuvent rencontrer des problèmes d’accessibilité.

Un contenu de haute qualité est essentiel pour l’engagement des utilisateurs et l’optimisation des moteurs de recherche. Une mauvaise qualité de contenu peut avoir une incidence significative sur le statut d’un site Web dans le Centre pour les éditeurs. Si vous ne savez pas comment améliorer la qualité de votre contenu, lisez Créer un contenu utile, fiable et axé sur les personnes.

Dans le domaine de l’évaluation de la qualité du contenu, on pourrait soutenir que le processus est intrinsèquement subjectif, soumis aux caprices et aux préjugés des observateurs individuels. Néanmoins, les fruits de l’enquête empirique suggèrent qu’il existe certains critères objectifs permettant d’évaluer la qualité d’un contenu. Ces facteurs, tels qu’ils ressortent des données, sont les suivants :

Véracité: Pour résister à un examen minutieux, le contenu doit être fondé sur l’exactitude factuelle, exempt d’erreurs et étayé par des sources et des données d’une crédibilité irréprochable.

Pertinence: Un contenu saillant doit aborder le sujet abordé et répondre aux intérêts de sa population cible, offrant ainsi une valeur réelle et répondant aux questions ou aux appréhensions de son lectorat.

Lucidité: Un contenu de haut niveau doit être compréhensible et bien structuré, adhérant aux principes de la grammaire et de l’orthographe correctes tout en employant un langage clair et succinct.

Immersion: Un contenu attrayant captive non seulement son public, mais se présente également de manière esthétique, en utilisant divers éléments multimédias, tels que des images, des vidéos et des infographies, pour enrichir l’expérience du lecteur.

Expertise: La paternité d’un contenu réputé doit pouvoir être attribuée à une personne possédant l’autorité et l’expertise dans le domaine concerné, le contenu lui-même reflétant une recherche approfondie et présentant des idées ou des points de vue uniques.

En intégrant ces facettes dans son évaluation, on peut en effet évaluer la qualité du contenu. Il est toutefois crucial de reconnaître que la détermination de la qualité du contenu est inextricablement liée au contexte et aux objectifs spécifiques que le contenu cherche à remplir.

Conclusion:

Cette étude a révélé que des facteurs tels que l’autorité (confiance), la transparence et la qualité du contenu jouent un rôle crucial dans la détermination du statut d’un site Web dans Google Publisher Center. En s’attaquant à ces facteurs, les propriétaires de sites Web peuvent améliorer leurs chances de maintenir un statut « en ligne » et s’assurer que leurs pages de publication restent accessibles et visibles pour les utilisateurs.

Les algorithmes de Google analysent également les modèles de recherche globaux et le comportement des utilisateurs de Google afin de déterminer les marques et les sites d’actualités que les gens recherchent activement pour rester informés. Les sites qui suscitent le plus d’intérêt et de trafic pour les recherches liées aux actualités sont plus susceptibles de devenir des sources d’actualités dans Google Actualités.

Le service d’agrégation d’actualités de Google, Google Actualités, n’inclut pas tous les sites et sources d’actualités sur Internet. Il n’inclut que les articles d’actualité provenant d’un sous-ensemble de sites qui répondent à certains critères.

Les principaux critères sont les suivants :

Les sites sont des sources d’informations populaires que de nombreux lecteurs de Google Actualités visitent déjà fréquemment pour obtenir des nouvelles. Par exemple, des sites de médias grand public bien connus comme le New York Times, le Washington Post, la BBC, CNN, etc. Ce sont des sites que les gens recherchent spécifiquement pour trouver des reportages et des couvertures d’actualité.
Les sites publient un grand nombre d’articles et de reportages originaux. Google Actualités préfère les sites qui génèrent une grande partie de leur propre contenu journalistique, plutôt que de se contenter d’agréger des informations provenant d’ailleurs ou de se concentrer sur les opinions et les commentaires.
Les sites suivent certaines directives de qualité telles que le style de rédaction des nouvelles, la transparence des sources, l’exactitude et l’objectivité. Google Actualités vise à filtrer les sites d’information de mauvaise qualité qui publient de fausses histoires, des théories du complot ou une propagande très biaisée.

Google Actualités dispose également d’un processus de soumission ouvert pour les sites d’actualités et les blogs à ajouter à la plate-forme. Mais les sites doivent toujours répondre aux directives de qualité globales et atteindre un niveau de lectorat et de notoriété pour être inclus de manière permanente.

Donc, en résumé, Google Actualités ne fait qu’agréger à partir d’un ensemble de sites d’actualités sélectionnés par des algorithmes qui se concentrent réellement sur le journalisme et les reportages réels, et laissent de côté de nombreuses sources plus petites ou douteuses dans le but de donner la priorité à l’exactitude, à l’objectivité et à l’intérêt des lecteurs.