Tel est le résultat de l’évaluation que j’ai réalisée en décembre 2005 avec mes étudiants aixois et dont j’ai déjà dévoilé quelques aspects sur ce blog (voir 1, 2, 3, 4, 5). Le dernier volet de l’étude (sans doute le plus intéressant) concerne le classement des différents moteurs
en fonction de la pertinence - du moins de la pertinence telle qu’elle peut être perçue par un panel d’utilisateurs. Je rappelle tout d’abord brièvement le protocole utilisé. L’étude complète est disponible ici au format pdf si vous voulez connaître plus de détails.
Les moteurs choisis sont trois moteurs américains, Google, Yahoo et MSN, ainsi que trois moteurs français, Exalead, Voilà (développé par France Telecom et offert sur le portail Wanadoo) et Dir.com
du groupe Iliad, qui constitue plus une plate-forme expérimentale qu’un moteur à visée commerciale (Dir. Com vient de mettre en ligne une nouvelle version améliorée, mais elle n’a malheureusement pas pu être prise en compte dans l’étude). D’autres moteurs, tels que MozDex ou AskJeeves, n’ont pas été retenus car ils n’offraient pas de version francophone (ou seulement une version bêta dans le cas de AskJeeves).
Quatorze thèmes ont été retenus de façon à refléter une grande variété d’utilisations (Actualités, Animaux, Cinéma, etc.). Chaque thème a été attribué à un étudiant différent, qui choisissait librement cinq requêtes. Le format (avec ou sans guillemets, en un seul ou plusieurs mots) était également totalement libre. L’étude devant se faire « en aveugle », c’est-à-dire sans que les utilisateurs sachent de quel moteur proviennent les résultats, j’ai soumis moi-même les 70 requêtes aux six moteurs. La première page de 10 résultats non marqués comme sponsorisés a été archivée pour chaque requête et chaque moteur (4200 résultats au total), puis débarrassée automatiquement des informations autres que les seules URL des résultats.
Les couples requête-URL correspondant à chaque thème ont été fournis à l’étudiant concerné, qui devait évaluer le document pointé par l’URL (voir étude détaillée), et en particulier fournir une note de pertinence
entre 0 et 5, 0 correspondant à un document totalement inutile ou hors thème, 5 correspondant à un document répondant de façon parfaite à la question posée.
Le classement est le suivant :
Même en restreignant l’étude à la première position dans l’écran de résultats (le lien le plus cliqué par les utilisateurs), les performances sont à peine meilleures : Google et Yahoo dépassent à peine la moyenne avec 2,9 et 2,8 respectivement. Curieusement, les performances de Voilà sont moins bonnes sur le premier lien non marqué comme sponsorisé, puisque sa note y atteint seulement 0,5.
(non marqués comme sponsorisés) est élevée, puisque elle varie entre 7 et 16% environ selon les moteurs. En soi, la présence de liens commerciaux n’est pas nécessairement nuisible à la qualité : sur une requête telle que « Harry Potter », faire apparaître la page Amazon où le livre peut être acheté peut être pertinent. Néanmoins, on observe, dans l’état actuel des choses, une nette dégradation des résultats en terme de pertinence perçue sur les liens commerciaux, et ceci pour tous les moteurs : la note attribuée aux liens commerciaux est systématiquement inférieure à celle attribuée aux autres résultats. Google et Yahoo perdent ainsi environ un point sur les liens commerciaux, ce qui est beaucoup sur une échelle de 5 points, surtout quand la note maximale n’est que de 2,3.
Je suis sûr que cette étude va susciter pas mal de réactions. En tous cas, il me semble qu’au moins deux conclusions s’imposent. D’une part, les satisfecit que s’auto-attribuent certains moteurs sont mal fondés : il reste manifestement un immense travail de recherche à faire pour mieux satisfaire les utilisateurs. On oublie parfois que les technologies sous-jacentes sont fort jeunes, et encore quelque peu dans leurs balbutiements. D’autre part, rien dans cette étude ne permet d’expliquer la préférence massive des internautes pour le moteur Google, puisque, globalement, Google et Yahoo ont des performances à peu près équivalentes, et se détachent de leurs concurrents. Il faut donc supposer que les raisons en sont autres que des critères de pure pertinence des résultats.