Première rédaction de cet article le 2 mai 2007
Lire les journaux de son serveur HTTP est une source d'amusement sans fin. En effet, beaucoup d'utilisateurs surestiment nettement leur moteur de recherche favori et lui parlent en langue naturelle, entrainant parfois des résultats suprenants.
Malheureusement, l'apprentissage de l'usage d'Internet se limite en général à l'apprentissage des outils (« clique ici »), pas à leur utilisation critique. L'utilisateur naïf est donc voué à faire des erreurs, qui distraient l'informaticien occupé à utiliser tail ou l'excellent xlogmaster sur les journaux d'Apache. La plupart du temps, l'utilisateur confond le moteur de recherche avec un robot d'un film de science-fiction des années 50, à qui on peut parler comme s'il était humain.
Voici donc quelques requêtes particulièrement intéressantes vues sur mon blog, avec les réflexions qu'elles m'inspirent. L'orthographe originale a été strictement respectée.
getaddrinfo exemple utilisation
(a mené en
mesurer-temps-execution.html
). La page en question parle
bien de getaddrinfo mais ne contient pas d'exemple, le
mot « exemple » apparaissait pour autre chose. À l'inverse, une page
avec un exemple d'utilisation de getaddrinfo peut ne pas
comporter du tout le mot « exemple ». Cette erreur est sans doute la
plus courante : croire que le moteur de recherche manipule des
concepts alors qu'il ne connait que des chaînes de caractères. Il ne
sait pas que, par exemple, « vin » est synonyme de « pinard ». Le cas
est d'autant plus troublant ici que l'utilisation de
getaddrinfo indique que l'utilisateur était un
informaticien... Il aurait plutôt dû utiliser un moteur de recherche
spécialisé dans le code source comme Code Search ou Krugle. Encore mieux, après la
publication de cet article, c'est celui-ci qu'a trouvé un autre
étudiant cherchant getaddrinfo exemple
. Et
celui-ci venait d'une grande école d'ingénieurs de
Grenoble, ce qui indique un manque de formation
à l'usage des outils du réseau dans ces établissements...
PostgreSQL comment cela marche
(a mené en postgresql-unicode.html
). Encore pire puisqu'il y a peu de chance
que le moteur de recherche aie compris le « comment ça
marche ». L'utilisateur aurait plutôt dû partir de l'article de Wikipédia, qui indique
plusieurs tutoriels.
empécher IE de faire une requête DNS
(a mené
en fermer-les-recursifs-ouverts.html
). Là encore, la
syntaxe de la phrase a complètement échappé au
moteur de recherche qui a simplement trouvé une page où tous ces mots
apparaissaient. Mettre la même phrase avec les mots dans le désordre
donne d'ailleurs presque les mêmes résultats. Plus drôle,
revendeur d'objets polonais
a mené en 3730.html
car l'analyse du RFC parlait en
effet des polonais, d'objets et de revendeurs (sans que ces termes
soient liés).
ecrire un roman avec microsoft word
(a mené en afterword.html
). L'utilisateur a dû être très déçu de trouver un
texte critiquant vigoureusement Word (cet
article reçoit énormément de visites d'utilisateurs de Word, ce qui
indique bien le manque de documentation sur cet outil prétendûment
simple d'utilisation). Son
problème est que la syntaxe très limitée du langage de requêtes des
moteurs de recherche ne permet pas d'exprimer des concepts comme le
fait que la page soit orientée vers les utilisateurs de Word. Le
moteur de recherche a juste vu le mot « word ». Même si les moteurs de
recherche étaient plus perfectionnés, les pages Web ne sont
typiquement pas
structurées et il serait très difficile d'en déduire
automatiquement si une page est un mode d'emploi ou un article
polémique.
blog sur les strings
(a mené en 3454.html
). Sans doute encore une grande déception pour
l'utilisateur, qui n'a pas pensé que le mot string était répandu
en franglais informatique, pas seulement en lingerie.
pourquoi tant de gens utilisent-ils internet?
(a mené
en identificateur-vs-moteur-de-recherche.html
). Excellente
question mais certainement trop philosophique pour un moteur de
recherche. Le lycéen paresseux qui l'a tapée dans Google aura peu de
chance d'avoir une réponse toute prête pour sa dissertation.
expresso capucino difference
(a mené en data-formats.html
). Outre la faute d'orthographe à
cappuccino, l'utilisateur est tombé victime d'un
problème courant, les exemples. Les informaticiens aiment utiliser des
noms pittoresques et les exemples dans mes articles me valent des
visites inattendues par exemple un amateur de
Ragnarok qui tombe sur xen.html
ou
bien un client de Véolia qui arrive en 2672.html
. J'ai aussi vu nom et prenom de la physicienne polonaise
arriver en postgresql-unicode.html
.
images e t textes blog sur la mort
(a mené en afterword.html
). Un sujet sinistre et un résultat inattendu (mais
où le mot mort figurait bien).
mon moteur de recherche
(a mené à cet
article), est une requête apparue depuis la publication de la première
version de cet article.
L'excellente étude « Usages de l'Internet par les étudiants burkinabé » montre bien le phénomène et, comme le montrent les requêtes plus haut (toutes venues de France), cela n'a rien de spécifique au Burkina-Faso. Ainsi, dans l'enquête, une documentaliste se plaint que, pour les étudiants, « Google est le point d'entrée quasi général. Mais si certains entrent des mots-clés, beaucoup indiquent la référence complète d'un ouvrage et s'étonnent d'avoir en réponse, une liste de librairies en ligne. De même, beaucoup posent leur question par une longue phrase en langage naturel dont les mots peu significatifs amène Google à retourner des réponses non pertinentes ».
Finissons sur une note optimiste. Voici quelques requêtes qui ont bien marché, peut-être par pure chance, mais tant mieux pour leur auteur.
Convertisseur XML vers csv
(a mené en xml-to-csv.html
).Host Identity Protocol
(a mené en 4423.html
).dhclient bail
(a mené en 2131.html
).le maitre de garamond
(a mené en garamond.html
).Cette étude a été faite en examinant le journal d'un serveur Apache configuré ainsi :
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined CustomLog /web/logs/bortzmeyer/access.log combined
Le journal a été analysé par ce programme.
D'autres auteurs de sites Web ont déjà fait des constatations
similaires comme Michel
Fingerhut qui publie ces amusants exercices de style ou comme Romain Vimont. La
naïveté des utilisateurs à l'égard des moteurs de recherche a été très
bien montrée dans le petit film des Deux minutes du peuple, http://www.youtube.com/watch?v=82wnezAMKu0
.
Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)
Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)