Les moteurs de recherches, technologie et enjeux (séminaire du 14 mars 2008)

François Bourdoncle, co-fondateur de la société Exalead, a présenté l’anatomie d’un moteur de recherche, qui comprend trois sous-fonctions : le rapatriement des pages à collecter sur Internet, leur indexation, et le calcul et la présentation des réponses aux questions. Le premier moteur Altavista, tenait dans une grosse machine et indexait 100 millions de pages. Les moteurs modernes utilisent des milliers de PCs et indexent des dizaines de milliards de pages multilingues et bientôt multimedia. La collecte des pages exploite la structure particulière du graphe des pages Web en « nœud papillon », avec les grands portails comme centres d’aiguillage. L’indexation repose sur un codage efficace des listes inverses mots vers documents. F. Bourdoncle a expliqué les algorithmes de construction et de consultation de l’index, ainsi que le calcul de l’ordre des pages dans la réponse qui a construit la suprématie de Google. Il a enfin discuté les immenses enjeux économiques associés.