Intelligence artificielle : les articles Wikipedia seront-ils bientôt écrits par les robots de Google ?

Le 19/02/2018 - Par Clémence Jost
Selon Mohammad Saleh, co-auteur de l'article publié par l'Université de Cornell, "nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multi-documents de documents sources. (Pixabay/geralt)

A votre avis, quelle notice Wikipedia sera la plus lisible et pertinente : celle rédigée par un humain ou par les bots de Google ? 

Les contributeurs de Wikipedia pourraient-ils être bientôt remplacés par des robots ? C'est en tout cas l'un des sujets sur lequel travaille actuellement Google Brain, le laboratoire de recherche sur l'intelligence artificielle du géant du web.

D'après un article publié par des chercheurs de Google le 30 janvier dernier en prévision de l'ICLR 2018 (International Conference of Learning Representations qui se déroulera en avril prochain à Vancouver, au Canada) et disponible sur le site de la bibliothèque de l'Université de Cornell, ils ont en effet enseigné à leurs bots à générer des articles "de style Wikipedia". Plus précisément, ils leur ont appris à compiler des informations "pertinentes" trouvées sur les dix premiers sites web d'un sujet (en excluant le site de l'encyclopédie en ligne) afin d'en conserver ce que Google appelle un "résumé extractif".

Extraction, abstraction

L'élaboration automatique de ce résumé passe par deux phases : une phase d'extraction, puis une phase d'abstraction. Les paragraphes de chaque site retenus par le bot sont en effet d'abord classés avant d'être extraits pour s'ajouter les uns aux autres et créer un texte long qui sera ensuite codé et raccourci en 32 000 mots. Concrètement, l'algorithme de Google ne crée pas de texte original mais se contente d'agréger des phrases et de les raccourcir. 

Comparaison

Voici un exemple permettant de comparer un texte Wikipedia généré automatiquement (à gauche) à celui de la vraie page Wikipédia rédigée à la main (à droite) sur un même sujet : le site internet dédié à l'aviation Wings Over Kansas.

Fiabilité des sources

Moins synthétique et donc plus riche d'infos que la véritable page Wikipedia de Wings Over Kansas, la génération automatique de texte est également plutôt lisible, si l'on met de côté la rigidité de la structure des phrases, assez répétitive, et l'absence de majuscules. Néanmoins, il semble extrêmement prématuré d'imaginer pouvoir se passer d'un cerveau humain pour rédiger correctement la moindre notice de l'encyclopédie en ligne. Ne serait-ce que d'un point de vue du plaisir de lecture, mais aussi et surtout concernant la fiabilité des sources utilisées : alors que les fake news pullulent sur le web, il est toujours bon de rappeler que "information bien référencée" ne rime pas toujours avec "information vérifiée" ! 

Ce sujet vous intéresse? Retrouvez-en davantage dans les Magazines Archimag !

La recherche d’information est le lot quotidien des documentalistes et veilleurs. Dans leurs outils, de plus en plus d’intelligence artificielle. Pour quels bénéfices ?
  ou  Abonnez-vous

À lire sur Archimag