Intelligence artificielle : les articles Wikipedia seront-ils bientôt écrits par les robots de Google ?

Le 19/02/2018 - Par Clémence Jost
Selon Mohammad Saleh, co-auteur de l'article publié par l'Université de Cornell, "nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multi-documents de documents sources. (Pixabay/geralt)

A votre avis, quelle notice Wikipedia sera la plus lisible et pertinente : celle rédigée par un humain ou par les bots de Google ? 

Les contributeurs de Wikipedia pourraient-ils être bientôt remplacés par des robots ? C'est en tout cas l'un des sujets sur lequel travaille actuellement Google Brain, le laboratoire de recherche sur l'intelligence artificielle du géant du web.

D'après un article publié par des chercheurs de Google le 30 janvier dernier en prévision de l'ICLR 2018 (International Conference of Learning Representations qui se déroulera en avril prochain à Vancouver, au Canada) et disponible sur le site de la bibliothèque de l'Université de Cornell, ils ont en effet enseigné à leurs bots à générer des articles "de style Wikipedia". Plus précisément, ils leur ont appris à compiler des informations "pertinentes" trouvées sur les dix premiers sites web d'un sujet (en excluant le site de l'encyclopédie en ligne) afin d'en conserver ce que Google appelle un "résumé extractif".

Extraction, abstraction

L'élaboration automatique de ce résumé passe par deux phases : une phase d'extraction, puis une phase d'abstraction. Les paragraphes de chaque site retenus par le bot sont en effet d'abord classés avant d'être extraits pour s'ajouter les uns aux autres et créer un texte long qui sera ensuite codé et raccourci en 32 000 mots. Concrètement, l'algorithme de Google ne crée pas de texte original mais se contente d'agréger des phrases et de les raccourcir. 

Comparaison

Voici un exemple permettant de comparer un texte Wikipedia généré automatiquement (à gauche) à celui de la vraie page Wikipédia rédigée à la main (à droite) sur un même sujet : le site internet dédié à l'aviation Wings Over Kansas.

Fiabilité des sources

Moins synthétique et donc plus riche d'infos que la véritable page Wikipedia de Wings Over Kansas, la génération automatique de texte est également plutôt lisible, si l'on met de côté la rigidité de la structure des phrases, assez répétitive, et l'absence de majuscules. Néanmoins, il semble extrêmement prématuré d'imaginer pouvoir se passer d'un cerveau humain pour rédiger correctement la moindre notice de l'encyclopédie en ligne. Ne serait-ce que d'un point de vue du plaisir de lecture, mais aussi et surtout concernant la fiabilité des sources utilisées : alors que les fake news pullulent sur le web, il est toujours bon de rappeler que "information bien référencée" ne rime pas toujours avec "information vérifiée" ! 

Ce sujet vous intéresse? Retrouvez-en davantage dans les Magazines Archimag !

Au sommaire

- Enquête 2016 : la gouvernance de l’information, un impératif pour les organisations
- Où en est le PNB ?
- Case management : de la souplesse dans les process​​
- Architecture de l'information et compétences

DOSSIER L'intelligence artificielle : croquez dedans !​

L’intelligence artificielle est là. Elle apparaît aujourd’hui dans de nombreuses applications de notre vie professionnelle. Capable d’apprendre et de travailler sur des masses considérables de données, elle n’est qu’au début des avancées qu’elle permet.

Et aussi :
- L’ECM passe au big data
- Réussir le marketing de son service en 5 étapes
- Kentika automatise la veille presse de la Ville de Lyon
- L’université catholique de Louvain se convertit​ au learning center
- Les plateformes collaboratives : enjeux juridiques​
- Favoris : correcteurs orthographiques​​
- Les vies multiples d’Odile Contat
- François-Bernard Huyghe : « Le numérique a démocratisé la désinformation »
- L’innovation en mode « ouverture »
+ Archimag store et Archi...kitsch

  ou  Abonnez-vous

À lire sur Archimag