Intelligence artificielle : les articles Wikipedia seront-ils bientôt écrits par les robots de Google ?

  • ia_wikigoogle.jpg

    intelligence-artificielle
    Selon Mohammad Saleh, co-auteur de l'article publié par l'Université de Cornell, "nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multi-documents de documents sources. (Pixabay/geralt)
  • A votre avis, quelle notice Wikipedia sera la plus lisible et pertinente : celle rédigée par un humain ou par les bots de Google ? 

    Les contributeurs de Wikipedia pourraient-ils être bientôt remplacés par des robots ? C'est en tout cas l'un des sujets sur lequel travaille actuellement Google Brain, le laboratoire de recherche sur l'intelligence artificielle du géant du web.

    D'après un article publié par des chercheurs de Google le 30 janvier dernier en prévision de l'ICLR 2018 (International Conference of Learning Representations qui se déroulera en avril prochain à Vancouver, au Canada) et disponible sur le site de la bibliothèque de l'Université de Cornell, ils ont en effet enseigné à leurs bots à générer des articles "de style Wikipedia". Plus précisément, ils leur ont appris à compiler des informations "pertinentes" trouvées sur les dix premiers sites web d'un sujet (en excluant le site de l'encyclopédie en ligne) afin d'en conserver ce que Google appelle un "résumé extractif".

    Extraction, abstraction

    L'élaboration automatique de ce résumé passe par deux phases : une phase d'extraction, puis une phase d'abstraction. Les paragraphes de chaque site retenus par le bot sont en effet d'abord classés avant d'être extraits pour s'ajouter les uns aux autres et créer un texte long qui sera ensuite codé et raccourci en 32 000 mots. Concrètement, l'algorithme de Google ne crée pas de texte original mais se contente d'agréger des phrases et de les raccourcir. 

    Comparaison

    Voici un exemple permettant de comparer un texte Wikipedia généré automatiquement (à gauche) à celui de la vraie page Wikipédia rédigée à la main (à droite) sur un même sujet : le site internet dédié à l'aviation Wings Over Kansas.

    google-wikipedia

    Fiabilité des sources

    Moins synthétique et donc plus riche d'infos que la véritable page Wikipedia de Wings Over Kansas, la génération automatique de texte est également plutôt lisible, si l'on met de côté la rigidité de la structure des phrases, assez répétitive, et l'absence de majuscules. Néanmoins, il semble extrêmement prématuré d'imaginer pouvoir se passer d'un cerveau humain pour rédiger correctement la moindre notice de l'encyclopédie en ligne. Ne serait-ce que d'un point de vue du plaisir de lecture, mais aussi et surtout concernant la fiabilité des sources utilisées : alors que les fake news pullulent sur le web, il est toujours bon de rappeler que "information bien référencée" ne rime pas toujours avec "information vérifiée" ! 

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.