Article réservé aux abonnés Archimag.com

Bernard Normier : "le traitement automatique des langues est en passe de devenir mainstream"

  • 284 Bernard Normier.jpg

    "la plupart des plateformes logicielles dites d’e-réputation n’en sont pas" (Pixabay/geralt)
  • Bernard Normier (@bernardnormier) est consultant dans le domaine du traitement automatique des langues. Après avoir créé et dirigé plusieurs sociétés (Erli, Lexiquest, Lingway) et enseigné (université Paris 7, Ecole des bibliothécaires documentalistes), il est aujourd'hui vice-président de l'Aproged en charge de la valorisation des contenus.

    Vous êtes spécialiste des technologies dédiées au traitement automatique des langues. De quoi s'agit-il ?

    Il s'agit de technologies qui visent à analyser automatiquement le langage humain sous toutes ses formes : parlé et écrit. Cette discipline n'est pas franchement nouvelle puisqu'elle date des années 1950 avec les premiers travaux sur la traduction automatique après la fin de la seconde guerre mondiale.

    Quels enseignements le traitement automatique des langues apporte-t-il dans le domaine de l'e-réputation ?

    L'e-réputation est l'un des champs d'application du traitement automatique des langues. Mais attention : il faut distinguer l'e-notoriété et l'e-réputation. L'e-notoriété s'intéresse à la citation d'un nom ; l'e-réputation s'intéresse à la bonne ou mauvaise image reliée à un nom. Ces deux concepts sont différents : une marque ou une personnalité peuvent en effet avoir une très forte e-notoriété... mais avoir aussi une très mauvaise e-réputation.

    La plupart des plateformes logicielles dites d'e-réputation n'en sont pas. Elles permettent seulement de mesurer l'e-notoriété. Pour faire vraiment de l'e-réputation, il faut aller un cran plus en profondeur que le simple repérage de noms sur le web. Il faut entrer dans les données subjectives. Le fait de dénombrer la présence d'une société sur le net est une opération purement quantitative. Savoir si cette entreprise a bonne ou mauvaise réputation est une opération subjective. C'est à ce moment-là que les technologies de traitement automatique des langues interviennent.

    Vous avez publié l'an dernier un ouvrage consacré à l'analyse des avis sur les réseaux sociaux. Est-il possible, à ce jour, d'analyser de façon automatique et fiable tout ce qui se dit sur le web ?

    Dans certains cas, cela est possible ; dans d'autres cas, ça n'est pas possible. L'analyse automatique de langues repose sur une série de cinq critères : complexité des textes analysés, périmètre des sources analysées, diversité des formats techniques pris en considération (PDF, Word, Html...), extraction ou recherche, taux d'erreur acceptable. Si vous devez analyser un corpus homogène, écrit dans un français standard, et situé dans un corpus restreint, alors le traitement automatique des langues fonctionne. En revanche, si vous voulez analyser tout le web dans tous les formats et dans tous les niveaux de langue, alors ça ne marche pas.

    Le monde de la politique et les instituts de sondage s'intéressent-ils à l'e-réputation ?

    Les partis politiques ont recours à des 

    community managers pour faire avancer leurs idées et tenter d'influencer les gens. Quant aux instituts de sondage, ils furent d'abord réticents car ils utilisent leurs propres méthodologies depuis cinquante ans : panel représentatif, réponses à des questions posées, extrapolation... L'approche e-réputation est très différente puisqu'elle observe ce qui se passe dans un univers beaucoup plus large et n'utilise pas d'échantillon. Cette méthode vient compléter ou contre-balancer ce que disent les sondages. Après avoir rejeté l'e-réputation, les instituts de sondage s'y intéressent désormais.

    L'e-réputation casse la frontière entre le "quanti" et le "quali" traditionnellement utilisés dans les sondages. Elle cherche à faire du "quali" sur de grosses quantités.

    En l'an 2000, vous déclariez à Archimag "vouloir mettre de la linguistique partout où elle est utile". Quinze ans plus tard, où en sommes-nous ?

    Aujourd'hui, même si elles sont encore imparfaites et que de nombreux travaux en recherche et développement restent à faire, les technologies de traitement automatique des langues sont en passe de devenir"mainstream" : elles sont devenues quasiment banales. Mais il faut distinguer deux cas de figure. Ces technologies ont été introduites dans les produits destinés au grand public : application SIRI pour la commande vocale ou la traduction automatique avec Google Translate par exemple. Le grand public utilise ces technologies sans même s'en rendre compte.

    Dans le contexte professionnel, en revanche, il y a une plus grande exigence de qualité, ce qui suppose des méthodes et outils différents. En l'espace de quinze ans, les technologies de traitement automatique des langues sont donc devenues une réalité. Ce qui était de la science fiction il y a quinze ans ne l'est plus. Et ce n'est qu'un début...

    Pensez-vous, à l'instar du philosophe Bernard Stiegler, que "le big data est la fin de la pensée" ?

    Je suis très attentif à ce courant de pensée. Bernard Stiegler dit cela mais Bill Gates et Stephan Hawkings pensent à peu près la même chose. Pour eux, l'intelligence artificielle rendra encore des services considérables pendant une dizaine d'années. Mais la super intelligence artificielle que l'on commence à voir apparaître, notamment autour du big data, pourrait être non pas la mort de la pensée mais la mort de l'humanité !

    Nous pouvons constater depuis quelques mois que des personnalités comme Bill Gates, qui a une vraie vision de ce qu'est l'informatique, nous avertissent : il ne faut pas aller trop loin. Je pense que nous devons écouter cet avertissement. Aujourd'hui, nous sommes face à des systèmes qui raisonnent et qui comprennent les langues. Il faut relire Asimov !

    Dans les années 1970, vous avez participé au développement du Minitel. Quelles leçons avez-vous tiré de cette expérience souvent présentée comme un échec ?

    Contrairement à ce qui se dit parfois, le Minitel n'est pas un échec. Au contraire, cela a été un énorme succès. La France a été le premier pays à mettre l'outil informatique entre les mains du grand public à travers le Minitel. Aucun autre pays dans le monde n'avait fait cela auparavant. Et cela a été un succès phénoménal pendant au moins une décennie. 

    Ensuite, malheureusement, France Telecom a raté le virage du Minitel au PC parce que ce n'était pas dans son ADN. Mais la télématique était clairement une préfiguration du web. En tant que terminal, le Minitel était un engin assez pauvre mais une quantité de choses ont été inventées notamment dans le domaine du traitement automatique des langues. C'était la première fois qu'on voyait un dialogue homme / machine mis à la portée de Monsieur Tout-le-monde.

    Dans le cadre de vos activités, vous menez un important travail de veille. Quels outils utilisez-vous et quelles sources suivez-vous pour trouver l'information utile à votre réflexion ?

    Je veille par la pratique ! Dans le cadre de mon activité de consultant, je mène des missions qui m'amènent à faire une veille en mode projet : état de l'offre, technologies, etc... Je passe par ailleurs du temps sur les forums professionnels. En revanche, j'utilise peu les réseaux sociaux à l'exception de Twitter qui me sert de compte d'écoute.

    Vous êtes également vice-président de l'Aproged (Association des Professionnels pour l'Economie numérique). Quels sont les chantiers en cours ?

    Une fusion est en cours avec le GFII (Groupement Français de l'Industrie de l'Information) qui va bouleverser les différents groupes de travail. La nouvelle entité devrait rassembler environ 200 entreprises. Les modalités de mise en place de ce regroupement sont en cours d'étude. 

    (1) Sentiment analysis et opinion mining. Bernard Normier. Editions Vitrac. 2014.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

    Au sommaire ce mois-ci

    - La gouvernance de l’information : élément moteur de la transition numérique
    - Etre archiviste : une (r)évolution permanente !
    - Rendre un portail de bibliothèque accessible à tous
    - Les bonnes pratiques face à l’afflux de mails

    DOSSIER : E-administration des villes et des champs

    Les Français plébiscitent l’e-administration. En témoignent les 14 millions de contribuables qui déclarent leurs impôts via le web. Le projet France Connect attribuera bientôt à chaque Français un identifiant unique pour se connecter à l’ensemble des services publics. 

    Et aussi :
    - Big Brother is reading you !
    - L’intégrateur, artisan de votre projet open source
    - Vous aussi, suivez un Mooc en gestion de l’information !
    - L’open data en collectivités locales : enjeux juridiques
    - Favoris : outils LinkedIn
    - Lucille Gonthier, documentaliste à la téléChoisir un tiers-archiveur physique ou électronique
    - Bernard Normier : « le traitement automatique des langues est en passe de devenir mainstream »
    - Nos données : objets de convoitises connectées​ 
    + Archimag store et Archi...kitsch

    Acheter ce numéro  ou  Abonnez-vous

    À lire sur Archimag

    Le Mag

    Tout Archimag, à partir de 9,50 €
    tous les mois.

    Le chiffre du jour

    76
    des échanges se font par mail au sein des organisations. L'usage d'une plageforme digitale permet de désengorger la boîte mail.

    Recevez l'essentiel de l'actu !