L'Ina valorise 27 millions d'heures d'archives audiovisuelles sur Data.ina grâce à l'IA

  • ina-valorise-27-millions-heures-archives-audiovisuelles-data-ina-grace-ia.png

    Répartition du temps de parole entre les femmes et les hommes sur les chaînes de télévision généralistes entre le 1er janvier 2019 et le 30 juin 2024 (Data.ina)
  • L'Institut national de l'audiovisuel (Ina) a lancé Data.ina.fr, une plateforme inédite qui donne accès à 27 millions d’heures d’archives audiovisuelles françaises. La combinaison de l’IA et de la datavisualisation rend cette interface intuitive et facilite l’exploration des données pour une analyse des grandes tendances médiatiques.

    L'Institut national de l'audiovisuel (Ina) fait appel à l'intelligence artificielle pour exploiter et valoriser son data lake ! Depuis le 2 octobre dernier, l'Ina a lancé sa nouvelle plateforme, Data.ina.fr. Cette mine d’or numérique ouvre les portes de 27 millions d’heures d’archives audiovisuelles françaises captées à partir de 184 chaînes, rendant accessible une immense quantité de données sous la forme de graphiques et de cartes interactives pour décrypter les tendances médiatiques majeures. 

    Un nouvel éclairage grâce à la datavisualisation

    L'ensemble des contenus de Data.ina.fr est organisé en rubriques et thématiques. Grâce à la datavisualisation, l’interface a été pensée pour rendre l’expérience de recherche intuitive, facilitant ainsi l'exploration des archives et l’analyse médiatique à travers des cartes et graphiques interactifs. Par exemple, la plateforme permet de connaître la couverture médiatique d’un terme ou le temps de parole accordé entre les femmes et les hommes selon les chaînes.

    Lire aussi : "L’intelligence artificielle a sa place dans le monde des archives"

    Une combinaison d'outils d'IA

    sous-capot-data-ina-chaine-traitement-archivage-donnees.png

    Data.ina.fr est une nouveauté rendue possible grâce à la gestion documentaire du dépôt légal de l'audiovisuel français, conjuguée à l’IA. Avec l’appui des data-scientists de l'institut, ces heures de contenus TV et radio ont été stockées, archivées puis traitées sous un contrôle permanent des résultats pour garantir un maximum de transparence. 

    L’Ina a utilisé l’outil de machine learning Whisper (OpenAI) pour sa transcription, et TextRazor, un logiciel traitement automatique du langage naturel (TAL), pour l’extraction d’entités nommées. Quant à la classification sonore de ses données, ses équipes de recherche ont mis au point leur propre logiciel open source, inaSpeechSegmenter, basé sur un modèle à réseaux de neurones à convolution (CNN)
     

    À lire sur Archimag
    Les podcasts d'Archimag
    Êtes-vous prêt pour la réforme de la facturation électronique ? À moins de 460 jours du grand lancement, l’écosystème se prépare activement. Lors de la Journée de la Facturation Électronique qui s'est tenue le 13 mai dernier à Paris, Archimag Podcast est allé à la rencontre des acteurs incontournables de cette réforme : les Plateformes de dématérialisation partenaires, ou PDP. Ensemble, nous avons parlé de leur rôle, de leurs spécificités, de leur modèle économique et de leur secret de longévité. Dans cet épisode, nous vous dévoilons qui sont ces acteurs et ce qu'ils préparent pour accompagner la réforme.

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif