Paroles, Images et Textes des Savoirs

Prototype expérimental pour l'exploration de corpus audiovisuels et textuels

Paroles, Images et Textes des Savoirs (P.I.T.S) est une plateforme d’extraction automatique de métadonnées et d’exploration innovante des contenus audiovisuels. Portant sur le site de Canal-U, ce projet d’expérimentation est mené dans le cadre d’un partenariat entre la FMSH et les équipes de recherche d’Orange.

Le projet P.I.T.S éprouve de nouveaux outils d’enrichissement automatique et de valorisation des contenus de Canal-U afin de proposer aux visiteurs de la plateforme des outils innovants de recherche et de consultation des ressources audiovisuelles.

Transcription de la parole, identification des locuteurs, extraction temporelle des mots-clés, structuration thématique... les outils d’analyse du contenu développés par les équipes de recherche d’Orange offrent de nouvelles modalités d’accès au contenu scientifique. Ils transforment la linéarité inhérente au contenu audiovisuel pour permettre au visiteur de balayer du regard en quelques secondes les plans significatifs.

En 2016, Canal-U a sélectionné, parmi ses 25 000 vidéos, un premier corpus de plus de 800 heures à partir desquelles Orange a développé son prototype, à présent accessible à tous.

Corpus et expérimentations

La FMSH pilote la composition des corpus de vidéos du prototype et les expérimentations permettant de valider l’adhésion des utilisateurs aux nouvelles formes de navigation dans des collections audiovisuelles développées durant le projet. Cette activité recouvre plusieurs volets :

  • Sélection de contenus parmi les 13 chaînes participant au projet. Le projet bénéficie notamment de la production audiovisuelle de la FMSH.
  • Export des métadonnées associées aux documents vidéo afin d’améliorer la qualité des traitements automatiques et de faciliter le travail d’injection de nouveaux corpus qui était auparavant réalisé manuellement.
  • Définition des protocoles d’expérimentation et des profils utilisateurs.
  • Réalisation des expérimentations et restitution des résultats.

Le prototype est amélioré entre chaque phase d’expérimentation.

Extraction automatique de métadonnées

Orange a développé des outils permettant d’analyser les contenus de la plateforme Canal-U à l’aide de technologies de traitement automatique du langage. Ces outils automatiques peuvent s’appuyer sur les métadonnées éditoriales pour améliorer la précision des informations extraites :

  • Transcription de la parole : les contenus audio sont convertis en texte. Le principal enjeu de cet outil est de retranscrire correctement des discours scientifiques au vocabulaire très spécialisé.
  • Segmentation et identification des locuteurs : les vidéos sont segmentées par tours de parole, les segments correspondant à un même locuteur sont regroupés et les locuteurs sont identifiés. Leur identité et leur rôle – présentateur, intervenant, public – peuvent alors être indexés.
  • Extraction temporelle de mots-clés : outre l’identification des entités nommées – personnes, lieux, organisations – une analyse morpho-syntaxique couplée à un mécanisme de pondération permet d’extraire les expressions sémantiquement riches.
  • Association de mots-clés : des calculs statistiques permettent d’établir des liens entre les expressions détectées, en fonction de leur co-occurrence dans les contenus.

Interface d'exploration

L’application web développée par Orange permet d’exploiter finement les métadonnées extraites des contenus audiovisuels. Les vidéos deviennent ainsi accessibles selon plusieurs modalités :

  • Le moteur de recherche : permet de chercher parmi les métadonnées selon différents critères : chaîne, thématique, type, locuteur, mot-clé.
  • Les métadonnées : deviennent des éléments de navigation dans le corpus : informations éditoriales, locuteurs, mots-clés, tour de parole, transcriptions textuelles.
  • Le player circulaire : entoure les vidéos d’une timeline circulaire segmentée en fonction des tours de parole et signale les passages relatifs aux mots-clés recherchés.
  • Les fleurs de mots : permettent une exploration originale d’un corpus thématique par association de mots-clés.

 

Le prototype est disponible à l'adresse suivante : http://pits-fmsh.orange-labs.fr/canalu

 

Nos partenaires

Orange
Orange est l’un des principaux opérateurs de télécommunications dans le monde, avec un chiffre d’affaires de 40,9 milliards d’euros en 2016 et 153 000 salariés au 30 juin 2017, dont 94 000 en France. Présent dans 29 pays, le Groupe servait 269 millions de clients dans le monde au 30 juin 2017, dont 207 millions de clients mobile et 19 millions de clients haut débit fixe. Orange est également l’un des leaders mondiaux des services de télécommunications aux entreprises multinationales sous la marque Orange Business Services.
Près de 650 personnes sont dédiées aux activités de recherche d’Orange et se mobilisent pour inventer un futur dans lequel l’humain sera au centre de la révolution digitale, pour identifier les ruptures technologiques et y préparer le Groupe.


Canal-U
Canal-U est la plateforme audiovisuelle de l’enseignement supérieur et de la recherche. Elle propose plus de 25 000 ressources audiovisuelles pédagogiques et scientifiques à l’attention des enseignants, chercheurs, étudiants et, plus largement, du grand public. Projet lancé en 2001 par le Ministère de l’Enseignement Supérieur, de la Recherche et l’innovation, avec l’appui de la communauté universitaire et scientifique, Canal-U est développé par la FMSH en relation avec le Ministère.

 

 

Les activités

Vidéo

Lancement du prototype P.I.T.S.

Exploration de corpus audiovisuels et textuels
En savoir plus
Publié le 13 novembre 2017