Projet ANR 2007 AVISON

Présentation

AVISON est un projet financé par l'Agence Nationale de la Recherche, dans le cadre du programe CONTINT 2008. Il vise au développement d'une plateforme d'indexation d'une grande base de documents audiovisuels multilingues destinée à la formation des chirurgiens. Son objectif est d'offrir à l'utilisateur des représentations enrichies et actualisées qui doivent permettre une rééditorialisation guidée par les besoins de l'utilisateur.

Contexte en enjeux scientifiques

AVISON adresse deux problématiques scientifiques complémentaires : (1) comment les systèmes d'extraction du contenu linguistique peuvent produire des réalisations intermédiaires efficaces tout en préservant la richesse et la diversité des contenus et (2) comment ces systèmes peuvent s'autoadapter aux évolutions des flux entrants.

Objectifs

AVISON doit conduire àune valorisation de la base IRCAD en l'ouvrant aux applications pédagogiques. Les avancées scientifiques attendues devraient améliorer radicalement l'utilisabilité des systèmes d'extraction des contenus linguistiques en valorisant l'interaction avec l'utilisateur, à la fois en termes d'accès à l'information et en termes d'actualisation des systèmes d'extraction des contenus.

Axes de recherches

Les verrous scientifiques du projet sont liés à la diversité de fond et de forme des contenus, à leur évolution permanente dans un domaine très spécialisé. Dans ce contexte d'indexation automatique d'un fond documentaire multilingue, évolutif, dans un domaine de spécialité, trois axes majeurs sont développés :

Adaptation automatique et semi-automatique des systèmes d'extraction et d'analyse des contenus : augmentation lexicale, modèles de langages Ad-Hocs
Indexation multilingue, traduction dans un domaine de spécialité
Indexation sur transcription automatique : mesures de confiance, mesures d'indexabilités

Présentation détaillée

L'amélioration qualitative et quantitative des moyens de stockage a permis, ces dernières années, d'accumuler des volumes importants de documents audiovisuels dans des domaines très variés. Plus que la collecte des données elle-même, l'automatisation des processus de structuration et d'indexation des documents est un point critique du traitement des bases. Cet aspect a été largement exploré dans le domaine de la catégorisation et de la recherche documentaire, et la technologie permet maintenant d'offrir aux utilisateurs un accès relativement convivial et efficace aux bases de documents écrits. Par contre, le traitement de documents audiovisuels rencontre des difficultés qui sont liées àla nature et àla diversité des supports (son, image, vidéos, texte, etc.). En particulier, le type de document (reportage, interview, document technique, etc.), la variété des conditions d'acquisition, la dépendance éventuelle du contenu au contexte dans lequel il a été produit (thématique, géographique, politique, etc.) augmentent considérablement la difficulté du traitement automatique. La robustesse des techniques mises en oeuvre et leur capacité às'adapter àdes situations nouvelles sont des points clefs pour leur implantation dans des applications réelles. L'objectif du projet AVI-SON est la conception d'une plate-forme d'archivage et d'indexation automatique de documents audiovisuels. L'environnement développé devra intégrer des méthodes capables d'extraire et d'enrichir l'information caractérisant les contenus, de structurer l'ensemble des documents et d'accéder d'une façon simple et conviviale àla base de données. L'extraction de contenu sera essentiellement fondée sur un système de transcription automatique de la parole qui produira, pour chaque document, un descripteur incluant des informations de haut niveau (type de document, locuteur, ...) et une transcription utilisable par un moteur d'indexation. Le système développé devra notamment permettre : de segmenter et de classifier les documents en zones et en classes homogènes (type de parole, locuteur, environnement acoustique, etc.), d'identifier et de suivre des locuteurs : le suivi de locuteur doit permettre d'extraire de la base l'ensemble des documents dans lesquels un locuteur particulier intervient, de transcrire automatiquement des documents ; au del àde la tâche de transcription elle-même, la diversité des conditions acoustiques et linguistiques présente une difficulté et un intérêt majeur pour les systèmes de reconnaissance qui sont fondés sur des statistiques bayésiennes. L'accent sera mis sur la plasticité des systèmes qui devront s'adapter automatiquement ou semi-automatiquement àla diversité et à l'évolution des données entrantes, àla fois au niveau acoustique et linguistique. Les méthodes développées seront mises en oeuvre pour la gestion et la diffusion d'une base d'archive médical utilisée par l'Institut de Recherche contre les Cancers de l'Appareil Digestif (IRCAD). Il s'agit d'une base de documents utilisée pour la formation des chirurgiens. On y trouve des avis d'experts, des interventions chirurgicales filmées, des cours magistraux, etc. Ces sources présentent une diversité très importante de conditions enregistrement, de types de parole (spontanée, parole lue, dialogue, etc.), ce qui représente un intérêt majeur àla fois en termes scientifiques et pédagogiques. L'IRCAD a collecté aujourd'hui plus de 3000 heures d'enregistrements et continue d'enrichir la base au rythme de 1800 heures par an, chiffre qui devrait encore augmenter jusqu' à300 heures par an dans les années àvenir. La taille de cette base, la diversité et la richesse des documents qu'elle contient permettent d'envisager une évaluation en grandeur réelle de la plate-forme AVI-SON. Les traitements acoustiques seront réalisés avec le toolkit du LIA pour le traitement de la parole, qui couvre l'ensemble des fonctionnalités nécessaires et qui a été validé dans diverses campagnes d'évaluation (ESTER, NIST). Les tâches d'indexation et l'intégration des différents modules à l'architecture globale de la plate-forme seront réalisées par la société Xtensive. L'IRCAD fournira la base de documents et prendra en charge la phase de validation du système par ses utilisateurs finaux.

Partenaires

Le consortium est constitué de 3 partenaires complémentaires. Le laboratoire informatique de l'université d'Avignon et des Pays de Vaucluse (LIA) est le responsable scientifique du projet. Il coordonne le projet et à la charge des modules d'extraction et d'analyse des contenus. Xtensive technologies (Xtensive Technologies)est intégrateur. Il est, par ailleurs, chargé du module d'indexation automatique. L'Institut de Recherche contre les Cancers de l'appareil Digestif (IRCAD)est fournisseur de données. Il est le gestionnaire du fond documentaire et chargé de l'interface avec les producteurs de contenus d'une part et les utilisateurs d'autre part.

Publications produites dans le cadre du projet

Le projet AVISON a été présenté à la conférence JEP/TALN 2008 qui a eu lieu à Avignon du 9 au 13 Juin 2008, puis à la MAnifestation des jeunes chercheurs en Sciences et technologies de l'Information et de la Communication (Majecstic), Avignon 2009

[1]

Raphael Rubino and Georges Linarès. A Multi-view Approach for Term Translation Spotting CICLing Conference on Intelligent Text Processing and Computational Linguistics, Tokyo, JP, 2011.

[2]

Stanislas Oger, Vladimir Popescu, and Georges Linarès. Combination of Probabilistic and Possibilistic Language Models In ISCA, editor, International Conference on Speech Communication and Technology, Interspeech, Tokyo, JP, 2010. ISCA.

[3]

Benjamin Lecouteux, Raphael Rubino and Georges Linarès. Improving Back-off models with bag of Words and hollow-grams In ISCA, editor, International Conference on Speech Communication and Technology, Interspeech, Tokyo, JP, 2010. ISCA.

[4]

Gregory Senay, Georges Linarès, Benjamin Lecouteux, Stanislas Oger et Thierry Michel Décodage intéractif de la parole, 2010, Journées d'Etude sur la Parole, JEP 2010, Mons, Belgique, 2010, AFCP.

[5]

Stanislas Oger, Vladimir Popescu et Georges Linarè. Modèles de langages probabilistes et possibilites basés sur le WEB Journées d'Etude sur la Parole, JEP 2010, Mons, Belgique, 2010, AFCP.

[6]

Stanislas Oger, Vladimir Popescu, and Georges Linarès. Probabilistic and possibilistic language models based on the world wide web. In ISCA, editor, International Conference on Speech Communication and Technology, Interspeech, Brighton, UK, 2009. ISCA.

[7]

Stanislas Oger, Vladimir Popescu, and Georges Linarès. Using the word wide web for learning new words in continuous speech recognition tasks : two case studies. In Speech and Computer SPECOM, Saint Petersbourg, Russia, 2009.

[8]

Benjamin Lecouteux, Georges Linarès, and Benoit Favre. Combined low level and high level features for Out-Of-Vocabulary Word detection. In ISCA InterSpeech , Brighton, UK, 2009.

[9]

Benjamin Lecouteux, Georges Linarès, and Benoit Favre. Détection des mots hors vocabulaires par combinaison de mesures de confiances haut et bas niveaux. In MajecSTIC, Avignon, France, 2009.

[10]

Raphael Rubino. Exploring context variation and lexicon coverage in projection-based approach for term-translation. In RANLP, Bulgaria, 2009.

[11]

Stanislas Oger, Georges Linarès, F. Béchet, and Pascal Nocera. On-demand new word learning using the world wide web. In IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2008, Las Vegas, USA.

[12]

Stanislas Oger, Georges Linarès, and F. Béchet. Local methods for on-demand out-of-vocabulary word retrieval. In International conference on Language, Resources and Evaluation (LREC), Marakech, Maroc, 2008.

[13]

Lecouteux Benjamin and Linarès Georges. Using prompts to produce quality corpus for training automatic speech recognition systems. In MELECON, IEEE, 2008.

[14]

Stanislas Oger, Vladimir Popescu and Georges Linarès, Web-based local methods for on-demand out-of-vocabulary word retrieval, Technical Report, LIA 2009

[15]

S. Oger, G. Linarès, F. Béchet, Nocera Pascal Enrichissement dynamique du vocabulaire à partir du Web, 2008 Actes des Journèes d'Etude sur la Parole, JEP 2008

Projet AVISON