
18 Novembre 2020 – Événement en ligne – à partir de 18h30
Bonjour à tous!
Nous somme heureux de vous convier à l’édition du mois de Novembre du meetup « Big Data et Machine Learning », cette fois, sur le thème de l’occitan. Cette session aura lieu le 18 Novembre à partir de 18h30.
L’occitan est une langue romane du Sud de l’Europe faisant partie des langues peu dotées (en ressources numériques, mais aussi en moyen humains et financiers). Elle a également la particularité de comporter plusieurs variétés dialectales. Enfin, elle est parlée sur un territoire où elle est minoritaire et où les noms de rues, de personnes, sont souvent dans la langue officielle (français ou espagnol).
Le Congrès et Elhuyar, lorsqu’ils ont voulu construire une synthèse vocale pour la langue occitane, ont donc dû faire face à plusieurs défis :
– L’absence de données d’entraînement pour l’IA, et le peu de moyens humains et financiers pour en construire
– La gestion de la variété dialectale
– La prise en compte de la prononciation des noms propres français (il faut qu’un GPS prononce correctement, par exemple, la rue « Louis Pasteur »)
Comment ont-ils réussi à répondre à ces trois exigences en conjuguant linguistique, traitement automatique de la langue et machine learning ? C’est ce que nous vous proposons de découvrir lors de ce meetup.
Aure Séguier (1985) est responsable de projets et développeuse TAL (Traitement Automatique de la Langue) au sein du Congrès permanent de la langue occitane. Titulaire d’un Master 1 linguistique et informatique, d’une licence d’occitan et d’un Master de psychologie cognitive, elle a d’abord été webmaster et journaliste web. Son travail au sein du Congrès, qui propose des outils numériques liés à la langue occitane, l’a amenée peu à peu à se tourner vers le domaine du TAL pour l’occitan. Elle a travaillé à la création de ressources et d’outils variés : lexiques TEI, corpus, correcteurs orthographiques, claviers prédictifs, traducteurs automatiques, synthèse et reconnaissance vocale… A ses heures perdues, elle est également auteur, comédienne et contributrice à Wikidata et Wikimedia Commons.
Bonne journée à tous !