Une réalisation du laboratoire LACITO-CNRS

Depuis 1976, le LACITO explore la diversité des langues et des civilisations à tradition orale. Le laboratoire a lancé en 1995 un projet d'archivage des données orales recueillies. Ce projet a adopté en 2012 le nom "collection Pangloss".

Une archive ouverte pour la sauvegarde du patrimoine linguistique mondial

La collection Pangloss rassemble des enregistrements de langues rares, souvent peu documentées et en danger d'extinction. Les documents offerts ici à la consultation et au téléchargement (y compris un téléchargement par lots) sont le fruit du travail patient de linguistes professionnels qui œuvrent à la collecte, l’étude et la sauvegarde du patrimoine linguistique mondial. Dans le cas le plus typique, la langue est étudiée sur le terrain, là où elle coule de source : dans son contexte géographique et social. La collaboration entre linguiste et consultants (« informateurs », « locuteurs », « enseignants ») s’étend souvent sur de nombreuses années, et constitue le fondement du travail. (Ainsi, Georges Dumézil désignait le dernier locuteur de la langue oubykh, dont on peut écouter la voix dans la collection Pangloss, comme "mon maître et ami Tevfik Esenç".)

La collection Pangloss est le fruit de plus de vingt ans de travaux de chercheurs et d'ingénieurs spécialisés du CNRS. Elle s'agrandit au fil des ans, grâce aux contributions provenant de laboratoires français de linguistique et d'anthropologie et de leurs partenaires dans de nombreux lieux dans le monde.

Combien de langues sont représentées sur Pangloss ?

En 2001, la collection Pangloss comptait une centaine de documents (tous transcrits) dans une vingtaine de langues. En 2020, la collection Pangloss dépassait 3600 enregistrements en 170 langues (environ 780 heures d'écoute au total). Environ la moitié des enregistrements (1530 sur 3600) sont transcrits et annotés, permettant à tous les auditeurs de comprendre ce qu'ils écoutent.

Afin d'encourager les dépôts, la collection Pangloss accepte les documents audio et vidéo ne disposant pas encore d'une transcription. La proportion de documents transcrits s'établit autour de 30%.

Intégration dans les réseaux internationaux

La collection Pangloss est membre du réseau international DELAMAN, Digital Endangered Languages and Musics Archives Network. Elle est hébergée par la plateforme Cocoon, Collection de Corpus Oraux Numériques, qui participe au réseau OLAC, Open Language Archive Community.

Un maillon d'un Internet libre et décentralisé

En cohérence avec son engagement pour une Science ouverte, la collection Pangloss suit les principes fondamentaux que sont la transparence, l’absence d’intrusion dans la vie privée des utilisateurs, et la libre orientation de l’attention.

  • Transparence et respect de la vie privée : le site n’utilise pas de cookies et n'enregistre pas l’activité de ses visiteurs. Les choix effectués au fil de la visite ne fournissent pas matière à un profilage (commercial, politique, etc.). Nos outils, comme nos données, sont ouverts et en libre accès (le code source est disponible en ligne). Les données sont hébergées sur les serveurs de la Très Grande Infrastructure de Recherche Huma-Num, et leur conservation pérenne est assurée par les Archives de France.
  • Libre orientation de l'attention : hormis une mise en avant de quelques ressources en page d’accueil, l’interface est neutre, et permet de choisir sur la carte la région qui vous intéresse et le type de documents qu’on souhaite consulter. Dans le même esprit, le mode « pro », destiné aux linguistes et informaticiens, est accessible à qui veut (bouton en haut à droite), sans accréditation ni identification. 

Faciliter les collaborations interdisciplinaires : Sciences Humaines et Sociales et Traitement Automatique des Langues

L'interface « pro » du site Pangloss est conçue de façon à faciliter l'accès aux ressources non seulement aux linguistes mais aussi aux spécialistes de Traitement Automatique de la Parole. En effet, pour un informaticien qui s'intéresse aux langues rares, se procurer des données peut s'avérer un parcours du combattant : identifier un jeu de données qui présente les caractéristiques requises, obtenir l'accès, effectuer le téléchargement, réaliser une conversion de format (prétraitement)... Or les collaborations entre linguistes et TAListes comportent d'importants enjeux. (Voir notamment le site du Groupement de recherche LIFT, Linguistique informatique, formelle et de terrain.) À titre d'exemple, des données de la collection Pangloss sont utilisées dans des expériences en vue de l'utilisation d'outils de transcription automatique pour la linguistique de terrain.

Nos outils, comme nos données, sont ouverts et en libre accès (le code source est disponible). Le site est en outre conçu de façon à permettre un téléchargement des données par lots. N'hésitez pas à nous faire part de vos souhaits et recommandations, et de collaborations que vous souhaiteriez nouer. 

Références bibliographiques (en libre accès)

Vasile, Aurelia, Séverine Guillaume, Mourad Aouini & Alexis Michaud. 2020. Le Digital Object Identifier, une impérieuse nécessité ? L’exemple de l’attribution de DOI à la Collection Pangloss, archive ouverte de langues en danger. I2D - Information, données & documents.

Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées : Lexica, les dictionnaires de la collection Pangloss. In 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble.

Michaud, Alexis, Séverine Guillaume, Guillaume Jacques, Đăng-Khoa Mạc, Michel Jacobson, Thu Hà Phạm & Matthew Deo. 2016. Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo. In Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 1 : Journées d’Etude de la Parole, vol. 1, 155–163. Paris: Association Francophone de la Communication Parlée.

Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135.

Michailovsky, Boyd, Michel Jacobson. 2005. Archivage de patrimoine linguistique : langues menacées, tradition orale et normes numériques. Communication au colloque « Société de l’Information », ENS Lyon, 19-21 mai 2005.

Jacobson, Michel. 2004. Corpus oraux en linguistique de terrain. Traitement automatique des langues 45. 63–88.

Jacobson, Michel, Boyd Michailovsky & John B. Lowe. 2001. Linguistic documents synchronizing sound and text. Speech Communication 33. 79–96.