Des outils pour faciliter les recherches en linguistique et en Traitement Automatique des Langues

La collection Pangloss est une ressource pour la recherche, et offre divers outils pour la recherche. Elle est conçue de façon à faciliter l'utilisation des ressources, par les spécialistes de Traitement Automatique des Langues aussi bien que par les linguistes.

Nos scripts et outils sont librement accessibles, et le code source est disponible depuis Github et Gitlab.

Pour la consultation et l'exploitation des corpus :

Identifiants des ressources : DOI et autres systèmes

Chaque ressource de la Collection Pangloss possède son propre identifiant DOI (Digital Object Identifier). Le DOI est un lien actionnable : il permet d'accéder en un clic à la ressource, comme on peut s'en convaincre en cliquant sur le lien ci-dessous :
https://doi.org/10.24397/pangloss-0005695
L'identifiant DOI permet en outre d'accéder à une phrase précise dans un texte (ou à un mot dans une liste de mots : bref, le premier niveau de granularité du document). Ainsi, pour accéder à la phrase 29 du texte en question, on peut spécifier "S29" (préfixé d'un dièse) dans le lien internet : https://doi.org/10.24397/pangloss-0005695#S29
Cela permet de citer une phrase précise dans une publication, et ainsi, de fluidifier le trajet entre données et publications.

Le choix du DOI tient à sa notoriété auprès des chercheurs. La collection Pangloss, grâce à l’adoption de standards descriptifs et technologiques, répondait aux exigences des données FAIR avant même que ce concept n’occupe l’espace discursif de la Science ouverte : des données Faciles à trouver, Accessibles, Interopérables, Réutilisables. Pourtant, ce qui est facile à trouver pour certains utilisateurs ne l’est pas nécessairement pour d’autres. La problématique de l’identification de ressources numériques, capitale dans le monde de l’Information scientifique et technique d’aujourd’hui, se pose différemment selon les catégories d’utilisateurs, et force est de constater qu’il n’existe pas aujourd’hui un unique système d’identifiants qui satisfasse à tous les besoins. Dans le monde des identifiants, le DOI a acquis une notoriété auprès des chercheurs qui lui vaut à l’heure actuelle de faire autorité dans le système international d'identification des publications et données scientifiques. Pour plus de détails, on se réfèrera à un article qui détaille les motifs du choix d’attribuer un Digital Object Identifier (DOI) à chaque document de la Collection Pangloss, et présente les étapes de la mise en œuvre, dans leurs dimensions méthodologiques et techniques.

Comment citer une ressource, ou un corpus, dans une publication

La citabilité des ressources primaires est une problématique centrale pour la bonne intégration des dimensions complémentaires que sont les données, les outils et les publications. Pour les chercheuses et chercheurs, des références aux données établissent un lien précis, et fluidifie le trajet entre données et publications. En outre, le fait que les ressources soient citées revêt une importance certaine pour les personnes qui ont participé (à divers titres) à leur constitution. Cela constitue une reconnaissance de la part qu'ils ont dans l'entreprise de documentation des langues, et dans les progrès de la recherche scientifique qui s'appuie sur ces ressources.

Un des avantages des identifiants DOI déployés pour tous les documents de la collection Pangloss est qu'ils permettent d'importer les métadonnées (la fiche du catalogue du document concerné) dans un outil de gestion des données bibliographiques, tel que Zotero. Grâce à la fonction "Ajouter un document par son identifiant", il suffit de fournir un DOI pour importer dans Zotero une fiche complète pour la ressource en question.

Copie d'écran : import Zotero

Les métadonnées associées aux DOI ne sont pas au même format que les métadonnées OLAC (Open Language Archive Commmunity) du catalogue de la collection Pangloss (et plus généralement de la plate-forme Cocoon), qui font référence. Dans le détail, certains choix faits dans les équivalences entre métadonnées OLAC et métadonnées associées aux DOI sont contestables : du fait que tous les rôles définis dans les référentiels OLAC n'existent pas dans les métadonnées DOI, se trouvent identifiés comme "collaborateurs" des personnes ayant rempli des rôles assez divers. Mais l'export via les DOI a l'avantage de permettre de citer commodément les ressources comme on le ferait pour une publication scientifique.

À l'échelle d'un jeu de données entier (ce qui est désigné sur la présente interface comme un "corpus" : l'ensemble des documents disponibles dans un même parler), il n'existe pas actuellement de métadonnées toutes faites. Pour citer un corpus entier, dans une feuille de style prévue pour les publications scientifiques, notre recommandation est de fournir pour titre "Corpus nom de la langue", pour auteur le nom des chercheuses et chercheurs ayant constitué les ressources en question, et pour nom de publication "collection Pangloss (plate-forme Cocoon)".

Téléchargement des données par lots

Un script, OutilsPangloss, moissonne tous les identifiants oai (Open Archive Initiative) pour une langue donnée, ce qui prend un certain temps (en 2020 : plusieurs minutes, pour les langues pour lesquelles plus d'une centaine de ressources est disponible). Le résultat est enregistré dans un fichier yaml (facilement lisible), de façon à rendre l'exécution plus rapide par la suite. On peut réinitialiser (forcer pour tout refaire) si on sait que le corpus a été modifié entretemps. Le script télécharge ensuite toutes les ressources : annotations et fichiers audio correspondants. S'ils avaient déjà été téléchargés, le script fait l'économie d'un nouveau téléchargement (mais là encore, on peut forcer si besoin). Les annotations sont ensuite converties au format .eaf (logiciel Elan), ce qui permet notamment leur utilisation, en Traitement Automatique des Langues, pour entraîner un modèle acoustique au moyen du logiciel Elpis.

Cerise sur le gâteau, on peut demander dynamiquement (avec arguments) une structuration des ressources. Par défaut, les ressources sont mises à plat dans un dossier, mais on peut classer par type de document puis, à l'intérieur des sous-dossiers, par locuteur, ou inversement, classer en sous-dossiers par locuteur et, à l'intérieur de ceux-ci, en sous-sous-dossiers par type de document. Si on retélécharge ou convertit après avoir changé la structure (par exemple : on a tout téléchargé "à plat" puis trié par locuteur, ou téléchargé par locuteur ou type de document mais remis à plat par la suite), le script vérifie (avant de télécharger ou convertir) si un fichier ayant exactement le même nom n'existe pas déjà dans le dossier. Ainsi, si on a déjà tout téléchargé ou converti, lancer le script avec des arguments de structure différents va simplement déplacer les fichiers. (Auteur du script : Benjamin Galliot.)

Outil de lecture : Eastling

L'outil logiciel qui permet l'affichage des documents sur la présente interface est Eastling. Le code source est librement disponible sur GitHub.