Inuktitut Informatique

Le projet UQAILAUT

Le Hansard du Nunavut
Corpus parallèle Inuktitut-Anglais

L'assemblée législative du Nunavut publie ses Hansard en anglais et en inuktitut. Puisque les deux versions sont des traductions directes l'une de l'autre, il nous a été possible de produire un corpus parallèle anglais-inuktitut à partir d'une copie de ces Hansard qui a été gracieusement mise à notre disposition. Il est à noter que cette copie des Hansard n'a aucun statut officiel; il est préférable de se référer aux Hansard du site officiel de l'assemblĂ©e lĂ©gislavite du Nunavut.

La version 2.0 du corpus parallèle a été créée en janvier 2008. Elle contient les comptes-rendus des jours-sessions des Hansard depuis le 1er avril 1999 jusqu'au 8 novembre 2007 (à l'exception de l'année 2003), date de la dernière journée pour laquelle les comptes-rendus étaient disponibles à ce moment-là. Pour ce faire, nous avons fusionné les textes alignés de la version 1.1 pour la période 1999-2002 avec ceux que nous venons d'aligner pour la période de 2004-2007. Ces derniers textes alignés ont été préparés à partir des paires de documents PDF - inuktitut et anglais - trouvés sur le site de l'assemblée législative du Nunavut. Pour l'alignement, nous avons utilisé les programmes de Moore basés sur l'algorithme de Gale and Church.

Téléchargez la version 2.0 (21 MB gzippé)

La version 1.1 du corpus parallèle a été créée le 3 juin 2003. Elle contient les comptes-rendus des premiers 155 jours-sessions des Hansard que nous avons reçus sous forme de fichiers Word de l'assemblée législative du Nunavut. L'alignement a été fait comme pour la version 1.0, avec les améliorations suivantes:

Téléchargez la version 1.1 (14 MB gzippé)

La version 1.0 du corpus parallèle a été créée en avril 2003. Elle est basée sur les comptes-rendus de 155 jours-sessions que nous avons reçus sous forme de fichiers Word de l'assemblée législative du Nunavut. L'alignement des phrases a été fait à l'aide d'une version modifiée de l'algorithme de Gale-Church basée sur un nombre d'éléments lexicaux. Les détails de ce procédé sont décrits dans un article intitulé "Aligning and Using an English-Inuktitut Parallel Corpus" présenté à HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond.

Une présentation PowerPoint est aussi disponible (en anglais): HLT - présentation PowerPoint.

Téléchargez la version 1.0 (14 MB gzippé)

Recherche de mots dans les Hansard du Nunavut

Afin de démontrer l'utilité de ce corpus parallèle anglais-inuktitut, nous avons élaboré un outil qui permet de rechercher dans le corpus une phrase, un mot ou une partie de mot inuktitut ou anglais et d'afficher à l'écran les phrases inuktitut et anglaises correspondantes qui le contiennent, en parallèle. On peut atteindre cet outil de recherche en cliquant sur le lien suivant:  Recherche dans les Hansard du Nunavut.
Le contenu de ce site a été développé par Benoît Farley au Conseil national de recherches du Canada.