L'assemblée législative du Nunavut publie ses Hansard en anglais et en inuktitut. Puisque les deux versions sont des traductions directes l'une de l'autre, il nous a été possible de produire un corpus parallèle anglais-inuktitut à partir d'une copie de ces Hansard qui a été gracieusement mise à notre disposition. Il est à noter que cette copie des Hansard n'a aucun statut officiel; il est préférable de se référer aux Hansard du site officiel de l'assemblĂ©e lĂ©gislavite du Nunavut.
La version 2.0 du corpus parallèle a été créée en janvier 2008. Elle contient les comptes-rendus des jours-sessions des Hansard depuis le 1er avril 1999 jusqu'au 8 novembre 2007 (à l'exception de l'année 2003), date de la dernière journée pour laquelle les comptes-rendus étaient disponibles à ce moment-là. Pour ce faire, nous avons fusionné les textes alignés de la version 1.1 pour la période 1999-2002 avec ceux que nous venons d'aligner pour la période de 2004-2007. Ces derniers textes alignés ont été préparés à partir des paires de documents PDF - inuktitut et anglais - trouvés sur le site de l'assemblée législative du Nunavut. Pour l'alignement, nous avons utilisé les programmes de Moore basés sur l'algorithme de Gale and Church.
Téléchargez la version 2.0 (21 MB gzippé)
La version 1.1 du corpus parallèle a été créée le 3 juin 2003. Elle contient les comptes-rendus des premiers 155 jours-sessions des Hansard que nous avons reçus sous forme de fichiers Word de l'assemblée législative du Nunavut. L'alignement a été fait comme pour la version 1.0, avec les améliorations suivantes:
Téléchargez la version 1.1 (14 MB gzippé)
La version 1.0 du corpus parallèle a été créée en avril 2003. Elle est basée sur les comptes-rendus de 155 jours-sessions que nous avons reçus sous forme de fichiers Word de l'assemblée législative du Nunavut. L'alignement des phrases a été fait à l'aide d'une version modifiée de l'algorithme de Gale-Church basée sur un nombre d'éléments lexicaux. Les détails de ce procédé sont décrits dans un article intitulé "Aligning and Using an English-Inuktitut Parallel Corpus" présenté à HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond.
Une présentation PowerPoint est aussi disponible (en anglais): HLT - présentation PowerPoint.
Téléchargez la version 1.0 (14 MB gzippé)