Inuktitut Informatique

Le projet UQAILAUT

Analyseur morphologique inuktitut

L'analyseur morphologique de l'inuktitut du CNRC est un programme Java développé dans le Groupe d'information interactive de l'Institut de technologie de l'information (ITI) du Conseil national de recherches du Canada (CNRC), qui décompose un mot Inuktitut en ses  morphèmes, c'est-à-dire, sa racine, ses suffixes et sa terminaison grammaticale. L'information lexicale à la base de l'analyseur morphologique consiste de quelque 2000 racines, plusieurs centaines de mots lexicalisés (sorte de radicaux complexes fixes combinant une racine et un ou deux suffixes), plus de 330 suffixes, 300 terminaisons nominales et 1200 terminaisons verbales contenus dans une base de données que nous avons créée. La majeure partie de cette information lexicale provient des ouvrages de Ken Harper, Alex Spalding, Lucien Schneider, Mick Mallon, et Louis-Jacques Dorais. Veuillez vous référer à cette bibliographie pour une liste complète de nos références linguistiques. Les règles phonologiques des divers dialectes sur les groupes de consonnes (kt > tt, par exemple) ont été incorporées. Les dialectes reconnus par notre analyseur sont ceux d'Aivilik, Kivalliq, la Terre de Baffin du nord et du sud, et le nord du Québec. La loi de Schneider, qui s'applique au nord du Québec, a aussi été incorporée. La version actuelle de l'analyseur morphologique de l'inuktitut peut décomposer avec succès plus de 95% des mots les plus fréquents trouvés dans les Hansard du Nunavut et dans les pages inuktitut de l'internet. Nous continuons à travailler activement à augmenter les performances de l'analyseur morphologique de l'inuktitut par l'addition de racines et d'suffixes et d'informations pertinentes sur ces morphèmes.

L'analyseur peut retourner plus d'une décompositions pour un mot donné; typiquement, la bonne décomposition se trouve parmi les premières au début de la liste, souvent en première position. Il arrive qu'un certain nombre de décompositions retournées par l'analyseur ne devraient normalement pas l'être. Ceci est dû à plusieurs facteurs dont l'ambiguïté lexicale entre certains morphèmes de même forme et de même comportement morphophonologique, l'absence de contraintes sur ce qui peut ou doit suivre ou précéder certains morphèmes, et l'absence de certains morphèmes.

Aller à une application Web de l'Analyseur Morphologique Inuktitut

Téléchargez une présentation Power Point sur l'Analyseur Morphologique Inuktitut faite à Iqaluit en février 2005.

Nouveau ! L'analyseur morphologique Inuktitut est maintenant disponible en version programmatique.

Définition de mot Inuktitut d'une page Web

Définition de mot Inuktitut est une application de l'Analyseur Morphologique Inuktitut qui retourne la décomposition d'un mot Inuktitut sélectionné dans une page internet. Cette application est accessible par un LIEN* qui doit être placé sur la BARRE DE LIENS de votre navigateur.

* L'analyseur morphologique est un programme Java qui ne peut pas être exécuté sur ce serveur. Cette section sur l'application « Définition de mot Inuktitut » a été laissée dans cette page pour décrire ce qui a été fait, mais le lien ‘Définition de mot Inuktitut’ au programme exécutable mentionné plus bas a été supprimé. L'analyseur morphologique est toutefois disponible pour téléchargement. Voir ci-dessus.

* Définitions en français: tous les mécanismes sont en place pour offrir les définitions en français. Cependant, étant donnés la nature "de recherche" du projet et le manque de temps et de ressources, les versions françaises des sens des racines n'ont pas pu toutes encore être entrées dans la base de données. Par conséquent, le cas échéant, le mot null apparaîtra dans la case 'Signification' de la racine.

Exemple d'un cliché d'écran:


Démo

Pour que vous puissiez avoir une idée de ce que fait cette application, nous avons  préparé une page de démonstration avec une sélection de mots inuktitut sur lesquels on peut cliquer directement pour obtenir leur décomposition sans devoir installer le lien sur votre navigateur.

Caractères syllabiques

De façon à ce que les caractères syllabiques Inuktitut puissent être affichés correctement, vous aurez besoin d'une police de caractères syllabiques Inuktitut Unicode. Si vous n'en avez pas dans votre ordinateur, vous pouvez en obtenir une à polices Inuktitut.

Avertissement:

Cette application utilise un parseur HTML Java pour déterminer la police de caractères utilisée pour afficher le texte inuktitut syllabique dans une page internet. Malheureusement, ce parseur ne pardonne pas facilement et pour cette raison, lorsque le codage HTML d'une page n'est pas orthodoxe, il pourrait ne pas être capable de déterminer quelle police de caractères a été utilisée, ce qui résulterait en l'incapacité de décomposer le mot sélectionné.

Le contenu de ce site a été développé par Benoît Farley au Conseil national de recherches du Canada.