Parmi les œuvres majeures de Hrachia Adjarian (1876-1953), éminent linguiste arménien, le "Dictionnaire étymologique de l'arménien" (Հայերէն արմատական բառարան, Hayerēn armatakan baṙaran) est sans doute la plus célèbre. Publié entre 1926 et 1935, ce dictionnaire comprend plus de 11 000 entrées, enrichies d'exemples issus de la littérature et des manuscrits arméniens, ainsi que des équivalents dialectaux et des informations sur les racines des mots en hébreu, syriaque, moyen-perse, géorgien, grec, latin, et bien d'autres langues.
Cet ouvrage est indispensable pour les études arméniennes. Son intégration dans les bases lexicales de Calfa s'inscrit dans nos objectifs à long terme pour le dictionnaire en ligne arménien-français et arménien-anglais, que nous maintenons et enrichissons depuis 2014. En 2024, nous avons rendu nos bases lexicales accessibles en open source sur notre dépôt Git.
Pour en savoir plus sur la mise en open de nos données, cliquez ici.
Le dictionnaire présente une structure simple mais variable. Chaque entrée comprend une définition, des équivalents dialectaux, les sources étymologiques, l'indication d'emprunts, et les dérivations d'autres entrées. La mise en page du dictionnaire reflète ces différents niveaux d'information. Nous avons développé un modèle d'analyse spécialisé capable de détecter et de stocker automatiquement ces informations dans une base de données, sans intervention humaine.
Pour ce faire, nous avons mis en place une stratégie de fine-tuning à partir d'un de nos modèles génériques d'analyse de mise en page, que nous avons adapté en lui fournissant des échantillons du dictionnaire d'Adjarian. Cela nous a permis d'extraire 11 300 entrées, incluant 2 600 paragraphes d'équivalents dialectaux.
Le dictionnaire contient de multiples alphabets : arménien, arabe, grec, hébreu, géorgien, moyen-perse, cyrillique, syriaque, tamoul, et bien d'autres, soit plus d'une vingtaine au total. Ils sont parfois combinés au sein d’un même mot. Nous avons concentré la reconnaissance sur l'arménien, le grec, le géorgien, le latin, le cyrillique et les caractères spéciaux linguistiques. Les autres alphabets sont reconnus mais non transcrits, remplacés par [alphabet word]. Ce choix éditorial est motivé par trois raisons : (i) réduire les délais de préparation des modèles, (ii) garantir la performance des modèles pour les graphies retenues, et (iii) la rareté des graphies non conservées à ce stade, systématiquement traduites en arménien. Le modèle de reconnaissance spécialisé que nous avons entraîné identifie d'abord le type d'alphabet, puis applique la reconnaissance la plus probable. Le taux de bonne reconnaissance atteint 98,78 % en moyenne, allant de 94,3 % en géorgien à 99,2 % en arménien. Les autres graphies seront progressivement couvertes par la correction collaborative du dictionnaire.
Le dictionnaire est dès à présent disponible et consultable dans nos bases mises en open access sur GitHub, sous la forme d'un document de travail que nous allons renforcer et nettoyer dans les prochains mois (votre contribution est la bienvenue, par Github ou par mail), afin que la communauté scientifique puisse déjà en profiter. Il sera intégré sur dictionary.calfa.fr d'ici 2026. Les premiers développements du dictionnaire ont bénéficié, en 2014 et 2016, d'un soutien de la Fondation Calouste Gulbenkian. Dictionnaire d'Adjarian réalisé en partenariat avec l'ANR DALiH (ANR-21-CE38-0006), dans un effort commun de développer un corpus pour la langue arménienne.