L'Association pour l'Arménien Classique et la Bibliothèque Nubar de l'UGAB (Paris) ont conclu, mercredi 11 juillet 2018, un partenariat scientifique en vue d'améliorer le moteur de reconnaissance de caractères manuscrits développé dans le cadre du projet Calfa. Ce nouvel accord porte sur l'apport par la Bibliothèque de reproductions numériques HD de manuscrits et imprimés arméniens de son fonds, et leur utilisation par les membres et bénévoles du Calfa.
La Bibliothèque Nubar de l'UGAB dispose notamment d'un important fonds de manuscrits contemporains (archives, correspondances, etc.), dont l'un des plus emblématiques est le fonds Andonian où sont regroupés de nombreux témoignages uniques de rescapés du génocide, en langue arménienne. Par ailleurs, la Bibliothèque possède l'un des plus importants fonds de périodiques arméniens dans la diaspora, du XIXe au XXIe siècle, périodiques imprimés à Erevan, Paris, Tiflis, Constantinople ou encore Alep. Des reproductions sont déjà disponibles sur le site de la Bibliothèque Nubar de l'UGAB.
L'accord porte sur un plan de numérisation de ces fonds et leur mise en ligne sur la plate-forme Vision Calfa, en vue d'être labellisés (identification manuelle des caractères dans une page). Ce fonds présente un fort intérêt pour nos recherches, ainsi qu'un défi, en raison des nouvelles formes des lettres que l'on y trouve. La base de données de caractères obtenue servira à l'entraînement des systèmes du Calfa.fr pour la reconnaissance automatique des caractères manuscrits et imprimés arméniens (système OCR), uniques, dans l'optique d'assurer la préservation de ces fonds et de les rendre accessibles.
Le Saviez-vous ? La labellisation est ouverte à tous. Vous pouvez participer à nos travaux en vous connectant à Vision Calfa, la plate-forme collaborative du Calfa.fr qui permet à tout internaute de contribuer bénévolement et de manière ludique aux recherches sur un OCR pour les manuscrits arméniens. L'inscription est rapide et gratuite.