Վենետիկի Մխիթարեան Միաբանութեան Գրացուցակը Համացանցի վրայ

French | English

Ձեռագիրներու ցուցակը

Վենետիկի Մխիթարեան հայրերու գրացուցակը հայագիտական ուսումներու համար հիմնական աղբիւր մըն է։ Հոն ցանկագրուած են Ս. Ղազար կղզիի Մխիթարեան վանքին աւելի քան 2000 ձեռագիրներէ բաղկացած հաւաքածոյին անունները. հաւաքածոն հայերէն գիրքերու և ձեռագիրներու ամէնէն հարուստներէն մէկն է։

Ամէն մէկ ձեռագիր հոն մանրամասն կերպով նկարագրուած է. կան խորագիրը, ընդօրինակութեան թուականն ու վայրը, ընդօրինակողին անունը, պարունակութեան նկարագրութիւնը, էջերու թիւը, չափերը, ևլն.։ Այս ցուցակին մասնայատկութիւնը թեմաներու հիմով կազմակերպուած ըլլալն է։ Ձեռագիրները դասաւորուած են ըստ թեմաներու, ինչպէս՝ աստուածաշունչեր, ժամանակագրութիւններ, երգարաններ, ևլն. և երբ դասաւորումի թեման ծանօթ չէ, ատիկա կրնայ պրպտումի գործը բարդացնել։ Մինչև այսօր Ս. Ղազարի ձեռագիրներուն շուրջ մէկ երրորդը տակաւին ցուցակին մէջ ընդգրկուած չէ։

Couverture du catalogue de Venise
Cover of the first volume of the catalog of manuscripts

Մանրամասնութիւններ ծրագրին մասին

Գրացուցակը որ 6250 էջի վրայ 1.3 միլիոն բառ կը պարունակէ, ութը հատորէ կը բաղկանայ ու PDF—ի ձևով տրամադրելի է. թուայնացած է ու FSL կապով մատչելի։ Գործին թէքնիք մարտահրաւէրը, որուն ընդառաջեց Գալֆան, գործակցութեամբ Մխիթարեան հայրերու, կը կայանար նոյն PDF—ը տուեալներու կազմակերպուած աղբիւրի մը վերածելուն մէջ. աղբիւր, որ հետազօտիչով մը պատրաստ ըլլար համացանցի վրայ հրատարակուելու։

Գլխաւոր դժուարութիւն մը հին ու ոչ շատ որակաւոր հպահաններով (scan) աշխատելու պարագան էր։ Հակառակ պղտոր գօտիներու գոյութեան և PDF-ի նախորդ շրջաններու գործածութեան հետևանք փիքսելացումին, բնագրին ինքնագործ ճանաչումը յաջողութեամբ կատարուեցաւ, շնորհիւ OCR-ի հայկական տպագրութեան յատուկ բնատիպերու, որոնցմով այս դժուարութիւնները յաղթահարել կարելի էր։ Մեր բնատիպերը գրացուցակին կառոյցին պատշաճեցուած էին, որպէսզի կարելի ըլլար անմիջապէս ունենալ հիմնական տեղեկութիւնները, ինչպէս՝ ձեռագրին խորագիրը, ընդօրինակութեան թուականը, կարևոր փոխատուեալները և Մխիթարեան հայրերու տուած նկարագրութիւնը։

Détection de la mise en page Détection de la mise en page
Example of catalog layout detection

Միւս աշխատանքն էր բնագիրը կազմաւորել, մեքենաբար տուեալներու աղբիւր մը ստեղծելու համար։ Հարցը կը վերաբերէր ծանօթագրութիւններու տուեալներէն մեկնելով (խորագիր, ընդօրինակութեան թուական, ևլն.), նաև նշուած տուեալներու (ընդօրինակողին, ապսպրողին, կազմողին, նկարազարդողին անունը, ընդօրինակութեան վայրը) վրայ հիմնուելով էջերուն իմաստային դաշտերը ճշդելու, որպէսզի կարելի ըլլայ բոլորը դասաւորել և անմիջական կերպով աղբիւրին առընչել։ Այս հանգրուանը կարելի եղաւ նոյն գրացուցակին համար յատուկ պատրաստուած գրաբարի և աշխարհաբարի խառնակերտ բնատիպի մը շնորհիւ։

Détection d'entités nommées
Example of semantic zone extractions in the catalog

Արդիւնքները

Այս մեթոտը հայերէն տպագիրներու հին և խաթարուած PDF-ներուն համար 0CR-ի ճանաչումի մարզին մէջ 99.2 % համեմատութեամբ յաջողութեամբ պսակուեցաւ։ Ձեռային վերընթերցումի ա. փուլ մը կատարուեցաւ ամէնէն կարևոր փոխատուեալներու (խորագիրներ, թուականներ և թուային տեղեկութիւններ, ինչպէս՝ էջերու թիւ կամ չափեր) վրայ։ Մնացած քանի մը վրէպները, որոնք շատ անգամ հիմնուած են որոշ գիրերու յաճախադէպ շփոթին վրայ, այս գրացուցակին գործածութեան ընթացքին հետզհետէ պիտի սրբագրուին։

Գրացուցակը ներկայիս հասանելի է համացանցի վրայ, Վենետիկի Մխիթարեան հայրերու կայքէջէն, պրպտումի շարժակով մը որ ուղղակի յատուկ դաշտ մը, կան բնագիրէն բառ մը գտնելու կը ծառայէ։ Այս գործնականութիւնը նախապէս գործածուած թեմայական դասաւորումի սահմանները զանցելով մեծապէս կը դիւրացնէ պրպտումները։

Այս ծրագիրը կազմաւորուած տուեալներ ինքնագործ կերպով վերստանալու համար IA-ի գործածութեան լաւ օրինակ մըն է և մեթոտը այլևս հայերէն գրացուցակներու առընչուած աշխատութեան համար կրնայ գործածուիլ։

Նաև ծրագրին նախնական տուեալները հրատարակեցինք GitHub (կապը) open access-ի վրայ։

A project carried out between 2022 and 2024 with the help and support of the congregation of the Mekhitarist Fathers of Venice.

Calfa Team