Détail d’écriture (mandchou et chinois), BnF 243.
Le mandchou (manju gisun) est une langue toungouse, qui utilise une écriture syllabique ouïghoure-mongole. Langue officielle de dernière dynastie chinoise (1644-1911), elle a été perçue comme une langue facilitant l’accès à la culture chinoise ; des ouvrages en mandchou ont été envoyés en France dès les XVIIe-XVIIIe siècles par les missionnaires, et la BnF compte aujourd’hui environ trois cents ouvrages, en partie numérisés. Les chercheurs utilisent principalement le système Möllendorf de romanisation du mandchou pour transcrire les textes.
Pour le moment, alors que Gallica fournit un outil de lecture automatique pour les textes en alphabet latin permettant des recherches à l’intérieur du texte intégral des documents numérisés, cela n’est pas possible pour le mandchou. Le projet veut donc utiliser le corpus d’ouvrages numérisés de la BnF pour entraîner des modèles HTR (Handwritten text recognition) actuels et futurs.
Détail d’une page de BnF 243 sur eScriptorium, à droite segmentation et numérotation du mandchou.
Équipe
Responsable(s) scientifique(s)
- Michela Bussotti
- Catherine Jami (CNRS)
Collaborateur(s)
- Kao Hsiang-tai (EHESS)
- Vincent Paillusson (Laboratoire HTL)
- Alice Crowther (EPHE)
- Mohammad Shad (LIRIS, INSA de Lyon)
- Chen Fengyi (EFEO)
- Mariaorosaria Gianninoto (Université Paul Valery)
Partenaires institutionnels
Axes de recherche EFEO
- Patrimoines et humanités numériques
Financement
Autres financements
Montant total financé : 19 085 euros (BnF DataLab)
Montant alloué à l'EFEO : 19 085 euros
Période
Date de début : février 2025
Date de fin : juin 2027
Dernière modification : 25 février 2026