Le pari de l’intelligence artificielle dévoilera les secrets de textes anciens – Actualitté – Valentine Costantini

D’après les experts, ce serait tout un trésor d’informations qui serait demeuré caché…

Indiana Jones, 2.0

« Nous avons affaire à des documents historiques écrits dans des styles qui sont depuis longtemps passés de mode, remontant à plusieurs siècles, et dans des langues comme le latin, qui ne sont plus que rarement utilisées », a déclaré Walter Scheirer, professeur agrégé Dennis O. Doughty, du Département d’informatique et d’ingénierie de Notre Dame. « Vous pouvez obtenir de belles photos de ces documents, mais ce que nous avons entrepris, c’est d’automatiser la transcription d’une manière qui imite la perception de la page à travers les yeux du lecteur expert et offre une lecture rapide et consultable du texte. »

Ces recherches, publiées dans la revue Transactions on Pattern Analysis and Machine Intelligence de l’Institute of Electrical and Electronics Engineers, Scheirer décrivent l’approche de son équipe : une combinaison de méthodes traditionnelles d’apprentissage automatique et de psychophysique visuelle. Résultat : une nouvelle manière de mesurer des liens entre les stimuli physiques et les phénomènes mentaux, tels que le temps qu’il faut à un lecteur expert pour reconnaître un caractère spécifique, évaluer la qualité de l’écriture manuscrite ou identifier l’utilisation de certaines abréviations.

L’équipe de Scheirer a ainsi étudié des manuscrits latins numérisés, copiés par des moines du cloître de Saint-Gall durant le IXe siècle. Les lecteurs ont d’abord saisi leurs transcriptions manuelles dans une interface logicielle spécialement conçue, tandis que l’équipe de chercheurs mesurait les temps de réaction lors de cette transcription. L’idée étant ici de comprendre quels mots, caractères et passages étaient faciles ou difficiles à déchiffrer.

Scheirer a expliqué que l’inclusion de ce type de données créait une connexion plus cohérente avec le comportement humain, réduisait les erreurs et fournissait une lecture plus précise, et donc plus réaliste du texte.

Analyser la lecture au plus proche

« C’est une stratégie qui n’est généralement pas utilisée dans l’apprentissage automatique », a-t-elle déclaré. « Nous étiquetons les données à travers ces mesures psychophysiques, qui proviennent directement d’études psychologiques de la perception – en prenant des mesures comportementales. Nous informons ensuite le réseau des difficultés courantes dans la perception de ces personnages et pouvons apporter des corrections en fonction de ces mesures. »

« Il y a une différence entre simplement prendre les photos et les lire, et disposer d’un programme pour fournir une lecture consultable », a expliqué Hildegund Müller, professeure agrégée au département des lettres classiques de Notre-Dame. « Si vous considérez les textes utilisés dans cette étude – des manuscrits du IXe siècle – c’est une première étape du Moyen Âge. C’est bien avant l’imprimerie. C’est une époque où une énorme quantité de manuscrits a été produite. Il y a toutes sortes d’informations cachées dans ces manuscrits – des textes non identifiés que personne n’a vus auparavant. »

Ces chercheurs doivent faire face à défis qui, malheureusement, subsistent. Malgré un travail pour améliorer la précision des transcriptions – par exemple concernant des documents endommagés ou incomplets, ou encore la prise en compte des illustrations ou d’autres aspects d’une page, qui pourraient être source de confusion –, tout n’est pas si simple.

« Dans le domaine littéraire, cela pourrait être très utile. Chaque bonne œuvre littéraire est entourée d’une grande quantité de documents historiques, mais là où elle va vraiment être utile, c’est dans la recherche d’archives historiques », a déclaré Müller.

« Il y a un grand besoin de faire progresser les humanités numériques. Quand vous parlez du Moyen Âge et du début des temps modernes, si vous voulez comprendre les détails et les conséquences des événements historiques, vous devez parcourir les documents écrits, et ces textes sont la seule chose que nous ayons. Le problème peut être encore plus grand en dehors du monde occidental. Pensez aux langues qui disparaissent dans des cultures menacées. Il faut d’abord préserver ces œuvres, les rendre accessibles et, à un moment donné, intégrer des traductions pour les intégrer dans des processus culturels toujours en cours — et c’est une course contre la montre. »

Crédits photos : Alessio Fiorentino et Michael Dziedzic / Unsplash

Un groupe de chercheurs est parvenu à développer une IA capable de distinguer avec précision différents types d’écriture. L’outil a notamment été utilisé sur le Grand rouleau d’Isaïe, l’une des plus anciennes copies de la Bible existante. Ce manuscrit vieux de plus de 2000 ans aurait été écrit par deux scribes cherchant à synchroniser leurs écritures.

Le groupe Unlocking History est parvenu à lire une lettre datant de 1697 sans briser son sceau. Les rayons X utilisés par les chercheurs permettent de déplier virtuellement la missive tandis que le papier physique reste dans l’enveloppe. Une découverte saluée comme une avancée importante dans l’étude des documents historiques.

Internet produit des tendances difficilement prévisibles : qui aurait ainsi pensé que les chants de marins feraient un retour fulgurant en début d’année 2021, alors que les mouvements du monde sont toujours contraints par la crise sanitaire ? Sur le réseau social TikTok, ces chansons reprises en chœur ont relancé l’intérêt pour ce type de documents patrimoniaux…

Gutenberg pressait à peine les premières pages de sa Bible, que la Corée avait déjà en circulation ses premiers ouvrages imprimés depuis pas loin d’un siècle. Les Jikiji représentent, dans l’histoire de l’humanité, les premiers textes conservés — pas les premiers imprimés, on doit à la Chine une invention du XIe siècle qui s’y employa. Mais les Jikiji méritaient bien un hommage.

Durant la phase Conf-1, de mars à mai, le livre d’Albert Camus, La peste, devint la star des ventes. D’abord propulsé en Italie dans les tops, il s’est rapidement installé en France comme l’ouvrage à relire. De toute manière, trouver un livre impliquait à l’époque d’adopter les méthodes des fêtards, au temps de la prohibition…

Les anciens scribes égyptiens ajoutaient peut-être de l’eau à leur vin, mais ils mettaient surtout du plomb dans leur encre. Une récente étude indique que ce procédé accélérait le séchage des écrits sur les papyrus. Le procédé était en vigueur dans l’Europe du XVe siècle, pour les peintures, mais remonterait donc à bien plus loin.

À la suite d’un 14 juillet qui s’est conclu, comme chaque année, par un feu d’artifice mémorable, quoi de mieux que de plonger dans l’histoire de ce spectacle pyrotechnique ? Au Japon, la bibliothèque de la ville de Yokohama propose de découvrir les pages d’une série de catalogues publicitaires pour des feux d’artifice, datant du XIXe siècle.

Le ministère de la Culture annonce l’acquisition par l’État de manuscrits littéraires majeurs qui entrent dans les collections de la BnF à la suite de leur classement comme « Trésors nationaux ». Une partie des écrits de Sade et de Breton s’apprête ainsi à rejoindre les étagères de la Bibliothèque, aux côtés d’autres grandes figures de la littérature française.

Après la publication du rapport de la Commission de recherche sur les archives françaises relatives au Rwanda et au génocide des Tutsi, remis au président de la République en mars dernier, le ministère de la Culture ouvre à l’administration aux citoyens et chercheurs l’accès à tous les documents cités dans ce même rapport.

La numérisation des œuvres d’art est une pratique de plus en plus courante pour les musées et bibliothèques du monde entier. Pour mieux s’y retrouver dans cette masse d’art numérique, des navigateurs spécialisés commencent à voir le jour. Artvee propose ainsi de se plonger dans les collections de plus de 40 institutions internationales, de la New York Public Library aux musées parisiens. Tapez un seul mot clé et des milliers d’œuvres à télécharger gratuitement s’offrent à vous.

Soyez le premier à commenter

Laisser un commentaire