GallicaPix – SlideShare

Les bibliothèques comme réservoir d’images inexploitées 1,2 M images cataloguées (photos, dessins, estampes…) Large réservoir d’illustrations potentielles : • manuscrits • documents imprimés • archives du web … Centaines de millions ? 7 8. Pour la recherche d’information : “Je cherche des caricatures de George Clemenceau dans toutes les collections.” Nouveaux services 8 9. Pour des usages de recherche (par ex. analyse quantitative) “Je veux compter les visages de femme présents sur la page de une de Paris-Match entre 1949 et 1959” Nouveaux services 9 L’Excelsior, 1910-1920 10. Approche ETL (Extract-Transform-Load) pour la reconnaissance et la description automatiques des illustrations Sur les collections Première Guerre mondiale de Gallica : photo, presse, magazines, posters, cartes… (1910-1920) Avec des techniques d’apprentissage profond (deep learning) IIIF est utilisé pour l’enrichissement et la présentation Preuve de concept : GallicaPix Des catalogues et de l’OCR Transformer et enrichir les métadonnées des illustrations Rechercher des images (application web) Extraire Transformer (enrichir) Charger 10 11. IIIF (International Image Interoperability Framework) : protocole d’accès aux images • Les API et standards facilitent la R&D • IIIF rend possible la réutilisation des images De Gallica (SERP + feuilletage)… … à GallicaPix SRU, OAI-PMH, IIIF… iiif.io 12. IIIF : valoriser l’image • IIIF permet « d’entrer » dans le document et de le décrire https://gallica.bnf.fr/iiif/ark:/12148 /bpt6k716975d/f5/136,461,3155, 2107/ 800,/0/native.jpg 136,461 Visage x,y,w,h 3155,2107 Avion x,y,w,h 13. IIIF : interopérabilité • IIIF permet d’agréger des contenus iconographiques et de les transformer/enrichir/remédiatiser, etc. Gallica + The Welcome Collection (via Europeana) dans GallicaPix Gallica The Welcome Collection Requête = « infirmière » 14. “Enrichir” les illustrations OCR : Google Cloud Vision Classification des genres (dessin, photo…) : réseau CNN (Inception) Reconnaissance visuelle : IBM Watson Visual Recognition, Google Cloud Vision, OpenCV/dnn, Yolo… Reconnaissance visuelle Classification des genres Topic Modeling 14 OCR 15. Classification de genres 15 Classification avec un réseau de neurones artificiels convolutionnel et une approche par « transfer learning » Identification du « genre » des illustrations (photos, dessins, cartes, BD, graphes et schémas…) 16. Classification de genres Transfer learning : seule la dernière couche du réseau est réentrainée sur un jeu de données Gallica (12 classes) 4 classes de « bruit » : couverture, page blanche, ornement, texte 16 « Bruit » 17. Reconnaissance visuelle Services de « détection d’objet » (IBM, Google, Clarifai…) Génère des paires concept/niveau de confiance Détecte objets, visages, couleurs… Les concepts lèvent le silence des métadonnées ou de l’OCR, les enjeux de traduction, les effets de l’évolution lexicale (“aéronef”/“avion”) « images »: [ { « classifiers »: [ { « classes »: [ { « class »: « armored personnel carrier », « score »: 0.568, « type_hierarchy »: « /vehicle/wheeled vehicle/armored v armored personnel carrier » }, { « class »: « armored vehicle », « score »: 0.576 }, { « class »: « wheeled vehicle », « score »: 0.705 }, { « class »: « vehicle », « score »: 0.706 }, { « class »: « personnel carrier », « score »: 0.541, « type_hierarchy »: « /vehicle/wheeled vehicle/personnel }, { « class »: « fire engine », « score »: 0.526, « type_hierarchy »: « /vehicle/wheeled vehicle/truck/fire e }, { « class »: « truck », « score »: 0.526 }, { « class »: « structure », « score »: 0.516 }, { « class »: « Army Base », « score »: 0.511, « type_hierarchy »: « /defensive structure/Army Base » }, { « class »: « defensive structure », black color – 0.90 vehicle – 0.70 coal black color – 0.69 armored vehicle – 0.57 truck – 0.52 … « Les tanks de la bataille de Cambrai, la reine d’Angleterre écoute les explications données par un officiers anglais », 1917 17 18. Focus IIIF L’analyse d’image est plus facile avec IIIF • traitements élémentaires avec les paramètres IIIF (region, rotation) • adaptation de la qualité de l’image aux attentes du modèle (size, quality) • pas de stockage local • pa plupart des API acceptent les URL Calèche x0,y0,w0,h0 Personne x1,y1,w1,h1 curl -X POST -u « apikey:**** » –form « url=https://gallica.bnf.fr/iiif/ark:/12148/bpt6k960 4090x/f1/22,781,4334,4751/,700/0/native.jpg » « https://gateway.watsonplatform.net/visual- recognition/api/v3/classify?version=2018-03-19 » 19. Focus IIIF La création de jeux d’entrainement est facilitée par IIIF 1. Amorçage du jeu (bootstrap) grâce aux métadonnées 2. Sélection de nouveaux éléments dans l’application web 3. Export du jeu (liste d’URL IIIF) 4. Téléchargement des images 5. Entrainement du modèle Cartes Le partage des jeux de données est aussi facilité ! 20. Focus IIIF • Le téléchargement peut être lent par rapport à du local • Peut mettre sous pression les serveurs IIIF locaux… L’usage de IIIF pour le prototypage et la production peut altérer la qualité de service des vrais « utilisateurs » GallicaPix est #4 ! La plupart des 830k appels sont dév+prod Top 8 des consommateurs de l’API Gallica IIIF Image Service IIIF Image à la BnF : • 5 serveurs • Proliant BL460c G7 (2 Xeon CPU E5649, 2,53 Ghz, 24 coeurs) • 10 M appels/mois 21. Expérimentation sur la détection de soldats 21 0% 20% 40% 60% 80% 100% Métadonnées (bibliogr.+OCR) IBM Watson Modèle entraîné avec Watson Multimodal : métadonnées + visuel rappel 70% 20% 50% « Rappel » : proportion des documents pertinents proposés parmi l’ensemble des documents pertinents (« exhaustivité », « sensibilité ») 22. Les images non segmentées conduisent à des classes génériques : « cadre », « document », « document imprimé »… Reconnaissance visuelle : remarques 22 23. Ces modèles génériques peuvent opérer sur des documents patrimoniaux (XIXe, XXe), y compris sur des cas « difficiles ». Reconnaissance visuelle : remarques 23 24. Mais des limitations existent : • Généralisation à partir de jeux d’entrainement majoritairement contemporains  anachronismes • Généralisation à partir de jeux nécessaire- ment clos  erreurs de classification • Scènes complexes difficiles à interpréter Reconnaissance visuelle : remarques Segway armored vehicule bourgogne wine label 24 car bombing 10 000 classes permettent de satisfaire des recherches généralistes sur des contenus modernes ou contemporains, mais pas sur le large spectre des collections patrimoniales… 25. Projet INRIA/BnF (convention-cadre ministère de la Culture et INRIA), équipe LinkedMedia, Rennes Reconnaissance visuelle : modèles ad hoc 25 Base iconographique Mandragore (BnF) / Zoologie, 400 classes 26. « Supervision faible » : taxonomie (400->100 classes), réseau CNN entraîné sur Imagenet Reconnaissance visuelle : modèles ad hoc 26 Cartes d’activation 27. « Supervision forte » : base iNaturalist, annotations (3k, 30 classes), détection de régions candidates (Faster-RCNN), classification candidats, ajustement des boîtes englobantes Reconnaissance visuelle : modèles ad hoc 27 28. Rechercher Dans une base XML (BaseX, XQuery) Sur des champs textuels Présentation mosaïque avec IIIF Métadonnées Image Métadonnées Catalogue OCR 28 http://demo14-18.bnf.fr:8984/rest?run=findIllustrations-form.xq http://gallicastudio.bnf.fr Base 14-18 : 200 k illustrations 65 k pubs illustrées Extraites de 500 k pages 29. Cas d’usage : recherche encyclopédique sur un nom Les métadonnées et l’OCR sont utilisés. “George Clemenceau” : 140 ill. dans Gallica/Images, > 900 dans GallicaPix Les caricatures sont trouvées avec la facette “dessin” 29 gallica.pix 30. Cas d’usage : recherche encyclopédique sur un concept Une recherche sur le mot-clé “avion” renvoie du bruit… (portraits d’aviateur, photographies aériennes…) 30 gallica.pix 31. Cas d’usage : recherche encyclopédique sur un concept En utilisant le concept visuel avion, le bruit peut être filtré. (au prix de quelques faux positifs !) 31 gallica.pix gallica.pix Les portraits d’aviateurs sont trouvés avec la facette “Personne” 32. Cas d’usage: recherche multimodale Les concepts visuels, le texte et les métadonnées sont utilisés. Recherche relative aux destructions urbaines consécutives à la bataille de Verdun : concept=(”rue” OU ”maison” OU ”ruines”) ET mot-clé=”Verdun” 32 Image Retrieval gallica.pix 33. Expérimentation sur la détection de personne Ces modèles permettent aussi la détection de visage et de genre : • IBM Watson : “Visages”: rappel = 43 %, précision = 99,9 % 34. Expérimentation sur la détection de personne Module dnn (deep neural networks) dans OpenCV 3.3, modèle ResNet, méthode “Single Shot Multibox Detector” (SSD) : rappel = 58 %, précision = 92 % (CS > 20 %) Modèle Yolo v3 34 gallica.pix 35. Index de similarité visuelle (dans un espace numérique de grande dimension) Espèce 1 Espèce 2 Espèce N SNOOP v3 : deep learning Reconnaissance visuelle : similarité Projet INRIA/BnF: équipe Zenith (Montpellier) : moteur d’indexation visuelle SNOOP 36. SNOOP v3 : deep learning Reconnaissance visuelle : modèle ad hoc Recherche de reproduction d’une photographie d’agence dans la presse lors de sa numérisation (et de son catalogage) • choix des descripteurs locaux et globaux • indexation de la collection Gallica Images dans SNOOP 37. « Sélection itérative de documents pertinents par l’utilisateur » Reconnaissance visuelle : recherche par bouclage de pertinence 37 Recherche initiale Sélection utilisateur Nouvelle recherche basée sur les exemples Sélection… 38. • Choix d’une image de départ • Sélection d’un détail Reconnaissance visuelle : recherche par bouclage de pertinence 38 39. • Itérations (10 mn) • Création d’une nouvelle classe Reconnaissance visuelle : recherche par bouclage de pertinence 39 L’Excelsior (1910-1920) 40. Cas d’usage : humanités numériques Projet ANR Numapresse, collaboration avec la BnF : • Reconnaissance automatique des visages et genres dans Paris-Match et L’Excelsior (pages de une, période de 10 ans) • Post-correction manuelle avec l’éditeur GallicaPix (de 1 heure à 2 jours) • Analyse de données et datavisualisation Journée d’étude Numapresse « Paris Match : le poids des mots, le choc des photos » (université Paul-Valéry Montpellier III). https://www.fabula.org/actualites/journee-d-39-etude-numapresse-paris-match-le-poids-des-mots-le-choc-des-photos-universite-paul-_90246.php 41. Cas d’usage : humanités numériques Projet ANR Numapresse, collaboration avec la BnF : • Reconnaissance automatique des visages et genres dans Paris-Match et L’Excelsior (pages de une, période de 10 ans) • Post-correction manuelle avec l’éditeur GallicaPix (de 1 heure à 2 jours) • Analyse de données et datavisualisation Corpus de publicités illustrées de GallicaPix (60 k) 42. Digital Humanities Cas d’usage : humanités numériques Hackathon DHH, mai 2019, Helsinki : thème “Newspapers and Capitalism”, focus sur la publicité • Reconnaissance automatique (Yolo v3) des moyens de transport • Post-correction (1 jour), analyse de données et datavisualisation 43. Digital Humanities Production : comment faire ? On voit apparaître des pipelines de production IIIF : • Digirati : “A pluggable IIIF content enrichment pipeline” • UCLA Library : “Building a Machine Generated Annotations Pipeline”, Conférence IIIF, juin 2019, Göttingen : https://drive.google.com/drive/folders/1zpGUxsu_cvKPilxfyaMTq4Zrsyo3bada DIGIRATI (https://digirati.com/) UCLA (https://github.com/UCLALibrary?language=python) 44. Conclusion • Un accès unifié à toutes les illustrations d’une collection encyclopédique est un service répondant à de réels besoins. • Il favorise aussi la réutilisation des illustrations. • La maturité des techniques IA en matière d’indexation visuelle rend possible leur intégration dans la boîte à outils standard d’une bibliothèque. IIIF et IA forment un tandem efficace. • Leurs résultats, mêmes imparfaits, aident à rendre visibles les illustrations de nos collections. • Il n’y a pas de solution universelle en matière d’indexation visuelle, mais des applications immédiates sont possibles. 44 Conclusion 45. 45 Portraits Galery Merci pour votre attention ! jean-philippe.moreux@bnf.fr Jeux de données, modèles et scripts : • api.bnf.fr • github.com/altomator/Image_Retrieval GallicaPix : • gallicastudio.bnf.fr • http://demo14-18.bnf.fr:8984/rest?run=findIllustrations-form.xq

Soyez le premier à commenter

Laisser un commentaire