Former les documentalistes, archivistes et bibliothécaires aux méthodes et outils nécessaires pour préparer, structurer et enrichir les données textuelles et documents non structurés, afin de les rendre exploitables par des modèles d’intelligence artificielle (Machine Learning et IA générative).
Intelligence Artificielle
Préparer ses données et ses documents pour entrainer les IA
Programme
Objectifs
Comprendre les fondamentaux de l’intelligence artificielle et ses applications en gestion documentaire
Structurer et préparer les données documentaires pour leur exploitation par l’IA
Nettoyer, normaliser et annoter les données textuelles pour l’entraînement des modèles d’IA
Construire et exploiter des jeux de données pour l’intelligence artificielle
Déployer et évaluer des modèles d’IA en environnement documentaire
Comprendre les bases de l’intelligence artificielle et son application aux documents et données non structurées
- Définitions et concepts clés : IA, Machine Learning, NLP, IA générative
- Rôles des documentalistes, archivistes et bibliothécaires dans l’écosystème IA
- Exemples d’application de l’IA à la gestion documentaire et archivistique (OCR, extraction d’entités, recherche intelligente)
- Enjeux éthiques et biais dans l’IA
- Comment fonctionne l’IA générative ? De quelles données a-t-elle besoin ? Quels sont les modules qui interviennent ?
- Guide méthodologique : s’appuyer sur ISO 42001
Caractérisation et structuration des données documentaires : comment les rendre exploitables
- Typologie des données : structurées, semi-structurées, non structurées
- Métadonnées et standards documentaires : Dublin Core, MARC, METS, PREMIS, TEI
- Structuration et annotation des données textuelles pour l’IA
- Prétraitement des documents : OCR, reconnaissance de la mise en page, tokenisation
- Analyse et extraction automatique de métadonnées
- Le rôle majeur des bases de données vectorielles
Nettoyage et normalisation des données textuelles : préparer des données textuelles pour l’entraînement de modèles d’IA
- Techniques de nettoyage et prétraitement des textes :
- Suppression du bruit (caractères spéciaux, formats)
- Normalisation des textes (casse, ponctuation, stopwords, lemmatisation, stemming)
- Détection et correction des erreurs (fautes typographiques, OCR)
- Standardisation des formats de données pour une meilleure interopérabilité : lien avec les ontologies
- Gestion des jeux de données déséquilibrés
Annotation et enrichissement des données
- Annotation manuelle vs automatique : outils et stratégies
- Reconnaissance d’entités nommées (NER) : personnes, organisations, lieux, dates
- Techniques d’enrichissement : ontologies, lexiques, bases de connaissances (Wikidata, DBpedia)
- Introduction aux Corpus d’apprentissage supervisé
- Annotation manuelle avec un outil comme Prodigy / Brat / Label Studio
- Enrichissement d’un corpus avec des métadonnées externes
Apprendre à traiter des documents contenant texte, images et multimédia
- Rappel des contraintes légales et réglementaires sur les données, les modèles et les usages (AI Act)
- Extraction et traitement d’images à partir de documents
- Technologies de reconnaissance de texte dans les images (OCR avancé : Tesseract, Transkribus)
- Audio et transcription automatique avec Whisper
- Structuration des documents multimodaux pour l’IA générative
Constitution de datasets pour l’IA et l’Open Data : constituer des jeux de données adaptés aux modèles d’apprentissage
- Aligner les pratiques avec la gouvernance de l’intelligence artificielle et celle des données
- Critères de qualité des datasets : diversité, échantillonnage, équilibre
- Open Data et exploitation de jeux de données publics (data.gouv.fr, Europeana, Kaggle)
- Introduction aux FAIR Data Principles (Findable, Accessible, Interoperable, Reusable)
- Formatage et étiquetage des jeux de données pour entraînement IA
Parlons d’argent et d’autres coûts…
- Estimer le coût de préparation des données d’entrainement
- Estimer le coût d’entrainement des modèles
- Valoriser les coûts sous différentes dimensions (monétaire, consommation énergétique, impact climatique et impact social)
Évaluation et mise en production des modèles
- Critères d’évaluation d’un modèle NLP : précision, rappel, F1-score
- Détection des biais algorithmiques dans les modèles entraînés
- Déploiement d’un modèle en environnement documentaire
- Bonnes pratiques pour l’intégration de l’IA dans les systèmes d’information documentaire
Une plateforme d'apprentissage en ligne
Nous proposons à nos stagiaires un accès gratuit à notre Learning Management System Moodle pour leur permettre d’apprendre plus efficacement à distance, accéder aux documents et communiquer avec l’équipe pédagogique après la formation.

Formateur·ice

Philippe Nieuwbourg
Philippe Nieuwbourg est depuis plus de 30 ans spécialisé dans les données. Il a formé et accompagné plusieurs centaines d’entreprises sur des sujets tels que la gouvernance et données et celle de l’intelligence artificielle. Il dispense des formations et donne des conférences en Europe, Afrique, Amérique du Nord et du Sud, pour des entreprises privées ou des organisations publiques.
Prochaines sessions
Témoignages

Claire
Documentaliste
« Le formateur explique très bien tous les concepts, c’est limpide. Je recommande Serda pour son sérieux et son professionnalisme. »

Hamid
Data Manager
Un stage très vivant, je ne me suis pas ennuyé une seconde. Le formateur délivre un contenu très pragmatique avec un apprentissage par l’exemple. Stage très utile.

Aurélie
Archiviste
Merci pour la qualité et le sérieux de votre formation.
J’en garde un très bon souvenir tant au niveau de l’accueil, de l’apprentissage et du partage des connaissances professionnelles que des belles rencontres faîtes lors de cette semaine de stage.

Antoine
Veilleur
« Cette formation m’a donné des outils concrets pour vérifier la fiabilité des informations que je traite au quotidien. Je me sens désormais bien mieux armé pour repérer et contrer les fake news dans mon travail de veille. »

Marie-Christine
Cheffe de projet digital
« Très bonne interaction avec les participants, utilisation de cas concrets et des retours d’expérience des participants . Réponse à toutes les questions posées. Très clair sur des sujets parfois complexes. »

Estelle
Documentaliste, veilleur
« Programme très complet. A conseiller pour toutes personnes en charge de veille. »

Marie-Pierre
Documentaliste
Le formateur se met au niveau des participants avec un langage clair et compréhensif. Un contenu très riche et intéressant. Mes objectifs de formation sont parfaitement atteint.