Intelligence Artificielle

Préparer ses données et ses documents pour entrainer les IA

Former les documentalistes, archivistes et bibliothécaires aux méthodes et outils nécessaires pour préparer, structurer et enrichir les données textuelles et documents non structurés, afin de les rendre exploitables par des modèles d’intelligence artificielle (Machine Learning et IA générative).

Programme

Objectifs

Comprendre les fondamentaux de l’intelligence artificielle et ses applications en gestion documentaire
Structurer et préparer les données documentaires pour leur exploitation par l’IA
Nettoyer, normaliser et annoter les données textuelles pour l’entraînement des modèles d’IA
Construire et exploiter des jeux de données pour l’intelligence artificielle
Déployer et évaluer des modèles d’IA en environnement documentaire
  • Définitions et concepts clés : IA, Machine Learning, NLP, IA générative
  • Rôles des documentalistes, archivistes et bibliothécaires dans l’écosystème IA
  • Exemples d’application de l’IA à la gestion documentaire et archivistique (OCR, extraction d’entités, recherche intelligente)
  • Enjeux éthiques et biais dans l’IA
  • Comment fonctionne l’IA générative ? De quelles données a-t-elle besoin ? Quels sont les modules qui interviennent ?
  • Guide méthodologique : s’appuyer sur ISO 42001
  • Typologie des données : structurées, semi-structurées, non structurées
  • Métadonnées et standards documentaires : Dublin Core, MARC, METS, PREMIS, TEI
  • Structuration et annotation des données textuelles pour l’IA
  • Prétraitement des documents : OCR, reconnaissance de la mise en page, tokenisation
  • Analyse et extraction automatique de métadonnées
  • Le rôle majeur des bases de données vectorielles
  • Techniques de nettoyage et prétraitement des textes :
    • Suppression du bruit (caractères spéciaux, formats)
    • Normalisation des textes (casse, ponctuation, stopwords, lemmatisation, stemming)
    • Détection et correction des erreurs (fautes typographiques, OCR)
  • Standardisation des formats de données pour une meilleure interopérabilité : lien avec les ontologies
  • Gestion des jeux de données déséquilibrés
  • Annotation manuelle vs automatique : outils et stratégies
  • Reconnaissance d’entités nommées (NER) : personnes, organisations, lieux, dates
  • Techniques d’enrichissement : ontologies, lexiques, bases de connaissances (Wikidata, DBpedia)
  • Introduction aux Corpus d’apprentissage supervisé
  • Annotation manuelle avec un outil comme Prodigy / Brat / Label Studio
  • Enrichissement d’un corpus avec des métadonnées externes
  • Rappel des contraintes légales et réglementaires sur les données, les modèles et les usages (AI Act)
  • Extraction et traitement d’images à partir de documents
  • Technologies de reconnaissance de texte dans les images (OCR avancé : Tesseract, Transkribus)
  • Audio et transcription automatique avec Whisper
  • Structuration des documents multimodaux pour l’IA générative
  • Aligner les pratiques avec la gouvernance de l’intelligence artificielle et celle des données
  • Critères de qualité des datasets : diversité, échantillonnage, équilibre
  • Open Data et exploitation de jeux de données publics (data.gouv.fr, Europeana, Kaggle)
  • Introduction aux FAIR Data Principles (Findable, Accessible, Interoperable, Reusable)
  • Formatage et étiquetage des jeux de données pour entraînement IA
  • Estimer le coût de préparation des données d’entrainement
  • Estimer le coût d’entrainement des modèles
  • Valoriser les coûts sous différentes dimensions (monétaire, consommation énergétique, impact climatique et impact social)
  • Critères d’évaluation d’un modèle NLP : précision, rappel, F1-score
  • Détection des biais algorithmiques dans les modèles entraînés
  • Déploiement d’un modèle en environnement documentaire
  • Bonnes pratiques pour l’intégration de l’IA dans les systèmes d’information documentaire

Une plateforme d'apprentissage en ligne

Nous proposons à nos stagiaires un accès gratuit à notre Learning Management System Moodle pour leur permettre d’apprendre plus efficacement à distance, accéder aux documents et communiquer avec l’équipe pédagogique après la formation.

Plateforme d’apprentissage en ligne

Formateur·ice

Philippe Nieuwbourg
Philippe Nieuwbourg

Philippe Nieuwbourg est depuis plus de 30 ans spécialisé dans les données. Il a formé et accompagné plusieurs centaines d’entreprises sur des sujets tels que la gouvernance et données et celle de l’intelligence artificielle. Il dispense des formations et donne des conférences en Europe, Afrique, Amérique du Nord et du Sud, pour des entreprises privées ou des organisations publiques.

Prochaines sessions

A venir Du : mercredi 24 septembre 2025
Au : mercredi 24 septembre 2025
Distanciel Je m'inscris

Témoignages

Ces autres formations pourraient vous intéresser

FAD33

Initiation à l’IA générative : savoir prompter au quotidien

0,5 jour

Présentiel – Distanciel

FAD115

L’IA générative au service de vos formations

1 jour

Présentiel – Distanciel

FA98

Rechercher et traiter l’information scientifique avec l’Intelligence artificielle

1 jour

Présentiel – Distanciel