Intelligence Artificielle

Préparer ses données et ses documents pour entrainer les IA

Former les documentalistes, archivistes et bibliothécaires aux méthodes et outils nécessaires pour préparer, structurer et enrichir les données textuelles et documents non structurés, afin de les rendre exploitables par des modèles d’intelligence artificielle (Machine Learning et IA générative).

Programme

Objectifs

Comprendre les fondamentaux de l’intelligence artificielle et ses applications en gestion documentaire

Structurer et préparer les données documentaires pour leur exploitation par l’IA

Nettoyer, normaliser et annoter les données textuelles pour l’entraînement des modèles d’IA

Construire et exploiter des jeux de données pour l’intelligence artificielle

Déployer et évaluer des modèles d’IA en environnement documentaire

Comprendre les bases de l’intelligence artificielle et son application aux documents et données non structurées

Définitions et concepts clés : IA, Machine Learning, NLP, IA générative
Rôles des documentalistes, archivistes et bibliothécaires dans l’écosystème IA
Exemples d’application de l’IA à la gestion documentaire et archivistique (OCR, extraction d’entités, recherche intelligente)
Enjeux éthiques et biais dans l’IA
Comment fonctionne l’IA générative ? De quelles données a-t-elle besoin ? Quels sont les modules qui interviennent ?
Guide méthodologique : s’appuyer sur ISO 42001

Caractérisation et structuration des données documentaires : comment les rendre exploitables

Typologie des données : structurées, semi-structurées, non structurées
Métadonnées et standards documentaires : Dublin Core, MARC, METS, PREMIS, TEI
Structuration et annotation des données textuelles pour l’IA
Prétraitement des documents : OCR, reconnaissance de la mise en page, tokenisation
Analyse et extraction automatique de métadonnées
Le rôle majeur des bases de données vectorielles

Nettoyage et normalisation des données textuelles : préparer des données textuelles pour l’entraînement de modèles d’IA

Techniques de nettoyage et prétraitement des textes :
- Suppression du bruit (caractères spéciaux, formats)
- Normalisation des textes (casse, ponctuation, stopwords, lemmatisation, stemming)
- Détection et correction des erreurs (fautes typographiques, OCR)
Standardisation des formats de données pour une meilleure interopérabilité : lien avec les ontologies
Gestion des jeux de données déséquilibrés

Annotation et enrichissement des données

Annotation manuelle vs automatique : outils et stratégies
Reconnaissance d’entités nommées (NER) : personnes, organisations, lieux, dates
Techniques d’enrichissement : ontologies, lexiques, bases de connaissances (Wikidata, DBpedia)
Introduction aux Corpus d’apprentissage supervisé
Annotation manuelle avec un outil comme Prodigy / Brat / Label Studio
Enrichissement d’un corpus avec des métadonnées externes

Apprendre à traiter des documents contenant texte, images et multimédia

Rappel des contraintes légales et réglementaires sur les données, les modèles et les usages (AI Act)
Extraction et traitement d’images à partir de documents
Technologies de reconnaissance de texte dans les images (OCR avancé : Tesseract, Transkribus)
Audio et transcription automatique avec Whisper
Structuration des documents multimodaux pour l’IA générative

Constitution de datasets pour l’IA et l’Open Data : constituer des jeux de données adaptés aux modèles d’apprentissage

Aligner les pratiques avec la gouvernance de l’intelligence artificielle et celle des données
Critères de qualité des datasets : diversité, échantillonnage, équilibre
Open Data et exploitation de jeux de données publics (data.gouv.fr, Europeana, Kaggle)
Introduction aux FAIR Data Principles (Findable, Accessible, Interoperable, Reusable)
Formatage et étiquetage des jeux de données pour entraînement IA

Parlons d’argent et d’autres coûts…

Estimer le coût de préparation des données d’entrainement
Estimer le coût d’entrainement des modèles
Valoriser les coûts sous différentes dimensions (monétaire, consommation énergétique, impact climatique et impact social)

Évaluation et mise en production des modèles

Critères d’évaluation d’un modèle NLP : précision, rappel, F1-score
Détection des biais algorithmiques dans les modèles entraînés
Déploiement d’un modèle en environnement documentaire
Bonnes pratiques pour l’intégration de l’IA dans les systèmes d’information documentaire

Une plateforme d'apprentissage en ligne

Nous proposons à nos stagiaires un accès gratuit à notre Learning Management System Moodle pour leur permettre d’apprendre plus efficacement à distance, accéder aux documents et communiquer avec l’équipe pédagogique après la formation.

Formateur·ice

Philippe Nieuwbourg

Philippe Nieuwbourg est depuis plus de 30 ans spécialisé dans les données. Il a formé et accompagné plusieurs centaines d’entreprises sur des sujets tels que la gouvernance et données et celle de l’intelligence artificielle. Il dispense des formations et donne des conférences en Europe, Afrique, Amérique du Nord et du Sud, pour des entreprises privées ou des organisations publiques.

Prochaines sessions

A venir Du : vendredi 11 septembre 2026
Au : vendredi 11 septembre 2026 Distanciel Je m'inscris

Témoignages

Claire

Documentaliste

« Le formateur explique très bien tous les concepts, c’est limpide. Je recommande Serda pour son sérieux et son professionnalisme. »

Hamid

Data Manager

Un stage très vivant, je ne me suis pas ennuyé une seconde. Le formateur délivre un contenu très pragmatique avec un apprentissage par l’exemple. Stage très utile.

Aurélie

Archiviste

Merci pour la qualité et le sérieux de votre formation.
J’en garde un très bon souvenir tant au niveau de l’accueil, de l’apprentissage et du partage des connaissances professionnelles que des belles rencontres faîtes lors de cette semaine de stage.

Antoine

Veilleur

« Cette formation m’a donné des outils concrets pour vérifier la fiabilité des informations que je traite au quotidien. Je me sens désormais bien mieux armé pour repérer et contrer les fake news dans mon travail de veille. »

Marie-Christine

Cheffe de projet digital

« Très bonne interaction avec les participants, utilisation de cas concrets et des retours d’expérience des participants . Réponse à toutes les questions posées. Très clair sur des sujets parfois complexes. »

Estelle

Documentaliste, veilleur

« Programme très complet. A conseiller pour toutes personnes en charge de veille. »

Marie-Pierre

Documentaliste

Le formateur se met au niveau des participants avec un langage clair et compréhensif. Un contenu très riche et intéressant. Mes objectifs de formation sont parfaitement atteint.

Par domaine

Par typologie

Formations sur mesure

Préparer ses données et ses documents pour entrainer les IA

Programme

Objectifs

Une plateforme d'apprentissage en ligne

Formateur·ice

Prochaines sessions

Témoignages

Ces autres formations pourraient vous intéresser

Initiation à l’IA générative : savoir prompter au quotidien

Booster la productivité de votre PME avec l’IA Générative

Savoir utiliser les IA génératives : ChatGPT, Gemini, etc.