02.07.2026

Créer un jeu de données de référence pour le contrôle qualité des annotations

Un jeu de données de référence sert de vérité terrain pour évaluer les annotateurs, contrôler la cohérence et mesurer la qualité d’un pipeline d’annotation. Ce guide détaille sa création, sa validation, sa maintenance et son usage dans les workflows IA.

Méthode pour créer un jeu de données de référence, mesurer la qualité des annotations et fiabiliser les pipelines de données IA.

Pourquoi un jeu de données de référence est indispensable

Dans le monde de l’annotation des données, la cohérence et la précision sont primordiales. Un jeu de données de référence est un ensemble d’échantillons de données soigneusement sélectionnés avec des annotations validées par des experts. Il est utilisé comme référence pour évaluer les performances des annotateurs humains et des modèles de machine learning.

Sans norme de référence, l’assurance qualité devient subjective. Vous vous retrouvez à comparer des annotations sans point de référence, ce qui entraîne des incohérences et une éventuelle dérive du modèle.

Un solide jeu de données de référence vous aide à :

  • Évaluer objectivement les performances des annotateurs
  • Valider les modèles ML avec des sorties correctes connues
  • Détecter rapidement les erreurs d’annotation et les incohérences
  • Aligner les équipes sur les directives d’annotation
  • Former et calibrer efficacement les nouveaux annotateurs

Dans les secteurs à enjeux élevés, tels que la santé, les véhicules autonomes et l’imagerie satellite, ne pas disposer d’un jeu de référence fiable n’est pas seulement risqué, cela peut être inacceptable sur le plan juridique et éthique.

Qu’est-ce qui fait d’un jeu de données une référence fiable ?

Le terme « jeu de référence » n’est pas simplement une expression accrocheuse, c’est une déclaration de confiance, de rigueur et de qualité. Dans le contexte de l’annotation des données, cela signifie que le jeu de données est considéré comme une référence fiable: suffisamment précis, sans ambiguïté et représentatif pour servir de référence pour tous les workflows de contrôle qualité, de validation de modèles et d’annotation.

Qu’est-ce qui élève un jeu de données à ce niveau ? Découvrons les principales qualités :

✅ Annotations validées par des experts

Les jeux de données de référence sont soit étiquetés directement par des experts du domaine (tels que des radiologues certifiés ou des agronomes titulaires d’un doctorat), soit par les annotateurs les plus performants sous la supervision d’experts. Chaque étiquette est minutieusement revue, débattue si nécessaire et finalisée en toute confiance.

  • Dans un projet d’IA en radiologie, par exemple, une « annotation de référence » peut être le résultat de trois annotations indépendantes effectuées par des radiologues, résolues par consensus.
  • Pour les jeux de données sur la conduite autonome, les étiquettes de référence peuvent provenir d’annotateurs principaux ayant plus de 10 000 heures d’expérience en étiquetage, validées par des spécialistes de l’assurance qualité.

✅ Respect des directives d’annotation

Il ne s’agit pas seulement de savoir qui a fait l’annotation, il s’agit également de savoir comment. Les jeux de données de référence sont parfaitement alignés sur vos directives relatives aux annotations, qui doit être sans ambiguïté et dont les versions doivent être contrôlées. Si une étiquette peut être interprétée de plusieurs manières, elle n’est pas encore prête pour un jeu de référence.

  • Si vos directives indiquent « étiqueter tous les véhicules en stationnement », alors chaque véhicule garé doit être annoté de manière cohérente dans le jeu de référence.
  • Les cas extrêmes doivent être résolus clairement, et les raisons doivent être documentées pour faciliter la QA et l’intégration.

✅ Cohérence entre les échantillons

Ce que vous ne voulez pas, c’est qu’un échantillon soit annoté de manière stricte et un autre de manière approximative. Les jeux de données de référence maintiennent une cohérence intra-étiquette, même entre plusieurs annotateurs ou sessions. Cela inclut :

  • Marges et ajustement uniformes des boîtes englobantes
  • Utilisation identique des classes dans des scènes similaires
  • Précision du placement des points clés ou des contours des masques de segmentation

Vous souhaitez que votre jeu de données reflète à quoi ressemble l’annotation parfaite à chaque fois, et pas seulement la plupart du temps.

✅ Représentatif des données terrain

Une véritable référence reflète la diversité de votre environnement de déploiement :

  • Variations d’éclairage (jour/nuit)
  • Conditions météorologiques (brouillard, pluie, neige)
  • Bruit, occlusions, flou de mouvement
  • Déséquilibre de classes ou scénarios rares (par exemple, travailleurs au sol, chaussée fissurée)

Cela garantit que votre jeu de référence n’est pas simplement propre, mais aussi authentique. Sinon, vos tests d’assurance qualité et la validation de votre modèle ne seront pas réalistes.

✅ Immuable et auditable

Pour garantir la reproductibilité et l’équité de la notation de l’assurance qualité, les annotations de référence doivent être versionnées et immuables pendant l’utilisation. Cela ne signifie pas qu’elles ne sont jamais mises à jour, mais que les mises à jour sont suivies de manière transparente. Vous devriez toujours être en mesure de répondre :

  • Qui les a annotées ?
  • Quand ont-elles été mises à jour pour la dernière fois ?
  • Quelle version de la directive a été utilisée ?

Ce type de piste vérifiable devient crucial dans les secteurs réglementés (par exemple, la santé, la finance ou l’aviation) et lorsque plusieurs fournisseurs ou équipes sont impliqués.

✅ Justification documentée et gestion des cas extrêmes

Enfin, chaque décision délicate doit être motivée. Avez-vous classé ce petit objet comme « outil » ou comme « pièce de machine » ? Le jeu de référence devrait inclure des notes ou des étiquettes expliquant pourquoi.

  • « Classé comme “outil” parce qu’il est actionné manuellement et portatif. »
  • « Classé comme « inconnu » en raison d’une occlusion partielle. »

Ces notes contribuent non seulement à l’assurance qualité, mais elles font également partie du mémoire organisationnelle de votre jeu de données.

Quand établir votre jeu de données de référence ?

Le plus tôt possible — idéalement avant le début de l’annotation à grande échelle.

La création d’un jeu de données de référence n’est pas quelque chose que vous pouvez faire plus tard. C’est la base sur laquelle repose l’ensemble de votre pipeline d’annotations. Pourtant, il est souvent négligé dans la précipitation pour commencer à annoter à grande échelle.

Voici comment penser au timing :

🛠️ Avant le début de l’annotation (scénario idéal)

Si vous créez un jeu de données à partir de zéro, voici le meilleur scénario :

  • Commencez par une phase pilote de 200 à 1 000 échantillons.
  • Créez des directives d’annotation et affinez-les grâce à des avis d’experts.
  • Étiquetez le kit pilote avec des experts ou des annotateurs principaux.
  • Utilisez-le comme jeu de référence pour la v1.

Cette approche vous aide à :

  • Identifier les ambiguïtés des directives
  • Tester les outils et les workflows
  • Aligner les équipes dès le début

Vous économisez beaucoup de temps et d’argent en évitant les retouches.

🔄 Pendant un projet en cours (toujours très utile)

Supposons que vous ayez déjà étiqueté 50 000 images. Vous pouvez toujours créer un jeu de référence en :

  • Échantillonnez 500 à 1 000 exemples divers provenant de votre jeu de données.
  • Réannotez-les avec vos annotateurs ou experts du domaine les plus fiables.
  • Validez-les par rapport aux directives mises à jour.
  • Conservez ce sous-ensemble comme référence pour l’assurance qualité à l’avenir.

Ce pivot intermédiaire vous donne :

  • Un moyen de détecter les incohérences
  • Une référence pour mesurer les besoins de réannotation
  • Une base pour la formation ou le recalibrage des équipes d’annotation

C’est un bon moyen de reprendre le contrôle de la qualité, même si vous êtes à mi-chemin d’un projet.

📈 Après le déploiement du modèle (trop tard, mais possible)

Attendre la fin du déploiement du modèle pour définir votre jeu de référence est loin d’être idéal, mais c’est quand même mieux que de voler à l’aveugle. Dans ce cas :

  • Utilisez l’analyse des erreurs de votre modèle déployé pour identifier les exemples problématiques.
  • Constituez un jeu de référence à partir de faux positifs, de faux négatifs et de cas extrêmes.
  • Utilisez-le pour suivre l’évolution des performances au fil du temps.

Vous pouvez ensuite l’utiliser comme jeu de données d’assurance qualité post-hoc pour évaluer la précision de l’annotateur ou mettre à jour les règles d’annotation pour le réentraînement.

🧭 Définissez tôt la cadence de révision

Que vous établissiez votre jeu de référence dès le départ ou plus tard, définir une cadence de révision régulière:

  • À chaque nouvelle mise à jour des directives ? Réévaluez le jeu de référence.
  • Tous les 3 à 6 mois ? Rééchantillonnez et ajoutez de nouveaux cas.
  • Après une expansion vers de nouvelles zones géographiques ou de nouveaux domaines ? Établissez des normes de référence adaptées à ce domaine.

Cela garantit que votre jeu de référence reste pertinent au fur et à mesure de l’évolution de vos données et de vos cas d’usage de l’IA.

Étape par étape : créer un jeu de données de référence

Décomposons-le en un processus pratique et reproductible.

Définissez d’abord vos directives d’annotation

La fiabilité de votre jeu de référence dépend des directives qui le sous-tendent. Assurez-vous que votre guide d’annotation est :

  • Transparent: Aucune ambiguïté quant à ce qu’il faut étiqueter ou comment.
  • Visuel: inclut des exemples, des cas extrêmes et des non-exemples.
  • Contrôle de version: les mises à jour sont suivies et communiquées.

Découvrez l’open source Modèle de guide d’annotation pour vous inspirer.

Sélectionnez les bons échantillons de données

Évitez l’échantillonnage aléatoire. Choisissez des données qui :

  • Représentent des scénarios terrain (jour/nuit, bruit, occlusion)
  • Couvrent toutes les classes et tous les cas extrêmes connus
  • Sont diversifiées selon la géographie, l’environnement ou la démographie
  • Comprennent des échantillons difficiles sujets à des désaccords entre les annotateurs

Vous voulez un ensemble d’échantillons de référence, pas une sélection approximative.

Impliquez des experts ou des annotateurs seniors

Confiez la création du jeu de référence à :

  • Experts métier du domaine
  • Annotateurs principaux avec une précision éprouvée
  • Réviseurs chargés du consensus dans les workflows multi-annotateurs

Visez au moins deux évaluations d’experts par élément et un dernier contrôle d’assurance qualité par un tiers.

Mettez en place des processus de revue et de résolution des conflits

Les désaccords sont inévitables. Vous aurez besoin d’un système pour :

  • Enregistrer les désaccords
  • Les résoudre par arbitrage expert
  • Documenter la justification de chaque décision

Un outil comme FiftyOne peut aider à inspecter et visualiser des échantillons versionnés.

Validez les annotations de manière statistique

Une fois que votre jeu de référence initial est créé :

  • Calculez l’accord inter-annotateurs (IAA) (par exemple, Kappa de Cohen)
  • Utilisez des matrices de confusion pour comprendre les erreurs courantes
  • Recoupez avec les prédictions des modèles de production existants

Cela garantit que votre jeu de référence est à la fois cohérent et informatif.

Stockez et versionnez correctement le jeu de référence

Dans votre plateforme de données ou votre pipeline MLOps, étiquetez des échantillons de référence avec :

  • gold = true
  • source = expert_reviewed
  • version = 1.0

Vous pouvez utiliser des champs de métadonnées sur des plateformes telles que SuperAnnotate ou Encord pour gérer les échantillons de référence de manière indépendante.

Comment utiliser un jeu de données de référence en matière d’assurance qualité

Une fois établi, le jeu de données de référence devient le cœur de votre stratégie de qualité d’annotation.

Analyse comparative de l’assurance qualité

Comparez les nouvelles annotations au jeu de référence pour évaluer :

  • Précision: Les étiquettes sont-elles correctement appliquées ?
  • Rappel: Toutes les étiquettes requises sont-elles présentes ?
  • Accord: Les annotations correspondent-elles à un écart acceptable ?

Utilisez des scripts automatisés ou des outils d’assurance qualité intégrés pour effectuer des comparaisons à grande échelle.

Intégration et formation des annotateurs

Commencez chaque nouvel annotateur par une évaluation de référence :

  • Fournissez des exemples tirés du jeu de référence
  • Testez-les sur des échantillons non divulgués
  • Mesurez la précision par rapport au jeu de référence

Cela permet d’éliminer les annotateurs mal alignés avant qu’ils n’entrent en contact avec les données de production.

Surveillance continue

L’assurance qualité des annotations n’est pas une tâche ponctuelle. Avec un jeu de données de référence, vous pouvez :

  • Auditer périodiquement les lots actifs
  • Détecter la dérive des concepts ou des étiquettes
  • Former les annotateurs ou mettre à jour les directives selon les besoins

Certaines entreprises ont même mis en place des « classements assurance qualité » pour gamifier l’amélioration des performances.

Les pièges à éviter

La création d’un jeu de données de référence est efficace, mais uniquement si vous évitez ces pièges courants :

Le traiter comme un actif figé

Votre jeu de référence doit évoluer avec :

  • Changements apportés aux directives
  • Élargissement des définitions de classes
  • Des cas avancés émergents

Planifiez des révisions périodiques et des mises à jour de version.

Trop peu d’échantillons

Un jeu de référence avec seulement 20 images ne sera pas une bonne généralisation. En fonction de votre domaine, visez :

  • 1 à 5 % du total de votre jeu de données, ou
  • 500 à 2 000 images pour des projets de taille moyenne

Absence de documentation

Documentez toujours :

  • Qui a annoté chaque élément
  • Quand et pourquoi des modifications ont été apportées
  • Désaccords et résolutions

Cela garantit la traçabilité et la confiance, en particulier dans les secteurs réglementés tels que la santé ou la finance.

Étude de cas : Annotation d’images médicales en radiologie

Une équipe travaillant sur un modèle d’IA radiologique a commencé par annoter des milliers de radiographies pulmonaires et de tomodensitogrammes. Pour garantir une précision diagnostique élevée, ils ont créé un jeu de données de référence avec l’aide de radiologues certifiés en France et au Liban.

Les principales étapes étaient les suivantes :

  • Création de définitions de classes détaillées (par exemple, « atélectasie » ou « effusion pleurale »)
  • Triage des cas extrêmes avec des radiologues en milieu hospitalier
  • Réalisation d’une analyse des accords statistiques avec les médecins résidents
  • Utilisation du jeu de référence pour former les annotateurs débutants et calibrer les performances des modèles

Le résultat ? La précision du modèle s’est améliorée de 14 % après l’alignement de référence, et le temps d’assurance qualité a chuté de 40 %.

Intégrer le jeu de référence dans les workflows MLOps

Un jeu de données de référence est plus efficace lorsqu’il est entièrement intégré à vos opérations de machine learning. Voici comment procéder :

Contrôle de version avec DVC ou Git

Stockez des versions d’images, des étiquettes et des métadonnées de référence dans DVC ou Git LFS pour la traçabilité. Cela favorise la reproductibilité d’une expérience à l’autre.

Intégration des pipelines

Dans les pipelines CI/CD :

  • Inclure des échantillons de référence dans chaque cycle de validation du modèle
  • Signaler les échantillons de référence mal classés pour revue
  • Utilisez les scores d’assurance qualité pour faciliter le déploiement de nouveaux modèles

Cela permet de créer une culture de responsabilité et de confiance.

Compatibilité des plateformes

De nombreux outils d’annotation modernes tels que Kili Technology, Scale AI, et Labelbox prennent en charge le marquage des échantillons de référence et les workflows de contrôle qualité. Choisissez une plateforme qui prend en charge :

  • Versionnage
  • Pistes d’audit
  • Examens basés sur les rôles
  • Accès à l’API pour une assurance qualité automatisée

Quand mettre à jour ou retirer votre jeu de référence

Même un jeu de référence peut perdre en pertinence. Vous devez revoir et mettre à jour votre jeu de données dans les cas suivants :

  • Les directives sont mises à jour ou de nouvelles classes sont ajoutées
  • Les modèles d’erreur des annotateurs changent de manière significative
  • Les modèles commencent à mal classer des échantillons de référence auparavant stables
  • Vous entrez de nouveaux domaines géographiques ou de nouveaux domaines d’utilisation

Tenez un journal des modifications et envisagez d’utiliser le versionnage sémantique (par exemple, v1.0 → v1.1) pour les mises à jour.

Réflexions finales

Un jeu de données de référence n’est pas un luxe : c’est la base de l’assurance qualité des annotations et du succès de vos modèles d’IA. Sa construction nécessite de la rigueur, une expertise du domaine et une amélioration continue. Mais une fois en place, il renforce chaque élément de votre workflow, de l’annotation au déploiement de modèles, avec confiance et transparence.

Qu’il s’agisse d’annoter des radiographies, des panneaux de signalisation ou des cultures satellites, investir dans votre jeu de référence aujourd’hui vous apportera des gains en termes de précision, de cohérence et de confiance demain.

💡 Rendons votre jeu de données vraiment fiable

Vous souhaitez mettre en place un workflow de contrôle qualité des annotations à toute épreuve ? Chez DataVLab, nous vous aidons à créer, gérer et faire évoluer vos jeux de données de référence grâce à l’assistance d’experts et à des conseils indépendants de la plateforme. Voyons comment rendre votre processus d’annotation de données non seulement meilleur, mais aussi plus fiable. Contactez DataVLab aujourd’hui.

Sujets Principaux
Améliorez vos modèles IA avec des données annotées de qualité

Nos équipes vous accompagnent dans la création de données annotées fiables, prêtes à entraîner, évaluer et améliorer vos modèles IA.

Abstract blue gradient background with a subtle grid pattern.

Découvrez nos différents
Applications industrielles

Nos services d'étiquetage des données s'adressent à divers secteurs d'activité, garantissant des annotations de haute qualité adaptées à vos besoins spécifiques.

Services d'annotation de données

Exploitez tout le potentiel de vos applications d'IA grâce à notre technologie experte d'étiquetage des données. Nous garantissons des annotations de haute qualité qui accélèrent les délais de vos projets.

Externalisation de l’annotation vidéo

Services d’externalisation de l’annotation vidéo pour les équipes de vision par ordinateur

Annotation vidéo évolutive avec intervention humaine pour le suivi, la reconnaissance des actions, la surveillance de la sécurité et l’entraînement de modèles de vision par ordinateur.

Annotation des données vocales

Annotation des données vocales

Annotation vocale pour l’ASR, la diarisation des locuteurs, l’IA vocale et l’entraînement de modèles linguistiques.

Annotation audio

Services d'annotation audio pour l'IA vocale et acoustique

Annotation audio de bout en bout pour la parole, les sons environnementaux, les centres d'appels et les systèmes d'écoute automatique.