17.06.2026

Annotation de plaques : données d'entraînement pour les modèles ANPR

La reconnaissance automatique de plaques (ANPR) ne vaut que ce que valent ses données d'entraînement. Ce guide détaille le pipeline ANPR et les couches d'annotation nécessaires : boîtes plaque et véhicule, points-clés de coins, labels OCR au caractère, ainsi que les cas limites, l'équilibre du jeu de données, les consignes, l'AQ et le RGPD.

Construire des données d'entraînement pour la reconnaissance de plaques (ANPR) : boîtes plaque et véhicule, points-clés, labels OCR au caractère, cas difficiles et RGPD.

Pourquoi la précision de l'ANPR se joue dans les données, pas dans le modèle

La reconnaissance automatique de plaques d'immatriculation (ANPR, ou LAPI) fait fonctionner discrètement une grande part de l'infrastructure de mobilité moderne : stationnement et péage, contrôle d'accès, analyse du trafic, systèmes des forces de l'ordre et gestion de flotte. Le principe paraît trivial : une caméra voit un véhicule, un modèle lit la plaque. En production, pourtant, la précision est rarement limitée par l'architecture du modèle. Elle l'est par les données dont il a appris, et précisément par la façon dont ces données ont été annotées.

Un système ANPR doit résoudre de façon fiable deux problèmes distincts : localiser la plaque dans une scène souvent encombrée, et lire correctement les caractères en conditions réelles. Les deux dépendent entièrement des annotations qui indiquent au modèle où se trouve la plaque et quels caractères elle porte, de manière cohérente, sur des dizaines de milliers de scènes.

Comment fonctionne réellement un pipeline ANPR

La plupart des systèmes ANPR en production ne sont pas un modèle unique mais un court pipeline, et chaque étape a besoin de son propre signal d'entraînement :

  • Détection : trouver le véhicule et la zone de plaque dans l'image.
  • Rectification : corriger la perspective et l'inclinaison pour rendre la plaque lisible.
  • Reconnaissance de caractères (OCR) : transcrire la séquence alphanumérique.
  • Post-traitement : appliquer les règles de format régionales et des seuils de confiance pour rejeter les lectures implausibles.

Une faiblesse à n'importe quelle étape plafonne la précision de tout le système, et chaque étape s'entraîne sur un type d'annotation différent.

Localiser une plaque n'est pas la lire

La détection de plaque est une tâche classique de vision par ordinateur : tracer une région serrée autour de la plaque et, idéalement, du véhicule auquel elle appartient. La lecture est au fond un problème d'OCR : transcrire des caractères parfois stylisés, espacés de façon inhabituelle ou partiellement dégradés. Traiter l'ANPR comme de la simple détection d'objets est la raison la plus fréquente pour laquelle les projets pilotes déçoivent une fois déployés. Les deux tâches exigent des schémas d'annotation différents, des contrôles qualité différents et souvent des compétences d'annotateur différentes.

Les couches d'annotation dont un jeu de données ANPR a besoin

Un jeu de données de plaques robuste combine en général plusieurs couches, chacune au service d'une étape du pipeline :

  • Boîtes englobantes de plaque : localisation serrée de la plaque, y compris à angle oblique et sous occlusion partielle.
  • Labels au caractère ou transcription OCR : chaque chiffre et lettre saisi dans l'ordre de lecture, pour que le modèle apprenne la séquence complète, pas seulement la présence d'une plaque.
  • Boîtes et classe de véhicule : relier chaque plaque au bon véhicule dans les scènes à plusieurs véhicules, et distinguer voiture, camion, moto et bus.
  • Points-clés des coins : les quatre coins de la plaque, permettant la rectification de perspective avant lecture.
  • Attributs : région ou pays de la plaque, simple ou double ligne, jour/nuit, météo, niveau d'occlusion et qualité d'image, afin d'évaluer la performance par condition.

Les cas difficiles qui font échouer l'ANPR sur le terrain

Les modèles entraînés sur des images propres et frontales s'effondrent dès qu'ils rencontrent le trafic réel. Un jeu de données prend de la valeur en incluant délibérément les situations qui provoquent les échecs :

  • Flou de mouvement dû aux véhicules rapides et aux voies de péage.
  • Éclairage difficile : scènes de nuit, contre-jour intense, reflets, halos de phares et capture infrarouge.
  • Plaques sales, déformées, endommagées ou partiellement masquées, y compris par les attelages et les cadres qui cachent des caractères.
  • Angles obliques et en hauteur des caméras sur portique, mât ou montées latéralement.
  • Diversité des formats régionaux : polices, jeux de caractères, dispositions simple ou double ligne et positions de plaquette ou de drapeau différentes selon les pays.
  • Caractères ambigus comme O contre 0, I contre 1, B contre 8, qui doivent être tranchés par des règles claires, pas par l'intuition de l'annotateur.

Si ces cas ne sont pas définis explicitement dans les consignes d'annotation, ils sont étiquetés de façon incohérente et le modèle apprend des signaux contradictoires.

Construire un jeu de données représentatif

La couverture compte plus que le volume brut. Un jeu de données qui surreprésente les plaques nationales, frontales et de jour obtiendra de bons scores en test et échouera sur la route. Les bons jeux de données ANPR équilibrent les régions, les heures, la météo, les géométries de caméra et les types de véhicules, et suivent cet équilibre explicitement. Lorsque des conditions rares sont difficiles à capturer, comme des formats de plaque inhabituels, une météo extrême ou des modes de défaillance précis, des données synthétiques ciblées et de l'augmentation peuvent combler les lacunes, à condition d'être validées contre des échantillons réels pour que le modèle ne surapprenne pas les artefacts synthétiques.

Les consignes et la cohérence déterminent le plafond

Parce que la lecture est exacte au caractère près, les petites incohérences s'accumulent vite. Les programmes efficaces définissent une taxonomie de caractères claire, des règles pour les glyphes ambigus et les jeux de caractères régionaux, des conventions pour les caractères illisibles, et l'ordre de lecture des plaques multilignes. L'assurance qualité doit inclure l'accord inter-annotateurs sur un échantillon partagé, des audits ciblés des cas difficiles ci-dessus, et une révision par consensus ou par expert en cas de lectures contradictoires. L'objectif est un jeu de données dont un second annotateur qualifié reproduirait les labels.

Confidentialité et RGPD intégrés dès le départ

Les plaques sont des données personnelles dans l'UE, les données d'entraînement ANPR relèvent donc pleinement du RGPD. Cela façonne tout le pipeline d'annotation : finalité définie, contrôle d'accès, stockage sécurisé, traçabilité et conservation documentées, et, quand c'est possible, pseudonymisation des visages et autres éléments identifiants qui ne sont pas la cible de l'annotation. Pour les déploiements sensibles, des équipes d'annotation basées dans l'UE et des flux auditables sont souvent une exigence plutôt qu'un simple atout.

L'ANPR fonctionne rarement seul

En pratique, la reconnaissance de plaques est une composante de systèmes de perception plus larges, comme les piles de conduite autonome, la surveillance du trafic et des incidents, l'infrastructure de ville intelligente, le péage et le stationnement, et la gestion de flotte. Dans ces systèmes, les plaques sont annotées aux côtés des véhicules, des voies, des panneaux et des piétons. Étiqueter tout cela de manière cohérente, avec des identités partagées d'une image à l'autre, produit des modèles qui coopèrent au sein d'un même pipeline au lieu d'être assemblés après coup.

Le rôle de DataVLab

DataVLab crée des données d'entraînement annotées pour exactement cette combinaison de tâches, de la localisation des plaques et des véhicules et des points-clés de coins jusqu'à la transcription au caractère et au contexte de scène. Pour la perspective véhicule et trafic, nous nous appuyons sur notre annotation pour l'ADAS et la conduite autonome, et pour la lecture précise des caractères sur nos pipelines d'annotation OCR et IA documentaire. Les deux fonctionnent sous assurance qualité multi-étapes et, pour les projets sensibles, dans des flux conformes au RGPD et basés dans l'UE.

Conclusion

La précision d'un système de reconnaissance de plaques se construit dans ses données bien avant d'être mesurée dans le modèle. Des boîtes englobantes serrées, des labels fidèles au caractère, des cas limites délibérément inclus, une couverture équilibrée et des processus conformes au RGPD sont ce qui distingue une démo ANPR d'un système qui fonctionne la nuit, sous la pluie et à grande vitesse.

Vous préparez un projet de reconnaissance de plaques ou de trafic ? Parlez-en à DataVLab au sujet des données d'entraînement qui le sous-tendent.

Sujets Principaux
Améliorez vos modèles IA avec des données annotées de qualité

Nos équipes vous accompagnent dans la création de données annotées fiables, prêtes à entraîner, évaluer et améliorer vos modèles IA.

Abstract blue gradient background with a subtle grid pattern.

Découvrez nos différents
Applications industrielles

Nos services d'étiquetage des données s'adressent à divers secteurs d'activité, garantissant des annotations de haute qualité adaptées à vos besoins spécifiques.

Services d'annotation de données

Exploitez tout le potentiel de vos applications d'IA grâce à notre technologie experte d'étiquetage des données. Nous garantissons des annotations de haute qualité qui accélèrent les délais de vos projets.

Services d'annotation d'images automobiles

Services d'annotation d'images automobiles pour les modèles ADAS, de conduite autonome et de perception des véhicules

Annotation de haute qualité pour les ensembles de données de caméras automobiles, notamment la détection d'objets, l'étiquetage des voies, la segmentation des éléments de circulation et la compréhension des scènes de conduite.

Services d'annotation de données de vol autonome

Services d'annotation de données de vol autonome pour la navigation, la perception aérienne et la sécurité des drones

Annotation de haute précision pour les systèmes de vol autonome, notamment la navigation par drone, la perception aérienne, la détection d'obstacles, la cartographie géospatiale et la fusion multicapteurs.

Services d'annotation des systèmes ADAS et de conduite autonome

Services d'annotation ADAS et de conduite autonome pour la perception, la sécurité et la compréhension des capteurs

Annotation de haute précision pour la conduite autonome, les modèles de perception ADAS, les systèmes de sécurité des véhicules et les jeux de données de capteurs multimodaux.

OCR et annotation de documents

Services d'OCR et d'annotation de documents pour l'IA

Annotation pour modèles OCR et IA : zones de texte, structure de page, champs de formulaire, écriture manuscrite et extraction de données.

Services d'annotation de données textuelles

Services d'annotation de données textuelles pour la classification des documents et la compréhension du contenu

Annotation de texte fiable à grande échelle pour la classification de documents, le balisage de sujets, l'extraction de métadonnées et l'étiquetage de contenu spécifique à un domaine.