Pourquoi la précision de l'ANPR se joue dans les données, pas dans le modèle
La reconnaissance automatique de plaques d'immatriculation (ANPR, ou LAPI) fait fonctionner discrètement une grande part de l'infrastructure de mobilité moderne : stationnement et péage, contrôle d'accès, analyse du trafic, systèmes des forces de l'ordre et gestion de flotte. Le principe paraît trivial : une caméra voit un véhicule, un modèle lit la plaque. En production, pourtant, la précision est rarement limitée par l'architecture du modèle. Elle l'est par les données dont il a appris, et précisément par la façon dont ces données ont été annotées.
Un système ANPR doit résoudre de façon fiable deux problèmes distincts : localiser la plaque dans une scène souvent encombrée, et lire correctement les caractères en conditions réelles. Les deux dépendent entièrement des annotations qui indiquent au modèle où se trouve la plaque et quels caractères elle porte, de manière cohérente, sur des dizaines de milliers de scènes.
Comment fonctionne réellement un pipeline ANPR
La plupart des systèmes ANPR en production ne sont pas un modèle unique mais un court pipeline, et chaque étape a besoin de son propre signal d'entraînement :
- Détection : trouver le véhicule et la zone de plaque dans l'image.
- Rectification : corriger la perspective et l'inclinaison pour rendre la plaque lisible.
- Reconnaissance de caractères (OCR) : transcrire la séquence alphanumérique.
- Post-traitement : appliquer les règles de format régionales et des seuils de confiance pour rejeter les lectures implausibles.
Une faiblesse à n'importe quelle étape plafonne la précision de tout le système, et chaque étape s'entraîne sur un type d'annotation différent.
Localiser une plaque n'est pas la lire
La détection de plaque est une tâche classique de vision par ordinateur : tracer une région serrée autour de la plaque et, idéalement, du véhicule auquel elle appartient. La lecture est au fond un problème d'OCR : transcrire des caractères parfois stylisés, espacés de façon inhabituelle ou partiellement dégradés. Traiter l'ANPR comme de la simple détection d'objets est la raison la plus fréquente pour laquelle les projets pilotes déçoivent une fois déployés. Les deux tâches exigent des schémas d'annotation différents, des contrôles qualité différents et souvent des compétences d'annotateur différentes.
Les couches d'annotation dont un jeu de données ANPR a besoin
Un jeu de données de plaques robuste combine en général plusieurs couches, chacune au service d'une étape du pipeline :
- Boîtes englobantes de plaque : localisation serrée de la plaque, y compris à angle oblique et sous occlusion partielle.
- Labels au caractère ou transcription OCR : chaque chiffre et lettre saisi dans l'ordre de lecture, pour que le modèle apprenne la séquence complète, pas seulement la présence d'une plaque.
- Boîtes et classe de véhicule : relier chaque plaque au bon véhicule dans les scènes à plusieurs véhicules, et distinguer voiture, camion, moto et bus.
- Points-clés des coins : les quatre coins de la plaque, permettant la rectification de perspective avant lecture.
- Attributs : région ou pays de la plaque, simple ou double ligne, jour/nuit, météo, niveau d'occlusion et qualité d'image, afin d'évaluer la performance par condition.
Les cas difficiles qui font échouer l'ANPR sur le terrain
Les modèles entraînés sur des images propres et frontales s'effondrent dès qu'ils rencontrent le trafic réel. Un jeu de données prend de la valeur en incluant délibérément les situations qui provoquent les échecs :
- Flou de mouvement dû aux véhicules rapides et aux voies de péage.
- Éclairage difficile : scènes de nuit, contre-jour intense, reflets, halos de phares et capture infrarouge.
- Plaques sales, déformées, endommagées ou partiellement masquées, y compris par les attelages et les cadres qui cachent des caractères.
- Angles obliques et en hauteur des caméras sur portique, mât ou montées latéralement.
- Diversité des formats régionaux : polices, jeux de caractères, dispositions simple ou double ligne et positions de plaquette ou de drapeau différentes selon les pays.
- Caractères ambigus comme O contre 0, I contre 1, B contre 8, qui doivent être tranchés par des règles claires, pas par l'intuition de l'annotateur.
Si ces cas ne sont pas définis explicitement dans les consignes d'annotation, ils sont étiquetés de façon incohérente et le modèle apprend des signaux contradictoires.
Construire un jeu de données représentatif
La couverture compte plus que le volume brut. Un jeu de données qui surreprésente les plaques nationales, frontales et de jour obtiendra de bons scores en test et échouera sur la route. Les bons jeux de données ANPR équilibrent les régions, les heures, la météo, les géométries de caméra et les types de véhicules, et suivent cet équilibre explicitement. Lorsque des conditions rares sont difficiles à capturer, comme des formats de plaque inhabituels, une météo extrême ou des modes de défaillance précis, des données synthétiques ciblées et de l'augmentation peuvent combler les lacunes, à condition d'être validées contre des échantillons réels pour que le modèle ne surapprenne pas les artefacts synthétiques.
Les consignes et la cohérence déterminent le plafond
Parce que la lecture est exacte au caractère près, les petites incohérences s'accumulent vite. Les programmes efficaces définissent une taxonomie de caractères claire, des règles pour les glyphes ambigus et les jeux de caractères régionaux, des conventions pour les caractères illisibles, et l'ordre de lecture des plaques multilignes. L'assurance qualité doit inclure l'accord inter-annotateurs sur un échantillon partagé, des audits ciblés des cas difficiles ci-dessus, et une révision par consensus ou par expert en cas de lectures contradictoires. L'objectif est un jeu de données dont un second annotateur qualifié reproduirait les labels.
Confidentialité et RGPD intégrés dès le départ
Les plaques sont des données personnelles dans l'UE, les données d'entraînement ANPR relèvent donc pleinement du RGPD. Cela façonne tout le pipeline d'annotation : finalité définie, contrôle d'accès, stockage sécurisé, traçabilité et conservation documentées, et, quand c'est possible, pseudonymisation des visages et autres éléments identifiants qui ne sont pas la cible de l'annotation. Pour les déploiements sensibles, des équipes d'annotation basées dans l'UE et des flux auditables sont souvent une exigence plutôt qu'un simple atout.
L'ANPR fonctionne rarement seul
En pratique, la reconnaissance de plaques est une composante de systèmes de perception plus larges, comme les piles de conduite autonome, la surveillance du trafic et des incidents, l'infrastructure de ville intelligente, le péage et le stationnement, et la gestion de flotte. Dans ces systèmes, les plaques sont annotées aux côtés des véhicules, des voies, des panneaux et des piétons. Étiqueter tout cela de manière cohérente, avec des identités partagées d'une image à l'autre, produit des modèles qui coopèrent au sein d'un même pipeline au lieu d'être assemblés après coup.
Le rôle de DataVLab
DataVLab crée des données d'entraînement annotées pour exactement cette combinaison de tâches, de la localisation des plaques et des véhicules et des points-clés de coins jusqu'à la transcription au caractère et au contexte de scène. Pour la perspective véhicule et trafic, nous nous appuyons sur notre annotation pour l'ADAS et la conduite autonome, et pour la lecture précise des caractères sur nos pipelines d'annotation OCR et IA documentaire. Les deux fonctionnent sous assurance qualité multi-étapes et, pour les projets sensibles, dans des flux conformes au RGPD et basés dans l'UE.
Conclusion
La précision d'un système de reconnaissance de plaques se construit dans ses données bien avant d'être mesurée dans le modèle. Des boîtes englobantes serrées, des labels fidèles au caractère, des cas limites délibérément inclus, une couverture équilibrée et des processus conformes au RGPD sont ce qui distingue une démo ANPR d'un système qui fonctionne la nuit, sous la pluie et à grande vitesse.
Vous préparez un projet de reconnaissance de plaques ou de trafic ? Parlez-en à DataVLab au sujet des données d'entraînement qui le sous-tendent.




