July 18, 2025

Comment créer des ensembles de données de panneaux de signalisation pour l'IA de conduite autonome

Alors que les véhicules autonomes (AV) deviennent une réalité, la reconnaissance des panneaux de signalisation est devenue la pierre angulaire de la sécurité routière et de la conformité légale pour les systèmes de conduite autonome. Cet article explique en détail comment créer des ensembles de données de panneaux de signalisation robustes, diversifiés et précis pour entraîner des modèles d'IA alimentant ces véhicules. De la collecte de données réelles à la gestion de classes rares et à la garantie d'une généralisation internationale, nous explorons des étapes pratiques et des informations stratégiques pour les ingénieurs, les gestionnaires de jeux de données et les équipes d'IA qui construisent l'avenir de la mobilité.

Apprenez à créer des ensembles de données de panneaux de signalisation pour améliorer la sécurité et la précision des systèmes de conduite autonome

Pourquoi la reconnaissance des panneaux de signalisation n'est pas négociable en conduite autonome

Dans l'environnement dynamique de la circulation routière, les panneaux de signalisation constituent des signaux essentiels pour la navigation, la conformité légale et la sécurité des conducteurs. Pour les systèmes de conduite autonome, comprendre les panneaux de signalisation n'est pas une option, c'est obligatoire.

Qu'il s'agisse d'un panneau d'arrêt, d'une zone interdite aux dépassements ou d'un avertissement de passage à niveau scolaire, le moteur de décision du véhicule repose sur une interprétation précise et en temps réel des panneaux. Le fait de ne pas détecter ou de mal classer un panneau peut entraîner une infraction légale ou, pire encore, un accident.

C'est pourquoi les modèles d'IA pour la conduite autonome doivent être entraînés sur des ensembles de données de panneaux de signalisation volumineux, diversifiés et très précis. Ces ensembles de données constituent la base des modèles de classification, de détection et parfois même de segmentation intégrés à la pile de perception des systèmes audiovisuels.

Qu'est-ce qui constitue un bon ensemble de données de panneaux de signalisation ?

Clarifions ce qui distingue un ensemble de données très performant d'un jeu de données médiocre dans le contexte de la reconnaissance des panneaux de signalisation :

  • Une large couverture géographique (urbain/rural, différents pays)
  • Différents types de panneaux (réglementaire, d'avertissement, d'information)
  • Représentation équilibrée de cours fréquents et rares
  • Plusieurs conditions d'éclairage et de météo
  • Imagerie claire et haute résolution
  • Diversité contextuelle (arrière-plans, occlusions, angles variés)

Ensembles de données sur la conduite autonome tels que Ensemble de données de panneaux de signalisation Mapillary et Ensemble de données de panneaux de signalisation LISA constituent un excellent point de départ, mais de nombreux projets nécessitent des ensembles de données personnalisés pour combler les lacunes ou répondre aux nuances réglementaires locales.

🧠 Commencez par une stratégie d'ensemble de données claire

Avant de collecter des gigaoctets de séquences ou d'investir dans des outils d'annotation, prenez du recul et élaborez une stratégie solide en matière de jeux de données. Il ne s'agit pas simplement d'une liste de contrôle technique, mais d'un plan qui aligne les capacités de votre modèle d'IA sur vos objectifs commerciaux, vos besoins réglementaires et vos environnements de déploiement.

Définissez d'abord des objectifs clairs

Commencez par répondre à ces questions fondamentales :

  • Quelle est l'application principale ? Votre système audiovisuel est-il destiné à la conduite sur autoroute, aux environnements urbains ou à la livraison du dernier kilomètre dans les zones suburbaines ?
  • Quels types de panneaux de signalisation votre modèle doit-il détecter ? L'objectif est-il une couverture complète (tous les panneaux de signalisation publics) ou une détection ciblée (par exemple, réglementaire uniquement) ?
  • Quelles sont les tâches que vous soutenez ? Détection, classification, suivi ou système de décision basé sur la fusion ?

Vos réponses détermineront la granularité des annotations, la diversité des données et le volume requis. Par exemple, un classificateur à panneaux d'arrêt uniquement pour les robots de livraison peut s'appuyer sur des ensembles de données plus petits et hautement spécialisés. En revanche, un système de perception complet pour les robo-taxis nécessite une approche multi-pays et multiformat.

Définir la portée géographique avec l'objectif

Ne considérez pas la localisation comme une question secondaire. La conception des panneaux de signalisation, l'état des routes et même le comportement des conducteurs varient considérablement d'une région à l'autre. Clarifier :

  • Géographie primaire: Où le système sera-t-il initialement déployé ?
  • Géographies secondaires: Y a-t-il des régions à développer au cours des 6 à 12 prochains mois ?
  • Normes qui se chevauchent: Existe-t-il des réglementations ISO, ONU ou spécifiques à un pays qui affectent la signalisation ?

Cela permet de tout savoir, de la taxonomie des classes aux styles visuels (par exemple, les signes codés par couleur, les icônes par rapport au texte). Vous ne voulez pas que votre modèle échoue car il n'a jamais vu de signe « Rendement » en forme de triangle pointant vers le bas au lieu d'un signe rectangulaire.

Harmoniser avec les exigences réglementaires

Dans des régions comme l'UE, les systèmes audiovisuels doivent interpréter les panneaux de signalisation avec des conséquences juridiques. Si votre système oublie le panneau « Interdiction de dépasser » et provoque un accident, il ne s'agit pas simplement d'un bogue, mais d'une responsabilité.

Créez votre ensemble de données en tenant compte de la conformité :

  • Prioriser signes juridiquement contraignants
  • Piste Versionnage des signes cela peut changer
  • Inclure réglementation routière mise à jour pour les marchés émergents

L'intégration de cela au niveau de l'ensemble de données donne aux modèles en aval le contexte dont ils ont besoin pour prendre des décisions critiques en matière de sécurité.

Élaborez des stratégies pour les cas extrêmes et les classes à long terme

La plupart des panneaux que vous rencontrerez sont des limites de vitesse, des panneaux d'arrêt ou des passages pour piétons. Mais ce sont les cours à long terme, comme « Wildlife Zone » ou « Falling Rocks Ahead », qui présentent souvent les risques les plus graves en cas d'oubli.

Planifiez pour :

  • Analyse de la distribution des classes dès le départ
  • Simulations de signes rares à l'aide d'outils synthétiques (par exemple, Blender, CARLA)
  • Missions de collecte de cas sur la route (par exemple, routes de montagne, zones industrielles)

Et n'oubliez pas : la précision à longue traîne peut faire la différence entre un pilote performant et un système retiré de la route par les régulateurs.

Décidez de votre boucle de feedback

Un jeu de données n'est jamais « terminé ». Elle doit évoluer au fur et à mesure que :

  • Votre système audiovisuel s'étend à de nouvelles villes
  • Les autorités locales mettent à jour les formats de panneaux ou en introduisent de nouveaux
  • Vous recevez des informations sur le terrain concernant les performances de votre parc audiovisuel

Planifiez des mises à jour continues des ensembles de données via :

  • Exploration automatique des données (par exemple, à partir d'erreurs d'inférence ou de remplacements humains)
  • Suggestions d'étiquettes semi-supervisées
  • Tests A/B avec de nouvelles classes de signes

Une stratégie de base de données qui inclut le recyclage et la surveillance assurera la pertinence et la sécurité de votre système d'IA.

🛰️ Collecte de données : sur le terrain, sur le parc ou synthétique ?

Caméra embarquée réelle et données au niveau de la rue

L'une des méthodes les plus courantes consiste à collecter des données auprès de :

  • Caméras embarquées sur des véhicules d'essai
  • Véhicules du parc commercial (par exemple, fourgons de livraison)
  • Plateformes d'imagerie au niveau de la rue (Mapillary, OpenStreetCam)

Ces données présentent une complexité réelle : flou de mouvement, occlusion partielle, panneaux enneigés ou peinture décolorée, conditions auxquelles votre modèle doit apprendre à faire face.

Astuce de pro: Assurez-vous que les métadonnées d'étalonnage de votre caméra sont enregistrées si votre cas d'utilisation implique une estimation de distance ou des cadres de délimitation 3D.

Données synthétiques pour les cas extrêmes

La génération de données synthétiques sur les panneaux de signalisation a gagné en popularité. Des outils tels que CARLA ou Unity + AirSim permettent aux développeurs de simuler :

  • Scénarios rares ou dangereux (par exemple, panneaux de déviation d'urgence)
  • Placement des panneaux selon des angles impairs
  • Conditions d'éclairage variables

Cependant, les ensembles de données synthétiques doivent être mélangés à des données réelles pour éviter les problèmes de changement de domaine.

Ensembles de données publics : ce qui est disponible

Quelques ensembles de données publics populaires à enrichir ou à comparer :

Attention : les restrictions de licence, les formats d'annotation et le mappage des classes peuvent varier.

🧩 Cartographie des classes : l'une des parties les plus difficiles

Le monde regorge de signes, mais ils ne correspondent pas tous clairement à la même taxonomie.

Par exemple :

  • Le panneau européen « No Entry » a une forme différente de celle de la version américaine.
  • « Yield » aux États-Unis contre « Give Way » au Royaume-Uni : symboles différents, même signification.
  • Certains panneaux sont pictographiques (comme les passages pour cerfs), d'autres sont spécifiques à la langue.

Votre modèle, et votre jeu de données, doivent parcourir ce labyrinthe sémantique. De nombreuses équipes élaborent un ontologie interne Cartographier des signes équivalents d'un pays à l'autre dans des identifiants partagés.

Il est également utile de regrouper les cours par catégorie :

  • Réglementaire (par exemple, limitation de vitesse, arrêt)
  • Avertissement (par exemple, courbes avant, chutes de pierres)
  • Informatif (par exemple, parking, hôpital)

Cela permet de former des classificateurs hiérarchiques ou une logique de décision basée sur la confiance en aval.

🌍 Internationalisation : penser globalement, étiqueter localement

L'entraînement de votre modèle à l'aide d'un ensemble de données centré sur les États-Unis ou l'Europe peut fonctionner pour les tests locaux, mais il ne sera pas évolutif. Les véhicules autonomes se mondialisent, tout comme la conception de vos jeux de données. Les panneaux de signalisation sont loin d'être universels et leur complexité va au-delà de la traduction ou de la reconnaissance des symboles.

Comprenez la diversité réelle des panneaux de signalisation

Chaque pays a ses particularités :

  • Formes de signes: Des octogones pour les panneaux d'arrêt aux États-Unis, des triangles inversés au Japon pour le rendement.
  • Codes de couleur: Le bleu peut indiquer une action obligatoire en Europe, mais être informatif ailleurs.
  • Icônes et polices: Certains pays utilisent des pictogrammes, d'autres s'appuient sur le texte en langue locale.
  • Styles de montage: La hauteur, les angles et le regroupement des poteaux varient selon les régions.

Pour gérer cela, votre ensemble de données a besoin d'un large éventail représentation géographique, et pas seulement un ensemble d'images d'une ville. Un panneau d'arrêt à São Paulo peut avoir une apparence radicalement différente de celle de Zurich, même s'ils ont le même objectif.

Adoptez les cartographies de classes régionales

La notion selon laquelle « une classe = une instance visuelle » est en train de disparaître à l'Scale AI internationale.

Au lieu de cela, créez un ontologie sémantique où des panneaux équivalents d'un pays à l'autre correspondent à la même catégorie opérationnelle. Par exemple :

  • « STOP » (ÉTATS-UNIS)
  • « ARRÊT » (Canada)
  • Panneau d'arrêt japonais (triangle rouge avec kanji japonais)

Ils devraient tous être alimentés en un seul arrête classe, fonctionnellement parlant, même si elle est visuellement et linguistiquement distincte. Cette cartographie croisée aide l'IA à généraliser le comportement tout en apprenant la diversité des apparences.

Utilisez des outils tels que :

Créer un système de cartographie des étiquettes tenant compte des pays.

N'ignorez pas le contexte local

Les signes sont souvent co-dépendants des facteurs suivants :

  • Normes culturelles: Comment les conducteurs interprètent les avertissements facultatifs par rapport aux avertissements obligatoires
  • Conventions de conduite: la conduite à gauche ou à droite influe sur le placement
  • Mises à jour gouvernementales: Certaines villes mènent des projets pilotes enseignes numériques dynamiques (Mises à jour de vitesse par LED ou avis d'interdiction temporaire d'entrée)

Votre stratégie en matière de jeux de données doit inclure :

  • Métadonnées de l'étiquette tels que la campagne, la ville, le côté conducteur
  • Classification des signes dynamique et statique
  • Historique des versions pour les régions où la signalisation est en cours de modernisation

Ce niveau de métadonnées garantit que vos modèles ne se contentent pas de détecter les signes, ils les interprètent d'une manière qui correspond aux attentes humaines et aux lois locales.

Envisagez la localisation pour vous développer

Vous envisagez de faire évoluer votre système audiovisuel à l'Scale AI mondiale ? Vous aurez besoin de :

  • Équipes de collecte de données localisées pour saisir les nuances régionales
  • Réviseurs d'annotations en langue maternelle pour détecter les interprétations culturelles erronées
  • Mécanismes de géolocalisation pour filtrer les données par juridiction

La localisation s'applique également aux équipes d'assurance qualité. Vous ne voudriez pas que quelqu'un qui ne connaît pas la signalisation routière thaïlandaise vérifie les annotations depuis Bangkok.

En partenariat avec des fournisseurs adaptés à la localisation tels que Lionbridge ou DataVLab peut vous aider à garantir que l'ensemble de données de chaque région est aussi solide que votre base de données.

Conçu pour une utilisation multimodale à l'Scale AI mondiale

Les systèmes audiovisuels se mélangent de plus en plus caméra, LiDAR, et données basées sur des cartes pour donner un sens aux signes. Pour une mise à l'Scale AI internationale, cela signifie :

  • Faire correspondre les données des panneaux de signalisation avec cartes HD locales
  • Validation croisée de la détection avec API de géolocalisation externes
  • Annoter les panneaux avec les offres spécifiques à chaque pays (distance par rapport à la zone d'action, par exemple)

Entraîner l'IA à comprendre non seulement ce que dit un panneau, mais aussi ce qu'il veux dire dans ce contexte, est essentiel. L'internationalisation ne consiste pas seulement à traduire des données, mais à transférer un sens opérationnel au-delà des frontières.

⚖️ Gérer le déséquilibre des classes et les signes rares

Il est courant d'avoir des milliers de panneaux « Limite de vitesse 50 », mais seulement quelques exemples de « Fin de la route à péage » ou « Passage à niveau avec barrière ».

Cela conduit à l'extrême déséquilibre de classe, ce qui peut biaiser vos modèles.

Tactiques pour y remédier :

  • Suréchantillonnage cours rares pendant l'entraînement
  • Sous-échantillon les plus courants lors de la validation
  • Postulez fonctions de perte pondérées par classe
  • Générez des exemples synthétiques pour les signes rares
  • Utiliser Enseignement du curriculum: entraînez-vous d'abord sur un sous-ensemble équilibré, puis augmentez

Les signes rares sont souvent plus importants pour la sécurité que les signes courants. Votre ensemble de données doit refléter cette réalité pondérée en fonction des risques.

🎯 Le contexte est important : capturez également l'environnement

Les signes n'existent pas isolément. Leur interprétation dépend souvent des facteurs suivants :

  • Proximité des intersections
  • Position du véhicule sur la voie
  • Signalisation ou marquage routier à proximité
  • Occlusions causées par des arbres, des camions ou des poteaux

Un modèle formé uniquement à partir d'images de panneaux recadrées peut échouer dans des environnements riches en contexte.

Pour renforcer la robustesse du monde réel, capturez toujours images plein format qui incluent l'environnement de chaque panneau de signalisation, et pas seulement le panneau lui-même.

Si possible, étiquetez les métadonnées supplémentaires comme suit :

  • Distance par rapport au panneau
  • Orientation du panneau (lacet, tangage, roulis)
  • Contexte environnemental (jour/nuit, brouillard, pluie)

Cela permet des systèmes de perception plus avancés tels que fusion de capteurs, classification contextuelle, ou modèles basés sur l'attention.

💡 Conseils d'étiquetage : du chaos à la cohérence

Lorsque vient le temps d'annoter votre ensemble de données de panneaux de signalisation, la cohérence est de mise.

Voici comment conserver une qualité d'annotation élevée :

  • Créez des directives détaillées: inclure des cas limites, des règles d'occlusion et des définitions de classes
  • Formez vos annotateurs: utilisez des tests de comparaison réels et synthétiques
  • Utiliser un avis imbriqué: annotateur de premier niveau → validateur → réviseur QA
  • Suivez les statistiques des annotations: taux d'erreur, temps de révision, confusion entre les classes

De nombreuses équipes performantes courent audits ponctuels chaque semaine et utilisez des plateformes comme CVAT ou Labelbox pour gérer efficacement les flux de travail.

🔁 Stratégie de versionnement, de fractionnement et d'itération

Une fois que votre jeu de données est étiqueté, vous devez le structurer de manière à prendre en charge les cycles de développement des modèles.

Principaux conseils :

  • Répartition entre la formation, la validation et les tests: Assurez-vous que tous les types de signes sont représentés dans chaque
  • Diversité géographique entre les divisions: ne mettez pas tous les panneaux de Paris à l'entraînement et ceux de Marseille à l'épreuve
  • Versionnage: utilisez une dénomination claire comme v1.2 équilibré, v2.0 avec des signes rares
  • Maintenez un journal des modifications du jeu de données pour la traçabilité

Chaque cycle d'apprentissage du modèle doit faire référence à une version d'ensemble de données figée et documentée afin d'éviter les fuites entre les tests d'entraînement.

🧪 Évaluation de la qualité des jeux de données : êtes-vous vraiment prêt à vous entraîner ?

Un jeu de données volumineux n'est pas automatiquement un bon jeu de données.

Utilisez la liste de contrôle suivante pour valider l'état de préparation du jeu de données :

  • Toutes les classes sont-elles représentées ?
  • Quelle est la distribution de fréquence par classe ?
  • Avez-vous des échantillons urbains, ruraux, nocturnes ou pluvieux ?
  • Quelle est la précision des annotations sur un échantillon de 500 signes ?
  • Existe-t-il un biais en faveur d'une région, d'une condition d'éclairage ou d'un type de caméra ?

Ce n'est qu'après avoir réussi cette liste de contrôle que vous pourrez passer à la formation sur modèle. Le fait de sauter cette étape entraîne une perte de temps sur le processeur graphique et une mauvaise généralisation.

🌐 Histoires de réussite dans le monde réel

Le mode Ombre de Tesla

Tesla entraîne ses systèmes basés sur la vision à l'aide de vastes flux vidéo du monde réel provenant de sa flotte. Mais pour les panneaux de signalisation, il utilise mode ombre—détectant les signes sans agir sur eux—afin de valider la qualité de l'ensemble de données et d'améliorer la capture des cas rares.

Expansion régionale de Mobileye

Mobileye, une société d'Intel, a développé un énorme moteur de détection des panneaux de signalisation pour les marchés européen et asiatique. Il a dû gérer :

  • Panneaux multilingues
  • Empilage vertical de plusieurs panneaux
  • Panneaux électroniques/dynamiques

Pour y parvenir, ils ont créé des pipelines de données personnalisés pour chaque nouvelle zone géographique, démontrant ainsi l'importance de l'agilité des ensembles de données.

📈 Le résultat : des ensembles de données de haute qualité améliorent la sécurité des véhicules autonomes

La création d'un excellent ensemble de données de panneaux de signalisation prend du temps et demande beaucoup de ressources. Mais l'avantage ?

  • Plus grande précision du modèle
  • Meilleur respect du code de la route
  • Moins de défaillances marginales
  • Des approbations réglementaires plus rapides

Plus important encore, il permet des routes plus sûres.

Avec le bon ensemble de données, vous ne vous contentez pas de former un modèle, vous apprenez à une IA comment se comporter dans le monde.

🚀 Prêt à créer votre propre ensemble de données ?

Si vous développez des systèmes de conduite autonome et que vous devez créer ou auditer un ensemble de données de panneaux de signalisation, c'est le moment d'investir dans votre stratégie d'étiquetage.

Qu'il s'agisse de constituer une petite équipe pour un projet pilote ou d'étendre vos activités à l'Scale AI mondiale, nous pouvons vous aider à rationaliser le processus en :

  • Conseils d'experts sur la structure des ensembles de données
  • Services d'annotation de bout en bout
  • Pipelines de données prêts à être modélisés

👉 Parlons des objectifs de votre jeu de données. Contactez DataVLab ou planifiez une consultation gratuite dès aujourd'hui.

Améliorer les performances de votre IA dès aujourd'hui

Nous sommes là pour vous accompagner dans l'amélioration des performances de votre IA