Pourquoi la segmentation sémantique est importante dans les systèmes de conduite autonome
Dans le monde des véhicules autonomes, la perception est centrale. L’une des couches fondamentales de la perception est la segmentation sémantique, un processus dans lequel chaque pixel d’une image se voit attribuer une catégorie telle que route, véhicule, piéton, bâtiment ou végétation.
Contrairement à la détection d’objets, qui propose des boîtes englobantes, la segmentation sémantique fournit une compréhension plus fine au niveau du pixel de la scène. C’est essentiel pour :
- Suivi des voies et détection des bords de route
- Évitement des obstacles dans les environnements encombrés
- Navigation urbaine à travers des intersections complexes
- Planification précise des trajectoires
Un jeu de données bien annoté contribue à une prise de décision plus sûre par l’AV. Une mauvaise segmentation peut faire toute la différence entre une voiture qui reconnaît un trottoir et une voiture qui le confond avec une route praticable.
Pour un aperçu de la manière dont la segmentation s’intègre dans la pile de perception des véhicules autonomes, voir cet aperçu des recherches du MIT CSAIL.
Dans les coulisses : pourquoi annoter des routes n’est pas si simple
Il peut sembler facile de dire à une machine : « C’est la route et c’est un arbre ». Mais dans la pratique, la définition de ces limites pixel par pixel présente une série de difficultés uniques.
Voici pourquoi la segmentation sémantique pour les véhicules autonomes est particulièrement difficile :
Ambiguïté visuelle et classes complexes
- Surfaces mélangées: Les routes se transforment en accotements, en chemins de gravier ou en pistes cyclables sans limites claires.
- Fuzziness des bords: Où se termine exactement un trottoir et où commence une allée ? Les humains peuvent le déduire du contexte; les machines ont besoin de définitions exactes.
- Éléments multicouches: Les éléments superposés, tels que les marquages routiers, les taches d’huile ou les ombres, compliquent les annotations.
Variabilité environnementale
Les véhicules autonomes doivent rouler dans toutes les conditions, et pas seulement par temps clair et ensoleillé. Les annotateurs (et les modèles formés à leur travail) doivent faire face à :
- Neige, pluie, brouillard et ombres
- Éclairage nocturne et éblouissement dû aux phares
- Changements saisonniers qui affectent la végétation ou la texture des routes
Un même tronçon d’autoroute peut sembler complètement différent d’un cadre à l’autre.
Environnements urbains dynamiques
La conduite en ville pose des problèmes d’annotation que les environnements ruraux ne présentent pas souvent :
- Zones de construction: Des couloirs, des cônes ou des barrières temporaires introduisent des classes irrégulières
- Trafic mixte: Vélos, trottinettes et piétons dans l’espace routier
- Surfaces réfléchissantes: Les bâtiments en verre et les routes mouillées introduisent des signaux trompeurs
Un schéma d’annotation statique couvre rarement tous les scénarios à moins qu’il ne soit mis à jour en permanence.
Explosion des classes et dérive des étiquettes : le problème caché de la qualité des données
Quand la « route » n’est pas qu’une chose
Dans un monde idéal, chaque pixel étiqueté « route » serait cohérent dans l’ensemble de votre jeu de données. Mais dans la pratique, on constate souvent :
- Sous-classes qui se chevauchent comme :
- Route asphaltée
- Marquages peints
- Route de construction temporaire
- Routes en briques
La façon dont les annotateurs les interprètent peut varier, en particulier s’ils ne disposent pas d’une ontologie solide. Au fil du temps, ces incohérences peuvent entraîner une dérive des étiquettes — où le même objet est étiqueté différemment selon qui l’a annoté ou quand.
Le piège de la taxonomie
Il est tentant d’essayer de couvrir tous les cas extrêmes en élargissant la taxonomie des étiquettes. Mais cela conduit souvent à :
- Classes trop granulaires (par exemple, « bordure légèrement endommagée »)
- Utilisation incohérente entre les annotateurs
- Représentation clairsemée des classes, ce qui nuit à la généralisation des modèles
Une approche plus efficace consiste à définir une ontologie soigneusement structurée, avec des directives visuelles claires et des exemples. Cela permet un étiquetage de haute qualité sans sacrifier les performances du modèle.
Pour en savoir plus sur la création de taxonomies d’étiquettes, consultez ce Article de Stanford sur les jeux de données de compréhension des scènes.
Le biais géographique dans les jeux de données routières : un tueur silencieux de la généralisation
L’entraînement d’un modèle sur une seule région (par exemple, les autoroutes américaines) peut être efficace pour la conduite locale, mais il s’effondre lorsqu’il est déployé ailleurs.
Voici comment le biais géographique s’insinue :
- Les styles de signalisation diffèrent(carrefours giratoires européens ou arrêts à 4 voies aux États-Unis)
- Colorant et matériau de la route varier (asphalte, béton, pierre)
- Largeurs des trottoirs, limites de végétation, et comportements de conduite varient subtilement
Pour créer des systèmes de perception pour véhicules autonomes robustes, vos données de segmentation doivent inclure diversité mondiale — des intersections denses de Tokyo aux routes rurales du Kenya.
Le Ensemble de données Mapillary Vistas est un excellent exemple de la diversité des scènes routières dans plusieurs pays.
Le goulot d’étranglement des annotations : rapidité et précision
L’annotation d’image en haute résolution au niveau du pixel est incroyablement chronophage:
- L’annotation manuelle d’un seul cadre urbain peut prendre Plus de 30 minutes
- Chaque cadre peut inclure des dizaines de classes d’étiquettes
- Les jeux de données du monde réel incluent souvent des dizaines de milliers de cadres
Pour y faire face, les entreprises sont souvent confrontées à un compromis :
Priorité à la vitesse Priorité à la précision Outils semi-automatisés / couches d’assurance qualité manuellesCoût par image plus faible Fiabilité accrue des modèles Hallucinations / meilleure généralisation des modèles
Certains utilisent un modèle hybride, où l’étiquetage initial est effectué à l’aide de modèles d’IA faibles, puis affiné par des humains.
Pour des exemples de flux de travail hybrides réussis, consultez Scale AI et Labelbox des flux de travail.
Le problème du déséquilibre des classes et des cas rares
Dans la plupart des jeux de données de segmentation des routes, vous trouverez une répartition 80/20 :
- Classes dominantes: route, voiture, bâtiment
- Classes mineures: cycliste, barrière de chantier, animal
La formation sur des données aussi déséquilibrées entraîne de mauvaises performances du modèle dans des cas extrêmes rares mais critiques, comme un enfant qui traverse la rue derrière un fourgon en stationnement.
Solutions pour remédier au déséquilibre des classes :
- Échantillonnage équilibré par classe pendant l’entraînement
- Suréchantillonnage cadres sous-représentés
- Réglage de la fonction de perte(perte focale ou perte de Dice, par exemple)
Et bien sûr :minage actif des cas extrêmes à partir de carnets de conduite et d’incidents réels pour enrichir les données de formation.
Assurance qualité : au-delà de la précision des pixels
La plupart des indicateurs d’assurance qualité de la segmentation sémantique se concentrent sur IoU (Intersection au-dessus de l’Union) ou précision moyenne en pixels. Mais ceux-ci ne capturent pas toujours cohérence de la scène.
Par exemple :
- Un modèle peut segmenter correctement la chaussée tout en confondant une bordure ou une zone non carrossable avec une surface praticable.
- De petites erreurs de classification en bordure de voie peuvent provoquer un écart de trajectoire.
L’assurance qualité avancée doit inclure :
- Contrôles de netteté des limites
- Contrôles de cohérence temporelle(sur plusieurs images vidéo)
- Inspection visuelle axée sur l’humain des cas de défaillance
Des entreprises comme Deepen AI et Affective proposent des outils d’assurance qualité visuels spécifiques aux flux de travail d’annotation pour véhicules autonomes.
Tendances émergentes en matière de segmentation sémantique pour les véhicules autonomes
Apprentissage autosupervisé
Pour réduire le fardeau de l’annotation manuelle, certaines entreprises de véhicules autonomes investissent dans apprentissage autosupervisé, où les modèles apprennent à segmenter des scènes à partir de vidéos brutes et non étiquetées en exploitant la cohérence spatiale et temporelle.
Par exemple, les recherches internes de Waymo incluent des méthodes pour génération de pseudo-étiquettes en utilisant la fusion multi-caméras et lidar.
Collecte de cas limites pilotée par simulation
Plutôt que d’attendre que des événements rares apparaissent sur des images de conduite naturelles, les équipes les simuler dans des environnements virtuels.
Des outils tels que CARLA et ceux de NVIDIA NVIDIA DRIVE Sim permettre aux utilisateurs de :
- Générer des masques de segmentation parfaitement étiquetés
- Contrôlez l’éclairage, la météo et le comportement des agents
- Augmentez rapidement la génération de jeux de données
Ceci est particulièrement utile pour tester la robustesse de la segmentation dans de rares conditions (par exemple, éblouissement solaire, occlusion soudaine).
Ensembles de données et points de référence clés du secteur
Pour ceux qui créent ou évaluent des modèles de segmentation sémantique pour les véhicules autonomes, voici quelques jeux de données standard qui méritent d’être explorés :
- Cityscapes: Axé sur les scènes de rue urbaines en Allemagne; précis au pixel près avec une grande variété de classes.
- BDD100K: De l’UC Berkeley, avec 100 000 images avec un mélange de scénarios de conduite, de conditions météorologiques et d’étiquettes de classe.
- Mapillary Vistas: Ensemble de données distribué dans le monde entier avec des images de rue en haute résolution.
- ApolloScape: jeu de données de conduite chinois avec une densité de classes élevée et des tracés routiers réels.
- nuScenes: un jeu de données complet de capteurs (lidar + vidéo) pour des flux de travail de formation audiovisuels holistiques.
L’utilisation combinée de ces jeux de données permet d’équilibrer biais géographique, conditions environnementales et densité des classes d’objets.
Là où les choses tournent mal : des histoires vécues sur le terrain
Même les entreprises de véhicules autonomes de premier plan ont rencontré des problèmes en raison d’erreurs de segmentation. Quelques exemples notables :
- Voies fantômes: Un système audiovisuel entraîné principalement sur de l’asphalte sec a mal interprété le marquage des voies sur une route enneigée et s’est faufilé dans la circulation venant en sens inverse lors des essais.
- Bordures invisibles: Une bordure de trottoir mal classée comme espace carrossable a incité le véhicule à monter sur le trottoir dans un scénario de faible luminosité et de chaussée mouillée.
- Confusion dans la construction: Les barrières temporaires en plastique ont été étiquetées à tort comme des piétons, ce qui a amené la voiture à freiner de façon inattendue et à perturber la circulation.
Chacun de ces problèmes peut être attribué à annotations d’entraînement faibles ou incohérentes — prouvant que la qualité des annotations n’est pas un problème de back-office, mais un composant essentiel à la mission.
Bien cadrer l’annotation dès le départ
Si vous créez des jeux de données de segmentation sémantique pour la conduite autonome, voici les meilleures pratiques qui vous permettront de rester sur la bonne voie :
- Définissez une taxonomie visuelle précise: Évitez de trop modifier votre liste de classes.
- Documentez tout: Des directives d’étiquetage aux exemples visuels.
- Formez les annotateurs à la précision attendue: La précision des pixels est importante, ne lésinez pas sur l’entraînement.
- Environnements mixtes: Les modèles de segmentation urbains, ruraux, enneigés ou nocturnes aiment la diversité.
- Investissez tôt dans l’assurance qualité: Il est coûteux de corriger les annotations erronées à un stade avancé du processus.
- Tirez parti de la simulation et des données synthétiques: Elles ne remplacent pas les données réelles, mais il comble parfaitement les lacunes et les cas limites.
- Fermez la boucle: utilisez les erreurs de modèle pour affiner votre prochaine série d’étiquetage des données.
Construire des jeux de données routiers fiables
La conduite autonome ne peut réussir sans une compréhension fiable et parfaite de la scène au pixel près. Et cette compréhension commence par vous les équipes qui créent les jeux de données, définissent les taxonomies, assurent le contrôle qualité des étiquettes et itèrent sans relâche.
Que vous fassiez partie d’une start-up spécialisée dans l’IA, d’un fournisseur d’étiquetage ou de l’équipe de perception d’une société audiovisuelle, l’attention que vous portez à la qualité des annotations ne se limite pas à de « meilleurs modèles ». Il s’agit de sécurité, évolutivité et impact dans le monde réel.
Vous avez besoin d’aide pour adapter la segmentation sémantique à votre projet de conduite autonome ? À DataVLab, nous sommes spécialisés dans les services d’annotation de haute qualité adaptés aux cas d’utilisation complexes de perception. Voyons comment nous pouvons accélérer votre transition vers une autonomie plus sûre.





