August 15, 2025

Étude de cas : Annoter les images d'une caméra embarquée pour un fournisseur de niveau 1

Dans la course à la perfection de la technologie de conduite autonome, les images brutes des caméras embarquées sont la nouvelle médaille d'or. Mais les transformer en données prêtes à l'entraînement est loin d'être simple. Dans cette étude de cas approfondie, nous explorons comment un fournisseur automobile de niveau 1 a abordé le processus complexe consistant à annoter à grande Scale AI la vidéo d'une caméra embarquée dans les systèmes de perception du carburant pour les systèmes ADAS (Advanced Driver Assistance Systems) et les modules de conduite entièrement autonomes. Vous découvrirez les défis uniques liés aux images du monde réel, la manière dont les cas extrêmes ont été traités et les raisons pour lesquelles le projet a été un succès à long terme.

L'annotation d'images embarquées pour un fournisseur de niveau 1 améliore la précision des systèmes. Découvrez comment elle booste l'innovation

La véritable valeur de l'annotation des caméras embarquées dans la conduite autonome

L'annotation de la caméra embarquée n'est pas qu'un processus technique, c'est un outil stratégique pour une conduite autonome sûre et fiable. Alors que l'industrie automobile s'achemine vers des niveaux d'autonomie plus élevés, le besoin de modèles de perception capables de gérer la nature imprévisible des routes du monde réel augmente de façon exponentielle. Et rien n'offre ce niveau de diversité imprévisible mieux que les images filmées par une caméra embarquée.

Pourquoi les dashcams sont indispensables pour la formation audiovisuelle

Contrairement aux ensembles de données collectés à des fins spécifiques dans des environnements fermés, les données de la dashcam offrent un réalisme inégalé. C'est ce que voient et ressentent les vrais conducteurs : une circulation pare-chocs à pare-chocs, des changements de voies abrupts, des piétons imprudents, des intersections couvertes de pluie et même des panneaux de construction en bordure de route écrits dans les dialectes régionaux.

Cette variabilité est une mine d'or pour la formation de systèmes de perception robustes. Voici pourquoi :

  • Diversité environnementale: Les images de la caméra embarquée capturent naturellement un large éventail de conditions : autoroutes ensoleillées, rues bondées de la ville, matins brumeux et tunnels faiblement éclairés. Cette diversité environnementale permet aux modèles de se généraliser bien mieux que les données synthétiques ou sélectionnées en laboratoire.
  • Étendue géographique: Les voitures équipées de caméras embarquées enregistrent des données provenant de différents pays, cultures et infrastructures routières, fournissant ainsi des informations essentielles pour les déploiements audiovisuels mondiaux. Des ronds-points parisiens aux routes secondaires rurales du Texas, chaque clip entraîne le modèle à reconnaître des modèles spécifiques au contexte.
  • Rareté de l'événement: De nombreux événements critiques pour la sécurité, par exemple un enfant qui traverse la rue en courant ou un véhicule qui freine brusquement, se produisent trop rarement pour être organisés ou collectés manuellement. Mais les enregistrements de caméras embarquées, en particulier ceux enregistrés au fil des années de conduite, capturez accidentellement ces boîtiers rares mais essentiels.
  • Indices comportementaux: les images de la caméra embarquée ne capturent pas que des objets ; elles révèlent comment se comportent les acteurs de la route. Qu'il s'agisse d'un piéton qui hésite avant de traverser, d'un conducteur qui se dirige vers une intersection ou d'un cycliste qui fait une embardée de façon inattendue, ces comportements subtils sont essentiels pour entraîner les véhicules autonomes à la prise de décisions prédictives.
  • Faible coût d'installation: Comparées aux appareils LiDAR ou à des capteurs de haute qualité, les caméras embarquées sont peu coûteuses, omniprésentes et enregistrent en permanence. Cela en fait l'un des sources de données de conduite les plus évolutives, en particulier pour les startups ou les fournisseurs de niveau 1 qui créent des ensembles de données internationaux.

Annotation des caméras embarquées dans le monde réel = des véhicules autonomes plus sûrs et plus intelligents

Lorsqu'elles sont enrichies d'annotations contextuelles précises, les données des caméras embarquées deviennent un ensemble de données stratégique qui :

  • Améliore la perception audiovisuelle dans les environnements non contrôlés (par exemple, intersections non standard, infrastructures endommagées, comportement humain complexe)
  • Plateformes de simulation d'alimentation avec des scènes authentiques pour tester les algorithmes
  • Améliore les modules de prédiction du comportement, permettant aux véhicules autonomes de mieux anticiper ce que les autres usagers de la route pourraient faire ensuite
  • Valide les décisions en temps réel, en particulier dans les zones géographiques à forte densité de cas comme l'Inde, le Mexique ou l'Asie du Sud-Est

Pour les fournisseurs de niveau 1 qui développent des piles matérielles/logicielles pour les OEM, les images annotées des caméras embarquées ne sont pas seulement utiles :c'est un facteur de différenciation concurrentiel. Ceux qui maîtrisent la diversité, la qualité et la richesse contextuelle des données alimenteront la prochaine génération de véhicules véritablement autonomes.

Le client : un fournisseur de premier plan dont la mission est de rendre les routes plus sûres

Notre client, un fournisseur mondial de premier plan travaillant avec plusieurs grands constructeurs automobiles, avait besoin de données de caméras embarquées annotées pour soutenir le développement de leur module de perception de nouvelle génération. Leurs systèmes sont intégrés à la fois Plateformes ADAS et piles entièrement autonomes.

Leur équipe R&D interne avait amassé des téraoctets de séquences de caméras embarquées provenant de plusieurs pays, mais n'avait ni la capacité ni l'infrastructure nécessaires pour les annoter à grande Scale AI.

Ils nous ont contactés pour aborder :

  • Étiquetage de haute précision d'objets, de voies et de panneaux de signalisation
  • Suivi basé sur les séquences pour capturer le mouvement sur plusieurs images
  • Balisage contextuel de scénarios de conduite difficiles (éblouissement, neige, conduite nocturne, etc.)
  • Identification des boîtiers Edge pour des événements rares ou risqués (par exemple, des piétons qui marchent sur des trottoirs, des véhicules en panne)

Principaux défis liés à l'annotation des images des caméras embarquées

L'annotation Dashcam est fondamentalement différente de l'annotation de vidéos sélectionnées et de qualité professionnelle. Voici pourquoi ce projet a nécessité des solutions sur mesure :

1. Artefacts de flou de mouvement et de compression

Les caméras de tableau de bord enregistrent souvent à 30 images par seconde avec une compression agressive. Les cadres peuvent être flous ou déformés, ce qui rend les bords de l'objet moins définis et plus difficiles à étiqueter.

🧩 Solution : Nous avons développé un pipeline de validation des trames pour détecter et supprimer les images inutilisables, préservant ainsi la qualité des données sans perdre de temps à annoter.

2. Éclairage et conditions météorologiques imprévisibles

Qu'il s'agisse de la lumière directe du soleil, des matins brumeux ou des pare-brise éclaboussés de pluie, les changements d'éclairage ont une incidence sur la visibilité et l'apparence des objets.

🧩 Solution : Les annotateurs ont reçu des directives spécifiques au scénario (par exemple, comment gérer les reflets au crépuscule), et la révision des annotations a été divisée par type de condition pour assurer la cohérence.

3. Objets obstrués ou obstrués

Les piétons partiellement cachés par des voitures en stationnement, ou les cyclistes qui se faufilent entre les véhicules, sont courants et essentiels pour les applications de sécurité.

🧩 Solution : Nous avons intégré un approche axée sur le suivi, où le contexte temporel a permis de lever l'ambiguïté des objets partiellement visibles.

4. Étiquetage de séquences vidéo étendues

L'annotation de longs clips vidéo entraîne de la fatigue et une dérive des étiquettes. Sans cohérence temporelle, les identifiants de suivi et la cohérence des objets s'effondrent.

🧩 Solution : Nous avons utilisé outils semi-automatisés d'interpolation et de propagation des identifiants, accélérant considérablement le suivi cohérent des objets tout en maintenant une supervision humaine.

Des flux de travail personnalisés pour un pipeline d'annotations exigeant

Le projet ne visait pas à exécuter un outil d'annotation générique, mais à créer un moteur de données sur mesure. Nous avons introduit plusieurs flux de travail clés pour répondre à l'évolution des besoins du client :

Suivi d'objets haute fidélité

Chaque instance (piéton, voiture, moto, feu de signalisation) s'est vu attribuer un ID persistant sur toutes les images, avec des notes détaillées sur l'entrée et la sortie du champ de vision.

En particulier, objets dynamiques (bus, scooters, véhicules de secours) requis :

  • Évolution précise du cadre de délimitation au fil du temps
  • Estimation des vecteurs de vitesse et de mouvement
  • Classification par modèle de mouvement (par exemple, fusion, arrêt, comportement erratique)

Marquage de voie adaptatif

Les annotations des voies étaient particulièrement délicates. En raison de la diversité des marquages routiers, de la faible visibilité et des zones de construction, nous ne pouvions pas nous fier à des hypothèses statiques.

Nous avons travaillé avec le client pour développer classes de voies personnalisées sur la base de :

  • Type (plein, pointillé, double)
  • Niveau de visibilité (clair, partiel, usé)
  • Cas d'utilisation (piste cyclable, voie de virage, voie réservée aux bus)

Cela a permis à leurs modèles non seulement de détecter les voies, mais aussi de comprendre leur fonction.

Balisage des scénarios et couche de métadonnées

Au-delà des étiquettes d'objets, nous avons ajouté superpositions de métadonnées décrivant chaque contexte de conduite. Les exemples incluent :

  • « Fortes pluies »
  • « Tunnel mal éclairé »
  • « Intersection avec feux de circulation obstrués »
  • « Un piéton entre entre des voitures garées »

Ces balises étaient cruciales pour créer des ensembles de données de pointe et pour une évaluation ciblée des modèles.

Contrôle qualité : garantir la cohérence sur plus d'un million de trames

Lorsque vous travaillez avec de grands volumes de données séquentielles, la cohérence est reine. Une mauvaise étiquette peut dégrader les performances du modèle. Voici comment nous avons maintenu la qualité sur l'ensemble du pipeline :

Système d'évaluation à plusieurs niveaux

Nous avons mis en place un Révision à 3 niveaux:

  1. Révision initiale par un annotateur pair avec une formation spécifique au scénario
  2. QA par lots par un annotateur principal qui examine à la fois la qualité de l'étiquette et la cohérence de la séquence
  3. Audits ponctuels par l'équipe de validation interne du client à l'aide de nos rapports

Détection de la dérive temporelle des étiquettes

Des scripts personnalisés ont détecté une dérive des étiquettes au fil du temps, signalant :

  • Disparition soudaine d'objets
  • Anomalies de taille du cadre de délimitation
  • Réattribution d'identification incorrecte à travers les occlusions

Cela nous a permis de détecter rapidement les incohérences subtiles.

Tableaux de bord visuels d'assurance qualité

Pour aider notre équipe et le client à suivre les progrès et la qualité, nous avons déployé tableaux de bord interactifs montrant :

  • Distribution des classes dans l'ensemble de données
  • Exemples de cadres par étiquette
  • Statistiques du cycle de révision
  • Cartes thermiques de la vitesse d'annotation par rapport au taux d'erreur

Qu'est-ce qui a rendu ce projet unique (et un succès) 🚀

Plusieurs facteurs ont permis à ce projet de dépasser les attentes :

  • Collaboration étroite avec les clients: Les synchronisations hebdomadaires ont permis un feedback rapide et l'évolution des priorités a été intégrée en temps réel.
  • Annotation à grande Scale AI: Nous avons géré plus de 10 000 séquences et a annoté plus de 1 million d'images en moins de 4 mois.
  • Conception à l'épreuve du temps: Notre pipeline de diffusion de données a été conçu pour s'intégrer directement dans la pile MLOps du client.

Grâce à ce projet, le client peut désormais :

✅ Dispose d'une bibliothèque organisée de cas extrêmes difficiles
✅ Peut simuler des scénarios rares pour les tests de modèles audiovisuels
✅ Insère des séquences du monde réel dans leur module de prédiction du comportement

Les modèles entraînés sur cet ensemble de données ont montré amélioration significative de la carte à tous les niveaux, en particulier pour les catégories telles que les motos et les piétons partiellement obstrués.

Leçons apprises : L'annotation n'est pas qu'une tâche, c'est un partenariat

Au fur et à mesure que le projet se déroulait, il est devenu de plus en plus clair : une annotation réussie à cette Scale AI dépend moins de cocher des cases que d'un alignement continu entre les annotateurs humains, les ingénieurs en apprentissage automatique et les experts du domaine.

Voici les informations les plus précieuses que nous avons tirées de ce voyage :

1. L'annotation n'est pas universelle

Les images des caméras embarquées varient énormément. Même dans la même ville, un trajet matinal ensoleillé ne ressemble en rien à une heure de pointe pluvieuse en soirée. Une directive statique ne peut pas couvrir toutes les nuances. Les instructions d'annotation doivent évoluer avec le métrage, en particulier en cas d'éblouissement, d'occlusion, de zones de construction ou de changements d'angle de caméra.

Plats à emporter: maintenez la dynamique des protocoles d'annotation. Exécutez des lots pilotes et adaptez les règles en fonction de cas extrêmes réels, et non d'exemples théoriques.

2. L'expertise humaine surpasse toujours l'automatisation complète

Malgré l'essor des outils d'automatisation et des algorithmes d'interpolation, le jugement humain était irremplaçable, en particulier dans les domaines suivants :

  • Interprétation de l'intention (par exemple, le piéton est-il sur le point de traverser ou est-il simplement debout ?)
  • Classification d'objets partiellement occlus ou ambigus
  • Gérer les interactions inhabituelles, comme le non-respect des normes de circulation par les véhicules d'urgence

Nous avons constaté que les flux de travail semi-automatisés alimentés par la vérification humaine ont trouvé le juste équilibre entre rapidité et précision.

Plats à emporter: L'automatisation augmente l'Scale AI, mais les cas extrêmes du monde réel nécessitent toujours des yeux humains entraînés.

3. La pensée centrée sur la perception surpasse la pensée centrée sur les pixels

Les annotations traditionnelles se concentrent souvent sur les pixels : ils dessinent la boîte, le masque ou le polygone parfaits. Mais lors de la formation de modèles de perception audiovisuelle, la compréhension contextuelle est plus importante. Par exemple :

  • Un objet flou peut toujours être identifiable sur la base de sa trajectoire dans les images précédentes.
  • Un marquage de voie qui disparaît sous l'effet de l'éblouissement doit tout de même être annoté si le contexte routier suggère une continuité.

En formant les annotateurs à pensez comme des ingénieurs de perception, nous avons créé un ensemble de données plus utile en aval, même si cela impliquait parfois de s'éloigner de la perfection au pixel près.

Plats à emporter: Apprenez aux annotateurs à penser en termes de logique de perception audiovisuelle, et pas seulement de précision d'image.

4. Les boucles de rétroaction entre l'annotation et l'entraînement des modèles sont essentielles

Les développeurs de modèles travaillent souvent indépendamment des équipes d'annotation. Mais dans ce projet, des cycles de feedback fréquents (par exemple, « Notre modèle rencontre des difficultés avec ces zones de construction. Pouvons-nous mieux les étiqueter ? ») nous a aidés optimiser l'ensemble de données spécifiquement pour les performances des modèles dans le monde réel.

Cette boucle a permis des améliorations proactives telles que :

  • Création d'une étiquette distincte pour les « voies temporaires »
  • Réglage de l'étanchéité du boîtier de délimitation sur des objets à grande vitesse
  • Ajout de marqueurs d'événements pour mettre en évidence les comportements anormaux

Plats à emporter: L'annotation ne doit pas être « livrée et terminée ». Fermez la boucle avec les équipes modèles tôt et souvent.

5. Edge Case Curation est la véritable sauce secrète

Bien que l'étiquetage de plus de 1 million de cadres soit impressionnant, ce qui a réellement contribué à créer de la valeur, c'est notre capacité à présenter et étiqueter des scénarios rares et à enjeux élevés:

  • Piétons distraits avec des écouteurs sortant des trottoirs
  • Les conducteurs ignorent les panneaux d'arrêt
  • Des cyclistes font une embardée à cause de nids-de-poule

Ces rares cas ne font pas que rendre l'antivirus plus intelligent, ils le rendent plus sûr.

Plats à emporter: Ne considérez pas les cas extrêmes comme du bruit statistique. Traitez-les comme or d'entraînement.

6. La qualité des annotations s'améliore grâce à l'autonomisation des annotateurs

Lorsque les annotateurs sont traités comme de la main d'œuvre, la qualité en pâtit. Mais lorsqu'ils comprennent le « pourquoi » de cette tâche, c'est-à-dire ce que le modèle va faire des données, ils deviennent plus investis et plus précis.

Nous avons donné aux annotateurs les moyens suivants :

  • Accès aux commentaires sur les modèles en temps réel
  • Explications claires de l'impact du projet
  • Opportunités de signaler des cas extrêmes ou de proposer des modifications de protocole

Plats à emporter: Investissez dans la compréhension et l'engagement des annotateurs. Leur perspicacité est votre avantage invisible.

7. La collaboration avec les clients favorise le succès à long terme

Les synchronisations hebdomadaires avec le fournisseur de niveau 1 ne se limitaient pas à des mises à jour, elles permettaient :

  • Feedback en temps réel sur l'évolution des cas extrêmes
  • Résolution conjointe de problèmes (par exemple, comment traiter les reflets de la lumière sur les routes mouillées)
  • Alignement sur l'utilisation en aval de l'ensemble de données

La collaboration a favorisé confiance, agilité et propriété partagée, qui ont tous contribué au succès durable du projet.

Plats à emporter: Traitez le client comme un partenaire produit, et pas seulement comme un acheteur.

À la fin du projet, nous ne nous contentions pas de diffuser des vidéos annotées, nous fournissions une base de données capable de renforcer la sécurité audiovisuelle dans des environnements complexes et réels.

Lorsque l'annotation est alignée sur la perception, enrichie par le contexte et soutenue par un feedback collaboratif, elle passe d'un centre de coûts à un pilier stratégique du développement autonome.

Vous êtes curieux de savoir comment Dashcam Annotation peut améliorer votre pile audiovisuelle ? 👇

Si votre équipe est assise devant des heures (ou des téraoctets) de séquences filmées par caméra embarquée ou par capteur et se demande comment les préparer à la modélisation...tu n'es pas seul.

Chez DataVlab, nous avons aidé des fournisseurs de premier plan, des startups audiovisuelles et des OEM à annoter tout, des changements de voie aux piétons qui se promènent dans la circulation réelle.

Parlons-en: que vous planifiiez votre premier jeu de données ou que vous passiez à des millions d'images, nous serions ravis de collaborer.

🔗 DataVLab
📩 Ou contactez-nous directement pour entamer la conversation.

Améliorer les performances de votre IA dès aujourd'hui

Nous sommes là pour vous accompagner dans l'amélioration des performances de votre IA