July 4, 2025

Anotar el comportamiento de los peatones para la seguridad autónoma de los vehículos | IA

A medida que los vehículos autónomos (AV) avanzan hacia el despliegue en el mundo real, comprender el comportamiento de los peatones se vuelve esencial para garantizar la seguridad y la capacidad de respuesta en tiempo real. Este artículo explora cómo la anotación impulsa los modelos de reconocimiento del comportamiento, los complicados desafíos que supone captar el movimiento y la intención de las personas y cómo el etiquetado estratégico de los datos puede ayudar a los vehículos autónomos a interpretar mejor las decisiones de los peatones, antes de que se produzcan.

Descubra cómo anotar el comportamiento de los peatones mejora la inteligencia artificial de seguridad de los vehículos autónomos. Explore los desafíos.

Por qué el comportamiento de los peatones es crucial en los sistemas AV

Los peatones se encuentran entre los actores más vulnerables y menos predecibles en los entornos urbanos. A diferencia de los vehículos, sus movimientos no se rigen por normas de tráfico estrictas ni por restricciones mecánicas. Pueden detenerse repentinamente, acelerar, cambiar de dirección o hacer gestos, todo ello en función de decisiones internas inobservables o de un contexto externo.

Para que los vehículos autónomos funcionen de forma segura, no solo deben detectar a los peatones sino también interpretar sus intenciones, su lenguaje corporal y sus probables trayectorias. Esto va más allá de la detección tradicional de objetos y se adentra en el ámbito de la predicción del comportamiento, un área en la que los datos anotados desempeñan un papel fundamental.

¿Qué hace que el comportamiento de los peatones sea tan complejo?

El comportamiento de los peatones está influenciado por una combinación de señales visuales, temporales, ambientales y sociales. Algunos factores clave de complejidad incluyen:

  • Ambigüedad del movimiento: Un paso adelante puede indicar que se está cruzando... o no.
  • Contexto interpersonal: Los grupos de peatones se comportan de manera diferente que los individuos.
  • Interacciones ambientales: La iluminación, el clima y el trazado de las carreteras afectan el comportamiento.
  • Cambios temporales: La intención de una persona puede cambiar en milisegundos.

Para que los AV aprendan estas complejidades, necesitan datos de vídeo anotados de alta calidad con etiquetas que tienen en cuenta el contexto, como la dirección de la mirada, el movimiento de las piernas, los patrones de vacilación y el uso de los cruces peatonales.

Etiquetas de comportamiento que generan información sobre seguridad

Para anotar el comportamiento de los peatones de manera efectiva, es esencial ir más allá de los recuadros delimitadores estáticos y centrarse en etiquetado orientado a eventos o basado en la intención. Las etiquetas de comportamiento de los peatones más comunes que se utilizan en los conjuntos de datos audiovisuales incluyen:

  • De pie, para caminar, corriendo
  • Empezando a cruzar, a punto de cruzar, cruzando, cruzamiento final
  • Mirando el vehículo, no estoy buscando, distraída
  • Saludando, señalando, objeto sujetando, uso del teléfono móvil
  • Vacilación, esperando, dando marcha atrás

En muchos casos, estos comportamientos son anotado cuadro por cuadro para capturar la dinámica de la transición. Para los modelos de aprendizaje automático, este nivel de granularidad es esencial para predecir con precisión las acciones futuras.

Predecir la intención: del etiquetado a la previsión

El objetivo de la anotación de comportamiento no es simplemente etiquetar acciones pasadas, sino permitir que los modelos predice lo que hará el peatón a continuación.

Las anotaciones suelen combinarse con algoritmos como los LSTM o los predictores basados en transformadores que ingieren secuencias visuales. Las etiquetas de comportamiento enriquecidas proporcionan la verdad básica necesaria para:

  • Tren modelos de secuencia temporal que anticipan la intención
  • Afinar modelos de predicción de rutas para la estimación de la trayectoria de los peatones
  • Evalúe módulos de concientización sobre riesgos dentro de los vehículos autónomos para reducir la velocidad o detenerse de forma preventiva

En este contexto, la anotación se convierte en algo más que una tarea de etiquetado: es una operación crítica para la seguridad.

Los errores más comunes al anotar el comportamiento de los peatones

Si bien la importancia de la anotación del comportamiento de los peatones es clara, ejecutarla bien no es poca cosa. Algunos desafíos recurrentes incluyen:

⚠️ Estados de movimiento ambiguos

Los momentos de transición (por ejemplo, al bajarse de una acera) son difíciles de clasificar. ¿La persona está «a punto de cruzar» o simplemente camina de un lado a otro? Los anotadores necesitan directrices que tengan en cuenta el contexto y, posiblemente, tener acceso al fotogramas anteriores y siguientes.

⚠️ Normas culturales variables

Los comportamientos de los peatones varían de un país a otro. Por ejemplo: cruzar imprudentemente es más común en algunas culturas que en otras, y el contacto visual puede tener un significado diferente. Los equipos de anotación deben localizar taxonomías conductuales en consecuencia.

⚠️ Fatiga y subjetividad por anotación

Etiquetar el comportamiento matizado, cuadro por cuadro, es mentalmente agotador. Sin procedimientos sólidos de formación y control de calidad, los errores se acumulan. Además, la «duda» de un anotador puede ser la «espera» de otro. La coherencia es clave.

⚠️ Contexto ambiental deficiente

Si la anotación se limita a cuadros delimitadores sin etiquetar semáforos, señales o pasos de cebra, es difícil juzgar si el comportamiento de un peatón es obediente o arriesgado. Se deben incluir metadatos contextuales.

Factores humanos y sesgos conductuales

Al anotar el comportamiento de los peatones para los sistemas de vehículos autónomos (AV), los factores humanos (como la percepción, el juicio y el sesgo cognitivo) desempeñan un papel sorprendentemente importante. La anotación no consiste solo en hacer clic en objetos o etiquetar estados. Es una tarea interpretativa que requiere una comprensión matizada del movimiento humano, la intención y el contexto social.

El problema de la percepción

Las acciones de los peatones suelen ser ambiguas. Una persona parada en la acera con un pie hacia adelante puede estar a punto de cruzar, o puede que simplemente esté ajustando su postura. Los anotadores humanos deben interpretar estos microcomportamientos, y esas interpretaciones se filtran a través de sus propias experiencias, normas culturales y expectativas subconscientes.

Por ejemplo:

  • Un peatón mirando un vehículo podría sugerir conciencia en algunas culturas pero no en otras.
  • UN breve vistazo al teléfono un anotador podría etiquetarlo como «distraído» o simplemente «inactivo» por otro.
  • Una caminata lenta puede significar fatiga, indecisión o precaución, según cómo lea la escena el anotador.

Estos juicios sutiles dan forma al conjunto de datos etiquetado y, por extensión, al sesgos incrustados en el modelo. Si no se gestiona con cuidado, esto puede llevar a que los vehículos autónomos hagan predicciones erróneas, especialmente en diversos entornos urbanos.

Influencias culturales y ambientales

El comportamiento de los peatones difiere drásticamente según la geografía y la cultura. En Tokio, los peatones tienden a seguir estrictamente las señales. En Roma o Marruecos, cruzar imprudentemente puede ser una norma social. Si su equipo de anotación no está familiarizado con el contexto de comportamiento local de sus datos, puede etiquetar erróneamente las acciones como riesgosas o anómalas cuando no lo son, o viceversa.

Es por eso que muchas compañías audiovisuales ahora están:

  • Entrenamiento de anotadores con cebadores de comportamiento específicos de la ubicación
  • Incluyendo etiquetas de contexto cultural en metadatos (p. ej., normas locales para peatones)
  • Uso equipos de revisión multinacionales para validar los comportamientos ambiguos en todas las perspectivas

La importancia de la formación de anotadores

Entrenar a los anotadores para que reconozcan los comportamientos de manera consistente no solo tiene que ver con las reglas, sino con la cognición. Los canales de anotación conductual de alta calidad suelen incluir:

  • Vídeos instructivos mostrar ejemplos etiquetados con comentarios
  • Comparaciones paralelas para ilustrar las diferencias de etiquetado
  • Calibración por consenso grupal, donde los anotadores etiquetan las mismas escenas y alinean su comprensión

Algunas empresas incluso emplean psicólogos conductuales o ingenieros de factores humanos para supervisar las directrices y validar los casos extremos.

Incorporación del comportamiento en tuberías de simulación

Si bien los datos de vídeo del mundo real son vitales, tienen limitaciones: son difíciles de controlar, difíciles de equilibrar entre comportamientos poco comunes y Scale AIr puede resultar caro. Ahí es donde simulación basada en el comportamiento pasos para cerrar la brecha entre los datos anotados y la autonomía comprobable.

Cómo funciona la simulación enriquecida con el comportamiento

Entornos de simulación como CARLA o LGSVL permiten a los ingenieros generar ciudades virtuales enteras con agentes programables. Cuando incorporas patrones de comportamiento del mundo real en estos agentes, basándose en datos anotados sobre los peatones, obtienes un poderoso conjunto de herramientas:

  • Generación de escenarios controlados: ¿Quiere comprobar cómo responde su AV a un peatón indeciso bajo la lluvia que se acerca desde un punto ciego? Puedes simular eso.
  • Modelado de eventos raros: Los cuasiaccidentes, los giros bruscos en U o los caminantes distraídos son peligrosos de filmar en la vida real, pero seguros en la simulación.
  • Evaluación comparativa del rendimiento: La simulación permite repetir la misma escena rica en comportamientos en diferentes modelos audiovisuales o versiones de software para probar las mejoras.

Este enfoque convierte la anotación de comportamiento en un circuito de retroalimentación. Extrae patrones de datos del mundo real, los convierte en guiones para convertirlos en simulaciones, refina la respuesta de su AV, reúne nuevos casos extremos y comienza de nuevo.

Comportamiento sintético para un entrenamiento equilibrado

Muchos conjuntos de datos AV sufren de desequilibrio de comportamiento—muchos eventos de cruce, pero pocas dudas o interacciones. Para solucionar este problema, los equipos están generando comportamientos peatonales sintéticos que se modelan estadísticamente a partir de anotaciones reales.

Ejemplo de canalización:

  1. Entrene un clasificador de comportamiento con sus datos anotados
  2. Utilice el clasificador para analizar un corpus de vídeo grande y sin anotaciones
  3. Extrae comportamientos poco comunes y úsalos para informar a los guiones de simulación
  4. Entrene modelos AV en este conjunto de datos sintéticos enriquecidos

El resultado: un AV que no solo ve a los peatones, sino que anticipa, comprende y se adapta a sus acciones complejas y, a menudo, impredecibles.

Cerrar el ciclo entre la anotación y la prueba

En el desarrollo audiovisual moderno, la anotación del comportamiento no es una tarea independiente, sino que forma parte de un ciclo iterativo de desarrollo y validación de seguridad:

  • Anota el comportamiento matizado a partir de datos de conducción reales
  • Inyectar en las canalizaciones de formación modelo
  • Evalúe el comportamiento AV en la simulación
  • Detecte fallos del modelo o casos extremos
  • Refine las etiquetas o amplíe los conjuntos de datos en consecuencia

Este bucle es fundamental para validación reglamentaria también. Muchas jurisdicciones requieren pruebas demostrables de seguridad en escenarios peatonales específicos. La simulación basada en el comportamiento, basada en anotaciones de alta calidad, le ayuda a cumplir esos requisitos con confianza.

Conjuntos de datos que tuvieron un impacto

Varios conjuntos de datos públicos han ayudado a dar forma al campo de la anotación del comportamiento de los peatones para vehículos autónomos:

Los anotadores y desarrolladores suelen ajustar sus modelos combinando la información de estos conjuntos de datos con anotaciones privadas y específicas para cada tarea para módulos AV críticos para la seguridad.

El papel de la simulación y los datos sintéticos 🎮

En escenas en las que es difícil recopilar datos de comportamiento reales, como las intersecciones peligrosas o los cuasiaccidentes poco frecuentes:datos sintéticos se está convirtiendo en algo esencial.

Al simular casos extremos (por ejemplo, un peatón corriendo hacia el tráfico), los equipos pueden:

  • Distribuciones de clases de equilibrio
  • Mejorar la generalización en la predicción de comportamientos poco frecuentes
  • Evalúe los escenarios del «cisne negro» sin arriesgar vidas

Las anotaciones sintéticas, cuando se hacen correctamente, complementan los datos reales y cierran las brechas de rendimiento en entornos críticos para la seguridad.

Scale AIr la anotación del comportamiento en proyectos del mundo real

Para llevar todo esto a la producción, los equipos deben poner en funcionamiento las canalizaciones de anotación con:

  • Borrar taxonomías: Definiciones para todas las clases de comportamiento
  • Contexto del escenario: Metadatos sobre el entorno y las señales de tráfico
  • Garantía de calidad: Validación de varios pasos para reducir la subjetividad
  • Segmentación de vídeo: Dividir secuencias largas en segmentos interpretables
  • Aprendizaje activo: Dejar que los modelos señalen un comportamiento incierto para su revisión humana

El etiquetado de datos se convierte en un proceso iterativo y humano en el bucle, especialmente para aplicaciones que cambian rápidamente, como los vehículos autónomos, en las que la desviación del modelo es un riesgo constante.

Lecciones aprendidas sobre el terreno: anotación a Scale AI

De nuestra experiencia trabajando con empresas audiovisuales y empresas emergentes de movilidad inteligente, estas son las lecciones que hemos aprendido con tanto esfuerzo:

  • Usa varios anotadores para que el mismo fragmento de vídeo mida la concordancia entre evaluadores
  • Desarrolle una mentalidad que priorje el comportamiento: No anotes solo para marcar una casilla; considera cómo se utilizarán los datos en las decisiones de modelos reales
  • Invierta en herramientas de anotación de vídeo que admite transiciones de clases a nivel de cuadro, enlaces temporales y superposiciones contextuales (por ejemplo, el estado de los semáforos)
  • Cierre el ciclo de retroalimentación entre los equipos de anotación y los ingenieros de aprendizaje automático para refinar las etiquetas a lo largo del tiempo

Cuanto más se parezca el proceso de anotación a la toma de decisiones en el mundo real, más útil será para entrenar vehículos autónomos inteligentes.

El camino por delante: hacia vehículos autónomos empáticos

La anotación es solo el principio. Lo que la industria busca en última instancia es IA empática—Sistemas AV que no solo ven a los peatones, sino entender ellos. Esto requiere avanzar hacia:

  • Entradas multimodales (visión + LiDAR + audio) para inferir un contexto más rico
  • Modelado entre agentes donde los vehículos y los peatones «negocian» el espacio
  • Razonamiento predictivo, no solo seguridad reactiva

Estamos en el camino hacia vehículos autónomos que puedan reducir la velocidad para una abuela indecisa en un cruce peatonal, no porque haya activado un umbral de seguridad, sino porque el sistema entiende realmente su patrón de comportamiento.

Hablemos de tu proyecto 🤝

Si estás construyendo la próxima generación de vehículos autónomos que priorizan la seguridad y necesitas ayuda para anotar el comportamiento de los peatones, estamos aquí para ayudarte. En DataVLab, nos especializamos en el etiquetado de comportamientos complejos a Scale AI, con experiencia comprobada en inteligencia artificial para movilidad urbana.

Ya sea que necesite un control de calidad conductual, consultoría de anotación o conjuntos de datos integrales, construyamos juntos calles más seguras.

👉 Póngase en contacto con nosotros para hablar sobre cómo podemos apoyar su proyecto audiovisual.

Desbloquee todo el potencial de su IA

Estamos aquí para ayudarle a ofrecer servicios de alta calidad y mejorar el rendimiento de su IA.