La detección automática de objetos es cada vez más sofisticada, pero la detección precisa de humanos aún plantea desafíos únicos. Gabriele Fulco, de Omron, explora qué dificulta tanto la detección fiable de humanos y cómo superar estos obstáculos podría marcar el comienzo de una nueva era de productividad.
Los esfuerzos por imitar la visión humana para identificar objetos no son nuevos. Las primeras tecnologías de procesamiento digital de imágenes se desarrollaron en la década de 1960 y se han perfeccionado y mejorado constantemente desde entonces. Los avances recientes en IA han contribuido a intensificar aún más estos esfuerzos. Lograr un sistema de visión computacional que no solo iguale, sino que supere la precisión y la comprensión de la visión humana combinada con un cerebro humano ha sido notoriamente difícil. Desbloquear esta tecnología podría potencialmente anunciar una revolución en el progreso humano, revolucionando todo, desde la agricultura hasta la ciencia médica, así como las operaciones industriales.
El cuerpo humano es el producto de cientos de miles de años de evolución y, como tal, es increíblemente sofisticado. Las computadoras han sido capaces de detectar y comprender imágenes 2D desde hace mucho tiempo, pero los entornos tridimensionales dinámicos van mucho más allá. De hecho, la visión humana no se trata solo de percibir el mundo que nos rodea, sino también de comprenderlo. Nuestros cerebros son capaces de proporcionar constantemente la información contextual vital que nos permite comprender nuestro entorno en tiempo real. Tradicionalmente, las computadoras no han podido alcanzar este nivel de sofisticación, hasta hace poco.
Entrenar a una máquina no solo para percibir, sino también para comprender el mundo que la rodea, presenta complejos desafíos tecnológicos y computacionales. Detectar humanos añade otra capa de complejidad. De hecho, la singularidad y diversidad de los propios humanos los convierte en uno de los sujetos más difíciles de detectar de forma fiable sin entrenar un sistema exhaustivamente con individuos específicos.
Incluso un cambio de ropa o peinado puede presentar problemas. Al añadir factores adicionales como el entorno más amplio con el que interactúan los humanos, combinado con la imprevisibilidad del comportamiento humano, los desafíos técnicos se acumulan rápidamente. Cualquier solución viable también debe ser rentable y económica en tamaño para ser práctica en entornos cotidianos. Resolver estos problemas no es fácil. Por ejemplo, en entornos industriales con alta demanda, varias personas pueden trabajar a toda velocidad, realizando diversas tareas en el mismo espacio. Intentar rastrear su movimiento desde una vista lateral o incluso isométrica ha demostrado ser tradicionalmente una solución imperfecta, ya que requiere que el sistema comprenda la profundidad de visión. En una configuración de una sola cámara, una persona puede fácilmente ocultar a otra y crear puntos ciegos.
Además, uno de los principales desafíos en el desarrollo de tecnologías de detección de visión no reside tanto en la captura de imágenes, sino en su procesamiento. Para que una máquina comprenda el movimiento humano en tiempo real, se requiere una gran cantidad de potencia computacional para garantizar alta velocidad y precisión. Dado que no hay dos entornos iguales, desarrollar un sistema que no solo comprenda los matices del movimiento humano, sino que también se adapte a diferentes escenas y niveles de iluminación, ha sido tradicionalmente un obstáculo para que estas tecnologías se vuelvan viables a gran escala.
El sistema de detección de personas AM1 de Omron aborda estos desafíos, literalmente, desde una perspectiva diferente. Diseñado para optimizar la productividad humana en entornos industriales, utiliza una única cámara descendente combinada con un sofisticado software optimizado específicamente para detectar e interpretar el movimiento humano. De esta forma, proporciona una imagen más precisa de la ubicación de los trabajadores en un espacio determinado, a la vez que reduce la probabilidad de solapamiento y puntos ciegos. El software AM1 ha sido entrenado para comprender los patrones típicos de movimiento humano y puede rastrear hasta 10 personas en un área de 7 x 7 m con una precisión superior al 95 %.
Esta capacidad permite a las organizaciones rastrear dónde y cómo se mueven los trabajadores, o cuánto tiempo permanecen en una estación específica. Esta información puede utilizarse para detectar cuellos de botella y garantizar que la utilización del espacio y los flujos de trabajo sean lo más eficientes posible. En la práctica, esto podría significar eliminar obstáculos, acortar las rutas más utilizadas o reducir la probabilidad de que los trabajadores se crucen. Al identificar y comprender los problemas con antelación, se pueden encontrar soluciones más rápidamente, gracias a un enfoque basado en datos. La precisión del AM1 se logra gracias a la velocidad de fotogramas de 10 fps del sistema. Los datos de imagen de la cámara (o de varias cámaras) se alimentan a un concentrador de procesamiento a través de Ethernet, alimentado por un acelerador Intel OpenVINO™. Esta es la innovación crucial que permite al sistema convertir rápidamente los datos brutos en información útil.