El reconocimiento de objetos en imágenes aún es uno de los temas de investigación más importantes en la visión artificial. A partir de un vídeo o una imagen, el objetivo del reconocimiento de objetos es reconocer y localizar todos los objetos.
En los últimos años, este ámbito ha experimentado una importante mejora de ejecución con el uso de Deep Neural Networks 1 y grandes bancos de datos como ImageNet 2. A pesar de los esfuerzos de investigación, el reconocimiento de objetos es un problema pendiente de solucionar. En los métodos que operan en tiempo real (como Deformable Parts Models 3), la precisión de detección es baja, mientras que los métodos que muestran un rendimiento más alto no pueden operar en tiempo real.
Actualmente, incluso los mejores algoritmos para el reconocimiento de objetos aún están muy lejos de poder equipararse a la capacidad humana. En esta línea de investigación nos centramos en la mejora de los sistemas actuales, tanto en términos de precisión como de velocidad.
Comprensión de escenariosLa comprensión de escenarios visuales complejos es una de las tareas distintivas de la visión artificial. A partir de un vídeo o una foto, el objetivo de la comprensión de escenarios es construir una representación del contenido de una foto (es decir, qué objetos aparecen en la foto; cómo están relacionados; si en la foto hay personas, qué acciones llevan a cabo; qué lugar aparece en la foto, etc.).
Con la aparición de bases de datos a gran escala como ImageNet y Places, y el reciente éxito de técnicas de aprendizaje automático como Deep Neural Networks, la comprensión de escenarios ha experimentado un gran avance. Este avance ha hecho posible construir sistemas de visión capaces de tratar algunas de las tareas mencionadas antes. Esta línea de investigación se lleva a cabo en colaboración con el grupo de visión artificial del Instituto Tecnológico de Massachusetts. Nuestro objetivo es mejorar los algoritmos existentes para la comprensión de escenarios y definir nuevos problemas que se puedan resolver mediante avances recientes en redes neurales y aprendizaje automático.
Reconocimiento de expresiones faciales
Las expresiones faciales son una fuente muy importante de información para el desarrollo de nuevas tecnologías. Como seres humanos, utilizamos nuestras caras para comunicar nuestras emociones, y los psicólogos han estudiado las emociones en las caras desde la publicación de los primeros trabajos de Charles Darwin. Uno de los modelos de emoción más exitosos es el sistema Facial Action Coding System (FACS) 2, en el que un conjunto particular de unidades de acción (movimientos musculares faciales) actúa como los componentes de seis emociones básicas (felicidad, sorpresa, miedo, angustia, asco y tristeza). La comprensión automática de esta lengua universal (muy parecida en todas las culturas) es una de las áreas de investigación más importantes en la visión artificial. Tiene aplicaciones en mu...