Análisis de contenido multimedia

G2PI tiene experiencia en aplicaciones basadas en aprendizaje a partir de texto, audio y vídeo. En concreto, y trabajando conjuntamente con algunas de las empresas líderes del sector, hemos aplicado nuestros diseños al reconocimiento de género musical, el análisis semántico de vídeo y a la detección de eventos en retransmisiones deportivas. Además, hemos desarrollado sistemas para la recomendación de contenido audiovisual basados en técnicas de filtrado colaborativo.

Identificación de Género Musical
En los últimos años se ha realizado un esfuerzo importante para desarrollar sistemas de reconocimiento de género musical.  En esta línea, y en cooperación con el grupo de Sistemas Cognitivos (DTU Compute, Dinamarca), hemos aplicado técnicas basadas en kernels para análisis multivariante con el objetivo de construir modelos de clasificación de género musical a partir de bases de datos con decenas de miles de canciones. En la práctica, podemos considerar ésta una tarea de aprendizaje "big data", ya que la extracción de coeficientes MFCC y su posterior postprocesado hacen que cada canción deba representarse a partir de cientos de patrones de entrenamiento.  Adicionalmente, hemos construido métodos que permiten explotar la estructura temporal de las canciones, un aspecto de fundamental importancia para el reconocimiento de género.

Análisis Semántico de Vídeo
Nuestro equipo de investigación ha participado durante varios años en la tarea de Indexado Semántico de la inicitiva TRECVID.  Esta tarea consiste en la detección de un conjunto de conceptos predefinidos a partir de datos de vídeo.  Las clases a identificar pueden considerarse como de "alto nivel": por ejemplo, tomas en exteriores, skylines, teléfono, dos personas, etc.  Para ello, necesitamos alimentar nuestros clasificadores con características de bajo nivel que representan la estructura de color y textura del vídeo, así como características extraídas de "puntos clave" de las imágenes (características de tipo SIFT). Nuestros diseños han dado resultados muy satisfactorios, quedando clasificados dentro del primer cuartil de los más de 100 sistemas enviados para evaluación por grupos de todo el mundo.

Detección de Eventos en Vídeos Deportivos
La detección automática de eventos en vídeos deportivos es una tarea con importantes aplicaciones. Además del indexado automático, estos sistemas pueden ser muy relevantes para la inserción inteligente de publicidad o para la generación automática de resúmenes. A tal fin, se debe explotar la información contenida en características de gran calidad de "medio nivel" extraídas tanto del audio como del vídeo, y se debe incorporar al sistema de conocimiento acerca de cada disciplina deportiva en cuestión.  Nuestra investigación en esta línea se llevado a cabo dentro del proyecto i3Media, y se ha centrado en la detección de eventos en partidos de fútbol: gol, falta, corner, fuera de juego, etc.  Para ello, hemos desarrollado nuevos métodos de aprendizaje basados en Modelos de Markov Jerárquicos, de tal manera que los distintos niveles de la jerarquía puedan trabajar con conceptos a distinto nivel de abstracción.