En este artículo vemos dos servicios que nos proporciona Azure para analizar vídeos con Inteligencia Artificial: Video Retrieval and Summary y Vídeo Indexer, ambos disponibles desde el portal de Azure como vía API.
Aunque ambos analizan los frames de los vídeos y nos permiten extraer insights sin necesidad de ver el vídeo completo, la principal diferencia es que con Vídeo retrieval podemos realizar búsquedas semánticas sobre el vídeo y con Vídeo indexer podemos realizar un análisis más exhaustivo del vídeo gracias a la cantidad de modelos que utiliza.
Veamos las principales caracterísicas de cada uno.
Video Retrieval and Summary
Azure Video Retrieval and Summary es un servicio en preview dentro de la familia de servicios cognitivos de Vision de Azure que se enfoca en ofrecer dos funcionalidades:
Extracción y presentación rápida de contenido relevante
Permite encontrar momentos clave de un video utilizando lenguaje natural. Cabe destacar que las búsquedas se pueden realizar con la caracterísca de vision o de speech.
1.1 Búsqueda por visión
Por un lado, la carterística con visión nos permite interpretar lo que está sucediendo en el vídeo gracias a la capacidad de encontrar los fotogramas o escenas que coincidan con una descripción visual determinada. El sistema analiza cada fotograma y etiqueta lo que “ve” (por ejemplo, objetos, personas, ropa, etc.). Luego, al buscar con la opción vision, la API localiza las partes específicas del video donde aparecen los elementos o situaciones descritas en la consulta de texto.
1.2 Búsqueda por Speech
La búsqueda por Speech tiene la capacidad de encontrar segmentos específicos dentro de un video basándose en la transcripción del audio. Es decir, el sistema convierte primero el habla (voz) en texto mediante reconocimiento de voz y, a partir de esta transcripción, permite buscar palabras o frases concretas o relacionadas que fueron mencionadas durante el video.
Al usar el featureFilter con valor speech, la API busca en todas las partes transcritas del video para devolver los tramos de tiempo exactos donde se pronuncian las palabras o frases consultadas. De esta manera, no tienes que revisar todo el contenido de forma manual, sino que el motor de búsqueda filtra y localiza las ocurrencias de la palabra clave en el audio.
Creación de resúmenes
Genera un resumen con texto donde condensa la información principal del video, agilizando la revisión de material extenso.
Vídeo Indexer
A continuación vamos a ver los principales modelos utilizados por Azure Vídeo Indexer.
1. Audio Effects
¿Qué hace?
Detecta efectos de sonido o música de fondo en la pista de audio de un video.
¿Por qué es útil?
Permite identificar momentos con música, aplausos o sonidos específicos para segmentar escenas o para editar el contenido posteriormente (por ejemplo, eliminar ruido de fondo).
2. Closed Captions
¿Qué hace?
Genera o integra subtítulos (closed captions) a partir de la transcripción de audio.
¿Por qué es útil?
Hace que tu contenido sea más accesible para personas con discapacidad auditiva y facilita el consumo de video en entornos sin sonido (por ejemplo, en redes sociales con autoplay silencioso).
3. Keyframes
¿Qué hace?
Identifica fotogramas representativos dentro de un video.
¿Por qué es útil?
Facilita la navegación y creación de resúmenes visuales, ya que te permite saltar rápidamente a momentos clave del contenido.
4. Celebrities
¿Qué hace?
Reconoce personalidades famosas (actores, deportistas, políticos, etc.) a partir de bases de datos de rostros conocidos.
¿Por qué es útil?
Muy valioso en la industria de medios y entretenimiento para identificar rápidamente celebridades y cuantificar el tiempo en pantalla que cada una recibe.
5. Object Detection
¿Qué hace?
Localiza y etiqueta objetos que aparecen en cada fotograma: desde vehículos y animales hasta productos y elementos de decoración.
¿Por qué es útil?
Facilita la clasificación y segmentación de contenido para búsquedas más específicas (por ejemplo, “auto rojo”, “cámara de seguridad”, etc.).
6. Text-based Emotions
¿Qué hace?
Analiza la transcripción del habla para identificar el estado emocional (positivo, negativo, neutro) de un discurso o interacción.
¿Por qué es útil?
Puede ayudar a entender la reacción de un presentador, entrevistado o incluso el ambiente emocional en un video.
7. Named Entities
¿Qué hace?
Reconoce entidades nombradas (nombres de personas, organizaciones, lugares, marcas) en el texto transcrito del audio.
¿Por qué es útil?
Facilita la clasificación y organización del contenido en torno a las menciones relevantes, sea para periodismo, marketing o monitoreo de marca.
8. Face Detection
¿Qué hace?
Si conectamos Vídeo Indexer a Face API podemos detectar rostros en cada fotograma. Aunque no los identifique (a menos que se active la opción de “Custom Faces”), sí delimita su presencia.
¿Por qué es útil?
Para contar cuántas personas hay en una escena, enfocar la atención en momentos con ciertos tipos de interacción social o simplemente iniciar un proceso posterior de reconocimiento.
9. Keywords
¿Qué hace?
Extrae palabras clave del discurso para representar los temas más importantes del contenido.
¿Por qué es útil?
Mejora el SEO en plataformas de video, facilita la búsqueda de temas específicos y permite un análisis más rápido de la temática principal.
10. Custom Faces
¿Qué hace?
Permite entrenar el modelo con rostros particulares (por ejemplo, empleados, presentadores) para su identificación en el video.
¿Por qué es útil?
Ideal en escenarios corporativos y de seguridad, o cuando se busca distinguir personas específicas dentro de un gran número de videos.
11. Visual Labels
¿Qué hace?
Etiqueta elementos visuales a gran escala (edificios, paisajes, logos, etc.).
¿Por qué es útil?
Sirve para búsquedas más generales del tipo “playa”, “ciudad” o “montaña”, y para categorizar contenido si manejas grandes volúmenes de videos.
12. Character Recognition (OCR)
¿Qué hace?
Realiza un reconocimiento óptico de caracteres (OCR) para detectar y extraer texto que aparezca en el video (letreros, presentaciones en pantalla, subtítulos incrustados, etc.).
¿Por qué es útil?
Permite buscar texto que aparezca visualmente en la escena, crucial en videos educativos, de noticias o de presentaciones.
13. Rolling Credits
¿Qué hace?
Detecta los créditos de cierre (o apertura) de una producción audiovisual.
¿Por qué es útil?
Al ubicar los créditos, se pueden automatizar procesos de postproducción, análisis de metadatos de producción o determinar fin de contenido para cortar videos.
14. Editorial Shot Type
¿Qué hace?
Identifica el tipo de toma o encuadre (por ejemplo, primer plano, plano medio, plano general, etc.).
¿Por qué es útil?
Ofrece datos sobre la composición visual del video, muy valiosos en la industria cinematográfica o periodística para clasificar estilos de grabación.
15. Speakers
¿Qué hace?
Detecta y separa diferentes voces en el audio, asignándoles un identificador único (Speaker 1, Speaker 2, Speaker 3...)
¿Por qué es útil?
Permite analizar conversaciones con varios interlocutores, ver quién habla más tiempo o atribuir citas a la persona correcta.
16. Topics
¿Qué hace?
Asigna temas o categorías al contenido basado en la transcripción de audio y los metadatos del video.
¿Por qué es útil?
Permite clasificar rápidamente tu biblioteca de videos por áreas temáticas, facilitando la búsqueda y la organización.
Además, Azure Vídeo indexer se puede conectar con los modelos GPT de Azure OpenAI, proporcionándonos mayor inteligencia que nos permite realizar búsquedas más complejas o acceder a resúmenes de los vídeos.
Comparativa entre Azure Video Retrieval and Summary y Azure Video Indexer
A continuación, vemos una tabla resumen que ilustra las diferencias clave:
Característica | Video Retrieval and Summary | Video Indexer |
Enfoque principal | Búsqueda y generación de resúmenes de video | Análisis integral y profundo de contenido audiovisual |
Tipos de análisis | Identificación de segmentos relevantes | - Reconocimiento facial - Detección de objetos y marcas - Análisis de sentimiento - Segmentación avanzada |
Nivel de detalle de metadatos | Básico: Palabras clave, escenas destacadas | Avanzado: Etiquetado de objetos, personas, marcas, emociones, etc. |
Disponibilidad | Portal de Azure y APIs REST | Portal de Azure y APIs REST |
El análisis de video con IA se ha convertido en una pieza fundamental para manejar eficientemente grandes volúmenes de contenido audiovisual. Azure Video Retrieval and Summary y Azure Video Indexer son dos soluciones potentes que cubren diferentes necesidades: desde la generación de resúmenes y la búsqueda de momentos clave, hasta el etiquetado detallado y el reconocimiento facial.