El pasado 1 de Junio tuvo lugar la 7ª edición del evento Anfitrionas: Hablemos de tecnología W4TT, en esta ocasión impartí la charla En el ojo de la IA: explorando visiones generativas, donde vimos los diferentes modelos de IA de Azure disponibles que nos permiten analizar imágenes. Los basados en Inteligencia Artificial generativa: GPT 4V, GPT 4V Turbo, GPT-4o y los servicios cognitivos basados en OCR.
En este artículo vamos a ver las principales caracterísicas de cada uno y sus diferencias.
GPT-4o en Azure
"o" de omnimodal, por la versatilidad de entradas que procesa, entre ellos imágenes.
Hasta la fecha podemos decir que:
Es el modelo más avanzado de Azure OpenAI.
Es multimodal, lo que significa que acepta tanto texto cómo imágenes en la entrada.
En el procesamiento del lenguaje natural, ofrece mejor rendimiento en idiomas más allá del inglés, son 20 idiomas los elegidos entre los que se encuentran además del mencionado inglés, el francés, el portugués, el español, el alemán o el italiano.
Genera texto dos veces más rápido que los modelos anteriores y es un 50% más barato que GPT-4 Turbo. (ojo que depende de la región dónde se encuentre el usuario)
Y ya está disponible en la API Azure OpenAI, en dos regiones de USA: Este de EE. UU., Oeste de EE. UU 3 y Centro de Suecia.
GPT 4V en Azure
Con repecto a Azure OpenAI, antes de salir GPT-4o teníamos la posibilidad de usar GPT4 V (Vision) para poder analizar imágenes, en este caso el modelo está disponible en estas regiones de Azure: Este de Australia, Norte de Suiza, Centro de Suecia y Oeste de EE. UU.
Si te encuentras en Europa y necesitas analizar imágenes, a día de hoy te recomiendo utilizar este modelo ya que GPT 4o tiene una gran latencia en la respuesta.
OCR (Optical Character Recognition) Azure AI Vision
Este modelo de Azure nos permite extraer texto de imágenes, podemos utilizar la API de lectura para extraer tanto texto impreso como manuscrito en diferentes idiomas, sin necesidad de indicarle cuál, a partir de imágenes, PDF y archivos TIFF.
En esta url podemos ver los idiomas que soporta el modelo de OCR.
El reconocimiento óptico de caracteres (OCR) se recomienda utilizar para documentos generales y no estructurados que tengan menor cantidad de texto, o bien para imágenes que contengan texto.
Los resultados se devuelven de forma inmediata (sincrónica) desde una única llamada de API.
Principales diferencias entre OCR y GPT 4V o GPT 4o
La principal diferencia que existe con los modelos generativos es que nos ubica los elementos que detecta en las imágenes, en ciertos casos de uso esto puede ser relevante.
Sin embargo, con la IA generativa tenemos más versatilidad a la hora de hacerle diferntes peticiones sobre una misma imágen.
Documento de inteligencia
Además del OCR, Azure AI dispone del servicio Documento de inteligencia que también nos permiten leer texto tanto de documentos como de imágenes.
Este servicio es idóneo para leer tanto volúmenes pequeños como grandes de texto de imágenes y documentos PDF.
Este servicio, a diferencia del OCR, usa el contexto y la estructura del documento para mejorar la precisión.
La llamada de función inicial devuelve un identificador de operación asincrónica, que se debe usar en una llamada posterior para recuperar los resultados.
Algunos ejemplos claros de casos de uso son extraer información de recibos o facturas.
Otros servicios Cognitivos sobre análisis de Imágenes en Azure
Además de los modelos basados en IA generativa y el modelo de OCR (Optical Character Recognition), tenemos disponibles en Azure otros servicios cognitivos que nos permiten analizar imágenes, extraer información de ellos y realizar diferentes acciones como: detectar objetos, generar la descripción o clasificación de una imagen, la generación de miniaturas recortadas inteligentemente, reconocer productos, extraer tags, eliminiar el fondo, detectar contenido sensible...
En el ojo de la IA: Explorando visiones generativas
Dejo el vídeo de la sesión impartida en la última edición de W4TT, que dura tan solo 20 minutos y vemos los principales servicios de Azure que nos permiten analizar imágenes a día de hoy, cómo crear recursos y llamarlos por API.