top of page
  • Foto del escritorMaría Soto

Principales Modelos y servicios de Azure OpenAI 2024 - GlobalAI Bootcamp Perú

El pasado 30 de marzo Nicolas Nakasone me invitó a participar en el Global AI Bootcamp 2024 de Perú, donde impartí la charla sobre los principales modelos y servicios de Azure OpenAI.


En esta entrada dejo un resumen de lo que presenté durante la charla y comparto el vídeo de las sesiones.


Principales modelos de Azure OpenAI 2024


Vimos los modelos más recientes y cómo llamarles desde código para integrarlos en nuestros desarrollos o productos:


  • GPT4V: que nos permite hacer consultas sobre imágenes, nos permite describirlas como obtener la información del texto que contiene. Aquí la llamada por API al endpoint del modelo correspondiente y los parámetros donde le indicamos en un json el role del sistema, la petición de usuario, la imágen que queremos consultar codificada en base 64 y los parámetros temperature, top_p y tokens.

https://RECURSOAZUREOPENAI.openai.azure.com/openai/deployments/DEPLOYMENT/chat/completions?api-version=VERSION


{
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "You are an AI assistant that helps people find information."
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "describe esta imagen"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,CODE"
          }
        }
      ]
    }
  ],
  "temperature": 0.7,
  "top_p": 0.95,
  "max_tokens": 800
}

  • Dalle 3: que nos permite crear imágenes alucinantes con un simple prompt. Con la posibilidad de indicarle el número de imágenes que queremos crear y el tamaño que queremos: 1024 *1024,1024 * 1792, 1792 * 1024


{
    "prompt": "3D render of a cute pink monster on a dark blue background, digital art",
    "n": 1,
    "size": "1024x1024"
}


  • Whisper: que permite transcribir audio en tiempo real a texto, hacer resúmenes, analizar el sentimiento de la conversación y sacar los puntos claves. Actualmente no está disponible la posibilidad de traducir en tiempo real, esta funcionalidad se puede conseguir con los modelos de AI Speech. Los formatos de audio que admiten son: .MP3, .MP4, .MPEG, .MPGA, .M4A, .WAV or .WEBM La llamada a la API del modelo de Whisper de Azure OpenAI al que le pasaremos un audio como parámetro es la siguiente:


  • Embbedings: Convierte textos en vectores multidimensionales para poder realizar búsquedas semánticas, agrupaciones, recomendaciones de productos, o clasificaciones. La llamada a la API:


{
    "input": "películas de miedo"
}


Puedes ver más información sobre embedding y un caso de uso real en este artículo.



¿En qué regiones de Azure tengo disponibles los modelos GPT4V, Dalle 3 y la función Assistants?


Si quieres probar desde un único recurso de Azure OpenAI los últimos modelos que hemos mencionado antes te recomiendo que lo crees en Centro Suecia que es donde está actualmente disponible la última versión de Dalle, puedes usar GPT4 Vision y probar la funcionalidad de assistants que en otro post comentaré qué podemos hacer con ella.



Precios servicios Azure OpenAI


Desde esta url podrás ver los diferentes servicios y modelos junto con su precio en las diferentes regiones y en diferentes monedas.



Charla Global AI Bootcamp Perú 2024

Desde este vídeo podéis ver la charla de 30 minutos donde explico cómo desplegar los modelos desde el panel de Azure AI Studio y cómo llamarlos y probarlos desde Postman.




bottom of page