Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Microsoft entró al terreno de los modelos multimodales con Phi-3 vision, una IA que comprende imágenes y responde preguntas sobre ellas

Microsoft anunció la disponibilidad de Phi-3 Mini, el modelo de inteligencia artificial que ligero y poderoso que puede competir con GPT-3.5. El gigante tecnológico aprovechó el inicio de Build 2024 para presentar las novedades en su familia de modelos de lenguaje. El Phi-3 Mini no es el único lanzamiento importante el día de hoy, ya que Microsoft también reveló Phi-3 vision y Phi-Silica, un pequeño modelo capaz de ejecutarse en los ordenadores Copilot+ PC.

Si bien ya conocíamos todo sobre Phi-3 Mini, todavía quedaba pendiente revelar uno de los detalles más significativos: su disponibilidad. El modelo de lenguaje se presentó hace apenas unas semanas y rápidamente acaparó titulares gracias a sus características. El nuevo integrante de la familia Phi es tan pequeño que puede ejecutarse en dispositivos móviles u ordenadores básicos.

Esta soltura no compromete su poderío: Phi-3 Mini es capaz de gestionar 3.800 millones de parámetros. Microsoft reveló que su modelo se entrenó a través de cuentos infantiles utilizando más de 3.000 palabras simples que explican conceptos más complejos. El resultado final es una IA que puede igualar a GPT-3.5, el modelo detrás de la primera versión de ChatGPT, y se ejecuta en tu ordenador.

Phi-3 Mini ya se encuentran disponibles a través de la nube de Azure para que los desarrolladores puedan acceder a ellos.

Phi-3 vision: el modelo multimodal capaz de entender imágenes

Phi-3 vision

Otra sorpresa de Build 2024 es el anuncio de Phi-3 vision, un modelo de inteligencia artificial que puede comprender texto e imágenes. El nuevo integrante es el primer modelo multimodal de la familia Phi-3 y puede comprender imágenes y responder preguntas sobre ellas. Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.

Phi-3 vision es un modelo capaz de realizar tareas de razonamiento visual. Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos. También razona sobre imágenes del mundo real y extrae texto. Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.

https://31baf680c174aaa1761d80c16b2dfc7a.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.html

Tal vez lo más llamativo de este modelo es su tamaño. Phi-3 vision cuenta con 4.200 millones de parámetros y supera a modelos más grandes, como Gemini 1.0 Pro V o Claude-3 Haiku en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR. La nueva IA de Microsoft ha sido diseñada para ejecutarse localmente en una gama más amplia de dispositivos, como móviles u ordenadores.

Phi-Silica: la IA que se incluye en los Copilot+ PC

Phi Silica
Imagen: Shohei Nagata (Microsoft)

Microsoft dejó lo mejor para el final. Tras anunciar la disponibilidad de los nuevos modelos de lenguaje Phi-3, la tecnológica presentó una nueva IA creada para ejecutarse en los ordenadores Copilot+ PC.

Phi-Silica es un SLM que se integrará en todos los PC de esta categoría, incluidos los Surface Pro y Surface Laptop. El modelo es el más pequeño de la familia Phi-3, con apenas 3.300 millones de parámetros y está pensado para sacarle provecho a los chips Snapdragon X Elite de Qualcomm.

Microsoft afirma que Phi-Silica está optimizado para ejecutarse en la NPU de Copilot + PC, lo que brinda inferencias locales ultrarrápidas. La IA se distingue del resto por ser el primer modelo de lenguaje implementado de manera local en Windows.

https://31baf680c174aaa1761d80c16b2dfc7a.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.html



Durante la presentación, Satya Nadella, director ejecutivo de Microsoft, reveló que Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para producir aproximadamente 27 tokens por segundo. La IA es de bajo consumo energético y permite liberar la CPU y GPU para otros cálculos. De acuerdo con Microsoft, la latencia del primer token es de 650 tokens/segundo y requiere alrededor de 1,5 vatios de energía.

Fuente | Hipertextual

Deja un comentario

Esta web funciona gracias a WordPress.com.

Subir ↑

Diseña un sitio como este con WordPress.com
Comenzar