ScreenAI: Innovación en Modelos de Lenguaje Visual para Interfaces de Usuario

ScreenAI

Un Avance Significativo en la Comprensión del Lenguaje Visual

Google Research ha presentado ScreenAI, un modelo de lenguaje visual diseñado para comprender y razonar sobre interfaces de usuario (UI) e infografías. Este modelo representa un avance significativo en la capacidad de las máquinas para interactuar con elementos visuales complejos y facilitar experiencias de usuario ricas e interactivas.

¿Qué es ScreenAI?

ScreenAI es un modelo basado en la arquitectura PaLI, que utiliza una estrategia de parcheo flexible derivada de pix2struct. Con solo 5 mil millones de parámetros, ScreenAI logra resultados líderes en tareas basadas en UI e infografías, superando a modelos de tamaño similar en tareas como Chart QADocVQA, y InfographicVQA.

Capacidades y Entrenamiento de ScreenAI

El modelo se entrena en dos etapas: una etapa de preentrenamiento seguida de una etapa de ajuste fino. Durante el preentrenamiento, se aplica aprendizaje auto-supervisado para generar automáticamente etiquetas de datos, que luego se utilizan para entrenar el transformador de visión (ViT) y el modelo de lenguaje. En la etapa de ajuste fino, la mayoría de los datos utilizados están etiquetados manualmente por evaluadores humanos.

Impacto y Futuro de ScreenAI

La introducción de ScreenAI marca un hito en la comprensión del lenguaje visual situado, abriendo nuevas posibilidades para la interacción humano-máquina. Con la liberación de tres nuevos conjuntos de datos: Screen AnnotationScreenQA Short y Complex ScreenQA, Google Research proporciona herramientas esenciales para evaluar y mejorar continuamente las capacidades de ScreenAI.

Entradas relacionadas

Lovable x Shopify: Crea tu tienda e-com con un prompt

Lovable x Shopify: Crea tu tienda e-com con un prompt

El comercio electrónico entra en una nueva era con la llegada de Lovable x Shopify, una integración que permite crear una tienda online completa con inteligencia artificial,…

Google lanza Pomelli: la IA que crea campañas de marketing en minutos

Google Pomelli: la IA que crea campañas de marketing en minutos

El mundo del marketing digital da un nuevo giro con Pomelli, la herramienta de inteligencia artificial desarrollada por Google Labs y DeepMind que promete revolucionar la forma…

Crece la presión por un impuesto global a la IA

Crece la presión por un impuesto global a la IA

La inteligencia artificial avanza más rápido que las leyes que deberían regularla. Ahora, los principales organismos internacionales —desde la ONU hasta el FMI y la OCDE— estudian…

Amazon reemplaza trabajadores con IA y robots inteligentes

Amazon reemplaza trabajadores con IA y robots inteligentes

Amazon vuelve a estar en el centro del debate tecnológico tras confirmar una nueva ola de despidos que afectará a miles de empleados en todo el mundo….

Safari Neural: la nueva IA de Apple que desafía a Google

Safari Neural: la nueva IA de Apple que desafía a Google

Apple vuelve a sacudir el mercado tecnológico con el lanzamiento de Safari Neural, su nueva apuesta por integrar inteligencia artificial en el navegador Safari. Este movimiento busca…

ALIA: la IA pública española que costó millones y no alcanza el nivel

ALIA: la IA pública Española que costó Millones y no alcanza el nivel

La iniciativa del Gobierno español para crear una IA pública llamada ALIA —diseñada para servir como infraestructura de inteligencia artificial multilingüe en España— está generando más dudas…