ScreenAI: Innovación en Modelos de Lenguaje Visual para Interfaces de Usuario

ScreenAI

Un Avance Significativo en la Comprensión del Lenguaje Visual

Google Research ha presentado ScreenAI, un modelo de lenguaje visual diseñado para comprender y razonar sobre interfaces de usuario (UI) e infografías. Este modelo representa un avance significativo en la capacidad de las máquinas para interactuar con elementos visuales complejos y facilitar experiencias de usuario ricas e interactivas.

¿Qué es ScreenAI?

ScreenAI es un modelo basado en la arquitectura PaLI, que utiliza una estrategia de parcheo flexible derivada de pix2struct. Con solo 5 mil millones de parámetros, ScreenAI logra resultados líderes en tareas basadas en UI e infografías, superando a modelos de tamaño similar en tareas como Chart QADocVQA, y InfographicVQA.

Capacidades y Entrenamiento de ScreenAI

El modelo se entrena en dos etapas: una etapa de preentrenamiento seguida de una etapa de ajuste fino. Durante el preentrenamiento, se aplica aprendizaje auto-supervisado para generar automáticamente etiquetas de datos, que luego se utilizan para entrenar el transformador de visión (ViT) y el modelo de lenguaje. En la etapa de ajuste fino, la mayoría de los datos utilizados están etiquetados manualmente por evaluadores humanos.

Impacto y Futuro de ScreenAI

La introducción de ScreenAI marca un hito en la comprensión del lenguaje visual situado, abriendo nuevas posibilidades para la interacción humano-máquina. Con la liberación de tres nuevos conjuntos de datos: Screen AnnotationScreenQA Short y Complex ScreenQA, Google Research proporciona herramientas esenciales para evaluar y mejorar continuamente las capacidades de ScreenAI.

Entradas relacionadas

Google Learn Your Way: ¿fin del sistema educativo?

Google Learn Your Way: ¿fin del sistema educativo?

Google Learn Your Way ha encendido el debate global con una pregunta incómoda: ¿está el sistema educativo tradicional quedando obsoleto? Con el lanzamiento de esta herramienta impulsada…

OpenClaw y el fichaje 1B que sacude la IA

OpenClaw y el fichaje 1B que sacude la IA

La historia viral del supuesto fichaje de 1 billion del creador de OpenClaw ha encendido el debate en el sector tecnológico. ¿Estamos ante la contratación más ambiciosa…

OpenAI Sweet Pea: el dispositivo IA de Jony Ive

OpenAI Sweet Pea: el dispositivo IA que quiere sustituir el Iphone

La industria tecnológica vuelve a girar en torno a un nombre: Sweet Pea, el supuesto nuevo dispositivo de OpenAI diseñado por un ex Apple. Las filtraciones apuntan…

Meta patenta IA para seguir publicando tras morir

Meta patenta IA que podría mantener cuentas de usuarios fallecidos activas

Meta ha registrado una patente que describe un sistema de inteligencia artificial capaz de mantener activa la cuenta de un usuario fallecido. La noticia ha generado un…

Anthropic: “El mundo está en peligro” por la IA

Anthropic: “El mundo está en peligro” por la IA

La frase “el mundo está en peligro” pronunciada en la carta de renuncia del jefe de seguridad de IA de Anthropic ha encendido el debate global sobre…

Personas Altamente Sensibles (PAS): el libro que puede cambiar tu forma de sentir

Personas Altamente Sensibles (PAS): el libro que puede cambiar tu forma de sentir

¿Qué significa ser una Persona Altamente Sensible (PAS)? Las Personas Altamente Sensibles (PAS) no son “demasiado intensas”, ni “exageradas”, ni “hipersensibles” en el sentido negativo que muchas…