Conectando con terminales financieras en vivo...

Google lanza Gemini 3.1 Flash-Lite, su modelo más rápido y económico para cargas masivas de IA

Inteligencia Artificial03/03/2026Industrial InsiderIndustrial Insider

gemini-3.1_flash_Lite_blog_keywo.width-1200.format-webp

Google comenzó el martes el despliegue de Gemini 3.1 Flash-Lite, el primer modelo Flash-Lite de la familia Gemini 3, orientado a desarrolladores y empresas que requieren inferencia de inteligencia artificial de alta velocidad a gran escala sin asumir los costos de modelos más robustos.

El modelo está disponible en versión preliminar a través de la API de Gemini en Google AI Studio y mediante Vertex AI. Su precio es de 0.25 dólares por millón de tokens de entrada y 1.50 dólares por millón de tokens de salida, por debajo de los 0.30 y 2.50 dólares, respectivamente, que cuesta Gemini 2.5 Flash.

Según la compañía, Gemini 3.1 Flash-Lite ofrece un tiempo hasta el primer token 2.5 veces más rápido que 2.5 Flash y un incremento del 45 por ciento en la velocidad de salida, de acuerdo con pruebas de referencia de Artificial Analysis. En términos absolutos, el nuevo modelo genera 363 tokens por segundo frente a los 249 de su predecesor.

El modelo se posiciona en la base de la jerarquía de Gemini —Pro, Flash y Flash-Lite— priorizando velocidad y eficiencia de costos por encima del máximo rendimiento. De acuerdo con la documentación de Vertex AI, está optimizado para tareas agénticas de alto volumen, traducción, procesamiento simple de datos, clasificación, enrutamiento inteligente y otras cargas de trabajo sensibles a la latencia.

Gemini 3.1 Flash-Lite admite entradas multimodales que incluyen texto, código, imágenes, audio, video y archivos PDF, con una ventana de contexto de hasta un millón de tokens. Además, incorpora una función de procesamiento adaptativo que permite elegir entre cuatro niveles —mínimo, bajo, medio o alto— para equilibrar calidad y velocidad según la tarea.

La ficha técnica de Google DeepMind indica que el modelo está basado arquitectónicamente en Gemini 3 Pro y que ofrece mejoras de calidad que se aproximan o igualan el desempeño de Gemini 2.5 Flash en pruebas de razonamiento, programación, matemáticas y ciencias. En evaluaciones independientes obtuvo 86.9 por ciento en GPQA Diamond y 76.8 por ciento en MMMU Pro.

Empresas como Latitude, Cartwheel y Whering ya han comenzado a integrarlo en flujos de trabajo productivos, señalando que mantiene comprensión contextual en sesiones prolongadas mientras conserva bajos tiempos de inferencia.

El lanzamiento también marca un ajuste en la línea de productos: Google omitió una versión Gemini 3.0 Flash-Lite, saltando directamente de 2.5 Flash-Lite a 3.1. Al mismo tiempo, el Gemini 3 Pro original será retirado el 9 de marzo, lo que obliga a desarrolladores a migrar hacia la nueva versión 3.1 Pro en cuestión de días.

Con este movimiento, Google refuerza su estrategia de segmentar su oferta de modelos no solo por capacidad, sino por eficiencia y escalabilidad, apuntando a un mercado empresarial cada vez más enfocado en el costo por token y la velocidad de respuesta.

Te puede interesar
Lo más visto