El Estado de la IA en el Dispositivo dentro del Navegador
Ejecutar IA directamente en el navegador suena sencillo hasta que intentas implementarlo. Las APIs están fragmentadas, los requisitos de hardware varían enormemente, y lo que funciona en un dispositivo falla silenciosamente en otro. Antes de configurar tu primera llamada de inferencia, ayuda entender qué está realmente disponible, cómo encajan las capas, y dónde están las brechas reales a principios de 2026.
Puntos Clave
- La IA en el dispositivo dentro del navegador abarca tres capas distintas: APIs integradas en el navegador, bibliotecas de inferencia JavaScript, y primitivas de aceleración de bajo nivel. Elegir la capa incorrecta para tu caso de uso conduce a problemas de compatibilidad y rendimiento.
- Las APIs de IA integradas de Chrome, incluyendo Summarizer, Translator y Language Detector, no requieren alojamiento de modelos pero te vinculan a la implementación de Chrome y a un modelo que no controlas.
- Transformers.js y ONNX Runtime Web ofrecen inferencia de modelos amplia basada en navegador con elección completa de modelos, aunque el tamaño del modelo, el soporte de backend y la estrategia de caché siguen siendo restricciones clave.
- WebNN promete ML acelerado por hardware con acceso a NPU, pero el soporte del navegador aún es parcial. La mayoría de los equipos se beneficiarán de él indirectamente a través de frameworks antes de usarlo directamente.
- Un enfoque híbrido, intentando primero la inferencia local y recurriendo a un endpoint en la nube como alternativa, es el patrón de producción más realista hoy en día.
Tres Capas Distintas, No Una Sola Cosa
La mayor fuente de confusión en la IA en el dispositivo dentro del navegador es tratar todos los enfoques como intercambiables. No lo son. Hay tres capas distintas, y elegir la incorrecta para tu caso de uso crea problemas reales.
Capa 1: APIs de IA Proporcionadas por el Navegador
Chrome incluye APIs de IA integradas respaldadas por modelos que proporciona y gestiona directamente en el navegador, incluyendo Gemini Nano. Como se describe en la documentación de IA integrada de Chrome, estos modelos son descargados y gestionados por Chrome mismo. Chrome ha puesto a disposición APIs como Summarizer, Translator y Language Detector en versiones estables, mientras que otras permanecen más limitadas. La Prompt API es estable para extensiones de Chrome, pero el uso en páginas web todavía es experimental o basado en origin-trial. Writer y Rewriter tampoco son algo que debas tratar como universalmente listo para producción.
Microsoft Edge adopta un enfoque similar usando Phi-4-mini y expone su propia superficie de API. El modelo está integrado directamente en el navegador y se puede acceder a través de APIs como la Prompt API, que actualmente está disponible en vista previa para desarrolladores en las compilaciones Edge Canary y Dev. Sin embargo, estas APIs aún son experimentales y no están ampliamente disponibles en entornos de producción. Firefox tiene características de IA como integración de chatbot y experimentos de Smart Window, pero actualmente no expone una superficie de API de IA integrada al estilo Chrome para desarrolladores web.
El atractivo es obvio: sin alojamiento de modelos, sin costo de tamaño de bundle, configuración mínima. El inconveniente es igualmente obvio: estás vinculado a una implementación específica del navegador, el modelo es fijo, y no tienes control sobre qué versión se está ejecutando. Estas APIs también requieren que el modelo se descargue primero, lo cual puede ser grande y ocurre de forma asíncrona. Necesitas manejar eso con elegancia.
// Detectar característica antes de usar una API de IA integrada del navegador
if ('Summarizer' in self) {
const availability = await Summarizer.availability();
if (availability !== 'unavailable') {
const summarizer = await Summarizer.create();
const summary = await summarizer.summarize(articleText);
}
} else {
// Recurrir a la nube u omitir la característica
}
Capa 2: Inferencia Basada en JavaScript con Transformers.js y ONNX Runtime Web
Si necesitas un soporte más amplio de navegadores o quieres elegir tu propio modelo, Transformers.js es una de las opciones más prácticas en este momento. Ejecuta modelos de Hugging Face directamente en el navegador usando formato ONNX y puede usar aceleración WebGPU cuando está disponible, recurriendo a WebAssembly donde sea compatible.
ONNX Runtime Web te da un alcance similar con más control sobre los proveedores de ejecución. Ambos son opciones razonables para clasificación, traducción, análisis de sentimientos, embeddings y tareas ligeras de generación de texto.
Ten en cuenta que Transformers.js v3 se movió al paquete @huggingface/transformers. La importación @xenova/transformers mostrada a continuación se aplica a v2, que sigue siendo común en proyectos existentes:
// Transformers.js v2
import { pipeline } from '@xenova/transformers';
// Transformers.js v3+
// import { pipeline } from '@huggingface/transformers';
const classifier = await pipeline('sentiment-analysis');
const result = await classifier('This article is genuinely useful.');
El tamaño del modelo es la principal restricción. Un modelo cuantizado adecuado para inferencia en navegador puede variar desde decenas hasta cientos de megabytes, dependiendo de la tarea. Los modelos más grandes se vuelven imprácticos sin un cuidadoso almacenamiento en caché mediante IndexedDB o la Cache API.
Capa 3: WebGPU y WebAssembly como Primitivas de Aceleración
WebGPU y WebAssembly no son APIs de IA. Son primitivas de bajo nivel que frameworks como Transformers.js, ONNX Runtime Web y TensorFlow.js pueden usar internamente para ejecutar inferencia más rápido. Rara vez interactúas con ellas directamente a menos que estés construyendo un framework o haciendo trabajo de cómputo personalizado.
WebGPU en particular desbloquea una aceleración GPU significativa para operaciones matriciales, lo cual importa para cualquier cosa más allá de modelos pequeños. El soporte es mucho más amplio de lo que solía ser, pero aún necesita detección de características porque el navegador, sistema operativo, dispositivo, controlador y soporte móvil varían.
Discover how at OpenReplay.com.
Qué Añade WebNN al Panorama
WebNN (Web Neural Network API) es una API del W3C diseñada para exponer operaciones de redes neuronales aceleradas por hardware, incluyendo acceso a NPU en dispositivos compatibles, a través de una interfaz de navegador consistente. Se sitúa entre tu framework y el hardware, muy parecido a WebGPU, pero está específicamente diseñada para cargas de trabajo de ML.
El soporte del navegador es limitado a principios de 2026. Chrome tiene implementación parcial, y un soporte más amplio en otros navegadores aún está en progreso. Frameworks como ONNX Runtime Web ya están añadiendo WebNN como backend de ejecución, por lo que probablemente te beneficiarás de él indirectamente antes de usarlo directamente.
Los Compromisos Honestos
| Enfoque | Soporte de Navegador | Control del Modelo | Costo de Configuración | Mejor Para |
|---|---|---|---|---|
| APIs Integradas | APIs estables de Chrome; vistas previas Edge | Ninguno | Mínimo | Resumen, traducción, detección |
| Transformers.js | Soporte amplio de navegadores modernos | Completo | Medio | NLP multi-navegador, clasificación |
| ONNX Runtime Web | Soporte amplio de navegadores modernos | Completo | Medio | Modelos personalizados, inferencia multi-tarea |
| WebNN (directo) | Parcial | Completo | Alto | Aceleración de hardware futura |
Los beneficios de privacidad son reales pero condicionales. La inferencia local significa que los datos de entrada no salen del dispositivo durante el procesamiento, pero el sitio web aún puede registrar lo que los usuarios escriben antes de que llegue al modelo. “Local” no significa automáticamente privado de extremo a extremo.
La capacidad offline es igualmente condicional. Una vez que un modelo está en caché, la inferencia puede funcionar sin conexión. Pero la descarga inicial requiere una, y las actualizaciones del modelo requieren reconexión.
Lo Híbrido es el Valor Predeterminado Realista
La mayoría de las aplicaciones de producción no irán completamente en el dispositivo. El patrón práctico es intentar la inferencia local, verificar la disponibilidad de la API y la capacidad del hardware, y luego recurrir a un endpoint en la nube cuando falta alguno. Esto brinda a los dispositivos capaces una experiencia más rápida y más privada sin romper la característica para todos los demás.
Conclusión
La IA en el dispositivo dentro del navegador es genuinamente útil hoy para tareas específicas y acotadas: resumir un documento, detectar un idioma, clasificar texto corto, generar embeddings, o ejecutar un asistente ligero. Las experiencias a escala completa de LLM en el navegador siguen siendo inconsistentes y dependientes del hardware. Construye para el término medio realista, y enviarás algo que realmente funciona.
Preguntas Frecuentes
No a través de APIs de IA integradas comparables a las APIs actuales de Chrome. Sin embargo, las bibliotecas de inferencia JavaScript como Transformers.js y ONNX Runtime Web pueden ejecutarse en navegadores modernos, usualmente con respaldo de WebAssembly cuando WebGPU u otros backends de aceleración no están disponibles.
Los modelos integrados de Chrome son gestionados por el navegador y pueden requerir una descarga única significativa. Para bibliotecas como Transformers.js, los modelos cuantizados a menudo varían desde decenas hasta cientos de megabytes, dependiendo de la tarea y el modelo. Almacenarlos en caché con IndexedDB o la Cache API evita descargas repetidas, pero la primera carga aún requiere una conexión de red.
Los datos de entrada pueden permanecer en el dispositivo durante la inferencia, lo cual es una ganancia real de privacidad sobre el procesamiento basado en la nube. Sin embargo, el propio JavaScript del sitio web aún puede leer, registrar o transmitir la entrada del usuario antes o después de que llegue al modelo. La inferencia local reduce la exposición pero no garantiza privacidad de extremo a extremo por sí sola.
Si tu audiencia es principalmente usuarios de Chrome en escritorio y un modelo gestionado por el navegador fijo satisface tus necesidades, las APIs integradas ofrecen la configuración más simple. Si necesitas un soporte más amplio de navegadores, selección de modelos personalizada o versionado predecible, Transformers.js te da más control al costo de gestionar las descargas de modelos y el almacenamiento en caché tú mismo.
Understand every bug
Uncover frustrations, understand bugs and fix slowdowns like never before with OpenReplay — the open-source session replay tool for developers. Self-host it in minutes, and have complete control over your customer data. Check our GitHub repo and join the thousands of developers in our community.