Nvidia no solo es el pegamento de la IA: ahora tiene un modelo omnipotente que lee, ve y escucha. Todo a la vez

Hace ocho años, cuando Nvidia aún era una compañía que hacía gráficas para videojuegos, la compañía apuntó a algo que está empezando a entrar en la conversación: la robótica física. Son los robots con inteligencia artificial integrada para comportarse de forma autónoma. Como un ChatGPT con brazos, oídos y ojos. Ha llovido mucho desde entonces y es ahora cuando estamos empezando a entrar en ese futuro. Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y digital converjan, y su último producto es Nemotron 3 Nano Omni.

Un modelo de IA que ve, escucha y lee el mundo físico.

Modelos Omni. Estos modelos son multimodales, pero en un sentido mucho más estricto. Mientras los modelos que solemos usar a diario necesitan de canales separados para procesar y generar audio, texto, imagen y vídeo, un modelo omni está diseñado para ser intrínsecamente multimodal. Esto implica que utilizan una arquitectura de red neuronal única entrenada de extremo a extremo para que la interacción entre modelos y estímulos sea más natural, veloz y capaz de reconocer más matices.

Un ejemplo es una IA que puede “ver” lo que captura una cámara, analizar toda la situación y dar un feedback al usuario de una forma más rápida que una que puede hacer lo mismo, pero cuyo modelo de texto tiene que preguntar al de vídeo qué ha visto para, después, generar el contenido. En menos palabras aún: imita mejor la forma en la que los humanos percibimos y respondemos a los estímulos del mundo.

En Xataka

NVIDIA tiene tantísimo dinero que está convirtiéndose en algo distinto: la mayor incubadora de startups del mundo

Integración. Y eso es lo que Nvidia afirma que puede hacer Nemotron 3 Nano Omni. En la misma arquitectura, es un modelo que integra capacidades de visión, audio y lenguaje para eliminar el flujo de trabajo fragmentado de los actuales agentes de IA. Según la compañía, está construido sobre una arquitectura híbrida de mezcla de expertos (las IAs entrenadas en diversas materias) con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia.

Se ha diseñado como un modelo nueve veces más rápido que los modelos separados y que tiene tres veces más rendimiento que otros modelos omni abiertos consumiendo 2,75 veces menos capacidad de cómputo en tareas como el razonamiento a partir de un vídeo.

Vale, pero para qué. Esa es la pregunta clave, más allá de los números y de las capacidades en bruto de esta tecnología. Los casos de uso que detalla la compañía son los siguientes: