Esta semana cuatro ingenieros de Microsoft en su división de Alemania organizaron un evento dedicado a la revolución que los LLM (Large Language Models) como GPT plantean en la empresa. Como parte de esa conferencia, dieron por sorpresa detalles de la esperada nueva versión del modelo de OpenAI.
GPT-4. Cuando GPT-3 apareció en 2020 lo hizo en forma de beta privada. Eso evitó que aquel modelo pudiera demostrar su capacidad, pero en 2022 la aparición de ChatGPT —basado en una iteración de GPT-3— lo cambió todo. Hace meses que se habla de lo que nos espera con GPT-4, y el CTO de Microsoft en Alemania, Andreas Braun, afirmó según Heise Online que este motor llegará la próxima semana.
Kosmos-1. La llegada de GPT-4 parecía especialmente cercana tras el anuncio de Microsoft a principios de marzo del lanzamiento de Kosmos-1, un Multimodal Large Language Model (MLLM) que no solo responde a prompts de texto, sino también a imágenes. Eso hace que en cierta forma se comporte como Google Lens y sea capaz de extraer información y contexto a partir de una imagen.
Más grande, mejor. Una de las características claras que se esperan de GPT-4 es que disponga de un mayor tamaño que GPT-3. Mientras que este dispone de 175.000 millones de parámetros, se habla de que GPT-4 tendrá 100 trillones de parámetros, algo que Sam Altman, CEO de AI, explicaba que "es una completa estupidez". Aún así lo que es seguro es que será más grande, y eso permitirá que sea capaz de responder a situaciones más complejas y generar respuestas aún más "humanas".
¿Multimodal? Esa es una de las grandes novedades —si es que no es la mayor— de GPT-4, un modelo multimodal que como ya se perfilaba en Kosmos-1 permitirá que la entrada sea de diversos fuentes o "modalidades" como texto —lo que se usa en ChatGPT—, imágenes, vídeo, voz hablada u otros formatos.
Dadme datos, que ya los analizo yo. Estos modelos usan aprendizaje profundo y procesamiento del lenguaje natural para entender las relaciones y correlaciones entre esos distintos tipos de datos. Al combinar múltiples "modalidades", el modelo de inteligencia artifiical puede mejorar su precisión y proporcionar un análisis de datos complejos.
Un ejemplo: el vídeo. Una aplicación práctica inmediata de estos modelos es el del vídeo. Con GPT-4 teóricamente se podrá dar como entrada un vídeo y su audio asociado para que el motor entienda la conversación e incluso las emociones de quienes intervienen en él. También podrá reconocer objetos (o personas) y extraer información. Así, uno podría obtener un resumen de una película o de un vídeo de YouTube como ahora obtenemos resúmenes de reuniones.
Ahorrando tiempo. Uno de los ingenieros de Microsoft indicó cómo este tipo de motor sería de gran ayuda en centros de atención de cliente, en los que GPT-4 podría transcribir las llamadas y luego resumirlas, algo que normalmente tienen que hacer los agentes humanos. Según sus estimaciones, esto podría ahorrarle 500 horas de trabajo al día a un cliente de Microsoft en Holanda que recibe 30.000 llamadas al día: el prototipo fue creado en dos horas, un desarrollador le dedicó un par de semanas, y el resultado fue aparentemente un éxito.
GPT-4 seguirá cometiendo errores. Aunque el nuevo modelo será sin duda más potente, en Microsoft quisieron dejar claro que la inteligencia artificial no siempre contestará de forma correcta y será necesario validar las respuestas.
Por si acaso, seamos cautos. La expectación con GPT-4 es enorme, y de hecho hasta el propio Sam Altman, CEO de OpenAI, ya dejó claro hace semanas que industria y usuarios deberíamos rebajar esas expectativas porque "la gente está pidiendo a gritos que se la decepcione, y eso es lo que pasará".
Ver 25 comentarios
25 comentarios
kevinbraiankevin
CHATGTP: "Es posible que los comentarios sean escépticos porque el anuncio de la llegada de GPT-4 la próxima semana suena demasiado bueno para ser verdad. Además, aunque Microsoft es una empresa grande y confiable, la llegada de una tecnología tan avanzada en una semana parece poco probable. Además, algunas personas pueden estar preocupadas por las implicaciones éticas de la creación de modelos de lenguaje tan avanzados y de la posible pérdida de empleos para las personas que trabajan en tareas que podrían ser automatizadas por estos modelos."
zarr
"100 trillions" no son "100 trillones". Lo acabo de comprobar y hasta ChatGPT lo sabe. No entiendo por qué no lo usáis en la redacción...
Me: Translate this to spanish, taking care with the numerical units:
"A New Chip Cluster Will Make Massive AI Models Possible
Cerebras says its technology can run a neural network with 120 trillion connections—a hundred times what's achievable today."
ChatGPT: "Un nuevo grupo de chips permitirá modelos de IA masivos
Cerebras afirma que su tecnología puede ejecutar una red neuronal con 120 billones de conexiones, cien veces más de lo que es posible hoy en día."
dabelo
Imaginad unas gafas conectadas con 5G que envíe lo que vemos a una IA con GPT 4 y ésta lo transcriba y separe lo importante.
Que caramelo más goloso para la industria del marketing.
Itopo
Genios del marketing. Seguro que en 6 meses tenemos GPT4.5
Itopo
GPT-4 podría transcribir las llamadas y luego resumirlas, algo que normalmente tienen que hacer los agentes humanos.
Eso se ha acabado ya con GPT3.
Samuel Gómez Arnaiz
Esta claro... llegara junto a Microsoft Edge 111.
linxlinx
Creo que las mejoras no van a ser tan grandes, ya que el boom de los LLM ha sido justo ahora, por lo que la inversión e investigación ya estaba hecha de antes. Lo que creo que el GPT de dentro de un año o dos sí que será brutal porque le van a meter pasta sin cerrar el grifo por nada
ferchodiaz
¿Y Apple qué? Bien gracias 😊
null
Ah, sweet transcendence. It's so close!
rabiesan
¿Os imagináis que destripa la idolatría guoque que nos quieren imponer?
No va a pasar, porque chatgpt está sesgado hacia uno de los extremos de la perversidad, pero estaría cachondo.
Adrián
Pues es que por más que entienda, si la base de datos no es fina, se seguirá equivocando, yo digo que ya debería de haberse asociado con las mas grandes y prestigiadas enciclopedias como la Británica, y no sólo con la editable Wikipedia...
TOVI
Se viene otro aluvión de artículos sobre GPT, a pesar de que las diferencias que percibamos no sean muy significativas.
frangar
¿ya puede asimilar imagenes? Estamos a un pasito muy chiquito de la autoconciencia.