Si has notado un bajón en la calidad de las respuestas de GPT-4, no estás solo: algo está pasando con ChatGPT
Fuente: Gembeta
Aunque GPT-4 es el modelo más ambicioso de OpenAI, la realidad es que todavía le queda mucho margen de mejora y que todavía sigue dando respuestas que dejan bastante que desear: delirios, datos incorrectos que parece que lo son y otros que no tanto, respuestas incompletas o código defectuoso… no es cuestión de que des malos prompts (aunque siempre puedes depurar la técnica de tus solicitudes) es que se confirman las sospechas: GPT-4 se está volviendo cada vez más vago.
No lo decimos nosotros, sino que lo ha confirmado la propia OpenAI, que asegura estar tomando cartas en el asunto. De hecho, hay quien ha encontrado en el refuerzo emocional un apaño para conseguir mejores respuestas, con recursos como ‘respira profundamente y ve paso a paso‘.
Parece una broma, pero no lo es. ¿Cómo puede un archivo volverse más perezoso si al fin y al cabo un modelo es algo así como un gran archivo que se usa una y otra vez? Si, ChatGPT va a peor incluso con la versión GPT-4 Turbo lanzada en noviembre. De hecho OpenAI explica que no es intencionada y que simplemente el comportamiento del modelo puede ser impredecible.
Por tanto OpenAI no cree que el modelo haya cambiado, pero las diferencias en el comportamiento pueden ser sutiles: ‘es posible que se haya degradado solo un subconjunto de prompts y eso puede necesitar mucho tiempo para que clientes y personal se den cuenta y corrijan estos patrones’, explica en su perfil de X/Twitter.
Desarrollar y depurar un modelo de IA es una tarea compleja
En los siguientes mensajes, OpenAI detalla algunos de los entresijos del entrenamiento de la IA. Así, diferentes ejecuciones de entrenamiento con idénticos datasets pueden traducirse en modelos con variaciones significativas en personalidad, estilo de escritura, evaluación del rendimiento, órdenes a las que se niega y hasta sesgos políticos.
Porque según OpenAI, entrenar una IA no es un proceso industrial limpio, sino que se asemeja más a ‘un esfuerzo artesanal de varias personas‘, algo no comparable por ejemplo a actualizar una web.
Una extensa plantilla trabaja en los procesos de planificación, construcción y evaluación de nuevos modelos de chats. Antes de lanzar un modelo, explican que realizan pruebas exhaustivas en métricas de evaluación offline y online. Con los resultados en mano, toman la decisión de si el modelo bajo lupa constituye una mejora para usuarios y usuarias reales.
El modelo original de GPT-4 fue lanzado en marzo de este año, pero fue en el verano con la primera actualización cuando llegaron las quejas por el bajón en el rendimiento. Aunque más que una caída en el desempeño es, de acuerdo con OpenAI, que ha mejorado en algunas áreas y se ha degradado en otras. No obstante OpenAI se refiere al actual GPT-4 Turbo como su modelo más inteligente, si bien este es un concepto amplio que además de resolver problemas, también considera el ratio entre energía consumida y rendimiento.