El nuevo modelo de OpenAI alcanza un rendimiento sin precedentes en el prestigioso test ARC Challenge, aunque los expertos advierten que aún no es AGI
La nueva versión de ChatGPT, conocida como modelo o3, ha logrado un hito histórico al alcanzar una puntuación del 75,7% en el prestigioso test de razonamiento ARC Challenge. Este avance marca un salto significativo en capacidades de IA, superando las expectativas de la comunidad científica y acercándose al rendimiento humano promedio del 84% en estas pruebas de razonamiento visual.
Tecnología
Los resultados son aún más impresionantes cuando se eliminan las restricciones de potencia computacional. Según New Scientist, al aumentar los recursos de procesamiento, el modelo o3 alcanzó un sorprendente 87,5% de efectividad, aunque esto elevó el costo por tarea de $20 a miles de dólares, superando los límites establecidos para ganar el premio oficial de $600.000.
El camino hacia la superinteligencia artificial plantea nuevos desafíos y expectativas
La Inteligencia Artificial General (AGI) sigue siendo el santo grial de la investigación en IA, y aunque el modelo o3 representa un paso significativo, los expertos mantienen una postura cautelosa. François Chollet, creador del ARC Challenge, señala que todavía hay tareas sencillas que el sistema no puede resolver, incluso con una enorme potencia de cálculo.
El test ARC Challenge, creado en 2019, no es un juego de niños: pone a prueba la capacidad de las IAs para encontrar patrones en pares de cuadrículas coloreadas. Lo interesante de estas pruebas es que están diseñadas para evitar que una IA pueda resolverlas simplemente por fuerza bruta, estableciendo límites en el poder de computación que se puede utilizar.
La carrera hacia la singularidad tecnológica sigue avanzando, y aunque los resultados son prometedores, hay detalles importantes que considerar. El costo computacional es un factor crucial: mientras la prueba “semi-privada” permite gastar hasta $20 por tarea, la prueba “privada” más difícil tiene un límite de solo 10 centavos por tarea, algo que o3 no logró cumplir.
Para que te hagas una idea de la complejidad del asunto, el modelo o3 falló en resolver más de 100 tareas visuales, incluso cuando OpenAI utilizó una cantidad masiva de poder computacional. La brecha entre el procesamiento masivo y la verdadera inteligencia sigue siendo un tema de debate en la comunidad científica.
Melanie Mitchell, del Instituto Santa Fe en Nuevo México, plantea una crítica interesante: resolver estas tareas mediante puro poder de computación va en contra del propósito original del test. El verdadero objetivo es desarrollar sistemas que puedan razonar de manera similar a los humanos, no solo procesar datos de forma masiva.
Chollet ha propuesto una forma interesante de reconocer cuándo llegaremos a la verdadera AGI: será el momento en que sea imposible crear tareas que resulten fáciles para humanos pero difíciles para las IAs. Por ahora, la industria tecnológica experimenta una desaceleración en el desarrollo de modelos de IA para 2024, comparado con los avances explosivos de 2023.
Mientras esperamos el lanzamiento oficial de o3 a principios de 2025, los organizadores del ARC Challenge ya preparan una segunda ronda de pruebas más exigentes. El futuro promete ser fascinante, pero por ahora, la verdadera inteligencia artificial general sigue siendo un objetivo lejano que requerirá mucho más que simple poder de procesamiento.