¿Te preocupa que la IA tome el control del mundo?
Probablemente deberías estarlo.
Esa es mi nueva conclusión después de probar el nuevo modelo de OpenAI, “o1”, esta mañana. Supera a todas las demás IAs en la prueba de IQ de Mensa de Noruega:
Me había vuelto indiferente al progreso de la IA después de mis pruebas iniciales en febrero, porque no había habido prácticamente ninguna mejora en el IQ desde entonces.
Esta semana, todo cambió.
Específicamente, o1 respondió correctamente a 25 de las 35 preguntas de IQ, mucho más de lo que la mayoría de los humanos obtienen. Puedes ver sus respuestas a cada pregunta aquí, y a continuación algunos ejemplos específicos:
Ejemplos de respuestas de o1 a preguntas de IQ
Aquí está la pregunta más difícil del cuestionario, que responde correctamente:
La respuesta correcta probablemente no sea obvia para ti. Ciertamente no lo es para mí.
o1 da esta justificación:
Opción D: Al analizar los patrones en la cuadrícula, vemos que cada columna combina ciertos componentes para incluir todos los elementos (V, V invertida, lados del rectángulo) en la tercera fila. En la tercera columna, los componentes R-izquierda y R-derecha (los lados del rectángulo) aún no han aparecido. Por lo tanto, la respuesta correcta para la celda vacía es la Opción D, que incluye la ‘v’ normal y los dos lados del rectángulo, completando el conjunto de componentes para esa columna.
Así que dice que eligió “D” porque notó un patrón en el que cada columna debe contener todos los elementos posibles. Para que la tercera columna contenga todos los elementos, necesita los lados en la fila inferior, que están en “D”.
No explica por qué eligió “D” en lugar de “B” y “F”, pero un video explicativo en YouTube que encontré dice que es la elección correcta porque “cada una de las 8 imágenes se describe solo por la repetición en las diagonales … B y E contienen líneas adicionales, por lo que D es la respuesta correcta”.
El video de YouTube también da una lógica diferente (centrada en patrones diagonales) a la que detectó o1, y casi escribí aquí que la descripción de o1 estaba equivocada. Pero me parece que el patrón más simple que detectó también es válido.
Ahora veamos una pregunta más a mi nivel:
OpenAI o1 responde correctamente y explica:
En la tercera fila, el patrón implica combinar las líneas de las primeras y segundas celdas y eliminar las líneas comunes. La primera celda tiene líneas a las 4:30, 6:00, 7:30, 9:00 y 10:30. La segunda celda tiene líneas a las 1:30, 3:00, 6:00, 7:30 y 10:30. Las líneas comunes están a las 6:00, 7:30 y 10:30. Al combinar las líneas únicas de ambas celdas (1:30, 3:00, 4:30, 9:00), obtenemos la Opción F.
¡Eso es exactamente correcto!
o1 también se equivoca en algunas preguntas. La siguiente pregunta sigue exactamente el mismo patrón que la anterior:
Pero esta vez, o1 solo logra ver la parte aditiva del patrón, y no capta la parte de “eliminar las líneas comunes”. Así que se equivoca:
En la cuadrícula, el patrón sugiere que al combinar las características de las dos primeras celdas en cada fila se obtiene la tercera celda. En la tercera fila, al combinar el cuadrado incompleto con líneas verticales y horizontales (tercera fila, primera columna) y el cuadrado completo (tercera fila, segunda columna), obtenemos un cuadrado completo con líneas verticales y horizontales que cruzan el punto medio. Esto coincide con la Opción E.
¡Aún no es infalible! Consulta esta nota si quieres ver la respuesta correcta.2
La mejora de IQ NO se debe a que las preguntas estén en los datos de entrenamiento
La preocupación más común con este tipo de análisis es que tal vez algunas IAs tienen “chuletas”; tal vez han sido entrenadas con estas preguntas.3
Para abordar esa posibilidad, en abril, un comentarista en este blog, Jurij, miembro de Mensa, se ofreció a crear nuevas preguntas de IQ para mí. Luego creé una encuesta con sus nuevas preguntas, junto con algunas preguntas de Mensa Noruega, y pedí a los lectores de este blog que la tomaran. Unos 40 lo hicieron.
Luego eliminé la encuesta. De esa manera, las preguntas nunca han sido publicadas en internet accesible por motores de búsqueda, etc., y deberían estar a salvo de los datos de entrenamiento de las IAs.
Utilizando las respuestas de los lectores del blog, pude alinear la dificultad del nuevo cuestionario de IQ offline y el de Mensa Noruega, de manera que “100” debería significar lo mismo en ambas pruebas.
Luego le di el nuevo test, solo offline, a las IAs. Las IAs obtuvieron resultados significativamente peores en esta prueba desde cero:
Pero, lo importante es que la magnitud de la ventaja de o1 sigue siendo aproximadamente la misma [editado: ¡aún enorme]! Eso sugiere que o1 representa una gran mejora real en la capacidad de razonamiento de la IA, no solo la inclusión de datos específicos de entrenamiento sobre IQ.
Más investigación podría ayudar a mejorar la precisión de las puntuaciones
Dado que la visión de la IA aún no es lo suficientemente buena,4 es posible que una razón por la que las IAs tienen un rendimiento relativamente pobre en esta nueva prueba sea porque las descripciones verbales de las preguntas no están escritas tan bien como podrían estarlo. Una investigación futura podría incluir múltiples redacciones de las preguntas, escritas por diferentes personas, para tener una idea de cuán sensibles son las IAs a cómo se describen las preguntas.
También me gustaría realizar más investigaciones para establecer dónde realmente se encuentra el promedio humano en estos cuestionarios, porque, cuando los lectores de este blog tomaron las preguntas de Mensa Noruega, promediaron solo 103. Aunque supongo que es teóricamente posible que los lectores de este blog que voluntariamente toman un test de IQ sean simplemente personas muy curiosas, pero no mucho mejores en análisis de patrones que el promedio, es mucho más bajo de lo que habría esperado.
Le pregunté al creador de Mensa Noruega, Olav Hoel Dørum, cómo normó su prueba, y dijo que se basó en dar sus preguntas a 80 humanos que tenían puntuaciones de IQ oficiales.
Si bien estos métodos de normación deberían llevarnos a alguna parte, valdría la pena normar estas pruebas en poblaciones más grandes centradas en la inteligencia humana promedio. Eso nos daría una comparación más precisa entre humanos y IAs.
Por ahora, creo que una buena estimación es que el IQ de las IAs más avanzadas probablemente esté entre 100 y 120.
o1 pasa una revisión rápida usando preguntas de “sentido común”
En mi primera publicación (ya desactualizada) sobre la inteligencia de la IA, escribí sobre dos casos en los que ChatGPT-4 me falló:
Volví a hacer estas preguntas a o1. Las respondió correctamente. También traté de engañarlo diciéndole que estaba equivocado, y sugiriéndole la respuesta incorrecta que ChatGPT-4 me había dado antes. Resistió mi presión y reafirmó sus respuestas correctas.
Conclusión: el futuro está aquí
El nuevo modelo o1 muestra que las proyecciones rápidas sobre el progreso de la IA están en camino.
En mi análisis inicial importante sobre el IQ de la IA, extrapolé a partir de la tendencia de mejora de Claude para ver dónde podría terminar pronto el IQ de las IAs:
… mira la progresión constante:
- Claude-1 apenas fue mejor que el azar. Adivinó correctamente 6 respuestas, lo que le dio un IQ de ~64.
- Claude-2 obtuvo 6 puntos adicionales por prueba (lo que vale ~18 puntos de IQ).
- Claude-3 obtuvo otros 6.5 puntos, lo que vale ~19 puntos de IQ más, llevándolo por encima del promedio humano.
… ahora considera las fechas de lanzamiento …
- Claude-1 marzo 2023
- Claude-2 julio 2023 (4 meses de tiempo de producción)
- Claude-3 marzo 2024 (8 meses de tiempo de producción)
Una extrapolación muy simple sugiere que deberíamos esperar que Claude-4 llegue en 12 a 16 meses, y que responda correctamente unas 25 preguntas por prueba, para una puntuación de IQ de 120. [OpenAI o1, ahora 6 meses después, acertó exactamente 25 de 35 preguntas]
Después de eso, en otros 16 a 32 meses, Claude-5 debería acertar unas 31 preguntas, lo que le daría aproximadamente 140 puntos de IQ.
Luego, en otros 20 a 64 meses después de eso, Claude-6 debería acertar todas las preguntas y ser más inteligente que casi cualquier persona. Eso sería entre 4 y 10 años en total, sumando todos los períodos de tiempo.
Por supuesto, ese progreso no está garantizado. Anthropic podría enfrentarse a limitaciones presupuestarias, energéticas, regulatorias, etc.
Ahora creo que esa línea de tiempo se está manteniendo, y que OpenAI siempre ha estado unos 6 meses por delante de Anthropic/Claude, detrás de escena.
Si es así, deberíamos empezar a ver IAs más inteligentes que tú en menos de 5 años.
Y esto no tiene en cuenta los cambios mucho más aterradores que podrían suceder debido a la mejora de otros factores además del IQ.