14/07/2025

No es tan fácil razonar (tampoco para la IA)

Uno: es tan pretencioso como ingenuo pensar que los modelos de razonamiento, el último grito de la IA, son capaces de eso que los humanos llamamos razonar. Lo que hacen es imitar, mediante un proceso cuidadosamente diseñado, la sucesión de ideas que se forman en el cerebro de una persona cuando piensa de una manera lógica. Dos: en un sector económicamente motivado, habituado a inflar expectativas y a doblar apuestas, resulta llamativo que alguien eche agua fría sobre el entusiasmo generado por la primera proposición. Es lo que acaba de ocurrir con un paper en el que reflexionan sobre el asunto varios investigadores en nómina de Apple. Inequívocamente titulado The Ilusion of Thinking.

Por definición, los llamados modelos de razonamiento son sistemas con capacidad para abordar tareas complejas, que requieren un nivel de análisis y unas soluciones más evolucionadas que en otros como respuesta a los problemas planteados. OpenAI ha anunciado recientemente su modelo o3-pro [la nomenclatura se saltó la versión o2 para no entrar en un probable conflicto de marcas] capaz de encontrar soluciones en materias como matemáticas, ciencia y programación [nota. ¿por qué otras disciplinas del conocimiento humano parecen no interesar a esta gente?] y también analiza archivos e imágenes o los busca en Internet. Las mismas aspiraciones dicen tener DeepSeek R1 y los LRM (large reasoning model) de Anthropic.

El documento, elaborado por seis investigadores del departamento de Machine Learning de Apple, no es pomposo como otros de su género ni se extiende innecesariamente (11 páginas si se prescinde de la bibliografía). En YouTube hay varias interesantes versiones animadas. Conviene señalar de entrada algo obvio: el paper producido dentro de Apple y difundido por la compañía tiene naturaleza académica, lo que significa que Apple comparta las conclusiones del grupo ni mucho menos que sean determinantes en su estrategia .

Pero, sin ninguna duda, tiene mucho interés que en una compañía tan relevante se abra paso una reflexión crítica. El título es largo y explícito sobre el propósito de los autores: The Ilusion of Thinking. Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problems Complexity. El documento pone el acento en los límites de los LRM existentes, como herramientas esenciales para el desarrollo de los agentes de IA. Es una señal de que la capacidad de razonamiento es percibida por la industria como una primera muestra de autonomía real de los sistemas de inteligencia artificial.

La terminología juega aquí un papel relevante en tanto que creadora de expectativas. Se tiende a humanizar todo lo relativo a la inteligencia artificial, desde el equívoco de su denominación hasta las célebres alucinaciones, que se evita nombrar como lo que son: fallos. Algo parecido podría decirse de la expresión “lenguaje natural” [¿por qué no sencillamente lenguaje?]. Tal vez por estas razones, se ha empezado a definir alternativamente estos modelos como “simulación de razonamiento”. Otro eufemismo.

En todo caso, “razonar”, verbo de origen latino, equivaldría en estos sistemas a llevar a cabo tareas analíticas con mayor profundidad que los LLM (large language model). Para ello, utilizan lo que se conoce como cadena de pensamientos, que imita el proceso de razonamiento humano mediante la generación de más tokens de salida. Los modelos de razonamiento dedican más tiempo a la inferencia, lo que significa que la ejecución de la respuesta no es tan inmediata. De hecho, el modelo muestra estados de transición como “pensando” o “evaluando posibilidades”. Por consiguiente, consumen tiempo y recursos de computación.

Los firmantes del paper [ya es hora de nombrarlos: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio y Mehrdad Farajtabar] probaron las capacidades de razonamiento usando varios juegos de lógica cuya complejidad podía ajustarse de manera sencilla. Es otra forma de evaluar estos modelos, diferente a las pruebas matemáticas usuales. Los juegos presentaban la ventaja –  explican – de no tener soluciones absolutas, a diferencia de los problemas matemáticos que pueden resolverse o no resolverse. Así planteada, la propuesta permitía observar más de cerca el proceso de razonamiento e identificar cuándo comenzaba a fallar.

La conclusión de los investigadores fue que los modelos – probaron con o3-mini, DeepSeek R1 y el componente de razonamiento de Claude 3.7-Sonnet – dejaban de “pensar” cuando el problema era demasiado difícil. Es decir, cuando deberían haberse esforzado o pedido más recursos de computación para resolver la consulta, en la práctica relajaban su esfuerzo. Es muy diferente a que los sistemas tengan límite – que evidentemente tienen – a partir del cual no pueden dar repuestas porque la dificultad supera sus capacidades. En realidad, esta “pereza” también aparece en los LLM. Ante tareas para las que necesitan generar tokens, multiplican los errores. En los primeros tiempos de ChatGPT, una de las coletillas recurrentes en los prompts era “no seas vago”, evitando así que el chatbot dejara la respuesta a medias o perdiera calidad debido a su extensión.

El paper de Apple define tres grados de complejidad, en los que los modelos se desenvuelven diferentemente. Para tareas de una dificultad media, los modelos de razonamiento funcionaron correctamente, mejor que los de lenguaje. Sin embargo, cuando las consultas eran relativamente sencillas, los LLM se comportaban mejor que sus primos razonadores, tanto en precisión como en eficiencia. Por diseño, los modelos de razonamiento analizan las soluciones intermedias que generan, pero en este caso el esfuerzo era innecesario. Sucedía que estos sistemas daban pronto con la solución correcta, pero después seguían explorando otros caminos, equivocados y consumían así recursos de computación.

Pero el meollo del asunto está en las tareas de mayor complejidad. En estas fallan tanto los LLM como los LRM (large reasoning model). Aquí es donde estos últimos muestran su desidia ante problemas cada vez más difíciles, aun cuando tienen recursos de computación disponibles para usar. Esto podría implicar, según los autores, que los sistemas no escalan fácilmente, pero la cuestión es otra, si este comportamiento puede ser una piedra importante en la senda de la IA,

En el proceso de cadena de pensamiento, los modelos de razonamiento dedican más recursos computacionales a explorar las conexiones de su red neuronal. Cada paso intermedio de este “razonamiento” produce tokens. De esta forma se encauzan los próximos resultados, con el fin de mejorar la precisión y reducir errores matemáticos. Esto no equivale a disminuir los errores factuales.

Hasta ahora, añadir más tokens al proceso intermedio, en el cual el modelo “razona” o escalar los enfoques que se utilizan ahora para entrenar LRM no logran pasar del reconocimiento estadístico de patrones a una cierta capacidad de razonamiento generalista. Sólo se potencia esta capacidad conectando los modelos a herramientas externas, como sistemas de verificación o a un motor simbólico de matemáticas.

Naturalmente, no todos están de acuerdo con el paper en el que ven,  erróneamente, la impronta de Apple. Algunas voces apuntan que las limitaciones observadas obedecen a deficiencias en el entrenamiento, no en la inferencia. También hay quien interpreta la pereza de los LRM como una decisión del propio modelo, que elegiría no hacer la tarea antes que intentarlo sin ser capaces de completarla. En cualquier caso, Apple ha presentado a todos los escépticos ante el boom de la IA una base empírica en la que apoyarse.

El debate no es puramente conceptual. Los agentes de IA sólo podrán tomar decisiones con seguridad si son capaces de seguir una cadena lógica de pensamiento tal como lo haría una persona en su lugar. Si un agente autónomo debe responder a un ciberataque o un software que gestiona una campaña de marketing debe asignar un presupuesto, se necesita que los resultados estén fundados. Todo el mundo quiere que la toma de decisiones ofrezca garantías. De eso se trata.

[informe de Pablo G. Bejerano]


Contacto Suscríbete RSS


Sobre el autor. Copyright © 2025 El dominio norbertogallego.com es propiedad y está administrado por Diandro SL. B85905537. Creative Commons