Siglo XXI. Diario digital independiente, plural y abierto. Noticias y opinión
Viajes y Lugares Tienda Siglo XXI Grupo Siglo XXI
21º ANIVERSARIO
Fundado en noviembre de 2003
Portada
Etiquetas

Un estudio de Apple apunta que los modelos de razonamiento colapsan y son menos precisos al resolver problemas complejos

Agencias
lunes, 9 de junio de 2025, 12:16 h (CET)

Un estudio de Apple apunta que los modelos de razonamiento colapsan y son menos precisos al resolver problemas complejos

MADRID, 9 (Portaltic/EP)
Investigadores de Apple han concluido que los modelos de razonamiento de inteligencia artificial a gran escala (LRM) disponen de capacidades de escalamiento limitadas y, ante solicitudes que requieren cierto nivel de complejidad, pueden colapsarse generando resultados menos precisos.

Algunos de los principales modelos de lenguaje actuales, como es el caso de ChatGPT de OpenAI, Claude de Anthropic, Gemini de Google o Deepseek, han ido agregando modelos de razonamiento LRM, de cara a mejorar sus capacidades a la hora de resolver solicitudes, realizando procesos de pensamiento detallados antes de proporcionar respuestas.

Esto se debe a que, a diferencia de los modelos de lenguaje grandes (LLM), estos modelos se enfocan en el razonamiento lógico y la resolución de tareas complejas, en lugar de limitarse a generar texto.

Aunque estos modelos demuestran un rendimiento mejorado, Apple considera que sus capacidades fundamentales, propiedades de escala y limitaciones "siguen sin comprenderse lo suficiente", por lo que ha llevado a cabo una investigación para ponerlos a prueba, en la que ha concluido que se enfrentan a "un colapso total de la precisión más allá de ciertas complejidades".

Así lo ha recogido la tecnológica en un documento titulado "La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema", compartido en su web, donde ha detallado las limitaciones encontradas en modelos como o3-mini de OpenAI, DeepSeek-R1 de DeepSeek, Gemini Thinking de Google y Claude-3.7-Sonnet-Thinking de Anthropic.

Este análisis se ha llevado a cabo porque, según ha explicado, las evaluaciones actuales de los modelos se centran principalmente en puntuaciones de matemáticas o codificación que se remiten a la precisión de la respuesta final, lo que no proporciona información concreta sobre las capacidades de razonamiento de los modelos.

Sin embargo, este estudio se basa en entornos de rompecabezas controlables, como el rompecabezas de la torre de Torre de Hanói, que permiten manipular de forma precisa la complejidad de los retos, al tiempo que mantienen las estructuras lógicas consistentes. Por tanto, posibilita analizar no solo las respuestas finales, si no el razonamiento interno, cómo piensan los LRM.

Al exponerse a estos retos controlados, Apple ha asegurado que los LRM presentan deficiencias en la calidad de su razonamiento ante problemas de complejos, ya que se colapsan y buscan atajos para resolver la tarea en cuestión.

Concretamente, la tecnológica ha señalado que, tras una amplia experimentación con diversos rompecabezas, en la que se han comparado los LRM con los LLM en tareas de baja complejidad, complejidad media y alta complejidad, se ha demostrado que los LRM disponen de un límite de escalamiento "contra-intuitivo".

Esto significa que, aunque el esfuerzo de razonamiento del modelo aumenta con la complejidad del problema, solo llega hasta cierto punto, después, comienza a declinar a pesar de tener un presupuesto de tokens suficiente.

Es decir, cuanto más difíciles son los rompecabezas, más esfuerzo de computación y razonamiento ejerce el modelo hasta cierto punto de complejidad, cuando colapsa buscando atajos para resolver el problema y, por tanto, ofrece resultados menos precisos.

"Los LRM tienen limitaciones en el cómputo exacto" ha aclarado la tecnológica, al tiempo que ha señalado que no utilizan algoritmos explícitos y "razonan de manera inconsistente entre los acertijos".

Con todo, Apple ha especificado que en tareas de baja complejidad, los modelos estándar superan a los LRM. No obstante, en tareas de complejidad media el pensamiento adicional en los LRM demuestra ventaja y, finalmente, en tareas de alta complejidad "ambos modelos experimentan un colapso completo".

Noticias relacionadas

El Juzgado Contencioso-Administrativo de Pontevedra ha anulado una factura de 15.600 € que pretendía cobrar la Distribuidora del grupo Naturgy alegando un “fraude eléctrico” que no ha podido demostrar en el juicio. En sentencia firme, UFD Distribución contra el recurso presentado ante la Resolución de la Xunta de Galicia, que daba la razón al titular del contrato de suministro y consideraba nula la refacturación practicada por alegar un ‘fraude eléctrico’ en el contador de electricidad.

Sí, me refiero a ti. A ese que de vez en cuando va a recoger a sus nietos al cole. A esos que están sentados en un banco de un jardín e incluso a los que están echando una partidita de dominó, esperando matar al contrario esos seis dobles que están a la expectativa, mirando de reojo al rival para que no le asesinen esa ficha adversa que todos no sabemos dónde meter cuando nos hunde la suerte en el reparto de fichas. A

La Asociación Mundial de Atletismo (World Athletics) publicó este jueves las conclusiones de un estudio realizado durante los Juegos Olímpicos de Paris 2024 con el objetivo de identificar y proteger a los atletas de los mensajes abusivos enviados a través de las plataformas de las redes sociales, siendo el racismo, con un 18%, y el abuso sexualizado (30%) los principales problemas.
 
Quiénes somos  |   Sobre nosotros  |   Contacto  |   Aviso legal  |   Suscríbete a nuestra RSS Síguenos en Linkedin Síguenos en Facebook Síguenos en Twitter   |  
© 2025 Diario Siglo XXI. Periódico digital independiente, plural y abierto | Director: Guillermo Peris Peris
© 2025 Diario Siglo XXI. Periódico digital independiente, plural y abierto