Análisis Comparativo del Desempeño de Modelos de Inteligencia Artificial en la Resolución de Problemas Matemáticos

Laura Areli  Llano Aranda; Eduardo  Hernández Cruz; Josafat  Cortés; Carlos Daniel  Gutiérrez Ríos Colotl; Sebastián  Sánchez Martínez; Diego Hernan  Cuate Gomez

doi:10.65011/prismaods.v5.i1.188

Análisis Comparativo del Desempeño de Modelos de Inteligencia Artificial en la Resolución de Problemas Matemáticos

Autores/as

Laura Areli Llano Aranda Universidad Interamericana Autor/a https://orcid.org/0009-0008-2707-5586
Eduardo Hernández Cruz Universidad Interamericana Autor/a https://orcid.org/0009-0007-3103-7630
Josafat Cortés Universidad Interamericana Autor/a
Carlos Daniel Gutiérrez Ríos Colotl Universidad Interamericana Autor/a https://orcid.org/0009-0003-7638-6608
Sebastián Sánchez Martínez Universidad Interamericana Autor/a https://orcid.org/0009-0006-7919-4371
Diego Hernan Cuate Gomez Instituto Tecnológico Superior Progreso Autor/a https://orcid.org/0000-0003-1741-0009

DOI:

https://doi.org/10.65011/prismaods.v5.i1.188

Palabras clave:

inteligencia artificial, modelos de lenguaje, razonamiento matemático, educación, matemáticas

Resumen

La presente investigación presenta los resultados preliminares de un análisis comparativo sobre el desempeño de tres modelos de inteligencia artificial generativa —ChatGPT (GPT- 5), Gemini 2.5 y DeepSeek V3— en la resolución de problemas matemáticos de nivel intermedio. El objetivo principal fue identificar diferencias relevantes en sus métodos de razonamiento y en la claridad de los procedimientos utilizados, sin profundizar aún en aspectos técnicos internos de cada arquitectura. Para ello, se aplicó un conjunto homogéneo de ejercicios que incluyó operaciones algebraicas, manipulación de fracciones, factorización y resolución de ecuaciones. Cada modelo recibió las mismas instrucciones y sus respuestas fueron evaluadas a partir de criterios cualitativos como claridad explicativa, coherencia de los pasos intermedios y estabilidad del razonamiento. Los resultados preliminares indican que, aunque los tres modelos convergen en las soluciones finales, presentan diferencias sistemáticas en la forma de desarrollar el proceso. ChatGPT destaca por su claridad pedagógica y su capacidad para detallar cada paso, lo que lo hace apropiado para contextos educativos. Gemini muestra una marcada eficiencia operativa y tiende a simplificar expresiones desde etapas tempranas, lo cual agiliza el cálculo y reduce la complejidad algebraica. DeepSeek, por su parte, adopta un enfoque más estructurado orientado a la factorización y a la organización lógica de los términos, ofreciendo procedimientos formales y precisos. Estos hallazgos permiten identificar patrones iniciales sobre el estilo matemático de cada modelo y establecen las bases para análisis posteriores más profundos.

Descargas

Los datos de descarga aún no están disponibles.

Referencias

Bender, E. M., Gebru, T., McMillan-Major, A., & Mitchell, M. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.

Bernstein, I. A., Zhang, Y., Govil, D., et al. (2023). Comparison of Ophthalmologist and Large Language Model Chatbot Responses to Online Patient Eye Care Questions. JAMA Network Open, 6(8).

Boscolo-Rizzo, P., Marcuzzo, A. V., Lazzarin, C., et al. (2025). Quality of Information Provided by Artificial Intelligence Chatbots Surrounding the Reconstructive Surgery for Head and Neck Cancer: A Comparative Analysis Between ChatGPT4 and Claude2. Clinical Otolaryngology, 50(2), 330–335.

Chalyi, O. (2024). An Evaluation of General-Purpose AI Chatbots...

Chalyi, O. (2024). An Evaluation of General-Purpose AI Chatbots: A Comprehensive Comparative Analysis.

Chen, J., Tang, G., Zhou, G., & Zhu, W. (2025). ChatGPT and Deepseek: Can They Predict the Stock Market and Macroeconomy? arXiv preprint.

Coello, C. E. A., Alimam, M. N., & Kouatly, R. (2024). Effectiveness of ChatGPT in Coding: A Comparative Analysis of Popular Large Language Models. Digital, 4(1), 114–125.

Cowls, J., Tsamados, A., Taddeo, M., & Floridi, L. (2023). The AI gambit: leveraging artificial intelligence to combat climate change—opportunities, challenges, and recommendations. AI and Society, 38(1), 283–307.

Du, W., et al. (2024). Large Language Models in Pathology: A Comparative Study of ChatGPT and Bard with Pathology Trainees on Multiple-Choice Questions. medRxiv.

Floridi, L., & Chiriatti, M. (2020). GPT-3: Its Nature, Scope, Limits, and Consequences. Minds and Machines, 30, 681–694.

García-Peñalvo, F. J., Corell, A., Abella-García, V., & Grande, M. (2024). Inteligencia Artificial Generativa en Educación: Retos, oportunidades y escenarios futuros. Education in the Knowledge Society.

García-Peñalvo, F. J., Llorens-Largo, F., & Vidal, J. (2024). The new reality of education in the face of advances in generative artificial intelligence. RIED-Revista Iberoamericana de Educacion a Distancia, 27(1), 9–39.

Guellec, B. Le, et al. (2024). Performance of an Open-Source Large Language Model in Extracting Information from Free-Text Radiology Reports. Radiology: Artificial Intelligence, 6(4).

Holmes, W., Bialik, M., & Fadel, C. (2022). Artificial Intelligence in Education: Promises and Implications for Teaching and Learning. Center for Curriculum Redesign.

Liang, Z., et al. (2025). A Comparative Study of the Accuracy and Readability of Responses from Four Generative AI Models to COVID-19-Related Questions. COVID, 5(7).

Luckin, R. (2018). Machine Learning and Human Intelligence: The Future of Education for the 21st Century. UCL Institute of Education Press.

Mishra, V., Lurie, Y., & Mark, S. (2025). Accuracy of LLMs in medical education: evidence from a concordance test with medical teacher. BMC Medical Education, 25(1).

Moreno Padilla, R. D. (2019). La llegada de la inteligencia artificial a la educación. Revista de Investigación En Tecnologías de La Información, 7(14), 260–270.

Nguyen, T. P., et al. (2024). Comparison of artificial intelligence large language model chatbots in answering frequently asked questions in anaesthesia. Original Research Article.

Nguyen, T. P., et al. (2024). Comparison of artificial intelligence large language model chatbots...

Smutny, P., & Bojko, M. (2024). Comparative Analysis of Chatbots Using Large Language Models for Web Development Tasks. Applied Sciences, 14(21).

Wang, C., & Kantarcioglu, M. (2025). A Review of DeepSeek Models’ Key Innovative Techniques. University of Texas at Dallas.

Wang, C., & Kantarcioglu, M. (2025). A Review of DeepSeek Models’ Key Innovative Techniques

Descargas

PDF
HTML

Publicado

2026-04-01

Número

Vol. 5 Núm. 1 (2026): PRISMA ODS

Sección

Artículos

Licencia

Derechos de autor 2026 Laura Areli Llano Aranda, Eduardo Hernández Cruz, Josafat Cortés, Carlos Daniel Gutiérrez Ríos Colotl, Sebastián Sánchez Martínez, Diego Hernan Cuate Gomez (Autor/a)

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.

Todo el contenido de Prisma ODS se publica bajo la Licencia Creative Commons Atribución 4.0 Internacional (CC BY 4.0).
Los autores conservan los derechos de autor y otorgan a la revista el derecho de primera publicación.
Se permite la libre copia, distribución, adaptación y reutilización del contenido para cualquier fin legal,
siempre que se otorgue la atribución adecuada a los autores y a la fuente original.
Más información en: https://creativecommons.org/licenses/by/4.0/

Cómo citar

Llano Aranda, L. A. ., Hernández Cruz, E. ., Cortés, J. ., Gutiérrez Ríos Colotl, C. D. ., Sánchez Martínez, S. ., & Cuate Gomez, D. H. . (2026). Análisis Comparativo del Desempeño de Modelos de Inteligencia Artificial en la Resolución de Problemas Matemáticos. Prisma ODS: Revista Multidisciplinaria Sobre Desarrollo Sostenible, 5(1), 655-682. https://doi.org/10.65011/prismaods.v5.i1.188