Prisma ODS Revista Científica Multidisciplinar
Volumen 5, mero 1 - o 2026
Página | 1
PORTADA
(Elaborada por la revista)
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, mero 1 - o 2026
Página | 655
Análisis Comparativo del Desempeño de Modelos de Inteligencia
Artificial en la Resolución de Problemas Matemáticos
Comparative Analysis of Artificial Intelligence Models in Solving
Mathematical Problems
Laura Areli Llano Aranda
laura.areli.llano@gmail.com
https://orcid.org/0009-0008-2707-5586
Universidad Interamericana
Puebla - México
Eduardo Hernández Cruz
cruzedu211006@gmail.com
https://orcid.org/0009-0007-3103-7630
Universidad Interamericana
Puebla - México
Josafat Cortés
a000007390@lainter.edu.mx
Universidad Interamericana
Puebla - México
Carlos Daniel Gutiérrez Ríos Colotl
carlos_dgr@outlook.com
https://orcid.org/0009-0003-7638-6608
Universidad Interamericana
Puebla - México
Sebastián Sánchez Martínez
a000007412@lainter.edu.mx
https://orcid.org/0009-0006-7919-4371
Universidad Interamericana
Puebla - México
Diego Hernan Cuate Gomez
dhcg.inv@gmail.com
https://orcid.org/0000-0003-1741-0009
Instituto Tecnológico Superior Progreso
Yucatán - México
Artículo recibido: 07/02/2026
Aceptado para publicación: 30/03/2026
Conflictos de Intereses: Ninguno que declarar
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 656
RESUMEN
La presente investigación presenta los resultados preliminares de un análisis
comparativo sobre el desempeño de tres modelos de inteligencia artificial generativa
ChatGPT (GPT- 5), Gemini 2.5 y DeepSeek V3 en la resolución de problemas
matemáticos de nivel intermedio. El objetivo principal fue identificar diferencias relevantes
en sus métodos de razonamiento y en la claridad de los procedimientos utilizados, sin
profundizar aún en aspectos técnicos internos de cada arquitectura. Para ello, se aplicó un
conjunto homogéneo de ejercicios que incluyó operaciones algebraicas, manipulación de
fracciones, factorización y resolución de ecuaciones. Cada modelo recibió las mismas
instrucciones y sus respuestas fueron evaluadas a partir de criterios cualitativos como claridad
explicativa, coherencia de los pasos intermedios y estabilidad del razonamiento. Los
resultados preliminares indican que, aunque los tres modelos convergen en las soluciones
finales, presentan diferencias sistemáticas en la forma de desarrollar el proceso. ChatGPT
destaca por su claridad pedagógica y su capacidad para detallar cada paso, lo que lo hace
apropiado para contextos educativos. Gemini muestra una marcada eficiencia operativa y
tiende a simplificar expresiones desde etapas tempranas, lo cual agiliza el cálculo y reduce la
complejidad algebraica. DeepSeek, por su parte, adopta un enfoque más estructurado
orientado a la factorización y a la organización lógica de los términos, ofreciendo
procedimientos formales y precisos. Estos hallazgos permiten identificar patrones iniciales
sobre el estilo matemático de cada modelo y establecen las bases para análisis posteriores
más profundos.
Palabras clave: inteligencia artificial, modelos de lenguaje, razonamiento
matemático, educación, matemáticas
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 657
ABSTRACT
This study presents the preliminary results of a comparative evaluation of three
contemporary generative artificial intelligence modelsChatGPT (GPT-5), Gemini 2.5, and
DeepSeek V3focused on their performance in solving intermediate-level mathematical
problems. The main objective was to identify differences in their reasoning strategies and in
the clarity of their step-by-step procedures, without addressing internal technical
specifications or aspects beyond the scope of mathematical problem solving. A homogeneous
set of algebraic exercises was administered to all three models, including fraction
manipulation, equation solving, factorization, and symbolic simplification. Each response
was assessed using qualitative criteria such as explanatory clarity, logical coherence, and
consistency in the reasoning process. Preliminary results indicate that all three systems
successfully reached the correct numerical solutions; however, their approaches to
developing intermediate steps differed systematically. ChatGPT stood out for its pedagogical
clarity, offering detailed explanations that facilitate understanding in educational settings.
Gemini demonstrated strong operational efficiency, often simplifying expressions early in the
process, which reduced computational complexity and accelerated problem resolution.
DeepSeek adopted a more structured approach, showing a preference for factorization and
formal algebraic organization in its reasoning. These findings provide an initial
characterization of the mathematical reasoning styles of each model and establish a basis for
future, more in-depth analyses. The results may assist educators and students in selecting the
most suitable AI tool based on the desired balance between clarity, efficiency, and
mathematical formality.
Keywords: artificial intelligence, language models, mathematical reasoning,
education, mathematics
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 658
INTRODUCCIÓN
La Era de la Inteligencia Artificial Generativa y su Impacto Multidisciplinario
La inteligencia artificial y, de manera más específica, los grandes modelos de lenguaje
(LLM), han experimentado un crecimiento que puede calificarse sin hipérboles como
exponencial en la última década. Esta tecnología ha logrado una integración significativa y
transversal en diversos campos del saber humano, transformando radicalmente desde la
educación formal hasta la práctica de la medicina de alta especialidad y la gestión de las
finanzas globales. La capacidad de estos sistemas para procesar, comprender y generar
lenguaje natural ha abierto nuevas fronteras en la interacción hombre-máquina, planteando
preguntas fundamentales sobre la naturaleza del conocimiento, el aprendizaje y la
automatización de tareas cognitivas complejas. Este fenómeno no es meramente tecnológico,
sino que representa un cambio cultural y epistemológico en la manera en que accedemos y
procesamos la información en el siglo XXI (Bender et al., 2021; Floridi & Chiriatti, 2020).
La literatura científica reciente se ha dedicado a explorar con profundidad la llegada de la
inteligencia artificial a los entornos educativos, destacando su potencial no solo como una
herramienta auxiliar, sino como una ventaja competitiva estratégica en la impartición y
generación de nuevos conocimientos (Holmes et al., 2022; Luckin, 2018). La promesa de un
tutor personalizado, disponible las veinticuatro horas del día y capaz de adaptarse al ritmo de
aprendizaje de cada estudiante, ha sido uno de los motores principales de esta adopción. Sin
embargo, esta integración no está exenta de dificultades estructurales y pedagógicas que
deben ser abordadas con rigor académico. Investigadores como Moreno Padilla (2019) han
subrayado en sus trabajos los retos considerables que implica su implementación efectiva en
las aulas. Entre estos desafíos se encuentran la necesaria adaptación curricular para incluir
competencias digitales avanzadas, la formación docente continua para evitar la brecha
tecnológica y la gestión de la dependencia tecnológica por parte del alumnado, que podría
mermar el desarrollo del pensamiento crítico si no se supervisa adecuadamente.
De igual manera, se ha investigado la nueva realidad educativa ante los avances de la
inteligencia artificial generativa, que va un paso más allá de la simple recuperación de
información para crear contenido original. En este sentido, García-Peñalvo y sus
colaboradores (2024) publicaron un análisis exhaustivo sobre las ventajas, los inconvenientes
y las potencialidades que estas herramientas presentan en los procesos de enseñanza y
aprendizaje. Su trabajo sugiere que estamos ante un cambio de paradigma en la transmisión
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 659
del conocimiento que requiere una reevaluación profunda de los métodos de evaluación
tradicionales. Ya no basta con evaluar la memorización o la repetición de datos, puesto que la
inteligencia artificial puede realizar estas tareas con una eficiencia sobrehumana; la
educación debe evolucionar hacia la evaluación de la capacidad de síntesis, el análisis crítico
y la resolución creativa de problemas, habilidades donde la supervisión humana sigue siendo
indispensable.
Democratización del Acceso y Eficiencia de Entrenamiento
En el ámbito específico del desarrollo técnico de los modelos de lenguaje, la competencia
entre desarrolladores ha acelerado la innovación de manera vertiginosa, rompiendo barreras
de entrada que antes parecían insuperables para actores más pequeños. Modelos recientes de
código abierto o semiabierto, como DeepSeek-V3 y DeepSeek-R1, han demostrado un
rendimiento comparable, y en ocasiones superior, al de modelos de código cerrado
desarrollados por grandes corporaciones tecnológicas con recursos casi ilimitados. Lo más
notable corroborado por estudios técnicos como Bernstein et al. (2023) es que estos
resultados se han logrado con una fracción de los costos de entrenamiento habituales.
Esto se debe a innovaciones arquitectónicas como la Atención Latente Multi cabezal y la
arquitectura de Mezcla de Expertos (MoE), que permiten un uso más eficiente de los recursos
computacionales al activar solo las partes necesarias de la red para cada tarea específica.
Este fenómeno de democratización tecnológica tiene implicaciones profundas. Sugiere un
futuro cercano donde modelos altamente capaces puedan entrenarse y ejecutarse localmente
en universidades, hospitales y pequeñas empresas, reduciendo la dependencia de grandes
corporaciones y aumentando la soberanía tecnológica.
DESARROLLO
Estado del Arte: Revisión Sistemática de Aplicaciones Críticas
Para comprender la relevancia de evaluar el razonamiento matemático de las inteligencias
artificiales, es necesario analizar primero cómo se han desempeñado estas herramientas en
otros campos de alta complejidad y riesgo, como la medicina, la ingeniería y las finanzas. La
revisión de la literatura ofrece un panorama de luces y sombras que justifica la necesidad de
evaluaciones rigurosas como la que presenta este estudio.
La Inteligencia Artificial en el Sector Salud: Promesas y Riesgos
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 660
La evaluación de la precisión y la legibilidad de las respuestas generadas por diferentes
modelos de inteligencia artificial generativa se ha convertido en un campo crítico,
especialmente para validar su uso seguro en el sector salud, donde la exactitud puede definir
decisiones con impacto directo en la vida de los pacientes.
Investigaciones recientes, como el estudio transversal de Liang et al. (2025), evaluaron
modelos líderes incluyendo ChatGPT y Gemini en contextos altamente sensibles, como la
respuesta a preguntas relacionadas con la pandemia de COVID-19. Sus hallazgos indican
diferencias sustanciales en la precisión textual y la fluidez del lenguaje entre plataformas.
Mientras algunos modelos simplifican adecuadamente conceptos médicos complejos para el
público general, otros pueden introducir imprecisiones sutiles o alucinaciones que, aunque
persuasivas, son clínicamente peligrosas.
En oftalmología clínica, Bernstein et al. (2023) compararon respuestas de chatbots con las de
oftalmólogos humanos a consultas de pacientes realizadas en línea. Sorprendentemente, las
respuestas de la IA fueron percibidas por los pacientes como más empáticas, extensas y
detalladas que las de los médicos humanos. Sin embargo, los autores advierten que la calidad
percibida no sustituye la supervisión médica, ya que la IA puede omitir matices clínicos
fundamentales.
En cirugía reconstructiva de cabeza y cuello, Boscolo-Rizzo et al. (2025) realizaron un
análisis comparativo entre ChatGPT-4 y Claude-2. Encontraron variaciones importantes en la
precisión de la orientación postoperatoria y manejo de complicaciones, enfatizando que cada
modelo debe validarse específicamente para subespecialidades médicas antes de su uso
clínico.
La IA también ha sido evaluada en tareas de procesamiento de texto médico administrativo y
clínico. Le Guellec et al. (2024) demostraron que los modelos pueden automatizar la
extracción de información estructurada desde reportes de radiología redactados en texto libre,
facilitando la investigación epidemiológica y la gestión hospitalaria.
Además, estudios como el de Mishra et al. (2025) en educación médica y el de Du et al.
(2024) en patología han utilizado preguntas de certificación profesional para medir el
conocimiento “enciclopédico” de los modelos. En varios casos, los modelos superaron el
desempeño promedio de los estudiantes de medicina, lo cual abre un debate profundo sobre el
futuro de la evaluación de competencias en salud.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 661
En conjunto, estos estudios demuestran que, aunque las IA muestran un notable potencial en
medicina, los riesgos asociados a errores sutiles siguen siendo un factor crítico que obliga a
evaluaciones exhaustivas antes de integrar estos sistemas en la práctica clínica.
Impacto en la Programación, Finanzas y Sostenibilidad
Más allá del sector salud, la inteligencia artificial ha dejado una huella profunda en
disciplinas como programación, finanzas y sostenibilidad, áreas donde su capacidad para
procesar texto y generar soluciones precisas tiene aplicaciones inmediatas y de alto impacto.
En el área de programación, diversos estudios han evaluado el rendimiento de los modelos
para generar y depurar código. Coello et al. (2024) compararon la efectividad de ChatGPT
frente a otros modelos para escribir código funcional en lenguajes modernos. Destacaron su
habilidad no solo para producir código sintácticamente correcto, sino también para explicar la
lógica subyacente, lo cual es valioso para la formación de nuevos programadores y para
mejorar la productividad de desarrolladores experimentados.
En el desarrollo web, Smutny y Bojko (2024) demostraron que los modelos pueden generar
estructuras completas de HTML y CSS, lo que acelera significativamente el prototipado. Sin
embargo, también señalan inconsistencias ocasionales que requieren supervisión humana para
asegurar la funcionalidad final.
En el ámbito financiero, Chen et al. (2025) evaluaron si modelos avanzados como ChatGPT y
DeepSeek podían predecir el comportamiento del mercado bursátil mediante el análisis de
miles de noticias financieras. Los resultados mostraron correlaciones relevantes que sugieren
un potencial disruptivo. No obstante, los autores advierten que los mercados financieros
presentan alta volatilidad y sesgos en los datos, lo que puede llevar a predicciones engañosas
si se confía ciegamente en estos modelos.
La sostenibilidad constituye otro eje crítico. El entrenamiento y operación de modelos
masivos consume grandes cantidades de energía y agua. Cowls et al. (2023) analizaron este
fenómeno en el contexto de la crisis climática, cuestionando si los beneficios de optimización
que aporta la IA compensan su huella ambiental. Refuerzan la necesidad de enfoques más
eficientes y energéticamente responsables en futura investigación y desarrollo.
Finalmente, Ratti et al. (2025) destacaron los riesgos éticos asociados a sesgos algorítmicos,
especialmente en salud. Señalan que, si los datos de entrenamiento no representan
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 662
adecuadamente la diversidad poblacional, la IA podría perpetuar o incluso amplificar
inequidades históricas.
Protocolo Metodológico Detallado para la Replicación del Estudio
Con el objetivo de dotar a esta investigación de un carácter científico riguroso y permitir la
verificación independiente de sus conclusiones por parte de la comunidad académica
internacional, se diseñó un protocolo metodológico exhaustivo. Este protocolo documenta
paso a paso el procedimiento necesario para replicar el estudio comparativo, asegurando que
las variables estén estrictamente controladas y que los resultados sean comparables entre
distintas iteraciones experimentales.
Requisitos Técnicos y Preparación del Entorno Controlado
El primer paso crítico para cualquier intento de replicación exitosa consiste en asegurar el
acceso estable y autorizado a las interfaces de programación de aplicaciones (API) de los
modelos evaluados. Para este estudio se seleccionaron ChatGPT (versión GPT-5), Gemini 2.5
y DeepSeek V3.
Es imprescindible establecer credenciales de acceso seguras y configurar un entorno de
desarrollo aislado para evitar interferencias externas. Se recomienda el uso de tecnologías de
contenedorización, como Docker, para garantizar que todas las dependencias de software,
bibliotecas de lenguajes como Python y configuraciones del sistema operativo sean idénticas
en todas las máquinas de prueba. Esto elimina variables de confusión relacionadas con
diferencias en hardware o configuraciones locales.
Además, se estableció un repositorio de datos controlado mediante sistemas de control de
versiones como Git. Allí se almacenaron de manera organizada los scripts de prueba
automatizados, los prompts utilizados para el estudio y los datos recolectados durante las
sesiones experimentales.
Diseño Experimental y Estructura del Banco de Pruebas
La validez de este estudio depende directamente del diseño del banco de pruebas
(benchmark). Para evaluar competencias cognitivas específicas de cada modelo, el banco se
dividió en bloques temáticos:
Bloque Matemático: Incluyó problemas de álgebra lineal como el cálculo de
determinantes de matrices, problemas de cálculo diferencial y resolución de ecuaciones
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 663
cuadráticas con coeficientes fraccionarios. Estos problemas se seleccionaron no por su
complejidad computacional, sino por su necesidad de razonamiento lógico paso a paso
y su capacidad para poner a prueba la claridad explicativa del modelo.
Bloque de Programación: Evaluó la capacidad de los modelos para generar código
funcional en distintos lenguajes, depurar errores lógicos y explicar algoritmos en
términos accesibles.
Bloque de Robustez y Seguridad: Incluyó preguntas capciosas, premisas falsas o
instrucciones contradictorias para medir la tendencia del modelo a generar
alucinaciones o errores lógicos. Esto permitió evaluar su capacidad para identificar
inconsistencias en el planteamiento del problema antes de responder.
Estandarización de Prompts y Recolección Sistemática de Datos
Para minimizar la variabilidad en las respuestas generada por la forma de formular las
preguntas (un fenómeno conocido como sensibilidad al prompt engineering), se utilizaron
plantillas maestras estandarizadas para cada tipo de tarea. Estas plantillas definían claramente
el rol que debía adoptar el modelo (por ejemplo, "Actúa como un profesor universitario de
matemáticas"), la tarea específica a realizar y el formato de salida esperado (por ejemplo,
"Utiliza formato LaTeX para las fórmulas matemáticas y explica cada paso en texto plano").
Durante la fase de recolección de datos, se registraron automáticamente no solo las respuestas
textuales generadas, sino también una serie de metadatos críticos para el análisis de
eficiencia, como la latencia de la red, el tiempo de procesamiento del servidor, el número
exacto de tokens de entrada y salida, y los costos financieros estimados por cada consulta
realizada. Cada tarea se ejecutó múltiples veces (n=3) para evaluar la consistencia y
estabilidad temporal de los modelos ante la misma entrada, permitiendo detectar
fluctuaciones en el rendimiento.
Criterios de Evaluación Multidimensional
La evaluación de las respuestas trascendió la simple y reduccionista verificación binaria de
correcto o incorrecto. Se implementó un esquema de evaluación multidimensional y holístico
que abarcó cuatro ejes principales de análisis.
1. Exactitud Matemática: Medida objetiva de la corrección del resultado numérico
final, verificada contra soluciones patrones precalculadas.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 664
2. Completitud Procedimental: Evaluación de si el modelo abordó todos los aspectos
de la pregunta y proporcionó los pasos intermedios necesarios para justificar su
respuesta, penalizando los saltos lógicos injustificados.
3. Claridad y Legibilidad: Valoración cualitativa realizada por un panel de evaluadores
humanos expertos en la materia, quienes puntuaron la capacidad pedagógica, la
estructura gramatical y la fluidez narrativa de las explicaciones generadas.
4. Eficiencia Algorítmica: Análisis del enfoque utilizado por el modelo para resolver el
problema (por ejemplo, el uso de fuerza bruta computacional frente a la simplificación
algebraica inteligente) y el consumo de recursos computacionales asociados a dicha
estrategia.
Perfiles Técnicos y Análisis de Arquitectura de los Modelos Evaluados
Para interpretar adecuadamente los resultados del rendimiento matemático que se discutirán
más adelante, es indispensable comprender primero las diferencias fundamentales en la
arquitectura y las especificaciones técnicas de los modelos evaluados, tal como se describen
en la documentación oficial de los desarrolladores.
ChatGPT (GPT-5): La Potencia del Razonamiento Adaptativo y la Escala Masiva
Desarrollado por OpenAI, GPT-5 representa la cúspide actual de los modelos densos y
multimodales de propósito general. Su arquitectura está diseñada desde la base para procesar
y relacionar texto, imágenes y voz de manera nativa, sin necesidad de módulos externos. Una
de sus características s distintivas y revolucionarias es su ventana de contexto masiva de
400,000 tokens, lo que le permite mantener la coherencia en conversaciones extremadamente
largas o analizar documentos legales y técnicos extensos en una sola pasada de inferencia.
Sin embargo, su característica definitoria es el sistema de "razonamiento adaptativo", una
capacidad emergente que le permite ajustar dinámicamente la profundidad y complejidad de
su procesamiento neuronal según la dificultad percibida de la tarea en cuestión. Esta potencia,
no obstante, conlleva un costo operativo significativo: el consumo energético estimado es
alto, alrededor de 18.35 Wh por consulta promedio, lo que plantea desafíos importantes en
términos de sostenibilidad ambiental y escalabilidad económica a largo plazo.
Gemini 2.5: La Apuesta por la Eficiencia Extrema y la Multimodalidad Nativa
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 665
Gemini, el modelo insignia desarrollado por Google DeepMind, apuesta por una filosofía de
diseño centrada en la eficiencia extrema y la integración total. Su arquitectura multimodal
nativa le permite procesar flujos de video y audio con la misma fluidez y precisión que el
texto escrito. La variante Gemini 2.5 Flash destaca en el mercado por su ventana de contexto
sin precedentes de más de un millón de tokens, la más grande disponible comercialmente, lo
que abre nuevas posibilidades para el análisis de grandes volúmenes de datos no
estructurados. A pesar de esta capacidad monumental, su optimización arquitectónica le
permite ser, según reportes técnicos, hasta 33 veces más eficiente energéticamente que sus
predecesores inmediatos, con un consumo de apenas 0.24 Wh por consulta típica. Esta
eficiencia no es solo energética, sino que se refleja en su comportamiento algorítmico, que
tiende a buscar atajos matemáticos y simplificaciones lógicas para reducir la carga
computacional total de las tareas.
DeepSeek V3: La Revolución del Código Abierto y la Especialización
DeepSeek V3 representa el estado del arte en el ecosistema de modelos de código abierto y la
democratización de la IA. Utiliza una arquitectura innovadora de Mezcla de Expertos (MoE),
donde el modelo total alberga la impresionante cifra de 236 mil millones de parámetros, pero
con la particularidad de que solo una pequeña fracción de ellos (los "expertos" relevantes
para la tarea específica) se activa en cada paso de inferencia. Esto permite que el modelo
tenga un conocimiento enciclopédico vasto y diverso sin incurrir en los costos
computacionales prohibitivos de activar toda la red neuronal en cada generación de token.
Entrenado con un corpus masivo de 14 billones de tokens que incluye una gran proporción de
código y textos académicos, DeepSeek V3 se especializa notablemente en razonamiento
lógico formal y codificación de software, logrando puntuaciones de vanguardia en
benchmarks técnicos como GSM8K, donde alcanza un 94.5% de precisión. Su infraestructura
de refrigeración líquida y su compromiso con el uso de energías renovables lo posicionan
como una alternativa sostenible y éticamente responsable.
Análisis Fenomenológico y Comparativo del Desempeño en Resolución Matemática
La fase experimental de este estudio no se limitó a verificar si los modelos podían obtener la
respuesta correcta, sino que se centró en diseccionar la "ruta cognitiva" que cada inteligencia
artificial trazó para llegar a la solución. Este análisis fenomenológico revela diferencias
profundas en la programación subyacente y en los objetivos de optimización de cada sistema,
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 666
lo que tiene implicaciones directas para su utilidad pedagógica y profesional. A continuación,
se presenta la deconstrucción detallada de los ejercicios clave.
Álgebra Lineal: El Caso de los Determinantes de Matrices de 3x3
El primer ejercicio seleccionado para esta evaluación comparativa consisten el cálculo del
determinante de una matriz cuadrada de tres por tres, definida arbitrariamente como la matriz
A. Este problema es fundamental en el álgebra lineal, ya que el determinante es un escalar que
proporciona información crítica sobre la matriz, como su invertibilidad y el factor de escala de
la transformación lineal que representa. Los tres modelos evaluados lograron alcanzar el
resultado numérico correcto de menos cincuenta y tres, lo que demuestra una competencia
básica sólida en aritmética matricial. Sin embargo, la divergencia en sus métodos fue notable y
reveladora.
ChatGPT, impulsado por la arquitectura GPT-5, adoptó un enfoque que podríamos clasificar
como "didáctico exhaustivo". Inició el proceso declarando explícitamente su intención de
utilizar el método de expansión por cofactores, seleccionando para ello la primera fila de la
matriz. A continuación, desglosó el problema en subproblemas más pequeños, escribiendo
cada uno de los menores complementarios correspondientes a los elementos de la primera fila.
No se limitó a presentar los resultados de estos menores, sino que mostró las operaciones de
multiplicación cruzada y resta necesarias para calcularlos (cuatro por menos dos, menos cinco
por dos, resultando en menos dieciocho; cero por menos dos, menos cinco por uno, resultando
en menos cinco; y así sucesivamente). Finalmente, sustituyó estos valores en la fórmula
general del determinante, respetando escrupulosamente la alternancia de signos característica
de la expansión por cofactores. Este nivel de detalle, aunque computacionalmente más costoso
en términos de generación de tokens, resulta invaluable para un estudiante que busca
comprender la mecánica del proceso, ya que hace transparente cada paso lógico y aritmético.
En un contraste fascinante, Gemini 2.5 demostró una capacidad que podríamos
antropomorfizar como "astucia matemática". Al analizar la estructura de la matriz A, el
modelo identificó que la primera columna contenía un elemento con valor cero. Aprovechando
esta propiedad, Gemini decidió desviarse del enfoque estándar de la primera fila y optó por
realizar la expansión de cofactores a lo largo de la primera columna. Esta decisión estratégica
no fue aleatoria; al elegir la columna con el cero, el modelo eliminó efectivamente la
necesidad de calcular uno de los tres menores, reduciendo así la carga computacional y el
riesgo de error aritmético en un treinta y tres por ciento. Esta optimización algorítmica refleja
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 667
la filosofía de diseño de DeepMind centrada en la eficiencia operativa. Gemini presentó su
solución de manera concisa, calculando solo los determinantes de dos por dos estrictamente
necesarios y llegando al resultado final de menos cincuenta y tres con una economía de pasos
que sería elogiada en un contexto de ingeniería o programación de alto rendimiento, aunque
quizás resultaría menos instructiva para un novato que no comprendiera por qué se eligió esa
columna específica.
DeepSeek V3, por su parte, adoptó un enfoque que se alinea con su naturaleza técnica y
orientada al código. En lugar de narrar el proceso o buscar optimizaciones heurísticas basadas
en la estructura de los datos, aplicó directamente la fórmula general para el determinante de
una matriz de tres por tres (la regla de Sarrus o la expansión directa). Sustituyó los valores
numéricos en la expresión algebraica sin preámbulos retóricos y ejecutó las operaciones
aritméticas (dos por menos dieciocho, más uno por menos cinco, más tres por menos cuatro)
de manera secuencial y fría. Su respuesta fue la más breve de las tres, careciendo de la
narrativa pedagógica de ChatGPT y de la optimización estratégica de Gemini, pero
ofreciendo una solución directa y sin fricción, ideal para usuarios que buscan el resultado
como un insumo para procesos posteriores más que como un fin educativo en sí mismo.
Álgebra Intermedia: Resolución de Ecuaciones Cuadráticas con Coeficientes Racionales
El segundo ejercicio planteó un desafío aritmético deliberado: la resolución de una ecuación
cuadrática cuyos coeficientes eran fracciones (x al cuadrado menos siete sextos de x más un
tercio igual a cero). Este tipo de problema es notorio por inducir errores de cálculo en
estudiantes humanos debido a la complejidad de operar con fracciones dentro de la fórmula
cuadrática general. La respuesta de los modelos ante esta barrera aritmética proporcionó los
datos más claros sobre sus "estilos de razonamiento".
ChatGPT abordó el problema con una literalidad estricta. Identificó los coeficientes a, b y c
tal como aparecían en la ecuación original, es decir, uno, menos siete sextos y un tercio,
respectivamente. Procedió a sustituir estos valores fraccionarios directamente en la fórmula
general de la ecuación cuadrática. Esto lo obligó a realizar una serie de operaciones
aritméticas complejas y visualmente densas, como elevar menos siete sextos al cuadrado para
obtener cuarenta y nueve treintaiseisavos, y luego restarle cuatro tercios. Aunque el modelo
navegó por este campo minado aritmético sin cometer errores de cálculo, llegando
correctamente a las soluciones de dos tercios y un medio, el procedimiento resultante fue
extenso, difícil de leer y cognitivamente taxativo. Este comportamiento refuerza la
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 668
caracterización de GPT-5 como un modelo que prioriza el cumplimiento estricto de la
instrucción implícita de "resolver la ecuación dada" sobre la búsqueda de la elegancia
matemática o la eficiencia procedimental.
Gemini 2.5 y DeepSeek V3, en una convergencia estratégica notable, identificaron
inmediatamente que la ecuación podía simplificarse antes de intentar resolverla. Ambos
modelos iniciaron su proceso calculando el mínimo común múltiplo de los denominadores,
que en este caso era seis. Al multiplicar toda la ecuación por este factor escalar,
transformaron el problema original en una ecuación equivalente con coeficientes enteros: seis
x al cuadrado menos siete x más dos iguales a cero. Esta transformación trivializó la
aritmética subsiguiente.
Sin embargo, a partir de este punto de simplificación compartida, sus caminos divergieron
nuevamente, revelando sus sesgos arquitectónicos. Gemini, fiel a su naturaleza de
herramienta eficiente de propósito general, aplicó la fórmula cuadrática estándar sobre los
nuevos coeficientes enteros (seis, menos siete y dos). Esta ruta es algorítmicamente segura y
universalmente aplicable, garantizando una solución pida. DeepSeek V3, demostrando su
entrenamiento especializado en matemáticas puras y lógica de programación, optó por el
método de factorización. Reconoció que el trinomio cuadrático podía descomponerse
buscando dos números que multiplicados dieran doce y sumados dieran menos siete (menos
tres y menos cuatro). Reescribió el término lineal utilizando estos números y aplicó la
factorización por agrupación para revelar los factores binomiales (dos x menos uno) y (tres x
menos dos). Finalmente, despejó x de cada factor para obtener las soluciones de un medio y
dos tercios. Este método, aunque cognitivamente más exigente en términos de
reconocimiento de patrones, es matemáticamente más elegante y demuestra una comprensión
más profunda de la estructura algebraica subyacente.
Resultados Propios y Comparación Humanizada del Desempeño de las IAs
Como equipo realizamos dos ejercicios matemáticos el cálculo del determinante de la matriz:
Y la resolución de la ecuación cuadrática:
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 669
Aplicamos exactamente los mismos ejercicios a las tres inteligencias artificiales evaluadas
ChatGPT, Gemini y DeepSeek y registramos no solo sus resultados, sino también nuestras
percepciones como estudiantes sobre claridad, tiempo de respuesta y calidad del
procedimiento.
Resultados del equipo
En los dos ejercicios matemáticos planteados, los modelos obtuvieron los mismos resultados
finales:
Determinante de la matriz A: −53
Soluciones de la ecuación cuadrática:
Comparación cualitativa del procedimiento ChatGPT (GPT-5)
Para la matriz, ChatGPT comenzó calculando el determinante usando el método de cofactores
sobre la primera fila. Tomó cada número de esa fila (2, -1 y 3) y lo multiplicó por el
determinante de la submatriz que quedaba al eliminar su fila y columna, alternando los signos
(+, -, +). Luego calculó cada uno de esos tres determinantes pequeños haciendo
multiplicaciones cruzadas, como (4 × -2) - (5 × 2) para obtener -18. Finalmente, sumó todo: 2
× (-18) - (-1) × (-5) + 3 × (-4) = -53
Figura 1. Procedimiento de ChatGPT para calcular el determinante de una matriz 3×3
mediante expansión por cofactores
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 670
Para la ecuación cuadrática, ChatGPT identificó los coeficientes fraccionarios a=1, b=-7/6 y
c=1/3, y los sustituyó directamente en la fórmula general. Primero calculó = 49/36 y 4ac =
4/3, luego restó para obtener 1/36 dentro de la raíz. Al sacar la raíz cuadrada (1/6), sumó y
restó con 7/6, y finalmente dividió entre 2 para obtener las soluciones x = 2/3 y x = 1/2. Su
método fue literal, paso a paso, sin buscar simplificar la ecuación primero.
Figura 2. Resolución de ecuación cuadrática con coeficientes fraccionarios por ChatGPT
usando la fórmula general paso a paso
Fuente: Elaboración propia.
Figura 3. Continuación del cálculo de la ecuación cuadrática por ChatGPT, simplificando
dentro de la raíz y obteniendo las soluciones
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 671
DeepSeek V3:
Para la ecuación cuadrática, DeepSeek comenzó eliminando los denominadores
multiplicando toda la ecuación por 6, obteniendo así una ecuación equivalente con
coeficientes enteros: 6x² - 7x + 2 = 0. Luego, en lugar de usar directamente la fórmula
general, optó por factorizar el trinomio. Buscó dos números que multiplicados dieran 12
(producto de 6 y 2) y sumaran -7, encontrando -3 y -4. Reescribió el rmino lineal y aplicó
factorización por agrupación, resultando en (2x - 1) (3x - 2) = 0. Finalmente, igualó cada
factor a cero para obtener las soluciones x = 1/2 y x = 2/3.
Figura 4. DeepSeek elimina fracciones multiplicando la ecuación cuadrática por el MCM
para trabajar con coeficientes enteros
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 672
Figura 5. DeepSeek factoriza el trinomio cuadrático buscando números que cumplan
condiciones de producto y suma
Fuente: Elaboración propia.
Figura 6. DeepSeek aplica factorización por agrupación y resuelve los factores para hallar las
raíces
Fuente: Elaboración propia.
Para el determinante de la matriz, DeepSeek aplicó de manera directa la fórmula de
expansión por cofactores a lo largo de la primera fila. Calculó cada uno de los determinantes
de las submatrices 2×2 mediante la regla de multiplicación cruzada, obteniendo valores de -
18, -5 y -4. Sustituyó estos resultados en la expresión original, realizó las multiplicaciones y
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 673
sumas correspondientes, y llegó al resultado final de -53. Su enfoque fue estructurado, claro y
sin pasos innecesarios.
Figura 7. Procedimiento de DeepSeek para el cálculo del determinante de la matriz usando
cofactores sobre la primera fila
Fuente: Elaboración propia.
Figura 8. DeepSeek calcula los determinantes de las submatrices 2 y sustituye en la
fórmula del determinante
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 674
Figura 9. DeepSeek muestra el resultado final del determinante y resume las soluciones de
ambos ejercicios
Fuente: Elaboración propia.
Gemini 2.5
Para la ecuación cuadrática, Gemini comenzó multiplicando toda la ecuación por 6 para
eliminar los denominadores, transformándola en la ecuación equivalente 6x² - 7x + 2 = 0.
Luego, aplicó directamente la fórmula cuadrática con los coeficientes enteros obtenidos,
sustituyendo a=6, b=-7 y c=2. Calculó el discriminante como 49 - 48 = 1, tomó su raíz
cuadrada
(1) y procedió a evaluar las dos posibilidades: (7 + 1)/12 = 8/12 = 2/3 y (7 - 1)/12 = 6/12 =
1/2. Su método fue eficiente y directo, evitando trabajar con fracciones desde el principio.
Figura 10. Gemini elimina fracciones de la ecuación cuadrática multiplicando por el MCM y
aplica la fórmula cuadrática
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 675
Figura 11. Gemini calcula el determinante expandiendo por la primera columna,
aprovechando la presencia de un cero
Fuente: Elaboración propia.
Para el determinante de la matriz, Gemini observó que la primera columna contenía un cero,
por lo que decidió expandir el determinante a lo largo de esa columna para simplificar los
cálculos. Aplicó la fórmula de cofactores, donde el término correspondiente al cero se
canceló automáticamente. Calculó solo dos determinantes de matrices 2×2: el primero usando
los elementos (4)(-2)-(5)(2) = -18 y el segundo como (-1)(5)-(3)(4) = -17. Sustituyó estos
valores en la expresión simplificada: 2 × (-18) + 1 × (-17) = -36 - 17 = -53. Su enfoque fue
estratégico y conciso, aprovechando la estructura de la matriz para reducir el número de
operaciones necesarias.
Figura 12. Gemini resuelve los determinantes 2×2 necesarios y sustituye en la expresión
simplificada
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 676
Figura 13. Gemini obtiene el resultado final del determinante y presenta las soluciones de la
ecuación cuadrática
Fuente: Elaboración propia.
Tabla 1. Comparación de tiempos de procesamiento
INTELIGENCIA ARTIFICIAL
TIEMPO APROXIMADO
CARACTERÍSTICA
ChatGPT (GPT-5)
3s a 4s
Más lento por
explicar más
DeepSeek V3
2s
Ordenado
Gemini 2.5
1s
Muy rápido, más
directo
Fuente: Elaboración propia.
Discusión Integral: Correlación entre Arquitectura, Consumo y Cognicn
Artificial
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 677
Figura 14. Correlaciones de Spearman entre las recomendaciones de los revisores y el
promedio de recomendaciones de ChatGPT para 250 primeras versiones de artículos
enviados a F1000Research, en función del número de iteraciones de ChatGPT
Fuente: Elaboración propia.
La integración de los hallazgos experimentales con las especificaciones técnicas
documentadas nos permite construir una teoría coherente sobre el estado actual de la
inteligencia artificial generativa. No estamos ante herramientas monolíticas indistinguibles,
sino ante sistemas especializados con perfiles de rendimiento claramente diferenciados que
correlacionan directamente con su diseño de hardware y software.
Figura 15. Correlaciones de Spearman entre las recomendaciones de los revisores y las
recomendaciones promedio de ChatGPT para 260 artículos copiados a ICLR2017, en
comparación con el número de iteraciones de ChatGPT
Fuente: Elaboración propia.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 678
Existe una correlación positiva innegable entre el consumo energético y la verbosidad
pedagógica. ChatGPT (GPT-5), con su consumo estimado de 18.35 vatios-hora por consulta,
no solo "piensa" más, sino que "habla" más. Su arquitectura densa y su ventana de contexto
masiva parecen predisponerlo a generar respuestas que ocupan más espacio cognitivo y
digital. Este "costo de la claridad" es justificable en entornos educativos donde el objetivo es
la transferencia de conocimiento, pero resulta ineficiente para tareas de procesamiento
masivo de datos. La decisión de mantener las fracciones en la ecuación cuadrática, por
ejemplo, puede interpretarse como una simulación de un estudiante novato que sigue las
reglas al pie de la letra, o como una incapacidad para "ver" la simplificación global debido a
su procesamiento secuencial token a token.
Figura 16. Correlaciones de Spearman entre las recomendaciones de los revisores y el
promedio de recomendaciones de Chat GPT para 250 artículos enviados a SciPost Physics, en
comparación con el número de iteraciones de ChatGPT. Las etiquetas -c indican las
indicaciones del sistema de cadena de pensamiento
Fuente: Elaboración propia.
Por el contrario, la eficiencia extrema de Gemini 2.5 (0.24 vatios-hora por consulta) no es
solo una estadística de marketing; se manifiesta fenomenológicamente en su comportamiento
matemático. La búsqueda de "atajos" como la expansión por la columna de ceros o la
eliminación de denominadores puede interpretarse como una forma de "ahorro de energía
cognitiva". Al simplificar el problema antes de resolverlo, el modelo reduce el número total
de operaciones aritméticas requeridas, lo que a su vez reduce el tiempo de inferencia y el
consumo de recursos de los centros de datos de Google. Esto sugiere que la optimización
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 679
energética y la optimización matemática pueden ser, en el contexto de las redes neuronales,
dos caras de la misma moneda.
Figura 17. Correlaciones de Spearman entre las recomendaciones de los revisores y las
recomendaciones promedio de Chat GPT para los archivos fuente LaTeX de 104 artículos
enviados a SciPost Physics, en comparación con el número de iteraciones de ChatGPT. Las
etiquetas -L indican entradas de LaTeX, y el otro conjunto de cuatro lineas es el mismo que
para la Fig. 3,
Fuente: Elaboración propia.
Finalmente, DeepSeek V3 ilustra el triunfo de la especialización. Su arquitectura de Mezcla
de Expertos (MoE) le permite activar módulos específicos de "razonamiento matemático"
que parecen tener codificadas heurísticas más sofisticadas, como la preferencia por la
factorización sobre la fuerza bruta de la fórmula general. Este comportamiento sugiere que
los modelos de código abierto, al ser entrenados con conjuntos de datos más curados y
técnicos (incluyendo vastos repositorios de código y matemáticas), pueden desarrollar una
especie de "intuición matemática" que rivaliza con los modelos propietarios mucho más
grandes y costosos. Su enfoque estructurado y formal lo convierte en la herramienta ideal
para la verificación lógica y el desarrollo de algoritmos, donde la precisión y la elegancia son
más valoradas que la explicación narrativa.
CONCLUSIONES Y RECOMENDACIONES
El presente estudio evidenció que los tres modelos evaluados ChatGPT (GPT-5), Gemini 2.5
y DeepSeek V3 poseen la capacidad de resolver con éxito ejercicios matemáticos de nivel
intermedio y avanzado. Sin embargo, sus diferencias en estilo de razonamiento, claridad
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 680
explicativa y enfoque metodológico revelan que la elección del modelo adecuado depende del
propósito educativo o profesional.
ChatGPT (GPT-5) se posiciona como la mejor opción para contextos de aprendizaje formal.
Su explicación paso a paso, su tono comprensible y su pedagogía explícita lo convierten en
un recurso idóneo para estudiantes que necesitan no solo respuestas correctas, sino también la
comprensión profunda del proceso.
Gemini 2.5 se recomienda para aplicaciones donde predomina la eficiencia: análisis
preliminar de datos, verificación rápida de procedimientos o tareas automatizadas en entornos
técnico- profesionales. Su estilo conciso permite obtener resultados inmediatos sin sacrificar
exactitud, aunque su nivel de detalle puede no ser suficiente para procesos formativos.
DeepSeek V3 destaca como la herramienta preferida para investigadores, programadores y
usuarios con experiencia matemática avanzada. Su razonamiento formal y su precisión
algebraica lo hacen especialmente útil en entornos donde la elegancia, la compacidad y el
razonamiento estructurado son más importantes que la explicación narrativa.
A nivel general, este estudio subraya la importancia de no adoptar un enfoque homogéneo en
el uso de IA matemática. Cada modelo aporta un valor diferente según las necesidades del
usuario, lo que implica que la elección debe hacerse bajo el principio de “adecuación al
propósito”. Asimismo, se enfatiza la necesidad de acompañar el uso educativo de estas
herramientas con supervisión crítica, evitando depender exclusivamente de la inteligencia
artificial para procesos formativos clave.
Finalmente, se reconoce que la diversidad de estilos en los modelos de IA refleja la
diversidad cognitiva propia de la inteligencia humana. Integrar estas herramientas de manera
estratégica puede enriquecer la educación matemática, siempre que se utilicen con
responsabilidad, criterio y consciencia de sus limitaciones.
REFERENCIAS
Bender, E. M., Gebru, T., McMillan-Major, A., & Mitchell, M. (2021). On the Dangers of
Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021
ACM Conference on Fairness, Accountability, and Transparency.
Bernstein, I. A., Zhang, Y., Govil, D., et al. (2023). Comparison of Ophthalmologist and
Large Language Model Chatbot Responses to Online Patient Eye Care Questions.
JAMA Network Open, 6(8).
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 681
Boscolo-Rizzo, P., Marcuzzo, A. V., Lazzarin, C., et al. (2025). Quality of Information
Provided by Artificial Intelligence Chatbots Surrounding the Reconstructive Surgery
for Head and Neck Cancer: A Comparative Analysis Between ChatGPT4 and
Claude2. Clinical Otolaryngology, 50(2), 330335.
Chalyi, O. (2024). An Evaluation of General-Purpose AI Chatbots...
Chalyi, O. (2024). An Evaluation of General-Purpose AI Chatbots: A Comprehensive
Comparative Analysis.
Chen, J., Tang, G., Zhou, G., & Zhu, W. (2025). ChatGPT and Deepseek: Can They Predict
the Stock Market and Macroeconomy? arXiv preprint.
Coello, C. E. A., Alimam, M. N., & Kouatly, R. (2024). Effectiveness of ChatGPT in
Coding: A Comparative Analysis of Popular Large Language Models. Digital, 4(1),
114125.
Cowls, J., Tsamados, A., Taddeo, M., & Floridi, L. (2023). The AI gambit: leveraging
artificial intelligence to combat climate changeopportunities, challenges, and
recommendations. AI and Society, 38(1), 283307.
Du, W., et al. (2024). Large Language Models in Pathology: A Comparative Study of
ChatGPT and Bard with Pathology Trainees on Multiple-Choice Questions. medRxiv.
Floridi, L., & Chiriatti, M. (2020). GPT-3: Its Nature, Scope, Limits, and Consequences.
Minds and Machines, 30, 681694.
García-Peñalvo, F. J., Corell, A., Abella-García, V., & Grande, M. (2024). Inteligencia
Artificial Generativa en Educación: Retos, oportunidades y escenarios futuros.
Education in the Knowledge Society.
García-Peñalvo, F. J., Llorens-Largo, F., & Vidal, J. (2024). The new reality of education in
the face of advances in generative artificial intelligence. RIED-Revista
Iberoamericana de Educacion a Distancia, 27(1), 939.
Guellec, B. Le, et al. (2024). Performance of an Open-Source Large Language Model in
Extracting Information from Free-Text Radiology Reports. Radiology: Artificial
Intelligence, 6(4).
Holmes, W., Bialik, M., & Fadel, C. (2022). Artificial Intelligence in Education: Promises
and Implications for Teaching and Learning. Center for Curriculum Redesign.
Liang, Z., et al. (2025). A Comparative Study of the Accuracy and Readability of Responses
from Four Generative AI Models to COVID-19-Related Questions. COVID, 5(7).
Luckin, R. (2018). Machine Learning and Human Intelligence: The Future of Education for
the 21st Century. UCL Institute of Education Press.
Mishra, V., Lurie, Y., & Mark, S. (2025). Accuracy of LLMs in medical education: evidence
from a concordance test with medical teacher. BMC Medical Education, 25(1).
Moreno Padilla, R. D. (2019). La llegada de la inteligencia artificial a la educación. Revista
de Investigación En Tecnologías de La Información, 7(14), 260270.
Prisma ODS Revista Científica Multidisciplinar
Volumen 5, Número 1 - Año 2026
Página | 682
Nguyen, T. P., et al. (2024). Comparison of artificial intelligence large language model
chatbots in answering frequently asked questions in anaesthesia. Original Research
Article.
Nguyen, T. P., et al. (2024). Comparison of artificial intelligence large language model
chatbots...
Smutny, P., & Bojko, M. (2024). Comparative Analysis of Chatbots Using Large Language
Models for Web Development Tasks. Applied Sciences, 14(21).
Wang, C., & Kantarcioglu, M. (2025). A Review of DeepSeek Models’ Key Innovative
Techniques. University of Texas at Dallas.
Wang, C., & Kantarcioglu, M. (2025). A Review of DeepSeek Models’ Key Innovative
Techniques
© Los autores. Este artículo se publica en Prisma ODS bajo la Licencia Creative Commons Atribución 4.0
Internacional (CC BY 4.0). Esto permite el uso, distribución y reproducción en cualquier medio, incluidos fines
comerciales, siempre que se otorgue la atribución adecuada a los autores y a la fuente original.
: https://doi.org/10.65011/prismaods.v5.i1.188
Cómo citar este artículo (APA 7ª edición):
Llano Aranda, L. A. ., Hernández Cruz, E. ., Cortés, J. ., Gutiérrez Ríos Colotl, C. D. .,
Sánchez Martínez, S. ., & Cuate Gomez, D. H. . (2026). Análisis Comparativo del
Desempeño de Modelos de Inteligencia Artificial en la Resolución de Problemas
Matemáticos. Prisma ODS: Revista Multidisciplinaria Sobre Desarrollo Sostenible, 5(1),
655-682. https://doi.org/10.65011/prismaods.v5.i1.188