Rendimiento de los Modelos de Lenguaje Grandes ante preguntas acerca de las técnicas radiológicas

Descripción del Articulo

Evalúa el rendimiento de los Modelos de Lenguaje Grandes ante preguntas acerca de las técnicas radiológicas. La investigación es de enfoque cuantitativo, de diseño observacional de tipo descriptivo comparativo y transversal. Se consideraron 15 preguntas adaptadas del banco del Colegio Americano de R...

Descripción completa

Detalles Bibliográficos
Autor: Cardenas Cordova, Mitzy D’yhana
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:UNMSM-Tesis
Lenguaje:español
OAI Identifier:oai:cybertesis.unmsm.edu.pe:20.500.12672/22852
Enlace del recurso:https://hdl.handle.net/20.500.12672/22852
Nivel de acceso:acceso abierto
Materia:Inteligencia artificial
Radiología médica
https://purl.org/pe-repo/ocde/ford#3.00.00
https://purl.org/pe-repo/ocde/ford#1.02.00
https://purl.org/pe-repo/ocde/ford#3.02.12
Descripción
Sumario:Evalúa el rendimiento de los Modelos de Lenguaje Grandes ante preguntas acerca de las técnicas radiológicas. La investigación es de enfoque cuantitativo, de diseño observacional de tipo descriptivo comparativo y transversal. Se consideraron 15 preguntas adaptadas del banco del Colegio Americano de Radiología (ACR), que se clasificaron en tres dominios: radiodiagnóstico, tomografía computada y medicina nuclear. Cada pregunta se ingresó de manera independiente a cada modelo y las respuestas fueron evaluadas por tres expertos, que utilizaron la Escala de tres puntos. Se aplicó la prueba de Shapiro-Wilk para evaluar la normalidad de los datos. Los análisis estadísticos se realizaron con Microsoft Excel y SPSS v.25, incluyendo la prueba de Kruskal-Wallis para comparar las puntuaciones entre modelos y el Coeficiente de Correlación Intraclase (CCI) para determinar la coherencia entre los evaluadores. Se obtuvo que Google Bard ofreció las respuestas más extensas con 3239 palabras y 17113 caracteres, seguido por Microsoft Bing (2065 palabras, 10866 caracteres) y ChatGPT-3.5 (1635 palabras, 9008 caracteres). En cuanto a la precisión, Google Bard tuvo la puntuación más alta en precisión total (37 ± 3.6), seguido por Microsoft Bing (28 ± 4) y ChatGPT-3.5 (26 ± 4.4). Bard también lideró en precisión en dominios específicos como radiodiagnóstico (10.67 ± 1.5), tomografía computada (12.67 ± 2.5) y medicina nuclear (13.67 ± 1.5). En la precisión por consenso, el 60% de las respuestas de Bard fueron calificadas como "Bueno", en comparación con el 13.3% para ChatGPT-3.5 y Microsoft Bing. La correlación entre las evaluaciones de los jueces mostró coherencia significativa y sustancial para ChatGPT-3.5 (r=0.007; CI: 0.618), Google Bard (r=0.008; CI: 0.632), y Microsoft Bing (r=0.007; CI: 0.703). Se concluye que Google Bard tuvo mayor precisión en comparación con Microsoft Bing y ChatGPT-3.5 al responder preguntas sobre las técnicas radiológicas, sin embargo, no se encontraron diferencias significativas entre ellos.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).