Rendimiento de los Modelos de Lenguaje Grandes ante preguntas acerca de las técnicas radiológicas
Descripción del Articulo
Evalúa el rendimiento de los Modelos de Lenguaje Grandes ante preguntas acerca de las técnicas radiológicas. La investigación es de enfoque cuantitativo, de diseño observacional de tipo descriptivo comparativo y transversal. Se consideraron 15 preguntas adaptadas del banco del Colegio Americano de R...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2024 |
| Institución: | Universidad Nacional Mayor de San Marcos |
| Repositorio: | UNMSM-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:cybertesis.unmsm.edu.pe:20.500.12672/22852 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12672/22852 |
| Nivel de acceso: | acceso abierto |
| Materia: | Inteligencia artificial Radiología médica https://purl.org/pe-repo/ocde/ford#3.00.00 https://purl.org/pe-repo/ocde/ford#1.02.00 https://purl.org/pe-repo/ocde/ford#3.02.12 |
| Sumario: | Evalúa el rendimiento de los Modelos de Lenguaje Grandes ante preguntas acerca de las técnicas radiológicas. La investigación es de enfoque cuantitativo, de diseño observacional de tipo descriptivo comparativo y transversal. Se consideraron 15 preguntas adaptadas del banco del Colegio Americano de Radiología (ACR), que se clasificaron en tres dominios: radiodiagnóstico, tomografía computada y medicina nuclear. Cada pregunta se ingresó de manera independiente a cada modelo y las respuestas fueron evaluadas por tres expertos, que utilizaron la Escala de tres puntos. Se aplicó la prueba de Shapiro-Wilk para evaluar la normalidad de los datos. Los análisis estadísticos se realizaron con Microsoft Excel y SPSS v.25, incluyendo la prueba de Kruskal-Wallis para comparar las puntuaciones entre modelos y el Coeficiente de Correlación Intraclase (CCI) para determinar la coherencia entre los evaluadores. Se obtuvo que Google Bard ofreció las respuestas más extensas con 3239 palabras y 17113 caracteres, seguido por Microsoft Bing (2065 palabras, 10866 caracteres) y ChatGPT-3.5 (1635 palabras, 9008 caracteres). En cuanto a la precisión, Google Bard tuvo la puntuación más alta en precisión total (37 ± 3.6), seguido por Microsoft Bing (28 ± 4) y ChatGPT-3.5 (26 ± 4.4). Bard también lideró en precisión en dominios específicos como radiodiagnóstico (10.67 ± 1.5), tomografía computada (12.67 ± 2.5) y medicina nuclear (13.67 ± 1.5). En la precisión por consenso, el 60% de las respuestas de Bard fueron calificadas como "Bueno", en comparación con el 13.3% para ChatGPT-3.5 y Microsoft Bing. La correlación entre las evaluaciones de los jueces mostró coherencia significativa y sustancial para ChatGPT-3.5 (r=0.007; CI: 0.618), Google Bard (r=0.008; CI: 0.632), y Microsoft Bing (r=0.007; CI: 0.703). Se concluye que Google Bard tuvo mayor precisión en comparación con Microsoft Bing y ChatGPT-3.5 al responder preguntas sobre las técnicas radiológicas, sin embargo, no se encontraron diferencias significativas entre ellos. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).