Diseño de una plataforma tecnológica de alto rendimiento con procesamiento por gráfica y basada en tecnología de hiperconvergencia para la aplicación de la inteligencia generativa en el desarrollo de sistemas predictivos de información con el entrenamiento de modelos de Inteligencia Artificial (IA)

Descripción del Articulo

Con los avances logrados actualmente en el campo del Aprendizaje Profundo (Deep Learning), se busca formular el diseño conceptual de una plataforma tecnológica basada en tecnología hiperconvergente, que incorpore infraestructura de procesamiento por gráfica o GPU (Graphics Processing Unit o Unidad d...

Descripción completa

Detalles Bibliográficos
Autor: Salgado Paraguay, Julio Cesar
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Peruana de Ciencias Aplicadas
Repositorio:UPC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorioacademico.upc.edu.pe:10757/674703
Enlace del recurso:http://hdl.handle.net/10757/674703
Nivel de acceso:acceso abierto
Materia:Inteligencia artificial
Modelos de lenguaje
Aprendizaje profundo
Cuantización
Embedding
Entrenamiento
Inferencia
Dataset
Fine-tuning
RAG
Inteligencia generativa
LLM
Paralelización
Token
Ventana de contexto
Sparsity
GPU
Benchmark
Artificial intelligence
Language models
Deep learning
Quantization
Training
Inference
DataFine-tuning
Generative intelligence
Parallelization
Context window
https://purl.org/pe-repo/ocde/ford#2.02.05
https://purl.org/pe-repo/ocde/ford#2.00.00
Descripción
Sumario:Con los avances logrados actualmente en el campo del Aprendizaje Profundo (Deep Learning), se busca formular el diseño conceptual de una plataforma tecnológica basada en tecnología hiperconvergente, que incorpore infraestructura de procesamiento por gráfica o GPU (Graphics Processing Unit o Unidad de Procesamiento Gráfico), capaz de soportar el desarrollo de soluciones del tipo RAG (Retrieval Augmented Generation o Generación Mejorada por Recuperación) con la aplicación de los grandes modelos generativos de lenguaje de código abierto, que han sido entrenados previamente con miles de millones de datos, para la codificación de sistemas de información predictivos (SPI) y que cuente, además, con el entrenamiento de datos propietarios generados al interior de la misma institución, provenientes de distintas fuentes de información, para optimizar la precisión de la información, que pueda acompañar los procesos de innovación y emprendimiento a fin de incrementar la productividad de las cadenas productivas del rubro nacional generando con ella beneficios económicos que repercutan en la mejora de la calidad de vida de los peruanos. Así, con el desarrollo del proyecto se incrementará el ancho de banda de la VRAM con tasas de transferencia de la información iguales a 864GB/s y 2TB/s; también, se potenciará la cantidad de operaciones de coma flotante por segundo con índices de procesamiento de 378 TFLOPS en precisión TF32, 756 TFLOPS en formato BFLOAT16, 756 TFLOPS en precisión FP16 y 1513 TFLOPS en formato FP8; además, se elevará la velocidad de reloj de los núcleos de cómputo a 1755MHz aprovechando las capacidades del procesamiento en paralelo incorporando la tecnología NVIDIA NVLink; asimismo, se aumentará el número de tokens de la ventana de contexto para conseguir máximos de 7,993 y 9,193 tokens/s en la inferencia de salida y, finalmente, se elevará la cantidad de parámetros o variables internas con la posibilidad de procesar modelos de lenguaje de 7B, 13B, 70B, 130B, entre otros.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).