Por favor, use este identificador para citar o enlazar este ítem: http://infotec.repositorioinstitucional.mx/jspui/handle/1027/659
Modelo de lenguaje para el español sensible a la región usando aprendizaje profundo
LUIS GUILLERMO RUIZ VELAZQUEZ
Acceso Abierto
Atribución-NoComercial-CompartirIgual
Inteligencia computacional en la Ciencia de Datos
Modelo de Lenguaje en español
Aprendizaje profundo
Inteligencia Artifical
Crear un Modelo de Lenguaje para el español que tome en cuenta las diferentes formas de hablar en los países que tienen al español como idioma oficial. El modelo debe ser lo suficientemente grande para que capture las diferencias entre las regiones pero de un tamaño aceptable para que pueda ser usadon en computadoras no especializadas. La arquitectura del modelo deberá ser flexible para que los usuarios la puedan modificar y lo puedan adaptar a una tarea en específico mediante la técnica de entrenamiento fine tunning. Se pretende poner un modelo al alcance de todos. Este modelo para un usuario común sería muy tardado o costoso de entrenar. Nuestro modelo será entrenado con unas 100 gigas de tweets seleccionados en español. Se espera que su entrenamiento dure 4 meses en una computadora especializada con 2 GPU’s de 24 GB de memoria cada una. Al final, el modelo quedará disponible en un repositorio público de fácil acceso e instalación. El modelo tendrá la capacidad de responder la tarea de enmascarado de palabra, que dada una frase, se oculta o enmascara una palabra y el modelo debe predecirla. También se tendrá la capacidad de obtener los vectores de encaje de una frase y así poder usarlos para responder otras tareas como clasificación de texto, análisis de sentimiento, búsquedas por similitud, recomendaciones, entre otras.
INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación
2024
Protocolo de investigación
Español
Empresas
Estudiantes
Grupos comunitarios
Investigadores
Maestros
Público en general
Ruíz Velázquez, Luis Guillermo. (2024). Modelo de lenguaje para el español sensible a la región usando aprendizaje profundo. INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación, Ciudad de México.
TECNOLOGÍA DE LAS TELECOMUNICACIONES
Versión publicada
publishedVersion - Versión publicada
Aparece en las colecciones: Proyectos 2024

Cargar archivos:


Fichero Tamaño Formato  
Dr_Luis_Ruíz-Proyecto_2024.pdf522.97 kBAdobe PDFVisualizar/Abrir