Por favor, use este identificador para citar o enlazar este ítem:
http://infotec.repositorioinstitucional.mx/jspui/handle/1027/659
Modelo de lenguaje para el español sensible a la región usando aprendizaje profundo | |
LUIS GUILLERMO RUIZ VELAZQUEZ | |
Acceso Abierto | |
Atribución-NoComercial-CompartirIgual | |
Inteligencia computacional en la Ciencia de Datos Modelo de Lenguaje en español Aprendizaje profundo Inteligencia Artifical | |
Crear un Modelo de Lenguaje para el español que tome en cuenta las diferentes formas de hablar en los países que tienen al español como idioma oficial. El modelo debe ser lo suficientemente grande para que capture las diferencias entre las regiones pero de un tamaño aceptable para que pueda ser usadon en computadoras no especializadas. La arquitectura del modelo deberá ser flexible para que los usuarios la puedan modificar y lo puedan adaptar a una tarea en específico mediante la técnica de entrenamiento fine tunning. Se pretende poner un modelo al alcance de todos. Este modelo para un usuario común sería muy tardado o costoso de entrenar. Nuestro modelo será entrenado con unas 100 gigas de tweets seleccionados en español. Se espera que su entrenamiento dure 4 meses en una computadora especializada con 2 GPU’s de 24 GB de memoria cada una. Al final, el modelo quedará disponible en un repositorio público de fácil acceso e instalación. El modelo tendrá la capacidad de responder la tarea de enmascarado de palabra, que dada una frase, se oculta o enmascara una palabra y el modelo debe predecirla. También se tendrá la capacidad de obtener los vectores de encaje de una frase y así poder usarlos para responder otras tareas como clasificación de texto, análisis de sentimiento, búsquedas por similitud, recomendaciones, entre otras. | |
INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación | |
2024 | |
Protocolo de investigación | |
Español | |
Empresas Estudiantes Grupos comunitarios Investigadores Maestros Público en general | |
Ruíz Velázquez, Luis Guillermo. (2024). Modelo de lenguaje para el español sensible a la región usando aprendizaje profundo. INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación, Ciudad de México. | |
TECNOLOGÍA DE LAS TELECOMUNICACIONES | |
Versión publicada | |
publishedVersion - Versión publicada | |
Aparece en las colecciones: | Proyectos 2024 |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
Dr_Luis_Ruíz-Proyecto_2024.pdf | 522.97 kB | Adobe PDF | Visualizar/Abrir |