Mi INFOTEC Alertas Editar Perfil

Por favor, use este identificador para citar o enlazar este ítem: http://infotec.repositorioinstitucional.mx/jspui/handle/1027/659

Título :	Modelo de lenguaje para el español sensible a la región usando aprendizaje profundo
Autor:	LUIS GUILLERMO RUIZ VELAZQUEZ
Nivel de acceso:	Acceso Abierto
Licencia:	Atribución-NoComercial-CompartirIgual
Materia:	Inteligencia computacional en la Ciencia de Datos Modelo de Lenguaje en español Aprendizaje profundo Inteligencia Artifical
Resumen o descripción:	Crear un Modelo de Lenguaje para el español que tome en cuenta las diferentes formas de hablar en los países que tienen al español como idioma oficial. El modelo debe ser lo suficientemente grande para que capture las diferencias entre las regiones pero de un tamaño aceptable para que pueda ser usadon en computadoras no especializadas. La arquitectura del modelo deberá ser flexible para que los usuarios la puedan modificar y lo puedan adaptar a una tarea en específico mediante la técnica de entrenamiento fine tunning. Se pretende poner un modelo al alcance de todos. Este modelo para un usuario común sería muy tardado o costoso de entrenar. Nuestro modelo será entrenado con unas 100 gigas de tweets seleccionados en español. Se espera que su entrenamiento dure 4 meses en una computadora especializada con 2 GPU’s de 24 GB de memoria cada una. Al final, el modelo quedará disponible en un repositorio público de fácil acceso e instalación. El modelo tendrá la capacidad de responder la tarea de enmascarado de palabra, que dada una frase, se oculta o enmascara una palabra y el modelo debe predecirla. También se tendrá la capacidad de obtener los vectores de encaje de una frase y así poder usarlos para responder otras tareas como clasificación de texto, análisis de sentimiento, búsquedas por similitud, recomendaciones, entre otras.
Editor:	INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación
Fecha de publicación :	2024
Tipo de publicación :	Protocolo de investigación
Idioma:	Español
Audiencia:	Empresas Estudiantes Grupos comunitarios Investigadores Maestros Público en general
Forma de citación:	Ruíz Velázquez, Luis Guillermo. (2024). Modelo de lenguaje para el español sensible a la región usando aprendizaje profundo. INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación, Ciudad de México.
Área de conocimiento:	TECNOLOGÍA DE LAS TELECOMUNICACIONES
Versión de la publicación:	Versión publicada
Versión de la publicación:	publishedVersion - Versión publicada
Aparece en las colecciones:	Proyectos 2024

Cargar archivos:

Fichero	Tamaño	Formato
Dr_Luis_Ruíz-Proyecto_2024.pdf	522.97 kB	Adobe PDF	Visualizar/Abrir