Por favor, use este identificador para citar o enlazar este ítem: http://infotec.repositorioinstitucional.mx/jspui/handle/1027/502
Análisis exploratorio de datos para la detección de productos tecnológicos
Alan García
MARIO GRAFF GUERRERO
Acceso Abierto
Atribución-NoComercial-CompartirIgual
Computación en nube
Servicios Web
Boletín de noticias
Hoy en día un adecuado preprocesamiento de datos es fundamental para alimentar sistemas de información, algoritmos de aprendizaje computacional, sistemas expertos, visión artificial, reconocimiento de voz y análisis de texto. Por ejemplo, dando un tratamiento adecuado a los datos, se puede realizar una agrupación de documentos similares usando algoritmos de clustering o incluso realizar análisis de sentimientos. Tales documentos pueden ser textos cortos como tuits, opiniones en blogs o comentarios de usuarios sobre productos en plataformas de comercio electrónico (ecommerce), hasta colecciones de texto más extensas como noticias o libros digitales, estos documentos forman parte de los llamados datos no estructurados. También existen los llamados datos estructurados, cuya diferencia según Devin Pickell se explica a continuación: “Los datos estructurados están altamente organizados y formateados de tal manera que se pueden buscar fácilmente en bases de datos relacionales. Los datos no estructurados no tienen un formato u organización predefinidos, lo que hace que sea mucho más difícil de recopilar, procesar y analizar”. Se puede pensar que la mayoría de los datos están bien organizados, sin embargo, se sabe que solo el 5% de la información es estructurada, el resto proviene de imágenes, audios, o documentos como los mencionados anteriormente. El preprocesamiento consiste en usar métodos eficientes que homologuen o den forma óptima a los datos con el objetivo ser utilizados para su análisis, simplificar representaciones finales, enfocarse en palabras de carga semántica o remover complicaciones innecesarias dada una tarea, por ejemplo, en el caso de texto podemos transformar todas las letras a minúsculas, eliminar signos de puntuación o símbolos raros (emojis, caracteres especiales), eliminar stopwords5 y utilizar procesos de stemming6 o lematización7 con el fin de existan emparejamientos entre las características de un texto [1].
INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación
15-12-2020
Trabajo de grado, maestría
Español
Bibliotecarios
Consejeros
Empresas
Estudiantes
García Pérez, Alan Rubén. (2020). Análisis exploratorio de datos para la detección de productos tecnológicos. INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación, Ciudad de México.
DISEÑO CON AYUDA DE ORDENADOR
Versión publicada
publishedVersion - Versión publicada
Aparece en las colecciones: Maestría en Ciencia de Datos e Información

Cargar archivos:


Fichero Tamaño Formato  
INFOTEC_MCDI_ARGP_2020.pdf3.21 MBAdobe PDFVisualizar/Abrir