Por favor, use este identificador para citar o enlazar este ítem: http://infotec.repositorioinstitucional.mx/jspui/handle/1027/532
A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis
SABINO MIRANDA JIMENEZ
MARIO GRAFF GUERRERO
DANIELA MOCTEZUMA GARCIA
Oscar S. Siordia
Acceso Abierto
Atribución-NoComercial-CompartirIgual
https://doi.org/10.1016/j.eswa.2017.03.071
https://www.sciencedirect.com/science/article/abs/pii/S0957417417302312
Medios sociales
Software de sistemas
Emociones
El análisis de sentimiento es una tarea de minería de texto que determina la polaridad de un texto dado, es decir, su positividad o negatividad. Recientemente, ha recibido mucha atención dado el interés en la minería de opiniones en las plataformas de microblogging. Estas nuevas formas de expresión textual presentan nuevos desafíos para el análisis de textos por el uso de argot, errores ortográficos y gramaticales, entre otros. Junto con estos desafíos, un clasificador de opiniones práctico debería ser capaz de manejar grandes cargas de trabajo de manera eficiente. El objetivo de esta investigación es identificar en un gran conjunto de combinaciones qué transformaciones de texto (lematización, derivación, eliminación de entidades, entre otras), tokenizadores (por ejemplo, n -gramas de palabras) y esquemas de ponderación de tokens tienen el mayor impacto en el precisión de un clasificador (Support Vector Machine) entrenado en dos conjuntos de datos españoles. La metodología utilizada es analizar exhaustivamente todas las combinaciones de transformaciones de texto y sus respectivos parámetros para averiguar qué características comunes tienen los clasificadores de mejor rendimiento. Además, presentamos un enfoque novedoso basado en la combinación de n gramas basados ​​en palabras y q basados ​​en caracteres.-gramos. Los resultados muestran que esta nueva combinación de palabras y caracteres produce un clasificador que supera a la combinación tradicional basada en palabras en un 11,17 % y un 5,62 % en el conjunto de datos del INEGI y TASS'15, respectivamente.
INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación
15-09-2017
Artículo
Tellez, Eric S ; Miranda Jiménez Sabino; Graff, Mario ; Moctezuma Daniela ; S. Siordia, Oscar S ; Elio A. Villaseñor. (2017). A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis. Sistemas Expertos con Aplicaciones. Volumen 81,
Inglés
OTRAS
Versión publicada
publishedVersion - Versión publicada
Aparece en las colecciones: Artículos

Cargar archivos: