Mi INFOTEC Alertas Editar Perfil

Por favor, use este identificador para citar o enlazar este ítem: http://infotec.repositorioinstitucional.mx/jspui/handle/1027/203

Título :	Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text Classification
Autor:	Víctor Carrera-Trejo Grigori Sidorov Sabino Miranda Marco Moreno-Ibarra Rodrigo Cadena Martínez
Nivel de acceso:	Acceso Abierto
Licencia:	Atribución-NoComercial-SinDerivadas
Materia:	Clasificación de texto
Resumen o descripción:	En la tarea de clasificación de texto uno de los principales problemas es elegir qué características dan los mejores resultados. Se pueden utilizar diversas características como palabras, n-gramos, n-gramos sintácticos de varios tipos (etiquetas POS, relaciones de dependencia, mezclas, etc.) o se pueden considerar combinaciones de estas características. Además, se pueden aplicar algoritmos para la reducción de la dimensionalidad de estos conjuntos de características, como la Asignación de Dirichlet Latente (LDA). En este artículo, consideramos la tarea de clasificación de texto de varias etiquetas y aplicamos varios conjuntos de características. Consideramos un subconjunto de archivos multi-etiquetados del corpus de Reuters-21578. Utilizamos valores tf-IDF tradicionales de las características e intentamos considerar e ignorar las palabras de parada. También probamos varias combinaciones de características, como bigrams y unigrams. También experimentamos con la adición de los resultados LDA en Vector Space Models como nuevas características. Estos últimos experimentos tuvieron los mejores resultados.
Editor:	International Journal of Combinatorial Optimization Problems and Informatics, Vol 6, No. 1
Fecha de publicación :	2015
Tipo de publicación :	Artículo
Idioma:	Inglés
Audiencia:	Investigadores
Área de conocimiento:	OTRAS
Aparece en las colecciones:	Artículos

Cargar archivos:

Fichero	Descripción	Tamaño	Formato
2007-1558-ijcopi-6-01-00007.pdf		687.86 kB	Adobe PDF	Visualizar/Abrir