Please use this identifier to cite or link to this item: http://infotec.repositorioinstitucional.mx/jspui/handle/1027/203
Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text Classification
Víctor Carrera-Trejo
Grigori Sidorov
Sabino Miranda
Marco Moreno-Ibarra
Rodrigo Cadena Martínez
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Clasificación de texto
En la tarea de clasificación de texto uno de los principales problemas es elegir qué características dan los mejores resultados. Se pueden utilizar diversas características como palabras, n-gramos, n-gramos sintácticos de varios tipos (etiquetas POS, relaciones de dependencia, mezclas, etc.) o se pueden considerar combinaciones de estas características. Además, se pueden aplicar algoritmos para la reducción de la dimensionalidad de estos conjuntos de características, como la Asignación de Dirichlet Latente (LDA). En este artículo, consideramos la tarea de clasificación de texto de varias etiquetas y aplicamos varios conjuntos de características. Consideramos un subconjunto de archivos multi-etiquetados del corpus de Reuters-21578. Utilizamos valores tf-IDF tradicionales de las características e intentamos considerar e ignorar las palabras de parada. También probamos varias combinaciones de características, como bigrams y unigrams. También experimentamos con la adición de los resultados LDA en Vector Space Models como nuevas características. Estos últimos experimentos tuvieron los mejores resultados.
International Journal of Combinatorial Optimization Problems and Informatics, Vol 6, No. 1
2015
Artículo
Inglés
Investigadores
OTRAS
Appears in Collections:Artículos

Upload archives


File Description SizeFormat 
2007-1558-ijcopi-6-01-00007.pdf687.86 kBAdobe PDFView/Open