Por favor, use este identificador para citar o enlazar este ítem:
http://infotec.repositorioinstitucional.mx/jspui/handle/1027/203
Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text Classification | |
Víctor Carrera-Trejo Grigori Sidorov Sabino Miranda Marco Moreno-Ibarra Rodrigo Cadena Martínez | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Clasificación de texto | |
En la tarea de clasificación de texto uno de los principales problemas es elegir qué características dan los mejores resultados. Se pueden utilizar diversas características como palabras, n-gramos, n-gramos sintácticos de varios tipos (etiquetas POS, relaciones de dependencia, mezclas, etc.) o se pueden considerar combinaciones de estas características. Además, se pueden aplicar algoritmos para la reducción de la dimensionalidad de estos conjuntos de características, como la Asignación de Dirichlet Latente (LDA). En este artículo, consideramos la tarea de clasificación de texto de varias etiquetas y aplicamos varios conjuntos de características. Consideramos un subconjunto de archivos multi-etiquetados del corpus de Reuters-21578. Utilizamos valores tf-IDF tradicionales de las características e intentamos considerar e ignorar las palabras de parada. También probamos varias combinaciones de características, como bigrams y unigrams. También experimentamos con la adición de los resultados LDA en Vector Space Models como nuevas características. Estos últimos experimentos tuvieron los mejores resultados. | |
International Journal of Combinatorial Optimization Problems and Informatics, Vol 6, No. 1 | |
2015 | |
Artículo | |
Inglés | |
Investigadores | |
OTRAS | |
Aparece en las colecciones: | Artículos |
Cargar archivos:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
2007-1558-ijcopi-6-01-00007.pdf | 687.86 kB | Adobe PDF | Visualizar/Abrir |