lunes, 18 de marzo de 2013

Weka y el (pre)procesamiento de textos

Lo que sigue ahora es el preprocesamiento de los archivos necesario para comenzar a realizar tareas de clasificación.
En principio, tendría que realizar un crawling de algún otro dominio para poder tener archivos pertenecientes a diferentes clases. Luego, lo ideal sería poder utilizar la siguiente funcionalidad de weka, en la cual se puede transformar una determinada estructura de directorios en un archivo arff. Ver:
http://weka.wikispaces.com/Text+categorization+with+WEKA
Una vez que se tenga un archivo de entrada arff con una columna con texto y otra con la clase, habría que convertir cada texto en un vector de palabras usando el filtro StringToWordVector. Las siguientes páginas pueden servir de referencia para ello.
http://wiki.aigroup.com.ar/ci/opinion-mining/text-mining-con-weka---part-1
Pre-processando textos com Weka (StringToWordVector)
http://www.youtube.com/watch?v=ycbGUfY8BzM
Resta todavía saber cómo calcular chi-cuadrado, MI y PMI.

No hay comentarios:

Publicar un comentario