Cuando intenté generar el archivo a partir de una estructura de directorios, tal como se indica en http://weka.wikispaces.com/Text+categorization+with+WEKA, Weka generó el siguiente error:

Investigando un poco, primero en la FAQ de Weka y luego acá: http://weka.wikispaces.com/Java+Virtual+Machine#Invocation, cambié el parámetro maxheap de RunWeka.ini. Estaba configurado en 1024m y ahora tiene 2048m.
Volví a ejecutar el comando:
java weka.core.converters.TextDirectoryLoader -dir "C:\Users\Ana\Documents\Data Mining\TESIS DM\EXTRACCION DE ESPECIFICACIONES\Weka\data\directorio_camaras_telefonia" > "C:\Users\Ana\Documents\Data Mining\TESIS DM\EXTRACCION DE ESPECIFICACIONES\Weka\data\directorio_camaras_telefonia\camaras_telefonia.arff"
y obtuve un mensaje esperanzador:
Finished redirecting output to 'C:\Users\Ana\Documents\Data Mining\TESIS DM\EXTRACCION DE ESPECIFICACIONES\Weka\data\directorio_camaras_telefonia\camaras_telefonia.arff'.
Precioso!! Dije en voz alta con tono de "feliz cumpleaños": tengo un ARFF de 34MB!!! Pero cuando lo abrí en Weka me di cuenta de que tengo sólo dos registros. Tooooodas las páginas de telefonía me quedaron como un único registro de clase "telefonía" y lo mismo con las cámaras.
Aparentemente la solución sería modificar mi archivito PHP para que, en lugar de generar un único archivo plano con una página por línea, genere un archivo plano de 1 línea por página. Esto es, en lugar de tener un .txt con 4000 líneas, tendría 4000 archivos .txt (para cada clase).
Sale la versión 2 de mi PHP que se ejecuta por línea de comando... coming soon.
No hay comentarios:
Publicar un comentario