jueves, 28 de marzo de 2013

Information Gain sobre mi ARFF

Tengo un archivo arff más o menos balanceado con 9506 observaciones que cubre dos dominios. El archivo tiene dos columnas: la primera es un texto que originalmente fue una página html, sólo que fue desprovisto de todas las etiquetas; la segunda es la clase (el dominio).

Para calcular el information gain utilicé primero el filtro StringToWordVector de Weka:


Luego discreticé las variables, que no entiendo por qué razón quedan como numéricas (probablemente hay algún parámetro que tenía que tocar).

Por último calculé el information gain.


Los resultados para los primeros 440 términos se muestran en el siguiente gráfico:


Los resultados para los primeros 40 en el siguiente:


..to be continued

No hay comentarios:

Publicar un comentario