Para calcular el information gain utilicé primero el filtro StringToWordVector de Weka:

Luego discreticé las variables, que no entiendo por qué razón quedan como numéricas (probablemente hay algún parámetro que tenía que tocar).
Por último calculé el information gain.

Los resultados para los primeros 440 términos se muestran en el siguiente gráfico:

Los resultados para los primeros 40 en el siguiente:

..to be continued
No hay comentarios:
Publicar un comentario