domingo, 10 de marzo de 2013

Usando el HTTrack para "crawlear"... y próximas tareas

Los "Web Crawlers" o "Web Spiders" son programas que exploran la web de forma automática. Parten de una o varias URLs iniciales, examinan los enlaces que contienen y exploran nuevas páginas a partir de allí y así sucesiva y recursivamente.
Después de algunos intentos infructuosos por hacer andar el Heritrix y algún tímido intento por entender Websphinx, desistí de usar ambos y opté por HTTrack, que me parece bastante fácil de usar en comparación con los anteriores.
El primer dominio con el que estoy trabajando es el de celulares. Es un dominio que no tiene subcategorías pero que sí puede subdividirse por marcas. Algunas marcas tienen cantidades poco significativas de productos. Para mantener un balance entre las marcas más pobladas, como fue sugerido por mi tutor, incluí por separado cada una de las URLs de marcas en la lista de URLs que usé para la extracción. Ya había hecho una extracción general de unos 600 items antes, así que creo que voy a extraer al menos 3 veces esa cantidad. Cuando esté cerca de los 2000 ítems, detengo el crawler.
Los siguientes pasos serían:
1. Mejorar el script PHP que remueve las etiquetas HTML. Por un lado tendría que iterar sobre todos los archivos de un directorio en lugar de recibir el listado de archivos. Por otro lado tendría que remover absolutamente todas las etiquetas HTML (todavía falta perfeccionarlo en ese sentido). La salida debería ser un archivo plano que tenga una línea por página web que contenga sólo el texto de la página, desprovisto de cualquier tipo de código o etiqueta.
2. Sobre este archivo de salida, calcular las métricas PMI, MI y chi-cuadrado.

No hay comentarios:

Publicar un comentario