Mi Mundo de Datos: mayo 2012

Cuando se realiza la extracción de información, al realizar la correspondencia entre los campos, como se muestra en la siguiente figura:

Se toman en cuenta conceptos que son propios del dominio. Por ejemplo, un libro tiene título, autores, y fecha de publicación. Luego, los conceptos pueden tener subconceptos. El autor puede tener nombre y apellido y la fecha de publicación tiene mes y año. Todos estos conceptos y sus diferentes granularidades se denominan unidades semánticas.

En el mundo ideal, un extractor separaría los textos exactamente en los límites de cada unidad semántica. El problema es que generalmente los wrappers no saben quién es Scarlett O’Hara y por eso separan “Gone with the” y “Wind”, provocando una fragmentación de la unidad semántica título. También puede ocurrir (y ocurre) que dos unidades semánticas queden dentro del mismo pedazo extraído, como en el caso del formato y la fecha de publicación. A esto se le llama compuesto.

En resumen, existen dos tipos de inconsistencias en la separación automática en unidades semánticas: la fragmentación y los compuestos. Como es de esperarse, la cantidad de inconsistencias producidas por un extractor es inversamente proporcional a la tasa de aciertos en la correspondencia.

Fuente: S.-L. Chuang, K. Chang, and C. Zhai. Context-aware wrapping: Synchronized data extraction. In Proceedings of the Thirty-Third Very Large Databases Conference, pages 699-710, 2007.

Mi Mundo de Datos

martes, 22 de mayo de 2012

Acerca de los Wrappers y la separación en unidades semánticas

Datos personales

Archivo del blog