Cuando se realiza la extracción de información, al realizar la correspondencia entre los campos, como se muestra en la siguiente figura:
Se toman en
cuenta conceptos que son propios del dominio. Por ejemplo, un libro tiene título,
autores, y fecha de publicación. Luego, los conceptos pueden tener
subconceptos. El autor puede tener nombre y apellido y la fecha de publicación tiene
mes y año. Todos estos conceptos y sus diferentes granularidades se denominan
unidades semánticas.
En el mundo
ideal, un extractor separaría los textos exactamente en los límites de cada
unidad semántica. El problema es que generalmente los wrappers no saben quién es Scarlett O’Hara
y por eso separan “Gone with the” y “Wind”, provocando una fragmentación de la
unidad semántica título. También puede ocurrir (y ocurre) que dos unidades
semánticas queden dentro del mismo pedazo extraído, como en el caso del formato
y la fecha de publicación. A esto se le llama compuesto.
En resumen,
existen dos tipos de inconsistencias en la separación automática en unidades
semánticas: la fragmentación y los compuestos. Como es de esperarse, la
cantidad de inconsistencias producidas por un extractor es inversamente
proporcional a la tasa de aciertos en la correspondencia.
