"Although extracting information from tables is essential for Internet information agents, most tables are designed for human eyes and their layout and semantic meanings are not well defined. In practice, encoding the layout of each information source is impossible. This work presents a novel semantic search approach capable of extracting information from general tables. Semantic ontology allows our agents to read tables in the same knowledge domain with different layouts. In addition, a system of layout syntax and a set of transformation rules are defined to transform tables into databases without losing their semantic meanings."
La problemática que plantea es el como se presenta semánticamente la información en las tablas de contenido, de manera que un agente (por ejemplo: un buscador) pueda leerla y responder a consultas precisas. Si se le consultara a un buscador: ¿cual es el notebook de más bajo precio? este debería:
1. buscar todas las web relacionadas con la pregunta.
2. identificar todas las tablas relacinadas.
3. Extraer la información necesaria de ellas, esto quiere decir,
- identificar relaciones semánticas
- convertir la tabla en un batabase
- extraer target información
4. integrar toda las fuentes de donde ha salido la información
5. contestar la pregunta en un modo adecuado
El problema es que las tablas estan actualmente escritas para ser comprendidas por seres humanos, no máquinas.
Links relacionados
El proyecto entailment para promover la creación en redes de colaboración
http://www.c5corp.com/research/entailmentmesh.shtml
El concepto de software social y la noción de interacción de Maturana
http://www.c5corp.com/research/socialsoftware.shtml
El strong es mio; el layout que es la grafía y las marginaciones ontológicas del lenguaje en con§tel son el modelo para una definición de la lecto-escritura.
Manuel Sanfuentes
Proyecto de Titulación I - II -III | Parte del Proyecto Constel