Semantic Search on Internet Tabular

Paper

Abstract

"Although extracting information from tables is essential for Internet information agents, most tables are designed for human eyes and their layout and semantic meanings are not well defined. In practice, encoding the layout of each information source is impossible. This work presents a novel semantic search approach capable of extracting information from general tables. Semantic ontology allows our agents to read tables in the same knowledge domain with different layouts. In addition, a system of layout syntax and a set of transformation rules are defined to transform tables into databases without losing their semantic meanings."

descarga PDF

La problemática que plantea es el como se presenta semánticamente la información en las tablas de contenido, de manera que un agente (por ejemplo: un buscador) pueda leerla y responder a consultas precisas. Si se le consultara a un buscador: ¿cual es el notebook de más bajo precio? este debería:

1. buscar todas las web relacionadas con la pregunta.
2. identificar todas las tablas relacinadas.
3. Extraer la información necesaria de ellas, esto quiere decir,
     - identificar relaciones semánticas
     - convertir la tabla en un batabase
     - extraer target información
4. integrar toda las fuentes de donde ha salido la información
5. contestar la pregunta en un modo adecuado

El problema es que las tablas estan actualmente escritas para ser comprendidas por seres humanos, no máquinas.

Links relacionados

Del Abstract

El strong es mio; el layout que es la grafía y las marginaciones ontológicas del lenguaje en con§tel son el modelo para una definición de la lecto-escritura.

Manuel Sanfuentes

Proyecto de Titulación I - II -III | Parte del Proyecto Constel