El actual \diluvio de datos" esta inundando la Web
con grandes volúmenes de información representados en RDF, dando lugar a la Web
de Datos. Los puntos de acceso a esta red semántica son los SPARQL
endpoints, servicios que interpretan el lenguaje de consulta SPARQL. El
rendimiento de esta infraestructura se ve claramente afectado por los formatos
verbosos utilizados para la representación de RDF, cuyo procesamiento e intercambio introduce importantes
retrasos en la comunicación al operar con grandes conjuntos de datos. En este
trabajo introducimos los principios básicos de la arquitectura HDT_EndPoints. Esta propuesta se fundamenta en el uso de una representación
compacta de RDF, denominada HDT, sobre la que se diseñan servicios
para el descubrimiento, consulta
e intercambio de información en la Web de Datos.
Introducción
La Web, como ente alimentado social y tecnológicamente,
se encuentra en constante evolución. Actualmente, la versión mas utópica de la
Web Semántica esta viéndose superada por una versión menos estricta conocida
como la “Web de Datos". Esta surge al considerar una visión \centrada en
datos" frente al tradicional punto de vista “basado en documentos".
Su pilar fundamental es RDF (Resource Description Framework3), un modelo
de datos semi-estructurado que permite expresar sentencias como triples (sujeto;
predicado; objeto) que pueden verse como grafos etiquetados. El principal
valedor de dicho modelo, y de la Web de Datos, es la filosofía Linked Open
Data4, que aboga por disponer de datos RDF abiertos y enlazados con otras
fuentes de datos. SPARQL5 es el lenguaje de consulta estándar para RDF. Los
conjuntos de datos se exponen para su consulta, en la Web de Datos, a través de SPARQL
endpoints que, típicamente, entregan sus resultados en un formato procesable
automáticamente.
Actualmente se publican en RDF grandes cantidades de
datos procedentes de diferentes áreas,
como datos biológicos (Uniprot), estadísticos (2001 US Census), o geográficos (GeoNames). Sin embargo, el diseño original
del modelo RDF se centro en la descripción de pequeños documentos o
recursos. Esto se traduce en formatos de serializacion, como RDF/XML6 o N37,
excesivamente verbosos.
Este hecho ocasiona graves problemas de escalabilidad a
la hora de publicar e intercambiar las colecciones disponibles en la Web de
Datos. HDT [2] es un formato de serializacion RDF que acomete la problemática
anterior.
Este trabajo contempla las propiedades de HDT como base
para el desarrollo de una nueva arquitectura (denominada HDT_EndPoints)
que afronta el consumo de grandes colecciones RDF. Esta propuesta modela la Web
de Datos como una red (ver Figura 1) cuyos nodos almacenan, sirven y se
comunican utilizando HDT, facilitando que los usuarios (no necesariamente
humanos) interactúen de forma eficiente sobre las colecciones potencialmente
distribuidas.
Arquitectura HDT_EndPoints
HDT
HDT[2] es un formato binario para la representación
compacta de datos RDF, modelando un conjunto de datos mediante tres componentes:
(i) la cabecera (Header) contiene metadatos sobre la colección y su organización
para facilitar su descubrimiento y consumo, (ii) el diccionario (Dictionary)
organiza el vocabulario utilizado en la colección en RDF asignando un
identificador numérico único a cada
elemento, y (iii) los triples (Triples) representan la topología del
grafo.
HDT permite representar un conjunto de datos RDF en un
15% del espacio utilizado por los formatos tradicionales de RDF [2],
llegando a cotas cercanas al 4% si se combina con compresores universales. Una implementación
del componente Triples [1], basada en estructuras de datos compactas, indexa la
topología del grafo de forma comprimida y permite, a su vez, la resolución eficiente
de consultas sobre lo mismo.

No hay comentarios.:
Publicar un comentario
Nota: sólo los miembros de este blog pueden publicar comentarios.