Desarrollo de Sistema Distribuidos: EndPoint

El actual \diluvio de datos" esta inundando la Web con grandes volúmenes de información representados en RDF, dando lugar a la Web de Datos. Los puntos de acceso a esta red semántica son los SPARQL endpoints, servicios que interpretan el lenguaje de consulta SPARQL. El rendimiento de esta infraestructura se ve claramente afectado por los formatos verbosos utilizados para la representación de RDF, cuyo procesamiento e intercambio introduce importantes retrasos en la comunicación al operar con grandes conjuntos de datos. En este trabajo introducimos los principios básicos de la arquitectura HDT_EndPoints. Esta propuesta se fundamenta en el uso de una representación compacta de RDF, denominada HDT, sobre la que se diseñan servicios para el descubrimiento, consulta e intercambio de información en la Web de Datos.

Introducción

La Web, como ente alimentado social y tecnológicamente, se encuentra en constante evolución. Actualmente, la versión mas utópica de la Web Semántica esta viéndose superada por una versión menos estricta conocida como la “Web de Datos". Esta surge al considerar una visión \centrada en datos" frente al tradicional punto de vista “basado en documentos". Su pilar fundamental es RDF (Resource Description Framework3), un modelo de datos semi-estructurado que permite expresar sentencias como triples (sujeto; predicado; objeto) que pueden verse como grafos etiquetados. El principal valedor de dicho modelo, y de la Web de Datos, es la filosofía Linked Open Data4, que aboga por disponer de datos RDF abiertos y enlazados con otras fuentes de datos. SPARQL5 es el lenguaje de consulta estándar para RDF. Los conjuntos de datos se exponen para su consulta, en la Web de Datos, a través de SPARQL endpoints que, típicamente, entregan sus resultados en un formato procesable automáticamente.

Actualmente se publican en RDF grandes cantidades de datos procedentes de diferentes áreas, como datos biológicos (Uniprot), estadísticos (2001 US Census), o geográficos (GeoNames). Sin embargo, el diseño original del modelo RDF se centro en la descripción de pequeños documentos o recursos. Esto se traduce en formatos de serializacion, como RDF/XML6 o N37, excesivamente verbosos.

Este hecho ocasiona graves problemas de escalabilidad a la hora de publicar e intercambiar las colecciones disponibles en la Web de Datos. HDT [2] es un formato de serializacion RDF que acomete la problemática anterior.

Este trabajo contempla las propiedades de HDT como base para el desarrollo de una nueva arquitectura (denominada HDT_EndPoints) que afronta el consumo de grandes colecciones RDF. Esta propuesta modela la Web de Datos como una red (ver Figura 1) cuyos nodos almacenan, sirven y se comunican utilizando HDT, facilitando que los usuarios (no necesariamente humanos) interactúen de forma eficiente sobre las colecciones potencialmente distribuidas.

Arquitectura HDT_EndPoints

HDT

HDT[2] es un formato binario para la representación compacta de datos RDF, modelando un conjunto de datos mediante tres componentes: (i) la cabecera (Header) contiene metadatos sobre la colección y su organización para facilitar su descubrimiento y consumo, (ii) el diccionario (Dictionary) organiza el vocabulario utilizado en la colección en RDF asignando un identificador numérico único a cada elemento, y (iii) los triples (Triples) representan la topología del grafo.

HDT permite representar un conjunto de datos RDF en un 15% del espacio utilizado por los formatos tradicionales de RDF [2], llegando a cotas cercanas al 4% si se combina con compresores universales. Una implementación del componente Triples [1], basada en estructuras de datos compactas, indexa la topología del grafo de forma comprimida y permite, a su vez, la resolución eficiente de consultas sobre lo mismo.

Desarrollo de Sistema Distribuidos

miércoles, 4 de diciembre de 2013

EndPoint

No hay comentarios.:

Publicar un comentario