Nuevos retos y oportunidades en la planificación y gestión de la información: datos abiertos, datos enlazados

Share Embed


Descripción

Nuevos retos y oportunidades en la planificación y gestión de la información: datos abiertos, datos enlazados

Presentado por Cristina Restrepo Arango INTRODUCCIÓN Los avances en las tecnologías de la información y la comunicación (TIC) han permeado profundamente las instituciones privadas y públicas de cualquier índole, ya sean empresas, oficinas de gobierno, universidades, etc., sobre todo en los aspectos relacionados con las producción documental, llámese información administrativa, información legal o información científica, etc., pues, en los últimos 20 años los soportes y medios que se utilizan para transmitir o usar la información se han transformado rápidamente, de tal manera que han cambiado procesos y rutinas al interior de las unidades de información. Por ejemplo, en el ámbito bibliotecario no sólo se adquieren materiales bibliográficos impresos, sino electrónicos, mientras que en los archivos no sólo se almacena el documento en papel, sino también el documento electrónico. Es así como los recursos de información en cualquier soporte y forma son el principal insumo de la gestión de la información (GI) y su función primordial es realizar los procesos de obtención, organización y recuperación de la información en sistemas informáticos que apoyen su localización, identificación, adquisición y acceso a los datos contenidos en esos documentos. Uno de los grandes avances tecnológicos ha sido la introducción de la web en el ámbito académico, educativo, económico e investigativo, que inicialmente facilitaba el intercambio y publicación de datos instantáneamente. La web ha crecido exponencialmente en la última década, tanto así que ha modificado la manera de ejecutar procesos y tareas en la mayoría de las disciplinas del conocimiento, lo que ha conllevado a los profesionales de la información (PI) a enfrentar nuevos retos y oportunidades en el ámbito de la GI. El principal reto es estructurar adecuadamente la información que se publica y produce minuto a minuto en la web, con el fin de

facilitar su identificación, selección, evaluación y localización, es decir, el PI debe ser el principal constructor y promotor de la web semántica. También otra de las oportunidades que se les ofrece a los PI es ampliar el horizonte laboral y por ende el salarial, puesto que un PI puede desempeñar no sólo los cargos tradicionalmente conocidos, sino participar laboralmente en otros perfiles como analista de datos, arquitecto de datos, curador de contenidos, etc. A partir de lo expuesto anteriormente el objetivo de este documento es exponer los retos y las oportunidades que ofrecen los datos abiertos y los datos enlazados en la gestión de la información. Por eso este escrito está organizado en tres partes. Primero, se contextualiza sobre qué son los datos abiertos y qué son los datos enlazados; segundo, se explica cómo se relacionan los datos abiertos y los datos enlazados; tercero, se exponen los retos y oportunidades en la gestión de la información; cuarto, se presentan las consideraciones finales; quinto, se lista la bibliografía que se usó para desarrollar este documento. ¿QUÉ SON LOS DATOS ABIERTOS Y QUÉ SON LOS DATOS ENLAZADOS? Los datos abiertos (en inglés open data) y los datos enlazados o vinculados (en inglés linked data), no son términos sinónimos. Estos conceptos están relacionados, pero no necesariamente significan que los datos enlazados sean abiertos o libres. La relación entre datos abiertos y datos enlazados fortalece la web semántica, sobre todo al permitir que la información que está disponible en la web sea “interoperable, reutilizable y semánticamente accesible” (Morales del Castillo, 2016, p. 3). A continuación, se precisan ambos conceptos. Los datos abiertos u el open data es un “movimiento digital” que tiene como fin publicar en la web la información producida por instituciones gubernamentales y universidades, entre otras entidades sin restricciones de derechos de autor, patentes, etc., es decir, que la información esté libre en formatos que se puedan reutilizar para desarrollar nuevas aplicaciones o realizar análisis que beneficien a comunidades de escasos recursos, con el fin de mejorar el nivel educativo y por ende las condiciones sociales de poblaciones vulnerables (Biblioteca del Congreso de Chile, 2017).

Los datos enlazados hacen referencia a un conjunto de prácticas recomendadas para publicar y conectar datos estructurados en la web semántica que “es una extensión de la web actual [que tiene como propósito] vincular datos semánticamente [o bien, con significado o sentido…]” (Morales del Castillo, 2016, p. 5). Estos datos tienen en común que están publicados en la web y que son legibles por un computador. Los datos enlazados se basan en documentos que contienen datos en formato RDF (Resource Description Framework) (Bizer, Heath y Berners-Lee, 2009). Conviene preguntarse ¿para qué sirve el RDF? Este modelo simplemente codifica datos, pero tiene que seguir la lógica de tripletas, es decir, “sentencias del tipo Sujeto/Propiedad/Objeto […] y que pueden ser representadas en forma de grafos orientados” (Morales del Castillo, 2016, p. 5). Esta tripleta identifica los recursos web unívocamente con URIs (Uniform Resource Identifier), por medio de una dirección en Internet que establece los elementos de identificación y descripción que están representados por protocolo, autoridad, consulta y fragmento, entre otros elementos. Este URIs es similar a lo que conocemos como URLs, pero con la diferencia que el URIs no sólo identifica, sino que describe los datos (Morales del Castillo, 2016; Bizer, Heath y Berners-Lee, 2009). Por ejemplo, la identificación y la descripción de una tripleta (Sujeto/Propiedad/Objeto) con el modelo RDF indica que dos científicos, A y B, están relacionados y esta relación es explícita dado que tanto el científico A como el científico B están identificados cada uno por un URIs. Además, con RDF es posible relacionar una persona C con un artículo (objeto) producido por un científico (sujeto) D en una base de datos bibliográfica, en otras palabras, se puede identificar que C es el autor del artículo D. No obstante, el uso de los datos enlazados y estructurados con el modelo RDF, no sólo indican las relaciones entre sujetos, propiedades y objetos, también permite describir los recursos y crear vocabularios con el lenguaje de marcado para desarrollar ontologías (Web Ontology Language - WOL). Estas ontologías apoyan la creación de vocabularios que describen entidades (datos, conceptos, nombres personales y geográficos, entes corporativos, nombres de productos, títulos, formatos, etc.) y que muestran cómo se relacionan esas entidades entre ellas y con otros vocabularios identificados en la web con URIs.

¿Por qué son importantes los datos enlazados o vinculados en la web? Básicamente para hacer posible el propósito principal de la web semántica que es darle “mayor significado” a la información contenida en ésta, con base en la interpretación de los signos lingüísticos como palabras, expresiones, etc. para facilitar el acceso a los datos. Este objetivo se logra mediante el uso de marcadores como RDF y lenguaje de ontologías (WOL) que permiten el uso de los datos enlazados y facilitan la creación de enlaces o identificaciones, así como las relaciones entre los metadatos que describen la información, con el fin de que el usuario encuentre datos que estén ligados o relacionados a la búsqueda de información sobre un asunto en la web (Berners-Lee, 2006). Por ejemplo, si un usuario busca una crítica literaria a la obra de “Cien años de soledad” escrita por Gabriel García Márquez, la web debe desplegar los resultados que contengan todas aquellas críticas publicadas en diferentes periodos cronológicos, espacios geográficos, ediciones, etc., además debe mostrar las relaciones sobre quiénes son los autores, cuáles son los idiomas, qué soportes y cuándo fueron publicadas. Cabe aclarar que actualmente existen avances en este sentido como es el caso del Virtual International Authority File1 (VIAF) y catálogos de bibliotecas como Washington University Library2, donde se pueden ver las relaciones de un autor con una serie de elementos que intervienen en la cadena de producción de un documento.

1

Ejemplo del registro de autoridad para Gabriel García Márquez en VIAF, para verlo acceder a https://viaf.org/viaf/search?query=local.names+all+%22Garc%C3%ADa%20M%C3%A1rquez%2C %20Gabriel%2C%201927%202014%22&sortKeys=holdingscount&recordSchema=BriefVIAF 2 Ejemplo de búsqueda por García Márquez, Gabriel, para ver el despliegue de resultado acceder: https://washprimo.hosted.exlibrisgroup.com/primo_library/libweb/action/search.do;jsessionid=AD8CE77484D88 2D562386154C88316A6?fn=search&ct=search&initialSearch=true&mode=Basic&tab=everythingta b&indx=1&dum=true&srt=rank&vid=WUSTL&frbg=&vl%28freeText0%29=garc%C3%ADa+m%C3% A1rquez+gabriel&scp.scps=scope%3A%28WUSTL_OPENSCHOL%29%2Cscope%3A%28WUSTL _III%29%2Cscope%3A%28WUSTL_LIBGUIDES%29%2Cprimo_central_multiple_fe

¿CÓMO SE RELACIONAN LOS DATOS ENLAZADOS Y LOS DATOS ABIERTOS? El propósito de los datos abiertos es poner a disposición de los individuos información sin restricciones de uso, mientras que los datos enlazados emplean aplicaciones de la web semántica como el RDF para identificar y describir los datos contenidos en los recursos web, mediante el uso de metadatos estructurados para representar la información, además crear ontologías que permitan estructurar relaciones entre sujeto/propiedad/objeto. De esta manera los datos enlazados contribuyen al movimiento de datos abiertos, porque emplean mejores prácticas relacionadas con la organización de la información que se produce y publica en la web. A raíz de este objetivo en común, nació el término datos abiertos enlazados, en inglés linked open data, esto significa que son datos abiertos estructurados con el modelo RDF para posibilitar al usuario enlazar, explorar y combinar datos de diferentes instituciones, países, creadores, idiomas, etc. sin ningún tipo de restricción de derechos de autor (Biblioteca del Congreso de Chile, 2017). De ese modo, los datos abiertos enlazados deben estar disponibles en la web en cualquier formato sin restricciones; los datos deben estar en un formato estructurado de acuerdo con estándares como RDF; los datos deben permitir su manipulación por computador; los datos estarán disponibles como texto delimitado; por último, los datos estarán enlazados a otro conjunto de datos. En otras palabras, los datos deben ser abiertos y estructurados (Berners-Lee, 2010). RETOS Y OPORTUNIDADES EN LA GESTIÓN DE LA INFORMACIÓN Los retos en la gestión de la información son básicamente dos. Primero, convertir los bancos terminológicos, los catálogos de registros de autoridades, los catálogos de registros bibliográficos y los inventarios de archivos, así como todas aquellas herramientas que se diseñan e implementan en las unidades de información en datos abiertos enlazados. En suma, que los metadatos estén estructurados y construidos de acuerdo con el estándar RDF para permitir su interoperabilidad, reutilización y que sean semánticamente accesibles (Morales del

Castillo, 2016) por otros sistemas de GI o cualquier individuo. Segundo, transformar la formación académica que reciben los estudiantes en archivística, bibliotecología y ciencia de la información en áreas como la catalogación, clasificación y lenguajes documentales, entre otros asuntos relacionados con la GI, con el propósito de formar profesionales que estén preparados conceptual, técnica y tecnológicamente para desempeñar nuevos roles profesionales; por ejemplo, poder desarrollar funciones de arquitecto de contenidos, curador de contenidos, etc. En relación con la oportunidad de los datos abiertos enlazados para la GI es necesario que los PI estén debidamente cualificados para estructurar propuestas conceptuales, normativas y tecnológicas relacionadas con la creación, diseño, administración y gestión adecuada de bases de datos y repositorios que contengan datos estructurados con RDF o cualquier otro formato propuesto desde el contexto de la web semántica, además que estos datos puedan ser reutilizables e interoperables con otros sistemas. CONSIDERACIONES FINALES La GI se ha transformado en un proceso que incluye muchas aristas interrelacionadas, pues, involucra una serie de aspectos intelectuales, económicos, tecnológicos y sociales que no estaban presentes en el mundo académico y laboral del PI hace 20 años atrás. Inicialmente las unidades de información usaron catálogos o inventarios impresos que contenían datos bibliográficos o datos descriptivos del documento. Posteriormente en las bibliotecas incorporaron los sistemas de gestión bibliotecaria y en los archivos los sistemas de gestión archivística para poner en la web la información bibliográfica y documental, con el fin de facilitar la recuperación de la información. Actualmente, la organización de la información se enfrenta a transformaciones radicales, en cuanto al uso de estándares para describir e identificar los datos que contiene un documento y que en últimas facilite el acceso. En el ámbito bibliotecario se pasó de las Reglas de Catalogación Angloamericanas a las Reglas de Descripción y Acceso (RDA) que están enmarcadas dentro de un modelo de entidad-relación propuesto en los requisitos

funcionales, tanto para la descripción de obras, expresiones, manifestaciones e ítems, así como para controlar los puntos de acceso de un documento. Recientemente, la Library of Congress y otras bibliotecas nacionales y universitarias anglosajonas y europeas están trabajando en un formato que describa e identifique datos estructurados, como lo es BIBFRAME. En el ámbito archivístico, están implementándose registros usando las propuestas de normalización de los datos estructurados con RDF y el uso de ontologías para facilitar la interoperabilidad de la información entre sistemas; por ejemplo, el Archivo Nacional de Corea (HidalgoDelgado, et. al, 2016). En síntesis, en Colombia las bibliotecas, los archivos, los museos y otras instituciones dedicadas a la preservación y diseminación del patrimonio cultural se han dedicado a la producción sistemática y organizada de catálogos bibliográficos. Estas instituciones han desarrollado estándares y metodologías para describir y representar, de la mejor manera posible, sus colecciones que están disponibles en catálogos en Internet. A partir de esa infraestructura se puede impulsar la representación de los datos en forma de datos abiertos enlazados. Para eso sería necesario tener como bases estructurales lo siguiente: a) Formación y consolidación de una red nacional de instituciones dedicadas a la preservación y diseminación del patrimonio cultural, ya sea documental, bibliográfico, etc. b) Organización que lidere la creación y mantenimiento de bases de datos, catálogos y repositorios nacionales que difundan datos abiertos enlazados. c) Diseño de políticas y estándares que fomenten el uso de los datos abiertos enlazados con el modelo propuesto por RDF y la web semántica. Naturalmente, para impulsar esas bases estructurales será necesario repensar la formación educativa del campo de la BCI y transformar la educación para adecuarlas a las necesidades impuestas por el desarrollo de las nuevas tecnologías. Sin esas transformaciones seguiremos en la retaguardia de la práctica bibliotecológica sin siquiera aprovechar las oportunidades que ofrece el RDA y las nuevas tecnologías de la información.

BIBLIOGRAFÍA

Biblioteca del Congreso Nacional de Chile. (2017?). Linked Open Data: ¿Qué es? Santiago de Chile: Congreso Nacional de Chile. Berners-Lee, T. (2006). Linked https://www.w3.org/DesignIssues/LinkedData.html

data.

Disponible

en:

Berners-Lee, T. (2010). 5 Stars Open Data. 5 Star Data. Disponible en: http://5stardata.info/en/ Bizer, C., Heath, T., & Berners-Lee, T. (2009). Linked data-the story so far. Semantic services, interoperability and web applications: emerging concepts, 205-227. Hidalgo-Delgado, Y., Senso, J. A., Leiva-Mederos, A., & Hípola, P. (2016). Gestión de fondos de archivos con datos enlazados y consultas federadas. Revista Española de Documentación Científica, 39(3), 145. Morales del Castillo, J.M. (2016). Datos abiertos enlazados y bibliotecas: fundamentos y perspectiva latinoamericana. Ponencia presentada en el Congreso Internacional de Información INFO 2016.

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.