\"Metodología para la creación de un corpus para la evaluación de un sitio de gobierno abierto\"

July 11, 2017 | Autor: Elena Gamboa | Categoría: Procesamiento del Lenguaje Natural, Corpus, Open Data Open Government, Gobiernos Abierto

Share Embed

Laporkan tautan ini

Descripción

Metodología para la creación de un corpus para la evaluación de un sitio de gobierno abierto Elena Gamboa, 1,2Olga Acosta, 1Claudia Gutiérrez

1 1Magíster

en Procesamiento y Gestión de la Información, Pontificia Universidad Católica de Chile de Ciencias del Lenguaje, Pontificia Universidad Católica de Chile

2Departamento

{elenagamb, olgalimx, cgutierh}@gmail.com

Resumen En este artículo presentamos una propuesta metodológica para la creación de un corpus que permita la evaluación de un sitio de gobierno abierto. Gobierno abierto es un modelo que sostiene que los temas de gobierno y administración pública deben ser abiertos a todos los niveles posibles en cuanto a transparencia y accesibilidad de la información. La metodología plantea una serie de criterios importantes para la conformación de un corpus con la información textual de las entidades gubernamentales, así como el uso de herramientas computacionales que soporten el logro de este objetivo. Dado el incremento continuo de información disponible en portales de este tipo, la (semi-)automatización del proceso permitirá evaluar más fácilmente la consistencia y usabilidad en el marco de los modelos estandarizados en que fueron concebidos. Finalmente, como resultado de la aplicación de esta metodología se dispondrá de un corpus para cada una de las entidades gubernamentales incluidas en el sitio, lo que facilitará la extracción de información, comparaciones entre subcorpus, extracción terminológica, concordancias, análisis de discurso, etc. Palabras clave: Corpus, extracción de información, Procesamiento de lenguaje natural, usabilidad, Gobierno Abierto.

Introducción Actualmente, la usabilidad de sitios Web es un tema de gran interés. Sitios Web con alta usabilidad son intuitivos, transparentes, de gran utilidad para sus usuarios porque permiten que estos logren sus metas de forma fácil, rápida y eficiente (Brinck, Gergle y Wood, 2002). Sin duda, Internet, y concretamente la Web, se han convertido en un medio de comunicación que ha influido en la democratización

de la información. Una de sus funciones ha sido precisamente la de informar todo aquello que pueda ser relevante para el público y éste deba conocer. Por otro lado, su crecimiento desmesurado sigue siendo un motivo de peso para desarrollar nuevos enfoques, o bien mejorar los existentes para permitir el acceso a la información relevante de forma rápida y eficaz: prueba de estos grandes esfuerzos son las áreas de recuperación y extracción de información. Relacionado con la democratización, la transparencia en el uso y disposición de la información, así como la usabilidad de sitios Web se encuentran iniciativas como la de gobierno abierto. A grandes rasgos, este tipo de iniciativas promueve que la información de los gobiernos y la administración pública sean accesibles al público en general, sin restricciones. Dado lo anterior, en este artículo proponemos un conjunto de indicadores con base en estándares internacionales para evaluar el portal de transparencia chileno. Para lograr nuestro objetivo de análisis consideramos la extracción de un corpus con la información de cada una de las entidades gubernamentales disponibles en el sitio y enfocamos nuestra necesidad de información como un problema de extracción de información a partir de este corpus. La organización de este artículo es la siguiente: en una primera sección describimos brevemente el estándar internacional de gobierno abierto. Posteriormente, basados en este estándar, presentamos un conjunto de indicadores para evaluar el portal Web de transparencia chileno. En una tercera sección presentamos la metodología para construir el corpus con la información de cada una de las entidades del sitio Web. Finalmente, presentamos resultados y conclusiones preliminares.

Gobierno abierto Gobierno abierto es un modelo político que sostiene que los temas de gobierno y administración pública deben ser abiertos a todos los niveles posibles en

cuanto a transparencia y accesibilidad de la información. Esta iniciativa tiene sus fundamentos en el Memorando sobre transparencia y gobierno abierto que el Presidente de Estados Unidos, Barack Obama, promulgó el 21 de enero de 2009. Posteriormente, esta iniciativa fue acogida por otros países como Nueva Zelanda, Canadá, etc. Uno de los motores de la extensión de los objetivos y principios de gobierno abierto es el Open Government Partnership (OGP), una iniciativa copresidida por Estados Unidos y Brasil que tiene como principal propósito obtener compromisos concretos por parte de los países adheridos en relación con la transparencia, la participación ciudadana, la lucha contra la corrupción y el uso de las nuevas tecnologías para reforzar la acción de los gobiernos. En el año 2012, Chile se adhirió a los principios OGP. Dentro del modelo de gobierno abierto cobra un rol fundamental el acceso y la publicación de la información a través de datos abiertos en formatos libres, sin restricciones, legibles por humanos y máquinas. El acceso a los datos abiertos permite democratizar la información para que los ciudadanos puedan fiscalizar y controlar el quehacer de las instituciones públicas mediante la creación de herramientas que permitan solucionar problemas de gestión o para la creación de nuevo conocimiento. Este cambio de paradigma en el manejo de la información y los datos de gobierno requiere de nuevas políticas y la incorporación de los estándares internacionales establecidos por el Consorcio de la Web (W3C) y el Grupo de los 8 (G8) para que la información sea accesible para las personas y también para las máquinas. Una adecuada implementación de estos estándares en un sistema de información (directorio o portal web) permitirá que los datos sean usables y reutilizables. Por lo anterior, podemos decir que los datos abiertos de gobiernos para que sean usables y reutilizables deben cumplir con las siguientes premisas:  Deben considerar formatos abiertos o no propietarios.  Deben ser procesables de forma automática.  Deben ser completos, sin tratamiento previo (raw data). Se debe excluir la información personal y sensible.  Deben proporcionar la mayor granularidad y detalle posible.  Deben ser accesibles para cualquier usuario y propósito, sin restricciones ni requisitos.

Modelo de evaluación de datos abiertos En este artículo presentamos una propuesta metodológica para la evaluación del portal de

transparencia chileno. Para lograr lo anterior, basados en el modelo de gobierno abierto descrito en la sección anterior, establecimos los indicadores presentados en la tabla 1. Estos indicadores hacen referencia al formato y contenido de la información disponible en el portal, y serán útiles para medir la forma en que se publican los datos y si esto se encuentra acorde con los estándares internacionales. Tabla 1. Indicadores de evaluación Indicador

Variable

Dominio de valores de ejemplo

Tipo

pdf, csv,doc, xls, xlsx,xml,html,txt, etc.

Formato Procedencia

Abierto/propietario Creative Commons GNU GPL Open Database License (ODbL)

Licenciamiento abierto URI Contenido Metadatos

Título, descripción y fuente

1. Indicadores de formato Los indicadores de formato determinan el tipo de formato, su procedencia y el licenciamiento en que se publican los datos. a) El formato en que se publican los datos es fundamental para determinar si un dato es abierto y puede ser utilizable, ya que los formatos abiertos tienen sus especificaciones disponibles en la Web y pueden ser utilizados sin restricciones. El uso de un determinado formato está condicionado por el tipo de información que contenga: csv, txt, xml, xls, etc. b) El tipo de licenciamiento de los formatos permite o restringe el uso de los datos. El uso de licencias abiertas permite distintos niveles de reutilización de los datos y de sus aplicaciones.

2. Indicadores de Contenido a)

Identificador uniforme de recursos (URI): Son cadenas de caracteres que permiten identificar de forma inequívoca un recurso en la Web. Este identificador tiene un formato estándar y su propósito es permitir la interacción con los recursos disponibles. Por ejemplo, páginas, servicios, imágenes, vídeos, etc. Podemos decir que una URI está bien formada cuando tiene un esquema claro y entendible por humanos y máquinas.

b) Metadatos: Los metadatos son una herramienta fundamental para organizar, clasificar, relacionar y razonar sobre los datos. Es importante recordar que la cantidad y calidad de los metadatos asociados a un conjunto de datos es fundamental para la identificación, indexación, búsqueda y recuperación de los recursos. Los metadatos deben permitir identificar el conjunto de datos: título, descripción y fuente.

1.

La página principal del sitio de gobierno abierto chileno contempla un menú primario de entidades gubernamentales donde es posible acceder a la información de todas las entidades que disponen información pública. El menú primario de entidades es fijo en cada página por lo que es posible acceder a cualquier entidad desde una específica. Esta situación genera circularidad que debe eliminarse. La estrategia que se plantea para lograr esta tarea es eliminar todos los URLs que contengan la ruta “/directorio/entidad” porque todas las entidades se encuentran disponibles en esta ruta.

Procesamiento de Lenguaje Natural El Procesamiento de Lenguaje Natural (PLN) es una subdisciplina de la Inteligencia Artificial. Este término se usa con mucha frecuencia para describir la función de análisis y síntesis de lenguaje hablado o escrito que desempeñan los componentes de software o hardware de un sistema computacional (Jurafsky y Martin, 2009; Jackson y Mouliner, 2002). La aplicación de las técnicas de PLN se da en diversas áreas: traducción automática, extracción automática de resúmenes, recuperación de información y extracción de información, por mencionar algunas de las más importantes en la actualidad. Como se mencionó anteriormente, en el caso de esta investigación, enfocamos nuestra necesidad particular de información como un problema de extracción de información, y para ello planteamos la construcción de un corpus a partir de la información textual del sitio de transparencia chileno. La (semi-)automatización del proceso de evaluación de sitios que se enfocan en cumplir con ciertos estándares internacionales para la transparencia, disposición y uso de la información es muy relevante debido a que crecen constantemente y resulta necesario idear mecanismos eficientes para monitorear que cumplan con las pautas generales de estos estándares y, en general, con la usabilidad de los recursos disponibles.

Metodología La metodología que proponemos en este artículo está enfocada en la (semi-)automatización del proceso de evaluación del portal de transparencia chileno. Esta evaluación se realiza mediante la consideración de estándares internacionales de datos abiertos. La metodología se muestra en la figura 1 y, con más detalle, se describe en los siguientes puntos:

Eliminación de circularidad

2.

Eliminación de información constante Generalmente, los sitios web contienen referencias fijas y con información constante en todas las páginas. Por ejemplo, páginas donde se describen las preguntas más frecuentes, las políticas vigentes, etc. Para resolver este problema se deben filtrar las referencias a información fija (faqs, acercade, etc.) desde la recolección de URLs referenciadas en una página específica. Al igual que en el paso 1, se considera la cadena de caracteres específica que identifica este tipo de recursos y si se localizan en el URL, entonces se eliminan del conjunto.

3.

Extracción de referencias Proponemos la construcción del corpus a partir de los URLs accesibles desde la página de una entidad específica. Estos URLs se pueden obtener del valor del atributo href de la etiqueta del lenguaje HTML. En esta fase, el conjunto de URLs ya pasó por las dos fases anteriores de eliminación de circularidad en el sitio y de páginas con información constante. En este punto de la metodología, se propone establecer un nivel de navegación máximo para extracción de URLs, es decir, partimos de una entidad específica, nuestro nivel 0, por ejemplo, la entidad 1, que corresponde a la Presidencia de la República y cuya URL es:

Fig. 1. Metodología.

www.gobiernotransparentechile.cl/direct orio/entidad/1 y extraemos los URLs accesibles desde esta página (es decir, URLs de nivel 1). Posteriormente, para las páginas del primer nivel, extraemos las referencias correspondientes (breath-first search), y así sucesivamente, hasta llegar al nivel de navegación máximo, que es nuestro umbral para finalizar el proceso de extracción de URLs. En términos generales, el resultado de esta fase es una lista de URLs que se pueden acceder tomando como entrada la entidad i-ésima y navegando hasta llegar a un nivel de profundidad k establecido por el usuario. 4.

URLs para construir el corpus de cada entidad El conjunto de URLs obtenido del paso 3 se utiliza para la recolección de la información textual de cada una de las entidades. En este paso, lo ideal es contar con un proceso automático para la eliminación de duplicados de información textual del conjunto de URLs.

5.

Extracción de los diferentes formatos de datos usados en el sitio Existen diferentes tipos de formatos para diferentes tipos de información: gráficos, audio, video, documentos, etc. Para el presente modelo debemos determinar cuáles son los formatos más utilizados en la publicación de datos de gobierno debido a

que el modelo de gobierno abierto prioriza el uso de formatos abiertos no propietarios. Para obtener esta información proponemos analizar los 4 caracteres finales de los URLs obtenidos para cada entidad y con ello calcular la frecuencia de ocurrencia de formatos específicos: pdf, docx, doc, etc. 6.

Análisis de URIs Identificador uniforme de recursos (URI) son cadenas que funcionan como identificadores globales que hacen referencia a cualquier recurso en la Web, lo que ofrece una forma de identificación universal por medio de la cual cualquier máquina o persona puede designar conceptos, elementos físicos o virtuales, de forma unívoca tales como documentos, imágenes, archivos descargables, etc.. Para una gestión óptima de la información, es necesario establecer esquemas de definición de estos indicadores, considerando patrones de diseño de los URI, adecuados para cada tipo de información. La estructura de un URI debe estar compuesta por los siguientes elementos, tal como muestra la figura 2. F i g u r a Fig. 2. Estructura de una URI.

En esta fase proponemos segmentar la información de las rutas y nombres de archivos de los URLs con la finalidad de realizar una exploración de estos elementos para ver si existe alguna nomenclatura implícita en la construcción de los URLs. Los elementos considerados para la segmentación por palabras son “_” y “-”.

7.

Exploración de metadatos Como se mencionó en la descripción de indicadores, contar con un conjunto de metadatos es importante debido a que estos permiten una mejor organización y acceso a los recursos disponibles. En este trabajo se explora únicamente la existencia de tres tipos de metadatos: título, descripción y fuente. Una vez construido el corpus será posible verificar la existencia de estos metadatos vía la generación de concordancias.

Resultados Herramientas computacionales Las herramientas computacionales que se utilizaron para llevar a cabo este trabajo son las siguientes: 1. El lenguaje de programación Python y el módulo BeautifulSoup para desarrollar scripts que permitan la extracción de URIs de cada entidad estableciendo un nivel de navegación máximo k. BeautifulSoup es una herramienta que sirve para analizar la estructura de páginas HTML y XML. El resultado del análisis es una jerarquía de información. Una vez analizada una página específica, es posible obtener una lista con los valores del atributo href de las etiquetas (las referencias a otras páginas desde la página analizada). 2. La herramienta computacional Sketch Engine para la extracción de la información textual de las entidades. El sistema permite construir corpus vía la herramienta WebBootCat. En el caso particular de este trabajo se utilizó la opción de construcción vía URIs. Una de las ventajas del uso de este programa es el análisis de la bitácora de compilación del corpus que extrae la siguiente información: el URI procesado, tipo de contenido, tipo de archivo, tamaño en KB, tipo de codificación, tamaño en texto plano, o, si fuese el caso, si ocurrió alguna falla al analizar la página, lo que da pauta para determinar el porcentaje de páginas que

no son accesibles e intentar ubicar el origen del problema. Un ejemplo real de este tipo de información es el siguiente: Processing http://www.dipres.gob.cl/EjecucionPresupuestaria /SGI - Content-type: text/html - File type: html - Data read: 27.6kB - Detected character encoding: latin_1 - Plain text size: 0 characters - Too small (min size: 1024 characters) Processing https://siac.interior.gob.cl/ - Failed to retrieve:

La información de la bitácora de compilación es de gran utilidad para los objetivos de nuestro análisis ya que nos permite determinar la frecuencia de uso de diferentes formatos de archivo y con ello responder a la pregunta del uso de formatos propietarios o no propietarios en el sitio Web. 3. Extracción de información Una vez construido y compilado el corpus para cada entidad es posible realizar búsquedas específicas vía el módulo de concordancias disponible en Sketch Engine. Por ejemplo, si deseamos localizar información respecto a tipos de licencia, bastará con realizar las búsquedas en el módulo de concordancias con las palabras clave que den cuenta de esta información. Por otro lado, para análisis más elaborados, contar con la información textual de cada entidad permitirá la extracción de palabras clave y terminología dentro del mismo sistema, lo que facilitará el análisis de contenidos para cada entidad y el portal en general.

Análisis de resultados Los resultados que se presentan en esta sección consideran una muestra de 37 entidades gubernamentales con recursos disponibles en el directorio de transparencia. Para la conformación de esta muestra se hizo una selección aleatoria de los tipos de entidades que conforman el directorio con el fin de lograr que la muestra fuera representativa. En primer término, la tabla 2 muestra resultados totales en cuanto al uso de formatos de archivo en un nivel de navegación automática del sitio k=4. De los datos es claro que existe un uso preponderante del formato PDF, que aunque es no propietario, no es reutilizable directamente ya que debe pasar por un proceso de conversión para acceder a los datos y utilizarlos para algún otro proceso o aplicación.

Tabla 2. Formatos de archivo usados Formato

Frecuencia absoluta

%

PDF

68914

53.9

XLS

13368

10.5

CSV

12305

9.6

XML

12342

9.7

DOC

20947

16.4

La tabla 3 presenta el conjunto total de entidades contempladas en la muestra y datos correspondientes al número de tokens extraídos para cada una, así como también el conjunto de metadatos disponible en el recurso. Como se puede observar a partir de la tabla, solo 3 entidades (8%) cuentan con los 3 metadatos básicos. El 92% restante contiene 2, 1 o ningún metadato. Tipo Metadatos

Cantidad

%

Título-Fuente

10

27,02

Título -Fecha

14

37,83

Titulo-Fuente-fecha

3

8,1

Ninguno

2

5,4

Título

8

21,62

Conclusión Actualmente, la gran cantidad de información textual disponible rebasa nuestra capacidad para procesarla de forma rápida y eficiente. La tecnología ha hecho posible contar con estas grandes cantidades de texto y es justo que sea la misma tecnología la que se use para ampliar las capacidades del ser humano para enfrentar este problema de saturación de información y acceso eficiente a aquello que se considera relevante. Las técnicas de PLN son de gran utilidad cuando deseamos extraer información específica de enormes fuentes de textos porque nos permiten automatizar procesos que llevarían meses, o incluso años de exploración y análisis manual, tal es el caso de la investigación que presentamos en este artículo. La evaluación de un portal de datos abiertos se vuelve compleja si consideramos la amplia gama de información que se dispone en sitios de este tipo. Además, se trata de recursos que crecen continuamente en información y donde es necesario crear mecanismos para monitorear que se sigan las pautas generales que se persiguen en estándares internacionales para la disposición y acceso a los datos, todo esto para beneficio de los ciudadanos de un país.

Como resultado de esta investigación observamos que no existe un apego fuerte a las directrices que se contemplan como indispensables en sitios de datos abiertos. Por un lado, existe un uso preponderante de formatos que no hacen reutilizables directamente los datos. Por otro lado, no existe una nomenclatura clara de nombrado de recursos que permita contar con URIs que sean explotables automáticamente, por ejemplo, por un buscador para efectos de indexación de información. Finalmente, el uso de metadatos que permitan organizar y relacionar la información del sitio es muy escaso.

Agradecimientos Este artículo ha sido soportado por la Comisión Nacional de Investigación Científica y Tecnológica (CONICYT) de Chile, por los proyectos con claves 3140332 y 11130565.

Referencias Brinck, T., Gergle, D., Wood, S. (2002). Designing Web Sites that Work: Usability for the Web. Morgan Kaufmann Publishers. Indurkhya, N., Damerau, F. (2010). Handbook of Natural Language Processing. Second Edition. CRC Press. Jurafsky, D., Martin, J. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice Hall. Latroph, D., & Ruma, L. (2010). Open Government: Collaboration, Transparency, and Participation in Practice. O’Reilly Media, In. Módulo Beautiful Soup disponible http://www.pythonforbeginners.com/python-on-theweb/beautifulsoup-4-python/.

en:

Obama, Barack (2009). Memorandum on Transparency and Open Government (OGD), Executive Office of the President of United States of America, Washington, DC. En: http://www.whitehouse.gov/sites/default/files/omb/assets/memoran da_2010/m10-06.pdf OCDE, 2010. OECD Guiding Principles for Open and Inclusive Policy Making. Background document for expert meeting on “Building an open and innovative government for better policies and service delivery”, París, 8–9 June 2010. 2003. Open Government: Fostering Dialogue with Civil Society. París: OCDE. ONSI. (2013). Estudio sobre objetivos, estrategias, actuaciones nacionales e internacionales en materia de gobierno abierto. 150 p. En:http://www.ontsi.red.es/ontsi/sites/default/files/objetivos_estrat egias_y_actuaciones_gobierno_abierto.pdf RAMIREZ Alujas, Alvaro (Diciembre 2011). «Gobierno abierto y modernización de la gestión pública. Tendencias actuales y el (inevitable) camino que viene. Reflexiones seminales». Revista Enfoques: Ciencia Política y Administración Pública IX (15).

Lihat lebih banyak...

\"Metodología para la creación de un corpus para la evaluación de un sitio de gobierno abierto\"

Descripción

Comentarios