Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Share Embed


Descripción


Repositorios
Institucionales


Sistemas de Recuperación de Información


Bases de datos
de revistas


Repositorios de Tesis
Repositorios
Temáticos


























La librería Beautiful Soup nos permite la exploración y la extracción del contenido de páginas en HTML y XML.


Se obtiene una estructura de datos anidada que facilita la navegación y la extracción de la información relevante mediante las funciones disponibles en el módulo.


En el siguiente link podemos encontrar un tutorial que nos explica como usar los diferentes funciones


http://www.crummy.com/software/BeautifulSoup/bs4/doc/












Lenguaje de Programación Python


Libreria BeautifulSoup


Sketchengine








Realizar el análisis del contenido de los documentos (análisis del discurso)


Extracción terminológica para crear un vocabulario controlado, tesauros u ontologías.


Realizar un análisis terminológico







Información


Herramientas de
Extracción de Información


Extracción Terminológica


Análisis del Contenido













Extracción de Información
Es una subdisciplina es un sub disciplina de la Inteligencia Artificial

Utiliza las técnicas de procesamiento de lenguaje natural para explorar un dominio del conocimiento específico (conjunto de documentos).

De acuerdo con Riloff y Lorenzen (1999), un sistema de EI obtiene información de textos en lengua natural y para un dominio específico, donde se debe definir previamente el dominio y los tipos de información de interés.




Usando BeautifulSoup
Modelo Modelo para la Evaluación de los Datos Abiertos
De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente modelos de evaluación de datos abiertos:
Extraccion de Información Sitio de Transparencia
El proceso de extracción de información en este caso específico tiene como propósito semi - automatizar la obtención de datos relacionados con los indicadores del modelo de evaluación de de los sitios de gobierno abierto: Directorio de transparencia Activa y Portal de datos de gobierno.
Herramientas utilizadas:













Herramientas de Extracción de Información para la Creación de un Corpus de un
Sitio de Gobierno Abierto
Olga Acosta
Elena Gamboa
Claudia Gutierrez
Grandes volúmenes de Información en formatos digitales
Administran
Gestionan
Recuperan
Extracción de Información
La Extracción de Información nos permite :
Usando Sketchengine:
Es una herramienta computacional que permite realizar el análisis linguístico de un corpus ( conjuntos de textos de un mismo dominio del conocimiento).

Es un programa que se puede consultar en la web: http://www.sketchengine.co.uk/


Usando Sketchengine
Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt, .vert, .xml, .zip. txt .

También puedo subir los archivos a su servidor.


Conclusiones
Las herramientas de Extracción de información constituyen una valiosa herramienta para los profesionales de la información.

Permiten realizar el análisis terminológico y de contenido de un corpus de un dominio del conocimiento.

Permite establecer un vocabulario normalizado altamente representativo del contenido del los documentos.

Permite extraer información específica y significativa para los análisis de contenido.


Pasos para la E.I.
E.I para un sitio de gobierno abierto

Pasos previos a la extracción de información:
Construir un diagrama de la estructura del sitio a explorar
Determinar la muestra de las entidades del directorio de transparencia Establecer los niveles de navegación
Explorar y aprender usar las herramientas (BeautifulSoup y Sketch Egine)

Usando Sketchengine
Una vez formado el corpus puedo explorarlo utilizando las funciones del módulo de exploración:

Concordance
Word List
Word Sketch
Thesaurus
Find X
Sketch-Diff




Usando Sketchengine

1. Crear un corpus :

Es muy importante seleccionar el idioma ya que sketcheengine nos permite trabajar en diferentes idiomas .

Click to edit Master title style
Click to edit Master text styles
27/11/2015


Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level




27/11/2015
Click to edit Master title style
Click to edit Master subtitle style
27/11/2015


Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
27/11/2015


Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
27/11/2015


Click to edit Master title style
Click icon to add picture
Click to edit Master text styles
27/11/2015


Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
27/11/2015


Click to edit Master title style
Click to edit Master text styles
27/11/2015


Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master title style
27/11/2015


27/11/2015


Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
27/11/2015


Click to edit Master title style
Click to edit Master text styles
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
27/11/2015



Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.