Temática: Desarrollo de Aplicaciones Componente de recuperación y difusión de noticias de Internet para PRIMICIA 2.0. Information Retrieval and News publishing Component for PRIMICIA 2.0

June 9, 2017 | Autor: F. Romero Rodriguez | Categoría: Information Systems, Information Retrieval, jQuery, Symfony2

Descripción

Tem´atica: Desarrollo de Aplicaciones

Componente de recuperaci´ on y difusi´ on de noticias de Internet para PRIMICIA 2.0. Information Retrieval and News publishing Component for PRIMICIA 2.0 Felix Ivan Romero Rodr´ıguez1* , Adrianet Ramos Velazco1 , Vladimir L´ opez Salvador1 1 GEYSED.

Centro de Geoinform´ atica y Se˜ nales Digitales. Departamento de Se˜ nales Digitales. Universidad de las Ciencias Inform´ aticas, Carretera a San Antonio de los Ba˜ nos, km 2 21 , Torrens, Boyeros, La Habana, Cuba. CP.:19370 ∗ Autor

para correspondencia: [email protected]

Resumen En la Universidad de las Ciencias Inform´ aticas se desarrolla la Plataforma Informativa PRIMICIA, un producto orientado a la difusi´ on de noticias a trav´es de un canal televisivo. Las noticias creadas en PRIMICIA se extraen com´ unmente de sitios Web dedicados a este fin, como los blogs tem´aticos y la prensa digital. Este proyecto significa un paso de avance para Cuba en la adopci´on de nuevas formas de llevar el acontecer noticioso (publicado en la web) nacional e internacional a la poblaci´on, teniendo en cuenta los recursos limitados de conexi´on a Internet con que esta cuenta. Uno de los principales desaf´ıos de las Agencias de Noticias que utilizan estas plataformas es la capacidad de contar con mecanismos que permitan la creaci´on y difusi´ on de las noticias con la mayor inmediatez posible. Actualmente se desarrolla la versi´on 2.0 de PRIMICIA donde se necesita, adem´ as de incorporar estos mecanismos, difundir la informaci´on que se genera hacia medios de mayor audiencia como las redes sociales. El presente trabajo de diploma tiene como objetivo desarrollar un componente que permita la recuperaci´ on de noticias a partir de fuentes Web, su creaci´on autom´ atica en el formato definido en la plataforma y la difusi´on de estas hacia las redes sociales. Para ello se investig´ o sobre los m´etodos existentes en la recuperaci´ on de noticias de Internet y las formas de difundirlas hacia dichas redes. A partir de los resultados de este estudio se obtuvo un software funcional que cumple con el objetivo general del presente trabajo. Palabras claves: difusi´ on, extracci´ on, Internet, noticia, redes sociales. Abstract The University of Informatics Sciences develops the Informative Platform PRIMMICIA, a product oriented towards news broadcasting over a television channel. The news created on PRIMICIA are mainly extracted from news websites, like blogs, and the digital press. This project is a step forwards for Cuba in the adoption of new ways to bring national and international news events (published on the web) to the people, taking into account the limited resources of Internet access they have. One of the main challenges of the news agencies that use these platforms is the ability to have mechanisms that enable the creation and broadcasting of news in a shortest period of time. Currently, version 2.0 of PRIMICIA is developed, where it is needed, besides incorporating such mechanisms, broadcast the generated information to largest audiences like those interacting

1 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

with social networks. The present work aims at developing a component that allows information retrieval from web sources and its spread to social networks. In order to achieve that, an investigation was carried out to study the current methods on the field of information retrieval over the Internet, and the ways to broadcast them to those networks. From the results of this study, functional software that meets the overall objective of this work was obtained. Keywords: broadcast, Internet, news, retrieval, social networks.

Introducci´ on El constante desarrollo de las Tecnolog´ıas de la Informaci´on y las Comunicaciones (TIC), ha propiciado que se tenga un mayor acceso a la informaci´on y la optimizaci´on de su almacenamiento. La digitalizaci´ on de la informaci´on es uno de los avances que impactan con mayor fuerza en la vida cotidiana del hombre. Su aplicaci´on abarca esferas sociales como salud, educaci´on, tecnolog´ıa, pol´ıtica y econom´ıa, demostrando la constante actualizaci´ on de informaci´ on a la sociedad. La televisi´on como medio de comunicaci´on, en conjunto con t´ecnicas de digitalizaci´ on de la informaci´on, se ha convertido en una herramienta para la mejora de las comunicaciones en la sociedad.Garc´ıa (2005). PRIMICIAHern´andez Garc´ıa et al. (2009) es una soluci´ on orientada a proveer un canal de televisi´ on para la transmisi´on autom´atica y constante de informaci´ on en distintos formatos, donde se integran contenidos de texto, imagen, audio y video. Esta soluci´ on puede ser ajustable a cualquier cliente que tenga la necesidad o el inter´es de mantenerse informado de manera r´ apida y constante. Se consideran clientes potenciales de la plataforma a las agencias de noticias, sedes ministeriales o empresariales, terminales de transporte, hoteles, universidades y centros de convenciones. Crear una noticia para la plataforma tiene sus peculiaridades, ya que hay que transformarla de manera tal que se muestre acorde al tama˜ no de la pantalla del televisor 1 . Esto implica que una noticia extensa, de tres o cuatro p´ arrafos no puede mostrarse de forma ´ıntegra, es necesario separarla y mostrarla en partes, como se realiza con las carteleras de los canales televisivos, donde primero se muestra la programaci´on de un canal y luego se hace una transici´on para mostrar el contenido del otro. El proceso descrito para la creaci´on de la noticia se torna tedioso de llevar a cabo aun cuando son pocas las noticias que se desean crear en un momento determinado. Esto est´a condicionado por un problema fundamental: el personal que desea redactar la noticia necesita acceder al sitio y copiar el contenido de la misma (incluyendo su contenido multimedia) para luego registrarla en el sistema. Esto se complejiza a´ un m´ as cuando son muchos los sitios de noticias de inter´es para la plataforma, ya que el redactor o editor necesitan memorizar la direcci´on de todos estos sitios y revisarlos continuamente en busca de contenido actualizado. Teniendo en cuenta la situaci´on descrita anteriormente y bajo la premisa de la necesidad de mantener siempre informado a los usuarios de la plataforma el presente trabajo tiene 1

Se garantiza a la hora de redactar la noticia mediante un ´area definida que no sobrepase los l´ımites de resoluci´ on est´ andar. Estos l´ımites se establecieron en el desarrollo del m´odulo de redacci´on.

2 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

como objetivo principal la descripci´ on del Componente de recuperaci´on y difusi´on de noticias de Internet para PRIMICIA 2.0 desarrollado en el Centro GEYSED de la Facultad 6 de la UCI.

Materiales y m´ etodos o Metodolog´ıa computacional La Recuperaci´on de la Informaci´ on (RI) es un ´ambito que ha tomado gran importancia en la u ´ltima d´ecada. Est´a relacionada directamente con toda la informaci´on disponible en la web y la necesidad de herramientas que permitan gestionar, recuperar y filtrar esta informaci´on. Seg´ un Chowdhury un sistema de recuperaci´ on de informaci´on est´ a dise˜ nado para analizar, procesar y conservar las fuentes de informaci´on y recuperar aquello que coincida con los requisitos de un usuario en particular Chowdhury (2010). Aplicando lo anterior al ´ ambito de PRIMICIA, se desean procesar y conservar las fuentes web de inter´es para la plataforma, y as´ı recuperar el contenido de las noticias asociadas a cada una de estas fuentes. No se considera la realizaci´ on de tareas de an´alisis sobre los datos obtenidos, como la aplicaci´on de algoritmos de clasificaci´on de informaci´ on, pues qued´o definido que la informaci´ on que se obtendr´a siempre ser´an noticias (o la informaci´on que se recupera ser´a a partir de sitios de noticias) por ser estas el centro de inter´es de PRIMICIA. El componente de bas´ o para su desarrollo en tecnolog´ıas web como PHP Cobo (2005), JavaScript Cobo (2005), Symfony2 SensioLabs (2013), jQuery jQuery Foundation. (2013).

Algoritmo para la Recuperacion de Informaci´ on Existen varios algoritmos dentro del campo de la RI para recuperar contenidos de sitios web, los algoritmos en cuanto a su funcionamiento pueden estar centrados en la recuperaci´on a trav´es de la representaci´ on del ´arbol de los documentos HTML Gupta et al. (2003), mediante la forma en que se visualiza una vez que se dibujan los contenidos web Cai et al. (2003) y por a trav´es del c´alculo de la densidad del texto del DOM. El algoritmo CETD (Content Extraction via Text Density, de sus siglas en ingl´es) es uno de ellos, seg´ un Sun Sun et al. (2011) CETD es un m´etodo que primeramente analiza el objeto DOM y lo transforma. Luego calcula la densidad de la p´ agina T Di =

Ci Di ,

y a cada elemento se le va componiendo su densidad. Una vez clasificado

el objeto completo, se comienza a extraer el contenido basado en la densidad calculada para cada elemento del ´arbol DOM. Por densidad se refiere al volumen de texto contenido en los elementos de la p´ agina. Este algoritmo es factible utilizarlo en p´ aginas noticiosas, pues se asume que la mayor cantidad de texto de la p´ agina se encuentra en la etiqueta

2

HTML que contiene el cuerpo de la noticia en s´ı. Sin embargo, su aplicaci´ on es

realmente u ´til cuando no se tiene idea de d´onde se pueda encontrar la noticia dentro del ´arbol DOM. De hecho, ese es el principal objetivo del algoritmo, recorrer el ´arbol DOM para encontrar, atendiendo al indicador de 2

Los textos en el lenguaje HTML se encierran entre etiquetas, por ejemplo < div > T exto < /div >

3 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

Figura 1. Interfaz para gestionar fuentes Web

densidad de texto, la localizaci´ on de la noticia.

Resultados y discusi´ on Proceso para la recuperaci´ on de informaci´ on a trav´ es del componente Inicialmente es necesario gestionar las fuentes web que que servir´an como base de noticias para el sistema muestra una lista de las fuentes web que est´an registradas en el sistema (en caso que existan) y con las opciones de modificar y eliminar, adem´ as se muestra la opci´on de insertar una fuente web. Una vez gestionadas las fuentes web

3

, lo siguiente ser´ıa extraer la noticia de la fuente seleccionada. Contando con el contenido de

la noticia extra´ıdo a partir de las fuentes web, es necesario procesarla para adaptarla al formato especificado por PRIMICIA. Lo primero que se debe hacer es separar las im´agenes y los videos del texto de la noticia. Luego ´este se divide en partes iguales para asign´arselos a cada pantalla, por ende, existir´an tantas pantallas como cantidad de bloques de texto. El criterio para la cantidad de texto que debe haber en cada pantalla se determin´o a partir de la cantidad de texto que permite el m´odulo de redacci´on por pantalla, y que al mismo tiempo no sature toda el ´ area disponible para poder agregar contenido multimedia como im´agenes o videos. Se determina que mil caracteres por pantalla es una cantidad de texto aceptable. La principal dificultad para almacenar el texto radica en que a la hora de dividirlo no se pueden dividir palabras para evitar que se muestre una parte en una pantalla y otra parte en la otra. Esto se complejiza si se agrega que tampoco se deben dividir ?ideas?, esto es, que el texto de una pantalla no debe terminar en una frase o afirmaci´on incompleta. En el arte de la escritura, los signos de puntuaci´on, como las comas y los puntos, se utilizan para separar ideas. Tomando esto como referencia se pueden dividir los textos a partir de los puntos que dividen las oraciones y con esto se garantiza que el texto de cada pantalla comience con una oraci´on, al no ser que existan oraciones mayores a mil caracteres que es el tama˜ no de texto definido para cada pantalla, en cuyo caso es inevitable separar ideas, pero no palabras. Finalmente, las im´agenes y los videos se distribuyen equitativamente por las 3

A:Menu del Componente, B: Nombre de la Fuente Web, E: Opci´on de editar fuente, D: Opci´on de eliminar fuente

4 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

pantallas creadas, as´ı, en los casos de noticias que al crearse contengan por ejemplo cuatro pantallas y nueve im´agenes, existir´ an tres pantallas con dos im´agenes cada una, y una con tres. En el caso opuesto, si existen por ejemplo dos im´agenes y tres pantallas, la tercera pantalla solo contendr´a su texto asociado. Las im´ agenes y los videos se deben copiar desde el servidor remoto hacia el servidor local para que puedan ser utilizadas. Luego el sistema muestra en la secci´ on de noticias, una lista de noticias asociadas a la fuente web seleccionada. El usuario selecciona una noticia y puede modificarla o no si desea, para publicar en las redes sociales Facebook y Twitter o guardarla para PRIMICIA. Twitter brinda opciones desde la configuraci´on del perfil de usuario para crear widgets que puedan ser utilizados desde otras aplicaciones externas a la red social. Estos widgets, al insertarlos en una aplicaci´ on externa brindan la posibilidad de enviar tweets hacia el perfil del usuario de Twitter. Para lograr que se publiquen tweets desde PRIMICIA hacia la red social, solamente hay que crear un usuario que represente la plataforma, ir a la configuraci´on de dicho usuario en Twitter, crear un widget de tweets y copiar el c´ odigo que brinda dicho widget en el lugar donde se deseen ver y publicar tales tweets desde la plataforma. Este c´ odigo utiliza la API4 de Twitter para enviar los mensajes. Publicar en Facebook desde una aplicaci´ on web externa como la plataforma PRIMICIA se es un proceso con una serie de pasos. Es necesario crear la funcionalidad en la plataforma y utilizar la API para mandar los mensajes deseados. Lo que complejiza el proceso es que en realidad los mensajes no se publican directamente en Facebook cuando se env´ıan, sino que es necesario enviarle los datos a una ?Aplicaci´on Facebook? para que esta publique en nombre del usuario. Para publicar desde la plataforma utilizando la App, esta necesita que se le proporcione un token5 de seguridad, el ID de dicha App y un tokensecreto de aplicaci´on, que son identificadores que validan a un usuario como propietario de la App que est´a usando para publicar en su muro y los permisos que esta posee sobre el perfil del usuario. De esta forma no es necesario proporcionar las credenciales de autenticaci´ on que el usuario utiliza para entrar a Facebook como se hace normalmente, garantizando la seguridad de acceso a la misma desde aplicaciones externas.

Trabajos relacionados Navegadores Web Los propios navegadores web permiten crear marcadores, los cuales son accesos directos a sitios a los que el usuario accede frecuentemente. Los navegadores web como Firefox, Google Chrome, Opera y Safari brindan una barra de marcadores donde se pueden poner, adem´as de estos sitios preferidos, enlaces a direcciones RSS que al dar clic sobre ellos se muestran las noticias recientes de dicho sitio. Esto es posible pues los navegadores traen incluidos agregadores RSS que permiten subscribirse a las p´aginas que son visitadas. La versi´ on 29 del navegador web Firefox tiene una opci´ on para subscribirse a los RSS de las p´aginas que tengan disponible este 4 5

Siglas de .ApplicationProgramming Interface”, o ¨Interface para la Programaci´on de Aplicaciones”. Una cadena de identificaci´ on

5 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

Figura 2. Marcador correspondiente a las entradas RSS del blog humanOS

servicio. Las siguientes figuras muestran la forma de subscribirse al servicio RSS que brinda el blog humanOS6 a trav´es del navegador y la forma en que aparecen en la barra de marcadores respectivamente. La dificultad est´a en que para crear las noticias obligatoriamente tienen que acceder al sitio web, y hacer el proceso de redacci´on de forma manual como se explic´o en el planteamiento de la problem´atica planteada.

Generador autom´ atico de noticias para PRIMICIA Este es un trabajo de diploma que persegu´ıa objetivos similares en cuanto a la creaci´on autom´atica de noticias para PRIMICIA se refiere. El autor Placeres Barreto (2012) en el an´alisis de su objeto de estudio aborda el tema de la extracci´ on de noticias mediante el uso de motores de b´ usquedas y algoritmos de an´alisis sem´ anticos de texto, mencionando el funcionamiento a grandes rasgos de estos algoritmos, sin embargo, no expone las formas en que los aplica a su problema en particular. El m´etodo que utiliza para extraer el contenido de las noticias es el siguiente: Se recupera el documento HTML del sitio remoto donde se encuentra la noticia y se convierte a una cadena de texto (string), luego se extrae todo el contenido encontrado dentro de las etiquetas < body >< /body > y lo procesa como un string, es decir, realiza una b´ usqueda exhaustiva comparando los elementos que est´ an entre angulares () para diferenciar el texto noticioso de las etiquetas HTML. Este m´etodo se considera ineficiente y algo inexacto a la hora de extraer el contenido de la noticia, puesto que es necesario recorrer la cadena de texto letra por letra para identificar lo que se desea encontrar. 6

http://humanos.uci.cu

6 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

Conclusiones Con la b´ usqueda del contenido de dichas noticias utilizando el resumen que brinda el RSS como patr´ on, y aplicando la b´ usqueda sobre los nodos del ´arbol DOM con la ayuda de la biblioteca jQuery, se solucion´ o el problema existente de no contar con el contenido de la noticia para crearla de forma autom´atica en formato PRIMICIA. El componente creado no reemplaza totalmente las funcionalidades que brinda el m´ odulo de redacci´on, pues dicho componente est´ a concebido para ser utilizado con aquellos sitios que brinden el servicio RSS, que en el caso de los sitios de noticias es brindado por la mayor´ıa, pero no por todos. No obstante, en aquellos sitios que s´ı lo brindan, la utilizaci´on de la presente soluci´on permite la extracci´on de noticias a partir de fuentes web con el accionar de un clic y su creaci´on autom´atica en el formato establecido en PRIMICIA. Por otra parte, se garantiz´ o que las fuentes web de inter´es para la plataforma est´en disponibles desde cualquier lugar donde se tenga acceso a la aplicaci´ on, permitiendo su utilizaci´on desde diferentes estaciones de trabajo y la consulta de dichas fuentes por varias personas a la vez. Con la incorporaci´on de mecanismos de comunicaci´ on con las redes sociales Facebook y Twitter desde la plataforma, se logr´o establecer estas redes como medio adicional para llevar el acontecer noticioso generado en PRIMICIA hacia una mayor audiencia.

Referencias Deng Cai, Shipeng Yu, and Ji-rong Wen. VIPS : a Vision-based Page Segmentation Algorithm VIPS : a Vision-based Page Segmentation Algorithm. Technical report, Microsoft Research Asia, Beijing, China, 2003. G Chowdhury.

Introduction to Modern Information Retrieval. Facet Publishing, 3rd edition, 2010. ISBN

185604694X 9781856046947. Angel Cobo. PHP y MySQL: Tecnolog´ıa para el desarrollo de aplicaciones web. Ediciones D´ıaz de Santos. Google Books, 2005. URL http://www.google.com.cu/books. Alberto Garc´ıa Garc´ıa. La implantaci´ on tecnica de la televisi´ on digital terrestre en Espa˜ na. Modelos Europeos. 2005. Suhit Gupta, Gail Kaiser, David Neistadt, and Peter Grimm. DOM-based content extraction of HTML documents. Proceedings of the twelfth international conference on World Wide Web - WWW ’03, page 207, 2003. doi: 10.1145/775181.775182. URL http://portal.acm.org/citation.cfm?doid=775152.775182. Ruber Hern´andez Garc´ıa, Yunior Montaner Hern´andez, Jose Andr´es Hern´andez Bustio, and Jorge Daniel Olivares Tamayo. Primicia, plataforma de televisi´on informativa. Serie Cient´ıfica UCI, 2(8):1–9, 2009. URL http://publicaciones.uci.cu/index.php/SC/article/view/142/136. 7 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

The jQuery Foundation., 2013. URL http://jquery.com/. Reinel Placeres Barreto.

Generador Autom´atico de Noticias para PRIMICIA, 2012.

URL http:

//repositorio_institucional.uci.cu//jspui/handle/ident/TD_05797_12http://repositorio_ institucional.uci.cu//jspui/bitstream/ident/TD_05797_12/1/TD_05797_12.pdfhttp:// repositorio_institucional.uci.cu/jspui/handle/ident/TD_05797_12. SensioLabs. Symfony, The Book. SensioLabs, 2.3 edition, 2013. Fei Sun, Dandan Song, and Lejian Liao. DOM based content extraction via text density. Proceedings of the 34th international ACM SIGIR conference on Research and development in Information - SIGIR ’11, l:245, 2011. doi: 10.1145/2009916.2009952. URL http://portal.acm.org/citation.cfm?doid=2009916.2009952.

8 Universidad de las Ciencias Inform´ aticas. La Habana, Cuba

Lihat lebih banyak...

Temática: Desarrollo de Aplicaciones Componente de recuperación y difusión de noticias de Internet para PRIMICIA 2.0. Information Retrieval and News publishing Component for PRIMICIA 2.0

Descripción

Comentarios