Espacio reservado para banners y logos institucionales

SABER UCV >  2) Tesis >  Pregrado > 

> Implementación del módulo de indexación y búsqueda para el prototipo de Archivo Web Venezuela para la búsqueda de los contenidos Web bajo el formato WARC.
Please use this identifier to cite or link to this item: https://saber.ucv.ve/handle/10872/14728

Title: Implementación del módulo de indexación y búsqueda para el prototipo de Archivo Web Venezuela para la búsqueda de los contenidos Web bajo el formato WARC.
Authors: Montero Hernández, Ericka A.
Pérez Laya, Hilda C.
Keywords: Archivo Web
Formato WARC
SolrCloud, Hadoop
Issue Date: 2-Mar-2017
Series/Report no.: Biblioteca Alonso Gamero Facultad de Ciencias;TG-20597
Abstract: RESUMEN El patrimonio cultural define a los pueblos y representa su herencia histórica, por lo cual es importante su preservación. El patrimonio cultural se ha clasificado como tangible (obras materiales) o intangible (generación y transmisión de conocimiento, costumbres, etc.), dentro de este último se define el patrimonio digital como aquel que ha sido originado de manera digital y abarca recursos como páginas Web, bases de datos, libros digitales, material multimedia, grabaciones, programas informáticos, entre otros. Entre estos se tienen los recursos Web que se diferencian de cualquier otro tipo de recurso digital por su naturaleza cambiante y su estructura de hiperenlaces, por lo que su preservación tiene características propias y retos que deben ser abarcados por los Archivos Web, los cuales son sistemas de información cuya finalidad es la preservación histórica de estos recursos conocidos como patrimonio Web. Una de las actividades importantes en el proceso de preservación Web es la indexación de los contenidos almacenados, ya que permite búsquedas más rápidas y eficientes. En la actualidad se está desarrollando un prototipo de Archivo Web para la preservación de Páginas web en Venezuela, actualmente en su versión 2. El presente Trabajo Especial de Grado propone una mejora del módulo de gestión de almacenamiento e indexación del prototipo, donde el contenido se está almacenando en un clúster Hadoop en el formato de almacenamiento para Archivos Web denominado WARC, con búsquedas por URL y por palabras clave que requieren del procesamiento de los WARC. Para la gestión de los índices se usa la herramienta de búsqueda SolrCloud la cual se puede integrar al sistema Hadoop. Este módulo se desarrolló usando la metodología de desarrollo basado en componente. Palabras Claves: Archivo Web, preservación Web, Formato WARC, indexación, almacenamiento, rastreo, SolrCloud, Hadoop.
Description: Tutor: Profa. Mercy Ospina
URI: http://hdl.handle.net/10872/14728
Appears in Collections:Pregrado

Files in This Item:

File Description SizeFormat
TESIS.pdf3.41 MBAdobe PDFView/Open
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.