Estudio de dos paradigmas de modelado de tópicos en un corpus de documentos tomados de una red social.

Lus Marina, Barreto Guerra

Please use this identifier to cite or link to this item: https://saber.ucv.ve/jspui/handle/10872/20686

Full metadata record

DC Field	Value	Language
dc.contributor.author	Lus Marina, Barreto Guerra	-
dc.date.accessioned	2020-08-06T15:42:28Z	-
dc.date.available	2020-08-06T15:42:28Z	-
dc.date.issued	2020-08-06	-
dc.identifier.uri	http://hdl.handle.net/10872/20686	-
dc.description.abstract	El presente trabajo estudia tres técnicas de modelado de tópicos, o reducción de la dimensionalidad, en conjuntos de datos de texto para la recuperación de la semántica en matrices dispersas de bolsas de palabras. Son técnicas destinadas al modelado de tópicos o conceptos latentes en conjuntos desestructurados de datos de texto. Estas tres técnicas se estudian en el marco de dos paradigmas generales del análisis estadístico de datos: el paradigma frecuentista y el paradigma de la inferencia Bayesiana. Las tres técnicas son: el análisis semántico latente o LSA, el análisis semántico latente de índole probabilística o PLSA y la atribución latente de Dirichlet o LDA. El trabajo estudia los fundamentos teóricos que subyacen al desarrollo de sus algoritmos y aplica sus implementaciones, en el lenguaje de programación Python, a un corpus de documentos tomados de la red social Twitter. El corpus consta de tres conjuntos de datos de texto en los cuales se busca reconstruir la semántica del concepto , tal y como se expresa en emisiones de usuarios de Twitter provenientes del entorno Iberoamericano. Al analizar los resultados obtenidos en las aplicaciones se pudo comprobar que el algoritmo de la LDA ofrece una semántica más general y profunda del concepto de derecho , al atravesar transversalmente los documentos, que el algoritmo del PLSA, cuyos resultados dan mejor cuenta de la semántica ad intra de los documentos. Al mismo tiempo, fue posible constatar que los algoritmos que implementan modelos de inferencia Bayesiana son más eficientes para la tarea de modelado de tópicos que los algoritmos que calculan valores singulares en matrices factorizadas. También se pudo comprobar un manejo competente de la semántica de la noción de "derechos", el cual evidencia familiaridad con el significado teórico e institucional de dicho concepto. No obstante, ese manejo se mantiene siempre en un nivel elevado de convencionalidad.	en_US
dc.language.iso	es	en_US
dc.subject	Modelado de tópicos	en_US
dc.subject	Reducción de la dimensionalidad	en_US
dc.subject	Semántica latente	en_US
dc.subject	Factorización de matrices	en_US
dc.subject	Modelos de inferencia Bayesiana	en_US
dc.subject	Algoritmos	en_US
dc.subject	LSA	en_US
dc.subject	PLSA	en_US
dc.subject	LDA	en_US
dc.subject	Universidad Central de Venezuela	en_US
dc.title	Estudio de dos paradigmas de modelado de tópicos en un corpus de documentos tomados de una red social.	en_US
dc.type	Thesis	en_US
Appears in Collections:	Maestría

Files in This Item:

File	Description	Size	Format
TGM_LMBarretoDEF.pdf		4.91 MB	Adobe PDF	View/Open

Show simple item record