|
SABER UCV >
2) Tesis >
Maestría >
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10872/20186
|
Título : | Estudio de dos paradigmas de modelado de tópicos en un corpus de documentos tomados de una red social |
Autor : | Barreto, Luz Marina |
Palabras clave : | reducción de la dimensionalidad factorización de matrices algoritmos LSA, PLSA y LDA |
Fecha de publicación : | 15-Oct-2019 |
Resumen : | Resumen
El presente trabajo estudia tres técnicas de modelado de tópicos, o reducción de la dimensionalidad, en conjuntos de datos de texto para la recuperación de la semántica en matrices dispersas de bolsas de palabras. Son técnicas destinadas al modelado de tópicos o conceptos latentes en conjuntos desestructurados de datos de texto. Estas tres técnicas se estudian en el marco de dos paradigmas generales del análisis estadístico de datos: el paradigma frecuentista y el paradigma de la inferencia Bayesiana. Las tres técnicas son: el análisis semántico latente o LSA, el análisis semántico latente de índole
probabilística o PLSA y la atribución latente de Dirichlet o LDA. El trabajo estudia los fundamentos teóricos que subyacen al desarrollo de sus algoritmos y aplica sus implementaciones, en el lenguaje de programación Python, a un corpus de documentos tomados de la red social Twitter. El corpus consta de tres conjuntos de datos de texto en los cuales se busca reconstruir la semántica del concepto “derechos”, tal y como se expresa en emisiones de usuarios de Twitter
provenientes del entorno Iberoamericano. Al analizar los resultados obtenidos en
las aplicaciones se pudo comprobar que el algoritmo de la LDA ofrece una
semántica más general y profunda del concepto de “derechos”, al atravesar
transversalmente los documentos, que el algoritmo del PLSA, cuyos resultados dan
mejor cuenta de la semántica ad intra de los documentos. Al mismo tiempo, fue
posible constatar que los algoritmos que implementan modelos de inferencia
Bayesiana son más eficientes para la tarea de modelado de tópicos que los
algoritmos que calculan valores singulares en matrices factorizadas. También se
pudo comprobar un manejo competente de la semántica de la noción de “derechos” por parte de los usuarios de esa red social, el cual evidencia familiaridad con el significado teórico e institucional de dicho concepto. No obstante, ese manejo se mantiene siempre en un nivel elevado de
convencionalidad.
Palabras claves: modelado de tópicos, reducción de la dimensionalidad,
semántica latente, factorización de matrices, modelos de inferencia Bayesiana,
algoritmos LSA, PLSA y LDA. |
Descripción : | Barreto,Luz Marina(2018)Estudio de dos paradigmas de modelado de tópicos en un corpus de documentos tomados de una red social.Trabajo de Grado presentado ante la Universidad Central de Venezuela para optar por el Título de Magister Scientiarum, Mención en Ciencias de la Computación |
URI : | http://hdl.handle.net/10872/20186 |
Aparece en las colecciones: | Maestría
|
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.
|