Implementación de un Método para la Clasificación Automática de Documentos Usando Tareas de Procesamiento de Lenguaje Natural y un Algoritmo de Máxima Entropía
Palabras clave:
Clasificación Automática de Documentos, Procesamiento de Lenguaje Natural, Máxima EntropíaResumen
La presente investigación tiene como propósito la implementación de un método para la clasificación automática de documentos usando una aproximación de procesamiento de lenguaje natural (PLN), y un algoritmo basado en el principio de máxima entropía. Se consiguió una combinación de técnicas y parámetros que brinde la mayor eficacia posible en la clasificación de un texto ingresado con base en un conjunto de categorías preseleccionadas. El proceso investigativo inicia con la selección de las categorías y datos a usarse para los experimentos, obteniendo las cantidades de documentos que brinden mayor estabilidad al sistema seguido del pre-procesado de dichos datos mediante el uso de algoritmos de PLN, posteriormente se ejecuta el entrenamiento y luego las pruebas a cada experimento con las cuales se obtienen las medidas de evaluación para el clasificador. Finalmente se realiza un análisis comparativo de los resultados, determinando así la combinación de parámetros y técnicas de pre-procesado que brinde mayor eficacia en la clasificación para el conjunto de documentos estudiados. Todo este proceso está enmarcado en un entorno de noticias digitales, en el cual se consiguió una clasificación efectiva para el 91% de los documentos analizados, utilizando siete categorías con un total de 1400 noticias de entrenamiento por cada una y haciendo uso de la eliminación de palabras vacías y el stemming como técnicas de PLN, mostrando así la efectividad de los métodos utilizados en cuerpos de texto escritos en el idioma español.Descargas
Los datos de descargas todavía no están disponibles.