|
Una de las características principales de cualquier texto es referirse a un tema concreto, así como contener palabras clave que lo definan, que pueden permitirnos clasificar dicho texto en función de uno o varios temas principales. El objetivo de este proyecto ha sido poder automatizar todo este proceso mediante técnicas de Text Mining, Procesamiento del Lenguaje Natural y Machine Learning utilizando el lenguaje de programación Python 3, uno de los lenguajes más utilizados en la actualidad y con mayor proyección a futuro. Para ello, hemos aplicado diferentes procedimientos, como son, el establecer un directorio de trabajo que incluya el corpus a analizar, la lectura de los datos de dicho corpus, el procesado de los mismos y la aplicación del algoritmo LDA (Latent Dirichlet Allocation) para modelado de tópicos con técnicas de aprendizaje no supervisado, consiguiendo la clasificación automática del texto sin partir de un conjunto predefinido de temas de clasificación. En nuestro caso hemos aplicado este procedimiento a la revista “Cuadernos Salmantinos de Filosofía”, publicada por la Universidad Pontifica de Salamanca. Los resultados obtenidos han sido representados de forma numérica, gráfica y textual, siendo comprobados y validados por un experto en filosofía, demostrando así la utilidad del algoritmo utilizado.
|