Encontrar eventos reales en el conjunto de datos de reddit mediante el modelado de temas y el análisis de series de tiempo

En esta publicación, compartiremos nuestro trabajo (código y resultados) de modelado de temas y detección de eventos reales en datos textuales.

Descarga del conjunto de datos de Reddit

Primero, descargamos los datos de Reddit usando la API “pushshidt”. El siguiente código permite descargar los datos por debajo del límite de velocidad, usando la fecha de inicio, la fecha de finalización, el nombre del subreddit y el tipo de texto (que puede ser envío o comentario). Descargamos subreddits de Conspiración, Conservadores y Demócratas durante el período de tiempo 1.8.2020–1.2.2021.

Preprocesamiento de datos

Después de tener los marcos de datos de publicaciones y comentarios, nos gustaría limpiar y preprocesar los datos. Para cada envío, concatenamos los campos “título” y “autotexto” para obtener uno …


#classfa #relnoopener #hrefhumanresourceanalyticscanwepredictemployeeturnoverwithcaretinr3d871217e708sourcecollectionhome0Análisis #recursos #humanos #podemos #predecir #rotación #empleados #con #intercalación