fbpx

Entrar

Procesamiento de Lenguaje Natural a comentarios del curso de Soporte Vital Básico con aspectos avanzados

A Junio de 2021 mas de 2300 personas han tomado nuestro curso virtual de Soporte Vital Básico con Aspectos avanzados. Antes de finalizar el el curso, los estudiantes voluntariamente diligencian una encuesta de satisfacción.

Uno de los campos de la encuesta de satisfacción, es un campo abierto donde los estudiantes manifiestan su opinión de forma libre y espontánea.

Esta entrada tiene el propósito de analizar los comentarios de los estudiantes a través de métodos de Procesamiento de Lenguaje Natural (NLP) como área de la inteligencia artificial.

Procesamiento de Lenguage Natural

El procesamiento de Lenguage Natural es una de las áreas de la Inteligencia Artificial que tiene el propósito de realizar análisis automáticos sobre cualquier tipo de texto. Permite clasificar, organizar, buscar o descubrir información no explícita , reduciendo la carga manual.

El análisis realizado en esta entrada, es un análisis simple, donde se realizar un preprocesamiento del texto y un análisis de frecuencia de las palabras encontradas en los casi 700 comentarios disponible hasta este momento. Sin embargo, para comprender un poco el proceso realizado vamos a definir una serie de conceptos.

  • Tokenización: Convierte las palabras a tokens o unidades mínimas de análisis
  • Stop-woprds: O palabras vacías. Es un listado de palabras que no aportan al análisis del texto, que no tienen significado por si solas.
  • Lematización: Es el proceso de reducir la palabra (o token) a su raíz tal como aparece en el diccionario

Cargar los comentarios

De nuestro gestor de encuesta, exportamos los resultados en un archivo csv. El cual preprocesamos para extraer únicamente los comentarios de interés. Como no todos los estudiantes nos dejan su opinión, se eliminan los registros donde en el campo de texto libre se encuentre vacío. Una vez realizado este proceso, se obtienen 539 comentarios.

DataFrame con observaciones de los participantes

Al anterior set de datos, los tokenizamos. Para ello hemos utilizado la librería de NLTK obteniéndose los siguientes resultados.

Tokens de las opiniones

Eliminamos las palabras vacías o stopwords. Se incluyeron palabras adicionales como curso o cursos, dado que tienen una alta frecuencia pero por si sola no representa un calificador que se pueda analizar.

Listado de tokens sin stopwords

Ahora, las palabras definidas para el análisis las lematizamos. Para ello utilizamos la librería de Spacy que nos ayuda en esa tarea, obteniéndose el siguiente resultado:

Tokens de interés lematizados

Contamos las frecuencias de palabras lematizadas, donde se obtienen los siguientes resultados:

Frecuencia de palabras de interés.

Por último con una librería, generamos la nube de palabras, al cual es una representación de las palabras de acuerdo a la frecuencia encontrada. Se obtiene el siguiente resultado:

Nube de palabras

Análisis

Los resultados anteriores evidencia incialmente la calidad del curso, expresada en la palabra Excelente. Esto sumado a los resultados categóricos nos motiva a seguir desarrollando contenido de calidad para fortalecer tus conocimientos.

La segunda palabra con mas frecuencia es Gracias, demostrando que la modalidad de contenido gratuito le permite a la mayoría de las personas acceder al conocimiento, entiendiendo que no todos necesitan o requieren un certificado, sino que la motivación es la de aprender.

Seguiremos en la tarea de generar contenido de valor y otros nuevos cursos para fortalecer nuestra oferta. Si aún no has tomado este curso, te invitamos a que te matricules y lo realices.

Experimenta y aprende!

2EVS - SAS © Todos los derechos reservados