CO.ME.T.A. COvid19 MEdia Textual Analysis

Responsabile: Emma Zavarrone

Anno 2019

COVID19.

La ricerca si caratterizza per tre blocchi metodologici tra loro interconnessi:

  1. data integration: acquisizione di diversi tipi di dati non strutturati
  2. implementazione di algoritmi di NLP(Natural Language Processing)
  3. sviluppo di una dashboard interattiva per rappresentare in modo alternativo la prospettiva dei mass media sui tragici eventi riguardo l’infezione virale.

La dashboard, versione beta sviluppata interamente in R, sintetizza le principali metodologie applicate nella ricerca: a) text mining (sia sotto l’approccio BOW che POS), b) sentiment analysis con utilizzo di algoritmi di AI per lo sviluppo di un dizionario di riferimento con le polarità dei termini, c) textual network analysis e d) latent topic models.

La Figura 1 mostra il diagramma di flusso della dashboard: (1) estrazione dei contenuti, pre-elaborazione del corpus e prime visualizzazioni grafiche di tipo esplorativo; (2) analisi del sentiment e studio descrittivo dei testi: parole più frequenti e analisi della rete di co-occorrenza; (3) identificazione delle tematiche latenti all'interno dei contenuti raccolti; (4) creazione del network per rappresentare le relazioni semantiche tra gli argomenti e i termini estratti.

CO.ME.T.A. è ottimizzata per consentire un utilizzo facilitato anche a quegli utenti con un background non quantitativo attraverso la predisposizione di 

un layout intuitivo. L'interfaccia utente è suddivisa in tre aree: pannello di controllo a sinistra, spazio di stampa a destra e barra dei menu con i metodi nella parte superiore (Figura 2).

 Figura 1. Flowchart di CO.ME.T.A.

Figura 2