Analisi dei testi relativi ai programmi elettorali 2013

Salve.., come primo post di questo nuovo blog ho deciso di presentare dei risultati su un’ analisi che ho fatto sui programmi elettorali dei maggiori partiti  ( permettetemi di chiamare partiti  anche i vari movimenti/liste civiche .. ) per le elezioni  del 24/2/2013. Questa presentazione è stata pensata come un modo simpatico per introdurre  un settore di ricerca che mi ha sempre affascinato e su cui scriverò molto in questo blog : l’analisi di dati non strutturati. Esempi di dati non strutturati  sono  il testo scritto in linguaggio naturale e  le immagini, ossia  quei dati il cui  contenuto informativo non è racchiuso in uno schema prestabilito. In questo contesto estrarre l’informazione, come ad esempio la semantica di un testo,  è da sempre una delle sfide più grandi delle ricerca e numerosi sono stati i risultati raggiunti, alcuni dei quali hanno avuto degli impatti notevoli sulla vita delle persone come ad esempio i motori di ricerca.  Un articolo scientifico che descrive in maniera  superlativa  cosa si può fare analizzando dei dati è al seguente link. L’ articolo è stato scritto dai  ricercatori più importanti di tale settore e che ora lavorano tutti in Google :-( … .  Allo stesso tempo questo post  può essere uno stimolo per esercitare il nostro diritto in maniera informata. Sicuramente non è mia intenzione esprimere un giudizio di merito sui singoli partiti  e  quest’ analisi non ha il rigore di una sperimentazione scientifica, per cui mi limito a riportare solo quello che è emerso analizzando dati reali.  Devo anche ringraziare l’amico e collega dr Enrico Costanza  (esperto in HCI ) con il quale ho avuto interessanti discussioni sulle  tecniche di visualizzazione per i testi,  la Prof.ssa Maria Luisa Sapino , sempre pronta a insegnarmi nuove tecniche/modelli per l’ analisi di dati non strutturati, i mei colleghi Luigi e Claudio che durante la pausa pranzo mi hanno fatto delle osservazioni interessanti sulle immagini ottenute.

Scopo dell’analisi:

Le domande con cui ho iniziato quest’analisi sono state : 1) E’ possibile evidenziare delle similitudini nei programmi elettorali? 2) E’ possibile che ogni partito abbia un suo linguaggio e come questo linguaggio è utilizzato per esprimere proposte/opinioni politiche? 3) Quali sono i concetti principali per ogni partito?

I dati:

I programmi analizzati sono stati (ordine di presentazione casuale) :

Come vedete c’è un assente “importante” ai fini dell’analisi, ma alla data di scrittura di questo blog non è presente nessun programma per il PDL. Ci  sono delle slides ma il contenuto non è confrontabile (in termini numerici (in tutto una decina di parole)) con gli altri per cui ho deciso di non estrarre alcun testo.

Ho deciso di considerare i testi con contenuti più numerosi (  purché  dichiarati come programmi) quanto nelle pagine web erano presenti diversi contenuti. Per Ingroia-Dataset si tratta di  linee generali per cui molto più sintetiche ma sul sito era l’unico contenuto disponibile.

 

Metodologia

I testi sono stati filtrati con degli script python, eleminando le parole più comuni nelle lingua italiana (anche, ancora, che, .. ) e le parole con lunghezza inferiore a 3 per cui non troveremo la famosa IMU. Inoltre i contenuti sono stati anche filtrati in base al ruolo grammaticale (nomi e verbi) mediante il sw treetagger. Il risultato di questo processamento è stato presentato  mediante  tag cloud. La tag cloud è un’ immagine fatta di parole, dove ogni parola è visualizzata con una dimensione dei caratteri proporzionale alla frequenza con cui compare nel testo. Per cui se facciamo l’ipotesi che la frequenza è un indicatore di importanza, con questa visualizzazione possiamo vedere come si distribuiscono le parole nei vari programmi in ordine di importanza.   Le tag cloud sono state realizzate con http://www.wordle.net/

 

Risultati/Commenti 1

In questa prima parte abbiamo i testi interi in cui sono state eleminate solo le parole più comuni, per cui ritroviamo sia termini simili che i singolari/plurali (europeo,europei) ripetuti.

La Monti Tag Cloud 

Bersani-Dataset tag cloud

 

Grillo-Dataset Tag Cloud

 

 

Ingroia-Dataset Tag Cloud 

 

Alcune Osservazioni:

1) Monti-Dataset e Bersani-DataSet presentano un linguaggio più ricco e strutturato (sono anche i dati più numerosi).

2) In Monti-Dataset ritroviamo un linguaggio molti ricco di termini economici (impresa,economia,mercato) e anche i toni sono abbastanza imperativi (bisogna, occorre), il termine spesa che è stato uno dei più presenti nel dibattito politico appare più defilato.

3) Bersani-Dataset presenta il linguaggio più ricco come quantità e diversità dei termini usati, probabilmente indicatore del fatto che il programma è stato scritto da persone di competenze diverse,  non esiste un termine più diffuso di altri, sicuramente è un linguaggio più “politichese” (democrazia,progressisti).

4) in  Besani-Dataset il termine destra ha un ruolo maggiore di altri termini, per cui si evince che è un testo molto costruito sulla contrapposizione.

5) in  Bersani-Dataset  i verbi rappresentano forme più partecipative (crediamo, promuovere,partecipazione) rispetto a Monti-Dataset.

6) in Grillo-Dataset ritroviamo un linguaggio tipico di un movimento che ruota su alcune concetti base (salute, energia, informazione, iniziative), non presenta particolari termini di contrapposizione o di antipolitica (come ad esempio casta). Sicuramente la parola cittadini ha un ruolo fondamentale. Faccio notare che la parola energia ( che può essere utilizzata anche con diversi significati) ha un ruolo centrale.

7)Ingroia-Dataset ha fatto suo l’aforisma  “volere è potere.” :-) ,  il termine cambiamento ha una  importanza maggiore rispetto a Grillo-Dataset, cosi come il concetto di scelta, almeno in questa prima cloud non troviamo particolare enfasi su temi legati alla giustizia.

 

Risultati/Commenti  2

In questa matrice ritroviamo le similitudine tra i due programmi, il colore rappresenta il valore di similitudine, la decodifica numerica è rappresentata nella barra laterale. Il rosso (usato nella diagonale rappresenta la piena similarità..)

 

 

Monti-Dataset e Bersani-Dataset hanno i programmi più simili e quello più distante da un possibile accoppiamento è Ingroia-Dataset. Sarà questa matrice a indicare le prossime alleanze elettorali :-) ???

Di seguito vi allego altre immagini, senza ulteriori commenti, relative alle differenze e filtraggi fatti sui i concetti e sui verbi su alcuni dei dataset introdotti.  Su github trovate oltre agli script , utilizzati per pulire il testo anche i dati utilizzati per produrre le tag-cloud.) Sicuramente un ‘analisi delle co-occorrenze potrebbe essere molto interessante..

 

 

 

Concetti presenti in Monti-Dataset  ma non in Bersani-Dataset:

 

Concetti presenti in Bersani-Dataset ma non in Monti-Dataset:

 

 

Verbi presenti in Monti-Dataset  ma non in Bersani-Dataset:

 

 

Verbi  presenti in Bersani-Dataset ma non in Monti-Dataset:

 

Bersani ha scelto come slogan della campagna “l’Italia giusta” ma se vediamo i nomi e gli aggettivi del programma :

 

troviamo accoppiamenti diversi :-) ..

Leave a Reply

Your email address will not be published. Required fields are marked *

     

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>