Statistica e data mining

1. PREMESSA

Analizzare dati e decidere sulla base di indicatori numerici rappresentano oramai capacità indispensabili a chi deve compiere scelte decisionali rilevanti.  L’uso dell’informatica distribuita ha inoltre aumentato notevolmente la quantità delle informazioni disponibili, attraverso banche dati online, indagini e rilevazioni continuamente pubblicate. Saper sintetizzare correttamente queste informazioni rappresenta un aspetto professionale qualificante, che consente di valutare situazioni e tendenze in corso sulla base dei dati di fatto.

2. OBIETTIVI DEL CORSO

Interpretare ed elaborare dati statistici.

3. PREREQUISITI

Il corso richiede competenze preliminari sull’uso del PC. Può essere modulato opportunamente per quadri intermedi e coordinatori.  La durata può variare da uno a tre giornate di lezione.

4. PROGRAMMA

  • CONCETTI DI BASE.   Analisi statistica di un solo carattere. Dal dato statistico alle distribuzioni di frequenza   Rappresentazioni grafiche. Sintesi delle distribuzioni: valori medi,   indici di variabilità assoluti e relativi. Confronto tra dati statistici. Analisi statistica di due caratteri considerati congiuntamente. Distribuzioni congiunte, marginali e condizionate. Studio dell'indipendenza e della connessione. La dipendenza in media. La regressione e la correlazione lineare.
  • ELEMENTI DI TEORIA DELLA STIMA E INDAGINI CAMPIONARIE. Parametri, statistiche e stimatori.  Proprietà ottimali degli stimatori. Confronto tra due o più stimatori. Metodi di stima della massima verosimiglianza, dei minimi quadrati. Intervalli di confidenza.
  • CONTROLLO DI IPOTESI STATISTICHE. Le fasi di un test statistico. Ipotesi nulla e ipotesi alternativa. Significatività e potenza di un test. Ipotesi su medie: test normale e test t Ipotesi su varianze: il test F.  Analisi della varianza.
  • METODI DI DATA MINING E ANALISI MULTIDIMENSIONALE DEI DATI.  Metodi di segmentazione, cluster analysis, regressione logistica, regressione lineare multipla.


5. METODI DIDATTICI  E TESTI DI RIFERIMENTO

Lezioni frontali articolate attraverso una prima fase esplicative e una successiva di verifica e partecipazione. Esercitazioni su PC attraverso l’uso del programma Excel o con software statistico (SPSS). Le lezioni prevedono slide e dispense di supporto.

D. Piccolo,2000, Statistica, Il Mulino, Bologna.
M.R. Spiegel, 1976, Statistica, Collana Schaum.
Istat, Manuale di tecniche di indagine, Roma, 1989
L. Fabbris, Statistica multivariata - Analisi esplorativa dei dati. McGraw Hill, Milano 1997.