Questa raccolta di dispense è a uso dei miei studenti dell'insegnamento di Statistica e analisi dei dati. Gli argomenti trattati riguardano i temi non presenti sul libro di testo adottato e sono quindi da intendersi come materiale integrativo (da leggere: non sostitutivo del libro di testo!).

Le dispense possono essere utilizzate in tre modi differenti: leggendo la versione statica tramite browser, utilizzando una versione interattiva basata su Docker oppure clonando un repository github.

Versione statica

Nella loro versione statica le dispense sono consultabili tramite un browser Web (in versione recente) collegandosi all'indirizzo https://dariomalchiodi.gitlab.io/sad-python-book.

Versione interattiva basata su Docker

Il contenuto delle dispense è scritto utilizzando dei notebook jupyter, e quindi è possibile eseguire e modificare il codice in esse contenuto. In particolare, la versione basata su Docker non richiede di effettuare alcuna installazione (a parte ovviamente quella di Docker). Per utilizzare le dispense è sufficiente, nell'ordine:

  1. Aprire un terminale (aka prompt dei comandi) e posizionarsi nella directory in cui si vuole tener traccia del proprio lavoro;
  2. Eseguire il comando docker pull dariomalchiodi/sad al fine di scaricare, se serve, la versione più aggiornata del materiale;
  3. Eseguire il comando docker run --rm -ti -p 127.0.0.1:8888:8888 -v $(pwd):/home/jovyan/my-work dariomalchiodi/sad;
  4. Analizzare l'output ottenuto e da esso copiare il testo http://localhost:8888/?token=TOKEN, dove TOKEN rappresenta una successione di caratteri alfanumerici;
  5. Incollare il testo copiato nella barra indirizzi del proprio browser.

Versione interattiva basata su git

Chi preferisce cimentarsi con l'installazione degli strumenti utilizzati (e i miei studenti dovrebbero sentire l'impulso di farlo...) può scaricare e utilizzare i soli notebook clonando il repository git@gitlab.com:dariomalchiodi/sad-python-book.git. Per verificare quale software installare è sufficiente analizzare il contenuto del file Dockerfile all'interno del repository stesso.


Introduzione a python

I tipi di dati in python

Le liste

Operatori, funzioni e metodi per le liste

Le tuple

Le stringhe

Gli insiemi

I dizionari

Strutture di controllo

Funzioni

Importare moduli

Disegnare grafici

Leggere dati da file (e un po' di trucchi)

Pandas

Serie

Visualizzione grafica di una serie

Operazioni con le serie

Dataframe

Dati e frequenze

Dati quantitativi e qualitativi

Classificazione dei dati qualitativi

Classificazione dei dati quantitativi

Frequenze assolute e relative e loro visualizzazione

Frequenze cumulate

Diagrammi di Pareto ###

Frequenze congiunte e marginali

Alcuni approfondimenti sulla generazione dei grafici *

I diagrammi stelo-foglia *

Calcolo della dispersione in pandas

Indici di dispersione

Box plot

Diagrammi Q-Q

Simmetria, distribuzioni approssimativamente normali e regola empirica

Una nota sulla produzione dei grafici *

Indici di eterogeneità

Indice di eterogeneità di Gini

Entropia

Alberi di decisione

Indici di concentrazione

Trasformazione dei dati

Trasformazioni lineari

Cambiamento di origine (traslazione)

Cambiamento di scala (dilatazione o contrazione)

Cambiamento di origine e scala

Standardizzazione

Trasformazioni logaritmiche

Analisi della varianza

Dimostrazione *

Analisi di classificatori

Sensibilità e specificità

Classificatori costanti

Classificatori ideali

Classificatori casuali

Classificatori a soglia

Calcolo combinatorio

Principio fondamentale del calcolo combinatorio

Permutazioni

Permutazioni semplici

Permutazioni di oggetti distinguibili a gruppi

Disposizioni e combinazioni

Esercizi

Esercizio 1

Esercizio 2

Esercizio 3

Esercizio 4

Esercizio 5

Esercizio 6

Esercizio 7

Generazione di disposizioni, permutazioni e combinazioni

Classificatori naive Bayes

La distribuzione geometrica

Esercitazione di ripasso

Dario Malchiodi e Anna Maria Zanaboni

8/1/2018

Esercizio 1.1

Svolgimento

Punto 1

Punto 2

Punto 3

Esercizio 1.2

Svolgimento

Punto 1

Punto 2

Punto 3

Esercizio 1.3

Svolgimento

Esercizio 2

Svolgimento

Punto 1

Punto 2

Punto 3

Punto 4

Punto 5

Punto 6

Punto 7

Punto 8

Punto 9

Esercizio 3

Svolgimento

Punto 1

Punto 2

Punto 3

Punto 4

Punto 5

Punto 6

Punto 7

Punto 8

Punto 9

Punto 10

Punto 11

Punto 12

Punto 13

Esercizio 4

Svolgimento

Punto 1

Punto 2

Punto 3


D. Malchiodi, Superhero data science. Vol 1: probabilità e statistica, 2017.
Powered by Jupyter Notebook
Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 4.0 Internazionale.