Corso di formazione su Predictive Analytics & Machine Learning con Python

Il corso illustra gli aspetti del linguaggio Python legati in particolare all’input/output dei dati e alla loro manipolazione e offre una visione completa delle tecniche di Analisi Predittiva, da un punto di vista teorico e per mezzo di esercitazioni.

DESCRIZIONE: il corso si apre con una prima giornata dedicata ad alcuni aspetti del linguaggio Python legati in particolare all’input/output dei dati e alla loro manipolazione.
I seguenti due giorni di formazione offrono una visione completa delle tecniche di Analisi Predittiva, da un punto di vista teorico e per mezzo di esercitazioni.

OBIETTIVI: i partecipanti beneficeranno di una solida base per la messa in atto di modelli di analisi predittiva, così come di strumenti immediatamente utilizzabili all’interno dell’azienda.

NATURA DEL CORSO: per ogni argomento saranno forniti dal docente esempi in linguaggio Python.
Sono previste esercitazioni da svolgere in autonomia da parte degli studenti.

REQUISITI SOFTWARE:
– Python (Anaconda con notebook Jupyter)
– Si richiede inoltre una connessione internet per consentire a ciascun partecipante di installare eventuali package aggiuntivi

PROGRAMMA DEL CORSO
1. PARTE I (Durata indicativa 1 giornata)
– Le strutture dati di python (List, tuple, set, dictionary)
– Input e output dei dati con Python (Lettura e scrittura di file di testo – Lettura e scrittura di tabelle nel database relazionali )
– Manipolare i dati con Pandas (Filtrare righe e colonne – Utilizzare funzioni per manipolare i dati – Aggiungere / rimuovere colonne)
– Strutture dati di numpy (Array numpy – Convertire i dati da pandas a numpy e viceversa)
2. PARTE II (Durata indicativa 1/2 giornata)
Nel dettaglio le tematiche trattate saranno le seguenti:
– Introduzione all’analisi predittiva e al machine learning. Cos’è e a cosa serve.
– Metodologia CRISP-DM: descrizione dello standard CRISP-DM e delle fasi della metodologia in esso contenuta. Le fasi della metodologia sono: Business Understanding, Data Understanding, Algorithm selection, Modeling, Model evaluation, Deployment, Feedback
– Business & Data Understanding: le prime due fasi della metodologia sono descritte nel dettaglio. In particolare saranno mostrate alcune tecniche di esplorazione dei dati.
– Problem assessment: che tipo di problema aziendale si vuole risolvere, quali dati sono disponibili per farlo, come utilizzarli efficacemente
3. PARTE III (Durata indicativa 1/2 giornata)
La preparazione dei dati è fondamentale per la buona riuscita dei progetti di analisi predittiva. In questa parte saranno affrontate tutte le problematiche relative alla costruzione dei dataset e alla definizione delle best practices.
I principali argomenti sono:
– Data preparation ( Tecniche di data cleaning – Gestione dei missing value – Normalizzazioni e rescaling – Trasformazione di variabili qualitative in variabili quantitative (dummy variables, feature hashing)
– Feature Engineering (creazione delle variabili di input per le varie tipologie di modelli: classificazioni, regressioni e modelli di time series)
– Feature Selection: tecniche di selezione delle variabili basate su: Tecniche statistiche (cenni) e Modelli di predictive analytics
4. PARTE IV (Durata indicativa 1 giornata)
In questa parte affronteremo la creazione e la valutazione dei modelli predittivi. I principali argomenti sono:
Algorithm selection (Tassonomia degli algoritmi – Analisi di alcuni algoritmi (regressione logistica, reti neurali, SVM, decision tree, random forest, deep learning, algoritmi di clustering) evidenziandone caratteristiche tecniche, benefici e limiti)
Model training (Creazione del training set e del test set – Fine-tuning dei modelli – Hyperparameter tuning – Cross Validation)
Model evaluation (La matrice di confusione – La curva ROC – Le principali metriche di performance della bontà del modello (per classificazione, regressione e clustering)