Corso di Laurea in Scienze e Tecnologie Biomolecolari

Corso integrato in Management di Laboratorio
Presidente: Prof.ssa Ida Giardino

Modulo di Bioinformatica (SSD ING-INF/05)
(Programma ufficiale di insegnamento)


Anno accademico: 2017/2018 - Anno di erogazione: 2019-2020
- III anno II semestre (5 CFU, 40 ore)

Prof. Crescenzio Gallo

Prof. Crescenzio GALLO


Prerequisiti

Concetti statistici fondamentali. Buona conoscenza di un ambiente di elaborazione e dei tool software foglio elettronico e database.

Modalità di erogazione

Lezioni frontali; case study; esercitazioni applicative in laboratorio.

Obiettivi formativi e risultati attesi

Il corso si propone l'obiettivo di introdurre gli allievi all'analisi e modellizzazione dei dati secondo l'approccio "data mining" e fornire competenze per l'elaborazione dei dati mediante strumenti software open-source.
Gli allievi dovranno acquisire la capacità di individuare i dati rilevanti in un studio, impostare i modelli di elaborazione, implementare e testare gli algoritmi di Machine Learning/Data Mining utilizzando i corretti tool software.

Contenuti

Raccolta e presentazione dei dati per l'analisi. Il modello del data mining. Modelli ed algoritmi di classificazione supervisionata e non supervisionata. La valutazione della performance predittiva dei modelli. Il tool Open Source di analisi dei dati Orange con applicazioni alla Bioinformatica. Il software open source R con applicazioni alla Bioinformatica.

Testi consigliati


Articoli

Programma dettagliato

Link utili



A V V I S O

IL DOCENTE RICEVE "A DISTANZA" 
GLI STUDENTI PER QUALSIASI ESIGENZA DIDATTICA TRAMITE LE MODALITA` DI 
INTERAZIONE ILLUSTRATE NELLA PAGINA DEL Tutorato.
  • Il Corso avrà inizio Mercoledì 25 Marzo alle ore 9 in modalità e-learning a distanza, e proseguirà in tale modalità sino alla lezione del 30/04/2020.
  • L'eventuale ripresa delle lezioni in aula dal 6/05/2020 sarà comunicato in base alle determinazioni prese dall'Ateneo e dai Dipartimenti: in caso di mancata comunicazione, le lezioni proseguiranno online sulla piattaforma di e-learning.
  • Gli studenti possono fare riferimento a questa pagina web (http://www.crescenziogallo.it/unifg/medicina/STBM/BINF/2019-2020/) per scaricare il materiale didattico man mano che sarà reso disponibile durante il Corso.
  • Per qualsiasi esigenza il docente è contattabile via mail o Hangouts all'indirizzo crescenzio.gallo@unifg.it
  • In aggiunta alla piattaforma di e-learning di Ateneo sulla quale si terranno le lezioni online a distanza (http://elearning.unifg.it), gli studenti del Corso possono anche partecipare interattivamente alle lezioni tramite Skype mediante il seguente link.
  • Gli studenti sono invitati a prendere visione e possibilmente aderire al progetto Folding@Home della Stanford University: i dettgli sono illustrati in questo documento.
  • Si avvisano gli interessati che il malfunzionamento del widget GEO che non riesce più a leggere i Data Sets di NCBI Gene Expression Omnibus è semplicemente dovuto alla versione recente di Orange. Basta installare la versione 3.24.1 e tutto dovrebbe funzionare perfettamente.


Calendario delle lezioni (II semestre)

Data
Dalle    Alle
N.ore Argomento
25/03/2020
e-learning
9:00
11:30
3
Lezione 1 -- Presentazione del corso. La biostatistica.
26/03/2020
e-learning
9:00
11:30
3
Lezione 2 -- Introduzione al Machine Learning (esempio video). Esplorazione dati e pre-processing.
02/04/2020
e-learning
9:00
11:30
3
Lezione 3 -- Classificazione supervisionata e non supervisionata.
03/04/2020
e-learning
9:00
11:30
3
Lezione 4 -- Orange: Introduzione - Caricamento dati - Visualizzazione dati interattiva - Programmazione visuale - Elenco completo dei Widget - Esempio di widget (regressione polinomiale)
15/04/2020
e-learning
9:00
11:30
3
Lezione 5 -- Machine learning con Orange: I widget File e Data Table - Esempio di visualizzazione interattiva - Visualizzazione di subset - Clustering gerarchico: esempio 1 | esempio 2 - Clustering k-Means - Pivot table - PCA - Feature ranking - Cross-validation - Misclassification - Silhouette plot
22/04/2020
e-learning
9:00 11:30 3 Lezione 6 -- Reti Neurali Artificiali: concetti base, approfondimenti.
23/04/2020
e-learning
9:00
11:30
3
Lezione 7 -- Orange Bioinformatics: Databases Update - GEO Data Sets (vedi AVVISO) - dictyExpress - Genes - Differential Expression - GO Browser - KEGG Pathways - Gene Set Enrichment - Cluster Analysis - Marker Genes - Annotator - Line Plot - Biotutorial (dataset "chemogenomics" e "yeast-interactions")
29/04/2020
e-learning
9:00
11:30
3
Lezione 8 -- Il linguaggio R: introduzione.
30/04/2020
e-learning
9:00
11:30
3
Lezione 9 -- Uso di R per il Machine Learning e la Bioinformatica (testo "Bioinformatica con R").
06/05/2020 9:00
11:30
3
Lezione 10 -- Applicazioni di R per la Bioinformatica: accesso alle banche dati biologiche, analisi di sequenze.
07/05/2020 9:00
11:30
3
Lezione 11 -- Applicazioni di R per la Bioinformatica:allineamento a coppie e allineamenti multipli; alberi filogenetici.
13/05/2020 9:00
11:30
3
Lezione 12 -- Applicazioni di R per la Bioinformatica: gene-finding computazionale; modelli multinomiali di evoluzione genica, Hidden Markov Models.
14/05/2020 9:00
11:30
3
Lezione 13 -- Applicazioni di R per la Bioinformatica: analisi strutturale delle proteine (grafi di interazione proteica; estrazione di caratteristiche delle proteine; ricerca BLAST; visualizzazione delle strutture proteiche); analisi di dati da microarray (lettura dei file CEL; controllo della qualità dei dati da microarray; il fold change nei geni differenzialmente espressi; clustering e visualizzazione di network di dati).
18/05/2020 9:00
9:50
1
Lezione 14 -- Applicazioni di R per la Bioinformatica: analisi dei dati di spettrometria di massa (MS). Il Machine Learning in R (clustering, classificazione, cross-validation, identificazione di biomarcatori).


Calendario degli esami (modalità orale su piattaforma https://elearning.unifg.it)

Avvertenze