Fruisce da
|
20410147 IN470 - METODI COMPUTAZIONALI PER LA BIOLOGIA in Scienze Computazionali LM-40 CASTIGLIONE Filippo
(programma)
Outline del corso; Introduzione e generalita'; Bioinformatica e algoritmi; La biologia computazionale nella clinica e nell'industria farmaceutica; Farmacocinetica e farmacodinamica;
Introduzione alla Systems Biology: cosa e' la biologia computazionale; I ruoli della modellistica matematica e della bioinformatica; a cosa mira; quali sono i problemi; Strumenti teorici utilizzati della bio-matematica e della bioinformatica.
Introduzione alla biologia molecolare e cellulare (prima parte): conoscenza di base di genetica, proteomica e processi cellulari; Ecologia ed evoluzione; le molecola base; i legami molecolari; i cromosomi; ll DNA e la sua replicazione;
Introduzione alla biologia molecolare e cellulare (seconda parte); genomica; Il dogma centrale della biologia; Il progetto genoma; la struttura del genoma umanol Analisi dei geni; la trascrizione del DNA; i virus;
Laboratorio: generazione di numeri casuali; le funzioni srand48 e drand48; generazione casuale di stringhe nucleotidiche di lunghezza arbitraria (program1.c); generazione casuale di stringhe aminoacidiche di lunghezza arbitraria (program2.c);
Introduzione alle teoria dell'informazione; Shannon Entropy; Conditional Entropy; Mutual Information; Indici di diversita' biologica; Indice di Shannon; True diversity; Reny index;
Laboratorio: il codice genetico; Programma in C di trascrizione sequenza DNA e traduzione in proteine;
Introduzione ai processi stocastici; definizione base; esempi; modello di code; processo di Bernoulli e di Poisson; Processi Markoviani; i processi stocastici in bioinformatica e bio-matematica; l'autocorrelazione; Cenni ai Random Walks e all'algoritmo BLAST di sequence alignment come processo stocastico e principale algoritmo per la consultazione di database di sequenze biologiche;
Laboratorio: sviluppo di un algoritmo in C per il calcolo della Shannon Entropy di un testo in inglese (o in italiano) qualsiasi (e.g., http://www.textfiles.com/etext/)
Cammini casuali. L'algoritmo BLAST per l'allineamento di sequenze come cammino casuale; Laboratorio: implementazione in C di diversi algoritmi per la generazione di un random walk in 1D e 2D su reticolo e in R o R^2 segnale e calcolo del mean square displacement;
Confrontare sequenze: similarita' e omologia; pairwise alignment; distanza di editing; scoring matrices PAM e BLOSUM; Algoritmo di Needleman-Wunsch; allineamento locale; Algoritmo di Smith-Waterman; algoritmo BLAST;
Laboratorio: implementazione in C di un algoritmo per la generazione di un segnale con rumore e calcolo del correlogramma in presenza o assenza di un vero segnale;
Multiple Sequence Alignment; sequenza di consenso; algoritmi star alignment; ClustalW; entropy e circular sum scoring functions;
Banche dati biologiche; motivazioni; formato dati; tassonomia; DB primari; DB secondari; NCBI, EMBL, DDBJ; NCBI EBI-Entrez; Exact matching/string searching: generalita'; l'agoritmo di Knuth-Morris-Pratt;
Exact matching/string searching: l'agoritmo di Boyer-Moore;
Esercitazione su una implementazione dell'algoritmo di exact matching Knuth-Morris-Pratt. Esercitazione su banche dati biologiche; database primari; database secondari; NCBI, EMBL, DDBJ; NCBI EBI-Entrez; Uso dell'algoritmo BLAST
Phylogenetic Analysis; alberi filogenetici; dimensione dello spazio di ricerca di algoritmi filogenetici; Metodi di costruzione di alberi filogenetici; Dati usati per l'analisi filogenetica; L'algoritmo Unweighted Pair Group Method with Arithmetic mean (UPGMA); l'algoritmo Neighbor Joining Method; Hidden Markov Models; Decoding; the Viterbi Algorithm; Evaluation;
Laboratorio: completamento dell'esercizio su mutazione, selezione ed evoluzione di stringhe nucleotidiche (genotipo) tradotte in stringhe aminoacidiche (fenotipo); La selezione viene fatta in base alla presenza di determinate sottostringhe nel fenotipo che ne determina il valore di fitness; Dettagli implementatitvi, visualizzazione del criterio di convergenza e dei risultati, discussione, etc.;
Machine Learning; generalita'; supervised e unsupervised learning; model selection; undefitting; overfitting; Polynomial curve fitting; machine learning come stima dei parametri ed il problema dell'overfitting; suddivisione del training set in testing e testing; concetto di bias e variance trade-off; Artificial Neural Networks; definizone; il percettrone di Rosenblatt; l'algoritmo di apprendimento del percettrone; il multi-layer perceptron;
Laboratorio: completamento dell'implementazione in ANSI C dell'algoritmo evolutivo di stringhe nucleotidiche (genotipo) tradotte, mediante l'utilizzo del codice genetico, in stringhe aminoacidiche (fenotipo);
Hidden Markov Models; The Forward Algorithm; The Backward Algorithm; Posterior Decoding; Learning; Baum-Welch Algorithm; Uso di Hidden Markov Models per l'analisi di bio-sequenze; gene finding;
Artificial Neural Networks; l'algoritmo di error-back propagation per l'apprendimento del MLP; tipi di neural networks; convolution networks; reinforcement networks; unsupervised learning e self-organising maps; Cenni introduttivi alla teoria dei grafi; rappresentazione, terminologia, concetti; cammini; cicli; connettivita'; distanza; componenti connesse; distanza;
Cenni introduttivi alla teoria dei grafi; visita breadth-first search; depth-first search; algoritmo di Dijkstra; six-degree of separation; small world networks; misure di centralita'; degree centrality; eigenvector centrality; betweennes centrality; closeness centrality; La network biology; generalita'; concetti; tipi di dati biologici usati per costruire le reti; network biology e network medicine; problemi e algoritmi usati; misure di centralita'; random networks; scale-free networks; preferential attachment; scale-free network in biologia;
Laboratorio: completamento dell'esercizio sull'algoritmo evolutivo; Dettagli implementatitvi, visualizzazione del criterio di convergenza e dei risultati, discussione, etc.;
Modelli bio-matematici; predizione mediante modelli teorici; il paradigma itertativo della modellistica matematica; data-driven models; modelli di crescita di popolazione limitata e non; derivazione analitica ed esempi; crescita logistica; modelli ecologici limitati dalla densita'; Il modello di Lotka-Volterra; l'esperimento di Huffaker e Kenneth; il modello epidemico SIR e alcune sue varianti; Il modello di Perelson per la HAART; l'applicazione Java Populus per la soluzione di modelli continui di dinamica delle popolazione; cenni ai metodi di risoluzione numerica dei sistemi di equazioni differentiali;
Modelli discreti; modelli di spin (Ising models); Automi cellulari; Boolean networks; Agent-based models; data fitting e stima dei parametri; strumenti software disponibili; Automi cellulari; introduzione e storia; definizione; l'automa 1-dimensionale; classificazione di Wolfram; l'automa 2-dimensionale; il Game of Life di Conway; Software disponibile per la simulazione di CA; hardware dedicato (CA-Machine); il modello preda-predatore come automa cellulare bidimensionale; relazione con il sistema di equazioni alle derivare ordinarie; modelli stocastici; CA stocastici come sistemi dinamici discreti stochastici e processi stocastici; esempio di CA: Belousov-Zabotonsky reactions;
(testi)
[-] E.S. Allman, J.A. Rhodes. Mathematical Models in Biology: An Introduction (2004) Cambridge University Press. [-] W.J. Ewens, G.R. Grant. Statistical Methods in Bioinformatics, An Introduction (2005) Springer Verlag. [-] R. Durbin, S. Eddy, A. Krogh, G. Mitchison. Biological sequence analysis - Probabilistic models of proteins and nucleic acids (1998) Cambridge University Press.
|