Algoritmi per big data
(obiettivi)
In molti contesti applicativi sono in gioco enormi volumi di dati che vengono utilizzati in ambito economico-finanziario, politico, sociale ed anche istituzionale. Spesso i dati sono memorizzati in enormi cloud distribuite e talvolta sono generati secondo un flusso continuo, così consistente da renderne impossibile una memorizzazione completa. In moltissimi casi i dati sono inerenti ad entità in fitta relazione tra loro e danno luogo a immense reti di collegamenti. Esempi comuni di tali reti sono le reti sociali e biologiche, le reti di distribuzione e il grafo del Web. Inoltre il fatto che i dati siano memorizzati in sistemi gestiti da terze parti pone problemi di integrità che non trovano riscontro nella letteratura informatica classica sia per la tipologia sia per la scala.
Questo scenario pone sfide algoritmiche inedite sulle quali è al lavoro una vasta platea di ricercatori. Tale sforzo ha prodotto, nell’ultimo decennio, molte novità sia sul piano metodologico sia sul piano tecnologico. L’insegnamento ha lo scopo di trasferire agli studenti alcuni tra i più importanti strumenti metodologici nati nell’ambito della ricerca sugli algoritmi per Big Data. Tali strumenti metodologici sono proposti assieme a contesti applicativi sfidanti.
|
Codice
|
20810211 |
Lingua
|
ITA |
Tipo di attestato
|
Attestato di profitto |
Crediti
|
6
|
Settore scientifico disciplinare
|
ING-INF/05
|
Ore Aula
|
54
|
Attività formativa
|
Attività formative caratterizzanti
|
Canale Unico
Docente
|
DI BATTISTA GIUSEPPE
(programma)
1) Algorithms for data streams - Approximate counting - Majority problems - Sampling and reservoir sampling - Bloom filters - Frequent itemsets - Number of distinct elements 2) Dimensionality reduction Johnson–Lindenstrauss lemma Embedding metric spaces with low distortion 3) Algorithms and data structures for quantitative features analysis - orthogonal range searching (kd-trees and range trees) - nearest neighbour search, k-nearest neighbour search - fractional cascading and simplex range search 4) Algorithms for the decomposition of complex networks - Decomposition into k-connected components - Decomposition into k-cores, maximal cliques, maximal k-plexes 5) NoSQL internals: Distributed Hash Tables, chord, consistent hashing 6) Scalable security: integrity of big data sets in the cloud, consistency and scalability issues with authenticated data structures, pipelining, blockchain scalability trilemma.
(testi)
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeff Ullman Cambridge University Press http://www.mmds.org/
|
Date di inizio e termine delle attività didattiche
|
Dal 01/03/2023 al 10/06/2023 |
Modalità di erogazione
|
Tradizionale
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova scritta
Valutazione di un progetto
|
Docente
|
PATRIGNANI MAURIZIO
(programma)
1) Algorithms for data streams - Approximate counting - Majority problems - Sampling and reservoir sampling - Bloom filters - Frequent itemsets - Number of distinct elements 2) Dimensionality reduction - Johnson–Lindenstrauss lemma - Embedding metric spaces with low distortion 3) Algorithms and data structures for quantitative features analysis - orthogonal range searching (kd-trees and range trees) - nearest neighbour search, k-nearest neighbour search - fractional cascading and simplex range search 4) Algorithms for the decomposition of complex networks - Decomposition into k-connected components - Decomposition into k-cores, maximal cliques, maximal k-plexes 5) NoSQL internals: Distributed Hash Tables, chord, consistent hashing 6) Scalable security: integrity of big data sets in the cloud, consistency and scalability issues with authenticated data structures, pipelining, blockchain scalability trilemma.
(testi)
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeff Ullman Cambridge University Press http://www.mmds.org/
|
Date di inizio e termine delle attività didattiche
|
Dal 01/03/2023 al 10/06/2023 |
Modalità di erogazione
|
Tradizionale
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova scritta
Valutazione di un progetto
|
Docente
|
FRATI FABRIZIO
(programma)
1) Algorithms for data streams - Approximate counting - Majority problems - Sampling and reservoir sampling - Bloom filters - Frequent itemsets - Number of distinct elements 2) Dimensionality reduction - Johnson–Lindenstrauss lemma - Embedding metric spaces with low distortion 3) Algorithms and data structures for quantitative features analysis - orthogonal range searching (kd-trees and range trees) - nearest neighbour search, k-nearest neighbour search - fractional cascading and simplex range search 4) Algorithms for the decomposition of complex networks - Decomposition into k-connected components - Decomposition into k-cores, maximal cliques, maximal k-plexes 5) NoSQL internals: Distributed Hash Tables, chord, consistent hashing 6) Scalable security: integrity of big data sets in the cloud, consistency and scalability issues with authenticated data structures, pipelining, blockchain scalability trilemma.
(testi)
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeff Ullman Cambridge University Press http://www.mmds.org/
|
Date di inizio e termine delle attività didattiche
|
Dal 01/03/2023 al 10/06/2023 |
Modalità di erogazione
|
Tradizionale
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova scritta
Valutazione di un progetto
|
Docente
|
PIZZONIA MAURIZIO
(programma)
1) Algorithms for data streams - Approximate counting - Majority problems - Sampling and reservoir sampling - Bloom filters - Frequent itemsets - Number of distinct elements 2) Dimensionality reduction - Johnson–Lindenstrauss lemma - Embedding metric spaces with low distortion 3) Algorithms and data structures for quantitative features analysis - orthogonal range searching (kd-trees and range trees) - nearest neighbour search, k-nearest neighbour search - fractional cascading and simplex range search 4) Algorithms for the decomposition of complex networks - Decomposition into k-connected components - Decomposition into k-cores, maximal cliques, maximal k-plexes 5) NoSQL internals: Distributed Hash Tables, chord, consistent hashing 6) Scalable security: integrity of big data sets in the cloud, consistency and scalability issues with authenticated data structures, pipelining, blockchain scalability trilemma.
(testi)
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeff Ullman Cambridge University Press http://www.mmds.org/
|
Date di inizio e termine delle attività didattiche
|
Dal 01/03/2023 al 10/06/2023 |
Modalità di erogazione
|
Tradizionale
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova scritta
Valutazione di un progetto
|
Docente
|
DA LOZZO GIORDANO
(programma)
1) Algorithms for data streams - Approximate counting - Majority problems - Sampling and reservoir sampling - Bloom filters - Frequent itemsets - Number of distinct elements 2) Dimensionality reduction -Johnson–Lindenstrauss lemma Embedding metric spaces with low distortion 3) Algorithms and data structures for quantitative features analysis - orthogonal range searching (kd-trees and range trees) - nearest neighbour search, k-nearest neighbour search - fractional cascading and simplex range search 4) Algorithms for the decomposition of complex networks - Decomposition into k-connected components - Decomposition into k-cores, maximal cliques, maximal k-plexes 5) NoSQL internals: Distributed Hash Tables, chord, consistent hashing 6) Scalable security: integrity of big data sets in the cloud, consistency and scalability issues with authenticated data structures, pipelining, blockchain scalability trilemma.
(testi)
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeff Ullman Cambridge University Press http://www.mmds.org/
|
Date di inizio e termine delle attività didattiche
|
Dal 01/03/2023 al 10/06/2023 |
Modalità di erogazione
|
Tradizionale
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova scritta
Valutazione di un progetto
|
|
|