StaffPaolo Cozzi


Informazioni



E-mail
cozzi@ibba.cnr.it

Telefono
+39 0223499477

Sede
Milano

Aree di attività
BIOGEN


ORCID: 0000-0003-0388-6874
Research Gate: Paolo Cozzi
Linkedin: Paolo Cozzi

Cozzi Paolo

Ricercatore

Formazione

2007-2010: Dottorato di Ricerca in Medicina Molecolare, Università degli Studi di Milano

2004-2007: Laurea specialistica in Bioinformatica, Università degli Studi di Milano-Bicocca

2000-2004: Laurea triennale in Biotecnologie, Università degli Studi di Milano-Bicocca

Esperienze professionali

2022-Oggi: Ricercatore presso IBBA-CNR

2019–2021: Assegnista presso IBBA-CNR

2018-20129: Assegnista presso ITB-CNR

2010-2018: Bioinformatico presso Parco Tecnologico Padano

2007-2010: Bioinformatico presso ITB-CNR

Interessi scientifici

  • Bioinformatica
  • Genomica
  • Metagenomica
  • Annotazione Genomica
  • HPC
  • Cloud Computing
  • Linguaggi di programmazione
  • Database
  • Algoritmi
  • AI
  • Visualizzazione dei dati

Progetti attivi

Sheep-TreeSeq: Analisi scalabile della diversità genetica ovina usando alberi (grafi) di sequenze genomiche
Inizio: 01/12/2023   Fine: 30/11/2025

CNR/Royal Society (Biennio 2024-2025)

Milano
Filippo Biscarini

Durata Progetto:
01/12/2023 - 30/11/2025
Ente finanziatore:
CNR/Royal Society (Biennio 2024-2025)
Responsabili di progetto:
Filippo Biscarini
Sedi:
Milano

Sheep-TreeSeq: Analisi scalabile della diversità genetica ovina usando alberi (grafi) di sequenze genomiche


Sheep-TreeSeq applicherà la metodologia innovativa degli alberi di sequenze genomiche (grafi) per l’analisi scalabile della diversità genetica ovina.

L’innovazione tecnologica in agricoltura ha reso disponibili grandi dataset di dati genomici (“big data”) che rappresentano una sfida per l’immagazzinamento e l’analisi dei dati, es. il mero volume dei dati, la rapida generazione di nuovi dati (aggiornamento, applicazioni in streaming), e l’eterogeneità delle fonti (integrazione di dati da diverse piattaforme di sequenziamento). Gli algoritmi a grafo (alberi di sequenze) offrono un modo eccellente per affrontare questa sfida, fornendo una compressione dei dati senza perdita d’informazione, ed una nuova rappresentazione dei dati genomici. Ad esempio, l’applicazione degli alberi di sequenza ai dati del 1000 Bull Genome Project ha permesso di ottenere una compressione del 90%, riducendo la dimensione dei dati da ~800 GB a 45 GB.

Per il progetto Sheep-TreeSeq useremo circa 3500 sequenze ovine complete e oltre 50,000 genotipizzazioni (~10 TB di dati). Il nostro piano è di applicare l’approccio degli alberi di sequenze per comprimere questi dati ed ottenere una rappresentazione dei dati adatta all’analisi demografica e di genetica di popolazioni: i) analisi delle componenti principali e nearest-neighbor clustering; ii) indice di fissazione e misura della differenziazione genetica; iii) metodi di clustering basati sulle reti neurali; iv) analisi delle runs of homozygosity (ROH) e delle heterozygosity-rich regions (HRR).

È la prima volta che questo approccio è applicato alla genetica ovina.

Progetti conclusi

Istituto

Cerca nel sito