On high-dimensional principal component analysis in genomics: consistency and robustness

Hellton, Kristoffer Herland

Doctoral thesis

View/Open

PhD-Hellton-2015.pdf (2.106Mb)

Year

2015

Metadata

Show metadata

Appears in the following Collection

Institutt for medisinske basalfag [2785]

Abstract

Statistiker og sivilingeniør (MSc) Kristoffer H. Hellton har utvidet forståelsen av prinsipalkomponent-analyse (PCA), en sentral metode for å analysere høy-dimensjonale genetiske data. Arbeidet kan blant annet bidra til å forklare den paradoksale situasjonen hvor metoden har dårlige teoretiske egenskaper, men likevel fungerer svært godt i praksis. I tillegg presenteres det i avhandlingen en ny metode som integrerer flere ulike genetisk datatyper for å identifisere subgrupper av pasienter, slik at sykdomsbehandling i større grad kan tilpasses enkeltindividet.

PCA brukes til å redusere dimensjonen av store datamengder. Dette gjøres ved å konstruere et sett med et fåtall såkalte scorer pr. observasjon, hvor disse beholder mest mulig av variasjonen i de originale dataene. Derfor er teknikken sentral i analyser av genetisk data, som f. eks. gen-uttrykk, der flere titusener av variabler måles samtidig.

Hellton har vist at selv om metoden ikke kan forventes å gi helt korrekte estimater av scorene når antallet variabler er større enn antallet observasjoner (som er vanlig i genetiske data), vil visualiseringer basert på scorene kunne gi et svært godt bilde av den sanne strukturen i observasjonene. Dette gjør PCA godt egnet til å identifisere subgrupper av pasienter, også basert på flere høy-dimensjonale genetiske datatyper. I avhandlingen presenteres en utvidelse av metoden der både subgrupper felles for alle datatypene og subgrupper spesifikke for hver enkelt datatype kan identifiseres samtidig. Siden genetiske variabler er grunnleggende vanskelig å måle nøyaktig, har doktoranden også utforsket og kvantifisert effekten av teknisk målefeil på de ulike bestanddelene i PCA.

List of papers

Paper I. Hellton, K. H. and Thoresen, M. (2014). Asymptotic distribution of principal component scores connected to pervasive, high-dimensional eigenvectors. Preprint i arXiv (DOI: 10.48550/arXiv.1401.2781). Published as: Hellton, K. H. & Thoresen, M. (2017). When and why are principal component scores a good tool for visualizing high-dimensional data? Scandinavian Journal of Statistics. 44, 581-597. DOI: 10.1111/sjos.12264. The paper is included in the thesis. Also available at: https://doi.org/10.1111/sjos.12264
Paper II. Hellton, K. H. and Thoresen, M. (2014). The Impact of Measurement Error on Principal Component Analysis. Scandinavian Journal of Statistics, 41(4). DOI: 10.1111/sjos.12083. The article is included in the thesis. Also available at: https://doi.org/10.1111/sjos.12083
Paper III. Hellton, K. H. and Thoresen, M. (2016). Integrative clustering of highdimensional data with joint and individual clusters, with an application to the Metabric study. Biostatistics, 17(3). DOI: 10.1093/biostatistics/kxw005. The paper is included in the thesis. Also available at: https://doi.org/10.1093/biostatistics/kxw005