Abstract
Statistiker og sivilingeniør (MSc) Kristoffer H. Hellton har utvidet forståelsen av prinsipalkomponent-analyse (PCA), en sentral metode for å analysere høy-dimensjonale genetiske data. Arbeidet kan blant annet bidra til å forklare den paradoksale situasjonen hvor metoden har dårlige teoretiske egenskaper, men likevel fungerer svært godt i praksis. I tillegg presenteres det i avhandlingen en ny metode som integrerer flere ulike genetisk datatyper for å identifisere subgrupper av pasienter, slik at sykdomsbehandling i større grad kan tilpasses enkeltindividet.
PCA brukes til å redusere dimensjonen av store datamengder. Dette gjøres ved å konstruere et sett med et fåtall såkalte scorer pr. observasjon, hvor disse beholder mest mulig av variasjonen i de originale dataene. Derfor er teknikken sentral i analyser av genetisk data, som f. eks. gen-uttrykk, der flere titusener av variabler måles samtidig.
Hellton har vist at selv om metoden ikke kan forventes å gi helt korrekte estimater av scorene når antallet variabler er større enn antallet observasjoner (som er vanlig i genetiske data), vil visualiseringer basert på scorene kunne gi et svært godt bilde av den sanne strukturen i observasjonene. Dette gjør PCA godt egnet til å identifisere subgrupper av pasienter, også basert på flere høy-dimensjonale genetiske datatyper. I avhandlingen presenteres en utvidelse av metoden der både subgrupper felles for alle datatypene og subgrupper spesifikke for hver enkelt datatype kan identifiseres samtidig. Siden genetiske variabler er grunnleggende vanskelig å måle nøyaktig, har doktoranden også utforsket og kvantifisert effekten av teknisk målefeil på de ulike bestanddelene i PCA.