Abstract
Et sentralt problem innen medisinsk forskning er å gruppere pasienter
med hensyn til diagnose, prognose eller behandling, ut
fra prøveresultater. Hvis prøveresultatene for en pasient består av
genekspresjonsmålinger fra et mikromatriseforsøk, kan slike resultater
fra flere pasienter arrangeres i en tabell som har
en kolonne
for hver observasjon (pasient/individ) og en rad for hvert gen. Dette gir
en matrise hvor antall rader typisk er mye større enn antall kolonner.
Hver pasient er i dette tilfellet representert som et punkt i et p-dimensjonalt rom, der p
er antall gener brukt i eksperimentet. Det er ikke enkelt å
visualisere en slik situasjon, og det er heller ikke enkelt å bestemme
hvilke observasjoner som faller inn i samme gruppe.
Å bestemme antallet og sammensetningen av individer i slike grupper
(ofte kalt klustre) kan definere
hvilke individer som etter et gitt sammenlikningsmål kan betraktes
som mest like.
Det finnes ulike velkjente metoder (klustringsmetoder) for å se på
sammensetningen av
slike observasjoner, men det er allikvel vanskelig å kunne bestemme
gode klustre.
Sørlie et al. (2003) er et studium av mikromatrisedata, hvor
genekspresjoner er hentet fra
tumorer hos pasienter med brystkreft. Resultatet av dette studiet er
en identifikasjon av 5 undergrupper av pasienter med hvert sitt
karakteristiske genekspresjonsmønster, basert på både klustring og
biologiske vurderinger.
Jeg har i denne oppgaven valgt å ta utgangspunkt i dette studiet,
for å se på muligheten til å automatisere en slik
klustring. En løsning på dette er en metode som finner det
forhåndsbestemte antall klustre, uten en
subjektivt utvelgelse av observasjoner til hvert kluster. Jeg vil
analysere og implementere ulike metoder for å oppnå dette og
teste dette både på datasett fra Sørlie et al. (2003) og på simulerte data.
Initielt har jeg sett på en metode som Tibshirani et al. (2001)
har foreslått for å estimere antallet
klustre i et gitt datasett. Ideen bak denne metoden er å teste
validiteten av klustre i datasettet i forhold til klustre fra et datasett basert på
en nullmodell. Metoden beregner likheten mellom individer i
klustre basert på en gitt klustringsalgoritme og kommer med forslag
til optimalt antall klustre basert på hvliket antall klustre som gir mest
markant forskjell mellom klustring av reelle data og nullfordelingsdata.
Jeg har implementert en versjon av gapobservatoren på bakgrunn av
beskrivelsen gitt i artikkelen til Tibshirani et al. (2001).
Metoden er vurdert med hensyn til stabilitet og robusthet, ved å
teste den på reelle og simulerte datasett.
Videre har jeg diskutert og testet ulike tilpasninger av
gapobservatoren for å automatisk
kunne oppnå samme resultat som Sørlie et al.
(2003) fant ved sine kombinasjoner av klustring og biologisk vurdering. Jeg kom da fram til at gapobservatoren ofte velger et mindre
antall klustre enn det som begrunnes av Sørlie et al. og av den
grunn har jeg foreslått en ny versjon av gapobservatoren. Denne versjonen
er en rekursiv utgave og ser ut til å
resultere i et antall klustre som ligger nærmere det antall
klustre som presenteres i studiet til Sørlie et al. (2003). Denne
metoden er derfor vurdert nærmere.