Klustring av mikromatrisedata : Estimering av antall klustre og identifikasjon av subtyper

Solberg, Espen

Master thesis

View/Open

Solberg.pdf (817.3Kb)

Year

2007

Abstract

Et sentralt problem innen medisinsk forskning er å gruppere pasienter

med hensyn til diagnose, prognose eller behandling, ut

fra prøveresultater. Hvis prøveresultatene for en pasient består av

genekspresjonsmålinger fra et mikromatriseforsøk, kan slike resultater

fra flere pasienter arrangeres i en tabell som har

en kolonne

for hver observasjon (pasient/individ) og en rad for hvert gen. Dette gir

en matrise hvor antall rader typisk er mye større enn antall kolonner.

Hver pasient er i dette tilfellet representert som et punkt i et p-dimensjonalt rom, der p

er antall gener brukt i eksperimentet. Det er ikke enkelt å

visualisere en slik situasjon, og det er heller ikke enkelt å bestemme

hvilke observasjoner som faller inn i samme gruppe.

Å bestemme antallet og sammensetningen av individer i slike grupper

(ofte kalt klustre) kan definere

hvilke individer som etter et gitt sammenlikningsmål kan betraktes

som mest like.

Det finnes ulike velkjente metoder (klustringsmetoder) for å se på

sammensetningen av

slike observasjoner, men det er allikvel vanskelig å kunne bestemme

gode klustre.

Sørlie et al. (2003) er et studium av mikromatrisedata, hvor

genekspresjoner er hentet fra

tumorer hos pasienter med brystkreft. Resultatet av dette studiet er

en identifikasjon av 5 undergrupper av pasienter med hvert sitt

karakteristiske genekspresjonsmønster, basert på både klustring og

biologiske vurderinger.

Jeg har i denne oppgaven valgt å ta utgangspunkt i dette studiet,

for å se på muligheten til å automatisere en slik

klustring. En løsning på dette er en metode som finner det

forhåndsbestemte antall klustre, uten en

subjektivt utvelgelse av observasjoner til hvert kluster. Jeg vil

analysere og implementere ulike metoder for å oppnå dette og

teste dette både på datasett fra Sørlie et al. (2003) og på simulerte data.

Initielt har jeg sett på en metode som Tibshirani et al. (2001)

har foreslått for å estimere antallet

klustre i et gitt datasett. Ideen bak denne metoden er å teste

validiteten av klustre i datasettet i forhold til klustre fra et datasett basert på

en nullmodell. Metoden beregner likheten mellom individer i

klustre basert på en gitt klustringsalgoritme og kommer med forslag

til optimalt antall klustre basert på hvliket antall klustre som gir mest

markant forskjell mellom klustring av reelle data og nullfordelingsdata.

Jeg har implementert en versjon av gapobservatoren på bakgrunn av

beskrivelsen gitt i artikkelen til Tibshirani et al. (2001).

Metoden er vurdert med hensyn til stabilitet og robusthet, ved å

teste den på reelle og simulerte datasett.

Videre har jeg diskutert og testet ulike tilpasninger av

gapobservatoren for å automatisk

kunne oppnå samme resultat som Sørlie et al.

(2003) fant ved sine kombinasjoner av klustring og biologisk vurdering. Jeg kom da fram til at gapobservatoren ofte velger et mindre

antall klustre enn det som begrunnes av Sørlie et al. og av den

grunn har jeg foreslått en ny versjon av gapobservatoren. Denne versjonen

er en rekursiv utgave og ser ut til å

resultere i et antall klustre som ligger nærmere det antall

klustre som presenteres i studiet til Sørlie et al. (2003). Denne

metoden er derfor vurdert nærmere.