Abstract
Automatisk identifisering av komplette genmodeller i eukaryotiske organismer er fortsatt en utfordrende oppgave (Zhang, 2002). Selv om det er konstante forbedringer i søkenøyaktigheten til gensøkingsprogrammer klarer de fortsatt ikke å gi automatisk annotering av DNA-sekvenser med ønskelig nøyaktighet. Det er derfor behov for at bedre søkemetoder blir utviklet. Det å kombinere spådommene fra flere gensøkingsprogrammer i en kombineringsalgoritme er et interessant forslag for å forbedre søkenøyaktigheten.
I denne oppgaven blir det presentert et grafisk sammenligningsverktøy, Visual Comparer, med en innebygd kombineringsalgoritme, VC-Combiner. Visual Comparer har funksjonalitet som gjør det mulig å teste gensøkingsprogrammer og kombinerings-algoritmer på datasett, slik at deres spådommer og søkenøyaktighet kan sammenlignes. VC-Combiner kombinerer genmodeller fra resultatutskriftene til ab initio gensøkingsprogrammene FGenesH (Salamov & Solovyev, 2000), Genscan (Burge & Karlin, 1997) og HMMgene (Krogh, 1997). Den bruker exonpoengsummene som følger med spådommene til å avgjøre hvordan den endelige genmodellen skal se ut. Algoritmen er ikke begrenset til disse tre programmene, og den kan kombinere et varierende antall ab initio gensøkingsprogrammer. Det har også blitt konstruert et datasett, Dog36, som inneholder 36 gensekvenser fra hundegenomet som er tilfeldig plassert på ni kunstig genererte bakgrunnssekvenser av intergenetisk DNA. Tre utgaver av dette datasettet brukes til å teste kombineringsalgoritmens søkenøyaktighet. I Visual Comparer ble søkenøyaktigheten til gensøkingsprogrammene og kombineringsalgoritmen regnet ut automatisk.
Resultatene av testene viser at kombineringsalgoritmen har forbedret både følsomheten (Sn) og spesifikiteten (Sp) på nukleotid-, exon- og gennivå i forhold til gensøkings-programmene. VC-Combiner er også sammenlignet med kombineringsalgoritmene i programmet GeneComber (Shah et al., 2003). Det viser seg at VC-Combiner oppnår høyere tilnærmet korrelasjon (AC) og EAvg enn GeneCombers kombineringsalgoritmer.
Visual Comparer har i tillegg blitt benyttet som et hjelpemiddel i en grundig analyse av gensøkingsprogrammenes spådommer. Der ble programmenes styrker og svakheter kartlagd. Denne kunnskapen kan brukes til å forbedre søkenøyaktigheten i en fremtidig utgave av VC-Combiner.
Visual Comparer og VC-Combiner kan testes på adressen (http://heim.ifi.uio.no/~haralbo/). Her ligger også de tre utgavene av datasettet Dog36 som har blitt brukt som testsett i oppgaven.