Abstract
Oppgaven dreier seg om forskjellen mellom tellelige og utellelige substantiv. Noen substantiv, særlig de som refererer til substanser og materie, kan ikke telles. De opptrer ikke i enheter. Eksempler på utellelige substantiv er gull, vin, sand og letthet.
Ved å bruke et korpus forsøker jeg å identifisere de utellelige substantivene. Jeg bruker det faktum at de ikke forekommer i flertall og at de modifiseres av ubundne bestemmere som mye, litt, noe og all (mye vin, noe vin osv).
Det største problemet er at tellbarhet ikke er svart/hvitt. Få substantiv er utelukkende tellelige eller utellelige. Veldig ofte kan tellbare ting sees på som en mengde, og omvendt. I noen tilfeller
får et substantiv to ulike betydninger etter som det brukes tellelig eller utellelig. Vin kan både referere til væsken vin og til typen vin.
Jeg forsøker to algoritmer. Den ene lager jeg selv og er regelbasert. Den andre bruker k-nærmeste naboer- algoritmen. Den regelbaserte algoritmen gir best resultater. Den klassifiserer 95% av de tellelige substantivene i testkorpuset korrekt, 83% av mengdesubstantivene men kun 64% av de som kan være både tellelige og utellelige. Det viser seg at det er vanskelig å avgjøre når et substantiv kan være både tellelig og utellelig.