Automatisk oversettelse av norske substantivkomposita : En eksperimentell studie

Bungum, Lars

Master thesis

View/Open

bungum.pdf (775.8Kb)

Year

2008

Abstract

I denne oppgaven foretas en diskusjon av komposita (sammensetninger) og substantivkomposita i særdeleshet. På bakgrunn av utfordringene med å oversette slike konstruksjoner og tidligere arbeider, blir en studie gjennomført med sikte på å oversette 750 komposita trukket ut fra løpende norsk tekst til engelsk. Studien ønsket å kaste lys på hvilke utslag korpusstørrelse, rangeringsmetodikk og analysedybde gir på ytelsen.

Metodene som blir brukt deler først kompositaene opp i to deler og oversetter disse og setter resultatet sammen til nye fraser på engelsk. Dette gir mange oversettelseskandidater for hvert norske kompositum, og en maskinlæringsteknikk basert på maksimalentropi blir brukt til å rangere disse. Den høyest rangerte kandidaten blir sammenliknet med oversettelser fra en tospråklig informant, oversettelser som også danner grunnlaget for å trene maskinlæringsmotoren. 10-dobbel kryssvalidering blir brukt for at modellene ikke blir brukt til å evaluere oversettelser av komposita de er trent på.

Av de 750 tilfeldige kompositaene var bare 4,5% oppført i Kunnskapsforlagets Engelsk Stor Ordbok. Ved hjelp av den beste rangeringsmodellen fra studien ble 50% av ordene oversatt til den foretrukne oversettelsen fra informanten.

In this thesis a discussion of compounding will be undertaken, focusing on nominal compounds. An experiment is carried out with respect to the challenges with translating compounds, and findings from earlier work. 750 compounds were randomly chosen from a corpus of running Norwegian text, and translated into English with the methods described in the thesis. The experiments aim to shed light on the importance of corpus size, ranking methods and depth of analysis for overall performance.

The chosen methods start by dividing the 750 compounds into two parts, and translating each of them into English, and joining the resulting translations into English translation candidates of the given compound. Many such candidates are generated, and a machine learning approach based on the Maximum Entropy Principle is explored to rank them. The highest ranked candidate is compared to translations made by a bilingual informant, translations that are also used to train the machine learner. 10-fold cross-validating is used to make sure the models are not evaluated against compounds on which they are trained.

Of the 750 randomly chosen compounds, only 4,5% were listed in the dictionary "Engelsk Stor Ordbok" (Kunnskapsforlaget). Using the best ranking model from the study, 50% of these words were translated into the specified translation by the informant.