Exploring the Entity Matching Problem From String-Matching to Pre-Trained Language Models

Nystad, Erik Johan

Master thesis

View/Open

Erik-Johan-Nystad-master-thesis.pdf (832.2Kb)

Year

2023

Metadata

Show metadata

Appears in the following Collection

Institutt for informatikk [4933]

Abstract

Entitetsmatching (EM) er det å identifisere og matche enheter på tvers av forskjellige datakilder som refererer til den samme virkelige enheten. Det er et utfordrende prob- lem som ofte krever betydelig innsats for å bli adressert på en god måte. Fremveksten av Transformers har ført til utviklingen av Large Pre-Trained Language Models, som er modeller trent på massive datasett for å kunne forstå og generere menneskelign- ende tekst, noe som gjør dem i stand til å utføre en rekke komplekse språk-relaterte oppgaver. Dette har ført til betydelige fremskritt i toppmoderne resultater i EM. In- novasjoner som Ditto, som utnytter den forhåndstrente språkmodellen BERT, viser bemerkelsesverdige gevinster gjennom finjustering og domenespesifikk optimaliser- ing for EM. Imidlertid begrenser behovet for betydelig treningsdata anvendbarheten av slike tilnærminger i situasjoner med begrenset tilgjengelige merkede data. Derfor tilbyr det fremvoksende feltet “few-shot prompt engineering” betydelig potensial for innovativ fremgang og utvikling på dette området. Denne avhandlingen utforsket em- pirisk hvordan tilnærminger basert på store språkmodeller sammenlignes med tradis- jonelle EM-tilnærminger gjennom eksperimentering ved bruk av veletablerte bench- mark datasett. Resultatene indikerer at selv om GPT-3.5 viser stort potensial for å oppnå svært nøyaktige resultater uten behov for omfattende treningsdata, gjør den langsomme utførelsestiden og høye kostnaden den mindre brukbar i tilfeller hvor store mengder data må behandles raskt og effektivt. Ditto viser de beste resultatene totalt sett når det gjelder nøyaktighet, men krever mye mer treningsdata for å være effektiv.