Annons

Varför blir Google translate inte bättre?

Leverans innanför dörren SPONSRAT AV Postnord

Ann Grevelius. Foto: Evelina Carborn

”Ingen bank tycker att robotrådgivare är en bra idé”

Forza Footballs vd Patrik Arnesson, dess stjärnprogrammerare Aleksei Magusev och Tobias Öd, känd från Tayyab Shabab-fallet, som driver ärendet i Migrationsdomstolen.

Forza Football tar strid – överklagar Migrationsverkets beslut om utvisad ”topprogrammerare”

Uber tvingas lämna London

Missa inget viktigt!
Bli först med att ta del av trenderna, profilerna och Sveriges vassaste startupnyheter helt gratis direkt i mejlkorgen med Di Digitals nyhetsbrev.
Följ oss på sociala medier:
Tack!
Följ oss på sociala medier:

Varför blir Google translate inte bättre?

Foto: Thinkstock
De flesta på jorden förstår inte varandra. I 60 år har tekniker försökt lösa språkförbistringen med datorer. Problemet är att det inte går.
Facebook
Twitter
LinkedIn
E-post
Öka textstorlek

En av de mest kända meningarna i svensk litteraturhistoria är inledningen på August Strindbergs roman Hemsöborna:

Han kom som ett yrväder en aprilafton och hade ett höganäskrus i en svångrem om halsen."

Om man stoppar in den meningen i världens mest använda maskinöversättningsverktyg, Google translate, översätter den till engelska och sedan översätter den tillbaka till svenska blir resultatet:

Han kom som en storm på April 1 kväll och hade ett Höganäs skvalpar i en åtstramningar i halsen”.

Det är antagligen inte något som skulle ge en plats i den svenska litteraturkanonen. Maskinöversättningen har gjort stora framsteg, men hur långt bort är ett verktyg som på allvar river språkbarriärerna? Tyvärr är svaret en besvikelse för teknikoptimisterna.  

Den 8 januari 1954 skickade det amerikanska företaget IBM ut ett pressmeddelande. Den första raden löd: “Ryska översattes till engelska av en elektronisk ‘hjärna’ för första gången i dag” (ja, fast på engelska då). I pressmeddelandet beskrivs ett experiment där datorn med namnet 701 översatt mer än 60 meningar från ryska till engelska. En stolt forskare sa att om tre till fem år skulle det vara möjligt att översätta viktiga meddelanden mellan flera olika språk elektroniskt. Det visade sig gå... sådär.

I matematiken betyder 6 alltid 6, men när det kommer till språk är det inte lika enkelt.

Problemet med maskinöversättning är att språk är mer komplext och föränderligt än matematik. I matematiken betyder 6 alltid 6, men när det kommer till språk är det inte lika enkelt. Eller varför inte något så självklart som synonymer. Att “förvirrad” och “virrig” kan betyda samma sak får vilken dator som helst att bli konfunderad. Att översätta en roman är därför mer komplicerat för en dator än att styra ett kärnkraftverk.

Anna Sågvall Hein har forskat om datorlingvistik sedan början av 1980-talet. Hon är i dag professor emerita i datorlingvistik vid Uppsala universitet och driver företaget Convertus. Hon minns 60-talets kapplöpning inom maskinöversättning.

“Det var under Kalla kriget som det verkligen tog fart. USA och Sovjet ville följa varandras utveckling. Det satsades enorma summor på maskinöversättning fram tills dess att Alpac-rapporten kom, då stoppades allt”, säger hon.

Alpac-rapporten från 1966 är det närmsta man kommer maskinöversättningens armageddon. Kommittén som gjorde rapporten på uppdrag av amerikanska staten kom fram till att forskningen dittills inte varit fruktsam. Slutsatsen blev att maskinöversättning var ett område dömt att misslyckas. Finansieringen skars av och teknikerna övergav området.

Problemet för forskarna var att de arbetat med lexikon som automatiskt översatte ord för ord. Om man testar att göra samma sak med ett lexikon i dag är det lätt att se att resultatet inte blir särskilt tillfredställande.

Vaquois-triangel visar de olika nivåerna på vilka man kan översätta ett språk. Ju högre upp i pyramiden man når desto mer precis blir översättningen. Foto: Wikimedia Commons

Fram till 1990-talet blev det istället lingvisterna som tog över översättningsforskningen. Deras infallsvinkel var en annan och kallas regelbaserad översättning. Den utgår ifrån grammatiska mönster och översätter därmed hela meningar snarare än enskilda ord.

Målet var till en början att hitta en gemensam nivå där alla språk är samma. På så sätt skulle en text från ett språk kunna monteras ned till minsta gemensamma nämnare för att sen monteras upp igen på det nya språket. Men också lingvisterna sprang in i problem. Det gemensamma språket, interlingua (i toppen av Vaquois triangel ovan), lyckades aldrig innehålla tillräckligt mycket information för att verkligen fungera. Än i dag är interlinguan ett problem utan lösning.

“Det finns så mycket informationsglapp i språk. Om jag säger ‘Han tappade ett glas i golvet och det gick sönder’ så förstår du att glaset gick sönder. Men du förstår det för att du vet att glas brukar gå sönder och golv inte brukar göra det”, säger Anna Sågvall Hein.
Interlinguan blev en återvändsgränd för lingvisterna. Istället kom ingenjörerna tillbaka under 90-talet med hopp om en statistisk lösning.

Felen blir självförstärkande. Det blir en gräns för hur långt ett statistiskt verktyg kan komma.

När IBM efter 30 års uppehåll gav sig på maskinöversättning igen kastade forskarna de språkvetenskapliga metoderna i papperskorgen och satsade helt på statistik. Till skillnad från 1950-talet fanns nu mängder av digitalt lagrade texter. Genom att låta en algoritm få tillgång till extremt mycket skriven text på två språk fick den ett underlag för att göra bra gissningar. Översättningen sker mening för mening och ju mer text det finns att tillgå desto bättre blir gissningarna. Google Translate bygger på just denna översättningsmodell. Algoritmen väljer den översättning som har högst sannolikhet att vara rätt. Ändå blir det inte sällan fel.

Problemet med en översättning är att även om 90 procent av texten blir rätt kan slutresultatet bli 100 procent fel.

Men det här är inte nog problematiskt för Google translate. Verktyget har dessutom hamnat i något av en språklig återvändsgränd.

“Nu har Google translate använts så mycket att webben är full av dåliga maskinöversättningar. De översättningarna förs sedan in i systemet igen och programmet lär sig då från felaktiga texter. Felen blir självförstärkande. Det blir en gräns för hur långt ett statistiskt verktyg kan komma”, säger Ann Sågvall Hein.

Vi slog i taket för ungefär två år sedan. Vi såg inte längre några större förbättringar av översättningarna av de vanligaste språken.

Det är inte alltid man får tydliga svar när man pratar med chefer på storföretag. Barak Turovsky visar sig vara ett undantag. Han är produktchef för Google translate, världens mest använda översättningsverktyg.

“Vi slog i taket för ungefär två år sedan. Vi såg inte längre några större förbättringar av översättningarna av de vanligaste språken. Vi hade redan läst in så mycket text att förbättringarna bara blev marginella”, säger Barak Turovsky på telefon från Mountain View.

Barak Turovsky

Barak Turovsky, produktchef för Google Translate.

Den självlärande algoritmen har successivt slutat att lära sig. Maskinöversättningen har slagit i taket på samma sätt som man gjorde på 60-talet. Modellen räcker inte längre än hit. Eller?

“Vi tittar på två lösningar som vi tror kan bli nästa stora steg framåt för maskinöversättning”, säger Barak Turovsky.

Det första är – och det är här det blir lite märkligt – människor. Det finns nu stöd för 90 språk i Google translate, alltså runt 1,5 procent av världens språk. Anledningen till det är i många fall att det saknas tillräckligt mycket digitalt lagrad text för att kunna föra in ett språk som till exempel kazakiska, som talas i Kazakstan.

Men i just Kazakstan hittade Google en annan lösning.

“Det var många som hörde av sig och ville ha med kazakiska i Google translate, så vi bestämde oss för att experimentera. Vi mejlade 3-400 personer och bad dem att bidra genom att översätta små enkla uppgifter så att vi skulle kunna komma igång”, säger Barak Turovsky.

Kort därefter började översatta ord och meningar från kazakiska till engelska att välla in i 100 000-tals varje dag.

“Vi mejlade igen och undrade vad som hade hänt. Då skickade de en länk”, säger Barak Turovsky.

qEVUfrbjQG8

Om du inte tillhör de 11 miljoner människor på jorden som talar kazakiska (eller kan läsa ryska) förstår du sannolikt ingenting. Men genom att lägga in videobeskrivningen i Google translate får man en ledtråd.

I videon syns Kazakstans presidentkontor uppmana alla engelsktalande i landet att gå in och bidra till Google translate. Det visade sig fungera. Sen ett drygt halvår är kazakiska ett av de 90 språken som går att översätta i Google translate. Alaqay! (Hurra, på kazakiska).

Den lyckade crowdsourcingen i Kazakstan har fått två konsekvenser. Dels att grannlandet Kirgizistan, förmodat i avundsjuka, har börjat skicka in mängder av översättningar för att få komma med. Dels att Google hittat en modell som fungerar både för att addera nya språk och för att förbättra befintliga.

“Wikipediamodellen fungerar. Vi har ett ganska stort nätverk i vårt community som bidrar med översättningar. Det gör att vi kan översätta låttexter och talesätt. Man måste ha en kulturell förståelse för att kunna översätta den typen av uttryck”, säger Barak Turosky. 

Så trots alla framsteg inom teknik och artificiell intelligens verkar det inte gå att lösa översättning utan människor. “Goddag yxskaft” blir fortfarande det fullkomligt oförståeliga “Hola yxskaft” när en spankstalande använder Google translate.

Runt 80 procent av jordens befolkning förstår inte engelska, samtidigt som mer än hälften av allt innehåll på nätet är på just engelska.

Den andra modellen som Google använder för att få sin algoritm att börja lära sig igen kallas deep neural network, på svenska ett artificiellt neuronät. Det är en statistisk modell som försöker efterlikna en hjärna i sitt sätt att lära sig.

“Vi försöker att alltid tänka på skala när vi tar oss an ett problem. Neuronäten gör att vi kan analysera samband mellan olika meningar och olika ordföljder. Vi använder oss nu av det i stor skala och den senaste tiden har vi sett att det börjat ge avsevärda effekter”, säger Barak Turovsky.

Men kan då den artificiella hjärnan hitta bristerna i maskinöversättning och få oss att slippa märkliga översättningar? Nej.

“Det kommer alltid att finnas en gräns. Professionella översättare kommer alltid att göra bättre översättningar”, säger Barak Turosky.

Fokus ligger istället på tillgängliggörande. Runt 80 procent av jordens befolkning förstår inte engelska, samtidigt som mer än hälften av allt innehåll på nätet är på just engelska. Tack vare digitaliseringen av utvecklingsländer, sociala medier och crowdsourcing kommer Google translate att kunna addera mängder av nya språk de kommande åren. Hundratals miljoner människor kommer att börja förstå varandra. Men vi kommer även i fortsättningen att skratta till åt en och annan översättning. Någon lösning för perfekt översättning syns ännu inte vid horisonten.

Eller som Google Translate skulle säga: “Men en lösning för perfekt översättning är ännu inte syns vid horisonten”.


Missa inget viktigt från Di Digital. Följ oss på Facebook och anmäl dig till vårt kostnadsfria nyhetsbrev:
Foto:

Facebook
Twitter
LinkedIn
E-post