Hoppa till innehållet

Varför blir Google translate inte bättre?

De flesta på jorden förstår inte varandra. I 60 år har tekniker försökt lösa språkförbistringen med datorer. Problemet är att det inte går.

Foto: Thinkstock

En av de mest kända meningarna i svensk litteraturhistoria är inledningen på August Strindbergs roman Hemsöborna:

Han kom som ett yrväder en aprilafton och hade ett höganäskrus i en svångrem om halsen."

Om man stoppar in den meningen i världens mest använda maskinöversättningsverktyg, Google translate, översätter den till engelska och sedan översätter den tillbaka till svenska blir resultatet:

Han kom som en storm på April 1 kväll och hade ett Höganäs skvalpar i en åtstramningar i halsen”.

Det är antagligen inte något som skulle ge en plats i den svenska litteraturkanonen. Maskinöversättningen har gjort stora framsteg, men hur långt bort är ett verktyg som på allvar river språkbarriärerna? Tyvärr är svaret en besvikelse för teknikoptimisterna.  

Den 8 januari 1954 skickade det amerikanska företaget IBM ut ett pressmeddelande. Den första raden löd: “Ryska översattes till engelska av en elektronisk ‘hjärna’ för första gången i dag” (ja, fast på engelska då). I pressmeddelandet beskrivs ett experiment där datorn med namnet 701 översatt mer än 60 meningar från ryska till engelska. En stolt forskare sa att om tre till fem år skulle det vara möjligt att översätta viktiga meddelanden mellan flera olika språk elektroniskt. Det visade sig gå... sådär.

I matematiken betyder 6 alltid 6, men när det kommer till språk är det inte lika enkelt.

Problemet med maskinöversättning är att språk är mer komplext och föränderligt än matematik. I matematiken betyder 6 alltid 6, men när det kommer till språk är det inte lika enkelt. Eller varför inte något så självklart som synonymer. Att “förvirrad” och “virrig” kan betyda samma sak får vilken dator som helst att bli konfunderad. Att översätta en roman är därför mer komplicerat för en dator än att styra ett kärnkraftverk.

Anna Sågvall Hein har forskat om datorlingvistik sedan början av 1980-talet. Hon är i dag professor emerita i datorlingvistik vid Uppsala universitet och driver företaget Convertus. Hon minns 60-talets kapplöpning inom maskinöversättning.

“Det var under Kalla kriget som det verkligen tog fart. USA och Sovjet ville följa varandras utveckling. Det satsades enorma summor på maskinöversättning fram tills dess att Alpac-rapporten kom, då stoppades allt”, säger hon.

Alpac-rapporten från 1966 är det närmsta man kommer maskinöversättningens armageddon. Kommittén som gjorde rapporten på uppdrag av amerikanska staten kom fram till att forskningen dittills inte varit fruktsam. Slutsatsen blev att maskinöversättning var ett område dömt att misslyckas. Finansieringen skars av och teknikerna övergav området.

Problemet för forskarna var att de arbetat med lexikon som automatiskt översatte ord för ord. Om man testar att göra samma sak med ett lexikon i dag är det lätt att se att resultatet inte blir särskilt tillfredställande.

Vaquois-triangel visar de olika nivåerna på vilka man kan översätta ett språk. Ju högre upp i pyramiden man når desto mer precis blir översättningen. Foto: Wikimedia Commons

Fram till 1990-talet blev det istället lingvisterna som tog över översättningsforskningen. Deras infallsvinkel var en annan och kallas regelbaserad översättning. Den utgår ifrån grammatiska mönster och översätter därmed hela meningar snarare än enskilda ord.

Målet var till en början att hitta en gemensam nivå där alla språk är samma. På så sätt skulle en text från ett språk kunna monteras ned till minsta gemensamma nämnare för att sen monteras upp igen på det nya språket. Men också lingvisterna sprang in i problem. Det gemensamma språket, interlingua (i toppen av Vaquois triangel ovan), lyckades aldrig innehålla tillräckligt mycket information för att verkligen fungera. Än i dag är interlinguan ett problem utan lösning.

“Det finns så mycket informationsglapp i språk. Om jag säger ‘Han tappade ett glas i golvet och det gick sönder’ så förstår du att glaset gick sönder. Men du förstår det för att du vet att glas brukar gå sönder och golv inte brukar göra det”, säger Anna Sågvall Hein.
Interlinguan blev en återvändsgränd för lingvisterna. Istället kom ingenjörerna tillbaka under 90-talet med hopp om en statistisk lösning.

Felen blir självförstärkande. Det blir en gräns för hur långt ett statistiskt verktyg kan komma.

När IBM efter 30 års uppehåll gav sig på maskinöversättning igen kastade forskarna de språkvetenskapliga metoderna i papperskorgen och satsade helt på statistik. Till skillnad från 1950-talet fanns nu mängder av digitalt lagrade texter. Genom att låta en algoritm få tillgång till extremt mycket skriven text på två språk fick den ett underlag för att göra bra gissningar. Översättningen sker mening för mening och ju mer text det finns att tillgå desto bättre blir gissningarna. Google Translate bygger på just denna översättningsmodell. Algoritmen väljer den översättning som har högst sannolikhet att vara rätt. Ändå blir det inte sällan fel.

Problemet med en översättning är att även om 90 procent av texten blir rätt kan slutresultatet bli 100 procent fel.

Men det här är inte nog problematiskt för Google translate. Verktyget har dessutom hamnat i något av en språklig återvändsgränd.

“Nu har Google translate använts så mycket att webben är full av dåliga maskinöversättningar. De översättningarna förs sedan in i systemet igen och programmet lär sig då från felaktiga texter. Felen blir självförstärkande. Det blir en gräns för hur långt ett statistiskt verktyg kan komma”, säger Ann Sågvall Hein.

Vi slog i taket för ungefär två år sedan. Vi såg inte längre några större förbättringar av översättningarna av de vanligaste språken.

Det är inte alltid man får tydliga svar när man pratar med chefer på storföretag. Barak Turovsky visar sig vara ett undantag. Han är produktchef för Google translate, världens mest använda översättningsverktyg.

“Vi slog i taket för ungefär två år sedan. Vi såg inte längre några större förbättringar av översättningarna av de vanligaste språken. Vi hade redan läst in så mycket text att förbättringarna bara blev marginella”, säger Barak Turovsky på telefon från Mountain View.

Barak Turovsky

Barak Turovsky, produktchef för Google Translate.

Den självlärande algoritmen har successivt slutat att lära sig. Maskinöversättningen har slagit i taket på samma sätt som man gjorde på 60-talet. Modellen räcker inte längre än hit. Eller?

“Vi tittar på två lösningar som vi tror kan bli nästa stora steg framåt för maskinöversättning”, säger Barak Turovsky.

Det första är – och det är här det blir lite märkligt – människor. Det finns nu stöd för 90 språk i Google translate, alltså runt 1,5 procent av världens språk. Anledningen till det är i många fall att det saknas tillräckligt mycket digitalt lagrad text för att kunna föra in ett språk som till exempel kazakiska, som talas i Kazakstan.

Men i just Kazakstan hittade Google en annan lösning.

“Det var många som hörde av sig och ville ha med kazakiska i Google translate, så vi bestämde oss för att experimentera. Vi mejlade 3-400 personer och bad dem att bidra genom att översätta små enkla uppgifter så att vi skulle kunna komma igång”, säger Barak Turovsky.

Kort därefter började översatta ord och meningar från kazakiska till engelska att välla in i 100 000-tals varje dag.

“Vi mejlade igen och undrade vad som hade hänt. Då skickade de en länk”, säger Barak Turovsky.

qEVUfrbjQG8

Om du inte tillhör de 11 miljoner människor på jorden som talar kazakiska (eller kan läsa ryska) förstår du sannolikt ingenting. Men genom att lägga in videobeskrivningen i Google translate får man en ledtråd.

I videon syns Kazakstans presidentkontor uppmana alla engelsktalande i landet att gå in och bidra till Google translate. Det visade sig fungera. Sen ett drygt halvår är kazakiska ett av de 90 språken som går att översätta i Google translate. Alaqay! (Hurra, på kazakiska).

Den lyckade crowdsourcingen i Kazakstan har fått två konsekvenser. Dels att grannlandet Kirgizistan, förmodat i avundsjuka, har börjat skicka in mängder av översättningar för att få komma med. Dels att Google hittat en modell som fungerar både för att addera nya språk och för att förbättra befintliga.

“Wikipediamodellen fungerar. Vi har ett ganska stort nätverk i vårt community som bidrar med översättningar. Det gör att vi kan översätta låttexter och talesätt. Man måste ha en kulturell förståelse för att kunna översätta den typen av uttryck”, säger Barak Turosky. 

Så trots alla framsteg inom teknik och artificiell intelligens verkar det inte gå att lösa översättning utan människor. “Goddag yxskaft” blir fortfarande det fullkomligt oförståeliga “Hola yxskaft” när en spankstalande använder Google translate.

Runt 80 procent av jordens befolkning förstår inte engelska, samtidigt som mer än hälften av allt innehåll på nätet är på just engelska.

Den andra modellen som Google använder för att få sin algoritm att börja lära sig igen kallas deep neural network, på svenska ett artificiellt neuronät. Det är en statistisk modell som försöker efterlikna en hjärna i sitt sätt att lära sig.

“Vi försöker att alltid tänka på skala när vi tar oss an ett problem. Neuronäten gör att vi kan analysera samband mellan olika meningar och olika ordföljder. Vi använder oss nu av det i stor skala och den senaste tiden har vi sett att det börjat ge avsevärda effekter”, säger Barak Turovsky.

Men kan då den artificiella hjärnan hitta bristerna i maskinöversättning och få oss att slippa märkliga översättningar? Nej.

“Det kommer alltid att finnas en gräns. Professionella översättare kommer alltid att göra bättre översättningar”, säger Barak Turosky.

Fokus ligger istället på tillgängliggörande. Runt 80 procent av jordens befolkning förstår inte engelska, samtidigt som mer än hälften av allt innehåll på nätet är på just engelska. Tack vare digitaliseringen av utvecklingsländer, sociala medier och crowdsourcing kommer Google translate att kunna addera mängder av nya språk de kommande åren. Hundratals miljoner människor kommer att börja förstå varandra. Men vi kommer även i fortsättningen att skratta till åt en och annan översättning. Någon lösning för perfekt översättning syns ännu inte vid horisonten.

Eller som Google Translate skulle säga: “Men en lösning för perfekt översättning är ännu inte syns vid horisonten”.

Innehåll från WintAnnons

Wint är Sveriges bästa bokföringstjänst

Med AI:s höga framfart har allt fler aktörer i bokföringsbranschen velat hoppa på tåget och många pratar om automatisering. Men vad automatisering innebär, och hur mycket av det faktiska jobbet de olika tjänster och program som finns på marknaden gör, skiljer sig åt.

Många aktörer i branschen slåss om att påvisa högst automatiseringsgrad. I praktiken handlar det om hur mycket av jobbet som görs av tjänsten och hur mycket av jobbet som görs av användaren själv. 

Nu står det klart att Bokföringssystem.se utnämner Wint till Sveriges främsta bokföringstjänst, med motiveringen att Wint inte bara erbjuder ett bokföringsprogram – de levererar en helhetslösning som överträffar konkurrenterna genom sin förmåga att både automatisera bokföringen och att sömlöst förenkla det administrativa arbetet för sina användare (Se hela resultatet från bokföringssystem.se här). Bokföringssystem.se sätter Wint i topp med orden: ”Den bokföringstjänst som kan mest är Wint. Alltså Sveriges bästa bokföringstjänst när vi gör vår heltäckande granskning.”

Sedan starten 2021 har Bokföringssystem.se jämfört digitala bokföringstjänster och program. Deras sätt att mäta baseras på en grundlig analys av över 100 funktioner, där faktorer som automatiseringsgrad, användarvänlighet, support och möjligheten till en papperslös bokföring vägs samman. Genom detta sätt kan de sedan se hur mycket som bidrar till en smidig bokföring och därefter ge ett betyg. 

Extern länk: Läs mer om bokföringstjänsten Wint här 

Tidsvinst för användaren på riktigt

Wint får 84 poäng av de 100 möjliga, före andra digitala bokföringstjänster och långt före program där man får sköta bokföringen själv.

 – Det är alltid skönt att få det svart på vitt att man gör något riktigt bra. Det Wint gör är unikt. Vi är bäst på att automatisera bokföring och i och med det, frigör vi mest tid åt våra användare. Ingen annan gör det vi gör på den här nivån, oavsett vad de säger. Det ligger i hela vår affärsidé, för att inte säga vårt DNA att leverera högst automatisering på marknaden. Vår tjänst står helt enkelt ut, säger Daniel Johansson, vd på Wint. 

Extern länk: Mer läsning – IT-konsulten som bytte sin traditionella byrå mot Wint 

Stora skillnader mellan olika aktörer

Genom att utse årets bästa bokföringstjänst vill Bokföringssystem.se sätta ljus på skillnader i en bransch där många kommunicerar på samma sätt, och där många insett att automatisering är något fler och fler efterfrågar. Det finns många aktörer idag som säger sig erbjuda automatiserad bokföring och det är svårt att avgöra vem som verkligen automatiserar och lyfter bort allt jobbet, och vem som snarare faktiskt bara tillhandahåller ett arbetsverktyg.

– Det är bra att jämföras. Som fullservicetjänst gör vi mycket mer än de debet- och kreditprogram som är det många andra faktiskt är. Utöver den löpande bokföringen sköter vi både betalningar, löner, deklarationer och bokslutet samt är kopplade till både Skatteverket och företagets bank. Det innebär att de som använder Wint slipper tung administration och sparar mycket tid, avslutar Johansson.

Mer från Wint

Artikeln är producerad av Brand Studio i samarbete med Wint och ej en artikel av Dagens industri

Det verkar som att du använder en annonsblockerare

Om du är prenumerant behöver du logga in för att fortsätta. Vill du bli prenumerant kan du läsa Di Digitalt för 197 kr inkl. moms de första 3 månaderna.

spara
1180kr
Prenumerera