Sprogteknologi i udvikling

Der findes i dag en række services og værktøjer, der tilbyder automatisk oversættelse, transskription, korrektur med videre. Værtøjerne bygger på sprogteknologi – altså teknologi til at udføre sproglige opgaver, der tidligere blev udført manuelt.
Menneske vs. maskine
Sprogteknologien er i rivende udvikling, og særligt tech-giganterne bruger enorme resurser på at udvikle den.
Men kan teknologien erstatte den manuelle oversættelse eller transskription?
Svaret er: i nogen grad!
Den store udfordring for teknologien er, at sprog er uhyre komplekst, og det er svært at sætte på formel. Sprog er nemlig meget mere end regler og systemer. Sprog er frem for alt betydning, og det forstår en maskine sig grundlæggende ikke på.
Sprog er også humor, ironi, sarkasme, værdiladning … for ikke at tale om al den betydning, der ligger i det usagte/mellem linjerne.
Det kræver intuition, kreativitet, fortolkningsevne og sprogforståelse – både at kode og afkode sprog korrekt. Det kræver menneskelig intelligens, dybest set.
Derfor får sprogteknologien svært ved at erstatte et menneske. Men derfor kan den sagtens have værdi!
Stavekontrollen som pejlemærke
Stavekontrollens styrker og begrænsninger spejler meget præcist de sprogteknologiske produkters generelle udviklingsniveau.
Som de fleste ved, er stavekontrollen ofte en god hjælp, men man kan ikke forlade sig helt og holdent på den. Man skal selv læse korrektur på sine tekster.
I “gamle dage” virkede stavekontrollen kun på enkeltordsniveau. Den havde en ordbog i sig, hvor alle ord med deres forskellige bøjningsformer stod listet. Så stavekontrollen reagerede kun på ord, der ikke stod i dens ordbog. Derfor overse stavekontrollen fejl som
- Han er en klog man
- Alle løbende skal gennemføres på under fire timer
- Maleriet har ingen værdig
Og der er vi – måske lidt overraskende – stadig. Stavekontrollen fanger hverken man, løbende eller værdig! Men til gengæld kan stavekontrollen så meget andet.
Konteksten som milepæl: regler og sprogbrug
Moderne stavekontroller trækker – udover ordbogen – på to andre resurser: grammatik (altså regler) og sprogbrug (altså viden om, hvordan sprog bruges af mennesker). Det gør stavekontrollen bedre i stand til at vurdere et ord i dets sproglige kontekst – og dermed “se” følgende fejl:
- Dette afsnit vil præsenterer min case.
- Jeg har i dette projektet udført to interviews.
- De læner sig op af en sigtelse.
Stavekontrollens regler tilsiger, at hovedverbalet i et sammensat verballed skal bøjes i infinitivform, altså præsentere. Det er også en regel i stavekontrollen, der gør, at den ikke accepterer formen dette projektet. Substantiver med en foranstillet bestemt artikel skal ikke bøjes i bestemt form. Det ved stavekontrollen.
Den sidste fejl, læne sig op af, fanger stavekontrollen, fordi dens sprogteknologiske motor er blevet trænet gennem kørsler på tekstkorpusser med millioner af ord. Stavekontrollen ved derfor, at læne sig op ad er en langt hyppigere forekommende ordforbindelse i sprogbrugen generelt end læne sig op af. Derfor gætter den på, at der er en fejl.
Så konklusionen er, at stavekontrollen som sprogteknologi er blevet langt bedre med tiden, og det er den, fordi den arbejder kontekstbaseret.
Automatisk transskription i sin vorden
Et andet sprogteknologisk felt i rivende udvikling er talegenkendelse, altså automatisk transskription. Transskription er den proces, hvor tale “oversættes” til tekst.
Talrige services tilbyder maskintransskription og fordelene er indlysende. Det går hurtigt, og det er billigt – sammenlignet med manuel transskribering, der er en tidskrævende og derfor dyr proces.
Men spørgsmålet er, om teknologien er tilstrækkeligt udviklet, til at man kan forlade sig på den. En simpel test giver måske svaret.
Manuel transskription af lydoptagelse 1
Interviewer: Men det er vel også vigtigt sådan, tænker jeg, at få kulturen op – det her med, at der er tilgængeligt på færøsk, altså at der er et udvalg, ikke?
Respondent: Ja, ja, og det er jo altid diskussionen, ikke? Da jeg var ung, der havde man danske regnebøger og alle de der forskellige ting, ikke?
Automatisk transskription af lydoptagelse 1
Men det var også det vel også vigtigt som en ting. Alle folk kulturer nok. Det der er tilgængeligt på færøsk, altså at der er et udvalg. Ja altså det er jo altid diskussionen af sig. Da jeg er ung, havde man skal fremføre lidt forskelligt til højre. Så jeg kan kun tingene.
Den automatiske transskription er fejlbehæftet og uforståelig. Maskinen har ganske enkelt svært ved at afkode ordene, og det skyldes blandt andet talesprogets særegne natur.
Talesprog følger sjældent retskrivningens grammatik, og derfor har de regler, man koder maskinen med, ikke den store virkning. Talesprog er kendetegnet ved:
- mange brud på skriftsprogets grammatik og syntaks
- fyldord som øhm og ahhh
- afbrudte sætninger
- selvrettelser
- ikke-leksikalske lydfænomener som grin og sukken
- uformel samtalestruktur
- utydelig artikulation
I en mundtlig situation inddrager man desuden kropssprog, mimik, gestik, toneleje, intonation med videre, når man afkoder tale. Den del af sproget har en maskine til talegenkendelse ikke adgang til.
Så der er mange grunde til, at talegenkendelse er et af de sprogteknologiske felter, hvor der endnu er meget at gøre.
Men ret skal være ret, og hvis man har en optagelse af en samtale med en klar samtalestruktur, tydelig udtale og i en god lydkvalitet, ja, så kan man i nogle tilfælde spare tid med automatisk transskription. Men man slipper næppe for at gå udskriften igennem manuelt – ikke lige foreløbigt i hvert fald.