Erfaringar frå bruk av Whisper til teksting av video

Eg haldt nyleg ein appell mot krigen i Gaza. Deretter testa eg språkmodellen Whisper for automatisk teksting, som fungerte overraskande bra, men den er også problematisk.

Etter å ha lasta video opp nå nett, så la eg merke til at LinkedIn hadde forsøkt å køyre automatisk teksting på videoen, med basis i at videoen er på engelsk. Men sidan videoen er på norsk funka det mildt sagt ikkje.

Så, då testa eg å strø litt KI på problemet. Resultatet kan du sjå her:

Appell om behovet for BDS: Boikott, deinvestering og sanksjonering). Dato: 3. august 2024, Bergen.

PS: For å sjå undertekst så må du klikke på CC-knappen inni videoen.

Sein ankomst til KI-kalaset #

Eg må innrømme at eg har ikkje brukt KI noko særleg før no.

Etter nokre kjappe nettsøk så fann eg fort fram til eit par norske KI-initativ: NorwAI og AI-lab ved Nasjonalbiblioteket.

Eg endte opp med å laste ned NB-Whisper modellen frå Nasjonalbiblioteket. Modellen byggjer på OpenAI sin Whisper modell.

For å få køyrd modellane effektivt tok eg i bruk Whisper.cpp.

Eg fulgte guiden til Whisper.cpp + NB-Whisper, og testa litt forskjellige kommandoar i terminalen.

Etter 2-3 minutter så var resultatet klart.

skjermskudd av terminal som syner automatisk generert teksting

Eg var først brydd av at resultatet var på bokmål, men så var det berre å justere eit kommandolinje-flagg og vipps så var det på kav nynorsk.

«Wow», var første reaksjonen min.

I tidlegare liv så har eg manuelt omsatt videoar (døme1, døme2, som kan sjåast ved å velje nynorsk under omsetjing), og eg har også fått senebetennelse av transkribering av lange intervju under arbeidet med masteroppgåva mi. Så, det gjer definitivt inntrykk å få servert tekst på denne måten med ferdig markerte tidskoder.

Men ved nærare ettersyn så var det behov for ein del justering likevel…

skjermskudd

Terminalen til venstre, Tero Subtitler i midten. Til høgre er system monitor som viser korleis prosessoren (Ryzen 9 3950X) jobber. Nederst til høgre er ein dj som spinner Liquid DnB/Jungle. 🎵

Når eg lastet SRT (SubRip) filen inn i Tero Subtitler så la eg fort merke til at tidskodene var unøyaktige. Whisper.cpp har eit åpent bug-kort på unøyaktighet.

Tero gav meg også ein del warnings på at setningene var litt for lange til å kunne lesast komfortabelt. Eg fann ut seinare at Whisper.cpp har ein innstilling --max-len for å generere kortare teksting.

Det endte opp med å bli ein del jobb likevel, med å lytte til videoen og skyfle på tekstinga slik at den ikkje kom unaturleg tidleg/seint jamfør videoen. Eg trur også eg talde 2-3 stader der den generte tekstinga blei feil, og måtte rettast på manuelt. Uansett så er det ganske imponerande.

Totalt så trur eg at eg brukte om lag 2 timer på å omsetje denne videoen på 3min og 48sek. Dette inkluderer ein del tid til å lære meg verktøyet Tero Subtitler, og særleg nokre av tastatursnarvegane, som gjorde det lettare å spole frem og tilbake og justere tekstinga fortløpande.

Nyttig, men trengs meir etikk og konkurranse #

I fjor fekk eg publisert ein artikkel i kode24.no der eg peikte på problematiske aspekt ved KI-bølga (archive.org kopi).

Over eit år seinare, så er det uvisst om konkurransebildet er særleg betre. Det er vanskeleg å konkurrere med OpenAI. Om du kastar regelboka på havet, støvsuger nettet etter data, og utnytter underbetalte dataanalytikarar så kan du lage produkter som det OpenAI har klart med Whisper og ChatGPT. Til slutt så må du også ha ein bunnløs lommebok for å betale for straum og maskinkraft. No spørs det til og med om OpenAI overlever sin eiga suksess, eller går konkurs grunna treningskostnadene.

Då er det ikkje rart investorar får stjerner i augo, når dei ser noko som tilsynelatande er vanskeleg å kopiere. Desse stjernene blir om mogleg enda større når dei ser at offentlege institusjoner som Nasjonalbiblioteket gjer Whisper enda betre, heilt gratis.

På horisonten så er det nokre lyspunkt. Mozilla.ai har begynnt å røre litt på seg, og på bloggen deira ser det ut til å vere mykje interessant lesing. I november i fjor, så organiserte Mozilla.ai ein konkurranse i effektivisering av språkmodeller, som er spanande med tanke på å få ned kostnadene — inkludert miljøkostnadene — ved KI-trening.

Vidare lesnad #

  • Distributed AI Research Institute (DAIR): Forskingsinstitutt leda av stjerneforskar Timnit Gebru. DAIR jobber for utvikling av etisk kunstig intelligens. Nett no jobber dei med ein spanande studie i liva til arbeidarane som sit og gjer klassifiseringsarbeidet, som er heilt nødvendig for å lage mange av dei mest populære språkmodellene: Introducing the Data Workers’ Inquiry.
  • stopkiller.ai: Eit dystert og viktig innblikk i korleis kunstig intelligens blir brukt av Israel i deira krigføring mot Palestina.
  • #NoTechForApartheid: Kampanje for å få krigsprofittørene Microsoft, Google og Amazon til å slutte å bidra til Israel sin ulovlige okkupasjon.