12. June 2026
Det å fjerne fyllord som «øh», «uh» og «liksom» fra et lydopptak har lenge vært en av de mest monotone og tidkrevende oppgavene innen medieproduksjon. Nå forenkler et nytt, lokalt verktøy kalt «erm» denne prosessen drastisk ved å automatisk identifisere og klippe ut disse ulydene. Verktøyet kjører lokalt på maskinen og viser hvordan spesialiserte KI-verktøy blir stadig mer tilgjengelige uten at man må sende sensitive lydfiler opp i skyen. Du kan lese mer om prosjektet på doug.sh.
Bakgrunnen for at dette har vært en teknisk nøtt, handler om flyt. Hvis man bare kutter ut lydbølgen der fyllordet oppstår, ender man ofte opp med unaturlige hopp i toneleie og pusterytme. Ved å bruke avansert mønstergjenkjenning klarer moderne, lette algoritmer å analysere konteksten rundt fyllordet, slik at overgangene sys sammen på en måte som høres naturlig ut for det menneskelige øret.
For markedsavdelinger som produserer egne podkaster, eller oppstartsselskaper som lager videopresentasjoner til investorer, betyr dette at etterarbeidet kuttes fra timer til sekunder. HR- og kommunikasjonsavdelinger som jevnlig sender ut interne videobriefinger kan nå levere polerte og profesjonelle opptak, uten at direktøren trenger å ta opptaket på nytt ti ganger eller sende filene til et eksternt byrå for rensing.