K├Ánetuvastus ehk k├Áne tekstiks

Rakendus eestikeelsete helisalvestiste automaatseks trankskribeerimiseks ning tuvastusvigade korrigeerimiseks.

Alusta Vaata demo

Kuidas see t├Â├Âtab?

Tekstiks.eeon TT├ť k├Ánetehnoloogia labori avalik k├Ánetuvastuse teenus. S├╝steem kasutab meie laboris v├Ąljat├Â├Âtatud tehnoloogiat ja mudeleid, mis annavad eesti keele tuvastamisel seni oluliselt parimaid tulemusi kui kommertslikud alternatiivid. S├╝steem on t├Ąisautomaatne ja samaaegselt v├Áimeline t├Â├Âtlema mitut salvestist. Sellegi poolest v├Áib t├Â├Âp├Ąevadel esineda suuremat koormust ning pikemat ooteaega. J├Ąrjekorra puudumisel kulub k├Ánetuvastusele ligi pool k├Ánesalvestise kestusest. L├Ąhiajal lisandub v├Áimalus ka n├Ąha t├Â├Âtlemise progressi ning ennustatavat valmimise aega.

Ekraanit├Ámmis rakendusest

1. Lae k├Ánesalvestis ├╝lesse

Toetatud on enamlevinud heli- ja videoformaadid. Maksimaalne suurus on 500MB.

2. Oota teksti valmimist

Masin├Áppe meetoditega treenitud s├╝steem otsib k├Áigepealt eestikeelset k├Áne ning k├Ánelejate vahetumisi, seej├Ąrel transkribeerib k├Áne tekstiks ning l├Ápuks lisab kirjavahem├Ąrgid. Mitmed tuntud eestlased identifitseerib s├╝steem ka nimeliselt.

3. Paranda tuvastusvead

Teksti redigeerimine on interaktiivne. Heli m├Ąngides v├Ąrvub hetkel kuuldaolev s├Ána, mis aitab keerulisemad kohad ├╝le kuulata ja seel├Ąbi teksti k├Ąsitsi korrigeerida.

4. Laadi tulemus alla

Toetatud on docx formaat.

N├Áuanded

  • Helifailis olev k├Áne peaks olema v├Áimalikult hea kvaliteediga, s.t. lindistatud suu l├Ąhedal oleva mikrofoniga m├╝ravabas keskkonnas. Helifail peaks olema v├Ąhemalt 16-bit kodeeringus ja 16 KHz sagedusega, eelistatult WAV formaadis.
  • Kuna maksimaalne ├╝leslaetava faili suurus on 500 MB, siis v├Áib pikemad WAV-failid kodeerida mp3 v├Ái ogg vormingusse, aga soovitav on siis kasutada v├Ąhemalt 128 kbit kodeeringut. Mahtu aitab kokku hoida ka stereovormingu muutmine monoks (tuvastuse k├Ąigus tehakse seda nagunii).
  • S├╝steem ei t├Â├Âta h├Ąsti kahest tunnist pikemate helifailidega. Selliste failidega v├Áib tuvastus eba├Ánnetuda ja tuvastustulemust siis kasutajale ei saadata. Soovitame pikad failid eelnevalt t├╝keldada.
  • NB! Kuna tuvastusserveri ressurss on piiratud, siis palume mitte ├╝les laadida rohkem kui 10 salvestust p├Ąevas. Vastasel juhul tekib s├╝steemis pikk j├Ąrjekord k├Áikide kasutajate jaoks. Kui vajate v├Ąga paljude failide (n├Ąit. terve heliarhiivi) transkribeerimist, siis kontakteeruge meiega.

Viitamine

Kui kasutate seda s├╝steemi teadust├Â├Âks, siis palun viidata oma publikatsioonides alltoodud artiklile (saadaval siin): Alum├Ąe, Tanel; Tilk, Ottokar; Asadullah. "Advanced Rich Transcription System for Estonian Speech" Baltic HLT 2018.

Vabavara

Tekstiks.ee p├Áhineb vabavaralistel lahendustel, mida on lihtne ise ├╝lesse seada. Tuvastuss├╝steemi saab kasutada ka Docker konteineri baasil (soovituslik).