Zer da Common Voice eta zergatik behar dugu?
Common Voice ahotsaren ezagutza teknologia hobeak eta guztientzat irisgarriak sortzeko helburua duen Mozilla Fundazioaren ekimen bat da. Gero eta ohikoagoa da makinekin elkar eragiteko ahotsa erabiltzea baina orain arteko sistemek (Google Assistant, Apple Siri, Microsoft Cortana, Amazon Alexa…) hainbat arazo dituzte:
- Hizkuntza zabalduenetan bakarrik erabil daitezke. Atzean dituzten enpresa handiek etekin ekonomikoei soilik begiratzen diete eta hizkuntza txikiak ez dira bideragarriak haientzat. Alternatibarik sortu ezean euskaldunok erdaraz mintzatu beharko diegu telebista, sakelako telefono eta bestelako gailuei. Berdin gertatuko zaie beste hizkuntza txikien ehunka milioi pertsonei ere mundu osoan.
Common Voice aldiz ahalik eta hizkuntza gehienetan egongo da erabilgarri, potentzialki edozein hizkuntzatan. 20 hizkuntza ahots grabaketak egiten ari dira dagoeneko eta beste 70 gehiago horretarako prestaketak egiten. Teknologiari gure ama hizkuntzan hitz egiteko aukera emango digu euskaldunoi eta gurea bezalako munduko beste hainbat hizkuntza komunitateri. - Ez dute ahots aniztasuna kontutan hartzen. Hizkuntza nagusi bat hitz egiteak ez du ziurtatzen gailuak zure ahotsa ulertuko duenik. Azentuarekin hitz egiten baduzu edo emakumezkoa bazara zailtasun gehiago izango dituzu, historikoki motor horiek entrenatzeko erabili diren ahots gehienak klase ertaineko gizon zurienak izan baitira.
Common Voicek ahots mota guztiak hartu nahi ditu kontuan. Horregatik euskarazko ahots errekonozimendua entrenatzeko ahalik eta ahots anitzenak nahi ditugu: emakumeak eta gizonezkoak, adin guztietakoak, euskaldun berriak eta euskaldun zaharrak, Euskal Herriko txoko guztietakoak… - Etengabe entzuten egoten dira eta gure ahotsen grabazioak zerbitzarira bidaltzen dituzte. Pribatutasun aldetik amesgaizto bat dira. “Gure borondatez” etxean sartu ditugun espioiak dira. Jabedun softwarea direnez erabiltzaileok ezin dugu jakin gure ahots grabazioekin gailuan zer egiten den eta ez daukagu zerbitzarian gertatzen denaren gaineko inongo kontrolik. Enpresa handiek herritarron datu pribatuak salduz mozkinak ateratzen dituzte.
Common Voicek pribatutasunari lehentasuna emango dio, gure ahotsa ez du inora bidaliko. Ahots prozesamendua gailuan bertan egingo da. Gure ahotsa ez da inora bidalia, aztertua edo monitorizatua izango. Software libreko proiektuek teknologia beste modu batean sortu daitekeela erakusten dute, herritarren beharrak eta eskubideak helburu bezala jarriz.
Common Voice-ri buruz gehiago jakin nahi baduzu proiektuaren Ohiko galderak orria irakurtzea gomendatzen dizugu.
Auzolan digitalerako deia
Teknologiarekin euskaraz hitz egin ahal izateko ahotsaren ezagutzarako motorra entrenatzeko 10.000 ahots ordu behar dira. Horretarako auzolan digitalerako deia egin du Librezalek. Parte hartu nahi baduzu grabaketak edozein ordutan eta edozein lekutik egin ditzakezu:
- https://voice.mozilla.org/eu ireki nabigatzaile batekin.
- “Hitz egin” aukera sakatu.
- Irakurri ozen agertzen zaizkizun esaldiak, jarraibideei jarraituz.
Dagoeneko egin diren grabaketak balioztatzen ere lagun dezakezu. Horretarako, sakatu “Entzun” eta jarraitu argibideei. Oso erraza da eta ordenagailu batetik zein zure sakelako telefonotik egin dezakezu. Hori bai, leku isil batean grabatzea gomendatzen dizugu, grabaketek kalitate ona izan dezaten.
Apirilak 9an grabazio maratoia Hirikilabs-en
Auzolan digital horren barnean grabazio maratoi bat antolatu dugu Librezale eta Hirikilabs-ekin elkarlanean. Donostiako Tabakaleran izango da apirilaren 9an, arratsaldeko 18:00etatik 20:00etara. Anima zaitez eta parte hartu!
Teknologia, diseinua eta komunikazioa uztartzen dituen enpresa bezala teknologia libreak sustatzen ditugu eta euskara guretzat balio bat da. Hori dela eta, teknologia aurreratuetan euskarak ere presentzia izan dezan ahalegintzen gara. Ondorioz, honelako proiektu parte-hartzaile eta libreak sustatzea beharrezkoa dela uste dugu, kasu honetan bezala, etorkizunean makinekin euskaraz komunikatzeko produktu desberdinak esku artean izan ditzagun eta euskara bigarren mailako hizkuntza izan ez dadin.
Garrantzitsua iruditzen zaigu burujabetza teknologikoaren alorrean urratsak ematea eta herri bezala konpainia handien aurrean alternatibak eraikitzea. Maratoi honen antolaketa ez da bide horretan ematen dugun lehen pausoa, adibidez, iaz Mastodon.eus Twitterren alternatiba izan daitekeen euskarazko sare soziala abiarazten lagundu genuen.
ARGIAren ekarpena proiektuari
Ahots grabazioen fasearekin hasi aurretik 5 eta 10 hitz arteko 5.000 esaldi bildu behar ziren. Esaldiek Creative Commons Zero (CC0) lizentzia eduki behar zuten, jabetza publikoan egotearen pareko zerbait, eta horrek zailtasuna eransten zion lanari. Librezaleko kideek 2.000 esaldi baina gehiago idatzi zituzten eskuz eta Bizitza ederra da bezala jabetza publikoan dauden filmen azpitituluetatik ere eskuratu zituzten. ARGIAk espresuki proiektu honetarako jabetza publikoan utzitako testuetatik ateratako beste 3.900 esaldirekin osatu zen bilduma. Esaldi horiekin egindako grabazioak dira ahotsaren ezagutzarako motorra entrenatzeko erabiliko ditugunak.
Artikulu honek Creative Commons Aitortu-PartekatuBerdin 4.0 Nazioartekoa (CC BY-SA 4.0) lizentzia dauka. Kopiatu, moldatu, zabaldu eta argitaratzeko libre zara, beti ere, nire egiletza aitortzen baduzu eta baldintza beretan egiten baduzu.