Technoleg Cymraeg: Angen 'lleisiau o wahanol ardaloedd a chefndiroedd'

Un dull y mae Canolfan Bedwyr yn ei ddefnyddio i dderbyn cyfraniadau sain yw trwy wefan Common Voice, lle mae modd recordio eich hunain yn darllen
- Cyhoeddwyd
Mae angen "sicrhau bod lleisiau pobl o wahanol ardaloedd a chefndiroedd yn cael eu casglu wrth ariannu prosiectau technoleg Cymraeg yn y dyfodol".
Dyna "gam gweithredu" gan Gyngor Partneriaeth y Gymraeg i swyddogion Cymraeg 2050 Llywodraeth Cymru wedi ei gyfarfod diweddaraf.
Mae Canolfan Bedwyr ym Mhrifysgol Bangor, sy'n flaenllaw ym maes technoleg y Gymraeg, yn cydnabod "efallai bod naws mwy gogleddol" i'r testunau yr oedd y modelau adnabod lleferydd cynnar yn eu cynhyrchu.
Dywedodd Gruffudd Prys, pennaeth uned technolegau iaith y ganolfan, mai "sioc i ni oedd mai'r prinder pennaf oedd data o'r gogledd-ddwyrain" ac mae'n awyddus i gasglu cyfraniadau sain o'r ardal.
'Adlewyrchu amrywiaeth ieithyddol'
Dywedodd llefarydd Llywodraeth Cymru wrth y BBC: "Dros y blynyddoedd, ry' ni wedi ariannu nifer helaeth o leisiau synthetig Cymraeg o bob math.
"Wrth i'n gwaith ar dechnoleg a'r Gymraeg fynd yn ei flaen, byddwn ni'n parhau i sicrhau bod y lleisiau y byddwn ni'n eu creu yn adlewyrchu amrywiaeth a chyfoeth ieithyddol y Gymraeg."
Mae technoleg iaith yn cwmpasu amrywiaeth o adnoddau gwahanol, gan gynnwys cyfieithu peirianyddol, technoleg lleferydd, lleisiau synthetig sy'n siarad Cymraeg a thechnoleg sgwrsio.

"Y sioc i ni oedd mai'r prinder pennaf oedd data o'r gogledd-ddwyrain" meddai Gruffudd Prys
Dywedodd Gruffudd Prys wrth y BBC: "Mae pwysigrwydd gwneud yn siŵr bod lleisiau pobl o wahanol ardaloedd a chefndiroedd Cymru wedi bod yn glir i ni o'r cychwyn wrth fynd ati i ddatblygu modelau adnabod lleferydd sy'n galluogi cyfrifiaduron i ddeall pobl yn siarad Cymraeg a throsi'r hyn maen nhw'n ei ddweud i mewn i destun.
"Yr her, fodd bynnag, ydi bod angen recordiadau o bobl yn siarad er mwyn i ni eu trawsgrifio i greu data hyfforddi i wella gallu'r modelau rhyngwladol sylfaenol i ddeall Cymraeg.
"I ni ym Mhrifysgol Bangor, roedd hi'n haws ar y dechrau i ni ddod o hyd i recordiadau a chlirio'r hawliau iddyn nhw yn weddol leol yn ardal gogledd-orllewin Cymru, felly efallai bod naws mwy gogleddol i'r testunau yr oedd y modelau cynnar yn eu cynhyrchu, a'u bod yn well am drawsgrifio pobl o'r gogledd.
"Ond, gyda nawdd Llywodraeth Cymru, a chydweithio gyda chwmni Cymen ar broject ARfer, rydyn ni wedi ymdrechu i ddenu cyfraniadau gan wirfoddolwyr o bob cwr o'r wlad."

Roedd y modelau adnabod lleferydd cynnar a wnaed ym Mhrifysgol Bangor "yn well am drawsgrifio pobl o'r gogledd" meddai Gruffudd Prys
Un dull i dderbyn cyfraniadau sain, meddai, yw trwy wefan Common Voice cwmni Mozilla, lle mae modd recordio eich hunain yn darllen pytiau ysgrifenedig.
Bwriad ARFer yw cynyddu defnydd o'r Gymraeg yn y gweithle.
Wedi'i selio ar y gwyddorau ymddygiad, mae ARFer yn cynnig cyfres o dasgau syml i bobl eu cyflawni, dolen allanol gyda chydweithwyr yn Gymraeg.
'Chwilio am gyfraniadau sain'
Ychwanegodd Gruffudd Prys: "Efallai'r hyn sydd wedi arwain at y gwelliant mwyaf yw derbyn yr hawl gan bodledwyr ar draws y wlad i dorri eu podlediadau yn bytiau byr i'w trawsgrifio er mwyn cael amrywiaeth o dafodieithoedd, cyweiriau a phynciau o fewn y data.
"Diolch i waith Sasha Wanasky, fu'n fyfyriwr Msc ar ein cwrs technolegau iaith cyn symud i weithio i Cymen, a gwaith ein myfyriwr PhD Preben Vangberg, rydyn ni'n gallu meintioli faint o ddata o wahanol ardaloedd sydd gennym a gwerthuso safon y modelau yn fras ar wahanol dafodieithoedd.
"Y sioc i ni oedd mai'r prinder pennaf oedd data o'r gogledd-ddwyrain, felly rydyn ni wedi cysylltu â mentrau iaith a sefydliadau yn yr ardal honno i chwilio am gyfraniadau sain.
"Fodd bynnag, mae'r canlyniadau yn dal i fod yn dda iawn ar y cyfan, ond yn naturiol rydyn ni'n bryderus ein bod ni'n colli rhai o ddywediadau a phriodweddau hyfryd yr ardal honno.
"O ganlyniad, os oes gan unrhyw un ffeiliau sain o siaradwyr o'r ardal y bydden nhw'n fodlon eu cyfrannu, bydden ni wrth ein bodd yn clywed ganddynt."
- Cyhoeddwyd7 Awst
- Cyhoeddwyd30 Mai
- Cyhoeddwyd24 Medi 2022
Sefydlwyd Cyngor Partneriaeth y Gymraeg gan Fesur y Gymraeg 2011, a'i brif bwrpas yw "rhoi cyngor ac arweiniad i weinidogion mewn perthynas â materion yn ymwneud â'r Gymraeg a gweithredu ei strategaeth iaith".
Yr aelodau diweddaraf a benodwyd yn Rhagfyr 2023 ac a fydd yn gwasanaethu ar y cyngor am dair blynedd yw Anwen Eluned Davies, Meurig Jones, Manon Cadwaladr, Tegryn Jones, Meleri Light, Savanna Jones ac Owain Wyn.
Cymraeg 2050 yw polisi Llywodraeth Cymru sy'n anelu at gael miliwn o siaradwyr Cymraeg a dyblu defnydd dyddiol o'r iaith erbyn 2050.
O gronfeydd Cymraeg 2050, dywedodd Llywodraeth Cymru eu bod wedi gwario £2.9m ar dechnoleg a'r Gymraeg ers lansio'r Cynllun Gweithredu Technoleg Cymraeg yn 2018.
Dilynwch Cymru Fyw ar Facebook, dolen allanol, X, dolen allanol, Instagram, dolen allanol neu TikTok, dolen allanol.
Anfonwch unrhyw syniadau am straeon i cymrufyw@bbc.co.uk, dolen allanol neu cysylltwch drwy WhatsApp ar 07709850033.
Lawrlwythwch yr ap am y diweddaraf o Gymru ar eich dyfais symudol.