• 結合AI打造族語語音資料庫 台灣維基媒體協會推動〝台灣原住民族語計畫〞
  • 記者 Walis Watan 台北市

    為創造更完善的族語數位環境,台灣維基媒體協會發起「Common Voice台灣原住民族語計畫」,蒐集族人錄製的族語生活短句,建立不同族群的開放語音資料庫,供軟體開發商開發族語相關應用。即日起開放泰雅、布農、排灣、魯凱、賽德克及撒奇萊雅等六個族群進行錄製。台灣維基媒體協會Common Voice族語專案負責人陳心一說:『我們也很希望說可以有早一點看到,就是可以用台語或者是用族語來跟手機對話,來跟Siri對話或者是來跟AI對話,那或者是讓AI來用族語的方式幫我們念出族語的文章,或者是我們說族語,然後它AI就可以幫我們寫成文字,那像這樣的應用,在我們本土的語言上是非常重要的。』

    參與計畫的撒奇萊雅族人Puhay表示,耆老們對於錄製語音參與相當高,期待能透過計畫將瀕危的撒奇萊雅族語完善地保存下來。Puhay說:『因為以後的我們相信連發音可能都會慢慢的失去或不標準或什麼的,那趁老人家還在的時候,就是幫AI建立一個比較正確的語音辨識的模型,那我們這次預計是找了20個人,他們很想講,像我昨天我們理事長先開始,他昨天就錄完了,他就會一直講一直講,他停不下來。』

    台灣維基媒體協會表示,除了透過族人錄製語音,目前也正積極與原住民族語言研究發展基金會洽談語料授權與合作事宜,希望能盡早讓族人體驗友善的族語數位應用。

    (圖片來源:截自Common Voice台灣原住民族語計畫 官方網站 )