• 數發部啟動主權AI語料庫計畫 首波將涵蓋原住民語與客語
  • 記者 sauniyav 編輯

    為了強化台灣在人工智慧領域的自主性,數位發展部宣布已啟動「主權AI訓練語料庫」計畫,並於6月開始與各部會合作,開始盤點現有的語言資料資源。這次語料庫將不再僅限於政府文書,將會納入客語與原住民語,未來還會涵蓋文化、歷史與地理等多樣內容。

    立法委員徐富癸指出,語言資料可能偏重政府文書資料,擔心出現語料偏誤。對此,數發部長黃彥男強調,資料掌握是主權AI的關鍵,語料庫也將是未來AI基本法中資料治理的重要組成。

    數發部資料創新司司長莊明芬也說明,目前已與相關部會合作盤點語料資源,同時研擬語料庫行動計畫,預計搭配AI語料授權條款後釋出使用。而目前正進行初步訓練規劃與系統建置,首要工作是先充實語言資料,預計2到3個月,將釋出第一階段語料。

    (圖片來源:截自 國會頻道)