針對許多大語言模型服務提供的資訊不盡符合臺灣本地使用習慣與需求,數位發展部特別推動臺灣主權 AI 訓練語料庫,支援 AI 模型訓練更貼近臺灣的語言與生活情境。
![]()
隨著 AI 快速發展下,各種創新應用不斷推出,其中大語言模型受到許多人的注意,也讓許多人在日常中應用以提升工作等效率。不過AI 服務、模型都需要使用資料訓練而成,在資料量多寡的影響下,臺灣的使用者一定會發現各大服務所回答的內容,其用字遣詞,特別是內容不一定符合平常的習慣以及正確性。
![]()
數位發展部政務次長侯宜秀(左)與數位發展部資料創新司司長莊明芬
![]()
臺灣主權 AI 訓練語料庫網站提供搜尋與申請等功能
![]()
臺灣主權 AI 訓練語料庫徵集高品質且在地化的正體中文語料
為了讓企業、團體或個人的人工智慧開發者可以運用在地的資料,數位發展部特別推出「臺灣主權AI訓練語料庫」,廣納高品質正體中文語料,支援 AI 模型訓練貼近臺灣的語言、文化與生活情境,促進 AI 模型具備更高的本土辨識力與語意理解能力,符合我國社會與產業需求。
![]()
![]()
數發部與多個機關,包括文化部、教育部、交通部等部門合作建立初期語料庫
「臺灣主權 AI 訓練語料庫」目前已有超過 200個政府機關投入,上架 2,000筆以上的資料集、超過 6億 tokens,收錄各機關具臺灣文化特色之高品質資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域。這些資料就像 AI 的教材,幫助 AI 模型更了解臺灣,學會更自然、更貼近臺灣社會的語言表達能力。此計畫開始至今不久,資料量還不算多,然而計畫將會持續運作,即新資料會不斷加入,代表未來資料量將不斷擴增。
文化部綜合規劃司魏司長表示,文化部上架的公共藝術及文化資產類型資料集,展現臺灣豐富、多元的藝文風貌,可作為訓練 AI 模型認識臺灣文化內容的重要素材。教育部資訊及科技教育司鄧科長則表示,教育部提供的語言辭典資料涵蓋閩南語、客語及國語等,有助於強化 AI 模型的用詞精準度與語意理解能力。
![]()
![]()
語料庫合法合規共享才能促進發展
![]()
語料庫申請步驟
做為語料庫,可提供/授權給需要的機關、企業或個人利用更為重要,為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」,數發部與經濟部智慧財產局合作,共同推出「臺灣主權 AI 訓練語料授權條款-第一版」,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少AI訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權 AI 的發展與應用。
![]()
語料庫採用 JSON 格式支援多元訓練需求
更重要是語料庫串接政府資料開放十餘年努力的成果,將過去累積的豐富開放資料同步至語料庫,使用者可依需求查詢及下載所需語料資料,讓語料更容易被查找及應用。目前各機關提供至「臺灣主權 AI 訓練語料庫」的資料以現有電子文件為主,未來也希望能將過往記錄於紙張的資料經數位化轉換成文字後也加入資料庫,在更長久的未來更期望能整合多媒體資料。
有意運用「臺灣主權 AI 訓練語料庫」的機關行號或是個人開發者,只要至語料庫網站即可查看申請使用資格與相關授權資訊。數發部也說明語料庫內容將會持續擴充,希望從中央機關一路推廣至地方政府及民間機構,讓更多人共同參與,透過公私協力共同促進主權 AI 發展,用臺灣的語料,打造理解臺灣的 AI。
臺灣主權 AI 訓練語料庫:https://taic.moda.gov.tw
|