Google釋出Data Cards Playbooks 建立連續資料與透明度
隨著AI人工智慧的發展,各種機器學習、訓練模型所使用的資料集,在負責任和知情開發顯得越來越重要,Google先前發表的Data Cards,就是一個可以提供資料集生命周期透明度的資料集文件框架,能讓下游掌握資料集的起源、發展、意圖和演變。而現在,企業也可以使用Google新發布的Data Cards Playbook,來簡單實踐Data Cards的框架。
所謂的Data Cards,是一組透明度構件,提供機器學習資料集的結構化摘要,解釋塑造資料的過程和基本原理,並描述使用該資料來訓練和評估模型的方法,至少需要6項內容,包含上游來源、資料收集、註解方法、訓練和評估方法、預期用途,以及影響模型效能的決策。
根據Google的說法,在實踐中有2個重要因素會決定透明度構建的構件與否,首先是辨識決策者使用資訊的能力,其次獲取該訊息所需要的流程和指南。研究人員會探索這些想法開發工具,讓各種資料集和組織環境都能適用Data Cards,這些工具可用於創建邊界基礎架構,流程和參與模型在實踐社群間交流訊息,提供必要的技術和功能性基礎設施補充。
至於Data Cards Playbook則是一個自我導引式的工具包,提供團隊使用機器學習資料集來應對透明度挑戰,Playbook能夠引導使用者簡單的應用Data Cards框架,從一開始的規畫透明度策略、定義受眾,再到撰寫複雜資料集的摘要,確保資料集的可用性。
Google透過多種研究方式來創建Data Cards Playbook,像是了解團隊所需要的資料集和模型資訊,或是在日常工作中使用這些資訊的方式。在過去2年的時間,Google內部就有15個團隊使用這個透明度構件模板,在討論與合作之下,研究團隊創建了20多種Data Cards,用於描述圖像、語言、表格、影片、音訊和關係資料集,在生產環境的設定方法。(記者/竹二)
瀏覽 1,044 次