Google I/O 2024/發表視覺語言模型PaliGemma及Gemma 2
編譯/夏洛特
在Google I/O 2024大會上,科技巨頭Google推出了功能強大的開放視覺語言模型(VLM)PaliGemma,並讓大家搶先了解即將推出的Gemma 系列模型的下一代產品Gemma 2
PaliGemma
Google新發布的PaliGemma 受到 Google視覺語言模型PaLI-3 的啟發,是經過預先訓練的 Gemma 變體、「Gemma 家族中的第一個視覺語言模型」,其基於開放組件(包括 SigLIP 視覺模型和 Gemma 語言模型)建構,目的是在各種視覺語言任務上實現一流的微調性能,能夠針對影像字幕、視覺問答、理解圖像內文字、物件偵測、物件切割等用例提供最佳應用。
更多新聞:改變遠端協作 Google整合 Starline 專案
PaliGemma 發布是AI功能的重大進步,為使用者提供了視覺語言任務的多方面解決方案,其主要優勢包括其多模式理解能力,使其能夠處理文字和圖像數據,實現更全面的理解和互動,或透過微調滿足廣泛的視覺語言任務,為開發人員提供靈活性和適應性。
Gemma 2
此外, Gemma 2則是基於Google開發人員和研究人員一直在尋求一個更大、易於運行和使用的開放式模型而產生的巔峰之作。該公司稱,270 億參數Gemma 2的性能,將優於「一些尺寸超過其兩倍的型號」。到目前為止,今年稍早推出的標準 Gemma 型號仍只有 20 億參數和 70 億參數版本,因此270 億參數型號可以說是邁出了相當大的一步。此外,Google還進行了優化,讓其可以在 GPU 或 Vertex AI 託管的單一 TPU 上高效運作。
雖然憑藉著擴展的參數數量和優化的架構,Gemma 2 有望突破AI創新的界限,推動機器學習技術進步,但目前Google尚未透露有關 Gemma 2 性能的全面數據。
參考資料:Tech Crunch、Beebom、Analytics India Mag
瀏覽 1,277 次