Google推出Gemini模型 同時支援文字、圖片和聲音

記者/竹二

Google近日正式推出原生多模態的大型語言模型Gemini,可同時支援文字、圖片和聲音的輸入,據了解在32項的AI測試中,有30項的評分超越OpenAI的GPT-4V模型,Gemini預計提出3種版本,包含模型最大的Ultra版、通用性最廣的Pro版,以及可以在手機裝置上運作的Nano版。

Google正式推出原生多模態的大型語言模型Gemini,可同時支援文字、圖片和聲音的輸入。(圖/截取自Google)

Gemini支援文字、圖片與聲音

根據Google展示的影片,Gemini可以同時分辨和理解文字、圖片和聲音,也可以用來分辨和解釋幾種熱門開發語言,包含Python、Java、C++以及Go語言等,可以理解跨開發語言來推論複雜訊息,Gemini也打造了新版的程式碼生成系統AlphaCode 2,比2年前的第一代改進很多,可以解決2倍的問題。

更多新聞:AI工作助手幻滅!OpenAI 營運長:商業AI被誇大了

Gemini使用Google自行開發的晶片TPU訓練而成,而且使用了v4和v5e版的TPU,Google也同時宣布了新版TPU v5p,可以用來加速Gemini模型的開發,提供企業用來客製化訓練自己的LLM模型,而TPU v5p單一叢集可支援到8960顆TPU,提供2倍FLOPS的算力,記憶體頻寬也提高3倍。

Gemini Nano版可在手機上執行

據了解,Google目前先在Bard中使用微調過的Gemini Pro版本,可提供推理和計畫的回答能力,並先釋出英語版,可以在全球170個國家和地區使用,預計接下來會支援更多語言。

此外,Gemini另一個新特色是推出了一款可以在手機上執行的Nano版Gemini模型,根據Google的說法,甚至不需要連上網路,只靠手機上的TPU晶片也能運作,目前先支援Pixel系列手機。Nano版Gemini也會先用來強化Gboard的自動語音回覆輸入能力,將率先支援WhatsApp的輸入,預計明年計畫支援更多App。

瀏覽 1,126 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button