Google推出Gemini模型　同時支援文字、圖片和聲音

2023-12-08

記者／竹二

Google近日正式推出原生多模態的大型語言模型Gemini，可同時支援文字、圖片和聲音的輸入，據了解在32項的AI測試中，有30項的評分超越OpenAI的GPT-4V模型，Gemini預計提出3種版本，包含模型最大的Ultra版、通用性最廣的Pro版，以及可以在手機裝置上運作的Nano版。

Google正式推出原生多模態的大型語言模型Gemini，可同時支援文字、圖片和聲音的輸入。（圖／截取自Google）

Gemini支援文字、圖片與聲音

根據Google展示的影片，Gemini可以同時分辨和理解文字、圖片和聲音，也可以用來分辨和解釋幾種熱門開發語言，包含Python、Java、C++以及Go語言等，可以理解跨開發語言來推論複雜訊息，Gemini也打造了新版的程式碼生成系統AlphaCode 2，比2年前的第一代改進很多，可以解決2倍的問題。

更多新聞：AI工作助手幻滅！OpenAI 營運長：商業AI被誇大了

Gemini使用Google自行開發的晶片TPU訓練而成，而且使用了v4和v5e版的TPU，Google也同時宣布了新版TPU v5p，可以用來加速Gemini模型的開發，提供企業用來客製化訓練自己的LLM模型，而TPU v5p單一叢集可支援到8960顆TPU，提供2倍FLOPS的算力，記憶體頻寬也提高3倍。

Gemini Nano版可在手機上執行

據了解，Google目前先在Bard中使用微調過的Gemini Pro版本，可提供推理和計畫的回答能力，並先釋出英語版，可以在全球170個國家和地區使用，預計接下來會支援更多語言。

此外，Gemini另一個新特色是推出了一款可以在手機上執行的Nano版Gemini模型，根據Google的說法，甚至不需要連上網路，只靠手機上的TPU晶片也能運作，目前先支援Pixel系列手機。Nano版Gemini也會先用來強化Gboard的自動語音回覆輸入能力，將率先支援WhatsApp的輸入，預計明年計畫支援更多App。

瀏覽 1,370 次

覺得不錯的話就分享出去吧！

標籤

2023-12-08

Google推出Gemini模型　同時支援文字、圖片和聲音

Gemini支援文字、圖片與聲音

Gemini Nano版可在手機上執行

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

Gemini支援文字、圖片與聲音

Gemini Nano版可在手機上執行

推薦工作

延伸閱讀

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

發佈留言 取消回覆

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

發佈留言取消回覆