馬斯克發表Grok-1.5 Vision 表現優於GPT-4及Gemini

2024-04-18

記者／竹二

由馬斯克(Elon Musk)成立的xAI公司近日發表了多模語言模型Grok-1.5 Vision，能夠理解文件、圖表、示意圖、螢幕擷圖、相片等視覺資訊，預告很快將提供預覽版供研究及開發人員測試。

由馬斯克Elon Musk所成立的xAI公司近日發表了多模語言模型Grok-1.5 Vision。（圖／截取自xAI）

xAI發表Grok-1.5 Vison多模語言模型

xAI公司是馬斯克在2023年7月12日所創辦的人工智慧初創企業，由OpenAI、Google DeepMind、Google研究院、微軟研究院、特斯拉、X（前Twitter）以及多倫多大學前雇員所組成，將會與X和特斯拉緊密合作，其中一個目標是打造能進行高階邏輯推理的人工智慧模型。

更多新聞：聯發科再推BreeXe大型語言模型　搭配「達哥」AI平台

Grok-1.5 Vision是xAI公司繼3月間開源Grok的基礎LLM Grok-1、4月初的Grok-1.5後最新AI研發成果發表。據了解，Grok-1.5 Vison是xAI第一代多模語言模型，除了具有文字理解能力之外，Grok聊天機器人現在還能處理多種視覺資訊，像是文件、圖表、示意圖、螢幕截圖、相片等。

Grok-1.5 Vison表現優於GPT-4

若是按照之前的常態規律，Grok-1.5 Vison很可能在幾周之內就會開放早期測試人員，或是現有Grok用戶所使用。根據xAI公司的說法，Grok-1.5 Vison從跨學科推論到理解文件、科學示意圖、圖表、截圖和相片等多方面都不輸現有多模語言模型。

xAI所列出標竿測試數據顯示，在數學、文字理解、真實世界圖片理解能力上，Grok-1.5 Vison確實超越OpenAI GPT-4、Google Gemini Pro 1.5，以及Anthropic的Claude 3系列，而示意圖理解能力只落後Claude 3 Sonnet模型。

xAI表示，他們正持續提升Grok-1.5 Vison的多模理解及生成能力，預計未來幾個月內圖片、影片和聲音等模態資訊的理解與生成能力都會再進一步精進。

瀏覽 578 次

覺得不錯的話就分享出去吧！

標籤

2024-04-18

馬斯克發表Grok-1.5 Vision 表現優於GPT-4及Gemini

xAI發表Grok-1.5 Vison多模語言模型

Grok-1.5 Vison表現優於GPT-4

推薦工作

發佈留言取消回覆

xAI發表Grok-1.5 Vison多模語言模型

Grok-1.5 Vison表現優於GPT-4

推薦工作

延伸閱讀

AI詐騙橫行黑色星期五購物潮 你能分辨真偽嗎？

新型二氧化錳催化劑 為氫氣經濟帶來長期可持續性

魔鬼藏在「聲音」裡 AI診斷早期帕金森氏症準確率達99%

AI協作「音樂機器人」會演奏 還能預測下一個旋律

靈感來自於章魚！麻省理工學院開發直達腸道「送藥膠囊」

FAA監管鬆綁！SpaceX星艦發射目標明年翻5倍

發佈留言 取消回覆

AI詐騙橫行黑色星期五購物潮你能分辨真偽嗎？

新型二氧化錳催化劑為氫氣經濟帶來長期可持續性

AI協作「音樂機器人」會演奏還能預測下一個旋律

發佈留言取消回覆