
由伊隆·馬斯克 (Elon Musk) 領軍的美國人工智慧公司 xAI,於 2025 年 7 月 10 日(日本時間)隆重發表了其最新一代 AI 模型 Grok 4,作為 Grok 3 的強力後繼者。xAI 公司的終極目標是開發出通用人工智慧 (AGI),即一種能在所有任務上都超越人類表現的 AI。Grok 4 的問世,無疑是其邁向 AGI 之路上的一個重要里程碑。這款模型被設計為一種高效的推理模型 (reasoning model),專為處理複雜思維過程以解決各類任務而生。
Grok 4 是什麼?
Grok 4 不僅僅是前一代的升級,它在多個關鍵技術和性能指標上都實現了質的飛躍。
模型類型與技術創新
Grok 4 在技術層面帶來了多項顯著進步:
- 推理計算資源提升:相較於 Grok 3,Grok 4 在推理所需的計算資源上足足增加了 10 倍,這賦予了它更強大的分析與解決問題能力。
- 強化工具學習整合:Grok 4 將工具學習 (Tool Learning) 深度整合到訓練過程中,使其能夠更靈活、更有效地使用外部工具來完成複雜任務。
- 語音對話速度倍增:在語音對話模式下,Grok 4 的處理速度是 Grok 3 的兩倍,大幅提升了互動的流暢性和即時性。
- 多功能支援:目前,Grok 4 提供文本到文本的服務,並全面支援功能呼叫 (Function Calling)、結構化輸出 (Structured Outputs) 和深度推理 (Reasoning) 能力,為各類應用提供了堅實的基礎。
性能評比:全面領先主流 AI 模型
Grok 4 在多個業界權威基準測試中,展現出超越 Google 的 Gemini 2.5 Pro 和 OpenAI 的 o3 最新模型的卓越性能。
Humanity’s Last Exam (HLE):人類最終考驗
Humanity’s Last Exam (HLE) 是一個由馬斯克提出,旨在評估 AI 模型性能的高難度基準測試。它被設計成一個涵蓋廣泛學術領域尖端知識的問題集,難度堪比博士班學生或更高研究水平。伊隆·馬斯克曾指出,人類在 HLE 中通常只能獲得大約 5% 的分數,這足以說明其挑戰性。然而,Grok 4 在此測試中取得了驚人的成績:
- Grok 4:獲得 38.6% 的分數。
- Grok 4 Heavy:表現更優異,達到 44.4%。
- 對比競爭對手:
- OpenAI o3:24.9%
- Google Gemini 2.5 Pro:26.9%
值得強調的是,在不使用工具的情況下,Grok 4 的 HLE 分數已可達 25%,與 Gemini 2.5 Pro 不相上下;若搭配工具或使用 Grok 4 Heavy,其表現將大幅超越所有競爭對手。伊隆·馬斯克更自豪地表示,Grok 4 在所有科目上的表現都優於大學博士學位水平。
其他關鍵基準測試
- ARC-AGI 基準測試:Grok 4 在此測試中穩居榜首,分數是 Claude Opus 4 的兩倍,再次證明其強勁的通用人工智慧能力。
- Vending-Bench (自動販賣機業務) 基準測試:Grok 4 在這項商業模擬中表現出色,展示了約 70 萬日圓的商品「銷售」能力(此為基準測試數據,旨在評估其商業邏輯和決策能力)。
xAI 強調,AI 在幾乎所有由人類設計的測試中都表現得比人類更好,這無疑是一個劃時代的成就。
Grok 4 vs Grok 4 Heavy:單代理 vs 多代理系統
xAI 推出了 Grok 4 的兩個版本,以滿足不同層次的需求:
- Grok 4 (單一代理):作為一個獨立的 AI 代理運行,高效處理單一任務。
- Grok 4 Heavy (多代理機制):這是一個更為強大的版本,採用先進的多代理 (multi-agent) 機制。Grok 4 Heavy 能夠針對單一任務同時獨立執行多個處理流程,然後比較、審視各個解決方案,最終給出最優回應。這使其在複雜問題解決和決策制定方面更具優勢。
值得一提的是,Grok 4 擁有高達 256,000 個代幣 (tokens) 的上下文視窗 (Context Window),這意味著它能夠在一次處理中理解和記憶極大量的文本信息,對於處理長篇文檔、複雜對話或深度分析任務來說,這是一個巨大的優勢,也為未來的應用拓展了無限可能。
Grok 4 的未來展望與 xAI 開發藍圖:AI 賦能多領域創新
xAI 對 Grok 4 的未來發展充滿雄心壯志,並公布了一系列令人振奮的開發計畫:
近期計畫
- 數週內:推出編碼特化型 AI 模型,專注於程式碼生成、分析與優化。
- 9 月左右:發布多模態 AI 代理 (Multimodal AI Agents),使其能夠理解和處理多種類型的數據(如圖像、音頻、文本)。
- 10 月左右:公開影片生成模型 (Video Generation Model),該模型將具備從像素輸入到像素輸出的能力,預示著強大的影像創作潛力。
長期願景
從長期願景來看,xAI 計劃讓 Grok 4 在以下幾個關鍵領域實現突破:
- 精確物理模擬:Grok 4 有望能夠進行精確的物理模擬,例如有限元素分析 (FEM) 和數值流體力學 (CFD)。儘管目前仍遜於專業模擬軟體,但未來有望在工程、科學研究等領域發揮巨大作用。
- 與現實世界互動:Grok 4 有望透過人形機器人與現實世界進行互動,將現實環境納入其強化學習循環,從而改進汽車或火箭設計、開發新藥並驗證其效果,這將是 AI 融入實體世界的關鍵一步。
- 遊戲開發革命:Grok 4 不僅能生成遊戲資產,還能理解並判斷何處有趣,預計最快今年、最遲明年將能生成可直接執行的遊戲,甚至有望在明年催生出由 AI 製作的優秀電玩遊戲和 AI 電影,這將徹底顛覆內容創作產業,開啟一個由 AI 驅動的全新娛樂時代。
如何體驗 Grok 4:訂閱與 API 資訊一覽
Grok 4 已於 7 月 10 日起正式對部分用戶開放,並提供 API 供開發者使用。
用戶獲取方式
想要體驗 Grok 4 的用戶,可以通過成為以下付費會員來獲取:
- X 的付費會員「Premium Plus」:月費詳情請參考 X 官方公告。
- Grok 的付費會員「SuperGrok」:月費為 30 美元。
API 使用費用
對於開發者而言,Grok 4 的 API 費用如下:
- Grok 4 API:每 100 萬輸入代幣 0.75 美元,輸出代幣 15 美元。
- Grok 4 Heavy 獲取方式與費用:面向同期開始的 Grok 付費會員 「SuperGrok Heavy」 提供,月費為 300 美元。
- Grok 4 Heavy API:每 100 萬輸入代幣 3 美元,輸出代幣 15 美元。
這些多元的獲取方式確保了不同需求的使用者和開發者都能有機會接觸並利用 Grok 4 的強大功能。
結語:Grok 4 是否能改寫 AI 格局?
Grok 4 的發布,無疑為人工智慧領域注入了新的活力,其在推理能力、基準測試表現以及對 AGI 的未來願景都令人印象深刻。它不僅在技術上取得了顯著突破,更在實際應用上展現了廣闊前景。隨著 xAI 持續推進其開發藍圖,我們有理由相信,Grok 4 及未來的版本將在更多領域展現其巨大潛力,引領 AI 走向一個全新的時代,真正實現科幻作品中對通用人工智慧的想像。