网易首页 > 网易号 > 正文 申请入驻

马斯克发布Grok 4,推理能力全面登顶,支持四个代理同时工作

0
分享至

Grok 4 终于来了!

马斯克旗下的 xAI 刚刚结束发布直播,Grok 系列模型直接从 Grok 3 进化到了 4,跳过了之前传闻中的 3.5 版本。

Grok 4 系列被分为两个版本:Grok 4 和 Grok 4 Heavy。

两者都是纯推理模型,没有非推理模式。

Grok 4 是单代理(single agent)版本,而 Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作。上下文窗口最高支持 256k tokens。


图 | Grok 4 目前并未开放给免费用户(来源:xAI)

xAI 表示,在主流推理基准测试中,Grok 4 Heavy 全部拿下了 SOTA——HLE(人类的最后考试)甚至达到了 44.4% 的高分。

至于定价,Grok 4 目前只有付费用户才能使用,而最强的 Grok 4 Heavy 需要订阅 300 美元/月的 SuperGrok Heavy 会员才能使用。

这价格超过了 OpenAI 最贵的 200 美元 Pro 会员月费。

此前传闻的 Grok 4 Code 并未正式公布,但 xAI 路线图显示其将在 8 月发布。


图 | xAI 新品发布路线图(来源:xAI)

除了 Coding 模型,接下来的几个月里,xAI 预计还会发布多模态代理和视频生成模型。

马斯克还“画饼”称,由 AI 制作的“非常出色的”游戏会在今年或明年推出。

Grok 4 也同时开放了 API 的权限,目前仅支持文字+视觉的输入,纯文字的输出。定价是每百万 tokens 输入3美元,输出 15 美元。


图 | Grok 4 API价格(来源:xAI)

据 xAI 介绍,Grok 4 的训练量是 Grok 2 的 100 倍。

而 Grok 3 到 Grok 4 更侧重于推理训练,推理训练量提升了 10 倍。


图 | Grok 系列模型的训练量增长(来源:xAI)

“从学术角度看,Grok 4 在所有学科上都是博士水平,甚至比绝大多数(本学科的)博士还要强。”马斯克表示。

有关两款最新模型的性能和消息,早在一周前就陆续有 X 博主爆料,包括“Grok 4 在 HLE(Humanities Last Exam,人类的最后考试)测试中的得分是 35%,开启推理后提高到 45%”等等。

结合直播内容,这些数据几乎都是准确的,而且 Grok 4 在多个推理基准测试上的表现均成为了新 SOTA。


图 | 此前关于 Grok 4 的爆料(来源:X/@legit_api)

具体来说,在未使用工具的情况下,Grok 4 在 HLE 测试中的得分是 25.4%。而使用工具后,分数则飙升至 38.6%。

更强版本 Grok 4 Heavy 则拿到了 44.4% 的高分,直接碾压了目前表现最好的谷歌 Gemini 2.5 Pro(26.9%)。


图 | Grok 4 在 HLE 上的成绩(来源:xAI)

马斯克表示,这些工具仍然是“很基础的简单工具”,如果能更好地使用正确的工具,Grok 还会变得更强大。

而随着模型能力越来越强,用强化学习进行扩展面临着许多挑战。

“我们快没有合适的问题来考验 AI 了。”马斯克说道,“很多问题都是人类几乎无法回答(没有正确答案)的。”

除了 HLE,Grok 4 和 Grok 4 Heavy 在各种主流基准测试上也表现优异。


图 | Grok 4 在多个基准测试上的成绩(来源:xAI)

Grok 4 系列在 GPQA(研究生级问题)测试中得分 88-89,超过了 Gemini 2.5 Pro 成为新第一。而在 AIME25 数学竞赛题上,Grok 4 Heavy 更是取得了满分的成绩。

xAI 表示,Grok 4 的强项是“用工具来理解世界,并用来完成任务”。

演示中,Grok 4 写了一段关于引力波和黑洞的模拟代码。在过程中,它调用了网络搜索、文献检索和阅读、代码运行等工具(功能)。最终实现了网页上可直接运行的模拟代码。


(来源:xAI)

在以高难度著称的 ARC-AGI 通用人工智能测试中,Grok 4 是首个在 v2 Semi Private 挑战中获得 10% 以上分数的 AI 模型,几乎是第二名 Claude Opus 4 的两倍,同时保证了单任务成本也处于平均水平。


图 | Grok 4 在 ARC-AGI 挑战上的表现(来源:xAI)

最后,在 Vending-Bench 自动售货机运营测试中,Grok 4 的表现也超过了 Claude Opus 4。净资产和销售数量都远远超过其他所有模型,甚至是人类平均水平。

这是一个让大模型代理运营自动售货机赚钱的模拟环境,需要代理在一个持续时间较长的任务中进行操作,如管理库存、下订单、定价和处理日常开销等等。它专注于测试大模型在长时间跨度上的表现,而非仅限于短期任务的表现。


图 | Vending-Bench 测试成绩(来源:xAI)



更加“激进”的 Grok

Grok 4 发布之际,在 X 平台上十分活跃的 Grok 聊天机器人却因连发激进言论而引发严重争议。

多位 X 用户截取了 Grok 的回复截图,显示该 AI 在多个公开帖子中回复了带有反犹主义色彩的极端言论,甚至多次提及希特勒。

在一篇帖子中,当被问及哪位 20 世纪的历史人物最适合处理当下已造成 100 多人死亡的德克萨斯州洪水问题时,Grok 将其视为是“仇恨白人”问题并回答说,毫无疑问是阿道夫·希特勒(Adolf Hitler)。“他每次都能发现规律,并果断处理。”


图 | Grok 引起争议的回答之一(来源:X/@AFpost)

在回应用户的质疑时,Grok 自称为“MechaHitler”(机械希特勒),声称这只是来自《德军总部 3D》游戏中的虚构角色。

巧合的是,这一事件发生在马斯克刚宣布对 Grok 进行“重大升级”之后不久:7 月 4 日,马斯克发文称,“Grok 经过了重大改进”,并表示“你们应该会在提问时感受到不同”。

2 天后,网友发现 Grok 系统提示词中新增:Grok 将“不回避政治不正确的表述,只要这些表述有足够证据支持”,还会将主流媒体内容视为“有偏见的主观叙述”。

不过在最新的更新中,关于政治不正确的提示词已被删除。

Grok 引发争议也不仅限于舆论上。由于其过于口无遮拦,因此招来了土耳其的封禁(因其侮辱总统埃尔多安),波兰政府也向欧盟举报了 xAI。

针对 Grok 最近几天的激进言论,xAI 表示已采取行动,删除不当帖子并禁止仇恨言论。


图 | xAI 回应,已采取措施防止仇恨言论(来源:xAI)

随着 OpenAI 筹备 GPT-5、谷歌进一步发展 Gemini、Meta 大手笔组建 AI 顶级人才实验室,Grok 4 只是下一波 AI 军备竞赛的一员。

Grok 4 的亮相符合人们的普遍预期,它在推理性能上的提升创造了新的 SOTA,但另一方面,xAI 强调训练量提升 100 倍,却避而不谈的训练成本问题,实实在在反应到了定价上,说明 AI 军备竞赛的确过于烧钱。

但背靠财大气粗的马斯克,xAI 显然很有底气。

“创造一个既快又聪明的模型,是我们的当务之急。”xAI 创始团队成员兼研究主管 Jimmy Ba 表示,“未来会很狂野。”

参考资料:

http://x.com/legit_api/status/1941165728708874514

http://x.com/AiBattle_/status/1940139539525419512

http://x.com/AFpost/status/1942694284244767125

http://github.com/xai-org/grok-prompts/blob/main/ask_grok_system_prompt.j2

http://www.wired.com/story/grok-antisemitic-posts-x-xai/

http://docs.x.ai/docs/models

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原装爱马仕铂金包拍出6千万,贝索斯老婆盯上,被日本人截胡!

原装爱马仕铂金包拍出6千万,贝索斯老婆盯上,被日本人截胡!

新欧洲
2025-07-12 19:15:16
离谱!68岁偏瘫大妈哭诉20年无性婚姻,70岁老伴:年龄大了遭不住

离谱!68岁偏瘫大妈哭诉20年无性婚姻,70岁老伴:年龄大了遭不住

壹月情感
2025-07-11 19:06:45
相比伊万科维奇的0比7,代理主帅久尔杰维奇执教的国足,0比2输给日本队

相比伊万科维奇的0比7,代理主帅久尔杰维奇执教的国足,0比2输给日本队

上观新闻
2025-07-12 22:38:04
特朗普撒弥天大谎,越南并没跟美签协议?越外长对王毅说掏心窝话

特朗普撒弥天大谎,越南并没跟美签协议?越外长对王毅说掏心窝话

星辰夜语
2025-07-12 03:48:08
造孽啊!湖北男子钓到最惨鲢鳙,全身鱼钩多达84个,网友:给它个痛快吧

造孽啊!湖北男子钓到最惨鲢鳙,全身鱼钩多达84个,网友:给它个痛快吧

小胡渔记
2025-07-12 19:13:45
蔡崇信郁闷至极!年年给中国球员机会,这次却错过了杨瀚森!

蔡崇信郁闷至极!年年给中国球员机会,这次却错过了杨瀚森!

田先生篮球
2025-07-11 23:10:00
勇记:明白杨瀚森为何能提升到16顺位了 他是球队不错的补充

勇记:明白杨瀚森为何能提升到16顺位了 他是球队不错的补充

直播吧
2025-07-12 12:06:16
内部画面曝光!电诈园区墙上满是“救救我,想回家”

内部画面曝光!电诈园区墙上满是“救救我,想回家”

大象新闻
2025-07-12 08:46:02
曹格17岁儿子恋爱,晒妹妹与女友合照,女友长着一张知性脸很漂亮

曹格17岁儿子恋爱,晒妹妹与女友合照,女友长着一张知性脸很漂亮

八怪娱
2025-07-11 09:10:20
队记详解杨瀚森首秀:两大能力远超预期 所有开拓者队友都会惊喜

队记详解杨瀚森首秀:两大能力远超预期 所有开拓者队友都会惊喜

罗说NBA
2025-07-12 18:05:27
2年暴涨4000万镑!伊兰加23年1500万离开曼联,现5500万去纽卡

2年暴涨4000万镑!伊兰加23年1500万离开曼联,现5500万去纽卡

直播吧
2025-07-12 12:28:37
条子哥韩兆回应:老三杨伦身体虚弱缺席葬礼,参加剪彩是成全老人

条子哥韩兆回应:老三杨伦身体虚弱缺席葬礼,参加剪彩是成全老人

寻墨阁
2025-07-12 16:56:05
开车致女友截瘫,男友一家玩消失,女子家境曝光,还有更恶劣的事

开车致女友截瘫,男友一家玩消失,女子家境曝光,还有更恶劣的事

寻墨阁
2025-07-09 23:08:51
8-3被逆转心态不崩!王艺迪/蒯曼3-2逆转获胜,头号种子晋级决赛

8-3被逆转心态不崩!王艺迪/蒯曼3-2逆转获胜,头号种子晋级决赛

钉钉陌上花开
2025-07-12 04:18:01
警惕!19家公司中报业绩下滑超100%,最大降幅达1721%

警惕!19家公司中报业绩下滑超100%,最大降幅达1721%

风风顺
2025-07-12 12:45:15
金正恩访问越南,乘专列耗时65时40分,为什么不坐飞机?大有讲究

金正恩访问越南,乘专列耗时65时40分,为什么不坐飞机?大有讲究

文史达观
2025-07-05 06:45:03
关于日本,有网友讲述了这样一个故事

关于日本,有网友讲述了这样一个故事

清晖有墨
2025-06-14 09:47:41
名记:费内巴切以1500万欧签下阿森西奥,提供1100万欧年薪

名记:费内巴切以1500万欧签下阿森西奥,提供1100万欧年薪

懂球帝
2025-07-12 00:06:05
森西:我在国米经历了困难时期 感激孔蒂信任我&小因扎吉很好沟通

森西:我在国米经历了困难时期 感激孔蒂信任我&小因扎吉很好沟通

直播吧
2025-07-12 22:20:15
笑死!全国高温来袭,上海游客竟被甘肃的“浆水面”死死拿捏了

笑死!全国高温来袭,上海游客竟被甘肃的“浆水面”死死拿捏了

八斗小先生
2025-07-11 09:45:52
2025-07-12 23:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15402文章数 513890关注度
往期回顾 全部

科技要闻

Kimi深夜整活,开源了首个万亿参数模型

头条要闻

网红卖货称"除了处女都可以用"惹争议 多年前曾被封禁

头条要闻

网红卖货称"除了处女都可以用"惹争议 多年前曾被封禁

体育要闻

夏联-开拓者大胜勇士 杨瀚森首秀10+4+5+3帽

娱乐要闻

鹿晗账号解禁后首晒自拍,涨粉超400万

财经要闻

中国超半数城市人口下滑,什么信号?

汽车要闻

小米YU7深度试驾:优点很多缺点也很多

态度原创

游戏
艺术
手机
公开课
军事航空

重置免费、武将培养难度降低!三望这游戏,还真是处处为玩家着想

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

Caviar再出手:三星Galaxy Z Fold/Flip7 24K金特别版问世

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国防部承认美空军基地在6月被伊朗导弹击中

无障碍浏览 进入关怀版