XXXX18 MiniMax M3终于来了，目的很强，但社区炒翻了

澜筑建材有限公司

热点资讯

产品中心你的位置：澜筑建材有限公司 > 产品中心 >

XXXX18 MiniMax M3终于来了，目的很强，但社区炒翻了

发布日期：2026-06-04 14:39 点击次数：136

XXXX18 MiniMax M3终于来了，目的很强，但社区炒翻了

文 | AIDeepDiveXXXX18

今天绽放手机，正本只想扫一眼股价，收尾看到了MiniMax股价大跌15%。

然后迅速去翻了翻新闻，原来是M3发布了。

我读了一下M3的时刻陈诉，率直说，确切不差，从各项benchmark来看，甚而是惊艳的。

SWE-Bench Pro 59%，超了GPT-5.5，面对Opus 4.7，BrowseComp 83.5径直把Opus 4.7踩在眼下，百万高下文，原生多模态，外加自研MSA稀少珍主意架构。

固然股价一直跟事迹和实力没什么干系，但这两个信息放在全部更诡异了。

我又翻了下X上的驳倒和设立者社区，收尾骂声如实比叫好声更响，特别是中语社区。

那如实要聊聊这两级分化了。

先说说目的里的“预防想”

59%的SWE-Bench Pro，这个数字本人没什么问题。

SWE-Bench Pro是面前公认最接近真实软件工程场景的基准，考的是用代码修真实阵势里的bug，还得跑测测考据，不可蒙，含金量是够的。59%是个实打实的高分。

但翻到MiniMax时刻陈诉里，Terminal Bench 2和VIBE-Pro这两个测试有一排刺眼，它写着，使用了Claude Code算作评测脚手架进行测试。 !

这意味着MiniMax继承了Claude Code的器用链，测我方模子的Coding才智，然后拿这个分数去跟Claude Opus 4.7作念比较。

这个操作我不是很能相识。

我不明晰其他的模子是否亦然这样评测的？惟有MiniMax说了“实话”？又大要惟有MiniMax是这样的？

我仔细翻了一下，其实SWE benchmark、Terminal Bench 2和VIBE-Pro都是基于Claude Code作念的测试。

准确来说，像Terminal Bench 2这类需要在环境里结合扩充器用调用的Agent评测，在面前行业里用脚手架跑是旧例，Claude Code、OpenCode都是常见选择。

脚手架本人不是问题，问题在于，当你用A的框架测B的才智，然后对外宣传跟A比肩，这样就有点“不讲武德”了。

模子的原生才智，跟“用某个脚手架跑出来的才智”，是两件事。

用户很难辩认SWE-Bench Pro 59%这个数据里有几许是模子才智，有几许是脚手架加成，这就难怪许多东说念主也曾十足不信多样评测目的了。

在MiniMax官号底下，这样的吐槽比比齐是。

咱们来说说“开源”的由衷

与其他发布的开源模子不同XXXX18，MiniMax此次莫得公布模子大小。

究竟是一个多大的模子获取了这样的收获？这让设立者们充满困惑。

其次让许多设立者不悦的，是莫得公布模子“权重”。官方说法是“发布后10天内开源”，模子先API上线，权重背面跟上。

这又回到了上头的话题，这种作念法充满“神思”。面向一向追求坦诚的关节员来说，这种作念法不错相识，但不那么“坦荡”。

为什么这样说？这种安排，更多是贸易逻辑上的有计划，我以为我特别能相识。等于先通过API收回一波本钱，再开源，无可厚非。

但淌若你今天对社区宣传的是“开源”，但又不给权重，社区莫得办法在腹地环境里考据任何评测数据。总共东说念主只可通过API拜访模子，既无法复现benchmark，也无法零丁摸清模子底细。

开源社区的中枢价值等于“可复现、可考据”。

是以最初宣传开源，再说权重“过几天给“，这两件事放在全部，社区的质疑声也就很当然了。

一样这种

大要这种

最渣心的，如故Coding Plan的诊治

前两个都如故时刻界限的筹备，Coding Plan的诊治才是骂声最集合的场地。

昔时MiniMax的Coding Plan一直以“量大管饱”著称。

它是按照肯求次数来作念模子，杀青的是速率，每5小时弯曲窗口内的肯求次数，但莫得月度Token总量的上限。一个重度设立者，只消不超速，无遮挡国产高潮视频免费观看不错握续低速地跑。

有老用户算过，他一个月现实跑下来浪费了三十亿token，有的甚而五十亿+，而月费等于那几十块钱。

这是之前的“黄金时期”，每个月无上限地跑，我方限制节律。

关联词，在莫得预报的情况下，M3发布同步推了Token Plan，把这套限定改了。

改成了什么？按总量来看。Plus套餐49块6亿token，官方说相等于Claude Pro 5倍用量，听起来很合算。

但官方笃定深究一下，这个6亿token是按单次调用50K token来估算的，折算出来苟且是12000次调用。

你想想看，M3复古百万高下文，实在的重度使用场景，单次调用几十万token是常态，6亿token一下子就见底了。

更不接受的是原来承诺老用户不受周名额杀青，面前却出尔反尔。这怎么可能不炸呢？

官方很快出来复兴：

V2EX上有效户径直把此次和之前的“代金券事件”并排，说MiniMax这是又背刺了一次老用户。

能让用户翻出来历史账单全部算，讲明积聚的信任是确切在浪费。

说回时刻本人，MSA这个蜕变有点真理

其实，MiniMax的这个发布是有点真理的，但都被一系列“骚操作”盖住了。

特别是M3的底层架构蜕变，我个东说念主以为如故有一些新东西令东说念主欢喜的。

MiniMax自研了一个叫MSA（MiniMax Sparse Attention）的稀少珍主意机制。

传统Transformer的珍主意野心是O(n²)的，高下文长度翻10倍，野心量暴涨100倍，这是作念长高下文一直绕不开的魔咒。

MSA的想路是对KV（Key-Value）作念高精度的分块，然后作念稀少化，比较之前DSA、MoBA这些决策，它能更精确地诡秘到有效的高下文，而不是随即裁掉一些。

与此经营的是底层算子层面，创始了「以KV为外轮且归团聚Q」的野心面容，每个KV块只被读一次，内存拜访是结合的，速率比开源的Flash-Sparse-Attention快4倍以上。

现实服从，跟上一代M2比较，在百万高下文下，prefilling阶段加快迥殊9倍，decoding加快迥殊15倍，单token野心量惟有上一代的1/20。

这个决策与之前DeepSeek的旅途也有所不同。DeepSeek V4主攻的是“夹杂压缩架构”与“极低精度野心” (CSA + HCA机制）。

这意味着什么，昔时跑百万高下文是挥霍，面前是确切能用的基础顺序了。

从时刻道路来看，MiniMax在长高下文、多模态和Agent才智这三块的平衡经过，在国内厂商里如实算凸起的。

其他家可能某一块打得很猛，但三个同期达到前沿水位的，M3是第一个对外声称的。这个声称对分歧，等零丁评测收尾出来再看，但主见本人是很清醒的。

临了说几句

真不知说念应该怎么相识此次M3的发布，是因为千里寂太久，是以太张惶？太张惶了？

模子本人是在朝上的，MSA架构是真蜕变，长高下文推理服从是实打实晋升了，三模态平衡（况且是原生多模态）这件事也如实是难的。

但发布的面容如实是在浪费用户信任，这在争抢设立者的商场里，这番操作让东说念主看不解白。

开源社区的相识很朴素，你说开源就得给权重，你说由衷就别搞笔墨游戏，你要改价钱就得提前讲明晰。

面前的现象，骂声和期待同期存在，这本人是个好信号，讲明公共还在柔和，还多情谊，还莫得走东说念主。

就看MiniMax接下来这10天，权重放出来之后，零丁评测会不会把那些目的打回原形了。

上一篇：男人叫女人丫头的含义科技股反弹，多只基金单日涨超7%

下一篇：没有了