MiroMind推出全球顶尖搜索智能体模型，核心聚焦“发现式智能”

更新：2026-03-02 07:17:11

凭借成功预测Polymarket题目、连续登顶Future X全球榜首的MiroMind团队，在今日（1月5日）正式推出了自主研发的旗舰搜索智能体模型MiroThinker 1.5。

MiroMind由全球知名创新企业家、慈善家陈天桥与清华大学知名AI青年学者代季峰教授联合发起。去年陈天桥提出重磅创新理念——发现式智能才是真正意义上的通用人工智能，引发全球业内人士关注。他还提出了建设发现式智能所需的5种关键能力，其中一项是在未知条件下重建对世界的理解，而这正是MiroMind肩负的使命。

过去七个月，当整个行业都在参数规模和百万长文本的红海里激烈竞争时，MiroMind 却在探寻一个更为本质的问题：智能的“奇点”究竟位于何处？他们给出的答案并非“将世界压缩进参数之中”，而是聚焦于“发现式智能”：真正的智能不依赖全知全能，而是凭借会研究、会查证、会修正的能力——如同顶级情报官一般，对外快速获取证据，对内严格辨别真伪；又像严谨的研究员那样，在充满不确定性的环境中逐步逼近真相，最终让“预测未来”从少数人的特权转变为普遍拥有的能力。

MiroThinker 1.5 性能评测

MiroMind 团队在 AGI 竞技场上，不信奉 “大力出奇迹”，而是追求以高智效比为核心的「巧劲」。

MiroThinker-v1.5-30B 仅用 1/30 的参数规模跑出了比肩众多 1T 模型的性能表现，其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

实力霸榜：指标是门槛，预测是天花板

BrowseComp 性能对比

Agent 搜索评测基准性能对比

越级挑战：MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面对参数量高达 30 倍的万亿参数巨兽 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现：

推理成本： MiroThinker-v1.5-30B 单条调用成本低至 $0.07，仅为 Kimi-K2-Thinking 的 1/20，且推理更快。

性能表现：在关键评测集 BrowseComp-ZH 中实现性能超越，证明「大」不等于「强」。

核心洞察：从「做题家模式」转向「科学家模式」

MiroMind团队认为，传统Scaling Law以增加模型内部参数量为核心，目前已清晰遇到边际瓶颈；若想持续提升模型性能，就得从“内部参数扩张”转变为以“外部信息交互”为核心的Interactive Scaling，把智能的增长范围从内部参数拓展至外部世界。

为什么该模型能在大幅降低成本的同时，性能依然能打？

这并非「大参数碾压」的结果，而是「科学家模式」对「做题家模式」的一次胜利。以Scaling Law为代表的路径，更趋近于「做题家」的逻辑：它试图将全人类的知识（其中也包含噪声与错误）尽可能多地纳入模型；可一旦面对生物学这类领域的未知问题，就很容易依据概率分布「虚构」出一个看似合理的答案——幻觉现象往往就是这样产生的。

在MiroThinker 1.0版本中，MiroMind团队开创性地系统性提出了Interactive Scaling这一概念：当工具的交互频率与深度不断提升时，模型的研究式推理能力也会随之稳定增强——这一维度与模型大小、上下文长度共同构成了三个可扩展的核心维度。到了v1.5版本，团队进一步将这套机制深化为贯穿模型训练与推理全流程的核心能力：把模型训练成具备“科学家思维”的智能体，关键不在于让它死记硬背知识，而在于培养其主动查证的习惯。面对复杂问题时，它不会直接给出概率最高却可能偏离事实的猜测，而是启动“慢思考”的研究闭环流程：先提出初步假设，接着向外部数据源查询信息、收集证据；若发现证据与假设不符，则及时修正假设，再次进行查证，直至所有证据指向收敛一致的结论。

主流大模型往往盲目追求万亿参数，试图把整个互联网「背」在脑子里。而 MiroThinker 系列选择了一条反共识的路线：刻意将模型控制在 30B–200B 的轻量级规模。MiroMind 团队强调，省下的不是算力，而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。

MiroMind团队并不致力于让模型拥有一颗「最重的脑子」，而是着力培养它具备一双「最勤的手」。当模型同时拥有研究式确认机制与时序因果约束时，这种围绕外部信息获取展开的交互过程，才真正让「发现式智能」落地生根——而正是对Interactive Scaling的深入钻研，让他们得以用小得多的模型，达成了大模型才能实现的成果。

MiroThinker 1.5 核心技术揭秘

传统的模型思维链本质上是在模型内部知识空间的线性外推，推理偏差会随路径增长而不断累积，最终导致逻辑坍塌。

MiroThinker 1.5 的核心优势，是借助 Interactive Scaling 孤立推理的困境，让「推理」和「外部环境」实现深度融合。它通过搭建「推理 - 验证 - 修正」的循环机制，引入外部信息作为验证的基准，以具有确定性的证据流来平衡不确定性的推演过程，从而解决逻辑崩塌的问题。

Training-time Interactive Scaling 技术

当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理，而是依托模型高频与外部世界中探索与交互并获得闭环反馈时，小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。

MiroThinker 1.5 正是基于这一判断，将 Interactive Scaling 从推理阶段的外挂能力，前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」，而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。

在训练过程中，MiroMind 团队刻意削弱对「单次完美推理」的奖励，转而强化以下行为模式：

Evidence-Seeking（主动求证）：模型被鼓励将每一个关键判断拆解为可验证的子假设，并主动发起对外查询、检索与比对。结论本身不再是训练目标，找到可靠证据的过程才是。缺乏信源支撑的高置信输出，会在训练中被系统性地惩罚。

Iterative Verification（多轮校验与自我修正）：推理不被视为一次性路径，而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试，一旦发现证据冲突，必须显式调整假设，而非「带着错误继续推下去」。

Anti-Hallucination（对捷径的系统性过滤）：对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确，更关注答案是如何得到的：任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径，都会被标记为低质量推理。

通过这种训练方式，MiroThinker 1.5 逐步形成了一种「本能反应」：在不确定性面前，先交互、再判断；在高风险结论前，先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数，而是学会在需要时，快速、精准地向外部世界「借力」。

最终，团队用更小的参数规模，换来了更高的智能密度：不是让模型记住更多，而是让它学会如何找到、验证并使用信息。这正是 MiroThinker 1.5 能在显著降低推理成本的同时，依然保持一线性能的根本原因。

时序敏感训练沙盒

时序敏感训练沙盒，堪称「因果律」难题的关键钥匙：常规大模型训练多处于「上帝视角」——模型在训练数据中早已提前「知晓结果」，其学到的能力往往局限于对信息的复述与「剧透式输出」，而非真正的预测能力。而MiroThinker的训练模式则对模型施加了严格约束：「仅能读取过去的信息，不得接触未来的数据」，要求模型在这种严格的时间可见性限制下进行判断，之后再利用同样受时序约束的证据来验证判断结果，并完成自身模型的更新迭代。

可控数据合成引擎：构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签，而是随时间戳动态演化；模型必须在严格的信息可见性约束下，基于当时可获取的信息做出判断，而校验过程同样显式引入时间戳约束，以确保推演与评分均符合真实世界的时序逻辑。

时序敏感训练机制：采用严格的时间戳与信息可见性约束，彻底杜绝 Future Leakage；模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下，模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正，而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量，转变为塑造模型行为与推理方式的核心约束，使模型更接近真实世界中的认知与决策过程。