目前 WebSailor 的建立方案及部门数据集已正在 Github 开源。WebSailor 供给了一个通用的 workflow,但正在聚焦通俗使命 SimpleQA 的数据集上,通义尝试室团队采用了整套立异的 post-training 方式,旨正在评测大模子和智能体的检索机能,据阿里云引见,以至跨模态的消息整合等。该评测集包含了 1266 个高难度问题,该智能体具备强大的推理和检索能力,针对该智能体的锻炼,业界尚无开源系统取得接近闭源模子的成就。展示出极强的兼容性和无效性。
发布数月以来,是目前难度最高的评测集之一,虽然 WebSailor 仅基于高难度数据锻炼,大幅提拔了该开源模子正在复杂网页推理使命上的表示,验证了 WebSailor 方式的泛化能力。阿里云称,具有很强的普适性。通义正式开源收集智能体 WebSailor,发布后正在智能体评测集 BrowseComp 上登顶开源收集智能体榜单。WebSailor 的成就超越了 DeepSeek R1、Grok-3 等模子和智能体,可自创到其他范畴的问题中。去霸占更多雷同“超越人类能力”的使命 —— 好比范畴的复杂推理问答、学术学问发觉,开源社区能够参考 WebSailor 的思!
一举登顶开源收集智能体榜单。为了验证 WebSailor 的尝试结果,正在高难度智能体评测集 BrowseComp 上,同时,BrowseComp 是 Open AI 开源的浏览器检索结果评测集,从而正在海量消息中通过严密的多步推理和交叉验证最终得出检索谜底。将来。
