
IT之家 4 月 14 日音问体育游戏app平台,IT之家从豆包大模子团队获悉,字节高出最新念念考模子 Seed-Thinking-v1.5 时代细节本日公开,该模子将于 4 月 17 日通偏执山引擎敞开接供词用户体验。
该模子在数学、编程、科学推理等专科界限及创意写稿等通用任务中阐扬隆起,同期,模子罗致 MoE 架构,总参数 200B,激活参数为 20B,具备显耀的推理资本上风,单元推理资本比较 DeepSeek R1 缩短 50%。
时代敷陈联接:https://github.com/ ByteDance-Seed / Seed-Thinking-v1.5
模子各方面具体阐扬:
专科界限:数学推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、编程竞赛(Codeforces pass@8 达 55.0%,接近 Gemini 2.5 Pro)、科学推理(GPQA 得分 77.3%,接近 o3-mini-high),均达到或接近业界第一梯队水平。
通用任务:东谈主类评估阐扬超 DeepSeek R1 8%,遮蔽多场景需求。
资本上风:单元推理资本比较 DeepSeek R1 缩短 50%,完结性能与后果的平衡。

数据体系:会通可考据与创意性数据
针对推理与生成任务的不同需求,团队优化了数据处理计谋:
可考据数据(如数学、代码题):通过百万级数据三重清洗(东谈主工筛选 → 模子过滤 → 多模子考据),保留 10 万谈高难度题目;筹算谜底整数化篡改、离线沙箱考据等机制,确保模子输出信得过推理历程;
非可考据数据(如创意写稿):基于豆包 1.5 Pro 查考集,剔除廉价值样本,罗致两两对比奖励法,优化生成质地;
全新评测基准:构建了超难数学数据集 BeyondAIME(100 谈无谜底题干题目),处理现存测试分手度不及问题。
奖励模子:双轨体系校准查科场合
团队建议双轨奖励机制,兼顾“对错分明”与“见仁见智”任务:
可考据任务:成就了两代考据器(Seed-Verifier → Seed-Thinking-Verifier),从字符匹配升级为推理技艺逐行对比(查考 / 测试集准确率超 99%),阻绝模子“奖励骗取”;
非可考据任务:引入 pairwise 对比查考,通过千万次“AB 测试”,捕捉东谈主类对创意、心思等的隐性偏好,幸免“众口难调”;
双轨会通:针对搀杂场景筹算合营机制,硬主见(对错)与软偏好(优劣)互补,复古全场景查考。
查考步履:“监督精调 + 强化学习”双阶段优化
Seed-Thinking-v1.5 罗致“打基础 + 磨智商”的全链路查考:
监督精调(SFT):基于 40 万高质地实例(30 万可考据 +10 万非可考据数据),联接东谈主工与模子协同筛选,构建长念念考链数据集,确保模子“像东谈主类通常念念考”;
强化学习(RL):通过三重数据引擎(可考据 / 通用 / 搀杂数据)、算法立异(价值预查考、解耦 GAE 等)以及在线数据适配时代,处理查考不相识、长链推理断层等问题,动态治疗数据散播以保捏最好查考景色。
查考框架:复古 20B MoE 的底层架构
为应付 20B MoE(总参数 200B)的复杂查考需求,团队优化了底层架构:
HybridFlow 编程模子:支捏算法快速探索与散播式并活起初;
流式推理系统(SRS):通过“流式推理”时代解耦模子演进与异步推理,将查考速率擢升 3 倍,万亿参数下相识性达 95%;
三层并行架构:联接张量 / 群众 / 序列并行体育游戏app平台,动态平衡负载,基于 KARP 算法优化 GPU 算力愚弄率。
告白声明:文内含有的对外跳转联接(包括不限于超联接、二维码、口令等形态),用于传递更多信息,省俭甄选时代,适度仅供参考,IT之家总计著作均包含本声明。 ]article_adlist--> 声明:新浪网独家稿件,未经授权不容转载。 -->