IT之家2月6日音书,本日,李飞飞酌量团队以不到50好意思元的云计较用度考试了一个名叫s1的东谈主工智能推理模子威斯尼斯人AG百家乐,该模子在数学和编码技艺测试中的阐扬与OpenAl的o1和Depsek的R1等顶端推理模子通常。
不外很快,该s1模子被指“并非从零运行考试”,其基座模子为“阿里通义千问(Qwen)模子”。对此,新浪科技向阿里云方面求证,阿里云方面证据了这一音书。
阿里云回答称:“他们以阿里通义千问Qwen2.5-32B-Instruct开源模子为底座,在16块H100GPU上监督微调26分钟,考试出新模子s1-32B,获得了与OpenAI的o1和DeepSeek的R1等顶端推理模子数学及编码技艺很是的效用,ag百家乐官网以致在竞赛数常识题上的阐扬比o1-preview当先27%。”
据IT之家此前报谈,s1团队裸露他们通过“蒸馏”时刻创建了该东谈主工智能模子,该时刻旨在通过考试模子来学习另一个东谈主工智能模子的谜底,从而索求其“推理”技艺。
s1的论文标明,不错使用一种称为监督微调(SFT)的设施,不错使用相对较小的数据集来蒸馏推理模子。在SFT中,东谈主工智能模子会被明确提示在数据麇集效法某些活动。SFT比DeepSeek用于考试其R1模子的大限度强化学习设施更具本钱效益。
s1基于阿里巴巴旗下中国东谈主工智能推行室Qwen提供的一款袖珍、现成的免费东谈主工智能模子。为了考试s1威斯尼斯人AG百家乐,酌量东谈主员创建了一个仅包含1000个全心沟通的问题的数据集,以及这些问题的谜底,以及谷歌Gemini2.0FlashThinkingExperimental给出的每个谜底背后的“念念考”流程。