

第1页 / 共14页
试读已结束,还剩13页,您可下载完整版后进行离线阅读
THE END
DeepSeek-R1:通过强化学习激励大语言模型的推理能力左元翻译日期:February2.2025摘要本文介绍了我们的第一代推理模型,DeepSeek-RI-Zero和DeepSeek-RI。DeepSeek-Rl-Zero是通过大规模强化学习(RL)训练的模型,在没有使用监督微调(ST)这个前置步聚的情况下,展示了卓越的推理能力。通过强化学习,DeepSeek-Rl-Zro自然而然的展现出了许多强大而有趣的推理行为。然而,它也面格一些挑战,如可读性差和多语言混合等问题。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R】,该模型在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-RI在推理任务中的表现与OpenAI-ol-2I7相当。为了支持研究社区,我们开源了DeepSeek-Rl-Zero、DeepSeek-RI以及六个稠密模型(1.5B、7B、8B、14B、32B、70B),这六个稠密模型是使用DeepSeek-RI对Qwen和Llama蒸馏而来eDeepSeek-RI0 penAI-01-1217DeepSeek-R1-32BOpenAI-ol-miniDeepSeek-V31007375.772日6386215.749.24B941.64209220AIME 2024CodeforcesGPQA DiamondMATH-500MMLUSWE-bench Verified5S01Pevcentel3501DPasso1102s01DIResoMedl1:Benchmark performance of DeepSeek-R1.1
请登录后查看评论内容