作者：蔡文睿（清素）、汪誠愚（熊兮）、嚴俊冰（玖燭）、黃俊（臨在）

前言

自然語言處理領域因大語言模型（LLM）的突破發生重大變革，深度推理模型如 Open AI o1、DeepSeek-R1 等，通過思維鏈推理策略，模擬人類思考過程。然而上述長推理模型在實際使用中仍然存在兩個問題。首先，模型體積龐大，計算需求高，部署成本昂貴，這為實際應用場景帶來了一係列挑戰。其次，在某些特定任務中，思維鏈推理的過程常因路徑過長導致冗餘，在效率和準確性上存在進一步提升的空間。

基於阿裏雲星空人工智能平台（PAI）的蒸餾工具包EasyDistill（http://github.com/modelscope/easydistill），美女直播全婐APP免费下载提出變長思維鏈蒸餾美女福利导航，探索如何通過蒸餾的方式將小模型的推理能力提升到極致。在此基礎上產出了當時業界最大的高質量變長思維鏈數據集OmniThought，以及DistilQwen-ThoughtX係列蒸餾模型（DistilQwen-ThoughtX：變長思維鏈推理模型，能力超越DeepSeek蒸餾模型）。近期，PAI團隊進一步更新了OmniThought數據集，並發布了新的蒸餾模型DistillQwen-ThoughtY係列。DistillQwen-ThoughtY係列是基於全新Qwen3 學生模型和DeepSeek-R1-0528教師模型訓練而成。該模型在數學、代碼等領域，全麵提升小模型推理能力。相關模型權重、蒸餾方法與蒸餾DeepSeek-R1-0528模型獲得的OmniThought-0528數據集已在 EasyDistill框架開源。

本文將重點解析基於EasyDistill框架實現DistillQwen-ThoughtY模型的蒸餾，評測模型相關效果，最後介紹了DistillQwen-ThoughtY模型在開源社區和PAI平台上的使用方式。

美女福利导航簡介

OmniThought-0528數據集的構建

在先前的工作（DistilQwen-ThoughtX：變長思維鏈推理模型，能力超越DeepSeek蒸餾模型），美女直播全婐APP免费下载構建了OmniThought思維鏈數據集，從多個公開數據源搜集推理問題構成框架的輸入，涵蓋數學、編碼、科學等不同領域的推理問題。對於每個問題，采用DeepSeek-R1和QwQ-32B作為教師模型生成多個思維鏈，采用“LLM-as-a-judge”方法對生成的思維鏈進行多個方麵的正確性驗證，僅當驗證為正確的思維鏈才能最終被選為訓練集。此外，對於每條思維鏈，美女直播全婐APP免费下载標注了“推理冗餘度（Reasoning Verbosity，RV）”和“認知難度（Cognitive Difficulty，CD）”這兩個指標，描述如下所示：

評分

推理冗餘度

認知難度

0-1

最低冗餘度，直接輸出結果，幾乎沒有詳細說明。

小學、入門級知識，或者單一簡單思考模式。

2-3

較低冗餘度，有清晰簡潔的推理過程，包含必要的解釋。

多步算術，枚舉，基於基本規則的推理。

4-5

中等冗餘度，提供詳細解釋並進行充分推理。

初級邏輯/代數知識；非顯而易見的推理。

6-7

較高冗餘度，全麵的論證，進行複雜的探索。

使用高級美女福利导航（行列式，動態規劃，代碼推理等）。

8-9

高冗餘度，深入、詳盡的推理；涉及詳細論述、嵌套論證及考慮反對論點的討論。

高度抽象的方法，包括嵌套證明、複雜算法分析等。

從推理冗餘度的角度看，由於對於難度較大的問題，較長的思維鏈能夠糾正模型自身的錯誤；而在處理簡單任務時，思維鏈的過度推理和驗證不僅會增加計算資源的消耗，還可能降低解決問題的準確性。因此，推理冗餘度與問題的難度有較大的關聯性。從認知難度的角度看，小模型由於參數量和學習到的知識量限製，通常依賴更簡單的方法來解決問題，而大模型則能夠施展其高級的認知優勢，應用更高階的美女福利导航。因此，思維鏈的認知難度應該與需要訓練的學生模型大小相匹配。最終，美女直播全婐APP免费下载可以根據目標模型大小和問題難度，選擇合適的思維鏈用於蒸餾訓練。

為了進一步加強高質量思維鏈數據對模型蒸餾的效果，美女直播全婐APP免费下载采用DeepSeek-R1-0528作為教師模型，構建了OmniThought數據的最新版本——OmniThought-0528。DeepSeek-R1-0528模型在數學、編程以及通用邏輯等多個測評基準上表現優異，整體表現接近國際頂尖模型。在本次的發布中，OmniThought-0528思維鏈的標注標準與OmniThought原始數據集相同。

OmniThought-0528數據集已經在Huggingface和ModelScope開源，包括36.5萬條思維鏈數據。數據格式如下，其中每條數據都包括一個問題（question），和至少2個思維鏈回答（reasoning），每個思維鏈都包含認知難度（Cognitive_Difficulty）和推理冗餘度（Reasoning_Verbosity）的評分，並且包含一個思維鏈回答（full_response）：

{

"question": "TL;DR",

"reasoning": [

{

"Cognitive_Difficulty": {

"judge": "QwQ-32B",

"level": 6

"Reasoning_Verbosity": {

"judge": "QwQ-32B",

"level": 5

"full_response": "TL;DR"

{

"Cognitive_Difficulty": {

"judge": "QwQ-32B",

"level": 5

"Reasoning_Verbosity": {

"judge": "QwQ-32B",

"level": 5

"full_response": "TL;DR"

}

]

}

使用EasyDistill進行思維鏈數據生成、評分

通過使用阿裏雲星空人工智能平台（PAI）推出的新的開源工具包EasyDistill ，用戶可以輕鬆實現生成思維鏈數據、對思維鏈數據打分。

1. 克隆代碼庫，並安裝相關依賴：

git clone http://github.com/modelscope/easydistill

cd EasyDistill

pip install -r requirements.txt

2. 可以使用各種配置文件生成訓練數據，以思維鏈數據生成為例，配置文件如下：

{

"job_type": "cot_generation_api",

"dataset": {

"input_path": "./cot_question.json",

"output_path": "./cot_question_with_answer.json"

"inference":{

"base_url": "ENDPOINT",

"api_key": "TOKEN",

"stream": true,

"prompt" : "Your role as an assistant involves thoroughly exploring questions through a systematic long thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution. In the Thought section, detail your reasoning process using the specified format: <|begin_of_thought|> {thought with steps separated with '\n\n'} <|end_of_thought|> Each step should include detailed considerations such as analisying questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The solution should remain a logical, accurate, concise expression style and detail necessary step needed to reach the conclusion, formatted as follows: <|begin_of_solution|> {final formatted, precise, and clear solution} <|end_of_solution|> Now, try to solve the following question through the above guidelines:",

"max_new_tokens": 1024

}

3. 完成思維鏈數據生成後，可以使用思維鏈評價打分功能，配置文件如下：

{

"job_type": "cot_evals_api",

"dataset": {

"input_path": "cot_input.json",

"output_path": "cot_output.json"

"inference":{

"base_url": "ENDPOINT",

"api_key": "TOKEN",

"max_new_tokens": 8196

}

運行下麵的命令，即可完成對cot數據質量的評價打分：

python .evals/data_evals.py --config .configs/cot_evals_api.json

DistillQwen-ThoughtY的模型訓練

基於美女直播全婐APP免费下载提出的OmniThought數據集及其擴展版本OmniThought-0528數據集，美女直播全婐APP免费下载訓練了DistillQwen-ThoughtY係列模型，這一係列模型是對DistillQwen-ThoughtX係列模型的重大升級，主要體現在兩個方麵：第一，模型基於Qwen3底座，分為4B、8B和32B三個參數量級，分別適配不用的使用和部署場景；第二，模型的訓練數據集同時考慮了OmniThought和OmniThought-0528，同時融合了DeepSeek-R1、DeepSeek-R1-0528以及QwQ-32B這三個教師大模型的深度推理知識。在思維鏈篩選方麵，同樣使用了基於OmniThought數據集的篩選方法（參考DistilQwen-ThoughtX：變長思維鏈推理模型，能力超越DeepSeek蒸餾模型）。

此外，為了保證模型盡可能從DeepSeek-R1-0528學習知識，美女直播全婐APP免费下载規定數據集來源於兩個部分：1. 原始OmniThought數據集和2. OmniThought-0528思維鏈。在最終的方案中，美女直播全婐APP免费下载並沒有完全使用來自DeepSeek-R1-0528的思維鏈而是采用混合的方式，因為雖然DeepSeek-R1-0528整體表現較好，但在特定問題上，並非DeepSeek-R1-0528生成的思維鏈質量最佳。相反，采用不同教師模型生成思維鏈並且篩選能取得更好的效果。

美女直播全婐APP免费下载使用單機8卡（A800 80GB）進行DistillQwen-ThoughtY-4B/8B的訓練，使用4機32卡（A800 80GB）進行DistillQwen-ThoughtY-32B的訓練。默認使用的學習率為5e-5，epoch為3，序列長度為8192，美女直播全婐APP免费下载也嚐試了其他超參數的組合進行模型優化。美女直播全婐APP免费下载從 Qwen3 係列底座（4B、8B和32B）初始化，訓練三個模型，分別命名為 DistillQwen-ThoughtY-4B/8B/32B。數據組織的格式與Qwen3 係列的thinking模式相同。美女直播全婐APP免费下载將美女直播全婐APP免费下载的模型先前的DistillQwen-ThoughtX，DeepSeek蒸餾的R1模型進行比較。結果表明，DistillQwen-ThoughtY 模型在數學、代碼等場景下的效果相比 Baseline 模型有明顯的提升，證明了 DistillQwen-ThoughtY 模型強悍的推理能力，以及蒸餾方法的有效性。

Model

AIME2024

MATH500

GPQA Diamond

LiveCodeBench V2

Avg.

4B量級

DistillQwen-ThoughtY-4B

76.7

95.2

56.1

75.8

76.0

7B/8B量級

DeepSeek-R1-Distill-Qwen-7B

57.3

89.6

47.3

48.4

60.6

OpenThinker2-7B

50.0

88.4

49.3

55.6

60.8

DistillQwen-ThoughtX-7B

56.7

90.2

50.0

56.8

63.4

DistillQwen-ThoughtY-8B

76.7

94.6

62.1

78.1

77.9

32B量級

DeepSeek-R1-Distill-Qwen-32B

74.7

90.0

62.4

72.3

74.8

OpenThinker2-32B

76.7

90.8

64.1

72.5

76.0

DistillQwen-ThoughtX-32B

80.0

92.6

64.0

73.4

77.5

DistillQwen-ThoughtY-32B

90.0

95.2

63.6

76.3

81.3

在下文中，美女直播全婐APP免费下载描述如何使用EasyDistill框架進行訓練。

使用EasyDistill進行思維鏈數據篩選和模型訓練

在生成思維鏈數據和完成思維鏈打分後，美女直播全婐APP免费下载需要對思維鏈進行篩選，並將篩選出的思維鏈數據進行模型訓練。

1. 運行下麵的腳本篩選思維鏈數據：

python ./recipes/distilqwen_series/distillqwen2.5-thoughtX/filter.py

2. 用篩選出的思維鏈數據進行模型的訓練，配置文件如下，可以按需更新配置文件並訓練：

{

"job_type": "kd_black_box_local",

"dataset": {

"labeled_path": "train_labeled.json",

"template" : "./chat_template/chat_template_kd.jinja",

"seed": 42

"models": {

"student": "student/Qwen/Qwen2.5-0.5B-Instruct/"

"training": {

"output_dir": "./result/",

"num_train_epochs": 3,

"per_device_train_batch_size": 1,

"gradient_accumulation_steps": 8,

"max_length":512,

"save_steps": 1000,

"logging_steps": 1,

"learning_rate": 2e-5,

"weight_decay": 0.05,

"warmup_ratio": 0.1,

"lr_scheduler_type": "cosine"

}

訓練腳本如下：

accelerate launch --num_processes n \

--config_file ./configs/train-config/muti_gpu.ymal ./easydistill/black-box/train.py \

--config ./configs/kd_black_box_local.json

模型和數據集下載和使用

DistillQwen-ThoughtY在開源社區的下載

美女直播全婐APP免费下载在 Hugging Face 和 Model Scope 上開源了美女直播全婐APP免费下载蒸餾後的模型，分別為DistillQwen-ThoughtY-4B、 DistillQwen-ThoughtY-8B、DistillQwen-ThoughtY-32B。以Hugging Face為例，用戶可以使用如下代碼下載這兩個模型：

from huggingface_hubimport snapshot_download

model_name = "alibaba-pai/DistillQwen-ThoughtY-4B"

snapshot_download(repo_id=model_name, cache_dir="./DistillQwen-ThoughtY-4B/")

model_name = "alibaba-pai/DistillQwen-ThoughtY-8B"

snapshot_download(repo_id=model_name, cache_dir="./DistillQwen-ThoughtY-8B/")

model_name = "alibaba-pai/DistillQwen-ThoughtY-32B"

snapshot_download(repo_id=model_name, cache_dir="./DistillQwen-ThoughtY-32B/")

以下給出一個ModelScope的使用示例：

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "pai/DistillQwen-ThoughtY-4B"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

prompt = "Solve ∫x e^x dx. Show your reasoning step-by-step."

messages = [

{"role": "user", "content": prompt}

]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.

)

inputs = tokenizer([text], return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=32768)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

OmniThought-0528數據集在開源社區的下載

美女直播全婐APP免费下载在 HuggingFace和 ModelScope上開源了美女直播全婐APP免费下载的數據集OmniThought-0528。用戶可以使用如下代碼下載這兩個模型：

from datasets import load_dataset

OmniThought = load_dataset("alibaba-pai/OmniThought-0528")

from modelscope.msdatasets import MsDataset

ds = MsDataset.load('PAI/OmniThought-0528')

DistillQwen-ThoughtY模型在PAI的使用

DistillQwen-ThoughtY模型已經在PAI-Model Gallery中上線，使用方式可以參考：DistilQwen-ThoughtX 蒸餾模型在 PAI-ModelGallery 的訓練、評測、壓縮及部署實踐。

可以點擊PAI-DistilQwen-ThoughtY查看模型詳情。

本文小結

近年來，大語言模型（LLM）推動了自然語言處理（NLP）的深刻變革，尤其在語言理解和推理任務方麵取得重大進展。然而，長思維鏈策略在某些任務中引發“過度思考”問題，影響了模型的響應效率。阿裏雲PAI團隊基於蒸餾工具包EasyDistill，推出了DistillQwen-ThoughtY係列模型基於更強的底座Qwen3和教師模型DeepSeek-R1-0528，顯著提升了數學、科學及代碼生成領域的表現。這些模型、蒸餾方法以及和相關數據集現已在EasyDistill中開源。在未來，美女直播全婐APP免费下载將進一步基於EasyDistill框架開源更多DistillQwen模型係列和相應資源。歡迎大家加入美女直播全婐APP免费下载，一起交流大模型蒸餾美女福利导航！

參考工作

相關論文

· Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint

· Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint

· Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint

· Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistillQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025

· Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025

· Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024

美女福利导航介紹

· 阿裏雲星空人工智能平台 PAI 開源 EasyDistill 框架助力大語言模型輕鬆瘦身

· DistillQwen-ThoughtX：變長思維鏈推理模型，能力超越DeepSeek蒸餾模型

· DistillQwen2：通義千問大模型的知識蒸餾實踐

· DistillQwen2.5發布：通義千問蒸餾小模型再升級

· DistillQwen2.5-R1發布：知識蒸餾助推小模型深度思考

· 星空人工智能平台 PAI DistillQwen2.5-DS3-0324發布：知識蒸餾+快思考=更高效解決推理難題

· 基於多輪課程學習的大語言模型蒸餾算法TAPIR

聯係星空

繼續閱讀：

星空人工智能美女福利导航網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。！：首頁 > 星空人工智能產業 > AI大模型 » DistillQwen-ThoughtY：通過變長思維鏈蒸餾，全麵提升模型推理能力！

前言

美女福利导航簡介

模型和數據集下載和使用

本文小結

參考工作

聯係星空

相關推薦