、Qwen、Baichuan、Phi、Gemma等)Llama Factory 是一个开源、模块化、易用的大语言模型(LLM)微调框架,支持多种主流开源模型和训练方法(全参微调、LoRA、QLoRA、DPO...Gemma, Qwen, Baichuan, ChatGLM, Phi, XVERSE, Yi, DeepSeek 等 多训练方式Full Fine-tuning, LoRA, QLoRA, Freeze, DPO...LLaMA-Factory.gitcd LLaMA-Factory# 创建虚拟环境(可选)python -m venv llama-envsource llama-env/bin/activate # Linux...DPO(Direct Preference Optimization)偏好对齐准备偏好数据(chosen vs rejected):[ { "prompt": "如何学习深度学习?"...", "rejected": "随便看看视频就行" }]训练命令:--stage dpo --dataset your_dpo_data --template qwen --finetuning_type