

根据需求,以下是基于《黑暗料理女神》小说和《黑暗料理王》游戏生成的微调数据集的示例。数据集将采用 ShareGPT 格式,以便于后续的模型微调。
系统提示词:根据《黑暗料理女神》小说内容,生成关于黑暗料理的创意描述和对话。
对话内容:
JSON复制
{
"conversations": [
{
"from": "human",
"value": "慕锦歌的黑暗料理中,最令人印象深刻的是哪一道菜?"
},
{
"from": "gpt",
"value": "慕锦歌的‘辣椒炒榴莲’非常有创意,将榴莲的浓郁与辣椒的刺激完美结合,虽然看起来猎奇,但味道令人欲罢不能[^6^]。"
}
]
}系统提示词:根据《黑暗料理王》游戏内容,生成关于黑暗料理的创意配方和对话。
对话内容:
JSON复制
{
"conversations": [
{
"from": "human",
"value": "在《黑暗料理王》游戏中,玩家可以制作哪些独特的黑暗料理?"
},
{
"from": "gpt",
"value": "玩家可以捕捉各种神奇怪兽,从它们身上获取独特食材,比如‘怪兽肉炒蛋’或‘黑暗汤’,这些料理配方组合丰富多样,充满想象力[^4^][^5^]。"
}
]
}系统提示词:结合小说和游戏内容,生成黑暗料理的创意配方。
对话内容:
JSON复制
{
"conversations": [
{
"from": "human",
"value": "请结合《黑暗料理女神》和《黑暗料理王》的创意,设计一道黑暗料理。"
},
{
"from": "gpt",
"value": "可以尝试制作‘怪兽肉配黑暗酱汁’,将游戏中的怪兽肉与小说中提到的黑暗酱汁结合,既保留了怪兽肉的鲜嫩,又增添了神秘的风味[^6^][^4^]。"
}
]
}dark_cuisine_dataset.json。在 dataset_info.json 中注册数据集,格式如下:
JSON复制
{
"dark_cuisine_dataset": {
"formatting": "sharegpt",
"file_name": "dark_cuisine_dataset.json",
"columns": {
"messages": "conversations",
"system": "system"
},
"tags": {
"role_tag": "from",
"content_tag": "value",
"user_tag": "human",
"assistant_tag": "gpt"
}
}
}以上是基于《黑暗料理女神》小说和《黑暗料理王》游戏生成的微调数据集示例,您可以根据需要进一步扩展和优化数据集内容。
KMnO4-zx/extract-dialogue: 从小说中提取对话数据集 从小说中提取对话数据集:https://github.com/KMnO4-zx/extract-dialogue (@宋志学大佬手搓)
“尺度定律”(Scaling laws)之下,大模型除了要突破算力瓶颈,亦面临高质量数据即将“见底”难题。如何通过“通专融合”技术路径实现通用人工智能,正日益成为业内共识。
1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,书生·浦语3.0首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。



微调数据制作Pypi包 - - edg4llm,全称是Easy Data Generation For Large Language Model (带佬手搓的)
https://github.com/Alannikos/edg4llm A unified tool to generate fine-tuning datasets for LLMs, including questions, answers, and dialogues.
一个统一的工具,用于生成 LLMs的微调数据集,包括问题、答案和对话。
参考文章:
----------------------------------------------------------------------------------------------------------------------------------------------------------------------
https://www.taptap.cn/moment/345867509980726783
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。