首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >特别任务 -- 黑暗料理(MindSpore)篇

特别任务 -- 黑暗料理(MindSpore)篇

原创
作者头像
用户10497140
修改2025-02-22 21:52:47
修改2025-02-22 21:52:47
1320
举报

数据

根据需求,以下是基于《黑暗料理女神》小说和《黑暗料理王》游戏生成的微调数据集的示例。数据集将采用 ShareGPT 格式,以便于后续的模型微调。

数据集示例

示例 1:黑暗料理女神(小说)

系统提示词:根据《黑暗料理女神》小说内容,生成关于黑暗料理的创意描述和对话。

对话内容

JSON复制

代码语言:javascript
复制
{
  "conversations": [
    {
      "from": "human",
      "value": "慕锦歌的黑暗料理中,最令人印象深刻的是哪一道菜?"
    },
    {
      "from": "gpt",
      "value": "慕锦歌的‘辣椒炒榴莲’非常有创意,将榴莲的浓郁与辣椒的刺激完美结合,虽然看起来猎奇,但味道令人欲罢不能[^6^]。"
    }
  ]
}
示例 2:黑暗料理王(游戏)

系统提示词:根据《黑暗料理王》游戏内容,生成关于黑暗料理的创意配方和对话。

对话内容

JSON复制

代码语言:javascript
复制
{
  "conversations": [
    {
      "from": "human",
      "value": "在《黑暗料理王》游戏中,玩家可以制作哪些独特的黑暗料理?"
    },
    {
      "from": "gpt",
      "value": "玩家可以捕捉各种神奇怪兽,从它们身上获取独特食材,比如‘怪兽肉炒蛋’或‘黑暗汤’,这些料理配方组合丰富多样,充满想象力[^4^][^5^]。"
    }
  ]
}
示例 3:黑暗料理创意

系统提示词:结合小说和游戏内容,生成黑暗料理的创意配方。

对话内容

JSON复制

代码语言:javascript
复制
{
  "conversations": [
    {
      "from": "human",
      "value": "请结合《黑暗料理女神》和《黑暗料理王》的创意,设计一道黑暗料理。"
    },
    {
      "from": "gpt",
      "value": "可以尝试制作‘怪兽肉配黑暗酱汁’,将游戏中的怪兽肉与小说中提到的黑暗酱汁结合,既保留了怪兽肉的鲜嫩,又增添了神秘的风味[^6^][^4^]。"
    }
  ]
}

数据集格式说明

  • 数据集采用 ShareGPT 格式,便于后续的模型微调。
  • 每个对话包含用户问题和模型回答,系统提示词用于引导对话方向。
  • 数据集文件名:dark_cuisine_dataset.json

数据集注册

dataset_info.json 中注册数据集,格式如下:

JSON复制

代码语言:javascript
复制
{
  "dark_cuisine_dataset": {
    "formatting": "sharegpt",
    "file_name": "dark_cuisine_dataset.json",
    "columns": {
      "messages": "conversations",
      "system": "system"
    },
    "tags": {
      "role_tag": "from",
      "content_tag": "value",
      "user_tag": "human",
      "assistant_tag": "gpt"
    }
  }
}

以上是基于《黑暗料理女神》小说和《黑暗料理王》游戏生成的微调数据集示例,您可以根据需要进一步扩展和优化数据集内容。

KMnO4-zx/extract-dialogue: 从小说中提取对话数据集 从小说中提取对话数据集:https://github.com/KMnO4-zx/extract-dialogue (@宋志学大佬手搓)

模型 InternLM3-8B-Instruct

“尺度定律”(Scaling laws)之下,大模型除了要突破算力瓶颈,亦面临高质量数据即将“见底”难题。如何通过“通专融合”技术路径实现通用人工智能,正日益成为业内共识。

1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,书生·浦语3.0首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。

训练

微调数据制作Pypi包 - - edg4llm,全称是Easy Data Generation For Large Language Model (带佬手搓的)

https://github.com/Alannikos/edg4llm A unified tool to generate fine-tuning datasets for LLMs, including questions, answers, and dialogues.

一个统一的工具,用于生成 LLMs的微调数据集,包括问题、答案和对话。

测试

体验

参考文章:

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

https://www.taptap.cn/moment/345867509980726783

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据
    • 数据集示例
    • 数据集格式说明
    • 数据集注册
  • 模型 InternLM3-8B-Instruct
  • 训练
  • 测试
  • 体验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档