
【个人主页:玄同765】
大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计) 深耕领域:大语言模型开发 / RAG知识库 / AI Agent落地 / 模型微调 技术栈:Python / LangChain/RAG(Dify+Redis+Milvus)| SQL/NumPy | FastAPI+Docker ️ 工程能力:专注模型工程化部署、知识库构建与优化,擅长全流程解决方案 专栏传送门:LLM大模型开发 项目实战指南、Python 从真零基础到纯文本 LLM 全栈实战、从零学 SQL + 大模型应用落地、大模型开发小白专属:从 0 入门 Linux&Shell 「让AI交互更智能,让技术落地更高效」 欢迎技术探讨/项目合作! 关注我,解锁大模型与智能交互的无限可能

在数据分析、数据挖掘、大模型开发的学习和工作中,我们经常会遇到这样的问题:
为了解决这些问题,我们整理了一份全面、准确、更新及时的中文官方文档清单,涵盖核心语言基础、数据分析工具、可视化工具、大模型开发工具、数据库与存储、开发与部署工具等六大板块,并提供了快速检索表格和工具协作关系图,帮助从业者快速定位所需资源。
工具类型 | 工具名称 | 工具简介 | 中文官方文档链接 |
|---|---|---|---|
核心语言基础 | Python | 数据分析、数据挖掘、大模型开发的核心编程语言 | https://docs.python.org/zh-cn/3/ |
SQL | 结构化查询语言,用于关系型数据库的数据操作 | https://dev.mysql.com/doc/(MySQL)、https://www.postgresql.org/docs/zh/16/(PostgreSQL)、https://docs.microsoft.com/zh-cn/sql/sql-server/(SQL Server) | |
数据分析工具 | NumPy | 科学计算的核心库,提供高性能的 N 维数组对象 | https://numpy.org/doc/stable/(英文,含部分中文教程)、https://www.numpy.org.cn/(社区维护中文) |
Pandas | 数据分析的核心库,提供 DataFrame 和 Series 数据结构 | https://pandas.pydata.org/docs/(英文,含部分中文教程)、https://pandas.pydata.org.cn/(社区维护中文) | |
Scikit-learn | 机器学习库,提供常用的机器学习算法和工具 | https://scikit-learn.org/stable/(英文,含部分中文教程)、https://sklearn.apachecn.org/(社区维护中文) | |
可视化工具 | Matplotlib | 基础可视化库,支持绘制多种类型的图表 | https://matplotlib.org/stable/index.html(英文,含部分中文教程)、https://matplotlib.apachecn.org/(社区维护中文) |
Seaborn | 统计可视化库,基于 Matplotlib,提供更高级的 API | https://seaborn.pydata.org/(英文)、https://seaborn.apachecn.org/(社区维护中文) | |
Plotly | 交互式可视化库,支持生成 HTML、SVG、PDF 格式的图表 | https://plotly.com/python/(英文)、https://plotly.apachecn.org/(社区维护中文) | |
大模型开发工具 | Hugging Face Hub | 大模型共享平台,提供大量预训练模型 | https://huggingface.co/docs/hub/zh |
Transformers | 大模型调用和微调库,支持 Hugging Face Hub 上的大多数模型 | https://huggingface.co/docs/transformers/zh | |
PyTorch | 深度学习框架,用于大模型的开发、训练和推理 | https://pytorch.org/docs/zh/ | |
TensorFlow | 深度学习框架,用于大模型的开发、训练和推理 | https://www.tensorflow.org/versions/r2.15/guide/(英文,含部分中文教程)、https://www.tensorflow.org.cn/(中文官网) | |
数据库与存储 | MySQL | 关系型数据库,用于存储结构化数据 | https://dev.mysql.com/doc/ |
PostgreSQL | 关系型数据库,支持复杂的查询和数据类型 | https://www.postgresql.org/docs/zh/16/ | |
MongoDB | 非关系型数据库,用于存储半结构化和非结构化数据 | https://www.mongodb.com/docs/zh/ | |
Redis | 内存数据库,用于存储缓存和会话数据 | https://redis.io/docs/zh/ | |
Milvus | 向量数据库,用于存储大模型的嵌入向量 | https://milvus.io/docs/zh/ | |
开发与部署工具 | Git | 版本控制工具,用于代码管理和协作 | https://git-scm.com/book/zh/v2/ |
Docker | 容器化部署工具,用于打包应用和依赖 | https://docs.docker.com/(英文,含部分中文教程)、https://www.docker.org.cn/(中文社区) | |
VS Code | 代码编辑器,支持多种编程语言和插件 | https://code.visualstudio.com/docs(英文,含部分中文教程)、https://code.visualstudio.com/docs/getstarted/locales#_install-language-packs(安装中文语言包) |

graph TD
A[数据采集] --> B[数据存储]
B --> C[数据清洗]
C --> D[数据分析]
D --> E[数据可视化]
E --> F[大模型训练]
F --> G[大模型部署]
G --> H[应用开发]
subgraph 数据存储
B1[MySQL]
B2[PostgreSQL]
B3[MongoDB]
B4[Redis]
B5[Milvus]
end
subgraph 数据清洗与分析
C1[NumPy]
C2[Pandas]
C3[Scikit-learn]
end
subgraph 数据可视化
E1[Matplotlib]
E2[Seaborn]
E3[Plotly]
end
subgraph 大模型开发
F1[Hugging Face Hub]
F2[Transformers]
F3[PyTorch]
F4[TensorFlow]
end
subgraph 开发与部署
G1[Git]
G2[Docker]
G3[VS Code]
endPython 是数据分析、数据挖掘、大模型开发的核心编程语言,具有语法简洁、易用、生态丰富等特点。
https://docs.python.org/zh-cn/3/
SQL 是结构化查询语言,用于关系型数据库的数据操作,包括查询、插入、更新、删除等。
NumPy 是科学计算的核心库,提供高性能的 N 维数组对象,支持向量化运算和广播机制。
Pandas 是数据分析的核心库,提供 DataFrame 和 Series 数据结构,支持数据读取、清洗、处理、分析等操作。
Scikit-learn 是机器学习库,提供常用的机器学习算法和工具,包括分类、回归、聚类、降维等。
Matplotlib 是基础可视化库,支持绘制多种类型的图表,包括折线图、柱状图、散点图、饼图、热力图等。
Seaborn 是统计可视化库,基于 Matplotlib,提供更高级的 API,支持绘制统计图表。
Plotly 是交互式可视化库,支持生成 HTML、SVG、PDF 格式的图表,支持交互操作。
Hugging Face Hub 是大模型共享平台,提供大量预训练模型,包括 GPT、BERT、LLaMA 等。
https://huggingface.co/docs/hub/zh
Transformers 是大模型调用和微调库,支持 Hugging Face Hub 上的大多数模型,提供简单易用的 API。
https://huggingface.co/docs/transformers/zh
PyTorch 是深度学习框架,用于大模型的开发、训练和推理,具有动态计算图、易用、灵活等特点。
TensorFlow 是深度学习框架,用于大模型的开发、训练和推理,具有静态计算图、高性能、可扩展等特点。
MySQL 是关系型数据库,用于存储结构化数据,具有高性能、稳定、易用等特点。
PostgreSQL 是关系型数据库,支持复杂的查询和数据类型,具有高性能、稳定、可扩展等特点。
https://www.postgresql.org/docs/zh/16/
MongoDB 是非关系型数据库,用于存储半结构化和非结构化数据,具有高性能、灵活、可扩展等特点。
https://www.mongodb.com/docs/zh/
Redis 是内存数据库,用于存储缓存和会话数据,具有高性能、稳定、易用等特点。
Milvus 是向量数据库,用于存储大模型的嵌入向量,支持高效的向量检索。
Git 是版本控制工具,用于代码管理和协作,具有分布式、高效、易用等特点。
https://git-scm.com/book/zh/v2/
Docker 是容器化部署工具,用于打包应用和依赖,具有轻量级、可移植、可重复等特点。
VS Code 是代码编辑器,支持多种编程语言和插件,具有轻量级、高效、易用等特点。
附 相关 思维导图 下载:
【免费】思维导图:Numpy知识整理.xmind资源-CSDN下载