大半年的项目告一段落了,现在自己找找感兴趣的东西学习下,看看可不可以搞出个效果不错的local GPT,自研下大模型吧
RAG是什么? 检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。 https://github.com/chatchat-space/Langchain-Chatchat
搭建local GPT:https://github.com/PromtEngineer/localGPT ==》本地版的 GPT,可以下載 source code
学习视频:https://www.youtube.com/watch?v=MlyoObdIHyo
git clone https://github.com/PromtEngineer/localGPT.git
苹果芯片用:
# Example: METAL
CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python==0.1.83 --no-cache-dir
NVIDIA芯片用:
# Example: cuBLAS
CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install llama-cpp-python==0.1.83 --no-cache-dir
docker官方文档:https://www.dockerdocs.cn/engine/index.html
基本概念 https://ithelp.ithome.com.tw/users/20120030/ironman/5515
效果 https://docs.google.com/presentation/d/1dkfd9cAwsHfM2jdKtn6RHixecoD6X1lF2Mby60YxmT4/edit#slide=id.g201e72434cd_0_245
参考学习:https://blog.csdn.net/u013010473/category_11657660.html?spm=1001.2014.3001.5482
将文件放入 SOURCE_DOCUMENTS 文件夹中。在 SOURCE_DOCUMENTS 文件夹中放置多个文件夹,代码将递归读取文件。
LocalGPT 目前支持以下文件格式。 LocalGPT 使用 LangChain 来加载这些文件格式。 Constants.py 中的代码使用 DOCUMENT_MAP 字典将文件格式映射到相应的加载器。为了添加对其他文件格式的支持,只需添加该字典以及该文件格式和来自 LangChain 的相应加载器即可。
DOCUMENT_MAP = {
".txt": TextLoader,
".md": TextLoader,
".py": TextLoader,
".pdf": PDFMinerLoader,
".csv": CSVLoader,
".xls": UnstructuredExcelLoader,
".xlsx": UnstructuredExcelLoader,
".docx": Docx2txtLoader,
".doc": Docx2txtLoader,
}