搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏信数据得永生
GGML 非官方中文文档
ggml_ftype_to_ggml_type enum ggml_type ggml_ftype_to_ggml_type(enum ggml_ftype ftype); 描述：将ggml_ftype ggml_add struct ggml_tensor * ggml_add(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor ggml_add1 struct ggml_tensor * ggml_add1(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor ggml_set struct ggml_tensor * ggml_set(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor ggml_cpy struct ggml_tensor * ggml_cpy(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor
80010编辑于 2024-05-16
来自专栏Rust语言学习交流
【Rust日报】crabml，使用 Rust 重写 GGML
项目 - crabml，使用 Rust 重写 GGML crabml 是一个正在进行中的实验性项目，相当于是使用 Rust 重新实现 GGML。目前它已经支持推理 Q8_0 量化的Llama 3B模型，与 ggml 性能差距仅有 1token/s 。其设计目标是：专注于推理。将张量运算限制为 LLM 推理所需的最低限度。
31810编辑于 2024-03-06
来自专栏DeepHub IMBA
使用GGML和LangChain在CPU上运行量化的llama2
为了解释这个事情我们首先要了解GGML： GGML库是一个为机器学习设计的张量库，它的目标是使大型模型能够在高性能的消费级硬件上运行。这是通过整数量化支持和内置优化算法实现的。也就是说，llm的GGML版本(二进制格式的量化模型)可以在cpu上高性能地运行。因为我们最终是使用Python的，所以还需要C Transformers库，它其实就是为GGML模型提供了Python API。我们可以通过访问TheBloke的Llama-2-7B-Chat GGML页面来实现，然后下载名为Llama-2-7B-Chat .ggmlv3.q8_0.bin的GGML 8位量化文件。也就是说将在LangChain中使用CTransformers LLM包装器，它为GGML模型提供了一个统一的接口。
1.9K20编辑于 2023-08-30
来自专栏个人博客
ggml教程|mnist手写体识别量化推理 - plus studio
这个教程将会使用pytorch来训练一个简单的全连接神经网络，然后使用ggml量化，最后使用ggml推理这个模型。量化我们需要使用ggml对模型进行量化，代码在convert-pth-to-ggml.py 文件中,使用python convert-pth-to-ggml.py model/mnist_model.pth ggml_tensor * fc1_bias; struct ggml_tensor * fc2_weight; struct ggml_tensor * fc2_bias; * ctx0 = ggml_init(params); struct ggml_cgraph * gf = ggml_new_graph(ctx0); 我们先复习一下全连接层的计算。 struct ggml_tensor * input = ggml_new_tensor_4d(ctx0, GGML_TYPE_F32, 28, 28, 1, 1); memcpy(input-
98210编辑于 2024-02-29
来自专栏机器之心
llama.cpp作者创业，用纯C语言框架降低大模型运行成本
现在，Georgi Gerganov 宣布创立一家新公司 ggml.ai，旨在支持 ggml 的开发。 ggml 是 Georgi Gerganov 使用 C/C++ 构建了机器学习张量库，能够帮助开发者在消费级硬件上实现大模型，并提升模型性能。作为纯 C 语言编写的框架，ggml 大幅降低了大模型的运行成本。 llama.cpp 和 whisper.cpp 都使用了 ggml，我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。参考链接：http://ggml.ai/
59020编辑于 2023-08-07
来自专栏DeepHub IMBA
使用Llama.cpp在CPU上快速的运行LLM
使用LLM和llama-cpp-python 只要语言模型转换为GGML格式，就可以被llama.cpp加载和使用。而大多数流行的LLM都有可用的GGML版本。在本文中，我们使用GGML版本的Vicuna-7B，该模型可从HuggingFace下载:https://huggingface.co/CRD716/ggml-vicuna-1.1-quantized。 ") # Dowloading GGML model from HuggingFace ggml_model_path = "https://huggingface.co/CRD716/ggml-vicuna -1.1-quantized/resolve/main/ggml-vicuna-7b-1.1-q4_1.bin" filename = "ggml-vicuna-7b-1.1-q4_1.bin" ") # Dowloading GGML model from HuggingFace ggml_model_path = "https://huggingface.co/CRD716/ggml-vicuna
2.7K30编辑于 2023-08-30
来自专栏信数据得永生
解决 ChatGLM.CPP+clBlast 编译错误（也适用于SD.CPP）
GitHub 上的源码： git clone --recurse-submodules https://github.com/li-plus/chatglm.cpp cd chatglm.cpp 这个项目 GGML 子仓库中， third_party/ggml/src/CMakeList.txt 有个错误。 find_library(CLBLAST_LIB NAMES clblast) if (CLBLAST_LIB) message(STATUS "clBLAST found") set(GGML_EXTRA_LIBS ${GGML_EXTRA_LIBS} ${CLBLAST_LIB}) 可以看到头文件名称写错（应该是clblast.h）。 ${GGML_EXTRA_INCS} ${CLBLAST_INC}) set(GGML_EXTRA_LIBS ${GGML_EXTRA_LIBS} ${CLBLAST_LIB} ${OPENCL_LIB
62320编辑于 2023-10-13
来自专栏JadePeng的技术博客
LLM 推理和应用开源框架梳理
GGML https://github.com/ggerganov/ggml GGML全称是Georgi Gerganov Machine Learning，是由Georgi Gerganov开发的一个张量库字样的，比如Llama-2-13B-chat-GGML，说明这些模型是经过 GGML 量化的。有些 GGML 模型的名字除了带有GGML字样外，还带有q4、q4_0、q5等，比如Chinese-Llama-2-7b-ggml-q4，这里面的q4其实指的是 GGML 的量化方法，从q4_0开始往后扩展但这个功能是Breaking Change，也就是说 GGML 新版本以后量化出来的模型都是 GGUF 格式的，这意味着旧的 GGML 格式以后会慢慢被 GGUF 格式取代，而且也不能将老的 GGML GPTQ vs GGML GPTQ 和 GGML 是现在模型量化的两种主要方式，在实际运用中如何选择呢？
2.6K10编辑于 2024-03-13
来自专栏山行AI
LocalAI——一款可在消费级硬件上本地运行 LLMs的AI应用
-O models/ggml-gpt4all-j # 从示例中复制一个模板到 models/ cp -rf prompt-templates/ggml-gpt4all-j.tmpl models/ /ggml [28] binding: https://github.com/go-skynet/go-ggml-transformers.cpp [29] dolly: https://github.com /ggerganov/ggml [30] binding: https://github.com/go-skynet/go-ggml-transformers.cpp [31] gptj: https: //github.com/ggerganov/ggml [32] binding: https://github.com/go-skynet/go-ggml-transformers.cpp [33] mpt: https://github.com/ggerganov/ggml [34] binding: https://github.com/go-skynet/go-ggml-transformers.cpp
9.8K30编辑于 2023-08-10
来自专栏深度学习|机器学习|歌声合成|语音合成
和chatgpt一样的大模型LLaMA可以运行在pc上？
/models/7B/ggml-model-f16.bin ./models/7B/ggml-model-q4_0.bin 2 $ ./quantize . /models/13B/ggml-model-f16.bin . /models/13B/ggml-model-q4_0.bin 2 # 这将生成型号/7B/ggml-model-q4_0.bin-3.9GB文件。这是我们将用于运行模型的文件。 models/13B/ 1 12G ggml-model-f16.bin 12G ggml-model-f16.bin.1 $ . /models/13B/ggml-model-f16.bin ./models/13B/ggml-model-q4_0.bin 2 $ ./quantize .
1.1K21编辑于 2023-05-09
来自专栏为了不折腾而去折腾的那些事
构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型
GGML LLaMA2 模型转换工具镜像使用下面的命令，先下载能够转换模型为 GGML 格式的工具镜像： docker pull soulteary/llama2:converter 接着，使用下面的命令 # du -hs /app/soulteary/Chinese-Llama-2-7b-ggml.bin 26G /app/soulteary/Chinese-Llama-2-7b-ggml.bin 因此，我们还需要进一步进行 GGML 格式的量化操作： . /quantize /app/soulteary/Chinese-Llama-2-7b-ggml.bin /app/soulteary/Chinese-Llama-2-7b-ggml-q4.bin q4 我们想要使用 CPU 来运行模型，我们需要通过 GGML 将模型转换为 GGML 支持的格式，并且进行量化，降低运行资源要求。
1.1K20编辑于 2023-09-04
来自专栏为了不折腾而去折腾的那些事
CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化
模型的 GGUF （GGML Universal File）格式量化准备 GGUF 是 GGML 的全新替代型，被称为 GGML 通用文件格式。预转换：Convert.py 转换脚本这个脚本能够将非 GGML 格式的文件转换为 GGML，以 GGUF 后缀进行保存。 /brucethemoose/CapyTessBorosYi-34B-200K-DARE-Ties/ggml-model-f16.gguf Q5_K_M 命令执行过程中，我们将看到滚动的日志： ggml_init_cublas : GGML_CUDA_FORCE_MMQ: no ggml_init_cublas: CUDA_USE_TENSOR_CORES: yes ggml_init_cublas: found 1 CUDA _K_M.gguf 65G ggml-model-f16.gguf 至于模型的使用，就太简单啦。
1.4K10编辑于 2023-12-14
来自专栏AI技术探索和应用
快速上手chatglm.cpp模型量化工具
/build/bin/main -m chatglm-ggml.bin -p 你好交互式，这种模式下，聊天记录会被带到下一次对话中。 . /build/bin/main -m chatglm-ggml.bin -i 使用Python库安装Python库。 /chatglm-ggml.bin") pipeline.chat(["你好"]) '你好！我是人工智能助手 ChatGLM-6B，很高兴见到你，欢迎问我任何问题。' /chatglm-ggml.bin -i # python3 cli_chat.py -m .. /chatglm-ggml.bin # python3 web_demo.py -m ..
3.4K51编辑于 2024-03-13
来自专栏为了不折腾而去折腾的那些事
构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型
LLaMA2 官方镜像或中文镜像为 GGML 格式，我做了一个工具镜像，镜像不大，只有 93MB。 # du -hs /app/soulteary/Chinese-Llama-2-7b-ggml.bin26G/app/soulteary/Chinese-Llama-2-7b-ggml.bin因此，我们还需要进一步进行 GGML 格式的量化操作：. /quantize /app/soulteary/Chinese-Llama-2-7b-ggml.bin /app/soulteary/Chinese-Llama-2-7b-ggml-q4.bin q4 我们想要使用 CPU 来运行模型，我们需要通过 GGML 将模型转换为 GGML 支持的格式，并且进行量化，降低运行资源要求。
1.3K100编辑于 2023-07-24
来自专栏最新最全的大数据技术体系
魔搭社区LLM模型部署实践，以ChatGLM3为例（二）
二、多端部署-以ChatGLM3+个人Mac电脑为例魔搭社区和Xinference合作，提供了模型GGML的部署方式，以ChatGLM3为例。 ChatGLM3使用的模型为GGML格式，模型链接： https://modelscope.cn/models/Xorbits/chatglm3-ggml/summary 使用方式：首先在mac上预装 Xinference： pip install x inference[ggml]>=0.4.3 然后本地开启Xinference的实例： x inference -p 9997 运行如下Python代码 /build/bin/main -m chatglm-ggml.bin -i # 以下对话为使用agent数据集训练后的效果 # Prompt > how are you? 之后启动xinference： x inference -p 9997 在浏览器界面上选择Register Model选项卡，添加chatglm.cpp章节中转换成功的ggml模型：注意： ● 模型能力选择
1.3K30编辑于 2023-11-12
来自专栏山行AI
privatGPT——私有化GPT模型的全新应用
/models的文件夹中： •LLM：默认为ggml-gpt4all-j-v1.3-groovy.bin[3]。 •Embedding：默认为ggml-model-q4_0.bin[4]。如果你喜欢其他兼容的Embeddings模型，只需下载并在privateGPT.py和ingest.py中引用即可。 LangChain: https://github.com/hwchase17/langchain [2] GPT4All: https://github.com/nomic-ai/gpt4all [3] ggml-gpt4all-j-v1.3 -groovy.bin: https://gpt4all.io/models/ggml-gpt4all-j-v1.3-groovy.bin [4] ggml-model-q4_0.bin: https: //huggingface.co/Pi3141/alpaca-native-7B-ggml/resolve/397e872bf4c83f4c642317a5bf65ce84a105786e/ggml-model-q4
1.7K20编辑于 2023-06-14
llama.cpp在各个操作系统本地编译流程
Other BLAS libraries Any other BLAS library can be used by setting the GGML_BLAS_VENDOR option. GGML_CUDA_PEER_MAX_BATCH_SIZE Positive integer 128 Maximum batch size for which to enable peer access GGML_CUDA_FA_ALL_QUANTS Boolean false Compile support for all KV cache quantization type (combinations For example: # ggml_vulkan: Using Intel(R) Graphics (ADL GT2) | uma: 1 | fp16: 1 | warp size: 32 CANN To enable this feature, use the GGML_BACKEND_DL option when building.
72110编辑于 2025-07-16
来自专栏Yunfeng's Simple Blog
talkGPT4All 2.0
2.2 切换不同的LLM 默认的语言模型是GPT4All-J-v1.3,，可以通过命令行选项–gpt-model-name来切换模型，所有的选项是： "ggml-gpt4all-j-v1.3-groovy " "ggml-gpt4all-j-v1.2-jazzy" "ggml-gpt4all-j-v1.1-breezy" "ggml-gpt4all-j" "ggml-gpt4all-l13b-snoozy " "ggml-vicuna-7b-1.1-q4_2" "ggml-vicuna-13b-1.1-q4_2" "ggml-wizardLM-7B.q4_2" 例如可以这样使用： python chat.py --gpt-model-name ggml-wizardLM-7B.q4_2 如果模型未下载过，会进行下载。
37720编辑于 2023-10-23
来自专栏新智元
LeCun转赞：在苹果M1/M2芯片上跑LLaMA！130亿参数模型仅需4GB内存
-O3 -DNDEBUG -std=c11 -fPIC -pthread -DGGML_USE_ACCELERATE -c ggml.c -o ggml.oc++ -I. -I. /examples -O3 -DNDEBUG -std=c++11 -fPIC -pthread quantize.cpp ggml.o utils.o -o quantize -framework Output file: models/7B/ggml-model-f16.bin, (part 0 ) 下一步将是进行量化处理： ./quantize . /models/7B/ggml-model-f16.bin . /models/7B/ggml-model-q4_0.bin 2 输出如下： llama_model_quantize: loading model from '.
2K20编辑于 2023-03-29
来自专栏福大大架构师每日一题
ollama v0.12.9 发布：修复 CPU Only 系统性能回退并优化 GPU 与 ROCm 支持
内存分配压力 • 对 cudaMemcpyAsync、cudaMemcpy2DAsync、cudaMemsetAsync 进行了宏替换，使其在预留阶段直接返回成功，而不执行实际操作 • 这一改动在 ggml /src/ggml-cuda/common.cuh 和 ml/backend/ggml/ggml/src/ggml-cuda/common.cuh 中均有实现，使 CUDA 后端在图优化阶段更高效效果
19010编辑于 2025-12-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页

点击加载更多

GGML 非官方中文文档

【Rust日报】crabml，使用 Rust 重写 GGML

使用GGML和LangChain在CPU上运行量化的llama2

ggml教程|mnist手写体识别量化推理 - plus studio

llama.cpp作者创业，用纯C语言框架降低大模型运行成本

使用Llama.cpp在CPU上快速的运行LLM

解决 ChatGLM.CPP+clBlast 编译错误（也适用于SD.CPP）

LLM 推理和应用开源框架梳理

LocalAI——一款可在消费级硬件上本地运行 LLMs的AI应用

和chatgpt一样的大模型LLaMA可以运行在pc上？

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

快速上手chatglm.cpp模型量化工具

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

魔搭社区LLM模型部署实践，以ChatGLM3为例（二）

privatGPT——私有化GPT模型的全新应用

llama.cpp在各个操作系统本地编译流程

talkGPT4All 2.0

LeCun转赞：在苹果M1/M2芯片上跑LLaMA！130亿参数模型仅需4GB内存

ollama v0.12.9 发布：修复 CPU Only 系统性能回退并优化 GPU 与 ROCm 支持

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

GGML 非官方中文文档

【Rust日报】crabml，使用 Rust 重写 GGML

使用GGML和LangChain在CPU上运行量化的llama2

ggml教程|mnist手写体识别量化推理 - plus studio

llama.cpp作者创业，用纯C语言框架降低大模型运行成本

使用Llama.cpp在CPU上快速的运行LLM

解决 ChatGLM.CPP+clBlast 编译错误（也适用于SD.CPP）

LLM 推理和应用 开源框架梳理

LocalAI——一款可在消费级硬件上本地运行 LLMs的AI应用

和chatgpt一样的大模型LLaMA可以运行在pc上？

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

快速上手chatglm.cpp模型量化工具

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

魔搭社区LLM模型部署实践， 以ChatGLM3为例（二）

privatGPT——私有化GPT模型的全新应用

llama.cpp在各个操作系统本地编译流程

talkGPT4All 2.0

LeCun转赞：在苹果M1/M2芯片上跑LLaMA！130亿参数模型仅需4GB内存

ollama v0.12.9 发布：修复 CPU Only 系统性能回退并优化 GPU 与 ROCm 支持

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LLM 推理和应用开源框架梳理

魔搭社区LLM模型部署实践，以ChatGLM3为例（二）