首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏信数据得永生

    GGML 非官方中文文档

    ggml_ftype_to_ggml_type enum ggml_type ggml_ftype_to_ggml_type(enum ggml_ftype ftype); 描述:将ggml_ftype ggml_add struct ggml_tensor * ggml_add(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor ggml_add1 struct ggml_tensor * ggml_add1(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor ggml_set struct ggml_tensor * ggml_set(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor ggml_cpy struct ggml_tensor * ggml_cpy(struct ggml_context * ctx, struct ggml_tensor * a, struct ggml_tensor

    80010编辑于 2024-05-16
  • 来自专栏Rust语言学习交流

    【Rust日报】crabml,使用 Rust 重写 GGML

    项目 - crabml,使用 Rust 重写 GGML crabml 是一个正在进行中的实验性项目,相当于是使用 Rust 重新实现 GGML。 目前它已经支持推理 Q8_0 量化的Llama 3B模型,与 ggml 性能差距仅有 1token/s 。 其设计目标是: 专注于推理。 将张量运算限制为 LLM 推理所需的最低限度。

    31810编辑于 2024-03-06
  • 来自专栏DeepHub IMBA

    使用GGML和LangChain在CPU上运行量化的llama2

    为了解释这个事情我们首先要了解GGMLGGML库是一个为机器学习设计的张量库,它的目标是使大型模型能够在高性能的消费级硬件上运行。这是通过整数量化支持和内置优化算法实现的。 也就是说,llm的GGML版本(二进制格式的量化模型)可以在cpu上高性能地运行。 因为我们最终是使用Python的,所以还需要C Transformers库,它其实就是为GGML模型提供了Python API。 我们可以通过访问TheBloke的Llama-2-7B-Chat GGML页面来实现,然后下载名为Llama-2-7B-Chat .ggmlv3.q8_0.bin的GGML 8位量化文件。 也就是说将在LangChain中使用CTransformers LLM包装器,它为GGML模型提供了一个统一的接口。

    1.9K20编辑于 2023-08-30
  • 来自专栏个人博客

    ggml教程|mnist手写体识别量化推理 - plus studio

    这个教程将会使用pytorch来训练一个简单的全连接神经网络,然后使用ggml量化,最后使用ggml推理这个模型。 量化 我们需要使用ggml对模型进行量化,代码在convert-pth-to-ggml.py 文件中,使用python convert-pth-to-ggml.py model/mnist_model.pth ggml_tensor * fc1_bias; struct ggml_tensor * fc2_weight; struct ggml_tensor * fc2_bias; * ctx0 = ggml_init(params); struct ggml_cgraph * gf = ggml_new_graph(ctx0); 我们先复习一下全连接层的计算。 struct ggml_tensor * input = ggml_new_tensor_4d(ctx0, GGML_TYPE_F32, 28, 28, 1, 1); memcpy(input-

    98210编辑于 2024-02-29
  • 来自专栏机器之心

    llama.cpp作者创业,用纯C语言框架降低大模型运行成本

    现在,Georgi Gerganov 宣布创立一家新公司 ggml.ai,旨在支持 ggml 的开发。 ggml 是 Georgi Gerganov 使用 C/C++ 构建了机器学习张量库,能够帮助开发者在消费级硬件上实现大模型,并提升模型性能。 作为纯 C 语言编写的框架,ggml 大幅降低了大模型的运行成本。 llama.cpp 和 whisper.cpp 都使用了 ggml,我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。 参考链接:http://ggml.ai/

    59020编辑于 2023-08-07
  • 来自专栏DeepHub IMBA

    使用Llama.cpp在CPU上快速的运行LLM

    使用LLM和llama-cpp-python 只要语言模型转换为GGML格式,就可以被llama.cpp加载和使用。而大多数流行的LLM都有可用的GGML版本。 在本文中,我们使用GGML版本的Vicuna-7B,该模型可从HuggingFace下载:https://huggingface.co/CRD716/ggml-vicuna-1.1-quantized。 ") # Dowloading GGML model from HuggingFace ggml_model_path = "https://huggingface.co/CRD716/ggml-vicuna -1.1-quantized/resolve/main/ggml-vicuna-7b-1.1-q4_1.bin" filename = "ggml-vicuna-7b-1.1-q4_1.bin" ") # Dowloading GGML model from HuggingFace ggml_model_path = "https://huggingface.co/CRD716/ggml-vicuna

    2.7K30编辑于 2023-08-30
  • 来自专栏信数据得永生

    解决 ChatGLM.CPP+clBlast 编译错误(也适用于SD.CPP)

    GitHub 上的源码: git clone --recurse-submodules https://github.com/li-plus/chatglm.cpp cd chatglm.cpp 这个项目 GGML 子仓库中, third_party/ggml/src/CMakeList.txt 有个错误。 find_library(CLBLAST_LIB NAMES clblast) if (CLBLAST_LIB) message(STATUS "clBLAST found") set(GGML_EXTRA_LIBS ${GGML_EXTRA_LIBS} ${CLBLAST_LIB}) 可以看到头文件名称写错(应该是clblast.h)。 ${GGML_EXTRA_INCS} ${CLBLAST_INC}) set(GGML_EXTRA_LIBS ${GGML_EXTRA_LIBS} ${CLBLAST_LIB} ${OPENCL_LIB

    62320编辑于 2023-10-13
  • 来自专栏JadePeng的技术博客

    LLM 推理和应用 开源框架梳理

    GGML https://github.com/ggerganov/ggml GGML全称是Georgi Gerganov Machine Learning,是由Georgi Gerganov开发的一个张量库 字样的,比如Llama-2-13B-chat-GGML,说明这些模型是经过 GGML 量化的。 有些 GGML 模型的名字除了带有GGML字样外,还带有q4、q4_0、q5等,比如Chinese-Llama-2-7b-ggml-q4,这里面的q4其实指的是 GGML 的量化方法,从q4_0开始往后扩展 但这个功能是Breaking Change,也就是说 GGML 新版本以后量化出来的模型都是 GGUF 格式的,这意味着旧的 GGML 格式以后会慢慢被 GGUF 格式取代,而且也不能将老的 GGML GPTQ vs GGML GPTQ 和 GGML 是现在模型量化的两种主要方式,在实际运用中如何选择呢?

    2.6K10编辑于 2024-03-13
  • 来自专栏山行AI

    LocalAI——一款可在消费级硬件上本地运行 LLMs的AI应用

    -O models/ggml-gpt4all-j # 从示例中复制一个模板到 models/ cp -rf prompt-templates/ggml-gpt4all-j.tmpl models/ /ggml [28] binding: https://github.com/go-skynet/go-ggml-transformers.cpp [29] dolly: https://github.com /ggerganov/ggml [30] binding: https://github.com/go-skynet/go-ggml-transformers.cpp [31] gptj: https: //github.com/ggerganov/ggml [32] binding: https://github.com/go-skynet/go-ggml-transformers.cpp [33] mpt: https://github.com/ggerganov/ggml [34] binding: https://github.com/go-skynet/go-ggml-transformers.cpp

    9.8K30编辑于 2023-08-10
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    和chatgpt一样的大模型LLaMA可以运行在pc上?

    /models/7B/ggml-model-f16.bin ./models/7B/ggml-model-q4_0.bin 2 $ ./quantize . /models/13B/ggml-model-f16.bin . /models/13B/ggml-model-q4_0.bin 2 # 这将生成型号/7B/ggml-model-q4_0.bin-3.9GB文件。这是我们将用于运行模型的文件。 models/13B/ 1 12G ggml-model-f16.bin 12G ggml-model-f16.bin.1 $ . /models/13B/ggml-model-f16.bin ./models/13B/ggml-model-q4_0.bin 2 $ ./quantize .

    1.1K21编辑于 2023-05-09
  • 来自专栏为了不折腾而去折腾的那些事

    构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

    GGML LLaMA2 模型转换工具镜像 使用下面的命令,先下载能够转换模型为 GGML 格式的工具镜像: docker pull soulteary/llama2:converter 接着,使用下面的命令 # du -hs /app/soulteary/Chinese-Llama-2-7b-ggml.bin 26G /app/soulteary/Chinese-Llama-2-7b-ggml.bin 因此 ,我们还需要进一步进行 GGML 格式的量化操作: . /quantize /app/soulteary/Chinese-Llama-2-7b-ggml.bin /app/soulteary/Chinese-Llama-2-7b-ggml-q4.bin q4 我们想要使用 CPU 来运行模型,我们需要通过 GGML 将模型转换为 GGML 支持的格式,并且进行量化,降低运行资源要求。

    1.1K20编辑于 2023-09-04
  • 来自专栏为了不折腾而去折腾的那些事

    CPU 混合推理,非常见大模型量化方案:“二三五六” 位量化

    模型的 GGUF (GGML Universal File)格式量化准备 GGUF 是 GGML 的全新替代型,被称为 GGML 通用文件格式。 预转换:Convert.py 转换脚本 这个脚本能够将非 GGML 格式的文件转换为 GGML,以 GGUF 后缀进行保存。 /brucethemoose/CapyTessBorosYi-34B-200K-DARE-Ties/ggml-model-f16.gguf Q5_K_M 命令执行过程中,我们将看到滚动的日志: ggml_init_cublas : GGML_CUDA_FORCE_MMQ: no ggml_init_cublas: CUDA_USE_TENSOR_CORES: yes ggml_init_cublas: found 1 CUDA _K_M.gguf 65G ggml-model-f16.gguf 至于模型的使用,就太简单啦。

    1.4K10编辑于 2023-12-14
  • 来自专栏AI技术探索和应用

    快速上手chatglm.cpp模型量化工具

    /build/bin/main -m chatglm-ggml.bin -p 你好 交互式,这种模式下,聊天记录会被带到下一次对话中。 . /build/bin/main -m chatglm-ggml.bin -i 使用Python库 安装Python库。 /chatglm-ggml.bin") pipeline.chat(["你好"]) '你好!我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。' /chatglm-ggml.bin -i # python3 cli_chat.py -m .. /chatglm-ggml.bin # python3 web_demo.py -m ..

    3.4K51编辑于 2024-03-13
  • 来自专栏为了不折腾而去折腾的那些事

    构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型

    LLaMA2 官方镜像或中文镜像为 GGML 格式,我做了一个工具镜像,镜像不大,只有 93MB。 # du -hs /app/soulteary/Chinese-Llama-2-7b-ggml.bin26G/app/soulteary/Chinese-Llama-2-7b-ggml.bin因此,我们还需要进一步进行 GGML 格式的量化操作:. /quantize /app/soulteary/Chinese-Llama-2-7b-ggml.bin /app/soulteary/Chinese-Llama-2-7b-ggml-q4.bin q4 我们想要使用 CPU 来运行模型,我们需要通过 GGML 将模型转换为 GGML 支持的格式,并且进行量化,降低运行资源要求。

    1.3K100编辑于 2023-07-24
  • 来自专栏最新最全的大数据技术体系

    魔搭社区LLM模型部署实践, 以ChatGLM3为例(二)

    二 、多端部署-以ChatGLM3+个人Mac电脑为例 魔搭社区和Xinference合作, 提供了模型GGML的部署方式, 以ChatGLM3为例。 ChatGLM3使用的模型为GGML格式, 模型链接: https://modelscope.cn/models/Xorbits/chatglm3-ggml/summary 使用方式: 首先在mac上预装 Xinference: pip install x inference[ggml]>=0.4.3 然后本地开启Xinference的实例: x inference -p 9997 运行如下Python代码 /build/bin/main -m chatglm-ggml.bin -i # 以下对话为使用agent数据集训练后的效果 # Prompt > how are you? 之后启动xinference: x inference -p 9997 在浏览器界面上选择Register Model选项卡, 添加chatglm.cpp章节中转换成功的ggml模 型: 注意: ● 模型能力选择

    1.3K30编辑于 2023-11-12
  • 来自专栏山行AI

    privatGPT——私有化GPT模型的全新应用

    /models的文件夹中: •LLM:默认为ggml-gpt4all-j-v1.3-groovy.bin[3]。 •Embedding:默认为ggml-model-q4_0.bin[4]。如果你喜欢其他兼容的Embeddings模型,只需下载并在privateGPT.py和ingest.py中引用即可。 LangChain: https://github.com/hwchase17/langchain [2] GPT4All: https://github.com/nomic-ai/gpt4all [3] ggml-gpt4all-j-v1.3 -groovy.bin: https://gpt4all.io/models/ggml-gpt4all-j-v1.3-groovy.bin [4] ggml-model-q4_0.bin: https: //huggingface.co/Pi3141/alpaca-native-7B-ggml/resolve/397e872bf4c83f4c642317a5bf65ce84a105786e/ggml-model-q4

    1.7K20编辑于 2023-06-14
  • llama.cpp在各个操作系统本地编译流程

    Other BLAS libraries Any other BLAS library can be used by setting the GGML_BLAS_VENDOR option. GGML_CUDA_PEER_MAX_BATCH_SIZE Positive integer 128 Maximum batch size for which to enable peer access GGML_CUDA_FA_ALL_QUANTS Boolean false Compile support for all KV cache quantization type (combinations For example: # ggml_vulkan: Using Intel(R) Graphics (ADL GT2) | uma: 1 | fp16: 1 | warp size: 32 CANN To enable this feature, use the GGML_BACKEND_DL option when building.

    72110编辑于 2025-07-16
  • 来自专栏Yunfeng's Simple Blog

    talkGPT4All 2.0

    2.2 切换不同的LLM 默认的语言模型是GPT4All-J-v1.3,,可以通过命令行选项–gpt-model-name来切换模型,所有的选项是: "ggml-gpt4all-j-v1.3-groovy " "ggml-gpt4all-j-v1.2-jazzy" "ggml-gpt4all-j-v1.1-breezy" "ggml-gpt4all-j" "ggml-gpt4all-l13b-snoozy " "ggml-vicuna-7b-1.1-q4_2" "ggml-vicuna-13b-1.1-q4_2" "ggml-wizardLM-7B.q4_2" 例如可以这样使用: python chat.py --gpt-model-name ggml-wizardLM-7B.q4_2 如果模型未下载过,会进行下载。

    37720编辑于 2023-10-23
  • 来自专栏新智元

    LeCun转赞:在苹果M1/M2芯片上跑LLaMA!130亿参数模型仅需4GB内存

    -O3 -DNDEBUG -std=c11 -fPIC -pthread -DGGML_USE_ACCELERATE -c ggml.c -o ggml.oc++ -I. -I. /examples -O3 -DNDEBUG -std=c++11 -fPIC -pthread quantize.cpp ggml.o utils.o -o quantize -framework Output file: models/7B/ggml-model-f16.bin, (part 0 ) 下一步将是进行量化处理: ./quantize . /models/7B/ggml-model-f16.bin . /models/7B/ggml-model-q4_0.bin 2 输出如下: llama_model_quantize: loading model from '.

    2K20编辑于 2023-03-29
  • 来自专栏福大大架构师每日一题

    ollama v0.12.9 发布:修复 CPU Only 系统性能回退并优化 GPU 与 ROCm 支持

    内存分配压力 • 对 cudaMemcpyAsync、cudaMemcpy2DAsync、cudaMemsetAsync 进行了宏替换,使其在预留阶段直接返回成功,而不执行实际操作 • 这一改动在 ggml /src/ggml-cuda/common.cuh 和 ml/backend/ggml/ggml/src/ggml-cuda/common.cuh 中均有实现,使 CUDA 后端在图优化阶段更高效 效果

    19010编辑于 2025-12-19
领券