llama2.c使用纯C编写,不过不同的编译优化能够提供不同的加速性能。在同一台机器(centos gcc 9.3)不同编译配置,运行相同的模型(stories110M),进行推理速度(tok/s)比较。相比原始的c编译(O3优化),叠满Fast,OMP,GNUC11后有了近10倍的加速。
ubuntu20,22好像默认安装的gcc都是高版本的没有问题。
yum install centos-release-scl -y
yum clean all
yum install devtoolset-9-*-y
scl enabledevtoolset-9 bash
gcc -O3 -o run run.c -lm
./run out/stories110M.bin
gcc -Ofast -o run run.c -lm
./run out/stories110M.bin
gcc -Ofast -fopenmp -march=native run.c -lm -o run
./run out/stories110M.bin
gcc -Ofast -fopenmp -std=gnu11 run.c -lm -o run
./run out/stories110M.bin
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。