Skip to main content

生成式AI环境搭建

​ RKLLM 是 Rockchip 面向大语言模型(LLM)推出的一整套软件栈,目标是把 HuggingFace、PyTorch、ONNX 等格式的 千亿级参数大模型 快速、低比特、低延迟地部署到 RK3576 / RK3588 等 NPU 上。 它由三大组件构成:RKLLM-Toolkit(PC 端工具链)+ RKLLM Runtime(板端 C/C++ API)+ RKNPU Kernel Driver(内核驱动)

framework

RKLLM-Toolkit(PC 端模型转换 & 量化工具链)

功能说明
输入格式HuggingFace .bin / .safetensors、PyTorch .pt、ONNX、GGML
输出格式.rkllm 单一文件(含权重、图结构、量化表、token-vocab)
量化策略支持 INT8、INT6、INT4、INT2、FP16、FP32 混合精度;
内存优化KV-Cache 分配、权重分页、显存/内存复用分析
典型命令python -m rkllm_toolkit convert --model llama2-7b-hf --quant int4 --output llama2-7b-int4.rkllm
运行环境x86_64 / Apple Silicon / WSL,无需硬件

RKLLM Runtime(板端 C/C++ 推理接口)

模块作用
librkllmrt.so板端动态库,提供 C API
核心接口rkllm_init() / rkllm_run() / rkllm_destroy()
示例 demoexamples/llm_inference 可直接运行
内存占用7B 模型 INT4 量化后 ≈ 3.5 GB RAM(含 KV-Cache)
吞吐RK3588 上 7B-INT4 ≈ 4~6 token/s(batch=1,室温)
并发支持多实例/多线程,支持流式生成 & 断句

1.RKLLM-Toolkit工具安装

由于RKLLM-Toolkit工具没有ARM64版本,只提供x86版本,所以只提供X86 + NVIDIA GPU PC的安装教程!

如果x86 Linux PC无NVIDIA GPU安装可能报错!!!

1.安装Anaconda,访问此链接:Anaconda

wget -c https://repo.anaconda.com/archive/Anaconda3-2025.06-1-Linux-x86_64.sh

执行安装程序

bash Anaconda3-2025.06-1-Linux-x86_64.sh

按步骤安装即可,这里不再演示。

安装完成后激活环境

source ~/.bashrc

2.创建conda环境

conda create -n rkllm python=3.11 -y

3.进入rkllm conda 环境

conda activate rkllm

4.使用git获取rkllm源码

git clone -b release-v1.2.1 https://github.com/airockchip/rknn-llm.git

5.安装 RKLLM-Toolkit

pip3 install rknn-llm/rkllm-toolkit/rkllm_toolkit-1.2.1-cp311-cp311-linux_x86_64.whl

6.验证安装

python3
>>>from rkllm.api import RKLLM

若执行无报错,即为安装成功。

2.板端测试

板端已经默认安装了NPU驱动可通过以下命令:

#执行命令
sudo cat /sys/kernel/debug/rknpu/version
#输出内容
RKNPU driver: v0.9.8

1.使用git获取rkllm源码

git clone -b release-v1.2.1 https://github.com/airockchip/rknn-llm.git