RTX 5090 ollama跑各模型性能实测

发表日期：2026-03-11 19:15:58 | 来源： | | 浏览(605) 分类：AI大模型

以下测试结果基于ollama默认设置环境（上下文4k）

我的台式机测试：

硬件配置：

CPU：inter i9 14900KF 24核32线程

GPU：RTX 5090D 32G

内存：DDR5 6400 64G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3.5:27b

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 56.39s

- 模型加载 (Load): 0.13s

- 提示词处理 (Prompt Eval): 0.29s

- 内容生成 (Generation): 51.30s

- 首字延迟 (TTFT): 0.45s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 40

- 生成总 Token 数: 3125

- 提示词处理速度: 137.05 tokens/s

- 纯生成平均速度: 60.91 tokens/s

【3. 思考阶段 (Reasoning)】

- 思考 Token 数 (估算): 1735

- 思考字符数: 4766

- 观测耗时: 20.18s

- 思考速度: 85.98 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 1390

- 回答字符数: 3818

- 观测耗时: 35.77s

- 回答速度: 38.86 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 55.85 tokens/s ,显存占用24.5G，GPU利用率88%左右

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3-coder-next:latest

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 134.80s

- 模型加载 (Load): 14.39s

- 提示词处理 (Prompt Eval): 0.83s

- 内容生成 (Generation): 117.22s

- 首字延迟 (TTFT): 15.26s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 42

- 生成总 Token 数: 2291

- 提示词处理速度: 50.70 tokens/s

- 纯生成平均速度: 19.54 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 2291

- 回答字符数: 3898

- 观测耗时: 119.56s

- 回答速度: 19.16 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 19.16 tokens/s，显存占用29G，内存占用22.5G，GPU利用率10%-16%。

==================================================

【Ollama 性能测试结果报告】

模型名称: glm-4.7-flash:latest

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 25.38s

- 模型加载 (Load): 5.67s

- 提示词处理 (Prompt Eval): 0.04s

- 内容生成 (Generation): 17.61s

- 首字延迟 (TTFT): 5.75s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 36

- 生成总 Token 数: 2598

- 提示词处理速度: 873.25 tokens/s

- 纯生成平均速度: 147.53 tokens/s

【3. 思考阶段 (Reasoning)】

- 思考 Token 数 (估算): 1221

- 思考字符数: 2153

- 观测耗时: 8.62s

- 思考速度: 141.68 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 1377

- 回答字符数: 2428

- 观测耗时: 11.03s

- 回答速度: 124.87 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 132.24 tokens/s显存占用21G，没占内存。GPU利用率83%左右

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 10.18s

- 模型加载 (Load): 1.35s

- 提示词处理 (Prompt Eval): 0.01s

- 内容生成 (Generation): 7.27s

- 首字延迟 (TTFT): 1.39s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 42

- 生成总 Token 数: 2112

- 提示词处理速度: 3292.62 tokens/s

- 纯生成平均速度: 290.59 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 2112

- 回答字符数: 3562

- 观测耗时: 8.81s

- 回答速度: 239.81 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 239.81 tokens/s显存占了8G，没占内存，GPU利用率76%

==================================================

qwen3:4b-instruct高达239.81 tokens/s；

glm-4.7-flash:latest 30B也有了实际观测全过程平均速度: 132.24 tokens/s；

qwen3-coder-next:latest 80B也有19.16 tokens/s还是比较满意的。

qwen3.5:27b 55.85 tokens/s 虽然也很快但是速度并不出众。比qwen3:32B慢一点。

==================================================

我的笔记本测试：

硬件配置：

CPU：AMD 5800H 8核心16线程

GPU：RTX 3060 6G

内存：DDR4 3200 32G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 34.18s

- 模型加载 (Load): 4.95s

- 提示词处理 (Prompt Eval): 0.03s

- 内容生成 (Generation): 28.56s

- 首字延迟 (TTFT): 5.04s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 42

- 生成总 Token 数: 2172

- 提示词处理速度: 1277.62 tokens/s

- 纯生成平均速度: 76.05 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 2172

- 回答字符数: 3651

- 观测耗时: 29.18s

- 回答速度: 74.43 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 74.43 tokens/s仅显存占用 4G GPU 95%以上基本可以跑满

==================================================

【Ollama 性能测试结果报告】

模型名称: glm-4.7-flash:latest

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 280.26s

- 模型加载 (Load): 13.53s

- 提示词处理 (Prompt Eval): 1.73s

- 内容生成 (Generation): 263.92s

- 首字延迟 (TTFT): 15.33s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 36

- 生成总 Token 数: 2873

- 提示词处理速度: 20.83 tokens/s

- 纯生成平均速度: 10.89 tokens/s

【3. 思考阶段 (Reasoning)】

- 思考 Token 数 (估算): 1785

- 思考字符数: 3364

- 观测耗时: 149.54s

- 思考速度: 11.94 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 1088

- 回答字符数: 2049

- 观测耗时: 115.53s

- 回答速度: 9.42 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 10.84 tokens/s

显存占用5G 内存占用 14G GPU利用率20%~30%跑不满

---------------------------------------------------

--------------------------------------------------

以前不知道ollama 默认启用4k上下文，上下文大小对显存和推理速度影响非常大。

以下是实测5090D 32G qwen3:4b-instruct在不同上下文情况下占用的显存情况：

1k-3G

4k-3.6G

8k-4.1G

16k-5.4G

32k-6.7G

64k - 12.3G

128k -21.4G

--------------------------------------------------

采用最小二乘法进行线性拟合，得到最优解方程：

x≈2.7913

y≈0.1445

即模型默认占用2.7913G显存，每k上下文占用0.1445G显存。

128k≈2.7913 + 128 * 0.1445 ≈ 21.2873

198k≈31.4023G显存。

可见仅仅4B的量化模型，如果上下文设置为198K，5090 32G显卡显存可能都不够用。

以前觉得ollama跑量化模型很蠢，所问非所答，把上下文设长，发现变得非常聪明了，连4B都很不错。

不过上下文大了之后不仅显存占用多了，推理也慢了：

64K 上下文测试情况：

12.3G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 278.88s

- 模型加载 (Load): 1.23s

- 提示词处理 (Prompt Eval): 3.91s

- 内容生成 (Generation): 253.16s

- 首字延迟 (TTFT): 5.27s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 36802

- 生成总 Token 数: 29361

- 提示词处理速度: 9421.81 tokens/s

- 纯生成平均速度: 115.98 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 29361

- 回答字符数: 53547

- 观测耗时: 273.78s

- 回答速度: 107.24 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 107.24 tokens/s

128k上下文测试情况：

21.4G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

- 总耗时 (Total): 321.71s

- 模型加载 (Load): 1.44s

- 提示词处理 (Prompt Eval): 3.87s

- 内容生成 (Generation): 293.27s

- 首字延迟 (TTFT): 5.45s

【2. 吞吐维度 (Throughput)】

- 提示词 Token 数: 36802

- 生成总 Token 数: 32791

- 提示词处理速度: 9505.52 tokens/s

- 纯生成平均速度: 111.81 tokens/s

【4. 回答阶段 (Response)】

- 回答 Token 数 (估算): 32791

- 回答字符数: 59447

- 观测耗时: 316.43s

- 回答速度: 103.63 tokens/s

AI大模型（10）