RTX 5090 ollama跑各模型性能实测

发表日期:2026-03-11 19:15:58 | 来源: | | 浏览(191) 分类:AI大模型

以下测试结果基于ollama默认设置环境(上下文4k)

我的台式机测试:


硬件配置:

CPU:inter i9 14900KF 24核32线程

GPU:RTX 5090D 32G

内存:DDR5 6400 64G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3.5:27b

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 56.39s

  - 模型加载 (Load): 0.13s

  - 提示词处理 (Prompt Eval): 0.29s

  - 内容生成 (Generation): 51.30s

  - 首字延迟 (TTFT): 0.45s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 40

  - 生成总 Token 数: 3125

  - 提示词处理速度: 137.05 tokens/s

  - 纯生成平均速度: 60.91 tokens/s


【3. 思考阶段 (Reasoning)】

  - 思考 Token 数 (估算): 1735

  - 思考字符数: 4766

  - 观测耗时: 20.18s

  - 思考速度: 85.98 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 1390

  - 回答字符数: 3818

  - 观测耗时: 35.77s

  - 回答速度: 38.86 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 55.85 tokens/s ,显存占用24.5G,GPU利用率88%左右

==================================================

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3-coder-next:latest

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 134.80s

  - 模型加载 (Load): 14.39s

  - 提示词处理 (Prompt Eval): 0.83s

  - 内容生成 (Generation): 117.22s

  - 首字延迟 (TTFT): 15.26s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 42

  - 生成总 Token 数: 2291

  - 提示词处理速度: 50.70 tokens/s

  - 纯生成平均速度: 19.54 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 2291

  - 回答字符数: 3898

  - 观测耗时: 119.56s

  - 回答速度: 19.16 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 19.16 tokens/s,显存占用29G,内存占用22.5G,GPU利用率10%-16%。

==================================================

==================================================

【Ollama 性能测试结果报告】

模型名称: glm-4.7-flash:latest

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 25.38s

  - 模型加载 (Load): 5.67s

  - 提示词处理 (Prompt Eval): 0.04s

  - 内容生成 (Generation): 17.61s

  - 首字延迟 (TTFT): 5.75s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 36

  - 生成总 Token 数: 2598

  - 提示词处理速度: 873.25 tokens/s

  - 纯生成平均速度: 147.53 tokens/s


【3. 思考阶段 (Reasoning)】

  - 思考 Token 数 (估算): 1221

  - 思考字符数: 2153

  - 观测耗时: 8.62s

  - 思考速度: 141.68 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 1377

  - 回答字符数: 2428

  - 观测耗时: 11.03s

  - 回答速度: 124.87 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 132.24 tokens/s显存占用21G,没占内存。GPU利用率83%左右

==================================================

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 10.18s

  - 模型加载 (Load): 1.35s

  - 提示词处理 (Prompt Eval): 0.01s

  - 内容生成 (Generation): 7.27s

  - 首字延迟 (TTFT): 1.39s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 42

  - 生成总 Token 数: 2112

  - 提示词处理速度: 3292.62 tokens/s

  - 纯生成平均速度: 290.59 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 2112

  - 回答字符数: 3562

  - 观测耗时: 8.81s

  - 回答速度: 239.81 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 239.81 tokens/s显存占了8G,没占内存,GPU利用率76%

==================================================

qwen3:4b-instruct高达239.81 tokens/s;

glm-4.7-flash:latest 30B也有了实际观测全过程平均速度: 132.24 tokens/s;

qwen3-coder-next:latest 80B也有19.16 tokens/s还是比较满意的。

qwen3.5:27b  55.85 tokens/s 虽然也很快但是速度并不出众。比qwen3:32B慢一点。

==================================================

我的笔记本测试:

硬件配置:

CPU:AMD 5800H 8核心16线程

GPU:RTX 3060 6G

内存:DDR4 3200 32G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 34.18s

  - 模型加载 (Load): 4.95s

  - 提示词处理 (Prompt Eval): 0.03s

  - 内容生成 (Generation): 28.56s

  - 首字延迟 (TTFT): 5.04s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 42

  - 生成总 Token 数: 2172

  - 提示词处理速度: 1277.62 tokens/s

  - 纯生成平均速度: 76.05 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 2172

  - 回答字符数: 3651

  - 观测耗时: 29.18s

  - 回答速度: 74.43 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 74.43 tokens/s仅显存占用 4G GPU 95%以上基本可以跑满

==================================================

【Ollama 性能测试结果报告】

模型名称: glm-4.7-flash:latest

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 280.26s

  - 模型加载 (Load): 13.53s

  - 提示词处理 (Prompt Eval): 1.73s

  - 内容生成 (Generation): 263.92s

  - 首字延迟 (TTFT): 15.33s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 36

  - 生成总 Token 数: 2873

  - 提示词处理速度: 20.83 tokens/s

  - 纯生成平均速度: 10.89 tokens/s


【3. 思考阶段 (Reasoning)】

  - 思考 Token 数 (估算): 1785

  - 思考字符数: 3364

  - 观测耗时: 149.54s

  - 思考速度: 11.94 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 1088

  - 回答字符数: 2049

  - 观测耗时: 115.53s

  - 回答速度: 9.42 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 10.84 tokens/s

显存占用5G 内存占用 14G GPU利用率20%~30%跑不满



---------------------------------------------------

--------------------------------------------------

以前不知道ollama 默认启用4k上下文,上下文大小对显存和推理速度影响非常大。

以下是实测5090D 32G qwen3:4b-instruct在不同上下文情况下占用的显存情况:

1k-3G

4k-3.6G

8k-4.1G

16k-5.4G

32k-6.7G

64k - 12.3G

128k -21.4G

--------------------------------------------------

采用最小二乘法进行线性拟合,得到最优解方程:

x≈2.7913

y≈0.1445

即模型默认占用2.7913G显存,每k上下文占用0.1445G显存。

128k≈2.7913 + 128 * 0.1445 ≈ 21.2873

198k≈31.4023G显存。

可见仅仅4B的量化模型,如果上下文设置为198K,5090 32G显卡显存可能都不够用。

以前觉得ollama跑量化模型很蠢,所问非所答,把上下文设长,发现变得非常聪明了,连4B都很不错。

不过上下文大了之后不仅显存占用多了,推理也慢了:


64K 上下文测试情况:

12.3G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 278.88s

  - 模型加载 (Load): 1.23s

  - 提示词处理 (Prompt Eval): 3.91s

  - 内容生成 (Generation): 253.16s

  - 首字延迟 (TTFT): 5.27s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 36802

  - 生成总 Token 数: 29361

  - 提示词处理速度: 9421.81 tokens/s

  - 纯生成平均速度: 115.98 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 29361

  - 回答字符数: 53547

  - 观测耗时: 273.78s

  - 回答速度: 107.24 tokens/s

--------------------------------------------------

实际观测全过程平均速度: 107.24 tokens/s


128k上下文测试情况: 

21.4G

==================================================

【Ollama 性能测试结果报告】

模型名称: qwen3:4b-instruct

------------------------------

【1. 时间维度 (Time)】

  - 总耗时 (Total): 321.71s

  - 模型加载 (Load): 1.44s

  - 提示词处理 (Prompt Eval): 3.87s

  - 内容生成 (Generation): 293.27s

  - 首字延迟 (TTFT): 5.45s


【2. 吞吐维度 (Throughput)】

  - 提示词 Token 数: 36802

  - 生成总 Token 数: 32791

  - 提示词处理速度: 9505.52 tokens/s

  - 纯生成平均速度: 111.81 tokens/s


【4. 回答阶段 (Response)】

  - 回答 Token 数 (估算): 32791

  - 回答字符数: 59447

  - 观测耗时: 316.43s

  - 回答速度: 103.63 tokens/s


集速网 copyRight © 2015-2025 宁ICP备15000399号-1 宁公网安备 64010402001209号
与其临渊羡鱼,不如退而结网
欢迎转载、分享、引用、推荐、收藏。