RTX 5090 ollama跑各模型性能实测
发表日期:2026-03-11 19:15:58 | 来源: | | 浏览(191) 分类:AI大模型
以下测试结果基于ollama默认设置环境(上下文4k)
我的台式机测试:
硬件配置:
CPU:inter i9 14900KF 24核32线程
GPU:RTX 5090D 32G
内存:DDR5 6400 64G
==================================================
【Ollama 性能测试结果报告】
模型名称: qwen3.5:27b
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 56.39s
- 模型加载 (Load): 0.13s
- 提示词处理 (Prompt Eval): 0.29s
- 内容生成 (Generation): 51.30s
- 首字延迟 (TTFT): 0.45s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 40
- 生成总 Token 数: 3125
- 提示词处理速度: 137.05 tokens/s
- 纯生成平均速度: 60.91 tokens/s
【3. 思考阶段 (Reasoning)】
- 思考 Token 数 (估算): 1735
- 思考字符数: 4766
- 观测耗时: 20.18s
- 思考速度: 85.98 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 1390
- 回答字符数: 3818
- 观测耗时: 35.77s
- 回答速度: 38.86 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 55.85 tokens/s ,显存占用24.5G,GPU利用率88%左右
==================================================
==================================================
【Ollama 性能测试结果报告】
模型名称: qwen3-coder-next:latest
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 134.80s
- 模型加载 (Load): 14.39s
- 提示词处理 (Prompt Eval): 0.83s
- 内容生成 (Generation): 117.22s
- 首字延迟 (TTFT): 15.26s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 42
- 生成总 Token 数: 2291
- 提示词处理速度: 50.70 tokens/s
- 纯生成平均速度: 19.54 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 2291
- 回答字符数: 3898
- 观测耗时: 119.56s
- 回答速度: 19.16 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 19.16 tokens/s,显存占用29G,内存占用22.5G,GPU利用率10%-16%。
==================================================
==================================================
【Ollama 性能测试结果报告】
模型名称: glm-4.7-flash:latest
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 25.38s
- 模型加载 (Load): 5.67s
- 提示词处理 (Prompt Eval): 0.04s
- 内容生成 (Generation): 17.61s
- 首字延迟 (TTFT): 5.75s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 36
- 生成总 Token 数: 2598
- 提示词处理速度: 873.25 tokens/s
- 纯生成平均速度: 147.53 tokens/s
【3. 思考阶段 (Reasoning)】
- 思考 Token 数 (估算): 1221
- 思考字符数: 2153
- 观测耗时: 8.62s
- 思考速度: 141.68 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 1377
- 回答字符数: 2428
- 观测耗时: 11.03s
- 回答速度: 124.87 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 132.24 tokens/s显存占用21G,没占内存。GPU利用率83%左右
==================================================
==================================================
【Ollama 性能测试结果报告】
模型名称: qwen3:4b-instruct
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 10.18s
- 模型加载 (Load): 1.35s
- 提示词处理 (Prompt Eval): 0.01s
- 内容生成 (Generation): 7.27s
- 首字延迟 (TTFT): 1.39s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 42
- 生成总 Token 数: 2112
- 提示词处理速度: 3292.62 tokens/s
- 纯生成平均速度: 290.59 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 2112
- 回答字符数: 3562
- 观测耗时: 8.81s
- 回答速度: 239.81 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 239.81 tokens/s显存占了8G,没占内存,GPU利用率76%
==================================================
qwen3:4b-instruct高达239.81 tokens/s;
glm-4.7-flash:latest 30B也有了实际观测全过程平均速度: 132.24 tokens/s;
qwen3-coder-next:latest 80B也有19.16 tokens/s还是比较满意的。
qwen3.5:27b 55.85 tokens/s 虽然也很快但是速度并不出众。比qwen3:32B慢一点。
==================================================
我的笔记本测试:
硬件配置:
CPU:AMD 5800H 8核心16线程
GPU:RTX 3060 6G
内存:DDR4 3200 32G
==================================================
【Ollama 性能测试结果报告】
模型名称: qwen3:4b-instruct
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 34.18s
- 模型加载 (Load): 4.95s
- 提示词处理 (Prompt Eval): 0.03s
- 内容生成 (Generation): 28.56s
- 首字延迟 (TTFT): 5.04s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 42
- 生成总 Token 数: 2172
- 提示词处理速度: 1277.62 tokens/s
- 纯生成平均速度: 76.05 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 2172
- 回答字符数: 3651
- 观测耗时: 29.18s
- 回答速度: 74.43 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 74.43 tokens/s仅显存占用 4G GPU 95%以上基本可以跑满
==================================================
【Ollama 性能测试结果报告】
模型名称: glm-4.7-flash:latest
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 280.26s
- 模型加载 (Load): 13.53s
- 提示词处理 (Prompt Eval): 1.73s
- 内容生成 (Generation): 263.92s
- 首字延迟 (TTFT): 15.33s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 36
- 生成总 Token 数: 2873
- 提示词处理速度: 20.83 tokens/s
- 纯生成平均速度: 10.89 tokens/s
【3. 思考阶段 (Reasoning)】
- 思考 Token 数 (估算): 1785
- 思考字符数: 3364
- 观测耗时: 149.54s
- 思考速度: 11.94 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 1088
- 回答字符数: 2049
- 观测耗时: 115.53s
- 回答速度: 9.42 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 10.84 tokens/s
显存占用5G 内存占用 14G GPU利用率20%~30%跑不满
---------------------------------------------------
--------------------------------------------------
以前不知道ollama 默认启用4k上下文,上下文大小对显存和推理速度影响非常大。
以下是实测5090D 32G qwen3:4b-instruct在不同上下文情况下占用的显存情况:
1k-3G
4k-3.6G
8k-4.1G
16k-5.4G
32k-6.7G
64k - 12.3G
128k -21.4G
--------------------------------------------------
采用最小二乘法进行线性拟合,得到最优解方程:
x≈2.7913
y≈0.1445
即模型默认占用2.7913G显存,每k上下文占用0.1445G显存。
128k≈2.7913 + 128 * 0.1445 ≈ 21.2873
198k≈31.4023G显存。
可见仅仅4B的量化模型,如果上下文设置为198K,5090 32G显卡显存可能都不够用。
以前觉得ollama跑量化模型很蠢,所问非所答,把上下文设长,发现变得非常聪明了,连4B都很不错。
不过上下文大了之后不仅显存占用多了,推理也慢了:
64K 上下文测试情况:
12.3G
==================================================
【Ollama 性能测试结果报告】
模型名称: qwen3:4b-instruct
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 278.88s
- 模型加载 (Load): 1.23s
- 提示词处理 (Prompt Eval): 3.91s
- 内容生成 (Generation): 253.16s
- 首字延迟 (TTFT): 5.27s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 36802
- 生成总 Token 数: 29361
- 提示词处理速度: 9421.81 tokens/s
- 纯生成平均速度: 115.98 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 29361
- 回答字符数: 53547
- 观测耗时: 273.78s
- 回答速度: 107.24 tokens/s
--------------------------------------------------
实际观测全过程平均速度: 107.24 tokens/s
128k上下文测试情况:
21.4G
==================================================
【Ollama 性能测试结果报告】
模型名称: qwen3:4b-instruct
------------------------------
【1. 时间维度 (Time)】
- 总耗时 (Total): 321.71s
- 模型加载 (Load): 1.44s
- 提示词处理 (Prompt Eval): 3.87s
- 内容生成 (Generation): 293.27s
- 首字延迟 (TTFT): 5.45s
【2. 吞吐维度 (Throughput)】
- 提示词 Token 数: 36802
- 生成总 Token 数: 32791
- 提示词处理速度: 9505.52 tokens/s
- 纯生成平均速度: 111.81 tokens/s
【4. 回答阶段 (Response)】
- 回答 Token 数 (估算): 32791
- 回答字符数: 59447
- 观测耗时: 316.43s
- 回答速度: 103.63 tokens/s
宁公网安备 64010402001209号