Benchmark 是了解硬件平台网络模型运行速度的最佳途径。以下数据基于 AXera-Pi Pro 测试获取,仅供社区参考,不代表商业交付最终性能。
- Pulsar2 3.2
Decode 性能
模型名称 | 参数量 | Generate(token/s) |
---|---|---|
TinyLlama-1.1 | 1.1B | 16.5 |
Qwen1.5 | 0.5B | 28.0 |
1.8B | 9.0 | |
4B | 4.2 | |
Qwen2.0 | 0.5B | 29.0 |
1.5B | 11.2 | |
Qwen2.5 | 0.5B | 32 |
1.5B | 11.5 | |
3.0B | 5.8 | |
MiniCPM | 1.2B | 11.3 |
2.4B | 6.0 | |
OpenBuddy | 3.6B | 4.0 |
Phi2 | 2.7B | 6.6 |
Phi3 | 3.8B | 4.5 |
Llama2 | 7B | 2.7 |
Llama3 | 8B | 2.5 |
Llama3.2 | 1.2B | 14.2 |
3.2B | 5.5 |
Prefill 性能
模型名称 | 参数量 | Prompt length | TTFT(ms) | Prefill(token/s) |
---|---|---|---|---|
TinyLlama-1.1 | 1.1B | 128 | 200 | 640 |
MiniCPM | 1.2B | 128 | 350 | 365 |
Qwen2.0 | 0.5B | 128 | 122 | 1049 |
1.5B | 128 | 230 | 556 | |
Qwen2.5 | 0.5B | 128 | 124 | 1032 |
1.5B | 128 | 230 | 556 | |
3.0B | 128 | 420 | 304 | |
Phi3 | 3.8B | 128 | 580 | 220 |
Llama3 | 8B | 128 | 880 | 145 |
Llama3.2 | 1.2B | 128 | 183 | 700 |
3.2B | 128 | 450 | 284 |