LLM Benchmark(AX650N)

Benchmark 是了解硬件平台网络模型运行速度的最佳途径。以下数据基于 AXera-Pi Pro 测试获取，仅供社区参考，不代表商业交付最终性能。

工具链版本

Pulsar2 3.2

数据记录

Decode 性能

模型名称	参数量	Generate（token/s）
TinyLlama-1.1	1.1B	16.5
Qwen1.5	0.5B	28.0
	1.8B	9.0
	4B	4.2
Qwen2.0	0.5B	29.0
	1.5B	11.2
Qwen2.5	0.5B	32
	1.5B	11.5
	3.0B	5.8
MiniCPM	1.2B	11.3
	2.4B	6.0
OpenBuddy	3.6B	4.0
Phi2	2.7B	6.6
Phi3	3.8B	4.5
Llama2	7B	2.7
Llama3	8B	2.5
Llama3.2	1.2B	14.2
	3.2B	5.5

Prefill 性能

模型名称	参数量	Prompt length	TTFT（ms）	Prefill（token/s）
TinyLlama-1.1	1.1B	128	200	640
MiniCPM	1.2B	128	350	365
Qwen2.0	0.5B	128	122	1049
	1.5B	128	230	556
Qwen2.5	0.5B	128	124	1032
	1.5B	128	230	556
	3.0B	128	420	304
Phi3	3.8B	128	580	220
Llama3	8B	128	880	145
Llama3.2	1.2B	128	183	700
	3.2B	128	450	284