DeepSeek本地模型显卡横评显存不够算力都白搭-品论天涯网

DeepSeek本地化部署是当下热门的应用方式，它除了可以避免服务器繁忙之外，本地化运行还能够极大程度保护用户的隐私。目前DeepSeek有众多版本，其中模型容量差距可达数十倍，到底该如何选择适合自己硬件的版本来部署，一直是用户比较头疼的问题。60R品论天涯网

60R品论天涯网

今天我们就使用RTX5090D、RTX5080、RTX5070Ti以及RTX5070，共4张RTX50系显卡来实测一下，不同显卡之间的性能差距。60R品论天涯网

60R品论天涯网

首先介绍一下测试平台，除了本次测试的4张显卡，处理器选择AMDR79800X3D，内存为48GBDDR56000MHz。60R品论天涯网

60R品论天涯网

关于本地部署的步骤这里不再过多讲解，有兴趣的用户可以翻看我们此前的文章。60R品论天涯网

测试使用LMStudio，无加速框架进行对比，完全凭借显卡自身算力。毕竟不同加速框架对不同厂商的显卡优化不同，测试变量太大。60R品论天涯网

这里我们首先选择【DeepSeekR1DistillQwen32B】模型。60R品论天涯网

60R品论天涯网

将GPU卸载拉满，这意味着DeepSeek模型将完全由GPU进行计算，其他参数默认即可。由于AI模型每次回答都会有所区别，这里设置3个问题，取平均值。60R品论天涯网

60R品论天涯网

另外需要注意的是，我们设置的问题本身框定了范围，让AI在思考回答时不会过于发散。如果问“什么是哲学”这类无范围的问题，每次回答的结果将无法量化。60R品论天涯网

在32B模型中，可以看到RTX5090D的tok/sec还是很快的，毕竟作为本代旗舰产品，32GB大显存本就适合AI训练。60R品论天涯网

但在RTX5080进行测试时便出现了问题，可以看到RTX5080在回答问题时，思考时间达到了348秒，也就是将近6分钟。60R品论天涯网

60R品论天涯网

这里需要提及一下，不同模型对于显存需求的换算大致有个公式，即：60R品论天涯网

（32）B÷2×1.15=显存60R品论天涯网

所以32B模型需要的最低显存，为18.4GB左右，这已经超出了RTX5080的16GB显存。而这溢出的2GB显存，则由内存补足。60R品论天涯网

但对于模型来说，爆显存之后不管“外借”多少内存，都将按照最慢的速度运算。60R品论天涯网

实测同事的RTX2060，在运行32B模型时，即便“外借”的内存更多，但思考时间同样为5分钟左右。60R品论天涯网

60R品论天涯网

爆显存对本次测试的意义就不大了，所以我们更换更小的8B模型，让后续型号都能够完全用显存完成测试。60R品论天涯网

根据上面的公式，这里可以推测出8B模型大约仅需要4.6GB显存，即可满足运算需求。60R品论天涯网

60R品论天涯网

在更换模型后，所有显卡均可进行正常测试，成绩汇总如上。60R品论天涯网

从结果来看，tok/sec与显卡显存及算力有较大关系，并且呈现出应有的性能递进关系。而firsttoken和思考时间没有太大规律可循，下面每张显卡的tok/sec成绩我们进行了柱状图汇总，方便大家看的更清晰。60R品论天涯网

60R品论天涯网

对于大显存高算力的RTX5090D毫无意外拔得头筹，而显存相同RTX5080及RTX5070Ti差距不大。根据不同显卡之间的AI算力来看：60R品论天涯网

RTX5090D（AITOPS：2375）；60R品论天涯网

RTX5080（AITOPS：1801）；60R品论天涯网

RTX5070Ti（AITOPS：1406）；60R品论天涯网

RTX5070（AITOPS：988）60R品论天涯网

至少DeepSeek大语言模型对于AI算力的要求并不是最重要的，而是显存。只要显存足够大，在推理运算时即有压倒性的优势。60R品论天涯网

最后总结一下本次DeepSeek测试的要点，供大家快速记忆：60R品论天涯网

1.DeepSeek大语言模型对GPU的需求：显存＞算力60R品论天涯网

2.模型对显存要求的换算公式（x）B÷2×1.15=显存60R品论天涯网

3.当显存无法满足模型最低需求，多少AI算力都无济于事60R品论天涯网

4.思考时间与GPU并无绝对关系，而是问题的开放性60R品论天涯网

本次测试选择的LMStudio，目的就是为了使用显卡未经加速的真实算力。不过现在有很多针对不同架构的加速框架，甚至笔记本也能跑满血大模型，大家在自己使用时不妨自行尝试。60R品论天涯网

(9647699)60R品论天涯网

DeepSeek本地模型显卡横评 显存不够算力都白搭