Home avatar

FlareBlog

Technology is The First Productive Force.

使用 Ollama 在RTX 4090上部署 DeepSeek R1 Distill 系列模型并优化

本篇文章详细介绍了如何利用DeepSeek-R1及其蒸馏模型在消费级硬件上的应用,并探讨了其性能优化和不足之处。同时提供了安装Ollama及创建深度定制化模型的步骤,以及一些提高运行效率的方法,包括使用Flash Attention和KV Cache量化等技巧。
0%