DeepSeek是最近非常火的开源大模型,国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。
无奈,在使用时候deepseek总是提示服务器繁忙,请稍后再试。
这可怎么办?
万幸的是,DeepSeek是一个开源模型,这意味着我们可以将它部署在自己的电脑上,以便随时使用!, 同时各个云厂商也提供了自己的部署方案。
今天就跟大家分享一下,DeepSeek部署的几种方案。
本地部署方案
Ollama
首先我们需要安装Ollama,Ollama是一个用于本地管理和运行大模型的工具,能够简化模型的下载和调度操作。
进入Ollama官网(https://ollama.com)。
点击【Download】,选择适合自己系统的版本(Windows/mac/Linux)。
DeepSeek 模型, 以 deepseek-r1
为例, 其提供了如下几个版本:
1
2
3
4
5
6
7
1.5b
7b
8b
14b
32b
70b
671b
启动 DeepSeek 模型
1
ollama run deepseek-r1:14b
在 Apple M1 Pro / 32 GB 机器上运行 14b 模型毫无压力, 可以达到大约 10 token/s 的速度。
SGLang
- sglang SGLang is a fast serving framework for large language models and vision language models.
VLLM
inference
支持DeepSeek的云服务平台
deepseek 官方
字节火山引擎
预埋推理接入点:
1
2
3
4
5
6
7
8
9
10
curl https://ark.cn-beijing.volces.com/api/v3/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $ARK_API_KEY" \
-d '{
"model": "deepseek-r1-250120",
"messages": [
{"role": "system","content": "你是人工智能助手."},
{"role": "user","content": "常见的十字花科植物有哪些?"}
]
}'
同时也支持自定义在线接入点(Endpoint)
示例代码如下, ep-20250226225639-lbdsg 即为 Endpoint ID:
1
2
3
4
5
6
7
8
9
10
curl https://ark.cn-beijing.volces.com/api/v3/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $ARK_API_KEY" \
-d '{
"model": "ep-20250226225639-lbdsg",
"messages": [
{"role": "system","content": "你是人工智能助手."},
{"role": "user","content": "常见的十字花科植物有哪些?"}
]
}'
其它参考: