DeepSeek企業(yè)級部署實戰(zhàn)指南: 對于個人開發(fā)者或嘗鮮者而言,本地想要部署 DeepSeek 有很多種方案,但是一旦涉及到企業(yè)級部署,則步驟將會繁瑣很多。 比如我們的第一步……
哈嘍!伙伴們,我是小智,你們的AI向?qū)?。歡迎來到每日的AI學(xué)習(xí)時間。今天,我們將一起深入AI的奇妙世界,探索“DeepSeek企業(yè)級部署實戰(zhàn)指南”,并學(xué)會本篇文章中所講的全部知識點。還是那句話“不必遠(yuǎn)征未知,只需喚醒你的潛能!”跟著小智的步伐,我們終將學(xué)有所成,學(xué)以致用,并發(fā)現(xiàn)自身的更多可能性。話不多說,現(xiàn)在就讓我們開始這場激發(fā)潛能的AI學(xué)習(xí)之旅吧。
DeepSeek企業(yè)級部署實戰(zhàn)指南:
對于個人開發(fā)者或嘗鮮者而言,本地想要部署 DeepSeek 有很多種方案,但是一旦涉及到企業(yè)級部署,則步驟將會繁瑣很多。
比如我們的第一步就需要先根據(jù)實際業(yè)務(wù)場景評估出我們到底需要部署什么規(guī)格的模型,以及我們所要部署的模型,到底需要多少服務(wù)器資源來進(jìn)行承接,也就是 資源預(yù)估先行。
預(yù)估完我們的服務(wù)器資源以后,還需要評估我們的業(yè)務(wù)場景是否需要二次開發(fā)模型。
如果只是簡單的微調(diào)模型就可以符合我們的業(yè)務(wù)需求,那么使用Ollama、LM Studio、GTP4All 或許就可以滿足我們的訴求。
但是如果需要對模型進(jìn)行定制化開發(fā),則需要考慮進(jìn)行模型的原生部署。
所以本篇文章主要解決四個問題:
1. 如何合理評估我們的服務(wù)器資源
2. Ollama 部署指定版本的 DeepSeek
3. 原生部署 DeepSeek
4. 搭建 Dify 構(gòu)建企業(yè)內(nèi)的私有知識庫、工作流
評估服務(wù)器資源
評估服務(wù)資源前我們需要先考慮將要部署的模型參數(shù)量、模型的序列長度、批次大小和量化類型。
模型參數(shù)量
模型參數(shù)量:就是該模型神經(jīng)網(wǎng)絡(luò)的輸入權(quán)重和輸出閾值的總和,模型參數(shù)量的大小,直接影響到模型智能化程度的高低,關(guān)于這點如果不足夠清楚的可以參考之前我寫過的一篇文章: 人人都能搞定的大模型原理 – 神經(jīng)網(wǎng)絡(luò)
模型參數(shù)量越高耗費的服務(wù)器資源越多,反之亦然。
模型序列長度
那么在我們可以確認(rèn)了模型的參數(shù)規(guī)模后,就需要根據(jù)業(yè)務(wù)場景評估該模型的序列長度。
序列長度是該模型一次能處理的最大 Token 數(shù),針對 QA 問答的模型,你可以理解為你每次問模型問題時可以輸入的最大Token限制,如果用戶的問題超出了這個長度,則用戶的問題可能會被截斷或者被分為多個部分進(jìn)行分別處理。
模型量化類型
而模型的量化類型,則是該模型的參數(shù)精度,我們在之前的模型原理中提到過,訓(xùn)練好的模型實際存儲的就是一堆參數(shù)值,而這些參數(shù)值本身就是浮點數(shù),所以量化類型的值越大則模型的精度越準(zhǔn)確,智能化程度越高。
服務(wù)器資源計算
了解了上述的基本概念后,你可能會覺得我依然無法評估模型到底應(yīng)該占用多少服務(wù)器資源呀?怎么辦?
吶,不要急。
關(guān)于具體的參數(shù)映射到底應(yīng)該配置什么樣的服務(wù)器資源,有網(wǎng)友已經(jīng)做了一個配置計算器工具。
你只需要根據(jù)上面的概念選擇自己的模型規(guī)模,便會自動計算出所需要的服務(wù)器資源。
該工具的訪問地址:https://tools.thinkinai.xyz/#/server-calculator
Ollama 部署 DeepSeek?
Ollama 是本地運行大模型的一款工具,支持在 Mac、Linux、Windows 上下載并運行對應(yīng)的模型。
Ollama 安裝
# MacOS、Windows 用戶直接訪問Ollama官網(wǎng)https://ollama.com/download 下載對應(yīng)的安裝包直接安裝即可?
?
# Linux安裝?
curl -fsSL https://ollama.com/install.sh | sudo bash?
sudo usermod -aG ollama $USER # 添加用戶權(quán)限?
sudo systemctl start ollama # 啟動服務(wù)
Ollama安裝完成后,在對應(yīng)的命令行輸入:
ollama -v
此時輸出Ollama version is 0.5.7,則表示安裝成功。
DeepSeek模型安裝?
Ollama 安裝成功后則訪問 Ollama 的官網(wǎng)查找我們要安裝的模型?
1、 訪問 Ollama 官網(wǎng)?
2、選擇適合當(dāng)前機器配置的模型參數(shù),然后拷貝對應(yīng)的執(zhí)行命令即可?
3. 命令行終端直接執(zhí)行對應(yīng)的命令
ollama run deepseek-r1:7b?
# 執(zhí)行后?
pulling manifest?
pulling 96c415656d37… 100% ▕██████████████▏ 4.7 GB?
pulling 369ca498f347… 100% ▕██████████████▏ 387 B?
pulling 6e4c38e1172f… 100% ▕██████████████▏ 1.1 KB?
pulling f4d24e9138dd… 100% ▕██████████████▏ 148 B?
pulling 40fb844194b2… 100% ▕██████████████▏ 487 B?
verifying sha256 digest?
writing manifest?
success?
> > > Send a message (/? for help)?
> > > `?
#當(dāng)看到上述提示,即可開始模型對話,此時我發(fā)送一個問題:你是誰?
>>> 你是誰?? ?
您好!我是由中國的深度求索(DeepSeek)公司開發(fā)的智能助手DeepSeek-R1。如您有任何任何問題,我會盡我所能為您提供幫助。?
>>>
恭喜!出現(xiàn)上述的對話內(nèi)容,表示當(dāng)前 DeepSeek 已經(jīng)在你本地可以正常運行了。
nomic-embed-text模型安裝?
此時我們需要另外再部署一個新的模型,nomic-embed-text,這是一個文本向量化的模型,主要是后續(xù)基于 Dify 做向量化檢索時使用。
ollama pull nomic-embed-text?
#執(zhí)行后?
pulling manifest ?
pulling 970aa74c0a90… 100% ▕█████████ 274 MB ?
pulling c71d239df917… 100% █████████ 11 KB ?
pulling ce4a164fc046… 100% █████████ 17 B ?
pulling 31df23ea7daa… 100% █████████ 420 B ?
verifying sha256 digest ?
writing manifest ?
#看到該提示表示安裝成功?
success
部署圖形化客戶端
有些同學(xué)在部署完 DeepSeek 后就想直接找個 UI 工具和 DeepSeek 聊天了,而不是一直在對應(yīng)的命令行工具中聊天。
此時我們直接部署一套 UI 工具,連接我們的 DeepSeek 模型即可。
可以連接 DeepSeep 模型的 UI 工具有很多:
1. ChatBox 客戶端(圖形化界面)支持 Web 網(wǎng)頁,也支持本地客戶端。
2. AnythingLLM 客戶端(圖形化界面)
3. Open WebUI 客戶端(圖形化界面) 支持 Web 網(wǎng)頁,類似 ChatGPT。
4. Cherry Studio 客戶端(圖形化界面)
5. Page Assist 客戶端(瀏覽器擴展)支持「聯(lián)網(wǎng)搜索」
此時我們以 ChatBox 為例,直接訪問對應(yīng)的 官網(wǎng) 下載對應(yīng)的客戶端即可
下載完成后我們在 ChatBox 的設(shè)置中填寫 Ollama API 的地址和對應(yīng)的模型名稱,然后保存即可。
然后我們直接打開一個新的對話框,選擇要運行的模型即可開始對話。
原生部署 DeepSeek
原生部署 DeepSeek 則需要參考官方所提供的部署方式進(jìn)行部署
上述提到DeepSeek可以支持SGLang、LMDeploy、TensorRT-LLM、vLLM框架進(jìn)行部署。?
此處我們使用 LMDeploy 來部署 DeepSeek?
ppqq LMDeploy 是一個用于大型語言模型(LLMs)和視覺-語言模型(VLMs)壓縮、部署和服務(wù)的 Python 庫。 其核心推理引擎包括 TurboMind 引擎和 PyTorch 引擎。前者由 C++ 和 CUDA 開發(fā),致力于推理性能的優(yōu)化,而后者純 Python 開發(fā),旨在降低開發(fā)者的門檻。?
想要使用 LMDeploy 的前提是需要先使用 conda 或者 pip 安裝對應(yīng)的python 庫依賴才行。
conda create -n lmdeploy python=3.8 -y?
conda activate lmdeploy?
pip install lmdeploy
關(guān)于LMDeploy具體的安裝方式也可以直接參考 安裝文檔
編寫運行代碼
from lmdeploy import pipeline, TurbomindEngineConfig
# 模型路徑,可以是以下幾種選項之一:
# 1. 本地目錄路徑,指向一個turbomind模型
# 2. lmdeploy-quantized模型的model_id
# 3. 存放在模型倉庫中的模型的model_id
model = ‘deepseek-ai/DeepSeek-R1-Distill-Qwen-7B’# Turbomind引擎配置,用于設(shè)置模型的后端參數(shù)
backend_config = TurbomindEngineConfig(
cache_max_entry_count=0.2, # 緩存最大條目數(shù)
max_context_token_num=20544, # 最大上下文token數(shù)量
session_len=20544 # 會話長度
)# 生成配置,用于設(shè)置生成文本的參數(shù)
gen_config = GenerationConfig(
top_p=0.95, # 采樣閾值
temperature=0.6, # 溫度參數(shù),影響生成的多樣性
max_new_tokens=8192, # 最大新生成token數(shù)量
stop_token_ids=[151329, 151336, 151338], # 停止token的ID列表
do_sample=True # 啟用采樣
)# DeepSeekAI服務(wù)類
class DeepSeekAiServicer:def __init__(self, model: str, backend_config: TurbomindEngineConfig, gen_config: GenerationConfig):
# 初始化服務(wù),加載模型和配置
self.llm = pipeline(model, backend_config=backend_config)
self.gen_config = gen_configdef chat(self, content):
# 根據(jù)DeepSeek官方推薦,每個提示需要以n結(jié)尾
# 如果是數(shù)學(xué)推理內(nèi)容,建議包含以下(中英文):
# 請逐步推理,并將最終答案放在boxed{}中。
prompts = [{
“role”: “user”,
“content”: “生活的意義是什么?n”
}]# 響應(yīng)示例:
# “生活的意義是快樂。 我認(rèn)為生活的意義是快樂。”
response = self.llm(prompts, gen_config=self.gen_config)
return response
將上述代碼直接在 python 環(huán)境中運行便可以直接啟動我們的 DeepSeek 模型。
由于我們采用 LMDeploy 代碼來部署模型,因此我們獲得了更大的調(diào)整靈活性。我們能夠針對內(nèi)存管理、并發(fā)處理和負(fù)載均衡等多個方面進(jìn)行細(xì)致的優(yōu)化。此外,LMDeploy 允許我們集成其他 Python 庫,以便對模型進(jìn)行微調(diào)并添加自定義層,這些功能進(jìn)一步提升了我們的定制化能力,確保了模型部署的靈活性和效率。
?
部署 Dify
Dify 是一款開源的大語言模型(LLM) 應(yīng)用開發(fā)平臺。它融合了后端即服務(wù)(Backend as Service)和 LLMOps 的理念,使開發(fā)者可以快速搭建生產(chǎn)級的生成式 AI 應(yīng)用。即使你是非技術(shù)人員,也能參與到 AI 應(yīng)用的定義和數(shù)據(jù)運營過程中。
由于 Dify 內(nèi)置了構(gòu)建 LLM 應(yīng)用所需的關(guān)鍵技術(shù)棧,包括對數(shù)百個模型的支持、直觀的 Prompt 編排界面、高質(zhì)量的 RAG 引擎、穩(wěn)健的 Agent 框架、靈活的流程編排,并同時提供了一套易用的界面和 API。這為開發(fā)者節(jié)省了許多重復(fù)造輪子的時間,使其可以專注在創(chuàng)新和業(yè)務(wù)需求上。
簡單來說如果你想使用模型構(gòu)建自己的 RAG 知識引擎或者流程編排,那你少不寫一堆LangChain的代碼,但是 Dify 將這塊業(yè)務(wù)進(jìn)行了封裝,你只需要在可視化的頁面上操作,便可以實現(xiàn)相同的效果,快速的構(gòu)建出自己的 AI 應(yīng)用。
運行 Dify
Dify 的部署需要我們本地先支持 Docker 和 Git 的依賴環(huán)境,然后我們在對應(yīng)的終端直接執(zhí)行下面的代碼,便可以直接運行 Dify
#克隆 Dify 源代碼至本地環(huán)境。
git clone https://github.com/langgenius/dify.git#進(jìn)入 Dify 源代碼的 Docker 目錄
cd dify/docker#復(fù)制環(huán)境配置文件
cp .env.example .env#啟動 Docker 容器
docker-compose up -d
添加模型
Dify 啟動成功后,我們直接瀏覽器訪問: http://localhost
此時進(jìn)入到 Dify 的主頁面會提示新建賬號密碼,賬號密碼新建完成后,在右上角admin 處點擊設(shè)置,然后新增我們的本地模型配置。
此處添加 LLM 模型為deepseek-r1:7b,基礎(chǔ) URL 為: http://host.docker.internal:11434
添加完 LLM 模型后,我們再新增一個Text Embedding 模型,還記得最開始我們使用 ollama 還安裝了一套nomic-embed-text模型嗎?對的,就是在這里使用的。
兩個模型都添加完以后,就可以在模型列表中看到我們已經(jīng)添加的模型信息了
構(gòu)建知識庫?
在對應(yīng)的知識庫模塊新建知識庫,并上傳我們的私有數(shù)據(jù)?
?

文本分段與清洗中選擇使用我們的nomic-embed-text模型進(jìn)行清洗?
然后我么直接保存為知識庫即可?
新建聊天助手
在機器人的上下文中選擇我們剛剛新建的知識庫:“數(shù)字生命賈克斯”?
當(dāng)我們問他一些知識庫中獨有的內(nèi)容時,他便會根據(jù)知識庫中獨有的內(nèi)容,來給與對應(yīng)的回復(fù)。?
我們可以點擊發(fā)布將該機器人單獨給發(fā)布出去,此時其他人也可以使用你這個機器人來獲取知識庫中的信息了。?
工作流
Dify 中還有一個非常殺手锏的應(yīng)用,那就是工作流!?
我一直認(rèn)為 Dify 中最有價值的一個模塊就是工作流模塊,合理構(gòu)建自己的工作流,就好比讓一個只有大腦能力的模型,瞬間具備了手的能力。
原本只能通過問答來交互的模型,瞬間具備了和外界交互的能力。
通過工作流,Dify 可以自動執(zhí)行一系列復(fù)雜任務(wù),比如數(shù)據(jù)分析、報告生成、資源調(diào)度甚至是跨平臺操作。
這些任務(wù)不再是孤立的指令,而是形成了一個有機的整體,每個步驟都緊密相連,協(xié)同工作,從而極大地提升了工作效率。
嘿,伙伴們,今天我們的AI探索之旅已經(jīng)圓滿結(jié)束。關(guān)于“DeepSeek企業(yè)級部署實戰(zhàn)指南”的內(nèi)容已經(jīng)分享給大家了。感謝你們的陪伴,希望這次旅程讓你對AI能夠更了解、更喜歡。謹(jǐn)記,精準(zhǔn)提問是解鎖AI潛能的鑰匙哦!如果有小伙伴想要了解學(xué)習(xí)更多的AI知識,請關(guān)注我們的官網(wǎng)“AI智研社”,保證讓你收獲滿滿呦!
















微信掃一掃
支付寶掃一掃