資源編號(hào)
11090最后更新
2025-04-02《大模型(LLMs)微調(diào)面》電子書(shū)下載: 這本書(shū)詳細(xì)討論了大模型(LLMs)微調(diào)的各個(gè)方面,涵蓋了從顯存需求到模型訓(xùn)練的具體方法和經(jīng)驗(yàn)。以下是文章的主要內(nèi)容總結(jié): 顯……
哈嘍!伙伴們,我是小智,你們的AI向?qū)Аg迎來(lái)到每日的AI學(xué)習(xí)時(shí)間。今天,我們將一起深入AI的奇妙世界,探索“《大模型(LLMs)微調(diào)面》電子書(shū)下載”,并學(xué)會(huì)本篇文章中所講的全部知識(shí)點(diǎn)。還是那句話“不必遠(yuǎn)征未知,只需喚醒你的潛能!”跟著小智的步伐,我們終將學(xué)有所成,學(xué)以致用,并發(fā)現(xiàn)自身的更多可能性。話不多說(shuō),現(xiàn)在就讓我們開(kāi)始這場(chǎng)激發(fā)潛能的AI學(xué)習(xí)之旅吧。
《大模型(LLMs)微調(diào)面》電子書(shū)下載:
這本書(shū)詳細(xì)討論了大模型(LLMs)微調(diào)的各個(gè)方面,涵蓋了從顯存需求到模型訓(xùn)練的具體方法和經(jīng)驗(yàn)。以下是文章的主要內(nèi)容總結(jié):
顯存需求
?顯存需求:一般nB的模型,最低需要16-20nG的顯存。例如,vicuna-7B模型在官方樣例配置下需要4張A100 40G GPU。
?顯存優(yōu)化:通過(guò)FSDP、梯度累積、梯度檢查點(diǎn)等方式可以降低顯存需求。
SFT微調(diào)的影響
?SFT的作用:SFT(Supervised Fine-Tuning)旨在激發(fā)大模型的能力,通常使用的數(shù)據(jù)量較小,可能導(dǎo)致模型在特定任務(wù)上表現(xiàn)更好,但在通用能力上有所下降。
?新版答案:指令微調(diào)是為了增強(qiáng)或解鎖大語(yǔ)言模型的能力,使其在多語(yǔ)言場(chǎng)景下有更好的泛化能力。
指令微調(diào)數(shù)據(jù)構(gòu)建
?代表性:選擇多個(gè)有代表性的任務(wù)。
?數(shù)據(jù)量:每個(gè)任務(wù)實(shí)例數(shù)量不應(yīng)太多,以避免過(guò)擬合。
?數(shù)據(jù)集平衡:平衡不同任務(wù)的比例,限制整個(gè)數(shù)據(jù)集的容量。
領(lǐng)域模型訓(xùn)練
?領(lǐng)域數(shù)據(jù)選取:技術(shù)標(biāo)準(zhǔn)文檔或領(lǐng)域相關(guān)數(shù)據(jù)是關(guān)鍵。
?緩解遺忘:在領(lǐng)域訓(xùn)練過(guò)程中加入通用數(shù)據(jù)集,比例通常為1:5到1:10。
?預(yù)訓(xùn)練與SFT結(jié)合:在預(yù)訓(xùn)練過(guò)程中加入SFT數(shù)據(jù),以學(xué)習(xí)更多知識(shí)。
微調(diào)模型建議
?模型結(jié)構(gòu):使用Causal Decoder+LM,層歸一化使用Pre RMS Norm,激活函數(shù)使用GeGLU或SwiGLU。
?訓(xùn)練配置:選用大batch size,動(dòng)態(tài)增加策略,學(xué)習(xí)率調(diào)度先warmup再衰減,梯度裁剪為1.0,權(quán)重衰減系數(shù)設(shè)置為0.1,采用bfloat16進(jìn)行混合精度訓(xùn)練。
batch size設(shè)置
?太小問(wèn)題:更新方向具有高方差,導(dǎo)致噪聲較大。
?太大問(wèn)題:增加batch size幾乎不會(huì)改善性能,增加總體的FLOPS。
?最優(yōu)設(shè)置:存在一個(gè)關(guān)于數(shù)據(jù)并行程度的臨界點(diǎn),平衡訓(xùn)練效率和模型效果。
優(yōu)化器選擇
?Adam和AdamW:常用優(yōu)化器,AdamW相當(dāng)于Adam加了一個(gè)L2正則項(xiàng)。
?其他優(yōu)化器:如Sophia,使用梯度曲率進(jìn)行歸一化,可能提高訓(xùn)練效率和模型性能。
內(nèi)存使用
?影響因素:模型大小、批量大小、LoRA參數(shù)數(shù)量以及數(shù)據(jù)集特性。
?節(jié)省內(nèi)存:使用較短的訓(xùn)練序列可以節(jié)省內(nèi)存。
數(shù)據(jù)集構(gòu)建
?微調(diào)數(shù)據(jù):數(shù)據(jù)質(zhì)量大于數(shù)量,選取干凈、具有代表性的訓(xùn)練數(shù)據(jù),構(gòu)建多樣化的prompt,多任務(wù)訓(xùn)練時(shí)平衡數(shù)據(jù)量。
訓(xùn)練loss突刺
?原因:Adam優(yōu)化器導(dǎo)致淺層梯度更新幅度變化,引發(fā)模型非穩(wěn)態(tài)。
?解決方法:更換batch樣本、減小學(xué)習(xí)率、減小e大小或使用EGS(Embedding Layer Gradient Shrink)等方法。
這本書(shū)提供了大模型微調(diào)的詳細(xì)指南和建議,涵蓋了從顯存需求到具體訓(xùn)練方法的各個(gè)方面。
嘿,伙伴們,今天我們的AI探索之旅已經(jīng)圓滿結(jié)束。關(guān)于“《大模型(LLMs)微調(diào)面》電子書(shū)下載”的內(nèi)容已經(jīng)分享給大家了。感謝你們的陪伴,希望這次旅程讓你對(duì)AI能夠更了解、更喜歡。謹(jǐn)記,精準(zhǔn)提問(wèn)是解鎖AI潛能的鑰匙哦!如果有小伙伴想要了解學(xué)習(xí)更多的AI知識(shí),請(qǐng)關(guān)注我們的官網(wǎng)“AI智研社”,保證讓你收獲滿滿呦!
微信掃一掃
支付寶掃一掃