資源編號(hào)
13851最后更新
2025-04-16《大模型LLMs增量預(yù)訓(xùn)練篇》電子書下載: 這篇文章主要討論了大模型(Large Language Models, LLMs)的增量預(yù)訓(xùn)練的相關(guān)內(nèi)容。以下是文章的主要內(nèi)容: 1.??為什么要增量……
哈嘍!伙伴們,我是小智,你們的AI向?qū)?。歡迎來到每日的AI學(xué)習(xí)時(shí)間。今天,我們將一起深入AI的奇妙世界,探索“《大模型LLMs增量預(yù)訓(xùn)練篇》電子書下載”,并學(xué)會(huì)本篇文章中所講的全部知識(shí)點(diǎn)。還是那句話“不必遠(yuǎn)征未知,只需喚醒你的潛能!”跟著小智的步伐,我們終將學(xué)有所成,學(xué)以致用,并發(fā)現(xiàn)自身的更多可能性。話不多說,現(xiàn)在就讓我們開始這場(chǎng)激發(fā)潛能的AI學(xué)習(xí)之旅吧。
《大模型LLMs增量預(yù)訓(xùn)練篇》電子書下載:
這篇文章主要討論了大模型(Large Language Models, LLMs)的增量預(yù)訓(xùn)練的相關(guān)內(nèi)容。以下是文章的主要內(nèi)容:
1.??為什么要增量預(yù)訓(xùn)練???
增量預(yù)訓(xùn)練是為了讓大模型獲得領(lǐng)域知識(shí)。傳統(tǒng)的指令微調(diào)雖然可以學(xué)習(xí)特定格式,但無法通過幾十萬條數(shù)據(jù)獲得足夠的領(lǐng)域知識(shí)。
增量預(yù)訓(xùn)練被認(rèn)為是比指令微調(diào)更可靠的方法。
2.??進(jìn)行增量預(yù)訓(xùn)練需要做哪些準(zhǔn)備工作???
??模型底座選型??:主流選擇是LLaMA,因其遵循scaling法則并進(jìn)行了充分預(yù)訓(xùn)練。備選方案包括BLOOM、Falcon、CPM-bee、Aquila、Baichuan等,但這些模型在生態(tài)和效果上存在問題。
??數(shù)據(jù)收集??:經(jīng)典的開源預(yù)訓(xùn)練數(shù)據(jù)集包括wudao的200G和the pile(總計(jì)1T)。初期實(shí)踐時(shí),可以先收集GB量級(jí)的數(shù)據(jù)。
??數(shù)據(jù)清洗??:數(shù)據(jù)治理是關(guān)鍵,尤其是清理網(wǎng)頁爬取數(shù)據(jù)中的廣告。Falcon論文提供了數(shù)據(jù)清洗的參考方法。
3.??增量預(yù)訓(xùn)練所用訓(xùn)練框架???
??超大規(guī)模訓(xùn)練??:使用3D并行,推薦使用Megatron-DeepSpeed或Bigscience的實(shí)現(xiàn)。
??少量節(jié)點(diǎn)訓(xùn)練??:如果資源有限,可以使用deepspeed ZeRO或流水線并行(transpeeder)。
??少量卡訓(xùn)練??:如果顯存不足,可以考慮使用LoRA。
4.??增量預(yù)訓(xùn)練訓(xùn)練流程是怎么樣???
??數(shù)據(jù)預(yù)處理??:參考LLaMA的預(yù)訓(xùn)練長(zhǎng)度,將數(shù)據(jù)處理成2048長(zhǎng)度。
??分詞器??:建議先使用原版分詞器,如有必要再添加中文詞表。
??原始模型??:使用中文增量預(yù)訓(xùn)練后的版本,注意模型層名的差異。
??訓(xùn)練參數(shù)??:根據(jù)顯存情況調(diào)整參數(shù),使用wandb記錄訓(xùn)練進(jìn)展。
??模型轉(zhuǎn)換??:將模型轉(zhuǎn)換為標(biāo)準(zhǔn)huggingface格式。
??模型測(cè)試??:使用支持LLaMA的前端進(jìn)行測(cè)試。
5.??增量預(yù)訓(xùn)練一般需要多大數(shù)據(jù)量???
至少需要幾B的token數(shù)據(jù)集,否則推薦使用模型微調(diào)。
6.??增量預(yù)訓(xùn)練過程中,loss上升正常么???
初始階段loss上升是正常的,隨后會(huì)慢慢收斂。
7.??增量預(yù)訓(xùn)練過程中,Ir如何設(shè)置???
學(xué)習(xí)率(Ir)的設(shè)置很重要。數(shù)據(jù)集小時(shí),建議使用較小的學(xué)習(xí)率,通常為預(yù)訓(xùn)練階段最大學(xué)習(xí)率的10%。
8.??增量預(yù)訓(xùn)練過程中,warmup_ratio如何設(shè)置???
warmup_ratio通常設(shè)置為epoch的1%左右。如果數(shù)據(jù)集較大,可以適當(dāng)調(diào)大warmup_ratio。
??
9.warmup的步數(shù)對(duì)大模型繼續(xù)預(yù)訓(xùn)練是否有影響???
充分訓(xùn)練后,warmup步數(shù)對(duì)最終性能影響不大。但在訓(xùn)練前期,較長(zhǎng)的warmup步數(shù)有助于降低loss。
10.??學(xué)習(xí)率大小對(duì)大模型繼續(xù)預(yù)訓(xùn)練后上下游任務(wù)影響???
經(jīng)過充分訓(xùn)練后,較大的學(xué)習(xí)率有助于提高下游任務(wù)性能,但會(huì)降低上游任務(wù)性能。前期訓(xùn)練時(shí),較大的學(xué)習(xí)率會(huì)導(dǎo)致loss增加。
??
11.在初始預(yù)訓(xùn)練中使用Rewarmup對(duì)大模型繼續(xù)預(yù)訓(xùn)練性能影響???
在原數(shù)據(jù)集上繼續(xù)訓(xùn)練時(shí),使用warmup策略不如使用常量學(xué)習(xí)率效果好。較大的學(xué)習(xí)率會(huì)導(dǎo)致更大的性能損傷,且無法在后續(xù)訓(xùn)練中恢復(fù)。
嘿,伙伴們,今天我們的AI探索之旅已經(jīng)圓滿結(jié)束。關(guān)于“《大模型LLMs增量預(yù)訓(xùn)練篇》電子書下載”的內(nèi)容已經(jīng)分享給大家了。感謝你們的陪伴,希望這次旅程讓你對(duì)AI能夠更了解、更喜歡。謹(jǐn)記,精準(zhǔn)提問是解鎖AI潛能的鑰匙哦!如果有小伙伴想要了解學(xué)習(xí)更多的AI知識(shí),請(qǐng)關(guān)注我們的官網(wǎng)“AI智研社”,保證讓你收獲滿滿呦!
微信掃一掃
支付寶掃一掃