資源編號
11082最后更新
2025-04-02《大模型(LLMs)基礎(chǔ)面》電子書下載: 這本書主要介紹了大語言模型(LLMs)的基礎(chǔ)知識,包括開源模型體系、訓(xùn)練目標(biāo)、涌現(xiàn)能力、模型結(jié)構(gòu)選擇、模型定義及優(yōu)缺點(diǎn)等內(nèi)容……
哈嘍!伙伴們,我是小智,你們的AI向?qū)?。歡迎來到每日的AI學(xué)習(xí)時(shí)間。今天,我們將一起深入AI的奇妙世界,探索“《大模型(LLMs)基礎(chǔ)面》電子書下載”,并學(xué)會(huì)本篇文章中所講的全部知識點(diǎn)。還是那句話“不必遠(yuǎn)征未知,只需喚醒你的潛能!”跟著小智的步伐,我們終將學(xué)有所成,學(xué)以致用,并發(fā)現(xiàn)自身的更多可能性。話不多說,現(xiàn)在就讓我們開始這場激發(fā)潛能的AI學(xué)習(xí)之旅吧。
《大模型(LLMs)基礎(chǔ)面》電子書下載:
這本書主要介紹了大語言模型(LLMs)的基礎(chǔ)知識,包括開源模型體系、訓(xùn)練目標(biāo)、涌現(xiàn)能力、模型結(jié)構(gòu)選擇、模型定義及優(yōu)缺點(diǎn)等內(nèi)容。以下是文章的主要內(nèi)容:
開源模型體系
1. Prefix Decoder系
?介紹:輸入雙向注意力,輸出單向注意力。
?代表模型:ChatGLM、ChatGLM2、U-PaLM。
2. Causal Decoder系
?介紹:從左到右的單向注意力。
?代表模型:LLaMA-7B、LLaMa衍生物。
?特點(diǎn):自回歸語言模型,預(yù)訓(xùn)練和下游應(yīng)用一致,遵守只有后面的token才能看到前面的token的規(guī)則。
?適用任務(wù):文本生成任務(wù)效果好。
?優(yōu)點(diǎn):訓(xùn)練效率高,zero-shot能力更強(qiáng),具有涌現(xiàn)能力。
3. Encoder-Decoder
?介紹:輸入雙向注意力,輸出單向注意力。
?代表模型:T5、Flan-T5、BART y1y2。
?適用任務(wù):在偏理解的NLP任務(wù)上效果好。
?缺點(diǎn):在長文本生成任務(wù)上效果差,訓(xùn)練效率低。
模型結(jié)構(gòu)選擇
1. Prefix Decoder vs. Causal Decoder vs. Encoder-Decoder
?Attention Mask:不同結(jié)構(gòu)的注意力mask不同。
?訓(xùn)練效率:Prefix Decoder < Causal Decoder。
?涌現(xiàn)能力:Causal Decoder和Prefix Decoder在訓(xùn)練效率和涌現(xiàn)能力上有不同的表現(xiàn)。
訓(xùn)練目標(biāo)
1. 語言模型
?目標(biāo):根據(jù)已有詞預(yù)測下一個(gè)詞,訓(xùn)練目標(biāo)為最大似然函數(shù)。
?公式:

2. 去噪自編碼器
?目標(biāo):隨機(jī)替換文本段,訓(xùn)練語言模型恢復(fù)被打亂的文本段。
?公式:

實(shí)現(xiàn)難度:更高。
涌現(xiàn)能力
?原因:任務(wù)評價(jià)指標(biāo)不夠平滑,復(fù)雜任務(wù)與子任務(wù)之間的指標(biāo)增長不平滑。
模型結(jié)構(gòu)選擇的原因
?Decoder Only結(jié)構(gòu):在沒有任何微調(diào)數(shù)據(jù)的情況下,zero-shot表現(xiàn)能力最好。
?Encoder-Decoder結(jié)構(gòu):需要在一定量的標(biāo)注數(shù)據(jù)上做multitask-finetuning才能激發(fā)最佳性能。
?理論原因:Encoder的雙向注意力存在低秩問題,可能削弱模型的表達(dá)能力。
大模型LLMs的定義
?定義:一般指1億以上參數(shù)的模型,目前已有萬億參數(shù)以上的模型。
?應(yīng)用:針對語言的大模型。
參數(shù)規(guī)模
?表示方法:175B、60B、540B等指參數(shù)的個(gè)數(shù),B是Billion(十億)的意思。
?示例:175B是1750億參數(shù),ChatGPT大約的參數(shù)規(guī)模。
優(yōu)點(diǎn)
?預(yù)訓(xùn)練和微調(diào):利用大量無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再用少量有標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),減少數(shù)據(jù)標(biāo)注成本和時(shí)間,提高泛化能力。
?生成能力:利用生成式人工智能技術(shù)產(chǎn)生新穎和有價(jià)值的內(nèi)容,如圖像、文本、音樂等。
?涌現(xiàn)能力:完成一些之前無法完成或很難完成的任務(wù),如數(shù)學(xué)應(yīng)用題、常識推理、符號操作等。
缺點(diǎn)
?資源消耗:需要大量計(jì)算資源和存儲(chǔ)資源,增加經(jīng)濟(jì)和環(huán)境負(fù)擔(dān)。
?數(shù)據(jù)質(zhì)量與安全性:面臨數(shù)據(jù)偏見、數(shù)據(jù)泄露、數(shù)據(jù)濫用等問題,可能導(dǎo)致不準(zhǔn)確或不道德的輸出。
?可解釋性、可靠性、可持續(xù)性:需要理解和控制模型的行為,保證模型的正確性和穩(wěn)定性,平衡模型的效益和風(fēng)險(xiǎn)。
嘿,伙伴們,今天我們的AI探索之旅已經(jīng)圓滿結(jié)束。關(guān)于“《大模型(LLMs)基礎(chǔ)面》電子書下載”的內(nèi)容已經(jīng)分享給大家了。感謝你們的陪伴,希望這次旅程讓你對AI能夠更了解、更喜歡。謹(jǐn)記,精準(zhǔn)提問是解鎖AI潛能的鑰匙哦!如果有小伙伴想要了解學(xué)習(xí)更多的AI知識,請關(guān)注我們的官網(wǎng)“AI智研社”,保證讓你收獲滿滿呦!
微信掃一掃
支付寶掃一掃