面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1): 向量數(shù)據(jù)庫與詞向量(Vectorstoresand Embeddings) 讓我們一起回顧一下檢索增強生成(RAG)的整體工作流程: 前兩節(jié)……
哈嘍!伙伴們,我是小智,你們的AI向?qū)?。歡迎來到每日的AI學(xué)習(xí)時間。今天,我們將一起深入AI的奇妙世界,探索“面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)”,并學(xué)會本篇文章中所講的全部知識點。還是那句話“不必遠(yuǎn)征未知,只需喚醒你的潛能!”跟著小智的步伐,我們終將學(xué)有所成,學(xué)以致用,并發(fā)現(xiàn)自身的更多可能性。話不多說,現(xiàn)在就讓我們開始這場激發(fā)潛能的AI學(xué)習(xí)之旅吧。
面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1):
向量數(shù)據(jù)庫與詞向量(Vectorstoresand Embeddings)
讓我們一起回顧一下檢索增強生成(RAG)的整體工作流程:
前兩節(jié)課我們討論了 Document Loading (文檔加載)和 Splitting (分割)。
下面我們將使用前兩節(jié)課的知識對文檔進(jìn)行加載分割。
讀取文檔
下面文檔是 datawhale 官方開源的 matplotlib 教程鏈接 https://datawhalechina.github.io/fantastic-matplotlib/index.html ,可在該網(wǎng)站上下載對應(yīng)的教程。
注意,本章節(jié)需要安裝第三方庫 pypdf 、 chromadb
from langchain.document_loaders import PyPDFLoader
# 加載 PDF
loaders_chinese = [
# 故意添加重復(fù)文檔,使數(shù)據(jù)混亂
PyPDFLoader(“docs/matplotlib/第一回:Matplotlib初相識.pdf”),
PyPDFLoader(“docs/matplotlib/第一回:Matplotlib初相識.pdf”),
PyPDFLoader(“docs/matplotlib/第二回:藝術(shù)畫筆見乾坤.pdf”),
PyPDFLoader(“docs/matplotlib/第三回:布局格式定方圓.pdf”)
]
docs = []
for loader in loaders_chinese:
docs.extend(loader.load())
在文檔加載后,我們可以使用 RecursiveCharacterTextSplitter (遞歸字符文本拆分器)來創(chuàng)建塊。
# 分割文本
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
chunk_size = 1500, # 每個文本塊的大小。這意味著每次切分文本時,會盡量使每個塊包含 1500
個字符。
chunk_overlap = 150 # 每個文本塊之間的重疊部分。
)
splits = text_splitter.split_documents(docs)
print(len(splits))
27
嘿,伙伴們,今天我們的AI探索之旅已經(jīng)圓滿結(jié)束。關(guān)于“面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)”的內(nèi)容已經(jīng)分享給大家了。感謝你們的陪伴,希望這次旅程讓你對AI能夠更了解、更喜歡。謹(jǐn)記,精準(zhǔn)提問是解鎖AI潛能的鑰匙哦!如果有小伙伴想要了解學(xué)習(xí)更多的AI知識,請關(guān)注我們的官網(wǎng)“AI智研社”,保證讓你收獲滿滿呦!


微信掃一掃
支付寶掃一掃