開發(fā)者

面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)

小智 AI教程 2025年01月17日

0 收藏 0 點贊 521 瀏覽 1008 個字

摘要 :

面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)：向量數(shù)據(jù)庫與詞向量(Vectorstoresand Embeddings) 讓我們一起回顧一下檢索增強生成（RAG）的整體工作流程：前兩節(jié)……

哈嘍！伙伴們，我是小智，你們的AI向?qū)?。歡迎來到每日的AI學(xué)習(xí)時間。今天，我們將一起深入AI的奇妙世界，探索“面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)”，并學(xué)會本篇文章中所講的全部知識點。還是那句話“不必遠(yuǎn)征未知，只需喚醒你的潛能！”跟著小智的步伐，我們終將學(xué)有所成，學(xué)以致用，并發(fā)現(xiàn)自身的更多可能性。話不多說，現(xiàn)在就讓我們開始這場激發(fā)潛能的AI學(xué)習(xí)之旅吧。

面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)：

向量數(shù)據(jù)庫與詞向量(Vectorstoresand Embeddings)

讓我們一起回顧一下檢索增強生成（RAG）的整體工作流程：

前兩節(jié)課我們討論了 Document Loading （文檔加載）和 Splitting （分割）。

下面我們將使用前兩節(jié)課的知識對文檔進(jìn)行加載分割。

讀取文檔

下面文檔是 datawhale 官方開源的 matplotlib 教程鏈接 https://datawhalechina.github.io/fantastic-matplotlib/index.html ，可在該網(wǎng)站上下載對應(yīng)的教程。

注意，本章節(jié)需要安裝第三方庫 pypdf 、 chromadb

from langchain.document_loaders import PyPDFLoader
# 加載 PDF
loaders_chinese = [
# 故意添加重復(fù)文檔，使數(shù)據(jù)混亂
PyPDFLoader(“docs/matplotlib/第一回：Matplotlib初相識.pdf”),
PyPDFLoader(“docs/matplotlib/第一回：Matplotlib初相識.pdf”),
PyPDFLoader(“docs/matplotlib/第二回：藝術(shù)畫筆見乾坤.pdf”),
PyPDFLoader(“docs/matplotlib/第三回：布局格式定方圓.pdf”)
]
docs = []
for loader in loaders_chinese:
docs.extend(loader.load())

在文檔加載后，我們可以使用 RecursiveCharacterTextSplitter (遞歸字符文本拆分器)來創(chuàng)建塊。

# 分割文本
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
chunk_size = 1500, # 每個文本塊的大小。這意味著每次切分文本時，會盡量使每個塊包含 1500
個字符。
chunk_overlap = 150 # 每個文本塊之間的重疊部分。
)
splits = text_splitter.split_documents(docs)
print(len(splits))

27

面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(2)

面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(2)：Embeddings 什么是 Embeddings ？在機(jī)器學(xué)習(xí)和自然語言處理（NLP）中， Embedd...

查看文章

嘿，伙伴們，今天我們的AI探索之旅已經(jīng)圓滿結(jié)束。關(guān)于“面向開發(fā)者的LLM入門教程-向量數(shù)據(jù)庫與詞向量(1)”的內(nèi)容已經(jīng)分享給大家了。感謝你們的陪伴，希望這次旅程讓你對AI能夠更了解、更喜歡。謹(jǐn)記，精準(zhǔn)提問是解鎖AI潛能的鑰匙哦！如果有小伙伴想要了解學(xué)習(xí)更多的AI知識，請關(guān)注我們的官網(wǎng)“AI智研社”，保證讓你收獲滿滿呦！

賞

微信打賞二維碼微信掃一掃