當(dāng)前位置：人工智能實(shí)驗室> 人工智能應(yīng)用 > 10分鐘讀懂：全面解析AI大模型

10分鐘讀懂：全面解析AI大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 12:23:26 瀏覽：56次

導(dǎo)讀：因為產(chǎn)品經(jīng)理可以不懂技術(shù)，這就導(dǎo)致在了解新技術(shù)特別困難，下面我會用極簡的方式介紹什么是AI大模型。不懂代碼、不懂?dāng)?shù)學(xué)、不懂?dāng)?shù)據(jù)庫，也能了解大模型。一、名詞解釋無論是配置模型還是使用，都會遇到一些大模型相關(guān)的特有名詞，所以需要先了解這些名詞是什么意思才能更好的運(yùn)用它。1.1 參數(shù)參數(shù)是指模型的大小，一般來說參數(shù)越大，模型的能力越強(qiáng)。大模型的參數(shù)單位一般用“ ......

因為產(chǎn)品經(jīng)理可以不懂技術(shù)，這就導(dǎo)致在了解新技術(shù)特別困難，下面我會用極簡的方式介紹什么是AI大模型。

不懂代碼、不懂?dāng)?shù)學(xué)、不懂?dāng)?shù)據(jù)庫，也能了解大模型。

10分鐘讀懂：全面解析AI大模型

一、名詞解釋

無論是配置模型還是使用，都會遇到一些大模型相關(guān)的特有名詞，所以需要先了解這些名詞是什么意思才能更好的運(yùn)用它。

1.1 參數(shù)

參數(shù)是指模型的大小，一般來說參數(shù)越大，模型的能力越強(qiáng)。大模型的參數(shù)單位一般用“B”來表示，1B代表10億參數(shù)。

以下面的兩張圖為例，第一張圖是阿里百煉平臺的模型廣場，另一張圖是歐拉瑪?shù)哪Ｐ蛷V場，這里面的模型基本都會按照“名稱”+“版本”+“參數(shù)”的形式分類。

參數(shù)的單位基本都是“B”，但是因為有些模型不是通用大模型，而只是適用于某些領(lǐng)域的小模型，所以參數(shù)量會比較小，單位為“K”或“M”。

單位包括：K（千）、M（百萬）、B（十億）、T（萬億）。

10分鐘讀懂：全面解析AI大模型

阿里云百煉

10分鐘讀懂：全面解析AI大模型

歐拉瑪（Ollama）

參數(shù)越大那么模型就可能會占用越多的存儲空間，但因為不同模型對于權(quán)重、精度、壓縮技術(shù)的處理方式不同，所以參數(shù)與存儲空間并不是線性關(guān)系。

你如果問7B參數(shù)大小的模型占用多少內(nèi)存空間，我只能說不知道，這要看具體的模型.每家模型訓(xùn)練的不一樣，那么相同參數(shù)的情況下所占用的存儲空間也是不一樣的。就好像同樣是6年紀(jì)的小學(xué)生，有的身高一米五、有的身高一米七一樣。

1.2 token

token是大模型處理數(shù)據(jù)的最小單位，比如一個字、一個詞、一個像素、一段音軌等。

我們試著將下面的句子拆分成最小單位：

“你好！”，這一段話，可以將其拆分為：“你”、“好”、“！”，這三個最小單位。

“我想吃蝦丸�！保@一段話，可以將其拆分為：“我”、“想”、“吃”、“蝦丸”、“�！保@五個最小單位。

這兩句話在拆分時有一點(diǎn)不一樣，第二句話的“蝦丸 ”并沒有拆分成兩個字，而是以詞的形式做了拆分，原因是“蝦丸”作為名詞，已經(jīng)無法在進(jìn)行拆分了，如果拆分為“蝦”、“丸”兩個字，那就導(dǎo)致句子失去了原有的含義。

代碼是怎么進(jìn)行拆分的呢？基本邏輯就是將一句話中的詞挑出來，剩下的就可以作為字來處理。

中文分詞工具包括：THULAC (Tsinghua University Language Analysis and Computing、HanLP (Han Language Processing)、LTP (Language Technology Platform)等。

另外對于大模型的提供方已經(jīng)內(nèi)置分詞功能了，或者說大模型本身就有分詞能力，不需要我們在做額外工作。

1.3 上下文

一段話的周圍信息就是上下文，例如連續(xù)問大模型兩個問題，這兩個問題及回答互為上下文。

10分鐘讀懂：全面解析AI大模型

日常在溝通過程中，相同的問題我們會因為場景不同得出不同的結(jié)論。

開需求評審會時，我們會問技術(shù)同學(xué)、測試同學(xué)對需求有什么問題？技術(shù)同學(xué)會從技術(shù)的角度回答需求有什么問題、測試同學(xué)會從測試的角度回答測試的問題。假如此時我們沖著門外的設(shè)計同學(xué)詢問他們有什么問題，設(shè)計同學(xué)會一臉懵，因為他們不知道你是因為什么原因問的這個問題。

回到圖片示例的大模型問答上，當(dāng)我問“包含哪些部分”時，大模型會基于第一句話理解我的意圖，再做出對應(yīng)的回答。

1.4 多模態(tài)

是指可以處理多種類型的數(shù)據(jù)，比如純文字、圖片、文檔等，而單一模態(tài)的模型是指只能處理文字或圖片或聲音的模型。

下面的通義模型，可以上傳圖片、文字、文檔數(shù)據(jù)，就是多模態(tài)大模型。

10分鐘讀懂：全面解析AI大模型

下圖的openai提供的一系列模型皆為多模態(tài)模型，可以上傳圖片、文字。GPT3只能輸入輸出文字，所以是單一模態(tài)的模型，但是目前openAI已經(jīng)不提供GPT-3及以前的模型了。

10分鐘讀懂：全面解析AI大模型

1.5 溫度

是一個調(diào)整模型回復(fù)的隨機(jī)性的值，值越大隨機(jī)性越高，回復(fù)越有創(chuàng)造性；值越小隨機(jī)性越小，回復(fù)越重復(fù)老套。

這個名詞來源于英語單詞temperature，可以將其翻譯為溫度、熱度等。在使用模型時，默認(rèn)系統(tǒng)溫度值即可；如果在回復(fù)中感覺到模型的回復(fù)會重復(fù)，這時就可以提高溫度值，如果感覺到模型回復(fù)漫無邊際，就可以降低溫度值，下圖為智譜清言對于溫度的介紹。

10分鐘讀懂：全面解析AI大模型

溫度值設(shè)置為最低時的回復(fù)（ChatGPT）：

10分鐘讀懂：全面解析AI大模型

溫度值設(shè)置為最高時的回復(fù)（ChatGPT）：

10分鐘讀懂：全面解析AI大模型

1.6 向量值（詞向量）

向量是用來描述token在高維世界的特征，數(shù)學(xué)領(lǐng)域中的向量是一個的數(shù)字列表，在一維空間中，位置可以用（x）表示；在二維空間中，則用（x, y,）表示。以此類推，三維空間（x, y, z），四維空間（x1,x2,x3,x4）……

如果道單選題，題目給出了海豚、馬、兔子、駱駝這四種動物，讓我們挑選出不一樣的一種動物，應(yīng)該怎么選？

10分鐘讀懂：全面解析AI大模型

我希望你的答案是海豚，因為海豚生活在海里，其他動物生活在陸地上。當(dāng)然你要非說是駱駝，因為體型大；非說是兔子，因為兔子鉆洞；非說是馬，因為速度快，那我也沒辦法。畢竟人就是通過各種各樣的特征去了解事物的，總能找到那個不一樣的特征。

那怎么讓計算機(jī)知道這些特征從而理解世界呢？我們可以將這些特征提取出來，如果提取1個特征，比如是不是陸地生物；如果提取兩個特征，比如體型的大小。

10分鐘讀懂：全面解析AI大模型

只有“陸地生物”這一個特征的時候，越是符合這個特征則越靠近右側(cè)，為了方便知道其位置，可以給一個坐標(biāo)。如果增加“體型”這個特征的時候，那么每一個動物也就擁有了二維坐標(biāo)。如果繼續(xù)增加特征呢，那每個動物就會擁有三維坐標(biāo)、四維坐標(biāo)、五維坐標(biāo)……

用圖像肯定不方便表示，計算機(jī)中也不可能放一張無限維度的坐標(biāo)圖，但是計算機(jī)中可以存儲每個動物的坐標(biāo)位置，每一個數(shù)字就是對應(yīng)了一個特征的值，通過動物之間數(shù)字的對比就可以知道每個動物之間的差異及內(nèi)涵。

10分鐘讀懂：全面解析AI大模型

那計算機(jī)是怎么知道這些特征和數(shù)值大小的呢？可以靠計算機(jī)學(xué)習(xí)，讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)大量資料后，讓計算機(jī)去區(qū)分每一個token的特征和特征的值。

二、大語言模型（LLM）2.1 為什么叫大語言模型？

能聽懂人話并且和人溝通的模型，叫做大語言模型。

大語言模型主要是處理語言的，處理什么數(shù)據(jù)就叫什么模型，除了語言模型還有處理視覺、音頻、生成數(shù)據(jù)等其他作用的模型。

如果有人開發(fā)出了畫原型圖的模型，也可以叫它“原型圖模型”。

多模態(tài)模型也就是綜合了語言模型、視覺模型等多種模型能力的大模型。因為每一種模型的作用是不相同的，為了讓大模型的能力更強(qiáng)更方便使用，所以產(chǎn)生了多模態(tài)大模型，也就是即可以聽懂人話，也可以看懂圖片是什么意思。

2.2 為什么大模型能夠聽懂人話？

我們并不確定計算機(jī)理解人類的語言還是概率運(yùn)算的結(jié)果。

我們可以教會鸚鵡說“你好”，那我們可以說鸚鵡聽懂了人類的語言嗎？不可以，因為我們明確的科學(xué)的可以知道鸚鵡只是重復(fù)音節(jié)。

大模型則是通過了大量的文本訓(xùn)練，學(xué)會了語言中的各種溝通方式、文字與文字之間的排列規(guī)則、語法的結(jié)構(gòu)。通過這一系列的規(guī)則運(yùn)算，給人一種可以聽懂人話的感覺。

要了解大模型是怎么變得這么厲害的，那就需要從頭開始說了。

最早有關(guān)人工智能的概念來源于圖靈，他在《計算機(jī)器與智能》的論文里提出了“圖靈測試”，什么是圖靈測試呢？就是讓一臺機(jī)器和人對話，如果這個人沒法辨別和他對話的是機(jī)器還是真人，那么就可以說這臺機(jī)器具備了智能。

為了使機(jī)器能夠通過圖靈測試，研究人員開始研究人類語言。因為人是地球上擁有最高智慧的物種，而語言是人類溝通過程中最重要工具，更是智能的表現(xiàn)形式。

具體怎么研究語言呢？最直接的方式就是從語言的規(guī)則下手。比如n-gram模型，就是根據(jù)人類的語言習(xí)慣，通過前面的字來預(yù)測后面字的方式讓計算機(jī)實(shí)現(xiàn)語言功能的，而且現(xiàn)在的大模型也是站在n-gram模型的肩膀上發(fā)展出來的，了解n-gram模型就能夠很清楚的知道現(xiàn)在的大模型的實(shí)現(xiàn)邏輯。

① 入門級模型：n-gram模型

n-gram模型前面的N是指用幾個詞來預(yù)測下一個詞；如果我們用前面的兩個詞來預(yù)測下一個詞，這就叫做2-gram；如果用前面的三個詞來預(yù)測下一個詞，這就叫做3-gram。

為了能夠理解n-gram模型，我們可以舉個例子。

有一個數(shù)據(jù)集，里面只有兩句話。

我喜歡吃蘋果。

我喜歡吃香蕉。

我們需要先將這兩句話拆分token，也就是“我”“喜歡”“吃”“蘋果”“香蕉”。

根據(jù)概率推算，“我”后面必然會跟著“喜歡”兩個字，概率是100%；那么當(dāng)我們輸入“我”這個漢字的時候，系統(tǒng)就會根據(jù)概率，輸出“喜歡”這個詞，可見下圖。

10分鐘讀懂：全面解析AI大模型

如果規(guī)定模型持續(xù)運(yùn)行直到生成一句話，那么模型就會根據(jù)概率生成“我喜歡吃蘋果”或者“我喜歡吃香蕉”，因為“蘋果”和“香蕉”兩個詞的概率都是50%，那么系統(tǒng)會隨機(jī)生成。

但是n-gram模型也有很多缺陷，因為n-gram模型是先假設(shè)每一個詞都是互相獨(dú)立存在，彼此沒有關(guān)系的。但詞語和文字卻是有實(shí)際意義的，所以就導(dǎo)致模型沒法理解上下文，沒辦法解決句子中的邏輯關(guān)系。如果出現(xiàn)了新詞語，也沒法理解其用法，純粹是概率計算。

直到后來，出現(xiàn)了神經(jīng)網(wǎng)絡(luò)技術(shù)。

② 大模型核心角色-神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是通過模仿大腦處理信息的方式而產(chǎn)生的計算模型，是為了解決圖像識別和邏輯運(yùn)算的。

神經(jīng)網(wǎng)絡(luò)的設(shè)計靈感來源于人腦的結(jié)構(gòu)，每個神經(jīng)元代表一個基本的計算單元，單個神經(jīng)元實(shí)際上是一串代碼，用來處理簡單的數(shù)學(xué)運(yùn)算。盡管單個神經(jīng)元的功能相對簡單，但當(dāng)大量這樣的神經(jīng)元連接起來形成網(wǎng)絡(luò)后，整個網(wǎng)絡(luò)就能夠去處理復(fù)雜的任務(wù)。

經(jīng)典的神經(jīng)網(wǎng)絡(luò)可以分為三層結(jié)構(gòu)，輸入層、隱藏層、輸出層，每一層都是由一堆神經(jīng)元組成。

10分鐘讀懂：全面解析AI大模型

輸入層：接收原始數(shù)據(jù)，將原始數(shù)據(jù)經(jīng)過預(yù)處理后傳遞給隱藏層。

隱藏層：通過線性加權(quán)求和、激活函數(shù)、權(quán)重等一系列運(yùn)算，將結(jié)果傳遞給輸出層。

輸出層：處理接收到的數(shù)據(jù)并輸出結(jié)果，將結(jié)果反饋給用戶。

總結(jié)一下就是，每個神經(jīng)元作為一個計算單元，通過對輸入數(shù)據(jù)進(jìn)行加權(quán)求和并應(yīng)用激活函數(shù)來提取有用的特征，然后將處理后的信息傳遞到網(wǎng)絡(luò)的下一層。在網(wǎng)絡(luò)的輸出層，對于分類任務(wù)，神經(jīng)元可以輸出表示不同類別的概率值。

具體到圖像識別任務(wù)，圖像是由像素構(gòu)成的，每個像素都有其特定的色值。以數(shù)字“6”為例，我們可以給計算機(jī)大量數(shù)字6的圖片，計算機(jī)會將圖像分解為像素，然后將顏色轉(zhuǎn)換成色值，并分析這些色值的分布規(guī)律。

10分鐘讀懂：全面解析AI大模型

最終，當(dāng)模型遇到新的、未見過的數(shù)字6圖片時，它能夠基于已學(xué)到的規(guī)則將其識別出來。如果給神經(jīng)網(wǎng)絡(luò)提供大量高質(zhì)量且標(biāo)注準(zhǔn)確的數(shù)據(jù)，那么神經(jīng)網(wǎng)絡(luò)就可以擁有解釋圖像信息的能力。

雖然神經(jīng)網(wǎng)絡(luò)這么厲害，但因為早期的硬件限制，導(dǎo)致發(fā)展并不順利。前面我們可以得知，神經(jīng)網(wǎng)絡(luò)是通過大量神經(jīng)元構(gòu)成的，而每個神經(jīng)元只負(fù)責(zé)簡單的運(yùn)算，這種方式要求硬件能提供強(qiáng)大的并行處理能力，以同時執(zhí)行這些大量的簡單運(yùn)算任務(wù)。但當(dāng)時訓(xùn)練神經(jīng)網(wǎng)絡(luò)只能依靠CPU且性能還有限。

隨著計算機(jī)硬件技術(shù)的發(fā)展，特別是GPU的引入，這才讓神經(jīng)網(wǎng)絡(luò)的硬件環(huán)境得到改善。硬件技術(shù)的發(fā)展讓研究人員能夠去設(shè)計和訓(xùn)練更復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、預(yù)訓(xùn)練等。而現(xiàn)在的大模型都是基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的，可以說沒有硬件的發(fā)展、沒有神經(jīng)網(wǎng)絡(luò)的發(fā)展，就沒有目前的大模型。

而Transformer架構(gòu)是神經(jīng)網(wǎng)絡(luò)中最主流的，當(dāng)前的大語言模型幾乎都是基于Transformer架構(gòu)搭建的。

③ 主流架構(gòu)-Transformer架構(gòu)

Transformer架構(gòu)是特別適用于自然語言處理的神經(jīng)網(wǎng)絡(luò)模型。

Transformer架構(gòu)能夠如此厲害，在于Transformer架構(gòu)能夠通過向量數(shù)據(jù)、自注意力機(jī)制、神經(jīng)網(wǎng)絡(luò)等能力，高效地處理和理解自然語言。

向量數(shù)據(jù)：每個token被轉(zhuǎn)換為了高維向量，通過token的向量值，可以知道詞匯本身的語義信息、特征，還能分析出token與token之間的復(fù)雜關(guān)系。

自注意力機(jī)制：輸入到神經(jīng)網(wǎng)絡(luò)的每一個token都可以與其他token發(fā)生聯(lián)系，并且通過“權(quán)重”來區(qū)分鏈接過程中的重要程度，這樣可以讓大模型解決上下文關(guān)聯(lián)問題，避免提問第二個問題的時候忘記第一個問題。

神經(jīng)網(wǎng)絡(luò)的能力：通過全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，不僅能捕捉局部特征，還能理解全局信息，從而支持更深層次的語言理解和生成任務(wù)。

國外的openai、谷歌、微軟，到國內(nèi)的阿里、騰訊、清華的團(tuán)隊等，都是基于或借鑒Transformer架構(gòu)開發(fā)的大模型。

10分鐘讀懂：全面解析AI大模型

https://bbycroft.net/llm ，這是一個LLM可視化網(wǎng)站，可以清楚的看到大模型每一步的工作細(xì)節(jié)。

三、大模型實(shí)踐方法3.1 提示詞工程

提示詞功能的作用在于通過設(shè)定提示，讓大模型的回答更加精準(zhǔn)。

大模型訓(xùn)練時并不會針對特定領(lǐng)域，是為廣泛問題進(jìn)行設(shè)計的。而提示詞工程（Prompt Engineering）也叫上下文提示，目的是希望大模型在回答問題時，可以得知前因后果，聚焦用戶的特定需求。

也就是無論形式如何，只要能夠讓大模型得知你的需求就是提示詞，只要讓大模型給你想要的答案就是好的提示詞，哪怕你問的是“1+1等于幾？”。

比如你讓大模型扮演某個角色，你可以告訴大模型：“你要扮演魯迅，回答的風(fēng)格要與魯迅的作品類似”。那么大模型就會扮演魯迅且通過魯迅的說話風(fēng)格回答你的問題。

10分鐘讀懂：全面解析AI大模型

而在創(chuàng)建智能體時，也會讓用戶填寫智能體的設(shè)定，這個設(shè)定就起到了提示詞的功能。

10分鐘讀懂：全面解析AI大模型

針對復(fù)雜問題，為了從大型語言模型中獲得高質(zhì)量的回答，我們需要提供更加詳盡的問題描述。在2023年11月，新加坡舉辦了首屆提示詞功能大賽，冠軍Sheila Tao撰寫了一篇文章，探討了她對提示詞的理解，并介紹了CO-STAR框架的應(yīng)用方法。

10分鐘讀懂：全面解析AI大模型

工作原理如下：

（C）背景：提供任務(wù)的背景信息

這有助于 LLM 了解正在討論的具體場景，確保其回應(yīng)是相關(guān)的。

（O）目標(biāo)：明確你希望 LLM 執(zhí)行的任務(wù)是什么

明確你的目標(biāo)有助于 LLM 集中精力實(shí)現(xiàn)該特定目標(biāo)。

（S）風(fēng)格：指定您希望 LLM 使用的寫作風(fēng)格

這可能是某個名人的寫作風(fēng)格，也可能是某個行業(yè)的某個專家，比如商業(yè)分析師或 CEO。這將指導(dǎo) LLM 以符合您需求的方式和措辭進(jìn)行回復(fù)。

（T）語氣：設(shè)定回應(yīng)的態(tài)度

這確保 LLM 的回應(yīng)與預(yù)期的情緒或情感背景產(chǎn)生共鳴。例如正式、幽默、富有同理心等。

（A）受眾：確定回復(fù)針對的對象

根據(jù)受眾（例如某個領(lǐng)域的專家、初學(xué)者、兒童等）定制 LLM 的回應(yīng)，確保它在您需要的背景下是適當(dāng)且易于理解的。

（R）回復(fù)：提供回復(fù)格式

這可確保 LLM 輸出的格式與您執(zhí)行下游任務(wù)所需的格式完全一致。示例包括列表、JSON、專業(yè)報告等。對于大多數(shù)以編程方式處理 LLM 響應(yīng)以進(jìn)行下游操作的 LLM 應(yīng)用程序而言，JSON 輸出格式是理想的選擇。

如果我們希望大模型可以幫產(chǎn)品經(jīng)歷寫一份年終總結(jié)，就可以按照CO-STAR框架編寫提示詞。

背景：我是“XXXXX”公司的產(chǎn)品經(jīng)理，負(fù)責(zé)XXXXXX應(yīng)用。在過去的一年中，我們實(shí)現(xiàn)了多項功能升級，并且用戶基數(shù)有了顯著增長。

目標(biāo)：編寫一份全面的年終總結(jié)報告，概述本年度的關(guān)鍵成就、遇到的主要挑戰(zhàn)及解決策略，并簡要介紹下一年的戰(zhàn)略規(guī)劃。

風(fēng)格：采用清晰、專業(yè)的商務(wù)寫作風(fēng)格，類似于業(yè)界公認(rèn)的產(chǎn)品經(jīng)理或公司領(lǐng)導(dǎo)人的表達(dá)方式。

語氣：正式而積極，體現(xiàn)對團(tuán)隊努力的認(rèn)可以及對未來發(fā)展的樂觀態(tài)度。

受眾：這份報告將提交給公司的高級管理層以及我的直接上司，并會在內(nèi)部分享給整個產(chǎn)品團(tuán)隊。

回復(fù)：請按照標(biāo)準(zhǔn)的年終總結(jié)格式提供文檔，包括封面頁、目錄、引言、年度回顧、主要成就、面臨的挑戰(zhàn)與解決方案、未來展望等部分。文檔需保持專業(yè)性，重點(diǎn)突出。

如果不會寫提示詞怎么辦？沒關(guān)系，可以復(fù)制文中的工作原理，把寫提示詞的工作交給大模型。

雖然可以通過CO-STAR框架中說明了提示詞該怎么寫，但我們的重點(diǎn)并不在于如何編寫提示詞，而在于讓大模型給出我們滿意的答案。

3.2 知識庫

知識庫就是資料庫，目的就是為大模型處理問題提供必要背景知識。

雖然大模型擅長處理廣泛領(lǐng)域的常見問題，但在面對特定領(lǐng)域內(nèi)深入且專業(yè)的問題時存在局限性，而知識庫提供了特定領(lǐng)域的信息，幫助其解決特定問題。

如果希望大模型幫助企業(yè)優(yōu)化供應(yīng)鏈管理，那么大模型就需要知道供應(yīng)商信息、庫存水平、物流數(shù)據(jù)、采購數(shù)據(jù)等信息。如果希望大模型能夠幫助系統(tǒng)應(yīng)用，那么大模型就需要知道項目管理流程、技術(shù)文檔、操作說明書等信息。而這些信息就需要存放到知識庫，作為大模型的知識儲備。

10分鐘讀懂：全面解析AI大模型

chatgpt的存儲功能

10分鐘讀懂：全面解析AI大模型

阿里百煉的數(shù)據(jù)管理功能

這里需要注意，大模型和知識庫是兩種不同的技術(shù)，只是針對于特殊問題需要知識庫提供特定信息。

所有的數(shù)據(jù)都需要存儲在服務(wù)器上，常見的數(shù)據(jù)庫類型包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫，這些數(shù)據(jù)庫可以有效地存儲和管理結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。然而對于大模型來說，這些傳統(tǒng)的存儲方式并無本質(zhì)區(qū)別，它們更像是文件夾，用于存儲和檢索信息。

并不是知識庫的數(shù)據(jù)就需要向量存儲，只是需要處理相似性任務(wù)的時候，需要用到向量數(shù)據(jù)庫。

10分鐘讀懂：全面解析AI大模型

前面提到大模型時也有提到，大模型的本質(zhì)是概率計算，通過token與token之間向量值的對比來生成數(shù)據(jù)，這種基于向量的計算方式使得大模型能夠理解和處理復(fù)雜的模式和關(guān)系。只要任務(wù)需要用到數(shù)據(jù)與數(shù)據(jù)的相似性對比，那么就需要用到向量數(shù)據(jù)庫，可見第一部分的向量詞。

對于產(chǎn)品經(jīng)理來說，我們必須知道如何運(yùn)用知識庫，如果想要進(jìn)一步的了解向量數(shù)據(jù)庫，可以詢問大模型、B站搜索向量數(shù)據(jù)、阿里云或騰訊云的開發(fā)文檔及介紹。

3.3 微調(diào)

微調(diào)就是讓通用的大模型，更加適用于某個特定項目。

如果大模型是一個大學(xué)生，知識庫相當(dāng)于公司資料，而微調(diào)工作就相當(dāng)于入職培訓(xùn)，培訓(xùn)其如何與客戶繼續(xù)溝通。

聽起來微調(diào)似乎很高深，但其實(shí)大模型廠商都會提供對應(yīng)的微調(diào)功能，我們可以通過平臺提供的微調(diào)模板，了解微調(diào)是什么。

10分鐘讀懂：全面解析AI大模型

微調(diào)的目的是通過使用實(shí)際案例來優(yōu)化大模型的表現(xiàn)能力，使其更符合特定應(yīng)用場景的需求。無論是像ChatGPT還是通義這樣的大模型，都是采用一問一答的形式進(jìn)行。

通過提供企業(yè)自身的實(shí)際案例，微調(diào)過程可以讓大模型學(xué)習(xí)到更加精準(zhǔn)和符合企業(yè)需求的回復(fù)方式，從而使通用的大模型能夠高度適配企業(yè)的具體業(yè)務(wù)場景。這樣不僅提升了模型的實(shí)用性，還增強(qiáng)了其在特定領(lǐng)域中的表現(xiàn)力和準(zhǔn)確性。

四、最后

對于AI產(chǎn)品經(jīng)理來說，我們的核心工作是應(yīng)用大模型，而不是作為大模型的研究者。無論各研究團(tuán)隊推出了什么新的架構(gòu)，對于產(chǎn)品來說都不重要，重要的是如何將其集成到現(xiàn)有的系統(tǒng)中。至于如何集成到系統(tǒng)，不同公司有不同的解決方案，這些就需要在工作中探索了。

本文由 @入幽原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于CC0協(xié)議。

相關(guān)熱詞： 模型阿里云歐拉瑪產(chǎn)品經(jīng)理阿里

上一篇：AI 2.0 公司，產(chǎn)品和售前體系缺失、都在做交付？完了……

下一篇：谷歌推出全新獨(dú)立天氣應(yīng)用：AI 總結(jié)天氣，老款 Pixel 手機(jī)也能用

10分鐘讀懂：全面解析AI大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 12:23:26 瀏覽：56次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

10分鐘讀懂：全面解析AI大模型 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 12:23:26 瀏覽：56次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

10分鐘讀懂：全面解析AI大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 12:23:26 瀏覽：56次