亚洲成av人片在www色猫咪_精品剧情在线观看_国产欧美一区二区在线_欧美一卡2卡3卡4卡

AnalyticDB(ADB)+LLM:構(gòu)建AIGC時(shí)代下企業(yè)專屬Chatbot-世界快看

2023-05-17 09:14:27來源:阿里開發(fā)者

點(diǎn)擊鏈接閱讀原文,獲取更多技術(shù)內(nèi)容:

如何基于向量數(shù)據(jù)庫(kù)+LLM(大語言模型),打造更懂你的企業(yè)專屬Chatbot?


(資料圖)

作者 | 阿里云AnalyticDB

來源 | 阿里開發(fā)者公眾號(hào)

為什么Chatbot需要大語言模型+向量數(shù)據(jù)庫(kù)?

這個(gè)春天,最讓人震感的科技產(chǎn)品莫過于ChatGPT的橫空出世,通過大語言模型(LLM)讓人們看到了生成式AI能實(shí)現(xiàn)到和人類語言高度相仿的語言表達(dá)能力,AI不再遙不可及而已經(jīng)可以走進(jìn)人類的工作和生活,這使得沉寂一段時(shí)間的AI領(lǐng)域重新煥發(fā)了能量,無數(shù)的從業(yè)者正趨之若鶩地投身于下一個(gè)改變時(shí)代的機(jī)會(huì);據(jù)不完全統(tǒng)計(jì),在短短的4個(gè)月時(shí)間內(nèi),美國(guó)已經(jīng)完成了超4000筆的生成式AI的行業(yè)融資。生成式AI已經(jīng)成為了資本和企業(yè)都無法忽視的下一代的技術(shù)密碼,而其對(duì)于底層的基礎(chǔ)設(shè)施能力提供了更高的要求。

大模型能夠回答較為普世的問題,但是若要服務(wù)于垂直專業(yè)領(lǐng)域,會(huì)存在知識(shí)深度和時(shí)效性不足的問題,那么企業(yè)如何抓住機(jī)會(huì)并構(gòu)建垂直領(lǐng)域服務(wù)?目前有兩種模式,第一種是基于大模型之上做垂直領(lǐng)域模型的Fine Tune,這個(gè)綜合投入成本較大,更新的頻率也較低,并不適用于所有的企業(yè);第二種就是在向量數(shù)據(jù)庫(kù)中構(gòu)建企業(yè)自有的知識(shí)資產(chǎn),通過大模型+向量數(shù)據(jù)庫(kù)來搭建垂直領(lǐng)域的深度服務(wù),本質(zhì)是使用數(shù)據(jù)庫(kù)進(jìn)行提示工程(Prompt Engineering)。以法律行業(yè)為例,基于垂直類目的法律條文和判例,企業(yè)可以構(gòu)建垂直領(lǐng)域的法律科技服務(wù)。如法律科技公司Harvey,正在構(gòu)建“律師的副駕駛”(Copilot for Lawyer)以提高法律條文的起草和研究服務(wù)。

將企業(yè)知識(shí)庫(kù)文檔和實(shí)時(shí)信息通過向量特征提取然后存儲(chǔ)到向量數(shù)據(jù)庫(kù),結(jié)合LLM大語言模型可以讓Chatbot(聊天機(jī)器人)的回答更具專業(yè)性和時(shí)效性,構(gòu)建企業(yè)專屬Chatbot。下面視頻是一個(gè) 基于大語言模型+AnalyticDB for PostgreSQL(以下簡(jiǎn)稱ADB-PG,內(nèi)置向量數(shù)據(jù)庫(kù)能力) 讓Chatbot更好地回答時(shí)事問題Demo:

視頻加載中...

AnalyticDB PostgreSQL支持向量數(shù)據(jù)檢索能力,可以支持企業(yè)用戶一站式搭建Chatbot專屬知識(shí)庫(kù)。目前開放1個(gè)月【免費(fèi)試用】規(guī)格,點(diǎn)擊領(lǐng)取: ,即刻開啟體驗(yàn)!

本文接下來將重點(diǎn)介紹基于大語言模型(LLM)+向量數(shù)據(jù)庫(kù)打造企業(yè)專屬Chatbot的原理和流程,以及ADB-PG構(gòu)建該場(chǎng)景的核心能力。

什么是向量數(shù)據(jù)庫(kù)?

在現(xiàn)實(shí)世界中,絕大多數(shù)的數(shù)據(jù)都是以非結(jié)構(gòu)化數(shù)據(jù)的形式存在的,如圖片,音頻,視頻,文本等。這些非結(jié)構(gòu)化的數(shù)據(jù)隨著智慧城市,短視頻,商品個(gè)性化推薦,視覺商品搜索等應(yīng)用的出現(xiàn)而爆發(fā)式增長(zhǎng)。為了能夠處理這些非結(jié)構(gòu)化的數(shù)據(jù),我們通常會(huì)使用人工智能技術(shù)提取這些非結(jié)構(gòu)化數(shù)據(jù)的特征,并將其轉(zhuǎn)化為特征向量,再對(duì)這些特征向量進(jìn)行分析和檢索以實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理。因此,我們把這種能存儲(chǔ),分析和檢索特征向量的數(shù)據(jù)庫(kù)稱之為向量數(shù)據(jù)庫(kù)。

向量數(shù)據(jù)庫(kù)對(duì)于特征向量的快速檢索,一般會(huì)采用構(gòu)建向量索引的技術(shù)手段,我們通常說的向量索引都屬于ANNS(Approximate Nearest Neighbors Search,近似最近鄰搜索),它的核心思想是不再局限于只返回最精確的結(jié)果項(xiàng),而是僅搜索可能是近鄰的數(shù)據(jù)項(xiàng),也就是通過犧牲可接受范圍內(nèi)的一點(diǎn)精確度來換取檢索效率的提高。這也是向量數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)最大的差別。

為了將ANNS向量索引更加方便的應(yīng)用到實(shí)際的生產(chǎn)環(huán)境中,目前業(yè)界主要有兩種實(shí)踐方式。一種是單獨(dú)將ANNS向量索引服務(wù)化,以提供向量索引創(chuàng)建和檢索的能力,從而形成一種專有的向量數(shù)據(jù)庫(kù);另一種是將ANNS向量索引融合到傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,形成一種具有向量檢索功能的DBMS。

在實(shí)際的業(yè)務(wù)場(chǎng)景中,專有的向量數(shù)據(jù)庫(kù)往往都需要和其他傳統(tǒng)數(shù)據(jù)庫(kù)配合起來一起使用,這樣會(huì)造成一些比較常見的問題,如數(shù)據(jù)冗余、數(shù)據(jù)遷移過多、數(shù)據(jù)一致性問題等,與真正的DBMS相比,專有的向量數(shù)據(jù)庫(kù)需要額外的專業(yè)人員維護(hù)、額外的成本,以及非常有限的查詢語言能力、可編程性、可擴(kuò)展性和工具集成。而融合了向量檢索功能的DBMS則不同,它首先是一個(gè)非常完備的現(xiàn)代數(shù)據(jù)庫(kù)平臺(tái),能滿足應(yīng)用程序開發(fā)人員的數(shù)據(jù)庫(kù)功能需求;然后它集成的向量檢索能力一樣也可以實(shí)現(xiàn)專有的向量數(shù)據(jù)庫(kù)的功能,并且使向量存儲(chǔ)和檢索繼承了DBMS的優(yōu)秀能力,如易用性(直接使用SQL的方式處理向量)、事務(wù)、高可用性、高可擴(kuò)展性等等。

本文介紹的ADB-PG即是具有向量檢索功能的DBMS,在包含向量檢索功能的同時(shí),還具備一站式的數(shù)據(jù)庫(kù)能力。在介紹ADB-PG的具體能力之前,我們先來看一下Demo視頻中Chatbot的創(chuàng)建流程和相關(guān)原理。

LLM大語言模型+ADB-PG:打造企業(yè)專屬Chatbot

案例-本地知識(shí)問答系統(tǒng)

對(duì)于前面Demo視頻結(jié)合大語言模型LLM和ADB-PG進(jìn)行時(shí)事新聞點(diǎn)評(píng)解答的例子,讓LLM回答\"通義千問是什么\"。可以看到,如果我們讓LLM直接回答,得到的答案沒有意義,因?yàn)長(zhǎng)LM的訓(xùn)練數(shù)據(jù)集里并不包含相關(guān)的內(nèi)容。而當(dāng)我們使用向量數(shù)據(jù)庫(kù)作為本地知識(shí)存儲(chǔ),讓LLM自動(dòng)提取相關(guān)的知識(shí)之后,其正確地回答了\"通義千問是什么\"。

同樣地,這種方式可以應(yīng)用于處理文檔,PDF,郵件,網(wǎng)絡(luò)資訊等等尚未被LLM訓(xùn)練數(shù)據(jù)集覆蓋到的內(nèi)容。比如:

1.結(jié)合最新的航班信息和最新的網(wǎng)紅打卡地點(diǎn)等旅游攻略資源,打造旅游助手。比如回答下周最適合去哪里旅游,如何最經(jīng)濟(jì)實(shí)惠的問題。

2.體育賽事點(diǎn)評(píng),時(shí)事熱點(diǎn)新聞點(diǎn)評(píng),總結(jié)。今天誰是NBA比賽的MVP。

3.教育行業(yè),最新的教育熱點(diǎn)解讀,比如,告訴我什么是AIGC,什么是Stable Diffusion以及如何使用等等。

4.金融領(lǐng)域,快速分析各行業(yè)領(lǐng)域金融財(cái)報(bào),打造金融咨詢助手。

5.專業(yè)領(lǐng)域的客服機(jī)器人...

實(shí)現(xiàn)原理

本地知識(shí)問答系統(tǒng)(Local QA System)主要是通過結(jié)合了大語言模型的推理能力和向量數(shù)據(jù)庫(kù)的存儲(chǔ)和檢索能力。來實(shí)現(xiàn)通過向量檢索到最相關(guān)的語義片段,然后讓大語言模型結(jié)合相關(guān)片段上下文來進(jìn)行正確的推理得到結(jié)論。在這個(gè)過程中主要有兩個(gè)流程:

a.后端數(shù)據(jù)處理和存儲(chǔ)流程

b.前端問答流程

同時(shí)其底層主要依賴兩個(gè)模塊:

1.基于大語言模型的推理模塊

2.基于向量數(shù)據(jù)庫(kù)的向量數(shù)據(jù)管理模塊

后端數(shù)據(jù)處理和存儲(chǔ)流程

上圖黑色的部分為后端的數(shù)據(jù)處理流程,主要是將我們的原始數(shù)據(jù)求解embedding,并和原始數(shù)據(jù)一起存入到向量數(shù)據(jù)庫(kù)ADB-PG中。這里你只需要關(guān)注上圖的藍(lán)色虛線框部分。黑色的處理模塊和ADB-PG向量數(shù)據(jù)庫(kù)。

Step1:先將原始文檔中的文本內(nèi)容全部提取出來。然后根據(jù)語義切塊,切成多個(gè)chunk,可以理解為可以完整表達(dá)一段意思的文本段落。在這個(gè)過程中還可以額外做一些元數(shù)據(jù)抽取,敏感信息檢測(cè)等行為。 Step2:將這些Chunk都丟給embedding模型,來求取這些chunk的embedding。 Step3:將embedding和原始chunk一起存入到向量數(shù)據(jù)庫(kù)中。

阿里云開發(fā)者社區(qū),千萬開發(fā)者的選擇。百萬精品技術(shù)內(nèi)容、千節(jié)免費(fèi)系統(tǒng)課程、豐富的體驗(yàn)場(chǎng)景、活躍的社群活動(dòng)、行業(yè)專家分享交流,盡在:

關(guān)鍵詞:

責(zé)任編輯:孫知兵

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與太平洋財(cái)富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
如有問題,請(qǐng)聯(lián)系我們!

關(guān)于我們 - 聯(lián)系方式 - 版權(quán)聲明 - 招聘信息 - 友鏈交換 - 網(wǎng)站統(tǒng)計(jì)
 

太平洋財(cái)富主辦 版權(quán)所有:太平洋財(cái)富網(wǎng)

?中國(guó)互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心中國(guó)互聯(lián)網(wǎng)違法和不良信息舉報(bào)中心

Copyright© 2012-2020 太平洋財(cái)富網(wǎng)(www.avav001.com) All rights reserved.

未經(jīng)過本站允許 請(qǐng)勿將本站內(nèi)容傳播或復(fù)制 業(yè)務(wù)QQ:3 31 986 683

 

主站蜘蛛池模板: 欧美少妇一区| 视频在线一区二区| 777午夜精品福利在线观看| 久久久久久国产精品久久| 日本亚洲欧美三级| 日韩中文字幕在线视频| 日韩在线一级片| av久久久久久| 91国产高清在线| 日韩视频精品| 欧美精品免费观看二区| 欧美中文字幕视频| 欧美精品v日韩精品v国产精品| 欧美精品卡一卡二| 激情五月综合色婷婷一区二区| 国产美女精品免费电影| 国产成人精品午夜| 久久躁狠狠躁夜夜爽| 日韩经典在线视频| 99视频免费观看| 九九久久国产精品| 日本一区二区久久精品| 国产在线精品一区二区三区| 亚洲国产精品女人| 国产精品美女xx| 久久久国产精品免费| 中文字幕一区综合| 丁香六月激情网| 欧美成人免费在线观看| 91久久国产精品| 国产欧美亚洲日本| 国产日产欧美一区二区| 亚洲国产高清国产精品| 日本精品一区在线观看| 91av国产在线| 亚洲精品一区二区三| 欧洲精品在线一区| 午夜精品美女自拍福到在线 | 日本丰满少妇黄大片在线观看| 国产精品高潮视频| 日本一区二区三区精品视频|