學AI,好工作 就找北大青鳥
關注小青 聽課做題,輕松學習
周一至周日
4000-9696-28

看“降龍”絕技——淺析知識圖譜技術生態(tài)鏈

來源:北大青鳥總部 2023年04月25日 09:10

摘要: 知識圖譜在2012年由谷歌提出,旨在描述現(xiàn)實世界中存在的實體以及實體之間的關系。它把復雜的知識領域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制出來,探索知識領域的動態(tài)發(fā)展規(guī)律,它不是指某一特定的模型,是指一類模型、一種技術體系。

人工智能發(fā)展到今天,以深度學習和知識圖譜為代表的感知智能(主要集中在對于圖片、視頻以及語音的能力的探究)和認知智能(涉及知識推理、因果分析等),得到越來越多的應用,知識圖譜逐漸成為關鍵技術之一,現(xiàn)已被廣泛運用到智能搜索、智能問答、個性化推薦、內(nèi)容分發(fā)等領域。知識圖譜在2012年由谷歌提出,旨在描述現(xiàn)實世界中存在的實體以及實體之間的關系。它把復雜的知識領域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制出來,探索知識領域的動態(tài)發(fā)展規(guī)律,它不是指某一特定的模型,是指一類模型、一種技術體系。



知識圖譜作為近年在大數(shù)據(jù)時代下新穎的知識組織與檢索技術,它的知識組織和展示的優(yōu)勢慢慢體現(xiàn)出來,越來越得到各行業(yè)的重視。知識圖譜在很多場合上被用作讓機器理解語言的背景知識庫,它的根本意義就是能幫助機器理解語言。下面我們通俗易懂地介紹一下知識圖譜中涉及的關鍵技術,以便于讀者加深一些知識圖譜的感性認識,為今后知識圖譜的應用打下一定技術基礎。


知識圖譜的技術生態(tài)鏈概述

知識圖譜通常以實體為節(jié)點形成一個大的網(wǎng)絡,從實際業(yè)務需求出發(fā),在知識實體之上抽象出數(shù)據(jù)模型,按實體自身、實體屬性、實體關系,將多領域的信息關聯(lián)起來,同時利用第三方數(shù)據(jù),結合知識獲取方法,填充圖譜信息。

知識圖譜的技術生命周期大致可分為六大步驟,按順序依次為:知識建模、知識獲取、知識加工、知識存儲、知識校驗、知識應用。



整個知識圖譜技術生態(tài)鏈生命周期如上圖,其流程是:

1、知識建模:對知識圖譜進行構建,包括數(shù)據(jù)模型、知識模型等;

2、知識獲?。航尤氩杉筒少彅?shù)據(jù),進行數(shù)據(jù)標引,并根據(jù)指標計算得出未識別的實體基礎數(shù)據(jù);用實體對齊消歧服務進行實體識別,初步得到實體基礎數(shù)據(jù);

3、知識存儲:將驗證過的實體基礎數(shù)據(jù)保存到知識庫,訓練機器學習模型,保存知識到知識圖譜(特指圖數(shù)據(jù)庫)中;

4、知識加工:知識庫將實體基礎數(shù)據(jù)進行知識融合,進行知識計算服務;

5、知識校驗:整個過程中進行驗證和校驗;

6、知識應用:基于以上技術支撐,實現(xiàn)知識圖譜應用。


形成知識圖譜技術鏈的“降龍六掌”

在武俠迷熟知的金庸武俠世界中,有一套號稱“天下第一剛猛”的掌法——降龍十八掌,使用者配合渾厚的內(nèi)力,無堅不摧、無固不破。雖招數(shù)有限,但每一招均具巨大的威力,是歷代丐幫幫主的獨門絕學。我們在這里可以把知識當作一類“龍”,借用一下金庸大俠描繪的降龍十八掌中頗具威力的六掌,來形容知識圖譜的六大技術步驟如何“降龍”,方便讀者理解。這六大招術對應知識圖譜技術鏈分別是:



讀者朋友疑惑了:“降龍”武功和人工智能技術有什么關系?別急,下面我們來逐一介紹。


1、知識建模——見龍在田

降龍十八掌中的“見龍在田”這一招,是蓄勢之后構建自身堅固防御的掌法,與構建知識圖譜模型比較類似,是打基礎的步驟。知識圖譜的模型構建是整個技術鏈條重要的第一步,其質量直接決定了圖譜應用的效果。知識圖譜構建了實體與實體之間更深層次、更長范圍的關聯(lián),增強了機器學習算法的挖掘能力,一定程度上提高了人工智能預測的準確性和多樣性,也有效地彌補交互信息的稀疏或缺失。



通過圖譜建模,其建立的Schema相當于數(shù)據(jù)模型,描述了領域下包含的類型(Type),與類型下描述實體的屬性(Property),Property中實體與實體之間的關系為邊(Relation),實體自帶信息為屬性(Attribute)。知識圖譜建模的步驟如下:

(1) 確定實體(圖譜中的節(jié)點),將實體抽取、合并,對不同來源的數(shù)據(jù)進行映射合并;

(2) 將實體屬性與標簽建模,利用屬性來表示不同數(shù)據(jù)源中對實體的描述,對實體的全方位描述進行建模;

(3) 實體關系信息建模(圖設計),記錄描述各類抽象建模成實體的數(shù)據(jù)關系,支持分析關聯(lián);

(4) 多實體之間靜態(tài)關聯(lián)建模,實現(xiàn)圍繞實體多種類數(shù)據(jù)的關聯(lián)建模;

(5) 實體動態(tài)事件關聯(lián)建模,將客觀世界中實體動態(tài)發(fā)展與事件關聯(lián),利用時序記錄實體的發(fā)展狀況。


2、知識獲取——雙龍取水

在知識采集的過程中,經(jīng)常會遇到結構化和非結構化(包括半結構化)兩種數(shù)據(jù),我們可以把這兩種數(shù)據(jù)比喻為兩條“龍”。而在降龍十八掌中有一招就是“雙龍取水”,這一招是雙掌同時發(fā)出取敵要害,可以形象地比喻獲取上述的結構化和非結構化知識數(shù)據(jù)。知識圖譜的數(shù)據(jù)來源有類型多、來源廣、數(shù)量大、模式繁雜等特點,相對傳統(tǒng)的數(shù)據(jù)采集和抽取,難度是比較大的。

知識圖譜可以將多源異構、多維的數(shù)據(jù)匯聚到一起,通過知識獲取的技術手段,將不同來源、不同結構的數(shù)據(jù)進行知識提取,最后形成知識存入到知識圖譜。針對不同種類的數(shù)據(jù),需要利用不同的技術進行提取。



l 結構化數(shù)據(jù)的獲取相對簡單,做好數(shù)據(jù)的映射和轉換,就可以進行常態(tài)化抽取。

l 對于半結構化數(shù)據(jù),通常利用人機結合方式自動學習,針對不同結構的數(shù)據(jù)配置的數(shù)據(jù)源進行解析,主要識別文本或數(shù)據(jù)中的人名、地名、專業(yè)術語、時間等實體信息進行抽取。

l 對文本類的非結構化數(shù)據(jù)進行實體識別、關系抽取、概念抽取、事件抽取。通常面向特定領域的信息抽取可預先定義好抽取的關系類型,利用“啟發(fā)式算法+人工規(guī)則”,實現(xiàn)自動抽取實體信息,同時使用機器學習算法訓練系統(tǒng)來減少各種形式的噪音和不確定性,通過“有監(jiān)督學習+先驗知識”,為每一個決斷進行復雜的可能性計算。在抽取過程中,通常會使用NLP分詞、命名實體識別工具如NLPIR、LTP等工具進行監(jiān)督學習和信息抽取。


3、知識存儲——潛龍在淵

潛龍在淵(又名:潛龍勿用)是降龍十八掌中積累了較大的內(nèi)力然后蓄勢而發(fā)的一招,相當于時刻準備著隨時能夠對敵人給予打擊。知識圖譜對知識存儲也類似,是將知識和相關信息、數(shù)據(jù)進行存儲,形成海量的知識庫,以便后續(xù)進行知識圖譜的應用。知識圖譜的存儲是基于圖的數(shù)據(jù)結構,主要方式有:RDF(Resource Description Framework)存儲和圖數(shù)據(jù)庫(Graph Database),知識圖譜數(shù)據(jù)存儲需要支持的基本數(shù)據(jù)存儲有:三元組知識存儲、事件信息存儲、事態(tài)信息存儲、使用知識圖譜組織的數(shù)據(jù)存儲。

當前項目上大部分使用neo4j進行知識圖譜存儲,neo4j的特點是采用原生圖存儲與處理,不支持AICD事物處理,不使用Schema。



在實際項目中,針對知識圖譜的存儲沒有一種通用的能夠解決所有問題的方案,主要還是依據(jù)數(shù)據(jù)特點進行數(shù)據(jù)存儲結構的選擇與設計,存儲設計時需要考慮:基礎存儲可按數(shù)據(jù)場景選擇使用關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫或內(nèi)存數(shù)據(jù)庫;不在圖數(shù)據(jù)庫中統(tǒng)計分析計算,將需要進行統(tǒng)計分析計算的數(shù)據(jù)放到規(guī)劃合適的存儲中再進行統(tǒng)計分析;需要考慮快速推理與圖計算等大數(shù)據(jù)存儲的支持。


4、知識加工——龍戰(zhàn)于野

“龍戰(zhàn)于野”的寓意為:在荒野與龍大戰(zhàn),是降龍十八掌中十分奧妙的招式,也是眾多招式中覆蓋范圍大、縱橫捭闔、恢弘大氣的絕技。在知識圖譜中為了獲得結構化、網(wǎng)絡化的知識體系,還需要進行知識加工,而知識加工的過程復雜,對數(shù)據(jù)進行各種復雜地整合、清洗、計算,用這一招“龍戰(zhàn)于野”來比喻還是相對貼切的。

知識加工是一個知識數(shù)據(jù)處理過程的統(tǒng)稱,包括知識融合、知識計算、知識更新等過程。通過數(shù)據(jù)的抽取,從原始數(shù)據(jù)里提取出實體關系和屬性的知識要素,再經(jīng)過知識融合,消除實體的支撐項和實體對象之間的奇異,得到一系列基本的事實描述,再經(jīng)過知識計算(推理)、知識更新,最終形成知識圖譜。



下面我們按這三個過程,簡單介紹一下:

l 知識融合:將知識獲取后得到的多源異構、信息多樣、動態(tài)演化的知識通過沖突檢測和一致性檢測,對知識進行正確性判斷、去粗取精。主要包括實體鏈接、知識合并兩部分操作。

l 知識計算及推理:包括圖挖掘計算、知識推理等。知識推理是指從已有的實體關系數(shù)據(jù)出發(fā),進行計算推理,建立實體新關聯(lián),擴展和豐富知識網(wǎng)絡,知識推理是構建知識圖譜的重要手段和關鍵環(huán)節(jié)。典型的方法有:

屬性值推理:比如根據(jù)樹木的年輪可推斷出其生長年份;

概念推理:如狼屬于犬科,犬科屬于食肉目,可以推出狼屬于食肉目。

l 知識更新:知識圖譜所獲取的知識是不斷動態(tài)新增的,知識更新基于不斷流入的數(shù)據(jù)進行分析從而得到的類似事件實體的動態(tài)數(shù)據(jù),新增數(shù)據(jù)后獲得了新概念,需將新概念加入到知識庫中。還有將新增或更新的實體、關系、屬性、屬性值加入知識庫。典型的更新可以是:由大數(shù)據(jù)計算“熱詞”與已有實體比較,自動補充新實體;通過遠程監(jiān)督,當遠程數(shù)據(jù)資源發(fā)生變化被監(jiān)測到時,監(jiān)督自身數(shù)據(jù)是否需要隨之變化。


5、知識校驗——亢龍有悔

“亢龍有悔”的寓意是“盈不可久,步有虛實,可退可先”。在降龍掌法中,是一個圓轉如意、可以隨時修正的招術。知識圖譜中,知識在積累、加工過程中,逐步會產(chǎn)生一些問題,需隨時進行知識校驗(也可以叫做知識的質量評估),不斷修正“亢”(突出的情況),才能長期使用。知識校驗是知識圖譜構建的重要組成部分,通過校驗對知識體系的可信度進行量化評估后,再進行知識糾偏來保證知識庫的質量。

知識校驗是貫穿整個知識圖譜技術生態(tài)鏈的過程。在初期的模型設計過程中,需要嚴格規(guī)范模型及其類型、屬性等等。如果不夠規(guī)范,會導致錯誤傳達到數(shù)據(jù)底層且不易糾錯。在知識來源中獲取的知識(數(shù)據(jù))或多或少都包含著各種雜質,在模型層面上,添加人工校驗方法與驗證約束規(guī)則,保證導入數(shù)據(jù)的規(guī)范性進行知識校驗。



對于實體間關系的準確性,如上下文關系是否正確、實例的類型是否正確,實例之間的關系是否準確等,可以利用實體的信息與圖譜中的結構化信息計算一個關系的置信度,或看作關系對錯與否的二分類問題。涉及到其他來源的數(shù)據(jù),在數(shù)據(jù)融合的同時進行交叉驗證,保留驗證通過的知識。當圖譜數(shù)據(jù)初步成型,在知識應用過程中,通過模型結果倒推出的錯誤,也有助于凈化圖譜中的雜質(如知識推理時出現(xiàn)的矛盾導致知識有誤的情況)。


6、知識應用——飛龍在天

當知識庫中的知識積累到一定程度,就是知識圖譜顯示威力的時候了,“飛龍在天”是降龍十八掌中威力巨大,具超強展現(xiàn)力的一招掌法。同樣,知識應用也即知識圖譜的“飛龍在天”,是最終開花結果的階段。知識應用階段能體現(xiàn)更規(guī)范的數(shù)據(jù)表示、更強的數(shù)據(jù)關聯(lián)以及更深邃的數(shù)據(jù)價值。



當今知識圖譜已經(jīng)蓬勃發(fā)展,上圖是網(wǎng)絡上知識圖譜的典型應用場景,可以看到知識圖譜已經(jīng)突破最早在智能搜索領域應用的初衷,快速發(fā)展到智能客服、推薦、情報分析、智能對話、輔助決策等等其他人工智能領域。

當前AI領域非?;馃岬恼Z義搜索,就是基于知識圖譜對用戶輸入進行理解,解決傳統(tǒng)搜索中遇到的關鍵詞語義多樣性及語義消歧的難題,識別實體、概念和屬性,并返回實體、關系、鏈接的數(shù)據(jù)等所產(chǎn)生的豐富結果。

語義搜索可以延伸發(fā)展到基于自然語言理解的智能問答系統(tǒng)。智能問答針對用戶輸入的自然語言進行解析,對用戶查詢意圖進行分析與理解,從知識圖譜中或目標數(shù)據(jù)中進行查詢檢索,生成候選答案并根據(jù)結果權重進行排序,給出用戶問題的答案。

另外,可視化決策輔助也是知識圖譜越來越多的應用方向之一,很多人工智能的實際應用中,通過圖譜展示、統(tǒng)計分析、最短路徑發(fā)現(xiàn)、多節(jié)點關聯(lián)探尋等可視化技術手段,能夠構建基于知識圖譜的一體化決策輔助系統(tǒng),以支撐用戶進行知識決策輔助應用。

知識圖譜可以建立為面向某一行業(yè)領域特定的知識圖譜應用平臺,比如目前知識圖譜在風控領域上,更多應用于反欺詐、反洗錢、互聯(lián)網(wǎng)授信、保險欺詐、銀行欺詐、電商欺詐、項目審計作假、企業(yè)關系分析、罪犯追蹤等場景中。


結語

知識圖譜是一個很龐大的技術體系,在人工智能領域中,可以說和深度學習是一樣的繁雜和深奧,限于篇幅,本文僅僅是做一個科普,使讀者朋友對知識圖譜的技術鏈建立一個感性認識,并產(chǎn)生一定的興趣,方便今后大家有機會時能更好地去研究和應用知識圖譜體系。

知識圖譜是知識工程的一個分支,以知識工程中語義網(wǎng)絡作為理論基礎,并且結合了機器學習、自然語言處理和知識表示和推理的最新成果,在解決大數(shù)據(jù)中文本分析和圖像理解問題發(fā)揮重要作用。

知識圖譜的發(fā)展目前還處于初級階段,面臨眾多挑戰(zhàn)和難題,如:知識庫的構建有效策略和自動擴展、大規(guī)模的異構知識處理、推理規(guī)則學習、人機協(xié)作和人機邊界問題、跨語言檢索等等。



此外,知識圖譜建立以后,對其運行后的管理、運維、人工監(jiān)督等方面,也非常重要,應當盡量避免在知識圖譜運維中因為新知識的錯誤發(fā)布對現(xiàn)有業(yè)務的影響,并將經(jīng)過嚴格測試驗證的知識圖譜版本正式生效上線,最終保證知識圖譜全生命周期各環(huán)節(jié)的數(shù)據(jù)質量。同時,通過知識圖譜應用的使用記錄及問題反饋帶動知識圖譜的運維優(yōu)化,形成閉環(huán)全周期的多知識圖譜間的運維管控。因此知識圖譜的“數(shù)據(jù)生態(tài)”與“技術生態(tài)”,是需要不斷地抽象總結再演繹細化的過程。

當前,知識圖譜的地位越來越重要,可以說凡是有知識和關系的領域都可以用到知識圖譜。事實上,知識圖譜也已經(jīng)成功俘獲了大量客戶,而且應用領域和客戶數(shù)量還在不斷增長中,感興趣的讀者朋友可以一直關注和持續(xù)學習。


熱門班型時間
人工智能就業(yè)班 即將爆滿
AI應用線上班 即將爆滿
UI設計全能班 即將爆滿
數(shù)據(jù)分析綜合班 即將爆滿
軟件開發(fā)全能班 爆滿開班
網(wǎng)絡安全運營班 爆滿開班
報名優(yōu)惠
免費試聽
課程資料
官方微信
返回頂部
培訓課程 熱門話題 站內(nèi)鏈接