<tfoot id="iys6o"></tfoot>

學AI，好工作就找北大青鳥

關注小青聽課做題，輕松學習

周一至周日

4000-9696-28

首頁品牌優(yōu)勢研究院 AI實驗室教學實施就業(yè)保障校企共育青鳥動態(tài) 校區(qū)查詢

首頁> 青鳥動態(tài)> 大咖分享> 看“降龍”絕技——淺析知識圖譜技術生態(tài)鏈

行業(yè)觀瞻

技術熱點

面試寶典

青鳥動態(tài)

資料下載

其他

在線咨詢

在線咨詢

看“降龍”絕技——淺析知識圖譜技術生態(tài)鏈

來源：北大青鳥總部 2023年04月25日 09:10

摘要：知識圖譜在2012年由谷歌提出，旨在描述現(xiàn)實世界中存在的實體以及實體之間的關系。它把復雜的知識領域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制出來，探索知識領域的動態(tài)發(fā)展規(guī)律，它不是指某一特定的模型，是指一類模型、一種技術體系。

人工智能發(fā)展到今天，以深度學習和知識圖譜為代表的感知智能（主要集中在對于圖片、視頻以及語音的能力的探究）和認知智能（涉及知識推理、因果分析等），得到越來越多的應用，知識圖譜逐漸成為關鍵技術之一，現(xiàn)已被廣泛運用到智能搜索、智能問答、個性化推薦、內(nèi)容分發(fā)等領域。知識圖譜在2012年由谷歌提出，旨在描述現(xiàn)實世界中存在的實體以及實體之間的關系。它把復雜的知識領域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制出來，探索知識領域的動態(tài)發(fā)展規(guī)律，它不是指某一特定的模型，是指一類模型、一種技術體系。

知識圖譜作為近年在大數(shù)據(jù)時代下新穎的知識組織與檢索技術，它的知識組織和展示的優(yōu)勢慢慢體現(xiàn)出來，越來越得到各行業(yè)的重視。知識圖譜在很多場合上被用作讓機器理解語言的背景知識庫，它的根本意義就是能幫助機器理解語言。下面我們通俗易懂地介紹一下知識圖譜中涉及的關鍵技術，以便于讀者加深一些知識圖譜的感性認識，為今后知識圖譜的應用打下一定技術基礎。

知識圖譜的技術生態(tài)鏈概述

知識圖譜通常以實體為節(jié)點形成一個大的網(wǎng)絡，從實際業(yè)務需求出發(fā)，在知識實體之上抽象出數(shù)據(jù)模型，按實體自身、實體屬性、實體關系，將多領域的信息關聯(lián)起來，同時利用第三方數(shù)據(jù)，結合知識獲取方法，填充圖譜信息。

知識圖譜的技術生命周期大致可分為六大步驟，按順序依次為：知識建模、知識獲取、知識加工、知識存儲、知識校驗、知識應用。

整個知識圖譜技術生態(tài)鏈生命周期如上圖，其流程是：

1、知識建模：對知識圖譜進行構建，包括數(shù)據(jù)模型、知識模型等；

2、知識獲?。航尤氩杉筒少彅?shù)據(jù)，進行數(shù)據(jù)標引，并根據(jù)指標計算得出未識別的實體基礎數(shù)據(jù)；用實體對齊消歧服務進行實體識別，初步得到實體基礎數(shù)據(jù)；

3、知識存儲：將驗證過的實體基礎數(shù)據(jù)保存到知識庫，訓練機器學習模型，保存知識到知識圖譜（特指圖數(shù)據(jù)庫）中；

4、知識加工：知識庫將實體基礎數(shù)據(jù)進行知識融合，進行知識計算服務；

5、知識校驗：整個過程中進行驗證和校驗；

6、知識應用：基于以上技術支撐，實現(xiàn)知識圖譜應用。

形成知識圖譜技術鏈的“降龍六掌”

在武俠迷熟知的金庸武俠世界中，有一套號稱“天下第一剛猛”的掌法——降龍十八掌，使用者配合渾厚的內(nèi)力，無堅不摧、無固不破。雖招數(shù)有限，但每一招均具巨大的威力，是歷代丐幫幫主的獨門絕學。我們在這里可以把知識當作一類“龍”，借用一下金庸大俠描繪的降龍十八掌中頗具威力的六掌，來形容知識圖譜的六大技術步驟如何“降龍”，方便讀者理解。這六大招術對應知識圖譜技術鏈分別是：

讀者朋友疑惑了：“降龍”武功和人工智能技術有什么關系？別急，下面我們來逐一介紹。

1、知識建模——見龍在田

降龍十八掌中的“見龍在田”這一招，是蓄勢之后構建自身堅固防御的掌法，與構建知識圖譜模型比較類似，是打基礎的步驟。知識圖譜的模型構建是整個技術鏈條重要的第一步，其質量直接決定了圖譜應用的效果。知識圖譜構建了實體與實體之間更深層次、更長范圍的關聯(lián)，增強了機器學習算法的挖掘能力，一定程度上提高了人工智能預測的準確性和多樣性，也有效地彌補交互信息的稀疏或缺失。

通過圖譜建模，其建立的Schema相當于數(shù)據(jù)模型，描述了領域下包含的類型（Type），與類型下描述實體的屬性（Property），Property中實體與實體之間的關系為邊（Relation），實體自帶信息為屬性（Attribute）。知識圖譜建模的步驟如下：

（1）確定實體（圖譜中的節(jié)點），將實體抽取、合并，對不同來源的數(shù)據(jù)進行映射合并；

（2）將實體屬性與標簽建模，利用屬性來表示不同數(shù)據(jù)源中對實體的描述，對實體的全方位描述進行建模；

（3）實體關系信息建模（圖設計），記錄描述各類抽象建模成實體的數(shù)據(jù)關系，支持分析關聯(lián)；

（4）多實體之間靜態(tài)關聯(lián)建模，實現(xiàn)圍繞實體多種類數(shù)據(jù)的關聯(lián)建模；

（5）實體動態(tài)事件關聯(lián)建模，將客觀世界中實體動態(tài)發(fā)展與事件關聯(lián)，利用時序記錄實體的發(fā)展狀況。

2、知識獲取——雙龍取水

在知識采集的過程中，經(jīng)常會遇到結構化和非結構化（包括半結構化）兩種數(shù)據(jù)，我們可以把這兩種數(shù)據(jù)比喻為兩條“龍”。而在降龍十八掌中有一招就是“雙龍取水”，這一招是雙掌同時發(fā)出取敵要害，可以形象地比喻獲取上述的結構化和非結構化知識數(shù)據(jù)。知識圖譜的數(shù)據(jù)來源有類型多、來源廣、數(shù)量大、模式繁雜等特點，相對傳統(tǒng)的數(shù)據(jù)采集和抽取，難度是比較大的。

知識圖譜可以將多源異構、多維的數(shù)據(jù)匯聚到一起，通過知識獲取的技術手段，將不同來源、不同結構的數(shù)據(jù)進行知識提取，最后形成知識存入到知識圖譜。針對不同種類的數(shù)據(jù)，需要利用不同的技術進行提取。

l 結構化數(shù)據(jù)的獲取相對簡單，做好數(shù)據(jù)的映射和轉換，就可以進行常態(tài)化抽取。

l 對于半結構化數(shù)據(jù)，通常利用人機結合方式自動學習，針對不同結構的數(shù)據(jù)配置的數(shù)據(jù)源進行解析，主要識別文本或數(shù)據(jù)中的人名、地名、專業(yè)術語、時間等實體信息進行抽取。

l 對文本類的非結構化數(shù)據(jù)進行實體識別、關系抽取、概念抽取、事件抽取。通常面向特定領域的信息抽取可預先定義好抽取的關系類型，利用“啟發(fā)式算法+人工規(guī)則”，實現(xiàn)自動抽取實體信息，同時使用機器學習算法訓練系統(tǒng)來減少各種形式的噪音和不確定性，通過“有監(jiān)督學習+先驗知識”，為每一個決斷進行復雜的可能性計算。在抽取過程中，通常會使用NLP分詞、命名實體識別工具如NLPIR、LTP等工具進行監(jiān)督學習和信息抽取。

3、知識存儲——潛龍在淵

潛龍在淵（又名：潛龍勿用）是降龍十八掌中積累了較大的內(nèi)力然后蓄勢而發(fā)的一招，相當于時刻準備著隨時能夠對敵人給予打擊。知識圖譜對知識存儲也類似，是將知識和相關信息、數(shù)據(jù)進行存儲，形成海量的知識庫，以便后續(xù)進行知識圖譜的應用。知識圖譜的存儲是基于圖的數(shù)據(jù)結構，主要方式有：RDF（Resource Description Framework）存儲和圖數(shù)據(jù)庫（Graph Database），知識圖譜數(shù)據(jù)存儲需要支持的基本數(shù)據(jù)存儲有：三元組知識存儲、事件信息存儲、事態(tài)信息存儲、使用知識圖譜組織的數(shù)據(jù)存儲。

當前項目上大部分使用neo4j進行知識圖譜存儲，neo4j的特點是采用原生圖存儲與處理，不支持AICD事物處理，不使用Schema。

在實際項目中，針對知識圖譜的存儲沒有一種通用的能夠解決所有問題的方案，主要還是依據(jù)數(shù)據(jù)特點進行數(shù)據(jù)存儲結構的選擇與設計，存儲設計時需要考慮：基礎存儲可按數(shù)據(jù)場景選擇使用關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫或內(nèi)存數(shù)據(jù)庫；不在圖數(shù)據(jù)庫中統(tǒng)計分析計算，將需要進行統(tǒng)計分析計算的數(shù)據(jù)放到規(guī)劃合適的存儲中再進行統(tǒng)計分析；需要考慮快速推理與圖計算等大數(shù)據(jù)存儲的支持。

4、知識加工——龍戰(zhàn)于野

“龍戰(zhàn)于野”的寓意為：在荒野與龍大戰(zhàn)，是降龍十八掌中十分奧妙的招式，也是眾多招式中覆蓋范圍大、縱橫捭闔、恢弘大氣的絕技。在知識圖譜中為了獲得結構化、網(wǎng)絡化的知識體系，還需要進行知識加工，而知識加工的過程復雜，對數(shù)據(jù)進行各種復雜地整合、清洗、計算，用這一招“龍戰(zhàn)于野”來比喻還是相對貼切的。

知識加工是一個知識數(shù)據(jù)處理過程的統(tǒng)稱，包括知識融合、知識計算、知識更新等過程。通過數(shù)據(jù)的抽取，從原始數(shù)據(jù)里提取出實體關系和屬性的知識要素，再經(jīng)過知識融合，消除實體的支撐項和實體對象之間的奇異，得到一系列基本的事實描述，再經(jīng)過知識計算（推理）、知識更新，最終形成知識圖譜。

下面我們按這三個過程，簡單介紹一下：

l 知識融合：將知識獲取后得到的多源異構、信息多樣、動態(tài)演化的知識通過沖突檢測和一致性檢測，對知識進行正確性判斷、去粗取精。主要包括實體鏈接、知識合并兩部分操作。

l 知識計算及推理：包括圖挖掘計算、知識推理等。知識推理是指從已有的實體關系數(shù)據(jù)出發(fā)，進行計算推理，建立實體新關聯(lián)，擴展和豐富知識網(wǎng)絡，知識推理是構建知識圖譜的重要手段和關鍵環(huán)節(jié)。典型的方法有：

屬性值推理：比如根據(jù)樹木的年輪可推斷出其生長年份；

概念推理：如狼屬于犬科，犬科屬于食肉目，可以推出狼屬于食肉目。

l 知識更新：知識圖譜所獲取的知識是不斷動態(tài)新增的，知識更新基于不斷流入的數(shù)據(jù)進行分析從而得到的類似事件實體的動態(tài)數(shù)據(jù)，新增數(shù)據(jù)后獲得了新概念，需將新概念加入到知識庫中。還有將新增或更新的實體、關系、屬性、屬性值加入知識庫。典型的更新可以是：由大數(shù)據(jù)計算“熱詞”與已有實體比較，自動補充新實體；通過遠程監(jiān)督，當遠程數(shù)據(jù)資源發(fā)生變化被監(jiān)測到時，監(jiān)督自身數(shù)據(jù)是否需要隨之變化。

5、知識校驗——亢龍有悔

“亢龍有悔”的寓意是“盈不可久，步有虛實，可退可先”。在降龍掌法中，是一個圓轉如意、可以隨時修正的招術。知識圖譜中，知識在積累、加工過程中，逐步會產(chǎn)生一些問題，需隨時進行知識校驗（也可以叫做知識的質量評估），不斷修正“亢”（突出的情況），才能長期使用。知識校驗是知識圖譜構建的重要組成部分，通過校驗對知識體系的可信度進行量化評估后，再進行知識糾偏來保證知識庫的質量。

知識校驗是貫穿整個知識圖譜技術生態(tài)鏈的過程。在初期的模型設計過程中，需要嚴格規(guī)范模型及其類型、屬性等等。如果不夠規(guī)范，會導致錯誤傳達到數(shù)據(jù)底層且不易糾錯。在知識來源中獲取的知識（數(shù)據(jù)）或多或少都包含著各種雜質，在模型層面上，添加人工校驗方法與驗證約束規(guī)則，保證導入數(shù)據(jù)的規(guī)范性進行知識校驗。

對于實體間關系的準確性，如上下文關系是否正確、實例的類型是否正確，實例之間的關系是否準確等，可以利用實體的信息與圖譜中的結構化信息計算一個關系的置信度，或看作關系對錯與否的二分類問題。涉及到其他來源的數(shù)據(jù)，在數(shù)據(jù)融合的同時進行交叉驗證，保留驗證通過的知識。當圖譜數(shù)據(jù)初步成型，在知識應用過程中，通過模型結果倒推出的錯誤，也有助于凈化圖譜中的雜質（如知識推理時出現(xiàn)的矛盾導致知識有誤的情況）。

6、知識應用——飛龍在天

當知識庫中的知識積累到一定程度，就是知識圖譜顯示威力的時候了，“飛龍在天”是降龍十八掌中威力巨大，具超強展現(xiàn)力的一招掌法。同樣，知識應用也即知識圖譜的“飛龍在天”，是最終開花結果的階段。知識應用階段能體現(xiàn)更規(guī)范的數(shù)據(jù)表示、更強的數(shù)據(jù)關聯(lián)以及更深邃的數(shù)據(jù)價值。

當今知識圖譜已經(jīng)蓬勃發(fā)展，上圖是網(wǎng)絡上知識圖譜的典型應用場景，可以看到知識圖譜已經(jīng)突破最早在智能搜索領域應用的初衷，快速發(fā)展到智能客服、推薦、情報分析、智能對話、輔助決策等等其他人工智能領域。

當前AI領域非?；馃岬恼Z義搜索，就是基于知識圖譜對用戶輸入進行理解，解決傳統(tǒng)搜索中遇到的關鍵詞語義多樣性及語義消歧的難題，識別實體、概念和屬性，并返回實體、關系、鏈接的數(shù)據(jù)等所產(chǎn)生的豐富結果。

語義搜索可以延伸發(fā)展到基于自然語言理解的智能問答系統(tǒng)。智能問答針對用戶輸入的自然語言進行解析，對用戶查詢意圖進行分析與理解，從知識圖譜中或目標數(shù)據(jù)中進行查詢檢索，生成候選答案并根據(jù)結果權重進行排序，給出用戶問題的答案。

另外，可視化決策輔助也是知識圖譜越來越多的應用方向之一，很多人工智能的實際應用中，通過圖譜展示、統(tǒng)計分析、最短路徑發(fā)現(xiàn)、多節(jié)點關聯(lián)探尋等可視化技術手段，能夠構建基于知識圖譜的一體化決策輔助系統(tǒng)，以支撐用戶進行知識決策輔助應用。

知識圖譜可以建立為面向某一行業(yè)領域特定的知識圖譜應用平臺，比如目前知識圖譜在風控領域上，更多應用于反欺詐、反洗錢、互聯(lián)網(wǎng)授信、保險欺詐、銀行欺詐、電商欺詐、項目審計作假、企業(yè)關系分析、罪犯追蹤等場景中。

結語

知識圖譜是一個很龐大的技術體系，在人工智能領域中，可以說和深度學習是一樣的繁雜和深奧，限于篇幅，本文僅僅是做一個科普，使讀者朋友對知識圖譜的技術鏈建立一個感性認識，并產(chǎn)生一定的興趣，方便今后大家有機會時能更好地去研究和應用知識圖譜體系。

知識圖譜是知識工程的一個分支，以知識工程中語義網(wǎng)絡作為理論基礎，并且結合了機器學習、自然語言處理和知識表示和推理的最新成果，在解決大數(shù)據(jù)中文本分析和圖像理解問題發(fā)揮重要作用。

知識圖譜的發(fā)展目前還處于初級階段，面臨眾多挑戰(zhàn)和難題，如：知識庫的構建有效策略和自動擴展、大規(guī)模的異構知識處理、推理規(guī)則學習、人機協(xié)作和人機邊界問題、跨語言檢索等等。

此外，知識圖譜建立以后，對其運行后的管理、運維、人工監(jiān)督等方面，也非常重要，應當盡量避免在知識圖譜運維中因為新知識的錯誤發(fā)布對現(xiàn)有業(yè)務的影響，并將經(jīng)過嚴格測試驗證的知識圖譜版本正式生效上線，最終保證知識圖譜全生命周期各環(huán)節(jié)的數(shù)據(jù)質量。同時，通過知識圖譜應用的使用記錄及問題反饋帶動知識圖譜的運維優(yōu)化，形成閉環(huán)全周期的多知識圖譜間的運維管控。因此知識圖譜的“數(shù)據(jù)生態(tài)”與“技術生態(tài)”，是需要不斷地抽象總結再演繹細化的過程。

當前，知識圖譜的地位越來越重要，可以說凡是有知識和關系的領域都可以用到知識圖譜。事實上，知識圖譜也已經(jīng)成功俘獲了大量客戶，而且應用領域和客戶數(shù)量還在不斷增長中，感興趣的讀者朋友可以一直關注和持續(xù)學習。

標簽: 知識圖譜

IT熱門趨勢

1 新媒體運營2

2 全媒體設計證書

3 大數(shù)據(jù)應用

4 AI大模型開發(fā)實訓營

5 云計算與網(wǎng)絡安全

6 Java全棧開發(fā)與大數(shù)據(jù)

熱門班型時間

人工智能就業(yè)班即將爆滿

AI應用線上班即將爆滿

UI設計全能班即將爆滿

數(shù)據(jù)分析綜合班即將爆滿

軟件開發(fā)全能班爆滿開班

網(wǎng)絡安全運營班爆滿開班

職場就業(yè)資訊

1 IT行業(yè)就業(yè)前景向好

2 IT人才需求保持穩(wěn)定

3 網(wǎng)絡安全人才緊缺

4 IT看重專業(yè)技能經(jīng)驗

5 畢業(yè)生投身IT行業(yè)熱

6 程序員職場晉升新路徑

技術熱點榜單

2 機器學習與深度學習

3 虛擬化與分布式計算

4 數(shù)據(jù)采集與數(shù)據(jù)存儲

5 傳感器與無線通信技術

青鳥課程

AI全棧開發(fā)工程師 AI全媒體電商運營數(shù)據(jù)智能 AI時代全鏈路UI設計師 AI時代網(wǎng)絡運維工程師

學習入口

云題庫云豆網(wǎng) 在線視頻課學籍查詢證書查詢

招生咨詢熱線： 4000-9696-28

手機端官網(wǎng)

免費領熱門課程

北京市海淀區(qū)成府路207號

北京市海淀區(qū)成府路207號北大青鳥（總部）

友情鏈接：

Copyright © 1999- 北京青鳥職業(yè)教育科技發(fā)展有限公司版權所有

京公網(wǎng)安備 11010802020714號京ICP備2020047077號-2

感谢您访问我们的网站，您可能还对以下资源感兴趣：

成年人在线免费观看毛片

国产古代一级a毛片亚洲国产中文AV无码精品国产精品中文第一字幕毛片无遮挡高清免费观看

<del id="m0egg"></del>