機器之心發(fā)布
機器之心編輯部
自然語言處理(Natural Language Processing)是人工智能的核心問題之一,旨在讓計算機理解語言,實現(xiàn)人與計算機之間用自然語言進行通信。阿爾伯塔大學(xué)(Universityof Alberta)劉邦博士在他的畢業(yè)論文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,對基于圖結(jié)構(gòu)(graph-structured representations)的自然語言處理和文本挖掘進行了深入研究。
這篇博士論文將自然語言處理和文本挖掘的多個核心任務(wù)與圖結(jié)構(gòu)的強大表示能力結(jié)合起來,從而充分利用深度學(xué)習(xí)的表示能力和文本中的結(jié)構(gòu)信息來解決諸多問題:(1)組織信息(Information Organization):提出了基于樹/圖結(jié)構(gòu)的短文本/長文本對的分解算法以提高語意匹配任務(wù)(semantic matching);谖谋酒ヅ洌M一步提出事件粒度的新聞聚類和組織系統(tǒng) Story Forest;(2)推薦信息(Information Recommendation):提出了 ConcepT 概念挖掘系統(tǒng)以及 GIANT 系統(tǒng),用于構(gòu)建建模用戶興趣點以及長短文本主題的圖譜(Ontology)。構(gòu)建的興趣圖譜 Attention Ontology 有助于對用戶與文本的理解,并顯著提高推薦系統(tǒng)的效果;(3)理解信息(Information Comprehension):提出了 ACS-Aware Question Generation 系統(tǒng),用于從無標(biāo)注的文本中生成高質(zhì)量的問答對,大大降低問答系統(tǒng)的數(shù)據(jù)集構(gòu)建成本,并有助于提高閱讀理解系統(tǒng)的效果。
論文鏈接:https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf
引言
自然語言處理(NLP)旨在讀取和理解未結(jié)構(gòu)化的自然語言文本來完成不同的任務(wù)!溉绾伪硎疚谋尽挂约啊溉绾芜M行計算」是其中的兩個核心問題。早期的 NLP 研究中,利用 bag-of-words 模型表示文本,通過統(tǒng)計不同單詞的頻次來形成文本的向量表示,同時結(jié)合統(tǒng)計方法進行文本處理,這丟失了文本的詞序信息以及單詞之間的聯(lián)系,本質(zhì)上是用 one hot encoding 來表示每個單詞;在深度學(xué)習(xí)中,研究者根據(jù)單詞的共現(xiàn)來學(xué)習(xí)詞向量,每個單詞由一個 dense vector 表示,語意相似或聯(lián)系緊密的詞在向量空間中距離更小,再結(jié)合 RNN 模型(LSTM,GRU 等)進行文本編碼完成各種任務(wù);其后又有研究工作將文本類比圖像,編碼形成矩陣表示,結(jié)合 CNN 類模型進行計算;近年來,預(yù)訓(xùn)練語言模型,利用自監(jiān)督學(xué)習(xí)訓(xùn)練各類大型語言模型,從而給單詞或文本賦予上下文敏感的(context-sensitive),多層的語義向量表示,其采用的模型是多層的 Transformer。
自然語言的形式及其語意具有層次性(hierarchical),組合性(compositional)和靈活性(flexible)。已有的研究并未充分利用各類文本中存在的語義結(jié)構(gòu)。圖(graph)是一種通用且強大的表示形式,可以表達各種不同對象以及它們之間的聯(lián)系,無論是在自然語言處理,還是在社交網(wǎng)絡(luò),現(xiàn)實世界等各種場景都無處不在。本論文在深度學(xué)習(xí)強大的表示學(xué)習(xí)能力的基礎(chǔ)上,設(shè)計并結(jié)合了不同的文本的圖結(jié)構(gòu)化表示,并利用圖結(jié)構(gòu)計算模型,例如圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks), 去解決不同的自然語言處理和文本挖掘問題。論文包含三大部分:第一部分介紹了文本的聚類和匹配,提出各類匹配問題的結(jié)構(gòu)化算法,并進一步提出 Story Forest 系統(tǒng)用于新聞事件的聚類組織和結(jié)構(gòu)化表示。該系統(tǒng)落地到騰訊 QQ 瀏覽器熱點事件挖掘。第二部分關(guān)注文本挖掘,提出了 Attention Ontology 興趣圖譜,挖掘和描述用戶不同粒度的興趣點,建立不同興趣點之間的聯(lián)系,并可用于刻畫文章主題。這部分工作顯著提高了 QQ 瀏覽器,手機 QQ,微信等應(yīng)用中的信息流推薦系統(tǒng)的效果。第三部分關(guān)注文本生成,提出了 ACS-QG 系統(tǒng),自動從無標(biāo)注文本中生成高質(zhì)量的問答對,可用于問答系統(tǒng)的訓(xùn)練,有助于大大減少數(shù)據(jù)集創(chuàng)建成本,以及提高機器閱讀理解的能力。
圖 1. 文本表示形式以及計算模型的演化
圖 2. 論文的組成框架
第一部分:文本的匹配與聚類
第三章 Story Forest 事件聚類組織系統(tǒng)
在信息爆炸的年代,查詢并找到有價值的信息,對用戶而言并不是非常簡單的任務(wù)。目前的搜索引擎或者信息流服務(wù),會給用戶提供一個文章列表。這些新聞文章會包含大量冗余信息,缺乏結(jié)構(gòu)化的組織。本文提出 Story Forest 系統(tǒng),對新聞文章做事件(event)粒度的聚類,使得報道同一個現(xiàn)實中的事件的不同文章聚類成一個節(jié)點,相關(guān)聯(lián)的事件形成結(jié)構(gòu)化的故事樹(story tree), 來表征關(guān)聯(lián)事件之間的時間順序和發(fā)展關(guān)系。
圖 3.「2016 年美國總統(tǒng)大壓的故事樹,樹中的每一個節(jié)點代表一個事件
已有的文本聚類方法不能很好地對文章進行事件粒度的聚類效果。本文提出 EventX 聚類算法,它是一種雙層聚類算法:在第一層聚類中,利用所有文章中的關(guān)鍵詞,形成關(guān)鍵詞網(wǎng)絡(luò)(Keyword Graph)并對其進行圖分割,分割后的每一個關(guān)鍵詞子圖,代表一個大的話題,再利用相似度將每篇文章分配到一個最相似的關(guān)鍵詞子圖之下;在第二層聚類中,每一個關(guān)鍵詞子圖下的文章形成一個文章圖(doc graph), 相連的邊代表兩篇文章講述同一個事件,再對文章圖進行社區(qū)檢測(community detection),從而做了第二次聚類。每一個文章子圖里的文章代表一個事件。通過雙層聚類,即可以對文章對之間做細粒度的語義比較,又可以控制時間復(fù)雜度。在得到事件聚類之后,不同的事件節(jié)點通過故事結(jié)構(gòu)組織算法,在線插入到已有的故事樹中形成故事結(jié)構(gòu)。如果一個事件不屬于任何已有的故事樹,則形成一個新的故事。
圖 4. Story Forest 系統(tǒng)以及 EventX 聚類算法
第四章 基于圖分解和圖卷積的長文本匹配
文本匹配是判斷兩個文本之間的關(guān)系或者相關(guān)度,是 NLP 中的核心問題,有很多的任務(wù)其核心都可視為一個文本匹配任務(wù)。根據(jù)匹配的源文本和目標(biāo)文本的長短,我們可以將文本匹配任務(wù)分成四大類:長文本匹配任務(wù),例如 Story Forest 系統(tǒng)中,一個核心的任務(wù)是判斷兩個文章是否在講同一個事件;短-長文本匹配,例如輸入 query 搜索匹配的文章;短文本匹配,例如問答對匹配,句子對相似度衡量等;長-短文本匹配,例如文本主題分類等等。
圖 5. 根據(jù)源文本和目標(biāo)文本的長短,將不同文本匹配任務(wù)分成四類
本章專注于長文本匹配任務(wù),這是很重要的研究問題,然而在此之前,很少的研究工作專注于此。已有的算法基于 Siamese Neural Network 或者 CNN 來編碼句子對或者句子之間的交互,無法很好的處理長文本匹配的任務(wù)。因為長文本的長度,導(dǎo)致計算復(fù)雜度較高;語言的靈活性,導(dǎo)致文本對之間對應(yīng)的內(nèi)容難以對齊;同時編碼器也難以準(zhǔn)確地編碼長文本的語義。
本文提出 Concept Interaction Graph 用于分解一篇或者一對文章。其主要思想是「化整為零,分而治之」。CIG 中的每個節(jié)點包含幾個高度關(guān)聯(lián)的關(guān)鍵字,以及和這些關(guān)鍵字高度相關(guān)的句子集。當(dāng)進行文本對匹配時,每個節(jié)點包含來自兩篇文章的兩個句子集。這樣,多個節(jié)點代表了兩篇文章中的不同的子話題,并囊括了文章中的一部分句子并進行了對齊。節(jié)點之間的邊代表不同子話題之間的聯(lián)系緊密度。
圖 6. 根據(jù)文章構(gòu)建 Concept Interaction Graph 的 toy example
基于 Concept Interaction Graph,論文進一步提出通過圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks)對文本對進行局部和全局匹配。具體而言,對每個節(jié)點上的文本對,利用編碼器進行局部匹配,從而將長文本匹配轉(zhuǎn)化為節(jié)點上的短文本匹配;再通過圖神經(jīng)網(wǎng)絡(luò)來將文章結(jié)構(gòu)信息嵌入到匹配結(jié)果中,綜合所有的局部匹配結(jié)果,來得到全局匹配的結(jié)果。
圖 7. 基于 Concept Interaction Graph 和圖卷積神經(jīng)網(wǎng)絡(luò)的長文本匹配
第五章 基于層次化分解和對齊的短文本匹配
對于短文本匹配,論文提出了層次化句子分解(Hierarchical Sentence Factorization)來將句子分解為多層的表達,每一層都包含完整的所有單詞,并且語句重排列為「predicate-argument」的順序。隨著層數(shù)的增加,一個句子逐漸被分解為更加細粒度的語義單元。因此,利用這種多層次,重排序的句子表示,我們可以對齊兩個句子,并結(jié)合不同的語義粒度去比較他們的語義距離。
圖 8.基于層次化句子分解(Hierarchical Sentence Factorization)的句子匹配
這種句子分解技術(shù)利用了 Abstract Meaning Representation 來對句子做 semantic parsing。然后,它通過一系列的操作,使得每一層都包含句子中的所有單詞。對于每一個語義單元,都是謂詞(predicate)在前,參數(shù)(argument)在后。這種表示充分展現(xiàn)了自然語言的層次性,組合性,并利用歸一化的詞序來克服自然語言表達的靈活順序。
基于句子的層次分解,論文進一步提出無監(jiān)督的 Ordered Word Mover's Distance, 結(jié)合了最優(yōu)傳輸理論的思想去建模句子之間的語義距離。其效果經(jīng)試驗驗證顯著優(yōu)于 Word Mover's Distance。同時,論文也提出了將句子的多語義粒度表達,應(yīng)用于不同的文本匹配模型中,例如 Siamese Neural Networks 中。實驗證明,多粒度的匹配效果,顯著優(yōu)于只利用原句進行匹配的效果。
第二部分:文本挖掘
第六章 ConcepT 概念挖掘系統(tǒng)
概念蘊涵了世界的知識,促進了人類的認知過程。從文檔中提取概念并構(gòu)建它們之間的聯(lián)系對于文本理解以及下游任務(wù)有著重要的作用。認識「概念」(concept)是人類認識世界的重要基石。例如,當(dāng)看到本田思域(Honda Civic)或者現(xiàn)代伊蘭特(Hyundai Elantra)時,人們可以聯(lián)想到「油耗低的車」或者「經(jīng)濟型車」這類的概念,并且能進而聯(lián)想到福特?怂梗‵ord Focus)或者尼桑 Versa(Nissan Versa)等車型。
圖 9. 人類能對事物進行概念化并產(chǎn)生聯(lián)想
過去的研究工作,包括 DBPedia, YAGO, Probase 等等知識圖譜或者概念庫,從維基百科或者網(wǎng)頁文章中提取各種不同的概念。但是這樣提取的概念和用戶的認知視角并不一致。例如,與其認識到豐田 4Runner 是一款豐田 SUV 或者說是一種汽車,我們更感興趣是否能把它概念化為「底盤高的汽車」或者「越野型汽車」。類似地,如果一篇文章在討論《簡愛》,《呼嘯山莊》,《了不起的蓋斯比》等電影,如果我們能認識到它在討論「小說改編的電影」這個概念,那么會幫助極大。然而,目前的知識圖譜等工作目的是建立一個關(guān)于這個世界的結(jié)構(gòu)化知識表示,概念提取自語法嚴(yán)謹(jǐn)?shù)奈恼隆R虼,它們不能從用戶的視角去對文本(例?query 和 document)進行概念化,從而理解用戶的意圖。另一方面,目前的工作也主要在于提取長期穩(wěn)定的概念,難以提取短時間出現(xiàn)的熱門概念以(例如「賀歲大片」,「2019 七月新番」)及它們之間的聯(lián)系。
我們提出了 ConcepT 概念挖掘系統(tǒng),用以提取符合用戶興趣和認知粒度的概念。與以往工作不同的是,ConcepT 系統(tǒng)從大量的用戶 query 搜索點擊日志中提取概念,并進一步將主題,概念,和實體聯(lián)系在一起,構(gòu)成一個分層級的認知系統(tǒng)。目前,ConcepT 被部署在騰訊 QQ 瀏覽器中,用以挖掘不同的概念,增強對用戶 query 意圖的理解和對長文章的主題刻畫,并支持搜索推薦等業(yè)務(wù)。目前它已經(jīng)提取了超過 20 萬高質(zhì)量的基于用戶視角的概念,并以每天挖掘超過 11000 個新概念的速度在不斷成長。ConcepT 系統(tǒng)的核心算法架構(gòu)同樣適用于英語等其他語言。
圖 10. ConceptT 概念挖掘流程:從用戶搜索點擊日志中挖掘概念
ConcepT 系統(tǒng)還可以用于給文章打上概念標(biāo)簽。主要包含兩種策略:基于匹配的標(biāo)記算法和基于概率推斷的標(biāo)記算法。
圖 11. ConcepT 文章標(biāo)記流程:將文章打上關(guān)聯(lián)的概念標(biāo)簽
圖 12. ConcepT 系統(tǒng)從用戶搜索 query 中提取的概念展示
圖 13. 在線 A/B test 結(jié)果。ConcepT 系統(tǒng)對 QQ 瀏覽器信息流業(yè)務(wù)各項指標(biāo)有明顯提升。其中最重要的指標(biāo)曝光效率(IE)相對提升了 6.01%。
圖 14. ConcepT 系統(tǒng)對文章打上概念標(biāo)簽。目前每天可處理 96700 篇文章,其中約 35% 可以打上概念標(biāo)簽。我們創(chuàng)建了一個包含 11547 篇文章的概念標(biāo)記數(shù)據(jù)用以評測標(biāo)記的準(zhǔn)確率。人工評測發(fā)現(xiàn),目前系統(tǒng)的標(biāo)記準(zhǔn)確度達 96%。
第七章 用戶興趣點建模 Attention Ontology
上一章中,我們介紹了概念挖掘系統(tǒng)。為了更加全面的刻畫用戶興趣點,我們進一步挖掘包括概念(concept)和事件(event),話題(topic)等等在內(nèi)的多種短語,并和預(yù)定義的主題(category)以及實體庫中的實體(entity)等形成上下位等關(guān)系。我們將這個包含多種節(jié)點,多種邊關(guān)系,用于用戶興趣點或關(guān)注點建模的圖譜命名為 Attention Ontology。
圖 15. Attention Ontology,包含五種節(jié)點,代表不同語義粒度的用戶興趣點;三種關(guān)系,代表節(jié)點之間的上下位,包含,以及關(guān)聯(lián)。
Attention Ontology 可以解決「推薦不準(zhǔn)」和「推薦單調(diào)」的問題。例如:當(dāng)一個用戶看了關(guān)于「英國首相特蕾莎梅辭職講話」的文章后,目前基于關(guān)鍵詞的推薦系統(tǒng)可能會識別關(guān)鍵詞「特蕾莎梅」,從而推薦給用戶很多關(guān)于特蕾莎梅的文章。然而這大概率并不是用戶的興趣點。這是「推薦不準(zhǔn)」的問題,原因在于系統(tǒng)中缺乏或無法識別合適粒度的興趣點。另一方面,系統(tǒng)也可能繼續(xù)推薦更多關(guān)于「英國首相特蕾莎梅發(fā)表演講」的文章,這些文章與用戶已經(jīng)瀏覽過的文章產(chǎn)生了冗余,無法帶給用戶更多有價值的信息,因此用戶也不感興趣。這是「推薦單調(diào)」的問題,而這個問題的本質(zhì)在于缺乏不同興趣點之間的聯(lián)系。
Attention Ontology 中包含不同粒度的用戶興趣點,并且不同的節(jié)點之間有邊來表示它們之間的聯(lián)系。例如根據(jù) Attention Ontology,我們可以認識到「特蕾莎梅辭職講話」是和「英國脫歐」這一中等粒度的興趣點相關(guān)的。如果用戶瀏覽了「英國脫歐」這一興趣點下的不同事件的文章,我們便可以識別出用戶不是關(guān)注「特蕾莎梅」這個人或者「特蕾莎梅辭職演講」這一個特定事件,而是關(guān)心「英國脫歐」這一話題。而另一方面,知道了用戶關(guān)注這一話題之后,利用不同興趣點之間的聯(lián)系,我們可以給用戶推薦相關(guān)的文章,從而解決推薦不準(zhǔn)和推薦單調(diào)的問題。
為了挖掘不同性質(zhì)的短語,如概念和事件短語,論文提出了 Query-Title Interaction Graph(QTIG)用于建模 query 文章 title 之間的聯(lián)系。這種表示結(jié)構(gòu)將不同 query 和 title 之間的對齊信息,詞的 tag,詞之間的距離,語法依賴等等信息嵌入在節(jié)點特征和邊的特征中。利用這種表示,論文進一步提出 GCTSP-Net 模型,將短語挖掘問題建模為「節(jié)點分類+節(jié)點排序」的問題。該模型對 QTIG 進行節(jié)點二分類,抽取出屬于目標(biāo)短語的詞;再將節(jié)點排序建模為一個旅行商問題,尋找一個最優(yōu)路徑將所有的分類為正的節(jié)點進行排序。按照得到的路徑,將分類為正的節(jié)點串聯(lián)起來,便得到了輸出短語。
圖 16. Query-Title Interaction Graph. 圖中綠色節(jié)點為屬于輸出短語的詞。每一個節(jié)點代表 query 或 title 中的一個獨特的詞,邊代表兩個詞相鄰或者存在語法依賴。
論文設(shè)計并實現(xiàn)了構(gòu)建 Attention Ontology 并將其應(yīng)用在不同應(yīng)用中的 GIANT 系統(tǒng)。GIANT 系統(tǒng)包含幾大模塊:首先,根據(jù)用戶的搜索 query 和點擊日志形成的二分圖,來進行聚類得到不同的 query-doc clusters。每個 query-doc cluster 包含一個或多個相似的 query,以及他們的 top 點擊的文章。對每一個 query-doc cluster, 我們將其轉(zhuǎn)化為 Query-Title Interaction Graph 表示,并利用 GCTSP-Net 抽取潛在的短語。接下來,我們再利用不同的算法去抽取不同短語之間的關(guān)系,形成 Attention Ontology。最后,利用 Attention Ontology 去實現(xiàn)多種應(yīng)用,包括文章的 tagging,query 的概念化,文本的聚類組織等。同時,Attention Ontology 中的節(jié)點可用于在用戶畫像中描述用戶的興趣點。這樣可以提高用戶和其感興趣的文章之間的匹配,從而提高推薦系統(tǒng)的效果。
圖 17. GIANT 系統(tǒng)架構(gòu)
第三部分:文本生成
第八-九章 問答對自動生成
問題生成是一種非常重要的文本生成問題,它可以應(yīng)用在問答系統(tǒng)的訓(xùn)練數(shù)據(jù)生成,對話系統(tǒng),教育等等應(yīng)用中。
圖 18. 問題生成的不同應(yīng)用及重要性
已有的問題生成系統(tǒng)一般給定一句話和一個答案,要求系統(tǒng)生成某個特定的問題。這種系統(tǒng)屬于 answer-aware question generation 系統(tǒng)。然而,它們生成的問題質(zhì)量并不夠好。一個核心問題在于,給定輸入的句子和一個答案,我們能問出多個不同的并且合理的問題,是「一對多匹配(one-to-many mapping)」,而訓(xùn)練集中每個輸入只有一個標(biāo)準(zhǔn)答案,是「一對一匹配(one-to-one mapping)」。
圖 19. 根據(jù)同樣的輸入可以問不同的問題
本文提出 answer-clue-style aware question generation(ACS-QG)任務(wù),將人提問的過程建模成四步:第一,根據(jù)輸入選擇一部分作為答案(answer);第二,選擇一部分和答案相關(guān)的信息作為線索(clue)在問題中復(fù)述或轉(zhuǎn)述;第三,根據(jù)答案選擇問題的種類(style),例如 who, where, why 等等,共 9 種;第四,根據(jù)輸入的句子和以上三種信息(答案 answer,線索 clue, 問題種類 style),生成問題。
圖 20. 根據(jù)輸入生成問題的過程
問題生成的過程可以從語法樹的角度去觀察:選擇答案片段就像是從語法樹中覆蓋了一部分信息,而選擇線索片段(clue)的過程就是在覆蓋的信息附近,選擇一部分節(jié)點作為提示輸出到問題中。
圖 21. 利用語法樹建模問題生成過程
本文提出的 ACS-QG 系統(tǒng),可以從無標(biāo)注的句子中,生成高質(zhì)量的問答對數(shù)據(jù)。它由以下模塊組成:數(shù)據(jù)集創(chuàng)建模塊,可以從目前已有的問答數(shù)據(jù)集(例如 SQuAD)中,創(chuàng)建 ACS-QG 任務(wù)的訓(xùn)練數(shù)據(jù)集;輸入選擇模塊,可以從無標(biāo)注的句子中,合理的選擇和創(chuàng)建(answer, clue, style)三元組作為問題生成的輸入;問題生成模塊,可以利用輸入三元組生成問題,這個模塊的訓(xùn)練數(shù)據(jù)來自于第一個數(shù)據(jù)集創(chuàng)建模塊;質(zhì)量控制模塊,用于過濾低質(zhì)量的問答對。
圖 22. ACS-QG 問題生成系統(tǒng)
實驗證明,ACS-QG 系統(tǒng)能生成大量高質(zhì)量的問答對,并且效果顯著優(yōu)于一系列已有的問題生成算法。
第十章 結(jié)論和未來工作
本論文利用圖結(jié)構(gòu)建模了一系列 NLP 問題中的文本數(shù)據(jù),并結(jié)合深度學(xué)習(xí)模型,提高了多種任務(wù)的效果。論文中的各種研究,對信息的聚類組織,推薦,以及理解有著重要的意義。
未來的研究方向包括:長文本理解,多任務(wù)協(xié)同學(xué)習(xí),以及通用的基于圖結(jié)構(gòu)的表示,學(xué)習(xí)與推理。
本論文中的研究已經(jīng)發(fā)表在 SIGMOD,KDD,ACL,WWW,TKDD,CIKM 等各類 top conference 中,論文列表可在作者個人主頁找到:https://sites.ualberta.ca/~bang3/publication.html
本文為機器之心發(fā)布,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
------------------------------------------------