自然語言處理技術(NLP)究竟能做些什么?
小編:管理員 14閱讀 2022.07.28
自然語言處理(Natural Language Processing,縮寫作 NLP)是人工智能(AI)領域的一個重要分支,被廣泛應用于聊天機器人、機器翻譯和搜索引擎等場景。為幫助大家更好地理解NLP技術,騰訊云大學為大家整理了大咖課程《探索 NLP 自然語言處理》的回顧,幫助大家更好地理解NLP自然語言處理技術。
什么是自然語言處理(NLP)?自然語言的概念其實是相對于人工語言來說的。什么是人工語言呢?例如,編程語言就是人工語言的一種,是為了讓計算機簡單地執行人給出的指令而設計出來的人工語言。而自然語言是人類之間溝通時自然發展出來的語言。
自然語言處理技術(以下簡稱“NLP”)是人工智能的重要技術之一,它能讓計算機理解語言、輸出語言,并最終接近人類的思維模式。
自然語言、自然語言處理和編程語言的關系如下圖所示。

自然語言處理是包括了計算機科學、語言學、心理認知學等一系列學科的一門交叉學科,發展趨勢是從規則到統計再到深度學習,而這些發展大致經歷了以下四個階段。
- 萌芽期(1956年以前)
1956著名的圖靈測試被認為是NLP的思想開端,這個時期誕生了基于規則和基于概率兩種不同的NLP技術。
- 快速發展期(1957年-1970年)
在這個時期,更多學者注重于研究推理和邏輯問題,因此使用基于規則的派系比基于概率的派系發展勢頭更迅猛。
- 低速發展期(1971年-1993年)
由于NLP的應用無法在短期內得到解決,很多學者對于NLP的研究喪失了信心,導致NLP的研究發展進入了低谷期。
- 復蘇融合期(1994年至今)
計算機的速度和存儲大大增加,為NLP的技術研究奠定物質基礎,使NLP的商品化成為可能;1994年internet的商業化和同時期網絡技術的發展,使得信息檢索和信息抽取的需求大增,讓更多學者逐漸引入深度學習來做NLP的研究,NLP多種領域的研究皆取得一定的成功。

值得關注的是,在第四個階段的90年代中期以后,有兩個關鍵事件從根本上促進了NLP研究的復蘇與發展:第一件事是90年代中期以來,計算機的速度和存儲量大幅增加,為NLP的研究改善了物質基礎,使得NLP的商品化成為可能;另一件事是1994年Internet商業化和同期網絡技術的發展使得基于自然語言的信息檢索和信息抽取的需求變得更加突出。
三、自然語言處理的基本任務NLP的基本任務分為三大類:詞法分析、句法分析和篇章分析。
詞法分析是NLP的基礎性工作,包含分詞、詞性標注和命名實體識別。
句法分析是對自然語言進行句子層面的分析,要包含句法依存分析、語義依存分析和文本糾錯。
篇章分析是對給定的文本進行分析和理解,主要包含關鍵詞提取、情感分析、文本分類和自動摘要。

騰訊云自然語言處理深度整合了騰訊內部包括微信AI、AI Lab、信息安全團隊和知文團隊等在內領先的NLP技術,依托海量中文語料累積,全面覆蓋詞法、句法、篇章等NLP能力,在不同的垂直領域和6大BG應用場景有深厚的經驗累積。騰訊云的NLP產品矩陣正是基于這些技術積累而推出的。


知文NLP平臺除了具備三大基本能力外,還增加了向量技術,滿足開發者更靈活的需求。
五、NLP究竟能做什么?NLP究竟能做些什么呢?接下來我們以知文NLP平臺為例,講一講NLP的幾大能力如何發揮作用。
如下圖所示,知文NLP平臺基本版包含篇章分析、句法分析和詞法分析功能,除此以外還額外提供向量技術,以滿足開發者們更靈活的需求。高級版還具備敏感詞識別和文本審核功能。

1.詞法分析
詞法分析能力主要具備三個功能:智能分詞、詞性標注功能和命名實體識別。比如在下圖的例子中,我們可以看到知文NLP平臺如何將連續的自然語言文本切分成詞匯序列,并且識別出相應的詞性和文本中的實體。

命名實體識別是自然語言處理的一個基本任務,是信息抽取,機器翻譯、問答系統等功能的基礎。

2.句法分析
句法分析能力具備兩個功能:句法依存分析和文本糾錯。句法依存分析是利用句子中詞與詞之間的依存關系來表示詞語的句法結構信息。


3.篇章分析
篇章分析能力提供了四個功能:關鍵詞提取、情感分析、文本分類和自動摘要。關鍵詞提取功能可以為用戶實現諸如新聞內容關鍵詞自動提取、評論關鍵詞提取等提供基礎服務。

情感分析功能可以對信息進行情感上的正向、負向及中性進行評價。在輿情監控、話題監督、口碑分析等商業分析領域有非常重要的應用價值。


向量技術指的是將一個詞或句子用向量來表示,是自然語言處理領域中最基礎的組件。
知文NLP平臺的向量技術提供四個功能:詞向量、句向量、詞義相似度和短文本相似度,后兩個功能是擴展性功能。


以上是知文NLP平臺基礎版的能力。在高級版中,我們提供了敏感詞識別和文本審核兩個功能。這兩個功能可以實現識別信息的色情、政治等敏感程度,并返回對應的敏感詞。


六、NLP實際應用場景
場景一:某保險公司的智能核保項目。使用知文NLP平臺的關鍵詞提取功能,為保險公司的體檢報告復核頁面做結構化抽取,然后把結構化抽取的結果給到保險公司用于他們的智能核保項目。

場景二:幫助某社交媒體快速地識別海量文本,過濾掉其中不合規的文本,代替人工審核。

場景三:幫助某個應用軟件用戶找到滿足他們需求的APP。通過對每個APP的文本信息進行信息抽取,并進行文本分類,就可以將APP準確歸類到各對應的二三級標簽下,這樣當用戶使用時,就能快速找到他們想要的APP。

場景四:某銀行的投訴工單智能分類及解析。這個項目主要拆分為投訴信息提取、投訴分類分析,投訴信息提取運用了文本糾錯和關鍵詞抽取的接口;投訴分類幫助銀行聚焦熱門的投訴問題。

NLP能夠在輿論監測、信息審核等很多場景下發揮出重要的作用,關于如何操作使用知文NLP平臺,大家可以點擊文末【點擊查看完整課程視頻】,觀看完整課程錄播視頻,還可以到騰訊云官網產品頁中搜索“NLP”來親自體驗和使用知文平臺。
Q&AQ:騰訊云知文NLP平臺的優勢是什么?
A:主要是三大優勢:技術領先、語料格外豐富、模型迭代快。
Q:騰訊云知文NLP主要有哪些使用場景?
A:使用場景很廣泛,只要有大量的文本數據場景,都可以使用我們的智能接口。比如社交媒體的用戶發言分析,我們可以監測他們的輿論變化。
Q:騰訊云NLP產品后續是否會有免費使用的額度?如果付費的話,價格如何?
A:目前還處于公測階段,是全免費的。到今年10月1日我們將結束公測,之后會根據用戶的使用情況來給到一個具有市場競爭力的價格。而且之后付費階段我們頁會給每個用戶提供一些試用包,讓大家可以有試用的機會。
相關推薦