<tbody id="h91jg"><pre id="h91jg"><menu id="h91jg"></menu></pre></tbody>

    1. <span id="h91jg"></span>
      1. <button id="h91jg"><object id="h91jg"><input id="h91jg"></input></object></button>

        自然語言處理的過去、現在與未來

        自然語言處理的過去、現在與未來

        2019-05-05 09:49:32  微科普
        本文作者:林峰

        2019-05-05 09:49:32
        作者:林峰
        來源:微科普
        字號:A+  A-
        自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等;前者稱為自然語言理解,后者稱為自然語言生成。用自然語言與計算機進行通信,有著十分重要的實際應用意義,也有著革命性的理論意義。
        自然語言處理(Natural Language Processing,簡稱NLP)

        NLP的過去

        最早的NLP研究工作是機器翻譯。1949年,美國工程師韋弗(W. Weaver)首先提出了機器翻譯的設計方案。20世紀60年代,許多科學家對機器翻譯曾有大規模的研究工作,耗費了巨額費用;但他們顯然是低估了自然語言的復雜性,語言處理的理論和技術均不成熟,所以進展不大。當時的主要做法是存儲兩種語言的單詞、短語對應譯法的大辭典,翻譯時一一對應,技術上只是調整語言的同條順序。但日常生活中語言的翻譯遠不是如此簡單,很多時候還要參考某句話前后的意思。

        大約90年代開始,NLP領域發生了巨大的變化。這種變化的兩個明顯的特征是:(1)對系統的輸入,要求研制的NLP系統能處理大規模的真實文本,而不是如以前的研究性系統那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統才有真正的實用價值。(2)對系統的輸出,鑒于真實地理解自然語言是十分困難的,對系統并不要求能對自然語言文本進行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進行自動地提取關鍵詞、摘要等。

        同時,由于強調了“大規模”和“真實文本”,因此兩方面的基礎性工作也得到了重視和加強:(1)大規模真實語料庫的研制。大規模的經過不同深度加工的真實文本的語料庫,是研究自然語言統計性質的基礎。沒有它們,統計方法只能是無源之水。(2)大規模、信息豐富的詞典的編制工作。規模為幾萬、十幾萬、甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計算機可用詞典對NLP的重要性是很明顯的。

        NLP的現在

        數據系統的輸入與輸出這兩個特征在NLP的諸多領域都有所體現, 其發展直接促進了計算機自動檢索技術的出現和興起。實際上, 隨著計算機技術的不斷發展, 以海量計算為基礎的機器學習、數據挖掘等技術的表現也愈發優異。自然語言處理之所以能夠度過“寒冬”, 再次發展, 也是因為統計科學與計算機科學的不斷結合, 才讓人類甚至機器能夠不斷從大量數據中發現“特征”并加以學習。不過要實現對自然語言真正意義上的理解,僅僅從原始文本中進行學習是不夠的,我們需要新的方法和模型。

        目前存在的問題主要有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關系和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統只能建立在有限的詞匯、句型和特定的主題范圍內;計算機的貯存量和運轉速度大大提高之后,才有可能適當擴大范圍。

        無論實現自然語言理解,還是自然語言生成,都遠不如人們原來想象的那么簡單,而是十分困難的。從現有的理論和技術現狀看,通用的、高質量的NLP系統,仍然是較長期的努力目標。正如中國知名學者周海中(筆名“周求知”)曾在《自然語言理解的研究歷程》一文中指出的“雖然現今市場上出現不少可以進行一定自然語言處理的商品軟件,但要想讓機器能像人類那樣自如地運用自然語言,仍是一項長遠而艱巨的任務。”造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。

        NLP的未來

        由于語言學、語言工程、認知科學等主要局限于實驗室,目前來看數據處理可能是NLP應用場景最多的一個發展方向。實際上, 自從進入大數據時代, 各大平臺就沒有停止過對用戶數據的深度挖掘。要想提取出有用的信息, 僅提取關鍵詞、統計詞頻等是遠遠不夠的, 必須對用戶數據 (尤其是發言、評論等)進行語義上的理解。另外,利用離線大數據統計分析的方法進行NLP任務的研究是目前非常有潛力的一種研究范式,尤其是谷歌、推特、百度等大公司在這類應用上的成功經驗,引領了目前大數據研究的浪潮。

        NLP是為各類企業及開發者提供的用于文本分析及挖掘的核心工具,已經廣泛應用在電商、文化娛樂、金融、物流等行業客戶的多項業務中。它可幫助用戶搭建內容搜索、內容推薦、輿情識別及分析、文本結構化、對話機器人等智能產品,也能夠通過合作,定制個性化的解決方案。由于理解自然語言,需要關于外在世界的廣泛知識以及運用操作這些知識的能力,所以NLP也被視為解決強人工智能的核心問題之一,其未來一般也因此密切結合人工智能發展。

        長文本的智能解析是頗具挑戰性的任務,如何從紛繁多變、信息量龐雜的冗長文本中獲取關鍵信息,一直是文本領域難題;這一難題有待解決。另外,訓練NLP文本解析人工智能系統需要采集大量多源頭數據集,對科學家來說是一項持續的挑戰:需要使用最新的深度學習模型,模仿人類大腦中神經元的行為,在數百萬甚至數十億的注釋示例中進行訓練來持續改進。當下一種流行的NLP解決方案是預訓練,它改進了對未標記文本進行訓練的通用語言模型,以執行特定任務。

        總而言之,NLP 的目標是讓計算機在理解語言上像人類一樣智能;它的最終目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。我們完全可以相信,隨著計算機科學和人工智能的發展,NLP對未來科技的進步將做出不可磨滅的貢獻。

        責任編輯:微科普

        >相關科普知識

        87午夜片神马影院福利