300字范文 > NLP入门之综述阅读-自然语言处理发展及应用综述

NLP入门之综述阅读-自然语言处理发展及应用综述

时间：2022-05-10 20:38:19

NLP入门-综述阅读-【自然语言处理发展及应用综述】

1 前言2 自然语言处理的发展3 自然语言处理的研究方法和内容3.1 自然语言处理的研究方法3.2 自然语言处理基础研究3.2.1 词法分析3.2.2 句法分析3.2.3 语义分析3.2.4 语用分析4 自然语言处理的技术领域4.1 信息抽取（IE）4.1.1 信息抽取的主要方法4.1.2 信息抽取的主要工作4.2 自动文摘4.2.1 自动文摘的分类4.2.2 自动文摘生成方法5 自然语言处理的预测和展望总结

青岛理工大学-赵京胜等人-7月

摘要：自然语言处理涉及许多领域，包括词汇、句法、语义和语用分析，文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关技术的发展，自然语言处理的应用需求也越来越大。分析自然语言处理的相关背景、常用方法和应用领域，并对 NLP 的发展进行了展望。

关键词：自然语言处理；信息抽取；自动文摘

1 前言

自然语言处理主要分两个流程：自然语言理解NLU和自然语言生成NLG

自然语言理解NLU主要是理解文本的含义，具体到每个单词和结构都需要被理解

自然语言生成NLG通过评估情况和可用的交际资源来计划如何实现目标，并将计划形成文本

2 自然语言处理的发展

1956年以前：萌芽期

1957-1970年：快速发展期

1971-1993年：低谷发展期

1994年至今：复苏融合期

隐马尔可夫模型？（好像经常听到，只能学了！冲！）

3 自然语言处理的研究方法和内容

3.1 自然语言处理的研究方法

中文信息处理主要是对字、词、段落或篇章进行处理。主要方法分别是基于规则和基于统计的方法，前者是人工根据语言相关的规则对文本进行处理；后者则是通过大规模的数据库分析数据，从而实现对自然语言的处理。

自然语言处理受数据影响较大，而数据的增长是大多数 NLP 应用（如机器翻译）性能提高的原因，所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析，这使得如今很多NLP 应用程序采用数据流分析方法。

自然语言处理的大致流程：

1）获取语料

2）对语料进行预处理，其中包括语料清理、分词、词性标注和去停用词等步骤

3）特征化，即向量化，主要把分词后的字和词表示成计算机可计算的类型（向量），这样有助于较好的表达不同词之间的相似关系

4）模型训练，包括传统的有监督、半监督和无监督学习模型等，可根据应用需求不同进行选择。但在模型训练时可能会出现过拟合和欠拟合的状况。解决过拟合的方法主要有增加正则化项从而增大数据的训练量，解决欠拟合则要减少正则化项，增加其他特征项处理数据才行。

5）对建模后的效果进行评价，常用的评测指标有准确率、召回率、F值等。准确率是衡量检索系统的查准率；召回率是衡量检索系统的查全率；而F值是综合准确率和召回率用于反映整体的指标，当F值较高时则说明试验方法有效。

3.2 自然语言处理基础研究

3.2.1 词法分析

词法分析主要包括分词、词性标注、命名实体识别和词义消歧。

词性和词义标注是词法分析的主要任务。词性是词汇最基本的语法属性，使用词性标注便于判定每个词的语法范畴。词义标注、词义消歧主要解决多语境下的词义问题，因为在多语境下一个词可能会拥有很多含义，但在固定情境下意思往往是确定的。在中文自然语言处理的分词模块中，词法分析是最核心的一部分，只有做好分词工作，剩下的工作才能顺利进行。

命名实体识别的主要任务是识别文本中具有特定意义的词语如人名、地名等，并为其添加标注，是自然语言处理的一个重要工具。

词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。

3.2.2 句法分析

句法分析的主要任务是为了确定句子中各组成成分之间的关系，也就是其句法结构，技术实现上主要分为修辞结构分析和依存关系分析，功能上可分为完全句法分析和局部句法分析。

完全句法分析是要通过一套完整的分析过程获得一个句子的句法树，局部分析也叫浅层分析，仅获得局部成分的语法。目前应用较多的依存分析是指对句子中词汇之间的依存关系进行分析。

对完全句法分析来说，Chomsky 形式文法是极为重要的理论，根据重写规则分为 4 级，分别是 0 型文法（无约束文法）、1 型文法（上下文有关文法）、2 型文法（上下文无关文法）和 3 型文法（正则文法）。这 4 种文法统称为短语结构语法。

浅层句法分析可分为两个子任务：其一是识别和分析语块，其二是分析语块之间的依附关系。依存句法也称从属关系语法。一个依存关系可分为核心词和依存词。核心词是一个句子的根节点，一个句子只有一个，它负责支配句子中的其他词，核心词一般与依存词之间存在着一定的关系，如主谓关系、动宾关系和并列关系等。