我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:白小姐 > 分词 >

人工智能中的基础算法:中文分词

归档日期:04-20       文本归类:分词      文章编辑:爱尚语录

  最开始用的是传统的机器学习方法,什么SVM、最大熵方法,需要人为手动的构造很多特征,来考虑上下文和字本身,比如BMES的状态转移特征。优点:考虑上下文,数据驱动;缺点:大量特征工程。

  后来, CRF(条件随机场)的出现,通过特征向量,使得转移特征和局部特征自动集成到模型中,需要考虑的是字本身的特征,降低了特征工程的工作量。在深度学习时代之前,CRF基本是分词的标配,相当于智能机出现之前的诺基亚,精度可达到95%。

  最近十年,深度学习的兴起,通过双向LSTM和字向量技术,将特征工程工作量基本压缩为0,主要的工作体现在模型设计和获取数据上。与CRF相比,LSTM从理论上来说,更能刻画远距离的上下文特征。深度学习虽然火热,但相对CRF来说,精度上提高有限。

  趋势上来看,SVM到CRF到LSTM,特征工程越来越少,但精度越来越高,达到了95%,远大于最大匹配方法的80%。

  除了字序列标注外,还有一些其他结构,比如通过CNN来提取特征,再比如通过设计异构网络来利用外部的词信息。有部分模型,用异构的网络结构来提取特征,模型设计变得相对复杂。而百度开源的中文词法分析模型(分词和词性),就是简单的字标注模型,整体准确率达到95.5%。

  从本质上而言,目前的深度学习网络,对于分词来说,主要体现在用词(或字)向量来蕴含语法、语义特征,用LSTM来提取上下文特征,进一步利用大规模的数据量来提高精度。基于字序列标注的模型,使得模型的泛化能力增强,对于未登录词(OOV)识别精度提高。一些挑战

  虽说分词精度达到了95%,甚至是97%,但到专业领域,比如医疗领域、电商领域,很多专业词汇,使得现有的算法精度不是很高。

  另外一种方法,是通过标注该专业领域数据来解决,但需要标注团队,就是很多人工。

  总之,分词的监督式算法原理相对成熟,但对专业领域,很多时候不是那么好用。

本文链接:http://frankstella.net/fenci/85.html