更新时间:2022年11月28日12时21分 来源:传智教育 浏览次数:
分词是指将由连续字符组成的语句,按照一定的规则划分成一个个独立词语的过程。不同的语言具有不同的语法结构,以常见的英文和中文为例,英文的句子中是以空格为分隔符的,所以可以指定空格为分词的标记,而中文并没有一个形式上的分界符,它只有字、句和段能通过明显的分界符来简单地划分。因此,中文分词要比英文分词困难很多。
根据中文的结构特点,可以把分词算法分为以下三类:
基于规则的分词方法,又称为机械分词方法,它是按照一定的策略将待分析的中文句子与一个“充分大的”机器词典中的词条进行匹配。如果在词典中找到了某个字或词语,则表示匹配成功。
基于规则的分词方法,其优点是简单且易于实现,缺点是匹配速度慢,而且不同的词典产生的歧义也那你慢慢弄,,,吗会不同。
基于统计的分词方法,它的基本思想是常用的词语是比较稳定的组合。在上下文中,相邻的字同时出现的次数多,就越有可能构成一个词,所以字与字相邻出现的频率能够较好地反映成词的可信度。当训练文本中相邻出现的紧密程度高于某个阈值时,便可以认为此字组可能构成了一个词。
基于统计的分词方法所应用的主要统计模型有:N元文法模型(N-gram)、隐马尔可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等。
基于理解的分词方法是通过计算机模拟人对句子的理解,达到识别词的效果,它的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息处理歧义对象。这种分词方法需要使用大量的语言知识和信息。
由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。