首页 - 下载首页 - PHP源码 - 搜索引擎 - PHP中文分词代码 v1.0 UTF-8

PHP中文分词代码 v1.0 UTF-8

  • 软件大小:2.6MB
  • 软件语言:简体中文
  • 软件类别:国产软件 / 搜索引擎
  • 运行环境:PHP
  • 软件界面:界面预览
  • 更新时间:2011-11-22
  • 软件评级:
  • 授权方式:免费软件
  • 开 发 商:http://www.phpsou.com/
  • 下载统计:
HostEase美国主机
在站长百科中阅读php分词信息

软件简介

分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与 标注相结合的一体化方法。常用的几种机械分词方法如下:


   1)正向最大匹配法(由左到右的方向);
   2)逆向最大匹配法(由右到左的方向);
   3)最少切分(使每一句中切出的词数最小)。


   还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向 最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169, 单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各 种其它的语言信息来进一步提高切分的准确率。

  一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明 显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类 信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

【TAG】: 中文分词   php分词   php中文分词  
美国服务器优惠信息

请点击下面的链接进行下载    PHP中文分词代码 v1.0 UTF-8     错误报告

注意事项

  • 如果您发现该软件不能下载,请通知管理员.
  • 为了保证您快速的下载,推荐使用[网际快车]等专业工具下载.
  • 为确保所下软件能正常使用,请使用[WinRAR v3.70]或以上版本解压本站软件.
  • 站内软件包含破解及注册码均由网上搜集,若无意中侵犯到您的权利,敬请来信联系我们.
  • 如果下载回来的部分压缩包需要解压密码的话,解压密码就是:down.zzbaike.com

相关评论

回复↓ 评论内容摘要( 查看完整内容) 发表时间
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z