您的位置: 内蒙古时时彩走势 > SEO教程 > SEO基础教程 > 正文

内蒙古时时彩技巧:seo干货_百度分词技术 百度分词工具

内蒙古时时彩走势 www.j9v65.com.cn 发布时间:2018-01-10 10:39:11 来源:内蒙古时时彩走势 编辑:SEO知否    人点击

  百度分词技术就是百度针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。[1] 所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词。词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知 识都来自机器词典(给出词的各项信息) 、句法规则(以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用) ,就需要以词为基本单位。当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性??梢运?分词是机器 语言学的基础。

5.jpg

  百度分词的4个原理:

  1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“大学堂”。

  2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“学”字的时候,百度它自认的把“学习”也当成了一个关键词,所以出现“学习”这个词标红,这就是百度分词法:基于统计分词。

  3、基于字符串匹配(百度的分词法:正向最大切词法)

  最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“湖南大学堂屋顶”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)(湖南大学堂屋顶)正向分法:湖南大学 堂屋 顶 (刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中“大地”不是一个词。

  4、基于专有词库。比如杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。

  分词工具(没有百度的,收集了几个开源的分词工具):

  1、ICTCLAS – 全球最受欢迎的汉语分词系统

  2、HTTPCWS – 基于HTTP协议的开源中文分词系统

  3、SCWS – 简易中文分词系统

  4、PhpanAlysis - PHP无组件分词系统

  5 、MMSEG4J

  6、盘古分词

  7、IKAnalyzer 开源的轻量级中文分词工具包


相关推荐

    无相关信息
  • 中化能源科技全力助推可持续发展的石化区块链应用 2019-02-22
  • 你就是小小文学家!“长城小作家”开始招募啦! 2019-02-22
  • 《汶川十年·我们的故事》二:代国宏 2019-02-21
  • 发福利啦!端午节看呆萌海狮秀,抽千张欢乐谷门票 ——凤凰网房产北京 2019-02-21
  • 《朝圣之路》第三季直面邪教争议性问题 2019-02-20
  • 从新的历史起点出发奋力实现中国梦 2019-02-20
  • 广州市番禺区:搭建电梯事务社区治理平台 2019-02-19
  • 特朗普及美国的国家信誉已经严重受损 2019-02-19
  • 高考表情:好朋友,一起加油!【高清组图】 2019-02-18
  • 山西发布2018年端午节旅游消费提示 2019-02-18
  • 6月21日18时7分“夏至”:昼长夜短,一阴始生 2019-02-18
  • 网友辣评:伊朗守护亚洲荣光 摩洛哥乌龙小哥让人心疼 2019-02-17
  • 第四届世界互联网大会成果丰硕圆满落幕 130多亿元互联网项目签约 2019-02-17
  • 社会消费品零售总额 上月增长8.5% 2019-02-17
  • 第三十五期:强生公司董事长兼CEO亚力克斯·戈尔斯基 2019-02-17
  • 106| 165| 864| 873| 203| 548| 267| 928| 515| 412|