博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
统计分词
阅读量:5999 次
发布时间:2019-06-20

本文共 238 字,大约阅读时间需要 1 分钟。

思想:

     把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词

     利用字与字相邻出现的频率反映词的可靠度

buzhou:

    建立统计语言模型

    对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式

语言模型:

   长度为m的字符串确定其概率分布为P(w1,w2,.......wm)其中,w1,w2,wm依次表示文本中的各个词语

转载于:https://www.cnblogs.com/hapyygril/p/9924188.html

你可能感兴趣的文章
LVS集群的基础概念篇
查看>>
python中read() readline()以及readlines()用法
查看>>
网络知识汇总(1)-朗文和牛津英语词典网址
查看>>
选择排序(C语言实现) 分类: 数据结构 2015-...
查看>>
Quartz_1_简单编程式任务调度使用(SimpleTrigger)
查看>>
web api 初体验 解决js调用跨域问题
查看>>
centos 安装docker
查看>>
互联网架构的三板斧
查看>>
阿里巴巴MySQL DBA面试题答案[转]
查看>>
JS乘法口诀表(一行代码)
查看>>
网络、会话建立与信任
查看>>
系统级性能分析工具perf的介绍与使用
查看>>
spring remoting源码分析--Hessian分析
查看>>
phpMyAdmim和Yii 连接Mysql报错。
查看>>
shell语法简单介绍
查看>>
MyEclipse 6.5 代码自动提示功能配置教程
查看>>
Java程序员面试失败的5大原因
查看>>
我认识的python(5)
查看>>
Promise实现
查看>>
报表性能优化
查看>>