统计分词-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

统计分词

阅读量：5999 次

发布时间：2019-06-20

本文共 238 字，大约阅读时间需要 1 分钟。

思想：

把每个词看成是各个字组成，如果相连的字在不同的文本中出现次数越多，相连的字很可能是一个词

利用字与字相邻出现的频率反映词的可靠度

buzhou：

建立统计语言模型

对句子进行单词划分，然后对划分结果进行概率计算，获得最大概率的分词方式

语言模型：

长度为m的字符串确定其概率分布为P(w1,w2,.......wm)其中，w1,w2,wm依次表示文本中的各个词语

转载于:https://www.cnblogs.com/hapyygril/p/9924188.html

你可能感兴趣的文章

LVS集群的基础概念篇

python中read() readline()以及readlines()用法

网络知识汇总(1)-朗文和牛津英语词典网址

选择排序(C语言实现) 分类：数据结构 2015-...

Quartz_1_简单编程式任务调度使用（SimpleTrigger）

web api 初体验解决js调用跨域问题

centos 安装docker

互联网架构的三板斧

阿里巴巴MySQL DBA面试题答案[转]

JS乘法口诀表(一行代码)

网络、会话建立与信任

系统级性能分析工具perf的介绍与使用

spring remoting源码分析--Hessian分析

phpMyAdmim和Yii 连接Mysql报错。

shell语法简单介绍

MyEclipse 6.5 代码自动提示功能配置教程

Java程序员面试失败的5大原因

我认识的python(5)

报表性能优化

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-01 16:28:14 当前IP: 52.15.70.0 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我