【三】头歌平台实验-FreeNAS中文网

admin 管理员组

文章数量: 887006

【三】头歌平台实验

规则分词是通过设立词典并不断地对词典进行维护以确保分词准确性的分词技术。基于规则分词是一种匹配式的分词技术，要进行分词的时候通过在词典中寻找相应的匹配，找到则进行切分，否则不切分。传统的规则式分词主要有三种：正向最大匹配法、逆向最大匹配法以及双向最大匹配。

第1关：正向最大匹配法

要求：实现正向最大匹配算法，基于所输入的词典，完成对 sentence 的分词并输出分词结果。

def cutA(sentence, dictA):
# sentence：要分词的句子result = []sentenceLen = len(sentence)n = 0maxDictA = max([len(word) for word in dictA])# 任务：完成正向匹配算法的代码描述，并将结果保存到result变量中# result变量为分词结果# ********** Begin *********#while sentenceLen>0:word=sentence[0:maxDictA]while word not in dictA:if len(word)==1:breakword=word[0:len(word)-1]result.append(word)sentence=sentence[len(word):]sentenceLen=len(sentence)# ********** End **********#print(result)  # 输出分词结果

第2关：逆向最大匹配法

要求：实现逆向最大匹配算法，基于所输入的词典，完成对 sentence 的分词并输出分词结果。

def cutB(sentence,dictB):result = []sentenceLen = len(sentence)maxDictB = max([len(word) for word in dictB])# 任务：完成逆向最大匹配算法的代码描述# ********** Begin *********#while sentenceLen>0:   word=sentence[-maxDictB:]while word not in dictB:if len(word)==1:breakword=word[1:]result.append(word)sentence=sentence[0:len(sentence)-len(word)]sentenceLen=len(sentence)# ********** End **********#print(result[::-1],end="")

第3关：双向最大匹配算法

要求：实现双向最大匹配算法，基于所输入的词典，完成对 sentence 的分词并输出分词结果。

class BiMM():def __init__(self):self.window_size = 3  # 字典中最长词数def MMseg(self, text, dict): # 正向最大匹配算法result = []index = 0text_length = len(text)while text_length > index:for size in range(self.window_size + index, index, -1):piece = text[index:size]if piece in dict:index = size - 1breakindex += 1result.append(piece)return resultdef RMMseg(self, text, dict): # 逆向最大匹配算法result = []index = len(text)while index > 0:for size in range(index - self.window_size, index):piece = text[size:index]if piece in dict:index = size + 1breakindex = index - 1result.append(piece)result.reverse()return resultdef main(self, text, r1, r2):# 任务：完成双向最大匹配算法的代码描述# ********** Begin *********#r1_count=0r2_count=0if len(r1)>len(r2):print(r2,end="")elif len(r1)<len(r2):print(r1,end="")else:for i in r1:if len(i)==1:r1_count=r1_count+1for j in r2:if len(j)==1:r2_count=r2_count+1if r1_count==r2_count:print(r1,end="")elif r1_count>r2_count:print(r2,end="")else:print(r1,end="")# ********** End **********#

技术交流 – FreeNAS中文网

【三】头歌平台实验

【三】头歌平台实验

第1关：正向最大匹配法

相关知识：

1、中文分词简介

2、正向最大匹配法( MM 法)

第2关：逆向最大匹配法

相关知识：

1、逆向最大匹配法( RMM 法)

第3关：双向最大匹配算法

相关知识：

1、双向最大匹配法

更多相关文章

【三】头歌平台实验

发表评论

推荐文章

开机卡在gigabyte设置_有时候电脑开机，会卡在开机的LOGO界面？这种情况怎么解决？...

Github+Hexo+matery博客搭建

人工智能的前沿――智能体理论及其哲理

Automatic Subretinal Fluid Segmentation of Retinal SD

&quot;COM Surrogate 已停止工作&quot;解决方案（windows7 64位及32位）

热门文章

OMNeT++理论算法仿真详述

Stream笔记

Perl 精萃

计算机专业和儿童教育,雅思写作教育类高分范文

Windows Powershell 报错 [启动“powershell.exe”时出现错误 0x8007010b]解决方案

电脑系统重装小白教程

第一步：阿里云服务器环境搭建（手把手带你玩转网站）

Windows7的图形架构与DX的那点事

Windows7下Java环境搭建（JDK环境变量配置）

Mac屏幕常亮：取消自动黑屏的多种解决方案

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版 ？从零基础到精通，收藏这篇就够了！

windows下查看系统证书（一）

"COM Surrogate 已停止工作"解决方案（windows7 64位及32位）

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！