admin 管理员组

文章数量: 887021


2023年12月17日发(作者:html5怎么建网站)

龙源期刊网

基于共现词的中文微博观点句识别

作者:郑诚等

来源:《电脑知识与技术》2014年第11期

摘要:近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。由于微博平台数据量庞大,所以会导致提取带有用户观点的句子较为困难,如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,该文将传统观点句识别方法与共现词相结合,提出了基于共现词的中文微博观点句识别算法。该文的研究内容包含以下几点:首先,利用主题模型对数据进行聚类分析,提取具有内容代表性的词语,组成共现词集合;然后,使用Stanford Parser句法分析工具对微博数据进行句法分析并且进行模板匹配,识别出较为明显的观点句;最后,使用共现词与2-POS[1]等特征,识别句法分析无法识别的观点句。

关键词:微博;观点句;主题模型;LDA;共现词

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)11-2618-04

随着国外Twitter等微博的风靡,我国国内的微博也开始发展,截至2013年11月,我国微博账号总数已经突破13亿。用户可以在微博平台上自由发表观点与意见,而这些信息有着巨大的潜在价值。微博的观点句识别技术可以帮助人们快速,准确地获得自己感兴趣的内容中的民众观点。因此,近年来微博的观点识别研究逐渐成为了热点。但是,与传统媒体相比,微博的观点句识别更加具有难度。目前,国内对于微博观点句识别的主要技术可以分为两类[2]:基于词典与规则匹配的识别方法和基于统计的识别方法。基于词典与规则匹配的识别方法主要使用情感词本体或者情感词典作为识别的基础。基于统计的识别方法主要使用了支持向量机(SVM),朴素贝叶斯(Naive Bayes)等[3]在已经标注好的语料上进行训练,然后使用训练所得到的分类器进行分类。但是这两类方法很少考虑到微博内容的聚集性特征。

本文决定使用LDA(Latent Dirichlet Allocation)[4]主题模型对微博内容进行分类,并提取出其中的共现词组成词对加入到观点句提取算法中。该文的研究内容:考虑微博数据的内容聚集性,将LDA主题模型与常用观点句提取算法相结合,并且通过实验验证了该方法的有效性。

1 背景

1.1 LDA模型介绍


本文标签: 观点 识别 内容 进行 提取