加入收藏 | 设为首页 | 会员中心 | 我要投稿 安卓应用网_福州站长网 (https://www.0591zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

文本挖掘:情感分析详细步骤(基础+源码)

发布时间:2021-02-18 08:31:46 所属栏目:大数据 来源:网络整理
导读:副标题#e# 词典型情感分析大致有以下几个步骤: 训练数据集、neg/pos情感词典、分词+数据清洗清洗(一、二、三级清洗步骤)、计算情感得分、模型评价 (1)在分析过程中,难免会产生很多中间变量,它们会占用大量内存。书中提到通常会将所有的临时中间变量

解决方案:需要调整,需要sep = """,来划分开。除了英文逗号可能引起`read.csv`函数读取csv文件报错以外,
#还有英文单引号(')、英文双引号(")、波浪号(~),都会引起读取时发生警告,带来csv文件或txt文件读取不完整的后果


二、正向、逆向情感词典


1、词典导入与处理


市面上关于情感词典,有多家研究机构进行了分析,并且公布了结果,比如大连理工、汉语情感词极值表、台湾大学情感NTUSD、知网Hownet情感词、中文褒贬义词典v1.0(清华大学李军)等,有些词典分为正向、逆向单词两个部分;有些放在一起,然后有单独的标签,可以cbind合并在一起。本文引用的是谭松波老师的正向、逆向情感词典。


  1. #1、情感正向词,词组+打“+1”-label??

  2. pos?<-?read.csv("./pos.csv",?sep?=?",",?stringsAsFactors?=?F)??

  3. weight?<-?rep(1,?length(pos[,1]))??

  4. pos?<-?cbind(pos,?weight)??

  5. ??

  6. #2、情感负向词,词组+打“-1”-label??

  7. neg?<-?read.csv("./neg.csv",?stringsAsFactors?=?F)??

  8. weight?<-?rep(-1,?length(neg[,1]))??

  9. neg?<-?cbind(neg,?weight)??

代码解读:weight是标签,主动贴在正向、逆向词典上。然后进行正向、逆向词典的合并。


  1. #3、正、负向词组合并??

  2. posneg?<-?rbind(pos,?neg)??#正负词典合并??

  3. names(posneg)?<-?c("term",?"weight")??

  4. posneg?<-?posneg[!duplicated(posneg$term),?]#`duplicated`函数的作用和`unique`函数比较相似,它返回重复项的位置编号??


(编辑:安卓应用网_福州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!