|
解决方案:需要调整,需要sep = """,来划分开。除了英文逗号可能引起`read.csv`函数读取csv文件报错以外, #还有英文单引号(')、英文双引号(")、波浪号(~),都会引起读取时发生警告,带来csv文件或txt文件读取不完整的后果
二、正向、逆向情感词典
1、词典导入与处理
市面上关于情感词典,有多家研究机构进行了分析,并且公布了结果,比如大连理工、汉语情感词极值表、台湾大学情感NTUSD、知网Hownet情感词、中文褒贬义词典v1.0(清华大学李军)等,有些词典分为正向、逆向单词两个部分;有些放在一起,然后有单独的标签,可以cbind合并在一起。本文引用的是谭松波老师的正向、逆向情感词典。
#1、情感正向词,词组+打“+1”-label??
pos?<-?read.csv("./pos.csv",?sep?=?",",?stringsAsFactors?=?F)??
weight?<-?rep(1,?length(pos[,1]))??
pos?<-?cbind(pos,?weight)??
??
#2、情感负向词,词组+打“-1”-label??
neg?<-?read.csv("./neg.csv",?stringsAsFactors?=?F)??
weight?<-?rep(-1,?length(neg[,1]))??
neg?<-?cbind(neg,?weight)??
代码解读:weight是标签,主动贴在正向、逆向词典上。然后进行正向、逆向词典的合并。
#3、正、负向词组合并??
posneg?<-?rbind(pos,?neg)??#正负词典合并??
names(posneg)?<-?c("term",?"weight")??
posneg?<-?posneg[!duplicated(posneg$term),?]#`duplicated`函数的作用和`unique`函数比较相似,它返回重复项的位置编号??
(编辑:安卓应用网_福州站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|