文本挖掘：情感分析详细步骤（基础+源码）

发布时间：2021-02-18 08:31:46 所属栏目：大数据来源：网络整理

导读：副标题#e# 词典型情感分析大致有以下几个步骤：训练数据集、neg/pos情感词典、分词+数据清洗清洗（一、二、三级清洗步骤）、计算情感得分、模型评价（1）在分析过程中，难免会产生很多中间变量，它们会占用大量内存。书中提到通常会将所有的临时中间变量

解决方案：需要调整，需要sep = """，来划分开。除了英文逗号可能引起`read.csv`函数读取csv文件报错以外，
#还有英文单引号（'）、英文双引号（"）、波浪号（~），都会引起读取时发生警告，带来csv文件或txt文件读取不完整的后果

二、正向、逆向情感词典

1、词典导入与处理

市面上关于情感词典，有多家研究机构进行了分析，并且公布了结果，比如大连理工、汉语情感词极值表、台湾大学情感NTUSD、知网Hownet情感词、中文褒贬义词典v1.0（清华大学李军）等，有些词典分为正向、逆向单词两个部分；有些放在一起，然后有单独的标签，可以cbind合并在一起。本文引用的是谭松波老师的正向、逆向情感词典。

#1、情感正向词，词组+打“+1”-label??
pos?<-?read.csv("./pos.csv",?sep?=?",",?stringsAsFactors?=?F)??
weight?<-?rep(1,?length(pos[,1]))??
pos?<-?cbind(pos,?weight)??
??
#2、情感负向词，词组+打“-1”-label??
neg?<-?read.csv("./neg.csv",?stringsAsFactors?=?F)??
weight?<-?rep(-1,?length(neg[,1]))??
neg?<-?cbind(neg,?weight)??

代码解读：weight是标签，主动贴在正向、逆向词典上。然后进行正向、逆向词典的合并。

#3、正、负向词组合并??
posneg?<-?rbind(pos,?neg)??#正负词典合并??
names(posneg)?<-?c("term",?"weight")??
posneg?<-?posneg[!duplicated(posneg$term),?]#`duplicated`函数的作用和`unique`函数比较相似，它返回重复项的位置编号??

（编辑：安卓应用网_福州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/6

首页

尾页

8个顶级预测分析工具对	如何采用大数据技术帮
赋能元宇宙启动智能交	真正指挥大规模战争的