-
数据处理之—reshape2
所属栏目:[大数据] 日期:2021-02-21 热度:170
reshape2是用来做数据处理的拓展包,它可以用来实现宽格式数据与长格式数据之间的互转。如果你熟悉结构化数据库查询,那你一定知道列转行与行转列,我这里所说的宽长数据之间互转与之类似;如果你不熟悉的也没关系,它很简单,接着往下看你就能很快熟悉并[详细]
-
UVA 11582 巨大数的斐波那契数列 (大数取模,幂取模,模的计算方
所属栏目:[大数据] 日期:2021-02-21 热度:76
Problem F: Colossal Fibonacci Numbers! The?i'th Fibonacci number?f?(i)?is recursively defined in the following way: f?(0) = 0?and?f?(1) = 1 f?(i+2) = f?(i+1) + f?(i)??for every?i?≥?0 Your task is to compute some values of this sequence.[详细]
-
【1】文本挖掘的主要概念
所属栏目:[大数据] 日期:2021-02-21 热度:84
转自 NLP论坛 http://www.threedweb.cn/thread-1281-1-1.html 什么是文本挖掘 文本挖掘可以广义地定义知识密集的处理过程,其中用户使用一套分析工具与文档集合动态(随着时间的推移)交互。在类似于数据挖掘的方式,文本挖掘旨在通过识别令人感兴趣的模式[详细]
-
【3】 文本挖掘方法论
所属栏目:[大数据] 日期:2021-02-21 热度:59
副标题#e# 转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究[详细]
-
【4】构建基于scikit-learn的文本挖掘学习系统
所属栏目:[大数据] 日期:2021-02-21 热度:106
转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html 配置开发环境 构建基于scikit-learn的文本挖掘学习系统 1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpa[详细]
-
大数的四则运算
所属栏目:[大数据] 日期:2021-02-21 热度:187
项目名称:《大数的四则运算》 ? 开发环境:windows、vs2013 ? 开发技术:string、c++? ? 项目描述: ● 大数计算的底层采用string存储,将整形数据转换成字符串进行存储和运算? ● 运算的加减采用逐位加减,设置标记位,标记每一次加减的进位与借位,每[详细]
-
HDOJ 1002 A + B Problem II ( 大数相加)
所属栏目:[大数据] 日期:2021-02-18 热度:157
A + B Problem II(点击进入题目) Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 314071????Accepted Submission(s): 60860 Problem Description I have a very simple problem for you. G[详细]
-
【杭电-oj】-1865-1sting(大数斐波那契数列)
所属栏目:[大数据] 日期:2021-02-18 热度:104
1sting Time Limit: 5000/1000 MS (Java/Others)????Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 5021????Accepted Submission(s): 1864 Problem Description You will be given a string which only contains ‘1’; You can merge[详细]
-
文本挖掘:情感分析详细步骤(基础+源码)
所属栏目:[大数据] 日期:2021-02-18 热度:163
副标题#e# 词典型情感分析大致有以下几个步骤: 训练数据集、neg/pos情感词典、分词+数据清洗清洗(一、二、三级清洗步骤)、计算情感得分、模型评价 (1)在分析过程中,难免会产生很多中间变量,它们会占用大量内存。书中提到通常会将所有的临时中间变量[详细]
-
DB、ETL、DW、OLAP、DM、BI关系结构图
所属栏目:[大数据] 日期:2021-02-06 热度:101
(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你[详细]
-
R语言-数据处理
所属栏目:[大数据] 日期:2021-02-06 热度:148
Reading Data 读取表格数据的函数read.table()以及read.csv() readLines()用于逐行读取文本文件 source()读取R代码的重要函数 dget()用来读取R代码文件 load()和unserialize()用于把二进制对象读入R Writing Data write.table() writeLines() dump() dput([详细]
-
简单粗暴的“大数据“解决方案
所属栏目:[大数据] 日期:2021-02-06 热度:100
这里说“大数据”确实有点哗众取宠,但确确实实是解决一些大数据量的情况。比如常用的布隆过滤器(BloomFilter)、常用的文本相似比较算法SimHash等,这里介绍的都是看上去是简单粗暴的方法,但当你深入了解后你就会发现什么叫简约而不简单,掌握这些常用的[详细]
-
连续属性离散化
所属栏目:[大数据] 日期:2021-02-06 热度:145
副标题#e# 1. 离散化技术分类 连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。 离散化技术可以根据如何对数据进行离散化加以分类,可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。 如[详细]
-
【重!磅!干!货
所属栏目:[大数据] 日期:2021-02-06 热度:149
副标题#e# 查看之前文章请点击右上角 ,关注并且 查看历史消息 ,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频网络图是以股票论坛、 个股新闻、研究报告三个网站作[详细]
-
51Nod-1116-K进制下的大数
所属栏目:[大数据] 日期:2021-02-06 热度:168
ACM模版 描述 题解 这里我们通过样例可以发现 A1A 的数位和是21,刚好是 K-1 的倍数,所以我们不妨多举几组数据测试一下,发现竟然都符合这个规律( ̄┰ ̄*),那么AC就不远了。 可是这里需要强调的是,K的最小值,如果K清一色的都是从2开始枚举,那么不用想[详细]
-
开源ETL工具kettle系列之常见问题
所属栏目:[大数据] 日期:2021-02-06 热度:65
副标题#e# 摘要 本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 问题 Join 我得到A 数据流(不管是基于文件或数据库),A包含field1,field2,field3 字段,然后我还有一个[详细]
-
开源ETL工具kettle系列之在应用程序中集成
所属栏目:[大数据] 日期:2021-02-06 热度:125
副标题#e# 摘要 本文主要讨论如何在你自己的Java应用程序中集成Kettle 集成 如果你需要在自己的Java应用程序中集成Kettle,一般来说有两种应用需求,一种是通过纯设计器来设计ETL转换任务,然后保存成某种格式,比如xml或者在数据库中都可以,然后自己调用程[详细]
-
开源ETL工具kettle系列之增量更新设计
所属栏目:[大数据] 日期:2021-02-06 热度:107
副标题#e# 前言 ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup 步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许[详细]
-
开源ETL工具kettle系列之动态转换
所属栏目:[大数据] 日期:2021-02-06 热度:139
副标题#e# 摘要 本文主要讨论使用Kettle来设计一些较为复杂和动态的转换可能使用到的一些技巧,这些技巧可能会让你在使用Kettle的时候更加容易的设计更强大的ETL任务。 动态参数的传递 Kettle 在处理运行时输入参数可以使用JavaScript 来实现,大部分工作只[详细]
-
开源ETL工具kettle系列之建立缓慢增长维
所属栏目:[大数据] 日期:2021-02-06 热度:94
副标题#e# 摘要 本文主要介绍使用kettle 来建立一个Type 2的Slowly Changing Dimension 以及其中一些细节问题 Kettle 简介 Kettle 是一个强大的,元数据驱动的ETL工具被设计用来填补商业和IT之前的差距,将你公司的数据变成可增长的利润. 我们先来看看Kettl[详细]
-
互联网金融之量化投资深度文本挖掘——附源码文档
所属栏目:[大数据] 日期:2021-02-06 热度:69
副标题#e# ?? 【重!磅!干!货[详细]
-
hdu1042 N!(大数)
所属栏目:[大数据] 日期:2021-02-06 热度:155
N! Time Limit: 10000/5000 MS (Java/Others)????Memory Limit: 262144/262144 K (Java/Others) Total Submission(s): 75069????Accepted Submission(s): 21870 Problem Description Given an integer N(0 ≤ N ≤ 10000),your task is to calculate N! ?[详细]
-
桑文锋:深入浅出大数据分析(PPT)
所属栏目:[大数据] 日期:2021-02-05 热度:110
导读 在DTCC 2016中国数据库技术大会“大数据创业”专场,Sensors Data CEO 桑文锋分享了主题为《深入浅出大数据分析》的演讲,作为一名资深大数据牛人,从大数据思维讲起,深入浅出剖析数据驱动的理念,常用的数据分析方法,推荐的思路,多维数据分析技术[详细]
-
文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、
所属栏目:[大数据] 日期:2021-02-05 热度:135
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。 比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里[详细]
-
余弦计算相似度度量
所属栏目:[大数据] 日期:2021-02-05 热度:121
余弦计算相似度度量 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本[详细]

浙公网安备 33038102330469号