-
使用 R 语言挖掘 QQ 群聊天记录
所属栏目:[大数据] 日期:2020-12-31 热度:122
副标题#e# 1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—Change dir 切换到聊天文件所在目录。[详细]
-
大数据分析相关
所属栏目:[大数据] 日期:2020-12-31 热度:200
类比: 谈谈互联网后端基础设施 www.rowkey.me/blog/2016/08/27/server-basic-tech-stack/ 文件系统: ??? hdfs 数据库: ?? hbase 计算系统: ?? hive sql管理和定时执行平台: ??? 阿里宙斯zeus.(自称调度,并没有资源协调功能,有hive本身完成) 统计分析和展现[详细]
-
[bigdata-022] hive和impala的对hbase的精细order by操作
所属栏目:[大数据] 日期:2020-12-31 热度:199
1. 要用hive给hbase的表创建一个外部表。不能用impala,因为它在这块有缺陷。 2. 在hive创建一个本地表,注意,一定不要创建在hbase上。 3. 在hive里,执行order by命令,对外部表进行排序,然后将排序结果写入到2创建的hive本地表。这时候,因为order by[详细]
-
大数据分析当人们谈《鬼吹灯》时,都谈些什么?
所属栏目:[大数据] 日期:2020-12-31 热度:106
副标题#e# 文 | 艾漫数据 近日,又一部考古探险题材网剧火热上线,老干部靳东搭档陈乔恩主演的《鬼吹灯之精绝古城》。相比之前同类型作品,这次的改编开播后的口碑可以用“交口称赞”形容,上线两周后好评率达到87%以上。 小编不禁好奇,究竟是什么样的内容[详细]
-
分享 :2017年商业智能 BI 发展趋势分析
所属栏目:[大数据] 日期:2020-12-31 热度:76
副标题#e# 在展望2017年商业智能 BI 发展趋势前,我们先来了解一下商业智能?BI?发展的几个重要阶段。 传统 BI 和新型 BI 的分水岭(2013年) 大背景 在2013年以前相当长的一个周期(2005年-2013年),市场主要流行的商业智能BI产品以?SAP BO、Oracle BIEE、[详细]
-
leetcode 43. Multiply Strings 9大数相差(java实现)
所属栏目:[大数据] 日期:2020-12-31 热度:54
原题: Given two non-negative integers? num1 ?and? num2 ?represented as strings,return the product of? num2 . Note: The length of both? num2 ?is 110. Both? num2 ?contains only digits? 0-9 . Both? num2 ?does not contain any leading zero.[详细]
-
[bigdata-023] pymongo 3.4和mongodb 2.x的安全机制导致的用户认
所属栏目:[大数据] 日期:2020-12-30 热度:189
#!/usr/bin/env python3#! coding:utf-8 -*-import pymongo"""python3.4.0 + mongo 2.4.14"""client = pymongo.MongoClient('114.55.239.66')client.tzdb1.authenticate("tzuser1","user1688",mechanism='MONGODB-CR')db = client["tzdb1"]devsycredit = d[详细]
-
大数求和问题(C++版本)
所属栏目:[大数据] 日期:2020-12-30 热度:114
大数求和其实是个纯模拟,我们小学2年级老师就我们通过列竖式求加法,从个位开始加,进位+1,唯一需要值得注意的是我们求出来的结果要为有效值,即00001=1,0000=0 #include iostream#include stringusing namespace std;string nAB(string A,string B);str[详细]
-
[bigdata-024] 在centos 6.5上手工安装mongodb 3.2.5
所属栏目:[大数据] 日期:2020-12-30 热度:120
1. 操作系统 centos 6.5 2. 删除旧版本 kill xxxx yum erase mongodb.x86_64 rm /etc/mongod.conf rm /init/mongo* rm /init.d/mongo* locate mongo 删除全部mongo的相关文件 updatedb -U / 3. 下载mongo http://downloads.mongodb.org/linux/mongodb-linu[详细]
-
大数幂运算
所属栏目:[大数据] 日期:2020-12-30 热度:177
还是纯模拟,只可意会,不可言传,回到4年级,然后自己体会 #include stdio.h#include string.husing namespace std;#define MAX 40001int s[MAX];int nbit;void Init();void EXP(int nb,int ne);void vout(int x);int main(){ int base,exp; while(~scanf[详细]
-
414. Third Maximum Number
所属栏目:[大数据] 日期:2020-12-30 热度:187
Given a non-empty array of integers,return the third maximum number in this array. If it does not exist,return the maximum number. The time complexity must be in O(n). Example 1: Input: [3,2,1]Output: 1 Explanation: The third maximum is[详细]
-
[bigdata-025] ubuntu 14.04 下用virtualbox安装ghost xp
所属栏目:[大数据] 日期:2020-12-30 热度:196
市面上的各种ghost的iso很多。这里只说关键点 1.? 用xp ghost镜像启动,选择dos 2. 在dos执行 pq,进行分区 ??? 2.1 首先,选择建立一个“主要分割磁区”,这一点千万不要错,设置为C盘。文件格式根据xp ghost 指定的格式来,现在一般是ntfs。大概,4g就行[详细]
-
[bigdata-026] 大数据principle No.1 “只有干净数据才能进入存
所属栏目:[大数据] 日期:2020-12-30 热度:60
这个原则是极其重要。 1. 大数据eco,唯一的优点是处理海量数据,但是工具一般都不完善,藏着各种坑。不像传统数据库和传统功能,完备精致。 2. 最佳的使用方式就是:数据是干净清洁完美的,用大数据工具处理,性能很爽。 3. 但是,如果你试图用大数据eco[详细]
-
[bigdata-026] 大数据principle No.1~No.4
所属栏目:[大数据] 日期:2020-12-30 热度:67
Principle No.1 只有干净的数据才能进入存储。 这个原则是极其重要。 1. 大数据eco,唯一的优点是处理海量数据,但是工具一般都不完善,藏着各种坑。不像传统数据库和传统功能,完备精致。 2. 最佳的使用方式就是:数据是干净清洁完美的,用大数据工具处理[详细]
-
大数据处理算法一:BitMap算法
所属栏目:[大数据] 日期:2020-12-30 热度:147
腾讯面试题:给20亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少? ?解析:bitmap算法就好办多了 ?所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又[详细]
-
大数据处理算法二:Bloom Filter算法
所属栏目:[大数据] 日期:2020-12-30 热度:93
百度面试题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? Bloom?Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格[详细]
-
如何进行大数据分析及处理?
所属栏目:[大数据] 日期:2020-12-26 热度:87
大数据的分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了[详细]
-
开源大数据处理工具汇总(下)
所属栏目:[大数据] 日期:2020-12-26 热度:180
第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。 日志收集系统 一、Facebook?Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Faceboo[详细]
-
开源大数据处理工具汇总(上)
所属栏目:[大数据] 日期:2020-12-26 热度:149
查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询转换为一个或多个HBas[详细]
-
推荐大数据分析的八大工具
所属栏目:[大数据] 日期:2020-12-26 热度:90
去年,IBM宣布以17亿美元收购数据分析公司Netezza;EMC继收购数据仓库软件厂商Greenplum后再次收购集群NAS厂商Isilon;Teradata收购了Aster Data 公司;随后,惠普收购实时分析平台Vertica等,这些收购事件指向的是同一个目标市[详细]
-
大数据分析到底需要多少种工具?
所属栏目:[大数据] 日期:2020-12-26 热度:182
摘要 JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”[详细]
-
URAL - 1153 Supercomputer 大数开方
所属栏目:[大数据] 日期:2020-12-26 热度:199
??????? 题意:给定m,m = n * (n+1) / 2,计算n值。 ????? 思路:n = SQRT(m*2) ???? 注意m很大,需要自己实现大数开方。我用的是自己写的大数模板:大数模板 AC代码 #include cstdio#include cmath#include algorithm#include cstring#include utility#i[详细]
-
[bigdata-047] 禅道 ubuntu 配置开机自启动服务 开机启动
所属栏目:[大数据] 日期:2020-12-26 热度:180
1. 在/etc/init.d目录下创建chandao文件 内容如下: #!/bin/bash /opt/lampp/lampp restart 然后增加全选 chmod 755 chandao 2. 运行runleve命令,查看现在的run level是多少,通常是2 3. 既然是2,就在/etc/rc2.d目录下,创建一个链接 ln -s /etc/init.d/c[详细]
-
[bigdata-048] git使用 上
所属栏目:[大数据] 日期:2020-12-26 热度:125
0. 主要参考 http://www.liaoxuefeng.com 1. git是分布式版本管理器,每个人的电脑都是一个完整的版本库。你修改了文件A,你同事修改了文件A,你们可以将各自的修改推给对方,可以互相看到对方的修改。 2. 创建版本库repository ? 2.1 在一个合适的地方,[详细]
-
商业智能BI和报表的区别?
所属栏目:[大数据] 日期:2020-12-26 热度:120
报表是数据展示工具,商业智能BI是数据分析工具。 报表工具是一类报表制作工具和数据展示工具,用于制作各类数据报表、图形报表。或者制作特定格式的电子发票联、流程单、收据等等。 商业智能的重点在于商业数据的分析,集成了数据统计、数据展示、数据分[详细]

浙公网安备 33038102330469号