大数据_泉州站长网

[bigdata-031] python3+selenium 做抓取

所属栏目：[大数据] 日期：2021-01-01 热度：64

1. 安装 1.1 pip3 install -U selenium 1.2 下载 https://github.com/mozilla/geckodriver/releases/download/v0.13.0/geckodriver-v0.13.0-linux64.tar.gz? 解压缩，然后放到/usr/bin目录 2. 抓取豆瓣 #!/usr/bin/env python3#!-*- coding:utf-8 -*-impor[详细]
logminer挖掘

所属栏目：[大数据] 日期：2021-01-01 热度：80

1.???? Logminer介绍 LogMiner 是Oracle公司从产品8i以后提供的一个实际非常有用的分析工具，使用该工具可以轻松获得Oracle 重做日志文件（归档日志文件）中的具体内容，LogMiner分析工具实际上是由一组PL/SQL包和一些动态视图组成，它作为Oracle数据库的[详细]
[bigdata-005] 用docker搭建oracle 11g并提供python3 开发

所属栏目：[大数据] 日期：2021-01-01 热度：58

参考资料 http://www.bubuko.com/infodetail-401514.html 1. docker上的oracle 11g https://hub.docker.com/r/alexeiled/docker-oracle-xe-11g/ 安装和启动命令： 1.1 docker pull alexeiled/docker-oracle-xe-11g 1.2 docker run --name dck-oracle-11g -[详细]
从小程序的理念，挖掘小程序的方方面面

所属栏目：[大数据] 日期：2020-12-31 热度：111

副标题#e# 小程序发布已过去3天，这个微信放的大招让整个互联网圈高潮了一把。目前业界已有各种小程序的分析和预测，也有很多诸如小程序解放了内存、小程序没用的声音。本文挖掘小程序背后表现出的理念，借这些理念阐述我对小程序的看法，适合的应用、与APP[详细]
[bigdata-030] cdh 5.9的impyla操作hiveserver2

所属栏目：[大数据] 日期：2020-12-31 热度：78

参考文献：http://www.aichengxu.com/view/11094184 1. cdh 5.9 2. 开发机已经安装了impyla pip install thrift_sasl pip install sasl 3. 在cdh集群的一个节点启动hiveserver2 3.1 修改/etc/hive/conf.cloudera.hive/hive-site.xml 增加属性 property ? n[详细]
HDU 2054 判断大数是否相等

所属栏目：[大数据] 日期：2020-12-31 热度：72

原题链接：http://acm.hdu.edu.cn/showproblem.php?pid=2054 题解：这个题不严谨，仅判断后向0就行，而且不用判正负。代码： #includeiostreamusing namespace std;const int maxn = 100000;void cleanlastzero(char str[]) { int len = strlen(str),digi[详细]
（26进制大数相加）hdu 2100 Lovekey

所属栏目：[大数据] 日期：2020-12-31 热度：60

Lovekey Problem Description XYZ-26进制数是一个每位都是大写字母的数字。 A、B、C、…、X、Y、Z 分别依次代表一个0 ~ 25 的数字，一个 n 位的26进制数转化成是10进制的规则如下A0A1A2A3…An-1 的每一位代表的数字为a0a1a2a3…an-1 ，则该XYZ-26进制数的1[详细]
如何利用图像识别、语音识别、文本挖掘做好鉴黄？

所属栏目：[大数据] 日期：2020-12-31 热度：134

人工智能鉴黄市场竞争愈发激烈，目前图普科技、阿里绿网、腾讯万象优图等团队已占据大量市场份额，在此环境下，不少公司试图通过提供更全面的服务从这片红海中分一杯羹。那么更全面的定制服务体现在哪些地方？雷锋网(公众号：雷锋网)特地采访了极限元 CEO[详细]
打包带走！史上最全的大数据分析和制作工具

所属栏目：[大数据] 日期：2020-12-31 热度：145

副标题#e# 来源：数之联大数据（ID：unionbigdata）工欲善其事，必先利其器。作为在大数据领域摸爬滚打叱咤风云的伙计们，也应当有一些实用工具来辅助工作日常。下面是小编精心整理的一些经检测非常实用的工具及网站，呈给大家~~ 数据可视化工具说到数据[详细]
[bigdata-027] 最好用的 python+mysql的包：pymysql

所属栏目：[大数据] 日期：2020-12-31 热度：123

pip3 install pymysql import? pymysqlconn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='tiger88',db='spider_phone',charset='utf8')c = conn.cursor()c.execute('select * from phone_info limit 1;')r = c.fetchone()print(r)pr[详细]
数据可视化：手把手打造BI

所属栏目：[大数据] 日期：2020-12-31 热度：81

副标题#e# 本文是如何七周成为数据分析师的第六篇教程，如果想要了解写作初衷，可以先行阅读七周指南。温馨提示：如果您已经熟悉BI，大可不必再看这篇文章，或只挑选部分。我们上一篇数据可视化：教你打造升职加薪的报表教大家如何制作清晰美观的报表以[详细]
下一代大数据处理平台Apache Beam成为Apache顶级项目

所属栏目：[大数据] 日期：2020-12-31 热度：93

副标题#e# Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业，成为Apache的顶级项目 Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大[详细]
26、Power Query-日期与时间数据处理实例（统计出某年各月各周的

所属栏目：[大数据] 日期：2020-12-31 热度：126

本节重点：Power Query-日期与时间数据处理实例（统计出某年各月各周的借书人数）需求如下：上图所示，根据左侧的数据源，统计出2016年各月各周的借书人数（效果如右侧所示）。分析：很明显，这个需求是对日期的一个操作，其实仅需要用到左侧的第一列即[详细]
[bigdata-028]apache nifi 从mysql导出数据到hbase

所属栏目：[大数据] 日期：2020-12-31 热度：86

0.在hbase节点，启动thrift服务 hbase-daemon.sh start thrift 1. 在本机启动nif ./bin/nifi.sh start 2. 在浏览器输入http://localhost:8080/nifi，看到nifi的界面 3. 拖一个processor ExecuteSQL到界面 ??? 3.1 在processor上点击右键，选择configure，[详细]
27、Power Query-日期与时间数据处理实例（图书室借书统计）

所属栏目：[大数据] 日期：2020-12-31 热度：74

本节要点：Power Query-日期与时间数据处理实例（图书室借书统计）承接上一节的需求，我们引入切片器的功能，对图书室的借书以及归还情况进行查询和筛选，效果图如下：对“借书状态”和“归还状态”进行筛选，亦可同时筛[详细]
[bigdata-029] 在centos 7上安装maria

所属栏目：[大数据] 日期：2020-12-31 热度：179

centos 7以上版本支持mysql的另一个分支maria 安装方式如下正确安装mariadb http://blog.csdn.net/default7/article/details/39138139 http://blog.csdn.net/default7/article/details/41973887 yum install mariadb* service mariadb.service start syst[详细]
数据意识崛起，从企业应用看BI软件的未来发展

所属栏目：[大数据] 日期：2020-12-31 热度：148

前阵子，和一群企业CIO聊天，希望从甲方角度看看对BI产品的看法。在问及一些成熟企业为何不上BI项目时，大家纷纷表示目前还处于观望状态。提及BI，大家都觉得有些飘忽，和大数据一样，听着高大上，能真正实现落地的并没有多少，性价比甚至不如一个报表工[详细]
宋慧庆|广告系统中的大数据处理

所属栏目：[大数据] 日期：2020-12-31 热度：133

副标题#e# 宋慧庆，时趣互动移动广告架构师十余年互联网老司机，具有多年互联网广告系统研发经验，负责研发个性化动态创意系统，用户画像标签系统以及大数据治理；对编程语言有浓厚的兴趣。什么是大数据？从具备4V（Volume，Velocity，Variety，Value）[详细]
[bigdata-023] pymongo 3.4和mongodb 2.x的安全机制导致的用户认

所属栏目：[大数据] 日期：2020-12-30 热度：120

#!/usr/bin/env python3#! coding:utf-8 -*-import pymongo"""python3.4.0 + mongo 2.4.14"""client = pymongo.MongoClient('114.55.239.66')client.tzdb1.authenticate("tzuser1","user1688",mechanism='MONGODB-CR')db = client["tzdb1"]devsycredit = d[详细]
大数求和问题（C++版本）

所属栏目：[大数据] 日期：2020-12-30 热度：90

大数求和其实是个纯模拟，我们小学2年级老师就我们通过列竖式求加法，从个位开始加，进位+1，唯一需要值得注意的是我们求出来的结果要为有效值，即00001=1,0000=0 #include iostream#include stringusing namespace std;string nAB(string A,string B);str[详细]
[bigdata-024] 在centos 6.5上手工安装mongodb 3.2.5

所属栏目：[大数据] 日期：2020-12-30 热度：126

1. 操作系统 centos 6.5 2. 删除旧版本 kill xxxx yum erase mongodb.x86_64 rm /etc/mongod.conf rm /init/mongo* rm /init.d/mongo* locate mongo 删除全部mongo的相关文件 updatedb -U / 3. 下载mongo http://downloads.mongodb.org/linux/mongodb-linu[详细]
大数幂运算

所属栏目：[大数据] 日期：2020-12-30 热度：169

还是纯模拟，只可意会，不可言传，回到4年级，然后自己体会 #include stdio.h#include string.husing namespace std;#define MAX 40001int s[MAX];int nbit;void Init();void EXP(int nb,int ne);void vout(int x);int main(){ int base,exp; while(~scanf[详细]
414. Third Maximum Number

所属栏目：[大数据] 日期：2020-12-30 热度：77

Given a non-empty array of integers,return the third maximum number in this array. If it does not exist,return the maximum number. The time complexity must be in O(n). Example 1: Input: [3,2,1]Output: 1 Explanation: The third maximum is[详细]
[bigdata-025] ubuntu 14.04 下用virtualbox安装ghost xp

所属栏目：[大数据] 日期：2020-12-30 热度：73

市面上的各种ghost的iso很多。这里只说关键点 1.? 用xp ghost镜像启动，选择dos 2. 在dos执行 pq，进行分区 ??? 2.1 首先，选择建立一个“主要分割磁区”，这一点千万不要错，设置为C盘。文件格式根据xp ghost 指定的格式来，现在一般是ntfs。大概，4g就行[详细]
[bigdata-026] 大数据principle No.1 “只有干净数据才能进入存

所属栏目：[大数据] 日期：2020-12-30 热度：145

这个原则是极其重要。 1. 大数据eco，唯一的优点是处理海量数据，但是工具一般都不完善，藏着各种坑。不像传统数据库和传统功能，完备精致。 2. 最佳的使用方式就是：数据是干净清洁完美的，用大数据工具处理，性能很爽。 3. 但是，如果你试图用大数据eco[详细]

4895

139