【知识积累】大数据复习总结

数据和大数据的含义:

数据是由生产资料和资本构成的,大数据是由海量数据和针对海量数据处理的解决方案构成。

大数据的四大特征

  • 体量大(V):人类累计生成的数据总量
  • 种类多(V):数据来源广
  • 速度快:数据生成、存储、分析、处理的速度快
  • 价值高:大数据具有巨大的潜在价值

大数据的技术支撑

  • 存储:存储成本下降、
  • 计算:运算速度逐渐变快
  • 智能:机器拥有理解数据能力

大数据的来源

  • 新摩尔定律的含义:每18个月全球新增信息量是计算机有史以来全部信息量的总和

大数据的处理方法

  • 1、大数据的采集:采用多个数据库来接收终端数据
  • 2、大数据预处理的方法
    • 清理:达到数据格式化标准、重复的数据清除
    • 集成:多个数据库结合并统一存储
    • 交换:规范化等方式将数据转换用于数据挖掘的形式
    • 归约:寻找数据特征,以减少数据规模
  • 3、统计于分析:主要是利用分布式数据库
  • 4、大数据挖掘:创造数据挖掘模型的一组试探法和计算方法。

Source是负责接收数据到Flume Agent的组件

数据挖掘的概念

  • 数据挖掘是整个知识发现流程中的一个具体过程。

贝叶斯分类(事件一定要假定独立)

image-20220620132820446

R语言

注意输出结果时写行标。并且多看看程序。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
#基础符号
#加减乘除就不多BB了
算了还是提一下:+-*/
#赋值符号
#注意等于号赋值 一般用在函数传参赋值 常规变量赋值还是用箭头
赋值符号:-> 或<- 或 =
#重点!!!
求余:%%
整除:%/%
#逻辑运算符与或非返回的是逻辑值,不是二进制的那个按位与或非运算
与或非:& | !
#1.数值型
3.1415926
#2.字符型(单引号和双引号等价R语言中只有字符串)
"hi (*/ω\*)"
'hello ヾ(๑╹◡╹)ノ"'
#3.逻辑型,注意都是大写的!
TRUE
FALSE
#5.特殊值
#缺失值理解为:
#一个人提前预约好了车位先用停车告示牌放在车位上即有一个空数据位将会有一个真实数据来填充,那么先用缺失值放在这个数据位上帮它占着,
#等他的车来了也就是等真实数据来了之后再移除这个告示牌将车停进去也就是用这个真实数据覆盖掉缺失值
缺失值(Not Available缩写为NA):NA
#判断是否为缺失值
is.na(x)
无穷大(Infinite):Inf
不确定数或者说是非数值(Not a Number):NaN
#比如 Inf-Inf 就是一个不确定值 当然Inf/Inf、Inf-Inf也是不确定值,但Inf+Inf=Inf
#判断是否为非数值
is.nan()
#空值理解为:车位是空的而且没有人预约
空值:NULL
#6.向量
#加减运算
> x<-c(1,2,3,4,5)
> y<-c(1,2)
> x+y
[1] 2 4 4 6 6
> x<-c(1,2,3)
> y<-c(1,2,3)
> x+y
[1] 2 4 6
> x-y
[1] 0 0 0
#花式创建向量
> x<-1:5
> x
[1] 1 2 3 4 5
> x<-5:1
> x
[1] 5 4 3 2 1
#序列函数seq(开始值,结束值,步长)
> seq(1,5)
[1] 1 2 3 4 5
> seq(1,5,2)
[1] 1 3 5
> seq(1,5,0.5)
[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
#重复函数rep(内容,重复次数)
> rep(1,5)
[1] 1 1 1 1 1
> rep(c(1,2,3),2)
[1] 1 2 3 1 2 3
#索引
> x<-5:1
> x
[1] 5 4 3 2 1
> x[4]
[1] 2
> x[1]
[1] 5
#常用函数
> x<-1:3
> x
[1] 1 2 3
#求和
> sum(x)
[1] 6
#最大值
> max(x)
[1] 3
#最小值
> min(x)
[1] 1
#均值
> mean(x)
[1] 2
#长度
> length(x)
[1] 3
#方差
> var(x)
[1] 1
#标准差,认得这个函数就行
> sd(x)
[1] 1
#中位数
> median(x)
[1] 2
#添加函数append(向量,需要添加的值)
> x<-append(x,1)
> x
[1] 1 2 3 1
#替换函数append(向量,向量中的第几个数,替换成)
> x<-replace(x,1,7)
> x
[1] 7 2 3 1
> x<-replace(x,c(2,3),6)
> x
[1] 7 6 6 1
#比较排序sort(向量,是否开启倒序排序)
> x<-sort(x)
> x
[1] 1 6 6 7
> x<-sort(x,TRUE)
> x
[1] 7 6 6 1
#倒序rev(向量)
> x<-rev(x)
> x
[1] 1 6 6 7
> x<-rev(x)
> x
[1] 7 6 6 1
#根据向量的值算出0%是多少,25%是多少……5个百分比quantile(向量) 认识它就可以了
> quantile(x)
0% 25% 50% 75% 100%
1.00 4.75 6.00 6.25 7.00
#7.矩阵 matrix(向量,几行,几列)
> x<-matrix(1:4,2,2)
> x
[,1] [,2]
[1,] 1 3
[2,] 2 4
> y<-x*2
> y
[,1] [,2]
[1,] 2 6
[2,] 4 8
#负号表示非
> y[-1,]
[1] 4 8
> y[-1]
[1] 4 6 8
> x+y
[,1] [,2]
[1,] 3 9
[2,] 6 12
#第一行第一列的值等于 1*2+3*4=14这是矩阵的乘法!注意运算符!%*%
> x%*%y
[,1] [,2]
[1,] 14 30
[2,] 20 44
#索引
> x[1,2]
[1] 3
> x[1]
[1] 1
> x[1,]
[1] 1 3
#一些常用会认就行
#对角矩阵diag
#求逆线性方程组solve
#求特征向量eign
#求秩rank
#转置t
#行列式det
#8.数组array(向量,维数向量)
#生成了一个2行2列的数组
> array(c(1,2,3,4),c(2,2))
[,1] [,2]
[1,] 1 3
[2,] 2 4
#重复两次
> array(1:4,c(2,2,2))
, , 1

[,1] [,2]
[1,] 1 3
[2,] 2 4

, , 2

[,1] [,2]
[1,] 1 3
[2,] 2 4
#9.列表list(参数名=参数内容,参数名=参数内容……)
> x<-list(数字=1,字符="ヾ(◍°∇°◍)ノ゙",向量=1:4,矩阵=matrix(1:4,2,2))
> x
$数字
[1] 1

$字符
[1] "ヾ(◍°∇°◍)ノ゙"

$向量
[1] 1 2 3 4

$矩阵
[,1] [,2]
[1,] 1 3
[2,] 2 4

#引用
> x$数字
[1] 1
> x$字符
[1] "ヾ(◍°∇°◍)ノ゙"
> x$向量
[1] 1 2 3 4
> x$矩阵
[,1] [,2]
[1,] 1 3
[2,] 2 4
> x$矩阵[1,]
[1] 1 3
#连续引用
> x$列表<-list(a=1,b=2)
> x$列表
$a
[1] 1

$b
[1] 2

> x$列表$a
[1] 1
#10.数据框data.frame(向量,向量,向量,……)
> 姓名<-c("JOJO","派蒙","阿尼亚","伍六七")
> 性别<-c("男","女","女","男")
> 成绩<-c(91,88,98,88)
> 学生<-data.frame(姓名,性别,成绩)
> 学生
姓名 性别 成绩
1 JOJO 男 91
2 派蒙 女 88
3 阿尼亚 女 98
4 伍六七 男 88
#行重命名row.names(向量)<-名字向量
> row.names(学生)<-c("a","b","c","d")
> 学生
姓名 性别 成绩
a JOJO 男 91
b 派蒙 女 88
c 阿尼亚 女 98
d 伍六七 男 88
#索引
> 学生[1]
姓名
a JOJO
b 派蒙
c 阿尼亚
d 伍六七
> 学生[1,]
姓名 性别 成绩
a JOJO 男 91
> 学生[1:2,]
姓名 性别 成绩
a JOJO 男 91
b 派蒙 女 88

> 学生[学生$成绩>90,]
姓名 性别 成绩
a JOJO 男 91
c 阿尼亚 女 98
> 学生[学生$成绩>90]
姓名 成绩
a JOJO 91
b 派蒙 88
c 阿尼亚 98
d 伍六七 88
#11.因子factor(向量,水平,标签) 不用太去理解因子,会代码就行
> factor(1:3, labels=c("A", "B", "C"))
[1] A B C
Levels: A B C
> factor(1:3)
[1] 1 2 3
Levels: 1 2 3
> factor(1:3,levels = 1:5)
[1] 1 2 3
Levels: 1 2 3 4 5
> factor(1:3,levels = 1:5,labels = c("A","B","C","D","E"))
[1] A B C
Levels: A B C D E
#向量转无序因子
> as.factor(1:3)
[1] 1 2 3
Levels: 1 2 3
#向量转有序因子
> as.ordered(1:3)
[1] 1 2 3
Levels: 1 < 2 < 3
#12.流程控制
> a<-3.1415926
if(a>0){
print("hello")
}else if(a==0){
print("world")
}else{
print(";")
}
[1] "hello"
#13.for循环

> for(i in 1:100){
+ s<-s+i
+ i<-i+1
+ print(s)
+ }
#14.while循环
> s<-0
> i<-1
> while(i<=100){
+ s<-s+i
+ i<-i+1
+ print(s)
+ }
#15.函数编写
func<-function(x1,x2=0){
temp<-x1+2*x2
if(x1+x2>=100){
result<-300*temp-90
}else if((x1+x2)>=-90){
result<-9-temp
}else{
result<-NA
}
result}
> func(x2=1,x1=1100)
[1] 330510

深度学习

  • 神经网络
  • 图建模
  • 人工智能
  • 模式识别
  • 最优化理论和信号处理

网络爬虫

一种“机器人程序”其作用是自动采集所有它们可以到达的网页,并记录下这些网页的内容,以便其他程序进行后续的处理

通用爬虫

追求大的覆盖范围,对于网页中提取到的超链接会全收

聚焦爬虫

对提取到的超链接进行过滤,只对特定网站或者特定领域的网站进行爬取

机械分词

将待处理的中文字符串与一个“尽可能全面”的字典中词条按照一定的规则匹配

用户画像构建流程

  • 1、数据收集与分析
  • 2、行为建模
  • 3、构建用户画像
  • 4、数据可视化分析

本文标题:【知识积累】大数据复习总结

文章作者:孤桜懶契

发布时间:2022年06月20日 - 13:06:52

最后更新:2022年06月20日 - 13:40:53

原始链接:https://gylq.gitee.io/posts/190.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

-------------------本文结束 感谢您的阅读-------------------