基础使用首先我们先构建一个虚拟的数据框来用于测试:
12345678910111213141516from faker import Fakerimport pandas as pdNUM_OF_RECORDS = 100fake = Faker()data = { 'id': range(NUM_OF_RECORDS), # Generate IDs from 1 to 100 'name': [fake.name() for _ in range(NUM_OF_RECORDS)], 'age': [fake.random_int(min=18, max=24) for _ in range(NUM_OF_RECORDS)], 'state': [fake.state() for _ in range(NUM_OF_RECORDS)], 'city': [fake.city() for _ in range(NUM_OF_RECORDS)], ...
参照完整性
实体完整性:主键不能为空
参照完整性:外键一定存在于外键对应的表中
用户自定义的完整性:字段的数据应当符合一定规范(比如:学分=(学时/8)*0.5,成绩属于0-100)
SQL中的实现方法:
空值约束:sname char(20) not null
唯一性约束:
列级约束:sname char(20) not null unique
表级约束:CONSTRAINT Uniq_name unique(sname)
默认值约束:Sgender char(2) not null default ‘男’
check约束:
1234567Create table Author( A_id char(10) not null Primary key, name varchar(40) not null, sage tinyint null check (sage<30), gender char(2) check (gender = '男' or gender = '女' ...
描述性统计面对一个数据集,首先要做的是使用统计学方法,总结和描述数据集的主要特征,比如数据的中心趋势、数据的分散程度、数据的分布形状以及变量之间的相关性等等。
数据的中心趋势数据的中心趋势是描述性统计中的一个重要方面,用于衡量数据集中心的位置或趋势。主要的统计量包括均值、中位数和众数。
均值(Mean):均值是数据集中所有数值的总和除以数据点的数量。
中位数(Median):中位数是将数据集中的所有数值按大小排列后,位于中间位置的值.
众数(Mode):众数是数据集中出现次数最频繁的数值(可能有一个、多个)。
数据的分散程度数据的分散程度描述了数据点在中心趋势周围的离散程度或扩散程度。常用的分散程度度量包括:
标准差(Standard Deviation):标准差是数据集中各数据点与均值之间的偏差的平方的平均值的平方根。标准差越大,数据点相对于均值的分散程度越大,反之亦然。标准差是最常用的分散程度度量之一。
方差(Variance):方差是数据集中各数据点与均值之间偏差的平方的平均值。方差是标准差的平方,因此也可以用来度量数据的分散程度。
范围(Range):范围是数据集中最大值 ...
基本内容Vlookup就可以理解为pandas中的merge,SQL中的join,是一个很常用的函数.
函数结构结构:Vlookup(查找值,数据表,列序数,[匹配条件])
参数说明(1)查找值:必填,用于匹配数据的键,必须位于数据表的第一列;
(2)数据表:必填,查找的区域,;
(3)列序数:必填,返回上面数据表中第几列的数据,从1开始;
(4)匹配条件:可选,如果为0(TRUE)表示精确查找;1(False)或省略表示模糊查找
试一试现在在Sheet1有一个学生基本信息表:
学号
班级
姓名
性别
1
11软件1班
赵慧
女
2
11软件1班
胡歆
女
3
11软件1班
郭菲歆
女
4
11软件1班
朱文
男
5
11软件1班
张星静
女
6
11软件2班
周嫣嫣
女
7
11软件2班
刘菲柔
女
8
11软件2班
孙小星
男
9
11软件2班
林珊
女
10
11软件2班
林羽
男
现在在Sheet2有一个学生成绩表:
学号
Python程序设计基础
离散数学
数据结构
C语言程序设计
5
54
98
69
76
...
在此附上老师教学课件地址:
引用站外地址
Big Data Essentials
Yanfei Kang. Ph.D.
SparkSpark&HadoopSpark是集群计算技术,专为快速计算而设计。它以Hadoop MapReduce为基础,并进一步扩展了MapReduce模型,可有效地用于更多类型的计算,包括交互式查询和流处理等。Spark的主要特点是它可以进行内存集群计算,可以提高应用程序的处理速度。Spark还在内存中加载数据,使操作速度远远快于Hadoop的磁盘存储。Spark利用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理数据和流数据的高性能。最早的一项研究结果表明,通过使用内存数据集,运行逻辑回归使 Spark 的运行速度比Hadoop快10倍。还有研究结果表明,使用Hadoop排序100TB数据需要72分钟和2100台计算机,而使用Spark只 ...
在此附上老师教学课件地址:
引用站外地址
Big Data Essentials
Yanfei Kang. Ph.D.
Hive
Start Hive from a Terminal: hive
Execute command within Hive dfs -ls /;
Exit Hive: exit;
hive脚本可以保存为.hql文件运行hive -f /path/to/file/withqueries.hql
DDL12345678910SHOW DATABASES;CREATE DATABASE IF NOT EXISTS myname;CREATE DATABASE IF NOT EXISTS myname LOCATION '/user/yanfei/hive'; -- Location here is the HDFS path where th ...
在此附上老师教学课件地址:
引用站外地址
Big Data Essentials
Yanfei Kang. Ph.D.
HadoopMODULES OF HADOOP
Hadoop Distributed File System (HDFS): A reliable, high-bandwidth, low-cost, data storage cluster that facilitates the management of related files across machines.
Hadoop MapReduce: A high-performance parallel/distributed data-processing implementation of the MapReduce algorithm.
Hadoop YARN: A framework for ...
不点任何东西的顾客Customers 表:
12345678+-------------+---------+| Column Name | Type |+-------------+---------+| id | int || name | varchar |+-------------+---------+在 SQL 中,id 是该表的主键。该表的每一行都表示客户的 ID 和名称。
Orders 表:
123456789+-------------+------+| Column Name | Type |+-------------+------+| id | int || customerId | int |+-------------+------+在 SQL 中,id 是该表的主键。customerId 是 Customers 表中 ID 的外键( Pandas 中的连接键)。该表的每一行都表示订单的 ID 和订购该订单的客户的 ID。
找出所有从不点任何东西的顾客。
以 任意顺序 返回结果表。
1 ...
在此附上老师教学课件地址:
引用站外地址
Big Data Essentials
Yanfei Kang. Ph.D.
由于学的时候用的英文,懒得翻译,就直接英文输出了~~~
Let’s check how many cores can you use by R language?
123library(parallel)nCores <- detectCores()nCores
PARALLELIZE USING parallelmulticore, snow, foreach
The parallel package was introduced in 2011 to unify two popular parallisation packages: snow and multicore. The multicore package was designed to paral ...
在此附上老师教学课件地址:
引用站外地址
Big Data Essentials
Yanfei Kang. Ph.D.
爬虫html解析
正则表达式
12345678import re# 示例HTMLhtml = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"# 使用正则表达式提取链接links = re.findall(r'href=['"]?([^'" >]+)', html)print(links) # 输出: ['https://example.com']
Beautiful Soup
1234567891011from bs4 import ...