数据探索

时间:2019-06-07 16:37:57   收藏:0   阅读:116

1,数据质量分析

2,缺失值分析

缺失值产生的原因

  1. 有些信息暂时无法获取,或者获取信息的代价太大
    1. 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些认为因素而遗漏,也可能由于数据采集设备的故障、存储介质的故障、传输媒体的故障灯非认为原因而丢失。再某些情况下,缺失值并不意味着
    2. 属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对一些对象来说,某些属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入等
  2. 缺失值的影响
    1. 数据挖掘建模将丢失大量的有用信息
    2. 数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握
    3. 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
  3. 缺失值的分析
    • 使用鉴定单的统计分析,可以得到含有缺失值的树脂字那个的个数,以及每个属性的未缺失数,缺失数与缺失率等
    • 总体来说,缺失值的处理分为删除存在缺失值的记录、对可能进行插补和不处理3中情况

3,异常值的分析

  1. 简单统计量分析
    • 可以先对变量做一个描述性统计,进而查看那些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围
  2. 3σ原则
    • 如果数据服从正太分布,在3σ原则下,异常值被定义为一组测定值中与平均值偏差超过3被标准差的值。在正太分布假设下,距离平均值3σ之外的值出现的概率为p(|x-μ|>3σ)<=0.003,属于极个别的小概率事件,如果不服从正态分布,也可以用远离平均值的多少倍标准差来描述
  3. 箱形图分析
    • 箱型图提供了是被异常值的标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;Qu称为上四分位数,表示全部观察值中有四分之一数据 取值比它大;IQR称为四分位数间距,是上分位数Qu与下分位数QL之差,其间包含了全部观察值的一半
    • 箱型图依据实际数据绘制,没有对数据作3任何限制性要求(如服从某种特定分布形式),它只是真实直观的表现数据分布的本来面貌;另一方面,箱型图判断异常值的标准以四分位数和四分位间距为基础,四分位数具有一定的鲁棒性;多达25%的数据可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响。由此可见,箱型图识别异常值的结果比较客观,在识别异常值有一定的优势。
    • 鲁棒性:鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。

技术分享图片

import pandas as pd
create_sale = "E:/data/create_sale.xlsx"
data = pd.read_excel(create_sale, index_col="时间")

import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 用来显示正常的中文
plt.rcParams["axes.unicode_minus"] = False

plt.figure()  # 建立画像
p = data.boxplot()  # 画箱线图,直接使用Dataframe的方法
print(p)
x = p["fliers"][0].get_xdata()  #  "filers"即为异常值的标签
y = p["fliers"][0].get_ydata()
y.sort()  # 从小到大排序,该方法直接改变原对象

# 用annotate添加注释
# 其中有些相近的点,注释你会出现重叠,难以看清,需要一些技巧来控制
for i in range(len(x)):
    if i > 0:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]), y[i]))
    else:
        plt.annotate(y[i], xy=(x[i], y[i]), xttext=(x[i]+0.08, y[i]))
plt.show()

技术分享图片

4,一致性分析

5,数据特征分析:

  1. 分布分析
    • 分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称的还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图及进行直观的分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况
    1. 定量数据的分步分析
      • 对于定量而言,选择"组数"和"组宽"是做频率分布分析有以下步骤:
        1. 求极差
        2. 决定组距与组数
        3. 决定分点
        4. 列出频率分布表
        5. 绘制频率分布直方图
      • 遵循的主要原则如下
        1. 各组之间必须是相互排斥的
        2. 各组必须将所有的数据包含在内
        3. 各组的组宽最好相等导入“捞起生鱼片”的销售数据,如下图:
  1. 求极差
    • 极差=最大值-最小值=3960-45=3915
  2. 分组
    • 这里根据业务数据的含义,可取组距为500
    • 组数=极差/组距=3915/500=7.83=》8
  3. 决定分点
    • 分布区间如下:
[0,500) [500,1000) [1000,1500) [1500,2000)
[2000,2500) [2500,3000) [3000,3500) [3500,4000)

原文:https://www.cnblogs.com/ljc-0923/p/10988394.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!