搜索
您的当前位置:首页正文

谁说菜鸟不会数据分析(入门篇)笔记4.2数据清洗-2.缺失数据的处理

来源:知库网
谁说菜鸟不会数据分析(入门篇)

4.2.2缺失数据的处理

缺失值:数据集合中的某个或某些属性的值是不完全的。

在数据表里,缺失值最常见的表现形式就是空值或错误标示符。

利用定位功能查找空白单元格

“开始”→“编辑:查找和选择”→“定位条件”(Ctrl+G)→选中“空值”→“确定”

则所有空白单元格被一次性选中。

一、处理缺失值的四种方法

1. 用一个样本统计量的值代替缺失值。最典型的做法就是用该变量的样本平均值代替缺失值。 2. 用一个统计模型计算出来的值代替缺失值。常使用的模型有回归模型、判别模型等,不过这得用专业数据分析软件才行。

3. 将有缺失值的纪录删除,不过可能会导致样本量的减少。

4. 将有缺失值的纪录保留,仅在相应的分析中做必要的排出。当调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这种方式处理缺失值比较可行。

二、用“Ctrl+Enter”键在不连续的区域一次输入同一个数据或公式

选择一个单元格或区域→按住“Ctrl”键不放,再选择其它单元格或区域,直到选中所有要输入数据的区域才松开“Ctrl”键→输入数据或公式→“Ctrl+Enter”键

三、用“查找”(Ctrl+F)和“替换”(Ctrl+H)功能 例:将“#DIV/0”替换为“0” 选中所要的数据区域→“开始”→“编辑:查找和选择”→ “替换”→在“查找内容”中输入“#DIV/0”,在“替换为”中输入“0”→“替换”

因篇幅问题不能全部显示,请点此查看更多更全内容

Top