MySQL数据清洗

发布时间: 2023-11-21 13:10 阅读: 文章来源:1MUMB4809PS

MySQL是常用的开源DBMS,因为开源,扩展性好,被广泛使用。在数据分析等实际工作中,由于数据量过大、数据冗余等原因,我们要先对数据库进行清理。要注意的原则有:提前做好数据备份、尽量不动原表格(可以生成新的表格)。通常要从以下三个方面来考察、处理:缺失值、异常值、重复值。

1、缺失值

在数据采集和存储过程中,往往会出现缺失值的情况。对于缺失值,可以使用MySQL的

IFNULL()函数来进行填充。填充方法有:

用固定值填充用均值填充用众数填充用上下数据进行填充用插值法填充

2、异常值

数据分析过程中,数据异常情况经常出现。需要我们通过异常值检测来剔除这些异常数据。可以借助统计学知识和专业工具来自动检测、剔除异常值,也可以从最基础的观测相关字段的最大值、最小值来判断。对于那些超出预期范畴的数据,我们应该及时进行处理,以保证数据的准确性和可靠性。

3、重复值

数据中可能存在大量的重复数据。这些重复数据不但会浪费我们的存储空间,还会对我们的数据分析带来困难。MySQL提供了DISTINCT关键字来去除重复数据。比如:新建表

Create table newtable as select distinct * from oldtable;

•••展开全文