6 数据处理
6.1 缺失值处理
缺失是一种非常常见的数据问题。
6.1.1 查找
缺失值在数据框中的位置
6.1.2 汇总
缺失值的占比、分布情况,可视化获得缺失的结构 VIM
6.1.3 替换
替换数据框中的缺失值
6.1.4 插补
mice Multivariate Imputation by Chained Equations 缺失值插补
6.2 异常值处理
提及异常,一般会联想到数据本身出问题了,比如数据错误。比较常见的情况是业务有异动,导致数据异常波动,需要及时捕捉到这种异常波动,找到异常的原因,进而采取措施。
6.2.1 检测
6.2.2 识别
6.2.3 处理
6.3 离群值处理
离群,并不是数据本身出问题,而是数据隐藏着特殊信息,与平时不一样的情况,与大家伙不一样的情况。比如情人节鲜花和蛋糕的需求量激增,端午节粽子的需求激增,这和平时很不一样。需求数据本身没有问题,如实反应了现实情况。因此,需要根据现实情况,调整预测模型,做出更加准确的需求预测,提前安排供给。