![智能风控:评分卡建模原理、方法与风控策略构建](https://wfqqreader-1252317822.image.myqcloud.com/cover/107/41787107/b_41787107.jpg)
4.5 数据质量诊断
前面章节介绍的主要是数据资产,本节将介绍在取得数据之后,需要进行的数据探查性分析和数据质量诊断。
4.5.1 数据质量诊断目的
在建模之前需要对数据进行探索和数据质量诊断,主要目的如下。
1. 确保数据提取无误
通常提取数据并非由分析建模师自行完成,而是由数据分析建模师提出数据需求,由数据部门协助完成数据的提取工作。在此过程中,可能出现数据逻辑传达不清、理解不准确或者提取数据有技术性错误(编码错误、串行、串列、截断等)等问题,导致数据有误(操作型错误)。
2. 理解数据逻辑
通过数据探索和质量诊断,可以更准确和深入地理解数据逻辑。对于数据逻辑的获得途径,一方面可以通过数据访谈,从数据拥有方和管理方进行了解;另一方面是获取数据之后自行探索数据,对之前了解的数据逻辑进行验证,或者探索性发现和确认数据逻辑。需要注意的是,通过数据拥有方和管理方获得的数据逻辑未必准确,因此自行对数据做进一步的检查和确认是有必要的。
3. 检查数据质量和可用性
检查和分析数据质量,主要包括数据的正确性、完整性、一致性等,初步理解和判断数据的价值和可用性。
4. 为模型设计提供依据
基于数据质量分析结果,重点确认样本量、好坏样本量是否充足等,判断是否足够支撑建模,为后续建模的样本范围确定提供依据。
4.5.2 数据质量诊断方法
数据质量诊断包括如下内容。
1. 表描述
表描述概括了表的基本信息,包括观测数、变量数、数值型/字符型变量数等,如表4-10所示。
表4-10 数据质量诊断(表描述)
![067-01](https://epubservercos.yuewen.com/A756FE/21821546808479706/epubprivate/OEBPS/Images/067-01.jpg?sign=1738841450-eQNRMawt3SuKmyqmJMerUOiSk0KFli2w-0-d7ca183a1814b7eb407295db4c0b70c3)
2. 字段描述
字段描述概括了变量的信息,包括缺失值个数、缺失率、取值水平数等,如表4-11所示。
表4-11 数据质量诊断(字段描述)
![067-02](https://epubservercos.yuewen.com/A756FE/21821546808479706/epubprivate/OEBPS/Images/067-02.jpg?sign=1738841450-vm27YeTk42mT5yQ6vQM3tUmD2FIACzWl-0-aec47069de02c06dbc793b6ef5bfddbf)
3. 值描述
值描述概括了取值内容,包括分类型变量的频数统计、数值型变量的分位统计,分别如表4-12、表4-13所示。
表4-12 数据质量诊断(分类型变量值频数统计)
![067-03](https://epubservercos.yuewen.com/A756FE/21821546808479706/epubprivate/OEBPS/Images/067-03.jpg?sign=1738841450-Prz4nBCM4nlVXTUcISy9v0lJ2DfQyI4C-0-e778cbe0843a03dfdf25eb5cb61552dd)
表4-13 数据质量诊断(数值型变量分位统计)
![067-04](https://epubservercos.yuewen.com/A756FE/21821546808479706/epubprivate/OEBPS/Images/067-04.jpg?sign=1738841450-KcSiJG7iqLCBXK0oF0JJGYjwXXVq2rKm-0-23d503ff434c49edc171be0f0fcdfb5d)
4. 单表键值检查
单表的逻辑主键检查用于确认逻辑主键是否唯一,如表4-14所示。
表4-14 数据质量诊断(单表键检查)
![068-01](https://epubservercos.yuewen.com/A756FE/21821546808479706/epubprivate/OEBPS/Images/068-01.jpg?sign=1738841450-C27lXvLMC2e1gnUwnpkGP4gnZrJMPVe3-0-329ef698313bc8b6f5f71bb24bc0674f)
理论上逻辑组合主键应当是唯一的,如果出现了重复或缺失,则需要进一步分析原因,确认数据逻辑,并做出相应处理。
5. 表关联关系检查
对有关联关系的多张表之间的关联关系进行检查,分别计算各种连接运算(join、left join、right join等)的记录行数和键值数,以确认映射关系是1:1、1:m还是m:n,并确认表间关联关系,以及不同表之间交集范围,如表4-15所示。
表4-15 数据质量诊断(表关联关系检查)
![068-02](https://epubservercos.yuewen.com/A756FE/21821546808479706/epubprivate/OEBPS/Images/068-02.jpg?sign=1738841450-a5slSovjpmm0htblB47etk336rnwNBba-0-72a92b4209edf06406ebea6d45dea8b7)
确认表间关联关系是数据质量诊断过程中非常重要的一项工作。