更新时间:2022年11月22日14时10分 来源:传智教育 浏览次数:
在几乎所有的数据工作中,凡是涉及矩阵的数据计算,一般都要求数据不包含NA值,如果包含NA值,则无法计算均值、最大值、方差等。因此NA值的处理应该放在所有数据清洗和预处理工作的首位。
相似问题:与NA值相似的还有2个值:正无穷和负无穷。在某些处理逻辑下,可能会产生这2类值。在Python中,float('inf')表示正无穷,-float(‘-inf’)表示负无穷。凡是涉及数据计算,这2类值与NA值一样,其所在列都无法计算,因此都需要转换处理。
直接抛弃异常值
异常数据通常被认定是一种“噪声”。产生数据“噪声”的原因很多,如业务运营操作、数据采集问题、数据同步问题等。处理异常数据前,需要先辨别出到底哪些是真正的数据异常。当数据的“异常”是由于业务特定运营动作产生时,它其实是正常反映业务状态,而不是数据本身异常的规律。因此,在这个状态下,必须保留看似异常的结果,否则业务的真实状态无法反映到数据中。
相似问题:另外还有一类必须保持原有异常值的场景是后续数据应用的场景是异常检测,如果把异常数据剔除,会直接导致异常检测结果失效。