Limpieza de datos
Última actualización
¿Te fue útil?
Última actualización
¿Te fue útil?
¿Qué es la limpieza de datos?
Consiste en hacer que los datos tengan sentido siempre.
Asegurarnos que los datos sean representados como los necesitamos.
Podemos tratar de modificar los datos hasta que sean como los necesitamos.
Aquellos que no nos sirven, los descartamos.
¿Por qué es importante?
Los datos pueden venir de muchas fuentes.
No todas las fuentes tratan los datos de la misma manera.
Ejemplo simple: ¿Como representas una fecha de nacimiento? 04-Diciembre-2019 4-12-19 19-12-4 12-4-19
¿Cómo limpiamos los datos?
Ejemplo: datos de la NASA. Características de los datos: a) Datos de meteoritos que caen en el planeta. b) En formato JSON c) 1000 registros. d) Es una base de datos valiosa, pero sucia.
Fase 1: Inspección
Fase 2: Limpieza por retirar NaNs La limpieza es el paso más complejo y largo de todos.
En tus columnas puede que haya datos que no son del mismo tipo. Por ejemplo, en la columna ‘mass’ puede haber: 50 185.4 ‘Ni idea…’ ---> Puedes unificar por medio de un diccionario.
Supongamos que solamente aquellos cuerpos de más de 1000 m3 son un peligro. Debes ignorar los datos donde la masa es menor a 1000 m3. Puedes filtrar tus datos con una condicional. Cada vez dejamos menos datos.
En alguno de los pasos de limpieza, pudiste haber ensuciado sin querer de nuevo. Por ejemplo: Al transformar una columna en números, los strings se transforman en NaN. Es importante verificar que todo haya quedado como esperabas.
Fase 4: Reportar
El revisar los datos dañados pueden tener un patrón: ¿Una fuente de datos está mal? ¿Un usuario está dando malos datos? ¿Un sensor está fallando?