Limpieza de datos

¿Qué es la limpieza de datos?

  • Consiste en hacer que los datos tengan sentido siempre.

  • Asegurarnos que los datos sean representados como los necesitamos.

  • Podemos tratar de modificar los datos hasta que sean como los necesitamos.

  • Aquellos que no nos sirven, los descartamos.

¿Por qué es importante?

  • Los datos pueden venir de muchas fuentes.

  • No todas las fuentes tratan los datos de la misma manera.

  • Ejemplo simple: ¿Como representas una fecha de nacimiento? 04-Diciembre-2019 4-12-19 19-12-4 12-4-19

¿Cómo limpiamos los datos?

Ejemplo: datos de la NASA. Características de los datos: a) Datos de meteoritos que caen en el planeta. b) En formato JSON c) 1000 registros. d) Es una base de datos valiosa, pero sucia.

Fase 1: Inspección

Inspección de datos

Fase 2: Limpieza por retirar NaNs La limpieza es el paso más complejo y largo de todos.

Fase 2: Limpieza por unificación de datos

En tus columnas puede que haya datos que no son del mismo tipo. Por ejemplo, en la columna ‘mass’ puede haber: 50 185.4 ‘Ni idea…’ ---> Puedes unificar por medio de un diccionario.

Limpieza por unificación de datos

Fase 2: Limpieza por filtrado

Supongamos que solamente aquellos cuerpos de más de 1000 m3 son un peligro. Debes ignorar los datos donde la masa es menor a 1000 m3. Puedes filtrar tus datos con una condicional. Cada vez dejamos menos datos.

Limpieza por filtrado

Fase 3: Verificar

En alguno de los pasos de limpieza, pudiste haber ensuciado sin querer de nuevo. Por ejemplo: Al transformar una columna en números, los strings se transforman en NaN. Es importante verificar que todo haya quedado como esperabas.

Fase 4: Reportar

El revisar los datos dañados pueden tener un patrón: ¿Una fuente de datos está mal? ¿Un usuario está dando malos datos? ¿Un sensor está fallando?

---> Sigue con el ejemplo 01 // Reto 01 <---

Última actualización

¿Te fue útil?