⌘Ctrlk

Data Analysis
Introducción a Bases de Datos
Fundamentos de Pyhon para Data Analysis
- Sesión 01 Fundamentos de Python
Sesión 02 Librerías para el análisis de datos con Python
Sesión 03 Análisis estadístico de datos (Numpy)
Sesión 04 Análisis exploratorio de datos (Diccionarios y Pandas)
Sesión 05 Procesamiento y Transformación de datos
- Ejemplos y Retos
- Agenda
Sesión 06 Visualización de datos con Python (Matplotlib y otras)
Sesión 07 Regresión con Python (Machine Learning)
Sesión 08 Clasificación con Python: (Machine Learning)
Programación con Python para Data Analysis
PROGRAMACIÓN CON PYTHON PARA DATA ANALYSIS
Sesión 01 Python Fundamentals

Con tecnología de GitBook

En esta página

Sesión 05 Procesamiento y Transformación de datos
Agenda

Limpieza de datos

¿Qué es la limpieza de datos?

Consiste en hacer que los datos tengan sentido siempre.
Asegurarnos que los datos sean representados como los necesitamos.
Podemos tratar de modificar los datos hasta que sean como los necesitamos.
Aquellos que no nos sirven, los descartamos.

¿Por qué es importante?

Los datos pueden venir de muchas fuentes.
No todas las fuentes tratan los datos de la misma manera.
Ejemplo simple: ¿Como representas una fecha de nacimiento? 04-Diciembre-2019 4-12-19 19-12-4 12-4-19

¿Cómo limpiamos los datos?

No existe un algoritmo único de limpieza.
Veremos algunos métodos, y tu deber será saber cuándo aplicar los adecuados.
En general, hay 4 pasos a seguir:
Inspeccionar
Limpiar
Verificar
Reportar

Ejemplo: datos de la NASA. Características de los datos: a) Datos de meteoritos que caen en el planeta. b) En formato JSON c) 1000 registros. d) Es una base de datos valiosa, pero sucia.

Fase 1: Inspección

Eliges las columnas que te sirven y quitas las que no.
Revisas los tipos de datos de las columnas que te sirven. Para esto sirve Head / Tail
Puedes inspeccionar manualmente a ver si hay algún dato raro.

Fase 2: Limpieza por retirar NaNs La limpieza es el paso más complejo y largo de todos.

Lo primero es quitar los valores “N/A”, null, NaN, etc… Los valores NaN no nos sirven y pueden estropear nuestros algoritmos.

Fase 2: Limpieza por unificación de datos

En tus columnas puede que haya datos que no son del mismo tipo. Por ejemplo, en la columna ‘mass’ puede haber: 50 185.4 ‘Ni idea…’ ---> Puedes unificar por medio de un diccionario.

Fase 2: Limpieza por filtrado

Supongamos que solamente aquellos cuerpos de más de 1000 m3 son un peligro. Debes ignorar los datos donde la masa es menor a 1000 m3. Puedes filtrar tus datos con una condicional. Cada vez dejamos menos datos.

Fase 3: Verificar

En alguno de los pasos de limpieza, pudiste haber ensuciado sin querer de nuevo. Por ejemplo: Al transformar una columna en números, los strings se transforman en NaN. Es importante verificar que todo haya quedado como esperabas.

Fase 4: Reportar

El revisar los datos dañados pueden tener un patrón: ¿Una fuente de datos está mal? ¿Un usuario está dando malos datos? ¿Un sensor está fallando?

---> Sigue con el ejemplo 01 // Reto 01 <---

AnteriorAgenda SiguienteNormalización de datos

Última actualización hace 5 años

¿Te fue útil?

¿Te fue útil?