LogoLogo
  • Data Analysis
  • Introducción a Bases de Datos
    • Sesión 01 Consola
      • Agenda
      • Temas
        • 1. Shell y kernel
        • 2. ¿Qué es una terminal?
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
    • Sesión 02 Preparación y Consulta de Datos
      • Agenda
      • Temas
        • 1. Procesamiento de Datos
        • 2. Big Data
        • 3. Ciencia de Datos
        • 4. Expresiones Regulares
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
      • Encuesta de satisfacción
    • Sesión 03 Fundamentos de SQL
      • Agenda
      • Temas
        • 1. ¿Qué es una base de datos?
        • 2. ¿Qué es SQL?
        • 3. ¿Sistema de Gestor de Bases de Datos?
        • 4. Consultas a una BD
        • 5. Miniconda
        • 6. MyCLI
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
    • Sesión 4 Consulta de Datos y Relaciones SQL
      • Agenda
      • Temas
        • 1. ORDER BY(Ordenamiento)
        • 2. Operaciones matemáticas
        • 3. Teoría de conjuntos
        • 4. Joins
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
    • Sesión 5 Fundamentos de Mongo DB
      • Agenda
      • Temas
        • 1. NoSQL
        • 2. JSON
        • 3. MongoDB Compass
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
      • Proyecto
    • Sesión 6 Consultas con MongoDB a datos estructurados
      • Agenda
      • Temas
        • Consultas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
      • Proyecto
    • Sesión 7 Fundamentos de bases de datos en la nube
      • Agenda
      • Temas
        • API
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
    • Sesión 8 Consulta de datos en la nube
      • Agenda
      • Temas
        • Tipos de Datos
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
      • Proyecto
  • Fundamentos de Pyhon para Data Analysis
    • Sesión 01 Fundamentos de Python
      • Agenda
        • Temas
          • ¿Por qué Python?
          • Python: Lenguaje secuencial, tipos de datos y estructuras
          • Python: Procedimientos y funciones
          • Python: Condicionales
          • Python: Ciclos e iteraciones
      • Ejemplos y Retos
        • Ejemplo 01 y Reto 01
        • Ejemplo 02 y Reto 02
        • Reto 03
        • Ejemplo 03 y Reto 05
        • Reto 04
  • Sesión 02 Librerías para el análisis de datos con Python
    • Agenda
      • PANDAS: Dataframes
      • Jupyter Notebook
      • Ambientes de Python
      • MatPlotLib
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Ejemplo 02 / Reto 02 y Reto 03
      • Reto Final
  • Sesión 03 Análisis estadístico de datos (Numpy)
    • Agenda
      • Numpy
      • El objeto “Array” en NumPy
      • Creación y limpieza de datos con NumPy
      • Funciones útiles de NumPy
      • Matemática de Matrices con NumPy
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Ejemplo 02 y 03 / Reto 02
      • Ejemplo 04 / Reto 03
      • Ejemplo 05 y Reto 04 / Reto Final
  • Sesión 04 Análisis exploratorio de datos (Diccionarios y Pandas)
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 02
      • Ejemplo 02 y Reto 04
      • Reto 03
      • Reto 06
    • Agenda
      • Diccionarios
      • Keys & Values
      • Archivos JSON
      • Diccionarios, JSONs y PANDAS
      • Análisis Exploratorio de Datos
  • Sesión 05 Procesamiento y Transformación de datos
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Reto 02
      • Ejemplo 03 y Reto 03
    • Agenda
      • Limpieza de datos
      • Normalización de datos
      • Mappeo de datos
      • Unión de DataFrames
  • Sesión 06 Visualización de datos con Python (Matplotlib y otras)
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Reto 02
      • Reto 03
      • Reto 04
    • Agenda
      • Scatter plots: gráficas de dispersión
      • Figuras y sub-figuras
      • Plotteos 3D
      • Generación de subplots 3D
  • Sesión 07 Regresión con Python (Machine Learning)
    • Ejemplos y Retos
      • Reto 01
      • Reto 02
      • Reto 03
      • Reto 04
    • Agenda
      • Teoría de regresión lineal: Bases de la Inteligencia Artificial
      • La neurona artificial: La base de la I.A. moderna
      • Entrenamiento y prueba: Mi primer algoritmo de I.A
  • Sesión 08 Clasificación con Python: (Machine Learning)
    • Agenda
      • La clasificación automática
      • Agrupamiento en clústers: Clasificación no supervisada
      • Clasificación supervisada
      • Clasificación multiclase supervisada
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Reto 02
      • Ejemplo 03 y Reto 03 / Ejemplo 04 y Reto 04
  • Programación con Python para Data Analysis
  • PROGRAMACIÓN CON PYTHON PARA DATA ANALYSIS
  • Sesión 01 Python Fundamentals
    • Sesión 01: Python Fundamentals
    • Agenda
      • Agenda
    • Ejemplos y Retos
      • Temas
      • Ejemplo 01 y Reto 01
      • Ejemplos y Retos
      • Untitled
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
        • Reto Final
    • Sesión 02: Estructuras de datos y funciones
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
        • Ejemplo 06
        • Reto final
    • Sesión 03: Módulos y paquetes
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
        • Reto final
    • Sesión 04: Manipulación de archivos, JSON, CSV y excepciones
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Reto final
    • Sesión 05: Programación Orientada a Objetos
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Reto final
    • Sesión 06: Servidores web y APIs
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Reto final
    • Sesión 07: Web Scraping
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
    • Sesión 08: Computación numérica o científica
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
Con tecnología de GitBook
En esta página

¿Te fue útil?

  1. Sesión 05 Procesamiento y Transformación de datos
  2. Agenda

Limpieza de datos

AnteriorAgendaSiguienteNormalización de datos

Última actualización hace 5 años

¿Te fue útil?

¿Qué es la limpieza de datos?

  • Consiste en hacer que los datos tengan sentido siempre.

  • Asegurarnos que los datos sean representados como los necesitamos.

  • Podemos tratar de modificar los datos hasta que sean como los necesitamos.

  • Aquellos que no nos sirven, los descartamos.

¿Por qué es importante?

  • Los datos pueden venir de muchas fuentes.

  • No todas las fuentes tratan los datos de la misma manera.

  • Ejemplo simple: ¿Como representas una fecha de nacimiento? 04-Diciembre-2019 4-12-19 19-12-4 12-4-19

¿Cómo limpiamos los datos?

Ejemplo: datos de la NASA. Características de los datos: a) Datos de meteoritos que caen en el planeta. b) En formato JSON c) 1000 registros. d) Es una base de datos valiosa, pero sucia.

Fase 1: Inspección

Fase 2: Limpieza por retirar NaNs La limpieza es el paso más complejo y largo de todos.

Fase 2: Limpieza por unificación de datos

En tus columnas puede que haya datos que no son del mismo tipo. Por ejemplo, en la columna ‘mass’ puede haber: 50 185.4 ‘Ni idea…’ ---> Puedes unificar por medio de un diccionario.

Fase 2: Limpieza por filtrado

Supongamos que solamente aquellos cuerpos de más de 1000 m3 son un peligro. Debes ignorar los datos donde la masa es menor a 1000 m3. Puedes filtrar tus datos con una condicional. Cada vez dejamos menos datos.

Fase 3: Verificar

En alguno de los pasos de limpieza, pudiste haber ensuciado sin querer de nuevo. Por ejemplo: Al transformar una columna en números, los strings se transforman en NaN. Es importante verificar que todo haya quedado como esperabas.

Fase 4: Reportar

El revisar los datos dañados pueden tener un patrón: ¿Una fuente de datos está mal? ¿Un usuario está dando malos datos? ¿Un sensor está fallando?

---> Sigue con el ejemplo 01 // Reto 01 <---

Inspección de datos
Limpieza por unificación de datos
Limpieza por filtrado