LogoLogo
  • Data Analysis
  • Introducción a Bases de Datos
    • Sesión 01 Consola
      • Agenda
      • Temas
        • 1. Shell y kernel
        • 2. ¿Qué es una terminal?
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
    • Sesión 02 Preparación y Consulta de Datos
      • Agenda
      • Temas
        • 1. Procesamiento de Datos
        • 2. Big Data
        • 3. Ciencia de Datos
        • 4. Expresiones Regulares
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
      • Encuesta de satisfacción
    • Sesión 03 Fundamentos de SQL
      • Agenda
      • Temas
        • 1. ¿Qué es una base de datos?
        • 2. ¿Qué es SQL?
        • 3. ¿Sistema de Gestor de Bases de Datos?
        • 4. Consultas a una BD
        • 5. Miniconda
        • 6. MyCLI
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
    • Sesión 4 Consulta de Datos y Relaciones SQL
      • Agenda
      • Temas
        • 1. ORDER BY(Ordenamiento)
        • 2. Operaciones matemáticas
        • 3. Teoría de conjuntos
        • 4. Joins
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
      • Proyecto
    • Sesión 5 Fundamentos de Mongo DB
      • Agenda
      • Temas
        • 1. NoSQL
        • 2. JSON
        • 3. MongoDB Compass
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
      • Proyecto
    • Sesión 6 Consultas con MongoDB a datos estructurados
      • Agenda
      • Temas
        • Consultas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
      • Proyecto
    • Sesión 7 Fundamentos de bases de datos en la nube
      • Agenda
      • Temas
        • API
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
    • Sesión 8 Consulta de datos en la nube
      • Agenda
      • Temas
        • Tipos de Datos
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
      • Proyecto
  • Fundamentos de Pyhon para Data Analysis
    • Sesión 01 Fundamentos de Python
      • Agenda
        • Temas
          • ¿Por qué Python?
          • Python: Lenguaje secuencial, tipos de datos y estructuras
          • Python: Procedimientos y funciones
          • Python: Condicionales
          • Python: Ciclos e iteraciones
      • Ejemplos y Retos
        • Ejemplo 01 y Reto 01
        • Ejemplo 02 y Reto 02
        • Reto 03
        • Ejemplo 03 y Reto 05
        • Reto 04
  • Sesión 02 Librerías para el análisis de datos con Python
    • Agenda
      • PANDAS: Dataframes
      • Jupyter Notebook
      • Ambientes de Python
      • MatPlotLib
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Ejemplo 02 / Reto 02 y Reto 03
      • Reto Final
  • Sesión 03 Análisis estadístico de datos (Numpy)
    • Agenda
      • Numpy
      • El objeto “Array” en NumPy
      • Creación y limpieza de datos con NumPy
      • Funciones útiles de NumPy
      • Matemática de Matrices con NumPy
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Ejemplo 02 y 03 / Reto 02
      • Ejemplo 04 / Reto 03
      • Ejemplo 05 y Reto 04 / Reto Final
  • Sesión 04 Análisis exploratorio de datos (Diccionarios y Pandas)
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 02
      • Ejemplo 02 y Reto 04
      • Reto 03
      • Reto 06
    • Agenda
      • Diccionarios
      • Keys & Values
      • Archivos JSON
      • Diccionarios, JSONs y PANDAS
      • Análisis Exploratorio de Datos
  • Sesión 05 Procesamiento y Transformación de datos
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Reto 02
      • Ejemplo 03 y Reto 03
    • Agenda
      • Limpieza de datos
      • Normalización de datos
      • Mappeo de datos
      • Unión de DataFrames
  • Sesión 06 Visualización de datos con Python (Matplotlib y otras)
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Reto 02
      • Reto 03
      • Reto 04
    • Agenda
      • Scatter plots: gráficas de dispersión
      • Figuras y sub-figuras
      • Plotteos 3D
      • Generación de subplots 3D
  • Sesión 07 Regresión con Python (Machine Learning)
    • Ejemplos y Retos
      • Reto 01
      • Reto 02
      • Reto 03
      • Reto 04
    • Agenda
      • Teoría de regresión lineal: Bases de la Inteligencia Artificial
      • La neurona artificial: La base de la I.A. moderna
      • Entrenamiento y prueba: Mi primer algoritmo de I.A
  • Sesión 08 Clasificación con Python: (Machine Learning)
    • Agenda
      • La clasificación automática
      • Agrupamiento en clústers: Clasificación no supervisada
      • Clasificación supervisada
      • Clasificación multiclase supervisada
    • Ejemplos y Retos
      • Ejemplo 01 y Reto 01
      • Reto 02
      • Ejemplo 03 y Reto 03 / Ejemplo 04 y Reto 04
  • Programación con Python para Data Analysis
  • PROGRAMACIÓN CON PYTHON PARA DATA ANALYSIS
  • Sesión 01 Python Fundamentals
    • Sesión 01: Python Fundamentals
    • Agenda
      • Agenda
    • Ejemplos y Retos
      • Temas
      • Ejemplo 01 y Reto 01
      • Ejemplos y Retos
      • Untitled
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
        • Reto Final
    • Sesión 02: Estructuras de datos y funciones
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
        • Ejemplo 06
        • Reto final
    • Sesión 03: Módulos y paquetes
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
        • Reto final
    • Sesión 04: Manipulación de archivos, JSON, CSV y excepciones
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Reto final
    • Sesión 05: Programación Orientada a Objetos
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Reto final
    • Sesión 06: Servidores web y APIs
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Reto final
    • Sesión 07: Web Scraping
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
        • Ejemplo 05
    • Sesión 08: Computación numérica o científica
      • Agenda
        • Temas
      • Ejemplos y Retos
        • Ejemplo 01
        • Ejemplo 02
        • Ejemplo 03
        • Ejemplo 04
Con tecnología de GitBook
En esta página

¿Te fue útil?

  1. Sesión 03 Análisis estadístico de datos (Numpy)
  2. Agenda

Creación y limpieza de datos con NumPy

AnteriorEl objeto “Array” en NumPySiguienteFunciones útiles de NumPy

Última actualización hace 5 años

¿Te fue útil?

Transformando datos de NumPy

Hay veces en que hay que transformar de un tipo de dato (int64) a otro (float64). Puedes copiar los datos y transformarlos con np.array. Puedes transformar los datos si estableces el tipo en dtype.

Inicializando matrices y vectores

np.zeros(cantidad) te permite crear un vector del tamaño que le digas, lleno de ceros. Funciona igual con una matriz: la matriz tan grande como quieras, si le das los valores adecuados.

Inicializando cubos con ceros

np.zeros también funciona con cubos, tensores, y con cualquier otra dimensión.

¿De qué nos sirve eso?

Las matrices pueden ser usadas para representar datos grandes:

  • Datos geográficos (mapas)

  • Imágenes en escala de grises

  • Matrices en mapas auto-organizativos

Inicializando con otros valores

También puedes inicializar un NumPy con valores “1”, u otro valor que quieras. Todos los datos mantendrán el mismo valor.

Inicializando con valores aleatorios

Np.random.rand(3,3) 
#genera una matriz de 3x3 con números aleatorios

Np.random.randn(3,3) 
#genera una matriz igual, pero con distribución normal

Distribuciones: Uniforme o Normal

Uniforme: del 0 al 1, todos los valores son aleatorios.

Normal: se comporta como una “campana de gauss”

¿Cual distribución usar?

¿Al azar? --> Usa uniforme ¿Que se comporte como la naturaleza? --> Usa normal

¿Para qué nos sirve?

  • Cuando vas a entrenar una red neuronal, requieres inicializar las neuronas aleatoriamente.

  • Cuando vas a entrenar un sistema de agrupación automática (clusterización), los grupos comienzan aleatoriamente.

  • Si inicializas los datos en ceros o unos, es fácil que el sistema no aprenda.

Accediendo a un dato

¿Cómo podemos obtener un dato en un vector / matriz / cubo / etc…?

  • variableNP[#][#]

En el ejemplo, matriz[2][1] significa: Vector 2, valor 1

¿En el caso de los cubos?

Cubo[2][1][0] = La matriz 2, el vector 1, el valor 0 Así funciona con todas las dimensiones. Formas alternativas de acceder a los datos:

División de datos

  • Puedes partir un vector en valores.

  • Puedes partir una matriz en vectores.

  • Puedes partir un cubo en matrices.

print(cubo[2,1])
[21 21.1 21.2]

Filtros (limpieza de datos)

Supongamos que tenemos una matriz con datos simples. Queremos filtrar los datos con alguna condicional. Cumple con la condición: se mantiene el dato. No cumple con la condición: el dato se vuelve 0.

¿Para qué sirve limpiar los datos?

Es común que cuando extraes datos lleguen a estar sucios:

  • Datos sin sentido

  • Datos negativos (que no deberían existir)

  • Datos vacíos

  • Valores NaN (Not a Number)

¿Y qué sucede con estos datos sucios?

  • Un valor NaN puede ser un valor infinitamente grande o pequeño.

  • Cualquier operación con un NaN corrompe una red neuronal hasta volverla inservible.

  • Cualquier operación con datos sucios puede acarrear bugs desagradables.

---> Sigue con el ejemplo 02 y 03 // Reto 02 <---

Transformar datos en Numpy
Distribuciones: Uniforme (arriba) / Normal (abajo)