Ir al contenido principal

Pandas, una librería para manejo de datos en Python

Pandas es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar, construida sobre el lenguaje de programación Python.

Instalando:

$ pip install pandas

Nota: También puedes instalarlo usando Anacaconda.

Verificar instalación:

$ pip list

Al ejecutar este comando veremos las librerías y paquetes instalados.

Otra forma de validar la instalación es entrando al Repl de Python:

$ py
>>> import pandas as pd
>>> 
>>> exit()

Si no sale error, entonces la instalación fue correcta.

¿Qué se puede hacer con Pandas?

1. Estructuras de datos principales.

Pandas ofrece dos estructuras fundamentales:

Series: Una columna unidimensional, similar a un array, pero con índices personalizables. 

DataFrame: Una tabla bidimensional (filas y columnas), como una hoja de cálculo o una tabla SQL.

2. Carga y almacenamiento de datos.

Leer datos desde múltiples formatos:

CSV:
pd.read_csv('archivo.csv')
Excel:
pd.read_excel('archivo.xlsx')
JSON, SQL, Parquet, HDF5, entre otros. 
Guardar datos en los mismos formatos:
df.to_csv('archivo.csv')
df.to_excel('archivo.xlsx')

3. Manipulación de datos.

Selección y filtrado: Seleccionar columnas:
df['columna'] 
df[['col1', 'col2']]
Filtrar filas:
df[df['columna'] > valor].
Usar loc y iloc para acceder por etiquetas o índices. 
Limpieza de datos:
Manejar valores nulos:
df.dropna()
df.fillna(valor)
Eliminar duplicados:
df.drop_duplicates()
Reemplazar valores:
df.replace(antiguo, nuevo)
Transformación: 
Cambiar tipos de datos:
df['columna'].astype(tipo)
Aplicar funciones:
df['columna'].apply(funcion)
Reorganizar datos:
df.pivot()
df.melt()

4. Análisis de datos.

Estadísticas descriptivas:

Resumen:
df.describe()
Media, mediana, etc.:
df.mean()
df.median()
Agrupaciones: 
Agrupar datos:
df.groupby('columna').sum().
Agregaciones personalizadas:
df.groupby('columna').agg({'col2': 'mean', 'col3': 'count'})
Unión y combinación: 
Unir DataFrames:
pd.merge(df1, df2, on='columna')
Concatenar:
pd.concat([df1, df2])

5. Visualización y exploración.

Integración con Matplotlib o Seaborn para gráficos:

df.plot(kind='bar')
df.hist()
Explorar datos:


df.head()
df.tail()
df.info()

6. Manejo de series temporales.

Trabajar con fechas:
pd.to_datetime(df['columna'])
Indexación temporal:
df.set_index('fecha')
Resampling:
df.resample('M').mean() 
(por ejemplo, para datos mensuales).

7. Automatización y eficiencia.

Procesar grandes conjuntos de datos de manera eficiente con métodos vectorizados. Crear flujos de trabajo para limpieza, transformación y análisis automatizados.

Veamos un ejemplo de uso.

ejemplo.py

import pandas as pd

# Crear un DataFrame
data = {'nombre': ['Ana', 'Bob', 'Clara'], 'edad': [25, 30, 22]}
df = pd.DataFrame(data)

# Filtrar mayores de 24 años
df_filtrado = df[df['edad'] > 24]

# Guardar en CSV
df_filtrado.to_csv('resultado.csv')
print(df_filtrado)

Ejecutamos:

$ py ejemplo.py

Salida:

  nombre  edad
0    Ana    25
1    Bob    30

Generará un archivo CSV con el nombre de ``resultado.csv``.

En conclusión, Pandas es ideal para trabajar con datos tabulares y es ampliamente usado en ciencia de datos, finanzas, marketing, y más.

Enlaces:

https://pandas.pydata.org/


Comentarios

Entradas populares de este blog

Odin language: el lenguaje de programación orientado a datos para un desarrollo de software sensato

En esta serie sobre lenguajes de programación hablamos de Odin , un lenguaje orientado a datos. Un nuevo lenguaje de programación que nos podrá recordar a lenguajes como C++, Python, Golang o hasta Rust. Instalación (Windows): 1 2 3 4 $ git clone https://github.com/odin-lang/Odin $ cd Odin $ git pull $ build.bat release Debemos asegurarnos de crear la variable de entorno: Nombre: ODIN_HOME Valor: C:\Users\HP\Documents\pruebasOdin\Odin Ejemplo 1. Como primer programa tendremos al clásico "Hola, mundo". holamundo.odin package holamundo import " core:fmt " main : : proc ( ) { fmt . println ( " ¡Hola, mundo desde Odin! " ) } Construimos: $ odin build holamundo . odin - file Ejecutamos: $ holamundo .exe Recordar que si usamos Visual Studio Code podemos instalar el plugin de Odin Language: https://marketplace.visualstudio.com/items?itemName=DanielGavin.ols Ejemplo 2. Programa que muestre las variables que pod...

Programación Windows Batch (CMD) parte 3

Crear ciclos para efectuar operaciones tediosas nos ahorrará tiempo para realizar otras tareas. En está ocasión veremos ciclos con FOR . ¿Cuál es la síntaxis de bucle FOR en Windows Batch? Si está dentro de un archivo *.bat : FOR %%variable IN (seq) DO operaciones Si lo ejecutamos en una terminal: FOR %variable IN (seq) DO operaciones Ejemplo 1 . Recorrer una secuencia de números del 0 al 5: recorrer.bat @ echo off FOR %%i in ( 0 1 2 3 4 5 ) DO echo Hola no. %%i pause Nos imprimirá en pantalla: Hola no. 0 Hola no. 1 Hola no. 2 Hola no. 3 Hola no. 4 Hola no. 5 ¿Puedo usar contadores? Si, se pueden usar. Ejemplo 2 . Uso de contadores: contador.bat @ echo off set numeros = 1 2 3 4 5 6 7 8 9 10 set cont = 0 for %%a in ( %numeros% ) do ( echo Hola no. %%a :: Contador set /a cont+ = 1 ) echo Total: %cont% Este código nos imprimirá, además de los mensajes Hola no. 0 ..., el total de valores conta...

z/OS, ¿Qué es? y ¿Cuáles son sus herramientas?

  En este post veremos las herramientas de z/OS de IBM. z/OS es un sistema operativo de mainframe desarrollado por IBM.  Es parte de la serie IBM z Systems (anteriormente conocida como System z), que se utiliza en los sistemas mainframe de IBM. z/OS es uno de los sistemas operativos más utilizados en el mundo empresarial para ejecutar aplicaciones críticas y procesar grandes volúmenes de datos. Características clave de z/OS: Escalabilidad : z/OS es conocido por su capacidad para manejar grandes cargas de trabajo y escalabilidad vertical, lo que permite agregar recursos de hardware para satisfacer las demandas de procesamiento. Confiabilidad y disponibilidad : z/OS está diseñado para ofrecer alta disponibilidad y confiabilidad. Incorpora características como redundancia y recuperación ante fallas para garantizar la continuidad de las operaciones. Seguridad : Proporciona una amplia gama de funciones de seguridad, como autenticación, autorización y auditoría, para proteger los...