Pandas es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar, construida sobre el lenguaje de programación Python.
Instalando:
$ pip install pandas
Nota: También puedes instalarlo usando Anacaconda.
Verificar instalación:
$ pip list
Al ejecutar este comando veremos las librerías y paquetes instalados.
Otra forma de validar la instalación es entrando al Repl de Python:
$ py >>> import pandas as pd >>> >>> exit()
Si no sale error, entonces la instalación fue correcta.
¿Qué se puede hacer con Pandas?
1. Estructuras de datos principales.
Pandas ofrece dos estructuras fundamentales:
Series: Una columna unidimensional, similar a un array, pero con índices personalizables.
DataFrame: Una tabla bidimensional (filas y columnas), como una hoja de cálculo o una tabla SQL.
2. Carga y almacenamiento de datos.
Leer datos desde múltiples formatos:
CSV:pd.read_csv('archivo.csv')
pd.read_excel('archivo.xlsx')
df.to_csv('archivo.csv') df.to_excel('archivo.xlsx')
3. Manipulación de datos.
Selección y filtrado: Seleccionar columnas:df['columna'] df[['col1', 'col2']]
df[df['columna'] > valor].
df.dropna() df.fillna(valor)
df.drop_duplicates()
df.replace(antiguo, nuevo)
df['columna'].astype(tipo)
df['columna'].apply(funcion)
df.pivot() df.melt()
4. Análisis de datos.
Estadísticas descriptivas:
Resumen:df.describe()
df.mean() df.median()
df.groupby('columna').sum().
df.groupby('columna').agg({'col2': 'mean', 'col3': 'count'})
pd.merge(df1, df2, on='columna')
pd.concat([df1, df2])
5. Visualización y exploración.
Integración con Matplotlib o Seaborn para gráficos:
df.plot(kind='bar')
df.hist()
df.head() df.tail() df.info()
6. Manejo de series temporales.
Trabajar con fechas:pd.to_datetime(df['columna'])
df.set_index('fecha')
df.resample('M').mean()
7. Automatización y eficiencia.
Procesar grandes conjuntos de datos de manera eficiente con métodos vectorizados. Crear flujos de trabajo para limpieza, transformación y análisis automatizados.Veamos un ejemplo de uso.
ejemplo.py
import pandas as pd # Crear un DataFrame data = {'nombre': ['Ana', 'Bob', 'Clara'], 'edad': [25, 30, 22]} df = pd.DataFrame(data) # Filtrar mayores de 24 años df_filtrado = df[df['edad'] > 24] # Guardar en CSV df_filtrado.to_csv('resultado.csv') print(df_filtrado)
Ejecutamos:
$ py ejemplo.py
Salida:
nombre edad 0 Ana 25 1 Bob 30
Generará un archivo CSV con el nombre de ``resultado.csv``.
En conclusión, Pandas es ideal para trabajar con datos tabulares y es ampliamente usado en ciencia de datos, finanzas, marketing, y más.
Enlaces:
https://pandas.pydata.org/
Comentarios
Publicar un comentario