Ir al contenido principal

Conociendo Apache Spark & PySpark


Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Ofrece API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo general para el análisis de datos.

También es compatible con un amplio conjunto de herramientas de alto nivel, como Spark SQL para SQL y DataFrames, la API de Pandas en Spark para cargas de trabajo de Pandas, MLlib para aprendizaje automático, GraphX para procesamiento de gráficos y Structured Streaming para procesamiento de flujos.

Lo puedes usar en Java, Python, Scala y R.

Nosotros lo usaremos con Python.

Descargamos Apache Spark:

https://www.apache.org/dyn/closer.lua/spark/spark-4.0.0/spark-4.0.0-bin-hadoop3.tgz

Lo descomprimimos en:

Configuramos la variable de entorno ``SPARK_HOME```:

  • Nombre de la variable: SPARK_HOME 
  • Valor de la variable: C:\Spark\spark-4.0.0-bin-hadoop3

La agregamos al Path:

%SPARK_HOME%\bin

Podrías agregar otra instalación:

https://github.com/steveloughran/winutils/tree/master

Descargar ``winutils.exe`` y crear un directorio C:\hadoop\bin

Crear la variable de entorno:

  • Nombre de la variable: HADOOP_HOME 
  • Valor de la variable: C:\hadoop.

Y agregarla al Path:

%HADOOP_HOME%\bin

¿Qué es PySpark?

Una API de Python para Apache Spark que se utiliza para procesar grandes conjuntos de datos mediante computación distribuida. Básicamente, es la interfaz de Python para Spark.

Lo instalamos de la siguiente manera:

$ pip install pyspark

Verificamos la instalación:

$ pyspark

Otra forma:

$ pip show pyspark

También podemos descargar una imagen con Docker:

$ docker run -it --rm spark:python3 /opt/spark/bin/pyspark

Agregar variables de entorno ``PYSPARK_DRIVER_PYTHON``

  • Nombre variable: PYSPARK_DRIVER_PYTHON 
  • Valor: C:\Users\HP\AppData\Local\Programs\Python\Python313\python.exe

Y ``PYSPARK_DRIVER_PYTHON``

  • Nombre variable: PYSPARK_PYTHON 
  • Valor: C:\Users\HP\AppData\Local\Programs\Python\Python313\python.exe

Veamos uno ejemplo de uso de PySpark.

ejemplo.py

from pyspark.sql import SparkSession

# Crear una sesión de Spark
spark = SparkSession.builder \
    .appName("EjemploPySpark") \
    .getOrCreate()

# Datos de ejemplo: lista de tuplas con nombres y edades
data = [("Alice", 25), ("Bob", 30), ("Cathy", 28), ("David", 35)]

# Crear un DataFrame a partir de los datos
columns = ["Nombre", "Edad"]
df = spark.createDataFrame(data, columns)

# Mostrar el DataFrame
print("DataFrame original:")
df.show()

# Filtrar personas mayores de 27 años
df_filtrado = df.filter(df.Edad > 27)

# Mostrar el DataFrame filtrado
print("Personas mayores de 27 años:")
df_filtrado.show()

# Contar el número de filas en el DataFrame filtrado
conteo = df_filtrado.count()
print(f"Número de personas mayores de 27 años: {conteo}")

# Detener la sesión de Spark
spark.stop()

Nota: Deberás tener Python en su versión 3.10 ya que con la 3.13 no parece funcionar bien.

Concluyendo, con PySpark puedes realizar diversas tareas relacionadas con el procesamiento de grandes conjuntos de datos y se puede usar a la par de otras herramientas para Python.

Continuaremos con esta serie sobre librerías y herramientas para Python.

Enlaces:

https://pypi.org/project/pyspark/
https://spark.apache.org/

Comentarios

Entradas populares de este blog

Odin language: el lenguaje de programación orientado a datos para un desarrollo de software sensato

En esta serie sobre lenguajes de programación hablamos de Odin , un lenguaje orientado a datos. Un nuevo lenguaje de programación que nos podrá recordar a lenguajes como C++, Python, Golang o hasta Rust. Instalación (Windows): 1 2 3 4 $ git clone https://github.com/odin-lang/Odin $ cd Odin $ git pull $ build.bat release Debemos asegurarnos de crear la variable de entorno: Nombre: ODIN_HOME Valor: C:\Users\HP\Documents\pruebasOdin\Odin Ejemplo 1. Como primer programa tendremos al clásico "Hola, mundo". holamundo.odin package holamundo import " core:fmt " main : : proc ( ) { fmt . println ( " ¡Hola, mundo desde Odin! " ) } Construimos: $ odin build holamundo . odin - file Ejecutamos: $ holamundo .exe Recordar que si usamos Visual Studio Code podemos instalar el plugin de Odin Language: https://marketplace.visualstudio.com/items?itemName=DanielGavin.ols Ejemplo 2. Programa que muestre las variables que pod...

Programación Windows Batch (CMD) parte 3

Crear ciclos para efectuar operaciones tediosas nos ahorrará tiempo para realizar otras tareas. En está ocasión veremos ciclos con FOR . ¿Cuál es la síntaxis de bucle FOR en Windows Batch? Si está dentro de un archivo *.bat : FOR %%variable IN (seq) DO operaciones Si lo ejecutamos en una terminal: FOR %variable IN (seq) DO operaciones Ejemplo 1 . Recorrer una secuencia de números del 0 al 5: recorrer.bat @ echo off FOR %%i in ( 0 1 2 3 4 5 ) DO echo Hola no. %%i pause Nos imprimirá en pantalla: Hola no. 0 Hola no. 1 Hola no. 2 Hola no. 3 Hola no. 4 Hola no. 5 ¿Puedo usar contadores? Si, se pueden usar. Ejemplo 2 . Uso de contadores: contador.bat @ echo off set numeros = 1 2 3 4 5 6 7 8 9 10 set cont = 0 for %%a in ( %numeros% ) do ( echo Hola no. %%a :: Contador set /a cont+ = 1 ) echo Total: %cont% Este código nos imprimirá, además de los mensajes Hola no. 0 ..., el total de valores conta...

z/OS, ¿Qué es? y ¿Cuáles son sus herramientas?

  En este post veremos las herramientas de z/OS de IBM. z/OS es un sistema operativo de mainframe desarrollado por IBM.  Es parte de la serie IBM z Systems (anteriormente conocida como System z), que se utiliza en los sistemas mainframe de IBM. z/OS es uno de los sistemas operativos más utilizados en el mundo empresarial para ejecutar aplicaciones críticas y procesar grandes volúmenes de datos. Características clave de z/OS: Escalabilidad : z/OS es conocido por su capacidad para manejar grandes cargas de trabajo y escalabilidad vertical, lo que permite agregar recursos de hardware para satisfacer las demandas de procesamiento. Confiabilidad y disponibilidad : z/OS está diseñado para ofrecer alta disponibilidad y confiabilidad. Incorpora características como redundancia y recuperación ante fallas para garantizar la continuidad de las operaciones. Seguridad : Proporciona una amplia gama de funciones de seguridad, como autenticación, autorización y auditoría, para proteger los...