Ir al contenido principal

Conociendo Apache Spark & PySpark


Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Ofrece API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo general para el análisis de datos.

También es compatible con un amplio conjunto de herramientas de alto nivel, como Spark SQL para SQL y DataFrames, la API de Pandas en Spark para cargas de trabajo de Pandas, MLlib para aprendizaje automático, GraphX para procesamiento de gráficos y Structured Streaming para procesamiento de flujos.

Lo puedes usar en Java, Python, Scala y R.

Nosotros lo usaremos con Python.

Descargamos Apache Spark:

https://www.apache.org/dyn/closer.lua/spark/spark-4.0.0/spark-4.0.0-bin-hadoop3.tgz

Lo descomprimimos en:

Configuramos la variable de entorno ``SPARK_HOME```:

  • Nombre de la variable: SPARK_HOME 
  • Valor de la variable: C:\Spark\spark-4.0.0-bin-hadoop3

La agregamos al Path:

%SPARK_HOME%\bin

Podrías agregar otra instalación:

https://github.com/steveloughran/winutils/tree/master

Descargar ``winutils.exe`` y crear un directorio C:\hadoop\bin

Crear la variable de entorno:

  • Nombre de la variable: HADOOP_HOME 
  • Valor de la variable: C:\hadoop.

Y agregarla al Path:

%HADOOP_HOME%\bin

¿Qué es PySpark?

Una API de Python para Apache Spark que se utiliza para procesar grandes conjuntos de datos mediante computación distribuida. Básicamente, es la interfaz de Python para Spark.

Lo instalamos de la siguiente manera:

$ pip install pyspark

Verificamos la instalación:

$ pyspark

Otra forma:

$ pip show pyspark

También podemos descargar una imagen con Docker:

$ docker run -it --rm spark:python3 /opt/spark/bin/pyspark

Agregar variables de entorno ``PYSPARK_DRIVER_PYTHON``

  • Nombre variable: PYSPARK_DRIVER_PYTHON 
  • Valor: C:\Users\HP\AppData\Local\Programs\Python\Python313\python.exe

Y ``PYSPARK_DRIVER_PYTHON``

  • Nombre variable: PYSPARK_PYTHON 
  • Valor: C:\Users\HP\AppData\Local\Programs\Python\Python313\python.exe

Veamos uno ejemplo de uso de PySpark.

ejemplo.py

from pyspark.sql import SparkSession

# Crear una sesión de Spark
spark = SparkSession.builder \
    .appName("EjemploPySpark") \
    .getOrCreate()

# Datos de ejemplo: lista de tuplas con nombres y edades
data = [("Alice", 25), ("Bob", 30), ("Cathy", 28), ("David", 35)]

# Crear un DataFrame a partir de los datos
columns = ["Nombre", "Edad"]
df = spark.createDataFrame(data, columns)

# Mostrar el DataFrame
print("DataFrame original:")
df.show()

# Filtrar personas mayores de 27 años
df_filtrado = df.filter(df.Edad > 27)

# Mostrar el DataFrame filtrado
print("Personas mayores de 27 años:")
df_filtrado.show()

# Contar el número de filas en el DataFrame filtrado
conteo = df_filtrado.count()
print(f"Número de personas mayores de 27 años: {conteo}")

# Detener la sesión de Spark
spark.stop()

Nota: Deberás tener Python en su versión 3.10 ya que con la 3.13 no parece funcionar bien.

Concluyendo, con PySpark puedes realizar diversas tareas relacionadas con el procesamiento de grandes conjuntos de datos y se puede usar a la par de otras herramientas para Python.

Continuaremos con esta serie sobre librerías y herramientas para Python.

Enlaces:

https://pypi.org/project/pyspark/
https://spark.apache.org/

Comentarios

Entradas populares de este blog

Programación Windows Batch (CMD) parte 3

Crear ciclos para efectuar operaciones tediosas nos ahorrará tiempo para realizar otras tareas. En está ocasión veremos ciclos con FOR . ¿Cuál es la síntaxis de bucle FOR en Windows Batch? Si está dentro de un archivo *.bat : FOR %%variable IN (seq) DO operaciones Si lo ejecutamos en una terminal: FOR %variable IN (seq) DO operaciones Ejemplo 1 . Recorrer una secuencia de números del 0 al 5: recorrer.bat @ echo off FOR %%i in ( 0 1 2 3 4 5 ) DO echo Hola no. %%i pause Nos imprimirá en pantalla: Hola no. 0 Hola no. 1 Hola no. 2 Hola no. 3 Hola no. 4 Hola no. 5 ¿Puedo usar contadores? Si, se pueden usar. Ejemplo 2 . Uso de contadores: contador.bat @ echo off set numeros = 1 2 3 4 5 6 7 8 9 10 set cont = 0 for %%a in ( %numeros% ) do ( echo Hola no. %%a :: Contador set /a cont+ = 1 ) echo Total: %cont% Este código nos imprimirá, además de los mensajes Hola no. 0 ..., el total de valores conta...

TIOBE index 2024

El índice TIOBE (o índice de la comunidad de programación TIOBE) mide la popularidad de los lenguajes de programación. Su índice no se basa en qué lenguaje de programación es mejor, si tiene mejor perfomance, si posee escalabilidad, si es más sencillo de aprender, de usar, de implementar, etc. Sólo se basa en la popularidad. En el número de referencias ya sea en blogs, foros de consulta, etc. No necesariamente si las empresas lo están usando en alguno de sus desarrollos. Este índice es útil para darse una idea qué lenguaje está cobrando más popularidad y prestigio. Enseguida una tabla con los primeros 5 lenguajes más populares. Índice de Noviembre 2024   Nov 2024  Nov 2023  Change  Programming Language  Ratings  Change  1  1    Python  22.85%  +8.69%  2  3  +  C++  10.64%  +0.29%  3  4  +  Java  9.60%  +1.26%  4 ...

Programación Windows Batch (CMD)

En esta serie de post aprenderemos cómo crear nuestros propios archivos Windows Batch. 1. ¿Por qué aprender Batch en Windows? Una de las razones es que, queramos o no, algún día tendremos que trabajar usando sistemas operativos Windows. Crear scripts nos puede servir para realizar tareas que parecen sencillas en un principio, pero que pueden llegar a ser tediosas (ej. crear múltiples carpetas, comprobar la existencia de un archivo, realizar respaldos, etc.). 2. ¿Cómo puedo crear un archivo Batch en Windows? Los archivos batch en Windows pueden ser escritos con las extensiones *.bat o *.cmd. Pueden contener una serie de comandos y secuencias de instrucciones para realizar diversas tareas. Ejemplo 1. Conocer  el nombre del usuario. usuario.bat @ echo off echo Hola %USERNAME% pause GOTO Comentario -- esto es un comentario multi línea que no se interpretará en MS-DOS -- :Comentario En el anterior ejemplo podemos ver que la variable USERNAME conti...