Conociendo Apache Spark & PySpark

Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Ofrece API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo general para el análisis de datos.

También es compatible con un amplio conjunto de herramientas de alto nivel, como Spark SQL para SQL y DataFrames, la API de Pandas en Spark para cargas de trabajo de Pandas, MLlib para aprendizaje automático, GraphX para procesamiento de gráficos y Structured Streaming para procesamiento de flujos.

Lo puedes usar en Java, Python, Scala y R.

Nosotros lo usaremos con Python.

Descargamos Apache Spark:

https://www.apache.org/dyn/closer.lua/spark/spark-4.0.0/spark-4.0.0-bin-hadoop3.tgz

Lo descomprimimos en:

Configuramos la variable de entorno ``SPARK_HOME```:

Nombre de la variable: SPARK_HOME
Valor de la variable: C:\Spark\spark-4.0.0-bin-hadoop3

La agregamos al Path:

%SPARK_HOME%\bin

Podrías agregar otra instalación:

https://github.com/steveloughran/winutils/tree/master

Descargar ``winutils.exe`` y crear un directorio C:\hadoop\bin

Crear la variable de entorno:

Nombre de la variable: HADOOP_HOME
Valor de la variable: C:\hadoop.

Y agregarla al Path:

%HADOOP_HOME%\bin

¿Qué es PySpark?

Una API de Python para Apache Spark que se utiliza para procesar grandes conjuntos de datos mediante computación distribuida. Básicamente, es la interfaz de Python para Spark.

Lo instalamos de la siguiente manera:

$ pip install pyspark

Verificamos la instalación:

$ pyspark

Otra forma:

$ pip show pyspark

También podemos descargar una imagen con Docker:

$ docker run -it --rm spark:python3 /opt/spark/bin/pyspark

Agregar variables de entorno ``PYSPARK_DRIVER_PYTHON``

Nombre variable: PYSPARK_DRIVER_PYTHON
Valor: C:\Users\HP\AppData\Local\Programs\Python\Python313\python.exe

Y ``PYSPARK_DRIVER_PYTHON``

Nombre variable: PYSPARK_PYTHON
Valor: C:\Users\HP\AppData\Local\Programs\Python\Python313\python.exe

Veamos uno ejemplo de uso de PySpark.

ejemplo.py

from pyspark.sql import SparkSession

# Crear una sesión de Spark
spark = SparkSession.builder \
    .appName("EjemploPySpark") \
    .getOrCreate()

# Datos de ejemplo: lista de tuplas con nombres y edades
data = [("Alice", 25), ("Bob", 30), ("Cathy", 28), ("David", 35)]

# Crear un DataFrame a partir de los datos
columns = ["Nombre", "Edad"]
df = spark.createDataFrame(data, columns)

# Mostrar el DataFrame
print("DataFrame original:")
df.show()

# Filtrar personas mayores de 27 años
df_filtrado = df.filter(df.Edad > 27)

# Mostrar el DataFrame filtrado
print("Personas mayores de 27 años:")
df_filtrado.show()

# Contar el número de filas en el DataFrame filtrado
conteo = df_filtrado.count()
print(f"Número de personas mayores de 27 años: {conteo}")

# Detener la sesión de Spark
spark.stop()

Nota: Deberás tener Python en su versión 3.10 ya que con la 3.13 no parece funcionar bien.

Concluyendo, con PySpark puedes realizar diversas tareas relacionadas con el procesamiento de grandes conjuntos de datos y se puede usar a la par de otras herramientas para Python.

Continuaremos con esta serie sobre librerías y herramientas para Python.

Enlaces:

https://pypi.org/project/pyspark/
https://spark.apache.org/

Programación Windows Batch (CMD) parte 3

Crear ciclos para efectuar operaciones tediosas nos ahorrará tiempo para realizar otras tareas. En está ocasión veremos ciclos con FOR . ¿Cuál es la síntaxis de bucle FOR en Windows Batch? Si está dentro de un archivo *.bat : FOR %%variable IN (seq) DO operaciones Si lo ejecutamos en una terminal: FOR %variable IN (seq) DO operaciones Ejemplo 1 . Recorrer una secuencia de números del 0 al 5: recorrer.bat @ echo off FOR %%i in ( 0 1 2 3 4 5 ) DO echo Hola no. %%i pause Nos imprimirá en pantalla: Hola no. 0 Hola no. 1 Hola no. 2 Hola no. 3 Hola no. 4 Hola no. 5 ¿Puedo usar contadores? Si, se pueden usar. Ejemplo 2 . Uso de contadores: contador.bat @ echo off set numeros = 1 2 3 4 5 6 7 8 9 10 set cont = 0 for %%a in ( %numeros% ) do ( echo Hola no. %%a :: Contador set /a cont+ = 1 ) echo Total: %cont% Este código nos imprimirá, además de los mensajes Hola no. 0 ..., el total de valores conta...

TIOBE index 2024

El índice TIOBE (o índice de la comunidad de programación TIOBE) mide la popularidad de los lenguajes de programación. Su índice no se basa en qué lenguaje de programación es mejor, si tiene mejor perfomance, si posee escalabilidad, si es más sencillo de aprender, de usar, de implementar, etc. Sólo se basa en la popularidad. En el número de referencias ya sea en blogs, foros de consulta, etc. No necesariamente si las empresas lo están usando en alguno de sus desarrollos. Este índice es útil para darse una idea qué lenguaje está cobrando más popularidad y prestigio. Enseguida una tabla con los primeros 5 lenguajes más populares. Índice de Noviembre 2024 Nov 2024 Nov 2023 Change Programming Language Ratings Change 1 1 Python 22.85% +8.69% 2 3 + C++ 10.64% +0.29% 3 4 + Java 9.60% +1.26% 4 ...

Programación Windows Batch (CMD) parte 4

Siguiendo con la serie de post sobre programación ( 1 , 2 , y 3 ) batch ahora veremos algunas cosas como operaciones aritméticas, operadores lógicos y uso de ficheros. Cuando somos administradores de servidores o desarrolladores muchas veces tenemos que realizar tareas que nos quitan, relativamente, tiempo valioso que podríamos ocupar para otras cosas (como ver nuestro Facebook, jeje, broma). Aprender a escribir scripts que nos faciliten algunas tareas siempre es útil. Por ejemplo, conocer todas las características técnicas de nuestro equipo de cómputo nos servirá cuando se realiza peritajes informáticos y soporte al equipo. Realizar respaldos automáticos a nuestras carpetas , archivos y directorios será más sencillo gracias a un script. Pero antes debemos aprender lo básico de la programación en batch. Ejemplo 1. Operaciones aritméticas básicas. aritmetica.bat @ echo off ::Nombre del archivo, imprimirá: aritmetica.bat echo %0 :: Set nos servirá para a...

Alquimista de código

Buscar este blog