Ir al contenido principal

Entradas

Scikit-learn: una biblioteca Python para aprendizaje automático

Scikit-learn es una biblioteca de Python para aprendizaje automático (machine learning) que ofrece herramientas simples y eficientes para tareas como clasificación, regresión, clustering y preprocesamiento de datos. Se usa a la par de otras librerías como SciPy , Numpy y Matplotlib . Scikit-learn provee de varios algoritmos de clasificación, regresión y análisis de grupos entre los cuales están máquinas de vectores de soporte, bosques aleatorios, Gradient boosting, K-means y DBSCAN. Sirve para: Clasificación: Identificar a qué categoría pertenece un dato (ej. spam/no spam).  Regresión: Predecir valores numéricos (ej. precios de casas).  Clustering: Agrupar datos similares sin etiquetas previas.  Preprocesamiento: Escalar, normalizar o codificar datos.  Evaluación de modelos: Métricas como precisión, recall, etc. Si no tenemos instalada la librería, la podemos instalar de esta forma: $ pip install scikit-learn Nota: Si no tenemos Scipy, N...

SciPy: una librería Python para científicos

SciPy es un paquete científico más completo, que incluye interfases a librerías científicas muy conocidas como LAPACK , BLAS u ODR entre muchas otras. Contiene módulos para optimización, álgebra lineal, integración, interpolación, funciones especiales, FFT , procesamiento de señales y de imagen, resolución de ODEs y otras tareas para la ciencia e ingeniería. Proporciona algoritmos para optimización, integración, interpolación, problemas de valores propios, ecuaciones algebraicas, ecuaciones diferenciales, estadísticas y muchas otras clases de problemas. Amplía NumPy proporcionando herramientas adicionales para el cálculo de matrices y proporciona estructuras de datos especializadas, como matrices dispersas y árboles k-dimensionales. Para instalarlo existen varias formas, nosotros usaremos pip: $ python -m pip install scipy $ pip show scipy Estos comandos lo instalarán y verificarán la instalación. Entramos al REPL de Python: $ python Importemos la lib...

Conociendo Apache Spark & PySpark

Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Ofrece API de alto nivel en Scala, Java, Python y R, y un motor optimizado que admite gráficos de cálculo general para el análisis de datos. También es compatible con un amplio conjunto de herramientas de alto nivel, como Spark SQL para SQL y DataFrames, la API de Pandas en Spark para cargas de trabajo de Pandas, MLlib para aprendizaje automático, GraphX para procesamiento de gráficos y Structured Streaming para procesamiento de flujos. Lo puedes usar en Java, Python, Scala y R. Nosotros lo usaremos con Python. Descargamos Apache Spark: https://www.apache.org/dyn/closer.lua/spark/spark-4.0.0/spark-4.0.0-bin-hadoop3.tgz Lo descomprimimos en: Configuramos la variable de entorno `` SPARK_HOME ```: Nombre de la variable: SPARK_HOME  Valor de la variable: C:\Spark\spark-4.0.0-bin-hadoop3 La agregamos al Path: %SPARK_HOME%\bin Podrías agregar otra instalación: https:...

Numpy, una librería para cálculo numérico y análisis de datos

Numpy ayuda con el tratamiento de datos y el cálculo numérico. Es similar a la librería Pandas y la complementa. Es fundamental para el cálculo numérico y el manejo de arrays multidimensionales. Es ampliamente utilizada en ciencia de datos, machine learning, y computación científica. Instalación: $ pip install numpy Verificar instalación: $ pip list Podemos crear un script para verificar que se ha instalado: verify.py import numpy as np print(np.__version__) Ejecutando el script: $ py verify.py Veremos la versión instalada. ¿Qué se puede hacer con Numpy? 1. Estructuras de datos: Arrays Crear arrays multidimensionales (ndarrays) para almacenar datos numéricos. Ejemplo: np . array([ 1 , 2 , 3 ]) np . array([[ 1 , 2 ], [ 3 , 4 ]]) Soporta arrays de cualquier dimensión (1D, 2D, 3D, etc.). Operaciones vectorizadas: cálculos rápidos sin bucles explícitos. 2. Operaciones matemáticas. Aritmética: Suma, resta, multiplicación, división, etc., elem...

Pandas, una librería para manejo de datos en Python

Pandas es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar, construida sobre el lenguaje de programación Python. Instalando: $ pip install pandas Nota: También puedes instalarlo usando Anacaconda . Verificar instalación: $ pip list Al ejecutar este comando veremos las librerías y paquetes instalados. Otra forma de validar la instalación es entrando al Repl de Python: $ py >>> import pandas as pd >>> >>> exit() Si no sale error, entonces la instalación fue correcta. ¿Qué se puede hacer con Pandas? 1. Estructuras de datos principales. Pandas ofrece dos estructuras fundamentales: Series: Una columna unidimensional, similar a un array, pero con índices personalizables.  DataFrame: Una tabla bidimensional (filas y columnas), como una hoja de cálculo o una tabla SQL. 2. Carga y almacenamiento de datos. Leer datos desde múltiples formatos: CSV: pd.read_csv( 'arc...

Opa: un lenguaje de programación para desarrollo web rápido y seguro

De nueva cuenta mostramos otro "nuevo" lenguaje de programación orientado al desarrollo web: Opa Language . La documentación oficial nos dice: Opa proporciona una pila completa para el desarrollo de aplicaciones web, que incluye un servidor web, un motor de base de datos, bibliotecas de distribución y un lenguaje de programación compilable en JavaScript. Opa se compila en JavaScript, usando jQuery en el frontend y Node.js en el servidor. Opa esta enfocado al desarrollo web y puede realizar operaciones CRUD fácilmente. También se nos dice que que es un framework, por lo que nos podrá ahorrar código en nuestros proyectos. Se recomienda comprar este libro: " Opa: Up and Running: Rapid and Secure Web Development" . Opa Language promete: Control total de la aplicación.  Acceso a todas las librerías JS.  Implementación en la mayoría de las nubes de manera directa y escalar verticalmente o horizontalmente con facilidad.  Compatibilidad con la base de datos SQ...

Ioke: un "nuevo" lenguaje de programación

Según la documentación oficial, Ioke es: Un lenguaje plegable que permite escribir código altamente expresivo que escribe código, además de crear abstracciones a cualquier nivel, y la expresividad es el objetivo final del lenguaje.  Un lenguaje dinámico orientado a máquinas virtuales, actualmente la Máquina Virtual de Java y Common Language Runtime .  Fue diseñado desde cero para ser un lenguaje de propósito general altamente flexible.  Es un lenguaje de programación basado en prototipos, inspirado en Io , Smalltalk , Lisp y Ruby . Si lo quieres descargar ve a este enlace: https://ioke.org/download.html Un programa hecho en este lenguaje tiene la extensión *.ik. Veamos un ejemplo: holamundo.ik "Hola, mundo!" println Ejecutamos el programa: $ ioke holamundo . ik Hola, mundo ! Otro ejemplo: Ioke = LanguageExperiment with( goal: :expressiveness, data: as(code), code: as(data), features: [ :dynamic, :object_oriented, ...