Ir al contenido principal

Scikit-learn: una biblioteca Python para aprendizaje automático

Scikit-learn es una biblioteca de Python para aprendizaje automático (machine learning) que ofrece herramientas simples y eficientes para tareas como clasificación, regresión, clustering y preprocesamiento de datos. Se usa a la par de otras librerías como SciPy , Numpy y Matplotlib.

Scikit-learn provee de varios algoritmos de clasificación, regresión y análisis de grupos entre los cuales están máquinas de vectores de soporte, bosques aleatorios, Gradient boosting, K-means y DBSCAN.

Sirve para:

  • Clasificación: Identificar a qué categoría pertenece un dato (ej. spam/no spam). 
  • Regresión: Predecir valores numéricos (ej. precios de casas). 
  • Clustering: Agrupar datos similares sin etiquetas previas. 
  • Preprocesamiento: Escalar, normalizar o codificar datos. 
  • Evaluación de modelos: Métricas como precisión, recall, etc.

Si no tenemos instalada la librería, la podemos instalar de esta forma:

$ pip install scikit-learn

Nota: Si no tenemos Scipy, Numpy y Matploylib debemos instalarlas.

$ pip install scipy
$ pip install numpy
$ pip install matplotlib

Verificamos que tenemos instaladas las librerías:

$ pip show scikit-learn
$ pip show scipy
$ pip show numpy
$ pip show matplotlib

Ejemplo. Clasificar tipos de flores según medidas de pétalos y sépalos. Esto usando un conjunto de datos de iris.

ejemplo.py


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Cargar datos
iris = load_iris()
X, y = iris.data, iris.target

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar modelo
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Predecir y evaluar
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")

Ejecutamos:

$ python ejemplo.py

Salida:

Precisión del modelo: 1.00

En conclusión, Scikit-learn es ideal para implementar modelos de ML de forma rápida y con buen rendimiento.

Enlaces:

https://scikit-learn.org/stable/
https://www.master-data-scientist.com/scikit-learn-data-science/
https://alquimistadecodigo.blogspot.com/2025/08/scipy-una-libreria-python-para.html
https://alquimistadecodigo.blogspot.com/2025/08/numpy-una-libreria-para-calculo.html
http://luispedro.org/software/milk
http://deeplearning.net/software/theano/
http://pybrain.org/
https://emanuelpeg.blogspot.com/2018/08/java-o-python-para-procesamiento-de.html
https://jmlr.org/papers/v12/pedregosa11a.html

Comentarios

Entradas populares de este blog

Programación Windows Batch (CMD) parte 3

Crear ciclos para efectuar operaciones tediosas nos ahorrará tiempo para realizar otras tareas. En está ocasión veremos ciclos con FOR . ¿Cuál es la síntaxis de bucle FOR en Windows Batch? Si está dentro de un archivo *.bat : FOR %%variable IN (seq) DO operaciones Si lo ejecutamos en una terminal: FOR %variable IN (seq) DO operaciones Ejemplo 1 . Recorrer una secuencia de números del 0 al 5: recorrer.bat @ echo off FOR %%i in ( 0 1 2 3 4 5 ) DO echo Hola no. %%i pause Nos imprimirá en pantalla: Hola no. 0 Hola no. 1 Hola no. 2 Hola no. 3 Hola no. 4 Hola no. 5 ¿Puedo usar contadores? Si, se pueden usar. Ejemplo 2 . Uso de contadores: contador.bat @ echo off set numeros = 1 2 3 4 5 6 7 8 9 10 set cont = 0 for %%a in ( %numeros% ) do ( echo Hola no. %%a :: Contador set /a cont+ = 1 ) echo Total: %cont% Este código nos imprimirá, además de los mensajes Hola no. 0 ..., el total de valores conta...

TIOBE index 2024

El índice TIOBE (o índice de la comunidad de programación TIOBE) mide la popularidad de los lenguajes de programación. Su índice no se basa en qué lenguaje de programación es mejor, si tiene mejor perfomance, si posee escalabilidad, si es más sencillo de aprender, de usar, de implementar, etc. Sólo se basa en la popularidad. En el número de referencias ya sea en blogs, foros de consulta, etc. No necesariamente si las empresas lo están usando en alguno de sus desarrollos. Este índice es útil para darse una idea qué lenguaje está cobrando más popularidad y prestigio. Enseguida una tabla con los primeros 5 lenguajes más populares. Índice de Noviembre 2024   Nov 2024  Nov 2023  Change  Programming Language  Ratings  Change  1  1    Python  22.85%  +8.69%  2  3  +  C++  10.64%  +0.29%  3  4  +  Java  9.60%  +1.26%  4 ...

z/OS, ¿Qué es? y ¿Cuáles son sus herramientas?

  En este post veremos las herramientas de z/OS de IBM. z/OS es un sistema operativo de mainframe desarrollado por IBM.  Es parte de la serie IBM z Systems (anteriormente conocida como System z), que se utiliza en los sistemas mainframe de IBM. z/OS es uno de los sistemas operativos más utilizados en el mundo empresarial para ejecutar aplicaciones críticas y procesar grandes volúmenes de datos. Características clave de z/OS: Escalabilidad : z/OS es conocido por su capacidad para manejar grandes cargas de trabajo y escalabilidad vertical, lo que permite agregar recursos de hardware para satisfacer las demandas de procesamiento. Confiabilidad y disponibilidad : z/OS está diseñado para ofrecer alta disponibilidad y confiabilidad. Incorpora características como redundancia y recuperación ante fallas para garantizar la continuidad de las operaciones. Seguridad : Proporciona una amplia gama de funciones de seguridad, como autenticación, autorización y auditoría, para proteger los...