ALGUNOS DE LOS ALGORITMOS PARA EL ANÁLISIS PREDICTIVO MÁS USADOS

Inicio > Artículos > ALGUNOS DE LOS ALGORITMOS PARA EL ANÁLISIS PREDICTIVO MÁS USADOS

El análisis predictivo es uno de los usos más frecuentes del machine learning, dado que es de los más útiles para las necesidades de las empresas y organizaciones. Pero, ¿qué tipo de algoritmos se utilizan para hacer estos análisis y cómo funcionan? Aquí se muestran algunos de los algoritmos más utilizados en los modelos de predicción.

Regresión lineal

Consiste básicamente en una línea recta que muestra el “mejor encaje” de todos los puntos de los valores numéricos. También se llama el método de los mínimos cuadrados porque calcula la suma de las distancias al cuadrado entre los puntos que representan los datos y los puntos de la línea que genera el modelo. Así, la mejor estimación será la que minimice estas distancias.

Lo bueno es que es fácil de entender y se ve claramente el porqué de esa línea. No obstante, tiende al overfitting, siendo peligrosos los valores extremos. Aparte, es demasiado simple para capturar relaciones complejas entre variables.

Regresión logística

Es una adaptación de la regresión lineal a problemas de clasificación (booleanos, grupos…), utilizando el método de máxima verosimilitud para saber cuál es la probabilidad de que ocurra algo en cada punto determinado.

También es fácil de entender, pero, igualmente, tiene las desventajas de ser demasiado simple y de tender al overfitting.

El árbol de decisión

Es un gráfico que usa un método de ramificación basado en construcciones lógicas. Los árboles de decisión comienzan con el conjunto de datos completo y se van descomponiendo en distintas ramas en función de una serie de condiciones que se van seleccionando hasta llegar a la resolución del problema

Es muy fácil de entender e implementar, aunque resultan demasiado simples y poco poderosos para datos complejos.

Bosques aleatorios (Random forest)

Toma la media de muchos árboles de decisión hechos con muestras de los datos. Como se basa en muestras, cada árbol por separado es más débil que uno completo, pero la suma de todos logra unos resultados mejores.

Tiende a dar modelos de alta calidad, pero es difícil entender el porqué de las predicciones.

Potenciación del gradiente (Gradient Boosting)

Hace como el modelo anterior, pero usando árboles de decisión incluso más débiles. Luego, optimiza la muestra de datos utilizados en cada paso.

Tiene un alto desempeño, pero cualquier pequeño cambio en el conjunto de datos puede generar cambios radicales en el modelo, por no hablar de que es muy difícil comprender las predicciones.

Redes neuronales

Imitando el comportamiento del cerebro, son unidades (“neuronas”) interconectadas en varias capas que pasan mensajes de unas a otras. Se utilizan cuando no se conoce la naturaleza exacta de la relación entre los valores de entrada y de salida.

Pueden resolver tareas extremadamente complejas como reconocimiento de imágenes, pero son muy lentas, requieren mucha potencia y sus resultados son predicciones casi imposibles de comprender.

K-vecinos más cercanos (k-NN o Nearest Neighbor)

Es un algoritmo de agrupamiento (clutering) no jerárquico, de los más utilizados, aunque no el único. Mediante métodos estadísticos de reconocimiento de patrones, se calcula la distancia de un dato a los vecinos más cercanos del conjunto de entrenamiento. El resultado está basado en la probabilidad de que un elemento pertenezca a la clase.

El mayor problema que tiene es que funciona mal con muestras pequeñas.

En el Máster Experto en Data Science y Big Data podrás aprender más sobre este tipo de algoritmos y así evolucionar en el análisis predictivo.

Más información

Clasificador bayesiano ingenuo (Naïve Bayes)

Este algoritmo asume que la presencia o ausencia de una característica no está relacionada con la presencia o ausencia de cualquier otra. De este modo, cada una de las características del conjunto contribuye de forma independiente a la probabilidad de que el conjunto sea un objeto concreto.

Lo bueno es que solo requieren una pequeña cantidad de datos, aunque a menudo falla a la hora de producir una buena estimación de las probabilidades de clase correctas.

Algoritmos de reducción de dimensionalidad

Estos algoritmos no son predictivos como tal. Se utilizan para reducir el número de variables a analizar encontrando las que realmente son relevantes para el análisis. Por ello, muchas veces se utilizan junto a los algoritmos anteriores, especialmente en conjuntos de datos muy grandes.

Si te ha gustado este artículo ¡No olvides suscribirte a nuestra Newsletter!

ALGUNOS DE LOS ALGORITMOS PARA EL ANÁLISIS PREDICTIVO MÁS USADOS

Regresión lineal

Regresión logística

El árbol de decisión

Bosques aleatorios (Random forest)

Potenciación del gradiente (Gradient Boosting)

Redes neuronales

K-vecinos más cercanos (k-NN o Nearest Neighbor)

Clasificador bayesiano ingenuo (Naïve Bayes)

Algoritmos de reducción de dimensionalidad

Machine learning para principiantes: conceptos y ejemplos prácticos

Automatización con IA: ejemplos prácticos para tu día a día

¿Qué es el business analytics y cómo se relaciona con el big data?

Cómo aprovechar los cursos gratuitos de Datahack para impulsar tu carrera

Curso

Sesión Skill Hack: Agentes IA, más productividad, menos tareas

Curso

Sesión Skill Hack: Data Analytics en el fútbol moderno

Curso

Sesión Skill Hack: Power Bi en acción

Curso

Curso IA Generativa Aplicada: Construyendo Sistemas RAG y Agentes Inteligentes

Curso

Sesión Skill Hack: Crea Contenido Gratis con IA

Curso

Curso Excel Aplicado: Gestión y Automatización de Datos

Déjanos tu contacto

ALGUNOS DE LOS ALGORITMOS PARA EL ANÁLISIS PREDICTIVO MÁS USADOS

Regresión lineal

Regresión logística

El árbol de decisión

Bosques aleatorios (Random forest)

Potenciación del gradiente (Gradient Boosting)

Redes neuronales

K-vecinos más cercanos (k-NN o Nearest Neighbor)

Clasificador bayesiano ingenuo (Naïve Bayes)

Algoritmos de reducción de dimensionalidad

Machine learning para principiantes: conceptos y ejemplos prácticos

Automatización con IA: ejemplos prácticos para tu día a día

¿Qué es el business analytics y cómo se relaciona con el big data?

Cómo aprovechar los cursos gratuitos de Datahack para impulsar tu carrera

Curso

Sesión Skill Hack: Agentes IA, más productividad, menos tareas

Curso

Sesión Skill Hack: Data Analytics en el fútbol moderno

Curso

Sesión Skill Hack: Power Bi en acción

Curso

Curso IA Generativa Aplicada: Construyendo Sistemas RAG y Agentes Inteligentes

Curso

Sesión Skill Hack: Crea Contenido Gratis con IA

Curso

Curso Excel Aplicado: Gestión y Automatización de Datos

Déjanos tu contacto

¡Te ayudamos con tu reserva!

¡Te ayudamos con tu reserva!

¡Te ayudamos con tu dudas!

¡Descarga el Programa Completo!