Regresion logistica en r

Regresion logistica en r

regresión logística binaria en r

Los coeficientes del resultado indican el cambio medio en las probabilidades logarítmicas de impago. Por ejemplo, un aumento de una unidad en el saldo se asocia con un aumento medio de 0,005988 en las probabilidades logarítmicas de impago.

Sin embargo, no existe este valor R2 para la regresión logística. En su lugar, podemos calcular una métrica conocida como R2 de McFadden, que oscila entre 0 y algo menos de 1. Los valores cercanos a 0 indican que el modelo no tiene poder predictivo. En la práctica, los valores superiores a 0,40 indican que un modelo se ajusta muy bien a los datos.

Los valores más altos indican una mayor importancia. Estos resultados coinciden con los valores p del modelo. El saldo es, con mucho, la variable de predicción más importante, seguida de la condición de estudiante y de los ingresos.

Como regla general, los valores de VIF superiores a 5 indican una grave multicolinealidad. Como ninguna de las variables predictoras de nuestros modelos tiene un VIF superior a 5, podemos suponer que la multicolinealidad no es un problema en nuestro modelo.

La probabilidad de que un individuo con un saldo de 1.400 dólares, unos ingresos de 2.000 dólares y una condición de estudiante «Sí» tenga una probabilidad de impago de 0,0273. Por el contrario, una persona con el mismo saldo e ingresos pero con la condición de estudiante «No» tiene una probabilidad de impago de 0,0439.

->  Mercado forex que es

regresión lineal vs regresión logística en r

El análisis de regresión no normal más común es la regresión logística, donde su variable dependiente es sólo 0s y 1. Para hacer un análisis de regresión logística con glm(), utilice el argumento familia = binomial.

Vamos a ejecutar una regresión logística en el conjunto de datos de los diamantes. En primer lugar, crearé una variable binaria llamada value.g190 que indica si el valor de un diamante es mayor de 190 o no. A continuación, realizaré una regresión logística con nuestra nueva variable binaria como variable dependiente. Estableceremos familia = «binomial» para indicar a glm() que la variable dependiente es binaria.

Observando las primeras observaciones, parece que las probabilidades se ajustan bastante bien a los datos. Por ejemplo, el primer diamante con un valor de 182,5 tiene una probabilidad ajustada de sólo 0,16 de tener un valor superior a 190. En cambio, el segundo diamante, con un valor de 191,2, tiene una probabilidad ajustada mucho mayor, de 0,82.

Al igual que hicimos con la regresión normal, se puede utilizar la función predict() junto con los resultados de un objeto glm() para predecir nuevos datos. Utilicemos el objeto diamond.glm para predecir la probabilidad de que los nuevos diamantes tengan un valor superior a 190:

regresión lineal simple

La regresión es una relación estadística entre dos o más variables en la que un cambio en la variable independiente se asocia con un cambio en la variable dependiente. La regresión logística se utiliza para estimar valores discretos (normalmente valores binarios como 0 y 1) a partir de un conjunto de variables independientes. Ayuda a predecir la probabilidad de un evento ajustando los datos a una función logística. Esto se denomina regresión logística.

->  Que es formato en excel

La regresión logística es un término erróneo, ya que cuando la mayoría de la gente piensa en regresión, piensa en regresión lineal, que es un algoritmo de aprendizaje automático para variables continuas. Sin embargo, la regresión logística es un algoritmo de clasificación, no un algoritmo de predicción de variables constantes.

Digamos que usted tiene un sitio web, y sus ingresos se basan en el tráfico del sitio web, y quiere predecir los ingresos en función del tráfico del sitio. Cuanto más tráfico haya en su sitio web, mayores serán sus ingresos, o al menos eso es lo que se supone intuitivamente.

En un gráfico de los ingresos frente al tráfico del sitio web, el tráfico se consideraría la variable independiente, y los ingresos serían la variable dependiente. La variable independiente suele denominarse variable explicativa, y la variable dependiente, variable de respuesta. Sin embargo, se suelen denominar variables independientes y dependientes. Nuestra intuición nos dice que la variable independiente impulsa la variable dependiente, y si hay alguna relación entre las dos variables, entonces se podría utilizar la variable independiente para hacer predicciones sobre la variable dependiente.

regresión lineal

En este capítulo, continuamos nuestra discusión sobre la clasificación. Presentamos nuestro primer modelo de clasificación, la regresión logística. Para empezar, volvemos al conjunto de datos por defecto del capítulo anterior.

Como la regresión lineal espera una variable de respuesta numérica, coaccionamos la respuesta para que sea numérica. (Observe que también cambiamos los resultados, ya que requerimos 0 y 1, no 1 y 2.) Observe que también hemos copiado el conjunto de datos para poder devolver los datos originales con factores más adelante.

->  Base de datos en labview

y luego clasificar al mayor de los dos. En realidad, sólo tenemos que considerar una sola probabilidad, por lo general \hat{P}(Y = 1 \mid { X = x})\N. Dado que lo usamos tan a menudo, le damos la notación abreviada, \(\hat{p}(x)\N). Entonces se escribe el clasificador,

Obsérvese que utilizamos la función sigmoidea como notación abreviada, que aparece a menudo en la literatura de aprendizaje profundo. Toma cualquier entrada real, y produce un número entre 0 y 1. ¡Qué útil! (En realidad se trata de una función sigmoidea particular llamada función logística, pero como es la función sigmoidea más popular, a menudo se utiliza la función sigmoidea para referirse a la función logística)

Entradas relacionadas

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad