Analisis discriminante en r

Analisis discriminante en r

regresión en r

Ahora utilizamos el conjunto de datos Sonar del paquete mlbench para explorar un nuevo método de regularización, el análisis discriminante regularizado (RDA), que combina el LDA y el QDA. Esto es similar a cómo la red elástica combina la cresta y el lazo.

El análisis discriminante regularizado utiliza la misma configuración general que el LDA y el QDA, pero estima la covarianza de una nueva manera, que combina la covarianza del QDA \((\hat{Sigma}_k)\) con la covarianza del LDA \((\hat{Sigma})\) utilizando un parámetro de ajuste \(\lambda\).

Tanto \(\gamma\) como \(\lambda\) pueden considerarse parámetros de mezcla, ya que ambos toman valores entre 0 y 1. Para los cuatro extremos de \(\gamma\) y \(\lambda\), la estructura de covarianza se reduce a casos especiales:

análisis discriminante lineal en r paso a paso

El análisis discriminante se utiliza para predecir la probabilidad de pertenecer a una determinada clase (o categoría) en función de una o varias variables predictoras. Funciona con variables predictoras continuas y/o categóricas.

En comparación con la regresión logística, el análisis discriminante es más adecuado para predecir la categoría de una observación en la situación en que la variable de resultado contiene más de dos clases. Además, es más estable que la regresión logística para los problemas de clasificación multiclase.

->  Tipos de caricaturas animadas

El algoritmo LDA comienza encontrando las direcciones que maximizan la separación entre clases, y luego utiliza estas direcciones para predecir la clase de los individuos. Estas direcciones, llamadas discriminantes lineales, son una combinación lineal de variables predictoras.

En algunas situaciones, es posible que desee aumentar la precisión del modelo. En este caso, puede afinar el modelo ajustando el corte de probabilidad posterior. Por ejemplo, puede aumentar o reducir el límite.

Por el contrario, el QDA se recomienda si el conjunto de entrenamiento es muy grande, de modo que la varianza del clasificador no sea un problema importante, o si la suposición de una matriz de covarianza común para las K clases es claramente insostenible (James et al. 2014).

análisis discriminante no paramétrico en r

El AFD es una técnica multivariante para describir una función matemática que distinga entre grupos predefinidos de muestras. Como método de análisis propio, el DFA tiene una fuerte conexión con la regresión múltiple y el análisis de componentes principales. Además, el DFA es la contrapartida del ANOVA y el MANOVA: en el DFA, las variables continuas (medidas) se utilizan para predecir una variable categórica (pertenencia a un grupo), mientras que el ANOVA y el MANOVA utilizan una variable categórica para explicar la variación en (predecir) una o más variables continuas. Dos ejemplos ayudan a mostrar la utilidad del AFD.

->  Palabras claves de google

Para el primer ejemplo, suponga que tiene una serie de mediciones morfológicas de varias especies y quiere saber hasta qué punto esas mediciones permiten distinguir esas especies. Un enfoque sería realizar una serie de pruebas t o ANOVAs para comprobar las diferencias entre las especies, pero esto sería tedioso, especialmente si hay muchas variables. Otro enfoque podría ser un análisis de componentes principales para ver cómo se trazan los grupos en el espacio multidimensional, y esto es a menudo un buen enfoque exploratorio. El DFA adopta un enfoque similar al PCA, pero el DFA busca una función lineal que maximice las diferencias entre los grupos. La función mostrará lo bien que se pueden distinguir las especies, así como dónde es robusta la clasificación y dónde puede fallar.

análisis de componentes principales en

En el tutorial anterior aprendió que la regresión logística es un algoritmo de clasificación tradicionalmente limitado a problemas de clasificación de dos clases (es decir, por defecto = Sí o No). Sin embargo, si tiene más de dos clases, el análisis discriminante lineal (y su primo cuadrático) (LDA y QDA) es una técnica de clasificación a menudo preferida. El análisis discriminante modela la distribución de los predictores X por separado en cada una de las clases de respuesta (es decir, por defecto = «Sí», por defecto = «No» ), y luego utiliza el teorema de Bayes para convertirlos en estimaciones de la probabilidad de la categoría de respuesta dado el valor de X.

->  Lectura de las cartas

Este tutorial aprovecha principalmente los datos por defecto proporcionados por el paquete ISLR. Se trata de un conjunto de datos simulados que contiene información sobre diez mil clientes, como por ejemplo si el cliente ha dejado de pagar, si es estudiante, el saldo medio del cliente y los ingresos del cliente. También utilizaremos algunos paquetes que proporcionan funciones de manipulación de datos, visualización, modelado de tuberías y ordenación de los resultados del modelo.

Entradas relacionadas

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad