Analisis cluster en r

Analisis cluster en r

Media

R tiene una increíble variedad de funciones para el análisis de clústeres. En esta sección, describiré tres de los muchos enfoques: aglomerativo jerárquico, de partición y basado en modelos. Aunque no existen las mejores soluciones para el problema de determinar el número de clusters a extraer, a continuación se presentan varios enfoques.

El clustering de K-means es el método de partición más popular. Requiere que el analista especifique el número de conglomerados a extraer. Un gráfico de la suma de cuadrados dentro de los grupos por el número de conglomerados extraídos puede ayudar a determinar el número apropiado de conglomerados. El analista busca una curvatura en el gráfico similar a la prueba scree en el análisis factorial. Véase Everitt & Hothorn (pág. 251).

Se puede invocar una versión robusta de K-means basada en mediods utilizando pam( ) en lugar de kmeans( ). La función pamk( ) del paquete fpc es una envoltura para pam que también imprime el número sugerido de clusters basado en la anchura media óptima de la silueta.

La función pvclust( ) del paquete pvclust proporciona valores p para la agrupación jerárquica basada en el remuestreo bootstrap multiescala. Los clusters que están altamente apoyados por los datos tendrán valores p grandes. Los detalles de interpretación se proporcionan en Suzuki. Tenga en cuenta que pvclust agrupa columnas, no filas. Transponga sus datos antes de usarlos.

->  Punto de venta open source

Análisis de cluster en rstudio

En este conjunto de datos observamos la composición de diferentes vinos. Dado un conjunto de observaciones \((x_1, x_2, ., x_n)\Ndonde cada observación es un vector real \N(d\N)-dimensional, el clustering \N(k\N)-means tiene como objetivo dividir las n observaciones en (\N(k \Nleq n\)) \(S = \ {S_1, S_2, ., S_k\}) para minimizar la suma de cuadrados dentro del cluster (WCSS). En otras palabras, su objetivo es encontrar::

Una cuestión fundamental es cómo determinar el valor del parámetro \(k\). Si miramos el porcentaje de varianza explicada en función del número de clusters: Hay que elegir un número de clusters tal que añadir otro cluster no dé un modelado mucho mejor de los datos. Más concretamente, si se traza el porcentaje de varianza explicada por los conglomerados frente al número de conglomerados, los primeros conglomerados añadirán mucha información (explicarán mucha varianza), pero en algún momento la ganancia marginal caerá, dando un ángulo en el gráfico. El número de conglomerados se elige en este punto, de ahí el «criterio del codo».

Clustering jerárquico

Podemos convertirlas en variables factoriales, pero para el clustering jerárquico y de k-means necesitamos tener variables numéricas. Otras técnicas como el clustering de 2 pasos se aplican para tratar las variables categóricas. Así que mantendré las variables como numéricas solamente.

Las variables de las millas se basan en el intervalo, por lo que está bien utilizarlas como están y el premio es una variable categórica. Así que tenemos que estandarizar (básicamente normalizar) las variables numéricas con el fin de utilizar la distancia euclidiana.

->  Que hacer para dormir rapido

Los métodos jerárquicos utilizan una matriz de distancia como entrada para el algoritmo de agrupación. La elección de una métrica adecuada influirá en la forma de los clusters, ya que algunos elementos pueden estar cerca unos de otros según una distancia y más lejos según otra.

Podemos ver claramente que hay dos conjuntos de personas, unos que son viajeros frecuentes y otros que no lo son. Los once que están marcados con un 2 tienen más de todos los atributos. Tienen un alto número de transacciones de vuelo y de millas de vuelo. Tienen un mayor número de millas de bonificación y transacciones de no vuelo. Así que podemos marcar claramente el 1 como viajeros no frecuentes y el 2 como viajeros frecuentes.

Método del codo

Una técnica habitual de reducción de datos es la agrupación de casos (sujetos). Menos habitual, pero especialmente útil en la investigación psicológica, es agrupar los elementos (variables). Esto puede considerarse como una alternativa al análisis factorial, basada en un modelo mucho más sencillo. El modelo de conglomerados consiste en que las correlaciones entre las variables reflejan que cada ítem se carga como máximo en un conglomerado, y que los ítems que se cargan en esos conglomerados se correlacionan en función de sus respectivas cargas en ese conglomerado y los ítems que definen diferentes conglomerados se correlacionan en función de sus respectivas cargas en los conglomerados y de las correlaciones entre conglomerados.

->  Investigacion cualitativa de mercados

Alpha, la correlación media de la mitad de la división, y beta, la correlación de la mitad de la peor división, son estimaciones de la fiabilidad y de la saturación factorial general de la prueba. (Véase también la función omega para estimar los coeficientes de McDonald omega jerárquico y omega total)

Extraer clusters hasta que queden nclusters (por defecto se extraerá hasta que se cumplan los otros criterios o 1 cluster, lo que ocurra primero). Vea la discusión más abajo para técnicas alternativas para especificar el número de clusters.

Entradas relacionadas

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad