Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO ESTADÍSTICA
Capitulo 1: Introducción a la estadística aplicada
GRUPO : D
Profesor : PhD Félix Olivero
Índice
Capítulo 1. Introducción a la Estadística Aplicada.
Aplicada.
Sub unidad 2: Datos científicos, Variables. Tipos de variables, discretas y continuas.
Escala Estadística.
Sub unidad 3: Tabla de distribución de frecuencias.
Sub unidad 4: La Estadística Descriptiva.
Sub unidad 5: La Estimación puntual y por intervalos
Sub unidad 6: Como realizar gráficos estadísticos.
Sub unidad 7: Uso del sistema estadístico SPSS, Excel y otros.
Estadística
Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha
experimentado un gran desarrollo a lo largo de los últimos años.
2) En Economía: para medir la evolución de los precios mediante números índice o para
estudiar los hábitos de los consumidores a través de encuestas de presupuestos
familiares.
3
Estadística
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).
En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.
4
Estadística
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.
5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la población
5
Estadística
Introducción
Esquema de las etapas de un estudio estadístico
ORGANIZAR Y
RESUMIR
Tema de Investigación ESTADÍSTICA DESCRIPTIVA
(Tablas,
-Antecedentes Previos
Gráficos, Medidas
-Objetivos Descriptivas, etc.)
INTERPRETACIÓN
-Preguntas de Investigación
Muestra
-Posibles Hipótesis
¿Población o Muestra?
-Unidad de Análisis
INFERENCIA ESTADÍSTICA
-Población Población
-Variables CONCLUSIONES
Probabilidad
INFORMACIÓN
6
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
7
Estadística
Población: Muestra
8
Estadística
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo
Unidad de Medida:
Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura 9
Estadística
10
Estadística
Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. ( cuantitativa
discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos
estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)
Datos
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
11
Estadística
Problema de Investigación:
Investigación: Se quiere establecer el perfil de las industrias de conserva en
EJEMPLO función de algunas características.
Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (Fj) Relativa (fj) (%) Calificación Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100)
(2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (F j) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (F j) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
12
Estadística
Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1
13
Estadística
14
Estadística
C
D A 40% B
10% 20% 30%
C
B
40%
30%
15
Estadística
variable 1
400 C
300
B
Nº
200
100 A
0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
-Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa.
D -Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1
C
transformada en categorías.
B
-Hay distintas versiones de estos gráficos (por ejemplo
A
en Excel), y en algunos casos son muy útiles para
0 20 40 60 80 100 describir el comportamiento de una variable en distintos
% unidad de análisis
grupos.
16
Estadística
- El eje x se refiere a la
Nº
5
variable.
- El eje y se refiere a la
0
frecuencia (Nº , %).
7 8 9 10 11 12 13 14
edad
edad
- Cada barra representa la
Ejemplo
frecuencia de la variable en la
población en estudio (o la
En el gráfico se puede observar el número de muestra).
hijos , de menor edad (7-8 años), las de mayor
edad (13-14 años); y además que la mayoría de -El histograma se puede
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de la
años. tabla de frecuencia de la
variable en estudio.
17
Estadística
edad cuantitativas.
Nº
5
-El eje x se refiere a la
variable.
0
7 8 9 10 11 12 13 14
- El eje y se refiere a la
edad frecuencia (Nº , %).
-Los puntos que permiten la
unión de las líneas representa
el centro de clase (o marca de
clase).
18
Estadística
90
80
70
50
(percentiles 25 y 75), mínimo y
40 máximo de una variable.
30 - Sólo es útil para variables
20 cuantitativas.
10 -El eje x permite identificar la
0 poblacion en estudio.
N= 584 1473
- El eje y representa los valores de la
Mujeres Hombres
variable en estudio.
19
Estadística
100 100
Nº de alumnos
Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso
1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
0
2003 70 75
1998 1999 2000 2001 2002 2003
NOTACION
Variables Cuantitativas
i =1 frecuencia. i =1 i =1 i =1
n n n
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
∑ (axi + b) =(ax1 + b) + + (axn + b) = a ∑ xi + b 2
(∑ xi ) = ( x1 + + x n ) 2
i =1 i =1 i =1
n
∑ ( xi + yi ) = ( x1 + y1 ) + + ( x n + y n )
i =1
n
∑ ( xi yi ) = ( x1 y1 ) + + ( xn y n )
i =1
21
Estadística
Datos Moda
Cualitativos y Cuantitativos M o =" el dato que más se repite"
22
Estadística
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los
n datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
23
Estadística
-Rango
MEDIDAS DE DISPERSIÓN -Varianza
-Desviación Estándar
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
∑ (x
i =1
i − x)3 Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA = Si CA>0 si la distribución es asimétrica a la derecha
n ⋅ s3
n
- Si CAp=0 la distribución se dice normal (similar
∑ ( xi − x ) 4
i =1
a la distribución normal de Gauss) y recibe el
Coeficiente de Apuntamiento CAp = nombre de mesocúrtica.
n ⋅ s4 - Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
25
Estadística
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
14 30 6
12 5
10
20 4
8
3
10 2
4
V2 V4 V5
26
Estadística
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Ejemplos
1 4 4 Media 3,9
14
1 4 4 Mediana 4
1 4 5
12 Moda 4
2 4 6 kurtosis -0,43
6
2 4 6 Coeficiente de asimetría -0,02
3 4 6 4 Rango 6
V1
27
Estadística
∑ (c
k
Media c = x c = ∑ c j f j j − xc ) 4 f j
j =1
j =1 CAp c =
s c4
28
Estadística
Bicicleta 8 13,3
Estudia 21 35,0
TOTAL 60 100
29
Estadística
Distribución conjunta
Nº de personas
Tabla 2 Actividad
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
30
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
31
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
32
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
x
x1 Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una
Variable Cuantitativa (x).
xn
1 n
x y cov( x , y ) = ∑ ( xi − x )( yi − y )
y( 1 )
n i =1
x(1)
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional,
x( 2) y( 2 )
es decir que cuando x aumenta y también aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociación entre x e y es inversamente
x(n ) y( n ) proporcional, es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.
33
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
Correlación: Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal
entre dos variables Cuantitativas
n
x y
x(1) y( 1 ) r=
cov( x , y ) ∑ xi yi − nx y −1 ≤ r ≤ 1
sx s y r = i =1
x( 2) y( 2 ) ( n − 1 )s x s y
Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es
perfecta.
Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es
perfecta.
Si r es cero: no existe asociación entre x e y.
34
Estadística
r=1 r=-1
35
Algunas medidas de resumen básicas
I. Medidas de Tendencia Central Medidas de Variabilidad (cont.)
1. Modo (Mo) 3. Desvío Medio (DM)
2. Mediana (Md) 4. Varianza (Var)
3. Media aritmética (X) 5. Desvío estándar (DE)
II. Medidas de Posición 6. Coeficiente de variabilidad (CV)
1. Mediana (Md) I. Medidas de Forma
2. Cuartiles (C) 1. Coeficiente de asimetría (As)
3. Deciles (D) 2. Coeficiente de curtosis (Cu)
4. Percentiles (P)
III. Medidas de Variabilidad
1. Amplitud total (AT) o Rango
(R)
2. Desvío Intercuartil (DI) o Rango
Intercuartil (RI)
Relaciones entre niveles de medición y medidas de
tendencia central
Nivel de
Modo Mediana Media
medición
Nominal Si NO NO
Ordinal SI SI NO
Intervalo SI SI SI
Relación SI SI SI
Relaciones entre niveles de medición y medidas de
variabilidad
VARIANZA Y COEFICIENTE
AMPLITUD DESVÍO IN- DESVÍO
Nivel de medición TOTAL TERCUARTIL MEDIO
DESVIO DE
ESTANDAR VARIABILIDAD
Nominal NO NO NO NO NO
Ordinal NO NO NO NO NO
Intervalo SI SI SI SI NO
Relación SI SI SI SI SI
Modo, mediana y media: las tres medidas de tendencia
central básicas
Medida Informa sobre...
Es el valor más frecuente. En tal sentido constituye la expresión más
Mo básica del valor más típico de una serie de observaciones.
Una distribución puede tener uno, dos o varios modos.
Es el valor de la variable que segmenta en dos partes a la distribución: una
mitad de los casos se ubica por encima de la mediana, la mitad restante
queda por debajo.
La mediana es un valor de la variable asociado a un orden: si se ordenan
todos los valores de menor a mayor, el valor mediana corresponderá a
Md aquel valor tal que tiene tantos casos por encima como por debajo.
La mediana es a la vez una medida de tendencia central y de posición.
Como medida de tendencia central no es tan sensible como la media
aritmética; no obstante debe utilizarse cuando en la distribución existan
valores extremos no compensados, en cuyo caso la media distorsiona la
tipicidad de los casos.
Es el valor promedio. Es la medida de tendencia central más sensible ya
que en su cálculo intervienen todos los casos. No obstante, como indicador
X de tendencia central la media aritmética posee dos "contraindicaciones":
a) cuando en la distribución existe una gran variabilidad y b) cuando en la
distribución existen valores extremos (altos o bajos) no compensados.
Medidas de posición: cuartiles, deciles y percentiles
χ
2
(o − e )
2 = e
Las tres medidas básicas asociadas al análisis "Chi
Cuadrado" como medida de asociación entre variables
Medida Informa sobre...
En general, el propósito de la medida radica en determinar la
probabilidad de asociación entre dos variables de nivel no
cuantitativo (nominal u ordinal). Especícamente, el valor de
x2 X2 sólo indica un valor de p asociado, denominado nivel de
significación, el cuál -en última instancia- es el que
realmente informa sobre la probabilidad de asociación entre
las variables.
φ
2
= n
Chi cuadrado: tabla de cálculo
O E O-E (O - E) 2 (O - E)2 / E
Diagrama decisorio para la prueba de Chi Cuadrado
(Con cálculo manual y búsqueda en tabla)
Calcular χ2e.
NO SI
¿χ2e > χ2t ?
Calcular:
χ2e.
p (significance)
NO ¿p < error SI
admitido
r ( x, y ) = [( x −x ) . ( y −y ) ]
n.s x .s y
Las tres medidas básicas asociadas con el análisis
de correlación R de Pearson.
X Y (X - X) (Y - Y) (X - X) . (Y - Y)
Regresión lineal
Se denomina "análisis de regresión lineal" a un conjunto de análisis
estadísticos cuya función es determinar si entre una variable dependiente
medida en una escala cuantitativa y una o más variables independientes,
del mismo tipo, existen relaciones de carácter lineal. Una relación es lineal
si posee una estructura idéntica a una línea recta.
En rigor, el análisis de regresión se utiliza para determinar el grado de
adecuación de los datos empíricos al modelo de una recta y la
probabilidad de que esa adecuación obedezca al azar.
Cuando existe sólo una variable independiente el análisis se denomina
"regresión lineal simple". Si existe más de una, se estará ante un caso de
"regresión lineal múltiple".
Básicamente el análisis permite contribuir a dos propósitos: explicar y
predecir.
Cuando el análisis de regresión da un resultado negativo, debe
interpretarse que es poco probable la existencia de relación lineal, aunque
no debe descartarse que existan otros tipos de relaciones, no lineales.
También se denomina "análisis de regresión a otros procedimientos
estadísticos diferentes a los mencionados
" pero que comparten la misma
lógica.
La ecuación de la recta en el análisis de regresión lineal
y = + x
Y= El valor de la variable dependiente predicho por el modelo lineal.
α= Representa el valor de la variable dependiente cuando la variable
independiente vale 0. Gráficamente corresponde al punto de Y donde
se emplaza o intersecta la recta de regresión.
β= Representa el incremento de Y por cada unidad de incremento de
X. Gráficamente se expresa en la pendiente o grado de inclinación de la
recta.
X = El valor de la variable independiente X sobre el cuál se quiere hacer
una predicción.
_______________________________________________________________
Cuando la ecuación de la recta se utiliza para modelizar datos empíricos, vg., la
recta de regresión, es necesario incorporar un factor aleatorio que representa los
posibles fluctuaciones de los datos respecto al modelo o, en otros términos, las
discrepancias entre el modelo y la realidad. En virtud de ello el modelo general de
regresión lineal simple asume esta estructura:
Y = α + β x + error
Medidas básicas asociadas al análisis de regresión
Medida Informa sobre...
α El valor hipotético que asumiría la variable dependiente si la
variable independiente tuviera un valor nulo, conforme al modelo
de relación lineal.
El incremento que cabría esperar en la variable dependiente por
β cada unidad de incremento en la variable independiente,
conforme al modelo de relación lineal.
El valor del test estadístico para determinar la bondad de ajuste
Fót de los datos a un modelo lineal.
La probabilidad asociada al test F ó t. La probabilidad de que la
P correlación lineal se deba al azar.
El porcentaje de la variabilidad de Y que queda explicado a partir
R2 de X. La varianza de Y explicada por X. El porcentaje de la
variabilidad de Y que puede predecirse a través de X.
El error standard estimado constituye una última medida necesaria
para ajustar las predicciones de Y a partir de X. Globalmente,
representa la variabilidad de los datos respecto al modelo y resulta útil
para determinar los llamados intervalos de confianza de la estimación.
ESE Cuando se utiliza el modelo de regresión para predecir valores de Y
para diferentes valores de X, antes que un valor específico de Y lo que
se estima es un intervalo de posibles valores. El ESE es la medida
asociada a esa estimación, constituyendo un indicador de la amplitud
de dicho intervalo
Cálculo de los parámetros de la recta de regresión
a partir de datos empíricos
xy − x.y
=
nx2
− x2
= y − bx
Ejemplo de diagrama de dispersión con
información básica del análisis de regresión
12
Actitud hacia la ciudad
10
0
0 2 4 6 8 10 12 14 16 18 20
Tiempo de Residencia
R-square = 0.876
y = 1.08 + 0.59x
Cálculo del Error Standard Estimado
[Y−Ŷ ] 2
ESS = n−2
X Y Y Y-Y (Y - Y)2
10 6 6,97 -0,97 0,94
12 9 8,15 0,85 0,73
12 8 8,15 -0,15 0,02
4 3 3,44 -0,44 0,19
12 10 8,15 1,85 3,43
6 4 4,61 -0,61 0,38
8 5 5,79 -0,79 0,63
2 2 2,26 -0,26 0,07
18 11 11,68 -0,68 0,46
9 9 6,38 2,62 6,86
17 10 11,09 -1,09 1,19
2 2 2,26 -0,26 0,07
Suma 14,97
VAR 1,50
DE (ESE) 1,22
Análisis de regresión: Ejemplo de reporte
* * * * M U L T I P L E R E G R E S S I O N * * * *
(k−1
x −x ) . n
Fórmula F = (x −x )
( )
n−1 . k
Coeficiente Etha Cuadrado (ε2)
Autovalores
En las tablas de arriba aparecen tres reportes básicos del análisis discriminate:
1) La correlación canónica, que informa sobre el potencial explicativo del modelo
discriminante obtenido
2) Los valores de lambda y chi cuadrado, junto al nivel de significación asociado
3) La matriz de estructura, donde se informa el sentido y grado de la correlación entre
cada variable predictora y el modelo discriminante obtenido
El resultado descriptivo fundamental del análisis discriminante
Probabilidades previas para los grupos
Casos utilizados en el
análisis
No
Preferencia Previas ponderados Ponderados
Roca Cola ,600 12 12,000
Suave Cola ,400 8 8,000
Total 1,000 20 20,000
Resultados de la clasificación
Grupo de pertenencia
pronosticado
Preferencia Roca Cola Suave Cola Total
Original Recuento Roca Cola 10 2 12
Suave Cola 1 7 8
% Roca Cola 83,3 16,7 100,0
Suave Cola 12,5 87,5 100,0
Clasificados correctamente el 85,0% de los casos agrupados originales.
Término Significado
Es una matriz cuadrada (igual número de filas y columnas)
Matriz de donde se representan todas las correlaciones entre las
correlaciones variables originales. Constituye el punto de partida del análisis
factorial.
Es un test de significación estadística para el análisis
factorial. Como otros tests decisorios, si su valor es alto, el
Prueba de
valor de P asociado será bajo. Cuando ello ocurre significa
esferecidad de
Bartlett
que las correlaciones entre las variables originales
probablemente no se deban al azar sino a la existencia de
los factores latentes extraídos.
Prueba de Es un test para decidir sí el análisis factorial resulta
adecuación apropiado. Los valores altos (entre 0,5 y 1) indican que es
Kaiser-Meyer- apropiado; los valores inferiores a 0,5 hacen inaceptable su
Olkin (KMO) aplicación.
Puntajes Son los puntajes correspondientes a cada uno de los
factoriales individuos en cada factor.
Es el resultado de aplicar un procedimiento matemático que
permita una interpretación más precisa de los factores. En
Matriz factorial
la matriz rotada las cargas factoriales se distribuyen de tal
rotada
forma que para cada variable exista la mayor diferencia
entre un factor y otro.
Elementos de cluster análisis en el
contexto de la investigación
psicográfica
Diagrama de flujo de una
investigación psicográfica
Definición de objetivos
Elaboración de un
cuestionario AIO
Diseño muestral
Administración del
cuestionario AIO
Análisis multivariado
Número de clusters • Cluster análisis
Conglomerado de K medias:
Realiza análisis de conglomerados usando un algoritmo que
puede manejar grandes números de casos, pero que requiere la
especificación del número de conglomerados.
Conglomerados jerárquicos:
Combina casos en conglomerados a través de una secuencia
jerárquica, usando un algoritmo con consumo intensivo de
memoria que permite examinar muchas soluciones diferentes
con facilidad. Los clusters se forman mediante agrupamiento en
conglomerados mayores o menores hasta que todos los casos
sean miembros de un sólo conglomerado.
Ejemplo de operatoria del cluster análisis: a) Datos
Caso Hedonismo Innovativida Romanticismo Religiosidad
En la matriz de datos se
d
consigan los resultados
1 3 3 10 9 de una encuesta sobre
2 3 4 8 8 autoconcepto en cuatro
3 5 4 8 7 variables cuyo rango
oscilaba entre 1 y 10:
4 5 5 7 6
a) hedonismo,
5 5 3 6 6
b) innovatividad
6 4 4 7 8
7 4 5 6 7 c) romanticismo
8 4 4 7 7 d) religiosidad
9 6 5 6 6 Tal como puede
10 5 6 6 6 apreciarse, los primeros
diez casos se
11 7 5 4 5 caracterizan por su bajo
12 7 6 4 4 hedonismo e
innovatividad y su alto
13 7 5 4 4
romanticismo y
14 9 7 3 2 religiosidad; mientras
15 9 8 3 3 que en los últimos 10, se
observa lo inverso.
16 7 7 3 3
Un análisis que requiriera
17 6 8 4 4
dos cluster debería
18 10 7 4 4 distinguir esos dos
19 9 9 3 3 grupos.
20 9 9 3 3
Ejemplo de operatoria de cluster análisis: b) Reportes básicos (Método K-Medias)
Cluster cases
1 10,0
2 10,0
1 1 4,008
2 1 1,965 Otro reporte de interés está
3 1 1,123 representado por el listado de
asignación de casos a los
4 1 1,364
diferentes clusters. En la
5 1 2,064 última columna, aparece una
6 1 1,123 medida de la distancia de cada
7 1 1,363 caso al centro de su cluster, lo
8 1 ,510 cual constituye un valor que
informa cuán típico o atípico
9 1 2,293
resulta un individuo respecto
10 1 2,336 al cluster en el que ha sido
11 2 2,812 clasificado.
12 2 1,646 Como puede apreciarse al
13 2 2,431 individuo N° 8 constituye el
14 2 1,873 caso prototípico del cluster 1,
15 2 1,520 ya que presenta la menor
16 2 1,229 distancia al centro del mismo.
Para corroborarlo, véase
17 2 2,304 nuevamente la matriz de datos
18 2 2,124 y la información de clusters
19 2 2,261 finales.
20 2 2,261
Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)
Analysis of Variance.
Otro dato de sumo interés es la tabla de Anova, donde se informa sobre el grado
de significación estadística de la diferencia de las medias de los diferentes
clusters, para todas las variables utilizidas en su conformación. En el presente
caso, todos los valores resultan significativos, lo que indica que los clusters
discriminan a los individuos en todas las variables.
Ejemplo de operatoria de cluster análisis: d) Reporte básico (Método Jerárquico)
Number of Clusters
Label Case 4 3 2
Case 1 1 1 1 1
Case 2 2 2 2 1
Case 3 3 2 2 1
Case 4 4 2 2 1
Case 5 5 2 2 1
Case 6 6 2 2 1
Case 7 7 2 2 1
Case 8 8 2 2 1
Case 9 9 2 2 1
Case 10 10 2 2 1
Case 11 11 3 3 2
Case 12 12 3 3 2
Case 13 13 3 3 2
Case 14 14 4 3 2
Case 15 15 4 3 2
Case 16 16 3 3 2
Case 17 17 3 3 2
Case 18 18 4 3 2
Case 19 19 4 3 2
Case 20 20 4 3 2
Ejemplo de operatoria de cluster análisis: e) Dendograma (Método Jerárquico)
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Case 19 19
Case 20 20
Case 15 15
Case 14 14
Case 18 18
Case 12 12
Case 13 13
Case 11 11
Case 16 16
Case 17 17
Case 6 6
Case 8 8
Case 7 7
Case 3 3
Case 2 2
Case 9 9
Case 10 10
Case 4 4
Case 5 5
Case 1 1
Ejemplo de operatoria de cluster análisis: f) Historial de conglomeración (Método Jerárquico)
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
1 19 20 ,000000 0 0 2
2 15 19 1,000000 0 1 11
3 12 13 1,000000 0 0 5
4 6 8 1,000025 0 0 8
5 11 12 1,500000 0 3 15
6 9 10 2,000000 0 0 7
7 4 9 2,000000 0 6 14
8 6 7 2,495053 4 0 9
9 3 6 3,669981 0 8 12
10 16 17 4,000000 0 0 15
11 14 15 4,000000 0 2 13
12 2 3 4,252486 0 9 16
13 14 18 6,000000 11 0 17
14 4 5 6,333333 7 0 16
15 11 16 7,333333 5 10 17
16 2 4 7,648517 12 14 18
17 11 14 13,960000 15 13 19
18 1 2 22,447754 0 16 19
19 1 11 54,536533 18 17 0
Ejemplo de operatoria de cluster análisis: g) Diagrama de témpanos (Método Jerárquico)
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
1 2 1 1 1 1 1 1 1 1 1
8 0 9 5 4 7 6 3 2 1 5 0 9 4 7 8 6 3 2 1
1 +
2 +
3 +
4 +
5 +
6 +
7 +
8 +
9 +
10 +
11 +
12 +
13 +
14 +
15 +
16 +
17 +
18 +
19 +