Está en la página 1de 94

UNIVERSIDAD DE GUAYAQUIL

DIRECCIÓN DE INVESTIGACIÓN Y PROYECTOS ACADÉMICOS


Curso de fortalecimiento de la investigación para personal docente

MODULO ESTADÍSTICA
Capitulo 1: Introducción a la estadística aplicada

GRUPO : D
Profesor : PhD Félix Olivero
Índice
Capítulo 1. Introducción a la Estadística Aplicada.

Sub unidad 1: Objeto de estudio de la Estadística, Particularidades de la Estadística

Aplicada.
Sub unidad 2: Datos científicos, Variables. Tipos de variables, discretas y continuas.
Escala Estadística.
Sub unidad 3: Tabla de distribución de frecuencias.
Sub unidad 4: La Estadística Descriptiva.
Sub unidad 5: La Estimación puntual y por intervalos
Sub unidad 6: Como realizar gráficos estadísticos.
Sub unidad 7: Uso del sistema estadístico SPSS, Excel y otros.
Estadística

Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha
experimentado un gran desarrollo a lo largo de los últimos años.

¿En qué áreas se aplica la estadística?


Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología,
Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas,
entre otras.

Ejemplos de su aplicación son:

1) En Administración de Empresas: la estadística se utiliza para evaluar un producto


antes de comercializarlo.

2) En Economía: para medir la evolución de los precios mediante números índice o para
estudiar los hábitos de los consumidores a través de encuestas de presupuestos
familiares.

3
Estadística

Introducción
Ejemplos de su aplicación son:

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.

5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado


de salud de la población.

En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.

4
Estadística

Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.

2) Recogida de la información: consiste en recolectar los datos necesarios


relacionados al problema de investigación.

3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la


información relevante en el estudio.

4) Inferencia estadística: consiste en suponer un modelo para toda la población


partiendo de los datos analizados para obtener conclusiones generales.

5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la población

5
Estadística

Introducción
Esquema de las etapas de un estudio estadístico

AREA DE INTERES DATOS

ORGANIZAR Y
RESUMIR
Tema de Investigación ESTADÍSTICA DESCRIPTIVA
(Tablas,
-Antecedentes Previos
Gráficos, Medidas
-Objetivos Descriptivas, etc.)
INTERPRETACIÓN
-Preguntas de Investigación
Muestra
-Posibles Hipótesis
¿Población o Muestra?
-Unidad de Análisis
INFERENCIA ESTADÍSTICA
-Población Población
-Variables CONCLUSIONES

Probabilidad
INFORMACIÓN

6
Estadística

Introducción
Ejemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de


la persona empleada.

2) Se quiere determinar el perfil de los trabajadores en términos de condiciones


económicas y sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a


vestuario, alimentación, ocio y vivienda.

4) Se quiere determinar las tallas estándar en vestuario para mujeres ecuatorianas.

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de


distintas empresas del país.

6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.

7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una


Universidad, y si éste tiene alguna relación con su edad u otras características.

7
Estadística

Resumen de algunos conceptos planteados en la Introducción

• VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISIS.


• ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una
Población o una Muestra
• POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.

• MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.

Población: Muestra

“Las personas que


Muestra: 60 trabajadores de empresas de comunicación
trabajan en empresas de
Unidad de análisis: Trabajador de empresa de comunicación
comunicación”
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.

8
Estadística

Variable: corresponde a la característica de la Unidad de Análisis

TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo

Toma valores enteros Característica o cualidad


cuyas categorías no tienen
Ejemplos: Número de Hijos, Número de un orden preestablecido.
empleados de una empresa, Número de
asignaturas aprobadas en un semestre, etc. Ejemplos: Sexo, Deporte
Favorito, etc.
Toma cualquier valor dentro de un intervalo
Característica o cualidad cuyas
Ejemplos: Peso; Estatura; Temperatura, etc. categorías tienen un orden
preestablecido.
Ejemplos: Calificación (S, N, A);
Grado de Interés por un tema, etc.

Unidad de Medida:
Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura 9
Estadística

Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se


presenta una característica.

Variable Variable Variable Variable


Cuantitativa Cualitativa Cualitativa Cuantitativa

CONTINUA NOMINAL NOMINAL CONTINUA

DISCRETA ORDINAL ORDINAL DISCRETA

Frecuencia Absoluta (F) Frecuencia Relativa (f)


TIPO FRECUENCIA
Frecuencia Absoluta Frecuencia Relativa
Acumulada (FAA) Acumulada (fra)

10
Estadística

Problema de Investigación: Se quiere establecer el perfil de las industrias


EJEMPLO de conserva en función de algunas características.
Unidad de Análisis: Industria de Conserva
Población: Industrias de Conservas del país

Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. ( cuantitativa
discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos
estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)

Datos
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular

11
Estadística

Problema de Investigación:
Investigación: Se quiere establecer el perfil de las industrias de conserva en
EJEMPLO función de algunas características.

TABLAS DE Unidad de Análisis:


Análisis: Industria de Conserva
FRECUENCIA Población:
Población: Industrias de Conservas del país

Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (Fj) Relativa (fj) (%) Calificación Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100)
(2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (F j) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (F j) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
12
Estadística

Elementos de una tabla de frecuencia cuando la variable es continua (x)

Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1

cj = (LIj) + LSj )/2 aj = (LSj – LIj))

13
Estadística

Ejercicio: confección de una tabla de frecuencia para una variable continua

Los datos corresponden a la edad de los


hijos de los trabajadores de una empresa
10,5 10,7 9,5 10,5 11,8 11,2 Realice la siguiente actividad
12,0 10,3 13,5 12,3 10,6 9,8 1) Construya un histograma de frecuencias
10,7 11,5 11,1 10,6 9,3 12,9
2) ¿Cuál es la variable?; ¿Cuál es la Unidad de
10,4 7,5 10,2 8,7 10,9 9,9 análisis?; ¿Cuánto vale n?; ¿Cuál es el rango
11,7 10,3 10,6 10,5 11,9 11,0 de la variable?.
13,9 10,6 10,0 10,8 10,6 -
3) Sobre una Tabla de frecuencia:
frecuencia: ¿Cuántos
7,3 8,0 8,5 12,5 9,7 -
intervalos podría construir?; ¿Cuál es la
Datos ordenados de menor a mayor amplitud de cada intervalo?; ¿Cuántas
medidas de frecuencia puede obtener para
7,3 9,7 10,4 10,6 11,1 12,3 cada intervalo?.
7,5 9,8 10,5 10,6 11,2 12,5
4) Construir tabla de frecuencia para la
8,0 9,9 10,5 10,7 11,5 12,9
variable:
variable: Intervalos, centro de clase,
8,5 10,0 10,5 10,7 11,7 13,5 amplitud, frecuencias.
8,7 10,2 10,6 10,8 11,8 13,9
9,3 10,3 10,6 10,9 11,9 - Histograma : permite organizar los datos de una
9,5 10,3 10,6 11,0 12,0 - variable medida sobre un conjunto de individuos. Su
utilidad viene dada cuando no contamos con
herramientas automáticas para ordenar los datos.

14
Estadística

TIPOS DE GRÁFICOS 1. Gráfico de Sectores Circulares (de Torta)

Distribución de las unidades de


análisis de acuerdo a variable 1
Distribución de las unidades de análisis de
acuerdo a variable 1 D
10% A
20%

C
D A 40% B
10% 20% 30%

Distribución de las unidades de


análisis de acuerdo a variable 1
C B
40% 30%
D A
10% 20%

C
B
40%
30%

15
Estadística

TIPOS DE GRÁFICOS 2. Gráficos de Barras

Numero de unidades de análisis Proporción de unidad de análisis de acuerdo a


variable 1
de acuerdo a variable 1
D
500

variable 1
400 C
300
B

200

100 A

0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
-Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa.
D -Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1

C
transformada en categorías.
B
-Hay distintas versiones de estos gráficos (por ejemplo
A
en Excel), y en algunos casos son muy útiles para
0 20 40 60 80 100 describir el comportamiento de una variable en distintos
% unidad de análisis
grupos.
16
Estadística

TIPOS DE GRÁFICOS 3. Histograma


Histograma
Histograma
Distribución de los hijos de trabajadores
de la empresa de acuerdo a edad - Permite la representación de
15
la frecuencia de una variable
Cuantitativa.
10
Frecuencia

- El eje x se refiere a la

5
variable.
- El eje y se refiere a la
0
frecuencia (Nº , %).
7 8 9 10 11 12 13 14

edad
edad
- Cada barra representa la
Ejemplo
frecuencia de la variable en la
población en estudio (o la
En el gráfico se puede observar el número de muestra).
hijos , de menor edad (7-8 años), las de mayor
edad (13-14 años); y además que la mayoría de -El histograma se puede
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de la
años. tabla de frecuencia de la
variable en estudio.
17
Estadística

TIPOS DE GRÁFICOS 5. Polígono de Frecuencia

Distribución de los hijos de trabajadores


de la empresa de acuerdo a edad
15
-Esta representación se basa en
el Histograma.
10 -Sólo es útil para variables
Frecuencia

edad cuantitativas.

5
-El eje x se refiere a la
variable.
0

7 8 9 10 11 12 13 14
- El eje y se refiere a la
edad frecuencia (Nº , %).
-Los puntos que permiten la
unión de las líneas representa
el centro de clase (o marca de
clase).

18
Estadística

TIPOS DE GRÁFICOS 5. Diagrama de Caja

Edad de las personas que se realizaron


angioplastía entre 1980 y 2000
100

90

80

70

60 - Permite identificar gráficamente la


mediana, los cuartiles 1 y 3
Edad

50
(percentiles 25 y 75), mínimo y
40 máximo de una variable.
30 - Sólo es útil para variables
20 cuantitativas.
10 -El eje x permite identificar la
0 poblacion en estudio.
N= 584 1473
- El eje y representa los valores de la
Mujeres Hombres
variable en estudio.
19
Estadística

TIPOS DE GRÁFICOS 6. Otros

Número de alumnos matriculados en la Número de alumnos matriculados en la


Carrera A según año de ingreso Carrera B según año de ingreso

100 100
Nº de alumnos

Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso

Número de alumnos matriculados en las Carreras


según año de ingreso
Nº de alumnos
200
año de ingreso Carrera A Carrera B
Nº de alumnos

1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
0
2003 70 75
1998 1999 2000 2001 2002 2003

Carrera B año ingreso


Carrera A
20
Estadística

NOTACION
Variables Cuantitativas

x = variable xi = valor de la variable en el individuo i


OBSERVACIONES
y = variable y = valor de la variable en el individuo i i = 1,..., n
* El Tipo de Gráficoi seleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un aTítulo
, b, c :General
constantes
y la identificación de cada eje
(variable en estudio y frecuencia).
n n n n
∑ c =*c En
+ ocasiones
+ c = nc ∑ cx
resulta i = ilustrativo
más cx1 +  + cx
unn = c ∑ xi que una
gráfico ∑ xitabla
= x1 de
+  + xn 2 2 2

i =1 frecuencia. i =1 i =1 i =1

n n n
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
∑ (axi + b) =(ax1 + b) +  + (axn + b) = a ∑ xi + b 2
(∑ xi ) = ( x1 +  + x n ) 2
i =1 i =1 i =1

n
∑ ( xi + yi ) = ( x1 + y1 ) +  + ( x n + y n )
i =1

n
∑ ( xi yi ) = ( x1 y1 ) +  + ( xn y n )
i =1
21
Estadística

-Media Aritmética (Promedio)


MEDIDAS DE TENDENCIA CENTRAL -Mediana
-Moda

Datos Cuantitativos Datos Cuantitativos ordenados de menor a mayor


x x Mediana
x1 Media Aritmética o Promedio
x(1) M E = x( k ) Si n es impar
x2 n
x( 2)
∑ xi ME =
x( k ) + x( k +1) Si n es par
 x= i =1  2
xn n x(n ) x( k ) = dato del centro

Datos Moda
Cualitativos y Cuantitativos M o =" el dato que más se repite"

22
Estadística

-Percentil (ejemplo: 25, 50, 75)


Percentiles, Deciles o Cuartiles -Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los
n datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
23
Estadística

-Rango
MEDIDAS DE DISPERSIÓN -Varianza
-Desviación Estándar

Datos Cuantitativos Varianza


x Rango n n
1 n
x1 ∑ ( xi − x ) ∑ 2
x − (∑ xi ) 2
2
i
1 n 2
R = max( xi ) − min( xi ) s 2 = i =1 = i =1 n i =1
= ∑ xi − x 2
x2 n n n i =1

Desviación Típica o Estándar
xn
s = s2

Comparación entre Variables


Coeficiente de Variación
Se refiere al comportamiento de las variables cuantitativas en
s
un grupo. Por ejemplo: Si se tiene un conjunto de personas a las cv =
que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál x
presenta mayor variación?
24
Estadística

-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.

∑ (x
i =1
i − x)3 Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA = Si CA>0 si la distribución es asimétrica a la derecha
n ⋅ s3

n
- Si CAp=0 la distribución se dice normal (similar
∑ ( xi − x ) 4
i =1
a la distribución normal de Gauss) y recibe el
Coeficiente de Apuntamiento CAp = nombre de mesocúrtica.
n ⋅ s4 - Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.

25
Estadística

-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

14 30 6

12 5

10
20 4

8
3

10 2
4

1 Desv. típ. = 2,42


2 Desv. típ. = 1,67 Desv. típ. = ,64
Media = 3,9 Media = 0,0 Media = 5,2

N = 30,00 N = 30,00 0 N = 28,00


0 0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 -1,0 0,0 1,0 2,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

V2 V4 V5

26
Estadística

-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Ejemplos

Datos Histograma Medidas descriptivas


16

1 4 4 Media 3,9
14
1 4 4 Mediana 4

1 4 5
12 Moda 4

2 4 5 10 Desviación estándar 1,67

2 4 6 Varianza de la muestra 2,78


8

2 4 6 kurtosis -0,43
6
2 4 6 Coeficiente de asimetría -0,02

3 4 6 4 Rango 6

3 4 7 Desv. típ. = 1,77 Mínimo 1


2
Media = 5,4
4 4 7 N = 66,00
Máximo 7
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Cuenta 30

V1

27
Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento


para datos Agrupados (tabla de frecuencias)

Tabla de frecuencia (para variable cuantitativa) 2) La Desviación típica para datos


Centro agrupados esta dada por:
Intervalo de clase Amplitud F f FAA fra
k
n1
∑ (c
I1 c1 a1 f1
n2
sc = j − xc ) 2 f j
I2 c2 a2 f2
j =1
.
.    
Ik ck ak nk fk n 1 3) El Coeficiente de Asimetría para
Total n 1 datos agrupados esta dado por:
k

Sea cj la marca de clase (o centro de clase) y fj la ∑ (c


j =1
j − xc ) 3 f j
frecuencia relativa de la clase j, donde j=1, 2,…, k. CAc =
s c3
1) La Media para datos agrupados es igual a
la suma de los productos de las marcas de 4) El Coeficiente de apuntamiento para
clase por sus frecuencias relativas, de la forma: datos agrupados esta dada por:
k

∑ (c
k
Media c = x c = ∑ c j f j j − xc ) 4 f j
j =1
j =1 CAp c =
s c4

28
Estadística

Descripción de 2 variables cualitativas

Problema Distribución conjunta


Interesa estudiar cual es el Tabla 1 Actividad
principal medio de transporte Transporte Estudia Pensionado Trabaja
preferido por un grupo de
personas a la hora de dirigirse Autobus 5 7 0
al centro comercial. Bicicleta 3 3 2
Caminar 2 5 2
Para esto se consultó a cada
Coche 5 4 5
persona sobre la actividad a
la que se dedicaba y el medio Metro 6 7 4
de transporte preferido.
Transporte Nº %
Autobus 12 20,0 Actividad Nº %

Bicicleta 8 13,3
Estudia 21 35,0

Caminar 9 15,0 Pensionado 26 43,3

Coche 14 23,3 Trabaja 13 21,7

Metro 17 28,3 TOTAL 60 100

TOTAL 60 100

29
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas
Tabla 2 Actividad

Transporte Estudia Pensionado Trabaja TOTAL


Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60

Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)

30
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad

Transporte Estudia Pensionado Trabaja TOTAL


Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100

31
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad

Transporte Estudia Pensionado Trabaja TOTAL


Autobus 5 7 0 12
% 23,8 26,9 0 20
Bicicleta 3 3 2 8
% 14,3 11,5 15,4 13,3
Caminar 2 5 2 9
% 9,5 19,2 15,4 15
Coche 5 4 5 14
% 23,8 15,4 38,5 23,3
Metro 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
% 100 100 100 100

32
Estadística

- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos

x
x1 Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una
 Variable Cuantitativa (x).
xn

Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x


(x1 , x2) o bien (x
(x , y)

1 n
x y cov( x , y ) = ∑ ( xi − x )( yi − y )
y( 1 )
n i =1
x(1)
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional,
x( 2) y( 2 )
es decir que cuando x aumenta y también aumenta; y viceversa.
  Si Cov(x,y) es negativa: la asociación entre x e y es inversamente
x(n ) y( n ) proporcional, es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.
33
Estadística

- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos

Correlación: Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal
entre dos variables Cuantitativas
n
x y
x(1) y( 1 ) r=
cov( x , y ) ∑ xi yi − nx y −1 ≤ r ≤ 1
sx s y r = i =1
x( 2) y( 2 ) ( n − 1 )s x s y
  Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es
perfecta.
Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es
perfecta.
Si r es cero: no existe asociación entre x e y.

34
Estadística

EJEMPLO : Representación gráfica de las variables x e y

r=1 r=-1

35
Algunas medidas de resumen básicas
I. Medidas de Tendencia Central Medidas de Variabilidad (cont.)
1. Modo (Mo) 3. Desvío Medio (DM)
2. Mediana (Md) 4. Varianza (Var)
3. Media aritmética (X) 5. Desvío estándar (DE)
II. Medidas de Posición 6. Coeficiente de variabilidad (CV)
1. Mediana (Md) I. Medidas de Forma
2. Cuartiles (C) 1. Coeficiente de asimetría (As)
3. Deciles (D) 2. Coeficiente de curtosis (Cu)
4. Percentiles (P)
III. Medidas de Variabilidad
1. Amplitud total (AT) o Rango
(R)
2. Desvío Intercuartil (DI) o Rango
Intercuartil (RI)
Relaciones entre niveles de medición y medidas de
tendencia central

Nivel de
Modo Mediana Media
medición
Nominal Si NO NO
Ordinal SI SI NO
Intervalo SI SI SI
Relación SI SI SI
Relaciones entre niveles de medición y medidas de
variabilidad

VARIANZA Y COEFICIENTE
AMPLITUD DESVÍO IN- DESVÍO
Nivel de medición TOTAL TERCUARTIL MEDIO
DESVIO DE
ESTANDAR VARIABILIDAD

Nominal NO NO NO NO NO

Ordinal NO NO NO NO NO

Intervalo SI SI SI SI NO

Relación SI SI SI SI SI
Modo, mediana y media: las tres medidas de tendencia
central básicas
Medida Informa sobre...
Es el valor más frecuente. En tal sentido constituye la expresión más
Mo básica del valor más típico de una serie de observaciones.
Una distribución puede tener uno, dos o varios modos.
Es el valor de la variable que segmenta en dos partes a la distribución: una
mitad de los casos se ubica por encima de la mediana, la mitad restante
queda por debajo.
La mediana es un valor de la variable asociado a un orden: si se ordenan
todos los valores de menor a mayor, el valor mediana corresponderá a
Md aquel valor tal que tiene tantos casos por encima como por debajo.
La mediana es a la vez una medida de tendencia central y de posición.
Como medida de tendencia central no es tan sensible como la media
aritmética; no obstante debe utilizarse cuando en la distribución existan
valores extremos no compensados, en cuyo caso la media distorsiona la
tipicidad de los casos.
Es el valor promedio. Es la medida de tendencia central más sensible ya
que en su cálculo intervienen todos los casos. No obstante, como indicador
X de tendencia central la media aritmética posee dos "contraindicaciones":
a) cuando en la distribución existe una gran variabilidad y b) cuando en la
distribución existen valores extremos (altos o bajos) no compensados.
Medidas de posición: cuartiles, deciles y percentiles

Medida Informa sobre...


Los cuartiles son las medidas de posición que dividen a la distribución en
cuatro partes iguales: el cuartil 1 representa a aquel valor tal que deja un
25% por debajo y queda un 75% por encima; el cuartil 2 es la mediana, y el
C cuartil 3 es el valor que deja un 75% por debajo y queda un 25% por encima.
Los cuartiles 1 y 3 resultan útiles para circunscribir al 50% central de los
datos.
Los deciles son las medidas de posición que dividen a la distribución en 10
D partes iguales.

Los percentiles son las medidas de posición que dividen a la distribución en


P 100 partes iguales.
Medidas de variabilidad

Medida Informa sobre...


Es la diferencia entre los valores máximo y mínimo de la distribución,
R ó AT representado entonces la medida de variabilidad más básica.

Es la diferencia entre el cuartil mayor y menor. Representa el rango de


DI variabilidad del 50% central de los casos.

Es el promedio de los desvíos de los valores respecto a la media, tomados


como valor absoluto. Como toda medida de variabilidad, en general, cuanto
DM mayor es su valor más heterogéneos o dispersos son los datos. El desvío
medio, por carecer de signo, resulta una medida descriptiva pero sin valor
operatorio para ser integrada en otras fórmulas estadísticas.
Es el promedio de los desvíos de los valores respecto a la media elevados al
cuadrado. Descriptivamente, se interpreta como las restantes medidas de
variabilidad, es decir: cuánto mayor resulte, mayor dispersión y viceversa;
VAR sin embargo, la magnitud que representa no debe interpretarse literalmente
en términos de la escala de origen, ya que al haber operado una
transformación matemática (vg., la elevación al cuadrado) la variabilidad
aparece "amplificada".
Medidas de variabilidad (continuación)

Medida Informa sobre...


Es la raíz cuadrada de la varianza. Tiene el valor operatorio de la misma y
DE posee un valor descriptivo más parecido al desvío medio, al compensar la
transformación cuadrática realizada en aquella.
Es un cociente entre el desvío estándar y la media. Representa la porción de
variabilidad, expresada por el desvío estándar, respecto al valor promedio.
CV Resulta particularmente útil para comparar la varabilidad de distribuciones
que poseen diferente media o que están medidas en diferentes escalas.
Elementos básicos de la Prueba
de Asociación de Chi cuadrado
Chi cuadrado
Es una medida deasociación entre dosvariables medidas en
un nivel nominal u ordinal.
Específicamente informa sobre el grado deprobabilidad
de que exista asociación.
Conceptualmente, consiste encomparar lasfrecuencias
efectivamente observadas con las frecuencias que
deberían esperarse si no existiera asociación entre las
variables. Cuanto mayor sea la diferencia entre lo
observado y lo esperado, mayor resultará la
probabilidad de que exista asociación.

χ
2
(o − e )
2 =  e
Las tres medidas básicas asociadas al análisis "Chi
Cuadrado" como medida de asociación entre variables
Medida Informa sobre...
En general, el propósito de la medida radica en determinar la
probabilidad de asociación entre dos variables de nivel no
cuantitativo (nominal u ordinal). Especícamente, el valor de
x2 X2 sólo indica un valor de p asociado, denominado nivel de
significación, el cuál -en última instancia- es el que
realmente informa sobre la probabilidad de asociación entre
las variables.

La probabilidad de que el valor de x2 obtenido se deba al


p azar. Es decir, la probabilidad de que no exista asociación
entre las variables. Cuanto más bajo sea P, mayores son las
( significación)
evidencias para suponer que existe asociación y viceversa.

Phi es una de las medidas que, específicamente, informa


Ø sobre el grado o fuerza de la relación entre dos variables de
nivel nominal.
Coeficiente Phi
Medida de asociación basada en chi cuadrado.
Se obtiene al dividir el valor de chi cuadrado por el
número de casos y, luego, extraer la raíz cuadrada del
resultado.
Informa sobre el grado o fuerza de la asociación entre
dos variables de nivel no cuantitativo (nominal u
ordinal)
Cuando se trata de tablas decontingencia de 2 X 2, phi
asume valores comprendidos entre 0 y 1.

φ
2

= n
Chi cuadrado: tabla de cálculo

O E O-E (O - E) 2 (O - E)2 / E
Diagrama decisorio para la prueba de Chi Cuadrado
(Con cálculo manual y búsqueda en tabla)

Determinar el χ2t. para


el nivel de error α

Calcular χ2e.

NO SI
¿χ2e > χ2t ?

Aceptar la Hipótesis Nula Rechazar la Hipótesis Nula


(la que expresa que no existe (la que expresa que no existe
asociación) asociación)

Expresar: El resultado no es Expresar: El resultado es


estadísticamente significativo: estadísticamente significativo:
χ2 = 0,40; P > 0.05. χ2 = 12,85; p < 0.05.

Interpretar: Puede suponerse con alta probabilidad (con


Interpretar: Conforme a los niveles de error previamente
un nivel de error menor al 5%) que existe asociación entre
estipulados, no puede afirmarse que exista asociación
las variables. / Las evidencias obtenidas resultan
entre las variables. / Las evidencias obtenidas resultan
suficientes para suponer que existe asociación. / Es
insuficientes para suponer que exista relación. / Es altamente probable que las diferencias porcentuales
probable que las diferencias porcentuales observadas se
observadas no se deban al mero azar sino a una auténtica
deban a fluctuaciones del azar.
relación entre las variables.
(especificar y/o ajustar conforme a los posibles valores de
(especificar y/o ajustar conforme a los posibles valores de
p asociados a χ2 e)
p asociados a χ2 e)
Diagrama decisorio para la prueba de Chi Cuadrado
(Con cálculo informatizado)
Determinar el nivel de
error admitido

Calcular:
χ2e.
p (significance)

NO ¿p < error SI
admitido

Aceptar la Hipótesis Nula Rechazar la Hipótesis Nula


(la que expresa que no existe (la que expresa que no existe
asociación) asociación)

Expresar: El resultado no es Expresar: El resultado es


estadísticamente significativo: estadísticamente significativo:
χ2 = 0,40; p = 0. 80. χ2 = 12,85 p = 0.001.

Interpretar: Puede afirmarse que no


existe asociación entre las variables, Interpretar: Puede afirmarse que existe
dado que existe hasta un 80% de asociación entre las variables, con un nivel de
probabilidad de que las diferencias error de 1/1000. / Es altamente probable que
observadas resulten aleatorias. / Es las diferencias porcentuales observadas no se
altamente probable que las diferencias deban al mero azar sino a una auténtica
porcentuales observadas se deban a relación entre las variables.
meras fluctuaciones del azar.
Elementos básicos de Análisis de
Correlación
y Regresión Lineal
Coeficiente de correlación R de Pearson
Es una medida de la asociación lineal entre dos variables de nivel de medición
cuantitativo (intervalo o relación). De manera más específica, R informa
sobre:
El grado de correlación de las dos variables.
El sentido o dirección de la correlación.
El valor de R tiene un rango comprendido entre -1 (una relación negativa
perfecta en la que todos los puntos se encuentran sobre una línea con pendiente
negativa) y +1 (una relación positiva perfecta en la que todos los puntos se
encuentran sobre una línea con pendiente positiva). Un valor de 0 indica que
no existe relación lineal. Su fórmula es:

r ( x, y ) = [( x −x ) . ( y −y ) ]
n.s x .s y
Las tres medidas básicas asociadas con el análisis
de correlación R de Pearson.

Medida Informa sobre...


El grado de la correlación lineal entre dos variables
R X e Y medidas en un nivel cuantitativo (Intervalo o
relación)
La probabilidad de que el valor de R obtenido se
p deba al azar (se calcula en base a la distribución t
de Student)
El porcentaje de la variabilidad de Y que queda
explicado a partir de X. La varianza de Y explicada
por X. El porcentaje de la variabilidad de Y que
R2 puede predecirse a través de X.
(Coeficiente de En otro sentido, el coeficiente de determinación
determinación)
informa sobre la fuerza o el grado de la correlación
entre dos variables de nivel cuantitativo (Intervalos
o relación).
Coeficiente de determinación R2
Es una medida asociada al coeficiente de correlación R de Pearson.
Al igual que R, el coeficiente de determinación informa sobre la fuerza o el
grado de la correlación entre dos variables de nivel cuantitativo. A diferencia
de R, que carece de un significado específico, R2 puede interpretarse de
diversos modos:
Como la proporción de la variabilidad de la variable dependiente Y que
queda explicada a partir de la variable independiente X.
Como la proporción de la variabilidad de Y que puede predecirse a
través de X.
Como la bondad de ajuste de un modelo lineal, esto es: el grado en que
los datos se ajustan a un modelo de tipo lineal.
El coeficiente de determinación R2 presenta un rango de valores
comprendidos entre 0 y 1 (ó de 0 a 100, cuando R2 aparece expresado como
un porcentaje)
Coeficiente de determinación R2 (continuación)

Cuánto más alto sea el valor de R2 ello indica:


Que existe un mayor grado de correlación entre las
variables.
Que el poder explicativo de la variable independiente
respecto a la dependiente es mayor.
Que el poder predictivo de la variable independiente
respecto a la dependiente es mayor.
Que el modelo lineal posee un ajuste mayor a los
datos, es decir que aumenta el grado de congruencia
entre los datos y el modelo.
Coeficiente R de Pearson: tabla
de cálculo del numerador

X Y (X - X) (Y - Y) (X - X) . (Y - Y)
Regresión lineal
Se denomina "análisis de regresión lineal" a un conjunto de análisis
estadísticos cuya función es determinar si entre una variable dependiente
medida en una escala cuantitativa y una o más variables independientes,
del mismo tipo, existen relaciones de carácter lineal. Una relación es lineal
si posee una estructura idéntica a una línea recta.
En rigor, el análisis de regresión se utiliza para determinar el grado de
adecuación de los datos empíricos al modelo de una recta y la
probabilidad de que esa adecuación obedezca al azar.
Cuando existe sólo una variable independiente el análisis se denomina
"regresión lineal simple". Si existe más de una, se estará ante un caso de
"regresión lineal múltiple".
Básicamente el análisis permite contribuir a dos propósitos: explicar y
predecir.
Cuando el análisis de regresión da un resultado negativo, debe
interpretarse que es poco probable la existencia de relación lineal, aunque
no debe descartarse que existan otros tipos de relaciones, no lineales.
También se denomina "análisis de regresión a otros procedimientos
estadísticos diferentes a los mencionados
" pero que comparten la misma
lógica.
La ecuación de la recta en el análisis de regresión lineal

y = + x
Y= El valor de la variable dependiente predicho por el modelo lineal.
α= Representa el valor de la variable dependiente cuando la variable
independiente vale 0. Gráficamente corresponde al punto de Y donde
se emplaza o intersecta la recta de regresión.
β= Representa el incremento de Y por cada unidad de incremento de
X. Gráficamente se expresa en la pendiente o grado de inclinación de la
recta.
X = El valor de la variable independiente X sobre el cuál se quiere hacer
una predicción.
_______________________________________________________________
Cuando la ecuación de la recta se utiliza para modelizar datos empíricos, vg., la
recta de regresión, es necesario incorporar un factor aleatorio que representa los
posibles fluctuaciones de los datos respecto al modelo o, en otros términos, las
discrepancias entre el modelo y la realidad. En virtud de ello el modelo general de
regresión lineal simple asume esta estructura:

Y = α + β x + error
Medidas básicas asociadas al análisis de regresión
Medida Informa sobre...
α El valor hipotético que asumiría la variable dependiente si la
variable independiente tuviera un valor nulo, conforme al modelo
de relación lineal.
El incremento que cabría esperar en la variable dependiente por
β cada unidad de incremento en la variable independiente,
conforme al modelo de relación lineal.
El valor del test estadístico para determinar la bondad de ajuste
Fót de los datos a un modelo lineal.
La probabilidad asociada al test F ó t. La probabilidad de que la
P correlación lineal se deba al azar.
El porcentaje de la variabilidad de Y que queda explicado a partir
R2 de X. La varianza de Y explicada por X. El porcentaje de la
variabilidad de Y que puede predecirse a través de X.
El error standard estimado constituye una última medida necesaria
para ajustar las predicciones de Y a partir de X. Globalmente,
representa la variabilidad de los datos respecto al modelo y resulta útil
para determinar los llamados intervalos de confianza de la estimación.
ESE Cuando se utiliza el modelo de regresión para predecir valores de Y
para diferentes valores de X, antes que un valor específico de Y lo que
se estima es un intervalo de posibles valores. El ESE es la medida
asociada a esa estimación, constituyendo un indicador de la amplitud
de dicho intervalo
Cálculo de los parámetros de la recta de regresión
a partir de datos empíricos

xy − x.y
=
nx2
− x2

= y − bx
Ejemplo de diagrama de dispersión con
información básica del análisis de regresión

12
Actitud hacia la ciudad

10

0
0 2 4 6 8 10 12 14 16 18 20
Tiempo de Residencia
R-square = 0.876
y = 1.08 + 0.59x
Cálculo del Error Standard Estimado

[Y−Ŷ ] 2
ESS = n−2
X Y Y Y-Y (Y - Y)2
10 6 6,97 -0,97 0,94
12 9 8,15 0,85 0,73
12 8 8,15 -0,15 0,02
4 3 3,44 -0,44 0,19
12 10 8,15 1,85 3,43
6 4 4,61 -0,61 0,38
8 5 5,79 -0,79 0,63
2 2 2,26 -0,26 0,07
18 11 11,68 -0,68 0,46
9 9 6,38 2,62 6,86
17 10 11,09 -1,09 1,19
2 2 2,26 -0,26 0,07
Suma 14,97
VAR 1,50
DE (ESE) 1,22
Análisis de regresión: Ejemplo de reporte
* * * * M U L T I P L E R E G R E S S I O N * * * *

Listwise Deletion of Missing Data

Equation Number 1 Dependent Variable.. VAR00001 Actitud hacia la ciudad

Block Number 1. Method: Enter VAR00002

Variable(s) Entered on Step Number 1.. VAR00002 Tiempo de residencia

Multiple R ,93608 Analysis of Variance


R Square ,87624 DF Sum of Squares Mean Square
Adjusted R Square ,86387 Regression 1 105,95222 105,95222
Standard Error 1,22329 Residual 10 14,96444 1,49644

F = 70,80266 Signif F = ,0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

VAR00002 ,589716 ,070084 ,936078 8,414 ,0000


(Constant) 1,079322 ,743351 1,452 ,1772

End Block Number 1 All requested variables entered.


Elementos básicos del
Análisis de Varianza
Análisis de varianza (ANOVA)

Se denomina Análisis de varianza (Anova) a una serie


de procedimientos estadísticos cuyo propósito radica
en testear el grado de asociación entre una variable
independiente clasificatoria (nominal u ordinal) y una
variable dependiente medida de manera cuantitativa
(nivel de intervalo o de relación).
Específicamente, Anova se utiliza para determinar si
las medias de dos o más grupos pertenecen a una o a
diferentes poblaciones.
Alternativamente, también se denomina análisis de
varianza a otros procedimientos estadísticos,
distintos del arriba mencionado, pero que comparten
similar lógica de análisis.
Las tres medidas básicas asociadas al análisis de
varianza (ANOVA)
Medida Informa sobre...

En general, el propósito de la medida radica en determinar si


dos o más valores promedios pertenecientes a diferentes
grupos son significativamente diferentes. Especícamente, el
F valor de F sólo indica el valor de p asociado, el cuál -en última
instancia- es el que realmente informa sobre la probabilidad de
diferencia entre las medias.

La probabilidad de que el valor de F obtenido se deba al azar.


Cuanto mayor sea p, significa que es más probable que las
p medias de los grupos no difieran de un modo significativo.
Inversamente, cuando menor sea P, resultará más probable
que existan diferencias.

Etha cuadrado es una de las medidas que, específicamente,


informa sobre el grado o fuerza en que la variable
ε2 independiente se halla relacionada con la dependiente y por lo
tanto permite su explicación y/o predicción.
Análisis de Varianza (Anova): Prueba F
1. La prueba F es la prueba central del ANOVA. Básicamente consiste en
comparar dos medidas de la variabilidad de los datos obtenidas de manera
independiente:
La primera, obtenida al comparar las medias de los diferentes grupos
(varianza intergrupo)
La segunda, obtenida al analizar las fluctuaciones de los datos dentro de
cada grupo; es decir: respecto a la media de cada grupo (varianza
intragrupo)
2. Concretamente, F es el cociente entre la varianza intergrupo y la varianza
intragrupo.
3. Interpretación de F: En general, cuanto mayor es el valor de F, mayor es la
variabilidad entre los grupos respecto a la variabilidad intragrupo. Ello
significa que aumenta la probabilidad de que las medias de los grupos
pertenezcan a poblaciones conceptualmente diferentes, con diferente
media.

 (k−1
x −x ) . n

Fórmula F = (x −x )
( )
n−1 . k
Coeficiente Etha Cuadrado (ε2)

Eta cuadrado es una medida asociada al análisis de


varianza:

Es el cociente entre la suma de cuadrados intergrupos


y la suma de cuadrados total.

Al igual que φ y R2 , E2 informa sobre la fuerza o el


grado de la relación entre las variables. A diferencia de
F, que carece de un significado específico, E2 puede
interpretarse como la proporción de la variabilidad total
de la variable dependiente "Y" que queda explicada a
partir de la variable independiente clasificatoria.
* * * A N A L Y S I S O F V A R I A N C E * * *

DEPENDIE Variable dependiente


by IND.PRIN Variable independiente principal
IND.SECU Variable independiente secundaria

UNIQUE sums of squares


All effects entered simultaneously

Sum of Mean Sig


Source of Variation Squares DF Square F of F

Main Effects 540.000 2 270.000 67.500 .000


IND.PRIN 432.000 1 432.000 108.000 .000
IND.SECU 108.000 1 108.000 27.000 .001

2-Way Interactions .000 1 .000 .000 1.00


IND.PRIN IND.SECU .000 1 .000 .000 1.00

Explained 540.000 3 180.000 45.000 .000

Residual 32.000 8 4.000

Total 572.000 11 52.000

12 cases were processed.


0 cases (.0 pct) were missing.
¿Qué informa exactamente "p" en los
distintos análisis estadísticos?

Análisis En general Si es bajo Si es alto

A medida que baja, Es poco probable Es muy probable


En el análisis de
aumenta la que la asociación que la asociación
asociación Chi
probabilidad de observada se deba observada se deba
Cuadrado
asociación al azar al azar

A medida que baja, Es poco probable


Es altamente
En el análisis de aumenta la que la correlación
probable que no
correlación "R" probabilidad de que observada no se
exista correlación
de Pearson exista correlación ajuste a un modelo
lineal
lineal lineal
A medida que baja,
aumenta la Es altamente
Es poco probable
En el análisis de probabilidad de que probable que las
que las medias
varianza las medias difieran medias
pertenezcan a una
(Prueba F) significativamente pertenezcan a una
única población
(pertenezcan a poblaciones única población
con distinta media)
Elementos básicos de Análisis
Discriminate
Terminología básica asociada al análisis
discriminante
Término Significado
Representa al modelo matemático que mejor discrimina a
Función los valores de la variable dependiente (grupos) a partir de
discriminante la/s variable/s independiente/es predictoras (es análoga a la
ecuación de regresión, en ése análisis).
Es una medida que representa el grado de correlación entre
la/s variable/s independiente/es y los grupos. Al elevarse al
Correlación
cuadrado representa la proporción de variabilidad
canónica
involucrada con los grupos (es análoga al coeficiente de
determinación R 2en el análisis de regresión).

Es la medida de significación estadística básica del


análisis. Señala la probabilidad (P) de que el modelo
Coeficiente λ
predictivo evaluado se deba al azar. (A diferencia de otros
(lambda) de Wilk tests cuanto menor sea λ , menor será también P. No
obstante, para determinar P, λ debe transformarse en χ2 ) 

Representan las correlaciones entre las variables
Cargas independientes predictoras y la función discriminante. Se
discriminantes (o interpretan como la fuerza relativa de cada variable dentro
correlaciones de del modelo: cuánto mayor resulte la carga discriminante de
estructura) una variable, mayor será la contribución de ésta a la
discriminación global del modelo.
Terminología básica asociada al análisis
discriminante (cont.)
Término Significado
Probabilidades Son las probabilidades de que un miembro pertenezca a
previas determinado grupo antes de realizar el análisis.
Es el resultado básico que condensa las predicciones
clasificatorias basadas en la función discriminante. En la
diagonal aparecen los casos clasificados correctamente.
Fuera de la diagonal, los casos clasificados en forma
Matriz de
errónea. El cociente entre la suma de los casos correctos
clasificación o
(sobre la diagonal) y el total de casos constituye la razón de
predicción
aciertos. Si la función discriminante resulta efectiva, la
razón de acierto debería ser mayor que lo cabría esperar
conforme a las probabilidades previas.

Son los puntajes correspondientes a cada uno de los


individuos de acuerdo a la función discriminante.
Puntajes
Representan un puntaje de síntesis de las variables
discriminantes
predictoras que puede utilizarse a posteriori para explorar
otro tipo de relaciones entre los datos.
Tres reportes estadísticos básicos del análisis discriminante

Autovalores

Correlación Matriz de estructura


Función Autovalor % de varianza % acumulado canónica
Función
1 1,811a 100,0 100,0 ,803
1
a. Se han empleado las 1 primeras funciones discriminantes Nivel de pacifismo ,997
canónicas en el análisis. Nivel de hedonismo -,850
Correlaciones intra-grupo combinadas entre
Lambda de Wilks las variables discriminantes y las funciones
discriminantes canónicas tipificadas
Contraste de Lambda Variables ordenadas por el tamaño de la
las funciones de Wilks Chi-cuadrado gl Sig. correlación con la función.

1 ,356 17,569 2 ,000

En las tablas de arriba aparecen tres reportes básicos del análisis discriminate:
1) La correlación canónica, que informa sobre el potencial explicativo del modelo
discriminante obtenido
2) Los valores de lambda y chi cuadrado, junto al nivel de significación asociado
3) La matriz de estructura, donde se informa el sentido y grado de la correlación entre
cada variable predictora y el modelo discriminante obtenido
El resultado descriptivo fundamental del análisis discriminante
Probabilidades previas para los grupos

Casos utilizados en el
análisis
No
Preferencia Previas ponderados Ponderados
Roca Cola ,600 12 12,000
Suave Cola ,400 8 8,000
Total 1,000 20 20,000

Resultados de la clasificación

Grupo de pertenencia
pronosticado
Preferencia Roca Cola Suave Cola Total
Original Recuento Roca Cola 10 2 12
Suave Cola 1 7 8
% Roca Cola 83,3 16,7 100,0
Suave Cola 12,5 87,5 100,0
Clasificados correctamente el 85,0% de los casos agrupados originales.

La tabla inmediata superior es la matriz de clasificación, que representa el resultado descriptivo


básico del análisis discriminate. Allí se detallan en valores absolutos y porcentuales los casos
clasificados correctamente en base a aplicar la función discriminate sobre los puntajes de las
variables independientes. Como puede apreciarse, el modelo permite clasificar acertadamente al
85% de los casos, porcentaje que supera al que se habría obtenido aleatoriamente en base a las
probabilidades previas de cada grupo (cuya esperanza matemática ascendería a 0,600 ó 60%;
tabla superior)
Elementos básicos de Análisis
Factorial
Análisis Factorial
El análisis factorial es un conjunto de métodos estadísticos multivariados
cuya función radica en identificar construcciones o factores subyacentes
que explican las correlaciones entre un conjunto de variables. En tal sentido,
constituye un método explicativo.
En virtud de lo anterior, el análisis factorial se usa para resumir un gran
número de variables en un número más pequeño de macro-variables
denominadas factores. En tal sentido, constituye un método de síntesis.
Por último, cabe precisar que el análisis factorial constituye un método de
interdependencia entre variables y por ende no discrimina entre variables
independientes y dependientes
Ejemplos de aplicación del análisis factorial:
Identificar los factores subyacentes en investigaciones actitudinales basadas en
escalas Likert.
Identificar los factores subyacentes en investigaciones sobre imagen basadas
en técnicas como el diferencial semántico.
Identificar los factores subyacentes en investigaciones psicográficas basadas
en cuestionarios AIO (actividades, intereses y opiniones)
Identificar los factores suyacentes en investigaciones sobre atributos de
productos y servicios.
Refinar cualquier análisis predictivo y/o explicativo utilizando "a posteriori" los
factores extraídos como nuevas variables independientes.
Terminología básica asociada al análisis factorial
Término Significado
Representa una variable latente o subyacente a una serie
de variables originalmente medidas. Estadísticamente
Factor representa una variable hipotética tal que las
correlaciones entre ésta y las variables originales es
máxima. Su significado debe interpretarse.

Son las correlaciones entre las variables originales y los


Cargas factoriales
factores extraídos
Es la salida informativa fundamental del análisis. Es una
Matriz factorial matriz donde se representan todos los factores
obtenidos con sus respectivas cargas factoriales
Es un valor que representa el total de varianza que
Valor específico explica un factor. Más específicamente, al dividirse el
(Eingenvalue) valor específico por el número de variables originales se
obtiene la proporción de la varianza que explica el factor.

% de varianza Es el porcentaje de la variabilidad total que queda


explicado explicado por cada factor.
Es el porcentaje de la variabilidad de cada variable
Comunalidad original que es explicado conjuntamente por todos los
factores extraídos
Terminología básica asociada al análisis factorial (Cont.)

Término Significado
Es una matriz cuadrada (igual número de filas y columnas)
Matriz de donde se representan todas las correlaciones entre las
correlaciones variables originales. Constituye el punto de partida del análisis
factorial.
Es un test de significación estadística para el análisis
factorial. Como otros tests decisorios, si su valor es alto, el
Prueba de
valor de P asociado será bajo. Cuando ello ocurre significa
esferecidad de
Bartlett
que las correlaciones entre las variables originales
probablemente no se deban al azar sino a la existencia de
los factores latentes extraídos.
Prueba de Es un test para decidir sí el análisis factorial resulta
adecuación apropiado. Los valores altos (entre 0,5 y 1) indican que es
Kaiser-Meyer- apropiado; los valores inferiores a 0,5 hacen inaceptable su
Olkin (KMO) aplicación.
Puntajes Son los puntajes correspondientes a cada uno de los
factoriales individuos en cada factor.
Es el resultado de aplicar un procedimiento matemático que
permita una interpretación más precisa de los factores. En
Matriz factorial
la matriz rotada las cargas factoriales se distribuyen de tal
rotada
forma que para cada variable exista la mayor diferencia
entre un factor y otro.
Elementos de cluster análisis en el
contexto de la investigación
psicográfica
Diagrama de flujo de una
investigación psicográfica

Definición de objetivos

Elaboración de un
cuestionario AIO
Diseño muestral

Administración del
cuestionario AIO

Validación de los clusters

Análisis multivariado
Número de clusters • Cluster análisis

Descripción de los clusters


Interpretación de •Tabular Cluster psicográfico
“ Pureza” de los clusters los clusters •Textual

Cruzar los clusters Descripción ampliada Cluster psicográfico-


c/ otras var. de segmentación nivel 1 demográfico

Cruzar los clusters con Descripción ampliada Cluster psico-demo-


variables resultados relevantes nivel 2 gráfico-conductual
específico
Clusters psicográficos cruzados con sus variables constituyentes originales

Variables originales Cluster 1 Cluster 2 General

Tamaño 50% 50% 100%

Hedonismo 4.40 8 6.20

Innovatividad 4.30 7.10 5.70

Romanticismo 7.10 3.50 5.30

Religiosidad 7.00 3.50 5.25


Clusters o segmentos psicográficos cruzados con sus variables
constituyentes originales: descripción tabular y textual

Cluster 1: LOS ESPIRITUALISTAS


Se definen por la alta valoración que
Variables originales Espiritualistas Materialistas General le conceden al romanticismo y por
su gran sentimiento de religiosidad.
Tamaño 50% 50% 100% No sintonizan con valores
hedonistas ni tampoco les interesan
Hedonismo 4.40 8 6.20 valores de la modernidad tales como
la orientación a la innovación.

Innovatividad 4.30 7.10 5.70


Cluster 2: LOS MATERIALISTAS

Romanticismo 7.10 3.50 5.30 Se definen por la alta valoración de


valores de la modernidad tales como
hedonismo e innovación. Descreen,
Religiosidad 7.00 3.50 5.25 o al menos no se sienten
identificados, con valores de cuño
más tradicional tales como el
romanticismo y la religiosidad.
Clusters o segmentos psicográficos cruzados
con demográficos
Psicográficos
Demográficos Segmento 1 Segmento 2 Segmento 3 Segmento 4
TAMAÑO
EDAD
SEXO
Masculino
Femenino
ESTADO CIVIL
Soltero/a
Casado/a
Divorciado/a
Viudo/a
EDUCACION
Primaria
Secundaria
Universitaria
CLASE SOCIAL
Baja
Media
Alta
INGRESO ANUAL
Cluster Análisis o Análisis de Conglomerados
El ánálisis de conglomerados o cluster análisis es un método estadístico
multivariado cuyo objetivo básico es identificar grupos relativamente
homogéneos a partir de determinadas características seleccionadas. Por
ello, el análisis de conglomerados básicamente constituye un método de
clasificación.
El fundamento básico de esta metodología es el análisis de distancias
entre observaciones. Su lógica es sencilla: Dos observaciones que
puntúen de manera similar en las diversas características
identificatorias (ie., las variables) se encuentran "próximas" en un
espacio virtual clasificatorio y deberían, por lo tanto, clasificarse en
los mismos conglomerados o clusters; recíprocamente, las
observaciones que se encuentren "lejanas" entre sí, deberían
corresponder a diferentes grupos.
A diferencia del análisis discriminante,el análisis de conglomerados no
parte de grupos dados a priori sino que - justamente- la obtención de
tales grupos constituye el output del procedimiento.
Por último, cabe precisar que, al igual que el análisis factorial, el cluster
análisis constituye un método de interdependencia entre variables y
por ende no discrimina entre variables independientes y dependientes.
Aplicaciones del análisis de conglomerados

El análisis de conglomerados es el método por excelencia para


clasificar objetos en base a afinidades, por lo tanto resulta útil
en los siguientes ámbitos:
 Segmentación psicográfica y otros perfiles actitudinales.
 Segmentación de audiencias y públicos.
 Clasificaciones de diversos objetos. Por ejemplo, pueden
agruparse programas de capacitación en categorías
homogéneas basadas en las características de los
participantes. O bien pueden agruparse conjuntos de
personas en conglomerados homogéneos para que pueden
seleccionarse grupos comparables, con el fin de testear
alguna estrategia.
Tipos básicos de análisis de conglomerados

Conglomerado de K medias:
Realiza análisis de conglomerados usando un algoritmo que
puede manejar grandes números de casos, pero que requiere la
especificación del número de conglomerados.
Conglomerados jerárquicos:
Combina casos en conglomerados a través de una secuencia
jerárquica, usando un algoritmo con consumo intensivo de
memoria que permite examinar muchas soluciones diferentes
con facilidad. Los clusters se forman mediante agrupamiento en
conglomerados mayores o menores hasta que todos los casos
sean miembros de un sólo conglomerado.
Ejemplo de operatoria del cluster análisis: a) Datos
Caso Hedonismo Innovativida Romanticismo Religiosidad
En la matriz de datos se
d
consigan los resultados
1 3 3 10 9 de una encuesta sobre
2 3 4 8 8 autoconcepto en cuatro
3 5 4 8 7 variables cuyo rango
oscilaba entre 1 y 10:
4 5 5 7 6
a) hedonismo,
5 5 3 6 6
b) innovatividad
6 4 4 7 8
7 4 5 6 7 c) romanticismo

8 4 4 7 7 d) religiosidad
9 6 5 6 6 Tal como puede
10 5 6 6 6 apreciarse, los primeros
diez casos se
11 7 5 4 5 caracterizan por su bajo
12 7 6 4 4 hedonismo e
innovatividad y su alto
13 7 5 4 4
romanticismo y
14 9 7 3 2 religiosidad; mientras
15 9 8 3 3 que en los últimos 10, se
observa lo inverso.
16 7 7 3 3
Un análisis que requiriera
17 6 8 4 4
dos cluster debería
18 10 7 4 4 distinguir esos dos
19 9 9 3 3 grupos.
20 9 9 3 3
Ejemplo de operatoria de cluster análisis: b) Reportes básicos (Método K-Medias)

Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS

1 4,4000 4,3000 7,0995 7,0000


2 8,0000 7,1000 3,5000 3,5000

Number of Cases in each Cluster.

Cluster cases
1 10,0
2 10,0

EN LOS TABLAS DE ARRIBA APARECEN DOS REPORTES BASICOS DEL CLUSTER


ANALISIS:
1°) La tabla que vincula a los clusters obtenidos con los valores promedio para cada una
de las variables utilizadas. Constituye la base para su posterior interpretación. Así, en
principio, el cluster 1 estaría conformado por personas de bajo hedonismo, con poca
orientación a la innovación, autodefinidas como románticas y acentuadamente
religiosas. Inversamente, el cluster 2 estaría integrado por personas marcadamente
orientadas al hedonismo y la innovación y poco orientadas al romanticismo y la
religiosidad.
2°) La cantidad de miembros en cada cluster, en este caso se trata de dos clusters de 10
integrantes cada uno.
Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)
COD Cluster Distance

1 1 4,008
2 1 1,965 Otro reporte de interés está
3 1 1,123 representado por el listado de
asignación de casos a los
4 1 1,364
diferentes clusters. En la
5 1 2,064 última columna, aparece una
6 1 1,123 medida de la distancia de cada
7 1 1,363 caso al centro de su cluster, lo
8 1 ,510 cual constituye un valor que
informa cuán típico o atípico
9 1 2,293
resulta un individuo respecto
10 1 2,336 al cluster en el que ha sido
11 2 2,812 clasificado.
12 2 1,646 Como puede apreciarse al
13 2 2,431 individuo N° 8 constituye el
14 2 1,873 caso prototípico del cluster 1,
15 2 1,520 ya que presenta la menor
16 2 1,229 distancia al centro del mismo.
Para corroborarlo, véase
17 2 2,304 nuevamente la matriz de datos
18 2 2,124 y la información de clusters
19 2 2,261 finales.
20 2 2,261
Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)

Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS

1 4,4000 4,3000 7,0995 7,0000


2 8,0000 7,1000 3,5000 3,5000

Analysis of Variance.

Variable Cluster MS DF Error MS DF F Prob

HEDONISM 64,8000 1 1,355 18,0 47,8033 ,000


INNOVATI 39,2000 1 1,500 18,0 26,1333 ,000
ROMANTIC 64,7821 1 ,966 18,0 67,0121 ,000
RELIGIOS 61,2500 1 ,916 18,0 66,8182 ,000

Otro dato de sumo interés es la tabla de Anova, donde se informa sobre el grado
de significación estadística de la diferencia de las medias de los diferentes
clusters, para todas las variables utilizidas en su conformación. En el presente
caso, todos los valores resultan significativos, lo que indica que los clusters
discriminan a los individuos en todas las variables.
Ejemplo de operatoria de cluster análisis: d) Reporte básico (Método Jerárquico)

Cluster Membership of Cases using Average Linkage (Between Groups)

Number of Clusters

Label Case 4 3 2

Case 1 1 1 1 1
Case 2 2 2 2 1
Case 3 3 2 2 1
Case 4 4 2 2 1
Case 5 5 2 2 1
Case 6 6 2 2 1
Case 7 7 2 2 1
Case 8 8 2 2 1
Case 9 9 2 2 1
Case 10 10 2 2 1
Case 11 11 3 3 2
Case 12 12 3 3 2
Case 13 13 3 3 2
Case 14 14 4 3 2
Case 15 15 4 3 2
Case 16 16 3 3 2
Case 17 17 3 3 2
Case 18 18 4 3 2
Case 19 19 4 3 2
Case 20 20 4 3 2
Ejemplo de operatoria de cluster análisis: e) Dendograma (Método Jerárquico)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Case 19 19
Case 20 20
Case 15 15
Case 14 14
Case 18 18
Case 12 12
Case 13 13
Case 11 11
Case 16 16
Case 17 17
Case 6 6
Case 8 8
Case 7 7
Case 3 3
Case 2 2
Case 9 9
Case 10 10
Case 4 4
Case 5 5
Case 1 1
Ejemplo de operatoria de cluster análisis: f) Historial de conglomeración (Método Jerárquico)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Agglomeration Schedule using Average Linkage (Between Groups)

Clusters Combined Stage Cluster 1st Appears Next


Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage

1 19 20 ,000000 0 0 2
2 15 19 1,000000 0 1 11
3 12 13 1,000000 0 0 5
4 6 8 1,000025 0 0 8
5 11 12 1,500000 0 3 15
6 9 10 2,000000 0 0 7
7 4 9 2,000000 0 6 14
8 6 7 2,495053 4 0 9
9 3 6 3,669981 0 8 12
10 16 17 4,000000 0 0 15
11 14 15 4,000000 0 2 13
12 2 3 4,252486 0 9 16
13 14 18 6,000000 11 0 17
14 4 5 6,333333 7 0 16
15 11 16 7,333333 5 10 17
16 2 4 7,648517 12 14 18
17 11 14 13,960000 15 13 19
18 1 2 22,447754 0 16 19
19 1 11 54,536533 18 17 0
Ejemplo de operatoria de cluster análisis: g) Diagrama de témpanos (Método Jerárquico)

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Vertical Icicle Plot using Average Linkage (Between Groups)

1 2 1 1 1 1 1 1 1 1 1
8 0 9 5 4 7 6 3 2 1 5 0 9 4 7 8 6 3 2 1
1 +
2 +
3 +
4 +
5 +
6 +
7 +
8 +
9 +
10 +
11 +
12 +
13 +
14 +
15 +
16 +
17 +
18 +
19 +

También podría gustarte