Está en la página 1de 76

Anlisis de Datos

Fuentes de Datos
F u e n te s d e D a to s
P r im a r ia s
E x p e r im e n t o s

O b s e rv a c i n

S e c u n d a r ia s
C ensos

E n c u e s ta s

Tipos de Datos
D a to s
C a t e g r ic o s
O r d in a le s

C u a n t it a t iv o s

N o m in a le s

Definiciones
Una variable categrica indica a qu grupo o a
qu categora pertenece una observacin. Todo lo
que podemos hacer es calcular la proporcin de
datos que entra en cada categora.
Una variable cuantitativa toma valores
numricos sobre los cuales podemos realizar
operaciones aritmticas. Las variables cuantitativas
pueden ser discretas o contnuas.
4

Ejemplos
Datos cuantitativos

Datos categricos

Edad -- ingreso
ingreso
Edad

Persona Casado/no
Casado/no casado
casado
Persona

55
55
42
42

75000
75000
68000
68000

..
..
.. de
Aumento
de.. peso
peso
Aumento
+10
+10
+5
+5

..
..

11
22
33

..
..

sisi
no
no
no
no

..
Profesor
..
Profesor
11
22
33
..
..

Rango
Rango

Visitante
Visitante
Full Time
Time
Full
Asistente
Asistente
..
..
5

Variables discretas y continuas


Una variable es discreta si toma solo un nmero contable
de valores. Una variable es contnua si la misma toma un
nmero incontable de valores.
Variable discreta

Por lo tanto, el nmero de


valores es contable

Variable continua

3 ...

0 1/16 1/4

1/2

Por lo tanto, el nmero de


valores es incontable

Estadstica Descriptiva
Abarca la agrupacin, resmen y presentacin de
los datos para permitir su interpretacin y poder
tomar decisiones basadas en dicha interpretacin.
La estadstica descriptiva utiliza
Tcnicas grficas
Medidas de descripcin numricas

Variables Categricas

Pie chart

Grfico de barras

Estas son algunas de las representaciones ms


utilizadas para variables categricas.

Variables cuantitativas
Las variables cuantitativas contnuas toman un
nmero considerable de valores.
Su representacin grfica resulta ms clara si se
agrupan los valores prximos de la variable.
El grfico ms comn de la distribucin de una
variable cuantitativa contnua es un histograma.
9

Histograma: distribucin del salario horario en


una gran ciudad.
200

160
2 00

1 60

120

1 20

80

40

0
0

80

40

0
0

10

Aspecto general de una distribucin


Para describir el aspecto general de una
distribucin:
Debemos:
Proporcionar su centro y su dispersin.
Evaluar si la distribucin tiene una forma simple que
pueda describirse de forma sencilla.
11

Medidas de Posicin Central:


Usualmente, nuestra atencin se centra en dos
aspectos de las medidas de posicin central:
Medicin del punto central (promedio)
Medicin de la dispersin en torno al promedio

12

Medidas de Posicin Central: la media


Es la medida mas popular.
Media =

Suma de las observaciones


Nmero de observaciones

Es decir, tenemos una muestra de n observaciones:


x1, x2,,xn. Su media muestral es:

( x1 x 2 ... x n )
x
n

De forma compacta:

1
x
n

x
i 1

13

Medidas de Posicin Central: la media


Ejemplo:
La media de la muestra de seis observaciones:
7, 3, 9, -2, 4, 6
esta dada por:

6
i1 x i

x71 x32 x93 x24 x45 x66

4.5
14

Medidas de Posicin Central: la media


Ejemplo:
Cuando muchas observaciones toman el mismo valor, estas se pueden
resumir en una tabla de frecuencias. Supongamos que el nmero de
Hijos en una muestra de 16 empleados fuera el siguiente:
NUMERO DE HIJOS
0
NUMERO DE EMPLEADOS 3

1
4

2
7

3
2

16 empleados

16
i 1 x i
16

x1 x 2 ... x16 3(0) 4(1) 7(2) 2(3)

1.5
16
16

15

La mediana
La mediana (Me) es el valor central de un
histograma.
Para hallar la mediana de una distribucin
debemos:
1. Ordenar las observaciones en orden ascendente.

2. Si el nmero de observaciones n es impar, Me es la observacin


central de la lista ordenada. Me se halla contando (n+1)/2
observaciones desde el comienzo de la lista.
3. Si el nmero de observaciones n es par, Me es la media de las dos
observaciones centrales de la lista ordenada.

16

La mediana
Ejemplo:
Los salarios de siete empleados fueron
los siguientes (en 1000s) :
28, 60, 26, 32, 30, 26, 29.
Cul es la mediana?

Supongamos que se agrega al grupo el


Salario de un empleado ms ($31,000).
Cul es la mediana?

Nro. de observaciones es impar

Nro. de observaciones es par

Primero, ordenar los salarios.


Luego, localizar el valor en el medio.

Primero, ordenar los salarios.


Luego, localizar el valor en el medio.

Hay dos valores en el medio!


26,26,28,29,30,32,60

26,26,28,29,29.530,31,
32,60
,30,31,32,60
26,26,28,29,
17

El modo
El modo es el valor que ocurre con mayor frecuencia
en un grupo de observaciones.
El modo

Cuando la muestra
es grande, los datos
se agrupan en intervalos
y obtenemos el
Intervalo modal

En un conjunto de observaciones puede haber ms de un


modo.

18

El modo
Ejemplo
El gerente de una tienda de ropa posee la siguiente
informacin sobre el talle de los pantalones que se
vendieron ayer:
31, 34, 36, 33, 28, 34, 30, 34, 32, 40.
El modo es 34

19

Media y Mediana
La media es sensible a observaciones extremas .
La mediana solo es sensible a cambios en su entorno que la
cruzan. Por ello, se dice que la mediana es un estimador robusto
de la tendencia central.
La media y la mediana de una distribucin simtrica se
encuentran muy cerca. Si la distribucin es exactamente simtrica,
la media y la mediana coinciden.
Si la distribucin es asimtrica, la media queda desplazada hacia
la cola ms larga del histograma de la distribucin.

20

Distribuciones simtricas y
asimtricas
Una distribucin es simtrica si el lado derecho e
izquierdo del histograma con respecto a la mediana son
aproximadamente iguales.
Un distribucin es asimtrica hacia la derecha si el
lado derecho del histograma se extiende sobre un mayor
nmero de valores (intervalos) que el lado izquierdo.
Una distribucin es asimtrica hacia la izquierda si el
lado izquierdo del histograma se extiende sobre un
mayor nmero de valores (intervalos) que el lado
derecho.
21

Asimetra hacia la izquierda


Asimetra hacia la derecha
22

Aspecto general de una distribucin


La figura muestra la distribucin de ventas de libros por
individuo en la feria del libro. Esta distribucin es
asimtrica hacia la derecha. Es decir hay muchas ventas de
3 o 4 libros y pocas ventas de 10 libros.
25
20
15
10
5
0
1

10

11 12

23

Aspecto general de una distribucin


La figura muestra la distribucin de ventas de libros por
individuo en la feria del libro. Esta distribucin es
asimtrica hacia la derecha. Es decir hay muchas ventas de
3 o 4 libros y pocas ventas de 10 libros.
25
20
15
10
5
0
1

10

11 12

24

Distribuciones representadas con nmeros

Qu edad tenan los presidentes de Chile al inicio de su mandato? La edad


media es de aproximadamente 55 aos.
Una breve descripcin de la distribucin:

Su forma es aproximadamente simtrica.


El centro de la distribucin es aproximadamente 55 aos.
Dispersin: Rango de variacin, de 42 a 69 aos.
La forma, el centro y la dispersin proporcionan una buena descripcin del
aspecto general de cualquier distribucin de una variable cuantitativa.
16
14
12
10
8
6
4
2
0
40

45

50

Edad

55

60

65

25

Media, Mediana y Modo


Si una distribucin es simtrica, la media, mediana
y modo coinciden
Si una distribucin no es simtrica, las tres
medidas difieren.
Asimetra hacia la derecha
(asimetra positiva)

Modo

Media
Mediana

Asimetra hacia la izquierda


(asimetra negativa)

Media Modo
Mediana 26

Medidas de dispersin
Caracterizar una distribucin solamente a travs de una medida
central no es apropiado.
Las distribuciones del ingreso de dos regiones con el mismo
ingreso medio por hogar son muy distintas si una de ellas tiene
extremos de pobreza y de riqueza, mientras que la otra tiene poca
variacin de ingresos entre familias.
Estamos interesados en la dispersin o variabilidad de los
ingresos, adems de estarlo en sus centros.

27

Medidas de dispersin
Ejemplo de dos conjuntos de datos con igual media

Datos con baja dispersin

Datos con alta dispersin


28

Medidas de dispersin
Rango
Una manera de medir la dispersin es calcular el
recorrido de la distribucin emprica, es decir, la
diferencia entre las observaciones mxima y mnima.
Su mayor ventaja es que se puede calcular
facilmente, sin embargo, no brinda informacin sobre
la dispersin existente entre ambos valores extremos.
29

Medidas de dispersin
El rango depende slo de las observaciones
mxima y mnima, que podran ser observaciones
atpicas.
Podramos mejorar nuestra descripcin de la
dispersin fijndonos, por ejemplo, tambin en la
dispersin del 50% de los valores centrales de
nuestros datos.
Un conjunto de estadsticos de utilidad son los
cuartiles de una distribucin.
30

Cuartiles
Para calcular los cuartiles de una distribucin debemos:
1. Ordenar las observaciones en orden creciente y localizar la
mediana.
2. El primer cuartil Q1 es la mediana de las observaciones
situadas a la izquierda de la mediana de la distribucin.
3. El tercer cuartil Q3 es la mediana de las observaciones
situadas a la derecha de la mediana de la distribucin.

31

Cuartiles
Los cuartiles son medidas de tendencia no central de una
distribucin.
Dividen los datos ordenados en 4 cuartos iguales:
25%

25%
Q1

25%
Q2

25%
Q3

El segundo cuartil de una distribucin es su mediana.


32

Percentiles
Los percentiles son otro conjunto de medidas de tendencia no
central de una distribucin.
Dividen los datos ordenados en 100 partes iguales.
El percentil 25 es el primer cuartil ...
Ejemplo
Supongamos que el 78% de los resultados de la PSU es menor o igual a 600
puntos. Entonces, 600 es el percentil 78 de la distribucin.

78% de todos los resultados

200

22%

600

800

33

Percentiles
Percentiles frecuentemente utilizados
Primer decil = percentil 10
Primer cuartil, Q1,
= percentil 25
Segundo cuartil,Q2, = percentil 50
Tercer cuartil, Q3,
= percentil 75
Noveno decil = percentil 90

Ejemplo
Encontrar los cuartiles del siguiente conjunto de datos:
7, 8, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8

34

Percentiles
Solucin
Primero, ordenar las observaciones

2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30


Primer cuartil

15 observaciones

Como mximo, (.25)(15) = 3.75


observaciones deberan aparecer por
debajo del primer cuartil.

Como mximo, (.75)(15)=11.25


observaciones deberan aparecer por
encima del primer cuartil.

Si el numero de observaciones es par,


los resultados se encuentran entre dos observaciones.
En ese caso, hay que elegir el punto medio entre ambas observaciones.

35

Diagrama de caja
Los cinco nmeros resmen de una distribucin
son representados grficamente por un diagrama
de caja.
L - Observacin mxima
Q3 - Tercer cuartil
Q2 - Mediana
Q1 - Primer cuartil
S - Observacin mnima

36

Diagrama de caja
Los lados inferior y superior de la caja van del
primer al tercer cuartil. Por tanto, la altura de la
caja es la amplitud del 50% de los datos centrales.
El segmento del interior de la caja indica la
mediana. Los extremos de los segmentos
perpendiculares a los lados superior e inferior
indican, respectivamente, los valores mximo y
mnimo de la distribucin.
S

Q1

Q2

Q3

37

Diagrama de caja

38

Una medida de dispersin: La varianza


La varianza s2 de un conjunto de observaciones es el
promedio de los cuadrados de la desviaciones de las
observaciones respecto a su media. Formalmente:

( x1 x ) ( x 2 x ) ... ( x n x )
s
n 1
2

De forma compacta:

1
2
s
(x i x)

n 1
2

39

La varianza

9 10 = -1
11 10 = +1
8 10 = -2
12 10 = +2
Suma = 0

Considere dos poblaciones:


Poblacin A: 8, 9, 10, 11, 12
Poblacin B: 4, 7, 10, 13, 16
Comencemos calculando la suma de las desviaciones
La media de ambas poblaciones es 10...

A
8

9 10 11 12

En ambos casos, la suma


de las desviaciones es
Cero (lo cual es siempre
Cierto). Por lo tanto, usamos
la suma de los cuadrados.

pero en B los datos estn mucho mas dispersos que en A

B
4

10

13

16

4 -10 = - 6
16 -10 = +6
7- 10 = -3
13 -10 = +3
Suma = 0

40

La varianza
Calculemos la suma de las desviaciones al cuadrado para ambas
poblaciones:
2
2
2
2
2
(
8

10
)

(
9

10
)

(
10

10
)

(
11

10
)

(
12

10
)
2A
2
5
2
2
2
2
2
(
4

10
)

(
7

10
)

(
10

10
)

(
13

10
)

(
16

10
)
B2
18
5
Por qu la varianza esta definida
como un promedio de desviaciones
al cuadrado y no como su simple suma?

La suma de las desviaciones al


cuadrado aumentan
cuando la dispersin de aumenta!!

41

La varianza
Calculemos la suma de las desviaciones cuadradas para ambas
poblaciones
B es mas dispersa alrededor
de su media que A. Sin embargo,
la suma no muestra eso.
Es por ello que se usa el promedio

B
1

2 3

SumaA = (1-2)2 ++(1-2)2 +(3-2)2 + +(3-2)2= 10


5 veces

SumaB = (1-3)2 + (5-3)2 = 8

5
A2 = SumA/N = 10/5 = 2

5 veces

B2 = SumB/N = 8/2 = 4

42

Una medida de dispersin:


La desviacin standard
La desviacin tpica es la raz cuadrada positiva de la varianza s 2:

Ejemplo:

1
2
s
(
x

x
)

i
n 1

Tasas de retorno de dos fondos de inversiones durante 10 aos


Cual de los dos es ms riesgoso?
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6
Desvo standard: 16.74
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75
Desvo standard: 9.97
El fondo A es mas riesgoso dado que su desvo standard es mayor.

43

Grados de libertad
Por qu calculamos la varianza dividiendo por n - 1, en
lugar de dividir por n?
Como la suma de las desviaciones es 0, la ltima
desviacin es una combinacin lineal de las n - 1
desviaciones restantes.
Por lo tanto, no estamos calculando el promedio de n
nmeros independientes (los desvos). Solo n -1 de las
desviaciones al cuadrado pueden variar libremente y por
ello, promediamos la suma de los desvos al cuadrado
dividiendo por n -1.
Al numero n -1 se lo denomina grados de libertad de la
varianza o de la desviacin tpica.
44

Propiedades del desvo standard


s mide la dispersin respecto a la media. Debe emplearse
solo cuando se escoge la media como medida central de
la distribucin.
s = 0 solo ocurre cuando no hay dispersin: todas las
observaciones toman el mismo valor. De lo contrario s >
0.
Cuanto ms dispersin hay entre las observaciones,
mayor es s.
s, al igual que la media, se encuentra fuertemente
influenciado por las observaciones extremas.
45

Descripcin de una distribucin


asimtrica
Una distribucin asimtrica con unas pocas observaciones en
la cola larga de la distribucin tendr un desvo standard
grande. En tal caso, s no proporciona informacin til sobre
la dispersin de la distribucin.
Como en una distribucin muy asimtrica la dispersin de
cada una de las colas es muy distinta, es imposible describir
bien la dispersin con un solo nmero.
Los cinco nmeros resmen proporcionan mejor informacin
sobre la dispersin de la distribucin.
Es preferible utilizar los cinco nmeros resmen en lugar de
la media y el desvo standard para describir una distribucin
asimtrica

46

Coeficiente de variacin
El coeficiente de variacin es una medida de dispersin
relativa.
Muestra la dispersin de una distribucin en relacin a su
media.
Se utiliza para comparar distintas distribuciones.
Su frmula es:

CV

Por ejemplo, un desvio standard de 10, puede ser grande si


la media es 100, pero no lo es si la media es 500.
47

Curva de densidad
Una curva de densidad describe el aspecto general de
una distribucin.
El rea por debajo de la curva, entre cualquier
intervalo de valores, es la proporcin de todas las
observaciones que estn situadas en dicho intervalo.
El rea total bajo una curva de densidad es 1.
48

Distribuciones normales
Todas las distribuciones normales tienen la misma forma
general.
La curva de densidad de una distribucin normal se
describe por su media y su desvo standard .
La media se sita en el centro de la curva simtrica, en el
mismo lugar que la mediana.
Si se cambia sin cambiar se provoca un
desplazamiento de la curva de densidad a lo largo del eje
de las abscisas sin que cambie su dispersin.
La desviacin tpica controla la dispersin de la curva
normal.
49

Distribuciones normales
La curva con mayor desvo standard es la curva que presenta mayor
dispersin.
La desviacin tpica es la medida natural de la dispersin de una
distribucin normal. La forma de una curva normal no solo queda
completamente determinada por y , sino que adems es posible
situar a simple vista en la curva.
Cuando nos alejamos de , en cualquier direccin, la curva pasa de
descender rpidamente a descender suavemente.
Estos puntos de inflexin estn situados a una distancia de .

50

Distribuciones normales

En una distribucin normal:


El 68 % de las observaciones se encuentra entre .
El 95 % de las observaciones se encuentra entre 2 .
El 99.7 % de las observaciones se encuentra entre 3 .
68% de los datos

95% de los datos


99.7% de los datos

51

Distribucin normal estandarizada


Si x es una observacin de una distribucin de media y
de desvo standard , el valor estandarizado de x es:

La distribucin normal estandarizada es la distribucin


normal N(0,1): su media es 0 y su desvo standard es 1.
Si una variable x tiene una distribucin normal N(,),
entonces z posee una distribucin normal estandarizada.
52

Coeficiente de asimetra
El coeficiente de asimetra es una medida de asimetra de
una distribucin.
Su frmula es:
3
n
n
xi x
CA

(n 1)(n 2) i 1

Si es positivo, la curva presenta asimetra hacia la derecha.


Si es negativo, la curva presenta asimetra hacia la
izquierda.
Si es cero, la distribucin es simtrica.
53

Concentracin: Kurtosis
La kurtosis es una medida de la concentracin de la distribucin
en torno a su media.
Su frmula es:
4

n(n 1)
xi x
3(n 1)
K

(n 1)(n 2)(n 3) i 1
(n 2)(n 3)
n

Si K es positiva, la distribucin tiene una concentracin superior


a la de una curva normal. Si es negativa, ocurre lo contrario.

54

Medidas de asociacin: Covarianza


Covarianza poblacional COV(X, Y)

(x i x )( yi y )
N

x ( y) es la media poblacional de la variable X (Y)


N es el tamao de la poblacin. n es el tamao de la muestra.

(x i x)(yi y)
Covarianza muestral cov(X, Y)
n -1
55

Medidas de asociacin:
Correlacin
Coeficiente de correlacion poblacional Coeficiente de correlacion muestral
cov( X , Y )
COV ( X , Y )

r
x y
sx s y

Este coeficiente responde a la pregunta:


Cun fuerte es la asociacin (lineal) entre X e Y?

56

Coeficiente de Correlacin

o r =

+1 Correlacin lineal positiva fuerte


El valor se encuentra cerca de 1

COV(X,Y)>0

No hay correlacin lineal


Coeficiente cercano a cero

COV(X,Y)=0

-1

Correlacin lineal negativa fuerte


El valor se encuentra cerca de -1

COV(X,Y)<0

57

Medidas de asociacin
Ejemplo
Busque la covarianza y el coeficiente de correlacin
para medir como los gastos de marketing y los niveles
de ventas se relacionan.
Marketing
1
3
5
4
2
5
3
2

Ventas
30
40
40
50
35
50
35
25

60

Ventas
n es
e
,
e
t
n
ame
Intuitiv

50
40

n
i
s
r
e
p
e dis
d
o
c
i
f
e gr a

star
e
n
e
rec
a
p
s
adas
e
l
n
b
o
i
a
i
c
r
a
la
Las v mente re
va
Gastos de marketing
positi

30
20
10
0
0

58

A continuacin calculamos cov() y r:


cov(X , Y )

xy

x2

y2

1
2
3
4
5
6
7
8

1
3
5
4
2
5
3
2

30
40
40
50
35
50
35
25

30
120
200
200
70
250
105
50

1
9
25
16
4
25
9
4

900
1600
1600
2500
1225
2500
1225
625

Suma

25

305 1025

93

Mes

ni1 ( x i x )( y i y )

n 1
1 n
ni1 x i ni1 y i
i1 x i y i

n 1
n

1
25 305
1025
10.268

8
12175 7

2
n
2

x
23
2
2
i1
xi
93
sx
1.554
n 1
n 7
8

s x 1.554 1.458
De igual forma, sy = 8.839

cov( X , Y )
10.268

.797
sx sy
1.458 8.839
59

Medidas de asociacin
Interpretacin
La covarianza (10.2679) indica que los gastos de
marketing y los niveles de ventas estn positivamente
relacionados
El coeficiente de correlacin (.797) indica que hay una
relacin lineal positiva fuerte entre los gastos de
marketing y los niveles de ventas.

60

Tablas de Contingencia y Medidas


de Asociacin
El objetivo de la tabulacin cruzada es identificar la
relacin que existe entre dos variables. Con los
datos de una muestra podemos observar si existe
alguna relacin entre dos variables y la pregunta que
surge naturalmente es si esta relacin es verdadera
o es el resultado del error muestral.
Las tablas de contingencia son tabulaciones
cruzadas entre dos variables X e Y con r y c
categoras respectivamente. Es decir que la tabla de
contingencia entre X e Y tendr r filas y c
columnas.

61

Tablas de Contingencia y Medidas


de Asociacin
Para responder a esta pregunta, se utiliza un test de
hiptesis conocido como el test Chi-cuadrado de
Pearson. La hiptesis nula del test es que las dos
variables analizadas son independientes. La hiptesis
alternativa es que las variables no son independientes,
es decir que existe una relacin entre las dos variables.
Ilustremos el test utilizando un ejemplo. La siguiente
tabla de contingencia muestra la tabulacin cruzada de
la variable ingreso anual (dividido en tres categoras) y
la ltima marca de coche comprada (dividida en tres
marcas).

62

Tablas de Contingencia y Medidas


de Asociacin
Marca del ltimo auto comprado
Ford
Toyota
Renault

Total

Ingreso anual
Menos de 20,000
20,000 - 40,000
ms de 40,000

50
200
100

200
100
25

125
350
50

375
650
175

Total

350

325

525

1200

63

Tablas de Contingencia y Medidas


de Asociacin
Las entradas de la tabla representan el nmero de
personas en la muestra con cada combinacin de
ingreso y marca de auto. Por ejemplo, 50 personas
que ganan menos de 20,000 $ compraron un auto
marca Ford.
El test Chi-cuadrado de Pearson se basa en
encontrar cual hubiera sido el valor de cada
entrada si las variables fueran independientes. Es
decir el valor esperado de cada celda de la tabla si
las variables ingreso y marca son independientes.
64

Tablas de Contingencia y Medidas


de Asociacin
Si ingreso y marca son independientes, la probabilidad
del evento conjunto "A1: ganar menos de 20,000$" y
"B1: comprar marca Ford" es el producto de esas dos
probabilidades:

Pr(A1 y B1) = Pr(A1)*Pr(B1)

Pr(A1) = A1/A = 375/1200,


Pr(B1) = B1/B = 350/1200
Donde A y B son las frecuencias totales de los eventos.

65

Tablas de Contingencia y Medidas


de Asociacin
Por lo tanto:
Pr(A1 y B1) = Pr(A1)*Pr(B1) = 375*350/(1200*1200)
= 0.091
El nmero esperado en la entrada A1B1 es entonces:
N* Pr(A1 y B1) = 1200*0.091 = 109.38
66

Tablas de Contingencia y Medidas


de Asociacin
En general la frmula del valor esperado es:
Eij = (NAi*NBj)/N.
Eij = nmero esperado
NAi= nmero de elementos en la categora A i
NBi= nmero de elementos en la categora B i

Para A1B1 el nmero esperado es:


E11 = (375*350)/1200 = 109.38

67

Tablas de Contingencia y Medidas


de Asociacin
Este proceso se puede repetir para cada una de las
entradas de la tabla. Una vez hecho esto el estadstico
Chi-cuadrado se calcula con la siguiente frmula:
r c

Oij E ij 2

r = nmero de categoras
E ij en las filas
i 1 jde
1 la variable
c = nmero de categoras de la variable en las columnas
Oij = nmero observado en entrada ij
Eij = nmero esperado en la entrada ij

Este estadstico Chi-cuadrado tiene (r-1)*(c-1) grados


de libertad.

68

Tablas de Contingencia y Medidas


de Asociacin
En nuestro ejemplo hay (3-1)*(3-1) = 4 grados de
libertad. Realizando todas las cuentas con la tabla
del ejemplo, el estadstico da 252.2.
Comparando este nmero con el valor crtico de la
distribucin Chi-cuadrado con 4 grados de libertad
a un nivel de significatividad del 5% el valor crtico
correspondiente es 9.49.
Como 252.2 > 9.49 se rechaza la hiptesis nula. Es
decir, las variables no son independientes.

69

Tablas de Contingencia y Medidas


de Asociacin
El estadstico de Pearson nos dice si dos variables
son independientes una de otra pero no nos dice
nada acerca de la naturaleza de la relacin.
Cuando analizamos variables dicotmicas (adoptan
solo los valores 0, 1) el estadstico de Pearson
puede ser poco preciso. En esos casos se suelen
utilizar otras medidas de asociacin.

70

Medidas de Asociacin para


Tablas de 2x2
El Coeficiente Phi ()
Es una medida del grado de asociacin entre dos
variables dicotmicas basada en el estadstico Chicuadrado de Pearson.
Este coeficiente toma valores en el intervalo cerouno. Valores prximos a cero indican poca asociacin
entre las variables y valores cercanos a uno indican
una fuerte asociacin.
El coeficiente puede ser calculado como el
coeficiente de correlacin entre dos variables
dicotmicas.

71

Medidas de Asociacin para


Tablas de 2x2
Alternativamente, puede ser calculado utilizando el
estadstico Chi-cuadrado de Pearson con la
siguiente frmula:
= (2/N)1/2
donde N es el nmero de datos.

72

Medidas de Asociacin para


Tablas de 2x2
Riesgo Relativo
El riesgo relativo es una medida del grado de
asociacin entre dos variables dicotmicas, que
compara el producto de las frecuencias en la
diagonal principal de la tabla con el producto de las
frecuencias en la diagonal opuesta mediante el
cociente entre ambos. En consecuencia toma
valores positivos y, si las variables son
independientes, su valor ser prximo a uno.

73

Medidas de Asociacin para Tablas


Mayores a 2x2
El coeficiente de contingencia
El coeficiente de contingencia es una extensin del
coeficiente al caso de que al menos una de las
variables presente ms de dos categoras. Toma
valores entre 0 y Cmax, donde si r y c son el nmero
de categoras de cada una de las variables:
Cmax = [min(r-1,c-1)/(1+ min(r-1,c-1))]1/2
74

Medidas de Asociacin para Tablas


Mayores a 2x2
Valores del coeficiente de Contingencia cercanos a
0 indican que no hay asociacin entre las variables
y valores prximos a Cmax indican una fuerte
asociacin (note que Cmax es un nmero que siempre
ser menor a uno).

75

Medidas de Asociacin para Tablas


Mayores a 2x2
La V de Cramer
Otra extensin del coeficiente al caso de variables con
ms de dos categoras es la V de Cramer que, a diferencia
del coeficiente de contingencia toma valores entre 0 y 1.
Valores de V cercanos a 0 indican que no hay asociacin
entre las variables y valores cercanos a 1 indican una
fuerte asociacin.

V = (2/(r c)*N)1/2

76