Está en la página 1de 56

Nada en esta maravillosa vida es 100% seguro.

En
todo lo que hacemos, siempre estamos estimando los
chances de resultados exitosos: en los negocios, en la
medicina, en el clima y principalmente en los juegos
de azar.
As el estudio de las leyes formales de lo aleatorio es
la Probabilidad
Estadstica es la ciencia,
pura y aplicada, de creacin,
desarrollo y de aplicacin de
tcnicas tales que la
incertidumbre de la
inferencia inductiva pueda
ser evaluada
Tomar decisiones es una gran
responsabilidad.
responsabilidad

Para tomar decisiones se requiere


INFORMACIN disponible,
disponible
esperanzadamente confiable y til.
til

Generalmente se necesita una porcin


de la base de datos o muestra para
revelar un patrn lgico o realizar un
anlisis estadstico.
Estadstica

Poblacin Muestra

Probabilidad
Objetivo de la Estadstica Descriptiva

Conocer la informacin que se tiene


para poder identificar e interpretar
aspectos relevantes de una muestra.
Utilizar esta informacin para obtener
resultados, planear o hacer inferencia
acerca de la poblacin bajo estudio.
estudio
Los datos son la materia prima del estadstico. Usa
los nmeros para interpretar la realidad.
Todos los problemas estadsticos involucran o la
recolecta, la descripcin y el anlisis de los datos, o
pensar cmo recolectar, describir y hacer el anlisis
de los datos.

7 8 2
3 5 12
3

7
4
3 9
9
5 17 5
7 6

0 38 05 3 8
2

1 5 7
4 89 4
0
5 6
8

4
3

6
2
3
Poblacin
In
fe
re
nc
in
ia
pc
cr i
es
D

Muestra

Transformacin Anlisis
Sumarizacin Estimacin
Ilustracin Hiptesis
Tengo un 98% de probabilidad
de hacer algo que tenga sentido
con estos nmeros.

7 8 2
3 5 12
3

7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2

1
89 7
5
4 4

0
6
5
8

4 6
3
2
3
El conjunto de datos que describen un
fenmeno (nuestro objetivo) constituyen lo
que se llama Poblacin

Una Muestra es un subconjunto de la


poblacin sobre la cual vamos a realizar
las medidas sobre una o mas
caractersticas de inters
muestreo ...

Por qu muestreamos?

- Poblaciones muy grandes


- Respuesta rpida
- Destruccin de la muestra
muestreo ...

Una caracterstica importante de una


muestra es que sea Representativa
de la poblacin de inters.

Cualquiera que sea nuestro objetivo:


describir a la poblacin, analizar o
pronosticar el comportamiento de la
poblacin, la muestra, al ser
representativa, ser Confiable
- Cada unidad tiene la misma
oportunidad de ser elegida
Muestreo Aleatorio
- La seleccin de una unidad
no tiene influencia sobre la
eleccin de otra unidad

muestreo ...
muestreo ...

Muestreo Estratificado

- Divide a la poblacin en
grupos homogneos Muestreo por
Conglomerado
- Se extrae una muestra
aleatoria simple de cada
grupo o estrato - Divide a la poblacin en
grupos
-Se extrae una muestra
aleatoria simple de los grupos
-Se muestrean todos los
elementos del grupo
seleccionado
muestreo ...

Muestreo Sistemtico

- Se elige aleatoriamente a
una unidad
- A partir de sta se selecciona
cada k-sima unidad que se
encuentra despus de la
elegida

Muestreo
Oportunista

-Se muestrean los n primeros


elementos que se presentan
Un parmetro es una medida numrica de
un aspecto de la poblacin
Una estadstica es una medida numrica de
~
un aspecto de la muestra X, S, n, X
Una estadstica consiste de un conjunto de
mediciones de dicha caracterstica que vara
de una observacin (unidad experimental)
experimental a
otra, y a estas mediciones las llamaremos
variable
No todas las variables son numricas
entonces podemos clasificarlas de acuerdo a
su tipo en:

Cualitativas:
Cualitativas Son variables que denotan una
cualidad o atributo y solo pueden ser
clasificadas en categoras o clases
mutuamente excluyentes y exhaustivas

Cuantitativas:
Cuantitativas Son aquellas variables que se
obtuvieron de un proceso de conteo
(discretas) o medicin (contnuas)
Clasificacin de las variables
Cualitativas de acuerdo a su escala de
medicin:

Nominal:
Nominal Son clasificadas en categoras, sin
importar el orden. No tiene sentido hacer
operaciones aritmticas con ellas (gnero, grupo
sanguneo, Fuma (si/no))
Ordinal:
Ordinal Las categoras se pueden arreglar en
orden, pero las distancias entre las clases no son
iguales (intensidad del dolor, escolaridad, nivel
socioeconmico)
Clasificacin de las variables
Cuantitativas de acuerdo a su escala de
medicin:

Intervalo:
Intervalo Son medidas en las que las distancias
entre los valores es significativa pero no existe un
cero absoluto (el cero no es ausencia de atributo) . No
tiene sentido hacer cociente o producto (temperatura,
usos horarios)
Razn:
Razn Las proporciones y razones tienen sentido
al determinar cunto mas tiene una unidad que otra de
alguna caracterstica. (peso, ingreso, rendimiento)
El anlisis de cada variable se hace de
acuerdo a su escala de medicin

Podemos
hacer
diagramas,
tablas y
resmenes
numricos
de los datos
recopilados
Cmo presentar los datos?

La frecuencia absoluta f i para una clase


particular es el nmero de observaciones
que caen en cada clase.

La frecuencia relativa o porcentaje para


una clase particular es su frecuencia
absoluta entre el nmero total de
observaciones
fi
pi
n
Esta frecuencia ayuda a sumarizar en forma
ordenada la informacin contenida en la
muestra tanto en tablas como en grficas.

Histograma
gnero frecuencia porcentaje 0.75
0 19 0.63 0.50

Frecuencia
1 11 0.37 0.25
Total 30 1 0.00
M F
Gnero
tabla de distribucin de
frecuencias
diagrama de barras
Si las variables son cuantitativas discretas las
tablas de frecuencias se realizan con la creacin
de diferentes clases en base a los datos que
toma la variable.

edad frecuenci a porcentaje


Histograma de Frecuencias para Edad
38 3 0.10
39 3 0.10
40 6 0.20 7
41 1 0.03 6
42 3 0.10 5
4

Frecuencia
43 2 0.07
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03 Edad
Total 30 1.00
Si las variables son cuantitativas continuas
las tablas de frecuencias se realizan con la
creacin de intervalos numricos que formarn
las diferentes clases.

tie m p o fr e c u e n c ia p o r c e n ta je
H is t o gHistograma
ra m a
9331- 9931 1 0 .0 3
9 9 3 1 -1 0 5 3 1 1 0 .0 3 0.30
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0 .2 5
0 .2 0

Frecuencia
0.20
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0
0 .1 5
F r e c u e n c ia

1 1 7 3 1 -1 2 3 3 1 5 0 .1 7 0 .1 0 0.10
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0 .0 5 0.00
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 .0 0 9631 10231 10831 11431 12031 12631 13231 13831
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 Tiem po

T o ta l 30 1 .0 0
1

31

31

31

31

31

31
93

53

11

17

23

29

35

41
-9

-1 0

1 -1

1 -1

1 -1
1 -1

1 -1

1 -1
31

31

53

13

73

33

93

53
93

99

10

11

11

12

12

13
T ie m p o
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas qu
uso tienen?
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
9631 1 0.03 3 0 .0 3 3 a) 0.167
H is t o g r a m a

10231 1 0.03 3 0 .0 6 7
10831 3 0.10 0 0 .1 6 7
11431 6 0.20 0 0 .3 6 7
c) 46.7%

F r e c u e n c ia
12031 5 0.16 7 0 .5 3 3
12631 5 0.16 7 0 .7 0 0 e) 12,031 seg
13231 6 0.20 0 0 .9 0 0
13831 3 0.10 0 1 .0 0 0
T o ta l 30 1 .0 0
9631 10231 10831 11431 12031 12631 132

a) qu frecuencia de individuos tuvieron un tiempo menor T ieam p o


11,431 seg?
b) qu porcentaje de individuos tuvieron un tiempo mayor o igual
a 12,631 seg?
c) qu tiempo mximo es el que al menos el 50% de las personas
tuvieron?
Otros diagramas de utilidad:

3 38 0 0 0 -se usa con pocos valores


6 39 0 0 0
12 40 0 0 0 0 0 0
13 41 0 -los datos estn ordenados
(3) 42 0 0 0
14 43 0 0 -encontramos fcilmente
12 44 0 0 0 0 mnimo y mximo
8 45 0 0 0
5 46 0 0 0 0 -encontramos fcilmente los
1 47 porcentiles
1 48
1 49 0
-da una visin grfica de la
distribucin de los datos
diagrama de tallo y hojas
para la variable edad 38|0
= 38.0
:
. . : . : . :
: : : . : : : : : .
+---------+---------+---------+---------+---------+-------Edad
38.0 40.0 42.0 44.0 46.0 48.0

Diagrama de puntos. til para cuando tenemos


pocos datos discretos

Polgono de Frecuencias Ojiva

Polgono de Frecuencia Ojiva

8 1.00

6 0.75

Porcentaje Acumulado
Frecuencia

4 0.50

2 0.25

0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000

Tiempo Tiempo
Mtodos Numricos
(vlidos solo para datos cuantitativos)

Si pudiramos escoger entre dos nmeros que nos


ayuden a construir una imagen mental burda de la
distribucin de un bonche de datos Cules
escogeramos?

-un nmero que est


localizado cerca del centro
de la distribucin 9
3 9
3
91 3 39 1 3 3 3 9
4
15 9
9 9 33 3 2 1 5 3
4 4
951 10 3 73195 51 3 8 9
4
1 8

7
7 5 21 5 8 73 2 512 5 5 8
4
0 8
-un nmero que mida la
0 9 3
4 4
31 5 58 1 0 7 71 5 5

7
3 10 10 85 838 30 0 7 5523 2 8 8

7
8 7 2 52 5
5 4

7
1 9 3 1 31 85 373588
0 4 8

7
07 3 2
5

7
6
83 2 4 82
5

dispersin de la

0
1 3 18 0 997 5 8 3 430 4 3 3

6 06
5 5
4 7 5

7
6
1 7 8 4

6
9 4 2

0
3
5

6
48 9 1 5 3 18 97 97 5 8 3 4 3 08
8 2

06
7
5

0
4 04

6 06
3
4 8 9 7 5
5

6
5 8 9 8 4 0

8 2

23

07
6
3
distribucin
8

7
7 448 9 5 5 658 977 8 3 2 5 4
8 2

6
72

7
63

0
3
4 53 4 0

2
3
2
7 54 6 48 9 7 2

8 2

263

7
3
5 6 7

37
7 4 3 2 5

72
2
6 6

6
3
5
4 654

2
3
2
7 7 3 2

2
6

6
3
4

2
6
Medidas de Tendencia Central
Son nmeros que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polgono de Frecuencia
8

6
Frecuencia

0
9000 10000 11000 12000 13000 14000

Tiempo

Medidas de Dispersin
Son nmeros que indican qu tan separados estn los
datos entre si: rango, desviacin estndar, rango
intercuartil
Medidas de tendencia central
media X 1
n
n
i 1
xi

en el caso en que los datos estn agrupados:

fi
X a i 1 mi
k

ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
H is t o g r a m a
9631 1 0 .0 3 0 .0 3 X a 9631(0.03) 10231(0.03)
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7 10831( 0.10) 13831( 0.10)
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3 F r e c u e n c ia
12,187
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1
9631 10231 10831 11431 12031 12631 13231
T ie m p o
medidas de tendencia central ...

mediana
n 1 y se observa
se localiza el valor central l X
~
el valor que toma 2

3 38 0 0 0
6 39 0 0 0
12 40 0 0 0 0 0 0
30 1
13
(3)
41
42
0
0 0 0 l X
~ 15.5
14 43 0 0 2
12 44 0 0 0 0
8 45 0 0 0
el valor que toma la
5 46 0 0 0 0 variable es 42.0 aos
1 47
1 48
1 49 0
medidas de tendencia central ...

para datos agrupados se estima como

X~ a A 0.5pmPm1 B A

donde A y B son los lmites inferior y superior de la clase que


contiene a la mediana, Pm-1 es la frecuencia acumulada hasta la
clase anterior a la que contien la mediana y pm es la frecuencia
relativa de la clase que contiene a la mediana
ti e m p o fr e c . p o rc . F rec A cu m
9331- 9931 1 0 .0 3 3 0 .0 3 3 ~ H is t o g r a m a
X a 11731 0.50.1670.367
600
9 9 3 1 -1 0 5 3 1 1 0 .0 3 3 0 .0 6 7
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0 0 .1 6 7 0 .2 5 0

F re c u e n c ia
0 .2 0 0
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0 0 .3 6 7
0 .1 5 0
1 1 7 3 1 -1 2 3 3 1 5 0 .1 6 7 0 .5 3 3 0 .1 0 0
1 2 3 3 1 -1 2 9 3 1 5 0 .1 6 7 0 .7 0 0 0 .0 5 0
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 0 .9 0 0 0 .0 0 0
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 0 1 .0 0 0

1
31

1
1

13

73

33

93

53
93

05
T o ta l 30 1

11

11

12

12

13
-9

-1

1-

1-

1-

1-

1-
31

31

53

33
13

73

93
93

99

5
10

11

11

12

12

13
T ie m p o
medidas de tendencia central ...

moda
es el valor con la frecuencia mas alta.
La distribucin puede ser unimodar, multimodal

cuando los datos estn agrupados


podemos hablar de una clase modal o
estimar la moda:
Mo A d1
d1 d 2 B A
donde A y B son los lmites inferior y superior
de la clase modal, d1= fmo fmo-1 y d2= fmo fmo+1
Medidas de Dispersin
rango se define como la diferencia entre el valor
mximo y el mnimo:
Rango = max - min
Es una medida sensible a valores extremos y no es muy
informativa ya que es insensible a datos intermedios

amplitud intercuartlica es la distancia entre


el porcentil 75 y el porcentil 25:
AI = P75 - P25

Nos da una idea de la distancia entre los valores que


determinan el 50% de los datos centrales
medidas de dispersin...

Varianza es una variacin promedio alrededor de


la media, definida como
X n
i X
2

S2 i 1

n 1
un problema de la varianza es que tiene las unidades al
cuadrado y su interpretacin no es fcil, por lo que usamos
su raiz: desviacin estndar
X X 2
n
i
S i 1

n 1
es sensible a valores extremos.
Si los datos estn agrupados en k intervalos, la varianza se
estima como:

fi mi X a
k 2

S 2
i 1 para nuestro ejemplo qu valor toma S a2 ?
a
n 1
medidas de dispersin...

Hay algunas formas de poner juntos a la desviacin


estndar y a la media muestrales

Coeficiente de Variacin: es una medida de


variacin relativa y expresa la desviacin estndar
como un porcentaje de la media aritmtica. Se
obtiene como
S
CV x100
X
por su falta de dimensiones es muy til para
comparar variacin entre diferentes poblaciones,
que a simple vista seran difciles de comparar.
medidas de dispersin...
Creacin de Intervalos:
Intervalos
con S y X se pueden formar intervalos de la forma
X kS y obtener el nmero de
observaciones que caen dentro de ese intervalo.
Si nuestra distribucin muestral tiene una forma mas o menos
simtrica y acampanada podemos usar la regla emprica:
alrededor del 69% de las observaciones cae dentro de una
desviacin estndar de la media
alrededor del 95% de las observaciones cae dentro de dos
desviaciones estndar de la media
alrededor del 97.7% de las observaciones cae dentro de tres
desviaciones estndar de la media
Monxido de Carbono en 25

el humo de los cigarros 20

15

Frecuencia
Intervalos 10
alrededor 5
de la media
0
1 3 5 7 9 11 13 15 17 19 21
n = 372 s s
X = 11.66 2s 2s
s = 4.089 3s 3s
X

X s (7.57 , 15.75) 264 obs. 70.96%

X 2s (3.48 , 19.84) 353 obs. 94.89%

X 3s (-0.61 , 23.93) 372 obs. 100.00%


medidas de dispersin...
Medidas de Posicin Relativa
Son medidas descriptivas que localizan la
posicin de una medicin en relacin a otras
mediciones.
Una medida que expresa esta posicin en
trminos de un porcentaje es llamado
porcentil

El porcentil de orden (P ) es el valor de la


variable por debajo del cual se encuentra una
frecuencia acumulada .
medidas de posicin relativa...

El porcetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones

El porcetil 70, es decir,


P70 = 0.525 deja a su
izquierda el 70% de las
observaciones
medidas de posicin relativa...

El diagrama de tallo y hojas, nos ayuda a


localizarlos rpidamente
3 38 0 0 0 -los datos se ordenan de menor a
6 39 0 0 0 mayor
12 40 0 0 0 0 0 0
-se encuentra la localizacin de los
13 41 0
(3) 42 0 0 0 porcentiles:
14 43 0 0
l ( P ) (n )
12 44 0 0 0 0 100
8 45 0 0 0
5 46 0 0 0 0 -se lee el valor de dicha observacin
1 47
-si la localizacin es fraccionaria se
1 48
1 49 0
toma el promedio del valor en la
localizacin anterior y posterior
los porcentiles no
necesariamente son
nmeros observados
medidas de posicin relativa...

l(Q1) = (25/100)31 = 7.75


1 9 6
3 10 2 3 Q1 = P25 = 11.05
6 10 6 7 9
11 11 0 1 3 3 3 l(Q3) = (75/100)31 = 23.25
(5) 11 7 7 8 8 8
14 12 0 0 1 2 3 Q3 = P75 = 12.65
9 12 6 6 9 9
5 13 0 2 3 3 4 l(Q2) = (50/100)31 = 15.5
Q2 = P50 = 11.8

Los cuartiles Q1 y Q3 son muy tiles para


construir lo que llamamos diagrama de
caja y brazos.
Diagrama de Caja y Brazos
Nos permite ver la distribucin de los datos, el
mximo, el mnimo, la localizacin de los
Cuartiles, y la dispersin por cuartiles. Nos
permitir ver si existe un sesgo as como
puntos extremos.

25000

20000
Tiempo

15000

10000
Anlisis Exploratorio de Datos

Para hacer estadstica diferente a la descriptiva,


podemos usar todas las tcnicas hasta ahora
aprendidas y hacer algn anlisis comparativo o
asociativo.

El problema de comparacin consiste en


contrastar las distribuciones de frecuencia de
una variable de inters para dos o mas
subpoblaciones basndose en los datos de la
muestra.
En el problema de comparacin surgen
algunas preguntas:

Hay alguna diferencia en las distribuciones


poblacionales?
Cul es la naturaleza de esas diferencias?
Qu tan grandes son esas diferencias?

El anlisis exploratorio nos ayudar a darnos una


idea de las respuestas a estas preguntas
comparacin...

La comparacin de las distribuciones de


frecuencia entre subpoblaciones cuando la
variable de inters es cualitativa se hace con
una tabla de contingencias o tabulacin
cruzada
Hbitos de tabaquismo

Nunca ha Dej de Fuma


Gnero Total
fumado fumar actualmente
Masculino 154 25 185 364

Femenino 127 11 38 176

Total 281 36 223 540

las frecuencias pueden ser realtivas o absolutas y nos dan una idea de
qu tan frecuente se presentan simultneamente ambos atributos en
una poblacin
comparacin...

El objetivo de la comparacin es ver si una


caracterstica determinada vara relativo a
alguna subclase, por lo que se calculan las
frecuencias relativas condicionales fij / fi
pij / pi (de sta manera compensamos por
diferencias de tamaos) ...

Hbitos de tabaquismo (%)

Nunca ha Dej de Fuma


Gnero Total
fumado fumar actualmente
Masculino 28.5 4.6 34.3 67.4

Femenino 23.5 2.1 7.0 32.6

Total 52.0 6.7 41.3 100


comparacin...

... y calculamos las frecuencias relativas


condicionadas a gnero
Hbitos de tabaquismo condicionadas a gnero (%)

Nunca ha Dej de Fuma


Gnero Total
fumado fumar actualmente
Masculino 42.3 6.8 50.9 100

Femenino 72.1 6.5 21.5 100

Total 52.0 6.7 41.3 100

Hbito de Tabaquismo por Gnero

el hbito de
80.0

tabaquismo
60.0
Frecuencia

difiere si se es
40.0

hombre o
20.0

0.0
Nunca ha fumado Dej de fumar Fuma actualmente mujer?
Masculino Femenino
comparacin...

Si la variable a analizar es discreta se puede


tratar como si fuera cualitativa.

Edad en aos condicionada a gnero (%)


Gnero 39 40 41 42 Total
Masculino 10.53 21.05 42.11 26.32 100
Femenino 36.36 18.18 18.18 27.27 100
Total 20.00 20.00 33.33 26.67 100

Distribucin de Edad por Gnero


45.00 hay alguna
diferencia entre
30.00
gneros con
Masculino
15.00 Femenino respecto a la
0.00
edad?
39
40
41 42
comparacin...

En el caso de que la variable a analizar sea


contnua podemos estar interesados en
comparar tanto la localizacin como la
dispersin entre las distribuciones de
frecuencia de las subpoblaciones. Una
manera de hacerlo es por medio de un
diagrama esquemtico

Tiempos por Gnero


Quin tiene
30000
tiempos ms
altos?
Orden llegada

20000

quin tiene
10000
mayor
0 dispersin?
F M
Gnero
Muchas veces es importante saber si una
variable influye sobre el comportaminto de otra
variable. Con ello estudiamos el problema de
asociacin.
asociacin

Ambas Variables Ordinales


El uso de la tabla de contingencia y su
correspondiente diagrama de barras es de gran
utilidad para asociar variables cualitativas en
escala ordinal.
sta tabla se presenta con las frecuencias
relativas condicionadas a las clases de una de
las variables
Posicin respecto al horario de verano
Desacuerdo Indiferente Acuerdo Total
Bajo 23.90 49.02 27.07 100.00
Nivel
Medio 47.02 31.93 21.05 100.00
Socioeconmico
Alto 20.69 36.21 43.10 100.00

Posicin respecto al horario de verano

60.00
A mayor nivel
45.00
socioeconmico,
30.00 mayor aceptacin?
15.00

0.00
Bajo Medio Alto

Desacuerdo Indiferente Acuerdo

asociacin ...
asociacin ...

Una Variable Ordinal y otra Cuantitativa


Una manera de evidenciar la posible asociacin
entre las variables es a travs del diagrama
esquemtico.

ste diagrama nos da una idea de cmo


dependen la variable cuantitativa, no solo en
localizacin sino tambin en dispersin con
respecto al aumento o disminucin en escala de
la variable cualitativa ordinal.
asociacin ...
Grado Escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377 500
192 467
400

Habilidad de Lenguaje
297 388

300

200

Qu nos dice 100

este diagrama 0
Maternal Kinder I Kinder II
esquemtico?
asociacin...

Ambas Variables Cuantitativas


Para este caso el diagrama de dispersin es muy
usado para asociar variables cuantitativas.
Consiste en graficar parejas de valores ( xi , yi )
correapondientes a un solo individuo, sobre un
plano cartesiano.
Una medida de asociacin que complementa este
diagrama es el coeficiente de correlacin (medida
de relacin lineal entre las variables) obtenido
como

X X Yi Y /( n 1)
n
i 1 i S xy
r ( x, y )
i1 X i X /(n 1) i1 Yi Y /(n 1) SxS y
n 2 n 2
asociacin ...

100
80
90 70

80 60

50
70
40
60
30
50 20

40 10

0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

r = 0.99 r = - 0.7

100 330

90 280
80
230
70
60 180

50 130

40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200

r = 0.8 r = 0.1

Se puede decir que si r es cero, las variables son independientes?


asociacin ...
Edad versus Tiempo

75

60

45
Edad

30

15

0
0 10000 20000 30000 40000

Tiempo

Existe alguna relacin lineal


r = 0.130 entre el tiempo que tom
correr el maratn y la edad de
los participantes? Confirma
el valor de r esta relacin?

También podría gustarte