Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de Estadstica
Alfredo Sanchez
Alberca (asalber@ceu.es)
Copyleft
Licencia
Curso basico
de estadstica
Alfredo Sanchez
Alberca (asalber@gmail.com).
Esta obra esta bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 Espana de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/
licenses/byncsa/2.5/es/ o envie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.
Con esta licencia eres libre de:
Copiar, distribuir y mostrar este trabajo.
Realizar modificaciones de este trabajo.
Bajo las siguientes condiciones:
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos
y Correlacion
Regresion
y Correlacion
1. Regresion
no lineal
1.1 Regresion
entre atributos
1.2 Medidas de relacion
no lineal
Regresion
de modelos de regresion
no lineales
Transformacion
de bacterias de un cultivo
la siguiente tabla:
El numero
de bacterias de un cultivo evoluciona con el tiempo segun
asociado es
El diagrama de dispersion
300
250
200
Bacterias
150
100
Bacterias
25
28
47
65
86
121
190
290
362
50
Horas
0
1
2
3
4
5
6
7
8
350
de Horas y Bacterias
Diagrama de dispersion
4
Horas
de bacterias de un cultivo
300
200
150
100
Bacterias
250
r2 = 0,85
50
Bacterias
25
28
47
65
86
121
190
290
362
350
Horas
0
1
2
3
4
5
6
7
8
4
Horas
Es un buen modelo?
de bacterias de un cultivo
es mas
logico
5.0
4.5
Log Bacterias
Log Bacterias
3,22
3,33
3,85
4,17
4,45
4,80
5,25
5,67
5,89
4.0
Bacterias
25
28
47
65
86
121
190
290
362
3.5
Horas
0
1
2
3
4
5
6
7
8
5.5
de Horas y Bacterias
Diagrama de dispersion
4
Horas
de bacterias de un cultivo
350
250
200
Bacterias
150
100
r2 = 0,99
50
300
4
Horas
de un coeficiente de determinacion
pequeno
Interpretacion
como el de correlacion
hacen referencia a un modelo
Tanto el coeficiente de determinacion
entre las variables
concreto, de manera que un coeficiente r2 = 0 significa que no existe relacion
del tipo planteado por el modelo, pero eso no quiere decir que las variables sean
de otro tipo.
independientes, ya que puede existir relacion
y = 0,02x + 4,07
r2 = 0,97
6
5
Y
4
3
2
r2 = 0
6
X
10
6
X
10
Datos atpicos en regresion
es posible que aparezca algun
individuo que se aleja notablemente
En un estudio de regresion
de la tendencia del resto de individuos en la nube de puntos.
Aunque el individuo podra no ser un dato atpico al considerar las variables de manera
separada, s lo sera al considerarlas de manera conjunta.
10
Dato atpico
4
X
10
Influencia de los datos atpicos en los modelos de regresion
suelen provocar cambios drasticos
10
10
y = 0,49x + 4,89
r2 = 0,98
y = 0,19x + 4,21
r2 = 0,08
4
X
10
4
X
10
vistos solo
pueden aplicarse cuando las variables estudiadas son
Los modelos de regresion
cuantitativas.
entre atributos, tanto ordinales como nominales, es
Cuando se desea estudiar la relacion
o de asociacion.
En este tema veremos tres
necesario recurrir a otro tipo de medidas de relacion
de ellas:
de Spearman.
Coeficiente de correlacion
Coeficiente chi-cuadrado.
Coeficiente de contingencia.
de Spearman
Coeficiente de correlacion
Cuando se tengan atributos ordinales es posible ordenar sus categoras y asignarles valores
lineal entre estos
ordinales, de manera que se puede calcular el coeficiente de correlacion
valores ordinales.
entre el orden que ocupan las categoras de dos atributos ordinales se
Esta medida de relacion
de Spearman, y puede demostrarse facilmente
(Coeficiente de correlacion
de Spearman)
Definicion
Dada una muestra de n individuos en los que se han medido dos atributos ordinales X e Y, el
de Spearman se define como:
coeficiente de correlacion
P
6 d2i
rs = 1
n(n2 1)
donde di es la diferencia entre el valor ordinal de X y el valor ordinal de Y del individuo i.
directa
Si rs = 1 entonces los ordenes
de los atributos coinciden y existe una relacion
perfercta.
cuanto mas
de Spearman
Calculo
del coeficiente de correlacion
Ejemplo
Y
3
4
2
1
5
di d2i
1 1
1 1
1 1
2 4
1 1
0 8
de Spearman
Calculo
del coeficiente de correlacion
Ejemplo con empates
Cuando hay empates en el orden de las categoras se atribuye a cada valor empatado la media
aritmetica
de los valores ordinales que hubieran ocupado esos individuos en caso de no haber
estado empatados.
Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera tarea y
los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se tendra
Alumnos
X
Alumno 1
2
Alumno 2
5
Alumno 3
1
Alumno 4 3,5
Alumno
5 3,5
P
Y
3
4
1,5
1,5
5
di
d2i
1
1
1
1
0,5 0,25
2
4
1,5 2,25
0 8,5
Si No
12 28
26 34
38 62
ni
40
60
100
de fumadores en mujeres y
Si el habito
de fumar fuese independiente del sexo, la proporcion
hombres sera la misma.
Frecuencias teoricas
o esperadas
En general, dada una tabla de contingencia para dos atributos X e Y,
X\Y
x1
..
.
y1
n11
..
.
xi
..
.
ni1
..
.
xp
ny
np1
ny1
yj
n1j
..
..
.
.
nij
..
..
.
.
yq
n1q
..
..
.
.
niq
..
..
.
.
nx
nx1
..
.
npj
nyj
npq
nyq
nxp
n
nxi
..
.
n2j
nx2
= =
npj
nxp
n1j + + npj
nx1 + + nxp
nxi nyj
n
nyj
n
Coeficiente chi-cuadrado 2
entre dos atributos X e Y comparando las frecuencias reales con
Es posible estudiar la relacion
las esperadas:
(Coeficiente chi-cuadrado 2 )
Definicion
n en la que se han medido dos atributos X e Y, se define el
Dada una muestra de tamano
coeficiente 2 como
nx ny 2
p X
q
X
nij in j
2 =
,
nx ny
i=1 j=1
donde p es el numero
de categoras de X y q el numero
de categoras de Y.
Por ser suma de cuadrados, se cumple que
2 0,
de manera que 2 = 0 cuando los atributos son independientes, y crece a medida que aumenta
la dependencia entre las variables.
Calculo
del coeficiente chi-cuadrado 2
Ejemplo
Si No
12 28
26 34
38 62
ni
40
60
100
Si
Mujer
4038
100
Hombre
6038
100
nj
No
ni
= 15,2
4062
100
= 24,8
40
= 22,8
6062
100
= 37,2
60
62
100
38
y el coeficiente 2 vale
2 =
Coeficiente de contingencia
(Coeficiente de contingencia)
Definicion
n en la que se han medido dos atributos X e Y, se define el
Dada una muestra de tamano
coeficiente de contingencia como
s
C=
2
+n
la relacion.
Aunque C nunca puede llegar a valer 1, se puede demostrar que para
p tablas de contingencia
coeficiente de contingencia es (2 1)/2 = 1/2 = 0,707, y como 0,13 esta bastante lejos de
entre el habito