Está en la página 1de 23

Curso Basico

de Estadstica

Alfredo Sanchez
Alberca (asalber@ceu.es)

Copyleft

Licencia

Curso basico
de estadstica

Alfredo Sanchez
Alberca (asalber@gmail.com).
Esta obra esta bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 Espana de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/
licenses/byncsa/2.5/es/ o envie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.
Con esta licencia eres libre de:
Copiar, distribuir y mostrar este trabajo.
Realizar modificaciones de este trabajo.
Bajo las siguientes condiciones:

Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada por el


autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo o apoyan el
uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera una obra
derivada, solo
puede distribuir la obra generada bajo una licencia identica a esta.

Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos

de la licencia de esta obra.


Estas condiciones pueden no aplicarse si se obtiene el permiso del titular de los derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

y Correlacion

Regresion

y Correlacion

1. Regresion
no lineal
1.1 Regresion
entre atributos
1.2 Medidas de relacion

no lineal
Regresion

no lineal es similar al del modelo lineal y tambien


puede
El ajuste de un modelo de regresion

realizarse mediante la tecnica


de mnimos cuadrados.
No obstante, en determinados casos un ajuste no lineal puede convertirse en un ajuste lineal
de alguna de las variables del modelo.
mediante una sencilla transformacion

de modelos de regresion
no lineales
Transformacion

Modelo logartmico: Un modelo logartmico y = a + b log x se convierte en un modelo lineal


haciendo el cambio t = log x:
y = a + b log x = a + bt.
Modelo exponencial: Un modelo exponencial y = aebx se convierte en un modelo lineal
haciendo el cambio z = log y:
z = log y = log(aebx ) = log a + log ebx = a + bx.

Modelo potencial: Un modelo potencial y = axb se convierte en un modelo lineal haciendo


los cambios t = log x y z = log y:
z = log y = log(axb ) = log a + b log x = a + bt.

Modelo inverso: Un modelo inverso y = a + b/x se convierte en un modelo lineal haciendo


el cambio t = 1/x:
y = a + b(1/x) = a + bt.
Modelo curva S: Un modelo curva S y = ea+b/x se convierte en un modelo lineal haciendo
los cambios t = 1/x y z = log y:
z = log y = log(ea+b/x ) = a + b(1/x) = a + bt.

Ejemplo de ajuste de un modelo exponencial


Evolucion
del numero

de bacterias de un cultivo

la siguiente tabla:
El numero
de bacterias de un cultivo evoluciona con el tiempo segun
asociado es
El diagrama de dispersion

300
250
200

Bacterias

150
100

Bacterias
25
28
47
65
86
121
190
290
362

50

Horas
0
1
2
3
4
5
6
7
8

350

de Horas y Bacterias
Diagrama de dispersion

4
Horas

Ejemplo de ajuste de un modelo exponencial


Evolucion
del numero

de bacterias de un cultivo

Si realizamos un ajuste lineal, obtenemos la siguiente recta de regresion

Bacterias = 30,18+41, 27 Horas

300
200
150
100

Bacterias

250

r2 = 0,85

50

Bacterias
25
28
47
65
86
121
190
290
362

350

lineal Bacterias sobre Horas


Regresion

Horas
0
1
2
3
4
5
6
7
8

4
Horas

Es un buen modelo?

Ejemplo de ajuste de un modelo exponencial


Evolucion
del numero

de bacterias de un cultivo

es mas
logico

Aunque el modelo lineal no es malo, de acuerdo al diagrama de dispersion

construir un modelo exponencial o cuadratico.


z = log y, es
Para construir el modelo exponencial y = aebx hay que realizar la transformacion
decir, aplicar el logaritmo a la variable dependiente.

5.0
4.5

Log Bacterias

Log Bacterias
3,22
3,33
3,85
4,17
4,45
4,80
5,25
5,67
5,89

4.0

Bacterias
25
28
47
65
86
121
190
290
362

3.5

Horas
0
1
2
3
4
5
6
7
8

5.5

de Horas y Bacterias
Diagrama de dispersion

4
Horas

Ejemplo de ajuste de un modelo exponencial


Evolucion
del numero

de bacterias de un cultivo

queda calcular la recta de regresion


del logaritmo de Bacterias sobre Horas
Ahora solo

350

exponencial Bacterias sobre Horas


Regresion

que, a la vista del coeficiente de


es mucho mejor modelo
determinacion,
que el lineal.

250
200

Bacterias

150
100

Bacterias = e3,107+0,352 Horas ,

r2 = 0,99

50

Y deshaciendo el cambio de variable, se


obtiene el modelo exponencial

300

Log Bacterias = 3,107 + 0,352 Horas.

4
Horas

de un coeficiente de determinacion
pequeno

Interpretacion

como el de correlacion
hacen referencia a un modelo
Tanto el coeficiente de determinacion
entre las variables
concreto, de manera que un coeficiente r2 = 0 significa que no existe relacion
del tipo planteado por el modelo, pero eso no quiere decir que las variables sean
de otro tipo.
independientes, ya que puede existir relacion

y = 0,25x2 2,51x + 8,05

y = 0,02x + 4,07

r2 = 0,97

6
5
Y
4
3
2

r2 = 0

6
X

10

6
X

10


Datos atpicos en regresion
es posible que aparezca algun
individuo que se aleja notablemente
En un estudio de regresion
de la tendencia del resto de individuos en la nube de puntos.
Aunque el individuo podra no ser un dato atpico al considerar las variables de manera
separada, s lo sera al considerarlas de manera conjunta.

10

con datos atpicos


Diagrama de dispersion

Dato atpico

4
X

10


Influencia de los datos atpicos en los modelos de regresion
suelen provocar cambios drasticos

Los datos atpicos en regresion


en el ajuste de los modelos
y por tanto, habra que tener mucho cuidado con ellos.
de regresion,

10

sin datos atpicos


Recta de regresion

10

con datos atpicos


Recta de regresion

y = 0,49x + 4,89
r2 = 0,98

y = 0,19x + 4,21
r2 = 0,08

4
X

10

4
X

10

Relaciones entre atributos

vistos solo
pueden aplicarse cuando las variables estudiadas son
Los modelos de regresion
cuantitativas.
entre atributos, tanto ordinales como nominales, es
Cuando se desea estudiar la relacion
o de asociacion.
En este tema veremos tres
necesario recurrir a otro tipo de medidas de relacion
de ellas:

de Spearman.
Coeficiente de correlacion

Coeficiente chi-cuadrado.
Coeficiente de contingencia.

de Spearman
Coeficiente de correlacion
Cuando se tengan atributos ordinales es posible ordenar sus categoras y asignarles valores
lineal entre estos
ordinales, de manera que se puede calcular el coeficiente de correlacion
valores ordinales.
entre el orden que ocupan las categoras de dos atributos ordinales se
Esta medida de relacion
de Spearman, y puede demostrarse facilmente

conoce como coeficiente ce correlacion


que

puede calcularse a partir de la siguiente formula

(Coeficiente de correlacion
de Spearman)
Definicion
Dada una muestra de n individuos en los que se han medido dos atributos ordinales X e Y, el
de Spearman se define como:
coeficiente de correlacion
P
6 d2i
rs = 1
n(n2 1)
donde di es la diferencia entre el valor ordinal de X y el valor ordinal de Y del individuo i.

del coeficiente de correlacion


de Spearman
Interpretacion

de Spearman es en el fondo el coeficiente de correlacion

Como el coeficiente de correlacion

lineal aplicado a los ordenes,


se tiene:
1 rs 1,
de manera que:

entre los atributos ordinales.


Si rs = 0 entonces no existe relacion

directa
Si rs = 1 entonces los ordenes
de los atributos coinciden y existe una relacion
perfercta.

invertidos y existe una relacion

Si rs = 1 entonces los ordenes


de los atributos estan
inversa perfecta.

entre los atributos, y


cerca de 1 o 1 este rs , mayor sera la relacion
En general, cuanto mas
cerca de 0, menor sera la relacion.

cuanto mas


de Spearman
Calculo
del coeficiente de correlacion
Ejemplo

Una muestra de 5 alumnos realizaron dos tareas diferentes X e Y, y se ordenaron de acuerdo a


la destreza que manifestaron en cada tarea:
Alumnos X
Alumno 1 2
Alumno 2 5
Alumno 3 1
Alumno 4 3
Alumno 5 4
P

Y
3
4
2
1
5

di d2i
1 1
1 1
1 1
2 4
1 1
0 8

de Spearman para esta muestra es


El coeficiente de correlacion
P
6 d2i
68
rs = 1
= 1
= 0,6,
2
n(n 1)
5(52 1)
directa entre las destrezas manifestadas en ambas
lo que indica que existe bastante relacion
tareas.


de Spearman
Calculo
del coeficiente de correlacion
Ejemplo con empates

Cuando hay empates en el orden de las categoras se atribuye a cada valor empatado la media

aritmetica
de los valores ordinales que hubieran ocupado esos individuos en caso de no haber
estado empatados.
Si en el ejemplo anterior los alumnos 4 y 5 se hubiesen comportado igual en la primera tarea y
los alumnos 3 y 4 se hubiesen comportado igual en la segunda tarea, entonces se tendra
Alumnos
X
Alumno 1
2
Alumno 2
5
Alumno 3
1
Alumno 4 3,5
Alumno
5 3,5
P

Y
3
4
1,5
1,5
5

di
d2i
1
1
1
1
0,5 0,25
2
4
1,5 2,25
0 8,5

de Spearman para esta muestra es


El coeficiente de correlacion
P
6 d2i
6 8,5
=1
= 0,58.
rs = 1
2
n(n 1)
5(52 1)

entre atributos nominales


Relacion

entre atributos nominales no tiene sentido calcular el


Cuando se quiere estudiar la relacion
de Spearman ya que las categoras no pueden ordenarse.
coeficiente de correlacion
entre atributos nominales se utilizan medidas basadas en las
Para estudiar la relacion
frecuencias de la tabla de frecuencias bidimensional, que para atributos se suele llamar tabla de
contingencia.
entre el sexo y el habito

Ejemplo En un estudio para ver si existe relacion


de fumar se ha
tomado una muestra de 100 personas. La tabla de contingencia resultante es
Sexo\Fuma
Mujer
Hombre
nj

Si No
12 28
26 34
38 62

ni
40
60
100

de fumadores en mujeres y
Si el habito
de fumar fuese independiente del sexo, la proporcion
hombres sera la misma.


Frecuencias teoricas
o esperadas
En general, dada una tabla de contingencia para dos atributos X e Y,
X\Y
x1
..
.

y1
n11
..
.

xi
..
.

ni1
..
.

xp
ny

np1
ny1

yj
n1j
..
..
.
.
nij
..
..
.
.

yq
n1q
..
..
.
.
niq
..
..
.
.

nx
nx1
..
.

npj
nyj

npq
nyq

nxp
n

nxi
..
.

si X e Y fuesen independientes, para cualquier valor yj se tendra


n1j
nx1

n2j
nx2

= =

npj
nxp

de donde se deduce que


nij =

n1j + + npj

nx1 + + nxp

nxi nyj
n

nyj
n

se le llama frecuencia teorica


o frecuencia esperada del par (xi , yj ).
A esta ultima
expresion

Coeficiente chi-cuadrado 2
entre dos atributos X e Y comparando las frecuencias reales con
Es posible estudiar la relacion
las esperadas:

(Coeficiente chi-cuadrado 2 )
Definicion
n en la que se han medido dos atributos X e Y, se define el
Dada una muestra de tamano
coeficiente 2 como

nx ny 2
p X
q
X
nij in j
2 =
,
nx ny
i=1 j=1

donde p es el numero
de categoras de X y q el numero
de categoras de Y.
Por ser suma de cuadrados, se cumple que
2 0,
de manera que 2 = 0 cuando los atributos son independientes, y crece a medida que aumenta
la dependencia entre las variables.


Calculo
del coeficiente chi-cuadrado 2
Ejemplo

Siguiendo con el ejemplo anterior, a partir de la tabla de contingencia


Sexo\Fuma
Mujer
Hombre
nj

Si No
12 28
26 34
38 62

ni
40
60
100

se obtienen las siguientes frecuencias esperadas:


Sexo

Si

Mujer

4038
100

Hombre

6038
100

nj

No

ni

= 15,2

4062
100

= 24,8

40

= 22,8

6062
100

= 37,2

60

62

100

38

y el coeficiente 2 vale
2 =

(12 15,2)2 (28 24,8)2 (26 22,8)2 (34 37,2)2


+
+
+
= 1,81,
15,2
24,8
22,8
37,2

entre el sexo y el habito

lo que indica que no existe gran relacion


de fumar.

Coeficiente de contingencia

muestral, ya que al multiplicar por una constante las


El coeficiente 2 depende del tamano
frecuencias de todas las casillas, su valor queda multiplicado por dicha constante, lo que podra
incluso cuando las proporciones
llevarnos al equvoco de pensar que ha aumentado la relacion,
se mantienen. En consecuencia el valor de 2 no esta acotado superiormente y resulta difcil de
interpretar.
Para evitar estos problemas se suele utilizar el siguiente estadstico:

(Coeficiente de contingencia)
Definicion
n en la que se han medido dos atributos X e Y, se define el
Dada una muestra de tamano
coeficiente de contingencia como
s
C=

2
+n

del coeficiente de contingencia


Interpretacion
anterior se deduce que
De la definicion
0 C 1,
de manera que cuando C = 0 las variables son independientes, y crece a medida que aumenta

la relacion.
Aunque C nunca puede llegar a valer 1, se puede demostrar que para
p tablas de contingencia

con k filas y k columnas, el valor maximo


que puede alcanzar C es (k 1)/k.

Ejemplo En el ejemplo anterior el coeficiente de contingencia vale


r
1,81
= 0,13.
C=
1,81 + 100

Como se trata de una tabla de contingencia


de 2 2, el valor maximo
que podra tomar el
p

coeficiente de contingencia es (2 1)/2 = 1/2 = 0,707, y como 0,13 esta bastante lejos de
entre el habito

este valor, se puede concluir que no existe demasiada relacion


de fumar y el sexo.

También podría gustarte