Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA
DESCRIPTIVA
MCS : JORGE POZO
CORRELACIN Y REGRESIN LINEAL
MARA GORDN
Tulcn Ecuador
2012
Objetivos
Objetivo general
Objetivos especficos
JUSTIFICACIN
El presente trabajo tiene como finalidad la realizacin y el anlisis de ejercicios relacionados al comercio exterior aplicando los casos de
correlacin y regresin lineal con el fin de que los estudiantes desarrollen las capacidades de aprendizaje y aplicacin en los problemas del
contexto nacional
MARCO TERICO
CORRELACIN
TCNICAS DE CORRELACIN
En los captulos anteriores, ustedes estudiaron las distribuciones de una sola variable. A continuacin abordaremos el estudio de dos variables
y no solamente de una. Particularmente estudiaremos qu sentido tiene afirmar que dos variables estn relacionadas linealmente entre s y
cmo podemos medir esta relacin lineal.
ESTUDIANTES
Mara
Olga
Susana
Aldo
Juan
X
PRUEBA DE
HABILIDAD
MENTAL
18
15
12
9
3
Y
EXAMEN DE ADMISIN
82
68
60
32
18
Observamos las cinco parejas de puntajes de la tabla N4.1.1 podemos afirmar que la prueba de habilidad mental se puede usar para
pronosticar el puntaje de examen de admisin?. La tabla nos dice que si podemos hacer tal suposicin ya que los estudiantes con puntajes
altos en la prueba de habilidad mental tienen tambin un puntaje alto en el examen de admisin y los estudiantes con puntajes bajos en la
prueba de habilidad mental, tienen puntajes bajos en el examen de admisin. En circunstancias como la presente (cuando los puntajes altos de
una variable estn relacionados con los puntajes altos de la otra variable y los puntajes bajos de una variable estn relacionados con los
puntajes bajos de la otra variable), afirmamos que hay una relacin lineal positiva entre las dos variables, entonces podemos definir una
relacin lineal positiva entre ese conjunto de pares de valores X y Y, tal como se muestra en la tabla N4.1.1.
Supongamos que en lugar de los resultados de la tabla N 4.1.1, hubiramos obtenido los puntajes que se muestran en la tabla N 4.1.2
Podramos afirmar que en esta situacin los puntajes de la prueba de habilidad mental pueden usarse para pronosticar los puntajes altos en
el test de habilidad mental aparecen con puntajes bajos en el examen de admisin y los sujetos con puntajes altos en el examen de admisin,
entonces podemos definir una relacin lineal negativa entre un conjunto de pares de valores X y Y (tal como en la tabla N4.1.2), es decir, los
puntajes altos de X estn apareados con los puntajes bajos de Y y los puntajes bajos de X estn apareados con los puntajes altos de Y.
TABLA N4.1.2
ESTUDIANTES
X
PRUEBA DE
HABILIDAD
MENTAL
Y
EXAMEN DE ADMISIN
Mara
18
18
Olga
15
32
Susana
12
60
Aldo
68
Juan
82
TABLA N4.1.3
ESTUDIANTES
X
PRUEBA DE
HABILIDAD
MENTAL
Y
EXAMEN DE ADMISIN
Mara
18
18
Olga
15
82
Susana
12
68
Aldo
60
Juan
32
Examinemos ahora la tabla N4.1.3. en este caso ya no podemos afirmar que los puntajes de la prueba de habilidad mental sirvan para
pronosticar los puntajes del examen de admisin, ya que unos puntajes altos del test de habilidad mental estn aparejados con otros puntajes
bajos del examen de admisin y algunos puntajes bajos del test de habilidad mental estn apareados con otros puntajes altos del examen de
admisin, entonces, en este caso, decimos que no existe una relacin lineal entre las variables X y Y.
DIAGRAMA DE DISPERSIN
En las situaciones que se presentan en la vida real no tenemos solamente cinco parejas de valores para ambas variables, sino muchsimas
parejas. Otra forma alternativa de ver si existe o no relacin lineal entre dos variables sera hacer una grfica de los valores X y Y en un
sistema de coordenadas rectangulares, este tipo de grfica es conocido con el nombre de diagrama de dispersin, grfico de dispersin o nube
de puntos. Dibujemos el diagrama que corresponde a la tabla N4.1.1. lo haremos haciendo corresponder a cada valor de la variable
independiente X, un valor de la variable dependiente Y, es decir, para la alumna Susana haremos corresponder su puntaje en la prueba de
habilidad mental (12) con su puntaje de la prueba de admisin (60); al alumno Juan le hacemos corresponder su puntaje del test de habilidad
mental (3) con su puntaje del examen de admisin (18). Luego ubicaremos los cinco pares de puntajes en el sistema de ejes rectangulares y
obtendremos los grficos N4.1.1 y N4.1.2.
Observaremos en el grfico N4.1.1, que tabla N4.1.1, es descrita por el diagrama de dispersin. Vemos en este grfico que los cinco puntos
dan la sensacin de ascender en lnea recta de izquierda a derecha. Esto es caracterstico en datos en los que existe una relacin lineal
positiva. Aunque estos cinco datos no configuren una lnea recta en forma perfecta, se puede trazar una lnea recta que describa en estos
puntos en forma bastante aproximada, conforme se ve en el grfico N4.1.2 y por esto decimos que la relacin es lineal.
Si ocurre que todos los puntos de la grfica de dispersin estn incluidos en una sola lnea en forma exacta afirmamos que la relacin lineal es
perfecta. El grado en que se separan los puntos de una sola lnea recta nos da el grado en que la relacin lineal no es perfecta. As cuando
menos puntos se encuentran en una sola lnea decimos que la relacin lineal entre las dos variables es menos fuerte y cuando ms puntos
queden incluidos en una lnea recta afirmaremos que la relacin lineal es ms fuerte.
GRFICO N4.1.1.
GRFICO N4.1.2
Usando los datos de la tabla N4.1.2 y utilizando la misma forma de razonar empleada hasta ahora podemos construir el correspondiente
grfico de dispersin, tal como se muestra en el grfico N4.1.3.
Podemos observar en el grfico N4.1.4 que la nube de puntos de la grfica puede delinearse bien por una lnea recta, lo que nos indica que
hay una relacin lineal entre las dos variables X y Y. vemos tambin que la lnea desciende de izquierda a derecha (tienen pendiente negativa)
por lo que decimos que la relacin lineal entre las dos variables es negativa.
Si tenemos en cuenta la tabla N4.1.3 podemos obtener una figura como se muestra en la grfica N4.1.5. Notamos, en esta situacin, que
resultar intil cualquier lnea recta que trate describir adecuadamente este diagrama de dispersin.
GRFICO N4.1.3
GRFICO N4.1.4
GRFICO N4.1.5
El coeficiente de correlacin r de Pearson, forma valores comprendidos entre -1 y +1 pasando por 0. El nmero -1 corresponde a una
correlacin negativa perfecta (los puntos del diagrama de dispersin deben encontrarse formando perfectamente una lnea recta). El
coeficiente de correlacin r=0 se obtiene cuando no existe ninguna correlacin entre las variables. Los valores negativos mayores que -1
indican una correlacin negativa y los valores positivos menores que 1 indican una correlacin positiva. Referente a la magnitud de r podemos
decir que independientemente del signo, cuando el valor absoluto de r est ms cerca de uno, mayor es la fuerza de la correlacin, as as que
-0.20 y +0.20 son iguales en fuerza (ambos son dos valores fuertes).
CLCULO DEL COEFICIENTE r DE PEARSON UTILIZANDO UNA MQUINA CALCULADORA CUANDO LOS DATOS NO SON MUY
NUMEROSOS
Dadas dos variables X y Y con sus respectivos valores. Tabla N4.1.4, podemos calcular el coeficiente r de Pearson con una mquina
calculadora mediana la siguiente frmula.
(2)
(3)
x
18
Y
82
(4)
(5)
x
324
y
6724
XY
1476
15
68
225
4624
1020
12
60
144
3600
7200
32
81
1024
288
18
324
54
x = 57
y= 260
x = 783
y = 16296
xy = 3558
En las columnas (1) y (2) se han escrito los valores de X y Y. en la columna (3), se han elevado al cuadrado los valores de X. en la columna (4)
se han elevado al cuadrado los valores de Y. en la columna (5) se ha efectuado el producto de cada pareja de valores X y Y. aplicando los
datos en la frmula 4.1.1, se tiene:
Siempre que est establecida fuera de toda duda razonable una relacin entre dos variables, el que el coeficiente de correlacin sea pequeo
puede significar nicamente que la situacin medida est contaminada por algn factor o factores no controlados. Es fcil concebir una
situacin experimental en la cual, si se han mantenido constantes todos los factores que no sean pertinentes, el r podra haber sido 1 en lugar
de 0.20. por ejemplo: generalmente la correlacin entre la puntuacin de aptitud y el aprovechamiento acadmico es 0.50 puesto que ambos se
miden en una poblacin cuyo aprovechamiento acadmico tambin es influenciable por el esfuerzo, las actitudes, las peculiaridades de
calificacin de los profesores, etc. Si se mantuvieran constantes todos los dems factores determinantes del aprovechamiento y se midieran
exactamente la aptitud y las notas, el r sera 1 en vez de 0.50.
Una conclusin prctica a la correlacin es que sta es siempre relativa a la situacin dentro de la cual se obtiene y su magnitud no representa
ningn hecho natural absoluto. El coeficiente de correlacin es siempre algo puramente relativo a las circunstancias en que se ha obtenido y se
ha de interpretar a la luz de esas circunstancias y slo muy rara vez en algn sentido absoluto.
Adems podemos agregar que la interpretacin de un coeficiente de correlacin como medida del grado de relacin lineal entre dos variables,
es una interpretacin como medida del grado de relacin lineal entre dos variables, es una interpretacin matemtica pura y est
completamente desprovista de implicaciones de causa y efecto. El hecho de que dos variables tiendan a aumentar o disminuir al mismo tiempo
no implica que obligadamente una tenga algn efecto directo o indirecto sobre la otra.
A continuacin calcularemos con la frmula N4.1.1, antes indicada coeficiente de Pearson de la relacin presentada en la tabla N4.1.2
(1)
(2)
x2
(3)
(4)
(5)
XY
18
15
12
9
3
18
32
60
68
82
324
225
144
81
9
324
1024
3600
4624
6724
324
480
720
612
246
x = 57
y= 260
x = 783
y = 16296
xy = 2382
Ahora calculemos con la misma frmula de Pearson N4.1.1, el Coeficiente de Correlacin lineal con los datos de la tabla N4.1.3.
(1)
(2)
x2
(3)
(4)
(5)
XY
18
15
12
9
3
18
32
60
68
82
324
225
144
81
9
324
6724
4624
3600
1024
324
1230
816
542
96
x = 57
y= 260
x = 783
y = 16296
xy = 3006
CUADRO N 4.1.7
X Hbitos de estudio
20 30
30 40
40 50
50 60
Total
Y Matemtica
70 80
60 70
10
50 60
16
27
40 50
14
19
10
47
30 40
15
28
20 30
11
10 20
Total
23
48
23
134
40
Podemos notar que el problema no es tan simple, como el caso anterior, dado que ahora los datos se han clasificado en una tabla de doble
entrada N 4.1.7. Este cuadro muestra, en la primera columna del lado izquierdo los intervalos de clase de la variable Y, los que cubren todos
los posibles datos acerca de las puntuaciones alcanzadas por los estudiantes en la prueba de Matemtica. Ntese que los intervalos crecen
de abajo hacia arriba. En la fila superior se presentan los intervalos de clase todos los 134 posibles datos acerca de los puntajes obtenidos por
los estudiantes en la variable hbitos de estudios representados por la letra X.
Dentro del Cuadro N 4.1.7 en los casilleros interiores o celdas de la tabla, se encuentran las frecuencias de celdas
que corresponden a
En la ltima columna de la derecha se encuentran los totales de los puntajes de la variable rendimiento en matemtica. Estos totales se
denominan frecuencias marginales de la variable Y.
Cuando los datos se presentan tal como el presente caso, formando tablas de doble entrada, es conveniente usar el mtodo clave que
expondremos a continuacin porque con este procedimiento se evita manejar grandes nmeros, como sera el caso si se emplearn las
frmulas para trabajar con la calculadora de bolsillo.
La frmula que utilizaremos es la siguiente:
Para obtener los datos que deben aplicarse en la frmula N 4.1.2., vamos a construir el cuadro auxiliar N 4.1.8, al mismo tiempo que se
explica el significado de los smbolos de esa frmula.
Lo primero que hacemos es reemplazar los intervalos horizontales y verticales por sus respectivas marcas de clase; a continuacin
adicionaremos al Cuadro N 4.1.7, cinco columnas por el lado derecho; cuyos encabezamientos son:
para la tercera,
para la cuarta y
para la segunda,
Por la parte inferior del cuadro le adicionamos cuatro filas que se nombran:
anterior,
para la primera
para la primera
para la cuarta fila que est debajo de todas; de esta manera se va elaborando el Cuadro
Auxiliar N 4.1.8.
1)
para la primera
para la segunda,
para la
sumamos las frecuencias de las celdas que estn en la misma fila de la marca de clase 75, obtenemos: 3+2+2=7, nmero que
para la primera
para la segunda,
para la tercera,
En la fila de la
marca de clase 65, sumamos 1+4+5=10, nmero que se escribe debajo del 7.
Para la fila de la marca de clase 55, tenemos: 2+6+16+3=27.
Para la fila de la marca de clase 45, se tiene: 4+14+19+10=47.
En igual forma: 7+15+6=28.
Lo mismo: 8+2+1=11
Y en la ltima fila: 1+1+2=4
A continuacin sumamos estas frecuencias marginales de la variable Y: 7+10+27+47+28+11+4=134 es el total general.
2)
Ahora a determinar las frecuencias marginales de la variable X: En columna encabezada con la marca de clase 25 sumemos
verticalmente las frecuencias: 1+2+4+7+8+1=23.
En la columna encabezada con 35, tenemos: 3+6+14+15+2=40
En la siguiente: 2+4+16+19+6+1=48
En la ltima: 2+5+3+10+1+2=23
3)
para la primera
para la segunda,
para la tercera,
este signo
significa desviacin unitaria, y procedemos en la misma forma que en las Tablas N 2.1.2 y N 2.1.3 (b). recuerden que las desviaciones
unitarias positivas: +1, +2, y +3 corresponden a los intervalos mayores y por el contrario las desviaciones unitarias negativas: -1, -2 y -3
corresponden a los intervalos menores. Como origen de trabajo se tom la marca de clase 45 y por lo tanto su desviacin unitaria es cero.
4)
Luego vamos a determinar las desviaciones unitarias horizontales de la variable X. el origen de trabajo es la marca de clase 45 que se
halla en la fila superior del cuadro, por esa razn, escribimos cero debajo de la frecuencia marginal 48. Las desviaciones unitarias
negativas: -1 y -2 se escriben a la izquierda cero, porque se corresponden con los intervalos de clase que tienen menores marcas de clase
y que estn a la izquierda de 45. La desviacin unitaria positiva, se corresponde con el intervalo de mayor marca de clase, 55 (en parte
superior del Cuadro N 4.1.8.)
5)
A continuacin vamos a determinar los valores que deben colocarse en la columna encabezada
multiplicar cada valor de
multiplicar cada valor de la segunda columna por su correspondiente valor de la tercera columna as se obtiene el respectivo valor de la cuarta
columna. En efecto:
(+3)(21)=63; (+2)(20)=40; (+1)(27)=27; 0*0=0; (-1)(-28)=28; (-2)(-22)=44 y (-3)(-12)=36
La suma: 63+40+27+28+44+36=238
Ahora nos fijamos horizontalmente en la tercera fila. Tenemos que (
la primera fila por su correspondiente valor de la segunda dila para obtener el respectivo valor de la tercera fila.
(23)(-2)=-46; (40)(-1)=-40; (48)(0)=0 y (23)(+1)=23
Sumando horizontalmente:
(-46)+ (-40)+ (23)=-86+23=-63
elemento de la tercera fila para obtener el respectivo elemento de la cuarta fila as:
(-2)(46)=92; (-1) (-40)=40; 0*0=0 y (+1) (23)=23
de la celda o casillero
. Por tanto el
procedimiento ser el siguiente: Tomemos el nmero 3 que es la frecuencia de la celda determinada por el cruce de los intervalos que tienen la
marcha de clase 75 horizontalmente y 35 verticalmente.
Bajemos la vista del nmero 3 hacia donde se halla el respectivo valor (-1) de la desviacin unitaria
Para indicar el tercer factor corremos la vista del nmero 3 hacia su derecha hasta llegar a la columna de las desviaciones unitarias
ubicamos el nmero +3 (ver la lnea punteada) formemos el producto de estos tres nmeros: (3) (-1) (+3)=-9. Este nmero -9 encerrado en un
semicrculo lo escribimos en la celda elegida.
En la misma fila tomamos la celda siguiente: (2) (0) (+3)=0
La frmula del paso (9) lleva el signo para indicar que se deben sumar horizontalmente los nmeros que estn encerrados en los semicrculos
de esa primera fila elegida, as: -9+0+6=-3. Este nmero se escribe en la quinta columna.
Trabajemos con la siguiente fila: (1) (-2) (+2)=-4 se encierra en un semicrculo.
(0)(-1)(+2)=0
(4)(0)8+2)=0
(5)(+1)(+2)=10
Sumando 0+0+10=10
Ahora con la tercera fila:
(2)(-2)(+1)=-4
(6)(-1)(+1)=-6
(16)(0)(+1)=0
(3)(+1)(+1)=3
Sumando: (-4)+(-6)+0+3=-7
Cuarta fila:
(7)(-2)(-1)=14
(15)(-1)(-1)=15
(6)(0)(-1)=0
(0)(+1)(-1)=0
La suma es: 14+15=29
(8)(-2)(-2)=32
(2)(-1)(-2)=4
(0)(0)(-2)=0
(1)(+1)(-2)=-2
La suma es: 32+4-2=34
Sptima fila:
(1)(-2)(-3)=6
(1)(0)(-3)=-6
(2)(1)(-3)=-6
Sumando: 6+0-6=0
Sumando los valores de la columna quinta.
-3+6-7+0+29+34+0=69-10=59
Reuniendo los resultados anteriores, se tienen los datos para aplicar en frmula N 4.1.2.
n=134
EJERCICIO RESUELTO N2 DE CLCULO DEL COEFICIENTE DE CORRELACIN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS
Calcular el coeficiente de correlacin lineal de las puntuaciones en matemticas de 100 estudiantes de la Facultad de Ciencias de la
Universidad MN.
CUADRO N4.1.9
CUADRO N4.1.10
En este problema tenemos que calcular el coeficiente de correlacin lineal r para dos conjuntos de datos, constituidos por los calificativos en
una escala de 0 a 100, en matemticas y en fsica para 100 estudiantes de la Facultad de Ciencias de cierta Universidad.
Los datos se muestran en el cuadro N4.1.9. Notemos que a lo largo de la lnea horizontal superior se encuentran los intervalos que contienen
los calificativos de matemticas desde 40 hasta 100.
Igualmente en la primera columna vertical izquierda, se encuentran los calificativos para fsica de los mismos estudiantes, desde el calificativo
40 hasta 100. Ntese que en la columna de los calificativos de fsica los datos crecen de abajo hacia arriba y para la fila horizontal superior
vemos que los calificativos en matemticas crecen de izquierda a derecha.
A continuacin procedemos a calcular el coeficiente de correlacin r para estos datos aplicando el mismo mtodo que utilizamos en el
problema anterior.
1)
Traslademos los datos del cuadro N4.1.9 al cuadro N4.1.10. llamaremos fxy a cualquiera de las frecuencias de los casilleros interiores
del cuadro N4.1.9. en el cuadro N4.1.10 podemos observar que se han agregado cinco columnas por el lado derecho y cuatro filas por la
parte inferior.
Observaremos en el cuadro N4.1.10 quelos intervalos para la puntuacin en matemticas y para la puntuacin en fsica se han reemplazado
por las marcas de clase correspondientes. As en la fila horizontal superior se ha reemplazado el primer intervalo 40 50 por su marca de
clase 45, el segundo intervalo 5060 por su marca de clase 55 y de esta manera se han reemplazado los dems intervalos por sus marcas de
clases en el cuadro N4.1.10.
De igual forma para la columna primera de la izquierda vemos que los intervalos se han reemplazado por sus respectivas marcas de clase as,
para la puntuacin en fsica el primer intervalo superior 90 100 se han reemplazado por su marca de clase 95, el segundo intervalo superior
8090 se ha reemplazado por su marca de clase 85 y as sucesivamente hasta llegar el intervalo inferior 40 50 que se ha reemplazado por
su marca de clase 45.
forma tenemos: 2+5+5=12. Para la segunda fila que corresponde a la marca de clase 85, obtenemos: 1+3+6+5=15 que escribimos en el
segundo casillero de . Continuando con la suma de los nmeros,
2)
. El primer resultado de
..
la columna que tiene la marca de clase 45, de esta forma tenemos: 2+4+4=10 que se escribe en el primer casillero de la fila
segundo casillero tenemos el nmero 15 que se obtiene sumando verticalmente las frecuencias
clase 55. Continuando con la suma de las
3)
. La columna
para
. Para el
tiene en total 6 casilleros arbitrariamente escogemos uno de estos casilleros como origen
de trabajo le asignamos el nmero. Observemos ahora la primera columna de la izquierda en donde estn las marcas de clase de los
puntajes de fsica. Aqu observamos que las marcas de clase crecen de abajo hacia arriba, entonces las desviaciones unitarias en la
columna
crecern de abajo hacia arriba. Entonces del 0 hacia abajo, las desviaciones unitarias son nmeros negativos que van
est conformada por los siguientes nmeros que crecen del cero hacia arriba: 1,2 y
Veamos la fila
Notamos que en la fila horizontal superior las marcas de clase crecen de izquierda a derecha, de igual forma las desviaciones unitarias
crecern de izquierda a derecha. Elegimos como origen de trabajo arbitrariamente uno de los casilleros de
, el tercero contando de
izquierda a derecha, y vamos asignando nmeros positivos crecientes hacia la derecha del 0, as tenemos 1, 2 y 3 y hacia la izquierda, a
partir del cero, tendremos: -1 y -2.
5)
Expliquemos la columna
y se obtiene un valor
es, 12x2=24. Para el segundo casillero multiplicamos 15x1=15; para el tercero 25x0=0, as hasta terminar con 11 x (-3)=-33.
. Por
esto
6)
Observamos la columna
. La primera celda de esta columna tiene el nmero 48 que se obtiene multiplicando el valor
Veamos la fila
por su
, es decir: 10(-2)=-20.
. El primer casillero de esta fila es 40 y es el resultado de multiplicar -2 del primer casillero de la fila
. El nmero -20 del primer casillero de esta fila se obtiene multiplicando la frecuencia marginal
8)
, tenemos 15 que es igual a 1 x 15. De esta forma continuamos llenando los dems valores de la columna
de la
por -20 de
multiplicamos -1 del
(36) =108.
9)
Interesa ahora obtener los nmeros encerrados en semicrculos, por ejemplo, el nmero 4, que corresponde a la marca de clase 75 para
la puntuacin en matemticas y a la marca de clase 95 de la puntuacin en fsica.
Para saber cmo se obtiene este nmero 4, corramos nuestra vista hacia la derecha dirigindose hacia la columna
2. Del nmero 4, encerrado en semicrculo, bajemos la vista con direccin a la fila
4, encerrado en semicrculo, es
y obtenemos el nmero
Para obtener los valores encerrados en semicrculos en los casilleros interiores del cuadro N4.1.10, multiplicamos el valor de la frecuencia
del casillero para la cual estamos haciendo el clculo, por los valores de las desviaciones unitarias
derecha hasta columna
As por ejemplo, para el casillero que corresponde a las marcas de clase 75 en matemtica y 85 en fsica, tenemos la frecuencia de la celda
, los otros dos factores son:
=1.
que es el valor encerrado en semicrculo. As podemos proceder para obtener todos los dems valores
encerrados en semicrculos.
, se tiene
=150
Para todas las filas, en el ltimo casillero de la derecha se tiene la suma de los valores de la fila. As por ejemplo,
EJERCICIO PROPUESTO N1 DEL CLCULO DEL COEFICIENTE DE CORRELACIN ENTRE DOS CONJUNTOS AGRUPADOS DE
DATOS.
Supongamos que tenemos 30 sujetos a los que hemos aplicado una prueba de conocimientos de Psicologa General (variable x) y un test de
inteligencia (variable y). los datos se muestran en el Cuadro N4.1.11.
Aplicando los datos tomados del Cuadro Auxiliar N4.1.12 en la frmula N4.1.2, tenemos:
Resultado:
Susana
Ivn
Lourdes
PRUEBA DE
HABILIDAD MENTAL X
5
10
15
EXAMEN DE
ADMISIN Y
15
20
25
Aldo
Juan
Mara
Csar
Olga
20
25
30
35
40
30
35
40
45
50
Recordemos el grfico N4.2.1 que dibujamos cuando estudiamos correlacin, en este grfico observamos el diagrama de dispersin
aproximado por una lnea recta, la recta es mejor ajuste, a los puntos del diagrama de dispersin, es decir, en la mejor medida procure dejar
igual nmeros de puntos del diagrama de dispersin por encima de ella que igual nmero de puntos de abajo, se llama lnea de regresin.
X-r
En donde:
Media de variable y en la muestra
EJEMPLO PROPUESTO N2 DEL CLCULO DEL COEFICIENTE DE CORRELACIN ENTRE DOS CONJUNTOS DE DATOS
AGRUPADOS
Supongamos que se tiene 50 vendedores de cierta compaa. Estos vendedores durante un ao 1985 han realizado ventas tal como lo
muestra el cuadro N4.1.13, el que tambin muestra el nmero de aos de experiencia que tienen como vendedores.
CUADRO N4.1.13
Tomando los datos obtenidos en el Cuadro Auxiliar N4,1,14 apliquemos en la frmula N4.1.12, se tiene:
Resultado:
GRFICO N 4.2.1
Veamos cmo podemos predecir los valores de Y a partir de los valores de X. Estudiemos el Cuadro N 4.2.1. Cmo el grfico de este cuadro
es una lnea recta ascendente sabemos que su coeficiente de correlacin de Pearson r=+1. Adems tenemos los siguientes resultados:
=22.5
11.46
11.46
=32.5
Estos resultados se pueden calcular a partir de los datos del cuadro N4.2.1. Apliquemos estos datos a la frmula N4.2.1, obtenemos la
siguiente expresin:
X-(1)
Escojamos cualquier valor de X del Cuadro N4.2.1 por ejemplo para Mara X=30, reemplazando este valor en (b).
Vemos en el Cuadro N4.2.1 el valor que corresponde a Mara efectivamente es 40. Es decir, podemos usar la ecuacin N4.2.1 para predecir
los valores de Y conociendo los valores de X.
Esta frmula de regresin se puede para dos variables X y Y, entre las cuales no es obligatorio que exista una correlacin lineal perfecta, es
decir, no es obligatorio que r para la correlacin entre X y Y sea siempre igual a 1. Este valor de r para otras aplicaciones de la regresin,
puede tomar cualquier valor distinto.
El coeficiente de correlacin lineal de Pearson entre la variable Y, edad de sujetos estudiados y la variables X, rendimiento mental de los
mismos sujetos, fue r=0,89
Con estos datos se pide determinar la ecuacin de regresin rectilnea de edad en base del puntaje del rendimiento mental.
?
Datos:
=14.5
3.2
12.6
X-0.89
Segunda pregunta
Tercera pregunta
Cuarta pregunta
Quinta pregunta
Sexta pregunta
RELACIONES
La correlacin se ocupa de establecer la magnitud y la direccin de las relaciones. Antes de profundizar en estos aspectos particulares de las
relaciones, analizaremos algunas caractersticas generales de stas, con las cuales podemos comprender mejor el material especfico acerca
de la correlacin.
RELACIONES LINEALES
Para iniciar nuestro anlisis de las relaciones, veamos una relacin entre dos variables. La siguiente tabla muestra el salario mensual que
percibieron cinco agentes ventas y el valor en dlares de la mercanca vendida por cada uno de ellos en ese mes.
AGENTE VARIABLE
X MERCANCA
Y VARIABLE
VENDIDA ($)
0
SALARIO ($)
500
1000
900
2000
1300
3000
1700
4000
2100
Podemos analizar mejor la relacin entre estas variables si trazamos una grfica utilizando los valores X y Y, para cada agente de ventas, como
los puntos de dicha grfica. l es una grfica de dispersin o dispersigrama.
Una relacin lineal entre dos variables es aquella que puede representarse con la mejor exactitud mediante una lnea recta.
Observe que no todas las relaciones son lineales; algunas son curvilneas. En este caso, al trazar una grfica de dispersin para las
variables X y Y, una lnea curva ajusta mejor a los datos que una lnea recta.
Donde
Para utilizar esta ecuacin, primero hay que convertir cada dato en bruto en su valor transformado. Esto puede tardar mucho tiempo y crear
errores de redondeo. Con algn lgebra, esta ecuacin se puede transformar en una ecuacin de clculo que utilice datos en bruto:
Dnde:
La tabla 6.4 contiene algunos de los datos hipotticos reunidos a partir de cinco sujetos.
TABLA 6.4
SUBJETIVO
A
B
C
D
E
TOTAL
XY
1
9
16
36
49
111
4
25
9
49
25
112
2
15
12
42
35
106
es la suma de los productos cruzados; se determina multiplicando los datos X y Y para cada sujeto y luego sumando los productos
resultantes. El clculo de
y de los otros trminos aparece en la tabla 6.4. Al sustituir estos valores en la ecuacin anterior, obtenemos.
Resolvamos otro ejercicio. Esta utilizaremos los datos de la tabla 6.1. Para su conveniencia, hemos reproducido estos datos en las primeras
tres columnas de la tabla 6.5. En este ejemplo tenemos una relacin lineal imperfecta y estemos interesados en calcular la magnitud y
direccin de la relacin mediante la r de Pearson. La solucin tambin aparece en la tabla 6.5.
TABLA 6.5
ESTUDIANTE
IQX
PROMEDIO DE
NMERO
1
110
DATOS Y
1.0
12,100 1.00
110.0
112
1.6
12,544 2.56
179.2
118
1.2
13,924 1.44
141.6
119
2.1
14,161 4.41
249.9
122
2.6
14,884 6.76
317.2
125
1.8
15,625 3.24
225.0
127
2.6
16,129 6.76
330.2
130
2.0
16,900 4.00
260.0
132
3.2
17,424 10.24
422.4
10
134
2.6
17,956 6.76
384.4
11
136
3.0
18,496 9.00
408.0
12
TOTAL
138
1503
3.6
27.3
19,044 12.96
189,18769.13
496.8
3488.7
Tratemos de resolver otro problema. Se ha puesto a reflexionar si es verdad que los opuestos se atraen? Todos hemos estado ante parejas
en las que sus miembros parecen ser muy diferentes entre s. Pero esto es lo usual? Qu fomenta la atraccin: las diferencias o las
similitudes? Un psiclogo social abord este problema pidiendo a 15 estudiantes que respondieran un cuestionario relacionado con un sus
actitudes hacia una amplia gama de temas. Tiempo despus les mostr las actitudes de un extrao hacia los mismos temas y les pidi que
evaluaran su agrado o inclinacin por el extrao y si, probablemente, disfrutaran el trabajar con l. En realidad, las actitudes del extrao
fueron elaboradas por el experimentador y variaron de sujeto a sujeto, con respecto a la proporcin de actitudes similares que hubo entre el
extrao y el individuo que particip en el experimento. De esa manera, se obtuvieron datos, para cada sujeto a sus actitudes y la atraccin que
sinti hacia un extrao, basada en las actitudes de este ltimo hacia los mismos temas. Si los iguales se atraen, entonces debera existir una
relacin directa entre la atraccin hacia un extrao y la proporcin de actitudes similares. Los datos se presentan en la tabla 6.6. Entre mayor
sea la atraccin, ms alto ser el puntaje. El puntaje de atraccin mximo es de 14. Calcule el coeficiente de correlacin r de Pearson * para
determinar si existe una relacin directa entre la similitud de actitudes y el grado de atraccin.
Datos y solucin del problema de prctica 6.2
TABLA 6.6
ESTUDIANTE
NMERO
1
PROPORCIN DE ACTITUDES
SIMILARES X
0.30
ATRACCIN Y
8.9
0.090
79.21
2.670
0.44
9.3
0.194
86.49
4.092
0.67
9.6
0.449
92.16
6.432
0.00
6.2
0.000
38.44
0.000
0.50
8.8
0.250
77.44
4.400
0.15
8.1
0.022
65.61
1.215
0.58
9.5
0.336
90.25
5.510
0.32
7.1
0.102
50.41
2.272
0.72
11.0
0.518
121.00
7.920
10
1.00
11.7
1.000
136.89
11.700
11
0.87
11.5
0.757
132.25
10.005
12
0.09
7.3
0.008
53.29
0.657
13
0.82
10.0
0.672
100.00
8.200
14
0.64
10.0
0.410
100.00
6.400
15
TOTAL
0.24
7.34
7.5
136.5
0.058
4.866
56.25
1279.69
1.800
73.273
Por lo tanto, con base en estos estudiantes, existe una relacin muy fuerte entre las similitudes y las atracciones.
Una segunda interpretacin de la r de Pearson. La r de Pearson tambin se puede interpretar en trminos de la variabilidad de Y explicada
por medio de X. este punto de vista produce ms informacin importante acerca de r y la relacin entre X y Y. Considere, por ejemplo, la figura
6.9, en la cual se muestra una relacin imperfecta entre X y Y. En este ejemplo, la variable X representa una competencia de ortografa y la
variable Y la habilidad en la escritura de seis estudiantes de tercer grado. Suponga que queremos predecir la calificacin en la escritura de
Mara, la estudiante cuya calificacin en ortografa es de 88. Si no hubiese una relacin entre la escritura y la ortografa.
EJERCICIOS DE APLICACIN
1.
En un largo curso de introduccin a la sociologa, un profesor hace dos exmenes. El profesor quiere determinar si las calificaciones
de los estudiantes en el segundo examen correlacionadas con las calificaciones del primero. Para facilitar la los, se elige una muestra
de ocho estudiar calificaciones aparecen en la siguiente tabla.
a.
Construya una grfica de dispersin para datos, utilizando la calificacin del primer examen como la variable X. Parece
lineal la relacin?
b.
c.
Suponga que existe una relacin lineal en calificaciones de los dos exmenes, calcule la r de Pearson.
Qu tan bien explican la relacin, las calificaciones del segundo examen?
0,629531757
Se puede decir que es una relacin Baja y positiva que los dos exmenes tienen entre si
2.
Un investigador realiza un estudio de la relacin entre el consumo de cigarros y las enfermedades determinan la cantidad de cigarros
fumados diariamente y de das de ausencia en el trabajo dura ltimo ao debido a una enfermedad para 13 individuos en la
compaa donde trabaja este investigador. Los datos aparecen en la tabla anexa.
SUJETO
1
2
3
4
5
6
7
8
9
10
11
12
CIGARROS CONSUMIDOS
DAS DE AUSENCIA
0
1
0
3
0
8
10
10
13
4
20
14
27
5
35
6
35
12
44
16
53
10
60
16
a.
b.
c.
Construya una grfica de dispersin para estos datos: Se ve una relacin lineal?
Calcule el valor de la r de Pearson.
Elimine los datos de los sujetos 1, 2, 3, 10, 11 y 12. Esto disminuye el rango de ambas variables. Vuelva a calcular r para
d.
0,6753
0,0318
3.
Un educador ha construido un examen para las aptitudes mecnicas y desea determinar si ste es confiable, mediante dos
administraciones con un lapso de 1 mes entre ellas. Se realiza un estudio en el cual 10 estudiantes reciben dos administraciones del
examen, donde la segunda administracin ocurre un mes despus que la primera. Los datos aparecen en la tabla.
a.
b.
c.
Sera justo decir que ste es un examen confiable? Explique esto al utilizar
SUJETO
1
2
3
4
5
6
7
8
9
10
ADMINISTRACIN 1
10
12
20
25
27
35
43
40
32
47
ADMINISTRACIN 2
10
15
17
25
32
37
40
38
30
49
0,9881
La investigacin no es confiable por que los datos son tomados en dos fecha totalmente distintas
4.
Un grupo de investigadores ha diseado un cuestionario sobre la tensin, consistente en 15 sucesos. Ellos estn interesados en
determinar si existe una coincidencia entre dos culturas acerca de la cantidad relativa de ajustes que acarrea cada suceso. El
cuestionario se aplica a 300 estadounidenses y 300 italianos. Cada individuo debe utilizar el evento matrimonio como estndar y
juzgar los dems eventos en relacin con el ajuste necesario para el matrimonio. El matrimonio recibe un valor arbitrario de 50
puntos. Si se considera que un evento requiere de ms ajustes que el matrimonio, el evento debe recibir ms de 50 puntos. El
nmero de puntos excedentes depende de la cantidad de ajustes requeridos. Despus de que cada sujeto de cada cultura ha
asignado puntos a todos los eventos, se promedian los puntos de cada evento. Los resultados aparecen en la siguiente tabla:
EVENTOS
Muerte de la esposa
Divorcio
Separacin de la pareja
Temporada en prisin
Lesiones personales
Matrimonio
Despedido del trabajo
Jubilacin
Embarazo
Dificultades sexuales
Reajustes econmicos
Problemas con la familia poltica
Problemas con el jefe
Vacaciones
Navidad
ESTADOUNIDENSES
ITALIANOS
100
73
65
63
53
50
47
45
40
39
39
80
95
85
52
72
50
40
30
28
42
36
29
23
13
12
41
35
16
10
a.
Suponga que los datos tienen al menos una escala de intervalo y calcule la correlacin entre los datos estadounidenses y
b.
la de los italianos.
Suponga que los datos slo tienen una escala ordinal y calcule la correlacin entre los datos de ambas culturas.
0,8519
La r es alta y positiva es decir que los comportamiento de las dos nacionalidades son bastante similares
INDIVIDUO
SIQUIATRA
A
SIQUIATRA
B
5.
48
12
37
11
12
30
45
31
10
11
24
28
18
35
10
15
11
42
10
12
22
Un psiclogo ha construido un examen lpiz - papel, a fin de medir la depresin. Para comparar los datos del examen con los datos
de los expertos, 12 individuos con perturbaciones emocionales realizan el examen lpiz papel. Los individuos tambin son
calificados de manera independiente por dos siquiatras, de acuerdo con el grado de depresin determinado por cada uno como
resultado de entrevistas detalladas. Los datos aparecen a continuacin. Los datos mayores corresponden a una mayor depresin.
a.
b.
0,8519
La relacin se da con un mismo criterio por los psiquiatras
0,6973
La relacin entre las dos variables es baja y positiva
0,697
6.
Para este problema, suponga que usted es un psiclogo que labora en el departamento de recursos humanos de una gran
corporacin. El presidente de la compaa acaba de hablar con usted acerca de la importancia de contratar personal productivo en la
seccin de manufactura de la empresa y le ha pedido que ayude a mejorar la capacidad de la institucin para hacer esto. Existen 300
empleados en esta seccin y cada obrero fabrica el mismo artculo. Hasta ahora, la corporacin slo ha recurrido a entrevistas para
elegir a estos empleados. Usted busca bibliografa y descubre dos pruebas de desempeo, lpiz papel, bien estandarizadas, y
piensa que podran estar relacionados con los requisitos desempeo de esta seccin. Para determinar si alguna de ellas se puede
utilizar como dispositivo de seleccin, elige 10 empleados representativos de la seccin de manufactura, garantizando que un amplio
rango de desempeo quede representado en la muestra, y realiza las dos pruebas con cada empleado. Los datos aparecen en la
siguiente tabla.
Mientras mayor sea la calificacin, mejor ser el desempeo. Las calificaciones de desempeo en el trabajo. Las calificaciones de
desempeo fabricados por cada empleado por semana, promediados durante los ltimos 6 meses.
a. Construya una grfica de dispersin del desempeo en el trabajo y la primera prueba, utilizando la prueba 1 como la
b.
c.
d.
e.
Desempeo en el
trabajo
Examen 1
Examen 2
0,5917
50
10
25
74
19
35
62
20
40
90
20
49
EMPLEADO
5
6
7
98
21
50
52
14
29
68
10
32
10
80
24
44
88
16
46
76
14
35
0,9076
ESTUDIANTE
NMERO
1
PROPORCIN DE ACTITUDES
ATRACCIN Y
SIMILARES X
0.30
8.9
0.44
9.3
0.67
9.6
0.00
6.2
0.50
8.8
0.15
8.1
0.58
9.5
0.32
7.1
0.72
11.0
10
1.00
11.7
11
0.87
11.5
12
0.09
7.3
13
0.82
10.0
14
0.64
10.0
15
0.24
7.5
EJERCICIO RESUELTO N2 DE CLCULO DEL COEFICIENTE DE CORRELACIN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS
DETERMINANCDO EL CUADRO AUXILIAR Y REALICE LA GRFICA
Susana
Ivn
Lourdes
Aldo
Juan
Mara
Csar
Olga
PRUEBA DE
HABILIDAD MENTAL X
5
10
15
20
25
30
35
40
EXAMEN DE
ADMISIN Y
15
20
25
30
35
40
45
50
ITALIANOS
80
95
85
52
72
50
40
30
28
42
36
41
35
16
10
c.
Suponga que los datos tienen al menos una escala de intervalo y calcule la correlacin entre los datos estadounidenses y
d.
la de los italianos.
Suponga que los datos slo tienen una escala ordinal y calcule la correlacin entre los datos de ambas culturas.
Conclusiones
Desarrollo de ejercicios de correlacin y regresin lineal en donde se efectu comparaciones de coeficientes y formulas estadsticas
Recomendaciones
Manejar y aplicar las frmulas matemticas para realizar un anlisis estadstico de comparacin positivo.
Realizar un procedimiento con medidas especficas para la elaboracin de las grficas.
Elaborar e interpretar con la mayor relacin posible grficas, datos y frmulas estadsticas.
BIBLIOGRAFA
Legoas, L. A. (2008). Estadstica Bsica. En L. A. Legoas, Estadstica Bsica (pgs. 177-211). Lima: San Marcos.
Mendano, J. (2007). Estadstica General. En J. Mendano, Estadstica General. Mxico: Majangrail.
Zamora, M. C. (2006). Estadstica Inferencial. En M. C. Zamora, Estadstica Inferencial. Lima: Moshera.