Está en la página 1de 82

Capítulo V

Análisis de regresión y correlación

Introducción

En la investigación estadística es muy frecuente encontrar va-


riables que están relacionadas o asociadas entre sí de alguna ma-
nera, como se estudió en el capítulo anterior.
Existen muchas variables, en especial cuantitativas, que se
relacionan en algún grado de otras, entonces es posible que una
de las variables pueda expresarse matemáticamente en función
de la otra. Por ejemplo, el peso de las personas está relacionada
con la estatura; el tiempo de servicio de trabajo activo tiene rela-
ción con la edad, un trabajador que ha acumulado por ejemplo
30 años de servicio tendrá mayor edad que otro con sólo 14
años de servicios; el ingreso o salario está relacionado frecuen-
temente con el nivel educativo; el ahorro familiar tiene rela-
ción con los ingresos; la demanda de un producto dependerá
de los precios, etc.
Estadísticamente interesa analizar la relación entre dos o
más variables, siempre que se tenga un indicio que entre ellas
existe por lo menos cierto grado de dependencia o asociación. Lo
importante es medir y expresar funcionalmente esta relación
mediante una función o modelo matemático.
En el enfoque del análisis de regresión se trata de predecir o
explicar el comportamiento de una variable Y a la que se deno-
mina dependiente o variable respuesta, en función de otras va-
riables X 1 ,..., X k denominadas independientes o variable regre-

[11] 213
soras; así como investigar si ellas están asociadas o correlaciona-
das entre si.

Análisis de regresión lineal simple

En muchos estudios se necesita identificar y cuantificar alguna


relación funcional entre una variable Y denominada dependien-
te y otra variable X denominada independiente. Esto se puede
plantear así: Y = f (X ) .
Es importante identificar cuál es la variable dependiente y
cuál es la variable independiente. Esto depende de la lógica y de
lo que el investigador intente medir. Así, si el Decano de una Fa-
cultad desea analizar la relación entre las notas de los estudian-
tes y el tiempo que los estudiantes dedican al estudio, es lógico
asumir que las notas dependen del tiempo dedicado al estudio.
Por tanto, "notas" es la variable dependiente y "tiempo" es la va-
riable independiente.
A la variable dependiente también se le denomina variable
respuesta y a la variable independiente también se le denomina
explicativa o regresora.

Diagrama de dispersión

En el diagrama de dispersión se representan los pares de obser-


vaciones en el plano y es habitual colocar la variable indepen-
diente en el eje horizontal. A continuación se presenta algunos
tipos de diagramas de dispersión

Y Y

. .
.. .. . . .

.. . . . .
. . . X . . . X
a) Relación lineal Positiva o Directa b) Relación lineal Negativa o
Inversa

214
Y Y
..
. ..
.. . . .. . ... .. .

. .... ..... .. .

. .. . . .. . ..
X X
c) No hay Relación lineal d) Relación No Lineal
entre X e Y

Como se puede ver en el gráfico (a), los valores de Y se incre-


mentan linealmente conforme X crece. Por ejemplo, al aumentar
la partida presupuestal asignada por el gobierno a un colegio,
aumenta la posibilidad de atender una mayor demanda escolar,
gráfico (a).
Es diferente en el gráfico (b), porque cuando los valores de X
crecen, los valores de Y decrecen linealmente. Así por ejemplo,
cuando aumenta el número de horas semanales que los estudian-
tes dedican al estudio, disminuye el número de horas semanales
que dedican a las distracciones.
En el gráfico (c) no hay ninguna relación entre X e Y; mien-
tras que el gráfico (d) muestra una relación curvilínea negativa
entre X e Y. Tomemos como ejemplo, la relación entre el valor de
reventa de un edificio escolar y sus años de uso; en el primer año,
el valor de reventa puede sufrir un fuerte descenso en su precio
original, luego, el valor de reventa disminuye con mucha menos
rapidez en los años siguientes.
Los gráficos propuestos son algunos tipos de gráficos que se
podrían utilizar para representar la relación entre dos variables;
sin embargo, los diagramas de dispersión no son suficientes para
determinar la relación entre ellas. Es necesario que utilicemos
procedimientos estadísticos para determinar la relación funcio-
nal más apropiada para un conjunto de datos (xi , yi ) a los que se
les denomina pares de observaciones.
Este tipo de gráfico se utiliza para la predicción. Es decir, a
partir de la relación entre dos variables, conocer en qué medida

215
se mantiene el aumento o crecimiento de una variable a partir del
aumento de otra variable o viceversa.

Ajuste de una función de regresión:


método de mínimos cuadrados

Ajustar una función de regresión significa buscar o definir la fun-


ción que exprese con mayor precisión la relación entre las varia-
bles X e Y. Gráficamente será aquella función que mejor se ade-
cue a la nube de puntos (xi , yi ) . En este sentido, es recomendable
como primer paso construir el "diagrama o nube de puntos", lue-
go analizar su forma y decidir el tipo de función matemática para
la ecuación de regresión usando el método de mínimos cuadra-
dos ordinarios.
Sólo son necesarios dos puntos para dibujar la línea recta
que representa esta relación lineal. La ecuación de una recta puede
expresarse como L: y = bxi + a , en donde a es el intercepto y
b es la pendiente de la recta. Esta recta queda determinada me-
diante la estimación de los parámetros a y b . Un procedimiento
matemático utilizado para estimar estos valores se denomina el
método de mínimos cuadrados ordinarios (MCO). El método de
MCO producirá una recta, Yˆ , que se extiende por el centro del
diagrama de dispersión. Los valores de Yˆ representan a los va-
lores estimados de la variable dependiente o respuesta. La dife-
rencia entre los valores observados de Y, yi ,sus respectivos va-
lores estimados de Yˆ , yi , es el error. Debido a que algunos erro-
res son negativos o algunos positivos, el MCO producirá una recta
tal que la suma de esos errores sea cero, es decir, ∑ ( yi − yˆ i ) = 0.
Obtenemos la estimación de a y b por el método MCO de
n 2

tal manera que el valor de SSE = ∑ ( yi − yˆ i ) sea mínimo, donde:


i =1

Y: es la variable dependiente o respuesta,


b : es la pendiente de la línea, llamada también coeficiente de
regresión para predecir la variable Y
a : es la constante.

216
Se demuestra que los valores a y b que hacen mínimo SSE,
satisfacen el denominado sistema de ecuaciones normales:

n n

∑ yi = an + b∑ xi
i =1 i =1

n n n

∑ xi yi = a ∑ xi + b∑ xi
i =1 i =1 i =1

De ese sistema se deducen los siguientes valores para las


constantes a y b :

n n n n

∑ y ∑x −∑x ∑x y
i
2
i i i i
a= i =1 i =1 i =1 i =1
2
n
 n 
n ∑ xi2 −  ∑ xi 
i =1  i =1 

n n n
n ∑ xi yi − ∑ xi ∑ yi
b= i =1 i =1 i =1
2 ,

n
 n
n ∑ x −  ∑ xi 
2
i
i =1  i =1 

yˆ i = bxi + a se denomina la recta de regresión de mínimos


cuadrados o recta de regresión ajustada por el método de míni-
mos cuadrados. La línea de regresión (o recta de predicción) es la
línea recta que mejor representa la tendencia de los puntos en un
diagrama de dispersión.
La recta de regresión nos permite, basándonos en los datos
muestrales, estimar el valor yi de una variable Y - y denotar con
ŷi - correspondiente a un valor dado xi para una variable X ; es
suficiente reemplazar el valor de xi en la línea de regresión y en-
contraremos el correspondiente valor estimado para ŷi .
La ecuación general de la recta de regresión estimada por el
método de mínimos cuadrados es la siguiente: Yˆ = a + bX .

217
Ejemplo 5.1

Con los datos de la Tabla Nº 5.1, se hace el diagrama de disper-


sión y se utiliza el método de mínimos cuadrados para encontrar
el coeficiente de regresión lineal. ¿Cuál será el rendimiento en
educación superior (Y) para un estudiante con nota promedio 12
de rendimiento en secundaria (X)?.

Tabla 5.1: Rendimiento académico en secundaria y


en educación superior de un grupo de alumnos

ESTUDIANTES Notas en secundaria Rendimiento en


xi educación superior
yi

1 16 15
2 13 11
3 15 17
4 12 14
5 11 11
6 16 14
7 13 15
8 10 12

Solución

Usando los comando del SPSS hacemos el diagrama de disper-


sión presentado en la Figura Nº 5.1.

a) Creamos la base de datos con las dos variables y selecciona-


mos los comandos siguientes.
b) GRAPHS/INTERATIVE/SCATTER/colocar en el eje X la
variable NOTAS DE SECUNDARIA y en el eje Y la variable
RENDIMIENTO EN EDUCACIÓN SUPERIOR/ FIT/ en FIT
LINE escoger TOTAL/ACEPTAR.

218
Figura Nº 5.1: Diagrama de dispersión de rendimiento en
secundaria y rendimiento en superior de un grupo de alumnos
Rendimiento en secundaria

Rendimiento en superior

c) Se realizan los cálculos necesarios para estimar a y b :

xi yi xi2 xi yi
16 15 256 240
13 11 169 143
15 17 225 255
12 14 144 168
11 11 121 121
16 14 256 224
13 15 169 195
10 12 100 120

106 109 1440 1466

8 8 8 8

∑ y ∑x −∑x ∑x y
i
2
i i i i
109 × 1440 − 106 × 1466
a= i =1 i =1 i =1 i =1
= = 5.51,
8 × 1440 − (106)
2 2
8
  8
n ∑ xi2 −  ∑ xi 
i =1  i =1 
n n n
n ∑ xi yi − ∑ xi ∑ yi
8 × 1466 − 106 × 109
b= i =1 i =1 i =1
= = 0.61,
8 × 1440 − (106)
2 2
n
  n
n ∑ xi2 −  ∑ xi 
i =1  i =1 

219
y luego la recta de regresión estimada por el método de míni-
mos cuadrados, de Y sobre X es la siguiente:

Yˆ = 5.51 + 0.61 X

Si un estudiante obtiene un rendimiento de 12 en secunda-


ria, entonces su rendimiento esperado en educación secundaria
se obtiene reemplazando el valor dado para X ( =12) en la recta
definida, es decir:

Yˆ = 5.51 + 0.61 × 12 = 5.51 + 7.32 = 12.83.

Entonces, podemos estimar que un estudiante que obtuvo


un rendimiento en secundaria de 12, obtendrá aproximadamen-
te 12.83 en educación superior.

Ejemplo 5.2

Se trata de un estudio sobre el rendimiento escolar. Se desea ajus-


tar la recta de regresión entre los años de escolaridad de la ma-
dre (X) y las calificaciones de sus hijos en una prueba de mate-
máticas. Los datos son los siguientes:

Estudiantes Años de escolaridad de Calificaciones de los hijos


la madre en una prueba de
( xi ) Matemática
( yi )

1 8 12
2 5 8
3 3 8
4 6 10
5 7 10

220
Solución

a) El diagrama de dispersión nos indica que existe una buena


relación entre las variables.

Años de escolaridad de la madre y calificaciones de los hijos


en una prueba de matemática
Calificaciones en matemática

Años de escolaridad de la madre

Se observa que existe una relación directa y positiva entre


los años de escolaridad de la madre y las calificaciones en una
Prueba de matemática de los hijos.

b) En el siguiente cuadro se presentan los cálculos auxiliares


para encontrar los coeficientes de la ecuación de regresión.

Estudiantes xi yi xi yi xi2 yi2

1 8 12 96 64 144
2 5 8 40 25 64
3 3 8 24 9 64
4 6 10 60 36 100
5 7 10 70 49 100

Totales 29 48 290 183 472

221
8 8 8 8

∑ y ∑x −∑x ∑x y
i
2
i i i i
( 48)(183) − ( 29( 290)
a= i =1 i =1 i =1 i =1
2
= =5.05
8
  8 5(183) − ( 29) 2
n ∑ xi2 −  ∑ xi 
i =1  i =1 

n n n
n ∑ xi yi − ∑ xi ∑ yi
(5)( 290) − (29)( 48)
b= i =1 i =1 i =1
2
= = 0.78.
n
  n 5(183) − (29)2
n ∑ xi2 −  ∑ xi 
i =1  i =1 

La ecuación de regresión que va a servir para predecir el


desempeño de los hijos en función de los años de escolaridad de
la madre es la siguiente: Yˆ = 5.05 + 0.78 X .

Ejemplo 5.3

Resolveremos el ejemplo 5.2 con el auxilio del SPSS.

Solución

Presentamos la solución con el auxilio del SPSS, pero previamente


se tiene que crear la base de datos.
a) Para hacer el diagrama de dispersión se ejecutan los siguien-
tes comandos:
GRAPHS/INTERATIVE/SCATTER/colocar en el X la varia-
ble AÑOS DE ESCOLARIDAD y en el eje Y la variable REN-
DIMIENTO/ FIT/ en FIT LINE escoger TOTAL/ACEPTAR.

b) Para encontrar la ecuación de la recta de regresión, los co-


mandos son los siguientes:
ANALYZE / REGRESSION/LINEAR/ en DEPENDENT es-
coger CALIFICACIONES y en INDEPENDENT escoger
AÑOS DE ESCOLARIDAD/ STATISTICS/ activar ESTIMA-
TES y MODEL FIT/OK.

222
El output del SPSS muestra lo siguiente.

Linear
Regression

y = 5.05 + 0.78 * X
R-Square = 0.81
Y

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) 5.054 1.318 3.834 .031


Años de escolaridad
de la madre .784 .218 .901 3.597 .037

a. Dependent variable: Calificaciones en una prueba de matemática

a
b

La recta de regresión lineal simple ajustada por el método de


mínimos cuadrados es:

Yˆ = 5.054 + 0.784 X ,

223
donde, manteniendo constante la variable años de escolaridad
de la madre aun podemos estimar la calificación promedio de los
hijos en la prueba de matemática, en 5.054 puntos. Un incremento
en los años de escolaridad de la madre de un año, por ejemplo, es
acompañado por un incremento en la calificación de sus hijos en la
prueba de matemática en 0.784 puntos.

Pruebas de hipótesis

La ecuación de regresión lineal simple indica que el valor medio


o esperado de y es una función lineal de X : E ( y ) = a + bX . Si el
valor de b no es igual a cero, llegamos a la conclusión de que las
dos variables se relacionan. Así, para probar si hay alguna rela-
ción importante debemos efectuar una prueba de hipótesis para
determinar si el valor de b no es igual a cero. Existen dos prue-
bas que se usan con más frecuencia. En ambas se requiere una
estimación de σ2.

Prueba t

La prueba t se utiliza para probar la significancia de los paráme-


tros en el modelo de regresión lineal simple.
Usaremos los datos de la muestra para obtener las siguien-
tes hipótesis acerca del parámetro b :

Paso 1:

Se plantea como hipótesis nula que el coeficiente b es igual a cero


y la hipótesis alternativa niega dicho enunciado.

H0 : b = 0
H1 : b ≠ 0

Paso 2: La estadística de prueba


t= tiene distribución t(n −1)
Sbˆ

224
donde:

b̂ : estimador del parámetro b .


S
Sbˆ = es la desviación estándar de b̂ .
∑ (X )
2
i − X

Con los datos de la muestra se encuentra el valor de la esta-


dística de prueba, tc .

Paso 3:
α
Para un nivel de significancia α, P[t(n −1) < tteórico ] = 1 − . En la ta-
2
bla - t-Student se obtiene tteórico .

Paso 4:

Rechazamos H 0 si tc < −tα / 2 o tc > tα / 2 .


Con el valor p - valor: Rechazamos H 0 si el valor p - valor <
α, donde tα / 2 se basa en una distribución t con n − 2 grados de
libertad.
Si se Rechaza H 0 la conclusión será que b ≠ 0 y que hay una
relación estadísticamente significativa entre las dos variables. Sin
embargo, si no se puede rechazar H 0 , no tendremos la evidencia
suficiente para decir que existe una relación significativa.
Resumen de las hipótesis, estadística de prueba y regla de
decisión:

Hipótesis Estadística de prueba Regla de decisión


Rechazar la hipótesis nula, si:

H0 : b = 0 bˆ
t= tc > t(1−α )
H1 : b > 0 Sbˆ

H0 : b = 0 bˆ tc < −t(1−α )
t=
H1 : b < 0 Sbˆ

H0 : b = 0 bˆ tc < −tα / 2 o tc > tα / 2


t=
H1 : b ≠ 0 Sbˆ

225
Ejemplo 5.4

Utilizando la información del ejemplo 5.3 realizaremos la prue-


bas de hipótesis acerca del parámetro b .

Solución

Paso 1: En la hipótesis nula se postula que el grado de escolari-


dad de la madre no explica el comportamiento de las calificacio-
nes de los estudiantes:
H0 : b = 0
H1 : b ≠ 0

Paso 2: El valor de la estadística de prueba se calcula con los


resultados del SPSS,

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) 5.054 1.31 8 3.834 .031


ESCOLARI .784 .21 8 .901 3.597 .037

a. Dependent variable: CALIFICA

a
b
Sbˆ Saˆ

El valor de la estadística de prueba es:

bˆ 0,784
tc = = = 3.596
Sbˆ 0,218

226
[ ]
Paso 3: Para = α = 0,05, P t(5 ) < tteórico = 0.975 . En la tabla t con 5
grados de libertad se encuentra el valor de tc = 3.596.

Paso 4: Como tc = 3.596 > t0, 975 = 3.16 , rechazamos H 0 y conclui-


mos que es significativo en el modelo, considerando un nivel de
significación de 0.05.

Análisis de correlación lineal

Tipos de correlación lineal

Y Y

. .
... .. . .
.. . . . .
. . . X X
a) Correlación positiva b) Correlación negativa

Y
. . .
.. . . ...
. . . . . . c) Correlación nula
. ..
. . . .. .

Correlación positiva o directa

Se dice que la correlación entre dos variables X e Y es positiva o


directa, cuando al aumentar la medida de una de las variables,
la otra variable también aumenta, esto se puede observar en el
gráfico (a).

227
Ejemplo 5.5

En la Tabla Nº 5.3 nos muestra las puntuaciones en Literatura


(X), y las puntuaciones en Lenguaje (Y ) de un grupo de alumnos
de un Centro Educativo. Haremos el diagrama de dispersión de
estas dos variables.

Tabla Nº 5.3: Puntuaciones en Literatura vs


Puntuaciones en Lenguaje de un grupo de alumnos

Nº SUJETO xi yi
1 5 12
2 8 20
3 12 30
4 16 30
5 16 42
6 24 40
7 8 50

Solución

Diseñando el diagrama de dispersión para las variables en estu-


dio tenemos:

Figura Nº 5.2
Puntuaciones en Literatura y Lenguaje de un grupo de alumnos
Puntuaciones en Literatura

Puntuaciones en Lenguaje

228
Como se puede observar, cuando aumenta el valor de la varia-
ble X también aumenta el valor de la variable Y, de esto se concluye
que existe correlación positiva o directa entre las puntuaciones en
Literatura y puntuaciones en Lenguaje.

Correlación negativa o inversa

Se dice que la correlación entre dos variables X e Y es inversa o


negativa, cuando al aumentar la medida de una de las variables,
los valores de la otra disminuye, esto se puede observar en el grá-
fico (b).

Ejemplo 5.6

La Tabla Nº 5.4, nos muestra las puntuaciones en Literatura (X)


y las puntuaciones en Matemática (Y) de un grupo de alumnos
de un determinado Centro Educativo. Haremos el diagrama de
dispersión.

Tabla Nº 5.4: Puntuaciones en Literatura vs Puntuaciones en


Matemática de un grupo de alumnos

alumnos xi yi

1 10 30

2 30 15

3 38 37

4 40 25

5 60 35

6 65 05
7 80 20

8 90 10

229
Solución

Realizamos el diagrama de dispersión de las puntuaciones en


matemática y literatura; el output del SPSS nos muestra la si-
guiente figura.

Figura Nº 5.3
Puntuaciones en Literatura y Matemática de un grupo de alumnos
Puntuaciones en Literatura

Puntuaciones en Matemática

Como se puede apreciar, frente al aumento de las puntuaciones


en literatura (X ) disminuye las puntuaciones en matemática (Y ),
entonces la correlación entre X e Y es negativa o inversa.

Correlación nula

La correlación es nula, cuando las variables no están correlacio-


nadas entre sí, esto lo podemos observar en el gráfico (c).

Ejemplo 5.7

En la Tabla Nº 5.5 la variable X corresponde a las puntuaciones


en Deporte y la variable Y corresponde a las puntuaciones en
Matemática de un grupo de alumnos.

230
Tabla Nº 5.5:
Puntuaciones en deporte vs. puntuaciones en
matemática de un grupo de alumnos

Nº sujeto xi yi
1 02 20
2 04 15
3 04 35
4 08 05
5 08 40
6 14 05
7 14 15
8 14 40
9 18 20
10 18 35

Solución

Realizando el diagrama de dispersión para las variables X e Y


tenemos:

Figura Nº 5.4:
Puntuaciones en Deporte en Matemática de un grupo de alumnos
Puntuaciones en Deporte

Puntuaciones en Matemática

Como se puede apreciar no existe una relación lineal entre las


puntuaciones en deporte (X ) y las puntuaciones en matemática (Y
).

231
Coeficiente de correlación de Pearson (r)

Obtención del coeficiente

El objetivo del análisis de correlación de Pearson es medir la in-


tensidad de la asociación observada entre dos variables cuanti-
tativas. También, representa la magnitud de la relación lineal
entre dos variables.

Promedio de los valores estandarizados

Algunas preguntas que puede responderse con el coeficiente de


correlación de Pearson son las siguientes:
¿Los estudiantes que leen más rápido que otros, tienden tam-
bién a tener mejor rendimiento en el curso de matemáticas?.
¿Se relaciona directamente el tiempo de servicios en la do-
cencia de los profesores con el salario promedio que reciben?.
¿Los alumnos que tienen altos coeficientes de inteligencia
tienden a tener notas altas en los cursos de lenguaje y literatura?.
El coeficiente de correlación de Pearson se utiliza en el aná-
lisis de información cuantitativa cuando se desea medir la aso-
ciación lineal entre dos variables cuantitativas.
Sus valores varían entre +1 y -1. El valor de +1, indica una
relación lineal directa y perfecta; el valor -1, una relación lineal
inversa y perfecta. El valor 0, indica ausencia de relación lineal.
Para obtener este coeficiente hay una gran variedad de ex-
presiones matemáticas que son equivalentes destacando las si-
guientes:

a ) Para puntuaciones directas

Sean { x1 ,...., xn } e { y1 ,..., yn } conjunto de pares de observacio-


nes de las variables X e Y. A continuación, en forma general se
presentan los cálculos auxiliares que facilitan la obtención del
coeficiente de correlación de Pearson y que posteriormente se ilus-
tarará con ejemplos.

232
Individuos xi yi xi2 yi2 xi yi
1 x1 y1 x12 y12 x1 y1
2 x2 y2 x22 y 2
2 x2 y 2
3 x3 y3 x32 y32 x3 y3
... ... ... ... ... ...
n xn yn x 2
n y 2
n xn yn
n n n n n

Totales ∑ xi
i =1
∑ yi
i =1
∑ xi2
i =1
∑ yi2
i =1
∑x y
i =1
i i

Luego, la fórmula para calcular el coeficiente de correlación


de Pearson es la siguiente:

n ∑ xi yi − (∑ xi )(∑ yi )
r=
[n∑ x 2
i
2
][
− (∑ xi ) n ∑ yi2 − (∑ yi )
2
]
b) Para puntuaciones Z (puntuaciones típicas)

Si los valores observados de la muestra previamente han sido


xi − x
tipificados según las siguientes fórmulas: z xi = y
s xi
yi − y
z yi = donde
s yi

∑ (x − x ) ∑ (y )
n n
2 2
n n −y
∑x ,
i i
x= i y= ∑y i , s xi = i =1 , s yi = i =1
i =1 i =1 n −1 n −1

el coeficiente de correlación de Pearson toma la siguien-


te forma:
n

∑z xi z yi
r = i =1
n −1

233
luego, mediante una prueba de hipótesis, comprobar si es ma-
yor de lo que podría esperarse solamente por casualidad.

Propiedades

El valor de r va de -1 a +1, de donde se deduce que:


a) Si r > 0, existe correlación directa positiva,
b) Si r < 0, existe correlación inversa negativa,
c) Si r = +1, existe una correlación perfecta positiva,
d) Si r = -1, existe una correlación perfecta negativa,
e) Si r = 0, no existe correlación o los datos están incorrelacio-
nados.

Para los valores intermedios entre 0 y 1, se deduce por ejem-


plo que si:
a) 0 ≤ r < 0,20 , la correlación es muy baja,
b) 0,20 ≤ r < 0,40 , existe una correlación baja,
c) 0,40 ≤ r < 0,70 , existe una buena correlación positiva,
d) 0,70 ≤ r < 1,00 , existe muy buena correlación positiva,
e) r = 1,00 , existe una perfecta correlación positiva,
f) − 1.0 ≤ r < −0.70 , existe muy buena correlación inversa,
g) r = −1,00 , existe una perfecta correlación inversa.

Prueba de hipótesis para el coeficientes de correlación de


Pearson

Luego de obtener el coeficiente de correlación de Pearson, el in-


vestigador puede plantearse preguntas como la siguiente: ¿ Es
estadísticamente significativa la relación entre el coeficiente de
inteligencia de un estudiante y su rendimiento académico?.
A continuación se presentan los pasos a seguir para realizar
pruebas de hipótesis relativas al coeficiente de correlación de
Pearson.

Paso 1: Postular la hipótesis de investigación como la hipótesis


alternativa, juntamente con otra hipótesis que la niega y a la que
se denomina hipótesis nula.

234
En la hipótesis nula se postula que no existe asociación entre
las variables, y en la hipótesis alternativa: se postula que existe
asociación entre las variables. La representación es la siguiente:
H0 : ρ = 0
H1 : ρ ≠ 0

donde ρ es el coeficiente de correlación poblacional entre


las dos variables.

Paso 2: Se sabe que la siguiente estadística está en función del


coeficiente de correlación muestral y bajo la hipótesis nula tiene
distribución t-Student con (n − 2) grados de libertad.

r
t= ~ t (n − 2) ,
1 − r2
n−2

por lo que se usa como la estadística de prueba para con-


trastar la hipótesis nula frente a la hipótesis alternativa. Denote-
mos con tc el valor de la estadística de prueba.

Paso 3: Como la hipótesis alternativa es de la forma " ≠ ", la prue-


ba de hipótesis que se está planteando es bilateral y la región crí-
tica será el intervalo (-∞,- tteórico )U( tteórico , ∞) y donde " tteórico " es la
abcisa de la distribución t-Student con (n − 2) de libertad, de
manera que P (t( n −2 ) < tteórico ) = 1 − α 2 .
Así por ejemplo, si se elige el nivel de significación α = 0.05 y
(
el tamaño de muestra es 23, se cumple P t( 21) < tteórico = 0.975 . )
Luego, en la tabla t-Student se encuentra que el valor de tteórico es
2.08, por lo que la región de rechazo de la hipótesis nula es el
intervalo (-∞,-2.08)U(2.08, ∞).

Paso 4: Decisión: Rechazar la hipótesis nula de que no existe


relación entre las variables cuando tc cae en la región de rechazo
de la hipótesis nula.

235
Ejemplo 5.8

En la siguiente tabla se tiene la información para una muestra


aleatoria de 12 estudiantes que estudiaron el primer año de se-
cundaria en el colegio Cabrera Tapia el año 2000. El primer día
de clases a todos ellos se les aplicó una prueba para obtener sus
coeficientes de inteligencia (X) en la escala Stanford-Binet y al
término del año se les aplicó una prueba de 35 items para eva-
luar su rendimiento en Matemáticas. α = 0.05.
Dicha tabla se acompaña con los cálculos necesarios para
obtener el coeficiente de correlación de Pearson.

Solución

X: puntajes obtenidos en la prueba Stanford- Binet


Y: rendimiento en matemáticas

Tabla Nº 5.7 Rendimiento de los estudiantes en matemáticas y puntajes


obtenidos en la prueba Stanford- Binet

Estudiante CI Puntaje

xi yi xi2 yi2 xi yi
1 120 17 14400 289 2040
2 112 15 12544 225 1680
3 110 15 12100 225 1650
4 120 19 14400 361 2280
5 103 12 10609 144 1236
6 126 20 15876 400 2520
7 113 15 12769 225 1695
8 114 17 12996 289 1938
9 106 14 11236 196 1484
10 108 14 11664 196 1512
11 128 19 16384 361 2432
12 109 14 11881 196 1526

Totales 1369 191 156859 3107 21993

236
Obtenemos el coeficiente de correlación de Pearson r

12(21993) − 1369(191)
r= = 0,953
(12(156859) − (1369) )(12(3107) − (191) )
2 2

En la muestra se observa muy buena correlación directa y


positiva entre coeficiente de inteligencia y el rendimiento acadé-
mico en el curso de matemáticas.
¿Es estadísticamente diferente de cero el valor encontrado?.
Responderemos la pregunta con la metodología de pruebas de
hipótesis.

Solución

Paso 1: No existe asociación entre el coeficiente de inteligencia


y el rendimiento académico es la hipótesis nula, y la hipótesis
alternativa niega esa afirmación.

H0 : ρ = 0
H1 : ρ ≠ 0

Paso 2: Para el coeficiente de correlación muestral r = 0.953 y


tamaño de muestra 12, el valor de la estadística de prueba es:

0.953
tc = = 9.93
1 − 0.9532
10

Paso 3: Para encontrar la región crítica, se tiene en cuenta que α


( )
= 0.05, n = 12 y P t(10) < tteórico = 0.975 . Por tanto, en la tabla t-
Student se encuentra el valor de tteórico = 2.228. La región de re-
chazo de la hipótesis nula es el intervalo (-∞,-2.228)U(2.228, ∞).

Paso 4: Como el valor de tc = 9.93 cae en la región de rechazo de


la hipótesis nula, la decisión es rechazar la hipótesis de que no
existe asociación entre el rendimiento académico y los coeficien-
tes de inteligencia, para un nivel de significación 0.05.

237
Ejemplo 5.9

Obtendremos el valor del coeficiente de correlación para los da-


tos ejemplo 5.7 usando la fórmula de variables estandarizadas.
Previamente los valores de la variable serán estandarizados.
a) La estandarización de las variables se realiza con el auxilio
del SPSS, para lo que, previamente, con los datos del ejem-
plo 5, se crea la base de DATOS9-pearson. Los comandos son
los siguientes:
Abrir la base de DATOS9-pearson y ejecutar los comandos/
ANALYZE/DESCRIPTIVE STATISTICS/DESCRIPTIVE/se-
leccionar las variables COEFICIENTE DE INTELIGENCIA
y RENDIMIENTO ACADÉMICO/activar SAVE STANDAR-
DIZED VALUES AS VARIABLES/OK.
En el editor del SPSS junto a los valores de las variables X e Y
se han creado dos columnas con los valores de las variables
originales estandarizadas, z xi z yi .

xi yi z xi z yi
120 17 0.7531 0.4392
112 15 -0.2651 -0.3716
110 15 -0.5197 -0.3716
120 19 0.7532 1.2501
103 12 -1.4107 -1.5879
126 20 1.5168 1.6555
113 15 -0.1379 -0.3716
114 17 -0.0106 0.4392
106 14 -1.0289 0.7771
108 14 -0.7743 -0.7771
128 19 1.7714 1.2501
109 14 -0.6470 -0.7771

b) Para calcular el coeficiente de correlación, ejecutar los siguien-


tes comandos del SPSS:
ANALYZE/CORRELATE/BIVARIATE/ seleccionamos las
variables originales y las variables estandarizadas/activar
PEARSON/ OK.

238
En el output del SPSS se lee:

rendimiento Zscore:
rendimiento
( z yi )

coeficiente de
inteligencia Pearson Correlation .953 .953
Zscore: coeficiente
de inteligencia ( z yi ) Pearson Correlation .953 .953
n

∑z xi z yi
r = i =1 = 0.953.
n −1

El valor del coeficiente de correlación entre las variables estan-


darizadas coinciden con el ya encontrado manualmente en el ejem-
plo anterior con los valores originales y con el también muestra el
output del SPSS para las variables originales coeficiente de inteli-
gencia y rendimiento.
En lo que corresponde a pruebas de hipótesis, los pasos y
resultados son similares a los del ejemplo anterior.

Ejemplo 5.10

Se trata de un estudio sobre el rendimiento escolar. Se desea sa-


ber si existe correlación entre los años de escolaridad de la ma-
dre y las calificaciones de sus hijos en una prueba de matemáti-
cas. Los datos son los siguientes.

Tabla Nº 5.6 Años de escolaridad de la madre y


calificaciones en una prueba de matemáticas

Estudiantes Años de escolaridad Calificaciones de los hijos en


de la madre ( X ) una prueba de Matemática ( Y )

1 8 12
2 5 8
3 3 8
4 6 10
5 7 10

239
En el siguiente cuadro se presentan los cálculos auxiliares:

Estudiantes xi yi xi yi xi2 yi2

1 8 12 96 64 144

2 5 8 40 25 64

3 3 8 24 9 64

4 6 10 60 36 100

5 7 10 70 49 100

n=5 29 48 290 183 472

Reemplazando los valores obtenidos en la ecuación de r para


puntuaciones directas obtenemos:

5(290) − (29 )(48) 58


r= = = 0,9
[5(183) − (29) ][5](472) − (8)
2 2
74 x56

El valor de +0,9 significa una alta correlación positiva, es


decir, el nivel de escolaridad de la madre está asociado lineal-
mente al rendimiento académico de sus hijos en matemática.

Ejemplo 5.11

En la Tabla Nº 5.8 se tiene información de una muestra aleatoria


de 15 alumnos del Centro Educativo "Teresa Gonzales de Fan-
ning". La encuesta fue aplicada a 150 estudiantes en Abril de 1998.
Se desea obtener el coeficiente de correlación entre las variables
puntajes obtenidos en aritmética y lenguaje.

240
Tabla Nº 5.8: Rendimiento y Edades de una muestra de estudiantes del
Colegio Teresa Gonzales de Fanning, 1998

Estud. Aritmética Lenguaje Edad Rendimiento


Promedio

1 15 16 14 13
2 14 15 14 14
3 13 12 15 14
4 12 12 16 14
5 11 10 16 12
6 13 15 17 15
7 15 15 17 15
8 15 16 16 14
9 16 17 15 14
10 12 15 15 14
11 11 12 16 9
12 8 9 17 11
13 10 11 17 13
14 15 14 18 15
15 13 15 15 13

Se ilustra los cálculos auxiliares del coeficiente de correla-


ción de Pearson con los valores observados de las variables notas
en aritmética (X ) y notas en lenguaje (Y ).

Estudiantes xi yi xi2 xi yi yi2


1 15 16 225 240 256
2 14 15 196 210 225
3 13 12 169 156 144
4 12 12 144 144 144
5 11 10 121 110 100
6 13 15 169 195 225
7 15 15 225 225 225
8 15 16 225 240 256
9 16 17 256 272 289
10 12 15 144 180 225

Totales 193 204 2553 2691 2856

∑x i = 193 ∑y i = 204 ∑x 2
i = 2553 ∑x y
i i = 2691 ∑y 2
i = 2856

241
Luego reemplazando en la fórmula, el coeficiente de correla-
ción entre las notas de aritmética y lenguaje vale:

15(2691) − 193(204 )
r= = 0,878
15(2553) − (193) 15(2856) − (204 )
2 2

Se observa una correlación alta y positiva entre los puntajes


obtenidos en los cursos de aritmética y lenguaje.
¿Es estadísticamente significativo el coeficiente de correla-
ción encontrado?. Responderemos con la metodología de prue-
bas de hipótesis.

Paso 1: En la hipótesis nula postulamos que no existe asociación


entre las notas de matemáticas y lenguaje y la hipótesis alterna-
tiva niega esa afirmación.

H0 : ρ = 0
H1 : ρ ≠ 0

Paso 2: Para el coeficiente de correlación muestral r = 0.878 y


tamaño de muestra 15, el valor de la estadística de prueba es:

0.878
tc =
1 − 0.8782 = 6.61
13

Paso 3: Para encontrar la región crítica, se tiene en cuenta que


( )
α = 0.05, 15 y P t(13) < tteórico = 0.975 . Por tanto, en la tabla t-Stu-
dent se encuentra el valor de tteórico = 2.16. La región de rechazo
de la hipótesis nula es el intervalo (-∞,-2.16)U(2.16, ∞).

Paso 4: Como el valor de tc = 6.61 cae en la región de rechazo de


la hipótesis nula, la decisión es rechazar la hipótesis de que no
existe asociación entre las notas de matemáticas y lenguaje, a un
nivel de significación 0.05.

242
Ejemplo 5.12

Para una muestra aleatoria de 7 docentes universitarios de la


Facultad de Derecho de una universidad prestigiosa se dispone
de la siguiente información con respecto a sus sueldos y el tiem-
po de servicio en la docencia. Obtendremos la relación entre esas
variables y veremos si la correlación encontrada es estadística-
mente significativa.

Solución

X: Años de servicio de los docentes Y: Sueldos de los docentes

a) Obtenemos el coeficiente de correlación con la fórmula origi-


nal, para lo cual realizamos los siguientes cálculos auxiliares:

profesor Años de sueldos


xi2i yi2i xi yi
servicio xi yi
1 16 1182 256 1397124 18912
2 14 1341 196 1798281 18774
3 14 1561 196 2436721 21854
4 23 1437 529 2064969 33051
5 9 1415 81 2002225 12735
6 19 1462 361 2137444 27778
7 19 1288 361 1658944 24472

n n n n n

Totales ∑x
i =1
i = ∑y i = ∑x
i =1
2
i = ∑y
i =1
2
i = ∑x y =
i =1
i i
i =1

114 9686 1980 13495708 157576

n ∑ xi yi − (∑ xi )(∑ yi )
r=
[n∑ x 2
i
2
][
− (∑ xi ) n ∑ yi2 − (∑ yi )
2
]=
7(157576) − (114)(9686)
=
[7(1980) − 114 ][7(13495708) − 9686 ]
2 2

= -0.05

243
El valor obtenido nos indica una correlación nula entre las
variables involucradas. Es decir, para la muestra analizada las
variables años de servicio y sueldos no están correlacionadas.

Ejemplo 5.13

Usando la base DATOS11-educación se ajusta la recta de re-


gresión entre las variables rendimiento promedio y rendi-
miento en el curso de álgebra, usando el método de mínimos cua-
drados. Se obtienen el coeficiente de correlación y el diagrama
de dispersión.

Solución

Para el diagrama de dispersión, ajuste de la recta, el gráfico de la


recta de regresión ajustada por el método de mínimos cuadra-
dos, y el coeficiente de correlación, ejecutamos los siguientes co-
mandos:

a) Abrir el archivo de DATOS11-educación.


GRAPHS/INTERATIVE/SCATTER/colocar en el X la varia-
ble ALGEBRA y en el eje Y la variable RENDIMIENTO PRO-
MEDIO/ FIT/ en FIT LINE escoger TOTAL / ACEPTAR.

b) Para encontrar la ecuación de la recta de regresión, los co-


mandos son los siguientes:
ANALYZE / REGRESSION/LINEAR/ en DEPENDENT es-
coger RENDIMIENTO PROMEDIO y en INDEPENDENT es-
coger ÁLGEBRA/ STATISTICS/ activar ESTIMATES y MO-
DEL FIT/OK.

c) ANALYZE / CORRELATE /BIVARIATE/ seleccionamos las


variables originales y las variables estandarizadas/activar
PEARSON/ OK.
El output del SPSS nos muestra lo siguiente:

244
a) El diagrama de dispersión y el gráfico de la recta de regresión
ajustada por el método de mínimos cuadrados.

Notas de álgebra y calificación promedio de


profesores de educación secundaria
Notas promedio

Notas álgebra

Observamos que las notas de álgebra y las calificaciones pro-


medio de profesores que participaron en el programa de capaci-
tación, tienen una relación directa y positiva.

b) El coeficiente de correlación de Pearson:

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate

1 .925ª .855 .852 .52

a. Predictors: (Constant), NOTAS de ÁLGEBRA

r = 0,925 Coeficiente de correlación lineal

Se tiene una correlación alta y positiva entre las notas de álge-


bra y las calificaciones promedio que alcanzaron los profesores que
participaron en el programa de capacitación.

245
c) Los coeficientes de la recta de regresión son:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) 3.853 .477 8.071 .000


NOTAS DE ÁLGEBRA .708 .043 .925 16.299 .000

a. Dependent variable: NOTAS PROMEDIO

a b

y la recta de regresión ajustada por el método de mínimos cua-


drados es:

Yˆ = 3.853 + 0.708X,

donde, manteniendo constante la variable notas de álgebra


aún podemos estimar la calificación promedio en 3.853 puntos.
Un incremento en la notas de álgebra de un punto, por ejemplo,
es acompañado por un incremento en la calificación promedio
de los profesores de educación secundaria en 0.708 puntos.

Regresión lineal múltiple

Introducción

En un modelo de regresión lineal múltiple, la variable dependien-


te o respuesta (Y ) es una función de dos o más variables inde-
pendientes o regresoras. Un modelo de regresión con k variables
independientes o regresoras se puede expresar así:

Y = f (X 1 , X 2 , X 3 ,..., X k )

246
Explicaremos el análisis de regresión lineal múltiple con los
datos de la siguiente tabla, en la que se muestra los coeficientes
de inteligencia (IQ), los promedios de calificaciones y el tiempo
que 12 estudiantes dedican al estudio. Se desea predecir el pro-
medio de las calificaciones de estos estudiantes en función de sus
coeficientes de inteligencia y de los tiempos que dedican al estu-
dio. Se puede observar que se tiene dos variables, coeficiente de
inteligencia y tiempo dedicado al estudio, para explicar el com-
portamiento de las calificaciones promedio de los estudiantes.
Para el problema descrito se postula la forma general del mo-
delo de regresión lineal múltiple:

Y = β 0 + β1 X 1 + β 2 X 2 + e

donde:

Y: variable aleatoria denominada variable dependiente,


β 0 , β1 , β 2 : parámetros del modelo de regresión lineal múltiple,
X1 , X 2 : variables independientes,
e: error aleatorio, mide el desajuste entre la realidad y
el modelo,

Esta ecuación es muy similar a la utilizada en la regresión li-


neal simple, excepto que agregamos otra variable independiente.
Para estimar los parámetros β 0 , β1 , β 2 se toma una muestra
de los valores ( yi , x1i , x2 i ) i = 1,..., n , y para cada individuo se
tiene el siguiente sistema de ecuaciones, yi = β 0 + β1 x1i + β 2 x2i + ei ,
donde yi es el i-ésimo valor de la variable Y, x1i , x2 i , los i-ési-
mos valores de las variables independientes X 1 , X 2 , por lo que
ei = yi − β 0 − β1 x1i − β 2 x2i . Luego, se usa el método de mínimos
cuadrados, es decir se buscan los valores de β0 , β1 , β 2 que ha-
gan mínima la suma de cuadrados de los errores, es decir, que
minimicen ∑
ei2 .
La solución conduce a un sistema de ecuaciones denomina-
das ecuaciones normales, a partir de las cuales, utilizando con-

247
ceptos de álgebra matricial se encuentran los estimadores de los
parámetros β0 , β1 , β 2 tema que escapa de los objetivos del cur-
so y que no será abordado aquí.
Los problemas de regresión múltiple serán resueltos con el
soporte del SPSS, puesto que en la mayoría de las investigacio-
nes el número de observaciones y el número de variables es gran-
de, lo que dificulta el trabajo manual.
Así, Yˆ = βˆ0 + βˆ1 X 1 + βˆ2 es las ecuación de la recta de regre-
sión múltiple ajustada por el método de mínimos cuadrados.

Ejemplo 5.14

Para una muestra de 12 estudiantes se tiene la información ad-


junta en la siguiente tabla. Vamos a ajustar la recta de regresión
múltiple usando el método de mínimos cuadrados.

Promedio de calificaciones,
coeficiente intelectual y tiempo dedicado al estudio

Estudiante IQ Tiempo de Promedio de


Número (X 1 ) estudio (X 2 ) calificaciones (Y )

1 110 8 1.0
2 112 10 1.6
3 118 6 1.2
4 119 13 2.1
5 122 14 2.6
6 125 6 1.8
7 127 13 2.6
8 130 12 2.0
9 132 13 3.2
10 134 11 2.6
11 136 12 3.0
12 138 18 3.6

Solución

Postulamos el modelo Y = β 0 + β1 X 1 + β 2 X 2 + e , para estudiar la


relación entre las variables.

248
donde: X 1 : Coeficiente intelectual (IQ).
X 2 : Tiempo de estudio.
Y: Promedio de calificaciones
e : error
β 0 , β1 , β 2 : parámetros a estimar.

Usamos las opciones del SPSS


Activar el SPSS y crear los datos en un archivo de nombre:
COEFICIENTE.
En VARIABLE VIEW definir las siguientes variables: IQ,
TIEMPO y CALIFICA y en DATA VIEW colocar los datos de la
tabla. Ejecutar ANALYZE/ REGRESSION/LINEAR/ ingresar en
DEPENDENT la variable CALIFICA y en INDEPENDENT las va-
riables IQ TIEMPO/OK.
El output del SPSS es el siguiente:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) -5.249 1.166 -4.501 .001


IQ ,049 .010 .570 4.717 .001
TIEMPO .118 .028 .509 4.209 .002

a. Dependent variable: CALIFICA

β̂1 βˆ0
βˆ2

Las estimaciones de los parámetros son:

βˆ0 = −5.249 βˆ1 = 0.049 βˆ2 = 0.118

249
donde:

X 1 : Coeficiente intelectual (IQ).


X 2 : Tiempo dedicado al estudio.

A partir de los resultados anteriores se encuentra la ecua-


ción de la recta de regresión múltiple ajustada por el método de
mínimos cuadrados:

Yˆ = −5.249 + 0.049 X 1 + 0.118 X 2 ,

donde, manteniendo constante la variable tiempo de estu-


dio, un incremento en el coeficiente intelectual (IQ) de un punto,
por ejemplo, es acompañado por un incremento en el promedio
de calificaciones de 0.049 puntos. En forma similar, mantenien-
do constante la variable coeficiente intelectual, un incremento
de 1 hora en el tiempo de estudio, es acompañado por un incre-
mento en el promedio de calificaciones de 0.118 puntos.

Coeficiente de determinación

El coeficiente de determinación, R 2 , multiplicado por 100, indi-


ca el porcentaje de la variación de la variable dependiente que es
explicado por las variables independientes del modelo.
Se puede demostrar que la suma de cuadrados del total,

∑ (y i )
− y , se puede dividir en dos componentes: la suma de

∑ (yˆ )
2
cuadrados debido a la regresión, i − y , y la suma de cua-

∑ ( y − yˆ ) . Es decir: SCT = SCR + SCE ,


2
drados debido al error i i
donde:

SCT: suma de cuadrados del total.


SCR: suma de cuadrados debido a la regresión.
SCE: suma de cuadrados debido al error.

250
El término coeficiente de determinación múltiple mide la
bondad de ajuste para la ecuación de regresión múltiple. Este co-
eficiente se calcula como sigue:

SCR
R2 =
SCT

En nuestro ejemplo, la variable dependiente es el promedio


de calificaciones de un alumno y las variables independientes
son el coeficiente de inteligencia y el tiempo dedicado al estudio.
El valor del coeficiente de determinación es 0.91, valor que signi-
fica que, el 91% de las variaciones observadas en la calificación
promedio de los alumnos son explicables por las variaciones del
coeficiente de inteligencia y del tiempo dedicado al estudio.
El valor 0.09 = 1 - 0.91, llamado coeficiente de alienación,
indica que el 9% de las variaciones observadas en la calificación
promedio de los alumnos no son explicables por el modelo (en
este caso por las variaciones en el IQ y tiempo de estudio).

Pruebas de hipótesis

Las pruebas de hipótesis con respecto a los parámetros de la ecua-


ción de regresión múltiple se basan en las estadísticas t de Stu-
dent y F de Snedecor.
La prueba F se usa para determinar si hay una relación sig-
nificativa entre la variable dependiente y el conjunto de todas
las variables independientes. En estas condiciones se denomina
prueba de significación global.
La prueba t de Student se aplica para determinar si cada
una de las variables independientes son significativas. Se hace
una prueba de hipótesis por separado para cada variable inde-
pendiente en el modelo a cada una de esas pruebas de hipótesis
se denomina prueba de significación individual.
A continuación explicaremos la prueba F y la prueba t, y
aplicaremos para cada una el ejemplo sobre el coeficiente inteli-
gencia de estudiantes.

251
Prueba F

Antes de describir los pasos de la prueba F necesitamos conocer


el concepto de cuadrado medio. Considerando que el modelo de
regresión múltiple tiene k variables independientes. El cuadra-
do medio (CMR, CME) es una suma de cuadrados dividida entre
sus grados de libertad correspondiente. En el caso de la regresión
múltiple, la suma de cuadrados del total tiene n - 1 grados de
libertad, la suma de cuadrados de regresión (SCR) tiene k gra-
dos de libertad y la suma de cuadrados del error tiene n - k - 1
grados de libertad.

SCR SCE
CMR = CME = S 2 =
k n − k −1

El cuadrado medio del error es un estimador insesgado de σ2.

Prueba F para la significancia global

Si el modelo general es:

Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + e , entonces:
H 0 : β1 = β 2 = ... = β k = 0
H 1 : Al menos uno de los parámetros no es igual a cero

Estadística de prueba
CMR
F=
CME

Regla de decisión

Con el estadístico de prueba: Rechazar Ho si Fc > Fα .


Con el valor p - value: Rechazar Ho si el valor p - value < α.
donde Fα es la abcisa de la distribución F con k grados de
libertad en el numerador y n - k - 1 grados de libertad en el
denominador.

252
Tabla de análisis de Varianza (ANOVA)

La tabla de análisis de varianza, proporciona la descomposición


de la suma de cuadrados de la regresión, los grados de libertad
asociados a cada suma de cuadrados, los cuadrados medios y los
resultados de la prueba F para el modelo de regresión múltiple.
El valor del estadístico de la prueba F aparece en la última
columna y se puede comparar con Fα con k grados de libertad en
el numerador y (n - k - 1) en el denominador (valor obtenido de
la tabla F-Snedecor) cuando la hipótesis nula es:

H 0 : β1 = β 2 = ... = β k para el modelo Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + e .

Tabla ANOVA Regresión múltiple con k variables independientes

Fuente Suma de Grados de Cuadrado


cuadrados libertad Medio

Regresión SCR k SCR CMR


CMR = F=
k CME
SCE
Error SCE n-k-1 CME =
n − k −1
Total SCT n-1

Ejemplo 5.15

Usando la información del ejemplo 5.14 vamos a hacer la prueba


de hipótesis referente a los dos parámetros poblacionales del
modelo Y = β 0 + β1 X 1 + β 2 X 2 + e .

Solución

Paso 1:

Las hipótesis se formula como sigue:

H 0 : β1 = β 2 = 0 H 1 : al menos uno de los parámetros es igual a cero.

253
Paso 2:

El valor de la estadística de prueba,, lo vamos a obtener utilizan-


do los comandos del SPSS:
Crear el archivo: COEFICIENTE
Definir las variables en VARIABLE VIEW, por ejemplo, IQ,
TIEMPO y CALIFICA.Ejecutar:
ANALYZE/ REGRESSION/LINEAR/ Seleccionar/ ingresar
en DEPENDENT CALIFICA y
en INDEPENDENT las variables IQ TIEMPO/OK.

El output del SPSS muestra lo siguiente:

ANOVAb

Model Sum of df Mean F Sig.


squares Square

1 Regression 6.389 2 3.194 45.353 .000a


Residual .634 9 7.043E-02
Total 7.022 11

a. Predictors: (Constant), TIEMPO, IQ


b. Dependent Variable: CALIFICA

CMR F
CME

Estadística de prueba

CMR 3.194
Fc = = = 45.37
CME 0.0704

Paso 3:

[ ]
Para α = 0.05, k = 2; n - k - 1 = 9, P F(2,9 ) > Fteórico = 0.05 en la
tabla - Snedecor se encuentra el valor de Fteórico = 4.26 . La región
de rechazo de la hipótesis nula es el intervalo (4.26; ∞).

254
Paso 4:

Como Fc = 45.37 > Fteórico = 4.26 entonces rechazamos H 0 y con-


cluimos que al menos uno de los parámetros es diferente de cero.

Prueba t

Si la prueba F ha mostrado que la relación entre la variable de-


pendiente y los regresores es estadísticamente significativo, se
puede hacer una prueba t para determinar la significancia de
cada uno de los parámetros individuales.
Así para cualquier parámetro β i se plantea lo siguiente:

Paso 1:

Para cualquier parámetro β i

H 0 : βi = 0
H1 : βi ≠ 0

Paso 2:

La distribución de la estadística de prueba es:

βˆi
t= ~ t(n −1)
sβˆi

Paso 3:

α
[ ]
Para el nivel de significación α, P t(n −1) < tteórico = 1 − , en la ta-
2
bla t(n −1) se obtiene el valor teórico de t, tteórico . La región de re-
( ) ( )
chazo es el intervalo − ∞,−t(teórico ) U t(teórico ), ∞ .

Paso 4:

Si tteórico cae en la región de rechazo, entonces se rechaza la hipó-


tesis nula.

255
Si retomamos el ejemplo anterior y queremos saber si es estadísti-
camente significativo plantearemos las siguientes hipótesis.

H 0 : βi = 0
H1 : βi ≠ 0

Paso 2:

Usando comandos del SPSS obtenemos la siguiente tabla:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) -5.249 1.166 -4.501 .001


IQ ,049 .010 .570 4.717 .001
TIEMPO .118 .028 .509 4.209 .002

a. Dependent variable: CALIFICA

βˆ2 βˆ1 Sβˆ S βˆ


2 1

donde βˆ1 = 0,049 sβˆ = 0.010 y el valor de la estadística de prue-


ba es:

βˆ1 0.049
tc = = = 4.9
sβ1 0.010 .

El valor de la t de Student con 9 grados de libertad y


α / 2 = 0.05 / 2 = 0.025 es, t0.9755 = 2.69 .

Paso 3:

En la tabla el valor de la de Student con 9 grados de libertad y


α / 2 = 0.05 / 2 = 0.025 es, t0.9755 = 2.69 . Para α = 0,05 se encuentra
que tteórico = t0,975 = 2,69 .

256
Paso 4:

Como tc = 4.9 > t0.975 = 2.69 rechazamos la hipótesis nula a un


nivel de significación de 0.05 y concluimos que la variable Coefi-
ciente Intelectual (IQ) explica el comportamiento de las califica-
ciones de los estudiantes.
Trabajando con la misma metodología para el parámetro β 2 ,
se encuentra la siguiente tabla.

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

Model B Std. Error Beta t Sig.

1 (Constant) -5.249 1.166 -4.501 .001


IQ ,049 .010 .570 4.717 .001
TIEMPO .118 .028 .509 4.209 .002

a. Dependent variable: CALIFICA

βˆ2 βˆ1 Sβˆ S βˆ


2 1

de donde el valor de la estadística de prueba es:

βˆ2 0.118
tc = = = 4.21
sβ2 0.028

y nuevamente se rechaza la hipótesis nula (β1 = 0 ) , porque


tc = 4.21 > 2.69, con un nivel de significación de 0.05.

Pruebas no paramétricas

En los temas estudiados a lo largo de este libro hemos podido


notar el importante lugar que le corresponde a la distribución

257
normal en la teoría estadística. Sin embargo, con frecuencia en mu-
chas situaciones no se conoce si la distribución desde la cual se ha
seleccionado la muestra es tal que sea aplicable el teorema del lími-
te central o si la aproximación a la distribución normal es lo sufi-
cientemente adecuada como para que los intervalos de confianza
resultantes y las pruebas de hipótesis basadas en la teoría normal
tengan validez. En tales situaciones se necesita de métodos estadís-
ticos cuya aplicación sea independiente de la forma de la densidad.
Estos métodos se denominan métodos no paramétricos.
Los métodos no paramétricos que se desarrollarán en esta sec-
ción se aplican a familias muy extensas de distribuciones en vez
de familias caracterizadas por una forma funcional particular.
La estructura de la mayoría de los métodos no pramétricos
descansa en las estadísticas de orden. Las estadísticas de orden
representadas por: X(1), X(2),…,X(n) son la consecuencia de haber
ordenado la muestra aleatoria original X1, X2, …,Xn en forma as-
cendente. Es decir:

X(1), es la más pequeña en magnitud de todas las X's


X(2), es la segunda más pequeña en magnitud de todas las X's
.
.
.
X(n), es la más grande en magnitud de todas las X's

Se trabajará bajo el supuesto de que la muestra aleatoria pro-


viene de una distribución continua. Esto implica que la probabi-
lidad que dos observaciones muestrales sean iguales es cero. Es
decir, con probabilidad una las observaciones maestrales serán
ordenadas desde la más pequeña a la más grande sin tener en
este ordenamiento dos valores iguales. En la práctica, frecuente-
mente observamos en la muestra dos o más valores iguales de-
nominados empates (ties); para lo cual dependiendo de la prue-
ba se utilizará un factor de corrección por empates.

Posición y dispersión

258
En el caso paramétrico hemos utilizado la media y la desviación
estándar poblacionales como medidas de posición y dispersión
respectivamente, pero los métodos no paramétricos utilizan como
medida de posición a la mediana M, que es el punto que divi-
de en dos partes iguales el área limitada por la función de densi-
dad f(x), tal como se grafica a continuación.
1
En una distribución continua P( X ≥ M ) = P( X ≤ M ) = .
2
f(x)

50% 50%
del del
área área

La mediana poblacional M, se estima mediante la mediana


muestral m. Para la obtención de la mediana como es conocido
primero deben organizarse los datos en forma ascendente, la me-
diana será el valor central si el número de datos es impar y será
la semisuma de los valores centrales si se cuenta con un número
par de datos. Es decir,

 x( k +1) si n = 2k + 1

m =  x( k ) + x( k +1)
 si n = 2k
 2
La mediana muestral no es un estimador insesgado de la me-
diana poblacional, pero este sesgo tiende a cero al aumentar el
tamaño de la muestra. Como medida de dispersión se emplea
entre otras el rango intercuartil, la diferencia entre el cuartil 3 y
el cuartil 1: R = Q3 − Q1

Ejemplo 5.16

259
Se cuenta con los siguientes valores: x1 = 0.62, x2 = 0.98, x3 = ;
0.31, x = 0.81, x = 0.53 los cuales corresponden a n = 5 valores
4 5
observados de 5 ensayos independientes de un experimento. Se
determinará la mediana muestral.

• En primer lugar se ordenan en forma ascendente las obser-


vaciones:
x = 0.31 < x = 0.53 < x = 0.62 < x = 0.81 < x = 0.98
(1) ( 2) (3) ( 4) (5)
• Como se cuenta con un número impar de observaciones la
mediana muestral es x = 0.62 .
(3)
En esta sección estudiaremos los siguientes métodos no pa-
ramétricos:
• Para una población: Prueba de Wilcoxon.
• Para dos poblaciones independientes: Prueba de Man-
nWhitney
• Para tres o más muestras independientes: Prueba de Krus-
kall Wallis
• Prueba de bondad del ajuste: Prueba de Kolmogorov

Prueba de Wilcoxon

En algunas investigaciones se requiere probar una hipótesis nula


con respecto a la media poblacional, pero la distribución bajo es-
tudio no es la distribución normal. En tal situación un procedi-
miento estadístico adecuado es la prueba de Wilcoxon, la cual
utiliza las magnitudes de las diferencias entre las mediciones y
el valor de la mediana poblacional propuesta en la hipótesis nula.

Supuestos

La prueba de Wilcoxon se basa en los siguientes supuestos.


1. La muestra X1,X2,..,Xn es una muestra aleatoria
2. La variable en estudio es continua

260
3. La población se distribuye simétricamente
4. La escala de medición es al menos de intervalo

Hipótesis

Se plantea a continuación la hipótesis nula con su respectiva hi-


pótesis alternativa

I. H0 : M = M 0 II . H 0 : M ≥ M 0 III . H 0 : M ≤ M 0
H1 : M ≠ M 0 H1 : M < M 0 H1 : M > M 0
En cada uno de los casos con un nivel de significación α.

Procedimiento para la obtención de la estadística de


prueba

Cuando se utiliza la prueba de Wilcoxon se realizan los siguien-


tes cálculos.
1. Se obtienen las diferencias Di = Xi -M0 , i = 1,2,…,n.
Si algún Xi es igual a M0 , éste es eliminado y como conse-
cuencia el tamaño de la muestra disminuye.
2. Se ordenan las diferencias Di en forma ascendente sin consi-
derar el signo de la diferencia. Es decir, se ordenan las dife-
rencias en valor absoluto, |Di|. Si dos o más de los |Di| son
iguales, se obtiene el promedio de los rangos que ocupan las
diferencias empatadas y este valor es asignado a cada una
de las observaciones empatadas.
3. Se retoma el signo de la diferencia Di y es asignado al rango
respectivo.
4. Se obtienen y T + y T -, que representan a la suma de rangos
con signo positivo y negativo respectivamente.
n( n + 1)
La suma total de los rangos es: , entonces
n( n + 1) 2
T+ = −T−
2

Estadística de prueba

261
Dependiendo de la hipótesis alternativa planteada se considera
{ }
como estadística de prueba a T = min T + , T − , T + o T − .
Si la hipótesis nula H0 es verdadera, es decir, si la mediana
poblacional, M, es igual a la mediana hipotética, M0, y se cum-
plen los supuestos, la probabilidad de observar una diferencia Di
positiva es igual a la probabilidad de observar una diferencia ne-
gativa. Entonces al repetir el muestreo, el valor esperado de T+ es
igual al valor esperado de. En una muestra específica no sucede
que T + sea exactamente igual a T -. Sin embargo, cuando H0 es
verdadera no esperamos una gran diferencia entre ambos valo-
res. Esto trae como consecuencia que un valor suficientemente
pequeño de T + o T - causa el rechazo de H0.

Valores críticos

En la Tabla G del Apéndice se encuentran los valores críticos d


de la estadística de prueba de Wilcoxon para muestras de tama-
ño 4 hasta 20 y distintos niveles de significación.

Región crítica

La región crítica depende de la hipótesis alternativa planteada.


En la siguiente tabla se resume los tres casos de la prueba de
hipótesis respecto de la mediana de una población.

Ejemplo 5.17
Hipótesis Estadística de Prueba Regla de decisión
Rechazar, H 0 : M = M 0 si

I. H0 : M = M 0
H1 : M ≠ M 0 T = min{T + , T − } T ≤d

II . H 0 : M ≥ M 0
H1 : M < M 0 T+ T+ ≤ d

III . H 0 : M ≤ M 0
H1 : M > M 0 T− T− ≤ d

En cada caso con un nivel de significación α.

262
Un psicólogo está interesado en tener evidencia suficiente para con-
cluir que las calificaciones de destreza manual promedio en estu-
diantes discapacitados es diferente de 45 puntos. Para llevar a cabo
su estudio selecciona una muestra aleatoria de 25 estudiantes dis-
capacitados y registra sus calificaciones de destreza manual. La
información que obtiene es la siguiente:

¿Los datos son concordantes con la propuesta del psicólogo?.


Utilice α = 0.05.
33 53 22 40 24 56 36 28 38 42 35 52 52

36 47 41 32 20 42 34 53 37 35 47 42

Solución.

Paso 1: Se plantean las hipótesis

Se trata de un problema de inferencia estadística acerca de la


mediana poblacional M : "calificación media de la destreza ma-
nual de una población de estudiantes discapacitados"

Hipótesis nula: La calificación media es M = 45, donde M0 = 45


puntos. Es decir,
H 0 : M = 45
Hipótesis alternativa: La calificación media es diferente de 45
puntos. Es decir,
H 1 : M ≠ 45

Paso 2:

En base a la muestra aleatoria se realizan los cálculos para obte-


ner la estadística de prueba.

n = 25

263
Obs xi Di rango sig ran Obs xi Di rango sig ran
(|Di|) (|Di|) (|Di|) (|Di|)

1 33 -12 20 -20 14 36 -9 14,5 14,5


2 53 8 12 12 15 47 2 1,5 1,5
3 22 -23 24 -24 16 41 -4 6 -6
4 40 -5 7 -7 17 32 -13 21 -21
5 24 -21 23 -23 18 20 -25 25 -25
6 56 11 18,5 18,5 19 42 -3 4 -4
7 36 -9 14,5 14,5 20 34 -11 18,5 18,5
8 28 -17 22 -22 21 53 8 12 12
9 38 -7 9 -9 22 37 -8 12 -12
10 42 -3 4 -4 23 35 -10 16,5 16,5
11 35 -10 16,5 16,5 24 47 2 1,5 1,5
12 52 7 9 9 25 42 -3 4 -4
13 52 7 9 9

Suma total de rangos:


n( n + 1) 25( 26)
= = 325
2 2
Suma de rangos positivos: T + = 63.5 ,

Suma de rangos negativos: T − = 261.5

Estadística de prueba:

T = mín{T + , T − }= mín{63.5, 261.5}= 63.5 .

Paso 3. Obtención de la región crítica

En la tabla G del Apéndice, el valor de d = 101. La región crítica


está conformada por T ≤ d y para nuestro ejemplo la región crí-
tica es: T < 101 .

Paso 4. Decisión

264
Región de rechazo

101 T

El valor de T = 63.5 , se encuentra en la región de rechazo. Es


decir, T = 63.5 < 101 = d , lo cual implica el rechazo de la hipó-
tesis nula. Es decir, en base a las observaciones muestrales, el psi-
cólogo encuentra un soporte a su afirmación de que el puntaje
medio de las calificaciones de la destreza manual de la pobla-
ción de estudiantes discapacitados bajo estudio, es diferente de
45 puntos.

Análisis por computadora usando el SPSS

Debe señalarse que el SPSS no tiene el análisis para probar la


mediana poblacional en base a una muestra. Cuenta con el aná-
lisis para muestras relacionadas. Adaptaremos este procedimien-
to a nuestro caso procediendo de la siguiente forma:

1. Utilizar el artificio de crear una variable que ha sido deno-


minada Median, la cual contiene el valor de la mediana pro-
puesta bajo la hipótesis nula.
2. Crear la variable Destrez, la cual contiene las 25 mediciones
de destreza manual de cada uno de los estudiantes.
3. Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric Test/ 2 Related Simples / Seleccionar las va-
riables Median y Destrez/ Test Tipe activar Wilcoxon/ click
OK. A continuación mostramos el editor y el output.

EDITOR OUTPUT

265
En Test Statistics el p-value = Wilcoxon
0.008 < 0.05, entonces
Signed se rechaza H0.
Ranks Test

Ranks

N Mean Sum of
Rank Ranks

destrez - Negative 18(a) 14.53 261.50


mediana Ranks
Positive 7(b) 9.07 63.50
Ranks
Ties 0(c)
Total 25

a destrez < mediana


b destrez > mediana
c destrez = mediana
Test Statistics(b)

destrez -
mediana
Z -2.666(a)
Asymp. Sig. (2-tailed) .008

a Based on positive ranks.


b Wilcoxon Signed Ranks Test

Prueba de MANN-WHITNEY

Cuando el supuesto de que cada una de las poblaciones en estu-


dio se distribuyen normalmente no se cumple, las pruebas de hi-
pótesis para contrastar que las medias poblacionales son iguales
no pueden ejecutarse. Como alternativa se cuenta con un méto-
do no paramétrico, la prueba de Mann-Whitney, que es una prue-
ba apropiada para contrastar la hipótesis de que las medianas
de dos poblaciones independientes son iguales, y donde la forma
funcional de estas poblaciones no está especificada. Este método
se basa en datos generados por dos muestras aleatorias indepen-
dientes, seleccionadas de cada una de las poblaciones de interés.
Estas muestras son independientes en dos aspectos. Uno de ellos
es que existe independencia entre muestras y el otro aspecto es que

266
dentro de cada muestra las observaciones que la conforman tam-
bién son independientes.
Esta prueba fue propuesta por Mann y Whitney (1947), ade-
más se tiene referencia que Wilcoxon (1945), propuso un proce-
dimiento semejante. Es por ello que también es conocida como la
prueba de Wilcoxon-Mann-Whitney.

Supuestos

• Las muestras aleatorias, X11, …., X1n1 y X21, …., X2n2, utiliza-
das para el análisis son seleccionadas independientemente
de sus respectivas poblaciones.
• La variable de interés es continua.
• La escala de medición observada es al menos ordinal.
• Las dos poblaciones en estudio difieren sólo con respecto a
su posición.

Hipótesis

Se plantea a continuación la hipótesis nula con su respectiva hi-


pótesis alternativa

I . H0 : M1 = M 2 II . H 0 : M 1 ≥ M 2 III . H 0 : M 1 ≤ M 2
H1 : M 1 ≠ M 2 H1 : M 1 < M 2 H1 : M 1 > M 2

Donde M 1 y M 2 representan las medianas de la población


1 y población 2 respectivamente. En cada uno de los casos las
pruebas se realizan con un nivel de significación α.

Procedimiento para la obtención de la estadística de


prueba

Para calcular la estadística de prueba se procede de la siguiente


forma.
1. Se combinan las dos muestras (de tamaños n1 y n2 ).
2. Las n1 + n2 observaciones son organizadas en forma ascen-

267
dente (desde la más pequeña a la más grande).
3. Se asignan los rangos a cada una de las n1 + n2 observaciones
teniendo en cuenta a que muestra pertenecen. Si dos o más
observaciones son iguales (empatan) se obtiene el promedio
de los rangos que ocupan dichas observaciones en el orde-
namiento y este promedio es asignado a cada una de las ob-
servaciones empatadas.
4. Obtener la suma de los rangos asignados a la muestra 1:
n1
S= ∑ R( X ) .
i =1 1i

Estadística de Prueba
n (n +1)
La estadística de prueba es, T = S − 1 1
2
donde:

n1, es número de observaciones de la muestra 1, y


S, es la suma de los rangos asignados a la muestra 1 (después de
haber combinado las muestras).

Valores críticos

En la tabla H del Apéndice se encuentran los valores críticos wp


para de la estadística de prueba T, para tamaños n1 = 2,3,...,20 y
n2 = 2,3,...,20; y distintos valores de p = 0.001, 0.005, 0.01, 0.025,
0.05 y 0.10 (nivel de significación nominal).

Región crítica

La regla de decisión está en función a la hipótesis alternativa


planteada.
En la siguiente tabla se resume los tres casos de la prueba de
hipótesis relacionada a la comparación de las medianas de dos
poblaciones independientes.

268
Hipótesis Estadística de Prueba Regla de decisión
Rechazar, H 0 : M 1 = M 2 si

I. H 0 : M 1 = M 2 n1 ( n1 + 1)
T =S− T < wα 2 o T > w1−α 2
H1 : M 1 ≠ M 2 2

II. H 0 : M 1 ≥ M 2 n1 (n1 + 1) T < wα


T =S−
H1 : M 1 < M 2 2

III. H 0 : M 1 ≤ M 2 n1 ( n1 + 1)
T =S− T > w1−α
H1 : M 1 > M 2 2

donde: w α = n1n2 − wα , equivalentemente w1−α = n1n2 − wα .


1−
2 2

Gráficamente:

I. H 0 : M 1 = M 2
H1 : M 1 ≠ M 2

II. H 0 : M 1 ≥ M 2
H1 : M 1 < M 2

III. H 0 : M 1 ≤ M 2
H1 : M 1 > M 2

269
Ejemplo 5.18

Quince estudiantes de la Facultad de Administración y 15 estu-


diantes de la Facultad de Derecho, evaluaron sobre una base de
100 puntos la calidad de la atención recibida al momento de rea-
lizar el proceso de rectificación de matrícula en su respectiva
facultad. Los resultados se presentan a continuación.

Fac.Admin. 99 85 73 98 83 88 99 80 74 91 80 94 94 98 80

Fac. Derch. 78 74 69 79 57 78 79 68 59 91 89 55 60 55 79

¿En base a esta información se puede concluir que el puntaje


medio obtenido por la Facultad de Administración es diferente
que el obtenido por la Facultad de Derecho, con respecto a la ca-
lidad de atención al momento de realizar el proceso de rectifica-
ción de matrícula?.

Solución.

Las poblaciones en estudio son:


Población 1: alumnos de la Facultad de Administración
Población 2: alumnos de la Facultad de Derecho
Variable de interés: Puntaje asignado a la calidad de atención al
momento de realizar el proceso de rectificación de matrícula.

Paso 1: Se plantean las hipótesis

Hipótesis nula: El puntaje medio obtenido por la Facultad de


Administración es igual que el obtenido por la Facultad de Dere-
cho, con respecto a la calidad de atención al momento de reali-
zar el proceso de rectificación de matrícula. Es decir, H 0 : M 0 = M 1

Hipótesis alternativa: H1 : M 0 ≠ M 1

270
Paso 2: En base a las muestras aleatorias se realizan los cálculos
para obtener la estadística de prueba.

Muestras rango rango


combinada Administrac. Derecho

55 1,5
55 1,5
57 3
59 4
60 5
68 6
69 7
73 8
74 9,5
74 9,5
78 11,5
78 11,5
79 14
79 14
79 14
80 17
80 17
80 17
83 19
85 20
88 21
89 22
91 23,5
91 23,5
94 25,5
94 25,5
98 27,5
98 27,5
99 29,5
99 29,5

Suma de 148
rangos: S

En este caso como ambos tamaños de muestra son iguales se


considerará como S, la suma de los rangos correspondientes a la
muestra de la población de la Facultad de Derecho.

271
Estadística de prueba:
15(15 + 1)
T = 148 − = 28
2

Paso 3. Obtención de la región crítica

En la tabla H con n1 = 15, n2 = 15 y α = 0.05 se encuentra el va-

lor de wα = 65 y el valor de w α = 15(15) − 65 = 160 .


1−
2 2

La región crítica está conformada por: T < 65 o T > 160

Paso 4. Decisión

Se decide rechazar la hipótesis nula debido a que el valor de T =


28 < 65 = wα . Se puede concluir que las facultades de Adminis-
2
tración y de Derecho tienen diferentes puntajes medios, con
respecto a la calidad de atención al momento de realizar el pro-
ceso de rectificación de matrícula.

Análisis por computadora usando el SPSS

1. Para este ejemplo se definen las variables:


puntaje que contiene los puntajes de las dos muestras y,
facultad que funciona como una etiqueta, 1: Facultad de
Administración y 2: Facultad de Derecho

272
2. Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric Test/Two-Independent-Samples Test/
test type Mnn-Whitney U, llevar la variable puntaje a
test variable list y la variable facultad a grouping va-
riable/ mediante define groups se indican los grupos/
click OK..

273
OUTPUT

NPar Tests
Mann-Whitney Test

Ranks

FACULTAD N Mean Rani Sum of Ranks


PUNTAJE 1. Administración 15 21,13 317,00
2: erecho 15 9,87 148,00
Total 30

Test Statistics
PUNTAJE
Mann-Whitney U 28,000
Wilcoxon W 148,000
Z -3,511
Asymp. Sig. (2-tailed) ,000
Exact Sig. 2*(1-tailed Sig.) ,000

a Not corrected for ties.


b Grouping Variable: FACULTAD

La hipótesis nula es rechazada. Exact Sig < 0.05.

Prueba de Kruskall-Wallis

La prueba de Kruskall-Wallis es utilizada para detectar diferen-


cias en las medidas de posición de tres o más poblaciones basán-
dose en muestras aleatorias independientes. Esta prueba como
otras pruebas no paramétricas tiene la característica de utilizar
los rangos de las observaciones que conforman las muestras.
Se supone que se tiene k poblaciones continuas
F1 ( x ), F2 ( x ),..., Fk ( x ) de las cuales se seleccionan muestras aleato-
rias independientes, donde la i-ésima muestra es de tamaño
k
ni , i = 1,2,..., k y existe un total de n = ∑ ni observaciones en total.
i =1

274
Supuestos

1. Los datos disponibles para el análisis consisten de k muestras


independientes de tamaños n1 , n2 ,..., nk respectivamente.
2. Las observaciones son independientes dentro de cada mues-
tra y entre muestras.
3. La variable de interés es continua.
4. La escala de medición es al menos ordinal.
5. Las poblaciones desde las cuales se han seleccionado las
muestras son idénticas excepto para una diferencia en posi-
ción en al menos una de ellas.

Hipótesis

La hipótesis nula asociada al problema de k muestras es la que


plantea que las k muestras han sido seleccionadas de poblacio-
nes idénticas: H 0 : F1 (x ) = F2 (x ) = ... = Fk (x ), ∀x y la hipótesis alter-
nativa H 1 : Al menos una de las Fi (x ) es diferente.
Con un nivel de significación α.

Procedimiento para la obtención de la estadística de


prueba
k

1. Se combinan las n = ∑ ni observaciones de las muestras,


i =1
ordenándolas en forma ascendente.
2. Se asigna el correspondiente rango a cada una de las obser-
vaciones ordenadas. Si existen observaciones empatadas, se
sustituyen los rangos de las observaciones empatadas por el
promedio de los rangos de estas.
3. Se calcula Ri , que representa a la suma de los rangos de las
ni observaciones que conforman la i-ésima muestra.
4. Se obtiene la estadística de prueba en base a los cálculos rea-
lizados anteriormente.

275
Estadística de prueba:

donde: k = número de muestras.


ni = número de observaciones de la i-ésima muestra.
n = número total de observaciones en las k muestras com-
binadas.
Ri = suma de los rangos de la i-ésima muestra.

Equivalentemente la estadística, puede expresarse como:

12 k
Ri2
H= ∑ − 3(n + 1)
n( n + 1) i =1 ni

la cual tiene distribución ji cuadrado con k-1 grados de li-


bertad. Es decir,
H ~ χ ( k −1)

Si existen observaciones empatadas el estadístico H, es co-


rregido sustituyendo los rangos de las observaciones empatadas
por su rango promedio y considerando además el siguiente fac-
∑j (t 3j − t j )
tor de corrección: f c = 1 − . Así la estadística H corre-
n3 − n
H
gida es: H c =
fc
Valores críticos

En la Tabla C de Apéndice se encuentran los cuantiles de la dis-


tribución ji cuadrado.
Se rechaza la hipótesis nula para aquellos valores de
H > χ( k −1) .

Ejemplo 5.19

En base a las calificaciones obtenidas por cuatro grupos de aspi-


rantes a Jefe de Práctica para el curso de Matemática, un investi-

276
gador está interesado en conocer si existe diferencia en las califica-
ciones medias de las poblaciones en estudio. Las calificaciones son
las siguientes:

Grupo 1 Grupo 2 Grupo 3 Grupo 4

85 75 59 94
92 69 78 89
83 83 67 80
79 81 62 88
81 72 83
69 79 76
90

Solución

Paso 1. Planteamiento de las hipótesis

Hipótesis nula: La cuatro poblaciones tiene calificaciones me-


dias idénticas. Es decir, H 0 : F1 ( x ) = F2 ( x ) = F3 ( x ) = F4 ( x )

Hipótesis alternativa: La calificación media de al menos una


de las poblaciones es diferente.
Con un nivel de significación α = 0.05

Paso 2. En base a las observaciones de las cuatro muestras se


calcula el valor de la estadística de prueba.

GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4

Calificación Rango Calificación Rango Calificación Rango Calificación Rango

85 18 75 7 59 1 94 23
92 22 69 4,5 78 9 89 20
83 16 83 16 67 3 80 12
79 10,5 81 13,5 62 2 88 19
81 13,5 72 6 83 16
69 4,5 79 10,5 76 8
90 21

n1 = 6 R1 = 84,5 n2 = 7 R2 = 78,5 n3 = 6 R3 = 39 n4 = 4 R4 = 74

277
Estadística de prueba:

12 4 Ri2
H= ∑ − 3(23 + 1)
23(24) i =1 ni

12 4  (84.5) (78.5) (39) (74) 


2 2 2 2
H= ∑
23(24) i =1  6
+
7
+
6
+
4 
 − 72 = 8.2796 ≅ 8.3

Paso 3. Obtención de la región crítica

En la Tabla C del Apéndice para χ 0.05 (3) = 7.81 . La región crítica


está conformada por:

H > 7.81

Paso 4. Decisión

El valor de la estadística es H = 8.3 , este valor se encuentra en


la región de rechazo puesto que H = 8.3 > 7.81 = χ 0.05 (3) . Por lo
tanto la hipótesis nula es rechazada y puede concluirse que las
cuatro poblaciones son diferentes.

Análisis por computadora usando SPSS

1. Para este ejemplo se definen las variables:


califica que contiene las calificaciones de las cuatro
muestras,
grupo que funciona como una etiqueta, 1: grupo 1, 2: grupo
2, 3: grupo 3, 4: grupo 4

2. Proceder a ejecutar los siguientes comandos: Analyze/


Nonparametric/ k Independent Sample/ llevar la varia-
ble califica a Test Variable List y la variable grupo a
grouping variable/ mediante define groups se indican los
grupos/ OK.

278
279
OUTPUT

Kruskal-Wallis Test

Ranks

GRUPO N Mean
Rank

CALIFICA 1 6 14,08
2 7 11,21
3 6 6,50
4 4 18,50
Total 23

Test Statisticsa,b

CALIFICA

Chi-Square 8,308
df 3
Asymp. Sig. ,040

a. Kruskal Wallis Test


b. Grouping Variable: GRUPO

Se rechaza la hipótesis nula Asymp Sig < α.

Prueba de bondad de ajuste: Preuba de Kolmogorov-Smirnov

A través de la prueba de Kolmogorov-Smirnov se puede conocer


que tan adecuado es el ajuste de la distribución de los datos de
una muestra a una distribución teórica. La prueba debe su nom-
bre a los matemáticos rusos: A. Kolmogorov y N.V. Smirnov,
quienes presentaron dos pruebas parecidas en la década de 1930.
En su procedimiento la prueba utiliza la función de distribución
teórica y la función de distribución empírica. La función de dis-
tribución empírica será expresada en términos de las estadísti-
cas de orden X (1) , X ( 2 ) ,.., X ( n ) , de una muestra aleatoria de tama-

280
ño n, X 1 , X 2 ,.., X n . Cuando no existen observaciones iguales, la
función de distribución empírica está definida por,

0, x < x(1)



k
S n ( x ) =  , x( k ) ≤ x ≤ x( k +1) , k = 1,2,..., n − 1
n
1, x( n ) ≤ x

En este caso la función de distribución empírica Sn (x ) tiene


1
un salto de magnitud , que ocurre en cada observación. Si exis-
n
ten nk observaciones iguales a xk , ocurre un salto de magnitud
nk
en xk .
n

Supuesto

La muestra aleatoria X 1 , X 2 ,.., X n , tamaño n proviene de una


población con función de distribución desconocida F (x ) .

Hipótesis

Se establece que F0 ( x ) es la función de distribución hipotética.


Hipótesis nula: H 0 : F ( x ) = F0 ( x ) ∀x
Hipótesis alternativa H1 : F ( x ) ≠ F0 ( x ) para algún x.

Procedimiento para la obtención de la estadística de


prueba

1. En base a las observaciones muestrales se obtiene la función


de distribución empírica Sn (x ) ∀ x.
2. En base a las observaciones muestrales se obtiene la función
de distribución propuesta bajo la hipótesis nula F0 ( x ) ∀ x.
3. Se calcula la estadística de prueba Dn = Sup Sn ( x ) − F0 ( x ) .
− ∞< x < ∞

281
Región crítica

Se rechaza la hipótesis nula si el valor de la estadística Dn excede


al cuantil d1−α presentado en la Tabla I del Apéndice. Es decir, se
rechaza H 0 a un nivel de significación α si Dn > d1−α .
Si la muestra ha sido seleccionada desde la distribución hi-
potética, la discrepancia entre S n ( x ) y F0 ( x ) no debería ser de-
masiado grande.

Ejemplo 5.20

Se tiene interés en conocer si la presión sanguínea de los estu-


diantes del último año de la Escuela de Educación Física, sigue
una distribución normal. La información siguiente corresponde
a 20 estudiantes de la Escuela de Educación Física y que cursan
el último año de estudios.

162 177 151 167


130 154 179 146
147 157 141 157
153 157 134 143
141 137 151 161

Considere α = 0.05

Solución

En este caso la función de distribución F0 ( x ) , planteada en la


hipótesis nula es la distribución normal y la variable en estudio
es X : presión sanguínea.

Paso 1. Planteamiento de las hipótesis

Hipótesis nula: La presión sanguínea sigue una distribución


normal

Hipótesis alternativa: La presión sanguínea no está distribui-


da normalmente. α = 0.05

282
Paso 2. Cálculo de la estadística de prueba

Se organizarán las observaciones muestrales en forma ascenden-


te, es decir se obtienen las estadísticas de orden y se calculan
S20 ( x ) y F0 ( x ) .

( x − 152)
x Frecuencia z= F0 ( x ) S20 ( x ) D = S 20 ( x ) − F0 ( x )
13

130 1 -1,6923 0,0453 0,0500 0,0047


134 1 -1,3846 0,0831 0,1000 0,0169
137 1 -1,1538 0,1243 0,1500 0,0257
141 2 -0,8462 0,1987 0,2500 0,0513
143 1 -0,6923 0,2444 0,3000 0,0556
146 1 -0,4615 0,3222 0,3500 0,0278
147 1 -0,3846 0,3503 0,4000 0,0497
151 2 -0,0769 0,4693 0,5000 0,0307
153 1 0,0769 0,5307 0,5500 0,0193
154 1 0,1538 0,5611 0,6000 0,0389
157 3 0,3846 0,6497 0,7500 D = 0,1003
161 1 0,6923 0,7556 0,8000 0,0444
162 1 0,7692 0,7791 0,8500 0,0709
167 1 1,1538 0,8757 0,9000 0,0243
177 1 1,9231 0,9728 0,9500 0,0228
179 1 2,0769 0,9811 1,0000 0,0189

El valor calculado de la estadística de prueba es D = 0.1003 .

Región crítica

En la Tabla I, el valor del cuantil es d 0.95 = 0.294 . Así la región críti-


ca es la siguiente: D > d 0.95 = 0.294 . La decisión en este caso es la de
no rechazar la hipótesis nula, puesto que D = 0.1003 < 0.294 = d 0.95 .

283
No se puede concluir que la población no se distribuya nor-
malmente.

Análisis por computadora usando el SPSS

1. Exploratoriamente puede visualizarse el comportamiento de


los datos y se observa que estos están muy próximos a la lí-
nea que representa a la distribución normal.

Normal P-P Plot of MEDIDA


Expected Cm Prob

Observed Cum Prob

En el Editor de datos se crea la variable medida y se ejecuta los


siguientes comandos: Analyse/Nonparametric/1-Sample K-S/In-
gresar a Test Variable List la variable medida y activar Test Distri-
bution la distribución normal/click OK

284
OUTPUT

NPar Tests

One-Sample Kolmogorov-Smirnov Test

MEDIDA

N 20
Normal Parameters a.b Mean 152,2500
Std. Deviation 13,0943
Most Extreme Absolute ,108
Differences Positive ,108
Negative -,071
Kolmogorov-Smirnov Z ,485
Asymp. Sig. (2-tailed) ,973

a. Test distribution is Normal.


b. Calculated from data.

No se rechaza la hipótesis nula porque Asymp. Sig>α = 0.05.

285
Ejerccios

En los siguientes casos identifique la variable dependiente e in-


dependiente (s).

a) El presupuesto familiar destinado a la educación de los hijos


y los ingresos familiares.
b) El volumen de ventas de una empresa y la inversión en pro-
paganda.
c) El número de hijos por familia y el nivel educativo de los
padres.
d) El analfabetismo, lugar de residencia y la expansión del ser-
vicio educativo.
e) La edad y el tiempo efectivo de servicio de los docentes afi-
liados al SUTEP.

Se realiza un estudio con 16 atletas de alto rendimiento, ocho


de potencia y ocho de resistencia; se les mide la extensión isomé-
trica de la rodilla (X1) (en kilogramos fuerza) y el porcentaje de
la contracción muscular (X2). Se obtienen los siguientes datos; X2
es la variable dependiente (Y ).

Atletas de Potencia Atletas de resistencia


X1 X2 X1 X2
196 56 161 98.4
183 28.8 142 70.8
295 57.2 122.5 35.4
203 46 123 74.5
195 35.5 176 79.5
289 58.6 156 62.1
198 41.4 126 74.3
206.9 21.6 95 67.7

a) Cree las bases de datos con los nombres ATLETA1 Y ATLE-


TA2.
b) Haga el diagrama de dispersión.

286
c) Usar comandos del SPSS y obtener el coeficiente de correlación
lineal e interprete.
d) Suponiendo que sea posible, realice el análisis de regresión
lineal simple e interprete los coeficientes.
e) Usando las correspondientes fórmulas, compruebe los valo-
res encontrados.

A 10 candidatos a ingresar en un programa de doctorado en


psicología, se les aplica en la Facultad de Psicología una prueba
de personalidad (X) y un examen general de conocimientos (Y).
Obtuvieron las siguientes puntuaciones:

Candidato A B C D E F G H I J

X 2.96 2.46 3.36 3.40 2.43 2.12 2.85 3.12 3.20 2.75
Y 529 506 591 610 474 509 550 600 575 540

Realice el análisis de regresión y correlación lineal.

Un profesor de estadística realiza un estudio para investi-


gar la relación que existe entre el rendimiento de sus estudiantes
en los exámenes y su ansiedad. Elige a diez estudiantes para el
experimento y antes de asistir al examen final, los 10 estudiantes
respondieron un cuestionario de ansiedad. A continuación se tiene
las calificaciones de la prueba final y los puntajes obtenidos en el
cuestionario de ansiedad.

Ansiedad 28 41 35 39 31 42 50 46 45 37
Examen Final 82 58 63 89 92 64 55 70 51 72

a. Elabore el diagrama de dispersión. Utilice la ansiedad como la


variable X.
b. Describa la relación que muestra el diagrama de dispersión.
c. Suponga que la relación es lineal y calcule el valor de la r de
Pearson.

287
d. Determine la línea de regresión por mínimos cuadrados para
predecir la calificación del examen final dado el nivel de an-
siedad.
e. Si un estudiante tiene un nivel de ansiedad de 38, ¿qué valor
podría predecirse para su calificación en el examen final?.

Se realiza un estudio con 10 estudiantes de postgrado en


Educación. X1 es el número de problemas resueltos correctamen-
te por un estudiante; X2 son las puntuaciones obtenidas al apli-
carles una prueba psicológica que mide autoestima de un estu-
diante y; Y es el número de problemas que cada estudiante; espe-
ra resolver correctamente en el examen final. Con los datos que
se presentan a continuación realice el análisis de regresión lineal
simple múltiple usando comandos del SPSS.

Estudiante Número problemas Puntuación en Número de problemas


resueltos en clase autoestima que espera resolver
en el examen final

1 14 5 14
2 8 15 5
3 9 19 8
4 13 33 11
5 10 39 15
6 11 38 14
7 14 74 18
8 15 74 19
9 11 11 7
10 16 78 17

En la siguiente tabla se tienen las puntuaciones obtenidas por


21 estudiantes en tres pruebas psicológicas (X1, X2, X3).

a. Obtenga la base de datos usando comandos del SPSS.


b. Realice un análisis de regresión lineal de: Y con X1.

288
c. Realice un análisis de regresión lineal de: Y con X2.
d. Realice un análisis de regresión lineal de: Y con X3.
e. Realice un análisis de regresión múltiple.

Puntuación de actitud ante la agresión

Y X1 X2 X3

48 22 38 15
48 19 38 15
47 20 37 20
46 20 37 17
46 17 35 19
43 21 34 15
42 21 34 14
42 19 33 20
41 17 33 13
40 15 32 15
39 15 32 12
32 11 25 15
31 17 25 9
30 16 23 9
29 15 22 13
29 15 21 9
28 16 20 11
27 16 18 11
27 13 17 10
27 12 15 8
26 12 15 8

Se aplicó a un grupo de 18 adolescentes sordomudos la prue-


ba de inteligencia de Wechsler para adultos (Wais) y cuatro sub-
test del DAT. Las puntuaciones de ambas aplicaciones son las
siguientes:

289
Adolescentes Wais Razonamiento Razonamiento Relaciones Velocidad y
mecánico abstracto espaciales exactitud
Y X1 X2 X3

1 48 22 38 15 25

2 48 19 38 15 40

3 47 20 37 20 21

4 46 20 37 17 20

5 46 17 35 19 18

6 43 21 34 15 17

7 42 21 34 14 31

8 42 19 33 20 35

9 41 17 33 13 35

10 40 15 32 15 27

11 39 15 32 12 17

12 32 11 25 15 28

13 31 17 25 9 29

14 30 16 23 9 37

15 29 15 22 13 29

16 29 15 21 9 39

17 28 16 20 11 28

18 27 16 18 11 38

a. Obtenga la base de datos usando comandos del SPSS.


b. Realice un análisis de regresión lineal de Y con cada uno de
los cuatro subtest del DAT:
c. Realice un análisis de regresión lineal múltiple.

290
5.8 Se conocen las edades (X) y la presión sanguínea (Y) de 12
mujeres. Si

∑x i = 628, ∑y i = 1684, ∑x 2
i = 34416, ∑y 2
i = 238822, ∑x yi i = 89894.

a) Encuentre la recta de regresión de Y sobre X.


b) Si una mujer tiene 49 años ¿Cuál sería su presión san-guínea?
c) Si una mujer tiene 72 años, ¿Cuál es la presión sanguínea
esperada?

5.9 La siguiente tabla muestra las calificaciones obtenidas por


10 estudiantes en dos pruebas de Estadística:

X: Primera
Prueba 12 10 16 16 14 12 20 8 18 14

Y: Segunda
Prueba 16 14 14 20 10 16 20 12 16 12

a) Haga el diagrama de dispersión.


b) Obtenga la recta de regresión Y de sobre X.
c) Si un estudiante obtuvo 14,7 en la primera prueba. ¿Cuánto
se espera que obtenga en la segunda prueba?.

Borrós y Fincias (1973) con el propósito de examinar cuál es


la influencia que los métodos de enseñanza, basados en el traba-
jo libre y creativo del alumno ejercen sobre su rendimiento esco-
lar, llevaron a cabo una investigación con 122 niños y niñas, en
los que evaluaron los siguientes aspectos:

Creatividad: CREAT.
Coeficiente intelectual: C.I.
Capacidad de orden: ORDEN
Rendimiento escolar: RENDIM.

291
CASO ORDEN C.I. RENDIM. CREAT. CASO ORDEN C.I. RENDIM. CREAT.

1 8 114 0,85 8,00 31 4 109 0,84 4,50


2 6 103 0,87 4,00 32 7 113 0,88 7,50
3 5 97 0,90 8,00 33 7 123 0,86 6,00
4 3 94 0,80 2,00 34 10 106 0,91 8,00
5 4 88 0,70 9,00 35 7 110 0,74 6,00
6 6 76 0,70 4,00 36 6 95 0,62 5,50
7 7 116 1,00 10,00 37 9 125 0,92 7,00
8 4 86 0,73 5,50 38 6 100 0,62 2,00
9 4 97 0,99 3,00 39 7 112 0,72 2,00
10 3 91 0,75 8,00 40 3 53 0,14 5,00
11 6,5 123 1,50 3,50 41 3,5 77 0,21 1,50
12 5 63 0,73 1,00 42 7 100 0,65 3,50
13 3 92 0,90 6,00 43 8 105 0,78 5,00
14 5 86 0,82 8,00 44 5 89 0,48 0,00
15 5,5 84 0,81 5,00 45 6 105 0,91 4,50
16 4,5 63 0,62 5,00 46 4 92 0,97 6,00
17 4 88 0,77 7,00 47 3 98 0,62 2,00
18 10 128 0,99 7,00 48 3 91 0,84 4,00
19 7 102 0,78 6,00 49 6 90 0,63 0,00
20 8 115 0,98 7,00 50 6 98 0,89 6,50
21 6 93 0,74 6,00 51 6 113 1,05 6,00
22 10 130 0,94 7,00 52 4 92 0,84 3,00
23 7 90 0,76 4,00 53 8 98 0,74 5,00
24 5 90 0,81 5,00 54 7 86 0,58 0,50
25 9 102 0,92 8,00 55 5 88 0,82 2,00
26 7 102 0,85 7,00 56 5 88 0,92 1,50
27 7 99 0,91 6,00 57 5 102 0,75 3,00
28 6 100 0,73 6,00 58 5 101 0,88 6,50
29 6 88 0,64 5,00 59 6 76 0,81 4,00
30 4 74 0,45 3,00 60 4 94 0,65 0,00

a) Use comandos del SPSS para crear el archivo de datos.


b) ¿Existe relación entre inteligencia y creatividad?
c) Sobre la base de los datos obtenidos en esta experiencia po-
demos afirmar que a mayor creatividad corresponde una me-
nor capacidad de orden?

292
d) Sobre la base de los datos obtenidos en esta experiencia pode-
mos afirmar que existe relación lineal entre rendimiento esco-
lar y creatividad?.
e) ¿Cuál es la recta que mejor permite predecir la variable ren-
dimiento escolar en función de la variable creatividad? In-
terprete.
f) ¿Manteniendo constante la capacidad intelectual de los
alumnos, la creatividad está relacionada con el rendimiento
escolar?.
g) En base a los datos obtenidos en esta experiencia podemos
afirmar que ¿existe relación lineal entre el rendimiento es-
colar y la inteligencia?.
h) ¿Cuál es la ecuación de la recta que permite predecir el ren-
dimiento escolar en función de la variable inteligencia? In-
terprete.

Con los datos de ejercicio 3.8, realice la prueba de Mann-


Whitney.
Con los datos de la variable EXAMEN FINAL del ejercicio
5.4, responda lo siguiente:

a) ¿Los datos se distribuyen normalmente?


b) ¿Puede concluir que la mediana poblacional es diferente
de 68?

Con los datos de la variable PUNTUACIÓN DE AUTOESTI-


MA del ejercicio 5.5, responda lo siguiente:

a) ¿Los datos se distribuyen normalmente?


c) ¿Puede concluir que la mediana poblacional es diferente
de 50?

En tres regiones de un país se investiga el grado de pro-


pensión al ahorro de sus habitantes. Para verificar si la dis-
posición al ahorro es similar en dichas regiones se obtiene una

293
muestra ciudades de cada una de ellas. Obteniéndose la siguien-
te información.

Muestra de Muestra de Muestra de


Región 1 Región 2 Región 3

0.251 0.140 0.112


0.326 0.204 0.306
0.146 0.318 0.241
0.093 0.109
0.172

Se puede concluir que el grado de propensión al ahorro es la


misma en las tres regiones. Use un nivel de significación α = 0.05.

294

También podría gustarte