Está en la página 1de 51

ESTADSTICA APLICADA A LAS CIENCIAS DE LA EDUCACIN

ALBERTO RAMREZ GONZALEZ1

MDULO II. PRUEBAS DE HIPTESIS


INTRODUCCIN En la Unidad I se abordaron algunas distribuciones de probabilidad donde se resolvieron mltiples ejemplos calculando la probabilidad de ocurrencia de los mismos. No obstante, se demostr que tales procedimientos se pueden trabajar, de forma ms prctica, mediante tablas que conjugan tanto los valores de una variable estadstica (Z, x2 u otra) como las probabilidades de ocurrencia de un evento. En esta unidad se presentan y desarrollan algunas de las pruebas estadsticas ms utilizadas en diferentes ciencias las cuales, en esencia, se soportan de nuevo en las tablas estadsticas donde encontramos los valores que disocian un resultado tpico o de alta probabilidad, de un resultado atpico o que se rige por factores no aleatorios. As, por ejemplo, mediante una prueba de hiptesis sobre el coeficiente de correlacin de Pearson, podemos establecer si dos variables se correlacionan linealmente por simple efecto de azar, es decir que, las coordenadas que describen a dichas variables se alinean en un grfico cartesiano por razones meramente aleatorias, o porque en realidad hay factores que en forma concatenada mueven a una y a otra en direcciones particulares. Podra tratarse, entonces, de una relacin entre la talla de calzado de una persona y su capacidad intelectual (CI) o del resultado de una prueba y las horas dedicadas al estudio para la misma. Todas las pruebas de hiptesis siguen, en esencia, el mismo procedimiento a saber:
Variable de estudio (Xi, Yi)
Mediante funciones se llevan a

Variable estadstica calculada

Se confronta con

Variable estadstica de tablas

Dado que la variable estadstica de tablas expone el valor que disocia los resultados ms probables de los que no lo son a un nivel de confianza particular (generalmente 90, 95 99%), podemos de forma inmediata situar nuestra variable estadstica calculada como un resultado tpico o atpico, lo cual nos lleva a concluir de forma tcita, si dicho resultado se debe al azar o a factores externos. Las pruebas estadsticas llevan, por tanto, 2 hiptesis, una nula (H0) y una alterna (HA). La primera refleja las condiciones de azar y, la segunda, los resultados con incidencia de otros factores. Vale aclarar que todos los ejemplos expuestos en este captulo son hipotticos y no deben tomarse como un resultado emprico real, ya que tan slo pretenden ilustrar algunas variables de estudio en las ciencias de la educacin, as como algunos derroteros de investigacin. Un punto muy importante a comprender antes de ingresar en la exposicin de las pruebas de hiptesis, se refiere a una obviedad matemtica que no se cumple en la estadstica y da razn de
1

M.Sc. Educacin 26

porque hacemos dichas pruebas. Bajo el lente de las matemticas, las siguientes relaciones son aceptadas indefectiblemente como ciertas y no hay lugar a dudas alrededor de las mismas: 50 > 10 > 0 > -5

Es decir, cincuenta siempre es mayor a diez, como diez es mayor a cero y cero es mayor a cinco negativo. Ahora bien, el primer paso para comprender la mecnica de las pruebas de hiptesis nos indica que las relaciones anteriores no necesariamente son ciertas en estadstica y los siguientes ejemplos explican el porqu. Imaginemos que queremos comparar la estatura promedio de los jugadores del equipo de ftbol de una universidad, con la de los jugadores del equipo de baloncesto. Asumamos, para ello, que todos los jugadores de ftbol miden entre 1,70 y 1,80 metros con promedio de 1,77 m, mientras que todos los de baloncesto miden entre 1,90 y 2 m, con promedio de 1,93 m. La pregunta implcita en la prueba de hiptesis es entonces la siguiente: 1,77 es igual o diferente a 1,93? Ya conocemos la respuesta matemtica pero analicemos la respuesta estadstica. Si colocamos el nombre y la estatura de cada jugador en un papel y juntamos todos los papeles en una bolsa, podemos determinar en ms de 95 de 100 casos -sino en todos-, a que equipo pertenece cada jugador que tomemos de la bolsa. Es decir que, 1,77 ser realmente desigual a 1,93 porque hay efectos distintos del azar que determinan la diferencia en estatura de los jugadores de los dos equipos. La figura siguiente ilustra el ejemplo referido.

Por otro lado, si se trata de comparar los equipos de baloncesto de dos universidades distintas, podramos encontrar que todos los jugadores poseen estaturas entre 1,90 y 2 m, aun cuando los promedios no sean idnticos entre s: 1,93 m para uno y 1,96 m para otro. La pregunta de investigacin ahora es la siguiente: 1,93 es igual o diferente a 1,96? Si repetimos el procedimiento anterior de anotar la estatura y el nombre de cada jugador en un trozo de papel e intentamos definir a partir de la estatura a que equipo pertenece cada jugador, en la mayora, sino en la totalidad de los casos, no podramos hacerlo. Es decir que, no podemos disociar a los jugadores de una u otra universidad por lo que aceptamos que 1,93 es igual a 1,96, lo cual contradice la desigualdad matemtica.

27

Por lo anterior, es importante tener en cuenta que cuando comparamos valores, desde la estadstica, no se refiere estrictamente a un nico valor, sino al conjunto de elementos o datos que componen a cada una de dichas cifras, por lo que la varianza o variabilidad de los datos juega un papel esencial en el resultado. En consecuencia, la comparacin de dos promedios lleva implcito la inclusin de todos los datos que participaron en el clculo de tales promedios. Igual ocurre cuando comparamos un parmetro estimado a partir de un conjunto de datos frente a un parmetro estrictamente numrico, como por ejemplo, la pendiente de una recta frente a cero. Cabe citar que las hiptesis alternas (HA) suelen presentarse de dos formas distintas: una variable es diferente a otra; o una variable es mayor o menor a otra. La diferencia fundamental entre estas dos hiptesis se refiere a lo siguiente: 1. Variables diferentes entre s: se elige cuando desconocemos razones que nos permitan suponer que un resultado debera ser mejor a otro. Por ejemplo, en una prueba de sociales no tendramos una base de conocimiento que nos permitiera suponer que los nios van a obtener mejores resultados que las nias o viceversa. En estos casos se dice que la prueba es de dos colas por cuanto cada resultado puede ser mayor o menor que otro. 2. Una variable es mayor o menor a otra: esta hiptesis se emplea cuando contamos con una base terica, conceptual o incluso emprica, que nos permite presuponer que el resultado debe inclinarse en favor de un grupo sobre el otro. Por ejemplo, en una prueba deportiva podramos plantear que el desempeo esperado de los nios debe ser mejor al de las nias. Se trata, pues, de una prueba de una cola porque ya asumimos que el resultado se inclina en una direccin particular. Aclarada la razn de ser de las pruebas de hiptesis, cabe aadir que desde la estadstica se trabajan dos tipos de pruebas, unas llamadas paramtricas y otras no paramtricas. Las primeras son ms robustas y se basan en la existencia de unas condiciones particulares en las variables de estudio, como que se comportan normalmente o se conoce su distribucin (de acuerdo con el teorema del lmite central muestras mayores o iguales a 30 elementos se aproximan a la normalidad), que las varianzas de los grupos a confrontar son iguales (homoscedasticidad) y que operan sobre parmetros como promedio y varianza. Estas pruebas se emplean en variables de intervalos o de razones. Las segundas no tienen tales presunciones y se prefieren cuando el tamao de las muestras es muy pequeo, o cuando se viola el principio de homoscedasticidad. Se llevan a cabo, principalmente, sobre variables ordinales o incluso nominales. Las pruebas de hiptesis expuestas a continuacin, son las siguientes:
28

No paramtricas Prueba de signos Pruebas pareadas Prueba de rangos signados de Wilcoxon Comparacin de dos promedios Prueba de Mann-Whitney o medianas Comparacin de ms de dos Prueba de Kruskal-Wallis promedios o medianas Prueba de Friedman* P. de comparaciones mltiples Comparaciones mltiples Prueba de Tukey a Steel-Dwas Comparacin de frecuencias o Prueba chi cuadrado proporciones Relaciones lineales entre Correlacin de Spearman variables aleatorias Correlacin de Kendall* Relaciones lineales entre una variable fija y otra(s) aleatoria(s) Comparacin de una muestra con el promedio poblacional
* No se desarrollan en este mdulo

Paramtricas Prueba t Prueba t Anlisis de la varianza Prueba de Bartlett (previa) Prueba de Tukey Prueba de Newman-Keuls Prueba Z Correlacin de Pearson Anlisis de regresin lineal univariado Pruebas t y Z

Algunas variables de las ciencias de la educacin, que son altamente susceptibles de ser estudiadas por vas estadsticas son las siguientes:
Aula Edad Gnero Capacidades deportivas Capacidades motrices Aprendizaje Desempeo acadmico total y por asignatura Curva de olvido Horas de estudio diario Mtodos de estudio Horarios de mayor aprendizaje Autoritarismo del profesor Estrategias didcticas Institucin Educacin de los maestros Experiencia de los maestros Edad de los maestros Tasa de desercin o mortalidad Tasa de repitentes Educacin de los padres Ingresos econmicos de padres Resultados ICFES y similares Nmero de alumnos por profesor Total de alumnos Ingresos, costos, utilidades Presupuesto destinado a... Solicitudes de ingreso Regional - Nacional Tasas de aprobacin... Tasa de desercin Tasa de ingreso al sistema Tasa de escolarizacin Porcentaje de analfabetismo Cobertura por edad y gnero Presupuesto por alumno Alumnos por profesor Porcentaje de inversin frente al PIB Presupuesto destinado a... Nmero de profesores Nmero de alumnos

Antes de dar paso a las pruebas de hiptesis, se exponen algunas frmulas estadsticas bsicas junto con su clculo. Ellas son: A. Medidas de tendencia central: Promedio muestral: X = ( X i ) / n
i =1 n

Promedio poblacional: = ( X i ) / N
i =1

29

Mediana: se define como el valor central de los datos ordenados de menor a mayor Moda: se refiere al nmero que ms se repite B. Medidas de dispersin: Varianza muestral: S
2

( Xi X ) =
n 1
2

X =
2

nX

n 1
2

Varianza poblacional:

( Xi ) =
N

X =

N 2

Desviacin estndar de la muestra: S = S 2 Desviacin estndar de la poblacin: = 2 Error estndar del promedio: S x = S n

Rango o amplitud: valor mayor valor menor Intervalo de confianza del promedio: X t S x ( t de tablas, para 2 colas y n-1 grados de libertad) C. Medidas de posicin relativa: Normalizacin o valor Z:
Z= XX . El promedio es cero y la varianza uno. S

Percentil: aunque hay frmulas complejas para hallar el percentil, una vez conocido el valor Z, se puede deducir ste de la tabla Z D. Diagramas: ilustran los resultados y permiten una lectura ms fcil y cmoda tanto al investigador, como al lector. Los grficos ms comunes son el histograma de frecuencias o diagrama de barras y las tortas o pies (circular en Excel). Ejemplo: para realizar un pilotaje sobre una prueba de talentos matemticos, se evala una muestra de veinte alumnos de grado once. Los resultados sobre una puntuacin mxima de 10 puntos son los siguientes:

Alumno Puntaje 1 6

Alumno 6

Puntaje 8

Alumno Puntaje 11 8

Alumno Puntaje 16 8
30

2 3 4 5

8 7 6 9

7 8 9 10

7 6 7 5

12 13 14 15

7 7 10 6

17 18 19 20

7 9 6 7

Los clculos bsicos para estos valores son los siguientes: A. Medidas de tendencia central: Promedio: X =

6 + 8 + 7 + 6 + 9 + 8 + 7 + 6 + 7 + 5 + 8 + 7 + 7 + 10 + 6 + 8 + 7 + 9 + 6 + 7 = 7,2 20

Mediana: 5 6 6 6 6 6 7 7 7 7 7 7 7 8 8 8 8 9 9 10; los dos nmeros centrales son 7 (promedio 7), por tanto, mediana = 7. Moda: es 7 (aparece 7 veces) B. Medidas de dispersin: Varianza: S 2 =
(6 2 + 8 2 + 7 2 + 6 2 + 9 2 + ..... + 8 2 + 7 2 + 9 2 + 6 2 + 7 2 ) 20 7,2 2 = 1,5368 20 1

Desviacin estndar: S = 1,5368 = 1,2397 Error estndar del promedio: S x = Rango o amplitud: 10 5 = 5 Intervalo de confianza del promedio: 7,2 2,093 x 0,2772 = 7,2 0,5802; por tanto, con un 95% de confianza el promedio de la poblacin () est entre 6,62 y 7,78. C. Medidas de posicin relativa: 6 7,2 = 0,97 1,2397 El mismo clculo para todos los alumnos es el siguiente: Valor Z (para el primer alumno): Z =
Alumno 1 2 3 4 5 Z -0.97 0.65 -0.16 -0.97 1.45 Alumno 6 7 8 9 10 Z 0.65 -0.16 -0.97 -0.16 -1.77 Alumno 11 12 13 14 15 Z 0.65 -0.16 -0.16 2.26 -0.97 Alumno 16 17 18 19 20 Z 0.65 -0.16 1.45 -0.97 -0.16

1,2397 = 0,2772 20

31

Percentil (primer alumno, Z = -0,97): probabilidad es 0,334 (Tabla 1), por tanto, el percentil es igual a: 0,5 -0,334 = 0,166 lo que significa que est en el percentil 16,6% (supera al 16,6% de los alumnos). Para el segundo alumno Z = 0,65, la probabilidad de la tabla Z es 0,242, por tanto, corresponde al percentil 0,5 + 0,242 = 0,742 74,2%. Ntese que las probabilidades de Z negativos se restan de 0,5, mientras que a valores positivos se adiciona 0,5. Muchos de los clculos previos pueden realizarse desde el programa Excel. Para ello escriba los datos del ejercicio anterior en una columna y siga estas instrucciones: herramientas ; anlisis de datos ; estadstica descriptiva ; aceptar ; llene el rango de entrada con los datos de estudio ; resumen de estadsticas, nivel de confianza para la media 95% ; rango de salida marque la celda donde desea los resultados ; aceptar. Excel arroja la siguiente tabla:
Columna1 Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta Nivel de confianza(95.0%) 7,2 0,2772 7 7 1,2397 1,5368 0,0669 0,5009 5 5 10 144 20 0,5802

Los resultados previos se pueden diagramar mediante el asistente grfico de Excel, pero construyendo previamente una tabla de frecuencias como la siguiente:
Puntaje 5 6 7 8 9 10 Frecuencia 1 5 7 4 2 1

32

Frecuencias relativas 7 6 5 Frecuencia 4 3 2 1 0 5 6 7 8 9 10 Puntaje

Frecuencias relativas
10 5% 9 10% 8 20%

5 5% 6 25%

7 35%

33

1. COMPARACIN DE OBSERVACIONES PAREADAS PRUEBA DE LOS SIGNOS OBJETIVO: comparar si individuos o elementos sometidos a algn tratamiento cambian su desempeo antes y despus del mismo. Esta prueba no tiene en cuenta la magnitud de los cambios sino solamente la direccin del cambio. FORMULACIN: se emplea la frmula de la distribucin binomial:

P( x ) =

N! p X q NX ( N X )! X !

PRUEBA DE SIGNIFICACIN: para prueba de 2 colas se suman las probabilidades desde el centro hacia los extremos hasta alcanzar un nivel de confianza dado (Ej.: 95 %). Para pruebas de una cola se suman todas las probabilidades partiendo desde un extremo hasta alcanzar el nivel de confianza sealado. El procedimiento es similar al empleado en el mdulo 1. OTROS: para muestras grandes (n 30) se puede aproximar el resultado mediante la distribucin normal:
Z= X

X np npq

EJEMPLO: se evalan los resultados de una mediacin particular en valores, y para ello se registra la frecuencia de conductas inapropiadas en diez salones, mediante observaciones realizadas por los maestros durante una semana de clases, tanto antes como despus de la mediacin. Se desea establecer si la mediacin produjo mejoras significativas (una cola) en la conducta de los alumnos de las aulas mediadas.

Los registros de investigacin son los siguientes:


Frecuencia de conductas inapropiadas Antes Despus Signo de Aula (X) (Y) Y-X A 25 23 B 18 18 0 C 31 25 D 12 15 + E 8 10 + F 15 14 G 18 20 + H 21 18 I 17 15 J 14 12 -

34

Una vez ordenados y enfrentados los registros de cada aula, se obtiene el signo de la diferencia entre el despus y el antes (Y - X) y se totaliza el nmero de signos positivos, negativos y de cero. Ellos son: negativos: 6; positivos: 3; cero: 1. Se ignoran todos los registros de cero, por lo que la muestra de diez salones se reduce a n = 9. Se procede a formular y realizar la prueba de hiptesis: Ho: Ha. La mediacin no produce cambios en el nmero de conductas inapropiadas (igual probabilidad de signos positivos y negativos; p = q = 0,5) La mediacin produce reduccin en el nmero de conductas inapropiadas (p 0,5)

El valor esperado de la distribucin binomial es igual a np = 9 x 0,5 = 4,5, es decir, si las probabilidades fuesen iguales se obtendran 4,5 signos positivos y 4,5 signos negativos. En otras palabras, se desea comprobar si los resultados obtenidos (6 y 3) difieren significativamente de los esperados (4,5 y 4,5). Mediante la frmula que describe la distribucin binomial se calcula la probabilidad de cada uno de los eventos. Ejemplo para X = 4 P( x ) = 9! 0,5 4 0,59 4 = 0,246 (9 4)! 4!

Aplicando un procedimiento similar para X = 0, 1...9, se tiene:


X P(X) 0 1 2 3 4 5 6 7 8 9 0,002 0,018 0,07 0,164 0,246 0,246 0,164 0,07 0,018 0,002

Dado que nuestra hiptesis alterna se inclina por un resultado favorable, se trata de una prueba de una sola cola y para ello sumamos las probabilidades desde un extremo hasta alcanzar aproximadamente el 95% de los resultados. En tal caso se encuentra que: P(0) + P(1) + P(2) + P(3) + P(4) + P(5) + P(6) = 0,002 + + 0,164 = 0,91 91% P(0) + P(1) + P(2) + P(3) + P(4) + P(5) + P(6) + P(7) = 0,002 + ... + 0,07 = 0,98 98%.

Por lo anterior, el rango de valores de P(0) a P(6) es 0,91 y de P(0) a P(7) es 0,98, por lo que, en uno u otro caso, 6 y 3 quedan incluidos en el rango de los valores ms probables o tpicos, o producto del azar (para que fuese significativa la mediacin, tendran que haberse obtenido 8 9 resultados negativos). Concluimos entonces, que con 91 y 98% de confianza, la mediacin no produjo reduccin significativa en la frecuencia de comportamientos inapropiados.

35

2. COMPARACIN DE OBSERVACIONES PAREADAS PRUEBA DE RANGOS SIGNADOS DE WILCOXON OBJETIVO: comparar si individuos o elementos sometidos a algn tratamiento cambian su desempeo antes y despus del mismo. Esta prueba s tiene en cuenta la magnitud de los cambios en una u otra direccin. PROCEDIMIENTO: se calcula la diferencia en desempeo: despus antes; al valor absoluto de las diferencias obtenidas, se les asigna un rango, es decir, se ordenan y enumeran desde 1 hasta el ltimo valor, teniendo en cuenta que los empates se promedian y los valores de cero se omiten; se disocian y suman los rangos negativos y positivos segn el signo de la diferencia. PRUEBA DE SIGNIFICACIN: la menor de las sumatorias de los dos rangos en valor absoluto, se confronta con la distribucin T (Ver tabla 3). Si el valor crtico o de tablas es menor al calculado no se rechaza la hiptesis nula, es decir que, las diferencias en el desempeo del grupo antes y despus, no es significativa. OTROS: cuando el tamao de la muestra es mayor a 25 se puede aproximar la distribucin T a la normal:
n (n + 1) 4 n (n + 1)(2n + 1) 24 T

Z=

Donde T es la menor de las sumatorias

EJEMPLO: en este aparte se desarrolla el mismo ejercicio ilustrado en la prueba anterior. Los registros del estudio y los clculos preliminares son los siguientes:
Frecuencia de conductas inapropiadas Antes Despus Diferencia (X) (Y) Y-X 25 23 -2 18 18 0 31 25 -6 12 15 +3 8 10 +2 15 14 -1 18 20 +2 21 18 -3 17 15 -2 14 12 -2

Aula A B C D E F G H I J

Rango de la diferencia 4 9 7,5 4 1 4 7,5 4 4 Suma

Rango (-) -4 -9

Rango (+)

+7,5 +4 -1 +4 -7.5 -4 -4 -29,5

15,5

Ho:

La mediacin no produce cambios en el nmero de conductas inapropiadas (igual probabilidad de ganancia y prdida; p = q = 0,5)
36

Ha.

La mediacin produce reduccin en el nmero de conductas inapropiadas (p 0,5)

Se elige la menor sumatoria en valor absoluto entre los rangos signados (15,5) y se confronta con el valor crtico de la distribucin T para n = 9 y 99% de confianza. Dado que el valor crtico de T (9, 0,01; 1 cola) es igual a 3 y es menor al valor calculado, se concluye que no se redujo significativamente el nmero de comportamientos inapropiados. Dicho de otra forma, el valor menor de T calculado ha debido ser inferior a 3 para que se pudiese concluir que hubo reduccin significativa en las conductas inapropiadas. La grfica correspondiente a esta prueba se presenta a continuacin.

TABLA 3. VALORES CRITICOS DE T PARA LA PRUEBA DE RANGOS SIGNADOS DE WILCOXON.


Pares n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Una cola: Dos colas: 0,005 0,01 .. .. 0 2 3 5 7 10 13 16 20 23 28 32 38 43 49 55 61 68 Nivel de significacin 0,01 0,025 0,02 0,05 .. 0 0 2 2 4 3 6 5 8 7 11 10 14 13 17 16 21 20 25 24 30 28 35 33 40 38 46 43 52 49 59 56 66 62 73 69 81 77 89

37

3. COMPARACIN DE PROMEDIOS EN OBSERVACIONES PAREADAS PRUEBA t OBJETIVO: comparar si los promedios de un grupo sometido a algn tratamiento cambian su desempeo antes y despus del mismo. FORMULACIN:

t=

Xd n Sd

Donde X d es el promedio de la diferencia (despus - antes) y Sd la desviacin estndar de la diferencia

PRUEBA DE SIGNIFICACIN: se confronta el estadstico t calculado con el t crtico (Tabla 4) y se rechaza la hiptesis nula si el primero de ellos es mayor. Generalmente la hiptesis alterna (HA) ser de una cola ya que se probar si se reduce o incrementa el promedio despus del tratamiento. EJEMPLO: en este aparte se desarrolla el mismo ejemplo ilustrado en las dos pruebas anteriores, aunque con la salvedad que ahora se trata de una comparacin de promedios.

Ho: Ha.

Los promedios de conductas inapropiadas son iguales antes y despus de la mediacin Los promedios de conductas inapropiadas son menores despus de la mediacin

Los registros de muestreo y clculos preliminares son los siguientes:


Aula A B C D E F G H I J Promedio Desviacin estndar Nmero de conductas inapropiadas Antes Despus (X) (Y) 25 23 18 18 31 25 12 15 8 10 15 14 18 20 21 18 17 15 14 12 17,9 17 Diferencia Y-X -2 0 -6 +3 +2 -1 +2 -3 -2 -2 -0,9 2,7264

t=

0.9 10 = 1,0439 2,7264

Se confronta el valor absoluto calculado 1,0439 con el t crtico con 10 - 1 grados de libertad y 95 % de confianza para prueba de una cola, que es igual a 1,833 (Tabla 4b); dado que el valor absoluto calculado es menor al valor crtico, no se puede rechazar la hiptesis nula, es decir que, los promedios antes y despus de la mediacin son iguales.
38

Este ejercicio tambin puede ser resuelto mediante el programa Excel. Para ello siga las siguientes instrucciones: Escriba en dos columnas diferentes los registros para antes y despus del tratamiento. Vaya a herramientas, elija anlisis de datos (si no aparece elija complementos y mrquelo all para que se haga visible en este men) y seleccione Prueba t para medias de dos muestras emparejadas. En este ltimo marque el rango de los resultados para antes del tratamiento en la casilla de Rango para la variable 1 y los resultados correspondientes a despus en el Rango para la variable 2. Marque en el Rango de salida la celda donde desea que Excel ubique los resultados y d aceptar.
Prueba t para medias de dos muestras emparejadas Variable 1 Variable 2 Media 17.9 17 Varianza 43,2111 22,4444 Observaciones 10 10 Coeficiente de correlacin de Pearson 0,9348 Diferencia hipottica de las medias 0 Grados de libertad 9 Estadstico t 1,0439 P(T<=t) una cola 0,1619 Valor crtico de t (una cola) 1,8331 P(T<=t) dos colas 0,3238 Valor crtico de t (dos colas) 2,2622

Como primera medida identifique los promedios (Media) de cada uno de los dos grupos para que reconozca tales valores (17,9 para antes y 17 para despus de la mediacin). La interpretacin estadstica de estos resultados se lleva a cabo observando las casillas correspondientes a P(T<=t) una cola o dos colas segn la hiptesis alterna planteada. En el primer caso, un promedio es mayor a otro si dicho valor es menor a 0,05 (para 95%). Para el ejemplo en desarrollo tal valor o probabilidad es igual a 0,1619 por lo que concluimos que los promedios son iguales. Si se tratase de una prueba de dos colas, se sigue la misma regla planteada previamente, que para el ejemplo actual (P = 0,3238) seala nuevamente que los promedios son iguales.

39

TABLA 4a. DISTRIBUCIN DE t (PRUEBA DE 2 COLAS)


GRAD. DE LIBERT. PROBABILIDAD 0,10 0,05 0,01 GRAD. DE LIBERT. PROBABILIDAD 0,10 0,05 0,01 GRAD. DE LIBERT. PROBABILIDAD 0,10 0,05 0,01

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753

12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131

63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697

2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042

2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750

35 40 45 50 55 60 70 80 90 100 120

1,690 1,684 1,680 1,676 1,673 1,671 1,667 1,665 1,662 1,661 1,658 1,645

2,030 2,021 2,014 2,008 2,004 2,000 1,994 1,989 1,986 1,982 1,980 1,960

2,724 2,704 2,690 2,678 2,669 2,660 2,648 2,638 2,631 2,625 2,617 2,576

TABLA 4b. DISTRIBUCIN DE t (PRUEBA DE 1 COLA)


GRAD. DE LIBERT. PROBABILIDAD 0,10 0,05 0,01 GRAD. DE LIBERT. PROBABILIDAD 0,10 0,05 0,01 GRAD. DE LIBERT. PROBABILIDAD 0,10 0,05 0,01

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341

6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753

31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310

1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697

2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457

35 40 45 50 55 60 70 80 90 100 120

1,306 1,303 1,301 1,299 1,297 1,296 1,294 1,293 1,291 1,290 1,289 1,282

1,690 1,684 1,680 1,676 1,673 1,671 1,667 1,665 1,662 1,661 1,658 1,645

2,438 2,424 2,413 2,403 2,396 2,390 2,381 2,374 2,368 2,364 2,358 2,326

40

4. COMPARACION DE DOS PROMEDIOS - PRUEBA t OBJETIVO: esta es una prueba paramtrica que busca comparar los promedios de dos muestras provenientes de poblaciones distintas. FORMULACIN: (difiere ligeramente entre autores)

t=

(X 1 X 2 ) 0 (n1 1) S12 + (n2 1) S 22 x 1 + 1 (n1 1) + (n2 1) n1 n2

PRUEBA DE SIGNIFICACIN: en primer lugar se determina si las varianzas son iguales o diferentes aplicando para ello una prueba F (esta estadstica tienen una sola cola):
F=
2 S Mayor 2 S Menor

La relacin entre varianza mayor y menor se confronta con la tabla F con los grados de libertad del numerador (n1 1, columnas) y el denominador (n2 1, filas) (Tabla 5). Si el F calculado es mayor, se concluye que las varianzas son diferentes.
OTROS: segn las varianzas y el tamao de las muestras sean o no iguales, se determinan los grados de libertad para t:
CASO VARIANZAS N 1 S12 = S22 n 1 = n2 = n 2 (n - 1) 2 S12 = S22 n1 n2 n 1 + n2 - 2 3 S12 S22 n 1 = n2 = n n-1 4 S12 S22 n1 n2

t crtico:

Donde: S12 S22 W1 t1 + W2 t2 ; W2 = ----W1 = ----n2 -------------------n1 W1 + W2 t1 con (n1 - 1) ; t2 con (n2 - 1)

EJEMPLO 1: se quieren comparar los aos de estudio de profesores de colegios privados frente a colegios pblicos, bajo el supuesto de que es mayor el primero que el segundo, y para ello se toma una muestra aleatoria de veinte profesores en cada uno de ellos. Los aos reportados y algunos clculos bsicos son los siguientes:
Profesor
Educacin privada Educacin pblica 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

X
16,2 12,5

S2 3,4316 3,5263

15 18 20 17 19 15 14 17 16 16 15 15 17 16 17 14 12 16 18 17 12 10 13 10 12 15 14 12 13 10 11 13 12 12 16 9 13 14 14 15

La prueba de varianzas es la siguiente:


41

H0: Las varianzas son iguales HA: Las varianzas son diferentes F= 3,4316 = 0,97 3,5263

Se confronta el valor calculado con el de tablas F (0,05; 19, 19) = 2,17 (Tabla 5), y dado que el primero se encuentra dentro de los resultados ms probables, se rechaza que las varianzas son diferentes.

Ya que tanto las varianzas como el tamao de las muestras son iguales, la prueba corresponde al caso 1. H0: El promedio de formacin (aos) de colegios privados es igual al de pblicos HA: El promedio de formacin (aos) de colegios privados es mayor al de pblicos
t= 16,2 12,5

(20 1) 3,4316 + (20 1) 3,5263 1 + 1 (20 1) + (20 1) 20 20

= 6,27

El valor crtico de t (Tabla 4b, 2 colas, 95%) es 1,686 y dado que el valor calculado se encuentra fuera de los resultados ms probables (azar), se concluye que el promedio de formacin en los colegios privados es mayor al de los pblicos.

Las pruebas de comparacin de dos promedios por medio de la estadstica t pueden desarrollarse en su totalidad a travs del programa Excel. Se ilustra a continuacin el resultado arrojado por dicho programa para el ejemplo en curso; para ello se siguen las siguientes instrucciones: Introduzca los datos de cada grupo en una columna distinta. Seleccione: herramientas; anlisis de datos; Prueba F para varianzas de dos muestras; llene la casilla de Rango
42

para la variable 1 con el rango de datos de uno de los grupos y el Rango para la variable 2 con el del otro grupo. Marque la casilla de Rango de salida y escriba la celda en la cual desea obtener los resultados; Aceptar. La tabla arrojada por Excel es la siguiente:
Prueba F para varianzas de dos muestras
Media Varianza Observaciones Grados de libertad F P(F<=f) una cola Valor crtico para F (una cola) Variable 1 Variable 2 16,2 12,5 3,4316 3,5263 20 20 19 19 0,9731 0,4766 0,4612

Si el valor registrado frente a la casilla P(F<=f) una cola es menor a 0,05 las varianzas son diferentes con 95% de confianza, por tanto, son iguales para este ejemplo. Repita el procedimiento anterior pero en lugar de elegir Prueba F para varianzas de dos muestras, marque Prueba t para dos muestras suponiendo varianzas iguales. El resultado es el siguiente:
Prueba t para dos muestras suponiendo varianzas iguales Variable 1 Variable 2 Media 16,2 12,5 Varianza 3,4316 3,5263 Observaciones 20 20 Varianza agrupada 3,4789 Diferencia hipottica de las medias 0 Grados de libertad 38 Estadstico t 6,2730 P(T<=t) una cola 1,2E-07 Valor crtico de t (una cola) 1,6860 P(T<=t) dos colas 2,40E-07 Valor crtico de t (dos colas) 2,0244

Para pruebas de dos colas se verifica si la probabilidad P(T<=t) dos colas es mayor o menor a 0,05, si es menor, los promedios son diferentes, si es mayor, los promedios son iguales. Para pruebas de una cola verifique la casilla correspondiente y siga la misma regla referida. Para este ejemplo, de una cola, la probabilidad (1,2E-07 = 0,00000012) indica que el promedio de estudio en colegios privados es mayor al de los pblicos.
EJEMPLO 2: se desea establecer si dentro de una localidad de la ciudad los profesores de colegios privados han gastado ms dinero en su formacin que los profesores de colegios pblicos. Para ello se toma una muestra de 15 profesores en los privados y 10 en los pblicos. Los valores reportados (en millones) y los clculos preliminares son los siguientes:

43

Profesor

2 5 5

5 8

6 10

7 7 7

10 11 12 13 14 15 8 24 8 3 52

Promedio

Varianza

Educacin 25 privada Educacin 15 pblica

18 72

27 48 16 7 13 9

22,067 11,3

412,35 29,57

10 24 13 10

La prueba de varianzas es la siguiente: H0: Las varianzas son iguales HA: Las varianzas son diferentes F= 412,35 = 13,95 29,57

Se confronta este valor con el valor crtico de tablas F (0,05; 14, 9) = 3,02, y dado que el valor calculado est por fuera de los resultados ms probables, se rechaza que las varianzas son iguales.

Ya que tanto las varianzas como el nmero de muestras es diferente, la prueba pertenece al caso 4. H0: Los promedios son iguales HA: Los promedios son diferentes
t= 22,067 11,3

(15 1) 412,35 + (10 1) 29,57 1 + 1 (15 1) + (10 1) 15 10

= 1,63

El valor crtico de t se calcula a partir del t de tablas (Tabla 4a) de cada una de las dos muestras:
S12 S2 t1 + 2 t 2 412,35 2,145 + n n2 t= 1 2 = 15 2 412,35 S1 S 2 + + 15 n1 n2 29,57 2,262 10 = 2,16 29,57 10

Dado que el valor calculado se encuentra dentro de los resultados ms probables (azar), se concluye que los promedios son iguales.
44

Siguiendo el mismo procedimiento anteriormente referido para Excel se tiene que:


Prueba F para varianzas de dos muestras Variable 1 Variable 2 22,0667 11,3 Media 412,3524 29,5667 Varianza 15 10 Observaciones 14 9 Grados de libertad 13,9465 F P(F<=f) una cola 0,0002 3,0255 Valor crtico para F (una cola)

Con 95% de confianza las varianzas son diferentes.


Prueba t para dos muestras suponiendo varianzas desiguales Variable 1 Variable 2 22,066 11.3 Media 412.3523 29.5667 Varianza 15 10 Observaciones 0 Diferencia hipottica de las medias 17 Grados de libertad 1.9512 Estadstico t P(T<=t) una cola 0.0338 1.7396 Valor crtico de t (una cola) P(T<=t) dos colas 0.0677 2.1098 Valor crtico de t (dos colas)

Se concluye que los promedios son iguales con 95% de confianza aunque son diferentes con 93,23%. Ntese que en el ejemplo 1 los resultados por Excel y por las frmulas aqu empleadas, son idnticos. No as para el caso en que las varianzas y las muestras son desiguales; si bien los clculos difieren por el algoritmo particular que emplea Excel, las conclusiones son iguales.

45

Grados Libert. Denom. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 24 26 28 30 40 60 120 200

TABLA 5. VALORES PORCENTUALES DE LA DISTRIBUCIN F ( = 0,05) Grados de Libertad Numerador 1 161 18,5 10,1 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,30 4,26 4,23 4,20 4,17 4,08 4,00 3,92 3,89 3,84 2 200 19,0 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,44 3,40 3,37 3,34 3,32 3,23 3,15 3,07 3,04 3,00 3 216 19,2 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,05 3,01 2,98 2,95 2,92 2,84 2,76 2,68 2,65 2,60 4 225 19,2 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,82 2,78 2,74 2,71 2,69 2,61 2,53 2,45 2,42 2,37 5 230 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,66 2,62 2,59 2,56 2,53 2,45 2,37 2,29 2,26 2,21 6 234 19,3 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,55 2,51 2,47 2,45 2,42 2,34 2,25 2,17 2,14 2,10 7 237 19,4 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,46 2,42 2,39 2,36 2,33 2,25 2,17 2,09 2,06 2,01 8 239 19,4 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,40 2,36 2,32 2,29 2,27 2,18 2,10 2,02 1,98 1,94 9 241 19,4 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,34 2,30 2,27 2,24 2,21 2,12 2,04 1,96 1,93 1,88 10 242 19,4 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,30 2,25 2,22 2,19 2,16 2,08 1,99 1,91 1,88 1,83 11 243 19,4 8,76 5,94 4,71 4,03 3,60 3,31 3,10 2,94 2,82 2,72 2,63 2,57 2,51 2,46 2,41 2,37 2,34 2,31 2,26 2,21 2,18 2,15 2,13 2,04 1,95 1,87 1,84 1,79 12 244 19,4 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,23 2,18 2,15 2,12 2,09 2,00 1,92 1,83 1,80 1,75 15 246 19,4 8,70 5,86 4,62 3,94 3,51 3,22 3,01 2,85 2,72 2,62 2,53 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,15 2,11 2,07 2,04 2,01 1,92 1,84 1,75 1,72 1,67 20 248 19,4 8,66 5,80 4,56 3,87 3,44 3,15 2,94 2,77 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,16 2,12 2,07 2,03 1,99 1,96 1,93 1,84 1,75 1,66 1,62 1,57 24 249 19,5 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,51 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,03 1,98 1,95 1,91 1,89 1,79 1,70 1,61 1,57 1,52 30 250 19,5 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,25 2,19 2,15 2,11 2,07 2,04 1,98 1,94 1,90 1,87 1,84 1,74 1,65 1,55 1,52 1,46 40 251 19,5 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,53 2,43 2,34 2,27 2,20 2,15 2,10 2,06 2,03 1,99 1,94 1,89 1,85 1,82 1,79 1,69 1,59 1,50 1,46 1,39 50 252 19,5 8,58 5,70 4,44 3,75 3,32 3,02 2,80 2,64 2,51 2,40 2,31 2,24 2,18 2,12 2,08 2,04 2,00 1,97 1,91 1,86 1,82 1,79 1,76 1,66 1,56 1,46 1,41 1,35 60 252 19,5 8,57 5,69 4,43 3,74 3,30 3,01 2,79 2,62 2,49 2,38 2,30 2,22 2,16 2,11 2,06 2,02 1,98 1,95 1,89 1,84 1,80 1,77 1,74 1,64 1,53 1,43 1,39 1,32 100 253 19,5 8,55 5,66 4,41 3,71 3,27 2,97 2,76 2,59 2,46 2,35 2,26 2,19 2,12 2,07 2,02 1,98 1,94 1,91 1,85 1,80 1,76 1,73 1,70 1,59 1,48 1,37 1,32 1,24 120 253 19,5 8,55 5,66 4,40 3,70 3,27 2,97 2,75 2,58 2,45 2,34 2,25 2,18 2,11 2,06 2,01 1,97 1,93 1,90 1,84 1,79 1,75 1,71 1,68 1,58 1,47 1,35 1,29 1,22 200 254 19,5 8,54 5,65 4,39 3,69 3,25 2,95 2,73 2,56 2,43 2,32 2,23 2,16 2,10 2,04 1,99 1,95 1,91 1,88 1,82 1,77 1,73 1,69 1,66 1,55 1,44 1,32 1,26 1,17 500 254 19,5 8,53 5,64 4,37 3,68 3,24 2,94 2,72 2,55 2,42 2,31 2,22 2,14 2,08 2,02 1,97 1,93 1,89 1,86 1,80 1,75 1,71 1,67 1,64 1,53 1,41 1,28 1,22 1,11 254 19,5 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,78 1,73 1,69 1,65 1,62 1,51 1,39 1,25 1,19 1,00

46

5. COMPARACIN DE DOS PROPORCIONES PRUEBA Z OBJETIVO: comparar si las proporciones de una variable en dos muestras son iguales o diferentes. FORMULACIN:
Z= P (1 P ) P (1 P ) + n1 n2 P1 P2
Donde: P es la proporcin promedio de las 2 muestras; P1 la proporcin en la muestra 1 y P2 la proporcin en la muestra 2; n1 es el tamao de la muestra 1 y n2 el tamao de la muestra 2

PRUEBA DE SIGNIFICACIN: se confronta el valor Z calculado con el valor de tablas (1,96 para 95% de confianza en prueba de dos colas y 2,33 en pruebas de una cola). Se rechaza la hiptesis nula si el Z calculado es mayor al de tablas. OTROS: se emplea la estadstica Z lo que supone muestras grandes (mayores a 30). EJEMPLO: se desea comparar la proporcin de nios que realizaron cursos remediales en dos localidades, a partir de muestras tomadas en cada una de ellas. En la localidad A tomaron cursos 1.050 alumnos de 4.500 encuestados; en la localidad B, 2.000 de 5.500. Los registros del estudio y los clculos preliminares son los siguientes:
n nk P Localidad A Localidad B 4.500 5.500 1.050 2.000 1.050/4.500 = 0,233 2.000/5.500= 0,364 (1.050 +2.000)/(4.500 +5.500) = 0,305

Ho.: P1 = P2 (la proporcin de alumnos con cursos remediales en las dos localidades es igual) Ha.: P1 P2 (la proporcin de alumnos con cursos remediales en las dos localidades es diferente)
Z=

P 1 P P 1 P + n1 n2

P P2 1

) (

0,233 0,364 0,305 (1 0,305) 0,305 (1 0,305) + 4.500 5.500

= 14,16

Dado que el valor Z calculado es mayor al de tablas, se rechaza la hiptesis nula, por lo que las proporciones de alumnos que hicieron cursos remediales en las dos localidades son diferentes.

47

6. COMPARACIN DE DOS MEDIANAS - PRUEBA MANN - WHITNEY OBJETIVO: determinar si hay diferencias entre las medianas de dos muestras provenientes de poblaciones distintas. Se trata de una prueba no paramtrica. FORMULACIN: se ordenan todos los datos de menor a mayor (o viceversa) y se les asignan nmeros ordenados 1, 2, 3, ... a todos los registros conjuntamente. A los empates se les anota el rango promedio.
U 1 = n1 n 2 + n1 (n1 + 1) R1 2 U 2 = n1 n 2 + n 2 (n2 + 1) R2 2
Donde: R1: es la suma de rangos en 1; R2: es la suma de rangos en 2

PRUEBA DE SIGNIFICACIN: se emplea la estadstica U cuando n1 y n2 son menores a 20; el Ui ms alto se confronta con el U de tablas. Si el primero es mayor se rechaza la hiptesis nula. OTROS: si algn ni es mayor a 20 se puede usar la estadstica Z.
n1 n 2 2 n1 n 2 (n1 + n 2 + 1) 12 U

Z=

Donde U: es cualquiera de los Ui

EJEMPLO: se desarrolla el ejemplo 2 previamente estudiado en el numeral 4 de comparacin de dos promedios mediante la estadstica t.
Educacin privada 72 52 48 27 25 24 18 16 10 8 8 8 7 5 3 16 15
48

Rango (R1) 25 24 23 22 21 19,5 18 17 12 8 8 8 5 2,5 1 214

Mediana Suma n

Educacin pblica 24 15 13 13 10 10 9 7 7 5 10 10

Rango (R2) 19,5 16 14,5 14,5 12 12 10 5 5 2,5 111

Mediana Suma n

H0:

La inversin en estudios (millones) de los profesores de colegios privados es igual a la de los profesores de colegios pblicos HA: La inversin en estudios (millones) de los profesores de colegios privados es diferente a la de los profesores de colegios pblicos U 1 = 15 10 + 15 (15 + 1) 214 = 56 2

U 2 = 15 10 +

10 (10 + 1) 111 = 94 2

El U crtico ( 10 ,15 , 0,05) (tabla 6) es igual a 111. Ya que el Ui calculado mayor (94) es menor al U crtico, no se rechaza la hiptesis nula, es decir, las inversiones (medianas) son iguales.

49

TABLA 6. VALORES CRTICOS DE LA DISTRIBUCIN U MANN - WHITNEY ( = 0,05, 2 COLAS)


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 ------------------------------------------------------------------39 40 2 ------------16 18 20 22 23 25 27 29 31 32 34 36 38 39 41 43 45 47 48 50 52 54 55 57 59 61 63 64 65 68 70 71 73 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

----15 17 20 22 25 27 30 32 35 37 40 42 45 47 50 52 55 57 60 62 65 67 70 72 74 77 79 82 84 87 89 92 94 97 99 102

16 19 22 25 28 32 35 38 41 44 47 50 53 57 60 63 66 69 72 75 79 82 85 88 91 94 97 100 104 107 110 113 116 119 122 125 129

23 27 30 34 38 42 46 49 53 57 61 65 68 72 76 80 83 87 91 95 98 102 106 110 113 117 121 125 128 132 136 140 144 147 151 155

31 36 40 44 49 53 58 62 67 71 75 80 84 89 93 97 102 106 111 115 119 124 128 132 137 141 146 150 154 159 163 167 172 176 181

41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 151 156 161 166 171 176 181 186 191 196 201 206

51 57 63 69 74 80 86 91 97 102 108 114 119 125 131 136 142 147 153 159 164 170 175 181 187 192 198 203 209 215 220 226 231

64 70 75 82 89 95 101 107 114 120 126 132 139 145 151 157 163 170 176 182 188 194 201 207 213 219 226 232 238 244 250 257

77 84 91 97 104 111 118 125 132 138 145 152 159 166 173 179 186 193 200 207 213 220 227 234 241 247 254 261 268 275 281

91 99 106 114 121 129 136 143 151 158 166 173 180 188 195 203 210 218 225 232 240 247 255 262 269 277 284 291 299 306

107 115 123 131 139 147 155 163 171 179 187 195 203 211 219 227 235 243 251 259 267 275 283 291 299 307 315 323 331

124 132 141 149 158 167 175 184 193 201 210 218 227 236 244 253 261 270 278 287 296 304 313 321 330 338 347 355

141 151 160 169 178 188 197 206 215 224 234 243 252 261 270 279 289 298 307 316 325 334 343 353 362 371 380

161 170 180 190 200 210 219 229 239 249 258 268 278 288 297 307 317 327 336 346 356 366 375 385 395 404

181 191 202 212 222 233 243 253 264 274 284 295 305 315 326 336 346 357 367 377 388 398 408 418 429

202 213 224 235 246 257 268 279 290 301 312 322 333 344 355 366 377 388 399 410 420 431 442 453

225 236 248 259 271 282 294 305 317 328 340 351 363 374 386 397 409 420 432 443 454 466 477

248 261 273 285 297 309 321 333 345 357 369 381 393 405 417 429 441 453 465 477 489 502

273 286 299 311 324 337 349 362 374 387 400 412 425 438 450 463 475 488 501 513 526

50

7. COMPARACIN DE MS DE DOS MEDIANAS - PRUEBA DE KRUSKAL - WALLIS OBJETIVO: es una prueba no paramtrica que busca comparar ms de dos medianas. FORMULACIN:

Ri 2 12 la de rango de grupo, H= n 3 (N + 1) Donde: Ri estotalessumai las observacionescadacada grupoN las en observaciones yn N ( N + 1) i


PRUEBA DE SIGNIFICACIN: el valor de H se confronta con el estadstico x2 (Tabla 2) cuando cada muestra tiene por lo menos 5 elementos (si no es as, con la estadstica H, tabla 7). El valor crtico tiene K - 1 grados de libertad, siendo K el nmero de grupos que se comparan. Si H calculado es mayor se rechaza la hiptesis nula, es decir que al menos una mediana es diferente. Esta prueba no permite precisar cul de las medianas es diferente y se debe acudir, posteriormente, a la realizacin de una prueba de comparaciones mltiples. EJEMPLO: se quiere saber si las horas de estudio semanales en tres semestres de una misma facultad son iguales o diferentes. Los resultados de las muestras y clculos preliminares son:
Semestre
1 32 26 21 20 18 18 14 5 40 35 33 27 25 23 10 60 52 40 38 34 Se ordenan al unsono todos los registros en forma de rangos: 1 10 8 5 4 2,5 2,5 1

Semestre
5 15,5 13 11 9 7 6 10 18 17 15,5 14 12

ni Mediana

7 20

6 30

5 40

N = 18

33

61,5

76,5

H0: Todos los semestres estudian por igual (medianas iguales) HA.: Por lo menos una mediana es diferente
H= 33 2 61,5 2 76,5 2 12 + + 3 (18 + 1) = 11,65 18 (18 + 1) 7 6 5

El x2 crtico con 2 grados de libertad (3 grupos menos 1) y 95 % de confianza es 5,99, por lo que se rechaza la hiptesis nula, es decir que, al menos una mediana es diferente.

51

TABLA 7. VALORES CRTICOS DE LA DISTRIBUCIN H KRUSKAL - WALLIS ( = 0,05)

n1 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6

n2 2 2 2 3 3 3 2 2 3 3 3 4 4 4 4 2 2 3 3 3 4 4 4 4 5 5 5 5 5 1 2 2 3 3 3

n3 2 1 2 1 2 3 1 2 1 2 3 1 2 3 4 1 2 1 2 3 1 2 3 4 1 2 3 4 5 1 1 2 1 2 3

n4

n5

4,714 5,143 5,361 5,600 5,333 5,208 5,444 5,791 4,967 5,455 5,598 5,692 5,000 5,160 4,960 5,251 5,648 4,985 5,273 5,656 5,657 5,127 5,338 5,705 5,666 5,780 4,822 5,345 4,855 5,348 5,615

n1 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 8 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4

n2 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 7 8 2 2 2 1 2 2 2 3 3 3 3 3 3 1 2 2 2 3

n3 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 7 8 1 2 2 1 1 2 2 1 2 2 3 3 3 1 1 2 2 1

n4

n5 4,947 5,340 5,610 5,681 4,990 5,338 5,602 5,661 5,729 4,945 5,410 5,625 5,724 5,765 5,801 5,819 6,005

1 1 2 1 1 1 2 1 1 2 1 2 3 1 1 1 2 1

5,679 6,167

5,833 5,333 6,333 6,244 6,527 6,600 6,727 7,000 6,813 6,133 6,545 6,178

n1 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

n2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 1 2 2 2 2 1 2 2 2 2 3 3 3 3 3 3 3 3 3 3

n3 2 2 3 3 3 1 2 2 3 3 3 4 4 4 4 1 1 2 2 2 1 1 2 2 2 1 2 2 2 3 3 3 3 3 3

n4 1 2 1 2 3 1 1 2 1 2 3 1 2 3 4 1 1 1 2 2 1 1 1 2 2 1 1 2 2 1 2 2 3 3 3

n5 6,309 6,621 6,545 6,795 6,984 5,945 6,386 6,731 6,635 6,874 7,038 6,725 6,957 7,142 7,235 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 2 1 2 3

6,750 7,133 7,418 6,583 6,800 7,309 7,682 7,111 7,200 7,591 7,910 7,676 7,769 8,044 8,000 8,200 8,333

52

8. COMPARACIONES MLTIPLES DE MEDIANAS OBJETIVO: es una prueba no paramtrica que se emplea de forma posterior a la prueba de Kruskal-Wallis, para determinar cules medianas son diferentes entre s. Se emplea para muestras de tamao diferente, en caso contrario, se realiza una prueba como la de Tukey. FORMULACIONES:
q= Ra Rb ES ; Ra = Ra na ; Rb = Rb nb

El error estndar (ES) es:


Cuando no hay empates: N ( N + 1) 1 1 ES = + 12 n a nb Cuando hay empates:

N (N + 1) T 1 + 1 ES = 12 12 ( N 1) na nb Donde: T = (ti3 ti) y ti es el nmero de empates dentro de cada empate

PRUEBA DE SIGNIFICACIN: el valor calculado de q se confronta contra el estadstico q de tablas (Tabla 8) para cada par de grupos. Si el valor calculado es mayor se rechaza que los 2 grupos que se comparan son iguales. EJEMPLO: se resuelve el problema estudiado en la Prueba de Kruskal-Wallis (Numeral 7) en la cual se encontr que por lo menos una mediana es diferente. Adems, cabe anotar que el tamao de las muestras es diferente.
1 20 33 7 Semestre 5 10 30 40 61,5 76,5 6 5

Mediana Rango (Ri) Muestra (ni)

N = 18

Como primera medida, se observaron dos empates (18 y 40), cada uno con dos valores, por tanto: T = (23 - 2) + (23 - 2) = 6 + 6 = 12 H0: Mediana de 1 es igual a mediana de 5 HA: Mediana de 1 es diferente a mediana de 5
18 (18 + 1) 1 1 12 ES = + = 2,97 12 (18 1) 7 6 12

R1 =

33 61,5 10,25 4,71 = 4,71 ; R 5 = = 10,25 ; q = = 1,87 7 6 2,97


53

El valor crtico de q para K = 3 y el 95% de confianza es 2,394 (Tabla 8) por lo que no se rechaza la hiptesis nula y las medianas son iguales. H0: Mediana de 1 es igual a mediana de 10 HA: Mediana de 1 es diferente a mediana de 10
18 (18 + 1) 1 1 12 ES = + = 3,12 12 (18 1) 7 5 12

R1 =

33 76,5 15,3 4,71 = 4,71 ; R10 = = 15,3 ; q = = 3,39 7 5 3,12

El valor crtico de q para K = 3 y el 95% de confianza es 2,394, por lo que se rechaza la hiptesis nula y las medianas son diferentes. H0: Mediana de 5 es igual a mediana de 10 HA: Mediana de 5 es diferente a mediana de 10
18 (18 + 1) 1 1 12 ES = + = 3,23 12 (18 1) 6 5 12

R5 =

76,5 15,3 10,25 61,5 = 10,25 ; R10 = = 15,3 ; q = = 1,56 6 5 3,23

El valor crtico de q para K = 3 y el 95% de confianza es 2,394, por lo que no se rechaza la hiptesis nula y las medianas son guales. El resultado anterior se representa en trmino de mayor a menor nmero de horas de estudio como:

Dcimo y quinto semestre estudian por igual; quinto y primero tambin. Dcimo difiere de primer semestre.

54

TABLA 8. VALORES CRTICOS DE LA DISTRIBUCIN Q PARA COMPARACIONES MLTIPLES NO PARAMTRICAS. 0,10 0,05 0,01 K\ 1,645 1,960 2,576 2 2,128 2,394 2,936 3 2,394 2,639 3,144 4 2,576 2,807 3,291 5 2,713 2,936 3,403 6 2,823 3,038 3,494 7 2,914 3,124 3,570 8 2,992 3,197 3,635 9 3,059 3,261 3,692 10 3,119 3,317 3,743 11 3,172 3,368 3,789 12 3,220 3,414 3,830 13 3,264 3,456 3,868 14 3,304 3,494 3,902 15 3,342 3,529 3,935 16 3,376 3,562 3,965 17 3,409 3,593 3,993 18 3,439 3,622 4,019 19 3,467 3,649 4,044 20 3,494 3,675 4,067 21 3,519 3,699 4,089 22 3,543 3,722 4,110 23 3,566 3,744 4,130 24 3,588 3,765 4,149 25

55

9. COMPARACIONES MULTIPLES DE MEDIANAS PRUEBA DE TUKEY OBJETIVO: al igual que la prueba anterior, se trata de una prueba no paramtrica que permite dilucidar que medianas difieren entre s cuando la prueba de Kruskal-Wallis nos indica que stas son diferentes. Se emplea cuando las tallas de muestreo de todos los grupos son iguales. FORMULACIONES:
q= fa fb ES

El error estndar (ES) es: Si N es impar: ES = Donde:


n( N + 1) 4N

Si N es par: ES =

nN 4( N 1)

n es el nmero de datos en cada grupo N es la suma de todos los datos (n x k) k es el nmero de grupos

El procedimiento es el siguiente: se obtiene la mediana para el total de datos; se seleccionan en cada grupo los valores mayores a esta mediana; se asignan rangos a estos datos de forma conjunta; se suman los rangos para cada clase (fi).
PRUEBA DE SIGNIFICACIN: el valor calculado de q se confronta contra el estadstico q de tablas (0,05; , k = nmero de grupos) para cada par de grupos. Si el valor calculado es mayor se rechaza que los 2 grupos que se comparan son iguales. EJEMPLO: mediante una prueba de Kruskal-Wallis se encontraron diferencias significativas en el nmero de alumnos por profesor en tres planteles distintos (A, B y C) y se quiere determinar sobre una muestra de seis salones por plantel, cules de ellos son diferentes.
Plantel Alumnos por profesor A B C 10 20 50 15 30 60 17 37 70 21 40 80 22 50 100 17 37 70 37

n=5 N = 15 k=3

Mediana Mediana

Los registros mayores a la mediana para cada grupo son:

56

B 40 50

C 50 60 70 80 100

Ordenados por rangos:

B 1 2,5

Suma

3,5

C 2,5 4 5 6 7 24,5

ES =

5(15 + 1) = 1,155 4 15

Ho: Mediana A = Mediana B HA: Mediana A Mediana B q= 3,5 0 = 3,03 1,155

El valor crtico de q para (0,05; , 3, Tabla 9) es 3,314, por lo que no se rechaza la hiptesis nula. Ho: Mediana A = Mediana C HA: Mediana A Mediana C q= 24,5 0 = 21,21 1,155

Dado que el valor crtico de q es 3,314, se rechaza la hiptesis nula. Ho: Mediana B = Mediana C HA: Mediana B Mediana C q= 24,5 3,5 = 18,18 1,155

El valor crtico de q es 3,314, por lo que se rechaza la hiptesis nula. Los resultados anteriores se representan como:

57

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120

2 17,97 6,085 4,501 3,927 3,635 3,461 3,344 3,261 3,199 3,151 3,113 3,082 3,055 3,033 3,014 2,998 2,984 2,971 2,960 2,950 2,919 2,888 2,858 2,829 2,800 2,772

3 26,98 8,331 5,910 5,040 4,602 4,339 4,165 4,041 3,949 3,877 3,820 3,773 3,735 3,702 3,674 3,649 3,628 3,609 3,593 3,578 3,532 3,486 3,442 3,399 3,356 3,314

4 32,82 9,798 6,825 5,757 5,218 4,896 4,681 4,529 4,415 4,327 4,256 4,199 4,151 4,111 4,076 4,046 4,020 3,997 3,977 3,958 3,901 3,845 3,791 3,737 3,685 3,633

5 37,08 10,88 7,502 6,287 5,673 5,305 5,060 4,886 4,756 4,654 4,574 4,508 4,453 4,407 4,367 4,333 4,303 4,277 4,253 4,232 4,166 4,102 4,039 3,977 3,917 3,858

TABLA 9a. VALORES CRTICOS DE LA DISTRIBUCIN q ( = 0,05) KoP 6 7 8 9 10 11 12 13 14 40,41 43,12 45,40 47,36 49,07 50,59 51,96 53,20 54,33 11,74 12,44 13,03 13,54 13,99 14,39 14,75 15,08 15,38 8,037 8,478 8,853 9,177 9,462 9,717 9,946 10,15 10,35 6,707 7,053 7,347 7,602 7,826 8,027 8,208 8,373 8,525 6,033 6,330 6,582 6,802 6,995 7,168 7,324 7,466 7,596 5,628 5,895 6,122 6,319 6,493 6,649 6,789 6,917 7,034 5,359 5,606 5,815 5,998 6,158 6,302 6,431 6,550 6,658 5,167 5,399 5,597 5,767 5,918 6,054 6,175 6,287 6,389 5,024 5,244 5,432 5,595 5,739 5,867 5,983 6,089 6,186 4,912 5,124 5,305 5,461 5,599 5,722 5,833 5,935 6,028 4,823 5,028 5,202 5,353 5,487 5,605 5,713 5,811 5,901 4,751 4,950 5,119 5,265 5,395 5,511 5,615 5,710 5,798 4,690 4,885 5,049 5,192 5,318 5,431 5,533 5,625 5,711 4,639 4,829 4,990 5,131 5,254 5,364 5,463 5,554 5,637 4,595 4,782 4,940 5,077 5,198 5,306 5,404 5,493 5,574 4,557 4,741 4,897 5,031 5,150 5,256 5,352 5,439 5,520 4,524 4,705 4,858 4,991 5,108 5,212 5,307 5,392 5,471 4,495 4,673 4,824 4,956 5,071 5,174 5,267 5,352 5,429 4,469 4,645 4,794 4,924 5,038 5,140 5,231 5,315 5,391 4,445 4,620 4,768 4,896 5,008 5,108 5,199 5,282 5,357 4,373 4,541 4,684 4,807 4,915 5,012 5,099 5,179 5,251 4,302 4,464 4,602 4,720 4,824 4,917 5,001 5,077 5,147 4,232 4,389 4,521 4,635 4,735 4,824 4,904 4,977 5,044 4,163 4,314 4,441 4,550 4,646 4,732 4,808 4,878 4,942 4,096 4,241 4,363 4,468 4,560 4,641 4,714 4,781 4,842 4,030 4,170 4,286 4,387 4,474 4,552 4,622 4,685 4,743

15 55,36 15,65 10,53 8,664 7,717 7,143 6,759 6,483 6,276 6,114 5,984 5,878 5,789 5,714 5,649 5,593 5,544 5,501 5,462 5,427 5,319 5,211 5,106 5,001 4,898 4,796

16 56,32 15,91 10,69 8,794 7,828 7,244 6,852 6,571 6,359 6,194 6,062 5,953 5,862 5,786 5,720 5,662 5,612 5,568 5,528 5,493 5,381 5,271 5,163 5,056 4,950 4,845

17 57,22 16,14 10,84 8,914 7,932 7,338 6,939 6,653 6,437 6,269 6,134 6,023 5,931 5,852 5,785 5,727 5,675 5,630 5,589 5,553 5,439 5,327 5,216 5,107 4,998 4,891

18 58,04 16,37 10,98 9,028 8,030 7,426 7,020 6,729 6,510 6,339 6,202 6,089 5,995 5,915 5,846 5,786 5,734 5,688 5,647 5,610 5,494 5,379 5,266 5,154 5,044 4,934

19 58,83 16,57 11,11 9,134 8,122 7,508 7,097 6,802 6,579 6,405 6,269 6,151 6,055 5,978 5,904 5,841 5,790 5,741 5,701 5,661 5,545 5,429 5,311 5,199 5,086 4,970

58

v 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120

20 59,56 16,77 11,24 9,233 8,208 7,587 7,170 6,870 6,644 6,467 6,326 6,209 6,112 6,029 5,958 5,897 5,842 5,794 5,752 5,714 5,594 5,475 5,358 5,241 5,126 5,012

22 60,91 17,13 11,47 9,418 8,368 7,730 7,303 6,995 6,763 6,582 6,436 6,317 6,217 6,132 6,059 5,995 5,940 5,890 5,846 5,807 5,683 5,561 5,439 5,319 5,200 5,081

24 62,12 17,45 11,68 9,584 8,512 7,861 7,423 7,109 6,871 6,686 6,536 6,414 6,312 6,224 6,149 6,084 6,027 5,977 5,932 5,891 5,764 5,638 5,513 5,389 5,266 5,144

26 63,22 17,75 11,87 9,736 8,643 7,979 7,533 7,212 6,970 6,781 6,628 6,503 6,398 6,309 6,233 6,166 6,107 6,055 6,009 5,968 5,838 5,709 5,581 5,453 5,327 5,201

TABLA 9b. VALORES CRTICOS DE LA DISTRIBUCIN q ( = 0,05). KoP 28 30 32 34 36 38 40 50 60 64,23 65,15 66,01 66,81 67,56 68,26 68,92 71,73 73,97 18,02 18,27 18,50 18,72 18,92 19,11 19,28 20,05 20,66 12,05 12,21 12,36 12,50 12,63 12,75 12,87 13,36 13,76 9,875 10,00 10,12 10,23 10,34 10,44 10,53 10,93 11,24 8,764 8,875 8,979 9,075 9,165 9,250 9,330 9,674 9,949 8,088 8,189 8,283 8,370 8,452 8,529 8,601 8,913 9,163 7,634 7,728 7,814 7,895 7,972 8,043 8,110 8,400 8,632 7,307 7,395 7,477 7,554 7,625 7,693 7,756 8,029 8,248 7,061 7,145 7,222 7,295 7,363 7,428 7,488 7,749 7,958 6,868 6,948 7,023 7,093 7,159 7,220 7,279 7,529 7,730 6,712 6,790 6,863 6,930 6,994 7,053 7,110 7,352 7,546 6,585 6,660 6,731 6,796 6,858 6,916 6,970 7,205 7,394 6,478 6,551 6,620 6,684 6,744 6,800 6,854 7,083 7,267 6,387 6,459 6,526 6,588 6,647 6,702 6,754 6,979 7,159 6,309 6,379 6,445 6,506 6,564 6,618 6,669 6,888 7,065 6,241 6,310 6,374 6,434 6,491 6,544 6,594 6,810 6,984 6,181 6,249 6,313 6,372 6,427 6,479 6,529 6,741 6,912 6,128 6,195 6,258 6,316 6,371 6,422 6,471 6,680 6,848 6,081 6,147 6,209 6,267 6,321 6,371 6,419 6,626 6,792 6,039 6,104 6,165 6,222 6,275 6,325 6,373 6,576 6,740 5,906 5,968 6,027 6,081 6,132 6,181 6,226 6,421 6,579 5,774 5,833 5,889 5,941 5,990 6,037 6,080 6,267 6,417 5,642 5,700 5,753 5,803 5,849 5,893 5,934 6,112 6,255 5,512 5,566 5,617 5,664 5,708 5,750 5,789 5,958 6,093 5,382 5,434 5,481 5,526 5,568 5,607 5,644 5,802 5,929 5,253 5,301 5,346 5,388 5,427 5,463 5,498 5,646 5,764

70 75,82 21,16 14,08 11,51 10,18 9,370 8,824 8,430 8,132 7,897 7,708 7,552 7,421 7,309 7,212 7,128 7,054 6,989 6,930 6,877 6,710 6,543 6,375 6,206 6,035 5,863

80 77,40 21,59 14,36 11,73 10,38 9,548 8,989 8,586 8,281 8,041 7,847 7,687 7,552 7,438 7,339 7,252 7,176 7,109 7,048 6,994 6,822 6,650 6,477 6,303 6,126 5,947

90 78,77 21,96 14,61 11,92 10,54 9,702 9,133 8,722 8,410 8,166 7,968 7,804 7,667 7,550 7,449 7,360 7,283 7,213 7,152 7,097 6,920 6,744 6,566 6,387 6,205 6,020

100 79,98 22,29 14,82 12,09 10,69 9,839 9,261 8,843 8,526 8,276 8,075 7,909 7,769 7,650 7,546 7,457 7,377 7,307 7,244 7,187 7,008 6,827 6,645 6,462 6,275 6,085

59

10. COMPARACIN DE MS DE DOS PROMEDIOS : ANLISIS DE LA VARIANZA OBJETIVO: comparar ms de 2 promedios para determinar si son iguales o diferentes. FORMULACIN: se utiliza la estadstica F o anlisis de la varianza.
FUENTE DE VARIACION Entre grupos Dentro grupos de GRADOS DE LIBERTAD SUMA DE CUADRADOS MEDIA DE CUADRADOS F

K-1

Ti 2 T 2 n n i
Suma de cuadrados total Suma de cuadrados entre grupos

n-K

Suma de cuadrados entre grupos / Grados de libertad entre grupos Media de cuadrados entre grupos / Suma de cuadrados dentro Media de cuadrados de grupos / Grados de dentro de grupos libertad dentro de grupos

TOTAL

n-1

X ij2

T2 n

PRUEBA DE SIGNIFICACIN: si el estadstico F calculado es mayor al valor crtico F (con 0,05; K-1, n-K, grados de libertad) al menos un promedio es diferente. El anlisis no permite definir cul o cules promedios son diferentes y para ello se debe implementar una segunda prueba. OTROS: el anlisis de varianza debe hacerse solamente cuando las varianzas de las muestras son estadsticamente iguales (homoscedasticidad), y para verificarlo existen diversas pruebas, una de ellas es la de Bartlett que se expone a continuacin. Si las varianzas son diferentes (heteroscedasticidad), existe la posibilidad de transformar los registros como log (X) y se repite la prueba de Bartlett. Si persiste la diferencia se debe emplear una prueba no paramtrica como, por ejemplo, la de Kruskal-Wallis. EJEMPLO: con el propsito de comparar resultados con otras pruebas, se realiza el mismo ejemplo desarrollado en el numeral 9 de prueba de Tukey para comparaciones mltiples donde se estudia el nmero de alumnos por profesor en cinco muestras de tres planteles distintos.
Alumnos por profesor A B C 10 20 50 15 30 60 17 37 70 21 40 80 22 50 100 Clculos parciales: 5 5 5
85 17 23,5 177 35,4 125,8 360 72 370

Plantel

ni
Ti = X Promedio S2

n = 15 T = Ti = 622

60

Log S2

1,37

2,10

2,57

Prueba de Bartlett

Las formulaciones y el procedimiento a seguir son los siguientes: Ho: Las varianzas son iguales HA: Por lo menos una varianza es diferente A. B.
C.

S2 =

(n 1)S (n 1)
i i

2 i

(5 1) 23,5 + (5 1) 125,8 + (5 1) 370 = 173,1 (5 1) + (5 1) + (5 1)

Log S 2 = Log 173,1 = 2,24

(n

1) Log S i2 = (5 1) 1,37 + (5 1) 2,10 + (5 1) 2,57 = 24,16

D.

X 2 = Ln 10 (Log S 2 (ni 1) (ni 1) Log S i2 ) = 2,30 {(2,24 12 ) 24,16} = 6,256

E.

c = 1+

1 1 1 1 1 1 1 1 = 1,11 + + = 1+ 3 (K 1) ni 1 (ni 1) 3 (3 1) 4 4 4 4 + 4 + 4
X 2 6,256 = = 5,63 1,11 c

F.

2 x Ajustado =

El x2 de tablas (con 0,05; 3-1 grados de libertad) es 5,99, por lo que el valor calculado es menor al crtico y no se rechaza la hiptesis nula; por tanto, hay homogeneidad entre las varianzas y se procede al Anlisis de la Varianza: Ho: Los promedios son iguales HA: Por lo menos un promedio es diferente - Suma de cuadrados entre grupos = 852 177 2 360 2 622 2 + + = 7.838,5 5 5 5 15

- Suma de cuadrados total = 102 + 152 + 222 + 172 + 212 + 202 + 302 + 402 + 372 + 502 + 602 + 802 + 1002 + 702 + 502 - (6222 / 15) = 9.915,7 - Suma de cuadrados dentro de grupos = 9.915,7 - 7.838,5 = 2.077,2
FUENTE DE VARIACION Entre grupos GRADOS DE LIBERTAD SUMA DE CUADRADO S MEDIA DE CUADRADO S F

7.838,5

3919,3

22,6
61

Dentro grupos TOTAL

de

12 14

2.077,5 9.915,7

173,1

Dado que el valor crtico de F (con 0,05; 2, 12 grados de libertad) es 3,89 (Tabla 5) se concluye que hay diferencias significativas en algn promedio. Para saber cul o cules de los grupos comparados son diferentes se debe realizar una prueba paramtrica de comparaciones mltiples como la de Tukey o la de Newman Keuls. El anlisis de varianza se puede realizar con Excel siguiendo las siguientes instrucciones: ingrese los datos de tal manera que cada tratamiento est en un nica columna ; herramientas ; anlisis de datos ; anlisis de varianza de un factor ; aceptar ; marque el conjunto de datos en la casilla Rango de entrada ; Rango de salida ; marque en frente de sta la celda donde desea los resultados ; aceptar. Para este ejemplo la tabla que arroja Excel es la siguiente:
Anlisis de varianza de un factor

RESUMEN Grupos Columna 1 Columna 2 Columna 3

Cuenta 5 5 5

Suma 85 177 360

Promedio 17 35,4 72

Varianza 23,5 125,8 370

ANLISIS DE VARIANZA Origen de las Suma de variaciones cuadrados 7838,5333 Entre grupos Dentro de los 2077,2 grupos 9915,7333 Total

Grados de Promedio de libertad los cuadrados 2 3919,2667

Probabilidad

22,6416

8,4E-05

Valor crtico para F 3,8852

12 14

173,1

El registro de probabilidad correspondiente a 8,4E-05 seala que con 99,9916% de confianza (1-0,000084) se rechaza la hiptesis nula, por tanto, algn promedio es diferente. El programa de Excel no permite conocer si las varianzas son iguales o diferentes para poder realizar el anlisis de varianza; sin embargo, se podran comparar pares de varianzas por: Herramientas ; Anlisis de datos ; Prueba F para varianzas de dos muestras.

62

11. COMPARACIONES MULTIPLES DE PROMEDIOS PRUEBA DE TUKEY OBJETIVO: se trata de una prueba paramtrica que permite dilucidar que promedios difieren entre s cuando el anlisis de varianza indica que los promedios son diferentes. Se emplea cuando las tallas de muestreo de todos los grupos son iguales. FORMULACIONES:

Para ni iguales: SE =

S2 n

Para ni diferentes: SE =

1 S2 1 + n 2 A nB

q=

XAXB SE

PRUEBA DE SIGNIFICACIN: el valor calculado de q se confronta contra el estadstico q de tablas (0,05; v = grados de libertad dentro de grupos del anlisis de varianza, k = nmero de grupos) para cada par de grupos (Tabla 9). Si el valor calculado es mayor se rechaza que los dos grupos son iguales. EJEMPLO: sobre el ejercicio previamente desarrollado en la unidad de anlisis de varianza se encontr que los promedios diferan entre s. Con esta prueba se determinar cules son diferentes o iguales.
Plantel Alumnos por profesor A B C 10 20 50 15 30 60 17 37 70 21 40 80 22 50 100 Clculos parciales: 5 5 5 17 35,4 72 23,5 125,8 370

ni Promedio S2

n = 15 S2=173,1*

*Media de cuadrados dentro de grupos del anlisis de varianza

Ho: Promedio A = Promedio B HA: Promedio A Promedio B


SE =
173,1 = 5,88 5

q=

35,4 17 = 3,13 5,88

El valor crtico de q (para: 0,05;12, 3) es 3,773 (Tabla 9) por lo que no se rechaza la hiptesis nula. Ho: Promedio A = Promedio C HA: Promedio A Promedio C

63

q= Se rechaza la hiptesis nula. Ho: Promedio B = Promedio C HA: Promedio B Promedio C q= Se rechaza la hiptesis nula. Los resultados previos se describen as:

72 17 = 9,35 5,88

72 35,4 = 6,22 5,88

64

12. COMPARACIONES MLTIPLES DE PROMEDIOS PRUEBA DE NEWMANKEULS OBJETIVOS: es una prueba paramtrica que busca definir dentro de un grupo de promedios diferentes, cules son iguales y distintos a los otros. Similar a Tukey pero cambian los valores crticos. FORMULACIONES:

Para ni iguales: SE =

S2 n

Para ni diferentes: SE =

1 S2 1 + n 2 A nB

q=

XAXB SE

PRUEBA DE SIGNIFICACIN: se compara el valor q calculado con el q de tablas (para 0,05; v = grados de libertad dentro de grupos del anlisis de varianza, p = nmero de grupos que hay entre los pares que se comparan estando los promedios ordenados de mayor a menor o viceversa; ej: entre grupos 1 y 4 hay 4 grupos; entre 1 y 3, hay 3 etc.), y si el primero es mayor se rechaza la hiptesis nula. EJEMPLO: se continua con el ejercicio desarrollado en el numeral anterior de anlisis de varianza.
Plantel (alumnos por profesor) A B C 10 20 60 15 30 80 22 40 100 17 37 70 21 50 50 Promedio 17 35,4 72

Se ordenan los promedios de mayor a menor (o viceversa) y se calcula el error estndar: Plantel: C B A Promedio: 72 35,4 17 S2 = 173,1: Media de cuadrados dentro de grupos del anlisis de varianza
SE =
173,1 = 5,88 5

Se compara el promedio mayor con el menor: Ho: Promedio C = Promedio A HA: Promedio C Promedio A

65

q=

72 17 = 9,35 5,88

Este valor calculado se confronta con el q crtico as: 0,05; 12, 3, igual a 3,773. Por tanto, se rechaza la hiptesis nula. Se compara el promedio mayor (C) con el segundo (B): Ho: Promedio C = Promedio B HA: Promedio C Promedio B Q= 72 35,4 = 6,22 5,88

La estadstica q de tablas (con 0,05; 12, 2) es igual a 3,082. Dado que el valor calculado es mayor al crtico los promedios de C y B son diferentes. Se compara el segundo promedio (B) con el menor (A): Ho: Promedio B = Promedio A HA: Promedio B Promedio A Q= 35,4 17 = 3,13 5,88

La estadstica q de tablas (con 0,05; 12, 2) es igual a 3,082. Dado que el valor calculado es mayor al crtico los promedios de B y A son diferentes. Se concluye entonces que todos los promedios son diferentes entre s y el resultado se expresa como:

CBA
Se reconoce una ligera diferencia en el resultado respecto a la prueba de Tukey donde los promedios de B y A son sealados como iguales.

66

13. COMPARACION DE FRECUENCIAS PRUEBA CHI CUADRADO (x2) OBJETIVO: comparar si la frecuencia de alguna distribucin observada resulta similar a una distribucin conocida o esperada. FORMULACIN:

x =
2

(Frecuencia observada Frecuencia esperada )2


Frecuencia esperada

PRUEBA DE SIGNIFICACIN: el x2 calculado se confronta con el de tablas con k - 1 grados de libertad (o con {K1 - 1} x {K2 - 1} en pruebas de independencia), donde K es el nmero de clases estudiadas, K1 el de filas y K2 el de columnas. Si el x2 calculado es mayor al de tablas se rechaza la hiptesis nula. OTROS: los valores esperados deben ser mayores o iguales a 5. En tablas de contingencia de 2 filas por 2 columnas los valores esperados deben ser mayores a 10; en tablas de mayor tamao, deben ser mayores a 5. EJEMPLO 1: en un colegio en el cual el nmero de nias es aproximadamente igual al de nios, se eligen los mejores alumnos dando un total de 86. De ellos, 56 son nias y 30 nios. Se quiere saber si la distribucin de gneros en esta muestra es igual o diferente.

Ho: Frecuencias observadas = frecuencias esperadas (fo = fe) HA : Frecuencias observadas frecuencias esperadas (fo fe) La frecuencia esperada en este caso, corresponde al valor medio de todos los individuos evaluados, de tal modo que se esperara que la mitad de los mejores alumnos fuesen nios y la otra mitad nias. fe= 86 / 2 = 43. Se esperan 43 nios y 43 nias en la muestra, por tanto: x
2

(56 43)2 + (30 43)2 =


43 43

= 7,86

El x2 crtico con 2-1 grados de libertad y 95% de confianza es igual a 3,84 (Tabla 2), por tanto, hay una distribucin diferente de gneros en la muestra, a favor de las nias.

67

EJEMPLO 2 (Prueba de independencia): se estudia la distribucin de gneros en tres programas de maestra de una universidad, para establecer si las relaciones entre hombres y mujeres son independientes o no de la facultad. Los alumnos inscritos en primer semestre por facultad y gnero son los siguientes:
INGENIERA 80 20 100 MAESTRA EDUCACIN 30 20 50 DERECHO 30 10 40 SUMA 140 50 190

HOMBRES MUJERES SUMA

Las frecuencias esperadas se calculan multiplicando el total de su fila por el de su columna y dividiendo tal valor por el total de la matriz. Los valores esperados son entonces: Ingeniera - Hombres: Ingeniera - Mujeres: Educacin - Hombres: Educacin - Mujeres: Derecho - Hombres: Derecho - Mujeres: 100 x 140 / 190 = 73,7 100 x 50 / 190 = 26,3 50 x 140 / 190 = 36,8 50 x 50 / 190 = 13,2 40 x 140 / 190 = 29,5 40 x 50 / 190 = 10,5

Ho: Hay independencia entre gneros y facultad HA: No hay independencia entre gneros y facultad x2 =

(80 73,7 )2 + (20 26,3)2 + (30 36,8)2 + (20 13,2)2 + (30 29,5) + (10 10,5)2
73,7 26,3 36,8 13,2 29,5 10,5

= 6,83

El x2 crtico o de tablas con {(2 - 1) x (3 - 1)} = 2 grados de libertad al 95 % de confianza es 5,99 (Tabla 2); se rechaza, por tanto, que hay independencia entre las variables, en consecuencia, la proporcin de hombres y mujeres vara entre facultades.

68

14. ANLISIS DE CORRELACIN LINEAL DE PEARSON


OBJETIVO: se trata de una prueba paramtrica que busca definir si existe o no relacin entre dos variables aleatorias Y1 y Y2. FORMULACIN:

r=

Y Y Y Y / n { Y n Y }{ Y nY
1 2 1 2 2 1 2 1 2 2

2 2

PRUEBA DE SIGNIFICACIN: debe verificarse la significacin de la correlacin mediante una prueba que demuestre que su valor es diferente de cero. Dicha prueba se basa en la estadstica t:

t=r

n2 1 r2

El valor de t calculado se confronta con el estadstico t de tablas al 95 % de confiabilidad, con n-2 grados de libertad; si es mayor el valor calculado, se rechaza la hiptesis nula, es decir, la relacin es significativa. La tabla 10 ilustra los valores que debe tomar el coeficiente de correlacin (o mayores en valor absoluto) para ser significativos, acorde con el nmero de pares de datos estudiados, la cual se ha construido a partir de la frmula anterior.
OTROS: antes de realizar el clculo de la correlacin conviene realizar un diagrama de dispersin entre las 2 variables con el propsito de observar si siguen una relacin lineal o no. El coeficiente de correlacin vara entre -1 y 1, y su signo negativo o positivo se corresponde con una relacin inversa o directa entre las 2 variables en su orden. EJEMPLO: se quiere establecer de forma preliminar, si hay relacin entre el desempeo acadmico de grado 11 (DA) y el desempeo en las pruebas ICFES. Para ello se ha tomado una muestra de diez jvenes. Los registros de muestreo y algunos clculos previos son:
DA Y1 100 95 93 92 90 90 88 86 86 85 ICFES Y2 60 55 54 53 52 51 51 49 50 47 Y1 Y2 Y12 Y22 Y1 Y2 = = = = = = = 100 + 95 + ... + 86 + 85 60 + 55 + ... + 50 + 47 1002 + 952 + ... + 862 + 852 602 + 552 + ... + 502 + 472 100 x 60 + 95 x 55 + ... + 85 x 47 905 / 10 = 90,5 522 / 10 = 52,2 = = = = = 905 522 82.099 27.366 47.390

Y1 Y2

El grfico de dispersin para estas dos variables indica que siguen aproximadamente un comportamiento lineal.

69

65 60 ICFES 55 50 45 40 80 85 90 95 100 105 Desem peo grado 11

Procedemos con el clculo del coeficiente de correlacin:

r=

Y Y Y Y / n { Y n Y }{ Y nY
1 2 1 2 2 1 2 1 2 2

2 2

} {82.099 (10)(90,5 )}{27.366 (10)(52,2) }


2 2

47.390 (905)(522 ) / 10

= 0,9802

La prueba de hiptesis que valida el coeficiente es la siguiente: Ho: HA:


=0 0

t = 0,9802

10 2 = 13,99 1 0,9802 2

El valor crtico o de tablas al 95 % de confianza y 8 grados de libertad es 2,306 (Tabla 4a), por lo que se rechaza la hiptesis nula, es decir que, s existe correlacin significativa entre estas variables. La tabla 10 expone directamente los coeficientes mnimos para que una relacin sea significativa; se aprecia que para 10 pares de datos, una correlacin debe ser superior a | 0,632 |. El coeficiente de correlacin puede hallarse tambin mediante Excel as: fx ; Estadsticas ; Coef. de correl. ; aceptar ; Matriz 1- se llena con una variable Y ; Matriz 2 se llena con la otra variable Y ; aceptar.
TABLA 10. VALOR A PARTIR DEL CUAL LOS COEFICIENTES DE CORRELACIN DE PEARSON SON SIGNIFICATIVOS, SEGN EL NMERO DE PARES DE COORDENADAS (n) n 95% 99% n 95% 99% n 95% 99% 0,997 1 0,468 0,590 0,325 0,418 3 18 37 0,950 0,990 0,456 0,575 0,304 0,393 4 19 42 0,878 0,959 0,444 0,561 0,288 0,372 5 20 47 0,811 0,917 0,433 0,549 0,273 0,354 6 21 52 0,754 0,874 0,423 0,537 0,250 0,325 7 22 62 0,707 0,834 0,413 0,526 0,232 0,302 8 23 72 0,666 0,798 0,404 0,515 0,217 0,283 9 24 82 0,632 0,765 0,396 0,505 0,205 0,267 10 25 92 0,602 0,735 0,388 0,496 0,195 0,254 11 26 102 0,576 0,708 0,381 0,487 0,174 0,228 12 27 127 0,553 0,684 0,374 0,478 0,159 0,208 13 28 152 0,532 0,661 0,367 0,470 0,138 0,181 14 29 202 0,514 0,641 0,361 0,463 0,113 0,148 15 30 302 0,497 0,623 0,355 0,456 0,098 0,128 16 31 402 0,482 0,606 0,349 0,449 0,088 0,115 17 32 502

70

15. ANLISIS DE CORRELACIN LINEAL (SPEARMAN) OBJETIVO: es una prueba no paramtrica que precisa si existe o no relacin entre dos variables aleatorias Y1 y Y2. FORMULACIN: se ordena cada variable a modo de rangos y se halla la diferencia entre los mismos (d). 6d 2 r = 1 n (n 2 1) PRUEBA DE SIGNIFICACIN: debe verificarse la significacin de la correlacin mediante una prueba t que demuestre que su valor es diferente de cero. Si el valor calculado es mayor al de tablas con n-2 grados de libertad, se rechaza la hiptesis nula.

t=r

n2 1 r2

OTROS: este coeficiente se emplea cuando hay pocos datos o cuando las variables pueden ser estudiadas como variables ordinales. Por ser una prueba de rangos, la relacin entre las dos variables se linealiza por s misma, sin necesidad de emplear transformaciones. EJEMPLO: el mismo ejercicio del numeral previo correspondiente a correlacin de Pearson.
Y1 100 95 93 92 90 90 88 86 86 85 Y2 60 55 54 53 52 51 51 49 50 47 Se ordenan por separado los registros de Y1 y Y2 de mayor a menor y se numeran con tal orden (rango) RANGO Y1 1 2 3 4 5,5 5,5 7 8,5 8,5 10 RANGO Y2 1 2 3 4 5 6,5 6,5 9 8 10 DIFERENCIA DE RANGOS (d) 0 0 0 0 0,5 1 0,5 0,5 0,5 0 SUMA d2 0 0 0 0 0,25 1 0,25 0,25 0,25 0 2

Ho: = 0 HA: 0 r = 1 6 2 = 0,9879 10 (102 1) t = 0,9879 10 2 = 18 1 0,9879 2

El valor crtico o de tablas al 95 % de confianza y 8 grados de libertad es 2,306, por lo que se rechaza la hiptesis nula, es decir que s hay relacin lineal entre estas dos variables.
71

16. ANLISIS DE REGRESIN LINEAL UNIVARIADO OBJETIVO: se trata de una prueba paramtrica que busca establecer la ecuacin de una lnea recta que relaciona a una variable independiente, fija o medida sin error (X) y otra variable aleatoria que depende de sta (Y), empleando un procedimiento denominado de mnimos cuadrados ordinarios. FORMULACIONES:

Y = a + b X ; Ecuacin de la lnea recta Donde: Y = Variable dependiente; X = Variable independiente; a = Punto de corte en el eje Y; b = Inclinacin o pendiente de la recta (incremento en Y por variacin de una unidad de X) b=

XY X Y / n X nX
2 2

; a =Y bX

PRUEBA DE SIGNIFICACIN: no basta con estimar la ecuacin de regresin, sino que debe probarse la validez de la misma confrontando que la pendiente (b) es diferente de cero. Para ello se puede realizar una prueba t o una F (anlisis de varianza).

- Prueba t:
t= b0 S

X
S
2

nX
2

( Y =

nY

)( X

) ( XY X Y / n) (n 2)( X n X )
2

nX

Donde S2, es el estimativo de la varianza de regresin (corresponde con los cuadrados medios de los residuos en el anlisis de la varianza). El valor de t se confronta con el t crtico o de tablas con n - 2 grados de libertad. - Prueba F o anlisis de varianza:
FUENTE DE VARIACION Regresin Residuos Total Corregido GRADOS DE LIBERTAD SUMA DE CUADRADOS MEDIA DE CUADRADOS Suma de cuadrados regresin / Grados de libertad regresin Suma de cuadrados residuos / Grados de libertad residuos F Media de cuadrados regresin / Media de cuadrados de regresin

1 n-2 n-1

(Y Y )

(Y Y ) (Y Y )

72

Donde:

(Y Y ) = Y
2
2 (Y Y ) =

nY

[ XY X Y / n]
X
2

nX

(Y Y ) = (Y Y ) (Y Y )
2 2

El valor de F se confronta con 1 y n-2 grados de libertad. Si la pendiente es diferente de cero (valor t o F calculado mayor al de tablas), la relacin lineal es vlida y se calcula el coeficiente de determinacin (r2) que mide el ajuste de los valores observados respecto de la lnea recta estimada. El r2 x 100 indica el porcentaje de variacin de Y, que puede explicarse en X. r =
2

( X

[ XY X Y / n]
2

2 2

nX

)(Y

nY

(Y Y ) = ) (Y Y )

2 2

OTROS: antes de iniciar los clculos del anlisis de regresin, se sugiere realizar una grfica de dispersin Y vs. X para definir si estas variables se relacionan linealmente ya que podran estarlo segn un modelo no lineal pero intrnsecamente lineal, como por ejemplo, exponencial, logartmico, parablico, u otro, lo cual requiere el uso previo de transformaciones en alguna o en ambas variables. La relacin encontrada no indica causalidad. El coeficiente de determinacin no debe utilizarse como medida de comparacin de ajuste entre modelos con y sin transformacin de las variables. EJEMPLO: se quiere saber si hay relacin entre los aos de estudio universitario de los profesores (X) y el dinero (Y, en millones de pesos) que han invertido en ello. Para ello se toma una muestra de diez profesores que abarca estudios desde uno hasta diez aos. Los registros de muestreos y clculos previos son los siguientes:
Aos X 1 2 3 4 5 6 7 8 9 10 Dinero (x 106) Y 38 45 55 67 75 89 98 104 114 127

X Y X2 Y2 XY

= 1 + 2 + ... + 9 + 10 = = = = 38 + 45 + ... + 104 + 114 12 + 22 + ... + 92 + 102 382 + 452 + ... + 1042 + 1142 1 x 38 + 2 x 45 + ... + 10 x 127

55

= 812 = 385 = 74.074 = 5.284

X
Y

= 55 / 10 = 5,5 = 812 / 10 = 81,2

El grfico de dispersin seala que los puntos efectivamente no se asemejan a un modelo


73

curvilineal por lo que se procede con el anlisis.


140 Inversin ($ millones) 120 100 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 11

Aos de estudio profesional

Algunos clculos parciales que agilizan el desarrollo de formulaciones posteriores son:

Y X

nY = 74.074 10 81,2 2 = 8.139,6 n X = 385 10 5,5 2 = 82,5


2

XY X Y / n = 5.284 55 812 / 10 = 818


Los coeficientes de regresin se calculan as: b=

XY X Y / n = 818 = 9,9151 82,5 X nX


2 2

a = Y b X = 81,2 9,9151 5,5 = 26,6667

y la ecuacin es : Y = 26,6667 + 9,9151 X

Inversin (millones) = 26,6667 + 9,9151 aos

La ecuacin previa debe validarse bajo las siguientes hiptesis: - Estadstica t: H0 : 1 = 0 HA : 1 0


S2 =
8.139,6 82,5 818 2 = 3,63 (10 2) 82,5

74

t=

9,9151 0 = 47,26 3,63 82,5

El valor crtico de la estadstica t con 8 grados de libertad al 95 % de confianza (Tabla 4a) es 2,306 por lo que se rechaza la hiptesis nula, es decir que s hay relacin entre las dos variables. Se procede al clculo del coeficiente de determinacin:
r2 =
818 2 = 0,9964 8.139,6 82,5

Se concluye entonces que el 99,64 % de las variaciones en el dinero invertido en estudios, se explican en el nmero de aos estudiados. La pendiente 9,9151 indica el incremento de dinero (en millones) por cada ao de estudio. La validacin de la ecuacin por medio de la estadstica F se realiza de la siguiente manera: - Anlisis de varianza:
FUENTE DE VARIACION GRADOS DE LIBERTAD SUMA DE CUADRADOS MEDIA DE CUADRADOS F

Regresin Residuos Total Corregido

1 8 9

8.110,59 29,01 8.139,6

8.110,59 / 1 29,01 / 8 =3,63

2.234,3

Donde:

(Y Y ) = Y
2
2

nY = 74.074 10 81,2 2 = 8.139,6


2 2

[ XY X Y / n] = (5.284 55 812 / 10) (Y Y ) = 385 10 5,5


X 2 nX
2
2 2

= 8.110,59

(Y Y ) = (Y Y ) (Y Y )
2

= 8.139,6 8.110,59 = 29,01

El estadstico F calculado de 2.234,3 se confronta con el valor crtico (Tabla 5) F (1, 8; 0,05) = 5.32. Dado que el primero es mayor al segundo, se acepta la ecuacin. El programa Excel resuelve todo el ejercicio previo mediante las siguientes instrucciones: escriba en una columna los datos correspondientes a X y en otra los de Y, de tal modo que se enfrenten entre s cada par de coordenadas. Siga: Herramientas ; anlisis de datos ; regresin ; aceptar ; Rango Y de entrada (inserte el conjunto de datos Y) ; Rango X de entrada (dem X) ; Rango de salida (marque la casilla donde quiere los resultados) ; aceptar. La tabla que arroja Excel es la siguiente:
75

Resumen Estadsticas de la regresin Coeficiente de correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones
ANLISIS DE VARIANZA Grados de libertad Regresin Residuos Total 1 8 9 Coeficientes Intercepcin Variable X 1 26,6666 9,9151

0,9982 0,9964 0,9959 1,9041 10

Suma de cuadrados 8110,59394 29,0060 8139,6 Error tpico 1,3007 0,2096

Promedio de los cuadrados 8110,5939 3,6257

F 2236,93

Valor crtico de F 4,4159E-11

Estadstico t 20,5005 47,2962

Probabilidad 3,3543E-08 4,4159E-11

Inferior 95% 23,6670 9,4317

Superior 95% 29,6662 10,3985

Los parmetros a y b aparecen en las dos ltimas lneas (intercepcin; variable X1), junto con estimadores de los mismos. Para determinar la validez de la ecuacin se puede seguir uno de los siguientes tres procedimientos: 1. Verifique la casilla de: Valor crtico de F (4,4159E-11), como es menor a 0,05 se acepta la ecuacin con 95% de confianza. 2. Verifique la casilla de: Probabilidad para Variable X 1 (4,4159E-11), como es menor a 0,05 se acepta la ecuacin con 95% de confianza. 3. Revise el intervalo de confianza de la pendiente: inferior 95% (9,4317) y Superior 95% (10,3985); si este intervalo no cobija el cero, se acepta la ecuacin. Validada la ecuacin se lee el coeficiente de determinacin de la primera tabla (0,9964).

76

También podría gustarte