Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTENIDO
Descripcin
V.
65
65
a) Muestreo No Aleatorio
65
b) Muestreo Aleatorio
67
c) Tcnicas Muestrales
67
70
a) Introduccin
70
71
75
77
78
f) Conclusiones
80
(*)
Pgina
81
1. Concepto General
81
81
82
83
83
87
90
92
98
102
8. Para la Variancia (
106
109
1. Introduccin
109
110
113
114
116
117
122
124
128
135
1. Conceptos Generales
135
136
137
a. Prueba de Ajuste
137
140
64
1. Tipos de Muestreo
Remarcando lo mencionado en la introduccin, los Tipos o Tcnicas de
Muestreo pueden ser clasificados inicialmente en Aleatorios o Probabilsticos y los No
Aleatorios. Si bien estos ltimos no permiten la realizacin de inferencias con los fundamentos
tericos que brinda la aleatoriedad, lo cierto es que se encuentran ampliamente difundidas en ciertos
tipos de aplicaciones, por lo que tiene cierta lgica presentar someramente sus principios, bondades
y defectos.
(8)
(9)
c) Tcnicas Muestrales
Dependiendo de las caractersticas de la poblacin, y del conocimiento que se tenga de
ellas, existen diversas Tcnicas Muestrales que se pueden aplicar, existiendo para cada
una de ellas tomadas individualmente, extensos desarrollos tericos que fundamentan y
permiten el clculo de los estimadores y de sus dispersiones.
67
Sin pretender entrar en mayores detalles, pueden enunciarse las siguientes Tcnicas de
Muestreo:
Muestreo Aleatorio Simple (MAS) o Muestreo Simple al Azar: como su nombre lo
sugiere, es la tcnica de muestreo ms simple, y es la que se toma como base para
todos los desarrollos tericos de la Inferencia Estadstica que se desarrollaron y se
desarrollarn. Para su aplicacin se requiere tener identificadas a todas y cada una de
las N unidades que integran la poblacin (por ej.: con un nmero individual y
unvoco), y aplicando algn sistema aleatorio de seleccin, elegir a partir de ellos cada
una de las n unidades que integrarn la muestra.
Lo lgico es que las unidades sean elegidas sin reemplazo (es decir que no exista la
posibilidad de elegir dos o ms veces a la misma unidad), sin embargo dentro del
clculo de probabilidades existen extensos desarrollos tericos que se aplican a casos
en que el muestreo se realiza con reemplazo, los que tienen aplicaciones a ciertos
casos particulares.
Si bien lo usual en el MAS es que todas las unidades de la poblacin tengan la misma
probabilidad de ser elegidas en la muestra, esta no es una condicin indispensable,
aunque de ser as se facilitan las frmulas que se deben aplicar para realizar las
estimaciones y medir sus dispersiones.
Muestreo Sistemtico (MS): con esta tcnica de seleccin, se debe identificar (por
ej.: numerar), una parte de la poblacin (las primeras k unidades), elegir de ellas una al
azar por MAS, y a partir de la elegida seleccionar las (n 1) restantes en forma
sistemtica, una cada k unidades [es decir, saltear (k 1) unidades y tomar para la
muestra a la k-sima].
El MS se muestra ms eficiente que el MAS en el caso que previo a la seleccin las
unidades se encuentran o son ordenadas en base a algn aspecto o variable que tiene
que ver con la causa del muestreo (por ej.: si se tiene que elegir una muestra de
unidades producidas a fin de controlar su calidad, tenerlas ordenadas de acuerdo con la
hora en que salieron de la produccin en serie). Tiene el riesgo de que si el orden de
las unidades contiene algn factor que coincide con el salto sistemtico, la muestra
puede brindar resultados muy sesgados.
De las diversas tcnicas de muestreo, el MS es la de menor desarrollo terico, y en
muchos casos las estimaciones y clculo de dispersiones de muestras elegidas
sistemticamente se efectan mediante las frmulas del MAS.
Tambin en este caso las unidades suelen tener la misma probabilidad de seleccin,
aunque de ser necesario es posible asignar probabilidades diferentes a cada una (por
ej.: probabilidades proporcionales al tamao), aspecto que debe ser tenido en cuenta al
momento de realizar las estimaciones (cada unidad de la muestra debe ser ponderada
por la inversa de su probabilidad de seleccin).
Muestreo Replicado: La muestra total esta compuesta por un nmero de submuestras
elegidas de la misma poblacin. Por ejemplo por este mtodo en lugar de seleccionar
una nica muestra de n = 500, seleccionaramos cinco (u otra cantidad) muestras
independientes de 100 elementos cada una de la misma poblacin de N.
unidades contenidas deben ser lo mas diferentes posible. La tcnica prev que dentro
de cada estrato se obtenga una parte de la muestra total, hacindoselo mediante MAS o
MS (10).
De construirse bien los estratos, usualmente el ME logra mejores resultados que el
MAS o el MS. Su principal desventaja es el conocimiento que se debe tener de la
poblacin, y su acondicionamiento para que se puedan extraer muestras
independientes de cada estrato.
En el ME cada estrato constituye una subpoblacin, para la cual, si bien se realizan
clculos separadamente, no es posible obtener estimaciones individualmente vlidas y
con niveles de error controlados. Estos sern resultantes del procedimiento y del
tamao de las submuestras asignadas a cada estrato.
Para la determinacin de la muestra a extraer dentro de cada estrato, se puede recurrir
a diversos criterios alternativos: Igual tamao de muestra en cada estrato, Proporcional
al tamao de cada uno en la poblacin, Asignacin ptima (proporcional a la
dispersin que presentan las unidades dentro de cada estrato), o Asignacin por Costo
(inversamente proporcional al costo de seleccionar cada unidad en cada estrato).
De acuerdo con el procedimiento de asignacin de la muestra a cada estrato, varan las
frmulas que se deben aplicar para el clculo de los estimadores y sus dispersiones.
Muestreo por Conglomerados: esta tcnica requiere disponer la poblacin en grupos
o partes que cumplen caractersticas totalmente inversas a los estratos. En este caso,
los conglomerados deben contener dentro de s a todo tipo de unidades, y
representar cada uno un fiel reflejo de la poblacin total; y en ese caso todos los
conglomerados deberan ser parecidos entre si en lo que concierne a su constitucin o
estructura.
Cumplido ese requisito, la tcnica consiste en elegir uno o varios de esos
conglomerados, para constituir con todas sus unidades la muestra a observar. De no
cumplirse las condiciones de esta tcnica, sus resultados pueden dar resultados muy
sesgados, pero tiene la ventaja de ser usualmente la ms econmica de las tcnicas de
muestreo. Debido a que uno de los campos de aplicacin ms frecuente es en los
muestreos de zonas geogrficas, se lo conoce tambin como Muestreo por reas.
Paneles: se define como Panel a un grupo de unidades (personas, hogares, etc.), que
son seguidas a travs del tiempo para medirles un conjunto de variables similares en
cada una de las tomas o muestras, y analizar su evolucin.
En realidad los Paneles no constituyen una tcnica de muestreo diferente, ya que
para constituir la muestra de unidades que se analizarn cronolgicamente, puede
recurrirse a cualquiera de las otras tcnicas conocidas.
Representa ms bien una forma de anlisis de la poblacin, que contiene dentro de si
una serie de particularidades que le han dado un desarrollo terico especial, para por
ej.: determinar la forma de tratar a las unidades que desaparecen con el correr de las
tomas, los cambios que esas unidades van teniendo en el tiempo, etc. (reemplazarlas o
no).
Otras tcnicas muestrales: sin ser ubicadas entre las tcnicas muestrales originales,
a lo largo del tiempo se fueron desarrollando diversas tcnicas muestrales, tendientes a
(10)
En realidad la mayor parte de los desarrollos tericos, consideran que dentro de cada estrato la muestra se extrae
con MAS, pero en la prctica se utiliza frecuentemente el MS en los casos en que las unidades de cada estrato
pueden ser ordenadas con algn criterio que mejora la representacin de la poblacin.
69
a) Introduccin
La Determinacin del Tamao de la Muestra a extraer de una poblacin (el
valor de n), es uno de los aspectos de la Inferencia Estadstica que aparece para muchos de los que
se inician en el tema, como rodeado de cierto halo de hechizo y misterio, que solo puede ser
develado por algunos privilegiados.
Otra de las creencias que rodean el tema (y que se contrapone con la visin
mgica anterior), es que una muestra para ser representativa de la poblacin de la cual se
extrae, basta con que resulte proporcional a los diversos componentes que integran esta.
Finalmente, estn los que piensan que la nica muestra buena es la que
obtienen ellos, y que usualmente es de las del tipo dirigida (12), es decir sin que el diseo prevea
algn procedimiento aleatorio en la seleccin de las unidades de la poblacin.
Ni la visin mgica, ni la simplista, ni la dirigista son ciertas, pero lo
que si es innegable es que la determinacin del tamao de la muestra es uno de los temas
inferenciales ms relevantes, en donde se conjugan una cantidad de aspectos conceptuales de la
Estadstica y de las Probabilidades, cuya comprensin y manejo permite avanzar sin inconvenientes
en otros temas de mayor complejidad terica.
Ahora bien, existen muchas de incgnitas alrededor de este tema, como ser:
(11)
Ciertos tipos de muestreo particulares (en auditora, control de calidad, recepcin de materias primas, etc.),
presentan las condiciones como para aplicar directamente y en forma individual alguna de las tcnicas descriptas.
(12)
Como ya se lo ha mencionado en el punto previo, se denomina de esta forma a las muestras en las que la eleccin de las unidades
que la componen no se realiza con ningn mtodo aleatorio, sino que dependen directamente de la decisin y arbitrio de quien
realiza el trabajo.
70
estos datos el tamao de n que satisface las condiciones requeridas a partir de los conocimientos
disponibles. Veamos:
Al querer estimarse una con un Intervalo de Confianza, se debe conocer el
tamao de la Poblacin N (13), ya que parece lgico suponer que cuanto ms
grande es N, mayor debe ser la muestra n.
Tambin es importante conocer la dispersin ( x) de la Poblacin, ya que
tambin parece lgico que cuanto ms dispersos sean los valores de la variable,
mayor debera ser la muestra que los represente.
Por otro lado, debe fijarse el grado de precisin con que quiere realizarse la
estimacin, ya que al trabajarse con una muestra (en realidad con un Estimador
calculado con ella), no puede pretenderse realizar la estimacin sin errores. Lo que
s es factible, en limitar ese posible error a un cierto valor aceptable (sera la
diferencia entre el parmetro y su estimador = d). En este caso la lgica indica
que cuanto ms precisin se pretende en la estimacin, mayor debera ser la
muestra a extraer.
Finalmente, al ser el Estimador una variable, debe fijarse un cierto grado de
confianza con el cual trabajar (1 - ), a partir del cual se pronosticar
correctamente con una probabilidad ligada al mismo, y se cometern errores en un
% de los casos en que se realice la estimacin bajo las mismas condiciones. La
lgica en este caso sugiere que cuanto mayor sea el nivel de confianza con que se
quiere realizar la estimacin, mayor deber ser la muestra a observar.
Resumiendo lo expresado con la simbologa apropiada, si con la muestra a
extraer se pretende calcular un Intervalo de Confianza del tipo:
P(Li <
< Ls) = 1 -
P( x
donde:
k.
k.
) 1
; es decir que; d = k.
n = (k2 .
) / d2
Oportunamente se analiz que el valor de N puede ser desconocido o infinito, lo que no invalida los clculos a realizar, sino que,
como se ver ms adelante, slo produce una sustancial simplificacin de las frmulas a utilizar y un mayor tamao de n.
72
. [(N-n)/(N-1)]1/2
n = (k2 .
) / [d2 + (k2 .
) / N]
frmula enla que se comprueba que cuanto mayor sea N, mayor es la muestra que debe extraerse.
Ya se dispone de dos frmulas para calcular el tamao de muestra en los
casos enque conla misma se desee estimar unpromedio poblacional: una (la ms simple) cuando se
desconoce el tamao de la Poblacin (o se la supone como muy grande), y otra para cuando la
poblacines finita y conocida.
Ahora bien, que supuestos implica el desarrollo que se realiz para
lograr esas frmulas ?; o bien, pueden ser aplicadas indiscriminadamente sin ninguna
limitacin ?. Las respuestas a estas dos preguntas tienenunmismo punto de referencia:
Para llegar a cualquiera de las dos frmulas alcanzadas, se pas por unsupuesto
implcito: que la media que se calcule con la muestra que se extrae tiene una
distribucin Normal. Debido a ese supuesto, es que se pudo calcular el n
utilizando el valor de k que queda determinado por el nivel de confianza 1fijado como condicin. Debido a esto, para que el valor calculado de n tenga
validez, debe comprobarse que se den las condiciones para que la x pueda
aceptarse que tenga distribucin Normal.
Ejemplos:
a) Para la realizacin de un estudio relativo al ingreso familiar en la ciudad de San Nicols
(Provincia de Buenos Aires), se decide realizar una muestra que permita estimar el promedio
con un error mximo de $ 250 y un nivel de confianza del 90 %. En la ltima medicin
realizada, la dispersin del ingreso de la totalidad de las 20.000 familias de la ciudad era de $
1.500.
Respuesta:
73
20.000 familias
1.500 $
1-
0,90
250 $
k = 1,645
74
P ( N .x k .
N .x
N .x k .
N .x
) 1
) / d2
) / [d2 + (N2 . k2 .
) / N]
Ejemplos:
a) Los responsables del Sector de Abastecimiento de un Centro Comercial del oeste del Gran
Buenos Aires, necesitan estimar el monto total que las familias de su zona de influencia,
destinarn a los gastos de artculos de librera y afines durante el segundo trimestre del ao.
Para hacerlo deben determinar el tamao de la muestra de familias a encuestar, sabiendo que
el total de las mismas (las que habitan su zona de influencia), es de aproximadamente 4.000, y
que el ao anterior el promedio de los gastos del mismo trimestre fue de $ 180 por familia y la
dispersin lleg a los $ 50. La estimacin se la quiere realizar con un nivel de confianza del 95
%, e intentando que la estimacin difiera del monto total desconocido en menos del 10 %.
Respuesta:
La informacin disponible es la siguiente:
75
4.000 familias
50 $
1-
0,95
k = 1,96
f) Y en el caso de que se pidiera hacer la estimacin con menor error (por ejemplo slo el 5 % del
total del ao previo), qu pasara con el tamao de la muestra ?:
A menor error en la estimacin pretendida, es lgico que la muestra tenga que ser mayor
(verificarlo algebraicamente).
P( p k
p k
) 1
donde:
k = z ~ N ( 0 , 1 ) siempre que n sea grande (debido al Teorema Central del Lmite)
2
p q
por el factor de correccin si el N es finito y conocido.
n
De esta forma, y recordando que: d = k . [(p.q)/n] 1/2 . [(N-n)/(N-1)]1/2 ; se despeja el valor de n que
con la frmula amplia aproximadamente da:
n = (k2 . p.q) / d2
Ejemplos:
a) En el mismo problema del Sector de Abastecimiento del Centro Comercial del oeste del Gran
Buenos Aires, se necesita estimar la proporcin de personas que realizan compras entre la
totalidad que ingresa cada fin de semana. La estimacin se la quiere realizar con un nivel de
confianza del 90 %, y de modo que el valor resultante no supere el 5 % en ms o en menos de la
proporcin real desconocida. Determinar el tamao de muestra con el que se puedan satisfacer
los requisitos fijados, sabiendo que estudios realizados por una consultora en otros centros
comerciales, sugieren que cerca del 30 % de los que ingresan a los mismos finalmente realizan
alguna compra.
Respuesta:
La informacin disponible es la siguiente:
N
0,30
q = 0,70
1-
= 0,90
k = 1,645
= 5%
77
Con ella se debe calcular el tamao de muestra, donde al desconocerse N se puede aplicar la
frmula reducida:
n = (k2 . p.q) / d2 = 1,6452. 0,3 . 0,7 / 0,052 =2,71 . 0,21 / 0,0025 = 227,3 ~ 228 personas
muestra que puede ser considerada suficientemente grande como para que el estimador de la
Proporcin tenga una distribucin aproximadamente Normal.
b) Qu hubiese sucedido si se conoca que durante un fin de semana, las personas que ingresan al
Centro Comercial son aproximadamente 5.000 ?:
Respuesta:
Al conocerse el tamao tentativo de la Poblacin, se debera utilizar la frmula ampliada, la
que debera proporcionar un tamao de muestra algo menor al anterior (verificarlo
algebraicamente).
c) Y si no se tuviese informacin sobre la posible proporcin de personas que realizan compras
entre las que ingresan al Centro comercial ?, se hubiese podido hacer algo ?:
Respuesta:
Ante un caso de determinacin de tamao de muestra en el que se dan condiciones para estimar
una proporcin, si se desconoce cual es tentativamente el valor de P (situacin razonable ya
que es lo que se desea estimar), lo que puede hacerse es ponerse en la peor situacin, y que
es suponer que la P es cercana a la mitad (es decir 0,50). Este supuesto es el que da un
tamao de muestra mximo, con lo cual se cubre sobradamente cualquier posible situacin.
Bajo ese supuesto, el tamao de la muestra dara: n = 271 personas.
P( N . p k.
N . p
NA
N.p
k.
N . p
) 1
n = (N2. k2 . p.q) / d2
78
Ejemplos:
a) Continuando con el mismo problema anterior (el del Sector de Abastecimiento del Centro
Comercial del oeste del Gran Buenos Aires), si se tuviera como objetivo el estimar la cantidad
de potenciales compradores de un fin de semana (es decir, cuntos de los que ingresan al
Centro pueden resultar compradores), para determinar el tamao de la muestra de personas a
observar, estamos ante el caso de tener que estimar la Cantidad de Casos Favorables (ya
que las personas que ingresan al Centro durante el fin de semana pueden ser clasificados en
compradores y no compradores).
Respuesta:
Ante ello, los profesionales del Sector Comercializacin deben suministrar los datos necesarios
para hacer el trabajo, como por ejemplo:
Total de personas que ingresan el fin de semana al Centro: ~ 10.000.
Proporcin histrica de las personas que compran algo: desconocida (adoptaremos el
supuesto de peor situacin, es decir que el valor de P es cercano a 0,50.
Nivel de Confianza o Seguridad con el que se quiere trabajar (es decir la
Probabilidad de que la estimacin que luego se realice sea correcta): elevada = 99 %
(esto determina que k = 2,575).
Amplitud del intervalo con el que se estimar la cantidad de potenciales compradores:
500 personas (podra haberse dado como una proporcin cercana al 5 % del total de
personas que ingresan al Centro). Siendo AM = 500 ; d = AM / 2 = 250 personas.
Con estas condiciones, la muestra debera ser:
f) Conclusiones
Resumiendo lo desarrollado en este punto, es posible concluir lo siguiente:
1. En esta etapa de la Inferencia Estadstica, para la determinacin del tamao de la muestra a
extraer, se parte del supuesto de que la misma ser extrada mediante criterios aleatorios
determinados por el Muestreo Aleatorio Simple (MAS). En el caso de utilizarse otros diseos
ms complejos o que requieren la preparacin previa de la Poblacin, existen otras formas para
calcular el tamao de la muestra n.
2. Es requisito indispensable para el razonamiento que se aplica, que la muestra deber utilizarse
para estimar alguno de los Parmetros que se utilizan para caracterizar a las Distribuciones de
Frecuencias (Media, Total, Proporcin o Casos Favorables). Existen otras formas de llegar a la
determinacin del n que no sern desarrolladas en este Curso.
3. En cualquiera de los cuatro casos analizados, el tamao de la muestra se determina a partir de
los datos disponibles (forma de distribucin de la poblacin y dispersin de la misma), y de las
condiciones o requisitos que se imponen a los clculos a realizar con la muestra a extraer (el
nivel de confianza o el de riesgo, y la precisin de la estimacin a realizar).
4. En todos los casos, el anlisis lgico de los problemas coincide con lo que muestran las
frmulas de n, a saber:
A mayor exigencia de confianza en los resultados (1- ), mayor es la muestra a extraer.
Cuanto mayor es la dispersin de la variable original (
proporcin), mayor deber ser la muestra que la represente.
o su equivalente para la
Cuanto ms precisin se pretenda en la estimacin (medida con d o con A), mayor deber
ser la muestra.
Cuanto ms grande sea la Poblacin a muestrear (N), mayor debe ser la muestra a
observar (no obstante que esto no es ni medianamente proporcional, sino que a partir de un
cierto valor de la poblacin, su cuanta deja de influir en el tamao de la muestra).
80
Otros autores plantean en las Alternativas Unilaterales, que la Hiptesis Nula debe cubrir la igualdad y uno de los
dos lados de la distribucin.
82
no sean de los ms probables, con lo cual la decisin que se tome puede estar basada en muestras
poco representativas. Esto, dentro del tema Ensayo de Hiptesis, conlleva la posibilidad de dos
tipos de Errores:
Error de Tipo I (I): que consiste en Rechazar H0 siendo cierta. La Probabilidad de este
Error se la identifica con la letra , es decir que: P(I) = .
Error de Tipo II (II): que consiste en No Rechazar H0 siendo falsa. La Probabilidad de
este Error se la identifica con la letra , es decir que: P(II) = . A partir de este concepto se
define y calcula lo que se denomina la Potencia del Test, que es la probabilidad 1 - . se
desarrollar ms adelante.
Este concepto de Potencia del Test y en general el tema de los Errores, se
retomar a continuacin al verse la Prueba de Hiptesis para la Media Poblacional.
H1 ) =
1>
N(
0,
) se tendr:
y P( x < x c) = (1 - )
0=
H1) =
1>
Con el fin de verificar la H0 se realiza una muestra de 256 viviendas con la que se obtienen los
siguientes resultados:
x = 2,68 personas
Sx = 0,80 personas
Se desea realizar la prueba con un nivel de riesgo del 10 % (es decir que
(15)
= 0,10)
Algunos autores, en lugar de trabajar con las unidades la variable de cada problema, proponen estandarizar siempre
la variable media muestral y transformarla en la z de la Normal Estndar (o la t de la t de Student), con lo cual se
comparara el x estandarizado con el valor zc; si resulta ( x - 0) / x > zc se rechazara H0 (en este caso de Test
Unilateral derecha), y sino no se rechaza. La decisin es la misma cualquiera sea la forma de trabajar.
84
Adems debe tenerse presente que se desconoce el tamao de la poblacin de viviendas del
pueblo (por lo menos no est dada entre los datos disponibles).
Siendo n = 256 viviendas, puede llegar a ser considerada una muestra grande, con lo cual es
1/2
posible adoptar que x ~ N( 0 , x ) , donde: 0 = 2,5 y
= 0,05.
x = 0,80 / 256
En base a ello, es posible calcular un valor de x alejado hacia la derecha ( x c), tal que:
P( x > x c) =
zc = 1,28
] > [( x c- 0)/
Para definir sobre la prueba solicitada se compara: x = 2,68 > x c = 2,568 ; es decir
que la media muestral supera el Valor Crtico, y que se est dando un resultado poco probable
si fuese cierta H0, por lo que se concluye que NO ES CIERTA Y QUE DEBE SER
RECHAZADA.
Esto quiere decir que el promedio de personas por vivienda en el pueblo es superior a las 2,5
personas propuestas como H0, y que en realidad la poblacin del pueblo no parece haber
disminuido tanto como se supona (si bien esto no fue verificado, puede suponrselo como
resultante).
Ahora bien:
a) Qu significado tiene en este caso el
= 0,10 ?.
Respuesta:
Si el valor de es 2,5, y si se tomasen muchas muestras de tamao n = 256 de la poblacin,
debe esperarse que en un 10 % de las veces (100. ), se encuentre un valor del estadstico de
prueba y en los casos en que esto se da debe rechazarse H0.
La probabilidad tambin se conoce como el nivel de significacin. Esto implica que la
evidencia muestral es tal que garantiza el rechazo de H0 a un nivel dado de = 0,10.
b) Qu se hubiese hecho si la muestra observada hubiese dado un promedio de personas por
familia menor a 2,5 (por ejemplo 2,38) ?.
Respuesta:
> 2,5 ; si la muestra hubiese dado menor no sera necesario realizar la
x
comparacin entre x y c , ya que lgicamente el valor muestral cae en la zona de No
Dada la H1)
Rechazo.
c) Si el nivel de riesgo hubiese sido menor (por ejemplo del 5 %), hubiese podido cambiar
la conclusin del problema ?.
85
Respuesta:
Con un menor
, no rechazndose de
d) Y si el desvo estndar muestral hubiese sido menor que el 0,80 personas obtenido; podra
haberse modificado la decisin tomada de rechazar H0 ?.
Respuesta:
e) En caso de que la muestra hubiese sido de slo 100 familias; podra haberse modificado la
decisin de rechazar H0 .
Respuesta:
El tamao de muestra n influye sobre la dispersin del estimador, es decir que x sera
mayor, lo que achica la Zona de Rechazo, y posibilitara que se cambie la decisin y no se
rechace (deberan hacerse los clculos).
f) Finalmente, que sucedera si se sabe que la cantidad total de familias de ese pueblo es de
800 ?.
Respuesta:
El conocimiento del tamao de N obliga al uso del Factor de Correccin para
poblaciones finitas, lo que ocasiona que disminuya el x , es decir que se agranda la Zona
de Rechazo, y de esta forma no se podra modificar la decisin de rechazar H0.
Tal como se ha elaborado el ensayo, el procedimiento de prueba se
construye de manera tal que la Hiptesis Nula sea RECHAZADA o NO RECHAZADA. Sin
embargo, con la inclusin de la hiptesis alternativa, probar una hiptesis estadstica es
proporcionar una decisin entre H0 y H1. Para ello se clasifica el campo de variacin de la variable
x en dos subconjuntos o sectores:
-
Regin Crtica o de Rechazo: que contiene los resultados no favorables a la hiptesis nula.
86
Decisin Adoptada
No rechazar H0
Rechazar H0
Cierta
Falsa
Decisin Acertada
Error de TipoII
(1 - )
( )
Error de TipoI
Decisin Acertada
( )
(1 - )
H1 ) =
1<
87
Si es cierta H0, la x debe tener una distribucin cuyo promedio es 0 y cuya dispersin
ser la de la poblacin original dividida por la raz de n y por el factor de correccin
para poblaciones finitas. En los casos analizados oportunamente (n grande, etc.), la
distribucin de la x ser Normal, y podr utilizarse esta funcin para continuar con el
razonamiento del ensayo.
En los casos en que x
P( x < x c) =
N(
0,
) se tendr:
y P( x > x c) = (1 - )
0=
H1) =
1<
= 0,95
$ 175
0,
) ; donde:
De esta forma es posible calcular un valor de x alejado hacia la izquierda( x c), tal que:
P( x < x c) =
zc = - 1,645
] < [( x c- 0)/
H1 ) =
N(
0,
) se tendr:
(1 - )
90
es un valor pequeo
H 1 ) 260 gr.
P ( < c1 / H0 ) =
/ 2 = 0.05
P ( > c2 / H 0 ) =
/ 2 = 0.05
z c = 1,645
x
2
100
de donde:
10
x
36
$ 1 . 6667
conocida
En la variable x :
c1 = 256,73
0 = 260
92
N(
0,
) se tendr:
y P(N. x < N. x c) = (1 - )
= 0,05)
Siendo n = 400 manzanas, puede llegar a ser considerada una muestra grande, es posible
adoptar que el estimador N. x ~ N(X0 , N . x ) , donde: X0 = 280.000 y S N . x = 6.580
(por ser N . x desconocido).
En base a ello, es posible calcular un valor de N. x alejado hacia la derecha (N. x c), tal que:
P(N. x > N. x c) = = 0,05 zc = 1,645 N. x c = 280.000 + 1,645 . 6.580 = 290.824,1
personas que es el Valor Crtico.
Para hacer la prueba solicitada se compara: N. x = 290.500 < N. x c = 290.824,1 ; es decir
que la media muestral es levemente menor que el Valor Crtico, por lo que se concluye que
NO SE RECHAZA la H0, por lo que se supone que la poblacin de Posadas sigue siendo de
280.000 habitantes (en realidad el test da un resultado tan justo que dara origen a realizar
una nueva prueba).
g) Qu se hubiese hecho si la muestra observada hubiese dado un promedio de personas por
manzana menor a 80 ?.
Respuesta:
Dada la H1) X = X1 > 280.000 implica que x > 80; si la muestra hubiese dado menor no
sera necesario realizar la comparacin entre N. x y N. x , ya que lgicamente el valor
muestral caera en la zona de No Rechazo.
h) Si el nivel de riesgo hubiese sido mayor (por ejemplo del 10 %), hubiese podido cambiar
la conclusin del problema ?.
Respuesta:
Con un mayor se agranda la Regin de Rechazo, por lo que podra ser que habindose
No Rechazado antes H0 , el valor de x podra ahora superar al x , rechazndose de esa
manera H0 (deberan hacerse los clculos).
i) Y si el desvo estndar muestral hubiese sido menor que el de 40 personas obtenido;
podra haberse modificado la decisin tomada de no rechazar H0 ?.
Respuesta:
El valor de Sx es utilizado para determinar el N . x , por lo cual si fuese menor que 40
personas se achica la dispersin y se agranda la Regin de Rechazo, por lo que se podra
modificar la conclusin de no rechazar H0 (deberan hacerse los clculos).
j) En caso de que la muestra hubiese sido de slo 100 familias; podra haberse modificado la
decisin de no rechazar H0 .
Respuesta:
El tamao de muestra n influye sobre la dispersin del estimador, es decir que N . x sera
mayor, lo que achica la Zona de Rechazo, y no se cambiara la decisin de no rechazar.
k) Finalmente, que sucedera si desconoce la cantidad total de manzanas de Posadas ?.
Respuesta:
94
N(X0 ,
N .x
) se tendr:
y P(N. x > N. x c) = (1 - )
Respuesta:
El Ensayo de Hiptesis a realizar es el siguiente:
H0) X = X0 = $ 3.700.000 (total a comprobar en el estudio)
H1) X = X1 < $ 3.700.000 (en base al supuesto planteado)
Los datos previos y la muestra suministran los siguientes resultados:
N = 20.000 familias
n=
36 familias
= 0,10)
X0 = $ 3.700.000 y
N .x
)y
donde:
S N . x = $ 199.800.
En base a ello, es posible calcular un valor de N. x alejado hacia la derecha (N. x c), tal que:
P(N. x < N. x c) =
g) Si el promedio de gastos por familia de la muestra hubiese dado $ 150, podra haberse
modificado el resultado de la prueba ?.
Respuesta:
No, ya que el valor muestral se aleja en menos del que se est verificando, con lo cual se
separan el valor promedio y el crtico.
NOTA: Como ya se lo mencion en el caso A., el problema podra haberse resuelto tambin
transformndolo en un caso de Prueba de Hiptesis para el Promedio.
C. Ensayo de Hiptesis Bilateral (o de dos colas)
El razonamiento es similar a los anteriores, con la zona de rechazo de H0 a
ambos lados. Veamos:
En este caso el planteo genrico es el siguiente: Se afirma que el total de
una poblacin es X0, contra la alternativa de que es diferente a ese valor (representado por X1). De
esta afirmacin derivan las siguientes hiptesis:
H0 ) X = X 0
H1 ) X = X 1 X 0
Como ya se lo hizo anteriormente, hecho el planteo, la definicin sobre
cul de las hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se
calcular el estimador Muestral del Total.
Para los casos en que N. x
N(X0 ,
N .x
) se tendr:
H0) X = X0 =125.000
personas ocupadas
H1) X = X1 X0 = 125.000
900
S N .x
(N
n ) /( N
1)
12 . 500 . 9
(12 . 500
900 ) /( 12 . 500
1)
900
si es cierta H0
Si es cierta H0, el estimador p debe tener una distribucin cuyo promedio es P0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de p ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que p ~
P(p > pc) =
N(P0 ,
) se tendr:
= 0,03 zc = 1,88
99
pc = 0,2 + 1,88 . 0,016 = 0,23 de donde: siendo p = 0,225 < pc = 0,23 no debemos
Rechazar H0 y concluir que la incorporacin de la nueva figura a la telenovela, no
increment sustancialmente la audiencia de la misma.
b. Si la muestra hubiese sido ms pequea (pr ej.: 300 familias), se podra haber
modificado la decisin de rechazar H0 ?.
Respuesta:
Una muestra menor, incrementa el valor de p , con lo cual el valor crtico (pc) se aleja
an ms de P0 = 0,20, y el p muestral (0,225) sigue cayendo dentro de la zona de no
rechazo de H0.
c. Si el nivel de confianza hubiese sido del 90 %, podra haberse modificado la conclusin
del punto a) ?.
Respuesta:
Conceptualmente, un riesgo mayor ( = 0,10), agranda la zona de rechazo de H0 , y
podra modificarse la decisin de no rechazarla (deberan rehacerse los clculos).
B. Ensayo de Hiptesis Unilateral Izquierda
Combinando lo analizado para la Media Poblacional unilateral izquierda,
con lo visto antes para la Proporcin, es muy simple concluir la forma que adoptara el test o ensayo
de hiptesis, ya que el planteo genrico es el siguiente: Se afirma que la Proporcin de una
poblacin es P0, contra la alternativa de que es menor que ese valor (representada por P1). De esta
afirmacin derivan las siguientes hiptesis:
H0) P = P0
H1) P = P1 < P0
Como en los otros casos analizados, la definicin sobre cul de las hiptesis
es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la estimacin
Muestral de la Proporcin (p). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador p debe tener una distribucin cuyo promedio es P0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de p ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que p ~
P(p < pc) =
N(P0 ,
) se tendr:
= 0,20 zc = 0,84
pc = 0,2 + 0,84 . 0,02 = 0,1868 de donde: siendo p = 0,16 < pc = 0,1868 debemos
Rechazar H0 y concluir que la incorporacin de los cambios en la programacin,
modificaron sustancialmente la audiencia de la telenovela hacindola disminuir.
C. Ensayo de Hiptesis Bilateral (de dos colas)
Combinando nuevamente lo analizado para la Media Poblacional bilateral,
con lo desarrollado para la Proporcin, se puede derivar la forma que adoptara la prueba de
hiptesis, con el siguiente planteo genrico: Se afirma que la Proporcin de una poblacin es P0,
contra la alternativa de que es diferente a ese valor (representada por P1). De esta afirmacin
derivan las siguientes hiptesis:
H0) P = P0
H1) P = P1 P0
Como ya se lo hizo en mltiples oportunidades, la definicin sobre cul de
las hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la
estimacin Muestral de la Proporcin (p). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador p debe tener una distribucin cuyo promedio es P0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de p ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que p ~
P(p < pc1) = /2 ; P(p > pc2) = /2 ;
N(P0 ,
) se tendr:
y si es suficientemente chica, es de esperar que la p caiga entre los valores pc1 y pc2 (denominados
Valores Crticos), ya que la probabilidad de que eso suceda es grande.
Si en una muestra en particular no sucediera eso, se podra sospechar que
ocurre porque no es cierto que P = P0, sino que P = P1 donde P1 P0.
Ejemplo:
Continuando con el problema de la audiencia de la telenovela, si no se intuyera la forma en
que podran haber influido las modificaciones en la programacin de la mayora de los
canales de aire, lo lgico sera hacer una prueba bilateral,en la cual se desconoce el sentido
del cambio, y para realizarlo se mide la audiencia en un conjunto de 324 hogares,
encontrndose que el rating de la telenovela es del 21,8 %. La prueba en este caso debe
ser realizada con una nivel de riesgo del 0,05.
Respuesta:
Se desea verificar:
H0) P = P0 = 20 %
H1) P = P1 P0 = 20 %
Para hacerlo se cuenta con la siguiente informacin:
n = 324
N sigue siendo desconocida
p = 21,8 %
= 0,05
Siendo que n es grande, puede aceptarse que la proporcin muestral tiene distribucin
Normal, es decir, si es cierta H0: p ~ N(0,2 , (0,2.0,8) / 324 = 0,0222)
De esta forma: P(pc1 < p < pc2) =(1 - ) = 0,95 P(z < zc1) = /2 = 0,025 zc1 = - 1,96
y ser P(z > zc2) = /2 = 0,025 zc2 = 1,96. Con estos valores de la Normal estndar:
pc1 = 0,2 1,96 . 0,0222 = 0,1564 ; pc2 = 0,2 + 1,96 . 0,0222 = 0,2436
de donde: siendo p = 0,218 > pc1 pero < pc2 ; debemos no Rechazar H0 y concluir
que los cambios en la programacin, no modificaron sustancialmente la audiencia de
la telenovela.
H0) NA = NA 0
H1) NA = NA 1 > NA 0
La definicin sobre cul de las hiptesis es vlida, se realizar extrayendo
una muestra de n unidades con la que se calcular la estimacin Muestral de la Cantidad de Casos
Favorables (NA). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador de NA (N.p) debe tener una distribucin cuyo promedio es
NA0 y cuya dispersin ser la de la de la distribucin correspondiente al estimador. En el
caso analizado oportunamente (n grande), la distribucin del estimador de N.p ser
Normal, y podr utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que N.p ~
P(N.p > N.pc) =
N(N0 ,
Np
) se tendr:
y si es suficientemente chica, es de esperar que la N.p no supere el valor N.pc (denominado Valor
Crtico), ya que la probabilidad de que eso suceda es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que NA = NA0, sino que NA = NA 1 donde NA 1 > NA0.
Como en los dems casos, este razonamiento permitira enumerar los
pasos a realizar a partir de a afirmacin de las hiptesis, y plantear la regla de decisin. No
tiene sentido volver a desarrollarlos.
Ejemplos:
En el caso de la telenovela de horario central manteniendo que haba registrado una
audiencia promedio del 20 %, y agregando que la poblacin de la ciudad en la que se realiza
el estudio es de 250.000 habitantes, se desea comprobar si la poblacin que mira la
telenovela permanece invariable, o bien si la incorporacin al elenco de una estrella de la
comedia nacional puede haberla hecho aumentar. Para realizar la comprobacin, con una
muestra de 400 personas se obtiene que los que miraron la telenovela fueron 112.
a. Realizar la comprobacin con un nivel de confianza del 95 %.
Respuesta:
Se desea verificar:
H0) NA = NA 0 = 50.000 personas (20 % de los 250.000 habitantes)
H1) NA = NA 1 > NA 0 = 50.000 personas
Para hacerlo se cuenta con la siguiente informacin:
n = 400
N = 250.000
p = 112 / 400 = 0,28 = 28 % ; N.p = 250.000 . 0,28 = 70.000 habitantes
= 0,05
103
Siendo que n es grande, puede aceptarse que la proporcin muestral tiene distribucin
Normal, es decir que, si es cierta H0: N. p ~ N(50.000 ; 250.000 (0,2.0,8) / 400 =
5.000)
De esta forma: P(NA > NA c) =
= 0,05 zc = 1,645
N(NA 0 ,
NA 0
) se tendr:
104
P(NA < NA c) =
y P(NA > NA c) = (1 - )
y si es suficientemente chica, es de esperar que la NA no sea menor que el valor NAc (denominado
Valor Crtico), ya que la probabilidad de que eso suceda es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que NA = NA0, sino que NA = NA 1 donde NA 1 < NA0.
Ejemplo:
En el mismo caso de la audiencia de la telenovela, si se pensara que las modificaciones en la
programacin de la mayora de los canales de aire la hicieron disminuir, para realizar la
prueba se mide la audiencia en un conjunto de 400 hogares, encontrndose que el rating
de la telenovela es del 16,0 %. La prueba en este caso debe ser hecha con una confianza del
80 %.
Respuesta:
Se desea verificar:
H0) NA = NA 0 = 50.000 personas (20 % de los 250.000 habitantes)
H1) NA = NA 1 < NA 0 = 50.000 personas
Para hacerlo se cuenta con la siguiente informacin:
n = 400
N = 250.000
NA = N.p = 250.000 . 0,16 = 40.000 habitantes
= 0,20
Siendo que n es grande, puede aceptarse que la Cantidad de Casos muestral tiene
distribucin Normal, es decir que, si es cierta H0: N. p ~
N(50.000 ; 250.000
(0, 2.0,8) / 400 = 5.000)
De esta forma: P(NA > NA c) =
= 0,20 zc = 0,84
H1) NA = NA 1 NA 0
105
N(NA 0 ,
NA 0
) se tendr:
y si
es suficientemente chica, es de esperar que la NA caiga entre los valores NAc1
(denominados Valores Crticos), ya que la probabilidad de que eso suceda es pequea.
NAc2
/2
/ 2 = 0,025 zc2 = 1,96
106
de donde: siendo N.p = 54.400 > NAc2 = 54.200 debemos Rechazar H0 y concluir que
los cambios en las programaciones, modificaron sensiblemente la audiencia de la
telenovela.
NOTA: Como ya se lo mencion anteriormente, el problema podra haberse resuelto tambin
transformndolo en un caso de Prueba de Hiptesis para la Proporcin.
H0) 2 = 20
H1) 2 > 20
Para realizar la prueba debe recurrirse al estimador muestral, que en este
caso es S , que se distribuye como un Chi Cuadrado modificado. La prueba ser realiza fijando
un valor crtico del estimador (S2c), a la derecha de la funcin, de acuerdo con el nivel de
confianza (o de riesgo) fijado para la prueba. En este caso ser:
2
S2c = 20 . 2(1 ) / (n 1)
Como en los casos anteriores, la definicin sobre cul de las dos hiptesis es
vlida, se realizar extrayendo una muestra de n unidades con la que se calcular el estimador
Muestral de la Variancia (S2).
Se compara S2 con el valor S2c ; si resulta S2 < S2c NO SE RECHAZA H0,
adoptndose que 2 = 20.
Si la comparacin diera que S2 > S2c SE RECHAZA H0, ya que se
considera que existen evidencias significativas para rechazar que 2 = 20, adoptndose H1
en la que se propona que 2 = 21 > 20.
GRFICAMENTE
(modificada)
1-
S2
Zona / Regin de NO Rechazo
S2c
Ejemplo:
En la Repblica Argentina, durante la dcada del 80, pudo verificarse que el consumo de
carne por persona tena una distribucin aproximadamente Normal, con un promedio
mensual de 4, 5 kg. y un desvo estndar de 1,5 kg.
Debido a las modificaciones econmicas producidas, se supone que la dispersin pudo
haberse incrementado, y para comprobarlo con un nivel de riesgo del 5 %, se observa una
muestra de 80 personas, con las que se obtienen los siguientes resultados: Promedio = 4,65
kg. - Desvo Estndar = 3 kg.
a) Comprobar si el Desvo Estndar se increment (en realidad la prueba exacta se
realiza con la Variancia).
b) Comprobar si el Promedio se increment.
Respuesta:
a) Se realizar previamente la prueba de hiptesis para la Variancia, correspondiendo
plantear:
H0) 2 = 20 = 2,25 kg.
H1) 2 > 20 o
x = 4,65 kg.
n = 80
= 0.05
S c = 2,87
S2 = 9
108
(14)
Una forma ms precisa de definirla, es decir que existe asociacin entre dos variables cuando la distribucin
condicional de una variable difiere de algn modo entre las diversas categoras de la segunda variable. Otra ms
terica, expresa que existe asociacin cuando la presencia de una variable modifica la probabilidad de presencia de
la otra.
109
Dependencia Causal Unilateral: cuando una de las variables influye sobre la otra pero no
sucede a la inversa. El ejemplo clsico es el de la cantidad de lluvia cada y produccin
agrcola, ya que mientras que se reconoce la influencia de la primera sobre la segunda, pero
es ilgico pensar en la situacin inversa.
Interdependencia Causal: aquellos casos en que ambas variables se influyen recprocamente,
siendo en este caso el ejemplo clsico el de la cantidad demandada de un bien y el precio
del mismo.
Dependencia Indirecta: aquellas situaciones en las cuales existe relacin/asociacin entre dos
variables, pero que la misma se da a partir de una tercera que es la que las une. Los ejemplos
ms comunes estn dados a partir de todas las variables que dependen de la cantidad de
poblacin de una regin (consumo de leche, venta de zapatos, cantidad de robos, polucin
ambiental, etc., con las que se podran encontrar relaciones de a pares, pero en las que las
mismas se explican por estar todas vinculadas con la cantidad de personas.
Dependencia Casual: aquellas variables que sin estar aparentemente vinculadas, presentan en
sus comportamientos variaciones asociadas sin explicacin razonable.
La definicin simplificada indicada anteriormente puede aplicarse a todo
tipo de variables: cualitativas (nominales u ordinales) o cuantitativas (discretas o continuas). En los
puntos siguientes se analizan algunas de las alternativas posibles, presentndose conceptualmente y
sin mayores desarrollo tericos los principales mtodos para analizar su asociacin o relacin.
2. Asociacin entre Variables Cualitativas
(15)
(15)
En realidad la metodologa que se desarrolla en este punto, es de utilidad para determinar asociacin entre todo tipo
de variables, no solo las de tipo cualitativas o de atributos.
110
Y1
Y2
Yj
Yl
TOTAL
X1
f 11
f 12
f 1j
f 1l
f 1.
X2
f 21
f 22
f 2j
f 2l
f 2.
Xi
f i1
f i2
f ij
f il
f i.
Xk
f k1
f k2
f kj
f kl
f k.
TOTAL
f .1
f .2
f .j
f .l
f=n
Uso de Calmantes
TOTAL
SI
NO
Secundario o +
22
10
32
- de Secundario
15
41
56
TOTAL
37
51
88
Respuesta:
Una forma de facilitar su interpretacin, es calcular los porcentajes de participacin con
respecto al total de encuestados, para lo cual cada una de las cifras de la tabla se divide por
88 y se multiplica por 100, resultando (cifras redondeadas a un decimal):
Nivel de Estudios
Uso de Calmantes
TOTAL
SI
NO
Secundario o +
25,0
11,4
36,4
- de Secundario
17,0
46,6
63,6
TOTAL
42,0
58,0
100,0
Uso de Calmantes
TOTAL
SI
NO
Secundario o +
68,8
31,2
100,0
- de Secundario
26,8
73,2
100,0
TOTAL
42,0
58,0
100,0
(16)
En este caso se tiene una asociacin causal de tipo unilateral, ya que no parece tener sentido decir que el uso de
calmantes influye en el nivel de estudios de las personas.
112
Debe tenerse presente que el valor de D oscila de 0 (cuando no existe asociacin entre las
variables), a 100 (cuando la asociacin es total), con lo cual el valor de D = 42 % indica una
asociacin importante aunque sin superar la mitad del indicador (18).
Aunque en este caso no tiene sentido su clculo (ya que la asociacin es causal unilateral), es
posible calcular la otra tabla de frecuencias relativas, hacindolas con respecto a los dos
subtotales de acuerdo al uso o no de calmantes:
Nivel de Estudios
Uso de Calmantes
TOTAL
SI
NO
Secundario o +
60
19
36
- de Secundario
40
81
64
TOTAL
100
100
100
De ser razonable, esta tabla permitira realizar una mejor lectura comparativa:
Mientras que entre los que consumen calmantes, el 60 % tienen estudios secundarios o
ms, entre los que no utilizan calmantes, apenas el 19 % tienen ese nivel de estudios.
Ambas cifras se pueden comparar con los % marginales del nivel de estudios en la
totalidad de personas: el 36 % consume secundario o ms y el 64 % menos.
Lectura similar puede hacerse comparando los % que presentan los que tienen nivel de
estudios menor al secundario, discriminando por consumo o no de calmantes.
En este caso, para el clculo del D se deben realizar las diferencias en sentido horizontal (es
decir comparando para cada nivel de estudios, el consumo y no consumo de calmantes):
Entre los que tienen nivel de estudios secundario o ms:
D = [60 % (consumen calmantes) 19 % (no consumen calmantes)] = 41 %
(18)
Esto permitira comparar el grado de relacin entre las mismas variables en conjuntos de personas de diversos
lugares; o comparar su evolucin en el tiempo; o hasta hacer comparaciones del grado de asociacin existente
comparada con la de otras variables.
En el captulo siguiente (Pruebas de Hiptesis No Paramtricas), se ver un mtodo que permite determinar si la
asociacin existente entre dos variables puede ser o no considerada significativa, es decir si puede adoptarse que
la relacin entre las variables es ms que casual y tiene asidero cientfico.
113
(19)
Esta opcin es siempre factible, agrupando las alternativas en dos opciones mutuamente excluyentes, del tipo:
defectuoso y no defectuoso; alto y no alto; etc.
114
Ejemplo:
En la Encuesta Permanente de Hogares (EPH), se obtiene informacin sobre 250 hogares de
una zona del Gran Buenos Aires, clasificados con respecto al Nivel de Estudios alcanzado por
su Jefe (NE), y el Monto Total Mensual de los Ingresos del Hogar (NI) expresado en $. Con esa
informacin se prepara la siguiente tabla:
Nivel de Ingresos (en $)
Nivel de
Estudios
< 500
TOTAL
> 2.000
Alto
Medio
Bajo
5
15
20
10
25
45
15
25
40
30
15
5
60
80
110
TOTAL
40
80
80
50
250
Nivel de
Estudios
< 500
500 / 1.000
1.000 / 2.000
> 2.000
Alto
Medio
Bajo
8,3
18,8
18,2
16,7
31,2
40,9
25,0
31,2
36,4
50,0
18,8
4,5
100,0
100,0
100,0
TOTAL
16,0
32,0
32,0
20,0
100,0
TOTAL
En esta tabla se aprecia que el NE Alto presenta un elevado % entre los hogares con ms
de $ 2.000 de ingresos totales (50 %) en desmedro de los otros intervalos; los de NE Bajo
apenas alcanzan a un 5 % en el tramo de ms de $ 2.000; mientras que los de NE Medio
tienen cifras parecidas al total de hogares. Esto sugiere la existencia de alguna relacin
entre ambas variables, lo que requerira ser confirmado o no a partir de otras tcnicas.
2. El paso siguiente, podra ser el obtener valores resumen para cada uno de los NE, como
por ejemplo (las cifras provienen de los 250 datos originales):
NE
XMn
XMx
Me
CV
Alto
60
420
4.500
2.120
1.970
650
0,31
Medio
80
380
3.800
1.150
1.050
620
0,54
Bajo
110
320
2.700
835
808
480
0,57
TOTAL
250
320
4.500
1.100
1.020
700
0,64
Puede apreciarse aqu tambin, que las cifras de los distintos NE muestran diferencias
notables. En caso de que se desee realizar una verificacin ms precisa, puede realizarse
alguna prueba de hiptesis paramtrica, comparando los resultados de las medidas de
cada uno de los grupos conformados.
115
VT = VI + VE
; donde
0 < RC < 1
(21)
donde:
Estrato es un trmino de la Teora del Muestreo, con el que se identifica un grupo especfico de unidades que
tienen la particularidad de tener muchas semejanzas entre si, y diferir notablemente con las que integran otros
estratos.
(21)
2 (eta al cuadrado).
116
Los fundamentos de este coeficiente, se encuentran en que, lgicamente, cuanto mayor sea la
relacin/asociacin entre las variables, menor ser la dispersin entre grupos (VI), y por ende
mayor ser el numerador VE (dispersin dentro de cada grupo), y mayor el valor de RC.
Ejemplo:
En el ejemplo antes desarrollado (250 hogares con datos de Nivel Educativo y Nivel de
Ingresos), recurriendo a las cifras individuales de cada hogar, pero agrupando los diversos
casos en dos Niveles Educativos: Nivel educativo Alto (NEA) y Nivel Educativo No Alto
(NENoA), sera posible calcular (en $2):
Respuesta:
La Variabilidad o Dispersin existente dentro o intra de cada grupo de hogares:
VIA = 25.350.000
; VINoA = 40.752.000
VI = 66.102.000
previo lo aconseja), pasar a determinar el tipo y orientacin de la misma, para el desarrollo del tema
en un curso de este nivel resulta ms apropiado plantearlo invirtiendo el orden: es decir que se ver
primero el tipo o naturaleza de la relacin, luego el sentido u orientacin, y finalmente el grado
o importancia con que se vinculan las variables.
Tomando como punto de partida la existencia y disponibilidad de los datos
correspondientes a dos variables aleatorias cuantitativas, el mtodo de Regresin tiene por objeto el
desarrollo de un modelo matemtico para explicar el comportamiento y predecir los valores de una
de esas variables (considerada dependiente o explicada), mediante el conocimiento y uso de los
valores de la otra variable (considerada independiente o explicativa). Al ser ambas variables
independientes (requisito indispensable del modelo), el rol de cada una de ellas puede rotar.
El desarrollo del mtodo lleva a determinar primero el tipo o naturaleza de
la relacin, y posteriormente el sentido u orientacin que tiene. Para lo primero (tipo o naturaleza
de la relacin), ni el transcurso del tiempo ni los adelantos tecnolgicos de los aos recientes han
podido superar el antiguo sistema de la representacin grfica, mediante la confeccin de un
Diagrama de Puntos o Dispersin, que consiste en representar e interpretar los valores
individuales en un grfico bidimensional, en el cual la abcisa se dedica usualmente a la variable
considerada explicativa, y la ordenada a la explicada, aunque esto no sea totalmente indispensable.
yi
yh
yh-1
.
yi
.
y2
y1
x1 x2
x3
x4 .. xi ... xk-1
xk
xi
118
Rectilnea
Curvilnea
x x
x x
x x x x
x
x x
xx x
x x
x x x
xx x
x
Oscilante
xx
x x
x x x
xx x
xx x
x xx
x x x
xxx x
x xx xx x
xx
x
x
xx
xx
xx
x
x
xx
xx
xx
x
xx
Yi =
-
Xi +
donde:
(Y/X1 )
(Y/X2 )
=...=
(Y/ Xk )
(Y/X)
119
(Y i
i
Yi )
= 0 (es decir que se compensan los desvos positivos con los negativos).
Lamentablemente esta condicin la cumplen las infinitas rectas que pasan por ese punto.
Lo expresado en el MMC equivale a minimizar matemticamente la expresin:
120
(Yi
i 1
matemtico derivadas parciales, las que igualadas a cero (para obtener el mnimo
requerido), generan un sistema de dos ecuaciones con dos incgnitas, a y b, de donde, con
cualquier sistema de resolucin se obtiene que:
n
xi yi
nx y
y reemplazando b en la recta: a
i 1
2
i
nx
bx
i 1
Tambin es factible calcular a con la frmula resultante des sistema de resolucin de las
ecuaciones, lo que generara el mismo resultado pero con una frmula ms complicada.
Puede comprobarse que la recta calculada de esa forma, es la que genera que la suma de las
n
diferencias
(Y i
i
que pasen por donde se unen x e y ) , y que la suma de las diferencias al cuadrado
n
(Yi
Yi ) 2 sea mnima con respecto a la que se obtendra con otra recta diferente.
i 1
Desvos Positivos --
.
.
.
.
.
yi Recta de Regresin de yi en
funcin de xi
.
.
Desvos Negativos --
xi
Cabe mencionar que siempre es posible calcular una Recta de Regresin,
cualquiera sea la forma de la nube de puntos, y cualquiera sea la conclusin respecto al tipo de
relacin existente entre las variables (rectilnea, curvilnea, sinusoidal, amorfa, etc.). Posteriormente
se podr determinar la bondad de esa recta, a partir de algn coeficiente de asociacin, prueba de
ajuste, etc. (ver puntos y captulo siguientes).
LA OTRA RECTA DE REGRESIN
No en toda la bibliografa sobre el tema, se aclara que de la misma forma
que se enfoc el anlisis de la recta de regresin, asumiendo que xi era la variable independiente, y
que la yi era la dependiente, siendo ambas estadsticamente independientes, es posible cambiar el
enfoque y rotar el rol de cada una de ellas.
121
Xi a byi
Donde:
n
xi yi
b
nx y
y reemplazando b en la recta: a x
i 1
n
y i2
n y
by
i 1
cumplindose con ellos todos los requisitos del MMC, con la nica diferencia que en este caso las
diferencias que se minimizan son en sentido horizontal.
GRFICAMENTE
xi Recta de Regresin de xi en
funcin de yi
yi Recta de Regresin de yi en
funcin de xi
Yi
.
y
.
.
.
. .
.
xi
por Karl Pearson, tendiente a calcular un Coeficiente de Correlacin Lineal (r), que permite
estudiar la covariacin entre dos variables, mediante un nmero que mide el grado o intensidad de
dicha covariacin.
El mtodo desarrollado por Pearson, est muy vinculado al de los Mnimos
Cuadrados, y el valor de r, que es una expresin relativa de la covariacin entre dos variables,
termina siendo calculado mediante la relacin (cociente) entre la Covariancia (medida absoluta de
esa variacin conjunta), y los Desvos Estndar de cada una de las variables.
Cov ( x; y )
X . Y
donde: Cov ( x; y )
x) . ( yi
y)
mientras que
( y i y )2
es el Desvo Estndar de la variable yi.
n
2
Y
x) 2
( xi
2
X
r
(
x2
xy
n. x . y
y2
n. x ).(
n. y )
Si r = -1;
Si r = 0
Cualquier otro resultado entre medio de estos, indicara relacin lineal alta o baja, positiva o
negativa, de acuerdo a los valores que tome el r.
-1
Mxima Relacin
Negativa
0
r
No hay Relacin
+1
Mxima Relacin
Positiva
123
b.b
con el nico cuidado, de mantener el signo de la raz cuadrada, de acuerdo con el que tomen los dos
coeficientes de las dos rectas (ya que ambos deben tener el mismo signo).
Cualquiera sea la frmula de clculo, el r mide la correlacin lineal existente
entre ambas variables, sin particularizar entre la explicada o la explicativa, y tambin se lo puede
calcular cualquiera sea la conclusin respecto al tipo de relacin existente entre las variables
(rectilnea, curvilnea, sinusoidal, amorfa, etc.) (22).
GRFICAMENTE: ejemplos de valores aproximados del r de acuerdo a la nube de puntos.
x x
x x
r = - 0,85
x x x x
x
x x
xx x
x x
x x x
xx x
x
xx
x x
r = - 0,80
x x x
xx x
xx x
x xx
x x x
xxx x
x xx xx x
r= 0
xx
x
x
xx
xx
x
xx
xx
x
xx
xx
xx
x
x x
r = 070
x x x
x x x x
x
x x
xx x xx
x x x x x
x x x xx x
xx x x xx
x x x
xx x
x x
x x x x
x x x
x x
x x x x
xx x x x
x x xx
xx x xx x x x x
x xxx x x x x x x
x x x x x xxxxxx x
xxx xx x x x
x xx xx x x x
x x
xx x
x
r = 0,10
x xx
x x xx x
x xx
x
x
xx
xx
xx
xx
x
r = 0,45
CD = r2 . 100 = b . b. 100
(22)
Existen otros coeficientes de correlacin, diseados para medir la fuerza de la relacin entre dos variables que se
vinculan de otras forma (curvas, oscilantes, etc.).
124
Ejemplos:
A. En la Secretara de Agricultura, Ganadera y Pesca, desea hacerse una rpida estimacin de la
cantidad de silos que se debern utilizar en la prxima campaa de recoleccin de granos, para lo cual
slo se dispone de informacin obtenida en un ltimo censo relativo al equipamiento que poseen los
productores agrarios del pas.
Adoptndose que la cantidad de silos a utilizar se encuentra ntimamente asociada a la cantidad de
equipo pesado que posee cada productor, se considera aceptable utilizar esta ltima variable (conocida
a partir del mencionado censo), para estimar el nmero de silos necesarios. Con el fin de comprobar el
supuesto inicial (asociacin entre ambas variables), se consulta a 5 productores en relacin a ellas,
obtenindose:
Productor (i)
Equipos (xi)
Silos
(yi)
Respuestas:
En primer lugar, (adelantando parte del punto f),
corresponde graficar la informacin disponible:
Diagrama oNube de Puntos
Yi
6
x
4
x
2
x
0 x
1
Xi
Xi
Yi
Xi . Yi
Xi2
Yi2
10
25
18
36
Total
15
35
18
71
a)
Donde:
Cantidad de productores: n = 5
Promedio de Equipos por productor = X =
8 / 5 = 1,6 Equipos por productor.
Promedio de Silos por productor = Y =
15 / 5 = 3 Silos por productor.
125
xi yi
b
n x y
= [(35 5 . 1,6 . 3) / (18 5 . 1,62)] = 11 / 5,2 = 2,12
i 1
n
yi = a + b X i
x i2
nx
i 1
yi = a + b Xi = - 0,4 + 2,12 . Xi
b) El Coeficiente de Correlacin:
r = [(35 5 . 1,6 . 3) / [(18 5 . 1,62) . (71 5 . 32)] =
= (35 24) / [(18 12,8) . (71 45)] = 11 / [5,2 . 26] = 11 / [135,2] = 11 / 11,63 = 0,946
c)
El Coeficiente de Determinacin:
CD = 0,9462 . 100 = 89,5 %
Yi
8,08
7
6
yi
0
4
- 0,9
8,08
5
4
3=Y
2
Xi
0 x
-0,4 0
X= 2
Xi
126
B. Con los datos del problema anterior, suponer que la situacin era la inversa; es decir que por un
registro de la Sociedad Agraria de la regin se conoce la cantidad de Silos de cada productor, y a
partir de ella se desea saber la cantidad de Equipos pesados que cada uno posee. Los datos son los
mismos.
Respuestas:
A partir de la misma informacin bsica anterior (promedios, tabla de clculos, etc.), la Recta de
Regresin que se necesita en este caso es la de los Equipos (Xi) en funcin de los Silos (Yi):
n
xi = a+ bYi
xi y i
n x y
i 1
n
y i2
n y
i 1
2 ,12 . 0 , 42
0 ,8904
= 0,944 difiere
Por su parte el CD = b . b. 100 = 2,12 . 0,42 . 100 = 89,04 % tambin difiere levemente por
redondeos.
Si se representara la recta calculada sobre el mismo grfico anterior, podra verse que se cruza con la
anterior sobre el punto en que coinciden los promedios de ambas variables, y que por tener tan elevado
valor de r, son casi coincidentes grficamente..
Yi
xi
yi
7
6
5
4
Y =3
2
1
0
Yi
xi
0,34
2,44
x
x
x
0 0,34 1
2
3
X = 2,44
Xi
127
y1
y2
yj
yl
TOTAL
x1
f 11
f 12
f 1j
f 1l
f 1.
x2
f 21
f 22
f 2j
f 2l
f 2.
xi
f i1
f i2
f ij
f il
f i.
xk
f k1
f k2
f kj
f kl
f k.
f .1
f .2
f .j
f .l
f =n
TOTAL
Siendo:
xi : resultado i-simo de una variable x que toma valores desde 1 hasta k
yj : resultado j-simo de una variable y que toma valores desde 1 hasta l
f ij : frecuencia conjunta de los resultados xi e yj
f i. : frecuencia marginal de xi
f .j : frecuencia marginal de yj
f = n : cantidad de casos en los que se miden las variables xi e yj
(23)
En alguna bibliografa las f son reemplazadas por n, siendo n ij: frecuencia conjunta de los resultados xi e yj
128
fij
f i. =
fij
f .j =
f=n =
=(
xi . fi. ) / f
k
=[
(xi - x )
=(
j
yj . f.j ) / f
xi2 . fi.) / f] - x 2
. fi.] / f = [(
h
=[
i
k
(yj -
y)
. f.j] / f = [(
yj2 . f.j) / f] -
j
k
Cov(xi ; yj)
= [
(xi . yj . fij
i
- f.
x . y )] / f
La informacin para calcular todas estas medidas se obtienen de la siguiente tabla de clculos:
yj
fij
xi
xi . fi.
xi2 . fi.
xi . yj . fij
x1 . f1.
x12 . f1.
x1 . yj . f1j
yj
yh
f 1j
f 1h
f 1.
xi
f i1
f ij
f ih
f i.
xi . fi.
xi2 . fi.
xi . yj . fij
xk
f k1
f kj
f kh
f k.
f .1
f .j
f .h
f=n
yj . f.j
y1
x1
f 11
fij
i
yj . f.j
y1 . f.1
xk . fk.
xk2 . fk.
xk . yj . fkj
yj . f.h
yj2 . f.j
y12 . f.1
yj2 . f.j
yj2 . f.h
xi . yj . fij
xi . y1. fi1
xi . yj . fij
xi . yh . fih
y x = a + b xi
; b=
Cov(xi ; yj) / x
a=
-b. x
129
xy = a + b yi
; b = Cov(xi ; yj) / y2
a = x - b .
r = Cov(xi ; yj) / x . y
Ejemplo:
Los Alumnos ingresados a la Carrera de Estadstica de la UNTREF en el ao 2008, fueron
encuestados, relevndose para cada uno de ellos 8 variables:
Edad
Gnero / Sexo
Cantidad de Hijos
Estado Civil
Los datos relevados figuran en la Base de Datos de la hoja siguiente. A partir de la misma se
solicita calcular:
a) Calcular la Recta de Regresin de la Cantidad de Materias Cursadas en relacin a las
Horas Semanales de Trabajo (24).
b) Estimar la Cantidad de Materias que debera Cursar un alumno que Trabaja 50 horas
semanales.
c) Calcular tambin la Recta inversa, es decir la que vincula a las Horas Semanales de
Trabajo con relacin a la Cantidad de Materias Cursadas.
d) Estimar cuantas Horas Trabaja (en promedio), un alumno que Cursa 5 Materias.
e) Obtener los Coeficientes de Correlacin y Determinacin de ambas variables.
f)
g) Realizar el mismo trabajo solicitado de a) a f), pero sin agrupar los datos de Horas
Semanales de Trabajo.
Para realizar en Trabajos Grupales:
I.
(24)
N de Orden
Edad
(Aos)
Sexo
Materias
Cursadas
Estado
Civil
Hs. Semanales
Trabajo
Nota
Parcial
Hijos
Grupo Familiar
22
10
55
42
3
4
3
2
4
5
58
40
F
F
4
4
D
C
30
56
6
6
30
40
60
36
7
8
0
0
2
5
28
18
M
M
3
5
S
S
40
0
7
8
41
40
10
24
11
12
0
0
6
3
18
23
F
M
4
4
S
S
40
0
2
9
13
30
54
14
25
60
15
16
0
0
2
7
33
20
M
M
6
5
U
S
56
16
8
10
17
31
50
18
18
19
20
0
3
4
4
18
38
F
F
4
3
S
C
0
36
7
8
21
26
22
19
30
23
32
12
24
39
36
25
20
20
26
38
40
27
30
40
28
19
29
40
40
30
22
45
31
41
40
32
42
40
33
34
50
34
35
0
2
5
4
24
43
F
M
2
3
S
C
45
50
6
1
36
38
50
5
131
Respuestas:
a.
= a + b xi
20
20 a 30
(25)
30 a 40
(35)
40 a 50
(45)
50 a 60
(55)
TOTAL
14
12
36
TOTAL
De la Tabla de Clculos se extraern los elementos con los que se pueden calcular los
componentes de la recta: yx = a + b xi
Mat. Curs.
(Yj)
20
20 a 30
(25)
1
-
1
175
220
1
225
-
1
-
110
675
-
1
90
420
1
5
50 a 60
(55)
735
100
200
40 a 50
(45)
-
75
60
30 a 40
(35)
275
1
210
330
TOTAL
Xj . n.j
Xj2 . n.j
Xi . Yj . nij
(Suma j)
200
14
42
126
1.545
36
144
740
45
225
875
12
72
540
139
575
3.900
TOTAL
12
36
Yi . ni.
60
50
420
315
220
1.065
Yi2 . ni.
1.200
1.250
14.700
14.175
12.100
43.425
Xi . Yj . nij
(Suma i)
260
175
1.540
990
935
3.900
x=
yx = 7,79 + -0,133 . xi
Para estimar la Cantidad de Materias que debera Cursar en promedio un alumno que
Trabaja 50 horas semanales, se debe reemplazar ese valor en la recta encontrada en a):
Para calcular la Recta inversa, es decir la que vincula a las Horas Semanales de Trabajo
con relacin a la Cantidad de Materias Cursadas, se necesita: xy = a + b yi
xy = 38,65 + -2,35 . yj
Para estimar cuantas Horas Trabaja (en promedio), un alumno que Cursa 5 Materias, se
debe reemplazar ese valor en la recta encontrada en c):
= (0,133 . 2,35) =
0,31255
= 0,56
El anlisis de los coeficientes de ambas rectas y los obtenidos en el punto e), debera ser
como sigue:
En la recta de , yx el valor de ax = 7,79 indica que en promedio los alumnos que no
trabajan (es decir con xi = 0), podran cursar entre 7 y 8 materias (7,8).
133
Realizar el mismo trabajo solicitado de a) a f), pero sin agrupar los datos de Horas
Semanales de Trabajo.
Esto debe ser realizado como tarea para el hogar, de la forma en que se trabaja sin el
cuadro a doble entrada.
134
135
136
a. Prueba de Ajuste
Se la utiliza en los casos en que se intenta comprobar si una variable tiene
una cierta forma de distribuirse, y debido a las escasas restricciones determinadas para su aplicacin
(no depende de condiciones especiales que deban cumplir los datos), es utilizada en innumerable
cantidad de casos.
El esquema de razonamiento que se aplica es el siguiente:
Se parte del supuesto que una cierta variable (x) tiene una cierta forma de distribuirse f(x)0 , que
puede ser de cualquier tipo (Uniforme, Binomial, Rectangular, Normal, etc.), situacin que se
contrasta con la negacin de esa afirmacin. De esta forma se plantean dos hiptesis:
H0) f(x) = f(x)0 la forma de la distribucin que se desea testear
H1) f(x) f(x)0
Con el fin de realizar la comprobacin, de la poblacin original de datos de x, se obtiene una
muestra de una cierta cantidad de casos (n).
Esos n datos se clasifican en k categoras en las que se divide o agrupa la poblacin.
A cada una de esas categoras le corresponde una cierta frecuencia observada (foi o Oi).
Conociendo la forma de la distribucin que se est testeando (f(x)0), es posible calcular los
valores esperados (fei o Ei) para cada una de las k categoras. Para ello se calcula:
fei = n . pi
137
Con esos valores ya es posible calcular el valor del Chi Cuadrado experimental ( 2), cuya
k
( foi fei ) 2
2
frmula de clculo es: 2
Si
Si
n . (k 1)
donde:
12
13
10
Oi
7
9
12
13
10
9
Ei
10
10
10
10
10
10
TOTAL
60
60
(Oi - Ei)2 / Ei
0,9
0,1
0,4
0,9
0,0
0,1
2
= 2,4
El valor del 2 se compara con el del Chi Cuadrado con (k-1) = (6-1) = 5 grados de
libertad, que acumula hasta si una probabilidad de 0,95 (ya que el riesgo = 0,05):
2
(5)(0,95)
= 11,071
De esta forma, siendo 2 = 2,4 < 2(5)(0,95) = 11,071 NO SE RECHAZA H0) f(x) = 1/6 (que
el dado tiene en todas sus caras la misma probabilidad 1/6), y por lo tanto no se detiene el
proceso productivo.
b) Con las mismas pautas de trabajo anterior, el proceso productivo puede llegar a pararse
en aproximadamente un 5 % de los casos sin que realmente el proceso est fuera de
control (es decir, el valor del riesgo ).
139
c) Para este planteo, se debe construir la misma tabla de clculo anterior, pero con n = 600,
y los valores observados y esperados multiplicados por 10.
Puede comprobarse que bajo estas condiciones, 2 = 24 > 2(5)(0,95) = 11,071 (que no
variara, ya que k sigue siendo 6, con lo cual SE RECHAZA H0) f(x) = 1/6, debindose
detener el proceso productivo para verificar su funcionamiento.
Esta situacin aparentemente ilgica, se produce ya que cuanto mayor es un tamao de
muestra, ms se exige a la aproximacin entre la realidad y la teora, es decir que
deberan corregirse las diferencias entre los valores observados y los esperados.
Grficamente: El planteo del Punto a)
g de l = 5
= 0.05
= 2,4
2c = 11,071
Zona / Regin de Rechazo
En todas los casos en que se utiliza el Chi Cuadrado para realizar comprobaciones no Paramtricas, el esquema de
pensamiento y anlisis es el mismo: comparacin de las frecuencias observadas y esperadas. La diferencia est dada
en el origen de esos datos, la forma que toman las hiptesis que se plantean.
140
uno, por la cantidad de categoras o resultados de la otra variable menos uno. Como antes (1 ) es
el nivel de confianza con que se realiza la prueba.
Las hiptesis que se plantean en este caso son:
H0) Las variables son independientes, por lo que las foi = fei (o parecidas)
H1) Las variables NO son independientes (o estn asociadas), es decir que las foi fei
Nuevamente en este caso:
Si el 2 es menor o igual al 2 (k-1)(1- ), NO SE RECHAZA H0, ya que se obtuvo un resultado
lgico dentro del nivel de confianza fijado, y se concluye que las dos variables son
independientes entre si.
La adopcin de esta hiptesis, implica suponer que las diferencias que se tengan entre los
valores de Oi y Ei deben ser adjudicadas al azar.
Si el 2 es mayor que el 2 (k-1)(1- ), SE RECHAZA H0, ya que se obtuvo un resultado poco
esperado o probable si es que ella fuera cierta, y se concluye que las variables estn asociadas
significativamente (24).
El rechazo de la independencia entre las variables, implica aceptar que las diferencias entre los
Oi y Ei son grandes como para aceptar solo influencia aleatoria, por lo que no deben ser
adjudicadas al azar. Todo con un nivel de riesgo prefijado de antemano.
Ejemplo:
En la Encuesta Permanente de Hogares (EPH), se obtiene informacin sobre 250 hogares de
una zona del Gran Buenos Aires, clasificados con respecto al Nivel de Estudios alcanzado por
su Jefe (NE), y el Monto Total Mensual de los Ingresos del Hogar (NI) expresado en $. Con esa
informacin se prepara la siguiente tabla:
Nivel de
Estudios
500/1.000 1.000/2.000
TOTAL
> 2.000
Alto
Medio
Bajo
5
15
20
10
25
45
15
25
40
30
15
5
60
80
110
TOTAL
40
80
80
50
250
A partir de esta informacin, es posible interpretar que ambas variables son independientes,
hacindolo con un nivel de confianza del 90 % ?
Respuesta:
Las cifras de esa tabla constituyen los valores o frecuencias observadas, (los Oi), mientras
que los valores esperados (los Ei) deben ser construidos presuponiendo que no existe
relacin entre las variables, para lo cual se debe partir de las frecuencias marginales del
cuadro, recalculando las frecuencias conjuntas (las internas de la tabla), suponiendo que su
distribucin entre los casilleros de ambas variables, es la misma que la de los mrgenes.
Para ello, dentro de cada casillero se multiplican las frecuencias marginales correspondientes,
y se divide por el total de casos (en el ejemplo los 250 hogares).
(24)
Dentro del tema Prueba de Hiptesis (Paramtrica o no), el trmino significativo es de suma relevancia,
entendindose por tal que: la informacin disponible, permite asumir con el nivel de confianza determinado, que
las conclusiones respecto a las hiptesis planteadas son estadsticamente ciertas (se rechace o no Ho).
141
Nivel de
Estudios
Alto
Medio
Bajo
TOTAL
500/1.000 1.000/2.000
TOTAL
> 2.000
9,6
12,8
17,6
19,2
25,6
35,2
19,2
25,6
35,2
12,0
16,0
22,0
60
80
110
40
80
80
50
250
Por ej.: el 9,6 del 1 casillero es = 60 . 40 / 250 ; los 35,2 = 110 . 80 / 250
= (Oi - Ei)2 / Ei = (5 9,6)2 / 9,6 + (10 19,2)2 / 19,2 + (15 19,2)2 / 19,2 + +
(5 - 22)2 / 22 = 52
2
(k-1)(1- )
(6)(0,90)
= 10,645
= 52 >
(6)(0,90)
De esta forma, se concluye con que existe asociacin entre el Nivel de Estudios alcanzado por
el Jefe de los hogares, y el Monto Total de Ingresos de los mismos.
Grficamente:
g de l = 6
= 0.10
2c = 10,645
= 52
142