Está en la página 1de 80

UNTREF / INDEC

Maestra en Generacin y Anlisis de Informacin Estadstica

Gua de Aspectos Conceptuales (II)

Lic. Ernesto A. ROSA

CONTENIDO
Descripcin
V.

NOCIONES DE MUESTREO ALEATORIO


1. Tipos de Muestreo

65
65

a) Muestreo No Aleatorio

65

b) Muestreo Aleatorio

67

c) Tcnicas Muestrales

67

2. Determinacin del Tamao de Muestra

70

a) Introduccin

70

b) Para estimar la Media ( )

71

c) Para estimar el Total (X)

75

d) Para estimar la Proporcin (P)

77

e) Para estimar la Cantidad de Casos (NA)

78

f) Conclusiones

80

VI. PRUEBAS, TEST O ENSAYOS DE HIPTESIS


PARAMTRICOS

(*)

Pgina

81

1. Concepto General

81

2. Las Hiptesis Estadsticas

81

3. Los Errores en las Pruebas de Hiptesis

82

4. Para la Media Poblacional ( )

83

A. Ensayo de Hiptesis Unilateral Derecha

83

B. Ensayo de Hiptesis Unilateral Izquierda

87

C. Ensayo de Hiptesis Bilateral (o de dos colas)

90

Docentes: Titular: Ernesto A. ROSA Adjunto: Nora B. CADENAS

5. Para el total Poblacional (X)

92

6. Para la Proporcin Poblacional (P)

98

7. Para la Cantidad de Casos Favorables Poblacional (NA)

102

8. Para la Variancia (

VII. ASOCIACIN Y RELACIN ENTRE VARIABLES

106
109

1. Introduccin

109

2. Asociacin entre Variables Cualitativas

110

Coeficiente Diferencia de Proporciones


3. Asociacin entre una Variable Cualitativa y otra Cuantitativa

113
114

Coeficiente Razn de Correlacin

116

4. Relacin entre dos Variables Cuantitativas

117

5. El Coeficiente de Correlacin (r)

122

6. El Coeficiente de Determinacin (CD)

124

7. Regresin y Correlacin con Tablas de Frecuencias

128

VIII.NOCIONES DE PRUEBAS DE HIPTESIS NO


PARAMTRICAS

135

1. Conceptos Generales

135

2. Tipos de Pruebas de Hiptesis No Paramtricas

136

3. Pruebas del Chi Cuadrado

137

a. Prueba de Ajuste

137

b. Prueba del Independencia o Asociacin

140

64

V. NOCIONES DE MUESTREO ALEATORIO


Todos los mtodos comprendidos dentro de la Inferencia Estadstica, llevan
implcitos la realizacin de muestras aleatorias o probabilsticas, que son aquellas en las que las
unidades que integran las muestras son seleccionadas mediante procedimientos en los que
interviene el azar, es decir que la muestra en s es la resultante de un experimento aleatorio (8).
Este es un requisito indispensable de la Inferencia Estadstica, ya que la
seleccin de muestras aleatorias (9) permite el clculo de las probabilidades de cada una de ellas, y
por extensin las probabilidades de cada uno de los resultados de los estimadores que con ellas se
calculan. Esta propiedad de las muestras aleatorias, es la que admite introducir los conceptos de
error, nivel de confianza, y de otros trminos con los que debe aprender a convivir el
Profesional que trabaja en Estadstica, y que marcan el trmino que diferencia a esta disciplina de
las restantes: la incertidumbre.
Si bien no es objetivo de este curso el entrar en detalles relativos a las
tcnicas de muestreo, para facilitar la comprensin de lo que se debe desarrollar, y delimitarlo a los
aspectos especficos de lo que se requiere para poder proseguir avanzando dentro de la Inferencia
Estadstica, se realizar un bosquejo del amplio captulo que identifica con mayor precisin la
esencia de lo que es la Estadstica: el Muestreo y las tcnicas que incluye.

1. Tipos de Muestreo
Remarcando lo mencionado en la introduccin, los Tipos o Tcnicas de
Muestreo pueden ser clasificados inicialmente en Aleatorios o Probabilsticos y los No
Aleatorios. Si bien estos ltimos no permiten la realizacin de inferencias con los fundamentos
tericos que brinda la aleatoriedad, lo cierto es que se encuentran ampliamente difundidas en ciertos
tipos de aplicaciones, por lo que tiene cierta lgica presentar someramente sus principios, bondades
y defectos.

a) Muestreo No Aleatorio: es aquel en el cual las unidades que integran la muestra no se

eligen mediante procedimientos aleatorios, y por lo tanto no es posible conocer y asignar


a cada unidad una probabilidad de ser seleccionada.
Estos mtodos pueden ser clasificados en:
Circunstancial, Casual o Fortuito: quien realiza la eleccin de las unidades, lo hace
de modo de cubrir la mayor cantidad de casos en el menor tiempo posible, y lo hace
seleccionando a aquellas unidades que tiene a su alcance y le resultan ms accesibles.
La muestra se elige entonces por comodidad o circunstancialmente.
En los casos de poblaciones homogneas, este tipo de muestras brinda resultados
satisfactorios, aunque los riesgos de sesgos o errores sistemticos son elevados.
Por ejemplo: en arqueologa o en historia se obtienen conclusiones a partir de los
elementos que se pueden conseguir a mano; algo similar ocurre a veces en las
ciencias de la salud y astronoma.
Puede mejorarse la constitucin de este tipo de muestras, mediante la adjudicacin de
cuotas que debe cumplir el que realiza las entrevistas o contactos con las unidades a
muestrear (ver Muestreo por Cuotas).

(8)
(9)

Ver lo presentado en el Captulo III. de este apunte sobre Estimadores.


En realidad, tal como lo expresa Azorn en su libro Curso de Muestreo y Aplicaciones, los que son aleatorios son
los mtodos o procedimientos para obtener las muestras, y no las muestras propiamente dichas.
65

Seleccin Experta: es el caso en que se recurre a expertos para seleccionar


especimenes, unidades o grupos que a su juicio sean considerados representativos de
la poblacin. Una variante de este mtodo es componer una muestra integrada por
todos los respondentes que se suponen calificados. No obstante las bondades
aparentes, la subjetividad de la opinin experta puede llevar a una mala eleccin,
falseando los resultados.
Intencional u Opinable: en una derivacin de la anterior. En este caso los
encuestadores o seleccionadores eligen expresamente las unidades que participarn de
la muestra, recurriendo a su intencin u opinin. En general la eleccin de las unidades
intenta obtener una muestra representativa de la poblacin bajo estudio, pero esta
representatividad queda sujeta a la subjetividad y preferencias de quien elige.
Sus defensores aducen que un buen muestrista debe poder elegir una mejor muestra
que el azar, y lo sacrifican arriesgndose a que influya consciente o inconscientemente
en los resultados, su intencin o inclinacin por ciertas unidades. Tambin sacrifican
la posibilidad que brinda el azar de medir los posibles errores adjudicables al
muestreo.
Por Cuotas: en el caso anterior, se considera que una forma de mejorar la
representacin de la poblacin que se muestrea, es adjudicando porciones de la
muestra a las unidades que cumplen una cierta condicin, arribndose a lo que se
conoce como Muestreo por Cuotas, de difundida aplicacin en los estudios de
mercado o los de opinin.
A los encuestadores se los instruye para obtener cuotas preestablecidas, de clases de
elementos que presentan alguna caracterstica comn. La seleccin de las unidades
dentro de la poblacin, queda a cargo del encuestador, quien nicamente debe respetar
los tamaos fijados para las cuotas.
Por ejemplo, en un estudio del mercado automotor, las cuotas asignadas a los
encuestadores pueden consistir en entrevistar un nmero determinado de propietarios
de vehculos de diferentes marcas, por ejemplo: 7 propietarios de Renault; 6 de Ford;
4 de Volkswagen; 5 de Fiat, etc., pero es el encuestador quien elige segn su criterio a
los propietarios de cada tipo de vehculo hasta agotar la correspondiente cuota.
Por Cuotas cuasi Probabilstico: ltimamente en las grandes ciudades, se
agudizaron los inconvenientes de los encuestadores para entrar en los hogares
particulares. Esto trajo como consecuencia cierta popularizacin del muestreo por
cuota, pero cumpliendo algunas condiciones que lo acercan al muestreo probabilstico.
El diseo consiste en: a) Seleccionar en forma aleatoria, en una primera etapa,
manzanas urbanas, b) determinar los tamaos de cada cuota sobre la base de sus pesos
en la poblacin, que se suponen conocidos (por ejemplo de un censo anterior), c) los
encuestadores visitan los hogares de cada manzana elegida, siguiendo algn sistema de
contactos, hasta agotar cada cuota, pero con la posibilidad de reemplazar los
domicilios en que no lograron concretar la entrevista.
Este tipo de muestreo es comn en las encuestas de opinin, no obstante no es un
modelo probabilstico ya que en la ltima etapa el encuestador elige a conveniencia, lo
que lleva a tomar las respuestas de aquel que est dispuesto a responder.
De Poblaciones en Movimiento: es tambin un tipo de muestra casual o fortuita. La
poblacin est constituida por seres vivos, tales como peces, insectos, animales
salvajes, etc., que se capturan para su anlisis y sacar conclusiones y se los vuelve a
dejar en libertad con alguna marca identificatoria as en caso de recaptura se
obtendran datos con relacin a su movilidad, cambios experimentados, etc. Este
66

mtodo es conocido como "Muestreo de Captura y Recaptura". Podra ser


Probabilstico o cuasi, si las zonas de contacto se seleccionaran al azar.
Grupos Focales: se define como Grupo Focal a un grupo de personas que son
reunidas en un mismo lugar o espacio fsico y que poseen conocimientos para
informar sobre un tema especificado a requerimiento de un conductor o encuestador.
En otras palabras es una reunin de personas que se suponen capacitadas o expertas
para responder sobre el tema en estudio, en la cual el coordinador hace preguntas y
obtiene las respuestas individuales o en conjunto, usualmente a travs de un dilogo.
Si bien puede concebirse que el conjunto de personas que conforman el grupo podran
ser elegidas aleatoriamente, en la prctica es un caso raro que lo sea, por otra parte el
dilogo que se establece tiende a modificar las respuestas de los panelistas
individuales, pero adems los resultados suelen ser muy influenciados por la opinin
del encuestador o coordinador.
Otros: existen algunas otras formas de muestreo no probabilstico, pero todas tienen
en comn, que dependen del criterio individual de una o ms personas, o de lo que se
pueda obtener, contactar o capturar. En condiciones adecuadas, cualquiera de estos
mtodos podra ser til, sin embargo, no es lcito medir el error de muestreo de las
estimaciones.
La nica forma de evaluar una muestra no probabilstica, es comparndola con una
situacin en que los resultados sean conocidos. Esto resulta raro en la prctica, pues si
se dispone de los mismos no tiene fundamento realizar la muestra.
Estas tcnicas No Aleatorias, no forman parte de las que sern consideradas para la
realizacin de inferencias estadsticas.

b) Muestreo Aleatorio o Probabilstico: como ya se lo adelant al comienzo de este


captulo, es aquel en el cual las unidades que integran la muestra se eligen mediante
procedimientos aleatorios, y por lo tanto es posible conocer y asignar a cada unidad de la
poblacin una probabilidad de ser seleccionada. La operacin de seleccin aleatoria es
indispensable en el muestreo probabilstico. Consiste en obtener "n" nmeros aleatorios del
total "N", donde cada uno identifica a una unidad de muestreo seleccionada, y su conjunto
constituye la muestra probabilstica.
El sistema de seleccin de las unidades de la poblacin puede ser cualquiera que garantice
que todas y cada una de ellas tenga una probabilidad conocida y distinta de cero de
participar de la muestra. En la prctica, esta probabilidad es asignada a cada unidad de
muestreo en forma automtica, a travs de la seleccin aleatoria. Estos son nmeros
seleccionados al azar, dentro del rango determinado por la cantidad de unidades de la
poblacin. Para la seleccin son vlidas tanto las Tablas de Nmeros Aleatorios, cualquier
juego de azar (dados, bolilleros, ruletas, etc.), nmeros aleatorios generados en una
calculadora o sistema de procesamiento electrnico (planillas de clculo, software
estadsticos, etc.).
En definitiva las unidades de la poblacin son seleccionadas por algn procedimiento que
garantice la incorporacin aleatoria a la muestra. Por otra parte solo si la muestra es
probabilstica se justifica medir el error debido al muestreo de los estimadores

c) Tcnicas Muestrales
Dependiendo de las caractersticas de la poblacin, y del conocimiento que se tenga de
ellas, existen diversas Tcnicas Muestrales que se pueden aplicar, existiendo para cada
una de ellas tomadas individualmente, extensos desarrollos tericos que fundamentan y
permiten el clculo de los estimadores y de sus dispersiones.
67

Sin pretender entrar en mayores detalles, pueden enunciarse las siguientes Tcnicas de
Muestreo:
Muestreo Aleatorio Simple (MAS) o Muestreo Simple al Azar: como su nombre lo
sugiere, es la tcnica de muestreo ms simple, y es la que se toma como base para
todos los desarrollos tericos de la Inferencia Estadstica que se desarrollaron y se
desarrollarn. Para su aplicacin se requiere tener identificadas a todas y cada una de
las N unidades que integran la poblacin (por ej.: con un nmero individual y
unvoco), y aplicando algn sistema aleatorio de seleccin, elegir a partir de ellos cada
una de las n unidades que integrarn la muestra.
Lo lgico es que las unidades sean elegidas sin reemplazo (es decir que no exista la
posibilidad de elegir dos o ms veces a la misma unidad), sin embargo dentro del
clculo de probabilidades existen extensos desarrollos tericos que se aplican a casos
en que el muestreo se realiza con reemplazo, los que tienen aplicaciones a ciertos
casos particulares.
Si bien lo usual en el MAS es que todas las unidades de la poblacin tengan la misma
probabilidad de ser elegidas en la muestra, esta no es una condicin indispensable,
aunque de ser as se facilitan las frmulas que se deben aplicar para realizar las
estimaciones y medir sus dispersiones.
Muestreo Sistemtico (MS): con esta tcnica de seleccin, se debe identificar (por
ej.: numerar), una parte de la poblacin (las primeras k unidades), elegir de ellas una al
azar por MAS, y a partir de la elegida seleccionar las (n 1) restantes en forma
sistemtica, una cada k unidades [es decir, saltear (k 1) unidades y tomar para la
muestra a la k-sima].
El MS se muestra ms eficiente que el MAS en el caso que previo a la seleccin las
unidades se encuentran o son ordenadas en base a algn aspecto o variable que tiene
que ver con la causa del muestreo (por ej.: si se tiene que elegir una muestra de
unidades producidas a fin de controlar su calidad, tenerlas ordenadas de acuerdo con la
hora en que salieron de la produccin en serie). Tiene el riesgo de que si el orden de
las unidades contiene algn factor que coincide con el salto sistemtico, la muestra
puede brindar resultados muy sesgados.
De las diversas tcnicas de muestreo, el MS es la de menor desarrollo terico, y en
muchos casos las estimaciones y clculo de dispersiones de muestras elegidas
sistemticamente se efectan mediante las frmulas del MAS.
Tambin en este caso las unidades suelen tener la misma probabilidad de seleccin,
aunque de ser necesario es posible asignar probabilidades diferentes a cada una (por
ej.: probabilidades proporcionales al tamao), aspecto que debe ser tenido en cuenta al
momento de realizar las estimaciones (cada unidad de la muestra debe ser ponderada
por la inversa de su probabilidad de seleccin).
Muestreo Replicado: La muestra total esta compuesta por un nmero de submuestras
elegidas de la misma poblacin. Por ejemplo por este mtodo en lugar de seleccionar
una nica muestra de n = 500, seleccionaramos cinco (u otra cantidad) muestras
independientes de 100 elementos cada una de la misma poblacin de N.

Muestreo Estratificado (ME): consiste en subdividir a la poblacin en partes o


estratos, dentro de cada uno de los cuales las unidades deben ser lo ms parecidas
posibles (en cuanto al aspecto o variable por las que se muestrean), pero entre ellos las
68

unidades contenidas deben ser lo mas diferentes posible. La tcnica prev que dentro
de cada estrato se obtenga una parte de la muestra total, hacindoselo mediante MAS o
MS (10).
De construirse bien los estratos, usualmente el ME logra mejores resultados que el
MAS o el MS. Su principal desventaja es el conocimiento que se debe tener de la
poblacin, y su acondicionamiento para que se puedan extraer muestras
independientes de cada estrato.
En el ME cada estrato constituye una subpoblacin, para la cual, si bien se realizan
clculos separadamente, no es posible obtener estimaciones individualmente vlidas y
con niveles de error controlados. Estos sern resultantes del procedimiento y del
tamao de las submuestras asignadas a cada estrato.
Para la determinacin de la muestra a extraer dentro de cada estrato, se puede recurrir
a diversos criterios alternativos: Igual tamao de muestra en cada estrato, Proporcional
al tamao de cada uno en la poblacin, Asignacin ptima (proporcional a la
dispersin que presentan las unidades dentro de cada estrato), o Asignacin por Costo
(inversamente proporcional al costo de seleccionar cada unidad en cada estrato).
De acuerdo con el procedimiento de asignacin de la muestra a cada estrato, varan las
frmulas que se deben aplicar para el clculo de los estimadores y sus dispersiones.
Muestreo por Conglomerados: esta tcnica requiere disponer la poblacin en grupos
o partes que cumplen caractersticas totalmente inversas a los estratos. En este caso,
los conglomerados deben contener dentro de s a todo tipo de unidades, y
representar cada uno un fiel reflejo de la poblacin total; y en ese caso todos los
conglomerados deberan ser parecidos entre si en lo que concierne a su constitucin o
estructura.
Cumplido ese requisito, la tcnica consiste en elegir uno o varios de esos
conglomerados, para constituir con todas sus unidades la muestra a observar. De no
cumplirse las condiciones de esta tcnica, sus resultados pueden dar resultados muy
sesgados, pero tiene la ventaja de ser usualmente la ms econmica de las tcnicas de
muestreo. Debido a que uno de los campos de aplicacin ms frecuente es en los
muestreos de zonas geogrficas, se lo conoce tambin como Muestreo por reas.
Paneles: se define como Panel a un grupo de unidades (personas, hogares, etc.), que
son seguidas a travs del tiempo para medirles un conjunto de variables similares en
cada una de las tomas o muestras, y analizar su evolucin.
En realidad los Paneles no constituyen una tcnica de muestreo diferente, ya que
para constituir la muestra de unidades que se analizarn cronolgicamente, puede
recurrirse a cualquiera de las otras tcnicas conocidas.
Representa ms bien una forma de anlisis de la poblacin, que contiene dentro de si
una serie de particularidades que le han dado un desarrollo terico especial, para por
ej.: determinar la forma de tratar a las unidades que desaparecen con el correr de las
tomas, los cambios que esas unidades van teniendo en el tiempo, etc. (reemplazarlas o
no).
Otras tcnicas muestrales: sin ser ubicadas entre las tcnicas muestrales originales,
a lo largo del tiempo se fueron desarrollando diversas tcnicas muestrales, tendientes a
(10)

En realidad la mayor parte de los desarrollos tericos, consideran que dentro de cada estrato la muestra se extrae
con MAS, pero en la prctica se utiliza frecuentemente el MS en los casos en que las unidades de cada estrato
pueden ser ordenadas con algn criterio que mejora la representacin de la poblacin.
69

satisfacer casos o problemas particulares que no resolvan las tcnicas ya existentes.


Cada una de ellas tiene sus propios desarrollos tericos que las sustentan, y campos de
aplicaciones especficos, que se van extendiendo a medida que se encuentran
similitudes para adaptarlos a otros casos. Algunas de ellas son: Muestreo Doble,
Muestras Replicadas, etc.
Tcnicas de Muestreo Combinadas o Complejas: existen pocos casos en la realidad,
en que las tcnicas enumeradas pueden ser aplicadas individualmente sin alteraciones
o agregados (11). En la mayora de los casos (particularmente cuando deben contactarse
personas), se deben realizar Diseos Muestrales en los que se combinan dos o ms
tipos de muestreo con varias fases de trabajo, y posteriormente los estimadores y sus
dispersiones en las diversas etapas de muestreo deben ser calculados especialmente.

2. Determinacin del Tamao de Muestra


Hasta el momento, se presentaron los aspectos y conceptos iniciales de la
Estadstica Inferencial (los Parmetros y sus Estimadores, las distribuciones de stos, etc.),
dedicando posteriormente especial atencin a la estimacin de Parmetros, en particular cuando se
la realiza con Intervalos de Confianza.
Este tema se debe tomar como punto de partida para la determinacin del
tamao de la muestra, ya que como se lo visualiz al analizarse los componentes de los lmites de
los Intervalos, la precisin o amplitud, el nivel de confianza, la dispersin y el tamao de la
poblacin, y el tamao de la muestra que se observa, se encuentran ntimamente vinculados, y el
conocimiento o la fijacin de algunos de ellos, permite determinar el valor o tamao de los dems.

a) Introduccin
La Determinacin del Tamao de la Muestra a extraer de una poblacin (el
valor de n), es uno de los aspectos de la Inferencia Estadstica que aparece para muchos de los que
se inician en el tema, como rodeado de cierto halo de hechizo y misterio, que solo puede ser
develado por algunos privilegiados.
Otra de las creencias que rodean el tema (y que se contrapone con la visin
mgica anterior), es que una muestra para ser representativa de la poblacin de la cual se
extrae, basta con que resulte proporcional a los diversos componentes que integran esta.
Finalmente, estn los que piensan que la nica muestra buena es la que
obtienen ellos, y que usualmente es de las del tipo dirigida (12), es decir sin que el diseo prevea
algn procedimiento aleatorio en la seleccin de las unidades de la poblacin.
Ni la visin mgica, ni la simplista, ni la dirigista son ciertas, pero lo
que si es innegable es que la determinacin del tamao de la muestra es uno de los temas
inferenciales ms relevantes, en donde se conjugan una cantidad de aspectos conceptuales de la
Estadstica y de las Probabilidades, cuya comprensin y manejo permite avanzar sin inconvenientes
en otros temas de mayor complejidad terica.
Ahora bien, existen muchas de incgnitas alrededor de este tema, como ser:
(11)

Ciertos tipos de muestreo particulares (en auditora, control de calidad, recepcin de materias primas, etc.),
presentan las condiciones como para aplicar directamente y en forma individual alguna de las tcnicas descriptas.

(12)

Como ya se lo ha mencionado en el punto previo, se denomina de esta forma a las muestras en las que la eleccin de las unidades
que la componen no se realiza con ningn mtodo aleatorio, sino que dependen directamente de la decisin y arbitrio de quien
realiza el trabajo.

70

de quin o de qu depende el tamao de una muestra ?;


cules son los factores que influyen ?;
todos los factores que participan tienen el mismo grado de influencia ?;
si las muestras se realizan con el fin de realizar inferencias sobre los Parmetros, cmo
participan estos o cules de ellos son los que permiten determinar el n ?;
para la determinacin del tamao de n, se requiere el cumplimiento de condiciones
especiales ?;
obtenido un cierto tamao en la muestra a extraer, su aplicacin es irrestricta, o deben
verificarse ciertos aspectos para que su utilizacin sea vlida ?.
A todas estas preguntas, debera agregarse otro aspecto: la influencia que
tiene en la determinacin del tamao de la muestra el Diseo Muestral utilizado, tema sobre el que
se ha introducido en el punto anterior. Esto es concluyente al tener que determinarse el valor del n
a utilizar, sin embargo no es tema de este Curso, y recin se lo desarrollar en la materia especfica
de Muestreo. Para poder seguir adelante con el tamao de la muestra dentro de la Inferencia
Estadstica, se adoptar que la muestra se elige aleatoriamente, y que el Diseo Muestral que se
aplica es el ms bsico de todos: el Muestreo Simple al Azar o Muestreo Aleatorio Simple
(MAS).
Resumiendo lo mencionado en el punto anterior, los requisitos de aplicacin
del MAS son los siguientes:
Tener numerados o identificados inequvocamente a cada uno de los N elementos que
componen la poblacin.
No preparar ni ordenar los valores de la poblacin con ningn criterio ni lgica previa.
Elegir las unidades de la muestra mediante algn mtodo aleatorio (tablas impresas de
nmeros al azar, uso de software informtico, uso de calculadoras avanzadas, etc.).
Suponiendo la estricta aplicacin del MAS, en las pginas siguientes se
intentarn responder las dudas o preguntas planteadas, cada una de las cuales est vinculada a una o
varias de las dems. Para hacerlo se comenzar respondiendo una de esas preguntas anteriores, la
que dar la posibilidad de ir paulatinamente abordando a las restantes:
Una de las formas de enfocar el anlisis de la determinacin del tamao de la
muestra, es partiendo de que la misma ser utilizada para estimar algn parmetro.
Tomaremos inicialmente como en otros casos, el problema de la estimacin de la
Media Poblacional .

b) Determinacin de n para estimar la Media ( )


Si la determinacin de un tamao de muestra tiene por objeto extraerla con
el fin de realizar una estimacin de la Media Poblacional ( ), deben fijarse las condiciones bajo las
cuales se desea realizar esa estimacin (por ejemplo la precisin que se pretende tener, y el grado de
confianza con que se quiere realizarla).
La fijacin de esas condiciones, ligadas al conocimiento que se debe tener
de algunos aspectos de la poblacin (su tamao y dispersin), permiten razonar y despejar de todos
71

estos datos el tamao de n que satisface las condiciones requeridas a partir de los conocimientos
disponibles. Veamos:
Al querer estimarse una con un Intervalo de Confianza, se debe conocer el
tamao de la Poblacin N (13), ya que parece lgico suponer que cuanto ms
grande es N, mayor debe ser la muestra n.
Tambin es importante conocer la dispersin ( x) de la Poblacin, ya que
tambin parece lgico que cuanto ms dispersos sean los valores de la variable,
mayor debera ser la muestra que los represente.
Por otro lado, debe fijarse el grado de precisin con que quiere realizarse la
estimacin, ya que al trabajarse con una muestra (en realidad con un Estimador
calculado con ella), no puede pretenderse realizar la estimacin sin errores. Lo que
s es factible, en limitar ese posible error a un cierto valor aceptable (sera la
diferencia entre el parmetro y su estimador = d). En este caso la lgica indica
que cuanto ms precisin se pretende en la estimacin, mayor debera ser la
muestra a extraer.
Finalmente, al ser el Estimador una variable, debe fijarse un cierto grado de
confianza con el cual trabajar (1 - ), a partir del cual se pronosticar
correctamente con una probabilidad ligada al mismo, y se cometern errores en un
% de los casos en que se realice la estimacin bajo las mismas condiciones. La
lgica en este caso sugiere que cuanto mayor sea el nivel de confianza con que se
quiere realizar la estimacin, mayor deber ser la muestra a observar.
Resumiendo lo expresado con la simbologa apropiada, si con la muestra a
extraer se pretende calcular un Intervalo de Confianza del tipo:
P(Li <

< Ls) = 1 -

donde oportunamente se llam: A = Ls - Li que es la amplitud del Intervalo de Confianza (o


precisin de la estimacin). La mitad de esta amplitud, es lo que se denomin como la diferencia
aceptable entre el parmetro y su estimador = d (es decir que: si d = A/2; ser A = 2.d).
Reemplazando los lmites del Intervalo por su forma de calcularlos:

P( x
donde:

k.

k.

) 1

. [(N-n)/(N-1)]1/2] ; y dejando inicialmente de lado el Factor de Correccin para

poblaciones finitas (es decir que se supone N = ):


de donde: A = Ls - Li = 2.d = 2.k.

; es decir que; d = k.

n = (k2 .

; de donde es simple despejar n:

) / d2

frmula en la que se verifica el anlisis lgico realizado anteriormente:


(13)

Oportunamente se analiz que el valor de N puede ser desconocido o infinito, lo que no invalida los clculos a realizar, sino que,
como se ver ms adelante, slo produce una sustancial simplificacin de las frmulas a utilizar y un mayor tamao de n.

72

El tamao de n es directamente proporcional a la Dispersin de la Poblacin ( ), y este


valor debe ser conocido o estimado previamente.
Tambin es directamente proporcional al nivel de confianza fijado como condicin
(1 - ), ya que este es el que determina el valor de k. Este valor k debe ser calculado conla
Funcin de Probabilidad Normal, que se adopta como forma de distribucin del estimador
x.
La muestra es inversamente proporcional a la diferencia pretendida entre el estimador
y su parmetro (d), y como a mayor d, menor es la precisin de la estimacin, una
condicin de mayor precisin implica un mayor tamao de muestra. Debe ser fijado como
condicina cumplir conla muestra a extraer.
Enel caso de que la PoblacinN sea finita y conocida, para despejar el
valor de nse complica la frmula, ya que:
d = k.

. [(N-n)/(N-1)]1/2

y despejando el valor de n, se tiene aproximadamente que:

n = (k2 .

) / [d2 + (k2 .

) / N]

frmula enla que se comprueba que cuanto mayor sea N, mayor es la muestra que debe extraerse.
Ya se dispone de dos frmulas para calcular el tamao de muestra en los
casos enque conla misma se desee estimar unpromedio poblacional: una (la ms simple) cuando se
desconoce el tamao de la Poblacin (o se la supone como muy grande), y otra para cuando la
poblacines finita y conocida.
Ahora bien, que supuestos implica el desarrollo que se realiz para
lograr esas frmulas ?; o bien, pueden ser aplicadas indiscriminadamente sin ninguna
limitacin ?. Las respuestas a estas dos preguntas tienenunmismo punto de referencia:
Para llegar a cualquiera de las dos frmulas alcanzadas, se pas por unsupuesto
implcito: que la media que se calcule con la muestra que se extrae tiene una
distribucin Normal. Debido a ese supuesto, es que se pudo calcular el n
utilizando el valor de k que queda determinado por el nivel de confianza 1fijado como condicin. Debido a esto, para que el valor calculado de n tenga
validez, debe comprobarse que se den las condiciones para que la x pueda
aceptarse que tenga distribucin Normal.
Ejemplos:
a) Para la realizacin de un estudio relativo al ingreso familiar en la ciudad de San Nicols
(Provincia de Buenos Aires), se decide realizar una muestra que permita estimar el promedio
con un error mximo de $ 250 y un nivel de confianza del 90 %. En la ltima medicin
realizada, la dispersin del ingreso de la totalidad de las 20.000 familias de la ciudad era de $
1.500.
Respuesta:
73

La informacin disponible es la siguiente:


N

20.000 familias

1.500 $

1-

0,90

250 $

k = 1,645

En base a ella se desea calcular el tamao de muestra:

n = (k2. 2)/[d2+(k2. 2)/N] = (1,6452. 1.5002)/[2502+(1,6452.1.5002)/20.000] =


= (2,71. 2.250.000)/[62.500+(2,71.2.250.000)/20.000]=
= 6.097.500/(62.500+304,875) = 97,09 ~ 98 familias
cifra que si bien no es muy grande, permite suponer que la x que con ella se calcule se
distribuye Normalmente (14). De esta forma, el clculo realizado puede ser considerado
vlido.
b) Qu hubiese sucedido con el tamao de la muestra, si de acuerdo con los datos del ao
anterior, la dispersin de la poblacin hubiera sido de $ 500 ?
Respuesta:
Si se hubiese dado que la dispersin poblacional era de $ 500, el clculo de la frmula hubiese
dado n = 11 familias, cifra muy pequea como para poder considerar que la x que con ella se
calcule se distribuye Normalmente, ms an sabiendo que el ingreso familiar (el de la
poblacin), no tiene una distribucin Normal, ya que usualmente es muy asimtrico. En este
caso el valor encontrado para n no hubiese sido conceptualmente aplicable. Tambin se
observa que a menor dispersin de la poblacin, es razonable que la muestra requerida sea
menor.
c) Y qu hubiese pasado en el caso (a) si se desconociera el tamao de la Poblacin de familias
de San Nicols ?
Respuesta:
En este caso se podra haber aplicado la frmula simplificada:

n = (k2. 2)/d2 = (1,6452. 1.5002)/2502 = (2,71. 2.250.000)/62.500 = 97,56 ~ 98 familias


con lo cual puede apreciarse que las 20.000 familias de San Nicols puede ser considerada
una Poblacin muy grande, ya que su consideracin y utilizacin no modifica
sustancialmente el tamao de la muestra resultante.
d) Qu hubiese sucedido con el tamao de la muestra calculado en (a) o en (c), si ?:
El Nivel de Confianza se hubiese fijado en 0,99:
Respuesta:
Al exigirse un mayor nivel de confianza, la muestra debera ser mayor (verificarlo
algebraicamente).
(14)

Debido al Teorema Central del Lmite.

74

El error aceptado en la estimacin hubiese sido de $ 100:


Respuesta:
Al exigirse un menor error en la estimacin, la muestra debera ser mayor (verificarlo
algebraicamente).
La cantidad de familias de San Nicols hubiese sido solamente de 10.000:
Respuesta:
Al ser menor la Poblacin de referencia, parece lgico que la muestra necesaria sea tambin
menor (verificarlo algebraicamente), pero puede comprobarse que el N es el elemento que
menos influye en la determinacin del tamao de muestra.

c) Determinacin de n para estimar el Total (X)


El razonamiento que se aplica para determinar el n en el caso de que se
quiera estimar un Total, es similar al caso de la Media, por lo que no se le dedicar mayor tiempo a
su anlisis.
Se parte de que se quiere estimar X con:
P(Li < X < Ls) = 1 donde reemplazando los lmites por sus formas de clculo se tiene:

P ( N .x k .

N .x

N .x k .

N .x

) 1

y el tamao de la muestra considerando que la Poblacin es infinita (frmula simplificada), ser:


n = (N2 . k2 .

) / d2

y considerando la Poblacin (frmula amplia), ser:


n = (N2 . k2 .

) / [d2 + (N2 . k2 .

) / N]

Ejemplos:
a) Los responsables del Sector de Abastecimiento de un Centro Comercial del oeste del Gran
Buenos Aires, necesitan estimar el monto total que las familias de su zona de influencia,
destinarn a los gastos de artculos de librera y afines durante el segundo trimestre del ao.
Para hacerlo deben determinar el tamao de la muestra de familias a encuestar, sabiendo que
el total de las mismas (las que habitan su zona de influencia), es de aproximadamente 4.000, y
que el ao anterior el promedio de los gastos del mismo trimestre fue de $ 180 por familia y la
dispersin lleg a los $ 50. La estimacin se la quiere realizar con un nivel de confianza del 95
%, e intentando que la estimacin difiera del monto total desconocido en menos del 10 %.
Respuesta:
La informacin disponible es la siguiente:
75

4.000 familias

50 $

1-

0,95

10 % de 4.000 . 180 $ = 72.000 $ (se parte del supuesto que el


promedio por familia es similar al del ao anterior)

k = 1,96

Con ella se debe calcular el tamao de muestra:

n = (N2.k2. 2)/[d2+( N2.k2. 2)/N] =4.0002.1,962.502 /[72.0002+(4.0002.1,962.502 /4.000)] =


=153.664.000.000 / (5.184.000.000 + 153.664.000.000 / 4.000) =
= 153.664.000.000 / 5.184.000.000 + 38.416.000 = 153.664.000.000 / 5.222.416.000 =29,4 ~
~ 30 familias (para el tamao de n siempre se redondea hacia arriba)
El tamao de muestra obtenido no puede ser considerado grande, con lo cual no sera
posible llevarlo adelante, ya que a partir de esa muestra no sera factible adoptar que el
estimador del total que con ella se calcule, tiene una distribucin Normal (supuesto implcito al
utilizar el valor de k de esa funcin). Una opcin es que la poblacin original tuviera
distribucin Normal, condicin desconocida y no aceptable al trabajarse con los gastos
familiares (en librera o en lo que sea), distribucin usualmente asimtrica.
b) Cul hubiese sido el tamao de la muestra si el barrio hubiese tenido 40.000 familias ?:
Respuesta:
Al ser mayor la Poblacin de referencia, la muestra necesaria debe ser tambin mayor
(verificarlo algebraicamente), pero, como se lo mencion en el ejemplo del punto anterior,
puede comprobarse que pese a que la poblacin es 10 veces mayor el tamao de muestra no
crece proporcionalmente (y segn el tamao que se obtenga ser vlida o no).
Puede comprobarse fcilmente que suponiendo el caso de N extremo (es decir considerndolo
infinito), en este caso se aplica la frmula de n simplificada:

n = (N2.k2. 2) / d2 =4.0002.1,962.502 /72.0002 = 153.664.000.000 / 5.184.000.000 = 29,64 ~


~ 30 familias es decir que si considerando el caso de N mximo prcticamente la muestra no se
modifica, tampoco lo har con N = 40.000..
d) Cul hubiese sido el tamao de la muestra si la dispersin poblacional hubiese sido mayor que
la verificada el ao anterior ? (por ejemplo $ 100):
Respuesta:
Una dispersin mayor hubiese requerido lgicamente una muestra mayor que la represente
(verificarlo algebraicamente).
e) Cual hubiese sido la muestra requerida si el nivel de confianza hubiese sido de slo el 80 % ?:
Respuesta:
Razonablemente, a menor exigencia en grado de confianza, la muestra a obtener debe ser
menor (verificarlo algebraicamente).
76

f) Y en el caso de que se pidiera hacer la estimacin con menor error (por ejemplo slo el 5 % del
total del ao previo), qu pasara con el tamao de la muestra ?:
A menor error en la estimacin pretendida, es lgico que la muestra tenga que ser mayor
(verificarlo algebraicamente).

d) Determinacin de n para estimar la Proporcin (P)


Planteando un anlisis similar al caso de la Media y del Total, y sin
necesidad de mayores detalles conceptuales, se tiene para estimar P:
P(Li < P < Ls) = 1 donde remplazando los lmites por sus formas de clculo, se tiene:

P( p k

p k

) 1

donde:
k = z ~ N ( 0 , 1 ) siempre que n sea grande (debido al Teorema Central del Lmite)
2

p q
por el factor de correccin si el N es finito y conocido.
n

De esta forma, y recordando que: d = k . [(p.q)/n] 1/2 . [(N-n)/(N-1)]1/2 ; se despeja el valor de n que
con la frmula amplia aproximadamente da:

n = (k2 . p.q) / [d2 + (k2 . p.q) / N]


Si N fuera desconocida o infinita, la frmula simplificada sera:

n = (k2 . p.q) / d2
Ejemplos:
a) En el mismo problema del Sector de Abastecimiento del Centro Comercial del oeste del Gran
Buenos Aires, se necesita estimar la proporcin de personas que realizan compras entre la
totalidad que ingresa cada fin de semana. La estimacin se la quiere realizar con un nivel de
confianza del 90 %, y de modo que el valor resultante no supere el 5 % en ms o en menos de la
proporcin real desconocida. Determinar el tamao de muestra con el que se puedan satisfacer
los requisitos fijados, sabiendo que estudios realizados por una consultora en otros centros
comerciales, sugieren que cerca del 30 % de los que ingresan a los mismos finalmente realizan
alguna compra.
Respuesta:
La informacin disponible es la siguiente:
N

personas que ingresan al Centro comercial por fin de semana: desconocida

0,30

q = 0,70

1-

= 0,90

k = 1,645

= 5%
77

= desconocida (cantidad de personas que ingresan al centro comercial el fin de


semana)

Con ella se debe calcular el tamao de muestra, donde al desconocerse N se puede aplicar la
frmula reducida:

n = (k2 . p.q) / d2 = 1,6452. 0,3 . 0,7 / 0,052 =2,71 . 0,21 / 0,0025 = 227,3 ~ 228 personas
muestra que puede ser considerada suficientemente grande como para que el estimador de la
Proporcin tenga una distribucin aproximadamente Normal.
b) Qu hubiese sucedido si se conoca que durante un fin de semana, las personas que ingresan al
Centro Comercial son aproximadamente 5.000 ?:
Respuesta:
Al conocerse el tamao tentativo de la Poblacin, se debera utilizar la frmula ampliada, la
que debera proporcionar un tamao de muestra algo menor al anterior (verificarlo
algebraicamente).
c) Y si no se tuviese informacin sobre la posible proporcin de personas que realizan compras
entre las que ingresan al Centro comercial ?, se hubiese podido hacer algo ?:
Respuesta:
Ante un caso de determinacin de tamao de muestra en el que se dan condiciones para estimar
una proporcin, si se desconoce cual es tentativamente el valor de P (situacin razonable ya
que es lo que se desea estimar), lo que puede hacerse es ponerse en la peor situacin, y que
es suponer que la P es cercana a la mitad (es decir 0,50). Este supuesto es el que da un
tamao de muestra mximo, con lo cual se cubre sobradamente cualquier posible situacin.
Bajo ese supuesto, el tamao de la muestra dara: n = 271 personas.

e) Determinacin de n para estimar la Cantidad de Casos (NA)


Con este caso se finaliza la enumeracin y anlisis de los Parmetros a
partir de cuya estimacin es posible determinar el tamao de muestra que se necesita. La Cantidad
de Casos Favorables a una alternativa, resulta ser una combinacin de los casos ya vistos para la
Proporcin y para el Total. De esta forma, a partir de plantear que se quiere calcular:
P(Li < NA < Ls) = 1 al remplazar los lmites por sus valores se tiene:

P( N . p k.

N . p

NA

N.p

k.

N . p

) 1

Luego de varios pasos algebraicos, se llega a la frmula ampliada, en la que n es aproximadamente:

n = (N2. k2 . p.q) / [d2 + (N2. k2 . p.q) / N]


Si N fuera desconocida o infinita, la frmula simplificada sera:

n = (N2. k2 . p.q) / d2
78

Ejemplos:
a) Continuando con el mismo problema anterior (el del Sector de Abastecimiento del Centro
Comercial del oeste del Gran Buenos Aires), si se tuviera como objetivo el estimar la cantidad
de potenciales compradores de un fin de semana (es decir, cuntos de los que ingresan al
Centro pueden resultar compradores), para determinar el tamao de la muestra de personas a
observar, estamos ante el caso de tener que estimar la Cantidad de Casos Favorables (ya
que las personas que ingresan al Centro durante el fin de semana pueden ser clasificados en
compradores y no compradores).
Respuesta:
Ante ello, los profesionales del Sector Comercializacin deben suministrar los datos necesarios
para hacer el trabajo, como por ejemplo:
Total de personas que ingresan el fin de semana al Centro: ~ 10.000.
Proporcin histrica de las personas que compran algo: desconocida (adoptaremos el
supuesto de peor situacin, es decir que el valor de P es cercano a 0,50.
Nivel de Confianza o Seguridad con el que se quiere trabajar (es decir la
Probabilidad de que la estimacin que luego se realice sea correcta): elevada = 99 %
(esto determina que k = 2,575).
Amplitud del intervalo con el que se estimar la cantidad de potenciales compradores:
500 personas (podra haberse dado como una proporcin cercana al 5 % del total de
personas que ingresan al Centro). Siendo AM = 500 ; d = AM / 2 = 250 personas.
Con estas condiciones, la muestra debera ser:

n = (N2. k2 . p.q) / [d2 + (N2. k2 . p.q) / N] =


= (10.0002. 2,5752. 0,5 . 0,5) / [2502 +(10.0002. 2,5752. 0,5 . 0,5) / 10.000] =
= (100.000.000 . 6,63 . 0,25) / [62.500 + (100.000.000 . 6,63 . 0,25) / 10.000 =
= 165.765.625 / (62.500 + 16.576,5625) = 165.765.625 / 79.076,5625 = 2.096,27 ~
~ 2.097 personas
Visto el resultado obtenido (una muestra sumamente grande que supera el 20 % de la poblacin
que ingresa al Centro), es probable que se les deba decir a los profesionales del Sector de
Abastecimiento que las condiciones impuestas resultan exageradas, y que si desean disminuir el
probablemente elevado costo de hacer la muestra, deberan aflojar un poco los requisitos.
b) Suponiendo que se baja la pretensin del nivel de confianza, de modo que la estimacin se
cumpla en un 90 % de los casos.
Respuesta:
En este caso, k = 1,645, lo que deriva en que:

n = 67.657.002 / 62.500 + 6.765,7 = = 67.657.002 / 69.265,7 = 976,775 ~ 977 personas


Es decir que con el cambio realizado en el nivel de confianza, la muestra disminuye a menos de
la mitad.
79

c) Adems de lo anterior, en el Sector de Abastecimiento, deciden aceptar que la diferencia entre el


estimador y el parmetro puede ser del doble (es decir d = 500 personas).
Respuesta:
En esta posicin:

n = 67.657.002 / 250.000 + 6.765,7 =263,5 ~ 264 personas


Con lo cual la muestra resulta 8 veces menos que la inicial y casi la cuarta parte de la anterior.

f) Conclusiones
Resumiendo lo desarrollado en este punto, es posible concluir lo siguiente:
1. En esta etapa de la Inferencia Estadstica, para la determinacin del tamao de la muestra a
extraer, se parte del supuesto de que la misma ser extrada mediante criterios aleatorios
determinados por el Muestreo Aleatorio Simple (MAS). En el caso de utilizarse otros diseos
ms complejos o que requieren la preparacin previa de la Poblacin, existen otras formas para
calcular el tamao de la muestra n.
2. Es requisito indispensable para el razonamiento que se aplica, que la muestra deber utilizarse
para estimar alguno de los Parmetros que se utilizan para caracterizar a las Distribuciones de
Frecuencias (Media, Total, Proporcin o Casos Favorables). Existen otras formas de llegar a la
determinacin del n que no sern desarrolladas en este Curso.
3. En cualquiera de los cuatro casos analizados, el tamao de la muestra se determina a partir de
los datos disponibles (forma de distribucin de la poblacin y dispersin de la misma), y de las
condiciones o requisitos que se imponen a los clculos a realizar con la muestra a extraer (el
nivel de confianza o el de riesgo, y la precisin de la estimacin a realizar).
4. En todos los casos, el anlisis lgico de los problemas coincide con lo que muestran las
frmulas de n, a saber:
A mayor exigencia de confianza en los resultados (1- ), mayor es la muestra a extraer.
Cuanto mayor es la dispersin de la variable original (
proporcin), mayor deber ser la muestra que la represente.

o su equivalente para la

Cuanto ms precisin se pretenda en la estimacin (medida con d o con A), mayor deber
ser la muestra.
Cuanto ms grande sea la Poblacin a muestrear (N), mayor debe ser la muestra a
observar (no obstante que esto no es ni medianamente proporcional, sino que a partir de un
cierto valor de la poblacin, su cuanta deja de influir en el tamao de la muestra).

80

VI. PRUEBA, TEST O ENSAYOS DE HIPTESIS


PARAMTRICOS
1. Concepto General
El desarrollo del tema Pruebas, Test o Ensayos de Hiptesis dentro de un
Curso de Estadstica, constituye un nuevo paso en el anlisis y utilizacin de los mtodos
inferenciales, ya que en el mismo se conjugan no solo los puntos bsicos de la Estadstica
Descriptiva y el Clculo de Probabilidades, sino que se avanza en la incorporacin y uso de
elementos de la Teora de la Decisin.
Si bien el concepto involucrado en la realizacin de una Prueba de
Hiptesis no es simple, puede intentar resumrselo diciendo que:
el recurrir a la realizacin de un Ensayo de Hiptesis, implica la realizacin de una
afirmacin respecto a alguna caracterstica desconocida de una poblacin. La esencia
de probar una hiptesis estadstica, es el decidir si la afirmacin realizada se
encuentra apoyada o no por la evidencia muestral.
Esa afirmacin involucra ya sea a un parmetro o a alguna forma funcional
no conocida de la distribucin a partir de la cual se obtiene una muestra aleatoria. La decisin
acerca de si los datos muestrales apoyan estadsticamente la afirmacin, se toma en base a
probabilidades, y como se ver, si sta es pequea ser rechazada la hiptesis.
Diversos autores plantean este tema de Prueba de hiptesis relacionndolo
con un Juicio Penal, en el que se parte del supuesto de que el acusado es inocente, y en el que la
realizacin del juicio implica la ejecucin de una serie de pruebas y bsquedas de evidencias
mediante las cuales se pueda demostrar lo contrario. Si los testimonios y pruebas recogidos no
permiten rebatir el supuesto original, el acusado permanecer inocente, y en caso contrario (es decir
si los testimonios y pruebas lo condenan), se lo declarar culpable.
Al realizarse un Ensayo de Hiptesis sucede lo mismo: el conocimiento
previo de la poblacin o los supuestos que se realicen sobre ella, suministrarn la hiptesis bsica (o
nula) sobre algunos de sus parmetros (equivalente al supuesto de inocencia en el Juicio), a partir
de una muestra se obtienen los testimonios o pruebas, y los resultados de la misma determinarn
si los supuestos previos son rechazados o no, es decir si el jurado declara al acusado inocente o
culpable.
Este concepto que es relativamente simple de resumir, implica una serie de
aspectos y alternativas que deben ser tratados cuidadosamente para facilitar su comprensin y
posterior aplicacin. Inicialmente se plantearn estos aspectos en forma genrica, para
posteriormente verlos detalladamente al analizarse las Pruebas de Hiptesis en los principales
parmetros (particularmente, y como ya se lo hizo en otros temas, al desarrollarse el caso de la
Media Aritmtica).

2. Las Hiptesis Estadsticas


Ya se adelant someramente, que la realizacin de una Prueba de Hiptesis
Estadstica, implica el planteo de una Hiptesis Bsica (denominada tambin Hiptesis Nula e
identificada con H0), basada en los conocimientos previos de la poblacin que se desean comprobar.
81

Estos supuestos o afirmaciones no son siempre fciles de concretar, y se


debe tener cuidado para que su estructura tienda a satisfacer lo que realmente se desea verificar.
Pueden realizarse sobre cualquiera de los parmetros que caracterizan a una poblacin, tales como:
Promedios - Por ejemplo: Que pese a las modificaciones econmicas de los ltimos aos,
el promedio de ingreso por familia no se ha modificado.
Totales - Por ejemplo: Que el monto total de gastos de las personas que viajan a Mar del
Plata los fines de semana largos, permanece invariable pese a la promocin realizada por
la Direccin Provincial de Turismo de Buenos Aires.
Proporciones Por ejemplo: Que el otorgamiento de planes de apoyo a Jefes y Jefas de
Hogares no ha logrado disminuir el porcentaje de personas econmicamente activas
desocupadas.
Cantidad de Casos Favorables Por ejemplo: Que la cantidad de fumadores de la
localidad de Ituzaing no ha variado pese a las leyendas de nocividad del tabaco en las
marquillas y publicidades.
Dispersiones Por ejemplo: Que el Desvo Estndar de la distribucin del consumo de
carne por persona no se ha modificado pese a la evidente disminucin en el consumo per
cpita.
Realizada una afirmacin como Hiptesis Bsica, debe existir como
contrapartida una Hiptesis Alternativa (identificada usualmente con H1 o HA), que es la que se
tomar como cierta en caso de que a partir de los datos de la muestra se derive en el rechazo de la
H 0.
De acuerdo a la forma que tome la Hiptesis Alternativa, se llega a tener
dos grandes situaciones en las Pruebas de Hiptesis: los Ensayos Unilaterales (a derecha o a
izquierda) y los Ensayos Bilaterales. Esto ser desarrollado en detalle al enfocarse las Pruebas de
Hiptesis para la Media Aritmtica.
Otro aspecto que ser desarrollado detalladamente al tratarse las Pruebas de
Hiptesis para la Media Aritmtica, es que en este Curso se adoptar el criterio de que en todos los
casos las Hiptesis Nulas se harn en base a la igualdad del parmetro a verificar con un valor
puntual, plantendose la Alternativa como menor, mayor o diferente a ese valor segn el tipo de
Test que se deba realizar (13).

3. Los Errores en las Pruebas de Hiptesis


Se ha mencionado que la decisin con respecto a la validez o no de las
hiptesis que se planteen, se toma en base a una muestra extrada de la poblacin bajo estudio. La
teora que fundamenta esta accin es la misma en que se basa toda la Inferencia Estadstica: los
Estimadores son variables y sus distribuciones toman formas de acuerdo con las
particularidades de cada muestra (tamao de n, conocimiento del x, distribucin de la
poblacin, etc.).
Ahora bien, al tomarse la decisin en base a una muestra, se corren los
riesgos ya analizados al tratarse la Estimacin por Intervalos: que los resultados que se obtengan
(13)

Otros autores plantean en las Alternativas Unilaterales, que la Hiptesis Nula debe cubrir la igualdad y uno de los
dos lados de la distribucin.
82

no sean de los ms probables, con lo cual la decisin que se tome puede estar basada en muestras
poco representativas. Esto, dentro del tema Ensayo de Hiptesis, conlleva la posibilidad de dos
tipos de Errores:
Error de Tipo I (I): que consiste en Rechazar H0 siendo cierta. La Probabilidad de este
Error se la identifica con la letra , es decir que: P(I) = .
Error de Tipo II (II): que consiste en No Rechazar H0 siendo falsa. La Probabilidad de
este Error se la identifica con la letra , es decir que: P(II) = . A partir de este concepto se
define y calcula lo que se denomina la Potencia del Test, que es la probabilidad 1 - . se
desarrollar ms adelante.
Este concepto de Potencia del Test y en general el tema de los Errores, se
retomar a continuacin al verse la Prueba de Hiptesis para la Media Poblacional.

4. Pruebas de Hiptesis para la Media Poblacional ( )


De la misma forma que ya se lo hizo en otros temas de Inferencia
Estadstica, el primer parmetro sobre el cual se desarrollan los conceptos de Prueba de Hiptesis,
ser la Media Poblacional. La mayora de los autores lo enfocan de esta manera, con la que
posteriormente resulta simple pasar al mismo planteo para los dems parmetros.
A. Ensayo de Hiptesis Unilateral Derecha
El planteo genrico es el siguiente: Se afirma que la media de una
poblacin es 0, contra la alternativa de que es mayor que ese valor (representada por 1). De esta
afirmacin derivan las siguientes hiptesis:
H0 ) =

H1 ) =

1>

Hecho el planteo, la definicin sobre cul de las hiptesis es vlida, se


realizar extrayendo una muestra de n unidades con la que se calcular la Media Muestral. El
razonamiento a realizar es el siguiente:
Si es cierta H0, la x debe tener una distribucin cuyo promedio es 0 y cuya dispersin
ser la de la poblacin original dividida por la raz de n y por el factor de correccin
para poblaciones finitas. En los casos analizados oportunamente (n grande, etc.), la
distribucin de la x ser Normal, y podr utilizarse esta funcin para continuar con el
razonamiento del ensayo (14).
En los casos en que x
P( x > x c) =

N(

0,

) se tendr:

y P( x < x c) = (1 - )

y si es suficientemente chica, es de esperar que la x no supere el valor x c (denominado Valor


Crtico), ya que la probabilidad de que suceda eso es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que = 0, sino que = 1 donde 1 > 0.
(14)

Tambin, como se ver ms adelante, se pude llegar a dar el uso de la t de Student.


83

Este razonamiento permite enumerar los pasos a realizar a partir de


realizar la afirmacin de las hiptesis, y plantear la regla de decisin para realizar la prueba de
hiptesis:
1. Siendo que x ~ N, si la H0 fuera cierta, puede calcularse un valor x c
alejado de 0 hacia la derecha tal que:
P( x > x c) = , donde es un valor pequeo fijado a voluntad por
quien realiza la experiencia.
2. Se realiza la muestra, y con ella se calcula la x .
3. Se compara x con el valor x c; si resulta x < x c se est dando un
resultado razonable siendo cierta H0 (ya que su probabilidad es 1 - ),
por lo cual NO SE RECHAZA H0, siendo la conclusin del ensayo que
no existen evidencias significativas para rechazar que = 0 (si fuera
un Juicio, no se pudo demostrar la culpabilidad del acusado).
4. Si la comparacin diera que x > x c se est dando un valor muy poco
probable (su probabilidad es slo ) si fuera cierta H0, por lo cual SE
RECHAZA H0, siendo la conclusin del ensayo que a partir de la
muestra observada existen evidencias significativas para rechazar que
= 0, con lo que implcitamente se adopta H1 en la que se propona que
= 1 > 0 (en el Juicio se demostr que el acusado es culpable) (15).
Puede apreciarse que en esta regla de decisin, la H1 (y su distribucin
centrada en 1) no se tienen en cuenta para nada, y esto es lgico, ya que en la prctica la
alternativa es desconocida, y en caso de rechazarse H0 se deber estimar el valor de la .
Ejemplo:
En un pueblo de la provincia de Catamarca, hasta hace 10 aos la poblacin joven haba ido
paulatinamente emigrando, con lo cual el total haba ido disminuyendo y envejeciendo. La
promocin industrial parece haber modificado esa situacin, pero no se tienen datos
fehacientes sobre el tema. Previo a la realizacin de un estudio demogrfico que lo incluye, se
plantea el supuesto de que en dicho pueblo el promedio de personas por vivienda es de 2,5,
mientras que en la Intendencia Municipal consideran que esa cifra es muy baja y que en
realidad el valor medio por vivienda es superior.
Respuesta:
De esta manera se est frente a un Ensayo de Hiptesis en el cual se tiene:
H0) =

0=

2,5 (a partir del supuesto que se plantea en el estudio demogrfico)

H1) =

1>

2,5 (en base a lo afirmado por la Intendencia)

Con el fin de verificar la H0 se realiza una muestra de 256 viviendas con la que se obtienen los
siguientes resultados:
x = 2,68 personas
Sx = 0,80 personas
Se desea realizar la prueba con un nivel de riesgo del 10 % (es decir que
(15)

= 0,10)

Algunos autores, en lugar de trabajar con las unidades la variable de cada problema, proponen estandarizar siempre
la variable media muestral y transformarla en la z de la Normal Estndar (o la t de la t de Student), con lo cual se
comparara el x estandarizado con el valor zc; si resulta ( x - 0) / x > zc se rechazara H0 (en este caso de Test
Unilateral derecha), y sino no se rechaza. La decisin es la misma cualquiera sea la forma de trabajar.
84

Adems debe tenerse presente que se desconoce el tamao de la poblacin de viviendas del
pueblo (por lo menos no est dada entre los datos disponibles).
Siendo n = 256 viviendas, puede llegar a ser considerada una muestra grande, con lo cual es
1/2
posible adoptar que x ~ N( 0 , x ) , donde: 0 = 2,5 y
= 0,05.
x = 0,80 / 256
En base a ello, es posible calcular un valor de x alejado hacia la derecha ( x c), tal que:
P( x > x c) =

= 0,10 P[( x - 0)/

zc = 1,28

] > [( x c- 0)/

] = 0,10 P(z > zc) =0,10

= 2,5 + 1,28 . 0,05 = 2,568 personas que es el Valor Crtico.


Grficamente:

Para definir sobre la prueba solicitada se compara: x = 2,68 > x c = 2,568 ; es decir
que la media muestral supera el Valor Crtico, y que se est dando un resultado poco probable
si fuese cierta H0, por lo que se concluye que NO ES CIERTA Y QUE DEBE SER
RECHAZADA.
Esto quiere decir que el promedio de personas por vivienda en el pueblo es superior a las 2,5
personas propuestas como H0, y que en realidad la poblacin del pueblo no parece haber
disminuido tanto como se supona (si bien esto no fue verificado, puede suponrselo como
resultante).
Ahora bien:
a) Qu significado tiene en este caso el

= 0,10 ?.

Respuesta:
Si el valor de es 2,5, y si se tomasen muchas muestras de tamao n = 256 de la poblacin,
debe esperarse que en un 10 % de las veces (100. ), se encuentre un valor del estadstico de
prueba y en los casos en que esto se da debe rechazarse H0.
La probabilidad tambin se conoce como el nivel de significacin. Esto implica que la
evidencia muestral es tal que garantiza el rechazo de H0 a un nivel dado de = 0,10.
b) Qu se hubiese hecho si la muestra observada hubiese dado un promedio de personas por
familia menor a 2,5 (por ejemplo 2,38) ?.
Respuesta:
> 2,5 ; si la muestra hubiese dado menor no sera necesario realizar la
x
comparacin entre x y c , ya que lgicamente el valor muestral cae en la zona de No

Dada la H1)

Rechazo.
c) Si el nivel de riesgo hubiese sido menor (por ejemplo del 5 %), hubiese podido cambiar
la conclusin del problema ?.
85

Respuesta:
Con un menor

se reduce la Regin de Rechazo, por lo que podra ser que habindose

Rechazado antes H0 , el valor de


podra ahora no superar al
esa manera H0 (deberan hacerse los clculos).

, no rechazndose de

d) Y si el desvo estndar muestral hubiese sido menor que el 0,80 personas obtenido; podra
haberse modificado la decisin tomada de rechazar H0 ?.
Respuesta:

c , por lo cual si fuese menor que 0,80


El valor de Sx es utilizado para determinar el
personas se agranda la Regin de Rechazo, por lo que no se modificara la conclusin de
rechazar H0 .

e) En caso de que la muestra hubiese sido de slo 100 familias; podra haberse modificado la
decisin de rechazar H0 .
Respuesta:
El tamao de muestra n influye sobre la dispersin del estimador, es decir que x sera
mayor, lo que achica la Zona de Rechazo, y posibilitara que se cambie la decisin y no se
rechace (deberan hacerse los clculos).
f) Finalmente, que sucedera si se sabe que la cantidad total de familias de ese pueblo es de
800 ?.
Respuesta:
El conocimiento del tamao de N obliga al uso del Factor de Correccin para
poblaciones finitas, lo que ocasiona que disminuya el x , es decir que se agranda la Zona
de Rechazo, y de esta forma no se podra modificar la decisin de rechazar H0.
Tal como se ha elaborado el ensayo, el procedimiento de prueba se
construye de manera tal que la Hiptesis Nula sea RECHAZADA o NO RECHAZADA. Sin
embargo, con la inclusin de la hiptesis alternativa, probar una hiptesis estadstica es
proporcionar una decisin entre H0 y H1. Para ello se clasifica el campo de variacin de la variable
x en dos subconjuntos o sectores:
-

Regin Crtica o de Rechazo: que contiene los resultados no favorables a la hiptesis nula.

Regin de NO Rechazo: que contiene los resultados favorables a la hiptesis nula.


Grficamente:

86

Esta mencin permite introducir un aspecto ya mencionado en forma


general:

Los Errores que se pueden cometer y sus Probabilidades


Las posibles decisiones que pueden tomarse con respecto a la Hiptesis
Nula y sus Probabilidades se resumen en la siguiente tabla:
Hiptesis H0

Decisin Adoptada

No rechazar H0

Rechazar H0

Cierta

Falsa

Decisin Acertada

Error de TipoII

(1 - )

( )

Error de TipoI

Decisin Acertada

( )

(1 - )

La Hiptesis Nula puede ser Verdadera o Falsa. Si No se Rechaza (o se


acepta) una Hiptesis Cierta o si se Rechaza una Hiptesis Falsa, no se comete ningn Error.
Si se Rechaza la Hiptesis Nula Cierta, se comete un error denominado
Error de Tipo I, cuya probabilidad se simboliza . Luego, es la probabilidad de cometer el Error
de Tipo I, es decir la probabilidad de Rechazar una Hiptesis Nula Verdadera (rechazar mal).
Si no se Rechaza una Hiptesis Nula Falsa, se comete un error denominado
Error de Tipo II, cuya probabilidad se simboliza con . Luego, es la probabilidad de cometer un
Error de Tipo II, es decir la probabilidad de No Rechazar (o aceptar) una Hiptesis Nula Falsa
(aceptar mal).
Lo ptimo es tratar de minimizar ambos errores, pero stos varan o juegan
en forma inversa: dada una situacin, al disminuir uno se agranda el otro. En la prctica, se
especifica o fija el valor de , y se elige la Regin de Rechazo de manera que se minimice . Por
esta razn corresponde decir no rechazar H0 ms que aceptar H0 cuando la evidencia muestral
no apoya el rechazo de la hiptesis nula.
B. Ensayo de Hiptesis Unilateral Izquierda
El razonamiento es similar al anterior, pero con la zona de rechazo de H0
del lado izquierdo. Veamos:
En este caso el planteo genrico es el siguiente: Se afirma que la media de
una poblacin es 0, contra la alternativa de que es menor que ese valor (representada por 1). De
esta afirmacin derivan las siguientes hiptesis:
H0 ) =

H1 ) =

1<

Como en el caso anterior, hecho el planteo, la definicin sobre cul de las


hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la
Media Muestral. El razonamiento a realizar es el siguiente:

87

Si es cierta H0, la x debe tener una distribucin cuyo promedio es 0 y cuya dispersin
ser la de la poblacin original dividida por la raz de n y por el factor de correccin
para poblaciones finitas. En los casos analizados oportunamente (n grande, etc.), la
distribucin de la x ser Normal, y podr utilizarse esta funcin para continuar con el
razonamiento del ensayo.
En los casos en que x
P( x < x c) =

N(

0,

) se tendr:

y P( x > x c) = (1 - )

y si es suficientemente chica, es de esperar que la x supere el valor x c (denominado Valor


Crtico), ya que la probabilidad de que suceda eso es grande.
Si en una muestra en particular sucediera que x < x c, se podra sospechar
que ocurre porque no es cierto que = 0, sino que = 1 donde 1 < 0.
Repitiendo lo realizado en el caso del test unilateral derecha, con el
razonamiento anterior es posible enumerar los pasos que se deben dar a partir de realizar la
afirmacin de las hiptesis, y plantear la regla de decisin para realizar la prueba de hiptesis:
1. Siendo que x ~ N, si la H0 fuera cierta, puede calcularse un valor x c
alejado de 0 hacia la izquierda tal que:
P( x < x c) = , donde es un valor pequeo fijado a voluntad por
quien realiza la experiencia.
2. Se realiza la muestra, y con ella se calcula la x .
3. Se compara x con el valor x c; si resulta x > x c se est dando un
resultado razonable siendo cierta H0 (ya que su probabilidad es 1 - ),
por lo cual NO SE RECHAZA H0, siendo la conclusin del ensayo que
no existen evidencias significativas para rechazar que = 0.
4. Si la comparacin diera que x < x c se est dando un valor muy poco
probable (su probabilidad es ) si fuera cierta H0, por lo cual SE
RECHAZA H0, siendo la conclusin del ensayo que a partir de la
muestra observada existen evidencias significativas para rechazar que
= 0, con lo que implcitamente se adopta H1 en la que se propona que
= 1 < 0.
Como en el caso anterior, puede apreciarse que en esta regla de decisin, la
H1 (y su distribucin centrada en 1) no se tienen en cuenta para nada, y esto es lgico, ya que en
la realidad la alternativa es desconocida.
Ejemplos:
Previo a la recesin econmica del ltimo quinquenio, los gastos mensuales de las familias de
la ciudad de Tandil destinados a la atencin de la salud, tenan una distribucin
aproximadamente Normal, con un promedio de $ 175, y una variancia de 2.500 $2. En un
estudio realizado en el ltimo trimestre del ao anterior, en la Secretara de Salud se
presupona que el nivel de gastos medio haba disminuido (a valores constantes), y en una
muestra de 400 familias (obtenida del total de 20.000), el resultado dio un gasto promedio de $
88

172. La evidencia muestral obtenida confirma o no el supuesto oficial ?. Realizar la prueba


con un nivel de confianza del 95 %.
Respuesta:
El Ensayo de Hiptesis a realizar es el siguiente:
H0) =

0=

$ 175 (el gasto promedio anterior)

H1) =

1<

$ 175 (en base a lo supuesto por la Secretara de Salud)

Los datos obtenidos o fijados son los siguientes:


xi (gasto en salud mensual por familia) ~ N(175 , 50)
N = 20.000 familias en Tandil
n = 400 familias en la muestra realizada
x = $ 172 (el gasto promedio de la muestra)
x = $ 50 (si se mantiene la anteriormente registrada)
1-

= 0,95

= 0,05 (riesgo resultante de un nivel de confianza del 95 %)

En base a esa informacin es posible adoptar que x ~ N(


0=

$ 175

0,

) ; donde:

= 50 / 4001/2 . [(20.000 400) / (20.000 1)] 1/2 = $ 2,475.

De esta forma es posible calcular un valor de x alejado hacia la izquierda( x c), tal que:
P( x < x c) =
zc = - 1,645

= 0,05 P[( x - 0)/

] < [( x c- 0)/

] = 0,05 P(z > zc) =0,05

= 175 - 1,645 . 2,475 = $ 170,93 que es el Valor Crtico.

Para tomar la decisin respecto a la prueba, se compara: x = $ 172 > x c = $ 170,93 ;


es decir que la media muestral supera el Valor Crtico, y que se est dando el resultado
esperado (muy probable) si fuese cierta H0, por lo que se concluye que ES CIERTA Y QUE
NO DEBE SER RECHAZADA.
Tal como se lo mencion en la llamada (13), a la misma decisin se hubiese llegado si se
comparaba el x estandarizado [z = (172 175) / 2,475 = - 1,21] con el zc = - 1,645 ; donde
al resultar z > zc No se Rechaza H0.
a) Qu hubiese sucedido si la muestra hubiese sido de solo 36 familias ?.
Respuesta:
Ante esta situacin se plantean dos cuestiones:
Con la muestra chica, debido a que xi ~ Normal con conocido, no se producen
cambios en el uso de que x ~ Normal.
Al ser n ms pequea, se agranda el valor del x , achica la Regin de Rechazo y no se
modificara lo decidido con la muestra de 400 de No Rechazar H0.
b) Se hubiese mantenido la decisin si el nivel de confianza se fijaba en el 99,5 % ?.
Respuesta:
Totalmente, ya que un

menor achica la Regin de Rechazo.

c) Y si se desconociera la poblacin de familias de Tandil, se modificara la decisin ?.


Respuesta:
89

Tampoco, ya que al desconocerse N no se utiliza el Factor de Correccin para poblaciones


finitas, lo que agranda el x , achica la Regin de Rechazo y no se modificara lo decidido.
Adems en el caso resuelto, N es tan grande respecto a n que el F de C es casi 1 (0,99).
En lo concerniente a los Errores que se pueden cometer al realizar este tipo
de Pruebas Unilaterales a la Izquierda, se da exactamente la misma situacin ya analizada en el Test
Unilateral Derecha, es decir:
Si se Rechaza la Hiptesis Nula siendo Cierta, se comete el error denominado Error
de Tipo I, cuya probabilidad se simboliza .
Si no se Rechaza la Hiptesis Nula siendo Falsa, se comete el error denominado
Error de Tipo II, cuya probabilidad se simboliza con .
C. Ensayo de Hiptesis Bilateral (o de dos colas)
En este caso el razonamiento difiere de los anteriores, ya que la zona de
rechazo de H0 debe ser planteada de ambos lados de la Hiptesis bsica. Veamos:
En este caso el planteo genrico es el siguiente: Se afirma que la media de
una poblacin es 0, contra la alternativa de que es distinta que ese valor (representada por 1). De
esta afirmacin derivan las siguientes hiptesis:
H0 ) =

H1 ) =

Como en el caso anterior, hecho el planteo, la definicin sobre cul de las


hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la
Media Muestral. El razonamiento a realizar es el siguiente:
Si es cierta H0, la x debe tener una distribucin cuyo promedio es 0 y cuya dispersin
ser la de la poblacin original dividida por la raz de n y por el factor de correccin
para poblaciones finitas. En los casos analizados oportunamente (n grande, etc.), la
distribucin de la x ser Normal, y podr utilizarse esta funcin para continuar con el
razonamiento del ensayo.
En los casos en que x
P( x < x c1) = /2 ;

N(

0,

) se tendr:

P( x > x c2) = /2 y P( x c1 < x < x c2) =

(1 - )

y si es suficientemente chica, es de esperar que la x caiga entre medio de los valores x c1 y x c2


(denominados Valores Crticos), ya que la probabilidad de que suceda eso es grande.
Si en una muestra en particular sucediera que x < x c1, o x > x c2, se
podra sospechar que ocurre porque no es cierto que = 0, sino que = 1 donde 1 0.
Repitiendo lo realizado en el caso de los test unilateral derecha o izquierda,
con el razonamiento anterior es posible enumerar los pasos a realizar a partir de realizar la
afirmacin de las hiptesis, y plantear la regla de decisin para realizar la prueba de hiptesis:

90

1. Siendo que x ~ N, si la H0 fuera cierta, pueden calcularse los valores


x c1 y x c2 alejados de 0 hacia la izquierda y derecha respectivamente,
tal que:
P( x < x c1) = /2 ; P( x > x c2) = /2 , donde
fijado a voluntad por quien realiza la experiencia.

es un valor pequeo

2. Se realiza la muestra, y con ella se calcula la x .


3. Se compara x con los valores x c1 y x c2; si resulta x c1 < x < x c2 se
est dando un resultado razonable siendo cierta H0 (ya que su
probabilidad es 1 - ), por lo cual NO SE RECHAZA H0, siendo la
conclusin del ensayo que no existen evidencias significativas para
rechazar que = 0.
4. Si la comparacin diera que x < x c1, o x > x c2 se estara dando un
valor muy poco probable (su probabilidad es ) si fuera cierta H0, por lo
cual SE RECHAZA H0, siendo la conclusin del ensayo que a partir de
la muestra observada existen evidencias significativas para rechazar
que
= 0, con lo que implcitamente se adopta H1 en la que se
propona que = 1 0.
Como en el caso anterior, puede apreciarse que en esta regla de decisin, la
H1 (y su distribucin centrada en 1) no se tienen en cuenta para nada, y esto es lgico, ya que en
la realidad la alternativa es desconocida.
Ejemplo:
Previo a la recesin econmica del ltimo quinquenio, los gastos mensuales de las familias
tipo destinados a alimentos bsicos era de $ 260 con una Variancia de 100. Para
comprobar si en la actualidad ese promedio se mantiene (tomado a valores constantes de
1998, ao en que se realiz la medicin anterior), se observa una muestra de 36 familias,
con las que se obtiene un gasto medio en ese tipo de alimentos de $ 267. Realizar la prueba
de hiptesis con un nivel de significacin del 10 %, adoptando que los gastos en ese rubro
tienen una distribucin aproximadamente Normal.
Respuesta:
H 0 ) = 260 gr.

H 1 ) 260 gr.

P ( < c1 / H0 ) =

/ 2 = 0.05

P ( > c2 / H 0 ) =

/ 2 = 0.05

z c = 1,645

El resto de la informacin disponible es la siguiente:


n = 36 (pequea)
xi ~ N(260 ; 10)
$267

x
2

100

de donde:

10
x

36

$ 1 . 6667

conocida

En la Normal estandarizada se tiene:


91

En la variable x :
c1 = 256,73

0 = 260

c2 = 263,27 267 = x Muestral

Con el valor de zc se calculan los lmites de la Regin de No Rechazo:


c1 = 260 1,645 . 1,6667 =$ 257,26
c2 = 260 + 1,645 . 1,6667=$ 262,74
De esta forma, en vista de que x

$267 > c2 = $ 262,74 debe Rechazarse H0.

5. Pruebas de Hiptesis para el Total Poblacional (X)


Sin entrar en mayores detalles, y como ya se lo hizo en otros temas de
Inferencia Estadstica, a partir de los conceptos de Prueba de Hiptesis desarrollados para la Media
Poblacional, se enunciarn los correspondientes al Total de una Poblacin (X).
A. Ensayo de Hiptesis Unilateral Derecha
El planteo genrico es el siguiente: Se afirma que el Total de una poblacin
es X0, contra la alternativa de que es mayor que ese valor (representada por X1). De esta afirmacin
derivan las siguientes hiptesis:
H0 ) X = X 0
H1) X = X1 > X0
Como en el caso de la Media, la definicin sobre cul de las hiptesis es
vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la estimacin
Muestral del Total (N. x ). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador N. x debe tener una distribucin cuyo promedio es X0 y cuya
dispersin ser la de la poblacin original dividida por la raz de n, multiplicada por N y
por el factor de correccin para poblaciones finitas. En los casos analizados
oportunamente (n grande, etc.), la distribucin de N. x ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo. En otros caso se
podr utilizar la t de Student.

92

En los casos en que N. x


P(N. x > N. x c) =

N(

0,

) se tendr:

y P(N. x < N. x c) = (1 - )

y si es suficientemente chica, es de esperar que la N. x no supere el valor N. x c (denominado


Valor Crtico), ya que la probabilidad de que suceda eso es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que X = X0, sino que X = X1 donde X1 > X0.
Como en el caso de la Media, este razonamiento permite enumerar los
pasos a realizar a partir de a afirmacin de las hiptesis, y plantear la regla de decisin para
plasmar la prueba de hiptesis:
5. Siendo que N. x ~ Normal, si la H0 fuera cierta, puede calcularse un
valor N. x c alejado de X0 hacia la derecha tal que:
P(N. x > N. x c) = , donde es un valor pequeo fijado a voluntad por
quien realiza la experiencia. El valor N. x c = X0 + z . N . x
6. Se realiza la muestra, y con ella se calcula la N. x .
7. Se compara N. x con el valor N. x c; si resulta N. x < N. x c se est dando
un resultado razonable siendo cierta H0 (ya que su probabilidad es 1 - ),
por lo cual NO SE RECHAZA H0, siendo la conclusin del ensayo que
no existen evidencias significativas para rechazar que X = X0.
8. Si la comparacin diera que N. x > N. x c se est dando un valor muy
poco probable (su probabilidad es slo ) si fuera cierta H0, por lo cual
SE RECHAZA H0, siendo la conclusin del ensayo que a partir de la
muestra observada existen evidencias significativas para rechazar que
X = X0, con lo que implcitamente se adopta H1 en la que se propona
que X = X1 > X0.
Ejemplos:
En la ciudad de Posadas (provincia de Misiones), se ha realizado un catastro en el que se
contabilizaron 3.500 manzanas construidas. A partir de esta informacin, dentro de un
estudio demogrfico se propone verificar la cantidad de habitantes de la ciudad, que en el
ltimo censo era de 280.000 personas, ante la presuncin de que debido a una alta migracin
de pases limtrofes pueda haber crecido considerablemente. Para hacerlo se releva la
cantidad de habitantes de una muestra aleatoria de 400 manzanas de las que resulta un
conjunto de 33.200 personas, con una dispersin por manzana de 40.
Respuesta:
De esta manera se est frente a un Ensayo de Hiptesis en el cual se tiene:
H0) X = X0 = 280.000 habitantes (supuesto que se plantea en el estudio demogrfico)
H1) X = X1 > 280.000 habitantes (en base a la presuncin existente)
Los datos previos y la muestra suministran los siguientes resultados:
N = 3.500 manzanas
n = 400 manzanas
93

x = 33.200 / 400 = 83 personas por manzana (Promedio Muestral)


N. x = 3.500 . 83 = 290.500 personas (Estimacin Puntual)
Sx = 40 personas S N . x = 3.500 . (40 / 4001/2).[(3.500 - 400)/(3.500 - 1)] 1/2 =
3.500 . (2 . 0,94) = 6.580 personas
Se desea realizar la prueba con un nivel de riesgo del 5 % (es decir que

= 0,05)

Siendo n = 400 manzanas, puede llegar a ser considerada una muestra grande, es posible
adoptar que el estimador N. x ~ N(X0 , N . x ) , donde: X0 = 280.000 y S N . x = 6.580
(por ser N . x desconocido).
En base a ello, es posible calcular un valor de N. x alejado hacia la derecha (N. x c), tal que:
P(N. x > N. x c) = = 0,05 zc = 1,645 N. x c = 280.000 + 1,645 . 6.580 = 290.824,1
personas que es el Valor Crtico.
Para hacer la prueba solicitada se compara: N. x = 290.500 < N. x c = 290.824,1 ; es decir
que la media muestral es levemente menor que el Valor Crtico, por lo que se concluye que
NO SE RECHAZA la H0, por lo que se supone que la poblacin de Posadas sigue siendo de
280.000 habitantes (en realidad el test da un resultado tan justo que dara origen a realizar
una nueva prueba).
g) Qu se hubiese hecho si la muestra observada hubiese dado un promedio de personas por
manzana menor a 80 ?.
Respuesta:
Dada la H1) X = X1 > 280.000 implica que x > 80; si la muestra hubiese dado menor no
sera necesario realizar la comparacin entre N. x y N. x , ya que lgicamente el valor
muestral caera en la zona de No Rechazo.
h) Si el nivel de riesgo hubiese sido mayor (por ejemplo del 10 %), hubiese podido cambiar
la conclusin del problema ?.
Respuesta:
Con un mayor se agranda la Regin de Rechazo, por lo que podra ser que habindose
No Rechazado antes H0 , el valor de x podra ahora superar al x , rechazndose de esa
manera H0 (deberan hacerse los clculos).
i) Y si el desvo estndar muestral hubiese sido menor que el de 40 personas obtenido;
podra haberse modificado la decisin tomada de no rechazar H0 ?.
Respuesta:
El valor de Sx es utilizado para determinar el N . x , por lo cual si fuese menor que 40
personas se achica la dispersin y se agranda la Regin de Rechazo, por lo que se podra
modificar la conclusin de no rechazar H0 (deberan hacerse los clculos).
j) En caso de que la muestra hubiese sido de slo 100 familias; podra haberse modificado la
decisin de no rechazar H0 .
Respuesta:
El tamao de muestra n influye sobre la dispersin del estimador, es decir que N . x sera
mayor, lo que achica la Zona de Rechazo, y no se cambiara la decisin de no rechazar.
k) Finalmente, que sucedera si desconoce la cantidad total de manzanas de Posadas ?.
Respuesta:
94

El desconocimiento del tamao de N no permite hacer inferencias sobre el Total


poblacional.
NOTA: El problema podra haberse resuelto tambin transformndolo en un caso de Prueba de
Hiptesis para el Promedio.
B. Ensayo de Hiptesis Unilateral izquierda
El razonamiento es similar al anterior, pero con la zona de rechazo de H0
del lado izquierdo. Veamos:
En este caso el planteo genrico es el siguiente: Se afirma que el total de
una poblacin es X0, contra la alternativa de que es menor que ese valor (representada por X1). De
esta afirmacin derivan las siguientes hiptesis:
H0 ) X = X 0
H1) X = X1 < X0
Como en el caso anterior, hecho el planteo, la definicin sobre cul de las
hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular el
estimador Muestral del Total. El razonamiento a realizar es el siguiente:
Si es cierta H0, la N. x debe tener una distribucin cuyo promedio es X0 y cuya
dispersin ser la de la poblacin original dividida por la raz de n, multiplicada por N
y por el factor de correccin para poblaciones finitas. En los casos analizados
oportunamente (n grande, etc.), la distribucin de la N. x ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que N. x
P(N. x < N. x c) =

N(X0 ,

N .x

) se tendr:

y P(N. x > N. x c) = (1 - )

y si es suficientemente chica, es de esperar que la N. x supere el valor N. x c (denominado Valor


Crtico), ya que la probabilidad de que suceda eso es grande.
Si en una muestra en particular sucediera que N. x < N. x c, se podra
sospechar que ocurre porque no es cierto que X = X0, sino que X = X1 donde X1 < X0.
No vale la pena repetir lo realizado en el caso del test unilateral derecha, de
enumerar los pasos a realizar a partir de la afirmacin de las hiptesis, y plantear la regla de
decisin para efectuar la prueba de hiptesis.
Ejemplo:
Una consultora es contratada por un importante establecimiento de educacin privada, con el
fin de verificar los gastos mensuales de las todas las familias de la ciudad de Ayacucho
destinados mensualmente a la educacin, que hasta el ao 2001 rondaban los $ 3.700.000.
Partiendo del supuesto de que los gastos de cada familia tienen una distribucin Normal, y
que la reciente recesin los puede haber hecho disminuir, se observa una muestra de 36
familias con la que se calcula un promedio de $ 170 y un desvo estndar de $ 60. En el
ltimo censo la cantidad total de familias era de 20.000. La evidencia muestral obtenida
confirma o no el supuesto del establecimiento ?. Realizar la prueba con un nivel de confianza
del 90 %.
95

Respuesta:
El Ensayo de Hiptesis a realizar es el siguiente:
H0) X = X0 = $ 3.700.000 (total a comprobar en el estudio)
H1) X = X1 < $ 3.700.000 (en base al supuesto planteado)
Los datos previos y la muestra suministran los siguientes resultados:
N = 20.000 familias
n=

36 familias

x = $ 170 por familia (Promedio Muestral)


N. x = 20.000 . 170 = 3.400.000 personas (Estimacin Puntual)
Sx = $ 60 S N . x = 20.000 . (60 / 361/2).[(20.000 - 36)/(20.000 - 1)] 1/2 = 20.000 .
(10 . 0,999) = $ 199.800
Se desea realizar la prueba con un nivel de riesgo del 10 % (es decir que

= 0,10)

Siendo n = 36 familias una muestra chica, pero al ser x (gastos en educacin) ~ N( ,


el

desconocido, es posible adoptar que el estimador N. x ~ tS (X0 ,

X0 = $ 3.700.000 y

N .x

)y

donde:

S N . x = $ 199.800.

En base a ello, es posible calcular un valor de N. x alejado hacia la derecha (N. x c), tal que:
P(N. x < N. x c) =

= 0,10 tc = -1,3062 N. x c = 3.700.000 - 1,3062 . 199.800 =

$ 3.439.000 aproximadamente, que es el Valor Crtico.


Para hacer la prueba solicitada se compara: N. x = 3.400.000 < N. x c = 3.439.000 ; es
decir que la media muestral es levemente menor que el Valor Crtico, por lo que se concluye
que SE RECHAZA la H0, por lo que se supone que las familias de Ayacucho han
modificado sus gastos mensuales en educacin.
d) Qu hubiese sucedido si la muestra hubiese sido de 500 familias ?.
Respuesta:
Ante esta situacin se plantean dos cuestiones para analizar:
Con la muestra grande la x ~ Normal, lo que agranda la regin de rechazo y no se
modificara la decisin tomada (se sigue Rechazando la Hiptesis nula).
Al ser n ms grande, se achica el valor del N . x , se ampla la Regin de Rechazo y se
reafirma lo decidido con la muestra de 36 de Rechazar H0.
e) Se hubiese mantenido la decisin si el nivel de confianza se fijaba en el 99,5 % ?.
Respuesta:
No. Es probable que la decisin cambiara, ya que un
menor achica la Regin de
Rechazo, y al estar tan cercanos los valores promedio y crtico, se podra modificar
(habra que rehacer los clculos).
f)Y si se desconociera la poblacin de familias de Ayacucho, se modificara la decisin ?.
Respuesta:
Si no se conoce el N no es posible realizar inferencias sobre el Total de la poblacin, ya
que se requiere su valor para los clculos.
96

g) Si el promedio de gastos por familia de la muestra hubiese dado $ 150, podra haberse
modificado el resultado de la prueba ?.
Respuesta:
No, ya que el valor muestral se aleja en menos del que se est verificando, con lo cual se
separan el valor promedio y el crtico.
NOTA: Como ya se lo mencion en el caso A., el problema podra haberse resuelto tambin
transformndolo en un caso de Prueba de Hiptesis para el Promedio.
C. Ensayo de Hiptesis Bilateral (o de dos colas)
El razonamiento es similar a los anteriores, con la zona de rechazo de H0 a
ambos lados. Veamos:
En este caso el planteo genrico es el siguiente: Se afirma que el total de
una poblacin es X0, contra la alternativa de que es diferente a ese valor (representado por X1). De
esta afirmacin derivan las siguientes hiptesis:
H0 ) X = X 0
H1 ) X = X 1 X 0
Como ya se lo hizo anteriormente, hecho el planteo, la definicin sobre
cul de las hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se
calcular el estimador Muestral del Total.
Para los casos en que N. x

P(N. x < N. x c1) = /2 ; P(N. x > N. x c2) = /2

N(X0 ,

N .x

) se tendr:

y P(N. x c1 < N. x < N. x c2) = (1 - )

y si es suficientemente chica, es de esperar que la N. x caiga entre N. x c1 y N. x c2 (denominados


Valores Crticos), ya que la probabilidad de que suceda eso es grande.
Si en una muestra en particular no sucediera eso, se podra sospechar que
ocurre porque no es cierto que X = X0, sino que X = X1 donde X1 X0.
Repitiendo lo realizado en los casos anteriores, partiendo de ese
razonamiento es posible enumerar los pasos a realizar a partir de la afirmacin de las hiptesis,
y plantear la regla de decisin. Tantas veces ya se lo ha realizado que se considera innecesario
volver a desarrollarlo.
Ejemplo:
Habiendo transcurrido casi 10 aos desde la realizacin del ltimo Censo Econmico, en el
Ministerio de Economa y Produccin se desea verificar la cantidad de personal ocupado en
el sector Turismo, que en dicho censo llegaban a 125.000 personas de todos los niveles. Se ha
identificado a las empresas que se desempean en ese sector las que son en total 12.500
(agencias, hoteles, etc.). Con el fin de realizar la verificacin, se extrae una muestra de 900
empresas de todo tipo, en las que se registran 11.700 personas ocupadas, mientras que la
dispersin entre ellas fue de 9 personas. Realizar la comprobacin con un riesgo del 2 %.
Respuesta:
Se requiere la realizacin de la siguiente prueba:
97

H0) X = X0 =125.000

personas ocupadas

H1) X = X1 X0 = 125.000

La informacin disponible es la siguiente:


N = 12.500 empresas
n=

900

Total en la Muestra: 11.700 personas ocupadas ; x = 11.700 / 900 = 13 personas


S = 9 personas ; de donde:
N .S

S N .x

(N

n ) /( N

1)

12 . 500 . 9

(12 . 500

900 ) /( 12 . 500

1)

900

= 12.500. 0,3 . 0,96 = 0,29 = 3.625 personas


Por ser la muestra grande,
N. x ~ N(125.000; 3.625)
1-

si es cierta H0

se puede adoptar que

= 0,98 zc1 = - 2,33 y zc2 = 2,33 ; es decir que: zc = 2,33

Con el valor de zc se calculan los lmites de la Regin de No Rechazo:


Xc1 = 125.000 2,33 . 3.625 = 116.553,75 personas
Xc2 = 125.000 + 2,33 . 3.625 = 133.446,25

Comparando esos lmites con el valor muestral:


N. x = 125.000 . 13 = 162.500 > Xc2 = 133.446,25 debe Rechazarse H0.
NOTA: Como ya fue mencionado en los casos previos, el problema podra haberse resuelto
tambin transformndolo en un caso de Prueba de Hiptesis para el Promedio.

6. Pruebas de Hiptesis para la Proporcin Poblacional (P)


Con el mismo esquema del caso del Total Poblacional , y como ya se lo
hizo en otros temas de Inferencia Estadstica, a partir de los conceptos de Prueba de Hiptesis
desarrollados para la Media Poblacional, se enunciarn escuetamente los correspondientes a la
Proporcin de una Poblacin (P).
A. Ensayo de Hiptesis Unilateral Derecha
El planteo genrico es el siguiente: Se afirma que la Proporcin de una
poblacin es P0, contra la alternativa de que es mayor que ese valor (representada por P1). De esta
afirmacin derivan las siguientes hiptesis:
H0) P = P0
H1) P = P1 > P0
Como en los otros casos analizados, la definicin sobre cul de las hiptesis
es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la estimacin
Muestral de la Proporcin (p). El razonamiento a realizar es el siguiente:
98

Si es cierta H0, el estimador p debe tener una distribucin cuyo promedio es P0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de p ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que p ~
P(p > pc) =

N(P0 ,

) se tendr:

y P(p < pc) = (1 - )

y si es suficientemente chica, es de esperar que la p no supere el valor pc (denominado Valor


Crtico), ya que la probabilidad de que eso suceda es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que P = P0, sino que P = P1 donde P1 > P0.
Como en los dems casos, este razonamiento permite enumerar los pasos
a realizar a partir de a afirmacin de las hiptesis, y plantear la regla de decisin. No tiene
sentido volver a desarrollarlos.
Ejemplos:
Durante el ltimo mes, una telenovela de horario central tuvo una audiencia promedio del 20
%. Habindose producido modificaciones en la programacin de la mayora de los canales de
aire, se desea comprobar si la misma permanece invariable, o bien si la incorporacin al
elenco de una estrella de la comedia nacional, puede haberle hecho aumentar el rating.
Para realizar dicha comprobacin, se mide la audiencia en un conjunto de 625 hogares,
encontrndose que la de la telenovela es del 22,5 %.
a. Realizar la comprobacin con un riesgo de errar en la decisin del 3 %.
Respuesta:
Se desea verificar:
H0) P = P0 = 20 %
H1) P = P1 > P0 = 20 %
Para hacerlo se cuenta con la siguiente informacin:
n = 625
N desconocida (sera la poblacin total que potencialmente podra estar viendo
televisin)
p = 22,5 %
= 0,03
Siendo que n es grande, puede aceptarse que la proporcin muestral tiene distribucin
Normal, es decir, si es cierta H0: p ~ N(0,2 , (0,2.0,8) / 625 = 0,016)
De esta forma: P(p > pc) =

P(z > zc) =

= 0,03 zc = 1,88

99

pc = 0,2 + 1,88 . 0,016 = 0,23 de donde: siendo p = 0,225 < pc = 0,23 no debemos
Rechazar H0 y concluir que la incorporacin de la nueva figura a la telenovela, no
increment sustancialmente la audiencia de la misma.
b. Si la muestra hubiese sido ms pequea (pr ej.: 300 familias), se podra haber
modificado la decisin de rechazar H0 ?.
Respuesta:
Una muestra menor, incrementa el valor de p , con lo cual el valor crtico (pc) se aleja
an ms de P0 = 0,20, y el p muestral (0,225) sigue cayendo dentro de la zona de no
rechazo de H0.
c. Si el nivel de confianza hubiese sido del 90 %, podra haberse modificado la conclusin
del punto a) ?.
Respuesta:
Conceptualmente, un riesgo mayor ( = 0,10), agranda la zona de rechazo de H0 , y
podra modificarse la decisin de no rechazarla (deberan rehacerse los clculos).
B. Ensayo de Hiptesis Unilateral Izquierda
Combinando lo analizado para la Media Poblacional unilateral izquierda,
con lo visto antes para la Proporcin, es muy simple concluir la forma que adoptara el test o ensayo
de hiptesis, ya que el planteo genrico es el siguiente: Se afirma que la Proporcin de una
poblacin es P0, contra la alternativa de que es menor que ese valor (representada por P1). De esta
afirmacin derivan las siguientes hiptesis:
H0) P = P0
H1) P = P1 < P0
Como en los otros casos analizados, la definicin sobre cul de las hiptesis
es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la estimacin
Muestral de la Proporcin (p). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador p debe tener una distribucin cuyo promedio es P0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de p ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que p ~
P(p < pc) =

N(P0 ,

) se tendr:

y P(p > pc) = (1 - )

y si es suficientemente chica, es de esperar que la p no sea menor que el valor pc (denominado


Valor Crtico), ya que la probabilidad de que eso suceda es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que P = P0, sino que P = P1 donde P1 < P0.
Ejemplo:
100

En el mismo caso anterior de la audiencia de la telenovela, si se pensara que las


modificaciones en la programacin de la mayora de los canales de aire la hicieron
disminuir, para realizar la prueba se mide la audiencia en un conjunto de 400 hogares,
encontrndose que el rating de la telenovela es del 16,0 %. La prueba en este caso debe
ser hecha con una confianza del 80 %.
Respuesta:
Se desea verificar:
H0) P = P0 = 20 %
H1) P = P1 < P0 = 20 %
Para hacerlo se cuenta con la siguiente informacin:
n = 400
N sigue siendo desconocida
p = 16,0 %
= 0,20
Siendo que n es grande, puede aceptarse que la proporcin muestral tiene distribucin
Normal, es decir, si es cierta H0: p ~ N(0,2 , (0,2.0,8) / 400 = 0,02)
De esta forma: P(p < pc) =

P(z < zc) =

= 0,20 zc = 0,84

pc = 0,2 + 0,84 . 0,02 = 0,1868 de donde: siendo p = 0,16 < pc = 0,1868 debemos
Rechazar H0 y concluir que la incorporacin de los cambios en la programacin,
modificaron sustancialmente la audiencia de la telenovela hacindola disminuir.
C. Ensayo de Hiptesis Bilateral (de dos colas)
Combinando nuevamente lo analizado para la Media Poblacional bilateral,
con lo desarrollado para la Proporcin, se puede derivar la forma que adoptara la prueba de
hiptesis, con el siguiente planteo genrico: Se afirma que la Proporcin de una poblacin es P0,
contra la alternativa de que es diferente a ese valor (representada por P1). De esta afirmacin
derivan las siguientes hiptesis:
H0) P = P0
H1) P = P1 P0
Como ya se lo hizo en mltiples oportunidades, la definicin sobre cul de
las hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la
estimacin Muestral de la Proporcin (p). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador p debe tener una distribucin cuyo promedio es P0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de p ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que p ~
P(p < pc1) = /2 ; P(p > pc2) = /2 ;

N(P0 ,

) se tendr:

P(pc1 < p < pc2) = (1 - )


101

y si es suficientemente chica, es de esperar que la p caiga entre los valores pc1 y pc2 (denominados
Valores Crticos), ya que la probabilidad de que eso suceda es grande.
Si en una muestra en particular no sucediera eso, se podra sospechar que
ocurre porque no es cierto que P = P0, sino que P = P1 donde P1 P0.
Ejemplo:
Continuando con el problema de la audiencia de la telenovela, si no se intuyera la forma en
que podran haber influido las modificaciones en la programacin de la mayora de los
canales de aire, lo lgico sera hacer una prueba bilateral,en la cual se desconoce el sentido
del cambio, y para realizarlo se mide la audiencia en un conjunto de 324 hogares,
encontrndose que el rating de la telenovela es del 21,8 %. La prueba en este caso debe
ser realizada con una nivel de riesgo del 0,05.
Respuesta:
Se desea verificar:
H0) P = P0 = 20 %
H1) P = P1 P0 = 20 %
Para hacerlo se cuenta con la siguiente informacin:
n = 324
N sigue siendo desconocida
p = 21,8 %
= 0,05
Siendo que n es grande, puede aceptarse que la proporcin muestral tiene distribucin
Normal, es decir, si es cierta H0: p ~ N(0,2 , (0,2.0,8) / 324 = 0,0222)
De esta forma: P(pc1 < p < pc2) =(1 - ) = 0,95 P(z < zc1) = /2 = 0,025 zc1 = - 1,96
y ser P(z > zc2) = /2 = 0,025 zc2 = 1,96. Con estos valores de la Normal estndar:
pc1 = 0,2 1,96 . 0,0222 = 0,1564 ; pc2 = 0,2 + 1,96 . 0,0222 = 0,2436
de donde: siendo p = 0,218 > pc1 pero < pc2 ; debemos no Rechazar H0 y concluir
que los cambios en la programacin, no modificaron sustancialmente la audiencia de
la telenovela.

7. Pruebas de Hiptesis para la Cantidad de Casos Favorables (NA)


No hace falta repetir que se esquematizarn para los Casos Favorables
(NA), los mismos pasos ya vistos para los anteriores parmetros.
A. Ensayo de Hiptesis Unilateral Derecha
Se afirma que la Cantidad de Casos Favorables de una poblacin es NA0,
contra la alternativa de que es mayor que ese valor (representada por NA1). De esta afirmacin
derivan las siguientes hiptesis:
102

H0) NA = NA 0
H1) NA = NA 1 > NA 0
La definicin sobre cul de las hiptesis es vlida, se realizar extrayendo
una muestra de n unidades con la que se calcular la estimacin Muestral de la Cantidad de Casos
Favorables (NA). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador de NA (N.p) debe tener una distribucin cuyo promedio es
NA0 y cuya dispersin ser la de la de la distribucin correspondiente al estimador. En el
caso analizado oportunamente (n grande), la distribucin del estimador de N.p ser
Normal, y podr utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que N.p ~
P(N.p > N.pc) =

N(N0 ,

Np

) se tendr:

y P(N.p < N.pc) = (1 - )

y si es suficientemente chica, es de esperar que la N.p no supere el valor N.pc (denominado Valor
Crtico), ya que la probabilidad de que eso suceda es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que NA = NA0, sino que NA = NA 1 donde NA 1 > NA0.
Como en los dems casos, este razonamiento permitira enumerar los
pasos a realizar a partir de a afirmacin de las hiptesis, y plantear la regla de decisin. No
tiene sentido volver a desarrollarlos.
Ejemplos:
En el caso de la telenovela de horario central manteniendo que haba registrado una
audiencia promedio del 20 %, y agregando que la poblacin de la ciudad en la que se realiza
el estudio es de 250.000 habitantes, se desea comprobar si la poblacin que mira la
telenovela permanece invariable, o bien si la incorporacin al elenco de una estrella de la
comedia nacional puede haberla hecho aumentar. Para realizar la comprobacin, con una
muestra de 400 personas se obtiene que los que miraron la telenovela fueron 112.
a. Realizar la comprobacin con un nivel de confianza del 95 %.
Respuesta:
Se desea verificar:
H0) NA = NA 0 = 50.000 personas (20 % de los 250.000 habitantes)
H1) NA = NA 1 > NA 0 = 50.000 personas
Para hacerlo se cuenta con la siguiente informacin:
n = 400
N = 250.000
p = 112 / 400 = 0,28 = 28 % ; N.p = 250.000 . 0,28 = 70.000 habitantes
= 0,05

103

Siendo que n es grande, puede aceptarse que la proporcin muestral tiene distribucin
Normal, es decir que, si es cierta H0: N. p ~ N(50.000 ; 250.000 (0,2.0,8) / 400 =
5.000)
De esta forma: P(NA > NA c) =

P(z > zc) =

= 0,05 zc = 1,645

NAc = 50.000 + 1,645 . 5.000 = 58.225 personas


de donde: siendo N.p = 70.000 > NA c = 58.225 debemos Rechazar H0 y concluir que la
incorporacin de la nueva figura a la telenovela, increment sensiblemente la audiencia
de la misma.
b. Si la muestra hubiese sido ms pequea (por ej.: 300 familias), se podra haber
modificado la decisin de rechazar H0 ?.
Respuesta:
Una muestra menor, incrementa el valor de Np , con lo cual el valor crtico (NA c) se
aleja an ms de NA0 = 50.000, y el N.p muestral (70.000) podra caer dentro de la zona
de no rechazo de H0. Debera hacerse nuevamente el clculo para determinar si cambia
la conclusin anterior.
c. Si el nivel de confianza hubiese sido del 90 %, podra haberse modificado la conclusin
del punto a) ?.
Respuesta:
Conceptualmente, un riesgo mayor ( = 0,10), agranda la zona de rechazo de H0 , con lo
cual no podra modificarse la decisin de rechazarla.
NOTA: El problema podra haberse resuelto tambin transformndolo en un caso de Prueba de
Hiptesis para la Proporcin.
B. Ensayo de Hiptesis Unilateral Izquierda
Combinando lo analizado para el Total Poblacional unilateral izquierda,
con lo visto para la Proporcin, es muy simple concluir la forma que adoptara el test o ensayo de
hiptesis, ya que el planteo genrico es el siguiente: Se afirma que la Cantidad de Casos de una
poblacin es NA0, contra la alternativa de que es menor que ese valor (representada por NA 1). De
esta afirmacin derivan las siguientes hiptesis:
H0) NA = NA 0
H1) NA = NA 1 < NA 0
Como en los otros casos analizados, la definicin sobre cul de las hiptesis
es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la estimacin
Muestral de la Cantidad de Casos (NA). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador NA debe tener una distribucin cuyo promedio es NA0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de NA ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que NA ~

N(NA 0 ,

NA 0

) se tendr:
104

P(NA < NA c) =

y P(NA > NA c) = (1 - )

y si es suficientemente chica, es de esperar que la NA no sea menor que el valor NAc (denominado
Valor Crtico), ya que la probabilidad de que eso suceda es pequea.
Si en una muestra en particular sucediera eso, se podra sospechar que
ocurre porque no es cierto que NA = NA0, sino que NA = NA 1 donde NA 1 < NA0.
Ejemplo:
En el mismo caso de la audiencia de la telenovela, si se pensara que las modificaciones en la
programacin de la mayora de los canales de aire la hicieron disminuir, para realizar la
prueba se mide la audiencia en un conjunto de 400 hogares, encontrndose que el rating
de la telenovela es del 16,0 %. La prueba en este caso debe ser hecha con una confianza del
80 %.
Respuesta:
Se desea verificar:
H0) NA = NA 0 = 50.000 personas (20 % de los 250.000 habitantes)
H1) NA = NA 1 < NA 0 = 50.000 personas
Para hacerlo se cuenta con la siguiente informacin:
n = 400
N = 250.000
NA = N.p = 250.000 . 0,16 = 40.000 habitantes
= 0,20
Siendo que n es grande, puede aceptarse que la Cantidad de Casos muestral tiene
distribucin Normal, es decir que, si es cierta H0: N. p ~
N(50.000 ; 250.000
(0, 2.0,8) / 400 = 5.000)
De esta forma: P(NA > NA c) =

P(z > zc) =

= 0,20 zc = 0,84

NAc = 50.000 0,84 . 5.000 = 45.800 personas


de donde: siendo N.p = 40.000 < NA c = 45.800 debemos Rechazar H0 y concluir que
los cambios en las programaciones, disminuyeron sensiblemente la audiencia de la
telenovela.
NOTA: Como ya se lo mencion en el caso A., el problema podra haberse resuelto tambin
transformndolo en un caso de Prueba de Hiptesis para la Proporcin.
C. Ensayo de Hiptesis Bilateral (de dos colas)
Combinando nuevamente lo analizado para la Media Poblacional bilateral,
con lo desarrollado para la Proporcin, se puede derivar la forma que adoptara la prueba de
hiptesis, con el siguiente planteo genrico: Se afirma que la Cantidad de Casos Favorables a una
cierta opcin de una poblacin es NA0, contra la alternativa de que es diferente que ese valor
(representada por NA1). De esta afirmacin derivan las siguientes hiptesis:
H0) NA = NA 0

H1) NA = NA 1 NA 0
105

Como ya se lo hizo en mltiples oportunidades, la definicin sobre cul de


las hiptesis es vlida, se realizar extrayendo una muestra de n unidades con la que se calcular la
estimacin Muestral de la Cantidad de Casos (NA). El razonamiento a realizar es el siguiente:
Si es cierta H0, el estimador NA debe tener una distribucin cuyo promedio es NA0 y cuya
dispersin ser la de la de la distribucin correspondiente al estimador. En el caso
analizado oportunamente (n grande), la distribucin de NA ser Normal, y podr
utilizarse esta funcin para continuar con el razonamiento del ensayo.
En los casos en que NA ~
P(NA < NAc1) = /2 ; P(NA > NAc2) = /2

N(NA 0 ,

NA 0

) se tendr:

y P(NAc1 < NA < NAc2) = (1 - )

y si
es suficientemente chica, es de esperar que la NA caiga entre los valores NAc1
(denominados Valores Crticos), ya que la probabilidad de que eso suceda es pequea.

NAc2

Si en una muestra en particular sucediera eso, se podra sospechar que


ocurre porque no es cierto que NA = NA0, sino que NA = NA 1 donde NA 1 NA0.
Ejemplo:
Finalizando con el problema de la audiencia de la telenovela, si no se intuyera la forma en
que podran haber influido las modificaciones en la programacin de la mayora de los
canales de aire, lo lgico sera hacer una prueba bilateral, en la cual se desconoce el sentido
del cambio, y para realizarlo se mide la audiencia en un conjunto de 324 hogares,
encontrndose que el rating de la telenovela es del 21,8 %. La prueba en este caso debe
ser realizada con un nivel de riesgo del 0,05.
Respuesta:
Se desea verificar:
H0) NA = NA0 = 50.000 personas (20 % de los 250.000 habitantes)
H1) NA = NA1 NA0 = 50.000 personas
Para hacerlo se cuenta con la siguiente informacin:
n = 324
N = 250.000
NA = N.p = 250.000 . 0,218 = 54.400 habitantes
= 0,05
Considerando que n es grande, puede aceptarse que la Cantidad de Casos muestral
tiene distribucin Normal, es decir que, si es cierta H0: N. p ~ N(50.000 ; 250.000
(0, 2.0,8) / 400 = 5.000)
De esta forma: P(NA < NA c1) =
P(z < zc1) =

/ 2 y P(NA > NA c2) =

/ 2 = 0,025 zc1 = -1,96 y P(z > zc2) =

NAc1 = 50.000 1,96 . 5.000 = 45.800 personas

/2
/ 2 = 0,025 zc2 = 1,96

NAc2 = 50.000 + 1,96 . 5.000 = 54.200 personas

106

de donde: siendo N.p = 54.400 > NAc2 = 54.200 debemos Rechazar H0 y concluir que
los cambios en las programaciones, modificaron sensiblemente la audiencia de la
telenovela.
NOTA: Como ya se lo mencion anteriormente, el problema podra haberse resuelto tambin
transformndolo en un caso de Prueba de Hiptesis para la Proporcin.

8. Prueba de Hiptesis para la Variancia (2)


En el caso de la Variancia (o del Desvo Estndar), la nica prueba que
interesa realizar es la de la derecha, ya que lo que preocupa es que la dispersin sea mayor
que algn valor que se desea comprobar (dispersiones pequeas o menores que las supuestas,
son beneficiosas para los trabajos de inferencia estadstica). En ese caso se tendr como
planteo:

H0) 2 = 20
H1) 2 > 20
Para realizar la prueba debe recurrirse al estimador muestral, que en este
caso es S , que se distribuye como un Chi Cuadrado modificado. La prueba ser realiza fijando
un valor crtico del estimador (S2c), a la derecha de la funcin, de acuerdo con el nivel de
confianza (o de riesgo) fijado para la prueba. En este caso ser:
2

S2c = 20 . 2(1 ) / (n 1)
Como en los casos anteriores, la definicin sobre cul de las dos hiptesis es
vlida, se realizar extrayendo una muestra de n unidades con la que se calcular el estimador
Muestral de la Variancia (S2).
Se compara S2 con el valor S2c ; si resulta S2 < S2c NO SE RECHAZA H0,
adoptndose que 2 = 20.
Si la comparacin diera que S2 > S2c SE RECHAZA H0, ya que se
considera que existen evidencias significativas para rechazar que 2 = 20, adoptndose H1
en la que se propona que 2 = 21 > 20.
GRFICAMENTE

(modificada)

1-

S2
Zona / Regin de NO Rechazo

S2c

Zona / Regin de Rechazo


107

Ejemplo:
En la Repblica Argentina, durante la dcada del 80, pudo verificarse que el consumo de
carne por persona tena una distribucin aproximadamente Normal, con un promedio
mensual de 4, 5 kg. y un desvo estndar de 1,5 kg.
Debido a las modificaciones econmicas producidas, se supone que la dispersin pudo
haberse incrementado, y para comprobarlo con un nivel de riesgo del 5 %, se observa una
muestra de 80 personas, con las que se obtienen los siguientes resultados: Promedio = 4,65
kg. - Desvo Estndar = 3 kg.
a) Comprobar si el Desvo Estndar se increment (en realidad la prueba exacta se
realiza con la Variancia).
b) Comprobar si el Promedio se increment.
Respuesta:
a) Se realizar previamente la prueba de hiptesis para la Variancia, correspondiendo
plantear:
H0) 2 = 20 = 2,25 kg.
H1) 2 > 20 o

2 > 2,25 kg.

Para hacerlo se cuenta con la siguiente informacin:


n = 80

x = 4,65 kg.

S2 = 9 kg. 2 (valor emprico) ; = 0,05

2(0,95) / (79) = 100,75 Chi Cuadrado terico


2

La Variancia Crtica es: S c = 2,25 . 100,75 / 79 = 226,69 / 79 = 2,87 kg. 2


2

Se verifica que S2 = 9 kg. 2 > S c =2,87 kg. 2 con lo cual se Rechaza H0


Grficamente:

n = 80
= 0.05

S c = 2,87

S2 = 9

Zona / Regin de Rechazo

En base a esa conclusin, se puede decir que el Desvo Estndar ()


b) Para la Media Aritmtica corresponde realizar una Prueba de Hiptesis Unilateral
Derecha (ver Punto 4.A. de este Captulo).

108

VII.ASOCIACIN Y RELACIN ENTRE VARIABLES


1. Introduccin
En el Captulo 1., se comenz a trabajar con tcnicas estadsticas que
relacionan ms de una unidad por vez, confeccionndose Indicadores o Relaciones, con los que
se resuma la informacin bsica enriquecindose el anlisis de los datos.
Naturalmente, esa no es la nica forma de relacionar y trabajar con ms de
una variable, sino que por el contrario, desde las ltimas dcadas del siglo XX los avances en el
procesamiento electrnico de la informacin, posibilitaron que desarrollos tericos multivariados
realizados aos atrs puedan ser llevados a la prctica, amplindose adems ese campo especfico
de la Estadstica.
Como una breve introduccin al tema es posible mencionar que la relacin
entre variables se realiza mediante el estudio de:
La existencia o no de relacin o asociacin.
La importancia, grado o fuerza de la misma.
El sentido o direccin de la relacin/asociacin.
El tipo o naturaleza de la misma.
Si bien no existen limitaciones en la cantidad de variables que pueden llegar
a formar parte de un estudio estadstico de relacin o asociacin entre ellas, a fin de facilitar la
comprensin y el anlisis del tema, exceptuando algunas menciones en ejemplos del momento, en
este captulo slo se analizar en detalle el caso de dos variables.
Con esta simplificacin, y sin utilizar los trminos precisos para los que se
requieren otros conocimientos previos, puede decirse que existe asociacin o relacin entre dos
variables, cuando la presencia o resultados de una de ellas, influye en la presencia o resultados de
la otra (14).
Con respecto a la existencia o no de relacin/asociacin entre dos
variables, la forma de determinarlo es verificando la citada definicin, para lo cual se requiere
aplicar alguno de los varios mtodos desarrollados para hacerlo.
Lo mismo sucede con respecto a la importancia, grado o fuerza de la
relacin/asociacin, para lo cual tambin se han desarrollados mtodos especficos aplicables de
acuerdo a las condiciones que se verifican, los cuales pueden llevar en algunos casos a valores
numricos que determinan esa importancia..
Sobre el sentido o direccin de la relacin/asociacin, slo consiste en
determinar la orientacin de la misma (si es que existe), la que usualmente queda determinada por
los mtodos que se aplican para responder las dos cuestiones previas.
Finalmente, con respecto al tipo o naturaleza de la relacin/asociacin,
se requiere realizar algunas disquisiciones, ya que se plantean varios posibles tipos:

(14)

Una forma ms precisa de definirla, es decir que existe asociacin entre dos variables cuando la distribucin
condicional de una variable difiere de algn modo entre las diversas categoras de la segunda variable. Otra ms
terica, expresa que existe asociacin cuando la presencia de una variable modifica la probabilidad de presencia de
la otra.
109

Dependencia Causal Unilateral: cuando una de las variables influye sobre la otra pero no
sucede a la inversa. El ejemplo clsico es el de la cantidad de lluvia cada y produccin
agrcola, ya que mientras que se reconoce la influencia de la primera sobre la segunda, pero
es ilgico pensar en la situacin inversa.
Interdependencia Causal: aquellos casos en que ambas variables se influyen recprocamente,
siendo en este caso el ejemplo clsico el de la cantidad demandada de un bien y el precio
del mismo.
Dependencia Indirecta: aquellas situaciones en las cuales existe relacin/asociacin entre dos
variables, pero que la misma se da a partir de una tercera que es la que las une. Los ejemplos
ms comunes estn dados a partir de todas las variables que dependen de la cantidad de
poblacin de una regin (consumo de leche, venta de zapatos, cantidad de robos, polucin
ambiental, etc., con las que se podran encontrar relaciones de a pares, pero en las que las
mismas se explican por estar todas vinculadas con la cantidad de personas.
Dependencia Casual: aquellas variables que sin estar aparentemente vinculadas, presentan en
sus comportamientos variaciones asociadas sin explicacin razonable.
La definicin simplificada indicada anteriormente puede aplicarse a todo
tipo de variables: cualitativas (nominales u ordinales) o cuantitativas (discretas o continuas). En los
puntos siguientes se analizan algunas de las alternativas posibles, presentndose conceptualmente y
sin mayores desarrollo tericos los principales mtodos para analizar su asociacin o relacin.
2. Asociacin entre Variables Cualitativas

(15)

El trmino asociacin justamente se reserva para las variables


cualitativas. Debe recordarse que estas son aquellas cuyos resultados se expresan con palabras, por
lo que no son factibles de resumirlas en medidas que las caractericen (promedios, coeficientes,
etc.), y en el mejor de los casos, sus resultados pueden ser volcados en tablas y grficos de
frecuencias absolutas o relativas.
Y esas son las formas de anlisis que se proponen para determinar si existe
o no asociacin entre dos pares de estas variables. De la misma forma que al trabajarse con una sola
de ellas, era posible preparar una tabla de frecuencias (determinando de esa forma la importancia de
cada resultado diferente), y expresarlas tanto en trminos absolutos o relativos, al trabajarse con dos
variables conjuntamente es posible construir una tabla a doble entrada a la que se denomina Tabla
de Contingencia, en la que se presenta la distribucin de ambas en forma conjunta.
Conceptualmente se tendra:
Siendo:
Xi: resultado i-simo de una variable X que toma valores desde 1 hasta k
Yj: resultado j-simo de una variable Y que toma valores desde 1 hasta l
f ij: frecuencia conjunta de los resultados Xi e Yj
f i.: frecuencia marginal de Xi
f .j: frecuencia marginal de Yj
f = n: cantidad de casos en los que se miden las variables Xi e Yj

(15)

En realidad la metodologa que se desarrolla en este punto, es de utilidad para determinar asociacin entre todo tipo
de variables, no solo las de tipo cualitativas o de atributos.
110

Es posible disponer los resultados de ambas variables en una tabla a doble


entrada de la siguiente forma:
Tabla de Contingencia
Yj
Xi

Y1

Y2

Yj

Yl

TOTAL

X1

f 11

f 12

f 1j

f 1l

f 1.

X2

f 21

f 22

f 2j

f 2l

f 2.

Xi

f i1

f i2

f ij

f il

f i.

Xk

f k1

f k2

f kj

f kl

f k.

TOTAL

f .1

f .2

f .j

f .l

f=n

Con la informacin dispuesta de esta forma, de acuerdo a los valores de n, k


y l, no resultara simple determinar la existencia o no de asociacin entre las variables X e Y, pero
es posible calcular los valores relativos de las frecuencias, para lo cual se pueden tomar como
referencia o bien el valor de n, o los de las frecuencias marginales f i. o f .j.
De esto, resultaran una, dos o tres tablas de frecuencias relativas, que
resultan de ms fcil interpretacin a partir de un ejemplo con dos variables de dos categoras cada
una.
Ejemplo:
El laboratorio La Aguja Inquieta, realiza un estudio en el que se intenta determinar si el uso
de calmantes de venta libre, se encuentra asociado al nivel de estudios alcanzados por las
personas que los consumen, para lo cual realiza una consulta sobre 88 casos de los que
resulta:
Nivel de Estudios

Uso de Calmantes

TOTAL

SI

NO

Secundario o +

22

10

32

- de Secundario

15

41

56

TOTAL

37

51

88

Esto quiere decir por ejemplo que:


De las 88 personas consultadas, 32 personas tienen estudios de nivel secundario o
ms, de las cuales 22 utilizan calmantes de venta libre, mientras que las 10 restantes
no.
De las 51 que utilizan calmantes, 10 tienen estudios secundarios o ms, y las restantes
41 no.
Pese a que las cifras no son elevadas, la lectura de esta tabla para determinar la existencia o
no de asociacin entre las dos variables no resulta simple a partir de las frecuencias
absolutas que contiene.
111

Respuesta:
Una forma de facilitar su interpretacin, es calcular los porcentajes de participacin con
respecto al total de encuestados, para lo cual cada una de las cifras de la tabla se divide por
88 y se multiplica por 100, resultando (cifras redondeadas a un decimal):
Nivel de Estudios

Uso de Calmantes

TOTAL

SI

NO

Secundario o +

25,0

11,4

36,4

- de Secundario

17,0

46,6

63,6

TOTAL

42,0

58,0

100,0

Si bien estos valores pareceran no diferir demasiado de los anteriores, su expresin en


trmino de porcentajes, facilita su interpretacin, como por ejemplo:
Un 36 % de los entrevistados tiene un nivel de estudios secundarios o mayor.
El 58 % de las personas no utiliza calmantes.
Una cuarta parte de los consultados tienen nivel de estudios secundario o ms y
utilizan calmantes.
47 de cada 100 encuestados no utilizan calmantes y tienen menos estudios que el nivel
secundario.
La lectura de esta tabla, si bien facilita las comparaciones de las cifras, no alcanza para
determinar por ejemplo, si el nivel de estudios influye en el consumo de calmantes (16), cuya
respuesta resulta ms simple si se construye otra tabla con las frecuencias relativas a cada
uno de los niveles de estudios (siempre redondeando a un decimal):
Nivel de Estudios

Uso de Calmantes

TOTAL

SI

NO

Secundario o +

68,8

31,2

100,0

- de Secundario

26,8

73,2

100,0

TOTAL

42,0

58,0

100,0

Esta tabla permite realizar una mejor lectura comparativa:


Mientras que entre los que tienen estudios secundarios o ms, casi el 70 % utiliza
calmantes, entre los que tienen menor nivel de estudios solamente lo utiliza un 27 %.
Ambas cifras se pueden comparar con los % marginales del consumo de calmantes en
la totalidad de personas: el 42 % consume y el 58 % no.
Lectura similar puede hacerse comparando los % que presentan los que no consumen
calmantes, discriminando por nivel de estudios alcanzado.
La lectura y comparacin de estos guarismos, permite tener una idea sobre la existencia de
asociacin entre ambas variables, y hasta el sentido de la misma, ya que los de mayor nivel
de estudios, tienen niveles de consumo de calmantes muy superiores a los de menor nivel.
Pero, es factible tener alguna idea de la importancia o magnitud de esa relacin ?.

(16)

En este caso se tiene una asociacin causal de tipo unilateral, ya que no parece tener sentido decir que el uso de
calmantes influye en el nivel de estudios de las personas.
112

COEFICIENTE DIFERENCIA DE PROPORCIONES (17)


En este ejemplo de dos variables con dos categoras cada uno, la respuesta posible es a partir
de un indicador al que identificaremos con D y denominaremos diferencia de
proporciones (en nuestro caso seran porcentajes), donde a partir de las cifras de la ltima
tabla (la de frecuencias relativas a los totales marginales), deberamos calcular las
diferencias en valor absoluto del nivel de estudios, tanto entre los que consumen calmantes,
como entre los que no lo hacen (deben dar iguales). Veamos:
Entre los que SI consumen calmantes:
D = [69 % (tienen estudios secundarios o +) 27 % (tienen de estudios secundarios)] = 42 %

Entre los que NO consumen calmantes:


D =[31 % (tienen estudios secundarios o +) 73 % (tienen de estudios secundarios)] = 42 %

Debe tenerse presente que el valor de D oscila de 0 (cuando no existe asociacin entre las
variables), a 100 (cuando la asociacin es total), con lo cual el valor de D = 42 % indica una
asociacin importante aunque sin superar la mitad del indicador (18).
Aunque en este caso no tiene sentido su clculo (ya que la asociacin es causal unilateral), es
posible calcular la otra tabla de frecuencias relativas, hacindolas con respecto a los dos
subtotales de acuerdo al uso o no de calmantes:
Nivel de Estudios

Uso de Calmantes

TOTAL

SI

NO

Secundario o +

60

19

36

- de Secundario

40

81

64

TOTAL

100

100

100

De ser razonable, esta tabla permitira realizar una mejor lectura comparativa:
Mientras que entre los que consumen calmantes, el 60 % tienen estudios secundarios o
ms, entre los que no utilizan calmantes, apenas el 19 % tienen ese nivel de estudios.
Ambas cifras se pueden comparar con los % marginales del nivel de estudios en la
totalidad de personas: el 36 % consume secundario o ms y el 64 % menos.
Lectura similar puede hacerse comparando los % que presentan los que tienen nivel de
estudios menor al secundario, discriminando por consumo o no de calmantes.
En este caso, para el clculo del D se deben realizar las diferencias en sentido horizontal (es
decir comparando para cada nivel de estudios, el consumo y no consumo de calmantes):
Entre los que tienen nivel de estudios secundario o ms:
D = [60 % (consumen calmantes) 19 % (no consumen calmantes)] = 41 %

Entre los que tienen menor nivel de estudios que el secundario:


D =[40 % (consumen calmantes) 81 % (no consumen calmantes)] = 41 %
(17)

(18)

Esto permitira comparar el grado de relacin entre las mismas variables en conjuntos de personas de diversos
lugares; o comparar su evolucin en el tiempo; o hasta hacer comparaciones del grado de asociacin existente
comparada con la de otras variables.
En el captulo siguiente (Pruebas de Hiptesis No Paramtricas), se ver un mtodo que permite determinar si la
asociacin existente entre dos variables puede ser o no considerada significativa, es decir si puede adoptarse que
la relacin entre las variables es ms que casual y tiene asidero cientfico.
113

Lo que indica algo similar a lo concluido en el primer anlisis.


Resumiendo y generalizando, en casos de tablas de contingencias de dos por
dos (es decir que para cada variable se tienen dos alternativas (19)), si se quiere determinar la
existencia de asociacin entre dos variables X e Y, y medir la incidencia porcentual de una de ellas
sobre la otra, una vez construida la tabla de contingencia, y calculados los porcentajes respecto al
total de unidades (n), y a los totales marginales (f i. y/o f .j), es posible calcular el indicador:
D = [f 11 f 21] = [f 12 f 22] si se desea medir la incidencia porcentual de la variable X sobre la
variable Y.
O bien:
D = [f 11 f 12] = [f 21 f 22] si se desea medir la incidencia porcentual de la variable Y sobre la
variable X.
En cualquiera de ambos casos: 0 < D < 100 donde:
D = 0 implica inexistencia de asociacin o independencia entre las variables.
D = 100 indica total asociacin entre las dos variables.
Para determinar cuales de las tablas de porcentajes debe calcularse en cada
caso, en necesario realizar un anlisis lgico e intuitivo del problema, y evaluar si la posible
asociacin entre las variables es de tipo unilateral, bilateral, casual, etc., para posteriormente
determinar si adems de la tabla de porcentajes respecto al total n, debe calcularse una de la de
porcentajes las marginales, o las dos.
Tambin es factible el uso de formas grficas que ayuden a visualizar la
existencia o no de asociacin entre dos (o ms) variables, pudindose recurrir a rectngulos y otras
formas geomtricas con las que puedan representarse las variables y sus alternativas.
3. Asociacin entre una Variable Cualitativa y otra Cuantitativa
Ya se mencion en el punto anterior, que la metodologa desarrollada es de
utilidad tambin en otro tipo de variables, como por ejemplo las que se analizan en este punto (una
cualitativa y otra cuantitativa). No obstante ello, la existencia de una variable cuyos resultados se
expresan numricamente, permite agregar otros mtodos ms eficientes, recurriendo a varias de las
medidas resumen vistas en el anlisis descriptivo univariado (media aritmtica, mediana, modo,
desvo estndar, coeficiente de asimetra, etc.).
En este caso se deben utilizar las alternativas de la variable cualitativa, para
dividir a las unidades de anlisis en tantas partes como opciones tenga aquella, y trabajar cada
grupo de datos como si fuera una distribucin independiente de las dems, aplicndole todas las
tcnicas de anlisis descriptivo univariado (agrupamiento en frecuencias, clculo de medidas
resumen, tcnicas de anlisis exploratorio, etc.
La comparacin de los resultados (grficos y/o algebraicos), de cada uno de
los grupos conformados, debera sugerir la existencia o no de relacin/asociacin, y en caso
afirmativo, recurrir a algn mtodo que la dimensione.

(19)

Esta opcin es siempre factible, agrupando las alternativas en dos opciones mutuamente excluyentes, del tipo:
defectuoso y no defectuoso; alto y no alto; etc.
114

Ejemplo:
En la Encuesta Permanente de Hogares (EPH), se obtiene informacin sobre 250 hogares de
una zona del Gran Buenos Aires, clasificados con respecto al Nivel de Estudios alcanzado por
su Jefe (NE), y el Monto Total Mensual de los Ingresos del Hogar (NI) expresado en $. Con esa
informacin se prepara la siguiente tabla:
Nivel de Ingresos (en $)

Nivel de
Estudios

< 500

500 / 1.000 1.000 / 2.000

TOTAL
> 2.000

Alto
Medio
Bajo

5
15
20

10
25
45

15
25
40

30
15
5

60
80
110

TOTAL

40

80

80

50

250

A partir de esta informacin, es posible interpretar que ambas variables se encuentran


asociadas ?
En este caso, la apertura de ambas variables en ms de dos alternativas complica el anlisis,
veamos como se podra enfrentarlo:
1. En primer lugar, si se presupone que el NE influye o determina el NI, se podran calcular
los % relativos respecto a los subtotales de cada Nivel de Estudios.
Nivel de Ingresos (en $)

Nivel de
Estudios

< 500

500 / 1.000

1.000 / 2.000

> 2.000

Alto
Medio
Bajo

8,3
18,8
18,2

16,7
31,2
40,9

25,0
31,2
36,4

50,0
18,8
4,5

100,0
100,0
100,0

TOTAL

16,0

32,0

32,0

20,0

100,0

TOTAL

En esta tabla se aprecia que el NE Alto presenta un elevado % entre los hogares con ms
de $ 2.000 de ingresos totales (50 %) en desmedro de los otros intervalos; los de NE Bajo
apenas alcanzan a un 5 % en el tramo de ms de $ 2.000; mientras que los de NE Medio
tienen cifras parecidas al total de hogares. Esto sugiere la existencia de alguna relacin
entre ambas variables, lo que requerira ser confirmado o no a partir de otras tcnicas.
2. El paso siguiente, podra ser el obtener valores resumen para cada uno de los NE, como
por ejemplo (las cifras provienen de los 250 datos originales):
NE

XMn

XMx

Me

CV

Alto

60

420

4.500

2.120

1.970

650

0,31

Medio

80

380

3.800

1.150

1.050

620

0,54

Bajo

110

320

2.700

835

808

480

0,57

TOTAL

250

320

4.500

1.100

1.020

700

0,64

Puede apreciarse aqu tambin, que las cifras de los distintos NE muestran diferencias
notables. En caso de que se desee realizar una verificacin ms precisa, puede realizarse
alguna prueba de hiptesis paramtrica, comparando los resultados de las medidas de
cada uno de los grupos conformados.
115

En este caso de alternativas mltiples para ambas variables, no es posible calcular el


indicador D mencionado en el punto 2. de este captulo.
Tambin en este caso, resumiendo y generalizando, podemos decir que ante
la necesidad de analizar conjuntamente una variable cualitativa y una cuantitativa, debe procederse
a:
Clasificar a los datos en funcin de las alternativas existentes en la variable cualitativa,
conformando grupos o estratos (20) independientes.
Con cada uno de esos grupos aplicar todos los recursos que se disponga de la Estadstica
Descriptiva y el Anlisis Exploratorio de Datos, tanto los algebraicos como los grficos.
Comparar los resultados obtenidos en cada grupo, intentando determinar discrepancias y
similitudes entre ellos, aplicando cuando sea posible las tcnicas desarrolladas en el captulo
anterior sobre Pruebas de Hiptesis Paramtricas.
En caso de que se concluya que existe asociacin entre las variables, es posible obtener una
medicin de la misma calculando el coeficiente Razn de Correlacin, que se explicta a
continuacin.
EL COEFICIENTE RAZN DE CORRELACIN (RC)
Para la construccin de este coeficiente, se parte de que la Variabilidad o
Dispersin Total (VT) de una variable numrica, puede ser descompuesta o dividida en dos partes:
La Variabilidad o Dispersin existente dentro o intra de cada grupo que integra (VI).
La Variabilidad o Dispersin entre los diferentes grupos (VE).
Es decir:

VT = VI + VE

Mediante algunas simplificaciones algebraicas, es posible representar a las


variabilidades o dispersiones, mediante las sumas de los cuadrados de los desvos de los valores de
la variable cuantitativa, respecto a alguna de las medias o promedios calculados durante el
procedimiento. Especficamente:
VT = Suma de los cuadrados de los desvos de los valores respecto a la media total o general.
VI = Suma de los cuadrados de los desvos de los valores respecto a la media de cada uno de los
grupos o estratos que integra.
VE = Suma de los cuadrados de los desvos de las medias de cada grupo respecto a la media total.
A partir de estos conceptos se define al coeficiente Razn de Correlacin
(RC) de la siguiente forma:
RC = VE / VT

; donde

0 < RC < 1

(21)

donde:

RC = 0 implica inexistencia de asociacin o independencia entre las variables.


RC = 1 indica total asociacin entre las dos variables.
(20)

Estrato es un trmino de la Teora del Muestreo, con el que se identifica un grupo especfico de unidades que
tienen la particularidad de tener muchas semejanzas entre si, y diferir notablemente con las que integran otros
estratos.

(21)

En la mayor parte de la bibliografa, se identifica al RC con la letra griega

2 (eta al cuadrado).
116

Los fundamentos de este coeficiente, se encuentran en que, lgicamente, cuanto mayor sea la
relacin/asociacin entre las variables, menor ser la dispersin entre grupos (VI), y por ende
mayor ser el numerador VE (dispersin dentro de cada grupo), y mayor el valor de RC.
Ejemplo:
En el ejemplo antes desarrollado (250 hogares con datos de Nivel Educativo y Nivel de
Ingresos), recurriendo a las cifras individuales de cada hogar, pero agrupando los diversos
casos en dos Niveles Educativos: Nivel educativo Alto (NEA) y Nivel Educativo No Alto
(NENoA), sera posible calcular (en $2):
Respuesta:
La Variabilidad o Dispersin existente dentro o intra de cada grupo de hogares:
VIA = 25.350.000

; VINoA = 40.752.000

VI = 66.102.000

La Variabilidad o Dispersin existente entre grupos:


VE = 56.398.000
La Variabilidad o Dispersin Total:
VT = 122.500.000
El coeficiente Razn de Correlacin (RC):
RC = VE / VT = 56.398.000 / 122.500.000 = 0,46
Este resultado mide la relacin existente entre las dos variables, dando un valor de
relativa importancia (tener en cuenta que se debieron realizar agrupamientos en los
datos).
Tambin en este caso se dispone de algunos grficos que ayudan a visualizar el problema, y a tomar
decisiones respecto ala existencia o no de asociacin entre las variables, como por ejemplo la
comparacin de los Grficos de Bastones o los Histogramas de Frecuencias (segn que la variable
cuantitativa sea discreta o continua), que se pueden construir con los datos de cada grupo de la
variable cualitativa. De todas maneras, los que provienen del Anlisis Exploratorio de Datos
(Diagrama de Tallos y Hojas y Diagrama de Caja), son probablemente los ms eficientes en este
sentido.
4. Relacin entre dos Variables Cuantitativas
Ya se ha mencionado que dentro del tema relacin/asociacin entre
variables, se estn desarrollando los casos y los mtodos desde lo ms general a lo ms particular,
es decir, mientras que lo visto para el caso de dos variables cualitativas es aplicable a todos los
dems casos, lo desarrollado para una cualitativa y otra cuantitativa no es factible aplicarlo al
anterior, pero si al de dos variables numricas se analiza en este punto.
Este caso de dos variables cuantitativas es el ms especfico, para el cual se
ha logrado un desarrollo metodolgico profuso y de mucha mayor eficiencia que en los anteriores,
acorde a lo que ha sucedido dentro de la Estadstica en el desarrollo de las tcnicas aplicables a las
variables cualitativas y cuantitativas. Esto sucede debido a que con las variables cuantitativas es
factible aplicar los mtodos de Regresin y Correlacin, de amplio desarrollo terico y al que
tambin se han dedicado diversos sistemas de procesamiento electrnico de informacin.
En este caso, si bien parece ms lgico analizar primero el grado o
intensidad de la relacin existente entre las variables, para posteriormente (si es que ese anlisis
117

previo lo aconseja), pasar a determinar el tipo y orientacin de la misma, para el desarrollo del tema
en un curso de este nivel resulta ms apropiado plantearlo invirtiendo el orden: es decir que se ver
primero el tipo o naturaleza de la relacin, luego el sentido u orientacin, y finalmente el grado
o importancia con que se vinculan las variables.
Tomando como punto de partida la existencia y disponibilidad de los datos
correspondientes a dos variables aleatorias cuantitativas, el mtodo de Regresin tiene por objeto el
desarrollo de un modelo matemtico para explicar el comportamiento y predecir los valores de una
de esas variables (considerada dependiente o explicada), mediante el conocimiento y uso de los
valores de la otra variable (considerada independiente o explicativa). Al ser ambas variables
independientes (requisito indispensable del modelo), el rol de cada una de ellas puede rotar.
El desarrollo del mtodo lleva a determinar primero el tipo o naturaleza de
la relacin, y posteriormente el sentido u orientacin que tiene. Para lo primero (tipo o naturaleza
de la relacin), ni el transcurso del tiempo ni los adelantos tecnolgicos de los aos recientes han
podido superar el antiguo sistema de la representacin grfica, mediante la confeccin de un
Diagrama de Puntos o Dispersin, que consiste en representar e interpretar los valores
individuales en un grfico bidimensional, en el cual la abcisa se dedica usualmente a la variable
considerada explicativa, y la ordenada a la explicada, aunque esto no sea totalmente indispensable.

yi

yh

yh-1
.
yi

.
y2
y1

x1 x2

x3

x4 .. xi ... xk-1

xk

xi

El conjunto de los pares de puntos de las xi e yi que se vuelcan en el


Diagrama, es denominado nube de puntos. La lectura del ese Grfico, logra dar una idea del
tipo o naturaleza de la relacin, lo que permite definir el modelo de regresin a utilizar, el
que estar vinculado a la forma que adopte la nube.
Este modelo ser el que determine el sentido u orientacin de la relacin.
A ttulo de ejemplos, algunos Tipos de relacin pueden ser:

118

Rectilnea

Curvilnea

x x
x x
x x x x
x
x x
xx x
x x
x x x
xx x
x

Oscilante

xx
x x
x x x
xx x
xx x
x xx
x x x
xxx x
x xx xx x

xx
x
x

xx
xx

xx
x

x
xx

xx
xx
x

xx

MODELO DE REGRESIN LINEAL


De acuerdo a la forma que adopte la nube de puntos, los modelos de
regresin que se adapten a ellas pueden tomar formas algebraicas sencillas (rectas, parbolas, etc.),
o funciones matemticas complicadas (exponenciales, logartmicas, funciones compuestas, etc.). En
lo concerniente a este curso, se tomar para desarrollar el modelo ms simple: el lineal o
rectilneo, cuyo modelo terico se presenta de la siguiente forma:

Yi =
-

Xi +

donde:

Yi: es la variable dependiente o explicada


Xi: es la variable independiente o explicativa.

: es la ordenada al origen o la interseccin de la recta con el eje Y. Representa el valor de Y


cuando X es igual a cero.

: es la pendiente de la recta. Representa el cambio o incremento de Y por unidad de cambio o


incremento en X. Si este coeficiente fuera positivo la relacin entre ambas variables es
directa o positiva; si fuese negativo la relacin sera inversa o negativa.

: representa el Error aleatorio en Y para la observacin i-sima, es decir, la diferencia entre


los valores reales de Y y los correspondientes sobre la recta (Yi).

Si bien en la realidad, de acuerdo a la forma que adopte la nube de puntos


en el Diagrama de Dispersin, las formas o funciones a utilizar podran ser muy diversas, siempre
ser posible calcular una recta que se adapte bien o mal a los datos, y eso es lo que se har en este
curso.
Desde un punto de vista conceptual, para poder aplicar el modelo lineal al
anlisis de la relacin entre dos variables, debe verificarse previamente el cumplimiento de una
serie de supuestos que se requieren para que el modelo sea vlido. Aunque esto no ser tenido en
cuenta, sin entrar en mayores detalles, pueden mencionarse los siguientes supuestos:
LINEALIDAD: totalmente lgico ya que es lo que da origen a la funcin rectilnea
mencionada. En los casos en que no se cumpla esa condicin, si se usa un modelo lineal se
producirn ms errores de los esperados.
HOMOSCEDASTICIDAD: este supuesto es ms complejo de definir. Plantea que las
Variancias de las distribuciones de la variable Y (observada), alrededor de cada valor promedio
es la misma. Es decir:
2

(Y/X1 )

(Y/X2 )

=...=

(Y/ Xk )

(Y/X)

119

NORMALIDAD: supuesto que recin se podr comprender cuando se avance en la Carrera.


Plantea que los valores de Y observados para cada X, estn distribuidos normalmente alrededor
de cada promedio.
LA RECTA DE REGRESIN
A partir de un conjunto de n unidades sobre cada una de las cuales se
observan dos variables (cuantitativas), para la determinacin de la recta que las liga se puede
recurrir a una variedad de mtodos que difieren en complejidad y calidad de resultados. Desde el
simple trazado de una recta con una regla obtenida de la observacin visual, hasta la obtencin de
frmulas que cumplen una serie de requisitos y condiciones, muchas son las opciones existentes. En
su momento, la definicin de estos mtodos tuvo por objeto no solo cumplir condiciones deseables
en las rectas a obtener a partir de ellos, sino tambin que todos aquellos que los apliquen lleguen a
los mismos resultados.
En este curso, la recta a utilizar ser aquella que provee el denominado
Mtodo de los Mnimos Cuadrados (MMC), uno de los que mejor conforman por su simplicidad
y eficiencia, y que se basa en el siguiente razonamiento:
Se tiene un conjunto de n pares de datos, provenientes de la medicin de dos variables
cuantitativas sobre dicho conjunto.
Se desea obtener con los mismos, una funcin lineal que determine el sentido de la
orientacin de la nube de puntos.
Para aproximar al modelo terico enunciado anteriormente, la ecuacin de regresin es
similar al mismo:

yi = Yi a b xi con las siguientes diferencias mencionables:


Los coeficientes de la recta terica ( y ) se estiman con los datos observados y
se los identifica con a y b con similares significados a los anteriores y .
No existe el Error i, pero como se ver, el mtodo lo tiene en cuenta.
Los valores de yi son los que caen sobre la recta, y difieren de los reales Yi que son
los que corresponden a la nube de puntos.
El MMC expresa que la recta que mejor se ajusta a los datos es aquella para la cual las
diferencias entre los valores observados (Yi) y los valores predichos (yi) son mnimas.
Para ello, la recta debe pasar indefectiblemente sobre el punto en que se cruzan los promedios
aritmticos de las dos variables ( x e y ), debido a lo cual la recta cumple la condicin que:
n

(Y i
i

Yi )

= 0 (es decir que se compensan los desvos positivos con los negativos).

Lamentablemente esta condicin la cumplen las infinitas rectas que pasan por ese punto.
Lo expresado en el MMC equivale a minimizar matemticamente la expresin:

120

(Yi

Yi ) 2 ; y para resolver algebraicamente lo expresado, se debe recurrir al operador

i 1

matemtico derivadas parciales, las que igualadas a cero (para obtener el mnimo
requerido), generan un sistema de dos ecuaciones con dos incgnitas, a y b, de donde, con
cualquier sistema de resolucin se obtiene que:
n

xi yi

nx y

y reemplazando b en la recta: a

i 1

2
i

nx

bx

i 1

Tambin es factible calcular a con la frmula resultante des sistema de resolucin de las
ecuaciones, lo que generara el mismo resultado pero con una frmula ms complicada.
Puede comprobarse que la recta calculada de esa forma, es la que genera que la suma de las
n

diferencias

(Y i
i

Yi ) se anule (propiedad que, como ya se dijo, cumplen todas las recta

que pasen por donde se unen x e y ) , y que la suma de las diferencias al cuadrado
n

(Yi

Yi ) 2 sea mnima con respecto a la que se obtendra con otra recta diferente.

i 1

Dentro de la Estadstica, el MMC se utiliza en varias oportunidades en que


se requieren criterios de optimizacin para la determinacin de formas de clculo de estimadores,
proyecciones en el tiempo, etc.
GRFICAMENTE Yi

Desvos Positivos --

.
.

.
.
.

yi Recta de Regresin de yi en
funcin de xi

.
.
Desvos Negativos --

xi
Cabe mencionar que siempre es posible calcular una Recta de Regresin,
cualquiera sea la forma de la nube de puntos, y cualquiera sea la conclusin respecto al tipo de
relacin existente entre las variables (rectilnea, curvilnea, sinusoidal, amorfa, etc.). Posteriormente
se podr determinar la bondad de esa recta, a partir de algn coeficiente de asociacin, prueba de
ajuste, etc. (ver puntos y captulo siguientes).
LA OTRA RECTA DE REGRESIN
No en toda la bibliografa sobre el tema, se aclara que de la misma forma
que se enfoc el anlisis de la recta de regresin, asumiendo que xi era la variable independiente, y
que la yi era la dependiente, siendo ambas estadsticamente independientes, es posible cambiar el
enfoque y rotar el rol de cada una de ellas.

121

Las diferencias que se tendran, equivalen a reemplazar las xi por las yi y


viceversa, obtenindose lo siguiente:
Recta de Regresin de xi en funcin de yi: xi =

Xi a byi

Donde:
n

xi yi
b

nx y

y reemplazando b en la recta: a x

i 1
n

y i2

n y

by

i 1

cumplindose con ellos todos los requisitos del MMC, con la nica diferencia que en este caso las
diferencias que se minimizan son en sentido horizontal.
GRFICAMENTE

xi Recta de Regresin de xi en
funcin de yi
yi Recta de Regresin de yi en
funcin de xi

Yi

.
y

.
.

.
. .
.

xi

En la prctica no es usual que se calculen ambas rectas de regresin, ya que


el problema se plantea usualmente buscando estimar o aproximarse a una de las variables (la
explicada), a partir de la otra (la explicativa).
La disponibilidad de estas rectas (o una de ellas), permite que a partir del
conocimiento de una variable (la explicativa), se puedan realizar estimaciones de la otra
(explicada), mediante el simple procedimiento de reemplazar en la funcin (yi) un valor de la
primera de ellas (xE):

yE = YE a b xE lo mismo puede hacerse con Xi: xE = XE a byE


5. El Coeficiente de Correlacin Lineal (r)
De acuerdo a lo planteado en la Introduccin de este punto 2., resta analizar
la forma de encarar el estudio del grado o importancia con que se vinculan las variables.
Tambin all se expres que al cubrirse expresamente el tema de asociacin
lineal entre variables cuantitativas, el objetivo es desarrollar el tema de Correlacin entre
variables, dejndose de lado los mtodos menos potentes de asociacin en general (utilizados
cuando participa por lo menos una variable cualitativa), y dedicando los esfuerzos al desarrollado
122

por Karl Pearson, tendiente a calcular un Coeficiente de Correlacin Lineal (r), que permite
estudiar la covariacin entre dos variables, mediante un nmero que mide el grado o intensidad de
dicha covariacin.
El mtodo desarrollado por Pearson, est muy vinculado al de los Mnimos
Cuadrados, y el valor de r, que es una expresin relativa de la covariacin entre dos variables,
termina siendo calculado mediante la relacin (cociente) entre la Covariancia (medida absoluta de
esa variacin conjunta), y los Desvos Estndar de cada una de las variables.

Cov ( x; y )
X . Y

Algebraicamente, el coeficiente est dado por: r


( xi

donde: Cov ( x; y )

x) . ( yi

y)

es la Covariancia entre xi e yi, e indica la variacin


conjunta entre ambas variables.

mientras que

es el Desvo Estndar de la variable xi.

( y i y )2
es el Desvo Estndar de la variable yi.
n

2
Y

x) 2

( xi

2
X

Estas expresiones constituyen las Frmulas de Definicin, ya que expresan


directamente la forma en que se definen los componentes del coeficiente r. En Estadstica
Descriptiva se ha visto con los Desvos Estndar, que mediante algunos simples pasos algebraicos
es posible transformar esas expresiones en una Frmula de Trabajo, ms fcil de aplicar si se debe
operar manualmente. Ella es:

r
(

x2

xy

n. x . y

y2

n. x ).(

n. y )

Es relativamente fcil verificar que el Coeficiente de Correlacin Lineal


(r) (cualquiera sea la forma de calcularlo), tiene homogeneizado o normalizado su resultado, ya que
vara entre 1 y 1, donde:
Si r = 1;

La relacin lineal es directa o positiva y perfecta. Es decir que existe


correlacin directa exacta entre las variables.

Si r = -1;

La relacin lineal es inversa o negativa y perfecta. Es decir que existe


correlacin indirecta exacta entre las variables.

Si r = 0

No existe relacin lineal entre las variables.

Cualquier otro resultado entre medio de estos, indicara relacin lineal alta o baja, positiva o
negativa, de acuerdo a los valores que tome el r.
-1
Mxima Relacin
Negativa

0
r
No hay Relacin

+1
Mxima Relacin
Positiva

123

Tambin es fcil verificar, que si previo al clculo del r se debieron calcular


las dos rectas de regresin del problema bajo anlisis, la forma ms simple de calcular r es
haciendo:

b.b

con el nico cuidado, de mantener el signo de la raz cuadrada, de acuerdo con el que tomen los dos
coeficientes de las dos rectas (ya que ambos deben tener el mismo signo).
Cualquiera sea la frmula de clculo, el r mide la correlacin lineal existente
entre ambas variables, sin particularizar entre la explicada o la explicativa, y tambin se lo puede
calcular cualquiera sea la conclusin respecto al tipo de relacin existente entre las variables
(rectilnea, curvilnea, sinusoidal, amorfa, etc.) (22).
GRFICAMENTE: ejemplos de valores aproximados del r de acuerdo a la nube de puntos.
x x
x x
r = - 0,85
x x x x
x
x x
xx x
x x
x x x
xx x
x

Relacin lineal inversa elevada

xx
x x
r = - 0,80
x x x
xx x
xx x
x xx
x x x
xxx x
x xx xx x

Relacin curvilnea inversa elevada

r= 0
xx
x
x

xx

xx
x

xx

xx

x
xx

xx
xx
x

Relacin oscilante casi nula


x x

x x
r = 070
x x x
x x x x
x
x x
xx x xx
x x x x x
x x x xx x
xx x x xx
x x x

Relacin lineal directa intermedia

xx x
x x
x x x x
x x x
x x
x x x x
xx x x x
x x xx
xx x xx x x x x
x xxx x x x x x x
x x x x x xxxxxx x
xxx xx x x x
x xx xx x x x

x x
xx x
x

r = 0,10

Relacin casi nula. Nube dispersa

x xx
x x xx x
x xx
x
x

xx
xx
xx
xx

x
r = 0,45

Relacin oscilante directa baja

6. El Coeficiente de Determinacin (CD)


Pese a la facilidad de lectura de los resultados del r, se puede mejorar su
interpretacin construyendo el Coeficiente de Determinacin, mediante una simple modificacin:

CD = r2 . 100 = b . b. 100

(22)

cuya lectura e interpretacin es mas fcil, ya que, en trminos


simples, expresa el porcentaje de los cambios en una
de las variables que estn explicados por los cambios en
la otra.

Existen otros coeficientes de correlacin, diseados para medir la fuerza de la relacin entre dos variables que se
vinculan de otras forma (curvas, oscilantes, etc.).
124

Ejemplos:
A. En la Secretara de Agricultura, Ganadera y Pesca, desea hacerse una rpida estimacin de la
cantidad de silos que se debern utilizar en la prxima campaa de recoleccin de granos, para lo cual
slo se dispone de informacin obtenida en un ltimo censo relativo al equipamiento que poseen los
productores agrarios del pas.
Adoptndose que la cantidad de silos a utilizar se encuentra ntimamente asociada a la cantidad de
equipo pesado que posee cada productor, se considera aceptable utilizar esta ltima variable (conocida
a partir del mencionado censo), para estimar el nmero de silos necesarios. Con el fin de comprobar el
supuesto inicial (asociacin entre ambas variables), se consulta a 5 productores en relacin a ellas,
obtenindose:
Productor (i)

Equipos (xi)

Silos

(yi)

Con esta informacin, se debe calcular y analizar:

a) La Recta de Regresin que vincula la cantidad de Silos con la


cantidad de Equipos.

b) El Coeficiente de Correlacin entre ambas variables.


c) El Coeficiente de Determinacin.
d) Analizar todos los coeficientes calculados.

e) Estimar la cantidad de Silos de un productor que posee 4 Equipos pesados.


f) Graficar la nube de puntos, la recta que se obtenga y la estimacin efectuada.

Respuestas:
En primer lugar, (adelantando parte del punto f),
corresponde graficar la informacin disponible:
Diagrama oNube de Puntos
Yi
6
x

Adems de lo requerido especficamente,


es conveniente disponer tambin de
algunas caractersticas de los datos con
los que se trabaja (promedios, etc.).

4
x
2

Tanto para el clculo de los promedios


como para responder a la consulta
planteada, debe prepararse una tabla de
clculos como la siguiente:

x
0 x
1

Xi

Xi

Yi

Xi . Yi

Xi2

Yi2

10

25

18

36

Total

15

35

18

71

a)

Xi: Cantidad de Equipos pesados que


posee cada productor (variable
independiente o descriptora).
Yi: Cantidad de Silos para almacenamiento de granos que posee cada
productor.

Donde:

Cantidad de productores: n = 5
Promedio de Equipos por productor = X =
8 / 5 = 1,6 Equipos por productor.
Promedio de Silos por productor = Y =
15 / 5 = 3 Silos por productor.

La Recta de Regresin de los Silos (Yi) en funcin de los Equipos (Xi):

125

xi yi
b

n x y
= [(35 5 . 1,6 . 3) / (18 5 . 1,62)] = 11 / 5,2 = 2,12

i 1
n

yi = a + b X i

x i2

nx

i 1

b x = 3 2,12 . 1,6 = 0,392 ~ 0,4

yi = a + b Xi = - 0,4 + 2,12 . Xi

b) El Coeficiente de Correlacin:
r = [(35 5 . 1,6 . 3) / [(18 5 . 1,62) . (71 5 . 32)] =
= (35 24) / [(18 12,8) . (71 45)] = 11 / [5,2 . 26] = 11 / [135,2] = 11 / 11,63 = 0,946

c)

El Coeficiente de Determinacin:
CD = 0,9462 . 100 = 89,5 %

d) Los resultados de los puntos anteriores indican:


El valor negativo de a no tiene explicacin lgica, excepto que por su cercana a cero se
interpreta que ese debera ser el valor (al que no se lleg por casualidades algebraicas o
redondeos), y que productores sin Equipamiento no tienen ningn Silo.
El b = 2,12, sugiere que por cada Equipo pesado que se incrementa, la cantidad de Silos
aumenta (por ser positivo) 2,12.
Los elevados valores de r y CV, indican que entre ambas variables existe una importante
relacin positiva o directa (el r es positivo), situacin ya observada en el Diagrama de puntos. El
resultado del CD indica que conociendo la cantidad de Equipos, se est conociendo (o
explicando) casi el 90 % de la cantidad de Silos, lo que es realmente el objeto del estudio.
Conclusin: el conocer la cantidad de Equipos de los productores agrarios, permite
aproximarnos con buenas perspectivas a la cantidad de Silos que utilizarn para la cosecha de
granos.

e) La estimacin para un productor con 4 Equipos: - 0,4 + 2,12 . 4 = 8,08 Silos


f) La representacin grfica de los puntos, la recta y la estimacin, es la siguiente:
yi

Yi
8,08

7
6

yi

0
4

- 0,9
8,08

5
4

3=Y
2

Xi

0 x
-0,4 0

X= 2

Xi

126

B. Con los datos del problema anterior, suponer que la situacin era la inversa; es decir que por un
registro de la Sociedad Agraria de la regin se conoce la cantidad de Silos de cada productor, y a
partir de ella se desea saber la cantidad de Equipos pesados que cada uno posee. Los datos son los
mismos.

Respuestas:
A partir de la misma informacin bsica anterior (promedios, tabla de clculos, etc.), la Recta de
Regresin que se necesita en este caso es la de los Equipos (Xi) en funcin de los Silos (Yi):
n

xi = a+ bYi

xi y i

n x y

i 1
n

y i2

n y

= [(35 5 . 1,6 . 3) / (71 5 . 32)] = 11 / 26 = 0,42

i 1

b y = 1,6 0,42 . 3 = 0,34

xi = a+ bYi = 0,34 + 0,42 . Yi


Por su lado, los Coeficientes de Regresin y Determinacin, puede comprobarse que no variaran, ya
que sus componentes son los mismos, con lo que debe concluirse que siendo ambas variables
aleatorias, dependiendo del problema cualquiera de ellas puede ser la explicada o la explicativa.
Tambin puede comprobarse la forma simplificada de calcular r o CD si ya se tiene los dos
Coeficientes Angulares de las dos rectas: r
levemente por redondeos.

2 ,12 . 0 , 42

0 ,8904

= 0,944 difiere

Por su parte el CD = b . b. 100 = 2,12 . 0,42 . 100 = 89,04 % tambin difiere levemente por
redondeos.
Si se representara la recta calculada sobre el mismo grfico anterior, podra verse que se cruza con la
anterior sobre el punto en que coinciden los promedios de ambas variables, y que por tener tan elevado
valor de r, son casi coincidentes grficamente..
Yi

xi

Dando en este caso a Yi dos


valores alejados:

yi

7
6

5
4
Y =3
2
1
0

Yi

xi

0,34

2,44

x
x
x
0 0,34 1

2
3
X = 2,44

Xi

127

7. Regresin y Correlacin con Tablas de Frecuencias


De la misma forma que al trabajarse con una sola variable cuantitativa, el
tratamiento estadstico se poda realizar con los datos aislados o sin agrupar, o bien agrupndolos de
acuerdo a los valores diferentes de la variable y sus correspondientes frecuencias, al trabajar con
dos (o ms) variables sucede lo mismo.
Hasta el momento, en todos los casos presentados para aplicar los mtodos
de Regresin y Correlacin se trabaj con datos sin agrupar, es decir que los pares de valores de las
dos variables, venan dados de a pares, sin agruparlos con sus frecuencias aunque algunos se
repitieran.
Ahora bien, es comn tener que aplicar esta metodologa en grandes
volmenes de datos, en los cuales la informacin debe ser agrupada en tablas de frecuencias a doble
entrada (similar a la analizado en el punto 2. de este captulo), por lo cual es necesario conocer las
modificaciones que deben hacerse a los mtodos hasta ahora utilizados con los datos no agrupados.
El punto de partida es que se tienen dos variables cuantitativas (de variables
discretas o continuas), por lo cual son factibles de ser resumidas en medidas que las caractericen
(promedios, dispersiones, etc.), adems de que sus resultados pueden ser volcados en tablas de
frecuencias absolutas o relativas a doble entrada.
De la misma forma que al trabajarse con una sola de ellas, era posible
preparar una tabla de frecuencias (determinando de esa forma la importancia de cada resultado
diferente), y expresarlas tanto en trminos absolutos o relativos, al trabajarse con dos variables
conjuntamente es posible construir una tabla de frecuencias a doble entrada en la que se presenta la
distribucin de ambas en forma conjunta en una tabla a doble entrada de la siguiente forma (23):
Tabla de Frecuencias
yj
xi

y1

y2

yj

yl

TOTAL

x1

f 11

f 12

f 1j

f 1l

f 1.

x2

f 21

f 22

f 2j

f 2l

f 2.

xi

f i1

f i2

f ij

f il

f i.

xk

f k1

f k2

f kj

f kl

f k.

f .1

f .2

f .j

f .l

f =n

TOTAL

Siendo:
xi : resultado i-simo de una variable x que toma valores desde 1 hasta k
yj : resultado j-simo de una variable y que toma valores desde 1 hasta l
f ij : frecuencia conjunta de los resultados xi e yj
f i. : frecuencia marginal de xi
f .j : frecuencia marginal de yj
f = n : cantidad de casos en los que se miden las variables xi e yj
(23)

En alguna bibliografa las f son reemplazadas por n, siendo n ij: frecuencia conjunta de los resultados xi e yj
128

Con la informacin dispuesta de esta forma, de acuerdo a los valores de n, k


y l, adems de poder calcularse las frecuencias relativas que se mencionaron en el caso de dos
variables cualitativas, es posible adaptar las frmulas utilizadas en el caso de variables sin agrupar,
a este caso de Tablas de Frecuencias. Para ello deben tenerse presente las siguientes expresiones:
h

fij

f i. =

fij

f .j =

f=n =

=(

xi . fi. ) / f

k
=[

(xi - x )

=(
j

yj . f.j ) / f

xi2 . fi.) / f] - x 2

. fi.] / f = [(

h
=[

fij = fi. = f.j

i
k

(yj -

y)

. f.j] / f = [(

yj2 . f.j) / f] -

j
k

Cov(xi ; yj)

= [

(xi . yj . fij
i

- f.

x . y )] / f

La informacin para calcular todas estas medidas se obtienen de la siguiente tabla de clculos:
yj

fij

xi

xi . fi.

xi2 . fi.

xi . yj . fij

x1 . f1.

x12 . f1.

x1 . yj . f1j

yj

yh

f 1j

f 1h

f 1.

xi

f i1

f ij

f ih

f i.

xi . fi.

xi2 . fi.

xi . yj . fij

xk

f k1

f kj

f kh

f k.

f .1

f .j

f .h

f=n

yj . f.j

y1

x1

f 11

fij
i

yj . f.j

y1 . f.1

xk . fk.

xk2 . fk.

xk . yj . fkj

yj . f.h

yj2 . f.j

y12 . f.1

yj2 . f.j

yj2 . f.h

xi . yj . fij

xi . y1. fi1

xi . yj . fij

xi . yh . fih

A partir de esas medidas, es posible calcular las rectas y el Coeficiente de Correlacin:

y x = a + b xi

; b=

Cov(xi ; yj) / x

a=

-b. x
129

xy = a + b yi

; b = Cov(xi ; yj) / y2

a = x - b .

r = Cov(xi ; yj) / x . y
Ejemplo:
Los Alumnos ingresados a la Carrera de Estadstica de la UNTREF en el ao 2008, fueron
encuestados, relevndose para cada uno de ellos 8 variables:
Edad

Cantidad de Personas con las que Convive

Gnero / Sexo

Cantidad de Materias Cursadas

Cantidad de Hijos

Horas Semanales de Trabajo

Estado Civil

Posteriormente se agreg a esa informacin la


calificacin obtenida en el 1 examen parcial.

Los datos relevados figuran en la Base de Datos de la hoja siguiente. A partir de la misma se
solicita calcular:
a) Calcular la Recta de Regresin de la Cantidad de Materias Cursadas en relacin a las
Horas Semanales de Trabajo (24).
b) Estimar la Cantidad de Materias que debera Cursar un alumno que Trabaja 50 horas
semanales.
c) Calcular tambin la Recta inversa, es decir la que vincula a las Horas Semanales de
Trabajo con relacin a la Cantidad de Materias Cursadas.
d) Estimar cuantas Horas Trabaja (en promedio), un alumno que Cursa 5 Materias.
e) Obtener los Coeficientes de Correlacin y Determinacin de ambas variables.
f)

Analizar los coeficientes de ambas rectas y los obtenidos en el punto e).

g) Realizar el mismo trabajo solicitado de a) a f), pero sin agrupar los datos de Horas
Semanales de Trabajo.
Para realizar en Trabajos Grupales:

I.

Similar al solicitado de a) a f), trabajando las variables: Cantidad de Componentes del


Grupo Familiar y Edad (agrupada: Hasta 20 inclusive 20 a 30 y luego de 10 en 10
hasta 60.

II. Similar a g) con las variables de I.


III. Similar al solicitado de a) a f), trabajando las variables: Calificacin Parcial y Horas
Semanales de Trabajo (agrupada de la misma forma).

IV. Similar a g) con las variables de III.

(24)

Agrupar las Horas Semanales de Trabajo de la siguiente forma: 0 10 a 20 20 a 30 30 a 40 40 a


50 50 a 60. Cerrar los intervalos en el lmite superior.
130

UNTREF - CARRERA DE ESTADISTICA Asignatura Estadstica Descriptiva


Base de Datos de los Alumnos del Ao 2008
Cantidad de:

N de Orden

Edad
(Aos)

Sexo

Materias
Cursadas

Estado
Civil

Hs. Semanales
Trabajo

Nota
Parcial

Hijos

Grupo Familiar

22

10

55

42

3
4

3
2

4
5

58
40

F
F

4
4

D
C

30
56

6
6

30

40

60

36

7
8

0
0

2
5

28
18

M
M

3
5

S
S

40
0

7
8

41

40

10

24

11
12

0
0

6
3

18
23

F
M

4
4

S
S

40
0

2
9

13

30

54

14

25

60

15
16

0
0

2
7

33
20

M
M

6
5

U
S

56
16

8
10

17

31

50

18

18

19
20

0
3

4
4

18
38

F
F

4
3

S
C

0
36

7
8

21

26

22

19

30

23

32

12

24

39

36

25

20

20

26

38

40

27

30

40

28

19

29

40

40

30

22

45

31

41

40

32

42

40

33

34

50

34
35

0
2

5
4

24
43

F
M

2
3

S
C

45
50

6
1

36

38

50

5
131

Respuestas:
a.

Para calcular la Recta de Regresin de la Cantidad de Materias Cursadas en relacin a


las Horas Semanales de Trabajo, denominando:

xi = Horas Semanales de Trabajo


yj = Cantidad de Materias Cursadas
Debe calcularse la recta: yx

= a + b xi

A partir de la Base de Datos anterior, debe construirse la Tabla de Frecuencias de donde


se partir para la confeccin de la Tabla de Clculos:
Horas Semanales que Trabajan (Xi)
Cant. Mat.
Curs. (Yj)

20

20 a 30
(25)

30 a 40
(35)

40 a 50
(45)

50 a 60
(55)

TOTAL

14

12

36

TOTAL

De la Tabla de Clculos se extraern los elementos con los que se pueden calcular los
componentes de la recta: yx = a + b xi
Mat. Curs.
(Yj)

Horas Semanales que Trabajan (Xi)


0

20

20 a 30
(25)

1
-

1
175

220
1

225
-

1
-

110

675
-

1
90

420

1
5

50 a 60
(55)

735

100

200

40 a 50
(45)
-

75

60

30 a 40
(35)

275
1

210

330

TOTAL

Xj . n.j

Xj2 . n.j

Xi . Yj . nij
(Suma j)

200

14

42

126

1.545

36

144

740

45

225

875

12

72

540

139

575

3.900

TOTAL

12

36

Yi . ni.

60

50

420

315

220

1.065

Yi2 . ni.

1.200

1.250

14.700

14.175

12.100

43.425

Xi . Yj . nij
(Suma i)

260

175

1.540

990

935

3.900

x=

1.065 / 36 = 29,58 hs.


132

y = 139 / 36 = 3,86 mat.


x2 = 43.425 / 36 29,582 = 1.206,25 874,987 = 331,27 hs.2
y2 = 575 / 36 3,862

= 15,97 14,90 = 1,07 mat.

Cov(x;y) = 3.900 / 36 29,58 . 3,86 = 108,33 114,18 = -5,85


bx = -5,85 / 331,27 = -2,42 / 18,20 = -0,133
ax = 3,86 (-0,133) . 29,58 = 3,86 + 3,93 = 7,79
De esta forma:
b)

yx = 7,79 + -0,133 . xi

Para estimar la Cantidad de Materias que debera Cursar en promedio un alumno que
Trabaja 50 horas semanales, se debe reemplazar ese valor en la recta encontrada en a):

yx = 7,79 + -0,133 . 50 = 1,14 mat.


Es decir que un alumno que trabaja 50 hs. semanales, en promedio debera cursar una sola
materia.
c)

Para calcular la Recta inversa, es decir la que vincula a las Horas Semanales de Trabajo
con relacin a la Cantidad de Materias Cursadas, se necesita: xy = a + b yi

by = -5,85 / 1,07 = -2,42 / 1,034 = -2,35


ay = 29,58 (-2,35) . 3,86 = 29,58 + 9,07 = 38,65
De esta forma:
d)

xy = 38,65 + -2,35 . yj

Para estimar cuantas Horas Trabaja (en promedio), un alumno que Cursa 5 Materias, se
debe reemplazar ese valor en la recta encontrada en c):

xy = 38,65 + -2,35 . 5 = 26,90 hs.


Es decir que un alumno que cursa 5 materias, en promedio debera trabajar 27 horas
semanales.
e)

Para obtener los Coeficientes de Correlacin y Determinacin de ambas variables, se


requiere (teniendo ya calculadas las dos rectas):

= (0,133 . 2,35) =

0,31255

= 0,56

CD = 0,312558 . 100 = 31,26 %


f)

El anlisis de los coeficientes de ambas rectas y los obtenidos en el punto e), debera ser
como sigue:
En la recta de , yx el valor de ax = 7,79 indica que en promedio los alumnos que no
trabajan (es decir con xi = 0), podran cursar entre 7 y 8 materias (7,8).
133

El valor de bx = -0,133 indica la cantidad de materias que disminuye en promedio un


alumno que incrementa en una hora semanal las horas trabajadas.
En la recta de , xy el valor de ay = 38,65 indica que en promedio los alumnos que no
cursan ninguna materia (es decir con yj = 0), podran trabajar entre 38 y 39 horas
semanales.
El valor de by = -2,35 indica la cantidad de horas semanales de trabajo que disminuye
en promedio un alumno que incrementa en una las materias cursadas.
El valor de r = 0,56 muestra que la relacin entre ambas variables no es demasiado alta,
y que el uso de una de ellas para estimar la otra, puede no resultar de utilidad.
Esto se refuerza con el valor CD = 31,3 %, lo que sugiere que menos de un tercio de una
de las variables, queda determinado por el conocimiento de la otra, y que la diferencia a
100 depende de otras variables no consideradas.
g)

Realizar el mismo trabajo solicitado de a) a f), pero sin agrupar los datos de Horas
Semanales de Trabajo.
Esto debe ser realizado como tarea para el hogar, de la forma en que se trabaja sin el
cuadro a doble entrada.

134

VII. NOCIONES DE PRUEBAS DE HIPTESIS NO


PARAMTRICAS
1. Conceptos Generales
Al iniciarse el tema de Estadstica Inferencial, y en particular al comenzarse
con el captulo de Ensayos de Hiptesis, se mencion que de las dos grandes ramas se vera
inicialmente la Inferencia Estadstica Paramtrica, es decir aquella referida a los diversos
Parmetros que caracterizan a las Distribuciones de Frecuencias y a las Funciones de Probabilidad.
En ese punto se dej de lado la denominada Inferencia Estadstica No
Paramtrica, y en particular la dedicada especficamente a las Pruebas de Hiptesis, cuya
introduccin y mencin de los casos ms frecuentes se analizarn en este captulo. Adems, en el
captulo anterior referido a la Asociacin y Relacin entre Variables, al analizarse los mtodos
aplicables a variables cualitativas, se mencion que la determinacin de existencia o no de
asociacin entre las variables, se vera en este captulo.
Para comenzar a desarrollar el tema, es conveniente destacar las
particularidades de las Pruebas de Hiptesis No Paramtricas, particularizando en las ventajas y
desventajas con relacin a las ya desarrolladas sobre los Parmetros.
En los mtodos estadsticos paramtricos, para poder concluir con una
aplicacin especfica en los procedimientos de estimacin por intervalos o comprobacin de alguna
hiptesis, deban verificarse previamente algunos datos, determinar el cumplimiento de algunos
requisitos, o realizar algunos supuestos respecto a la poblacin, no siempre comprobables ni
seguros. Por ejemplo: era comn tener que suponer o verificar que la variable en estudio tiene
distribucin Normal; o que se conoce la dispersin de la misma (utilizndose alguna anterior); o que
la muestra extraa es suficientemente grande.
Esta es la principal desventaja o debilidad de los mtodos paramtricos,
y es el punto en que los Mtodos No Paramtricos los superan, ya que para su aplicacin no se
requiere el cumplimiento de ninguno de esos requisitos o supuestos.
Por su lado, los mtodos paramtricos tienen la ventaja de su potencia y
precisin, ya que permiten tomar decisiones respecto a ciertos valores y caractersticas (los
parmetros), con idea de la orientacin o sentido de las pruebas.
La otra diferencia que tienen ambos mtodos, es que los paramtricos slo
se pueden aplicar a variables cuantitativas (discretas o continuas), mientras que la mayora de los
No Paramtricos no tienen limitaciones en cuanto al tipo de variables, y se los aplica especialmente
a las variables cualitativas (nominales u ordinales).
Estas dos ventajas o particularidades (aplicabilidad a variables de todo tipo,
especialmente las cualitativas; e inexistencia de requisitos previos o innecesidad de hacer
supuestos), han convertido a los Mtodos No Paramtricos en los preferidos en innumerables
aplicaciones de las ciencias sociales, ya que en estas no es usualmente simple disponer de esos
requisitos (normalidad, muestras grandes, variables cuantitativas, etc.), por lo que resulta mucho
ms fcil la aplicacin de tcnicas menos exigentes.

135

2. Tipos de Pruebas de Hiptesis No Paramtricas


Sin pretender agotar todas las mltiples pruebas de ndole No Paramtricas
desarrolladas hasta la fecha, puede realizarse una enumeracin de las que se utilizan con mayor
frecuencia:
a. Prueba de Secuencias o Corridas (Wald-Wollfowitz): se utiliza para
determinar si los valores de una muestra se seleccionaron aleatoriamente, o
bien si dos muestras aleatorias fueron extradas de una misma poblacin.
b. Prueba del Signo (se utiliza la Funcin Binomial): para verificar diferencias
entre dos muestras u opiniones.
c. Prueba de la Mediana (se utiliza la Funcin Binomial): para verificar si un
determinado valor coincide con la Mediana.
d. Prueba del Antes y Despus (se utiliza la Funcin Binomial): se utiliza para
comprobar la existencia de cambios en una poblacin a partir de la verificacin
de ciertos cambios.
e. Prueba de Wilcoxon o de Mann-Whitney: a partir de la suma de los rangos u
rdenes, tambin se la utiliza para determinar si dos muestras aleatorias fueron
extradas de una misma poblacin.
f. Prueba de Pares Asociados y rdenes provistas de signo (Wilcoxon): Esta
prueba requiere un nivel de medicin de mayor precisin que el de los
rdenes, y se utiliza para captar diferencias entre dos muestras con pares
asociados de valores.
g. Prueba de Kolmogorov- Smirnov: es similar a la Prueba se Secuencias o a la
de Mann-Whitney, pero se utiliza en los casos en que las categoras de la
variable ordinal son 4 o ms.
h. Prueba de Suma de Rangos (Kruskal-Wallis): se la utiliza para identificar
diferencias entre tres o ms muestras.
i. Prueba de Homogeneidad (se utiliza la Funcin Chi Cuadrado): se la aplica
para determinar la similitud del origen de dos muestras diferentes (es decir que
las distribuciones son homogneas).
j. Prueba de Ajuste (se utiliza la Funcin Chi Cuadrado): se la aplica para
comprobar si una cierta variable de una poblacin (de la cual se extrae una
muestra), tiene una cierta distribucin conocida (normal, binomial, uniforme,
etc.).
k. Prueba de Independencia o Asociacin (se utiliza la Funcin Chi Cuadrado):
se la aplica para determinar si dos variables se encuentran relacionadas o son
independientes.
Debido a la universalidad de sus aplicaciones, y a la posibilidad de utilizar
elementos ya desarrollados (la funcin del Chi Cuadrado), las dos ltimas pruebas son las que se
desarrollarn durante este curso.

136

3. Pruebas del Chi Cuadrado


En los captulos y puntos referidos a Distribucin de los Estimadores,
Estimacin por Intervalos de Confianza y Pruebas de Hiptesis Paramtricas, se mencion a la
Funcin de probabilidad del Chi Cuadrado como la que se deba aplicar en los casos en que se deba
trabajar con la distribucin de la Variancia Muestral (S2), ya que se haba comprobado que este
estimador cumple con esa forma de distribuirse.
Adems de esas aplicaciones, la funcin de probabilidad del Chi Cuadrado
tienen dentro de la Inferencia Estadstica otro tipo de aplicaciones, en particular en diversos casos
de Pruebas de Hiptesis No Paramtricas, ya que, sin entrar en mayores detalles tericos, se ha
podido comprobar experimentalmente, que si se comparan de una cierta forma las frecuencias
observadas de una variable (foi o Oi) clasificada en k categoras o intervalos, con los valores
esperados de la misma (fei o Ei) (es decir, considerando la forma en que se distribuye o podra
2
distribuirse esa variable), es posible construir un estadstico muestral al que denominaremos ,
que tiene una distribucin aproximadamente Chi Cuadrado con k 1 grados de libertad.
Esta condicin o propiedad de la funcin Chi Cuadrado, la convierte en una
de las de mayor utilidad para la realizacin de diversas pruebas de hiptesis en las que no se
requiere comprobar valores de parmetros, sino que lo que se verifica es la forma en que se
distribuye una variable, en comparacin con un cierto modelo que se toma como referencia,
habindose desarrollado diversos tipos de Pruebas del Chi Cuadrado (Ajuste, Independencia y
Homogeneidad), utilizndose tambin de base para otras aplicaciones no paramtricas especficas.

a. Prueba de Ajuste
Se la utiliza en los casos en que se intenta comprobar si una variable tiene
una cierta forma de distribuirse, y debido a las escasas restricciones determinadas para su aplicacin
(no depende de condiciones especiales que deban cumplir los datos), es utilizada en innumerable
cantidad de casos.
El esquema de razonamiento que se aplica es el siguiente:
Se parte del supuesto que una cierta variable (x) tiene una cierta forma de distribuirse f(x)0 , que
puede ser de cualquier tipo (Uniforme, Binomial, Rectangular, Normal, etc.), situacin que se
contrasta con la negacin de esa afirmacin. De esta forma se plantean dos hiptesis:
H0) f(x) = f(x)0 la forma de la distribucin que se desea testear
H1) f(x) f(x)0
Con el fin de realizar la comprobacin, de la poblacin original de datos de x, se obtiene una
muestra de una cierta cantidad de casos (n).
Esos n datos se clasifican en k categoras en las que se divide o agrupa la poblacin.
A cada una de esas categoras le corresponde una cierta frecuencia observada (foi o Oi).
Conociendo la forma de la distribucin que se est testeando (f(x)0), es posible calcular los
valores esperados (fei o Ei) para cada una de las k categoras. Para ello se calcula:
fei = n . pi

donde pi es la probabilidad de la categora i - sima

137

Con esos valores ya es posible calcular el valor del Chi Cuadrado experimental ( 2), cuya
k
( foi fei ) 2
2
frmula de clculo es: 2

(k-1) ; es decir que tiene una distribucin


fe
i 1
i
Chi Cuadrado con (k 1) grados de libertad.
El valor emprico

es comparado con el que se extrae de la funcin Chi Cuadrado con (k 1)

grados de libertad, y fijando un nivel de confianza de (1 ) o un nivel de riesgo de .


Si el 2 es menor o igual al 2 (k-1)(1- ), NO SE RECHAZA H0, ya que se obtuvo un resultado
lgico dentro del nivel de confianza fijado.
Si el 2 es mayor que el 2 (k-1)(1- ), SE RECHAZA H0, ya que se obtuvo un resultado poco
esperado o probable si es que ella fuera cierta.
El valor

es un estadstico o variable cuyo campo de variabilidad o dominio es:


0

Si

Si

n . (k 1)

donde:

= 0: implica que los valores de la muestra se ajustan a la forma o funcin de


distribucin comprobada.
se aproxima al lmite superior, debe sospecharse que la funcin elegida para la prueba
no es la que corresponde a la muestra elegida.

COMENTARIOS: Si bien no se requieren requisitos especiales ni supuestos relativos a la forma de


las distribuciones, se tienen algunas limitaciones o particularidades que deben ser tenidas en cuenta:
La muestra de n unidades debe ser extrada aleatoriamente.
Las frecuencias esperadas (fei o Ei) pueden ser valores no enteros.
Se ha comprobado empricamente, que para una mayor eficiencia del test, cada una de las
frecuencias observadas (foi o Oi) debe ser mayor o igual a 5. Si alguna de ellas fuera Oi 5
se deben agrupar las categoras vecinas.
Esto implica que tambin las Ei deben ser mayores o iguales a 5 (para la comparabilidad de
las frecuencias).
Un inconveniente metodolgico: la prueba est afectada por el tamao de la muestra, de
manera tal que si se tienen dos tablas con asociacin porcentual similar e igual cantidad de
categoras, si una de ellas tiene el doble de casos, el Chi Cuadrado experimental da dos
veces ms grande.
Este tipo de comprobacin, se puede realizar utilizando para el ajuste cualquier tipo de
funcin de probabilidad, o hasta alguna distribucin proveniente de la experiencia, aunque
una de las pruebas ms comunes es la de normalidad, es decir, verificar si un supuesto de
normalidad en una distribucin de una cierta variable, es cierta o no.
Ejemplo:
En la empresa La Martingala que los fabrica dados, para comprobar la calidad del
proceso se toma peridicamente uno de los dados que sale del mismo, y se los arroja 60 veces
observndose los resultados que se obtienen. Si los resultados estn dentro de lo que se
considera aceptable o lgico con un nivel de riesgo del 5 %, se contina con el proceso de
fabricacin, y sino se lo detiene para analizar las posibles fallas que pudieran estar
influyendo.
138

En una de esas comprobaciones, los resultados de la prueba dieron:


Cara del Dado

Veces que sali

12

13

10

Tomando como referencia el tipo de comprobaciones realizadas y los resultados de la prueba,


responder:
a) Qu actitud se debi haber tomado respecto al proceso de produccin ?
b) Cuntas veces puede llegar a pararse el proceso sin causas reales ? (es decir que
funcionando bien, igualmente se rechaza la prueba).
c) Si durante un da se realizan 10 pruebas similares a la descripta, y los resultados conjuntos
son iguales a los de la tabla pero multiplicados por 10, qu sucedera al hacer la
comprobacin ?
Respuestas:
a) Si un dado es normal (quiere decir que no est averiado, mal fabricado o cargado),
cada una de sus seis caras debe tener la misma probabilidad de salir (1/6). El supuesto
inicial de la empresa lleva a expresar lo siguiente: Si el proceso productivo se encuentra
bajo control, los dados deben ser producidos de modo que la probabilidad de cada cara
sea 1/6, es decir que corresponda a una funcin de probabilidad Uniforme con 6
resultados posibles (k = 6). De esta forma se plantea:
H0) f(x) = f(x)0 = 1/6 = pi

la probabilidad de la distribucin Uniforme con k = 6

H1) f(x) f(x)0 o sea 1/6


Siendo n = 60, ser Ei = n . pi = 60 . 1/6 = 10 para todas las caras (i = 1 k)
Correspondiendo los Oi a los valores de la tabla anterior (veces que sali cada cara), se
tendr (construyendo una tabla de clculos):
1
2
3
4
5
6

Oi
7
9
12
13
10
9

Ei
10
10
10
10
10
10

TOTAL

60

60

Cara del Dado

(Oi - Ei)2 / Ei
0,9
0,1
0,4
0,9
0,0
0,1
2

= 2,4

El valor del 2 se compara con el del Chi Cuadrado con (k-1) = (6-1) = 5 grados de
libertad, que acumula hasta si una probabilidad de 0,95 (ya que el riesgo = 0,05):
2

(5)(0,95)

= 11,071

De esta forma, siendo 2 = 2,4 < 2(5)(0,95) = 11,071 NO SE RECHAZA H0) f(x) = 1/6 (que
el dado tiene en todas sus caras la misma probabilidad 1/6), y por lo tanto no se detiene el
proceso productivo.
b) Con las mismas pautas de trabajo anterior, el proceso productivo puede llegar a pararse
en aproximadamente un 5 % de los casos sin que realmente el proceso est fuera de
control (es decir, el valor del riesgo ).
139

c) Para este planteo, se debe construir la misma tabla de clculo anterior, pero con n = 600,
y los valores observados y esperados multiplicados por 10.
Puede comprobarse que bajo estas condiciones, 2 = 24 > 2(5)(0,95) = 11,071 (que no
variara, ya que k sigue siendo 6, con lo cual SE RECHAZA H0) f(x) = 1/6, debindose
detener el proceso productivo para verificar su funcionamiento.
Esta situacin aparentemente ilgica, se produce ya que cuanto mayor es un tamao de
muestra, ms se exige a la aproximacin entre la realidad y la teora, es decir que
deberan corregirse las diferencias entre los valores observados y los esperados.
Grficamente: El planteo del Punto a)

g de l = 5
= 0.05

= 2,4

2c = 11,071
Zona / Regin de Rechazo

b. Prueba de Independencia o Asociacin


Con un esquema de pensamiento similar al de la Prueba de Ajuste (23), se
puede utilizar la funcin del Chi Cuadrado para comprobar la independencia o no entre dos
variables. Para ello se requiere que las categoras o resultados de ambas variables (que pueden ser
cualitativas o cuantitativas), hayan sido dispuestas en una tabla a doble entrada, y que en los
casilleros de cruce entre las alternativas de cada una, figure la frecuencia cruzada correspondiente.
Esas frecuencias pasan a constituir los valores observados (los Oi), que
sern comparados con los esperados (los Ei), que se calculan presuponiendo la no existencia de
relacin entre las variables, es decir que las mismas son independientes.
El concepto de independencia que se adopta, es el de: dos variables son
independientes si la presencia de una de ellas no modifica (sustancialmente) la presencia (o no)
de la otra, donde esa modificacin se mide en trminos de probabilidades, o lo que en este caso
es lo mismo, de frecuencias relativas.
Como en el caso del ajuste, se relacionan los valores empricos con los de
las frecuencias tericas, construyndose el 2 emprico, y se lo compara con el que proviene de la
distribucin Chi Cuadrado con (k-1) grados de libertad ( 2 (k-1)(1- )), donde los grados de libertad se
calculan como el producto de la cantidad de categoras o resultados de una de las variables menos
(23)

En todas los casos en que se utiliza el Chi Cuadrado para realizar comprobaciones no Paramtricas, el esquema de
pensamiento y anlisis es el mismo: comparacin de las frecuencias observadas y esperadas. La diferencia est dada
en el origen de esos datos, la forma que toman las hiptesis que se plantean.
140

uno, por la cantidad de categoras o resultados de la otra variable menos uno. Como antes (1 ) es
el nivel de confianza con que se realiza la prueba.
Las hiptesis que se plantean en este caso son:
H0) Las variables son independientes, por lo que las foi = fei (o parecidas)
H1) Las variables NO son independientes (o estn asociadas), es decir que las foi fei
Nuevamente en este caso:
Si el 2 es menor o igual al 2 (k-1)(1- ), NO SE RECHAZA H0, ya que se obtuvo un resultado
lgico dentro del nivel de confianza fijado, y se concluye que las dos variables son
independientes entre si.
La adopcin de esta hiptesis, implica suponer que las diferencias que se tengan entre los
valores de Oi y Ei deben ser adjudicadas al azar.
Si el 2 es mayor que el 2 (k-1)(1- ), SE RECHAZA H0, ya que se obtuvo un resultado poco
esperado o probable si es que ella fuera cierta, y se concluye que las variables estn asociadas
significativamente (24).
El rechazo de la independencia entre las variables, implica aceptar que las diferencias entre los
Oi y Ei son grandes como para aceptar solo influencia aleatoria, por lo que no deben ser
adjudicadas al azar. Todo con un nivel de riesgo prefijado de antemano.
Ejemplo:
En la Encuesta Permanente de Hogares (EPH), se obtiene informacin sobre 250 hogares de
una zona del Gran Buenos Aires, clasificados con respecto al Nivel de Estudios alcanzado por
su Jefe (NE), y el Monto Total Mensual de los Ingresos del Hogar (NI) expresado en $. Con esa
informacin se prepara la siguiente tabla:
Nivel de
Estudios

Nivel de Ingresos (en $)


< 500

500/1.000 1.000/2.000

TOTAL
> 2.000

Alto
Medio
Bajo

5
15
20

10
25
45

15
25
40

30
15
5

60
80
110

TOTAL

40

80

80

50

250

A partir de esta informacin, es posible interpretar que ambas variables son independientes,
hacindolo con un nivel de confianza del 90 % ?
Respuesta:
Las cifras de esa tabla constituyen los valores o frecuencias observadas, (los Oi), mientras
que los valores esperados (los Ei) deben ser construidos presuponiendo que no existe
relacin entre las variables, para lo cual se debe partir de las frecuencias marginales del
cuadro, recalculando las frecuencias conjuntas (las internas de la tabla), suponiendo que su
distribucin entre los casilleros de ambas variables, es la misma que la de los mrgenes.
Para ello, dentro de cada casillero se multiplican las frecuencias marginales correspondientes,
y se divide por el total de casos (en el ejemplo los 250 hogares).
(24)

Dentro del tema Prueba de Hiptesis (Paramtrica o no), el trmino significativo es de suma relevancia,
entendindose por tal que: la informacin disponible, permite asumir con el nivel de confianza determinado, que
las conclusiones respecto a las hiptesis planteadas son estadsticamente ciertas (se rechace o no Ho).
141

Nivel de
Estudios
Alto
Medio
Bajo
TOTAL

Nivel de Ingresos (en $)


< 500

500/1.000 1.000/2.000

TOTAL
> 2.000

9,6
12,8
17,6

19,2
25,6
35,2

19,2
25,6
35,2

12,0
16,0
22,0

60
80
110

40

80

80

50

250

Por ej.: el 9,6 del 1 casillero es = 60 . 40 / 250 ; los 35,2 = 110 . 80 / 250

Para el clculo del


todos, resultando:
2

, se debe operar en cada casillero, haciendo: (Oi - Ei)2 / Ei y sumarlos a

= (Oi - Ei)2 / Ei = (5 9,6)2 / 9,6 + (10 19,2)2 / 19,2 + (15 19,2)2 / 19,2 + +
(5 - 22)2 / 22 = 52
2

Ese valor debe ser comparado con el

(k-1)(1- )

(6)(0,90)

= 10,645

ya que (k 1) = (cantidad de filas 1) . (cantidad de columnas - 1) = (3-1).(4-1) = 6 g de l


De esta forma, al resultar

= 52 >

(6)(0,90)

= 10,645 ; SE RECHAZA LA HIPTESIS DE


QUE LAS VARIABLES SON
INDEPENDIENTES

De esta forma, se concluye con que existe asociacin entre el Nivel de Estudios alcanzado por
el Jefe de los hogares, y el Monto Total de Ingresos de los mismos.
Grficamente:

g de l = 6
= 0.10

2c = 10,645

= 52

Zona / Regin de Rechazo

En el ejemplo desarrollado, se aprecia que las variables pueden ser de


cualquier tipo (una de ellas NE es cualitativa ordinal, mientras que la otra NI es cuantitativa
continua), pudindose determinar con la prueba de independencia, que existe asociacin entre
ambas. Lo que en este caso no se logra (como sera en el caso de dos variables cuantitativas con el
Coeficiente de Correlacin), es una medida de la asociacin.

142

También podría gustarte