Está en la página 1de 64

Statistics for human beings

by Rueda, Jos A.

Recomendacin:
Dirjase a los cuadros que concentran las frmulas y a las figuras
Dirjase despus a las tres fbulas
Valla finalmente al tema de su inters le parecer simple y puede aplicarlo
sistemticamente sin mayor conocimiento previo
Favor de no compartir el documento electrnico completo con estudiantes ni
colegas, es un material original y escrito letra a letra por un servidor,
evitemos plagios.

Statistics for human beings

An Introduction

La estadstica es la herramienta esencial de la experimentacin y esta


ltima a su vez es el paso crucial del mtodo cientfico. El hombre desea tener
el control de los fenmenos que le afectan y suea con que tal control le
permita predecir el futuro comportamiento de tales fenmenos. El deseo por el
control y el sueo de la prediccin son el principio de esta historia. No
obstante, no hay control ni prediccin si no hay antes un anlisis de
informacin dura en direccin al conocimiento profundo de los hechos.
Para definir que es Estadstica, un buen punto de partida es aclarar lo
que no es Estadstica. Los nmeros e, i & estn definidos en matemticas
como constantes y su valor no cambia aunque sean estimados en un sinfn de
ocasiones. Ahora bien, s se toma una medicin de altura de varios individuos
similares en general, se espera que cada medicin conduzca a un nmero
diferente en la recta real (i. e. : 1.01 y 1.001 para dos de ellos). El que el
nmero sea diferente implica que la altura de la poblacin de la que se eligen
estos individuos es una variable, o bien, es una variable aleatoria. El concepto
de variable aleatoria es uno de los pilares principales en la definicin de
estadstica; la estadstica no tiene aplicacin en fenmenos donde no exista
variabilidad o varianza en las mediciones de una caracterstica dada.
Elegantemente, se dice que cuando se trabaja con constantes se trata de
fenmenos o modelos determinsticos y que cuando se trabaja con variables se
trata de o procesos estocsticos (con variacin o aleatorios). Dicho lo anterior,
se puede aventurar una primera definicin: la Estadstica es el estudio de los
procesos estocsticos. Retomemos el significado de una medicin como la
1

Statistics for human beings

by Rueda, Jos A.

asignacin de un nmero real nico a una observacin de carcter cuantitativo


o continuo, o bien el registro de un dato unitario que describe un fenmeno. En
la prctica las mediciones son comnmente registradas en unidades tales
como g, m, L, C, s y sus derivados y se distinguen de un dato de tipo
cualitativo en que sus unidades admiten el uso de decimales sin perder sentido
lgico.
La varianza es entonces el concepto fundamental de la estadstica. Y con
el concepto de, varianza viene implcita otra definicin, la de rplica o
repeticin. La razn de esta estrecha relacin entre la varianza y la repeticin
de las mediciones se debe a que la presencia de variacin se puede solo
detectar si la medicin se toma ms de una vez. Y en efecto, no se toman
mediciones con fines de anlisis estadstico con un nmero de rplicas menor a
tres. As, si se pierde uno de esos datos las dos repeticiones restantes siguen
siendo rplicas una de la otra. Un segundo aspecto de la repeticin en una
medicin, es que si bien los datos deben ser valores diferentes para cumplir
con el requisito de representar una variable aleatoria, la distancia entre ellos
en la recta real no debe ser grande, dado que representan a un mismo valor
medido dos veces. Empricamente es fcil inferir que la confianza que una
persona tiene sobre un hecho se debe a que este ha ocurrido ms de una vez y
que el resultado no ha sido muy diferente entre tales veces. Si adems de
entender el fenmeno a partir de una o ms variables que lo definen y
construir una confianza emprica, se anotan los datos y se procesan mediante
procedimientos estandarizados, se construye entonces conocimiento cientfico.
Aqu podemos darle una segunda definicin a la Estadstica, es la ciencia
creadora por excelencia de conocimiento cientfico a partir de conocimiento
emprico.
El objetivo del tratamiento estadstico de datos es entonces conocer la
varianza a partir de mediciones replicadas, y la media no es sino un recurso
para conocer la varianza. Cuanto mayor sea la varianza de una variable, ms
sensible ser de modificar el fenmeno a partir de cambios en los factores que
provocan tal varianza. Cada uno de estos factores ser responsable de una
fraccin de la varianza total observada y por tanto la varianza ser la suma de
tales fracciones. Cada uno de los mencionados factores son variables tambin
y la relacin entre los cambios en uno de esos factores y los cambios en la
variable de inters, es una funcin que puede graficarse en el plano como
causa-efecto. Si la recta real se concibe como un lugar fsico y se anota un
punto en la posicin que corresponde a cada una de las mediciones, entonces
la varianza indica la distribucin de la mancha de puntos sobre la recta real
(tamao de la mancha de datos). Si solo dos factores son responsables de tal
mancha, una fraccin de esa mancha es debida a un factor y otra fraccin al
segundo.

Statistics for human beings

by Rueda, Jos A.
Conceptos base

Quien se enfrenta por primera vez a la Estadstica, es bombardeado con una pila de nmeros
que regularmente no tienen conexin con nada hasta antes conocido en su entorno; acto
seguido se le gua hacia el anlisis de esa lista de datos. El tiempo consumido en el anlisis no
permite al estudiante abundar sobre el objetivo o las implicaciones de su ejecucin. Por tanto,
el aprendiz puede confundirse fcilmente respecto al alcance, delimitacin y objeto de la
Estadstica como ciencia. En el campo de la investigacin, la toma de datos es una necesidad
comn y recurrente. Los datos se acumulan en grandes cantidades, y en efecto, despus de
tomarlos deben ser analizados con tal de obtener, a partir de estos, informacin sustancial con
aplicacin prctica.
La Estadstica es en principio una serie de tcnicas que aplicadas al conocimiento emprico, lo
convierten en conocimiento cientfico. Dicho de otra forma, es un conjunto de herramientas
para el anlisis de datos generados en la experimentacin y su conocimiento y aplicacin se
limitan a dos grandes reas. La primera de ellas es la estimacin de parmetros
poblacionales (i.e.: , 2) a partir de estimadores muestrales (equivalentemente: , s 2), ya sea
de forma puntual (=

ni=1 x i

/ n) o mediante intervalos de confianza (P[L < <

] = [1-

]), donde el lado derecho es la precisin) para los parmetros que representan tales los
estimadores. El segundo campo de accin de la Estadstica son las pruebas de hiptesis
sobre los parmetros; es decir, se evala la posibilidad de que estos parmetros puedan ser
superiores o inferiores a un valor de referencia; o bien, se comparan dos o ms estimaciones
en muestras similares (1 Vs 2, etc.) respecto a su igualdad o diferencia. Las pruebas de
hiptesis y los intervalos de confianza siempre se refieren a los parmetros poblacionales,
pese a que se usen los estimadores en el proceso.
Al calcular valores como una media aritmtica () o la varianza musetral (s 2), ello implica que
se ha (i) tomado una muestra de individuos de alguna poblacin de inters, (ii) que en dicha
muestra se ha medido una variable que el investigador considera til y que al medir tal
variable un numero dado de veces (iii) se ha generado una lista de datos a partir de la cual
es posible calcular tanto la media y la varianza como otros estimadores. La media obtenida de
tales datos ( ) representa solo una estimacin de la media verdadera en la poblacin ( ) de
la que la muestra fue extrada (al igual que s 2 estima 2). A los valores poblacionales se les
conoce como parmetros y a los valores calculados en la muestra como estimadores.
La Estadstica es usada para medir la variacin y para tratar de manipularla o modificarla a
nuestro favor, por lo que el concepto de variable es de hecho el punto de partida. Una
variable aleatoria, se genera cuando en el inters por comprender o manipular un fenmeno,
se mide una caracterstica de forma repetitiva en varios individuos u objetos (unidades
experimentales). Si la variable es en efecto una medicin (g, m, L, s, kg/cm -2, C, etc.) esta
ser una variable cuantitativa y cada dato ser un valor en la recta real; frecuentemente la

Statistics for human beings

by Rueda, Jos A.

distribucin se adaptar a la curva normal. Si la variable es una caracterstica distintiva (verde,


vivo, muerto, liso), se tratar de una variable cualitativa y su rango ser un valor en el
conjunto de los nmeros naturales; no tenemos aqu una medicin sino un conteo. Existen un
sinfn de factores afectando a cualquier variable que deseemos estimar; estos factores (que
son tambin variables) son los responsables de que exista la variacin cuando se toman varios
datos de la variable, en condiciones similares. Las condiciones para aplicar las tcnicas de la
Estadstica estn perfectamente definidas: los datos deben provenir de una muestra aleatoria
de individuos (tomada al azar) de la poblacin sobre la cual se pretende inferir; la
caracterstica que nos interese medir debe presentar variacin entre y/o dentro de los grupos
en los que se lleven a cabo las mediciones; y los factores que afectan a la variable que nos
interesa deben conocerse y se debe estar en la posibilidad de manipular su magnitud. Las
estimaciones de parmetros o pruebas de hiptesis que se realicen en base a los datos,
tomados en una muestra aleatoria, deben dirigirse a la obtencin de algn beneficio prctico,
ya sea econmico o productivo.
Una poblacin es el conjunto de todos los elementos o individuos en los que se est
interesado en inferir al conducir un experimento. Un individuo u objeto de medicin es cada
uno de los elementos que componen la poblacin y son susceptibles de ser seleccionados en la
muestra; si se ejecuta una medicin en un individuo en particular en la muestra, tal individuo
funge como unidad experimental. Una muestra representativa es un conjunto de individuos o
elementos que conserva las caractersticas propias de la poblacin. El nmero de individuos
en una muestra es menor que el nmero de individuos en la poblacin. El muestreo es la
forma en que se seleccionan aquellos individuos en los que se har el experimento; es decir,
es la obtencin de una muestra representativa de la poblacin. Un dato es cada uno de los
valores que se han obtenido al realizar una medicin unitaria en un individuo o elemento de la
muestra.
Cuando calculamos valores como la , s 2 b1 en una muestra de individuos (en base a las
mediciones de la variable en esos individuos); lo que se obtiene es una estimacin de esos
valores en la poblacin; a tal aproximacin se le llama estimador o estadstico. Sin embargo,
los valores reales que representan a la poblacin se denominan parmetros, y pese que los
llamamos tambin media (), varianza ( 2) o coeficiente de Regresin (1), su significado es
diferente. Los parmetros, son valores nicos que solo pueden ser aproximados (no podemos
conocer su magnitud real) mediante los estadsticos obtenidos en una muestra y por tanto no
son estimables directamente. Por ejemplo la (media poblacional) es estimada por la media
aritmtica (media de la variable en los individuos de la muestra); no obstante, la media
muestral no es una representacin fiel de la media poblacional, sino una aproximacin a esta.

Statistics for human beings

by Rueda, Jos A.

Clculo de medidas descriptivas


Medidas de tendencia central

Dnde est?

A lo largo de toda la recta real, al menos tericamente, todos los valores son igualmente
probables como mediciones de una variable aleatoria continua en particular; por ello cada vez
que se pretende describir una variable la pregunta natural inicial sera Dnde est?. Las
medidas de tendencia central conducen a un punto especfico de la recta real y dan una idea
precisa de la localizacin fsica de la variable en la recta, situacin por la que tambin son
llamadas medidas de localizacin. Cada uno de los datos puede dar una idea parcial de la
localizacin de la nube de datos, pero son las estimaciones de tendencia central (la media, la
mediana y la moda) las que nos dicen en concreto a que parte de la recta real ir para
encontrar nuestra variable para representar la nube de datos grficamente. Para el clculo
de medidas de tendencia central aplique las frmulas anotadas en el Cuadro 2.
La media es la medida ms precisa para localizar una variable aleatoria, significa el centro
geomtrico y aritmtico de una distribucin de datos y por tanto la distancia desde cualquier
dato hasta la media es en promedio menor respecto a la distancia entre los datos y cualquier
otro punto localizado sobre a recta real. La mediana es meramente la posicin central de los
datos cuando se ordenan ascendentemente, en este sentido no est ligada a la magnitud de
los datos. La moda solo es aquel valor que circunstancialmente se ha repetido en la toma de
datos un mayor nmero de veces. Si se tiene una distribucin simtrica de los datos
respecto a su media, las tres medidas de tendencia central coinciden, sealando al mismo
punto como la localizacin de la distribucin de la variable en la recta real.
Las medidas de tendencia central no dan ninguna informacin respecto a la dispersin, es
decir, sobre la distancia entre el centro de localizacin respecto a cada uno de los datos. Dada
la localizacin de una serie de datos, la variable no se encontrar totalmente definida sino
hasta que se especifique la cercana o lejana (dispersin) que los datos respecto a la posicin
definida como su localizacin (Fbula al final de este apartado).
Medidas de dispersin De qu tamao es?
Una vez ubicado el punto en que nuestra variable aleatoria se localiza en la recta real, ser
necesario, para completar la definicin de la misma: especificar el espacio fsico que ocupa.
Esta es una metfora, pero en la grfica de una funcin, es un hecho muy concreto. Adems
del espacio ocupado, debe especificarse su densidad; es decir, la frecuencia o concentracin

Statistics for human beings

by Rueda, Jos A.

de datos a diferentes distancias alrededor de su media aritmtica. Las mencionadas


condiciones refieren a la dispersin de los datos. Las medidas de dispersin explican que tan
separados o disgregados estn los datos respecto a su media, implican la localizacin ya no
del centro de la mancha o nube de datos, si no la localizacin de la mancha en general.
Datos originales o completos. Todo a la vez
El rango es la diferencia entre los valores mximo y mnimo de una serie de datos en la
distribucin de una variable aleatoria, pero los valores extremos o outliers lo modifican
afectando su interpretacin. La desviacin media es el promedio de las diferencias entre
cada uno de los valores de la variable aleatoria y la media. La varianza es la media
aritmtica del cuadrado de las desviaciones de la media respecto a cada uno de los datos (el
divisor es n-1 para la varianza muestral), su interpretacin directa no es posible dado que su
unidad es la unidad original de la variable elevada al cuadrado. La desviacin estndar es la
raz cuadrada de la de la varianza y geomtricamente equivale a la distancia horizontal entre
la media y el punto de inflexin de curva normal en la campana de Gauss, su interpretacin
se facilita dado que. Para calcular las medidas de dispersin aplique las frmulas presentadas
en el Cuadro 2.
Propiedades de la varianza: 1. La varianza ser siempre un valor positivo o cero,

el cero

implica que los datos son idnticos. 2. Si a todos los valores de la variable se les suma una
constante la varianza no cambia. 3. Si todos los valores de la variable se multiplican por una
constante la varianza queda multiplicada por el cuadrado de dicho valor. 4. Si se tienen varias
distribuciones con la misma media y varianza conocida se puede calcular la varianza conjunta.
Observaciones: 1. La varianza, al igual que la media, es un ndice muy sensible a las datos
extremos; es decir, lejanos a la media. 2. En los casos que no se pueda hallar la media
tampoco ser posible hallar la varianza. 3 La varianza no est expresada en las mismas
unidades que los datos, ya que las desviaciones estn elevadas al cuadrado.
Propiedades de la desviacin estndar: 1. La desviacin estndar ser siempre un valor positivo
o cero, cero implicar que los datos son idnticos. 2. Si a cada dato se les suma la misma
constante, la desviacin estndar no se modifica. 3. Si todos los valores de la variable se
multiplican por una constante la desviacin estndar queda multiplicada por dicho valor. 4. Si
tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones
estndar se puede calcular la desviacin compartida o error estndar de su media compartida.
Observaciones: 1. La desviacin estndar, al igual que la media y la varianza, es un ndice muy
sensible a las puntuaciones extremas u outliers. 2. En los casos que no se pueda hallar la media
tampoco ser posible hallar la desviacin estndar, ya que esta es necesaria para su clculo. 3.
Entre ms pequea sea la desviacin estndar mayor ser la concentracin de datos alrededor
de la media y viceversa.
Datos agrupados Clasificando para visualizar rpidamente

Statistics for human beings

by Rueda, Jos A.

Dado el volumen de informacin que puede acumularse al tomar mediciones de variables


aleatorias en la prctica, es comn que los datos se clasifiquen o agrupen para poderlos
manipular e interpretar ms rpido La tcnica ms frecuente de agrupacin son las tablas de
frecuencia. En una tabla de frecuencia los datos se clasifican en intervalos de longitud idntica,
podemos auxiliarnos de corchetes y parntesis para definir los lmites de un intervalo (Cuadro 1).

Cuadro 1. Lmites de un intervalo definido sobre la recta real


Intervalo

Simblicamen

Cerrado
Abierto
Mixto

En la recta real

te
[5,10]
(5,10)
(5,10]
[5,10)

Una tabla de frecuencia

Interpretacin
De 5 hasta 10
De 5.00001 hasta 9.999
De 5.00001 hasta 10
De 5 hasta 9.999

se construye agrupando los n datos en k intervalos o clases de

anchura A idntica; cada una de estas k clases abarca todos los datos que sean estrictamente
mayores a su lmite inferior Li y menores o iguales a su lmite superior

(intervalo abierto

por la izquierda y cerrado por la derecha). Las tablas de frecuencia se construyen usando un
lmite inferior de la primera clase (L1), un ancho de clase (A) y un nmero de intervalos (k)
totalmente arbitrarios a conveniencia. La tabla de frecuencias contiene las siguientes columnas:
1. Los lmites de clase

& L

i.

2. El valor central de clase vi o valor medio, que no es ms

que el promedio de los limites superior e inferior en cada clase. 3. La frecuencia absoluta fi de
datos que pertenecen a cada clase (conteo simple). 3.

La frecuencia relativa pi de cada

intervalo, es decir, fi/n. 4. Puede agregarse la frecuencia absoluta acumulada Fi

5. La

frecuencia relativa acumulada Pi. Note que se usa una f para denotar la frecuencia absoluta y
una p

para denotar frecuencia relativa; si estas letras aparecen en maysculas (F P),

implicarn frecuencias acumuladas hasta la clase i en la que aparezcan.


Una vez clasificados los datos, es posible calcular las medidas descriptivas haciendo
operaciones con 5 a 20 clases o intervalos; lo que ser ms rpido en comparacin con hacer lo
mismo usando cientos de datos existentes antes de construir la tabla de frecuencia. El clculo de
medidas es muy simple y se restringe a la aplicacin de una frmula para cada medida
descriptiva (Cuadro 2). La clase de la mediana ser aquella para la cual la frecuencia relativa
acumulada hasta esta clase supere o iguale 0.5 (Pi 0.5).
Con fines de enseanza, es comn que se analicen todas las medidas descriptivas de
una serie de datos usndolos todos a la vez, y posteriormente se construya una tabla de
frecuencias en donde se vuelvan a calcular todas las medidas que ya fueron calculadas con los

Statistics for human beings

by Rueda, Jos A.

datos completos (duplicidad de anlisis). Esta situacin puede llevar a dos confusiones: 1. El
aprendiz usa un estimador calculado en los datos (e.g.

) para usarlo en el clculo de otro

estimador en la tabla de frecuencia (e.g. S2); lo cual es obviamente errneo. 2. El estudiante no


infiere que en la prctica si se usa una tabla de frecuencias los datos originales ya no se usan; y
dado el estrecho tamao de muestra que se usa como ejemplo en el aula, en la prctica no sera
necesario hacer una tabla de frecuencia para tal nmero de datos (e.g. menor a 40). Aclaremos
una vez ms entonces que no debe usarse ningn dato calculado en los datos originales como
base para estimar otra medida descriptiva en tablas de frecuencia; una vez construida la tabla,
la informacin original no es usada.
Construyendo una tabla de frecuencias Manos a la obra
Las medidas descriptivas en datos originales se realizan de acuerdo con las frmulas detalladas
en el Cuadro 2. A continuacin se detalla la construccin de una tabla de frecuencias con tal de
agrupar los datos para estimar en estos sus medidas descriptivas y/o construir grficos para
visualizar la informacin de manera geomtrica.
La primera decisin al construir una tabla de frecuencias es el nmero de intervalos k que
debern de integrarla. El nmero ms adecuado es arbitrario (entre 5 y 20); pero, para ejemplos
de clase es conveniente trabajar con intervalos de tamao fijo, para lo cual se aplicar la regla
de Strugess donde k = 1+3.3 log n , y se redondear al entero siguiente. Para decidir la
amplitud A de los intervalos, se divide R (donde: R = mx. mn.) entre el nmero de intervalos
k cuidando que el rango de la tabla Rt = k*A =

- L

supere al rango de los datos

originales R. El valor resultante (A =R/k ) se redondea, si es posible, al valor entero siguiente y


se anota como lmite inferior del primer intervalo un valor menor al mnimo de los datos
originales (L

< mn.), lo cual puede hacerse siguiendo la siguiente regla L

R)/2 . El lmite inferior de la clase uno L

= mn. (Rt-

se redondea hacia abajo al siguiente decimal o

entero permisible, en tanto se conserve la idea de Rt > R y todos los datos sean contenidos en
alguna clase.
El lmite superior de la primera clase o intervalo (

1)

se consigue al sumar la A al

lmite inferior de la misma (L 1); el lmite superior de la primera clase es igual al lmite superior
de la primera; y a partir de este punto se contina sumando A a los limites inferiores para
obtener los superiores en cada una de las k clases, as como igualando el lmite superior de una
clase con el inferior de la siguiente de manera montona y sucesiva. La frecuencia absoluta fi
es un conteo simple de los datos originales que pertenezcan a cada intervalo y la frecuencia
relativa

pi

es en cada fila igual a fi dividida por n.

Statistics for human beings

by Rueda, Jos A.

Una vez construida la tabla de frecuencia siguiendo sistemticamente las recomendaciones


arriba mencionadas, nuestra labor se reduce a la obtencin de estimadores con base en las
frmulas del Cuadro 2.

Cuadro 2. Frmulas para el clculo de las principales medidas descriptivas con informacin
completa y en tablas de frecuencia.

Datos Originales
Media ()

Medidas
de

Mediana (

e )

e =

n
i=1

Tablas de Frecuencia

ki=1 f i v i
t= k
i=1 f i

xi

e =

Valor central o

media de los dos


centrales

tendencia
central

o : Dato que se repite

Moda (o)

ms veces

Le +

i)
A (0 .5 P
pi
o :

vi

de la clase con

fi

mayor

Varianza (

Medidas
de
Dispersi
n

S2 )

v i f i

k
i=1
2
S t =

S= S2

S t = S 2t

Desviacin
estndar(

S )

Coeficiente de
variacin (C.V.)

ni=1( x i)2
S=
n1
2

C.V.= (

)*100

C.V.

St

)*100
Rango (R)

R = mx. mn.

Rt =

k-

xi: cada uno de los valores de X. n: nmero de datos. fi: frecuencia absoluta de la clase i. vi: valor central de la clase i. Le :
Lmite inferior de la clase de la mediana. A: amplitud o ancho de clase, constante en todas las clases.

pi

: frecuencia

Statistics for human beings


relativa de la clase i.

by Rueda, Jos A.

mx.: valor mximo. mn.: valor mnimo,

: lmite superior de la ltima clase (clase k). & L1:

lmite inferior de la clase 1. La flecha atrs significa que se tomar la clase anterior a la de la mediana.

Re p r e s e n t a c i n g r fi c a
A partir de la tabla de frecuencias, se facilita la construccin de grficos simples que nos ayuden
a analizar visualmente la localizacin y la dispersin de los datos. Algunos de los grficos ms
usados son
a) Histograma. Se construye colocando en el eje de las abscisas a los lmites de clase Li y

para cada clase i, a partir de los que se erigen barras verticales de anchura A y con altura igual
a la frecuencia absoluta fi o relativa pi en cada intervalo.
b) Polgono de frecuencias. Segmentos de recta que unen los puntos de interseccin entre los
valores centrales de clase en el eje de las abscisas y las frecuencias absolutas o relativas en
el eje de las ordenadas (vi, fi vi, pi).
c) Ojiva o Polgono de frecuencias acumuladas. Resulta de unir mediante segmentos de recta los
puntos de interseccin entre los lmites superiores de clase, en el eje de las abscisas, con las
frecuencias absolutas o relativas, en el eje de las ordenadas (

, Fi

, Pi).

d) Diagrama de tallo y hojas: Consiste en anotar el intervalo como ttulo a margen izquierdo y
hacia la derecha en orden ascendente enumerar todos y cada uno de los valores que
pertenezcan a este. Si se dibujase una lnea curveada a la derecha de los ltimos valores
conectando todas las filas (intervalos), tendramos simulada una funcin de densidad cuyo eje
ser el margen izquierdo, donde se anotan los lmites de cada intervalo; o bien un polgono de
frecuencias girado a la derecha.

Ejemplo 1.1.
A partir de la serie de datos que se le presenta, que corresponden al peso
seco de 36 muestras (de dos tallos c/u ) de Pennisetum purpureum,
gramnea utilizada en la produccin de papel cuya principal fraccin til es el
tallo (datos tomados por el autor de este libro):
a)
b)
c)
d)

Obtenga las medidas descriptivas con los datos completos


Construya una tabla de frecuencias
Obtenga las medidas descriptivas en la tabla de frecuencia
Haga un cuadro comparativo de los estimadores en a) vs. aquellos en
c)
e) Dibuje las grficas pertinentes

10

Statistics for human beings


Sugerencia:
frecuencias:

by Rueda, Jos A.
Agregue al menos dos columnas ms a la tabla de

f i vi

&

v i 2 f i

Datos:
250.6
403.3
284.2
141.6
254.1

141.7
251.5
224.4
235.5
285.6

439.5
239.9
299.7
284.4
212.1

194.5
153.3
342.2
237.5
258.8

243.8
298.7
448.1
260.7

300.1
178.5
322.5
278.1

329.6
328.9
248.1
267.1

219.1
241.1
414.4
341.6

Su tabla debe lucir as:


Intervalo

vi

fi

Fi

pi

Pi

f i vi

v i f i

[]

Medidas de asociacin
Hasta ahora hemos lidiado con medidas que son de inters al describir una variable aleatoria;
ms en la prctica es muy frecuente que adems de estudiar alguna variable aislada, analicemos
a la par la forma en que esta es afectada por una segunda variable aleatoria. Para medir la
asociacin entre dos variables aleatorias, las medidas descriptivas de cada una de ellas por
separado no nos son de mucha utilidad. En los siguientes prrafos definiremos las principales
medidas de asociacin entre dos variables aleatorias, cuyos valores y cuyos estimadores (sus
medias y varianzas) pueden estar entrelazados en relaciones de tipo causa a efecto.
1.

Covarianza: [Sxy] (-,+) La covarianza es la varianza conjunta de dos variables


aleatorias; medida como el producto de las desviaciones de cada una de ellas respecto a
su media. El valor terico de la varianza va desde - hasta +. Su magnitud nos da una
idea del grado de dispersin conjunta y su signo nos dice si la asociacin es directa o
inversamente proporcional.

11

Statistics for human beings


2.

by Rueda, Jos A.

Correlacin. [rxy] (- 1,+1) El coeficiente de correlacin transforma el valor de la


covarianza en una asociacin probabilstica, conservando el signo de la covarianza. La
correlacin puede interpretarse burdamente como un grado de asociacin directamente
proporcional (0, 1) o inversamente proporcional (-1, 0).

3.

Determinacin. [R2xy] (0,1)

El coeficiente de determinacin es el cuadrado del

coeficiente de correlacin. Transforma la linealidad de la correlacin en una idea de rea o


superficie. Con esta transformacin se elimina o menosprecia toda correlacin que sea
menor relativamente baja, por ejemplo 0.6;

ntese que 0.6 2=0.36, mientras que

0.92=0.81. Solo los valores altos de correlacin no sufren un castigo sustancial con esta
transformacin. El coeficiente de determinacin no da informacin sobre si la relacin
directa o inversamente proporcional entre las variables asociadas.
4.

Regresin lineal. [1] (-,+) El coeficiente de regresin que asocia una variable
efecto con su variable causa, es una asociacin precisa, proporcional y confiable que nos
da incluso la posibilidad de predecir un valor de la variable efecto a partir de cualquier
valor propuesto de la variable causa. El coeficiente como tal (

b1

), nos da una medida

del nmero de unidades en que aumenta o disminuye una en funcin al cambio en una
unidad de la otra; de esta forma podemos anotar la relacin de manera grfica. La
ecuacin de regresin me dice adems el punto en el que el eje ordenado es cortado por
la recta de regresin, es decir 0.Para conocer un valor de la variable respuesta, dado un
valor de la variable explicativa se aplica la recta de regresin estimada

^y =b 0+ b1 X i

Puede consultarse la forma de clculo para las medidas de asociacin en el Cuadro 2. Note
como las cuatro medidas de asociacin son tienen estrecha relacin, observe la Figura 1.

Cuadro 3. Frmulas para obtener las medidas de asociacin entre dos


variables aleatorias
1. Covarianza
4. Coeficientes de Regresin
n
Lineal
(xi)( yi)
Sxy =
0 1 estimados como b0 y
n1
i=1
b1
2.

Coeficiente de Correlacin
xy =

b1=

S xy
Sx S y

SPxy S xy
=
SPxx S2x

b0 = y b 1
3. Coeficiente de
Determinacin

R2xy =( xy )2

^y =b 0+ b1 xi

12

Statistics for human beings

by Rueda, Jos A.

Relacin

Directamente
proporcional
(0,) positiva

Inversamente
proporcional
(-,0) negativa

Ninguna relacin

(0,1) positiva

(-1,0) negativa

(0,1)

(0,1)

(0,) positivo

(-,0) negativo

S xy
xy
R

2
xy

Figura 1. Tipos de asociacin entre dos variables aleatorias

Pr o b a b i l i d a d
Conceptos
Los nmeros son ya una abstraccin, son un auxiliar en la representacin de la realidad que nos
rodea, nos ayudan a asirnos a hacernos del conocimiento; son una abstraccin ya que no existen
en la naturaleza, son una idea y un acuerdo entre los seres humanos. En un intento por describir
situaciones y hechos relativos a la incertidumbre diaria, tenemos a la Estadstica como una
poderosa herramienta constructora de conocimiento y a la Probabilidad como una pareja
perfecta para aceptar que nuestras conclusiones ms precisas de hecho no son tal cosa. La
experimentacin acerca al entendimiento y transforma la incertidumbre en hechos concretos;

13

Statistics for human beings

by Rueda, Jos A.

convierte la abstraccin y el azar en verdades confiables; asla los errores a un rincn conocido y
manejable.
El hecho de que un suceso sea posible no nos da mucha informacin, pero un valor de
probabilidad nos da una medida inteligible de la certeza que tenemos de que dicho suceso en
efecto ocurra. La probabilidad de que se d un evento es igual a la suma de las probabilidades
de que ocurra cualquier elemento dentro de ese evento cuando pertenecen al mismo espacio
muestral (mismo experimento simple); por ejemplo, la probabilidad de obtener un non al lanzar
un dado es la suma de las probabilidades separadas para 1, 2 y 3 (P[X=non] = P[X=1] + P[X=2]
+ P[X=3]).
La Estadstica y la Probabilidad son dos ciencias estrechamente ligadas. A la estimacin y a las
pruebas de hiptesis, dada su naturaleza de lidiar con la variacin, siempre se les asigna una
probabilidad. Al analizar los conceptos bsicos de esta relacin se prepara al estudiante para la
interpretacin de un intervalo de confianza y para la estimacin de los errores en una prueba de
hiptesis, algunas definiciones se presentan a continuacin
Un experimento aleatorio es aquel cuyos resultados no pueden predecirse antes de llevarlo a
cabo. Si un investigador pudiera predecir con total certeza los resultados de un experimento,
este no lo llevara a la prctica, por lo que la incertidumbre y la variacin estn ligadas a la
experimentacin; tales condiciones son manejadas mediante Probabilidad.
Un espacio muestral

(S) es un conjunto que contiene todos los resultados posibles de un

experimento aleatorio; por lo que al llevar un experimento, el rango en el que tericamente


pueden caer cada una de las mediciones ser el espacio muestral. Un espacio muestral puede
significar un segmento de recta que registre una medicin, espacio muestral continuo, o puede
incluir varios nmeros naturales que impliquen conteos, espacio muestral discreto. El primero en
relacin con una variable aleatoria cuantitativa y el segundo, con una variable aleatoria
cualitativa.
Una variable aleatoria es una funcin que asigna a cada resultado de un experimento, un
nmero en la recta real. Visto el concepto de espacio muestral redefiniremos que una variable
aleatoria es una funcin que asigna a cada elemento en S, un nmero en R es por tanto una
abstraccin de la realidad en nmeros.
Un evento es un suceso plenamente definido que implica regularmente uno o ms elementos
dentro de un conjunto. En el caso en que se lance un dado, el evento non implica los elementos
1,3, y 5 del espacio S={1,2,3,4,5,6}, y si llamamos evento H al hecho de obtener 6, entonces
H={6} y P(H)= 1/6. Para medir la probabilidad de ocurrencia de un evento deben conocerse
cuantos elementos contiene el espacio muestral (elementos totales en S) y el nmero de
elementos que favorecen al evento que nos incumbe; por lo tanto, es necesario contarlos.

14

Statistics for human beings

by Rueda, Jos A.

Conviene retomar algunos conceptos bsicos sobre tcnicas de conteo y algo de teora de
conjuntos antes a fin de aterrizar de manera ms precisa en los axiomas elementales de la
probabilidad.

Teora de conjuntos
Un conjunto es una coleccin de elementos, objetos o individuos que comparten una
caracterstica en comn. El nombre de un conjunto es una letra mayscula; sus elementos se
enumeran dentro de llaves despus de un signo de igualdad que precede al nombre del
conjunto. Para enumerar los elementos de un conjunto pueden escribirse uno a uno todos ellos o
mencionar la caracterstica que comparten, cualquiera de estas dos formas es correcta. No
obstante,

la segunda es muy til cuando los elementos de un conjunto son infinitos o no

denumerables. Por mencionar algunos ejemplos:

A={ x / x es un numero par menor que diez} A={x/x= x par<10}; se lee A es el


conjunto de todas las x, tal que x es un nmero par menor que 10} y equivale a

A={2,4,6,8}
M={x/x es un nmero primo menor que 20}, expresin equivalente a: M={2,3,5,7,11,13,
17,19}

Operaciones con conjuntos


Dado un conjunto que incluya a todos los valores en los que estamos interesados, llmese
conjunto S, es posible definir tantos subconjuntos dentro de este y hacer con estos subconjuntos
operaciones como: resta, unin, interseccin, complemento e inclusin. Dados dos conjuntos A y
B en S, definamos las operaciones:
1. Unin: Conjunto (A B) contiene a todo elemento a A & a todo elemento b B. Para
que un elemento pertenezca a la unin debe ser elemento de A de B (o de ambos).
2. Interseccin: El conjunto (A B) comprende todo elemento a A&B a la vez. Para que
pertenezca a la unin, un elemento debe pertenecer a A y a B a la vez.
3. Resta: El conjunto (A-B) contiene a todo elemento de A tal que a A y tal que a B
4. Complemento: El complemento Ac de un conjunto A, ser aquel que contenga a todo
elemento en S que no est contenido en A. Si b A & b S b Ac.
5. Inclusin: Se dice que

A B

(A es subconjunto de B A est incluido en

B ), si todo elemento a A es tambin elemento a B. Si todos los


elementos de A son tambin elementos de B, diremos que: A es un
subconjunto en B.
Ejemplo: Sea S ta
l que S= {x/x es un nmero natural menor que diez}, definidos:
S= {1, 2, 3, 4, 5, 6, 7, 8, 9};
P= {x/x es un nmero primo menor que 10)} P = {2, 3, 5, 7};

15

Statistics for human beings

by Rueda, Jos A.

I= {x/x es un nmero impar menor que 10} I = {1, 3, 5, 7, 9}; &


E= {x/x es un nmero par menor que diez} E = {2, 4, 6, 7, 8}
Defina los conjuntos indicados y grafique con diagramas Venn Euler

P I

I-P =

EUP =

P S

Ic =

16

Statistics for human beings

by Rueda, Jos A.

A B
A B

A-B

Conjunto A
Conjunto B
Operacin

Ac

indicada

Figura 2: Diagramas de Venn Euler para las operaciones bsicas entre conjuntos

Particin de S: Dado un conjunto universal S y una serie de conjuntos A 1, A2, An, tales que:
todo conjunto

Ai S

, la unin de todos ellos es igual al conjunto S (

interseccin ente ellos sea el espacio vaco (

nji=1 A i A j=0

U ni=1 A i=S

) y que la

); entonces se dice que los

conjuntos A1, A2, An forman una particin de S.


Tcnicas de conteo
Si los experimentos que se llevan a cabo en la prctica fuesen tan sencillos como lanzar un dado
al aire, leer la cara superior y contar el nmero de resultados posibles, no habra ninguna
necesidad de aplicar tcnicas de conteo en el clculo de probabilidades. No obstante, en

17

Statistics for human beings

by Rueda, Jos A.

ocasiones el nmero total de posibilidades que se pueden dar no es una obviedad; para ello se
aplicar una de las tres tcnicas descritas a continuacin.
1.

Regla multiplicativa: Dadas n formas de elegir un objeto tipo A y m formas de elegir


un objeto del tipo B, existen nm formas diferentes de elegir un objeto tipo A y uno tipo B
a la vez. Por ejemplo:
i) Suponga que el da de hoy Samanta tena en su armario 10 blusas, 6 pantalones y 6
pares de zapatos. Cuntas maneras diferentes tena de vestirse si todo atuendo es
igualmente atractivo a la vista e igualmente probable de ser elegido? Aplicando la
ii)

regla: 10*6*6 = 360.


Don Juan se llevar a cazar uno de sus 14 perros, una de sus 6 armas y lo
acompaara uno de los 4 mozos que le ayuda en sus labores diarias Cuntas
combinaciones diferentes de perro, arma y mozo puede llevar Don Juan?

Aplicando

la regla: 14*6*4 = Cuntas?.


2.

Permutaciones [nPr]: El nmero de permutaciones es el nmero de formas diferentes


en que pueden ser seleccionados n objetos, tomados de r en r a la vez.

En una

permutacin, un mismo nmero de objetos producen varias maneras de ser tomados en


funcin del orden en el que sean tomados. As por ejemplo abc ser una permutacin
diferente a bca a acb.
n

P r=
3.

n!
( nr ) !
Combinaciones [nCr]: El nmero de combinaciones es el nmero de formas diferentes
en que pueden ser tomados r objetos de un total de n (el concepto es idntico hasta
aqu al de permutaciones), sin importar el orden de estos r elementos. As por ejemplo,
una combinacin abc ser para fines prcticos exactamente igual a la combinacin bca
o acb.

n!
Cr= n =
r r ! ( nr ) !

()

Ejemplo:
(i)

Se pretende que de entre el grupo de F J & Q se tome la decisin de quienes


sern los representantes de la organizacin que componen. Cabe mencionar que
de estos tres posibles candidatos solo pueden seleccionarse dos representantes y

ii)

que uno de ellos tendr la palabra final en las decisiones.


De cuantas maneras pueden seleccionarse los representantes. Cuntas

iii)

combinaciones existen? Cules son?


Si el primer elegido ser el representante en jefe y en ese sentido el orden en

iv)

que se elijan es importante. Cuntas permutaciones son posibles y cules son?


Si se agregaran G P & R al grupo de F J & Q y se estuviera interesado en

v)

seleccionar 3 representantes Cuntas combinaciones y permutaciones habr?


De cuantas maneras se pueden acomodar n objetos tomados todos a la vez?

18

Statistics for human beings

by Rueda, Jos A.

Probabilidad
Dado un evento A que agrupa uno o ms elementos en S para un experimento con n resultados
igualmente posibles; la probabilidad de A, P(A), ser el cociente cuyo dividendo est definido
por el nmero de elementos favorables a A, na, y cuyo divisor es el nmero total de elementos
en S, n.

P ( A )=

na
n

Ejemplo:
i)

Un individuo para el que el tiempo no existe pregunta varias veces cada da Qu


da es hoy?. A lo que la gente responde siempre con el da de la semana en el
que pregunta. Asumiendo que pregunte el dato el mismo nmero de veces cada
da; definamos los eventos:
W: Su interlocutor contesta, un da entre Lunes, Martes, Viernes
F: Su interlocutor contesta, Sbado Domingo

Entonces:

P (W ) =

nw 5
=
n 7

0.7143

P ( F )=

nf 2
= =0.2857
n 7

Note que W y F forman una particin de S y que P(W) = P(F c)


ii)

Juan saca una ficha al azar de su juego de domin. Los elementos de espacio
muestral son: S= {(0,0), (0,1), (5,6), (6,6)} & n=28. Si definimos los eventos
M: {Mula};

iii)

PP: {ficha con (par, par)} & F: {Ficha (6,*)}. Obtenga las

probabilidades: P(M), P(PP) & P(F) segn la definicin general de probabilidad.


Si Olga tiene en su sombrero mgico 6 crayones negros, 5 crayones azules y 8
crayones verdes, y desea sacar uno de ellos al azar de qu color ser el
seleccionado?. Definamos el evento N: Negro, A: Azul y V: Verde. Evale P(N),
P(A) & P(V).

Axiomas de la probabilidad
1. Dado un evento A, la probabilidad de que ocurra tal evento ser un valor tal que:
0 P(A) 1

es decir, no existen valores de probabilidad menores a cero o mayores a uno.

2. Dado un experimento cuyos resultados posibles se agrupan en el conjunto S: P(S)=1


es decir, con toda seguridad uno entre todos los resultados probables aparecer.
3. Si A y B son eventos mutuamente excluyentes, entonces: P(AUB) = P(A) + P(B) y si se
tienen n eventos mutuamente excluyentes: P(

i=1 n A i

) = P(A1) + P(A1) + P(An).

Teoremas de la probabilidad

19

Statistics for human beings


1.
2.
3.
4.
5.

by Rueda, Jos A.

Si se tiene un conjunto vaco Q, entonces la P(Q) = 0


Dado un conjunto A en S y su complemento Ac, la P(Ac) = 1-P(A)
Si un evento A B, entonces la P(A) P(B).
La P( A\B )= P(A) P(AB).
Para dos eventos A y B, la P(AB)= P(A) + P(B) P(AB).

Pr o b a b i l i d a d c o n d i c i o n a l

Dados dos eventos A y B en S, tal que P(A)>0, la probabilidad de B dada la ocurrencia de A, P(B|
A), se definir por:

P ( B| A )=

P ( A B)
P( A)
Note que la ocurrencia de A modifica la P(B), ya que P(B|A) P(B)

Eventos independientes:
Dados dos eventos A y B en S, se dice que A y B son eventos independientes si y solo si P(A|
B)= P(A), P(B|A)= P(B) & P(AB)=P(A)P(B); es decir, la ocurrencia de uno no modifica la
probabilidad de ocurrencia del otro. Por lo tanto dos eventos dependientes Ay B en S; sern
aquellos cuya probabilidad de interseccin sea tal que P(AB)>0, P(A|B) P(A) &P(B|A) P(B); es
decir, la ocurrencia de uno si modifica la probabilidad de ocurrencia del otro.
En ocasiones la dependencia est asociada al muestreo sin reemplazo. Al existir dependencia,
las probabilidades son condicionales.
Eventos mutuamente excluyentes:
Dados dos eventos A y B en S, se dice que A y B son mutuamente excluyentes si y solo si P(A|
B)= 0, P(B|A)=0 y P(AB)=0. Dos eventos mutuamente excluyentes no pueden ocurrir
simultneamente y adems la ocurrencia de uno imposibilita la ocurrencia del otro.

P ( A|B )=

P ( A B)
P( B)

P ( B| A )=

P ( A B)
P( A)

20

Statistics for human beings

by Rueda, Jos A.

P ( B ) P ( A|B )=P( A B)

P ( A ) P ( B|A )=P( A B)

P ( B ) P ( A|B )=P ( A ) P ( B| A )

P (B)=

P ( A ) P ( B| A )
P ( A|B )

P ( A|B )=

P ( A )=

P ( A ) P ( B| A )
P (B)

P ( B ) P ( A|B )
P ( B| A )

P ( B| A )=

P ( B ) P ( A|B )
P ( A)

Figura 3. Relaciones de probabilidad condicional entre dos conjuntos A y B.

Ejemplo:
Se supone que los graduados son todlogos Entre 200 empleados de una empresa 150 del
total resultaron ser graduados y 60 del total resultaron ser todlogos.

Los empleados que

pertenecen a ambas categoras son 40. Elabore con estos datos una tabla de doble entrada y
auxilindose de diagramas de Venn-Euler calcule la probabilidad que se le pide:
i) Defina los eventos graduado, no graduado, todlogo y no todlogo usando la inicial de la
palabra y el smbolo para complemento de un conjunto. i.e.: G= {graduado} & G c = {NO
graduado}.
ii) Cul es la probabilidad de que un empleado sea graduado o todlogo (Unin)
iii) Cul es la probabilidad de que NO sea todlogo y si sea graduado (Interseccin)
iv) Cul es la probabilidad de que sea todlogo dado que es graduado, usando como referencia la
probabilidad de la interseccin.
v) Cul es la probabilidad de que sea todlogo dado que es graduado, usando como referencia la
probabilidad condicional inversa (Condicional)
vi) Cul es la P(GcUTc) y la P (GUT)c?
Solucin:
T

TC

Marginal G

40

110

150

GC

20

30

40

Marginal T

60

140

200

21

Statistics for human beings

by Rueda, Jos A.

Los eventos no son independientes, dado que la probabilidad de ocurrencia de uno de ellos
depende de la previa o no ocurrencia del otro.
i)

G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO todlogo}

ii)

GT
P

iii)

TC G
P

iv)

P (T |G )=

v)

P (T |G )=

vi)

G T
P

P (T G)
P (G)

P(GT ) P(T )
P(G)

),

P ( GC T C ) y P(G T )C

i)

G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO todlogo}

ii)

Auxilindose del diagrama de Venn, se tiene:

G
G

110/200 40/200 20/200

P (G

iii)

) = P(G)+ P(T) - P (G

) =

150 60
40 170
+

=
200 200 200 200

= 0.85

Procediendo de igual forma

22

Statistics for human beings

by Rueda, Jos A.
Es obvio que P (TC

TC
TC

= 0.55

TC
30/200 110/200 40/200

G
T

P
P (T |G )=

iv)

0.267 & P(G|T) =

G
T

0.667

40 60
(
)
P ( G|T ) P(T ) 60 200
P (T |G )=
=
150
P(G)
200

v)

2400
60
150

40
150

=0.267 ; Obtngase

P(G|T)

GC T C
P

vi)

GC T C
P

) =

) = P(

30
200
GC

= 0.15

)+ P(

TC

)-P(

40 140 30 150
+

=
200 200 200 200

P(G T )C

GC T C

= 1 0.85 = 0.15

= 0.75

Ejercisios:

i)

Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa que contiene
diez semillas de flores rojas y cinco de flores blancas. Cul es la probabilidad de
que:?

ii)
a)
b)

La primera semilla de una flor roja P(R)


La segunda semilla sea roja dado que la primera fue blanca P(R|B)

23

Statistics for human beings


iii)
a)
b)
iv)

by Rueda, Jos A.

En un grupo hay 3 varones y 9 mujeres


Cul ser la probabilidad de seleccionar un varn al azar en el grupo?
Cul es la probabilidad de seleccionar un varn dado que ya se ha seleccionado

a una mujer?
Suponga que se ha llevado un estudio sobre la efectividad de un nuevo producto que
combate el acn en los jvenes (llmese Asexia) y que tal producto se ha usado en
los pacientes por un ao, los resultados son:
Erradicacin
29

Asexia

Ningn cambio
69

Suma
98
A

Placebo

15

60

75

Suma

44

129

173

P
E

Evale la dependencia o independencia del tratamiento con el


padecimiento
c)
d)

Cul es la probabilidad de que se Erradique la enfermedad en un ao, P(E)?


Cul es la probabilidad de que se erradique, dado que fue tratado con Asexia?

Teorema de Bayes:
Si A1, A2, A3, An forman una particin de S, y D es un evento en S; tal que P(D|A i)0;
entonces:
n

a) P(D) = P(D|A1) P(A1) + P(D|A2) P(A2) + P(D|An) P(An) =

b)

P ( A i|D )=

P(DA i) P( Ai )
n

P( DA j ) P (A j )

P ( D|Ai ) P ( A i )
i=1

P( D Ai ) P( A i)
P( D)

j=1

Ejercisios:
i)

Se plantea la necesidad de resolver un problema sobre probabilidad condicional. Los


estudiantes de la Universidad del Papaloapan lo resuelven en 8 de cada 13
ocasiones, los de la Universidad del Golfo en 5 de cada 30 y los del REU en 6 de cada
20. La poblacin estudiantil en cada Universidad fue de 50, 30 y 20%, en el mismo
orden.

a) Dado un nuevo problema lgico sobre el mismo tema Cul es


la probabilidad de que el problema sea resuelto si se plantea a
estudiantes de todas las Universidades?
b) Si el problema ya ha sido resuelto, Cul es la probabilidad de
que se haya resuelto en REU?
ii)

En tres lneas de ensamblaje de radios transmisores detectaron error en la


instalacin de la antena. Un estudio revela que el error aparece en 0.09, 0.03 y 0.16

24

Statistics for human beings

by Rueda, Jos A.

de los casos en cada lnea respectivamente. Si el sbado pasado las lneas


produjeron 700, 918 & 1180 aparatos, en el mismo orden.
a) Cul es la probabilidad de que al toma un dispositivo al azar, este presente
el defecto mencionado.
b) Si el supervisor detect un dispositivo con la antena mal colocada el da
sbado Cul lnea de ensamblaje es ms probable que sea la responsable?
iii)

En cuatro parcelas se siembra maz criollo para renovar la semilla en un banco de


germoplasma. El genetista ha notado que existe contaminacin de semilla
transgnica y ha localizado mediante una muestra que la contaminacin abarca un
0.05, 0.04, 0.009, y 0.02 en cada parcela, respectivamente. Una cosecha parcial ha
mezclado maz de las cuatro parcelas en proporciones 2:2:3:3.
a) Si solo se almacenar como semilla aquella cuya contaminacin no supere el
0.02; podr usarse la cosecha parcial mezclada como semilla y debe
almacenarse?
b) Si el genetista detect una mazorca de hibrido y quiere localizar mazorcas
del mismo tipo entre aquellas de la parcela de la que provenga. A qu
parcelas deber ir primero en su bsqueda, en funcin de la probabilidad de
que la mazorca pertenezca a tales parcelas?

Modelos de probabilidad:

I . Fu n c i o n e s

Una vez explorados los datos de un experimento, mediante la estimacin de medidas


descriptivas de dispersin y localizacin, o mediante el clculo de frecuencias y probabilidades
de ocurrencia; encontramos que en muchos de los casos la variable con la que se trabaja sigue
una distribucin conocida. A los patrones que ya han sido identificados y caracterizados se les
llama modelos probabilsticos, o distribuciones.

25

Statistics for human beings

by Rueda, Jos A.

En funcin a la naturaleza de la variable, esta se puede adecuar a una distribucin discreta,


variable cualitativa, como lo es la distribucin binomial; o bien, a un modelo continuo, variable
cuantitativa, como es el caso de la distribucin normal o campana de Gauss. Antes de comenzar
a estudiar los modelos discretos y continuos ms comunes, resulta conveniente definir algunos
conceptos sobre funciones, as como sobre el clculo de la media y la varianza a partir de una
distribucin terica.
Funcin de probabilidades (f.p.). Dada una variable aleatoria discreta o cualitativa X, su
funcin de probabilidades

f X (x)

, evaluada para un valor exactamente igual a x de la

variable, se define como: la probabilidad de ocurrencia de un valor exactamente igual a x, entre


todos los posibles valores de X. Esto coincide con lo definido un como frecuencia relativa pi en
una tabla de frecuencias, y puede

equipararse con la medida vertical de una barra del

histograma. Ntese que se usa la X mayscula para referirse al nombre de la variable y x


minscula para referirse a un valor especfico de la misma. Las propiedades elementales de la
f.p. son:
+

1.

2.

(f X ( x ) )=1

0 f X ( x )

3. P(a<x<b) P(ax<b) P(a<xb) P(axb)


Funcin de densidad (f.d.). Dada una variable aleatoria cuantitativa o continua X, su funcin
de densidad

f X (x)

, evaluada para un valor igual x de la variable se define como: la

probabilidad de ocurrencia de un valor exactamente igual a x, entre todos los posibles valores de
X. Pese a que la definicin es homloga a la mencionada arriba; la f.d. es igual a cero (

f X ( x ) =0

) ya que explora la probabilidad puntual en una curva continua, donde lo ms

adecuado es calcular la densidad de datos mediante el clculo de un rea. La probabilidad


puntual simboliza una lnea dibujada verticalmente sobre la grfica de la f.d., y una lnea no tiene
rea. Las propiedades elementales de la f.d. son:

1.

2.

f X ( x) dx

f X ( x ) =0

=1

para cualquier valor especfico x de X

26

Statistics for human beings

by Rueda, Jos A.
b

f X ( x ) dx

3. P(a<x<b)=

4. P(a<x<b) = P(ax<b) = P(a<xb) = P(axb)


Funcin de distribucin (F.D.).

Dada una variable aleatoria cualitativa (discreta) o

cuantitativa (continua) X, su funcin de distribucin

F X ( x)

, evaluada hasta un valor x, se

define como la probabilidad de ocurrencia de un valor menor o igual

a x.

Esta definicin

puede equipararse con la frecuencia relativa acumulada Pi de una tabla de frecuencias. La F.D.
puede obtenerse a partir de la f.p. para el caso discreto, o a partir de la f.d. si la variable es
continua; en las variables cualitativas se obtiene mediante una suma de f.p., y en las variables
cuantitativas se integra la f.d. desde el lmite inferior de la variable hasta el valor de x en el que
se evala la funcin. Las definiciones simblicas de F.D., f.d. y f.p., as como sus relaciones, se
muestran en el Cuadro 3. Las propiedades elementales de la F.D. son:
x

F X ( x )= f X ( x)dx

1.

(variables continuas)

&

2.

FX ( x )

f X (x )

(variables discretas)

lim ( F X ( x ) )=0 lim ( F X ( x ) ) =1

x +

3. Es montona creciente (si b>a entonces

FX ( b)

FX ( a)

>

Cuadro 3. Relaciones entre las funciones de probabilidades y de densidad con la funcin de


distribucin
Variables
aleatorias
discretas

Funcin de
probabilidad

f X (x)=P(X =x)
Variables
aleatorias
continuas

pi

f.p.

F X ( x )=P ( X x )= f X (x )

F.D
.

Funcin de densidad

f X (x)=P(X =x)

Pi

Funcin de distribucin

Funcin de distribucin
x

f.d.

F X ( x )=P ( X x )= f X ( x ) dx

F.D
.

27

Statistics for human beings

by Rueda, Jos A.

Notacin:
Para delimitar bien una funcin de densidad, una funcin de probabilidades o una funcin de
distribucin; debe especificarse, adems de la funcin misma, los limites en recta real para los
cuales esta es vlida. La notacin ms convencional incluye: a) el smbolo

f X (x ) F X ( x )

(segn sea el caso) seguido de b) una llave de agrupacin que delimita dos casos: c) la frmula
de la funcin y los valores de X para los cuales la funcin es definida o verdadera & d) un cero
separado por una coma de la leyenda de otra forma que implica que los valores de X no
mencionados en el primer caso darn como resultado que la funcin sea nula o no vlida.
e.g.:

( nx) p q
x

nx

, x=0,1, n

f X ( x)=
0

Para el caso de una F.D.,

FX ( x )

d .of .

, se especificarn al menos tres casos: a) los valores para los

cuales la funcin sea cero, b)aquellos para los que la funcin sea vlida y c) aquellos para los
cuales la funcin sea siempre igual a 1.
Representacin grfica de una funcin
Suponga que se tiene un f.p. & su F.D., representadas por los datos mostrados a continuacin;
entonces las grficas que representan a f.p. y a su F.D. son las presentadas en la Fig. 4a.
X

f X (x)
FX ( x )

4
3/24

5
2/24

6
8/24

7
5/24

8
4/24

9
2/24

3/24

5/24

13/24

18/24

22/24

24/24

Suponga que se tiene la f.d.

f X (x)

= 2/X2 ; entonces

tanto la f.d. como su F.D.

correspondiente son las presentadas en la Fig. 4b.

28

Statistics for human beings

by Rueda, Jos A.
6600tn29a5660
6600tn29a5660
6600tn28a5660
6600tn28a5660

6600tn28a5660
6600tn28a5660
6600tn28a5660
6600tn28a5660
6600tn28a5660

X , f X ( x)

X , FX ( x )

Figura 4a. Representacin grfica de una fucin de probabilidades y su funcin de distribucin

6600tn2a5660

6600tn29a5660

6600tn1a5660

6600tn29a5660

6600tn29a5660

6600tn28a5660

6600tn28a5660

6600tn28a5660

6600tn1a5660
6600tn28a5660 6600tn3a5660

X ,

6600tn1a5660
6600tn28a5660 6600tn3a5660
[

X , FX ( x )

= 2/X ) ]
2

Figura 4b. Representacin grfca de una fucin de densidad y su funcin de distribucin

Note que en la grfica de la f.p. y su F.D. las probabilidades estn marcadas por puntos sobre
valores enteros; mientras que en el caso de f. d. y su respectiva F.D., la representacin curva
indica un nmero infinito de valores posibles en una escala continua.
Media y varianza con base en una distribucin terica
Si se conoce la funcin de probabilidades (variable discreta), o en su caso, la funcin de densidad

f X (x)

(variable continua)

; es posible calcular la media y la varianza a partir de la

mencionada funcin, aplicando las siguientes definiciones (a la derecha las frmulas para una
variable continua):

= x f X ( x)= x f X (x) dx

29

Statistics for human beings

by Rueda, Jos A.

2= x2 f X (x ) 2 2= x 2 f X ( x ) dx 2

Clculo de probabilidades, medias y varianzas

Si se conoce la

f X (x)

FX ( x )

, y/o la

de una variable aleatoria, el clculo de probabilidades

a partir de estas es muy sencillo. De igual manera pueden aproximarse su media y varianza.
i)

Caso de una variable discreta

Usemos el clsico ejemplo del dado para simplificar la explicacin. Si se lanza un dado al
aire tendremos:

f X ( 4 )=

P(X=4)= 0.1

f X (1 )+ f X ( 2 ) + f X ( 3 ) + f X ( 4 )

] = 0.6

= 1/6,

FX ( 4 )

= P(X4) =P(X<5) = [

= 4/6 .

La media de esta variable sera:

x i f X ( x i )=

i=1

= x f X ( x)=

1 f X ( 1 ) +2 f X ( 2 ) +3 f X ( 3 ) +6 f X ( 6 )

=[

1(1/6)+ 2(1/6)+ 3(1/6)+6(1/6)

] =3.5

Y su varianza:
2

i =1

x 2 f X ( x)2= x i2 f X ( x i )
=[

1 f X ( 1 ) +2 f X ( 2 ) +3 f X ( 3 ) + 6 f X ( 6 )

]-

= [ 1(1/6)+ 4 (1/6)+ 9(1/6)+36(1 /6) ] 3.52 =


2.91

Si para el ejemplo descrito

= 3.5, Se considera esta manera de aproximar la

varianza, una buena estimacin?. Note que en la definicin de la varianza, los lmites de la
variable aleatoria X (-, +), se sustituyen por los lmites que corresponden al caso particular
(1, 6).

30

Statistics for human beings

by Rueda, Jos A.

La varianza obtenida mediante la frmula directa debe contrastarse contra la varianza


poblacional, con n como divisor y no n-1 como el caso de la varianza muestral (2.91 vs 3.5).
ai) Caso de una variable aleatoria continua

f X (x )=

Si la f.d. de una variable continua est dada por

2
X2

para X|1x 2 (0,

d.o.f.), entonces:
Verifiquemos que en efecto es una f.d.:

f X ( x ) dx=1 ?
1

2
dx=1 ?
X2

[ ]

2
=1?
X 1

1=1

La media y la varianza de esta f.d. seran:

2
dx
= x f X (x) dx= x ( 2 ) dx=2 ( )
x
x

1
1
= 2[ln x

2
2

= x f X ( x ) dx = x
1

21

= 2[ln 2- ln 1] = 1.386

( x2 ) dx(1.386)

2 dx
1

1.92 =0.08

La probabilidad de obtener un valor entre 1 & 1.5 entre 1.5 & 2 ser:
1 .5

P(1<x<1.5)=

f X ( x ) dx
1

1 .5

P(1.5<x<2)=

f X ( x ) dx
1 .5

2
dx
X2

[ ]

1. 5

[ ]

X22 dx
1 .5

2
X

2
X

1. 5

= -1.33+ 2 = 0.66

= -1+ 1.33 = 0.33

NOTA: Hasta este momento no se ha abordado ningn modelo probabilstico

distribucin en concreto. El tema de funciones se ha detallado a manera de introduccin,

31

Statistics for human beings

by Rueda, Jos A.

con tal de facilitar el entendimiento de los principales modelos existentes para describir
la distribucin de una variable aleatoria.

Modelos de probabilidad:
I I . D i s t r i b u c i o n e s D i s c r e t a s M o d e l o s d e Pr o b a b i l i d a d
Cualitativos
Cuando se trabaja con variables aleatorias cualitativas o discretas; las modelos con los que
tenemos que lidiar ms frecuentemente son: Distribucin Bernoulli, Distribucin Binomial,
Distribucin Poisson, Distribucin Hipergeomtrica y Distribucin Geomtrica.

Distribucin Bernoulli
En principio una variable cualitativa nace de un conteo de elementos que cumplen con una
condicin dada. Por ejemplo, superar una longitud de 2 m, ser verde, soportar un voltaje de 220,
tener ms de 100 pginas, saber nadar, aprobar el examen, etc. Todas estas condiciones son
preguntas de SI NO, variables dicotmicas cuyas nicas posibilidades son: que se cumpla la
condicin (xito), o que esta no se cumpla (fracaso).
Un evento Bernoulli asocia una probabilidad p al hecho de que se verifique la condicin buscada,
y una probabilidad q al evento de que la condicin no se cumpla. Aqu el espacio muestral tendr
slo dos elementos, S={Exito, Fracaso}, con P(Exito) =p, P(Fracaso)=q & p+q =1. La f.p. de la

distribucin Bernoulli es: Si X


x

1 x

p q

B (p) entonces:

, x=0,1

f X (x)=
0

d .of .

La distribucin Bernoulli tiene como nico parmetro a p, su media es igual a p y su varianza


2 es igual a pq, esto puede verificarse mediante las frmulas para obtener la media y la varianza
a partir de una distribucin terica.
Ejemplos:
i)

Solo 10 de los 25 estudiantes de la clase de mecnica de fluidos, podrn asistir a la


embotelladora de cerveza del grupo Modelo.

De acuerdo con la Distribucin

32

Statistics for human beings

by Rueda, Jos A.

Bernoulli, cul es la probabilidad de que un estudiante elegido al azar de la lista,


pueda asistir a la embotelladora, si suponemos que la asistencia de cada estudiante
es equiprobable?
Regularmente el profesor Perez, deja la luz encendida al retirarse del aula en 5 de

ii)

cada 20 de sus clases; cul es la probabilidad de que al revisar el conserje un da


cualquiera el saln despus de su clase, la luz est apagada?
Verifique que su media es igual a p y su varianza 2 es igual a pq usando las

iii)

frmulas para el clculo de & 2 a partir de una funcin de distribucin terica.

Distribucin Binomial
Dados n Eventos Bernoulli con P(Si)=p P(No)=q, la Distribucin binomial cuenta nmero de
xitos obtenidos, x, al buscar la condicin dada, y por ende cuenta indirectamente el nmero de

Si

fracasos o de veces n-x en que la condicin no se cumple.

(nx) p q
x

nx

X (n , p)

entonces:

, x=0,1, n

f X ( x)=
0

d .of .

La Distribucin Binomial tiene como nicos parmetros a n & p, su media es igual a np y su


varianza 2 es igual a npq, esto puede verificarse mediante las frmulas para obtener la media y
la varianza a partir de una distribucin terica.
El coeficiente de la funcin de probabilidades de la Distribucin Binomial indica una combinacin
de elementos entre los n eventos Bernoulli; de entre los cuales x elementos si cumplen con la
condicin y n-x elementos no cumplen con la condicin deseada.
Ejemplo:
i)

Un producto a base de pintura de goma es aplicado para impedir la corrosin en


componentes mecnicos metlicos. El producto presuntuosamente protege hasta por
veinte aos el 80% de las piezas en las que se usa; si se aplica a 5 piezas:
a) Anote la funcin de probabilidades especfica para este caso y obtenga la funcin de
distribucin.

33

Statistics for human beings

by Rueda, Jos A.

b) Tabule los resultados de las funciones


c)

f X (x)

& FX ( x )

Obtenga la media y la varianza a partir de las frmulas generales y verifquelas con

las frmulas puntuales para la Distribucin Binomial.


d) Cul es la probabilidad de que al menos 4 de las cinco piezas no estn daadas
segn el fabricante?
e) Cul es la probabilidad de que sea efectivo en exactamente 3 las piezas?
f) Evale por complemento, cul es la probabilidad de que sea efectivo en por lo
menos una sola pieza?
g) Usara y recomendara el producto?
Solucin: La aplicacin de las f.p. y F.D. a cada caso se aplican de forma idntica a cada
Distribucin o Modelo Probabilstico. Por ser el primer ejemplo al respecto, iremos detallando el
proceso paso a paso.
a)

(5x ) 0.8 0.2


x

5 x

, x=0,1, 5

f X (x)=
0

d .of .
b)
X

f X (x)

3x10-04

0.006

0.051

0.205

0.41

0.328

FX ( x )

3x10-04

0.006

0.058

0.263

0.672

x f X (x )

0.614

x 2 f X (x )

1.843

16.8

c)

Mediante las frmulas desarrolladas

x f X ( x)= x f X (x )=

(0)(3x10-04) + + (5) (0.328) =4

x f X ( x ) = x f X ( x )

34

Statistics for human beings

by Rueda, Jos A.

[ (02)(3x10-04) + (12)(0.006) +(52)(0.328) ] [42] = 16.8-16 = 0.8


-

Mediante las frmulas concretas para la Distribucin Binomial


=np = (5)(0.8)= 4

2=

npq = (5)(0.8)(.2)= 0.8

d) al menos 4 significa cuatro o ms


P(X4) = P(X>3) = [P(X=4)+P(X=5)] =

alternativamente

f X ( 4 )+ f X ( 5 )= 0.41+0.328

e) Exactamente equivale a decir P(X=x) =

f X ( 3)
f)

1P ( X 3 )=1F X (3)

=1-.263

f X (x )

=0.205

Por lo menos en una pieza implica una o ms


P(X>0) = 1-P(X0) = 1-

g)

F X ( 0 )=1 3x10-04 = 0.9996

Pese a que la respuesta obedece a cada criterio, acorde con

f X (x)

, podemos

notar que entre 3 a 5 de las piezas tendrn en efecto la proteccin a veinte aos.
Esta conclusin se basa en que

f X (x)

representa realmente a la realidad y

que se puede verificar mediante un experimento. El problema con el estudio que


se plantea, es que tardara 10 aos en concluirse.
Distribucin Poisson
Dados un nmero muy grande de Eventos Bernoulli, cuya probabilidad de xito p es muy baja;
la Distribucin Poisson cuenta el nmero de xitos dentro de un intervalo de tiempo o espacio. El
nmero promedio de veces que la condicin se cumple en cada intervalo es

X ( )

entonces:

e
, x=, 1,2
x!
f X ( x)=

35

Si

Statistics for human beings

by Rueda, Jos A.
0,d.o f .

La Distribucin Poisson puede compararse con una Distribucin Binomial en la que la


probabilidad de xito es muy baja. El nico parmetro de la Distribucin Poisson es

siendo

= 2.

Ejemplo:

i)

Despus de sufrir una derrota en futbolito de robots acuticos, el equipo M6 ha


corregido todas las fallas que provocaban que los robots se atoraran en las porteras
durante todo el partido; despus de esto, el equipo solo ha recibido a lo mucho 0.5
goles por partido.
a) Cul es la probabilidad de no recibir un gol durante un partido del siguiente
torneo?
b) Cul es la probabilidad de recibir menos de tres goles en un partido?
c) Cul es la probabilidad de recibir ms de cuatro goles en un partido?
d) Si los torneos son de diez partidos Podramos replantear la Distribucin Poisson
y modificar el intervalo de partido a torneo?

ii)

El nmero de estrellas en el rea abarcada por la posicin fija de un


telescopio result ser de 0.69.
a) Al apuntar el telescopio a una direccin al azar Cul es la
probabilidad de localizar menos de tres estrellas?
b) Cul es la probabilidad de encontrar ese punto en especfico, sin
estrellas?
c) Cul es la probabilidad de encontrar cuatro o ms estrellas en un
punto dado?
d) Cul es la probabilidad de encontrar diez estrellas en una
posicin fija del telescopio?

Distribucin Hipergeomtrica
Dadas n repeticiones de un Evento Bernoulli, cuya probabilidad de xito es p; la Distribucin
Hipergeomtrica cuenta el nmero de xitos obtenidos al seleccionar los elementos de forma
sucesiva y con muestreo sin reemplazo; de manera que a cada evento se modifican las
probabilidades. Si

X Hyp( N , A , n)

, entonces:

36

Statistics for human beings

by Rueda, Jos A.

B
( Ax )( nx
) , n< An< B
( Nn )
f X ( x)=
x=0,1,2 n
0

d. o. f.

Donde A es el nmero de elementos con la condicin buscada, B es el nmero de elementos que


no tienen tal condicin, N es el tamao de la poblacin y n el tamao de la muestra. Los
parmetros que definen la forma de la Distribucin Hipergeomtrica son N y A. La media es =

np

y la varianza es 2 = npq

N n
N1

, con p = A/N.

Ejemplo:
i)

En una sala de cmputo se ha notado que de los 55 estudiantes que usan las
maquinas, el 40% las usan de manera ldica. El supervisor de zona llegar el da de
hoy y decomisar las maquinas si ms de la mitad resultan ser usadas de manera
ldica en el momento; cuando el supervisor llega solo 10 estudiantes estn usando
los equipos.
a) Modele este caso mediante una Distribucin Hipergeomtrica y anote sus
parmetros.
b) Calcule la probabilidad de que las maquinas sean decomisadas
c) Calcule la probabilidad de que solo dos maquinas se estn usando para trabajar

ii)

El equipo mixto de baloncesto que representar al jardn de nios Amis en las


olimpiadas infantiles, reclutar a 12 integrantes para el torneo. Si en el grupo
disponible para la seleccin, existen 32 varones y 18 damitas
a) Cuntas damitas podran ser reclutadas en promedio?
b) Cul ser la varianza del nmero de damitas que sern reclutadas?
c) Cul es la probabilidad de que ninguna damita sea elegida?
d) Cul es la probabilidad de que un tercio de los reclutados sean nias?

Distribucin Geomtrica
Dados un nmero dado de repeticiones de un Evento Bernoulli, cuya probabilidad de xito es p;
la Distribucin geomtrica cuenta el nmero de veces que ha de repetirse el evento Bernoulli

37

Statistics for human beings

by Rueda, Jos A.

para obtener un solo xito. La notacin y la f.p. que describen a las principales distribuciones

Si X G ( p )

discretas se resumen en el Cuadro 4.

entonces:

q x1 p , x=1,2
f X ( x)=
0

d. o. f.

El nico parmetro de la Distribucin Geomtrica es p. Su media =

q
p

y su 2 =

q
2
p

Ejemplo:
i)

Don John sali hoy a la busca de patos para cazar. Su puntera no es muy buena, y
las ltimas veces ha tenido que disparar a diez patos para cazar apenas uno.
a) Modele este caso mediante una Distribucin Geomtrica y anote sus parmetros,
su f.p. y su F.D.
b) Cul es la media y la varianza para este caso en particular?
c) A cuntos patos debe disparar John si pretende volver a casa con un pato?

Cuadro 4. Principales modelos probabilsticos discretos


Distribucin Binomial
Distribucin Poisson
Si

X (n , p)

Si X P( )

n
x

()

n x

p q

e x
, x=, 1,2
x!

, x=0,1, n

f X (x)=

f X (x)=
0

0,d.o f .

d .of .
Distribucin Hipergeomtrica
Si

X Hyp( N , A , n)

Distribucin Geomtrica

Si X G( p)

q x1 p , x=1,2

38

Statistics for human beings

by Rueda, Jos A.
f X (x)=

B
( Ax )( nx
) , n< An< B
( Nn )

d. o. f.

f X (x)=
x=0,1,2 n
0

d. o. f.

Modelos de probabilidad:
I I I . D i s t r i b u c i o n e s C o n t i n u a s M o d e l o s d e Pr o b a b i l i d a d
Cuantitativos
Las distribuciones continuas ms comunes en el ejercicio de la inferencia estadstica han sido
modeladas en funcin a las necesidades en el anlisis de datos, y frecuentemente no describen
el comportamiento de una variable aleatoria natural (mediciones directas en campo), sino a
parmetros o a estimadores de los parmetros, obtenidos a partir de mediciones en una
muestra. Por lo que a estas distribuciones se les denomina Distribuciones derivadas del
muestreo.
Existe un sin nmero de distribuciones tericamente vlidas como funciones de densidad, ya que
la definicin matemtica agrupa a toda densidad o rea bajo una curva o recta cuya integral
en todo su rango sea exactamente igual a 1.0 (vea Propiedad 1 de la f. d.); como es el caso de la

funcin:

f X (x )=

2
2
X

para X|1x 2 (0, d. o. f.), para cuyo calculo de , 2 & P(a<x<b) en

cualquier intervalo vlido han sido descritas al final del captulo de funciones, sirva ese caso
como un ejemplo anticipado. Antes de adentrarnos en las distribuciones derivadas del muestreo,
analizaremos un ejemplo ms sobre una distribucin continua clsica.
Distribucin Uniforme Continua
Cuando una variable aleatoria es equi-probable para cualquier par de intervalos (a 1, b1) & (a2, b2)
de anchura idntica; su fX(x) es una lnea de altura igual a f X(x) que parte de

. SI X

( 1 , 2

y termina en

, entoces su f.d. es:

39

Statistics for human beings

by Rueda, Jos A.
1
, < x <2
21 1

f X ( x)=
0

d. o. f.

La media de la D. Uniforme Continua est dada por =

2
( 2 1)
12

; y para cualquier intervalo [a,b] la P(a<x<b) =

integrar

F X ( x )=
1

1+ 2
2

; su varianza =

ba
21 ; & su F.D se obtiene

al

1
.
2 1

Distribucin Normal. Es la distribucin cuantitativa con mayor nmero de


aplicaciones prcticas, una gran diversidad de variables aleatorias naturales
que describen situaciones reales sigue este modelo probabilstico. Inicialmente
fue descrita por Karl Gauss (1777-855), por lo que es llamada tambin la
Campana de Gauss, o distribucin normal de errores. Su funcin de densidad
es:

{2
1
e
2
1

(x ) }

,< x <

f X ( x)=
0

d. o. f.

40

Statistics for human beings

by Rueda, Jos A.

Donde es la media y 2 es la varianza de la distribucin normal .

A diferencia de los
modelos probabilsticos vistos hasta ahora, la funcin de densidad de la
distribucin normal no se usa para el clculo de probabilidades.
Convencionalmente la variable original se transforma a un modelo estndar
para el cual las probabilidades ya han sido calculadas y tabuladas.
Propiedades:
1. La distribucin normal es simtrica respecto a y la P(X>) = P(X<) =0.5.
2. Debido a la simetra, = e = o (la media, la moda y la mediana
coinciden).
3. La distancia horizontal entre el punto de inflexin (por cualquier lado) y es
.

4. La probabilidad P (-< < ) = 0.68, P (-2< <2) = 0.95.

Distribuciones derivadas del muestreo

Distribucin Normal Estndar


Si

, 2
X N ), entonces Z =

0 ,1

; tal que Z N ). A la variable Z se le

denomina distribucin normal estndar representa una curva normal con


media CERO y varianza UNO. Toda variable X con distribucin normal es
susceptible de transformarse en Z para facilitar el clculo de probabilidades;
despus de lo cual, es factible retransformar a las unidades originales.

1 {
e
2

f Z( z)

z
2

} , < z <
,

d.o.f.

Por no representar Z una variable natural tomada del mundo real, se dice que
es una distribucin derivada del muestreo. La curva Z conserva todas las
propiedades que la distribucin normal tiene; adicionalmente, facilita el clculo
de probabilidades.
Otras distribuciones derivadas del muestreo
A este selecto y til grupo pertenecen: adems de la ya mencionada 1.
Distribucin Normal Estndar o Z, que describe el comportamiento de una
41

Statistics for human beings

by Rueda, Jos A.

media muestral, una media poblacional, o de una adicin de medias; 2. La


Distribucin t de Student, que es til para los mismos casos que Z, cuando los
tamaos de muestra son reducidos o no se conoce la varianza poblacional; 3.
La Distribucin ji cuadrada

, til al hacer inferencias sobre la varianza de

una Distribucin Normal; & 4. La Distribucin F de Fisher, til al hacer


inferencia sobre la razn de dos varianzas de variables con Distribucin
Normal. Todas ellas guardan estrecha relacin entre s, sus funciones de
densidad se representan de una forma abreviada en la Figura 5.

Distribucin normal
Distribucin normal
estndar

X N ( , 2 )

0,1
ZN )

Distribucin normal de
errores de una variable
aleatoria continua

Transformacin de X
cuando

X N

para

facilitar el clculo de
probabilidades
Distribucin F de Fisher

f F(f )=

Razn entre dos

2v ' s ;

til al hacer
estimaciones sobre la
razn de dos varianzas

Z 1 + Z1 + + Z v

Evaluar sumas de
valores Z elevados al
cuadrado (distribucin
de una varianza)

Distribucin t de
Student

t=

2
u
2
v

Distribucin ji-cuadrada

2v
v

Transformacin de la
curva normal estndar
para analizar datos
procedentes de
muestras pequeas

Figura 5. Relacin entre las distribucin derivadas del muestreo


El clculo de probabilidades en las distribuciones derivadas del muestreo no se
realiza mediante la integracin de la funcin de densidad, la cual es ms
compleja de lo que aqu se indica; estas curvas de distribucin son nicas y
una vez especificados sus parmetros, todos los valores de probabilidad son
42

Statistics for human beings

by Rueda, Jos A.

nicos y se pueden consultar en una tabla. Las tablas se proporcionarn como


material del curso. En particular la tabla Z reporta el rea acumulada a la
derecha del valor z consultado; es decir la P(Zz), lo que equivale a la Funcin
de Distribucin de Z. La tabla t reporta valor de t tal que P (Tt ,n-1), lo que
equivale a delimitar un rea a la derecha, exactamente igual a , lo contrario a
lo reportado por la tabla Z, el complemento de la Funcin de Distribucin. La
consulta de la tabla de

2v

funciona exactamente de la misma forma,

acumulando el rea desde la derecha hacia la izquierda.

Pru eb as d e hip tes is


I . Co ncep tos tiles en e l plan team ien to de un a pr u eba
Usando las distribuciones continuas derivadas del muestreo como modelos que
describen la distribucin de los parmetros y la distribucin normal como una
funcin que se adapta, casi de manera universal, a un sin fin de variables
naturales; es posible hacer predicciones sobre la media y la varianza de una
distribucin normal o sobre las medias y varianzas de un par de muestras
cuyos datos sea de inters prctico comparar. Al respecto cabe mencionar dos
hechos concretos: 1. Una prediccin no es sino una respuesta a una a una
hiptesis estadstica & 2. Tales hiptesis producen una conclusin con respecto
a los parmetros poblacionales y no respecto a los estimadores.
Hiptesis estadstica: Una hiptesis es una aseveracin con respecto a un
hecho, pero aun siendo una frase imperativa, su veracidad o falsedad debe ser
probada.
En estadstica, una hiptesis implica una sospecha sobre la
localizacin del parmetro de una distribucin; sobre si este es menor, mayor o
igual a cierto valor de referencia. En este sentido, una hiptesis puede ser falsa
o no, sin que el investigador pueda probar con certeza lo uno o lo otro.
Despus de aplicar un procedimiento, el investigador puede refutarla o no
refutarla, tal decisin conlleva un error intrnseco.
El investigador solo somete a prueba un parmetro cuando desea
comprobar alguna diferencia que prev como cierta; el investigador
43

Statistics for human beings

by Rueda, Jos A.

siempre est en bsqueda de diferencias. Con base en esto se define la


hiptesis Hiptesis alterna (Ha) o hiptesis de investigacin, que alega que
los valores que se contrastan son diferentes; a la vez es necesario definir su
complemento (negacin), la Hiptesis nula (H0) o hiptesis del modelo, que
alega que los valores que se contrastan son iguales. Por lo hasta aqu dicho,
la prueba de hiptesis tiene, las ms de las veces, como objetivo rechazar la
hiptesis nula con el menor margen de error posible. H 0 &Ha contendrn en un
experimento a todo elemento en S, siendo adems el evento [H 0] el
complemento de Ha ([H0] = [Ha]C); es decir, todo evento no considerado por la
[H0], estar contemplado en [Ha]. e.g.
[H0]

[Ha] Correcta

[Ha] Incorrecta

La luna es de cualquier
material excepto queso

La luna es de rocas baslticas

A lo mucho es medio da

Ya pasa de medio da

Es la una de la tarde

La media poblacional es a lo
mucho 16 (16)

La media poblacional es
mayor a 16 (>16)

La media es a lo menos 16 (
16)

La varianza es menor a 5
(2<5)

La varianza es por mucho 5


(25)

La proporcin de estudiantes
10.0 difiere de 0.1 (P>0.1
P<0.1)

La proporcin de estudiantes
con 10.0 es mayor a 0.1
(P>0.1)

La luna es de queso

La varianza de X es por lo
menos 5 (25)

La proporcin de estudiantes
con 10 es 0.1
(P=0.1)

Tipos de error: Dada una hiptesis nula y la necesidad de rechazarla como un


objetivo en los ms de los casos, y dada tambin la imposibilidad de verificar
la certeza de la hiptesis con seguridad tendremos los siguientes casos:

Condicin
desconocid
a

Hiptesis
verdadera
Hiptesis falsa

Decisin tomada
Rechazar
No rechazar
(a) Error tipo I
( c ) Decisin correcta

( b ) Decisin correcta

(d) Error tipo II

El caso a) consiste en rechazar una hiptesis nula que en realidad es


verdadera, la probabilidad de cometer el error tipo I se denota por ( =PETI)
y se est siempre en riesgo de cometer un ETI, dada la imposibilidad de
conocer la veracidad de la hiptesis y dado tambin la imposibilidad de
manipular la decisin (ya que se toma con base a una regla- Regla de
Decisin-).
El caso d) corresponde a no rechazar una hiptesis nula que en realidad es
falsa, la probabilidad de cometer el error tipo II se denota por (= PETII);
44

Statistics for human beings

by Rueda, Jos A.

pese a la idntica importancia semntica de ambos conceptos, es el ETI el que


se usa ms en la toma de decisiones.
Los casos b) & c) no representan un error, rechazar una mentira (b) no
rechazar una verdad (d), suenan a simple vista como una decisin acertada.
Existe un ETIII, el cual consiste en desarrollar un anlisis incorrecto, basndose
en datos errneos; definmoslo as: el ETIII consiste en no verificar los
supuestos bsicos de un anlisis antes de ejecutarlo.
Procedimiento para realizar una prueba de hiptesis
Usualmente el estudiante presta demasiada atencin a los clculos y al hacerlo
deja de lado la hiptesis misma y no logra concluir acertadamente. La
hiptesis y el por qu de esta, as como la conclusin de la prueba son las
dos partes ms importantes; bsicamente o se puede hacer una prueba de
hiptesis si no se tiene una hiptesis.
a) Plantear en smbolos Ha, la hiptesis del investigador y su
complemento H0, la hiptesis del modelo. El signo de H a refleja la cola
de la distribucin en la que se rechazara o no la H 0, y el signo de la
Regla de Decisin.
b) Elegir la distribucin a la que se adapta el parmetro al que se refiera la
hiptesis (las hiptesis son asunciones sobre los parmetros, no sobre
los estimadores) y calcular el estadstico de prueba o valor
calculado de la distribucin con base en la muestra. e.g. si se ha
elegido la distribucin t para resolver una hiptesis sobre la media, se
calcula tCAL .
c) Consultar la tabla de la f.d. de la distribucin elegida para obtener el
valor tabulado con base en el tamao de la muestra y la PETI que
se est dispuesto a tolerar. e.g. partiendo de que ya se ha calculado t CAL,
se debe obtener aqu t , n-1.
d) Aplicar la Regla de Decisin que para el caso ejemplificado en b) y c)
versara Rechace H0 con si tCAL (aqu el signo de Ha) t , n-1. La regla de
decisin contrasta el valor de H0 con el valor de Ha, lo cual se puede
evaluar grficamente.
e) Concluir fuera de todo leguaje estadstico. Este paso es el ms
importante.
Definiendo una prueba de hiptesis
Siempre que se evale una prueba de hiptesis, tendremos exclusivamente
tres posibles casos: a) probar que nuestro parmetro est por debajo de
cierto valor, b) probar que el parmetro supera cierto valor c) probar que
el parmetro difiere de un valor de referencia. Lo que grficamente
representar una cola izquierda, derecha o dos colas a la vez. Estos tres
casos son una constante independientemente del parmetro que se desee
explorar. Es de nuestro inters el plantear y resolver pruebas de hiptesis
para medias, varianzas, diferencias entre dos medias y para la razn o
cociente de dos varianzas de distribuciones normales.
45

Statistics for human beings

by Rueda, Jos A.

Pru eb as d e hip tes is


I I. Pr u e b a s d e h i p t e s i s s o b r e l a m e d i a

de una

distribucin normal
Al realizar una prueba de hiptesis sobre la media de una distribucin normal,
se pueden dar tres casos de inters prctico: a) el investigador est interesado
en demostrar que la media poblacional ( ) es menor a cierta constante (

o ),

por lo que esta ser H a y la prueba ser de cola izquierda; b) el investigador desea
comprobar que la media poblacional () supera a un valor dado (

o ), dando lugar a
46

Statistics for human beings

by Rueda, Jos A.

una prueba de cola derecha; c) el investigador desea probar que la media es igual al
valor de referencia, lo que significar una hiptesis que descarta la mitad de en cada
lado de la distribucin. A continuacin se detallan los tres casos en una prueba de
hiptesis de este tipo:
Cas

Cola

Hipte

Hiptesi

sis

nula

alterna

H0:

Ha: <

o
a)

Izquier
da

Regla de decisin
n<30 2estimada

Rechazar H0 si
-

b)

Derech
a

H0:

Ha: >

c)

Dos
colas

<

t , n1

Rechazar H0 si
>

t CAL

t CAL

Regla de
decisin
n>30 2conocida
Rechazar H0 si

Z CAL

Rechazar H0 si

Z CAL

t , n1

<

Z 1

>

H0:

Ha:

Rechazar H0 si

Rechazar H0 si

t CAL > t , n1
2

Z CAL

>

Z /2

Como podemos notar en el Cuadro 5, en funcin al tamao de la muestra o al


conocimiento de la varianza, tendremos dos formas de estimar el valor
calculado; dado que la distribucin t fue desarrollada para muestras pequeas.
Los valores calculados para Z & t tienen una expresin equivalente, ambas se
muestran a continuacin.
Muestra pequea
varianza desconocida
(t)

t CAL=

n( x o)
S

Varianza conocida o
muestra grande (Z)

Z CAL=

n( x o )

La regla de decisin parte el espacio muestral en dos zonas (en la curva de


la funcin de densidad t Z) que representan dos eventos mutuamente
excluyentes. Donde t ( Z) de tablas es el punto de divisin de estas reas, el
rea ms pequea aislada en la cola (o colas) es el valor de ; el rea ms
grande corresponde a (1-), a la cual se denomina precisin la prueba.
Ejemplos:
47

Statistics for human beings


(i) Si la calificacin
(ii)

by Rueda, Jos A.

de una prueba psicomtrica es de 1000 y la S es de 100

en una muestra de tamao 16, es el parmetro realmente mayor a 980?


Si en el ejemplo anterior damos por sentado que =100, ser el
parmetro menor a 1050?
Respuestas (i)&(ii)

(i)

= 1000 S =100 & n= 16 ;

= 980

Ha: Es

>980 ?

Caso Muestra pequea varianza desconocida (t). Cola


derecha
a) H0:

980

Ha: > 980

n( x o) 16(1000980)
=
=0.8

b)

t CAL=

c)

t , n1=t 0.05,15=1.7531

d) Rechazar H0 si

100

t CAL

>

t , n1
Rechazar H0 si

t CAL
Rechazar H0 si

0.8

>

>

t 0.05,15

1.7531

e) NO se rechaza H0 con =0.05


No existe razn para sospechar que la media
poblacional de la calificacin de los sustentantes
de esta prueba psicomtrica sea superior a 980
puntos (P<0.05)
(ii)

= 1000, =100, n=16,

= 1050 & Ha: Es

<1050 ?
Caso '

Varianza conocida o muestra grande (Z). Cola


izquierda

48

Statistics for human beings

by Rueda, Jos A.
1 050

a) H0:

Ha: < 1 050

n( x o ) 16 (10001050)
=
=2.0

b)

Z CAL=

c)

Z =Z 0.05=1.65

d) Rechazar H0 si

100

Z CAL

<

Z
Rechazar H0 si

Z CAL
Rechazar H0 si

2.0

<

<

Z 0.05

1.65

e) SI se rechaza H0 con =0.05.


La media poblacional de la calificacin de los
sustentantes de esta prueba psicomtrica es
inferior a 1050 puntos (P<0.05)
(iii)

Suponiendo que se ha tomado una muestra de tamao 27 y se ha


encontrado una media y desviacin idnticas a las reportadas en el
ejercicio resuelto. Un sustentante alega que su calificacin fue de 975 y
que por tanto est en la media de inteligencia nacional. (i) Ser la
media poblacional significativamente diferente de 975? Resuelva.

Pru eb as d e hip tes is


I I I. Pr u e b a s d e H i p t e s i s s o b r e l a d i f e r e n c i a e nt r e d o s

( 1 2)

medias
Sea

12

con distribucin normal:

^
=

&

x 1x 2

; entonces se pueden dar

cualquiera de los tres casos descritos en seguida:


Cas

Cola

a)

Izquier
da

Hipte

Hiptes

Regla de decisin

Regla de

sis

is

decisin

nula

alterna

Varianzas homogneas
y estimadas (t)

Ho:

Ha: <

Rechazar H0 si

t CAL

<

Varianzas
heterogneas y
conocidas (Z)
Rechazar H0 si

49

Statistics for human beings

by Rueda, Jos A.
Z CAL

t ,n +m2
b)

Derech
a

Ho:

Ha: >

Rechazar H0 si

t CAL

>

t , n+m 2
c)

Dos
colas

Ho:

Ha:

Rechazar H0 si

>

t
2

, n+m2

El caso ms importante es aquel donde


que implica que los parmetros

t CAL

12

=0

<

Rechazar H0 si

Z CAL

>

Z 1

Rechazar H0 si

Z CAL

>

Z /2
y la hiptesis es el caso c), ya

son iguales. Puede verificarse que los

tres casos aqu planteados son equivalentes a los presentados para el caso de
las pruebas de hiptesis sobre una sola media (tema anterior) y que son
basados de hecho en t y Z tambin. Las nicas dos diferencias residen en que
el valor calculado refleja la diferencia entre dos medias y el valor de tablas se
consulta con n+m-2 grados de libertad. Cuando el valor de a usar no sea
especificado en el requerimiento de una prueba deber de usarse regular e
indistintamente un =0.05.
Varianzas
homogneas y
estimada (t)
Valor
calculad
o

t CAL=

Varianzas
heterogneas y
conocidas s (Z)

( x 1x 2 ) 0

2
p

1 1
+
n m

Z CAL=

( x 1x 2 )0

21 22
+
n m

S21 ( n1 ) + S22 (m1)


S =
n+m2
2
p

La regla de decisin separa la funcin de densidad de Z o t en dos reas


(bajo la curva) es funcin al valor de tabas (Z t ). En el caso de las pruebas
de una sola cola, el valor del rea ms pequea (PET I ) est aislado en uno
de los extremos en la grfica de la funcin de densidad. En las pruebas de dos
colas, el valor de est dividido en dos pequeas reas en los extremos de la
funcin de densidad. Los valores de Z ( t) que se ubican bajo el rea que
representa comprende un segmento de recta que se conoce como zona de
50

Statistics for human beings

by Rueda, Jos A.

rechazo de H0; los valores que estn fuera de esta zona comprenden la
zona de NO rechazo de H0.
Ejemplos:
(i)

(ii)

En una empresa ensambladora de circuitos plug in para nodos de red,


se midi el nmero de unidades que se ensamblaban por da bajo A un
esquema de descansos de 5 min c/h o& B 15 min c/2 h. Obteniendo los
sig. datos: A: 1735, 2002, 1820, 2082, 1894, 2873, 1816, 2008, 1758,
1898, 2223, 2313 & B: 3403, 3294, 2899, 3350, 3212, 2964,3098, 2984,
2492. Son las medias poblacionales resultados diferentes? qu mtodo
recomendara?
El empresario del caso (i) ha estimado que de acuerdo con la energa
requerida para encender la maquinaria cada dos horas solo ser rentable
establecer el esquema de descansos largos si la diferencia entre los
mtodos de descanso rebasa 700 unidades (es mayor qu). puede usted
ayudar a tomar esta decisin?
Respuestas (i)&(ii)
(i)

x
x

= 2035.2

S 21

= 3077.3

S2

=101678.5 & n = 12,


=80235.8 & m = 9,

Es 2 1?

^
0=0=

Caso

x 1x 2=

-1042.1

Varianzas homogneas y estimadas (t) n & m


pequeos. Dos colas
a) H0: 0
Ha: 0

b)

t CAL=

S p=

( x 1x 2 ) 0

Sp

( 1n + m1 )

1042.1 0
=

92650

S21 ( n1 ) + S22 (m1)


n+m2

101678.5 ( 11 ) +80235.8 (8)


12+ 92

( 121 + 19 )

= -7.7641

= 92650

51

Statistics for human beings

by Rueda, Jos A.
t

c)

, n+m2

=t 0.025, 19=2.0930

t CAL

d) Rechazar H0 s|

>

, n+m2

Rechazar H0

t CAL

s
>

t 0.025,19

Rechazar H0 s |-7.7641| > 2.0930


(Se rechaza por la izquierda)
e) SI se rechaza H0 con =0.05
Los dos mtodos de descanso producen
resultados diferentes en cuanto a produccin de
unidades (P<0.05)
(ii)

x
x

= 2035.2

S 21 =101678.5 & n = 12,

= 3077.3

S2

=80235.8 & m = 9,

Es

2 - 1 > 700

^
0=700=

Caso

x 2x 1=

1042.1

Varianzas homogneas y estimadas (t) n & m


pequeos, cola derecha
a) H0:

700

Ha: > 700

^
=

b)

t CAL=

x 2x 1

^ 0

S 2p

( 1n + m1 )

12

21

1042.1700
=

92650

( 121 + 19 )

= 2.5487

52

Statistics for human beings

by Rueda, Jos A.
2

S 2p=

S1 ( n1 ) + S2 (m1)
n+m2

101678.5 ( 11 ) +80235.8 (8)


19

= 92650

Note que en la frmula de t se ha sustituido el valor

x 2x 1=

1042.1;

indicndole

que

la prueba

( x 1x 2 )
de

^
=

por

hiptesis

t o t a l m e n t e d i f e re n t e s i s e p e g u n t a p o r l a d i f e re n c i a
se pregunta por a diferencia 2 - 1

es

2 - 1 que si

t , n+m 2 =t 0.05,19=1.7291

c)

d) Rechazar H0 s

t CAL

t , n+m 2

>

Rechazar H0 s

t CAL

>

t 0.05,19
Rechazar H0 s 2 .5487

1.7291

e) SI se rechaza H0 con =0.05


El mtodo de descansos ms largos supera en
ms de 700 unidades la produccin diaria lograda
por el mtodo de descansos cortos en esta
empresa (P<0.05)
(iii)

Se evala la capacidad de produccin de calor que tiene el carbn


proveniente de la mina A:
de la mina B: x

= 7940

= 8230

21

=15750 n = 5; respecto al

= 10920 & m = 6. Use un =0.01 para

responder, es esta diferencia, estadsticamente significativa? Resuelva.

^
=

Note que en este caso no trasciende si denotamos

x 2x 1

^
=

x 1x 2

( =2-1

= 1-2,

respectivamente); ya que en tanto la diferencia exista, est podr ser


53

Statistics for human beings

by Rueda, Jos A.

probada si invade zona de rechazo de H 0 en la cola izquierda o en la


cola derecha. Acorde con la regla de decisin, es irrelevante si entra
en la zona de rechazo por la izquierda o por la derecha.

Pru eb as d e hip tes is


2 de u n a

I V. Pr u e b a s d e Hi p t e s i s s o b r e l a v a r i a n z a
distribucin normal

En situaciones donde es primordial que las medias de ciertas mediciones sean lo ms


precisas posibles, es necesario hacer pruebas para comprobar que la varianza no
rebase ciertos lmites. Para ello, las condiciones generales que aplican a una prueba de
hiptesis son iguales a las ya revisadas en los temas II y III de Pruebas de hiptesis. No
obstante, el modelo probabilstico que se ajusta a la distribucin de la varianza es ji
cuadrada.
Cas
o
a)

b)

Cola

Hiptesis

Hiptesis

nula
H0:

alterna

Izquierd
a
Derecha

2 20
H0:

2 20
c)

Dos
colas

Ha:

2 < 20

Ha:

2 > 20

Ho::

Ha: :

2= 20

2 20

Regla de decisin

Rechazar H0 s

Rechazar H0 s

2CAL <
2CAL >

2 ,n1

CAL <

Rechazar H0 s

21 ,n1

(1 2 ), n1

2CAL >

( 2 ) ,n1

El valor de ji cuadrrda calculado se estima de la siguiente manera:

2CAL=

( n1 ) S 2
20

Ejercicios:
Resuelva
(i)
El llenado de las bolsas de alimentos a granel presenta un reto
importante cuando el 9llenado y sellado de las bolsas se hace
mecnicamente; es posible encontrar desde 987 hasta 1019 g en las
54

Statistics for human beings

by Rueda, Jos A.

bolsas de 1 kg de una muestra tomada al azar durante una hora de


funcionamiento de la empacadora; el supervisor ha decidido detener
la produccin y ajustar las maquinas si la varianza es mayor a 49. Si
se tomo una muestra de 37 productos al azar se obtuvo una varianza
de 56, Qu decidir el supervisor?.
(ii)

Con las condiciones mencionadas en (i) podr declararse que la


desviacin estndar es diferente de 6.4 g?

(iii)

El proceso usado para pulir discos de silicio a fin de que su grosor sea
el apropiado es aceptable solo si su desviacin no supera 0.005 pulg.
En una muestra de 15 discos se ha calculado una desviacin de
0.0064. Con un a PETI mxima de 0.01, verifique si el proceso de
pulido es aceptable.

I nt erval os d e Co nfi anza


I.
Estimac i n
Estimacin puntual:
Cada vez que estamos en inters de describir un fenmeno a travs de sus
variables aleatorias relacionadas; deseamos en primer lugar estimar sus
parmetros. Al clculo de una media muestral ( x ) con el fin de tener una
aproximacin de la media poblacional () se le llama estimacin puntual, de
igual manera ser una estimacin puntual cualquier dato que sea obtenido
directamente a partir de una lista de datos y su resultado sea una constante
simple (s, b0, rxy, etc.). No obstante, la idea principal es representar al
parmetro poblacional con base en la muestra; y son los parmetros los que
regularmente sern el motivo de nuestras conclusiones.
55

Statistics for human beings

by Rueda, Jos A.

Estimacin por intervalo:


Dada la intrnseca variacin de todo fenmeno, de toda variable y de toda
estimacin en una muestra (esta variacin es el motivo de esta ciencia que nos
ocupa) un estimador resulta ser poco creble o confiable a nivel cientfico. En la
prctica es comn usar los estimadores como semilla para calcular un
intervalo, en el cual podra localizarse el parmetro que este estima; asociando
adems a tal intervalo un grado de precisin [precisin =1
[confianza = 100*(1

] o confianza

)]. A estos intervalos se les llama intervalos de

confianza y constituyen una segunda forma de estimacin (adems de la


estimacin puntual, e. g.

), llamada estimacin por intervalo.

En la estimacin puntual se obtiene una constante cuya esperanza es el


parmetro que se estima [E( x =]. En la estimacin por intervalo se acepta
el hecho de que el estimador es impreciso y por ello se le afirma que la media
poblacional se encuentra entre dos valores dados (L
de

< L

), equidistantes

x ; asignando adems una probabilidad a tal afirmacin. De tal manera

que se acepta que aun cuando tenemos un intervalo de valores en los que
posiblemente se localice el parmetro, de alguna manera estamos tambin
afirmando que el parmetro no estar contenido entre esos valores en el
100(1-)% de los casos.

Definiendo un intervalo de confianza

^
^ E ) =1
P ( E<
< +

56

Statistics for human beings

by Rueda, Jos A.

Donde: por ejemplo, si el parmetro


expresin del error E ser:

E=t /2,n1

de inters, es ; entonces la

( Sn )

E=Z / 2

( Sn )
=

naturaleza de la variable. Si el parmetro, es tal que

entonces

E=t
2

, (n +m2)

Sp

1 1
+
n m

E=z
2

21 22
+
n m

; segn la

12 ,

, segn la naturaleza

de las variables implcitas. Para el primer caso de este prrafo, hablamos usamos

^
como semilla (

x E

al estimador

y para el segundo caso al estimador

x
( 1 x 2 ) E .

O bien, usando una notacin familiar

, donde L =

^
E

L=

intervalos de confianza para con base en

12

en

con base en

para nosotros

P (L

< L

+ E . Se pueden plantear

x , intervalos de confianza para

x 1x 2 , para 2 con base en s2, o para

21
22

con base

S 21
S 22 ; segn sea necesario.

Relacin entre pruebas de hiptesis e intervalos de confianza


Al evaluar una prueba de hiptesis de dos colas para la diferencia de dos
medias con distribucin normal; la zona de no rechazo de H 0, equivale a un
intervalo de confianza con la misma PETI usada en la prueba. Si un intervalo de
confianza con 0.95 de precisin, para

12 , contiene entre sus lmites a las

cero; entonces la hiptesis nula de igualdad entre las dos medias no se


rechazar con un de 0. 05. De forma anloga: si un intervalo de confianza al
57

Statistics for human beings

by Rueda, Jos A.

0.95 de precisin para la razn de dos varianzas, contiene al valor 1.0;


entonces la hiptesis nula de igualdad entre estas dos varianzas no se
rechazar con un =0. 05. En general, un intervalo de confianza tiene una
estrecha relacin con una prueba de hiptesis de dos colas que use la misma
PETI.
Por otro lado, el lmite superior de un intervalo de confianza podra equipararse
con l punto que divide la zona de no rechazo - a la izquierda - de la zona de
rechazo - a la derecha - en una prueba de hiptesis de con la derecha con una
PETI igual a la mitad del usado en el intervalo. Sin embargo, este lmite
conserva las unidades originales de la variable aleatoria en el intervalo de
confianza, pero el valor de tablas (t, Z,

F) es el mismo (en el IC

respecto a la PH de cola derecha) cuando se cumplen las condiciones


mencionadas arriba.

II .

I nte rvalo s d e Co nfi anza


I nter valo d e c onfi anza p ara la med ia
d istrib uci n norma l

d e una

Muestra pequea varianza desconocida (t)

P x t
2

, n1

( Sn )< < x+ t ( Sn ))=1

,n1
2

Varianza conocida muestra grande (Z)

( ))

P x Z
< < x + Z
=1
n
2
2 n

( )

58

Statistics for human beings

II I.

by Rueda, Jos A.

I nt erval os d e Co nfi anza


I nter valo d e c onfi anza p ara la d ifer encia entr e
d os med ia s

( 1 2 ) con d istrib uci n n ormal

Una de las necesidades ms frecuentes en la experimentacin es la


comparacin entre dos medias que provienen de dos muestras independientes
de una variable con distribucin normal. Usualmente una de las muestras
representa la variable natural y la otra son datos tomados de la misma variable
despus de inducir una modificacin en el fenmeno que estudia. El inters de
la comparacin entre estas dos muestras ser: determinar si la modificacin
inducida en la segunda muestra provoc una modificacin palpable entre las
medias muestrales. No obstante, la conclusin implica que si no existe
diferencia entre las medias poblacionales, stas proviene de la misma variable;
indicando que la modificacin inducida no cre una nueva variable y por tanto
ambas medias muestrales representan a la misma variable o a la misma
distribucin.
Tanto una prueba de hiptesis, como un intervalo de confianza para la
diferencia entre dos medias con distribucin normal, pueden ser utilizados para
conseguir las conclusiones que se implican en el prrafo anterior.
Varianzas homogneas

x
x
( 1 x 2)+t
2

( 1x 2 )t
2

1 1
(
1 1 n + m)
S ( n + m )< <

, ( n+m 2 )

, ( n+m2 )

2
p

S 2p

=1
P

59

Statistics for human beings

by Rueda, Jos A.

x
x
( 2 x 1)+t
2

( 2 x 1 )t
2

1 1
(
1 1 n + m)
S ( n + m )< <
S 2p

, ( n+m 2 )

, ( n+m2 )

2
p

=1
P

Varianzas heterogneas

x
x
( 1x 2)+ z
2

21 22
+
n m

21 22
+
< 12 <
n m
2
=1
P

( 1x 2 )z

x
x
( 2x 1)+ Z
2

21 22
+
n m

21 22
+
< 2 1<
n m
2
=1
P

( 2 x 1 )Z

I V.

I nt erval os d e Co nfi anza


I nter valo d e c onfi anza p ara la varianza
una mue stra con d istrib uci n n ormal

2 de

Conforme la varianza de una distribucin sea ms estrecha, la media ser un


dato ms representativo de la variable descrita y ms confiable. Una manera
60

Statistics for human beings

by Rueda, Jos A.

anloga de hacer predicciones sobre los lmites mximos y mnimos que puede
tomar la varianza poblacional, es establecer un intervalo de confianza para

para

con base en

S2

y el tamao de muestra n. En ocasiones es

til detectar si la desviacin estndar o la varianza son mayores o menores a


los valores permitidos o convenientes; si un problema es detectado a este
respecto, pueden a veces modificarse las condiciones que provocan esta
variacin y eliminarlas. En este sentido, las pruebas de hiptesis y los
intervalos de confianza sobre la varianza tienen gran importancia en la
optimizacin de procesos. Un IC para la varianza de una distribucin normal se
calcula de la siguiente manera:

S 2 ( n1 ) 2 S 2 ( n1 )
< < 2
=1
2 /2, ( n1)
1 /2, (n1)

V.

I nt erval os d e Co nfi anza


I nter valo d e c onfi anza p ara la raz n d e d os
2

varianza s

1
2
2

d e mue stra s con d istrib uci n

normal
A manera de introduccin se aclarar en primer instancia que las comparaciones
entre medias no siempre son correctas; para que una comparacin de medias sea
adecuada. Los lados izquierdo y derecho de la hiptesis de tal comparacin deben
tener varianza similar. A este prerrequisito se la prueba de hiptesis se le llama
homogeneidad de varianzas. La mencionada similitud no implica que sean
idnticas, sino que provengan de la misma poblacin.

61

Statistics for human beings

by Rueda, Jos A.
2

Si dos varianzas son homogneas, entonces el cociente

21
22

2
2
1

1, o bien

1. Siendo estas dos expresiones totalmente diferentes, dado que las

unidades en las que expresa el resultado toman al divisor (e.g.

21 , para la

22
primera expresin) como el total. Si la varianza dos es mayor 2
1
21
22

1 ; el resultado del primer caso toma como 100% a


2

segundo toma a

como el 100%.

1 &

y el

En este sentido la prueba sufre una

ligera modificacin en funcin de la unidad de referencia (denominador en el


cociente). Que dos varianzas sean homogneas iguales no implica que sean
idnticas, sino similares. Dado que ya se ha explicado cmo funcionan las
tablas F, aqu solo se presentan las frmulas para el clculo del intervalo de
confianza.
2

(( )
S2

S 21 F n1
m1 ,

<

2 S 2 m1
<
F n1 , =1
21 S 21
2

S 21
21 S 21 n1
1
P 2 m1 < 2 < 2 F m1 , =1
S 2 F n1, 2 S 2
2

(( )
2

Si un intervalo de confianza para la razn de dos varianzas, contiene entre sus


lmites el valor 1.0, entonces puede concluirse que las dos varianzas usadas en
este cociente son homogneas entre s. Si el intervalo de confianza no contiene
el valor 1.0, entonces se declara que las varianzas son heterogneas.
Esta prueba funciona como una prueba de homogeneidad de varianzas y
debera realizarse cada vez que se pretenda hacer una prueba de hiptesis o
un intervalo de confianza para la diferencia de medias de dos muestras con
distribucin normal. Si las varianzas resultan homogneas entonces los
mencionados casos deberan evaluarse mediante la distribucin t de Student;
62

Statistics for human beings

by Rueda, Jos A.

si por el contrario, resultan heterogneas, entonces deber usarse la


distribucin Z como modelo.

La fbula del carro viejo


La media nos dice dnde encontrar una variable
Despus de andar por algunos kilmetros con 5 L de gasolina, el viejo Mustang finalmente se
detuvo, el lo haba comenzado por cuestiones de liquidez, pero ahora haba que llamar a un
amigo para llevar jalando el viejo hasta la cochera. Afortunadamente an haba seal telefnica.
La pregunta nmero uno fue Y dnde ests?. La posicin correcta no siempre puede conocerse
con exactitud, pero algunas conjeturas llevaron al km 28.5 de la carretera libre Xalapa-Mxico.Vaya!, al menos ahora sabr donde buscarte. Se requiere de una unidad o escala de medicin,
una recta de referencia y con unas cuantas mediciones vual! se tiene una localizacin
aceptable.
La fbula del rayo McQueen:
Sobre la Homogeneidad de Varianzas
La carrera del siglo estaba por terminar y la foto de salida al parecer sera la nica
manera de conocer el ganador. McQueen, Chick y El Rey iban a la delantera. En la ltima vuelta,
Mac (el triler que transporta a McQween a los autdromos) cruz la lnea de meta justo en el
instante que las cmaras tomaron la foto de salida.

Mac crey que la carrera ya haba

terminado e iba a recoger a McQueen para resguardarlo. Sin embargo Mac result ser el ganador
de acuerdo con el reglamento. El enorme cuerpo del triler haba sido lo nico que logro tomar
la foto ya que todos los competidores fueron obstruidos por el trailer. En efecto, para que la
carrera sea justa: todos los autos competidores deberan tener dimensiones similares.

La fbula del cochinito:


Es la media, suficiente para describir un conjunto de datos?
A ciertos estudiante Quan

y Gedro les era asignado un presupuesto de 60

monedas cada da para cubrir sus necesidades de transporte y alimento. A Q su padre le


entregaba durante la semana: 58, 62, 60, 55 y 65. No obstante, el padre de G le
asignaba en promedio sus 60 monedas entregndole durante la semana cantidades
como: 20, 100, 60, 0 y

120.

Cuando Q y G se conocieron, G tuvo una revelacin

importante en su vida: una variable no est totalmente definida por su media, es


necesario especificar su varianza. G lleg a su casa y reclam a su padre en adelante

63

Statistics for human beings

by Rueda, Jos A.

verificar la dispersin de mi mesada; adems requiero de una alcanca (cochinito) en la


que pueda retirar o agregar cada da una cantidad de dinero que en promedio ser
proporcional a la desviacin estndar de mi presupuesto diario.
La fbula de la mancha en la pared:
Qu es la varianza?
Cuando John iba apenas a la Secundara escuch a su maestro decir que la
varianza meda la dispersin de un conjunto de datos; eso lo hizo enojar, ya que no
entendi ni J. Al llegar a su casa su padre comenzaba a pintar el muro frente a la
chimenea y John dej caer por accidente su pelota de Ullamaliztli sobre la cubeta de
pintura equivocada, por lo que su padre la saco y la lanz sobre el muro, dejando en este
una mancha aforme grit: Quin meti esta cosa en mi pintura?!; a lo que John
contest: Daddy Qu es la varianza?. La varianza explica el tamao de esa enorme
mancha que ahora tiene el muro. John comenz entonces a limpiar la mancha y su padre
se qued balbuceando entre dientes la dimensin de tu pelota, el ngulo de
lanzamiento y la viscosidad de la pintura son las variables independientes que causan la
varianza (tamao de la mancha) obtenida y la media es el punto central de la mancha,
pero eso, eso no viene al caso.

64

También podría gustarte