1. ESTADÍSTICA DESCRIPTIVA
¿Qué es la estadística?
Como recolección de datos numéricos: datos ordenados según algún criterio.
Como ciencia: Estudia fenómenos en masa, buscando sus características generales. A
partir de un hecho particular se analizan una cantidad de casos particulares, donde se
aprecia una regularidad o estabilidad en el comportamiento.
El propósito de la estadística es precisamente hallar las regularidades de los
fenómenos en masa, regularidades que además de servir para describir un fenómeno
pueden utilizarse con fines de predicción.
Significado Fin
Como recolección de datos
numéricos Descripción
Búsqueda de
Como ciencia regularidades
La estadística elabora técnicas y métodos que nos ayuden a tomar decisiones.
Niveles de medición
Resumen
Probabilidad y Estadísticas Página 2 de 64
Normal: en este nivel se tienen dos o más categorías del ítem o variable. Las
categorías NO tienen orden o jerarquía. Lo que se mide es colocado en una u otra
categoría, lo que indica que solamente diferenciamos respecto de una o más
características. Los números aquí no se manipulan automáticamente.
Ordinal: en este nivel se tienen varias categorías, pero estas además mantienen un
orden de mayor a menor. Las etiquetas o símbolos de las categorías SI indican
jerarquía. No se aplican las operaciones aritméticas simples.
Por intervalo: además de haber orden y jerarquía entre categorías, se establecen los
intervalos iguales en la medición. Las distancias entre categorías son todas las mismas
a lo largo de toda la escala. Hay intervalos constantes, una unidad de medida. Ej.:
Temperatura.
El cero de la medición, es un cero arbitrario, no es real (se asigna arbitrariamente a una
categoría el valor de cero y a partir de esta se construye la escala).
De razón: aparte de las características del nivel por intervalos, el cero es real, es
absoluto. Cero absoluto implica que hay un punto en la escala de intervalo, agrega la
existencia de un origen real que indica la ausencia de la propiedad medida por la
variable.
Relación de variables
1. Indicar la manera de codificar los datos en cada ítem y variable.
2. Codificar los datos (colocar un valor numérico que los identifique).
La codificación se puede hacer antes (precodificado) o después (a posteriori).
La codificación es necesaria para poder cuantitativamente analizar los datos (análisis
estadístico)
Tipo de variables
Cualitativas: son las medidas en escala nominal u ordinal (mide una cualidad).
Cuantitativas: las medidas en escala de intervalos o razón.
Discretas: cuando solo pueden asumir valores sobre números enteros.
Ej.: alumnos.
Continuas: cuando puede asumir cualquier valor sobre los números reales.
Ej.: peso.
Dato u observación: es el valor que toma la variable para cada unidad de análisis y se
obtiene mediante algún método de captación.
Métodos de relevamiento
Muestra: permite estudiar el universo de intereses, con una parte de los elementos que
componen a dicho universo. Debe ser representativa de la población. Su uso va en
Resumen
Probabilidad y Estadísticas Página 3 de 64
aumento porque con personal entrenado se reducen los errores ajenos al muestreo.
Características: cumple con la condición de universabilidad y puede no ser simultánea.
Censo: la información se obtiene de la totalidad de la población (diferencia con la
muestra) cumple con la universabilidad (censa a todos los elementos) y simultaneidad
(en un tiempo determinado). La información se obtiene tal como se necesita, para fines
estadísticos (diferencia con el registro administrativo).
Registro administrativo: es un proceso de recolección por el cual un servicio
administrativo obtiene información para sus propios fines. Esta información puede ser
usada con fines estadísticos y se obtiene tal como esta disponible para los fines
administrativos, que no siempre coinciden con fines estadísticos, para eso se deberían
hacer las modificaciones necesarias.
Presentación de datos
Texto: para pocos datos y cuando se necesita resaltar cosas importantes.
Cuadros: permite gran cantidad de información pero de fácil lectura. Los cuadros
complejos están formados por títulos, encabezados, su cuerpo, notas al pie, fuente. NO
deben ser largos y las variables deben estar ordenadas.
Gráficos: permiten tener una visión de conjunto más rápida que la de los números y se
recuerdan más fácilmente. La representación gráfica puede ser geométrica (de gran
exactitud) o de símbolos alusivos para impresionar. Las partes del grafico son: titulo,
diagrama, variable, escala, fuente. Existen distintos tipos, entre ellos tenemos:
Grafico de línea: para la variación de la variable a través del tiempo.
De barras: cada barra representa un valor, para pocos datos.
De sectores: un círculo representa a la población y se divide en sectores que
representan la participación.
Mapas estadísticos: es un artificio grafico para mostrar datos o información
cuantitativa sobre una base geográfica. Permite representar simultáneamente
variables cuantitativas con su correspondiente distribución geográfica.
Resumen
Probabilidad y Estadísticas Página 4 de 64
Resumen
Probabilidad y Estadísticas Página 5 de 64
Resumen
Probabilidad y Estadísticas Página 6 de 64
2. MEDIDAS CARACTERÍSTICAS
Medidas de tendencia central
Son promedios. Cuando nos referimos a ellos como medidas de tendencia central;
éstas son medidas que nos dan idea de cual es el centro de distribución de datos.
Media aritmetica
Es el numero que se obtiene al dividir la suma de todas las observaciones por la
cantidad de observaciones sumadas. La simbolizamos con x
x . fa i i
x i 1
j
fa
i 1
i
Donde el subíndice i se usa para indicar los distintos valores que toma la variable y j es
la cantidad de valores distintos q toma la variable
j
x . fa i i
x i 1
n
Cuando calculamos la media aritmetica, multiplicamos a cada valor de la variable por
su correspondiete frecuencia, decimos que la media está “ponderada”.
j
x xi . fri
i 1
En este caso, el ponderador nos está indicando la importancia “relativa” de cada valor
de la variable sobre el total de las observaciones.
Resumen
Probabilidad y Estadísticas Página 7 de 64
j
m . fa i i
x i 1
j
fa i
i 1 , mi es la marca de clases.
Mediana
Resumen
Probabilidad y Estadísticas Página 8 de 64
Observación
Si definimos como fractiles a aquellos valores de la variable que fraccionan a la
distribución en partes iguales, es decir, en partes que contienen la misma cantidad de
datos, la mediana resulta ser un fractil. Diríamos entonces: “la mediana es el fractil que
divide a la distribución en dos partes iguales, siendo la mitad de los datos menor o igual
que ella y la otra mitad mayor o igual que ella”.
Existen otros fractiles que dividen a la distribución en 4, 10 y 100 partes iguales. Se
conocen con el nombre de cuartiles, deciles y percentiles.
Cuartiles: Son 3 y dividen a los datos en 4 partes iguales. Se simbolizan Q 1, Q2 y
Q3. Por ejemplo, el cuartil 1 deja por debajo el 25% de las observaciones y el
75% restante por encima, mientras que el cuartil 2 coincide con la mediana, ya
que deja a cada lado el 50% de las observaciones.
Deciles: Son 9 y dividen a los datos en 10 partes iguales. Se simbolizan D 1,
D2, .., D9. Por ejemplo, el decil 1 deja por debajo el 10% de las observaciones y
el 90% restante por encima.
Percentiles: Son 99 y dividen a los datos en 100 partes iguales. Se simbolizan
P1, P2,…, P99. Por ejemplo, el percentil 1 deja por debajo el 1% de las
observaciones y el 99% restante por encima,
Resumen
Probabilidad y Estadísticas Página 9 de 64
Para calcular cualquiera de los fractiles, se emplea la misma metodología que para el
cálculo de la mediana: siempre se debe determinar, en primer lugar, el intervalo al cual
pertenece la medida, ya que los distintos parámetros que aparecen en la fórmula se
refieren a este intervalo.
( j / *)n fa( i 1)
Q j Li hi
fai
j=1,2,3
* si Es CUARTIL vale 4, si es DECIL vale 10 si es PERCENTIL vale 100.
Determinación Gráfica:
Este procedimiento gráfico puede utilizarse para cualquiera de los fractiles.
Representamos la ojiva y luego determinamos, sobre el eje de ordenadas, el valor que
nos interesa; por ejemplo, para el caso de la mediana, determinamos n/2. La abscisa
de este punto en la gráfica de la ojiva es la mediana.
Modo
El modo es el valor de la variable que más veces se repite, o _sea,_el valor que
presenta mayor frecuencia. En el caso del modo no existe una fórmula general para
expresarlo. Lo simbolizaremos con x̂ .
Veamos cómo se encuentra el modo para los distintos tipos de disposición de los
datos. Si los mismos están en forma de serie simple, la determinación del modo es
prácticamente inmediata. Por ejemplo, si x = 1,2, 2, 2, 4, 5, entonces x = 2.
Comparación entre Las distintas medidas de tendencia central de uso más frecuente
Resumen
Probabilidad y Estadísticas Página 10 de 64
diferencias entre los distintos promedios calculados. Recordemos cuáles fueron dichos
valores: x = $6070, x = $6400 y x̂ =$6880.
Puede observarse que, para una misma distribución, rara vez coinciden tos valores
obtenidos mediante los tres promedios. Si la distribución es unimodal y simétrica, estas
tres medidas coinciden. Para una distribución asimétrica, la media se aleja de la moda
hacia el lado de la cola más larga, con la mediana entre ellas.
Lo vemos gráficamente;
Resumen
Probabilidad y Estadísticas Página 11 de 64
Otra ventaja es que puede obtenerse con datos incompletos, por ejemplo, en las
distribuciones de frecuencias con intervalos de clase que comienzan con un intervalo
"menos de ..." o finalizan con intervalos "más de ...".
Un serio inconveniente es que la mediana no viene definida mediante una expresión
matemática. La fórmula de aproximación es, simplemente, un aditicio que se utiliza en
el caso de las distribuciones para datos agrupadas en intervalos de clase. En
consecuencia, no puede someterse al cálculo algebraico para deducir cuestiones
importantes de comportamiento.
Modo: Como ya vimos, es el valor más frecuente, es decir, el punto donde se concentra
el mayor número de observaciones. En la gráfica, el modo es el punto de la variable al
cual le corresponde la altura máxima de la curva.
Este promedio tampoco utiliza toda la información, pues basta con saber tan solo cuál
valor de la variable es el más frecuente. Esto hace, al Igual que en el caso de la
mediana, que este promedio no se vea afectado por los valores anormalmente grandes
o anormalmente pequeños, Tampoco el modo se define algebraicamente y, por ello, no
puede utilizarse para obtener deducciones matemáticas.
El modo es un promedio muy interesante cuando existe, en la distribución, una clara y
decidida tendencia a que los valores se concentren alrededor de un solo valor.
Una vez vistas las propiedades de cada promedio separadamente, conviene repasar
algunas cuestiones que afectan a todos ellos. Recordemos, primeramente, que un
promedio tiene por objeto obtener un valor de la variable alrededor del cual se
distribuyen las observaciones. Esta condición se cumple muy bien en las distribuciones
simétricas o moderadamente asimétricas. Si la distribución de la variable es de este
tipo, los tres promedios (media aritmética, mediana y modo) son perfectamente
representativos del conjunto de observaciones. En este caso, es difícil señalar una
preferencia de uno sobre otro desde el punto de vista de su representatividad. Si
tomamos en cuenta las restantes propiedades, el mejor promedio es la media
aritmética por sus propiedades matemáticas y de estabilidad en el muestreo.
Si la distribución es fuertemente asimétrica, es decir, tiene forma de “J” o de “L”,
entonces la mediana es el promedio más apto.
Si la distribución tiene forma de "U", los tres promedios tienen poca fuerza
representativa. Generalmente, las distribuciones de esta forma suelen ser difíciles de
tratar desde el punto de vista de los promedios.
Resumen
Probabilidad y Estadísticas Página 12 de 64
Nota: recuerde siempre que el tipo de distribución que presentan los datos es
importante para la selección del promedio mas adecuado. En caso de duda, seguir
siempre la misma regla: emplear la media aritmetica.
Media geometrica
xg
La simbolizamos con y se calcula como:
xg n x1.x2 ...xn
Si los datos están agrupados, la expresión de cálculo es la siguiente:
xg n x1fa1 .x2fa2 ....xnfan
donde m es la cantidad de valores muéstrales distintos, o reemplazando los x i, por las marcas de
clase mi, si los datos están agrupados en intervalos.
Este tipo de promedio se utiliza, generalmente, cuando los valores de la variable crecen
de acuerdo a una progresión geométrica.
Media Armónica
fa i
xa i 1
n
1/ x
i 1
i
Medidas de dispersión
Rango "R"
Se define como la diferencia entre el valor máximo y el valor mínimo que toma la
variable. Descuidando por completo los valores intermedios.
Podría suceder que un valor observado estuviese accidentalmente desplazado. En este
caso, el rango sería exagerado y la dispersión aparecería distorsionada.
Desviación media
Resumen
Probabilidad y Estadísticas Página 13 de 64
m x x i fai
x x DM i 1
i m
DM i 1
n
fai
Para serie simple Para serie agrupada i 1
Variancia
(x x )
i
2
S2 i 1
n
Para series de frecuencia
n
( x x ) . fa
i
2
i
S2 i 1
n
fa
i 1
i
(m x ) . fa
i
2
i
S2 i 1
n
fa
i 1
i
Esta medida toma en cuenta, para su calculo, todos los valores de la variable, pero
tiene como inconveniente que no esta expresada en la misma unidad de medida que la
variable sino en el cuadrado de la misma.
En este caso, la variancia muestral, tal como la hemos definido es un buen estimador
de la variancia poblacional cuando el tamaño de la muestra n es mayor o igual que 30
(aproximadamente). Si n < 30, resulta mejor estimador la llamada variancia muestral
corregida que, para el caso de datos no agrupados, se define así:
n
(x x )
i
2
S2 i 1
n 1
Raiz cuadrada de la variancia para obtener la misma unidad de estudio. Se calcula con:
Resumen
Probabilidad y Estadísticas Página 14 de 64
(x x )
i
2
S S2 i 1
n para datos no agrupados
fórmula de trabajo de S:
n
(x x ) i
2
fai
S i 1
n
fa
i 1
i
(x 2
i 2 xi x x ) fai
S i 1
n
fa
i 1
i
Resumen
Probabilidad y Estadísticas Página 15 de 64
Primero, se divide cada observación en dos partes que consisten en un tallo y una hoja,
de tal forma que el primero represente el dígito que es el entero y la hoja corresponda a
la parte decimal del número. En otras palabras, para el número 3.7 el dígito 3 se
designa como el tallo y el dígito 7 como la hoja. Los cuatro tallos: 1, 2, 3 y 4 quedan
listados consecutivamente en el lado izquierdo de la línea vertical de la tabla que se
muestra a continuación. Las hojas se escriben en el lado derecho de la línea, en
contraposición al valor de tallo apropiado.
Resumen
Probabilidad y Estadísticas Página 16 de 64
Entonces, la hoja 6 del número 1.6 se escribe a la altura del tallo 1, la hoja 5 del
número 2.5 se escribe a la altura del tallo 2, y asi sucesivamente. La cantidad de hojas
registradas para cada tallo se resume en la columna de frecuencia.
Medidas de asimetría
Resumen
Probabilidad y Estadísticas Página 17 de 64
Aplicaciones:
Se cree que la asimetría positiva es producida por fuerzas multiplicadores. Las
distribuciones asimétricas negativas son muy raras y a menudo es difícil ofrecer una
explicación racional de su existencia.
Medidas de curtosis
3. PROBABILIDAD
Importancia del tema y breve reseña histórica
Los jugadores siempre han recurrido a las probabilidades para realizar sus apuestas a
lo largo de la historia escrita. Pero fue recién en el siglo XVII cuando un noble francés,
puso en tela de juicio el fundamento matemático del éxito y del fracaso en las mesas de
juego.
La teoría de la probabilidad fue aplicada con buenos resultados a las mesas de, juego
y, lo que es aún más importante para nuestro estudio, con el tiempo también se aplicó
a otros problemas socioeconómicos.
Resumen
Probabilidad y Estadísticas Página 18 de 64
Triangulo de pascal
El triángulo de Pascal es un triángulo de números enteros, infinito y simétrico Se
empieza con un 1 en la primera fila, y en las filas siguientes se van colocando números
de forma que cada uno de ellos sea la suma de los dos números que tiene encima. Se
supone que los lugares fuera del triángulo contienen ceros, de forma que los bordes del
triángulo están formados por unos. Aquí sólo se ve una parte; el triángulo continúa por
debajo y es infinito.
Nos permite obtener los resultados de los números combinatorios sin necesidad de
realizar operaciones muy complicadas:
Los números del triángulo de Pascal coinciden con los números combinatorios.
m
El número combinatorio Cn (n sobre m) se encuentra en el triángulo en la fila n+1, en
el lugar m+1.
m
El número combinatorio Cn (n sobre m) que representa el número de grupos de m
elementos que pueden hacerse de entre un conjunto de n (por ejemplo, (4 sobre 2) nos
da el número de parejas distintas que podrían hacerse en un grupo de cuatro
personas), se encuentra en el triángulo en la fila n+1, en el lugar m+1.
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
...
Evento o Suceso
Experimento Aleatorio
Luego, podemos decir que un experimento aleatorio es un proceso que presenta las
siguientes características:
Es posible repetir cada experimento indefinidamente, sin cambiar esencialmente
las condiciones.
Aunque, en general, no podemos indicar cuál será un resultado particular,
podemos describir el conjunto de todos los resultados posibles del experimento.
A medida que el experimento se repite, los resultados individuales parecen
ocurrir en forma caprichosa, Sin embargo, cuando el experimento se repite un
gran número de veces, aparece un modelo definido de regularidad. Esta
regularidad hace posible la construcción de un modelo matemático preciso, con
el cual podemos analizar el experimento.
Características esenciales de un experimento aleatorio:
Constancia de las condiciones en que se realiza.
Conocimiento de todos los resultados posibles.
Regularidad de resultados cuando el número de observaciones tiende a infinito.
Sus resultados están influidos por el azar.
Espacio Muestral
Resumen
Probabilidad y Estadísticas Página 20 de 64
Se dice que dos eventos son mutuamente excluyentes o incompatibles si uno y sólo
uno de ellos puede tener lugar a la vez. Como ejemplo tomamos el lanzamiento de una
moneda, puede salir “cara” o “seca”, pero NUNCA LOS DOS. Por ello, los eventos
"lado cara" y "lado seca" en un lanzamiento individual de la moneda son mutuamente
excluyentes. He aquí la pregunta decisiva que es preciso formular al decidir si los
eventos son mutuamente excluyentes: "¿Pueden presentarse al mismo tiempo?". Si la
respuesta es afirmativa, los eventos no son mutuamente excluyentes; en este caso,
decimos que son compatibles. Si la respuesta es negativa, concluimos que los sucesos
son incompatibles o mutuamente excluyentes.
Cuando una lista de los eventos que pueden resultar de un experimento incluye todos
los resultados posibles, se dice que es colectivamente exhaustiva.
Resumen
Probabilidad y Estadísticas Página 21 de 64
Este límite es "límite en probabilidad" y significa que debemos hallar el resultado del
cociente f(A) / n cuando el número de pruebas u observaciones es lo más grande
posible.
Enfoque subjetivo
Las probabilidades subjetivas se basan en las creencias e ideas del que realiza la
evaluación de las mismas. En efecto, podemos definir la probabilidad subjetiva como
aquella que un individuo asigna a un evento, basándose en la evidencia disponible.
Las asignaciones de probabilidad subjetiva se dan frecuentemente cuando los eventos
ocurren una sola vez y, a lo máximo, unas cuantas veces.
Las decisiones sociales y administrativas de nivel superior se ocupan de situaciones
específicas y singulares, y no de una larga serie de situaciones idénticas, por lo cual,
en este nivel, los ejecutivos se apoyan constantemente en las probabilidades
subjetivas.
Enfoque axiomático
Diagramas de Venn
En estos diagramas, el espacio muestral se representa íntegramente por medio de un
rectángulo y los eventos o sucesos se representan con las partes del mismo. Si dos
eventos son mutuamente excluyentes, sus partes del rectángulo no se superpondrán,
según se aprecia en la figura (a). Si dos eventos son no mutuamente excluyentes, sus
partes del rectángulo se superpondrán, como se observa en la figura (b).
Resumen
Probabilidad y Estadísticas Página 22 de 64
Probabilidad condicional
P(A/B) se lee “A dado B” o “A condicional B”
Deberíamos saber si el suceso A ocurrió o no. Este ejemplo indica la necesidad de
presentar el siguiente concepto importante:
Sean A y B dos sucesos asociados con un experimento E, indiquemos con P(B/A) a la
probabilidad condicional del suceso B dado que A ha ocurrido.
Cada vez que calculamos P(B/A), estamos esencialmente calculando P(B) con
respecto al espacio muestral reducido de A, en vez del espacio muestral original S.
Consideremos el diagrama de Venn de la figura anterior. Cuando calculamos P(B), nos
preguntamos qué tan probable es que estemos en B, sabiendo que debemos estar en
S y, cuando evaluamos P(B/A), nos preguntamos qué tan probable es que estemos en
Resumen
Probabilidad y Estadísticas Página 23 de 64
Sucesos independientes
Dados los sucesos aleatorios referidos al mismo espacio muestral, ninguno de los
cuales es el evento imposible diremos que son independientes si se verifica alguna de
estas condiciones:
P(A/B) = P(A) o P(B/A) = P(B)
En consecuencia, la aparición de uno de ellos es independiente de la presencia o
ausencia del otro.
Cuando los sucesos son independientes, la ley del producto toma la forma: P(AB) =
P(A) * P(B)
Resumen:
Luego, si dos sucesos son mutuamente excluyentes, la probabilidad de la alternativa es
la suma de las probabilidades. Si dos sucesos son independientes, la probabilidad de la
aparición simultanea es el producto de las probabilidades: P(AB)=P(A) * P(B)
Teorema
Dados dos sucesos aleatorios A y B referidos a un mismo experimento, si ambos son
independientes, entonces no son mutuamente excluyentes.
Demostración:
Para que A y B sean mutuamente excluyentes, se debería verificar que P(AB) = 0.Pero
P(AB) = P(A) * P(B), pues ambos son independientes. Dicho producto valdrá cero si
alguno (o ambos sucesos) es el suceso imposible, en cuyo caso carece de sentido
hablar de independencia. Luego P(AB) 0, lo que implica que ambos sucesos no son
mutuamente excluyentes.
Resumen
Probabilidad y Estadísticas Página 24 de 64
c) P ( Ai ) 0; i
En otras palabras, cuando se efectúa el experimento E, ocurre uno y sólo uno de los
sucesos Ai. También se suele decir que los sucesos Ai completan el espacio muestral
S.
Teorema de Bayes
Resumen
Probabilidad y Estadísticas Página 25 de 64
Sean los sucesos A1, ...A2, An una partición del espacio muestral S (o sea, dos de ellos
no pueden ocurrir simultáneamente, pero uno de ellos debe ocurrir) y sea B un suceso
aleatorio en S.
Luego, P(B) = P(B/A1) * P(A1) + ... + P(B/An) * P(An) por la fórmula de probabilidad total.
Este teorema es conocido bajo el nombre de fórmula de Bayes. Las probabilidades
P(B/Ai) y P(Ai) reciben el nombre de probabilidades a priori o previas ya que,
generalmente, se pueden conocer antes de que obtengamos información alguna del
experimento mismo. A menudo, dichas probabilidades son arbitrarias y/o subjetivas.
Las probabilidades P(A/B) se llaman probabilidades a posteriori porque se determinan
después de que se conocen los resultados del experimento.
Retomamos nuestro ejemplo introductorio. Se conocen las proporciones de piezas que
produce cada máquina, es decir, sabemos que: P(A 1) = 0,30, P(A2) = 0,45 y P(A3) =
0,25
Además, el ingeniero sabe, por experiencia y por conocimiento de las características de
cada máquina, la probabilidad de pieza defectuosa de cada una. Es decir: P(B/A 1) =
0,02, P(B/A2) = 0,04 y P(B/A3) = 0,03
0, 02*0,30
0,19
0, 02*0,30 0, 04*0, 45 0, 03*0, 25
Análogamente: P ( A2 / B) 0,57 y P ( A3 / B ) 0, 24 . Luego concluimos que es más
probable que la máquina 2 haya producido pieza defectuosa, por lo que comenzaremos
revisando esta máquina. Observemos que:
P ( A / B1 ) P( A / B2 ) P( A / B3 ) 0,19 0,57 0, 24 1
Resumen
Probabilidad y Estadísticas Página 26 de 64
Experimento aleatorio
Término que se utiliza para describir cualquier proceso mediante el cual se generan
varias observaciones al azar.
Espacio muestral
En el que se consideran cada uno de los posibles resultados, por ejemplo cuando se
verifican tres componentes electrónicos, puede escribirse: S =
{NNN.NND,NDN,DNN,NDD,DND,DDN,DDD} donde N significa "no defectuoso" y D
"defectuoso".
Si un espacio muestral contiene un número finito de posibilidades, o una infinita
numerable, se le llama espacio muestral discreto.
Si un espacio muestral contiene un número infinito de posibilidades igual al número de
puntos en un segmento de recta, se le llama espacio muestral continuo.
Ejemplo:
Sea el experimento aleatorio E = arrojar dos monedas al aire. El espacio muestral
asociado es:
S = {(C,C), (C,S), (S,C), (S,S)}
Definimos la variable aleatoria X como el número de caras que se obtienen. Luego, los
posibles valores de X son; O, 1 y 2. A éstos los llamaremos el rango de /a va-riable
aleatoria X: R,= {0,1,2}
Resumen
Probabilidad y Estadísticas Página 27 de 64
F ( x) P( X x) f (t ) x
t x
Debe notarse, en forma muy particular, el hecho de que la distribución acumulada se
define no sólo para los valores que asume la variable aleatoria dada, sino para todos
los números reales.
b)
f ( x) dx 1
b
P (a X b) f ( x)dx
c) a f(x)dx , si x es V.A.C.
Vernos que, para un valor particular de la variable x0, P(X = x 0) = 0. pues no existe
intervalo de integración.
Resumen
Probabilidad y Estadísticas Página 28 de 64
Observación: Para una V.A. X usaremos p(x) o f(x) para designar a la función de
probabilidad o función de cuantía de X.
Podemos decir, entonces, que la media aritmética tiende a la esperanza matemática
cuando aumentamos el tamaño de la muestra, es decir, cuando nos vamos
aproximando al conocimiento de la población completa.
, como sigue:
V ( X ) E[ X E ( X )]2
La raíz cuadrada positiva de V(X) se llama desviación estándar de X y se designa con
x
x V (X )
Observaciones:
El número V(X) está expresado en unidades cuadradas de X, Esto es, si X se
mide en hs, entonces V(X) está expresada en hs2. Ésta es una razón para
considerar la desviación estándar, ya que ésta se expresa en las mismas
unidades que X.
Otra medida posible podría haber sido E|X - F(X)|. Por diferentes razones, una
de las cuales es que X2 es una función "con mejor comportamiento" que |X|, se
prefiere la variancia.
Sí interpretamos a E(X) como el centro de una masa unitaria distribuida sobre
una recta, podemos interpretar a V(X) como el momento de inercia de esa masa
respecto a un eje perpendicular a través del centro de la misma.
V(X), como se definió en la ecuación anterior, es un caso especial del concepto
más general siguiente: "el k-ésimo momento de la variable aleatoria X respecto a
Resumen
Probabilidad y Estadísticas Página 29 de 64
obtenemos la variancia.
p p( xi yi )
Donde ij representa la probabilidad conjunta de los sucesos (X = x i) y (Y =
yi).
Definición previa 2: Dada la distribución conjunta de dos variables aleatorias discretas
X e Y, se dice que X e Y son variables aleatorias independientes si sólo si
pij p( xi yi ) p( xi ). p( yi )
, Para todo i, para todo j.
Propiedad 6:
Sean X e Y dos variables aleatorias independientes, entonces E(X*Y)=E(X)-E(Y).
Resumen
Probabilidad y Estadísticas Página 30 de 64
Teorema
El cálculo de V(X) se simplifica usando:
V ( X ) E ( X 2 ) [ E ( X )]2
Desigualdad de Chebyshev
Si conocemos la distribución de probabilidades de una variable aleatoria (la f.d.p. en el
caso continuo o la probabilidad puntual en el caso discreto), podemos calcular E(X) y
V(X), si existen. Sin embargo, lo recíproco no es verdadero. Nunca la probabilidad va a
ser exacta, pero si en una cota inferior y en otra superior.
Sin embargo, resulta que, aunque no podemos evaluar tales probabilidades (a partir de
un conocimiento de E(X) y lV(X)), es posible dar una cota superior (o inferior} muy útil
para las mismas. Este resultado está contenido en lo que se conoce como la
desigualdad de Chebyshev.
Desigualdad de Chebyshev
Sea X una variable aleatoria con E ( X ) y sea k un número real cualquiera mayor o
P ( X k * ) 1/ k 2
igual que 1, entonces: en forma equivalente:
P ( X k * ) 1 1/ k 2
Resumen
Probabilidad y Estadísticas Página 31 de 64
xi (x )
i
2
i 1
2 i 1
k y k
Propiedades
Estrictamente hablando, el proceso de Bernoulli debe tener las siguientes propiedades:
• El experimento consiste en un solo intento,
• Los resultados del intento pueden clasificarse como éxito o fracaso. Luego, la
distribución de probabilidad de la v.a. y (variable aleatoria de Bernoulli) se puede
presentar en forma tabular de la manera siguiente: Distribución de probabilidades de y:
y p(y)
0 q 0: fracaso; q: probabilidad de fracaso 1: éxito; p: probabilidad de éxito
Esperanza
Donde: p +y qvariancia
= 1, por lo de la variable
tanto, q = 1 - p aleatoria de Bemoulli
1 p
Esperanza matemática de y
E ( y ) y. p( y ) 0* q 1* p p
yRy
Variancia de y
V ( y ) y2 E ( y 2 ) [ E ( y )]2 y 2 p ( y ) p 2 0 2 * q 1* p p 2 p p 2 p (1 p) p.q
V ( y ) p.q
Desviación típica de y
D( y ) y V ( y ) p.q
Distribución binomial
El número X de éxitos en n experimentos de Bernoulli recibe el nombre de variable
aleatoria binomial, La distribución de probabilidad de esta variable aleatoria discreta se
llama distribución binomial y sus valores se representan por B(x;n,p), dado que estos
últimos dependen del número de intentos y de la probabilidad de éxito en un intento
determinado.
La función de probabilidad de la variable aleatoria binomial X, el número de éxitos en n
experimentos independientes, es:
P ( X x) ( nx ) p x .q n x x=0,1,2,…,n.
Donde n es el número de observaciones, p es la probabilidad de éxito, q es la
probabilidad de fracaso y p + q = 1.
Las características del modelo binomial son:
• El experimento consiste en n intentos repetidos.
Resumen
Probabilidad y Estadísticas Página 32 de 64
• Los resultados de cada uno de los intentos pueden clasificarse como éxito o como
fracaso,
• La probabilidad de éxito, representada por p, permanece constante para todos los
intentos.
• Los intentos repetidos son independientes.
Por ejemplo, si n = 4 y p = 1/4, la distribución de probabilidad de X, es decir, el número
de artículos defectuosos que pueden obtenerse en una muestra de cuatro artículos,
puede escribirse corno:
P ( X ) ( 4x )(1/ 4) x .(3 / 4) 4 x x = 0,1,2,3,4
Teorema
La esperanza matematica y la variancia de la distribución nominal estan dadas por:
E ( x) p.q y V ( x) 2 n. p.q
Experimentos multinomiales
Si cada prueba u observación tiene más de 2 resultados posibles, entonces el
experimento binomial se convierte en un experimento multinomial.
Para derivar la fórmula general se procede como en el caso binomial. Dado que los
intentos son independientes, cualquier orden especificado que produzca x 1 resultados
x1 x2 xk
para E , x para E , …, x para E ocurrirá con una probabilidad p1 p2 ... pk . El número
1 2 2 k k
total de órdenes que producen resultados similares para los n intentos es igual al
número de particiones de n intentos en k grupos con x 1 en el primer grupo, x2 en el
segundo, ..., y xk en el grupo k. Esto puede realizarse en:
n!
x1 , x2 ,..., xn
n
x1 ! x2 !...xn !
maneras, Dado que todas las particiones son mutuamente excluyentes y ocurren con
igual probabilidad, se obtiene la distribución multinomial al multiplicar la probabilidad
para un orden especifico por el número total de particiones.
Distribución multinomial
Resumen
Probabilidad y Estadísticas Página 33 de 64
Distribución hipergeométrica
El esquema del tipo de experimentos aleatorios donde se puede aplicar una
distribución hipergeométrica es similar al de la binomial. La diferencia radica en que en
la binomial las distintas observaciones eran independientes, mientras que en la
hipergeométrica son dependientes.
Las características de un experimento aleatorio donde se puede aplicar el modelo
hipergeométrico son las siguientes:
• La población posee N elementos, de los cuales N 1 son de una clase determinada y N2
son de otra clase, tal que N1 + N2 = N. Ambas clases son mutuamente excluyentes y
exhaustivas.
• Se extrae una muestra de n elementos sin reemplazo.
Luego, la función de probabilidad de la distribución hipergeométrica viene dada
P ( X x) N1 , N2 , Nn
N1
x
N2
n x
donde x = 0,1,2,...,n y
N1 N 2
n
N 1 + N2 = N
Distribución de Poisson
Se denominan experimentos de Poisson a aquellos que describen el comportamiento
de una variable aleatoria que representa el número de resultados observados, con una
determinada característica, durante un intervalo de tiempo dado o en una unidad de
espacio específica.
Un experimento de Poisson surge del proceso de Poisson y tiene las siguientes
características:
• El número de resultados que ocurren en un intervalo de tiempo o región específicos
es independiente del número que ocurre en cualquier otro intervalo disjunto de tiempo
o espacio. De esta manera, se dice que el proceso de Poisson no tiene memoria.
• La probabilidad de que un resultado sencillo ocurra en un intervalo de tiempo muy
corto o en una región pequeña es proporcional a la longitud del intervalo de tiempo o al
tamaño de la región, y no depende del número de resultados que ocurren fuera de este
intervalo o región.
• La probabilidad de que más de un resultado ocurra en ese intervalo de tiempo tan
corto o en esa región tan pequeña es despreciable.
El número X de resultados que ocurren en un experimento de Poisson se llama variable
aleatoria de Poisson y su distribución de probabilidad recibe el nombre de distribución
de Poisson.
Distribución de Poisson
Resumen
Probabilidad y Estadísticas Página 34 de 64
Teorema
Sea X una variable aleatoria bínomial con distribución de probabilidad B(n,p). Cuando
n , p 0 y n. p permanece constante: se aproxima a la de Poisson.
Resumen
Probabilidad y Estadísticas Página 35 de 64
Un buen plan de muestreo debe dar probabilidades altas de aceptar lotes con una baja
proporción de defectuosos y probabilidades bajas de aceptar lotes con una alta
proporción de defectuosos.
b)
f ( x)dx 1
ab b 1
P x
2 hacemos: a b
ba
dx 1/ 2
Si queremos calcular, por ejemplo, 2
Función de Distribución
xa
F ( x)
b a (después de integrar)
0 X<a
xa
f ( x) a=x=b
b a
1 x>b
Esperanza y Varíancia
ab
E ( x)
2
( a b) 2
V (X )
12
Distribución normal o de Gauss
Es la distribución más importante en la Estadística. Esto se debe, principalmente, a las
siguientes razones:
Resumen
Probabilidad y Estadísticas Página 36 de 64
Recordemos también que, para una v.a. continua, las probabilidades se calculaban
integrando la función de densidad de probabilidad en el intervalo de interés, es decir:
P x a, b P (a x b) f ( x )dx
b
a
En el caso de la distribución normal:
2 2
1 x 1 x
b 1
1 b
a 2
2
e 2
dx e dx
2 a
b) Condición de cierre:
f ( x)dx 1
Esta última condición es la que nos permite afirmar que el área bajo la curva es igual a
1.
• La distribución tiene forma de campana simétrica, por eso vulgarmente se habla de
"campana de Gauss". El punto máximo es la ordenada de μ, que además coincide con
la mediana y con el modo, por tratarse de una distribución simétrica,
• El eje x es asíntota de la curva, es decir, a partir de μ la curva se extiende
indefinidamente hacia la izquierda y hacia la derecha, tendiendo al eje x pero sin
tocarlo nunca. En la práctica, a una distancia 3σ de μ (hacia la derecha y hacia la
izquierda), el valor de f (x) es muy próximo a 0.
• El eje de simetría de la curva es x = μ (es decir, la vertical que pasa por μ).
• Los valores de μ y σ determinan, respectivamente, la ubicación de la curva sobre el
eje x y la forma de la misma.
• La curva tiene sus puntos de inflexión en x = μ ± σ; es cóncava hacia abajo si μ - σ
< x < μ + σ y es cóncava hacia arriba en cualquier otro punto.
Distribución normal típica o estándar
Sea z una v.a. normal tipificada o estandarizada, la f.d.p. de z es:
Resumen
Probabilidad y Estadísticas Página 37 de 64
1
1 z2
f ( x) e 2
2 ; zR
2
1 x
1
2
1 1
z2
f ( x) e f ( x) e 2
Para hacer el traspazo de: 2 a 2 se
usa:
Si X ~N(μ;σ) Z~N(0;1)
E (z) = 0 y V(Z)=1
Gráficamente:
Resumen
Probabilidad y Estadísticas Página 38 de 64
Propiedades
a) Linealidad: Si x ~ N (μ;σ) y tenemos, además, una v.a, y = a * x + b, luego: y ~ N (a
* μ + b , a * σ).
b) Reproductividad: Si x1 ~ N (μ1;σ1) y x2 ~ N (μ2;σ2), y x1 y x2 son variables
X n. p
Z
n. p.q Corrección de continuidad: por ejemplo, P (X = 3) = 0. Por lo tanto, en este
caso deberá cambiarse por P (2.5 ≤ X' ≤ 3.5), o sea, que la probabilidad de que la
variable binomial sea 3 es equivalente a la probabilidad de que la variable aleatoria
continua esté entre 2,5 y 3.5,P (a ≤ X ≤ b) s P (a - 0.5 ≤ X´≤ b + 0.5), donde X´es una
variable normal transformada.
Vamos a ver ahora cómo la aproximación de la binomial a la normal es mejor a medida
que n crece. Supongamos que x ~ B (10,0.5) y se desea hallar la P (2 ≤ x ≤4) = 0.0439
+ 0.1172 + 0.2051 = 0.3662. Para la aproximación normal de la binomial debemos
primero hacer la corrección de continuidad: P (2 ≤x ≤ 4) = P (2 - 0.5 ≤ x' ≤ 4 + 0.5)
Entonces, si x ~ B (10,0,5):
E(x)=n.p = 10*0.5 = 5
( x) n. p.q 2,5 1,58
X n. p 1,5 5
Z Z1 2, 22 Z 2 4,5 5 0,32
n. p.q 1,58 1,58
y
Distribución exponencial
Definición
Se dice que una variable aleatoria continua X que toma todos los valores no i
negativos tiene una distribución exponencial con parámetro a > 0 si su f.d.p. está dada
por:
X>0 a.e ax
f ( x)
0 valor
Para cualquierotro
Resumen
Probabilidad y Estadísticas Página 39 de 64
Representación Gráfica
Función de Distribución
f (t )dt
X
X≤0
f ( x )
Para cualquier otro
0 valor
1 e X
Esperanza y variancia
0
E ( X ) 1/ a V ( X ) 1/ a 2
La distribución exponencial tiene una propiedad importante. Considerando cualesquiera
u, v > 0, tenemos:
P ( X u v ) e ( u v )
Por lo tanto: P( X u v / X u ) u e v
P( X u ) e
P( X u v / X u ) P( X v)
Generalmente, a las distribuciones que cumplen con esta propiedad se les dice que "no
tienen memoria".En otras palabras, la información de ningún éxito es "olvidada" en lo
que se refierea cálculos subsecuentes
Distribución chi-cuadrado
Definición
Una variable aleatoria continua X tiene una distribución chi-cuadrado, con v grados de
libertad, si su función de densidad es la siguiente:
1
X≤0
v/2 X v / 21e x / 2
f ( x) 2 (v / 2)
0 otro caso
Para cualquier
Con v>o
Esta distribución juega un papel vital en la Inferencia estadística
La media
v
La variancia
2 2v
Distribución t de Student
Resumen
Probabilidad y Estadísticas Página 40 de 64
La mayoría de las veces no se tiene la suerte suficiente como para conocer la variancia
de la población de la cual se seleccionan las muestras aleatorias. Para muestras de
tamaño n > 30, se proporciona una buena estimación de a 2 al calcular
X / / n Z T
X
T S/ n
S2 / 2 V /(n 1)
X
Z
Donde Z es: / n
Tiene la distribución normal estándart y
(n 1) S 2
V
2
tiene una distribución chi-cuadrado con v = n -1 grados de libertad. Ai muestrear
poblaciones normales, puede demostrarse que X x y S2 son independientes y, en
consecuencia, lo son Z y V.
Valores característicos
E(tn-1) = 0 para n>1
V(tn-1) = n/(n-2), para n>2.
Obsérvese que si n < 1 la distribución T-Student carece de esperanza matemática, y si
n < 2, carece de varianza.
Teorema
Sea Z una variable aleatoria normal estándar y V una variable aleatoria chi-cuadrado
con v grados de libertad. Si Z y V son independientes, entonces la distribución de la
variable aleatoria T, donde:
Z
T
V /v
está dada por;
(v 1) / 2 t 2
( v 1) / 2
h(t ) 1
(v / 2) v v t
y se conoce como distribución t con v grados de libertad.
Resumen
Probabilidad y Estadísticas Página 41 de 64
n
( X i )2
i 1 2
Tiene una distribución x2 con n grados de libertad. Es muy simple observar que, en las
mismas condiciones, la variable aleatoria:
(n 1) S 2 n
( xi x )2
2 i 1 2
Tiene una distribución c2 con n -1 grados de libertad. Se puede indicar que, cuando m
no se conoce y se considera la distribución de:
n
( xi x ) 2
i 1 2
Existe un grado de libertad menos, o se pierde un grado de libertad en la estimación de
μ (es decir, cuando μ es reemplazada por x ). Cuando los datos (los valores en la
muestra) se utilizan para calcular la media, hay 1 grado de libertad menos en la
información utilizada para estimar σ2.
7. DISTRIBUCIONES EN EL MUESTREO
El muestreo estadístico
El muestreo estadístico es un enfoque sistemático para seleccionar unos cuantos
elementos (una muestra) de un grupo de datos (una población), a fin de hacer algunas
inferencias sobre el total.
Censo y muestra
En ocasiones, es posible y práctico examinar a todas las personas o miembros de la
población que deseamos describir. A esto lo llamamos enumeración comple-
ta o censo. Recurrimos al muestreo cuando no es posible contar o medir cada
elemento de la población. Los estadísticos usan la palabra "población" para designar
Resumen
Probabilidad y Estadísticas Página 42 de 64
no sólo a las personas, sino a todos los elementos, que han sido escogidos para ser
estudiados.
Estadísticos y parámetros
Desde el punto de vista matemático, podemos describir las muestras y poblaciones
mediante medidas como la media, la mediana, el modo y la desviación estándar.
Cuando estos términos describen las características de una muestra, se les llama
estadísticos. Cuando describen las características de una población, reciben el nombre
de parámetros. El estadístico es una característica de la muestra; el parámetro es una
característica de la población.
Resumen
Probabilidad y Estadísticas Página 43 de 64
cada muestra posible tener igual probabilidad de ser seleccionada y a cada elemento
de la población entera tener igual probabilidad de quedar incluido en la muestra.
Por finita entendemos la población que posee un tamaño formulado o limitado, es decir,
hay un número entero (N) que nos indica cuántos elementos existen en la población.
La población infinita es aquella en que, teóricamente, es imposible observar todos los
elementos. Así pues, en la práctica emplearemos la expresión "población infinita"
cuando hablemos de una población que no puede ser enumerada en un período
razonable. De este modo, usaremos el concepto teórico de "población infinita" como
una aproximación de una gran población finita.
Cómo hacer el muestreo aleatorio
La forma más fácil de seleccionar una muestra al azar consiste en usar números
aleatorios, los cuales pueden generarse con una computadora programada para
mezclar números o con una tabla de números aleatorios.
Empleo de una tabla de números aleatorios
a) Pasamos de la parte superior a la parte inferior de las columnas, comenzando con
la columna de la izquierda, y leemos sólo los dos primeros dígitos de cada renglón. Es
decir que leemos la tabla por columnas.
b) Si llegamos a la parte inferior de la última columna de la derecha y todavía no
obtuvimos nuestros 10 números deseados de dos dígitos de 99 y menos, podemos
volver al inicio (la parte superior de la columna de la izquierda) y comenzar a leer los
dígitos tercero y cuarto de cada número.
Muestreo sistemático
Muestreo estratificado
Resumen
Probabilidad y Estadísticas Página 44 de 64
Distribuciones en el muestreo
La distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de medias muéstrales. A esto, los estadísticos lo llaman distribución
muestral de la media. También podríamos tener una distribución de muestreo de una
proporción. Hemos tomado un extenso número de dichas muestras. Si graficamos una
distribución de probabilidad de las proporciones posibles en todas ellas, veremos una
distribución de las proporciones muéstrales. En Estadística, a esto se le llama
distribución muestral de la proporción
Resumen
Probabilidad y Estadísticas Página 45 de 64
Distribución en el muestreo
Resumen
Probabilidad y Estadísticas Página 46 de 64
En el último paso, produciremos una distribución de todas las medias de cada muestra
que pueda tomarse. Esta distribución, denominada distribución muestra! de las medias,
es ilustrada en la parte (c) de la figura. Dicha distribución de la media muestral tendrá
su propia media y su propia desviación o error estándar.
Distribución de la población:
Representa los espesores de todas las láminas de acero
fabricadas por la
compañía.
Tiene:
μ= media de la distribución.
σ = desviación estándar de la distribución.
Si, de alguna manera, pudiéramos tomar todas las
muestras posibles de determinado tamaño en esta distribución de la población y
calcular su media y desviación estándar, algunas de las posibles distribuciones podrían
representarse gráficamente como sigue.
Resumen
Probabilidad y Estadísticas Página 47 de 64
Resumen
Probabilidad y Estadísticas Página 48 de 64
Por lo tanto, para un n suficientemente grande, es válido el teorema central del límite,
p ~ N(π, σp) donde Z = (p - π) I σp ~ N(0,1)
Regla empírica
La aproximación normal es buena cuando n.π y n (1 - π) son > 5.
S 2
(x )
i
2
n( x ) 2
1/ n ( xi ) 2 n( x ) 2
n
Aplicando la esperanza
E ( S 2 ) 2 2 / n ( n * 2 2 ) / n [(n 1) / n] 2
Vemos que E(S2) ≠σ2. Para que S2 sea un buen estimador de σ2, más adelante ve-
remos que uno de los requisitos que debe cumplir es que sea insesgado, o sea
E
Analizaremos esta situación en nuestra fórmula:
a) Si n es grande (n > 30):
Si n (n 1) / n 1 1/ n 1 talque.E ( S )
2 2
Resumen
Probabilidad y Estadísticas Página 49 de 64
n * S 2 (n 1) S´2
2 2
Que se distribuye como n 1
2
(x )
i
2
~ n
2
2
Pero, si en el cálculo de c2 no conocemos el valor de m, lo podemos estimar usando el
promedio muestral, y nos queda:
1
2
( xi x )2 n21
~ (*)
Los grados de libertad son n - 1 porque hemos impuesto la condición de que x y, al
imponer una condición, tenemos un grado de libertad menos. Haciendo:
S2
( xi x )2 n * S 2 ( x x )2
i
n
S´
2 ( xi x ) 2
n 1 * S´2 ( xi x ) 2
n 1
Y reemplazando en (*) nos queda:
n*S2
2 ~ n 1
2
n 1 * S´2
~ n 1
2
2
8. ESTIMACIÓN DE PARÁMETROS
Cuando estimamos parámetros, hacemos inferencias respecto de las características de la
población a partir de la información contenida en las muestras.
Se pueden realizar dos tipos de estimaciones:
Estimación puntual
Si, a partir de las observaciones de una muestra, se calcula un solo valor como
estimación de un parámetro de población desconocido, el procedimiento se llama
Resumen
Probabilidad y Estadísticas Página 50 de 64
estimación puntual, ya que se utiliza como estimación un solo punto del conjunto de
todos los posibles valores.
Para poder utilizar la información que se tenga de la mejor manera posible, se necesita
identificar los estadísticos que sean buenos estimadores. Hay cuatro propiedades que
debe cumplir un buen estimador
Estimador insesgado
estimador de es una variable aleatoria y, por lo tanto, tiene una distribución de
probabilidad con su media y variancia. Entonces, se puede definir un estimador
insesgado diciendo:
Si se utiliza un estadístico muestral para estimar el parámetro de población , se dice
E
que es un estimador insesgado de si
O sea que, es de esperar que, si se toman muchas muestras de igual tamaño, a partir de la
misma población, y si de cada una se obtiene un valor de , la media de todos los valores
de ha de estar muy cerca de .
Estimador eficiente
Si se utilizan dos estadísticos como estimadores del mismo parámetro, entonces aquél
cuya distribución muestral tenga menos error típico es un estimador más eficiente que el
otro. El mas eficiente es el que tenga menor error típico.
Conclusión: Es natural que un estimador con un error estándar menor (con menos
variación) tenga mayores probabilidades de producir una estimación más cercana al
parámetro que estamos queriendo estimar
Estimador consistente
Si es un estimador muestral calculado a partir de una muestra de tamaño n y si es
el parámetro de población que se va a estimar, entonces es un estimador
consistente de si para todo número positivo y arbitrariamente pequeño e se tiene:
P e 1
cuando n
Es decir, la probabilidad de que esté a menos de cierta distancia e del parámetro
tiende a 1 al tender n a infinito.
Por ejemplo, se sabe que la media muestral y la variancia son estimadores
consistentes. Pero, un estadístico muestral puede ser un estimador sin consistencia.
Por ejemplo, si el valor de la primera observación, o la media entre la primera y última
observación, de una muestra se utilizara para estimar la media de la población, tal
estimador no sería consistente porque no tiende a acercarse más y más al valor de la
población cuando se aumenta el tamaño de la muestra. Algunos autores llaman a esta
propiedad congruencia del estimador.
Estimador suficiente
Un estimador suficiente del parámetro es el que agota toda la información pertinente
sobre 6 que se pueda disponer en la muestra.
La media muestral, la proporción muestral y la forma corregida de la variancia muestral
son estadísticos que satisfacen los criterios o propiedades de "buenos" estimadores.
En el siguiente cuadro presentamos un resumen de parámetros y estimadores
puntuales:
Resumen
Probabilidad y Estadísticas Página 51 de 64
Población: P Muestra: M
Parámetros Estadísticos (estimadores
μ x
σ2 S2 o S'2
σ S o S´´
π P
Resumen
Probabilidad y Estadísticas Página 52 de 64
Luego, el intervalo para la media poblacional de una población normal con variancia
conocida es:
x z
1
2 n
Corrección: En el caso en que las muestras se tomen sin reposición de una población
finita de tamaño N, debe emplearse el factor de corrección finita y el intervalo será:
N n N n
x z1 . ;x z .
2 n N 1 1
2 n N 1
Tamaño óptimo de la Muestra:
z. e
n Donde z z1 / 2 ,
Determina el error del muestreo, nos indica la precisión de la estimación.
Pero z depende del valor de α y, al hacer mayor el coeficiente de confianza 1 - α, el valor de
z será mayor y, por lo tanto, el error e aumentará. Esto se puede regular aumentando el
tamaño de la muestra, con lo que el error disminuirá.
z e n z
Si n e
z 2 . 2
n
e2
b) ... σ es desconocido
x
z
Si o es desconocido, no podemos utilizar / n
x
z
y lo reemplazamos por / n
Pero esta variable del denominador es diferente para cada media de la muestra.
Resumen
Probabilidad y Estadísticas Página 53 de 64
S´
(x x )
i
2
n 1
Por lo tanto, el intervalo de confianza para µ será:
S´ S´
P x t x t 1
1
2 n 1
2 n
o bien:
S S
P x tn 1 x tn 1 1
n 1 n 1
Resumen
Probabilidad y Estadísticas Página 54 de 64
(1 ) N n
p .
n N 1 (Sin reposición)
(1 )
p
n (Con reposición)
p(1 p ) p(1 p )
p z1 / 2 . ; p z1 / 2 .
n n
p(1 p ) N n p (1 p) N n
p z1 / 2 . . ; p z1 / 2 . .
n N 1 n N 1
Resumen
Probabilidad y Estadísticas Página 55 de 64
2 2
1 2 1 n.S n.S
P 2 2 P 2 2 1
2
1 ;n 1 n.S 2
; n 1
1 ; n 1
; n 1
2 2 2 2
Observación: el intervalo de confianza del desvío poblacional es:
n.S 2 n.S 2
P 2 1
1 ;n 1 2
;n 1
2 2
9. PRUEBA DE HIPÓTESIS
Conceptos básicos de las pruebas de hipótesis
En el procedimiento denominado prueba de hipótesis trataremos de determinar cuándo
es razonable concluir, a partir del análisis de una muestra aleatoria, que la población
entera posee determinada propiedad, y cuándo no es razonable llegar a tal conclusión.
Tales decisiones se denominan decisiones estadísticas.
Las desviaciones "grandes" se conocen como desviaciones significantes, ya que el hecho
de que éstas ocurran significa que se necesita alguna otra razón que explique los
resultados del muestreo.
Una hipótesis estadística es una afirmación o conjetura acerca de una o más poblaciones.
Pueden definirse como explicaciones tentativas del fenómeno investigado, formuladas a
manera de proposiciones.
La prueba de hipótesis estadística es el proceso que permite tomar una decisión con
respecto a una hipótesis.
Para que una hipótesis sea digna de tomarse en cuenta para la investigación científica deben
existir técnicas adecuadas para probarla. Al formular una hipótesis, tenemos que analizar si
existen técnicas o herramientas de la investigación (instrumentos para recolectar datos,
diseños, análisis estadísticos o cualitativos, etc.) para poder verificarla, si es posible
desarrollarlas y si se encuentran a nuestro alcance.
Las dos hipótesis presentes en un proceso de toma de decisión se denominan hipótesis
nula e hipótesis alternativa. Cuando estamos probando hipótesis acerca del valor de un
parámetro, la hipótesis nula, por lo general, es una afirmación sobre un valor específico del
parámetro. Ésta se denomina así porque es el "punto inicial" de la investigación (en su
Resumen
Probabilidad y Estadísticas Página 56 de 64
interpretación se suele decir "no hay diferencia con el valor supuesto del parámetro θ0",
de ahí el nombre de hipótesis nula).
Se simboliza con H0, La hipótesis alternativa es una afirmación que especifica que el
parámetro de la población tiene un valor diferente al proporcionado en la hipótesis
nula. Se simboliza con H1.
Al tomar una decisión sobre una hipótesis, se pueden cometer dos tipos de errores:
• Error tipo I: Es aquel que se comete cuando se rechaza una hipótesis que debería
ser aceptada. La probabilidad de cometerlo se designa con α= P(E I) = P(Rechazar
H0/H0 es Verdadero).
• Error tipo II: Es aquel que se comete cuando se acepta una hipótesis que debería
ser rechazada. La probabilidad de cometerlo se designa con β = P(E II) = P(Aceptar H0 /
H0 es Falsa).
• Tengamos presente que, cuando se realizan tests de prueba estadísticos, estamos
sacando conclusiones sobre una población basándonos en información extraída a
partir de una muestra.
Al error tipo I actualmente se lo llama falso positivo; ocurre cuando no existe realmente
diferencia en el valor del estadístico que plantea la H 0.
El error tipo II o falso negativo se comete cuando efectivamente hay diferencia en la
población, pero el test estadístico de muestra no da significativo, llevando a una
conclusión falsa de no efecto o no relación. Para explicarlo brevemente, un verdadero
efecto permanece sin ser descubierto.
Resumen
Probabilidad y Estadísticas Página 57 de 64
Error tipo I y II
Resumen
Probabilidad y Estadísticas Página 58 de 64
En el gráfico anterior se observa claramente que, a medida que uno crece, el otro
decrece. En la práctica se procede de la manera siguiente: primero se escoge α, luego
determinamos c y por último calculamos β. Si b resulta tan grande como para que la
potencia η= 1 - β sea pequeña, se debe repetir la prueba escogiendo un η mayor.
Resumen
Probabilidad y Estadísticas Página 59 de 64
(1 )
p
Recordemos que: E ( p ) y n
p 0
z N (0,1)
p
La estadística de la prueba es
Planteamos los tres casos como hicimos con la media poblacional. Y utilizamos las
fórmulas del apéndice.
Introducción
Para analizar las relaciones entre varias variables.
Resumen
Probabilidad y Estadísticas Página 60 de 64
Para simplificar las cosas y por falta de tiempo para desarrollar más contenidos en esta
parte vamos a suponer que entre las variables existe una relación lineal.
Los puntos observados en el dispersiograma deben formar un modelo que puede
aproximarse mediante una línea recta.
Regresión y predicción
Un último uso del diagrama de dispersión es para predecir valores de casos en una
variable a partir de su valor en la otra variable. Prolongando la línea de regresión
podemos hacer esto: sobre el eje X se levanta una recta parelela al eje Y en el punto
que queremos. Esta intersección entre la recta y la regresión da el valor de Y´.
El valor predictivo en Y, que simbolizaremos Y´ para distinguir nuestras predicciones de
Y de los valores observados de Y.
Por supuesto que esta técnica para calcular Y' es limitada. La limitación más seria de
esta técnica de predicción informal es que Y' puede cambiar de valor, dependiendo del
grado de aproximación a los puntos que tenga la recta que dibujamos. Una forma de
eliminar esta fuente de error podría ser encontrar la línea recta que mejor ajusta a los
puntos observados y por lo tanto que mejor describe la relación entre las dos variables.
Recordemos nuestro criterio para trazar la línea de regresión a mano alzada era que
dicha línea toque todos los puntos o se acerque lo más posible a ellos.
Dentro de la distribución condicional de Y, podemos buscar un punto en torno del cual
la variación se minimiza. Este punto de mínima variación no es otro que la media de la
distribución condicional de Y.
Vimos que la media de cualquier distribución de datos es el punto en torno al cual la
desviación de los valores, al cuadrado, es mínima.
( X i X )2 Minimo
Luego, si se ajusta la línea de regresión, ésta pasa por cada una de las medias de las
distribuciones condicionales de Y, con lo cual podemos tener una línea recta que sea lo
más cercana posible a todos los valores. Una línea como esta minimizará las
desviaciones de los valores de Y porque contendrá todas las medias condicionales de
Y, y la media de cualquier distribución es el punto de variación mínima.
Las medias condicionales se encuentran sumando todos los valores Y para cada valor
de X y luego dividiendo por la cantidad de valores sumados.
Ecuación de la recta
Y= a + bX
Donde:
Y = valor en la variable dependiente
a = ordenada al origen, punto donde la línea de regresión corta al eje Y
b = la pendiente de la recta de regresión, es la cantidad de aumento que se produce en
promedio en Y por una unidad de aumento en X
X = valor de la variable independiente
Esta fórmula describe la recta de regresión de "mínimos cuadrados", o la recta de regresión
Resumen
Probabilidad y Estadísticas Página 61 de 64
que mejor ajusta el modelo de los puntos datos. Esta fórmula introduce dos nuevos
conceptos:
1. La ordenada al origen, Y, es el punto en el cual la recta de regresión corta al eje Y.
2. La pendiente b de la recta de regresión de mínimos cuadrados es la cantidad de cambio
producido en la variable dependiente Y por una unidad de cambio en la variable
independiente X. Piense en la pendiente de la recta de regresión como una medida del
efeto de la variable X en la variable Y,
A medida que el efecto de X en Y disminuye, disminuye la asociación entre las variables y
el valor de la pendiente b disminuye. Si las dos variables no están relacionadas, la recta de
regresión de mínimos cuadrados será paralela al eje de abcisas, y b será igual a 0, la recta
no tendría pendiente.
El cálculo de a y b
b
( X X )(Y Y )
(X X ) 2
COV ( X ; Y )
( X X )(Y Y )
n
Es una medida de cómo X e Y varían juntos, y su valor reflejará tanto la dirección como la
fuerza de la relación entre ambas variables. En lugar de la fórmula de b anterior
usaremos otra que es más accesible:
n XY X Y
b
n ( X 2 ) X
2
donde:
b = la pendiente
n = número de casos
X = la sumatoria de los valores de X
XY = sumatoria de los productos cruzados
Y = la sumatoria de los valores de Y
X 2 = la sumatoria de los cuadrados de X
Es fácil de aplicar si se utiliza una tabla con rótulos: X, Y, X2, Y2, XY
Resumen
Probabilidad y Estadísticas Página 62 de 64
En regresión, una relación funcional no significa que, dado un valor de X, el valor de Y deba
ser a + b. X, sino más bien que la esperanza matemática de Y es a + b.X.
El más común de los modelos de regresión (el llamado modelo tipo I) está basado en
cuatro supuestos:
1. La variable X se mide sin error. Por esto decimos que los valores de X son "fijos", o sea
que la variable X es conocida por el observador. Esto significa que solamente Y, la variable
dependiente, es una variable aleatoria. X no varía al azar sino que está bajo control del
observador y por lo tanto es una variable estadística.
2. El valor esperado de Y para un determinado valor de X está descrito por la función
lineal:
y X
Esto equivale a suponer que la relación entre X e Y es lineal y que la esperanza matemática
de los errores ei de las Yi es cero, o sea que: E(εi) = 0, para todo i.
3. Para cualquier valor dado xi, las observaciones Yi son variables aleatorias que se
distribuyen independiente y normalmente. Es decir que el error aleatorio ei de cada
observación Yi, es una variable aleatoria normalmente distribuida con esperanza
matemática cero. En símbolos: εi ~ N(0;σ), E(εi, εj)=0
4. La varianza de la distribución condicional de Y dado que X = xo, se representa por
σY/X=x0 y se la llama directamente varianza de la distribución condicional de Y dado que X =
x0. Se supone que esta medida es constante, cualquiera que sea el valor de X y es un valor
al que representaremos directamente por σ2Y/X, llamándola varianza de la regresión. Esta
propiedad se llama a veces homoscedasticidad.
r
( X X )(Y Y )
( X X )2 . (Y Y )2
Observe que el numerador de esta fórmula es proporcional a la covariación de X e Y ,
como ocurría en la fórmula de b.
Para simplificar los cálculos preferimos la fórmula siguiente:
n XY X Y
r
n X 2 X n Y 2 Y
Este valor indica una relación moderada positiva entre las variables.
(Y ´Y )2
r2 = variación explicada / variación total
(Y Y ) 2
r2 indica en qué medida el conocimiento de X nos ayuda a predecir o entender o
explicar a Y.
La proporción de variación total en Y que no es explicada por X se puede encontrar
restando el valor de r2 de 1. Es decir que dicha expresión representa la llamada
variación residual, resultando: Variación residual = 1 – r 2.
La variación no explicada normalmente es atribuida a la influencia de la combinación de
otras variables, a la medida del error, y los cambios aleatorios.
Como usted podrá ver, la variación explicada y no explicada guardan una relación
reciprocada cada una con la otra.
Cuanto más fuerte es la relación lineal entre X e Y, cuanto mayor es el valor de la
variación explicada, menor es la variación no explicada.
En el caso de una relación perfecta (r = +1 o r = -1), la variación no explicada será igual
a 0 y r2 = 1. Esto indica que X explica toda la variación en Y y que podemos predecir Y
a partir de X sin error.
Por otra parte, cuando X e Y no están relacionadas linealmente (r = 0), la variación
explicada será igual a 0 y r2 será 0 también.
Cuando la relación medida por el coeficiente r de Pearson está basada en datos que
provienen de una muestra aleatoria, se deberá probar la significatividad estadística de
r.
El parámetro poblacional es simbolizado por ρ (rho), y la distribución de muestreo
apropiada es la distribución t- de Student.
Para realizar este test, debemos realizar algunas suposiciones:
1. Debemos suponer que ambas variables tienen distribución normal.
2. La relación entre las dos variables es lineal en cuento a su forma.
3. Homoscedasticidad, significa que la variancia de Y es uniforme para todos los
valores de X.
Luego realizaremos el test de significatividad en 5 pasos:
Paso 1: Suposiciones
Resumen
Probabilidad y Estadísticas Página 64 de 64
• Muestra aleatoria
• Nivel de medición intervalar o de razón
• Distribución bivariada normal
• Relación lineal entre X e Y
• Homoscedasticidad
• Distribución en el muestreo normal
Paso 2: Fijando la hipótesis nula
H 0: ρ =0 contra H1: ρ 0
Paso 3: Seleccionando la distribución en el muestreo y estableciendo la región crítica
Suponiendo la hipótesis nula de no relación en la población, la distribución en el
muestreo de todas las muestras posibles de r es aproximada por la distribución t de
Student. El número de grados de libertad es (n-2)
Tomando α = 0.05, resulta t(crítico) = ± 2.228
Paso 4: Realizando el test estadístico
r
n2
t(obtenido) = 1 r
2
10
0,5 1,83
t ( obtenido ) = 0, 75
Paso 5: Tomando una decisión
Con los resultados obtenidos, no debemos rechazar la hipótesis nula al 5% de
significación.
A pesar de que las variables están relacionadas en la muestra, no tenemos suficiente
evidencia para concluir que las variables están también relacionadas en la población.
El test indica que el valor de muestra de r = 0.50 puede haber ocurrido por azar y las
variables en la población no están relacionadas.
Resumen