Probabilidad Resumenlibro

Probabilidad y Estadísticas Página 1 de 64
1. ESTADÍSTICA DESCRIPTIVA
¿Qué es la estadística?
Como recolección de datos numéricos: datos ordenados según algún criterio.
Como ciencia: Estudia fenómenos en masa, buscando sus características generales. A
partir de un hecho particular se analizan una cantidad de casos particulares, donde se
aprecia una regularidad o estabilidad en el comportamiento.
El propósito de la estadística es precisamente hallar las regularidades de los
fenómenos en masa, regularidades que además de servir para describir un fenómeno
pueden utilizarse con fines de predicción.
Significado Fin
Como recolección de datos
numéricos Descripción
Búsqueda de
Como ciencia regularidades
La estadística elabora técnicas y métodos que nos ayuden a tomar decisiones.
MATERIA PRIMA (datos numéricos o categorías)PRODUCTO (información útil o

conclusiones).
INDEC (Instituto Nacional de Estadísticas y Censos)

Hasta 1968 no había nada unificado respecto a la estadística oficial, eran todas leyes
de organismos nacionales, provinciales y municipales. Resolviendo este problema se
promulga una ley.
Estadística Descriptiva e Inferencial

Estadística descriptiva: ciencia que se dedica a descubrir las regularidades dentro de
un conjunto de datos. Obtiene, resume y transforma datos para interpretar la
información. Proceso de inducción: con la información de la muestras se conocen las
características de la población. Es la mas conocida de las ciencias estadísticas.
Estadística Inferencial: es la parte de la Estadística que nos permite extraer
conclusiones de una población a partir del análisis de una "parte" de ella (a la cual
denominamos muestra aleatoria). El conjunto de estos puede analizarse de la misma
forma que la muestra. Describir el propio conjunto de observaciones ↔ predecir que
pasa en la población.
Conceptos básicos de la estadística

Unida de análisis: es el objeto al cual se le desea obtener la información. Pueden ser
naturales (personas, maestros) o artificiales como el tiempo (día, semana, año).
Población o universo [P]: conjunto de unidades de análisis que satisfacen a una
definición común y en los que interesa analizar una o varias características. Debe estar
perfectamente definida en tiempo y espacio (responder a QUIEN, CUANDO y DONDE).
A la cantidad de elementos que conforma la población la llamaremos [N].
Muestra aleatoria [M]: es una parte o subconjunto de la población, para obtener
información sobre esta. Se saca un grupo dentro de toda la población. Al tamaño de la
muestra la simbolizaremos con [n].
Variable: es la cualidad o cantidad medible que se estudia de las unidades de análisis y
que varían de una unidad a otra.
Niveles de medición
Resumen
Normal: en este nivel se tienen dos o más categorías del ítem o variable. Las
categorías NO tienen orden o jerarquía. Lo que se mide es colocado en una u otra
categoría, lo que indica que solamente diferenciamos respecto de una o más
características. Los números aquí no se manipulan automáticamente.
Ordinal: en este nivel se tienen varias categorías, pero estas además mantienen un
orden de mayor a menor. Las etiquetas o símbolos de las categorías SI indican
jerarquía. No se aplican las operaciones aritméticas simples.
Por intervalo: además de haber orden y jerarquía entre categorías, se establecen los
intervalos iguales en la medición. Las distancias entre categorías son todas las mismas
a lo largo de toda la escala. Hay intervalos constantes, una unidad de medida. Ej.:
Temperatura.
El cero de la medición, es un cero arbitrario, no es real (se asigna arbitrariamente a una
categoría el valor de cero y a partir de esta se construye la escala).
De razón: aparte de las características del nivel por intervalos, el cero es real, es
absoluto. Cero absoluto implica que hay un punto en la escala de intervalo, agrega la
existencia de un origen real que indica la ausencia de la propiedad medida por la
variable.
SE DEBE INDICAR EL NIVEL DE MEDICIÓN E ITEMS.
Relación de variables
1. Indicar la manera de codificar los datos en cada ítem y variable.
2. Codificar los datos (colocar un valor numérico que los identifique).
La codificación se puede hacer antes (precodificado) o después (a posteriori).
La codificación es necesaria para poder cuantitativamente analizar los datos (análisis
estadístico)
Tipo de variables
Cualitativas: son las medidas en escala nominal u ordinal (mide una cualidad).
Cuantitativas: las medidas en escala de intervalos o razón.
 Discretas: cuando solo pueden asumir valores sobre números enteros.
Ej.: alumnos.
 Continuas: cuando puede asumir cualquier valor sobre los números reales.
Ej.: peso.
Dato u observación: es el valor que toma la variable para cada unidad de análisis y se
obtiene mediante algún método de captación.
Etapas de una investigación estadística

a) Planeamiento: se analiza el problema definiendo conceptos y variables, se hace
operable a los conceptos, se elige el procedimiento de recolección, se prepara el
plan de tabulación y codificación, pruebas experimentales.
b) Ejecución: se recolectan los datos a través del organismo que realiza la
investigación u otro organismo (primario o secundario), luego estos datos son
procesados: se comprueba su calidad, se codifican (símbolo a cada categoría),
se tabulan y se analizan (utilizando estadística descriptiva), se miden los
cambios de las variables y sus relaciones.
Métodos de relevamiento
Muestra: permite estudiar el universo de intereses, con una parte de los elementos que
componen a dicho universo. Debe ser representativa de la población. Su uso va en
Resumen
aumento porque con personal entrenado se reducen los errores ajenos al muestreo.
Características: cumple con la condición de universabilidad y puede no ser simultánea.
Censo: la información se obtiene de la totalidad de la población (diferencia con la
muestra) cumple con la universabilidad (censa a todos los elementos) y simultaneidad
(en un tiempo determinado). La información se obtiene tal como se necesita, para fines
estadísticos (diferencia con el registro administrativo).
Registro administrativo: es un proceso de recolección por el cual un servicio
administrativo obtiene información para sus propios fines. Esta información puede ser
usada con fines estadísticos y se obtiene tal como esta disponible para los fines
administrativos, que no siempre coinciden con fines estadísticos, para eso se deberían
hacer las modificaciones necesarias.
Presentación de datos
Texto: para pocos datos y cuando se necesita resaltar cosas importantes.
Cuadros: permite gran cantidad de información pero de fácil lectura. Los cuadros
complejos están formados por títulos, encabezados, su cuerpo, notas al pie, fuente. NO
deben ser largos y las variables deben estar ordenadas.
Gráficos: permiten tener una visión de conjunto más rápida que la de los números y se
recuerdan más fácilmente. La representación gráfica puede ser geométrica (de gran
exactitud) o de símbolos alusivos para impresionar. Las partes del grafico son: titulo,
diagrama, variable, escala, fuente. Existen distintos tipos, entre ellos tenemos:
 Grafico de línea: para la variación de la variable a través del tiempo.
 De barras: cada barra representa un valor, para pocos datos.
 De sectores: un círculo representa a la población y se divide en sectores que
representan la participación.
 Mapas estadísticos: es un artificio grafico para mostrar datos o información
cuantitativa sobre una base geográfica. Permite representar simultáneamente
variables cuantitativas con su correspondiente distribución geográfica.
Tratamiento de variables cualitativas

La primer operación a realizar con variables cualitativas es contabilizar el número de
casos que pertenecen a cada una de las categorías de la variable.
Estas medidas permiten comparaciones entre diversos grupos, basándose
esencialmente en el tamaño de los mismos. De fundamental utilidad cuando las
medidas son medidas nominal u ordinal.
Proporciones: número de casos en una categoría dividido por el número total de casos.
Pi = N i / N
Porcentajes: se obtienen multiplicando a las proporciones por 100. Pi = ( N i / N )*100
Razones: la razon de un numero A con respecto a un numero B se define como A
dividido B. La cantidad que presede se pone en el numerador y la que sigue en el
denominador. Ej.: No repetidores/repetidorescada “tantos” no repetidores hay “tantos”
repetidores.
R = A/ B
Observe que, a diferencia de la proporción, la razón es un número que puede ser

mayor que 1.
Las proporciones representan un caso particular de las razones, en las que el
denominador es el número total de los casos y el numerador es una fracción del total.
En las proporciones el numerador siempre es una cantidad que está contenida en el
denominador.
Resumen
Tratamiento de variables cuantitativas

Nos ocuparemos de métodos para el resumen de datos medidos en escalas de
intervalo o razon.
Sí los datos medidos en escala de intervalo o de razón (variables cuantitativas) han de
resumirse de igual modo, hay que tener en cuenta si la variable es discreta o continua.
Dicho resumen, consiste en organizar tablas que resuman los datos originales o
valores observados.
Tablas para datos agrupados en serie de frecuencias

Una tabla de distribución de frecuencias es una tabla que presenta en forma ordenada
a los distintos valores de una variable y sus correspondientes frecuencias. Definimos
como frecuencia al número de veces que se presenta cada valor de la variable.
Ejemplo: En una planta procesadora de alimentos se observó, durante 30 días

laborables, el número de interrupciones (por día de trabajo) debidas a fallas mecánicas.
Los resultados que se obtuvieron son los siguientes:
Las frecuencias relativas no son mas que proporciones, ya que representan la

importancia relativa de cada valor de la variable en el total de casos.
En la columna (4) sumarnos los días acumulados hasta cada uno dejos valores de la
variable
Finalmente, en la columna (5) efectuarnos el cociente entre los valores de la columna
(4) dividido por el total de días, lo que nos indica el peso relativo de los casos
acumulados hasta cada uno de los valores de la variable, y llamamos a esta columna
frecuencia relativa acumulada.
Nota: las frecuencias relativas “fri” y relativas acumuladas “Fri” suelen expresarse en
porcentajes.
Representación grafica
Para representar gráficamente se utiliza un par de ejes coordenados. En el eje de
abscisas se representara la variable estudiada y en el eje de ordenadas a las
correspondientes frecuencias (absolutas o relativas).
El grafico de bastones es la representación grafica de las frecuencias de una variable
discreta, cuyas abscisas son los valores de la variable y cuyas ordenadas son las
frecuencias relativas o absolutas.
Resumen
A estos gráficos se los denomina gráficos escalonados
Tablas para datos agrupados en intervalos de clase

Intervalos de clase: subdivisiones o intervalos en que se ha dividido el dominio o campo
de variabilidad de la variable, de modo tal que cada intervalo estará compuesto tramos
del recorrido de la variable.
Limites de clases: valores que definen los extremos de un intervalo. Por lo tanto,
tendremos, para cada intervalo, un límite inferior que lo simbolizaremos L i y un límite
superior que lo simbolizaremos Ls. La amplitud del intervalo vendrá dada por la
diferencia entre el límite superior y el límite inferior.
Amplitud: la llamamos h, siendo: Amplitud de intervalos: h = L s – Li.
Además, al punto medio de cada intervalo lo llamaremos marca de clase y lo
simbolizaremos con mi.
Cuando los datos se agrupan en intervalos, el problema fundamental es pensar en una
amplitud adecuada para los mismos. Generalmente, se aconseja entre 10 y 15 la
cantidad razonable de intervalos, de modo que no haya tantos como para que no sea
manejable la tabla, ni tan pocos como para que la amplitud sea tan grande que nos
haga perder mucha precisión en nuestro trabajo.
Para calcular la amplitud del intervalo se busca primero la amplitud o rango de la
variable, es decir, la diferencia entre el mayor y el menor de los valores que toma la
variable y, luego, el resultado se divide por la cantidad de intervalos que se quieren
formar.
Rango de la variable: R = máx(xi) - mín(xi)
Amplitud del intervalo: h = R / cantidad de intervalos
Cantidad de intervalos:
Cantidad de intervalos: R/ k-->amplitud/cantidad de intervalos.
Nota: Cuando escribimos un intervalo (Li - Ls], el símbolo "]" indica que el valor que le
precede está contenido en dicho intervalo; el símbolo "(" indica que el valor que le
sucede no está contenido en el intervalo.
Representación Gráfica
Para representar gráficamente una distribución de frecuencias para datos agrupados
usamos el histograma y el polígono de frecuencias.
Histograma: es la representación, en un sistema de coordenadas cartesianas
ortogonales, de la distribución de frecuencias (absolutas o relativas) de una variable
Resumen
agrupada en intervalos, mediante un gráfico de superficies. Sobre el eje de las abscisas

se presentan los intervalos y se levanta, sobre cada uno de ellos, un rectángulo cuya
área es igual a la respectiva frecuencia.
Polígono de frecuencias: es una línea poligonal obtenida en un histograma uniendo los
puntos medios de los lados superiores de los rectángulos. Los lados extremos crean
dos intervalos hipotéticos con frecuencia cero, colocando cada uno de ellos en ambos
extremos del histograma, y con amplitud igual a la del intervalo posterior y anterior,
respectivamente.
Ojiva: es la representación gráfica de las frecuencias acumuladas (relativas o
absolutas) de una variable agrupada en intervalos, mediante una línea poligonal
obtenida uniendo los puntos que tienen, por abscisas, los limites superiores del
intervalo y, por ordenadas, las respectivas frecuencias acumuladas. A este gráfico
también s lo conoce como polígono de frecuencias acumuladas.
2. MEDIDAS CARACTERÍSTICAS
Medidas de tendencia central
Son promedios. Cuando nos referimos a ellos como medidas de tendencia central;
éstas son medidas que nos dan idea de cual es el centro de distribución de datos.
Media aritmetica
Es el numero que se obtiene al dividir la suma de todas las observaciones por la
cantidad de observaciones sumadas. La simbolizamos con x
Cálculo de la media aritmética para datos agrupados en series de frecuencia:

j
�x . fa i i
x= i =1
j
�fa
i =1
i
Donde el subíndice i se usa para indicar los distintos valores que toma la variable y j es
la cantidad de valores distintos q toma la variable
j
�x . fa i i
x= i =1
n
Cuando calculamos la media aritmetica, multiplicamos a cada valor de la variable por
su correspondiete frecuencia, decimos que la media está “ponderada”.
j
x = �xi . fri
i =1
En este caso, el ponderador nos está indicando la importancia “relativa” de cada valor
de la variable sobre el total de las observaciones.
Cálculo de la media aritmética para datos agrupados en intervalos de clase:
En este caso, emplearemos la fórmula anterior pero, en lugar de multiplicar tos valores
de la variable por la frecuencia absoluta (en el numerador), multiplicaremos las marcas
de clase por la frecuencia absoluta. Estamos suponiendo, entonces, que la frecuencia
del intervalo corresponde en su totalidad a la marca de clase. Obviamente, en realidad
esto no es asi, por lo tanto, en este caso, estamos obteniendo una media aritmética
“aproximada”.Si tuviéramos los datos sin agrupar, obtendríamos una media aritmética
exacta
Resumen
j
�m . fa i i
x= i =1
j , mi es la marca de clases.
�fai =1
i
Propiedades de la media aritmética

 La media aritmética es un valor mínimo valor observado de la misma.
 La unidad de medida de la media aritmética es igual a la unidad de medida de la
variable.
 Si la variable toma siempre el mismo valor, la media aritmética es igual a dicho
valor.
 La suma de los desvíos de cada valor de la variable a la media aritmética es
igual a 0. Esta propiedad demuestra el efecto compensador que tiene este
promedio respecto a la distribución de los datos,
�( xi - x ) = 0 Para datos no agrupados
�( x - x ) fa = 0 Para series de frecuencias y
i i
�(m - x ) fa = 0 Para datos agrupados.

i i
 Si a los valores de una variable se les suma o se les resta una constante, la
media aritmética de la nueva variable es igual a la media aritmética de la
variable anterior más o menos dicha constante.
 Si a los valores de una variable se los multiplica por una constante, la media
aritmética de la nueva variable es igual a la media aritmética de la variable
anterior multiplicada por dicha constante.
Mediana
Si todos los valores observados de la variable se ordenan en sentido creciente (o

decreciente), la mediana es el valor de la variable que ocupa el lugar central, es decir,
el que deja a un lado y a otro el mismo número de observaciones. Para su obtención se
considerará la forma en que están disponibles los datos.
Para simbolizar la mediana utilizaremos x%.
Cálculo de la mediana para datos no agrupados:

Si el número de observaciones es par, se toma como mediana a la media aritmetica de
los dos valores centrales. Para los franceses no existe la mediana cuando la cantidad
es par.
x +x x
Para par x%= n / 2 n / 2 +1 Para impar x%= ( n +1)
2 2
EI subíndice de x indica la posición que ocupa ese valor de la variable; una vez
ordenados los datos.
Cálculo de la mediana para datos agrupados como serie de frecuencias:

Determinación Analítica
El problema consiste en hallar el valor de la variable que corresponde a la observación
central.
Veamos el cálculo de la mediana para el número de interrupciones en la planta

procesadora de alimentos. La primera operación que hay que realizar es obtener las
Resumen
Fai. La segunda operación es calcular n/2, El tercer paso es localizar la primera

frecuencia acumulada mayor que la de n/2.
Determinación Gráfica
Utilizando el gráfico de distribución de frecuencias absolutas acumuladas, calculamos
la mediana de la siguiente forma:
a) Ubicamos el resultado de hacer n/2 sobre el eje de ordenadas (Fa i).
b) Trazamos una línea horizontal, a la altura de dicho valor, hasta tocar el gráfico.
c) Luego, bajamos hasta el eje de abscisas. El punto que encontrarnos, es el valor
correspondiente a la mediana.
Calculo de la mediana para datos agrupados en intervalos de clase

Determinación Analítica:
No puede obtenerse exactamente el valor de la mediana porque se desconocen las
observaciones individuales de la variable.
n / 2 - fa(i -1)
x%= Li +
fai
Siendo:
Li: el límite Inferior del intervalo correspondiente a la frecuencia absoluta acumulada
que contiene a la cantidad n/2.
Fa(i+1): la frecuencia absoluta acumulada hasta el intervalo anterior al que contiene a la
mediana.
fai: la frecuencia absoluta del intervalo en el que ubicamos a la mediana.
hi: la amplitud del intervalo en el que se encuentra la mediana.
Observación
Si definimos como fractiles a aquellos valores de la variable que fraccionan a la
distribución en partes iguales, es decir, en partes que contienen la misma cantidad de
datos, la mediana resulta ser un fractil. Diríamos entonces: “la mediana es el fractil que
divide a la distribución en dos partes iguales, siendo la mitad de los datos menor o igual
que ella y la otra mitad mayor o igual que ella”.
Existen otros fractiles que dividen a la distribución en 4, 10 y 100 partes iguales. Se
conocen con el nombre de cuartiles, deciles y percentiles.
 Cuartiles: Son 3 y dividen a los datos en 4 partes iguales. Se simbolizan Q 1, Q2 y
Q3. Por ejemplo, el cuartil 1 deja por debajo el 25% de las observaciones y el
75% restante por encima, mientras que el cuartil 2 coincide con la mediana, ya
que deja a cada lado el 50% de las observaciones.
 Deciles: Son 9 y dividen a los datos en 10 partes iguales. Se simbolizan D 1,
D2, .., D9. Por ejemplo, el decil 1 deja por debajo el 10% de las observaciones y
el 90% restante por encima.
 Percentiles: Son 99 y dividen a los datos en 100 partes iguales. Se simbolizan
P1, P2,…, P99. Por ejemplo, el percentil 1 deja por debajo el 1% de las
observaciones y el 99% restante por encima,
Resumen
Para calcular cualquiera de los fractiles, se emplea la misma metodología que para el
cálculo de la mediana: siempre se debe determinar, en primer lugar, el intervalo al cual
pertenece la medida, ya que los distintos parámetros que aparecen en la fórmula se
refieren a este intervalo.
( j / *)n - fa(i -1)
Q j = Li + hi
fai
j=1,2,3
* si Es CUARTIL vale 4, si es DECIL vale 10 si es PERCENTIL vale 100.
Determinación Gráfica:
Este procedimiento gráfico puede utilizarse para cualquiera de los fractiles.
Representamos la ojiva y luego determinamos, sobre el eje de ordenadas, el valor que
nos interesa; por ejemplo, para el caso de la mediana, determinamos n/2. La abscisa
de este punto en la gráfica de la ojiva es la mediana.
Modo
El modo es el valor de la variable que más veces se repite, o _sea,_el valor que
presenta mayor frecuencia. En el caso del modo no existe una fórmula general para
expresarlo. Lo simbolizaremos con x̂ .
Veamos cómo se encuentra el modo para los distintos tipos de disposición de los datos.
Si los mismos están en forma de serie simple, la determinación del modo es
prácticamente inmediata. Por ejemplo, si x = 1,2, 2, 2, 4, 5, entonces x = 2.
Cálculo del modo para datos agrupados como serie de frecuencias:
En este caso, el modo se obtiene con extrema rapidez: en la distribución de frecuencias

se observa cuál es la frecuencia absoluta mayor y el modo será el valor de la variable
correspondiente a dicha frecuencia.
El modo también puede obtenerse gráficamente, observando el gráfico de frecuencias
absolutas para datos sin agrupar:
Cálculo del modo para datos agrupados en intervalos de clase:

Una aproximación del mismo se obtiene mediante la siguiente expresión:
d1
xˆ = Li + hi
d1 + d 2
Siendo:
Li: límite inferior del intervalo de clase al que corresponde l absoluta, que llamaremos el
“intervalo modal”,
d1: diferencia absoluta entre la frecuencia absoluta del intervalo de mayor frecuencia o
intervalo modal y la frecuencia absoluta del intervalo anterior.
d2: diferencia absoluta entre la frecuencia absoluta del intervalo de mayor frecuencia o
intervalo modal y la frecuencia absoluta del intervalo posterior.
hi: amplitud del intervalo modal.
Nota: Esta fórmula es aplicable solamente en caso de que todos los intervalos tengan
la misma amplitud.
Comparación entre Las distintas medidas de tendencia central de uso más frecuente
Al exponer los principales promedios -media aritmética, mediana y modo- hemos

aplicado los mismos ejemplos para el cálculo de cada uno de ellos. Si tomamos el
Resumen
ejemplo de los montos de ventas del establecimiento comercial, podemos apreciar ias
diferencias entre los distintos promedios calculados. Recordemos cuáles fueron dichos
valores: x = $6070, x%= $6400 y x̂ =$6880.
Puede observarse que, para una misma distribución, rara vez coinciden tos valores
obtenidos mediante los tres promedios. Si la distribución es unimodal y simétrica, estas
tres medidas coinciden. Para una distribución asimétrica, la media se aleja de la moda
hacia el lado de la cola más larga, con la mediana entre ellas.
Lo vemos gráficamente;
En nuestro caso x < x%< xˆ por tratarse de una distribución asimétrica a izquierda.
Nos preguntamos entonces: ¿cuándo conviene usar una u otra de las medidas de
tendencia central estudiadas? A continuación vamos a resumir las características de
cada uno de los tres promedios considerados, así como sus ventajas e inconvenientes.
Media Aritmética: La medía aritmética es el centro de gravedad de la distribución. El
punto x es el punto de equilibrio de la figura que representa la distribución.
La media aritmética es un valor de la variable que depende de todas las observaciones,
porque en su cálculo intervienen todas ellas. Por lo tanto, la presencia de un valor
observado anormalmente grande o anormalmente chico influye sensiblemente en el
valor del promedio, lo cual, evidentemente, es un inconveniente de la media aritmética.
Frente a esto, tiene la ventaja de utilizar toda la informacion. recogida.
En Estadística se trabaja frecuentemente con muestras. Con una muestra no puede
obtenerse el valor exacto de un promedio de la población, sólo se obtiene una
estimación de él. Una condición esencial de cualquier promedio es que su valor en la
muestra no varíe mucho al pasar de una muestra a otra, es decir, que el promedio
calculado sea lo más estable posible. Esta condición de la máxima estabilidad la posee
la media aritmética.
Finalmente, la media aritmética por venir definida mediante una expresión algebraica,
puede someterse a cálculos matemáticos necesarios para deducir cuestiones
importantes.
Mediana: Por definición, sabemos que la mediana es el valor de la variable que deja a
un lado y a otro el mismo número de observaciones, bajo el supuesto de que los datos
están ordenados en sentido creciente o decreciente. En la gráfica, la ordenada
correspondiente a la mediana divide el área total en dos partes iguales.
Para determinar el valor de la mediana, no es necesario conocer el valor de todas las
observaciones, sólo es preciso saber el valor de la observación central y que las
restantes son mayores o menores que ésta. No se utiliza, pues, toda la información
recogida para su cálculo, lo cual es un inconveniente. En cambio, tiene la ventaja de
Resumen
que los valores observados anormalmente grandes o anormalmente pequeños no

influyen en ei promedio.
Otra ventaja es que puede obtenerse con datos incompletos, por ejemplo, en las
distribuciones de frecuencias con intervalos de clase que comienzan con un intervalo
"menos de ..." o finalizan con intervalos "más de ...".
Un serio inconveniente es que la mediana no viene definida mediante una expresión
matemática. La fórmula de aproximación es, simplemente, un aditicio que se utiliza en
el caso de las distribuciones para datos agrupadas en intervalos de clase. En
consecuencia, no puede someterse al cálculo algebraico para deducir cuestiones
importantes de comportamiento.
Modo: Como ya vimos, es el valor más frecuente, es decir, el punto donde se concentra
el mayor número de observaciones. En la gráfica, el modo es el punto de la variable al
cual le corresponde la altura máxima de la curva.
Este promedio tampoco utiliza toda la información, pues basta con saber tan solo cuál
valor de la variable es el más frecuente. Esto hace, al Igual que en el caso de la
mediana, que este promedio no se vea afectado por los valores anormalmente grandes
o anormalmente pequeños, Tampoco el modo se define algebraicamente y, por ello, no
puede utilizarse para obtener deducciones matemáticas.
El modo es un promedio muy interesante cuando existe, en la distribución, una clara y
decidida tendencia a que los valores se concentren alrededor de un solo valor.
Una vez vistas las propiedades de cada promedio separadamente, conviene repasar
algunas cuestiones que afectan a todos ellos. Recordemos, primeramente, que un
promedio tiene por objeto obtener un valor de la variable alrededor del cual se
distribuyen las observaciones. Esta condición se cumple muy bien en las distribuciones
simétricas o moderadamente asimétricas. Si la distribución de la variable es de este
tipo, los tres promedios (media aritmética, mediana y modo) son perfectamente
representativos del conjunto de observaciones. En este caso, es difícil señalar una
preferencia de uno sobre otro desde el punto de vista de su representatividad. Si
tomamos en cuenta las restantes propiedades, el mejor promedio es la media
aritmética por sus propiedades matemáticas y de estabilidad en el muestreo.
Si la distribución es fuertemente asimétrica, es decir, tiene forma de “J” o de “L”,
entonces la mediana es el promedio más apto.
Si la distribución tiene forma de "U", los tres promedios tienen poca fuerza
representativa. Generalmente, las distribuciones de esta forma suelen ser difíciles de
tratar desde el punto de vista de los promedios.
Resumen
Nota: recuerde siempre que el tipo de distribución que presentan los datos es
importante para la selección del promedio mas adecuado. En caso de duda, seguir
siempre la misma regla: emplear la media aritmetica.
Media geometrica
La simbolizamos con xg y se calcula como:

xg = n x1.x2 ...xn
Si los datos están agrupados, la expresión de cálculo es la siguiente:
xg = n x1fa1 .x2fa2 ....xnfan
donde m es la cantidad de valores muéstrales distintos, o reemplazando los x i, por las marcas de
clase mi, si los datos están agrupados en intervalos.
Este tipo de promedio se utiliza, generalmente, cuando los valores de la variable crecen
de acuerdo a una progresión geométrica.
Media Armónica
La simbolizaremos con xa , de n observaciones de una variable se calcula como:

n
xa = n
�1/ xi i =1
Si los datos están agrupados, la calculamos así

n
�fa i
xa = i =1
n
�1/ x
i =1
i
O reemplazamos los xi por mi si tenemos intervalos de clases.

Se utiliza generalmente, para promediar valores que provienen de resultados de un
cociente entero entre variables.
Medidas de dispersión
Medidas de dispersión absoluta
Rango "R"
Se define como la diferencia entre el valor máximo y el valor mínimo que toma la
variable. Descuidando por completo los valores intermedios.
Podría suceder que un valor observado estuviese accidentalmente desplazado. En este
caso, el rango sería exagerado y la dispersión aparecería distorsionada.
Resumen
Rango entre Fractiles

Es una medida que se define como la diferencia entre un par de fractiles. De alguna
manera, evita el inconveniente de los valores extremos que presenta el rango. Por
ejemplo: si consideramos el 1° y el 3° cuartil, se define el rango intercuartílico R 1 = Q3-
Q1.
Desviación media
Se define como el promedio de los valores absolutos de los desvíos:

m
m
�x - x fai
Para serie simple �x - x i
Para serie agrupada DM = i =1
i
DM = i =1 m
n �fa
i =1
i
Si los datos están agrupados en intervalos, debemos cambiar x i por mi en la fórmula

anterior.
A xi - x se le llama desvíos de la variable respecto de la media aritmética.
Debemos trabajar con valor absoluto pues, de lo contrario, la desviación media
resultaría igual a cero para cualquier variable x i.
Comparada con el rango, esta medida utiliza una cantidad mayor de información, pero
su cálculo resulta engorroso.
Observación: La desviación media es mínima si se calcula respecto de la mediana.
Variancia
La simbolizaremos con S2 variancia muestral.

La calculamos así:
 Para datos no agrupados:
n
�( x - x )
i
2
S2 = i =1
n
 Para series de frecuencia
n
�( x - x ) . fa
i
2
i
S2 = i =1
n
�fa
i =1
i
 Para intervalos de clase

k
�(m - x ) . fa
i
2
i
S2 = i =1
n
�fa
i =1
i
Esta medida toma en cuenta, para su calculo, todos los valores de la variable, pero
tiene como inconveniente que no esta expresada en la misma unidad de medida que la
variable sino en el cuadrado de la misma.
En este caso, la variancia muestral, tal como la hemos definido es un buen estimador
de la variancia poblacional cuando el tamaño de la muestra n es mayor o igual que 30
(aproximadamente). Si n < 30, resulta mejor estimador la llamada variancia muestral
corregida que, para el caso de datos no agrupados, se define así:
Resumen
n
�( x - x ) i
2
S2 = i =1
n -1
Desviación Típica (S)
Raiz cuadrada de la variancia para obtener la misma unidad de estudio. Se calcula con:
n
�( x - x )
i
2
para datos no agrupados
S = + S2 = + i =1
n
fórmula de trabajo de S:
n
�( x - x ) i
2
fai
S= i =1
n
�fa
i =1
i
Desarrollamos el cuadrado del binomio

n
�( x 2
i - 2 xi x + x ) fai
S= i =1
n
�fa
i =1
i
Aplicamos propiedad distributiva

n n n n n
�x 2
i fai �x fa i i �fa i �x 2
i fai �x 2
i fai
S= i =1
n
- 2x i =1
n
+x 2 i =1
n
= i =1
n
- 2x + x =
2 2 i =1
n
- x2
�fa
i =1
i �fa
i =1
i �fa
i =1
i �fa
i =1
i �fa
i =1
i
Propiedades de la desviación típica

• Si a los valores de una variable se les suma o resta una constante, la desviación
típica no se ve afectada por dicha transformación. Gráficamente, al sumar (o restar)
una constante a la variable, la curva se traslada con todo hacia la derecha (o hacia la
izquierda) sobre el eje x, sin alterar su forma.
• Si a los valores de una variable se los multiplica por una constante, la desviación
típica se ve afectada por dicha transformación. Gráficamente, al multiplicar por una
constante, la curva que representa el polígono de frecuencias suavizado altera su
forma.
Observaciones:
• Supongamos que, de una población, se sacan muestras de tamaño cada vez más
grande, por lo tanto, el número de intervalos aumenta y, cuando ese número se hace
infinitamente grande, ocurre que:
- La poligonal que limita superiormente al histograma tiende a ser una curva, o sea, el
polígono de frecuencias se va suavizando, pues los segmentos que lo determinan son
cada vez más cortos, tiende a ser una curva que denominaremos curva de frecuencias
y representa una función que llamaremos función de densidad de probabilidad. El área
encerrada entre la curva y el eje x tiende a valer uno.
- La poligonal que limita superiormente al diagrama de frecuencias acumuladas, es
decir, la ojiva, tiende a una curva y se llama curva de distribución
• La medía muestral ( x ) permite estimar a la media poblacional que simbolizaremos µ
y la variancia muestral(S2) permite estimar a la variancia poblacional. Si el tamaño n es
Resumen
menor que 30, preferimos la variancia muestral corregida (S 2i) para estimar la variancia
poblacional.
• Cuando la función de densidad de probabilidad (curva continua que aproxima a los

histogramas de áreas) de una variable (que, en este caso, llamaremos variable
aleatoria) tiene forma de campana simétrica se llama curva normal o de Gauss. En esta
distribución se cumple:
- x = es el eje de simetría de la curva.
- El área entre la curva y el eje, desde µ-σ hasta µ+σ es 0.68 (contiene el 68% de las
observaciones, aproximadamente).
- El área entre la curva y el eje, desde µ-2 σ c hasta µ+2 σ es 0.95 (contiene el 95% de
las observaciones, aproximadamente).
Diagrama de tallo y hojas
En general, en un experimento que involucra una variable aleatoria continua, la función

de densidad f(x) se desconoce y sólo se asume su forma. Para aproximar la forma de
la distribución, se usa actualmente el gráfico denominado diagrama de tallo y hojas.
Éste es realizado automáticamente cuando se ejecuta el procedimiento estadístico
Explorar Datos de la mayoría de los paquetes estadísticos.
Para ejemplificar la elaboración de un diagrama de tallo y hojas, considérense los datos
de la tabla siguiente que representan las duraciones de 40 baterías de automóvil
similares. Las mismas estaban garantizadas para durar 3 años:
Primero, se divide cada observación en dos partes que consisten en un tallo y una hoja,
de tal forma que el primero represente el dígito que es el entero y la hoja corresponda a
la parte decimal del número. En otras palabras, para el número 3.7 el dígito 3 se
designa como el tallo y el dígito 7 como la hoja. Los cuatro tallos: 1, 2, 3 y 4 quedan
listados consecutivamente en el lado izquierdo de la línea vertical de la tabla que se
Resumen
muestra a continuación. Las hojas se escriben en el lado derecho de la línea, en

contraposición al valor de tallo apropiado.
Entonces, la hoja 6 del número 1.6 se escribe a la altura del tallo 1, la hoja 5 del
número 2.5 se escribe a la altura del tallo 2, y asi sucesivamente. La cantidad de hojas
registradas para cada tallo se resume en la columna de frecuencia.
Medidas de dispersión relativas
Toda medida de variación absoluta tiene significación solamente con relación al

promedio respecto del cual se midieron las desviaciones.
La medida de variación relativa más usada es el llamado coeficiente de variación (que
a veces, se expresa como porcentaje):
S S
CV = CV = .100 para porcentaje
x x
El coeficiente de variación es un número abstracto, una medida de variación relativa de
los datos que se estudian que puede compararse con valores similares procedentes de
otras distribuciones.
Medidas de asimetría y de curtosis
Medidas de asimetría
La asimetría o sesgo de una distribución se refiere a la falta de simetría. Si la curva

de frecuencias (el polígono de frecuencias suavizado) de una distribución tiene una
“cola más larga” a la derecha del máximo central que a la izquierda, se dice que la
distribución está sesgada a la derecha o que tiene sesgo positivo. Si es lo contrario, se
dice que está sesgada a la izquierda o que tiene sesgo negativo.
Si la distribución es unimodal y simétrica, estas tres medidas coinciden. Para una

distribución asimétrica, la media se aleja de la moda hacia el lado de la cola más larga,
con la mediana entre ellas. Estas relaciones las vimos gráficamente en el punto 2.1.4.
Luego, podríamos medir la asimetría haciendo: Cuanto mayor sea la diferencia,
negativa o positiva, tanto más asimétrica será la distribución (a la derecha o a la
izquierda).
Esta medida presenta dos inconvenientes:
 Es una medida absoluta, o sea, que el resultado se expresa en las unidades
originales de la variable en estudio.
Resumen
 La misma cantidad absoluta de asimetría tiene un significado diferente para

distintas series con distintos grados de variabilidad. Luego, esta medida puede
adimensionarse dividiéndola por una medida de dispersión, como la desviación
típica. Así definimos:
x - xˆ
SP1 = 1° coeficiente de sesgo de Pearson
S
Utilizando la relación para distribuciones moderadamente asimétricas x - xˆ �3.( x - x%
)
resulta:
3.( x - x%
)
SP 2 = 2° coeficiente de sesgo de Pearson
S
Esta medida vale 0 para una distribución simétrica, es negativa para una distribución
asimétrica a la izquierda y positiva para una distribución asimétrica a la derecha.
Aplicaciones:
Se cree que la asimetría positiva es producida por fuerzas multiplicadores. Las
distribuciones asimétricas negativas son muy raras y a menudo es difícil ofrecer una
explicación racional de su existencia.
Medidas de curtosis
Es el grado de agudeza o apuntamiento de una distribución. Al coeficiente de curtosis

lo simbolizamos con CC y lo definimos de la manera siguiente:
Los tres tipos de curtosis son:
 Distribución leptocúrtica: presenta un elevado grado de concentración alrededor
de los valores centrales de la variable.
 Distribución platicúrtíca: presenta un reducido grado de concentración alrededor
de los valores centrales de la variable.
 Distribución mesocúrtica: presenta un grado de concentración medio alrededor
de los valores centrales de la variable (el mismo que presenta una distribución
normal).
Cuando la amplitud de una variable se aproxima al infinito, y para una curva

completamente plana, CC se aproxima a 0. Para mesocúrtica CC = 0,263,
platicúrtíca  CC = menor a 0,623; leptocúrtica  CC = mayor a 0,263.
Coeficiente de Curtosis percentílico
Q3 - Q1
CC =
2( P90 - P10 )
3. PROBABILIDAD
Importancia del tema y breve reseña histórica
Resumen
Los jugadores siempre han recurrido a las probabilidades para realizar sus apuestas a
lo largo de la historia escrita. Pero fue recién en el siglo XVII cuando un noble francés,
puso en tela de juicio el fundamento matemático del éxito y del fracaso en las mesas de
juego.
La teoría de la probabilidad fue aplicada con buenos resultados a las mesas de, juego
y, lo que es aún más importante para nuestro estudio, con el tiempo también se aplicó a
otros problemas socioeconómicos.
En la actualidad, la teoría matemática de la probabilidad constituye el fundamento de
las aplicaciones estadísticas, tanto en la investigación social como en la toma de
decisiones.
La probabilidad forma parte de nuestra vida diaria. En las decisiones de carácter
personal y gerencial, enfrentamos la incertidumbre y nos valemos de la teoría de la
probabilidad, sin importar si admitimos o no el empleo de una cosa tan refinada.
Triangulo de pascal
El triángulo de Pascal es un triángulo de números enteros, infinito y simétrico Se
empieza con un 1 en la primera fila, y en las filas siguientes se van colocando números
de forma que cada uno de ellos sea la suma de los dos números que tiene encima. Se
supone que los lugares fuera del triángulo contienen ceros, de forma que los bordes del
triángulo están formados por unos. Aquí sólo se ve una parte; el triángulo continúa por
debajo y es infinito.
Nos permite obtener los resultados de los números combinatorios sin necesidad de
realizar operaciones muy complicadas:
Los números del triángulo de Pascal coinciden con los números combinatorios.
m
El número combinatorio Cn (n sobre m) se encuentra en el triángulo en la fila n+1, en
el lugar m+1.
m
El número combinatorio Cn (n sobre m) que representa el número de grupos de m
elementos que pueden hacerse de entre un conjunto de n (por ejemplo, (4 sobre 2) nos
da el número de parejas distintas que podrían hacerse en un grupo de cuatro
personas), se encuentra en el triángulo en la fila n+1, en el lugar m+1.
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
...
Podemos saber que el número de parejas posibles que decíamos antes es 6 si

miramos el tercer número de la quinta fila.
Esto hace que el triángulo sea útil como representación de estos números, y
proporciona una buena forma de intuir sus propiedades.
Por el contrario, a la fórmula de los números combinatorios se le puede dar el carácter
de fórmula general del triángulo para saber, sin necesidad de construir todas las filas
anteriores, cuál es el número que ocupa un lugar determinado:
Resumen
Relación de la Probabilidad con las partes de la Estadística

El estudio de las probabilidades es una herramienta fundamental, sin la cual no
podemos introducirnos en el estudio de la Estadística Inferencial.
La Probabilidad y la Estadística son dos campos ajenos entre sí pero relacionados de
las Matemáticas. Se dice que la Probabilidad es el vehículo de la Estadística, es decir,
si no fuera por las leyes de la probabilidad, la teoría de la estadística no sería posible.
Observe la diferencia: la Probabilidad pregunta sobre la posibilidad de que ocurra algo
específico (una muestra) cuando se conocen las posibilidades (es decir, se conoce la
población). Por otra parte, la Estadística pide extraer una muestra, describirla
(Estadística Descriptiva) y luego hacer inferencias sobre la población, con base en la
información que se obtuvo de la muestra (Estadística Inferencial).
LAS PROBABILIDADES SE EXPRESAN COMO FRACCIONES O COMO DECIMALES

ENTRE O Y 1 O COMO PORCENTAJES.
Asignar una probabilidad de O significa que algo nunca ocurrirá, mientras que una
probabilidad de 1 indica que algo sucederá siempre.
Conceptos básicos de probabilidad
Evento o Suceso
En la teoría de la probabilidad, un evento o suceso es uno o varios de los resultados

posibles que se pueden obtener al hacer una experiencia. Simbología: S
Experimento Aleatorio
En la teoría de la probabilidad, se le llama experimento a la actividad que produce un

evento. Simbología: E
Luego, podemos decir que un experimento aleatorio es un proceso que presenta las
siguientes características:
 Es posible repetir cada experimento indefinidamente, sin cambiar esencialmente
las condiciones.
 Aunque, en general, no podemos indicar cuál será un resultado particular,
podemos describir el conjunto de todos los resultados posibles del experimento.
 A medida que el experimento se repite, los resultados individuales parecen
ocurrir en forma caprichosa, Sin embargo, cuando el experimento se repite un
gran número de veces, aparece un modelo definido de regularidad. Esta
regularidad hace posible la construcción de un modelo matemático preciso, con
el cual podemos analizar el experimento.
Características esenciales de un experimento aleatorio:
 Constancia de las condiciones en que se realiza.
 Conocimiento de todos los resultados posibles.
 Regularidad de resultados cuando el número de observaciones tiende a infinito.
 Sus resultados están influidos por el azar.
Espacio Muestral
Resumen
El conjunto de todos los resultados posibles de un experimento recibe el nombre de

espacio muestral. Luego, estamos en condiciones de decir que todo subconjunto del
espacio muestral es un suceso.
Simbología: A, B, C, ..., o bien, A1,A3, A4,
Sucesos compatibles e incompatibles o sucesos mutuamente excluyentes
Se dice que dos eventos son mutuamente excluyentes o incompatibles si uno y sólo
uno de ellos puede tener lugar a la vez. Como ejemplo tomamos el lanzamiento de una
moneda, puede salir “cara” o “seca”, pero NUNCA LOS DOS. Por ello, los eventos
"lado cara" y "lado seca" en un lanzamiento individual de la moneda son mutuamente
excluyentes. He aquí la pregunta decisiva que es preciso formular al decidir si los
eventos son mutuamente excluyentes: "¿Pueden presentarse al mismo tiempo?". Si la
respuesta es afirmativa, los eventos no son mutuamente excluyentes; en este caso,
decimos que son compatibles. Si la respuesta es negativa, concluimos que los sucesos
son incompatibles o mutuamente excluyentes.
Cuando una lista de los eventos que pueden resultar de un experimento incluye todos
los resultados posibles, se dice que es colectivamente exhaustiva.
Distintos enfoques en la definición de probabilidad
Enfoque clásico o "a priorí"

La probabilidad clásica define la probabilidad de que un evento
o suceso ocurra como:
N° de resultados favorables al evento
Probabilidad de un suceso = —————————————————————————
N° total de resultados posibles igualmente probables
Ésta también se conoce como la definición de Laplace.

Debemos recalcar que, a fin de que sea válida la fórmula anterior, cada uno de los
resultados posibles debe tener la misma probabilidad y ser sucesos mutuamente
excluyentes.
Decimos que es “a priori” porque no es necesario que realicemos experimentos para
hacer nuestras afirmaciones de probabilidad sino que, por el contrario, hallamos las
probabilidades basándonos en el razonamiento lógico, antes de efectuar el
experimento.
El enfoque clásico supone un mundo que no existe en la realidad; descarta situaciones
que son muy poco probables pero que podrían presentarse.
Enfoque de frecuencia relativa o "a posteriorí"

Define la probabilidad como la proporción de las veces que un evento sucede a la
larga, cuando las condiciones son estables.
Este método utiliza, como probabilidades, las frecuencias relativas de ocurrencias
pasadas: determinamos la frecuencia con que algo ha sucedido en el pasado y,
mediante esa cifra, predecimos la probabilidad de que vuelva a suceder en el futuro.
Vemos que el nombre de probabilidad a posteriori, que también se le da, tiene su
explicación porque en este enfoque necesitamos la experimentación previa para poder
determinar el valor de la probabilidad de un evento.
Así pues, cuando usamos la frecuencia relativa para establecer las probabilidades, la
cifra de éstas será más exacta a medida que aumentemos el número de
observaciones.
Resumen
Podemos decir: para un suceso cualquiera A, si llamamos con f (A) a la cantidad de

veces que ocurre A en n pruebas repetidas de un experimento E, la probabilidad de A
será:
f ( A)
P ( A) = lim
n �� n
Este límite es "límite en probabilidad" y significa que debemos hallar el resultado del
cociente f(A) / n cuando el número de pruebas u observaciones es lo más grande
posible.
Enfoque subjetivo
Las probabilidades subjetivas se basan en las creencias e ideas del que realiza la
evaluación de las mismas. En efecto, podemos definir la probabilidad subjetiva como
aquella que un individuo asigna a un evento, basándose en la evidencia disponible.
Las asignaciones de probabilidad subjetiva se dan frecuentemente cuando los eventos
ocurren una sola vez y, a lo máximo, unas cuantas veces.
Las decisiones sociales y administrativas de nivel superior se ocupan de situaciones
específicas y singulares, y no de una larga serie de situaciones idénticas, por lo cual,
en este nivel, los ejecutivos se apoyan constantemente en las probabilidades
subjetivas.
Enfoque axiomático
Sea un experimento aleatorio E, S el espacio muestral asociado con él y A un suceso

cualquiera de S, la probabilidad de A, que simbolizamos P(A), es un número real que
cumple con los siguientes axiomas:
 Axioma de probabilidad 1: O =P(A) = 1
 Axioma de probabilidad 2: P(S) = 1
 Axioma de probabilidad 3: Si A y B son dos sucesos mutuamente excluyentes,
entonces P(A u fi) = P(A) + P(B).
 Axioma de probabilidad 4: Si A1, A2, ..., Ai, ..., son sucesos mutuamente
excluyentes, entonces P(ui=1°°A) = P(A¿ + P(AZ) + ... + P(A) + ...
Algunas probabilidades especiales

La mayor parte de los gerentes que utilizan las probabilidades se interesan en dos
situaciones:
a) caso en que ocurra uno u otro evento.
b) La situación donde ocurran dos o más eventos.
Algunos símbolos, definiciones y reglas de uso común
Diagramas de Venn
En estos diagramas, el espacio muestral se representa íntegramente por medio de un
rectángulo y los eventos o sucesos se representan con las partes del mismo. Si dos
eventos son mutuamente excluyentes, sus partes del rectángulo no se superpondrán,
según se aprecia en la figura (a). Si dos eventos son no mutuamente excluyentes, sus
partes del rectángulo se superpondrán, como se observa en la figura (b).
Resumen
Probabilidad del suceso contrario

Con A simbolizaremos al suceso contrario de A, es decir, aquel que consiste en que no
ocurra el suceso A. Luego: P ( A) = 1 - P ( A)
P( A) + P( A) = P( S ) = 1
Probabilidad del suceso imposible

La probabilidad del suceso imposible es igual a O, es decir:
P (�) = 0 , o bien: si A = � " P(A) = O (la recíproca es falsa).
Probabilidad de un suceso contenido en otro
(En B todos los de A mas otros)
Si un suceso A está contenido en otro suceso B, luego la probabilidad de A es menor o
igual que la probabilidad de B. Es decir: Si A � B, luego P(A) �P(B)
Tengamos presente que, al contener el suceso B al suceso A, el suceso B está
constituido por todos los puntos muestrales de A y otros que le son propios.
Regla de adición para eventos no mutuamente excluyentes o compatibles

Si dos eventos son no mutuamente excluyentes, es posible que ambos ocurran juntos.
Probabilidad de que ocurran juntos:
P ( A �B) = P( A + B) = P ( AoB) = P( A) + P( B) - P( A �B)
Probabilidad condicional e independencia
Probabilidad condicional
P(A/B) se lee “A dado B” o “A condicional B”
Deberíamos saber si el suceso A ocurrió o no. Este ejemplo indica la necesidad de
presentar el siguiente concepto importante:
Sean A y B dos sucesos asociados con un experimento E, indiquemos con P(B/A) a la
probabilidad condicional del suceso B dado que A ha ocurrido.
Resumen
Cada vez que calculamos P(B/A), estamos esencialmente calculando P(B) con
respecto al espacio muestral reducido de A, en vez del espacio muestral original S.
Consideremos el diagrama de Venn de la figura anterior. Cuando calculamos P(B), nos
preguntamos qué tan probable es que estemos en B, sabiendo que debemos estar en
S y, cuando evaluamos P(B/A), nos preguntamos qué tan probable es que estemos en
6, sabiendo que debemos estar en A. Esto es, el espacio muestral se ha reducido de S
a A.
Para calcularlo
P ( A �B) P ( A �B)
P( A / B) = Y P ( B / A) = . Se diferencia que P(A/B) es distinto a
P ( B) P ( A)
P(B/A).
Si A y B son sucesos aleatorios, deseamos definir un cierto valor que permita

determinar la probabilidad condicional del evento A dada previamente la ocurrencia del
suceso B: P(A/B). Dado el conocimiento de que B ocurrió, A sólo puede ocurrir
juntamente con B. Parece razonable definir la probabilidad condicional proporcional a
P(AB) y, teniendo en cuenta que P(B/B) = 1 , podemos establecer la siguiente
definición:
Dados dos sucesos, siendo ninguno de ellos el suceso imposible, se define la
probabilidad de ocurrencia del suceso A sujeta a la previa aparición del suceso B como:
P ( AB )
P ( A / B) = con P ( B ) �0
P( B)
La fórmula de probabilidad condicional admite ser generalizada a n sucesos, aleatorios.
Por ejemplo, para n = 3 resulta:
P ( A1 A2 A3 )
P ( A3 / A1 , A2 ) =
P ( A1 A2 )
Para n sucesos se deduce que:
P ( A1 A 2 ... An ) = P ( A1 ) * P( A2 / A1 )* P( A3 / A2 A1 ) *...* P ( An / A1... An -1 )
Esta fórmula se la conoce bajo el nombre de ley del producto o ley multiplicativa.
Sucesos independientes
Dados los sucesos aleatorios referidos al mismo espacio muestral, ninguno de los
cuales es el evento imposible diremos que son independientes si se verifica alguna de
estas condiciones:
P(A/B) = P(A) o P(B/A) = P(B)
En consecuencia, la aparición de uno de ellos es independiente de la presencia o
ausencia del otro.
Cuando los sucesos son independientes, la ley del producto toma la forma: P(AB) =
P(A) * P(B)
Resumen:
Luego, si dos sucesos son mutuamente excluyentes, la probabilidad de la alternativa es
la suma de las probabilidades. Si dos sucesos son independientes, la probabilidad de la
aparición simultanea es el producto de las probabilidades: P(AB)=P(A) * P(B)
Teorema
Dados dos sucesos aleatorios A y B referidos a un mismo experimento, si ambos son
independientes, entonces no son mutuamente excluyentes.
Demostración:
Para que A y B sean mutuamente excluyentes, se debería verificar que P(AB) = 0.Pero
P(AB) = P(A) * P(B), pues ambos son independientes. Dicho producto valdrá cero si
Resumen
alguno (o ambos sucesos) es el suceso imposible, en cuyo caso carece de sentido

hablar de independencia. Luego P(AB) �0, lo que implica que ambos sucesos no son
mutuamente excluyentes.
Partición del espacio muestral

Decimos que los sucesos A1,A2, ..., Ak representan una partición del espacio muestral S
si:
a) Ai �Aj = �; "i �j
b) �i =1 Ai = S
k
c) P ( Ai ) > 0; "i
En otras palabras, cuando se efectúa el experimento E, ocurre uno y sólo uno de los
sucesos Ai. También se suele decir que los sucesos Ai completan el espacio muestral S.
Teorema de Bayes
Planteemos la siguiente situación en un proceso de producción. Tres máquinas, A1 , A2

y A3, producen un mismo tipo de pieza mecánica. El ingeniero de Control de Calidad
sabe, por experiencia, cuál es la proporción de piezas que pueden resultar defectuosas
por día. Las piezas que producen las tres máquinas se depositan en un lugar común y
ahí se mezclan. Al final de cada jornada laboral, se prueba una muestra de piezas para
verificar si la proporción de defectuosas está dentro de la tolerancia. (Los ensayos son
de tipo destructivo.) Cierto día, se observa un porcentaje de defectuosas superior a la
tolerancia; se sospecha que alguna de las máquinas está fallando. Revisar una
máquina implica pararla y desarmarla, lo cual lleva consigo un costo para la fábrica,
tanto porque se para la producción de esa máquina como porque, además, revisarla
tiene un costo. Luego, sería importante conocer cuál de las tres máquinas es más
probable que esté fallando.
Describamos cuáles son los sucesos:
A1 "la pieza es producida por la máquina 1"
B: "la pieza producida es defectuosa"
Luego, habiéndose observado pieza defectuosa, nos preguntamos: "¿cuál es la
probabilidad de que la haya producido la máquina 1 , la 2 o la 3?. En símbolos,
queremos hallar: PíAJB), P(AJB) y P(A3/B).
Resumen
La idea de obtener tas posibilidades posteriores (a posteriori), con limitada información

disponible, se atribuye al reverendo Thomas Bayes, y a la fórmula básica de la
probabilidad condicional bajo dependencia se le llama teorema de Bayes.
El teorema de Bayes ofrece un poderoso método estadístico para evaluar nueva
información y revisar nuestras estimaciones precedentes (basadas en escasa
información solamente) sobre la probabilidad de que las cosas se hallen en uno u otro
estado. Si se usa correctamente, el teorema hace innecesario reunir grandes
cantidades de datos durante largos períodos a fin de tomar decisiones basadas en las
probabilidades.
Sean los sucesos A1, ...A2, An una partición del espacio muestral S (o sea, dos de ellos
no pueden ocurrir simultáneamente, pero uno de ellos debe ocurrir) y sea B un suceso
aleatorio en S.
Luego, P(B) = P(B/A1) * P(A1) + ... + P(B/An) * P(An) por la fórmula de probabilidad total.
Este teorema es conocido bajo el nombre de fórmula de Bayes. Las probabilidades
P(B/Ai) y P(Ai) reciben el nombre de probabilidades a priori o previas ya que,
generalmente, se pueden conocer antes de que obtengamos información alguna del
experimento mismo. A menudo, dichas probabilidades son arbitrarias y/o subjetivas.
Las probabilidades P(A/B) se llaman probabilidades a posteriori porque se determinan
después de que se conocen los resultados del experimento.
Retomamos nuestro ejemplo introductorio. Se conocen las proporciones de piezas que
produce cada máquina, es decir, sabemos que: P(A 1) = 0,30, P(A2) = 0,45 y P(A3) =
0,25
Además, el ingeniero sabe, por experiencia y por conocimiento de las características de
cada máquina, la probabilidad de pieza defectuosa de cada una. Es decir: P(B/A 1) =
0,02, P(B/A2) = 0,04 y P(B/A3) = 0,03
Luego, aplicando la formula de Bayes obtenemos:

P ( A1 ) * P( B / A1 )
P ( A1 / B) = 3
�P( Aj ) * P( B / Aj )
J =1
0, 02*0,30
= @ 0,19
0, 02*0,30 + 0, 04*0, 45 + 0, 03*0, 25
Análogamente: P ( A2 / B) @ 0,57 y P ( A3 / B ) @ 0, 24 . Luego concluimos que es más
probable que la máquina 2 haya producido pieza defectuosa, por lo que comenzaremos
revisando esta máquina. Observemos que:
P( A / B1 ) + P( A / B2 ) + P( A / B3 ) = 0,19 + 0,57 + 0, 24 = 1
4. VARIABLES ALEATORIAS UNIDIMENSIONALES

Variables aleatorias y distribuciones de probabilidad
Concepto de variable aleatoria

Una variable aleatoria es una función que asocia a cada elemento del espacio muestral
un número real.
Una variable aleatoria se llama variable aleatoria discreta si se puede contar o
enumerar su conjunto de resultados posibles. Cuando una variable aleatoria puede
tomar valores en una escala continua, se le llama variable aleatoria continua.
Resumen
Experimento aleatorio
Término que se utiliza para describir cualquier proceso mediante el cual se generan
varias observaciones al azar.
Espacio muestral
En el que se consideran cada uno de los posibles resultados, por ejemplo cuando se
verifican tres componentes electrónicos, puede escribirse: S =
{NNN.NND,NDN,DNN,NDD,DND,DDN,DDD} donde N significa "no defectuoso" y D
"defectuoso".
Si un espacio muestral contiene un número finito de posibilidades, o una infinita
numerable, se le llama espacio muestral discreto.
Si un espacio muestral contiene un número infinito de posibilidades igual al número de
puntos en un segmento de recta, se le llama espacio muestral continuo.
Ejemplo:
Sea el experimento aleatorio E = arrojar dos monedas al aire. El espacio muestral
asociado es:
S = {(C,C), (C,S), (S,C), (S,S)}
Definimos la variable aleatoria X como el número de caras que se obtienen. Luego, los
posibles valores de X son; O, 1 y 2. A éstos los llamaremos el rango de /a va-riable
aleatoria X: R,= {0,1,2}
Distribuciones discretas de probabilidad

Una variable aleatoria discreta asume cada uno de sus valores con una cierta
probabilidad. Al conjunto de los posibles valores y las respectivas probabilidades de
una variable aleatoria discreta se te llama distribución de probabilidad, es decir la
distribución de probabilidad de la v.a. X es el conjunto de pares ordenados (x,f(x)). A la
función f(x) se le llama función de probabilidad o función de cuantía.
Definición
El conjunto de pares ordenados (x,f(x)) es una distribución de probabilidad de la
variable aleatoria discreta X si se cumple:
a) f ( x ) �0"x (Condición de no negatividad.)
b) �f ( x) = 1 (Condición de cierre.)
No cualquier función que se dé será una función de probabilidad. Para que io sea, debe
cumplir con las condiciones a) y b), es decir, debe cumplir la condición de no
negatividad y la condición de cierre.
Función de distribución o de probabilidades acumuladas

Hay muchos problemas en los cuales se desea calcular la probabilidad de que el valor
observado de una variable aleatoria X sea menor que o igual a algún número real x. Si
se escribe F ( x) = P ( X �x ) para cada número real x, se define que F(x) es la función de
distribución o de probabilidades acumuladas de la variable aleatoria X.
Definición
La función de distribución o de probabilidades acumuladas F(x) de una variable
aleatoria discreta X, cuya distribución de probabilidad es f(x), es:
Resumen
F ( x) = P ( X �x) = �f (t ) -�< x< �

t �x
Debe notarse, en forma muy particular, el hecho de que la distribución acumulada se

define no sólo para los valores que asume la variable aleatoria dada, sino para todos
los números reales.
Distribuciones continuas de probabilidad

Cualquier valor del intervalo.
Una variable aleatoria continua tiene una probabilidad cero de asumir cualquiera de sus
valores exactamente. Consecuentemente, su distribución de probabilidad no puede
darse en forma tabular. Por ejemplo, en las alturas de las personas, de 1,69 m a 1,71 m
hay infinitos valores. No se representa como tabla pero sí puede tener una fórmula. La
misma, necesariamente, debe ser una función de los valores numéricos de la variable
continua X y, como tal será expresada por la notación funcional f(x). Al tratar con
variables continuas, f(x) por lo general se llama función de densidad de probabilidad
(f.d.p.) o, simplemente, función de densidad de X.
Una función de densidad de probabilidad se construye de tal manera que el área
comprendida bajo su curva es igual a 1.
+�
� f ( x)dx = 1
-�
La probabilidad de que X asuma un valor entre a y b es igual al área sombreada bajo la

función de densidad, entre las ordenadas x = a y x = b y, utilizando el cálculo integral,
esta área está dada por:
b
P (a < X < b) �f ( x)dx
a
Función de densidad de probabilidad
La función f(x) es una función de densidad de probabilidad para la variable aleatoria
continua X, definida en el conjunto de los números reales, si:
a) f ( x) �0" �R
+�
b) � f ( x)dx = 1
-�
b
c) P (a < X < b) = �f ( x)dx f(x)dx , si x es V.A.C.
a
Vernos que, para un valor particular de la variable x0, P(X = x 0) = 0. pues no existe
intervalo de integración.

La función de distribución o de probabilidades acumuladas F(x) de una variable
aleatoria continua X, con una función de densidad f(x), es:
x
F ( x) = P ( X �x) = �f (t )dt -�< x < �
-�
Como una consecuencia inmediata de la definición, se pueden escribir los dos
resultados siguientes:
Resumen
a) P(a �X �b) = P(a < X < b) = F(b) - F(a)

b) f(x) = dF(x) / dx ; si la derivada existe
Principales valores característicos de una variable aleatoria

Suponemos que conocemos a toda la población.
Valor esperado o esperanza matemática de una variable aleatoria

Para obtener el valor esperado de una variable aleatoria discreta, multiplicamos cada
valor que ésta puede asumir por la probabilidad de ocurrencia de ese valor, y luego
sumarnos los productos.
Definición:
Sea X una variable aleatoria cualquiera, simbolizaremos con E ( x) = m al valor
esperado o esperanza matemática de X:
Observación: Para una V.A. X usaremos p(x) o f(x) para designar a la función de
probabilidad o función de cuantía de X.
Podemos decir, entonces, que la media aritmética tiende a la esperanza matemática
cuando aumentamos el tamaño de la muestra, es decir, cuando nos vamos
aproximando al conocimiento de la población completa.
Variancia y desviación típica de una variable aleatoria

Variancia
Sea X una variable aleatoria, definamos la variancia de X, que se denota con V(X) o s x
2
, como sigue:
V ( X ) = E[ X - E ( X )]2
La raíz cuadrada positiva de V(X) se llama desviación estándar de X y se designa con
sx
sx = V (X )
Observaciones:
 El número V(X) está expresado en unidades cuadradas de X, Esto es, si X se
mide en hs, entonces V(X) está expresada en hs2. Ésta es una razón para
considerar la desviación estándar, ya que ésta se expresa en las mismas
unidades que X.
 Otra medida posible podría haber sido E|X - F(X)|. Por diferentes razones, una
de las cuales es que X2 es una función "con mejor comportamiento" que |X|, se
prefiere la variancia.
 Sí interpretamos a E(X) como el centro de una masa unitaria distribuida sobre
una recta, podemos interpretar a V(X) como el momento de inercia de esa masa
respecto a un eje perpendicular a través del centro de la misma.
 V(X), como se definió en la ecuación anterior, es un caso especial del concepto
más general siguiente: "el k-ésimo momento de la variable aleatoria X respecto a
su esperanza se define como m k = E[ X - E ( X )] ”. Evidentemente, para k = 2
k
obtenemos la variancia.
Resumen
Propiedades del valor esperado de una variable aleatoria

Propiedad 1:
Si X = C, donde C es una constante, entonces E(X)=C
Demostración:
+� +�
E ( X ) = �Cf ( x)dx = C � f ( x) dx = C . Algunas veces esta variable aleatoria se llama
-� -�
degenerada.
Propiedad 2:
Si Y = a + X, donde a es una constante, entonces E(Y) = a + E(X). Parecido a la media
aritmética.
Propiedad 3:
Supongamos que C es una constante y X es una variable aleatoria. Entonces,
E(C*X) = C*E(X). Parecido a la media aritmética.
Demostración:
+� +�
E (C * X ) = �Cxf ( x) dx = C �xf ( x)dx = C * E ( X )
-� -�
Propiedad 4:
Sean X e Y dos variables aleatorias cualesquiera, entonces E(X+Y) = E(X) + E(Y).
Observaciones:
 Combinando las propiedades 2, 3 y 4 observarnos el siguiente hecho importante:
si Y = a * X +b, donde a y b son constantes, entonces E(Y) = a * E(X) + b. En
palabras, la esperanza de una función lineal es esa misma función lineal de las
esperanzas. Esto no es cierto, a menos que esté implicada una función lineal, y
es un error común creer que sea de otro modo.
 En general, es difícil obtener expresiones para E(1/X) o E(X 1/2), por ejemplo, en
términos de 1/E(X) o [E(X)]1/2. Sin embargo, hay algunas desigualdades que son
muy fáciles de derivar.
Propiedad 5:
Sean X1,…, Xn variables aleatorias, entonces E(X1 + ... + Xn) = E(X1) + ... + E(Xn).
Definición previa 1: Dadas dos variables aleatorias discretas X e Y se define su

distribución conjunta por una tabla de contingencia (o tabla de probabilidades a doble
entrada) de la siguiente forma:
Donde pij = p ( xi �yi ) representa la probabilidad conjunta de los sucesos (X = x i) y (Y =

yi).
Definición previa 2: Dada la distribución conjunta de dos variables aleatorias discretas
X e Y, se dice que X e Y son variables aleatorias independientes si sólo si
pij = p ( xi �yi ) = p ( xi ). p ( yi ) , Para todo i, para todo j.
Propiedad 6:
Sean X e Y dos variables aleatorias independientes, entonces E(X*Y)=E(X)-E(Y).
Teorema
El cálculo de V(X) se simplifica usando:
V ( X ) = E ( X 2 ) - [ E ( X )]2
Resumen
Propiedades de la variancia de una variable aleatoria

Hay varias propiedades importantes, en parte análogas a las expuestas para la
esperanza de una variable aleatoria, que se mantienen para la variancia.
Propiedad 1:
Si X = C, donde C es una constante, luego V(X) = V(C) = 0.
Es bastante obvio que, si tenemos una constante, su variabilidad es nula.
Propiedad 2:
Si C es una constante, V(X+C) = V(X).
Demostración:
V(X+C) = E(X+C) – [E(X+C)]2 = E[(X+C)-E(X)-C]2 = E[X-E(X)]2 = V(X)
Propiedad 3:
Si C es una constante, V(C*X) = C * V(X).
Propiedad 4:
SI X e Y son dos variables aleatorias independientes, entonces V(X+Y) = =V(X} + V(Y).
Observación: es importante establecer que, en general, la variancia no es aditiva como
lo es el valor esperado. Con la suposición adicional de independencia, la aditividad de
variancias es válida. Además, la variancia no posee la propiedad de linealidad que
dimos para la esperanza, es decir: V(a*X+b) � a * V(X)+ b. En su lugar, tenemos
V(a*X+b) = a2* V(X).
Propiedad 5:
Sean X1, …, Xn n variables aleatorias independientes de dos a dos, entonces
V(X1+…+Xn) =V(X1)+…+V(Xn)
Desigualdad de Chebyshev
Si conocemos la distribución de probabilidades de una variable aleatoria (la f.d.p. en el
caso continuo o la probabilidad puntual en el caso discreto), podemos calcular E(X) y
V(X), si existen. Sin embargo, lo recíproco no es verdadero. Nunca la probabilidad va a
ser exacta, pero si en una cota inferior y en otra superior.
Sin embargo, resulta que, aunque no podemos evaluar tales probabilidades (a partir de
un conocimiento de E(X) y lV(X)), es posible dar una cota superior (o inferior} muy útil
para las mismas. Este resultado está contenido en lo que se conoce como la
desigualdad de Chebyshev.
Desigualdad de Chebyshev
Sea X una variable aleatoria con E ( X ) = m y sea k un número real cualquiera mayor o
igual que 1, entonces: P ( X - m �k *s ) �1/ k en forma equivalente:
2
P ( X - m < k *s ) �1 - 1/ k 2
Esta ultima forma indica, especialmente, cómo la variancia mide el "grado de
concentración" de probabilidad próxima a E ( X ) = m . Podemos expresarla en palabras
diciendo: dado un número k mayor o igual que 1 y un conjunto de n observaciones, al
menos (1 - 1/k2) .100 % de las observaciones caen dentro de k desviaciones
estándares de la media.
Esta desigualdad es válida tanto para una muestra como para una población. Cuando
se trabaja con una muestra aleatoria, se utiliza S en lugar de s y x en lugar de m . Si n
< 30, conviene utilizar S' en lugar de S.
5. DISTRIBUCIONES DE PROBABILIDAD DISCRETAS

Distribución discreta uniforme
Resumen
Es aquella en la cual la variable aleatoria asume cada uno de sus valores con idéntica
probabilidad. Es la más simple de todas las distribuciones discretas de probabilidad.
Teorema
La media y la variancia de la distribución uniforme discreta f(x) están dadas por:
k k
�xi y �( x - m )
i
2
m= i =1
s2 = i =1
k k
EI proceso aleatorio de Bernoulli

Por ejemplo, una línea de producción se prueban cada uno de los artículos para ver si
son defectuosos o no. Los intentos o ensayos repetidos son Independientes y la
probabilidad de éxito permanece constante. Este proceso se conoce como proceso de
Bernoulli. Cada intento se llama experimento de Bernoulll.
Propiedades
Estrictamente hablando, el proceso de Bernoulli debe tener las siguientes propiedades:
• El experimento consiste en un solo intento,
• Los resultados del intento pueden clasificarse como éxito o fracaso. Luego, la
distribución de probabilidad de la v.a. y (variable aleatoria de Bernoulli) se puede
presentar en forma tabular de la manera siguiente: Distribución de probabilidades de y:
y p(y) 0: fracaso; q: probabilidad de fracaso 1: éxito; p: probabilidad de éxito
Donde: p + q = 1, por lo tanto, q = 1 - p
0 q
1 p Esperanza y variancia de la variable aleatoria de Bemoulli
Esperanza matemática de y
E ( y ) = �y. p ( y ) = 0* q + 1* p = p
y�Ry
Variancia de y
V ( y ) = s y2 = E ( y 2 ) - [ E ( y )]2 = �y 2 p( y ) - p 2 = 02 * q + 1* p - p 2 = p - p 2 = p(1 - p) = p.q
V ( y ) = p.q
Desviación típica de y
D( y ) = s y = + V ( y ) = + p.q
Distribución binomial
El número X de éxitos en n experimentos de Bernoulli recibe el nombre de variable
aleatoria binomial, La distribución de probabilidad de esta variable aleatoria discreta se
llama distribución binomial y sus valores se representan por B(x;n,p), dado que estos
últimos dependen del número de intentos y de la probabilidad de éxito en un intento
determinado.
La función de probabilidad de la variable aleatoria binomial X, el número de éxitos en n
experimentos independientes, es:
P ( X = x) = ( nx ) p x .q n - x x=0,1,2,…,n.
Donde n es el número de observaciones, p es la probabilidad de éxito, q es la
probabilidad de fracaso y p + q = 1.
Las características del modelo binomial son:
• El experimento consiste en n intentos repetidos.
• Los resultados de cada uno de los intentos pueden clasificarse como éxito o como
fracaso,
• La probabilidad de éxito, representada por p, permanece constante para todos los
intentos.
• Los intentos repetidos son independientes.
Resumen
Por ejemplo, si n = 4 y p = 1/4, la distribución de probabilidad de X, es decir, el número

de artículos defectuosos que pueden obtenerse en una muestra de cuatro artículos,
puede escribirse corno:
P ( X ) = ( 4x )(1/ 4) x .(3 / 4) 4- x x = 0,1,2,3,4

x0
F ( xo ) = P( X �x0 ) = �p ( x)
0
Ésta se aplica en cualquier situación de tipo industrial donde se presentan las

características siguientes:
• El resultado de un proceso es dicotómico,
• Los resultados posibles son independientes, y
• La probabilidad de éxito es constante de una observación a otra.
Esperanza y variancia de la variable aleatoria binomial
Teorema
La esperanza matematica y la variancia de la distribución nominal estan dadas por:
E ( x) = m = p.q y V ( x) = s 2 = n. p.q
Asimetría de la distribución binomial

Es posible predecir la asimetría de toda distribución binomial en función del valor de
sus parámetros, especialmente, de la probabilidad de éxito p. Resulta:
a) Si p<1/2, n >30 entonces la distribución binomial será asimétrica a derecha.
b) Si p>1/2, n > 30 entonces tal distribución resultará asimétrica a izquierda.
c) Si p = 1/2, entonces esta distribución resulta simétrica, sin importar el tamaño de
muestra n.
Experimentos multinomiales
Si cada prueba u observación tiene más de 2 resultados posibles, entonces el
experimento binomial se convierte en un experimento multinomial.
Para derivar la fórmula general se procede como en el caso binomial. Dado que los
intentos son independientes, cualquier orden especificado que produzca x 1 resultados
x x x
para E1, x2 para E2, …, xk para Ek ocurrirá con una probabilidad p1 1 p2 2 ... pk k . El número
total de órdenes que producen resultados similares para los n intentos es igual al
número de particiones de n intentos en k grupos con x 1 en el primer grupo, x2 en el
segundo, ..., y xk en el grupo k. Esto puede realizarse en:
n!
( )
x1 , x2 ,..., xn =
n
x1 ! x2 !...xn !
maneras, Dado que todas las particiones son mutuamente excluyentes y ocurren con
igual probabilidad, se obtiene la distribución multinomial al multiplicar la probabilidad
para un orden especifico por el número total de particiones.
Distribución multinomial
Si en un experimento aleatorio determinado cada observación puede resultar en k
resultados distintos, con probabilidades p1, p2,..., pk respectivamente, entonces la
distribución de probabilidades de las v.a. x1, x2, ..., xk, que representan el número de
ocurrencias para los resultados en n observaciones independientes, viene dada por:
( )
p ( x1 , x2 ,..., xn ) = nx1 , x2 ,..., xn = p1x1 p2x2 ... pnxn
Resumen
Distribución hipergeométrica
El esquema del tipo de experimentos aleatorios donde se puede aplicar una
distribución hipergeométrica es similar al de la binomial. La diferencia radica en que en
la binomial las distintas observaciones eran independientes, mientras que en la
hipergeométrica son dependientes.
Las características de un experimento aleatorio donde se puede aplicar el modelo
hipergeométrico son las siguientes:
• La población posee N elementos, de los cuales N 1 son de una clase determinada y N2
son de otra clase, tal que N1 + N2 = N. Ambas clases son mutuamente excluyentes y
exhaustivas.
• Se extrae una muestra de n elementos sin reemplazo.
Luego, la función de probabilidad de la distribución hipergeométrica viene dada
P ( X = x ) N1 , N2 , N n =
( )( )
N1
x
N2
n-x
donde x = 0,1,2,...,n y N 1 + N2 = N
( )
N1 + N 2
n
Esperanza y variancia de la variable aleatoria hipergeométrica

Teorema
La esperanza matemática y la variancia de la distribución hipergeométrica están dadas
por:
N N - n N1 � N1 �
E ( x ) = m = n 1 y V ( x) = s 2 = n � 1- �
N N -1 N � N �
Distribución de Poisson
Se denominan experimentos de Poisson a aquellos que describen el comportamiento
de una variable aleatoria que representa el número de resultados observados, con una
determinada característica, durante un intervalo de tiempo dado o en una unidad de
espacio específica.
Un experimento de Poisson surge del proceso de Poisson y tiene las siguientes
características:
• El número de resultados que ocurren en un intervalo de tiempo o región específicos
es independiente del número que ocurre en cualquier otro intervalo disjunto de tiempo
o espacio. De esta manera, se dice que el proceso de Poisson no tiene memoria.
• La probabilidad de que un resultado sencillo ocurra en un intervalo de tiempo muy
corto o en una región pequeña es proporcional a la longitud del intervalo de tiempo o al
tamaño de la región, y no depende del número de resultados que ocurren fuera de este
intervalo o región.
• La probabilidad de que más de un resultado ocurra en ese intervalo de tiempo tan
corto o en esa región tan pequeña es despreciable.
El número X de resultados que ocurren en un experimento de Poisson se llama variable
aleatoria de Poisson y su distribución de probabilidad recibe el nombre de distribución
de Poisson.
Distribución de Poisson
La función de probabilidad de la variable aleatoria de Poisson X, que representa el
número de resultados que ocurren en un intervalo de tiempo dado o de espacio, es:
e - l t (l t ) x
p ( x; lt ) = x=0,1,2…
x!
Donde l es el número promedio de resultados por unidad de tiempo o espacio y e =
2.71828...
Resumen
Esperanza y variancia de la variable aleatoria de Poisson

Teorema
La media y la variancia de la distribución de Poisson tienen, ambas, el valor l
V (X ) = s 2 = l
E( X ) = l = V ( X ) = s 2 � s x = l
La distribución de Poisson como límite de la binomial

Cuando n � �, p � 0 y n.p permanece constante la distribución Binomial se aproxima
a la de Poisson. De aquí que, si n es grande y p es cercana a O, la distribución de
Poisson puede utilizarse con m = n. p para aproximar distribuciones binomiales. Si p es
cercana a 1, se puede utilizar la distribución de Poisson para aproximar a la distribución
binomial, intercambiando lo que se definió como un éxito por un fracaso, cambiando de
esta manera p por un valor cercano a 0.
Teorema
Sea X una variable aleatoria bínomial con distribución de probabilidad B(n,p). Cuando
n � �, p � 0 y m = n. p permanece constante: se aproxima a la de Poisson.
Aplicación de las distribuciones de probabilidad al muestreo de aceptación

En los problemas que vimos, donde se usaba la distribución binomial, la probabilidad'
de éxito p se suponía conocida. Imaginemos ahora que no se conoce p y, en base a
resultados muéstrales, se quieren hacer inferencias con respecto a p.
Supongamos que se reciben grandes lotes de artículos manufacturados, digamos lotes
de 500 artículos, y se desea rechazar y devolver al fabricante aquellos lotes que
contengan una proporción alta de artículos defectuosos. Digamos que el comprador
sólo aceptará lotes que no contengan una proporción mayor de p =
0.05 artículos defectuosos. Luego, siendo p la proporción de artículos defectuosos en el
lote:
Si p �0, 05  El lote es aceptado.
Si p > 0, 05  El lote es rechazado.
Luego, se determina un plan de muestreo que consiste en establecer un tamaño de
muestra n que será la cantidad de artículos que se inspeccionarán del lote. También se
selecciona de antemano un número a que representa el número de defectuosos que se
está dispuesto a aceptar. Siendo X el número de artículos defectuosos en la M n:
Si X �a  Se acepta el lote.
Si X > a  Se rechaza el lote y se devuelve al fabricante.
Los ingenieros de control de calidad caracterizan la bondad de un plan de muestreo
mediante el cálculo de la probabilidad de aceptar un lote para distintos valores de la
proporción de defectuosos. La representación gráfica del resultado se denomina curva
característica de operación del plan de muestreo.
Un buen plan de muestreo debe dar probabilidades altas de aceptar lotes con una baja
proporción de defectuosos y probabilidades bajas de aceptar lotes con una alta
proporción de defectuosos.
6. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS

Distribución uniforme o rectangular
Definición
Supongamos que X es una v.a. continua que toma todos los valores en el intervalo [a,
b], donde a y b son finitos. Si la función de densidad de probabilidad está dada por:
Resumen
�1 a ≤ x ≤ b, con a b
�
f ( x ) = �b - a
� Para cualquier otro valor
�0
Diremos que x está distribuida uniformemente en el [a, b].
Función de Densidad de Probabilidad
f(x) debe cumplir las siguientes condiciones para ser una función de densidad de
probabilidad:
a) f(x)≥0 "x �R
�
b) �f ( x)dx = 1
-�
� a+b � b 1
Si queremos calcular, por ejemplo, P �x �
�
�hacemos:
2 � � b - a dx = 1/ 2
a +b
2
a y b son los extremos de los intervalos.
Función de Distribución
x-a
F ( x) = (después de integrar)
b-a
�0 X<a
�x - a
�
\ f ( x) = � Esperanza
a = x = b y Varíancia
�b - a
�
�1 x>b
a+b
E ( x) =
2
( a - b) 2
V (X ) =
12
Distribución normal o de Gauss
Es la distribución más importante en la Estadística. Esto se debe, principalmente, a las
siguientes razones:
a) La distribución normal constituye una muy buena aproximación de otras
distribuciones de probabilidad discretas y continuas.
b) Muchas variables que se observan en la vida diaria siguen una distribución normal,
Podemos citar: el peso, la estatura, el cociente intelectual de las personas.
c) Independientemente de la distribución de probabilidades que tenga una población, si
extraemos muestras aleatorias y hallamos luego la distribución muestral de los
estadísticos, muchos de ellos serán normales.
Función de Densidad de Probabilidad

Si x �R y tiene una distribución normal, su f.d.p. es la siguiente:
Resumen
2
1 �x - m �
1 - � �
f ( x) = e 2�s �
s 2p
La notación x ~ N (μ,σ) se lee: "x es una v.a. normal con esperanza μ y desviación
típica σ ". m �R y s �R +
Recordemos también que, para una v.a. continua, las probabilidades se calculaban
integrando la función de densidad de probabilidad en el intervalo de interés, es decir:
P ( x �[ a, b ] ) = P (a �x �b) = �f ( x )dx
b
a
En el caso de la distribución normal:
2 2
1 �x - m � 1 �x - m �
b 1 - � � 1 b - � �
� �e
2�s 2�s �
e �
dx = dx
a
s 2p s 2p a
Estos valores se encuentran en la tabla de probabilidades normales del apéndice
Algunas características de la distribución normal:

• Toda el área bajo la curva es igual a 1. Esto es obvio si pensamos que, por ser
una f.d.p., la ley normal o de Gauss verifica las condiciones de la misma, que según
ya vimos eran:
a) Condición de no negatividad: f(x)≥0 "x �R
�
b) Condición de cierre: �f ( x)dx = 1
-�
Esta última condición es la que nos permite afirmar que el área bajo la curva es igual a
1.
• La distribución tiene forma de campana simétrica, por eso vulgarmente se habla de
"campana de Gauss". El punto máximo es la ordenada de μ, que además coincide con
la mediana y con el modo, por tratarse de una distribución simétrica,
• El eje x es asíntota de la curva, es decir, a partir de μ la curva se extiende inde-
finidamente hacia la izquierda y hacia la derecha, tendiendo al eje x pero sin tocarlo
nunca. En la práctica, a una distancia 3σ de μ (hacia la derecha y hacia la izquierda), el
valor de f (x) es muy próximo a 0.
• El eje de simetría de la curva es x = μ (es decir, la vertical que pasa por μ).
• Los valores de μ y σ determinan, respectivamente, la ubicación de la curva sobre el
eje x y la forma de la misma.
• La curva tiene sus puntos de inflexión en x = μ ± σ; es cóncava hacia abajo si μ - σ
< x < μ + σ y es cóncava hacia arriba en cualquier otro punto.
Distribución normal típica o estándar
Sea z una v.a. normal tipificada o estandarizada, la f.d.p. de z es:
1
1 - z2
f ( x) = e 2 ; z �R
s 2p
2
1 �x - m � 1
1 - � � 1 - z2
Para hacer el traspazo de: f ( x) = e 2 �s � a f ( x) = e 2 se
s 2p s 2p
usa:
Si X ~N(μ;σ) Z~N(0;1)
Resumen
E (z) = 0 y V(Z)=1
A esta transformación a veces se la llama proceso de tipificación de la variable

Las tablas son para Z, donde Z(0;1), si es otro distinto hay que hacer la
transformación para poder usarlas
Todos los valores x entre xt y x2 de la primera distribución tienen sus correspondientes
valores z entre z, y z2 en la segunda distribución. Por lo tanto, las áreas sombreadas
son equivalentes. Luego, con una so!a tabla (la de la distribución normal típica)
resolvemos nuestro problema de cálculo de probabilidades.
Ejemplo de Uso de la Tabla
Reproducimos una parte de la tabla P (Z ≤ z1)
z 0,00 0,01 0.02 0.03

0.0 0.1 0.2 0,3 0.6985
0.4 0.5
Gráficamente:
Veremos cuatro casos:

Caso 1: En una distribución normal típica, encontrar probabilidades para determinados
valores de la variable.
Caso 2: En una distribución normal típica, encontrar valores de la variable para
determinadas probabilidades,
Caso 3: En una distribución normal cualquiera, encontrar probabilidades para
determinados valores de la variable,
Caso 4: En una distribución normal cualquiera, encontrar valores de la variable para
determinadas probabilidades.
LOS EJEMPLOS DE LOS CASOS ESTAN EN EL LIBRO PAGINAS 174 A 177
Propiedades
a) Linealidad: Si x ~ N (μ;σ) y tenemos, además, una v.a, y = a * x + b, luego: y ~ N (a
* μ + b , a * σ).
b) Reproductividad: Si x1 ~ N (μ1;σ1) y x2 ~ N (μ2;σ2), y x1 y x2 son variables
(
independientes entonces y=x1+ x2 resulta con distribución: y ~ N m1 + m2 ; s 1 + s 2
2 2
)
Aproximación de la distribución binomial a la normal
Resumen
Al aumentar el tamaño de la muestra, la distribución binomial se acerca a la forma lisa y

acampanada. Si X es aproximadamente normal, su valor se puede transformar en un
valor de Z aplicando la fórmula:
X - n. p
Z= Corrección de continuidad: por ejemplo, P (X = 3) = 0. Por lo tanto, en este
n. p.q
caso deberá cambiarse por P (2.5 ≤ X' ≤ 3.5), o sea, que la probabilidad de que la
variable binomial sea 3 es equivalente a la probabilidad de que la variable aleatoria
continua esté entre 2,5 y 3.5,P (a ≤ X ≤ b) s P (a - 0.5 ≤ X´≤ b + 0.5), donde X´es una
variable normal transformada.
Vamos a ver ahora cómo la aproximación de la binomial a la normal es mejor a medida
que n crece. Supongamos que x ~ B (10,0.5) y se desea hallar la P (2 ≤ x ≤4) = 0.0439
+ 0.1172 + 0.2051 = 0.3662. Para la aproximación normal de la binomial debemos
primero hacer la corrección de continuidad: P (2 ≤x ≤ 4) = P (2 - 0.5 ≤ x' ≤ 4 + 0.5)
Entonces, si x ~ B (10,0,5):
E(x)=n.p = 10*0.5 = 5
s ( x) = n. p.q = 2,5 = 1,58
X - n. p 1,5 - 5 4,5 - 5
Z= � Z1 = = -2, 22 y Z 2 = = -0,32
n. p.q 1,58 1,58
P (-2.22 ≤ z ≤ -0,32) = 0,3745 -0,0132 = 0,3613

En general, a medida que aumenta el tamaño de n la aproximación resulta mejor, es
decir, los valores de probabilidad que se obtienen con la aproximación son más
cercanos a los valores que resultan de aplicar directamente la distribución binomial
Distribución exponencial
Definición
Se dice que una variable aleatoria continua X que toma todos los valores no i
negativos tiene una distribución exponencial con parámetro a > 0 si su f.d.p. está dada
por:
X>0 �a.e - ax
f ( x ) = � valor
Para cualquier otro
�0
Representación Gráfica
�
Se puede probar que: �f ( X )dx = 1
0
La distribución exponencial desempeña un papel importante en la descripción de una

gran clase de fenómenos, especialmente en el área de la teoría de la confiabilidad de
equipos electromecánicos.
Función de Distribución
X≤0 �
��
X
f (t )dt = 1 - e -a X
f ( x) = �0
�
�0 Resumen
Para cualquier otro valor

Esperanza y variancia
E ( X ) = 1/ a V ( X ) = 1/ a 2
La distribución exponencial tiene una propiedad importante. Considerando cualesquiera
u, v > 0, tenemos:
P ( X > u + v ) e -a ( u + v )
Por lo tanto: P( X > u + v / X > u ) = = -a u = e -a v
P( X > u ) e
P( X > u + v / X > u ) = P( X > v)
Generalmente, a las distribuciones que cumplen con esta propiedad se les dice que "no
tienen memoria".En otras palabras, la información de ningún éxito es "olvidada" en lo
que se refierea cálculos subsecuentes
Distribución chi-cuadrado
Definición
Una variable aleatoria continua X tiene una distribución chi-cuadrado, con v grados de
libertad, si su función de densidad es la siguiente:
X≤0 � 1
�v/2 X v / 2-1e- x / 2
f ( x) = �2 G(v / 2)
Para cualquier otro caso
�0
�
Donde v es un entero positivo y dónde G(v / 2) es el valor de la función gamma para

v/2, estando la función gamma definida por:
�
G=�t v -1e -t dt
0
Con v>o
Esta distribución juega un papel vital en la Inferencia estadística
La media
m =v
La variancia
s 2 = 2v
Distribución t de Student
La mayoría de las veces no se tiene la suerte suficiente como para conocer la variancia
de la población de la cual se seleccionan las muestras aleatorias. Para muestras de
tamaño n > 30, se proporciona una buena estimación de a 2 al calcular
(
un valor de S2. ¿Qué le ocurre entonces al estadístico ( X - m ) / s / n del Teorema )
Central del Límite si se reemplaza σ2 por S2?
Si el tamaño muestral es pequeño, los valores de S 2 fluctúan considerablemente de
muestra en muestra y la distribución de la variable aleatoria ( X - m ) / S / n se desvía( )
Resumen
en forma apreciable de una distribución normal estándar. Ahora se está tratando con la
distribución de un estadístico que recibe el nombre de T, donde: para n<30
Al derivar la distribución muestral de T, se asumirá que la muestra aleatoria se

seleccionó de una población normal. Se puede expresar entonces:
( X - m) /(s / n) Z T=
X -m
T= = S/ n
S2 /s 2 V /( n - 1)
X -m
Donde Z es: Z =
s/ n
Tiene la distribución normal estándart y
(n - 1) S 2
V=
s2
tiene una distribución chi-cuadrado con v = n -1 grados de libertad. Ai muestrear
poblaciones normales, puede demostrarse que X x y S2 son independientes y, en
consecuencia, lo son Z y V.
Valores característicos
E(tn-1) = 0 para n>1
V(tn-1) = n/(n-2), para n>2.
Obsérvese que si n < 1 la distribución T-Student carece de esperanza matemática, y si
n < 2, carece de varianza.
Teorema
Sea Z una variable aleatoria normal estándar y V una variable aleatoria chi-cuadrado
con v grados de libertad. Si Z y V son independientes, entonces la distribución de la
variable aleatoria T, donde:
Z
T=
V /v
está dada por;
G [ (v + 1) / 2] � t 2 �
- ( v +1) / 2
h(t ) = 1+ �
� -�< t < �
G(v / 2) p v � v �
y se conoce como distribución t con v grados de libertad.
Los grados de libertad como una medición de la información muestral

Se sabe que, cuando una muestra aleatoria se toma de una distribución normal, la
variable aleatoria:
n
( X i - m )2
�
i =1 s2
Tiene una distribución x2 con n grados de libertad. Es muy simple observar que, en las
mismas condiciones, la variable aleatoria:
(n - 1) S 2 n
( xi - x ) 2
=�
s2 i =1 s2
Tiene una distribución c2 con n -1 grados de libertad. Se puede indicar que, cuando m
no se conoce y se considera la distribución de:
Resumen
n
( xi - x )2
�
i =1 s2
Existe un grado de libertad menos, o se pierde un grado de libertad en la estimación de
μ (es decir, cuando μ es reemplazada por x ). Cuando los datos (los valores en la
muestra) se utilizan para calcular la media, hay 1 grado de libertad menos en la
información utilizada para estimar σ2.
Aproximaciones entre distribuciones continuas

1 Aproximación de la distribución T-Student por la distribución Normal: si n>30 se
cumple que tn-1 se distribuye aproximadamente como una normal típica Z
2 Aproximación de la distribución Chi-cuadrado por la distribución Normal:
a) Para cálculos de probabilidades: si n>30 se cumple que la distribución Chi-cuadrado
con n-1 grados de libertad se distribuye aproximadamente como una normal con
esperanza matemática n-1 y desvío standard [2.(n-1)] 1/2
b) Para cálculos de percentiles: si n>30 el percentil p de la distribución Chi-cuadrado
con n-1 grados de libertad se puede aproximar por la expresión 1/2.[z p + (2.n-3)1/2]2.
7. DISTRIBUCIONES EN EL MUESTREO
El muestreo estadístico
El muestreo estadístico es un enfoque sistemático para seleccionar unos cuantos
elementos (una muestra) de un grupo de datos (una población), a fin de hacer algunas
inferencias sobre el total.
Razones del muestreo

Probar el producto íntegramente lo destruye a menudo, además de ser innecesario.
Para averiguar las características de un todo, basta muestrear una parte de él.
Podemos mencionar entre las principales razones para realizar el muestreo a las
siguientes:
a)Ensayos de tipo destructivo.
b)Imposibilidad de conocer todas las unidades elementales que componen la
población.
c)Tiempo que insume analizar la población completa cuando su tamaño es muy
grande.
d)Alto costo que a veces implica relevar los datos.
Censo y muestra
En ocasiones, es posible y práctico examinar a todas las personas o miembros de la
población que deseamos describir. A esto lo llamamos enumeración comple-
ta o censo. Recurrimos al muestreo cuando no es posible contar o medir cada ele-
mento de la población. Los estadísticos usan la palabra "población" para designar no
sólo a las personas, sino a todos los elementos, que han sido escogidos para ser
estudiados.
Estadísticos y parámetros
Desde el punto de vista matemático, podemos describir las muestras y poblaciones
mediante medidas como la media, la mediana, el modo y la desviación estándar.
Cuando estos términos describen las características de una muestra, se les llama
estadísticos. Cuando describen las características de una población, reciben el nombre
de parámetros. El estadístico es una característica de la muestra; el parámetro es una
característica de la población.
Resumen
Para ser Población: P Muestra: M

Definición Grupo de elementos Parte o porción de la
que van a ser población seleccionada
Medidas "Parámetros" "Estadísticos"
característica
Símbolos Tamaño de la Tamaño de la muestra: n
población: N Media Media muestral: x
poblacional:µ Desviación estándar de la
Desviación estándar muestra: S
Muestreo de juicio y muestreo probabilístico

Se dispone de dos métodos para seleccionar las muestras de poblaciones: muestreo
no aleatorio o de juicio y muestreo aleatorio o probabilístico. En el muestreo
probabilístico, todos los elementos de la población tienen posibilidad de figurar en la
muestra. En el muestreo de juicio, se usan el conocimiento y la opinión personal para
identificar los elementos de la población que van a incluirse en la muestra.
Una muestra seleccionada por muestreo de juicio se basa en el conocimiento de la
población por parte de alguien. Por ejemplo, un analista económico sabrá, por
experiencia, qué acciones deben tenerse en cuenta para conocer el movimiento de las
tasas de inversión en el mundo. En ocasiones, el muestreo de juicio sirve de muestra
piloto para decidir cómo seleccionar después una muestra aleatoria. Nos ahorra,
además, el análisis estadístico que es indispensable efectuar para tomar muestras
probabilísticas. El muestreo de juicio es más adecuado y da buenos resultados, aun
cuando no sea posible medir su validez. Pero, si en un estudio se aplica este método y
se pierde un grado significativo de "representatividad", habrá que pagar un alto precio
por la comodidad. Puede decirse que una gran ventaja del muestreo aleatorio es que
permite aplicar métodos de Inferencia estadística a los datos, mientras que el muestreo
de juicio no lo permiten.
Generalmente, una muestra pequeña no arroja buenos resultados
No podemos estar seguros sin más información completa o sin una investigación
realizada basándonos en encuestas estadísticamente bien realizadas. Sin embargo, sí
podemos estar alertas ante el riesgo que corremos cuando no pedimos información
complementaria. La persona que conoce el problema del muestreo estadístico puede
estar alerta para no dejarse convencer rápidamente y solicitar más información.
Distintos tipos de muestreo aleatorio
Muestreo aleatorio simple
En el muestreo aleatorio simple, se seleccionan las muestras mediante métodos que

permiten a
cada muestra posible tener igual probabilidad de ser seleccionada y a cada elemento
de la población entera tener igual probabilidad de quedar incluido en la muestra.
Por finita entendemos la población que posee un tamaño formulado o limitado, es decir,
hay un número entero (N) que nos indica cuántos elementos existen en la población.
La población infinita es aquella en que, teóricamente, es imposible observar todos los
elementos. Así pues, en la práctica emplearemos la expresión "población infinita"
cuando hablemos de una población que no puede ser enumerada en un período
razonable. De este modo, usaremos el concepto teórico de "población infinita" como
una aproximación de una gran población finita.
Cómo hacer el muestreo aleatorio
Resumen
La forma más fácil de seleccionar una muestra al azar consiste en usar números
aleatorios, los cuales pueden generarse con una computadora programada para
mezclar números o con una tabla de números aleatorios.
Empleo de una tabla de números aleatorios
a)Pasamos de la parte superior a la parte inferior de las columnas, comenzando con la
columna de la izquierda, y leemos sólo los dos primeros dígitos de cada renglón. Es
decir que leemos la tabla por columnas.
b)Si llegamos a la parte inferior de la última columna de la derecha y todavía no
obtuvimos nuestros 10 números deseados de dos dígitos de 99 y menos, podemos
volver al inicio (la parte superior de la columna de la izquierda) y comenzar a leer los
dígitos tercero y cuarto de cada número.
Muestreo sistemático
En el muestreo sistemático, los elementos se seleccionan de la población con un

intervalo uniforme, que se mide en el tiempo, en el orden o en el espacio.
Si quisiéramos entrevistar a todo vigésimo estudiante de un campus universitario, por
ejemplo, escogeríamos un punto aleatorio de arranque en los primeros veinte nombres
en el directorio del alumnado, y luego seleccionaríamos cada vigésimo nombre. En este
caso veinte es el llamado intervalo de muestreo. En general, este valor SE simboliza
con k y se calcula como el cociente entre el tamaño de la población y el tamaño de la
muestra, es decir, k = N/n.
Características del muestreo sistemático
El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento
tiene iguales posibilidades de ser seleccionado, pero cada muestra no tiene esa misma
probabilidad.
Deficiencias del muestreo sistemático
En el muestreo sistemático, se corre el riesgo de introducir un error en el proceso
muestral.
El muestreo sistemático tiene también sus ventajas. Aun cuando no sea apropiado si
los elementos presentan un patrón secuencial, tal vez requiera menos tiempo y,
algunas veces, cuesta menos que el simple método de muestreo aleatorio.
Muestreo estratificado
Para aplicar el muestreo estratificado, dividimos la población en grupos homogéneos

relativos, llamados estratos. Después recurrimos a uno de dos métodos posibles:
seleccionamos al azar, en cada estrato, un número especificado de elementos
correspondiente a la proporción del estrato de la población total, o bien extraemos un
número igual de elementos de cada estrato y damos un peso a los resultados, de
acuerdo con la proporción del estrato en la población total. En uno y otro método, el
muestreo estratificado garantiza que todos los elementos de la población tengan una
posibilidad de ser seleccionados. El muestreo estratificado es adecuado cuando la
población ya está dividida en grupos de diferentes tamaños, y queremos reconocer ese
hecho. La ventaja de las muestras estratificadas estriba, pues, en que, cuando se dise-
ñan bien, reflejan más exactamente las características de la población de donde se
extrajeron que otras clases de muestreo.
Muestreo por conglomerados
Resumen
En el muestreo por conglomerados, dividimos la población en grupos o conglomerados

y luego seleccionamos una muestra aleatoria de ellos. Suponemos que esos
conglomerados son representativos de la población entera.
Por ejemplo, si un equipo de investigación de mercados está tratando de determinar,
por muestreo, el número promedio de televisores por familia en una gran ciudad, podría
utilizar un mapa de la misma para dividir el territorio en manzanas, y luego seleccionar
cierto número de manzanas (conglomerados) para realizar entrevistas. Cada familia
que habita en esas manzanas será entrevistada.
Un procedimiento bien diseñado de muestreo por conglomerados puede producir una
muestra más precisa, a un costo mucho menor, que la de un simple muestreo aleatorio.
Comparación entre los distintos tipos de muestreo
El muestreo sistemático, el muestreo estratificado y el muestreo por conglomerados se

proponen aproximar al muestreo aleatorio simple] Todos son métodos que han sido
ideados para lograr mayor precisión, un ahorro y un manejo físico sencillo.
Definición:
Sea X una variable aleatoria con cierta distribución de probabilidades y sean X1,..., Xn n
variables aleatorias independientes, cada una con la misma distribución que X,
llamamos entonces a (X1,…,Xn) muestra aleatoria de la variable aleatoria X.
Establezcamos de una manera más informal lo anterior: una muestra aleatoria de
tamaño n de una variable aleatoria X corresponde a n mediciones repetidas de X,
hechas básicamente en las mismas condiciones.
Por ejemplo, supóngase que la variable aleatoria que se considera es X = "número de
llamadas que llegan a una central telefónica el miércoles entre las 4 PM y las 5 PM". A
fin de obtener una muestra aleatoria de X, posiblemente deberíamos elegir n miércoles
al azar y anotar el valor de X1,…Xn. Tendríamos que estar seguros de que todos los
miércoles son miércoles "típicos". Por ejemplo, podríamos no incluir un miércoles
particular si coincide con Navidad.
Distribuciones en el muestreo
La distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de medias muéstrales. A esto, los estadísticos lo llaman distribución
muestral de la media. También podríamos tener una distribución de muestreo de una
proporción. Hemos tomado un extenso número de dichas muestras. Si graficamos una
distribución de probabilidad de las proporciones posibles en todas ellas, veremos una
distribución de las proporciones muéstrales. En Estadística, a esto se le llama
distribución muestral de la proporción
Descripción de las distribuciones de muestreo

Toda distribución de probabilidad (y, por lo mismo, cualquier distribución de muestreo)
puede describirse, en parte, mediante su media y su desviación estándar.
Va tabla pag 200
En general, la distribución muestral de un estadístico se podrá describir mediante la
media y la desviación estándar.
Resumen
Concepto de error estándar

En vez de usar "la desviación estándar de la distribución de las medias muéstrales"
para describir una distribución de las medias muéstrales, los estadísticos hablan del
error estándar de la media. De manera análoga, la "desviación estándar de la distribu-
ción de las proporciones muéstrales" se abrevia en el error estándar de la proporción.
Error por muestreo debido al azar, es decir, existen diferencias entre cada muestra y la
población, lo mismo que entre varias muestras, debido exclusivamente a los elementos
que seleccionamos de ellas en forma aleatoria.
La desviación estándar de la distribución de las medias muéstrales mide el grado en
que esperamos que las medias de las diferentes muestras varíen por este error
accidental en el proceso de muestreo. Por consiguiente, la desviación estándar de la
distribución de un estadístico muestral recibe el nombre de error estándar del
estadístico.
Tamaño del error estándar

El error estándar indica no sólo el tamaño del error accidental que se ha cometido, sino
además la exactitud que seguramente alcanzaremos si usamos un estadístico muestral
para estimar un parámetro de la población.
Sin embargo, algún cuidado deberá, tenerse para asegurarnos de obtener, en realidad,
una muestra aleatoria.
Distribuciones teóricas de muestreo

En la terminología estadística, la distribución de muestreo que obtenemos al tomar
todas las muestras de determinado tamaño es una distribución teórica de muestreo.
Los expertos en Estadística han desarrollado fórmulas para estimar las características
de estas distribuciones muéstrales teóricas, haciendo innecesario reunir grandes
números de muestras. En la generalidad de los casos, basta extraer una sola muestra
de la población, calcular sus estadísticos y, a partir de ellos, inferir algo sobre los
parámetros de la población entera.
Distribución en el muestreo
Distribución en el muestreo de la media
La primera, que corresponde a la parte (a) de la figura, muestra una distribución de la

población, suponiendo que la misma está constituida por todas las medidas de los
espesores de láminas de acero fabricadas por una compañía. La distribución de dichos
espesores tiene una media μ y una desviación estándar σ.
Supóngase que, de alguna manera, podemos tomar todas las muestras posibles de
tamaño 10 procedentes de la población (en realidad, habría demasiadas para poder
incluirlas a todas). A continuación, calculamos la media y la desviación estándar de
cada una de estas muestras, representadas en la parte (b) de la figura. En
consecuencia, cada muestra tendrá su propia media y su propia desviación estándar.
Resumen
Ninguna de las medias muéstrales individuales será la misma que la media de la

población: tenderán a estar cerca de ésta, pero rara vez serán exactamente ese valor.
En el último paso, produciremos una distribución de todas las medias de cada muestra
que pueda tomarse. Esta distribución, denominada distribución muestra! de las medias,
es ilustrada en la parte (c) de la figura. Dicha distribución de la media muestral tendrá
su propia media y su propia desviación o error estándar.
Distribución de la población:
Representa los espesores de todas las láminas de acero
fabricadas por la
compañía.
Tiene:
μ= media de la distribución.
σ = desviación estándar de la distribución.
Si, de alguna manera, pudiéramos tomar todas las muestras posibles de determinado
tamaño en esta distribución de la población y calcular su media y desviación estándar,
algunas de las posibles distribuciones podrían representarse gráficamente como sigue.
Distribuciones muéstrales de frecuencia:

Estas son algunas de las posibles distribuciones
muéstrales.
Cada una es una distribución discreta y tiene:
x = su propia media aritmética S = su propia desviación
estándar
Ahora bien, si pudiéramos tomar las medias de todas

las distribuciones muéstrales y producir una
distribución de las mismas, la representación gráfica
sería la que sigue a continuación.
Distribución de muestreo de la media: Representa a

todas las medias muéstrales y tiene m x =media de la
distribución muestral de las media s x = error estándar de la media (desviación estándar
de la distribución muestral de las medias)
Valores característicos de la media
Resumen
a)El valor esperado de la media muestral es igual a la esperanza de la población de la cual

se seleccionaron las muestras aleatorias.
E( X ) = m
b)La desviación estándar de la media muestral es igual a la desviación estándar de la
población, dividida por la raíz cuadrada del tamaño de la muestra.
Sin reposición D( X ) = s / n
N -n
Con reposición D( X ) = s / n *
N -1
El incremento en el tamaño de la muestra conduce a una distribución de muestreo más
normal.
Teorema del límite central
La relación existente entre la forma de la distribución de la población y la forma de la

distribución muestral de la media recibe el nombre de teorema del límite central. Este
teorema es, acaso, el más importante de todos en la Inferencia Estadística; garantiza que
la distribución muestral de la media se acerque a la distribución normal a medida que
crece el tamaño de la muestra.
Los estadísticos recurren a la distribución normal como una aproximación de la distribución
muestral siempre que el tamaño de la muestra sea 30, por lo menos, pero la distribución
muestral de la media puede ser casi normal con las muestras que tengan incluso la mitad
de ese tamaño. La importancia del teorema del límite central radica en que nos permite
usar el estadístico muestral para hacer inferencias sobre los parámetros de la
población, sin conocer nada sobre la forma de la distribución de probabilidades de esa
población, salvo la información que logremos recabar de la muestra.
Teorema del límite central

Si x es la variable aleatoria que resulta al seleccionar muestras de tamaño n de una
población cualquiera y calcular sus medias aritméticas, entonces la distribución de x
es aproximadamente normal cuando n � �, siendo:
E( X ) = m y s x = s / n
Donde μ es la esperanza de la población y σ es la desviación típica de la misma.
Relación entre el tamaño de la muestra y el error estándar

Conforme decrece el error estándar, aumenta la precisión con que la media muestral
puede emplearse para estimar la media de la población. Un estadístico diría lo
siguiente: "el aumento de la precisión no justifica el incremento adicional en el costo del
muestreo". En términos estadísticos, rara vez conviene extraer muestras
excesivamente grandes.
Distribución en el muestreo de la proporción

Con frecuencia, es necesario hacer una estimación de una proporción de población.
Por ejemplo: la estimación del porcentaje de artículos defectuosos en un lote, el
porcentaje de personas que miran un programa de TV, el porcentaje de personas
desocupadas en un área geográfica determinada, etc. A la proporción de la población la
designaremos con:
π = k/N Siendo:
k: el número de elementos que poseen el rasgo o característica en estudio.
N: el número total de unidades de la población.
El estadístico que generalmente se utiliza para estimar la proporción de la población es
la proporción de la muestra:
Resumen
p = x/n
Siendo:
x: el número de unidades de la muestra que poseen la característica en estudio.
n: el tamaño de la muestra.
Muestreo con reposición

Obedece a una ley de probabilidad binomial
E ( p) = p ( para los dos casos) s p = [p (1 - p )]/ n
Muestreo sin reposición

Obedece a una ley de probabilidad hipergeométrica.
s p = [p (1 - p )]/ n * ( N - n) /( N - 1) (por el factor de corrección de la población finita)
Pero, si la muestra es pequeña con relación a la población (n < 5% de N), el factor de
corrección se aproxima a 1 y puede calcularse σ p sin él.
Por lo tanto, para un n suficientemente grande, es válido el teorema central del límite,
p ~ N(π, σp) donde Z = (p - π) I σp ~ N(0,1)
Regla empírica
La aproximación normal es buena cuando n.π y n (1 - π) son > 5.
Distribución en el muestreo de la variancia

Si consideramos como variable aleatoria al estadístico S2, nos interesa calcular su
esperanza, o sea, E(S2).
A S2 lo escribimos de la siguiente manera:
S2 =
�( x - m )
i
2
- n( x - m ) 2
= 1/ n�( xi - m ) 2 - n( x - m ) 2
n
Aplicando la esperanza
E (S 2 ) = s 2 - s 2 / n = (n *s 2 - s 2 ) / n = [(n - 1) / n]s 2
Vemos que E(S2) ≠σ2. Para que S2 sea un buen estimador de σ2, más adelante ve-
remos que uno de los requisitos que debe cumplir es que sea insesgado, o sea
)
( )
E q =q
Analizaremos esta situación en nuestra fórmula:
a) Si n es grande (n > 30):
Si n � �� (n - 1) / n = 1 - 1/ n � 1\ talque.E ( S 2 ) = s 2
b) Si n es chico (n < 30), se haría necesario corregir el sesgo ya que:
S i n � �� (n - 1) / n = 1 - 1/ n � 1\ talque.E ( S 2 ) = s 2 Para corregir el sesgo,
establecemos la siguiente fórmula:
E�
�� ( xi - x ) 2 � 2
�= s
� n -1 �
A la variancia así definida (es decir, con n - 1 en el denominador) la llamaremos
variancia muestral corregida y la simbolizaremos S'2.
En lugar de hallar la distribución muestral de S 2 o S'2, es conveniente hallar la
distribución muestral de una variable aleatoria relacionada:
n * S 2 (n - 1) S´2
s2 s2
Resumen
Que se distribuye como c n -1

2
�( x - m )
i
2
~ cn
2
2
s
2
Pero, si en el cálculo de c no conocemos el valor de m, lo podemos estimar usando el
promedio muestral, y nos queda:
1
2 � i
( x - x ) 2 ~ c n2-1 (*)
s
Los grados de libertad son n - 1 porque hemos impuesto la condición de que m = x y, al
imponer una condición, tenemos un grado de libertad menos. Haciendo:
S2 =
�( xi - x )2 � n * S 2 = �( x - x )2
i
n
S´ =
2 � ( xi - x ) 2
� ( n - 1) * S´2 = �( xi - x ) 2
n -1
Y reemplazando en (*) nos queda:
n*S2
~ c n -1
2
s 2
( n - 1) * S´2 ~ c 2
n -1
s2
8. ESTIMACIÓN DE PARÁMETROS
Cuando estimamos parámetros, hacemos inferencias respecto de las características de la
población a partir de la información contenida en las muestras.
Se pueden realizar dos tipos de estimaciones:
Realizamos una estimación puntual si, a partir de las observaciones de la muestra, se

calcula un solo valor como estimación de un parámetro de población desconocido.
Podemos advertir que una estimación puntual tiene como inconveniente que no nos da
ningún margen de error y, por lo tanto, no podemos decir nada sobre la confiabilidad de
la estimación. La estimación puntual es mucho más útil si se le agrega la información
adicional de la estimación del error que puede haber. Esta información adicional nos la
da el cálculo de un intervalo de confianza:
La estimación por intervalo de confianza nos permite encontrar un intervalo que
comprenda a un parámetro de una población, midiendo el error de dos formas: por la
amplitud del intervalo y por la probabilidad de que el intervalo cubra al verdadero
parámetro de la población.
Estimación puntual
Si, a partir de las observaciones de una muestra, se calcula un solo valor como
estimación de un parámetro de población desconocido, el procedimiento se llama
estimación puntual, ya que se utiliza como estimación un solo punto del conjunto de
todos los posibles valores.
Resumen
Para poder utilizar la información que se tenga de la mejor manera posible, se necesita
identificar los estadísticos que sean buenos estimadores. Hay cuatro propiedades que
debe cumplir un buen estimador
Estimador insesgado
)
q estimador de q es una variable aleatoria y, por lo tanto, tiene una distribución de
probabilidad con su media y variancia. Entonces, se puede definir un estimador
insesgado diciendo:
)
Si se utiliza un estadístico muestral q para estimar el parámetro de población q , se dice
) )
que q es un estimador insesgado de q si E q = q( )
O sea que, es de esperar que, si se toman muchas muestras de igual tamaño, a partir de la
)
misma población, y si de cada una se obtiene un valor de q , la media de todos los valores
)
de q ha de estar muy cerca de q .
Estimador eficiente
Si se utilizan dos estadísticos como estimadores del mismo parámetro, entonces aquél
cuya distribución muestral tenga menos error típico es un estimador más eficiente que el
otro. El mas eficiente es el que tenga menor error típico.
Conclusión: Es natural que un estimador con un error estándar menor (con menos
variación) tenga mayores probabilidades de producir una estimación más cercana al
parámetro que estamos queriendo estimar
Estimador consistente
)
Si q es un estimador muestral calculado a partir de una muestra de tamaño n y si q es
)
el parámetro de población que se va a estimar, entonces q es un estimador
consistente de q si para todo número positivo y arbitrariamente pequeño e se tiene:
)
{ }
P q - q �e � 1 cuando n � �
)
Es decir, la probabilidad de que q esté a menos de cierta distancia e del parámetro q
tiende a 1 al tender n a infinito.
Por ejemplo, se sabe que la media muestral y la variancia son estimadores con-
sistentes. Pero, un estadístico muestral puede ser un estimador sin consistencia. Por
ejemplo, si el valor de la primera observación, o la media entre la primera y última
observación, de una muestra se utilizara para estimar la media de la población, tal
estimador no sería consistente porque no tiende a acercarse más y más al valor de la
población cuando se aumenta el tamaño de la muestra. Algunos autores llaman a esta
propiedad congruencia del estimador.
Estimador suficiente
Un estimador suficiente del parámetro q es el que agota toda la información pertinente
sobre 6 que se pueda disponer en la muestra.
La media muestral, la proporción muestral y la forma corregida de la variancia muestral
son estadísticos que satisfacen los criterios o propiedades de "buenos" estimadores.
En el siguiente cuadro presentamos un resumen de parámetros y estimadores
puntuales:
Población: P Muestra: M
Parámetros Estadísticos (estimadores
μ x
σ2 S2 o S'2
Resumen
σ S o S´´
π P
Estimación por intervalos de confianza

El procedimiento de determinar un intervalo [l i;ls] que comprenda a un parámetro de
población q con cierta probabilidad 1 - α se llama estimación por intervalo de
confianza. Esta probabilidad indica, pues, la confianza que tenemos de que la es-
timación por intervalo comprenda al parámetro de la población; una probabilidad mayor
significa más confianza en la estimación. Los niveles de confianza más utilizados son:
0.90, 0.95 y 0.99, es decir, 90, 95 y 99%. A (1 - α) se lo denomina el coeficiente o nivel
de confianza de la estimación.
Por lo que ya vimos en la distribución en el muestreo de la media, hay una probabilidad
de aproximadamente el 95.50% de que la media de una muestra se encuentre dentro
de dos errores estándares positivos y negativos de la media de la población.
Analizaremos intervalos de confianza para la media poblacional, la proporción

poblacional y la variancia poblacional.
Intervalo de confianza para la media poblacional n Distinguiremos diferentes casos

según
• La distribución de la población (si es normal o no).
• La desviación típica de la población (si es conocida o no).
• El tamaño de la muestra (si es pequeña o grande).
1) Si la población es normal y...

a) ... σ es conocido
( )
El intervalo de confianza para μ es x - z1s / n ; x + z1s / n donde z1 = z1-a / 2
Colocaremos la variable, por ejemplo z, y como subíndice el área que ésta deja por
debajo, por ejemplo zα es el valor de la variable tipificada normal que deja por debajo
un área α, es decir, que la P (z ≤ zα) = α.
Gráficamente:
Resumen
Representando gráficamente la P {-z1< z < z1} = 1 - α, tenemos:
Luego, el intervalo para la media poblacional de una población normal con variancia
conocida es:
� s �
x �z
� 1- a �
� 2 n�
Corrección: En el caso en que las muestras se tomen sin reposición de una población
finita de tamaño N, debe emplearse el factor de corrección finita y el intervalo será:
� s N -n s N -n�
x-z a
� . ;x + z a . �
� 1-
2 n N - 1 1-
2 n N - 1 �
Tamaño óptimo de la Muestra:
s
z. = e Donde z = z1-a / 2 ,
n
Determina el error del muestreo, nos indica la precisión de la estimación.
Pero z depende del valor de α y, al hacer mayor el coeficiente de confianza 1 - α, el valor de
z será mayor y, por lo tanto, el error e aumentará. Esto se puede regular aumentando el
tamaño de la muestra, con lo que el error disminuirá.
s s
Si z =e� n = z �
n e
z 2 .s 2
n=
e2
b) ... σ es desconocido
x -m
Si o es desconocido, no podemos utilizar z =
s/ n
x -m
y lo reemplazamos por z =
s/ n
Pero esta variable del denominador es diferente para cada media de la muestra.
La distribución t de Student es adecuada para las inferencias relacionadas con la

media cuando no se conoce σ y la población está normalmente distribuida,
cualquiera fuese el tamaño de la muestra.
Resumen
Sin embargo, a medida que aumenta el tamaño de la muestra, la distribución t se

acerca en su forma a la normal. (Una ~ t puede ser aproximada por una normal cuando
n ≥ 30.)
Luego, según sea el valor de n, tendremos dos casos diferentes:
b1) Si a es desconocido y n > 30
Se utiliza la distribución normal como aproximación de t .

Entonces, en este caso el intervalo de confianza para µ será:
� S S �
P �x - z a �m �x + z a �= 1 - a
� 1-
2 n 1-
2 n
b2) Si o es desconocido y n pequeño (generalmente < 30)
Para estimar σ debemos utilizar el desvío estándar muestral corregido
S´=
�( x - x )
i
2
n -1
Por lo tanto, el intervalo de confianza para µ será:
� S´ S´ �
P �x - t a �m �x + t a �= 1 - a
� 1-
2 n 1-
2 n
o bien:
� S S �
P �x - tn -1 �m �x + tn -1 �= 1 - a
� n -1 n -1
2) Si la población no es normal y...

a) ... σ conocido, el intervalo de confianza para m será:
� s s �
P �x - z a �m �x + z a �= 1 - a si n >30
� 1- 2 n 1-
2 n
� s s �
P �x - t a �m �x + t a �= 1 - a si n < 30
� 1- 2 n 1-
2 n
b) ... σ desconocido y n > 30, el intervalo de confianza para µ será:

� S S �
P �x - z1 �m �x + z1 �= 1 - a , donde z1 = z1-a / 2 . Se utiliza el teorema central del
� n n
límite y Z como una aproximación de t.
c) Cuando la muestra es pequeña y se supone que la población no está normalmente

distribuida y σ es desconocido, no se puede utilizar ni la distribución normal ni la t de
Student para construir un intervalo de confianza para µ, debiendo recurrirse en este
caso a la desigualdad de Chebyshev para obtener una aproximación del intervalo de
confianza.
Intervalo de confianza para la proporción poblacional
Resumen
El procedimiento para estimar una proporción poblacional es similar al de estimar una

media poblacional, o sea:
a)Debemos encontrar la proporción de la muestra p, que es un estimador puntual de π
y posee las propiedades de un buen estimador.
b)Debemos calcular el error estándar de la proporción, o sea, σ p.
p (1 - p ) N - n
sp = . (Sin reposición)
n N -1
p (1 - p )
sp = (Con reposición)
n
Pero si σp es desconocido y el muestreo es con reposición y, a su vez, depende de π,

que es el parámetro que deseamos estimar, dicha expresión no nos sirve y debemos
estimar σp a través de los valores muéstrales.
p (1 - p)
Sp = (Estimación insesgada cuando n es grande; n ≥ 30)
n
Cuando se hace muestreo sin reposición, el desvío estándar debe ser calculado con el
factor de corrección finito:
p (1 - p ) �N - n �
Sp = � �
n �N - 1 �
Debería tenerse en cuenta que, cuando Sp, una estimación puntual de σp, es usada
para obtener una estimación del intervalo de una proporción poblacional Π, el tamaño
de la muestra deberá ser suficientemente grande a fin de usar la distribución normal.
De otro modo, deberá usarse la distribución binomial.
Si n. Π y n(1- Π) > 5 se usa la distribución normal
Intervalo de Confianza para Π:

p (1 - p )
E ( p) = p y s p =
n
Los límites de confianza para el caso de ser n suficientemente grande son:
� p (1 - p) p(1 - p ) �
�p - z1-a / 2 . ; p + z1-a / 2 . �
� n n �
Si el muestreo es sin reposición sobre una población finita de N elementos, entonces

los límites de confianza para p resultan ser:
� p (1 - p) N - n p (1 - p ) N - n �
�p - z1-a / 2 . . ; p + z1-a / 2 . . �
� n N -1 n N -1 �
Determinación del Tamaño óptimo de Muestra

e = z. σp determina el error de muestreo, o sea, la diferencia entre una proporción
muestral p y la proporción poblacionalπ.Reemplazando, si
p (1 - p ) p (1 - p ) z 2 p (1 - p )
sp = � e = z. � n = 1-a / 2 2
n n e
Cuando no tenemos a π usamos información del pasado y si no, suponemos π/2
Resumen
Intervalo de confianza para la variancia poblacional
Habíamos visto que:

nS 2
~ c n -1
2
s 2
Como c es una distribución asimétrica, entonces, para determinar su intervalo de

2
confianza para σ2, fijado 1-α, debemos establecer la probabilidad siguiente:

P { a �c n2-1 �b} = 1 - a y después de operar y utilizar la tabla de c 2 obtenemos:
� � � 2 2 �
� 1 s2 1 � � n.S n.S �
P� 2 � 2 � 2 �= P � 2 �s 2 � 2 �= 1 - a
�c1- a ;n -1 n.S c a � �c a
; n -1 1- ; n -1
ca �
;n -1
��2 2 2 2
Observación: el intervalo de confianza del desvío poblacional es:

� �
� n.S 2 n.S 2 �
P� 2 �s � 2 �= 1 - a
c
� 1- ;n -1
a ca �
; n -1
� 2 2
9. PRUEBA DE HIPÓTESIS
Conceptos básicos de las pruebas de hipótesis
En el procedimiento denominado prueba de hipótesis trataremos de determinar cuándo
es razonable concluir, a partir del análisis de una muestra aleatoria, que la población
entera posee determinada propiedad, y cuándo no es razonable llegar a tal conclusión.
Tales decisiones se denominan decisiones estadísticas.
Las desviaciones "grandes" se conocen como desviaciones significantes, ya que el hecho
de que éstas ocurran significa que se necesita alguna otra razón que explique los
resultados del muestreo.
Una hipótesis estadística es una afirmación o conjetura acerca de una o más poblaciones.
Pueden definirse como explicaciones tentativas del fenómeno investigado, formuladas a
manera de proposiciones.
La prueba de hipótesis estadística es el proceso que permite tomar una decisión con
respecto a una hipótesis.
Para que una hipótesis sea digna de tomarse en cuenta para la investigación científica deben
existir técnicas adecuadas para probarla. Al formular una hipótesis, tenemos que analizar si
existen técnicas o herramientas de la investigación (instrumentos para recolectar datos,
diseños, análisis estadísticos o cualitativos, etc.) para poder verificarla, si es posible
desarrollarlas y si se encuentran a nuestro alcance.
Las dos hipótesis presentes en un proceso de toma de decisión se denominan hipótesis
nula e hipótesis alternativa. Cuando estamos probando hipótesis acerca del valor de un
parámetro, la hipótesis nula, por lo general, es una afirmación sobre un valor específico del
parámetro. Ésta se denomina así porque es el "punto inicial" de la investigación (en su
interpretación se suele decir "no hay diferencia con el valor supuesto del parámetro θ0",
de ahí el nombre de hipótesis nula).
Se simboliza con H0, La hipótesis alternativa es una afirmación que especifica que el
parámetro de la población tiene un valor diferente al proporcionado en la hipótesis
nula. Se simboliza con H1.
Resumen
Hipótesis estadística de estimación:

Son diseñadas para evaluar la suposición de un investigador respecto al valor de algún
parámetro de población. En este caso, se calcula un estadístico muestral (que estime
correctamente al parámetro de población de nuestra hipótesis) y se compara el
estadístico con el parámetro que propone la hipótesis.
Hipótesis estadística de correlación:

El sentido de estas hipótesis es el de traducir una correlación entre dos o más variables en
términos estadísticos. Por ejemplo, si decimos: "quienes obtienen puntuaciones más altas
en el examen de Algebra tienden a tener las puntuaciones más elevadas en el examen de
Estadística".
Esto ocurre en la correlación mas no en la relación de causalidad, en donde sí importa el
orden de las variables.
Hipótesis estadística de diferencia de parámetros:

En este tipo de hipótesis se compara un mismo parámetro entre dos o más poblaciones.
Es decir, un investigador tiene una suposición que luego convierte en hipótesis de
investigación y, a continuación, en hipótesis estadística.
Nosotros presentaremos en este texto solamente hipótesis estadísticas de estimación.
Errores de decisión: errores tipo I y II
Al tomar una decisión sobre una hipótesis, se pueden cometer dos tipos de errores:
• Error tipo I: Es aquel que se comete cuando se rechaza una hipótesis que debería ser
aceptada. La probabilidad de cometerlo se designa con α= P(E I) = P(Rechazar H0/H0 es
Verdadero).
• Error tipo II: Es aquel que se comete cuando se acepta una hipótesis que debería ser
rechazada. La probabilidad de cometerlo se designa con β = P(E II) = P(Aceptar H0 / H0
es Falsa).
• Tengamos presente que, cuando se realizan tests de prueba estadísticos, estamos
sacando conclusiones sobre una población basándonos en información extraída a
partir de una muestra.
Al error tipo I actualmente se lo llama falso positivo; ocurre cuando no existe realmente
diferencia en el valor del estadístico que plantea la H 0.
El error tipo II o falso negativo se comete cuando efectivamente hay diferencia en la
población, pero el test estadístico de muestra no da significativo, llevando a una
conclusión falsa de no efecto o no relación. Para explicarlo brevemente, un verdadero
efecto permanece sin ser descubierto.
La única forma de reducir al mismo tiempo ambos tipos de errores es incre-

mentar el tamaño muestral.
Si n es fijo: α decrece  β crece (y viceversa)

Si n crece: α y β decrecen.
Llamamos nivel de significación, y lo denotaremos por a, a la probabilidad máxima con

la que se puede cometer un error del tipo I en el ensayo de una hipótesis.
En general se toma α = 0.01 o a = 0.05.
El α máximo, cuando se permite que el valor crítico θ O + c varíe, también se denomina

extensión del test.
Resumen
Cuando se establece un procedimiento de prueba para investigar estadísticamente la

factibilidad de una hipótesis enunciada, existen muchos factores que deben ser
considerados. Aceptando que se ha hecho un enunciado claro del problema y que las
hipótesis asociadas se han expresado en términos matemáticos, dichos factores son:
a) La naturaleza del experimento que producirá los datos debe ser definida.
b) La prueba estadística debe ser seleccionada. Esto es, el método para analizar los
datos debe ser seleccionado.
c)La naturaleza de la región crítica debe ser establecida.
d) El tamaño de la región crítica (α) debe ser elegido.
e) Cuando menos para un valor de θ, distinto del valor de θ especificado por H 0,
deberá asignársele un valor a β(θ). Esto es equivalente a establecer qué diferencia
debe detectarse entre el valor supuesto del parámetro y el valor verdadero, y con qué
probabilidad debemos confiar en detectarlo.
f) El tamaño de la muestra (esto es, el número de veces que se efectuarán las
observaciones o el número de observaciones) debe ser determinado.
Clasificación de los ensayos o pruebas de hipótesis

q = q1 ��q 0 .....Bilateral (a )
q = q1 �> q 0 .....Unilateral..Derecha (b1 )
q = q1 �< q0 .....Unilateral..Izquierda(b2 )
Error tipo I y II
La cantidad η= 1 - β se llama potencia del test sería la probabilidad de no cometer error

tipo II.
Podemos resumirlo en el siguiente cuadro:
Resumen
En el gráfico anterior se observa claramente que, a medida que uno crece, el otro
decrece. En la práctica se procede de la manera siguiente: primero se escoge α, luego
determinamos c y por último calculamos β. Si b resulta tan grande como para que la
potencia η= 1 - β sea pequeña, se debe repetir la prueba escogiendo un η mayor.
Prueba de hipótesis para la media poblacional µ con σ conocida (n > 30; el

teorema central del límite es válido)
Se utilizan las fórmulas del apéndice para realizar los cálculos.
Pasos de un test de hipótesis
Se considera apropiado en este momento resumir los diferentes pasos a seguir en un

procedimiento para prueba de hipótesis:
a) Establecer la hipótesis nula H0 de que θ = θ0.
b) Seleccionar una hipótesis alternativa apropiada H1 de una de las alternativas
posibles: θ < θ 0, θ > θ 0 o θ ≠ θo.
c) Seleccionar un nivel de significación de tamaño α.
d) Seleccionar el estadístico de prueba apropiado y establecer la región crítica. (Si la
decisión se va a basar en un valor P no es necesario establecer la región crítica.)
e) Calcular el valor del estadístico de prueba de los datos muéstrales.
f) Decidir rechazar H0 si el estadístico de prueba tiene un valor en la región crítica (o
si el valor calculado de P es menor o igual que el nivel de significación deseado
α); de otra forma, no rechazar H0.
Prueba de hipótesis acerca de una proporción de población
En este caso, nos interesamos en verificar un supuesto acerca de la proporción de

éxitos en la población: 71.
Luego, desearíamos probar la hipótesis Π = π0 con la proporción de la muestra p como
estadística de prueba.
p (1 - p )
Recordemos que: E ( p) = p y s p =
n
p -p0
La estadística de la prueba es z = : N (0,1)
sp
Planteamos los tres casos como hicimos con la media poblacional. Y utilizamos las
fórmulas del apéndice.
Prueba de hipótesis acerca de la variancia de una población
Resumen
Utilizamos las fórmulas del apéndice
10. REGRESIÓN Y CORRELACIÓN. ASOCIACIÓN ENTRE

VARIABLES MEDIDAS A NIVEL DE INTERVALO O DE
RAZÓN
Resumen
Si de cada unidad estadística efectuamos dos mediciones entonces queda defini
da una población bivariable.
Dada una población bivariable (X;Y) pueden ocurrir tres casos al respecto:
1) Que no exista ninguna relación entre ellas.
2) Que exista una relación funcional entre ambas.
3) Que no exista una relación funcional entre X e Y, pero que sí podamos ver una cierta
dependencia estadística (no matemática, es decir más débil) entre esas dos variables.
En materia de predicción, a pesar de que los valores de Y pueden ser estimados
mediante una línea de regresión a mano alzada, la precisión de nuestras predicciones
es mejor si usamos una línea de regresión de mínimos cuadrados, definida como una
línea que mejor ajusta los datos minimizando la variación en Y.
Usando la fórmula que define la línea de regresión de mínimos cuadrados
Y = a + b X.
El coeficiente r de Pearson es una estadística que mide la asociación lineal entre X e Y.
Podemos obtener mayor información sobre la asociación entre variables medidas en
escala intervalar o de razón que para las variables medidas en escala norminal u
ordinal.
Introducción
Para analizar las relaciones entre varias variables.
Dispersiogramas o diagramas de dispersión
En Excel: ASISTENTE PARA GRAFICOSXY DISPERSIÓN

Los dispersiogramas o diagramas de dispersión son una técnica de representaciones
gráficas que funcionan de una forma análoga a la de una tabla bivariada o de doble
entrada, ya que permite al investigador tener una rápida percepción de importantes
aspectos de la relación.
Para construir el dispersiograma, comience dibujando un sistema de ejes coordenados.
La variable X (variable independiente) sobre el eje de horizontal y la variable Y(esta
última se supone que es la variable dependiente). Luego ubique sus puntos datos en el
sistema de ejes coordenados dibujado. La relación (X;Y) se marca con puntos.
El modelo de relación entre las variables puede verse más claro si dibujamos una línea
recta tan cercana a los puntos cuanto sea posible. Esta línea de resumen que se ha
dibujado en el diagrama de dispersión recibe el nombre de recta de regresión.
Para comprobar la existencia de una relación recordemos que dos variables están
asociadas si las distribuciones de Y cambian para las distintas condiciones de X. La
existencia de una asociación es reforzada por el hecho de que la línea de regresión
forma un ángulo no nulo con el eje X.Si estas dos variables no estuvieran asociadas,
las distribuciones condicionales de Y no cambiarían y la recta de regresión sería
paralela al eje X.
La dirección de la relación puede verse observando el ángulo de la línea de regresión
con respecto al eje X.
Resumen
Para simplificar las cosas y por falta de tiempo para desarrollar más contenidos en esta
parte vamos a suponer que entre las variables existe una relación lineal.
Los puntos observados en el dispersiograma deben formar un modelo que puede
aproximarse mediante una línea recta.
Regresión y predicción
Un último uso del diagrama de dispersión es para predecir valores de casos en una
variable a partir de su valor en la otra variable. Prolongando la línea de regresión
podemos hacer esto: sobre el eje X se levanta una recta parelela al eje Y en el punto
que queremos. Esta intersección entre la recta y la regresión da el valor de Y´.
El valor predictivo en Y, que simbolizaremos Y´ para distinguir nuestras predicciones de
Y de los valores observados de Y.
Por supuesto que esta técnica para calcular Y' es limitada. La limitación más seria de
esta técnica de predicción informal es que Y' puede cambiar de valor, dependiendo del
grado de aproximación a los puntos que tenga la recta que dibujamos. Una forma de
eliminar esta fuente de error podría ser encontrar la línea recta que mejor ajusta a los
puntos observados y por lo tanto que mejor describe la relación entre las dos variables.
Recordemos nuestro criterio para trazar la línea de regresión a mano alzada era que
dicha línea toque todos los puntos o se acerque lo más posible a ellos.
Dentro de la distribución condicional de Y, podemos buscar un punto en torno del cual
la variación se minimiza. Este punto de mínima variación no es otro que la media de la
distribución condicional de Y.
Vimos que la media de cualquier distribución de datos es el punto en torno al cual la
desviación de los valores, al cuadrado, es mínima.
�( X i - X )2 = Minimo
Luego, si se ajusta la línea de regresión, ésta pasa por cada una de las medias de las
distribuciones condicionales de Y, con lo cual podemos tener una línea recta que sea lo
más cercana posible a todos los valores. Una línea como esta minimizará las
desviaciones de los valores de Y porque contendrá todas las medias condicionales de
Y, y la media de cualquier distribución es el punto de variación mínima.
Las medias condicionales se encuentran sumando todos los valores Y para cada valor
de X y luego dividiendo por la cantidad de valores sumados.
Ecuación de la recta
Y= a + bX
Donde:
Y = valor en la variable dependiente
a = ordenada al origen, punto donde la línea de regresión corta al eje Y
b = la pendiente de la recta de regresión, es la cantidad de aumento que se produce en
promedio en Y por una unidad de aumento en X
X = valor de la variable independiente
Esta fórmula describe la recta de regresión de "mínimos cuadrados", o la recta de regresión
que mejor ajusta el modelo de los puntos datos. Esta fórmula introduce dos nuevos
conceptos:
1. La ordenada al origen, Y, es el punto en el cual la recta de regresión corta al eje Y.
2. La pendiente b de la recta de regresión de mínimos cuadrados es la cantidad de cambio
producido en la variable dependiente Y por una unidad de cambio en la variable
independiente X. Piense en la pendiente de la recta de regresión como una medida del
efeto de la variable X en la variable Y,
A medida que el efecto de X en Y disminuye, disminuye la asociación entre las variables y
el valor de la pendiente b disminuye. Si las dos variables no están relacionadas, la recta de
Resumen
regresión de mínimos cuadrados será paralela al eje de abcisas, y b será igual a 0, la recta
no tendría pendiente.
El cálculo de a y b
b=
�( X - X )(Y - Y )
�( X - X ) 2
El numerador de esta fórmula es proporcional a la llamada covariación de X e Y, la cual se

expresa mediante la fórmula siguiente:
COV ( X ; Y ) =
�( X - X )(Y - Y )
n
Es una medida de cómo X e Y varían juntos, y su valor reflejará tanto la dirección como la
fuerza de la relación entre ambas variables. En lugar de la fórmula de b anterior
usaremos otra que es más accesible:
n�XY - ( �X ) ( �Y )
b=
n�( X 2 ) - ( �X )
2
donde:
b = la pendiente
n = número de casos
�X = la sumatoria de los valores de X
�XY = sumatoria de los productos cruzados
�Y = la sumatoria de los valores de Y
�X = la sumatoria de los cuadrados de X
2
Es fácil de aplicar si se utiliza una tabla con rótulos: X, Y, X2, Y2, XY
En Cálculo Diferencial, b es La derivada de la íunción Y = a + b.X con respecto a X

dY
=b
dX
La aproximación por incrementos nos da
DY
=b
DX
Calculo de a
a = Y - bX
Luego la ecuación completa de la recta de regresión en nuestro caso, resulta: Y = a +
bX .Esta fórmula puede utilizarse para estimar o predecir valores en Y para cualquier
valor dado de X.
Podemos decir que cuanto más se ajusten los puntos a la recta de regresión de
mínimos cuadrados, más seguros estaremos de nuestras predicciones de Y en Dicho
en otras palabras, designar las variables como dependientes o independientes se refiere
aquí al significado matemático o funcional de dependencia; no implica dependencia
estadística ni esquema causa-efecto.
Supuestos del modelo de regresión
En regresión, una relación funcional no significa que, dado un valor de X, el valor de Y deba
ser a + b. X, sino más bien que la esperanza matemática de Y es a + b.X.
El más común de los modelos de regresión (el llamado modelo tipo I) está basado en
cuatro supuestos:
Resumen
1.La variable X se mide sin error. Por esto decimos que los valores de X son "fijos", o sea que
la variable X es conocida por el observador. Esto significa que solamente Y, la variable
dependiente, es una variable aleatoria. X no varía al azar sino que está bajo control del
observador y por lo tanto es una variable estadística.
2.El valor esperado de Y para un determinado valor de X está descrito por la función
lineal:
my = a + b X
Esto equivale a suponer que la relación entre X e Y es lineal y que la esperanza matemática
de los errores ei de las Yi es cero, o sea que: E(εi) = 0, para todo i.
3.Para cualquier valor dado xi, las observaciones Yi son variables aleatorias que se
distribuyen independiente y normalmente. Es decir que el error aleatorio ei de cada
observación Yi, es una variable aleatoria normalmente distribuida con esperanza
matemática cero. En símbolos: εi ~ N(0;σ), E(εi, εj)=0
4.La varianza de la distribución condicional de Y dado que X = xo, se representa por σY/X=x0 y
se la llama directamente varianza de la distribución condicional de Y dado que X = x0. Se
supone que esta medida es constante, cualquiera que sea el valor de X y es un valor al que
representaremos directamente por σ2Y/X, llamándola varianza de la regresión. Esta
propiedad se llama a veces homoscedasticidad.
El coeficiente de correlación r de Pearson

Como una medida de la asociación entre dos variables de razón o de intervalo, los
investigadores casi exclusivamente confían en una medida llamada r de Pearson o
coeficiente de correlación.
El coeficiente de Pearson varía entre -1 y +1. 0 indica que no hay asociación, +1 indica
una relación perfecta positiva y -1 indica una relación perfecta negativa.
La fórmula de cálculo de r es la siguiente:
r=
�( X - X )(Y - Y )
�( X - X )2 . �(Y - Y )2
Observe que el numerador de esta fórmula es proporcional a la covariación de X e Y ,
como ocurría en la fórmula de b.
Para simplificar los cálculos preferimos la fórmula siguiente:
n�XY - �X �Y
r=
( ) (
n�X 2 - ( �X ) - n�Y 2 - ( �Y ) )
Este valor indica una relación moderada positiva entre las variables.
Interpretación del coeficiente de determinación r2
El coeficiente r no nos permite una interpretación integral de los valores que se

encuentran entre -1 y +1.
Podemos realizar una interpretación más directa, afortunadamente, calculando el
llamado coeficiente de determinación, que no es más que r 2.
Recordemos el concepto del principio de variación mínima, expresado como:
�(Y - Y )2 = Minimo
Si predecimos la media de Y para cada caso, cometeremos la menor cantidad de
errores de predicción que si predecimos cualquier otro valor de Y
Concretamente, se pueden encontrar dos sumatorias diferentes y luego comparar con
la variación total para construir un estadístico que indique el cambio en la predicción.
La primera suma, llamada la variación explicada, representa la mejoría en nuestra
habilidad para predecir Y cuando X es tenida en cuenta
Resumen
Variación Explicada:
�(Y ´-Y ) 2
Luego el resultado puede ser comparado con la variación total en Y, expresada por la
Variación Total
�(Y - Y )2
A medida que una de estas sumas aumenta en valor, la otra disminuye.
Esta comparación mejora nuestra habilidad para predecir Y a partir del conocimiento de
X.
Matemáticamente lo mostramos así:
2
r = variación explicada / variación total =
� (Y ´-Y ) 2
�(Y - Y )2
r2 indica en qué medida el conocimiento de X nos ayuda a predecir o entender o
explicar a Y.
La proporción de variación total en Y que no es explicada por X se puede encontrar
restando el valor de r2 de 1. Es decir que dicha expresión representa la llamada
variación residual, resultando: Variación residual = 1 – r 2.
La variación no explicada normalmente es atribuida a la influencia de la combinación de
otras variables, a la medida del error, y los cambios aleatorios.
Como usted podrá ver, la variación explicada y no explicada guardan una relación
reciprocada cada una con la otra.
Cuanto más fuerte es la relación lineal entre X e Y, cuanto mayor es el valor de la
variación explicada, menor es la variación no explicada.
En el caso de una relación perfecta (r = +1 o r = -1), la variación no explicada será igual
a 0 y r2 = 1. Esto indica que X explica toda la variación en Y y que podemos predecir Y
a partir de X sin error.
Por otra parte, cuando X e Y no están relacionadas linealmente (r = 0), la variación
explicada será igual a 0 y r2 será 0 también.
El test de significatividad de Pearson para r
Cuando la relación medida por el coeficiente r de Pearson está basada en datos que
provienen de una muestra aleatoria, se deberá probar la significatividad estadística de
r.
El parámetro poblacional es simbolizado por ρ (rho), y la distribución de muestreo
apropiada es la distribución t- de Student.
Para realizar este test, debemos realizar algunas suposiciones:
1.Debemos suponer que ambas variables tienen distribución normal.
2.La relación entre las dos variables es lineal en cuento a su forma.
3.Homoscedasticidad, significa que la variancia de Y es uniforme para todos los valores
de X.
Luego realizaremos el test de significatividad en 5 pasos:
Paso 1: Suposiciones
• Muestra aleatoria
• Nivel de medición intervalar o de razón
• Distribución bivariada normal
• Relación lineal entre X e Y
• Homoscedasticidad
• Distribución en el muestreo normal
Paso 2: Fijando la hipótesis nula
H 0: ρ =0 contra H1: ρ 0
Paso 3: Seleccionando la distribución en el muestreo y estableciendo la región crítica
Resumen
Suponiendo la hipótesis nula de no relación en la población, la distribución en el

muestreo de todas las muestras posibles de r es aproximada por la distribución t de
Student. El número de grados de libertad es (n-2)
Tomando α = 0.05, resulta t(crítico) = ± 2.228
Paso 4: Realizando el test estadístico
n-2
t(obtenido) = r
1- r2
10
t ( obtenido ) = 0,5 = 1,83
0, 75
Paso 5: Tomando una decisión
Con los resultados obtenidos, no debemos rechazar la hipótesis nula al 5% de
significación.
A pesar de que las variables están relacionadas en la muestra, no tenemos suficiente
evidencia para concluir que las variables están también relacionadas en la población.
El test indica que el valor de muestra de r = 0.50 puede haber ocurrido por azar y las
variables en la población no están relacionadas.
Resumen

Probabilidad Resumenlibro

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad Resumenlibro

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadísticas Página 1 de 64

MATERIA PRIMA (datos numéricos o categorías)PRODUCTO (información útil o

INDEC (Instituto Nacional de Estadísticas y Censos)

Estadística Descriptiva e Inferencial

Conceptos básicos de la estadística

SE DEBE INDICAR EL NIVEL DE MEDICIÓN E ITEMS.

Etapas de una investigación estadística

Tratamiento de variables cualitativas

Observe que, a diferencia de la proporción, la razón es un número que puede ser

Tratamiento de variables cuantitativas

Tablas para datos agrupados en serie de frecuencias

Ejemplo: En una planta procesadora de alimentos se observó, durante 30 días

Las frecuencias relativas no son mas que proporciones, ya que representan la

A estos gráficos se los denomina gráficos escalonados

Tablas para datos agrupados en intervalos de clase

agrupada en intervalos, mediante un gráfico de superficies. Sobre el eje de las abscisas

Cálculo de la media aritmética para datos agrupados en series de frecuencia:

Cálculo de la media aritmética para datos agrupados en intervalos de clase:

Propiedades de la media aritmética

�(m - x ) fa = 0 Para datos agrupados.

Si todos los valores observados de la variable se ordenan en sentido creciente (o

Cálculo de la mediana para datos no agrupados:

Cálculo de la mediana para datos agrupados como serie de frecuencias:

Veamos el cálculo de la mediana para el número de interrupciones en la planta

Fai. La segunda operación es calcular n/2, El tercer paso es localizar la primera

Calculo de la mediana para datos agrupados en intervalos de clase

Cálculo del modo para datos agrupados como serie de frecuencias:

En este caso, el modo se obtiene con extrema rapidez: en la distribución de frecuencias

Cálculo del modo para datos agrupados en intervalos de clase:

Al exponer los principales promedios -media aritmética, mediana y modo- hemos

que los valores observados anormalmente grandes o anormalmente pequeños no

La simbolizamos con xg y se calcula como:

La simbolizaremos con xa , de n observaciones de una variable se calcula como:

Si los datos están agrupados, la calculamos así

O reemplazamos los xi por mi si tenemos intervalos de clases.

Medidas de dispersión absoluta

Rango entre Fractiles

Se define como el promedio de los valores absolutos de los desvíos:

Si los datos están agrupados en intervalos, debemos cambiar x i por mi en la fórmula

La simbolizaremos con S2 variancia muestral.

 Para intervalos de clase

Desviación Típica (S)

Desarrollamos el cuadrado del binomio

Aplicamos propiedad distributiva

Propiedades de la desviación típica

• Cuando la función de densidad de probabilidad (curva continua que aproxima a los

Diagrama de tallo y hojas

En general, en un experimento que involucra una variable aleatoria continua, la función

muestra a continuación. Las hojas se escriben en el lado derecho de la línea, en

Medidas de dispersión relativas

Toda medida de variación absoluta tiene significación solamente con relación al

Medidas de asimetría y de curtosis

La asimetría o sesgo de una distribución se refiere a la falta de simetría. Si la curva

Si la distribución es unimodal y simétrica, estas tres medidas coinciden. Para una

 La misma cantidad absoluta de asimetría tiene un significado diferente para

Es el grado de agudeza o apuntamiento de una distribución. Al coeficiente de curtosis

Cuando la amplitud de una variable se aproxima al infinito, y para una curva

Podemos saber que el número de parejas posibles que decíamos antes es 6 si

Relación de la Probabilidad con las partes de la Estadística

LAS PROBABILIDADES SE EXPRESAN COMO FRACCIONES O COMO DECIMALES

Conceptos básicos de probabilidad

En la teoría de la probabilidad, un evento o suceso es uno o varios de los resultados

En la teoría de la probabilidad, se le llama experimento a la actividad que produce un