ESTADISTICA Trabajo Final

"Año de la lucha contra la corrupción e impunidad",
UNIVERSIDAD NACIONAL DE UCAYALI

FALCULTAD DE DERECHO Y CIENCIENCIAS POLITICAS
ESCUELA DE DERECHO
TRABAJO FINAL DE
ESTADISTICA BASICA
INTEGRANTES:
Palomino Roman Karen Alejandra
Gomez Vela Almendra Ivonne
Quevedo Ríos Edu
DOCENTE:
Dr. Francisco Eduardo Rengifo Silva
CURSO:
Estadística básica
Pucallpa-Perú
2019
DEDICATORIA:
Este presente trabajo monográfico se lo

dedico a nuestro querido maestro, guía de
nuestro sendero para el cumplir de
nuestros objetivos el profesor FRANCISCO
quien nos inculca y comparte sus
conocimientos para con nosotros.
Y a todos nuestros compañeros ya que

esto les será útil para el desenvolvimiento
profesional de cada uno.
INDICE
Capítulo I
1. MEDIDAS DE RESUMEN
1.1. Medidas de tendencia central
1.1.1. La media aritmética
1.1.2. La mediana
1.1.3. La moda
1.2. Medidas de posición o cuantilas
1.2.1. Cuartiles
1.2.2. Deciles
1.2.3. Percentiles
1.3. Medidas de dispersión o variabilidad
1.3.1. Rango o recorrido de unas variables
1.3.2. Rango intercuartil
1.3.3. Rango semi intercuartil
1.3.4. Varianza
1.3.5. Desviación estándar o típica
1.3.6. Coeficiente de variación
1.4. Medidas de asimetría
1.4.1. El coeficiente de asimetría de Pearson
1.4.2. La media asimétrica
1.5. Medidas de kurtosis
1.6. Diagrama de caja
Capítulo II
2. DISTRIBUCIONES BINOMIALES DE FRECUENCIAS
2.1. Tipos de variable estadística bidimensional
2.2. Representación de la información mediante tablas bidimensionales
2.3. Distribuciones marginales
2.4. Frecuencias relativas bidimensionales
2.5. Propiedades de las frecuencias bidimensionales
2.6. Medidas estadísticas en una distribución bidimensional de
frecuencias
2.6.1. Medias y varianzas marginales para las variables X e Y
2.6.2. Covarianza
Capítulo III
3. NOCIONES DE PROBABILIDAD
3.1. Experimento
3.1.1. Experimento determinístico
3.1.2. Experimento aleatorio
3.1.3. Características de un experimento aleatorio
3.2. Espacio muestral
3.2.1. Espacio muestral discreto
3.2.2. Espacio muestral continuo
3.3. Eventos
3.3.1. Tipos de eventos
3.3.2. Operaciones con eventos
3.3.3. Eventos mutuamente excluyentes y colectivamente exhaustivos
3.3.4. Propiedades de las operaciones con eventos
3.4. Probabilidad
3.5. Tipos de probabilidad
3.5.1. Probabilidad clásica
3.5.2. Probabilidad de frecuencia relativa
3.5.3. Probabilidad subjetiva
3.6. Axiomas de probabilidad
3.7. Teoremas de los axiomas de probabilidad
3.8. Probabilidad condicional
3.9. Reglas de probabilidad
3.9.1. Probabilidad del producto
3.9.2. Probabilidad de la suma
Tablas de contingencia y tablas de probabilidad
3.10.1. Tablas de contingencia
3.10.2. Tablas de probabilidad
Teorema de Bayes
3.11.1. Partición de un espacio muestral
3.11.2. Probabilidad total
3.11.3. Teorema de bayes
3.10.
3.11.
Capítulo IV
4. DISTRIBUCIONES DE PROBABILIDAD IMPORTANTES
4.1. Distribuciones de probabilidad de tipo discreto
4.1.1. Distribución de Bernoulli
4.1.2. Distribución binomial
4.1.2.1. Uso de la tabla de la distribución binomial
4.1.3. Distribución de Poison
4.1.3.1. Distribución de poison como aproximación de la binomial
4.1.3.2. Uso de la tabla de la distribución de poison
4.2. Distribuciones de probabilidad de tipo continuo
4.2.1. Distribución normal
4.2.1.1. Uso de tablas de la distribución normal estándar
4.2.1.2. Propiedades para el cálculo de otras áreas en la distribución
normal
Estándar
4.2.1.3. Aplicaciones de la distribución normal estándar
4.2.1.4. Distribución t de student
4.2.1.5. Uso de tablas de la distribución t de student
4.2.2. Distribución chi cuadrado
4.2.2.1. Uso de la tabla de la distribución chi cuadrado
4.2.3. Propiedades de la distribución normal
4.2.3.1. La distribución normal estándar
Capítulo V
5. INTRODUCCION A LA INFERENCIA ESTADISTICA

5.1. Estimación de parámetros
5.1.1. Estimación puntual
5.1.2. Estimación por intervalos
5.1.2.1. Intervalo de confianza para la media poblacional
5.1.2.2. Intervalos de confianza para la proporción poblacional
5.1.2.3. Intervalos para la diferencia de medias poblacionales
5.1.2.4. Intervalos de confianza para la diferencia de medias
5.1.2.5. Intervalo de confianza para la diferencia de proporciones
poblacionales
5.2. Prueba de hipótesis
5.2.1. Prueba de hipótesis para la media poblacional
5.2.2. Prueba de hipótesis para la proporción poblacional
5.2.3. Prueba de hipótesis para la diferencia de medias poblacionales
5.2.4. Prueba de hipótesis para la diferencia de medias poblacionales con
observaciones
pareadas
5.2.5. Prueba de hipótesis para la diferencia de proporciones
poblacionales
5.3. Análisis de regresión lineal simple
5.3.1. Elección de una relación funcional
5.3.2. El método de los mínimos cuadrados ordinarios
5.4. Análisis de correlación lineal simple
5.5. Prueba de independencia
Capítulo VI
6. INTRODUCCION A LAS TECNICAS DE MUESTREO
6.1. Tipos de muestreo
6.1.1. Métodos de muestreo probabilístico
6.1.2. Métodos de muestreo no probabilístlco
6.2. Calculo del tamaño muestral
6.2.1. Para el muestreo aleatorio simple
6.2.2. Para el muestreo aleatorio sistemático
6.2.3. Para el muestreo aleatorio estratificado
6.2.4. Para el muestreo aleatorio por conglomerado
CAPITULO I
1. MEDIDAS DE RESUMEN
1.1. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son medidas estadísticas que
pretenden resumir en un solo valor a un conjunto de valores.
Representan a un centro en torno al cual se encuentra ubicado el
conjunto de los datos. Las medidas de tendencia central más
utilizadas son: media, mediana, y moda. (Quevedo, 2011)
1.1.1. LA MEDIA ARITMÉTICA

La media aritmética es el promedio o medición de tendencia
central de uso más común. Se calcula sumando todas las
observaciones de una serie de datos y luego dividiendo el
total entre el número de elementos involucrados.
La expresión algebraica puede describirse como:
Para simplificar la notación se usa convencionalmente el

término:
donde:
= media aritmética de la muestra
= sumatoria de todos los valores de Xi
1.1.2. LA MEDIANA
La mediana es el valor medio de una secuencia ordenada de
datos. Si no hay empates, la mitad de las observaciones
serán menores y la otra mitad serán mayores. La mediana no
se ve afectada por ninguna observación extrema de una serie
de datos. Por tanto, siempre que esté presente una
observación extrema es apropiada usar la mediana en vez de
la media para describir una serie de datos.
Para calcular la mediana de una serie de datos recolectados
en su forma sin procesar, primero debemos poner los datos
en una clasificación ordenada. Después usamos la fórmula de
punto de posicionamiento:
Para encontrar el lugar de la clasificación ordenada que

corresponde al valor de la mediana, se sigue una de las dos
reglas:
1. Si el tamaño de la muestra es un número impar, la mediana

se representa mediante el valor numérico correspondiente al
punto de posicionamiento, la observación ordenada es
(n+1)/2.
2. Si el tamaño de la muestra es un número par entonces el
punto de posicionamiento cae entre las dos observaciones
medias de la clasificación ordenada. La mediana es el
promedio de los valores numéricos correspondientes a estas
dos observaciones medias.
La mediana se representa por Me. La mediana se puede

hallar sólo para variables cuantitativas.
- Cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia

acumulada llega hasta la mitad de la suma de las frecuencias
absolutas.
Es decir tenemos que buscar el intervalo en el que se
encuentre.
N/2
Luego calculamos según la siguiente fórmula:
Li-1 es el límite inferior de la clase donde se encuentra la
mediana.
N / 2 es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
fi es la frecuencia absoluta del intervalo mediano.
ti es la amplitud de los intervalos.
1.1.3. LA MODA
La moda o modo es el valor de una serie de datos que

aparece con más frecuencia. Se obtiene fácilmente de una
clasificación ordenada. A diferencia de la media aritmética, la
moda no se ve afectada por la ocurrencia de los valores
extremos.
Ejemplo: Los valores siguientes son las calificaciones de un
alumno durante todo el año
7; 8; 9; 7; 9; 8; 8; 8; 7; 8
Podemos afirmar entonces que el modo es igual a 8, dado
que es el valor que aparece con más frecuencia. (Jauregui,
2016)
La moda se representa por Mo.
- Todos los intervalos tienen la misma amplitud.
Li Extremo inferior del intervalo modal (intervalo que tiene

mayor frecuencia absoluta).
fi Frecuencia absoluta del intervalo modal.
fi-1 Frecuencia absoluta del intervalo anterior al modal.
fi+1 Frecuencia absoluta del intervalo posterior al modal.
ti Amplitud de los intervalos.
- Si los intervalos tienen amplitudes distintas.
En primer lugar tenemos que hallar las alturas.

hi= fi/ ti
Donde:
hi: altura correspondiente a cada intervalo.
fi: Frecuencia absoluta del intervalo (también se puede utilizar
la frecuencia acumulada o relativa)
ti: Amplitud de los intervalos
Luego la clase modal es la que tiene mayor altura. (Anónimo,
s.f)
1.4. MEDIDAS DE ASIMETRÍA

Es una medida de forma de una distribución que permite identificar y
describir la manera como los datos tiende a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la distribución. Permite identificar las
características de la distribución de datos sin necesidad de generar el
gráfico. (Suárez, s.f)
1.4.1. EL COEFICIENTE DE ASIMETRÍA DE PEARSON
Donde:
= media aritmética.
Md = Mediana.
s = desviación típica o estándar.
Nota:
El Coeficiente de Pearson varía entre -3 y 3
Si As < 0 ? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
1.4.2. LA MEDIA ASIMETRICA

Esta medida nos permite identificar si los datos se distribuyen de forma
uniforme alrededor del punto central (Media aritmética). La asimetría
presenta tres estados diferentes, cada uno de los cuales define de
forma concisa como están distribuidos los datos respecto al eje de
asimetría. Se dice que la asimetría es positiva cuando la mayoría de los
datos se encuentran por encima del valor de la media aritmética, la
curva es Simétrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce
como asimetría negativa cuando la mayor cantidad de datos se
aglomeran en los valores menores que la media.
El Coeficiente de asimetría, se representa mediante la ecuación
matemática, de Pearson. (SPSS FREE, s.f)
1.2. MEDIDAS DE POSICIÓN O CUANTILAS
Las medidas de posición relativa se llaman en general cuantiles y se

pueden clasificar en tres grandes grupos: Cuartiles, quintiles, deciles,
percentiles.
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles

dividen a una distribución ordenada en partes iguales. Para calcular las
medidas de posición es necesario que los datos estén ordenados de menor
a mayor.
1.2.1. Cuartiles(Qn):
son los tres valores de la variable de una distribución

que la dividen en cuatro partes iguales, es decir, al 25%, 50% y
75%. Para calcular el valor de uno de los cuatro Cuartiles, se utiliza la
fórmula:
- Qk = k (n/4)
En donde:
- Qk = Cuartil número 1, 2, 3 ó 4
n = total de datos de la distribución.
Se advierte que la posición del segundo cuartil corresponde a la

ubicación de la mediana, es decir que el segundo cuartil será siempre
igual a la mediana.
Para calcular los cuartiles (datos no agrupados) debes seguir los
siguientes pasos:
1º Se ordenan los datos de menor a mayor.
2º Se determina la posición que ocupa cada cuartil mediante la

fórmula: Qk = k (n/4)
Para que te quede más claro:
- El primer cuartil (Q1) es el valor de la variable que supera a lo más

el 25 % de los datos y es superado por a lo más el 75 % de ellos en
la distibución ordenada de menor a mayor.
- El segundo cuartil (Q2) es un valor que supera a lo más el 50 % de

los datos y es superado por a lo más el 50 % de ellos, es decir,
Q2 coincide con la mediana.
- El tercer cuartil (Q3) es un valor que supera a lo más al 75 % de los

datos y es superado por a lo más el 25 % de ellos.
Ejemplos:
a) Dado el siguiente conjunto de datos: 2 ; 5 ; 9 ; 3 ; 13 ; 10 ; 11 ; 6 ; 7.
¿Cuál es el valor del tercer cuartil?
1° ordenamos los datos de menor a mayor:
2; 3; 5; 6; 7; 9; 10; 11; 13
n= 9
2º Se determina la posición que ocupa cada cuartil mediante la

fórmula: Qk = k (n/4)
Q3 = 3 (9 /4)
Q3 = 6,75; En caso de ser un número decimal se aproxima al entero más
cercano superior , que sería 7. Este valor indica la posición del cuartil 3.
En nuestro caso el 7° valor sería :
2; 3; 5; 6; 7; 9; 10; 11; 13
Respuesta: el valor del tercer cuartil sería 10
b) Dadas las siguientes tablas de datos. Calcule los cuartiles Q1,Q2,Q3
Respuesta:
En la primera serie el número total de datos es n = 70, por lo que:

- Q1 → 1(n/4) = 1( 70/4 ) = 17,5 (indica la posición en que se encuentra
el Q1)
- Q2→ 2 (n/4) = 2 (70/4) = 35 (indica la posición en que se encuentra

el Q2)
- Q3→ 3 (n/4) =3 (70/4) = 52,5 (indica la posición en que se encuentra

el Q3)
Y se desprende directamente de la tabla de frecuencias absolutas que:
- Q1 = 5, ya que si nos fijamos en la tabla el número 17,5 se encuentra

contenido en el número 32 de la tabla.
- Q2 = 7, ya que si nos fijamos en la tabla el número 35 se encuentra
contenido en el número 52 de la tabla.
- Q3 = 10, ya que si nos fijamos en la tabla el número 52,5 se
encuentra contenido en el número 66 de la tabla.
En la segunda serie el número total de datos es n = 64, por lo que:

Q1 → 1(n/4) = 1( 64/4 ) = 16
Q2→ 2 (n/4) = 2 (64/4) = 32
Q3→ 3 (n/4) =3 (64/4) = 48
Y se desprende directamente de la tabla de frecuencias absolutas que:
Q1 = 5
Q2 = (5+7) / 2 = 6
Q3 = 7
1.2.2. Deciles:
Corresponden a los 9 valores que dividen a estos en 10 partes iguales

es decir, al 10%, al 20%... y al 90%. Los Deciles se designan por D1,
D2,..., D9.
1.2.3. Percentiles (Pn):
Son los noventa y nueve valores de la variable de una distribución que la

dividen en cien partes iguales es decir, al 1%, al 2%... y al 99% de los
datos. Los percentiles se designan por P1, P2,... P99
P50 coincide con la mediana.
El percentil p (Pp) es un valor de la variable tal que el p% de la muestra

está por debajo y el (100p) % está sobre.
Al tener una tabla de frecuencias, el percentil de orden K (Pk) se
calcula siguiendo los siguientes pasos:
1° Se determina el intervalo al cual pertenece el percentil por calcular en

la tabla de frecuencias:
en donde:
K = {1, 2, …, 99}
n es el número de datos. Si es decimal se aproxima al entero más
cercano superior.
Buscamos este valor en la columna de la frecuencia acumulada. El cual

es el primer valor de x cuya frecuencia acumulada sobrepasa el
resultado de este cálculo.
2° Luego, Para calcular el percentil Pk correspondiente al k% de los

datos se puede utilizar la siguiente fórmula:
Dónde:
Li es el límite inferior del intervalo donde se encuentra el
k% de los datos.
ai es la amplitud del intervalo donde se encuentra el k% de los datos.
fi es la frecuencia absoluta del intervalo donde se encuentra el k% de los
datos.
Fi-1 es la frecuencia acumulada anterior al intervalo donde se encuentra
el k% de los datos.
n es el total de datos.
1.3. MEDIDAS DE DISPERSIÓN O VARIABILIDAD
Las medidas de dispersión muestran la variabilidad de una distribución,

indicándolo por medio de un número, si las diferentes puntuaciones de
una variable están muy alejadas de la media. Cuanto mayor sea ese
valor, mayor será la variabilidad, cuanto menor sea, más homogénea será
a la media. Así se sabe si todos los casos son parecidos o varían mucho
entre ellos.
- Medidas
Las medidas de dispersión son números reales no negativos, su valor es

igual a cero cuando los datos son iguales y este se incrementa a medida
que los datos se vuelven más diversos.
Para calcular la variabilidad que una distribución tiene respecto de su

media, se calcula la media de las desviaciones de las puntuaciones
respecto a la media aritmética. Pero la suma de desviaciones positivas y
negativas podrían cancelarse entre sí, así que se adoptan dos clases de
estrategias para salvar este problema. Una es tomando las desviaciones
en valor absoluto (por ejemplo desviación media) y otra es tomando las
desviaciones al cuadrado (por ejemplo varianza).
- Medidas dimensionales
La mayoría de las medidas de dispersión se encuentran en las mismas

unidades de la cantidad que está siendo medida. Entre ellas se
encuentran principalmente:
1.3.1. Rango o recorrido de unas variables
Se define el rango o recorrido de una variable estadística como la
diferencia entre el mayor y el menor valor de la variable. El rango indica
la longitud del intervalo en el que se hallan todos los datos de la
distribución. El rango es una medida de dispersión importante aunque
insuficiente para valorar convenientemente la variabilidad de los datos.
Supongamos que el rango en que se mueven las notas de 6 exámenes
es de 9 puntos. Existen muchas y distintas posibilidades que pueden dar
lugar a ese rango.
- Rango: En estadística el es la diferencia entre el valor máximo y el

valor mínimo en un grupo de números aleatorios. Se le suele
simbolizar con R.
- Medio rango: el rango medio o extremo medio de un conjunto de
valores de datos estadísticos es la media aritmética de los valores
máximos y mínimos de un conjunto de datos.
1.3.2. Rango intercuartil
Se le llama rango intercuartílico o rango intercuartil, a la diferencia entre

el tercer y el primer cuartil de una distribución. Es una medida de la
dispersión estadística es una medida de dispersión estadística, igual a la
diferencia entre los percentiles 75 y 25.
1.3.3. Rango semi intercuartil
Es la distancia entre el primer y tercer cuartiles. Es algunas veces

llamado la dispersión H y es una medida estable de desembolso. Se
obtiene al evaluar
Q 3 – Q 1.
1.3.4. Varianza
En teoría de probabilidad, la varianza de una variable aleatoria es una
medida de dispersión definida como la esperanza del cuadrado de la
desviación de dicha variable respecto a su media.
1.3.5. Desviación estándar o típica
La desviación estándar es la medida de dispersión más común, que

indica qué tan dispersos están los datos con respecto a la media.
La desviación típica informa sobre la dispersión de los datos respecto al

valor de la media.
1.3.6. Coeficiente de variación

En estadística, cuando se desea hacer referencia a la relación entre el
tamaño de la media y la variabilidad de la variable, se utiliza el
coeficiente de variación.
Su fórmula expresa la desviación estándar como porcentaje de la media

aritmética, mostrando una mejor interpretación porcentual del grado de
variabilidad que la desviación típica o estándar.
1.4. MEDIDAS DE ASIMETRÍA
Es una medida de forma de una distribución que permite identificar y

describir la manera como los datos tiende a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la distribución. Permite identificar
las características de la distribución de datos sin necesidad de generar el
gráfico. (Suárez, s.f)
1.4.1. El coeficiente de asimetría de pearson
Donde:
= media aritmética.
Md = Mediana.
s = desviación típica o estándar.
Nota:
El Coeficiente de Pearson varía entre -3 y 3
Si As < 0 ? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
1.4.2. LA MEDIA ASIMETRICA
Esta medida nos permite identificar si los datos se distribuyen de forma

uniforme alrededor del punto central (Media aritmética). La asimetría
presenta tres estados diferentes, cada uno de los cuales define de forma
concisa como están distribuidos los datos respecto al eje de asimetría.
Se dice que la asimetría es positiva cuando la mayoría de los datos se
encuentran por encima del valor de la media aritmética, la curva
es Simétrica cuando se distribuyen aproximadamente la misma cantidad
de valores en ambos lados de la media y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores
menores que la media.
El Coeficiente de asimetría, se representa mediante la ecuación
matemática, de Pearson. (SPSS FREE, s.f)
1.5. MEDIDAS DE KURTOSIS
La curtosis (o apuntamiento) es una medida de forma que mide cuán

escarpada o achatada está una curva o distribución. Este coeficiente
indica la cantidad de datos que hay cercanos a la media, de manera que a
mayor grado de curtosis, más escarpada (o apuntada) será la forma de la
curva.
La curtosis se mide promediando la cuarta potencia de la diferencia entre

cada elemento del conjunto y la media, dividido entre la desviación típica
elevado también a la cuarta potencia.
- Fórmula de la curtosis
En la fórmula se resta 3 porque es la curtosis de una distribución Normal.

Entonces la curtosis valdrá 0 para la Normal, tomándose a ésta como
referencia.
1.6. DIAGRAMA DE CAJA
Los diagramas de caja son una forma útil de graficar datos divididos en
cuatro cuartiles, cada uno con igual cantidad de valores. El diagrama de
caja no grafica frecuencia ni muestra las estadísticas individuales, pero en
ellos podemos ver claramente dónde se encuentra la mitad de los datos.
Es un buen diagrama para analizar la asimetría en los datos.
A continuación, te dejamos algunas palabras que debes tener en cuenta

cuando graficas diagramas de caja:
 Q1 – Cuartil 1, la mediana de la mitad menor de los datos.

 Q2 – Cuartil 2, la mediana de todos los datos.
 Q3 – Cuartil 3, la mediana de la mitad mayor de los datos.
 IQR – Rango intercuartil, la diferencia entre Q3 y Q1.
 Valores extremos – Los valores más pequeños y los más grandes de los
datos.
Comencemos haciendo un diagrama de caja de la puntuación en el

examen de geometría:
90, 94, 53, 68, 79, 84, 87, 72, 70, 69, 65, 89, 85, 83, 72
Paso 1: ordena los datos de menor a mayor.
53 65 68 69 70 72 79 83 84 85 87 89 90 94
Paso 2: encuentra la mediana de los datos.
Llamado también cuartil 2 (Q2).
Paso 3: encuentra la mediana de los datos menores que Q2.
Este sería el cuartil menor (Q1).
Paso 4: encuentra la mediana de la data mayor que Q2.
Este sería el cuartil mayor (Q3).

Paso 5: encuentra los valores extremos.
Estos serían los valores más grandes y más pequeños.
Valores extremos = 53 y 94.
Paso 6: crea una recta real que contenga todos los datos.
Deja que se extienda un poco más allá de los valores extremos.
Paso 7: dibuja una caja de Q1 a Q3 divididas por una recta en

Q2. Luego extiende los "bigotes" por cada lado de la caja hacia los
valores extremos.
Esta gráfica está dividida en cuatro grupos distintos: el bigote menor, la

mitad menor de la caja, la mitad mayor de la caja y el bigote mayor (el
bigote mayor no se refiere a Jorge Negrete). Como en cada grupo hay
una misma cantidad de datos, cada sección representa el 25% de los
mismos.
A través de este diagrama vemos que el 50% de los estudiantes obtuvo

entre 69 y 87 puntos, el 75% de los estudiantes obtuvo menos de 87
puntos y el 50% obtuvo más de 79. Si tu puntuación estuvo en el bigote
mayor, siéntete orgulloso de ti mismo, ya que sacaste mejor nota que el
75% de tus compañeros. Si por el contrario, tu nota estuvo en el bigote
menor, quizás tengas que estudiar un poco más (y ver las películas de
Jorge Negrete después de estudiar).
- Valores atípicos
Los valores atípicos son aquellos mucho más grandes o mucho más
pequeños que el resto de los datos. Se representan con un punto en
cualquier extremo del diagrama. En nuestro ejemplo no hubo ningún valor
atípico; y aunque 53 parece ser mucho más pequeño que el resto, en
realidad no fue lo suficientemente pequeño.
Para ser considerado un valor atípico, el valor debe ser:
 mayor que Q3 por, al menos, 1.5 veces el rango intercuartil (IQR), ó

 menor que Q1 por, al menos, 1.5 veces el IQR.
Los valores atípicos son aquellos que:
(IQR)>Q3
(IQR) < Q1
A continuación, te presentamos los resultados individuales finales de salto

de esquí masculino de los Juegos Olímpicos de invierno.
283.6 269.4 262.2 261.1 246.7
245.5 239.2 233.7 230.3 227.9
226.4 225.5 224.1 223.6 222.3
221.4 217.8 217.2 216.9 211.6
211.4 208.5 204.9 202.7 202.4
200.5 198.5 182.4 111

Los cuartiles quedan así: Q1 sería 208.5, Q2 sería 222.3 y Q3 sería
236.45. La puntuación más baja (111) parece ser un valor atípico, ya que
es mucho más pequeña que el resto de los datos. Sin embargo, no
podemos estar seguros hasta que saquemos las cuentas.
Primero debemos calcular el IQR, que es Q3 – Q1. Luego lo multiplicamos

por 1.5 para obtener el número que necesitamos para saber si hay algún
valor atípico.
IQR = 236.45 – 208.50 = 27.95
1.5(IQR) = 1.5(27.95) = 41.93
208.5 – 41.93 = 166.57
Para que el número en cuestión (111) califique como un valor atípico,

debe ser menor a 166.57, que es la diferencia entre Q1 (208.5) y 41.93.
¡Sí, es! Como 111 es menor a 166.57, entonces declaramos oficialmente

a 111 como un valor atípico. Al hacer el diagrama de caja, representamos
a 111 con un punto y extendemos el bigote menor solo hasta el siguiente
valor menor (que sería 182.4).
Quizá deberíamos verificar que no haya ningún valor atípico hacia la

mitad mayor de los datos.
236.45 + 41.93 = 278.38
Hay un valor cerca de 278.38, así que éste también es un valor atípico
CAPITULO II
2. Distribución binominal de frecuencias

(juan, 2016)Una distribución binomial es una distribución de probabilidad
discreta que describe el número de éxitos al realizar n experimentos
independientes entre sí, acerca de una variable aleatoria.
Existen una gran diversidad de experimentos o sucesos que pueden ser

caracterizados bajo esta distribución de probabilidad. Imaginemos el
lanzamiento de una moneda en el que definimos el suceso “sacar cara” como
el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar cara) que
obtenemos, nuestra distribución de probabilidades se ajustaría a una
distribución binomial.
1.1.1 2.1. Tipo de variables estadísticas bidimensional

(muños, 2017)Se suele decir que estamos ante una variable estadística
bidimensional.
a) Tabulación de variables estadísticas bidimensionales
Vamos a considerar 2 tipos de tabulaciones:
 Para variables cuantitativas, que reciben el nombre de tabla de

correlación.
 Para variables cualitativas, que reciben el nombre de tabla de
contingencia.
b) Tablas de correlación
Sea una población estudiada simultáneamente según dos caracteres X e Y;

que representaremos genéricamente como (xi; yj ; nij), donde xi; yj, son dos
valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo
de X con el j-ésimo de Y.
Una forma de disponer estos resultados es la conocida como tabla de doble

entrada o tabla de correlación, la cual podemos representar como sigue: Tipos
de distribuciones Cuando se estudian conjuntamente dos variables, surgen tres
tipo de distribuciones: Distribuciones conjuntas, distribuciones marginales y
distribuciones condicionadas.
1.1.2 2.2. Representación de la información mediante tablas

bidimensionales
Ejemplo 1.
Tomemos una pequeña sub muestra de los datos presentados en la

base de DATOS3-educación para las variables sexo y estado civil de los
participantes en el programa de capacitación. Se tabulará la información en una
tabla de doble entrada donde la variable sexo está representada en las filas y el
estado civil en las columnas.
Sexo Estad o Sexo Estad o Sexo Estad o

Sexo Estado
civil civil civil civil
Femenino Soltero Femenino Soltero Femenino Soltero

Femenino Sltero
Femenino Soltero Masculino Soltero Masculino Casad o

Masculino Casad o
Masculino Soltero Masculino Soltero Femenino Casad o

Femenino Casad o
Femenino Casado Femenino Casado Masculino Soltero

Masculino Soltero
Masculino Soltero Femenino Soltero Femenino Casad o

Masculino Soltero
Masculino Soltero Femenino Soltero Femenino Casad o

Masculino Soltero
Solución Sólo con fines didácticos no hacemos uso del SPSS y

contamos el número de veces que se repite la categoría Ai de la variable sexo
y el número de veces que se repite la categoría Bj de la variable estado civil.
Así, para A1=femenino, A2=masculino, B1=soltero, B2=casado se tiene: f22=2,
es decir, son 2 estudiantes del sexo masculino y casados; f12=6, es decir, son
6 estudiantes del sexo femenino y casados. En el siguiente cuadro se
presentan las frecuencias conjuntas
Sexo Estado civil Total

Soltero
casado
Femenino 7 6 13
Masculino 9 2 11
Total 16 8 24
Son 7 docentes solteras y 6 casadas del sexo femenino. De los estudiantes del
sexo masculino 9 son solteros y 2 son casados.
1.1.3 2.3. Distribución marginal

Al analizar una distribución bidimensional, uno puede centrar su estudio
en el comportamiento de una de las variables, con independencia de como se
comporta la otra. Estaríamos así en el análisis de una distribución marginal.
De cada distribución bidimensional se pueden deducir dos distribuciones

marginales: una correspondiente a la variable x, y otra correspondiente a la
variable y.
En teoría de probabilidades, la distribución marginal es la distribución de

probabilidad de un subconjunto de variables aleatorias de un conjunto de
variables aleatorias. La distribución marginal proporciona la probabilidad de un
subconjunto de valores del conjunto sin necesidad de conocer los valores de
las otras variables. Esto contrasta con la distribución condicional, que
proporciona probabilidades contingentes sobre el valor conocido de otras
variables.
El término variable marginal se usa para referirse a una variable del

subconjunto de retenido y cuyos valores pueden ser conocidos.1 La
distribución de las variables marginales, la distribución marginal, se obtiene
marginalizando sobre la distribución de variables descartadas y las variables
descartadas se llaman a veces variables marginalizadas.
El caso más simple es el de dos variables aleatorias reales X e Y para la

que se conozca su distribución de probabilidad conjunta {\displaystyle
F_{X,Y}(x,y)\;} {\displaystyle F_{X,Y}(x,y)\;}, entonces la distribución marginal de
X es la distribución de probabilidad {\displaystyle F_{X}(x)\;} {\displaystyle
F_{X}(x)\;} de X haciendo caso omiso de la información referente a Y. Para las
variables aleatorias discretas, la ley de probabilidad marginal Pr(X=x) se
escribe
1.1.4 2.4. Frecuencia relativa bidimensional

(ansola, 2016)Si estudiamos sobre la misma población dos caracteres
cuantitativos X e Y y los medimos en la misma unidad estadística, obtenemos
dos series estadísticas de las variables X e Y. considerando simultáneamente
ambas series, el par de valor (x,y) le corresponde una variable estadística
bidimensional
Es posible estudiar de forma separada la distribución dela población

según el carácter X e Y, obteniendo x, Sx, y, SY o cualquier otro parámetro. Pero
puede ser interesante considerar de forma simultanea los dos caracteres, con
el objetivo de determinar las posibles relaciones entre ellos y así poder
responder a preguntas como ¿existe algún tipo de relación entre los caracteres
X y Y?
Vamos a ver instrumentos estadísticos que nos van a permitir obtener la

existencia o no de coincidencias entre los valores de dos variables y, a partir de
esas coincidencias, formular la hipótesis de una relación causal entre los dos
caracteres.
Si existen coincidencias estadísticas entre los valores de dos caracteres,

o lo que es lo mismo, si existe relación entre las dos variables, las
coincidencias pueden ser maso menos fuerte, y la intensidad de la relación
puede variar entre ausencia total de relación o ligación perfecta.
1.1.5 2.5. Propiedades de las frecuencias bidimensionales
(Acosta, 2014)Sea “n” el número total de pares observados de la
variable bidimensional (X, Y). Teniendo como referencia:
a) La suma de las frecuencias absolutas es igual al número de pares

observados, esto es:
b) La suma de las frecuencias relativas es igual a la propiedad.
2.6. Medidas estadísticas en una distribución bidimensional de

frecuencias
2.6.1. Medias y varianzas marginales para las variables X e Y
Dada una distribución de doble entrada es posible calcular las medias

marginales de “X” e “Y”. Las medias marginales se definen como la suma de
los valores de “X” e “Y” multiplicado por sus frecuencias marginales dividido
entre “n”
MEDIA MARGINAL DE “X”

n
X f
i i.
x1 f1.  x2 f 2.  x3 f 3.  ......  xn f n.
X i 1

n n
MEDIA MARGINAL DE “Y”
Y
j 1
j
j .j
y1 f.1  y2 f.2  y3 f.3  ...... ym f.m
Y 
n n
MEDIAS CONDICIONALES
Dada una distribución de doble entrada es posible calcular las medias

condicionales de “X” e “Y” dados ciertos valores particulares de la variable “x” o
“y” en la tabla de doble entrada.
MEDIA CONDICIONAL DE “X”
X i f ir
x1 f1r  x2 f 2 r  x3 f 3r  ......  xn f nr
X /( y  r )  i 1

f .r f .r
MEDIA CONDICIONAL DE “Y”
Y j f rj
y1 f r1  y 2 f r 2  y3 f r 3  ......  y m f rm
Y /( x  r )  i 1

f r. f r.
2.6.2. Covarianza
(Lopez, 2018)La covarianza es el valor que refleja en qué cuantía dos variables
aleatorias varían de forma conjunta respecto a sus medias.
Nos permite saber cómo se comporta una variable en función de lo que
hace otra variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues,
la covarianza puede tomar los siguientes valores:
Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay
una relación negativa.
Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una
relación positiva.
Covarianza (X,Y) es igual que cero cuando “X” sube e “Y” baja. No hay
relación existente entre las variables “X” e “Y”.
Cálculo de la covarianza
La fórmula de la covarianza se expresa como sigue:
Dónde la y con el acento es la media de la variable Y, y la x con el

acento es la media de la variable X. “i” es la posición de la observación y “n” el
número total de observaciones.
Propiedades de la covarianza
Han de tenerse en cuenta, a la hora de trabajar con ella las propiedades

que tiene y que se deducen de la definición misma de covarianza:
Cov (X, b) = 0, siendo b en este caso una constante.
Cov (X, X) = Var(X) es decir, la covarianza de una variable y de sí misma es

igual a la varianza de la variable.
Cov (X, Y) = Cov(Y,X) la covarianza es la misma, independientemente del

orden en que las pongamos.
Cov (b·X, c·Y) = c·b ·Cov(X,Y) siendo b y c dos constantes. La covarianza de

dos variables multiplicadas por dos constantes cualesquiera es igual a la
covarianza de las dos variables multiplicada por la multiplicación de las
constantes.
Cov (b+X, c+Y) = Cov(X,Y) sumar dos constantes cualesquiera a cada variable,
no afecta a la covarianza.
Cov (X,Y) = E(X·Y) – E(X)·E(Y) o lo que es lo mismo, la covarianza es igual a la

esperanza del producto de las dos variables menos el producto de las dos
esperanzas por separado.
Ampliando las propiedades anteriores, en el caso de que dos variables

sean independientes. Es decir, que no tengan relación estadística alguna, se
cumple que:
E(X·Y) = E(X)·E(Y)
CAPITULO III
3. NOCIONES DE PROBABILIDAD
3.1. Experimento
Es un procedimiento mediante el cual se trata de comprobar (confirmar o

verificar) una o varias hipótesis relacionadas con un determinado
fenómeno, mediante la manipulación y el estudio de las correlaciones de
las variables que presumiblemente son su causa.
La experimentación constituye uno de los elementos claves de la

investigación científica y es fundamental para ofrecer explicaciones
causales.
En un experimento se consideran todas las variables relevantes que

intervienen en el fenómeno, mediante la manipulación de las que
presumiblemente son su causa, el control de las variables extrañas y la
aleatorización (o randomización) de las restantes.
3.1.1. Experimentos deterministas: Son aquellos en que si se repiten las

mismas condiciones iniciales se garantiza el mismo resultado. Por
ejemplo, un móvil que circula a una velocidad constante durante un
determinado tiempo, recorre siempre el mismo espacio; una
combinación de sustancias en determinadas proporciones y temperatura
producen siempre el mismo resultado de mezcla; un examen con
ninguna respuesta correcta produce siempre el mismo resultado: CERO.
3.1.2. Experimento aleatorio: Es aquél en el que si lo repetimos con las

mismas condiciones iniciales no garantiza los mismos resultados. Así,
por ejemplo, al lanzar una moneda no sabemos si saldrá cara o cruz, al
lanzar un dado no sabemos qué número aparecerá, la extracción de las
bolas de sorteos, loterías, etc. son experiencias que consideramos
aleatorias puesto que en ellas no podemos predecir los resultados.
Las características de un experimento aleatorio pueden resumirse de la

siguiente forma:
1.- Todos los resultados del fenómeno pueden conocerse de antemano.
2.-Es imposible conocer un resultado en particular del fenómeno antes de que

ocurra.
3.-puede ser repetido bajo las mismas condiciones una infinidad de veces.
3.2. Espacio muestral
Al conjunto formado por todos los posibles resultados elementales de un

experimento aleatorio se le denomina espacio muestral de dicho
experimento.
Si consideramos como ejemplo el experimento consistente en el

lanzamiento de una moneda:
Los sucesos elementales son Cara (C) y Cruz (X).
El espacio muestral asociado a dicho experimento es: E = {C, X}.
Sucesos y tipos de sucesos
Se denomina suceso a cualquier subconjunto de un espacio muestral, es

decir, a cualquier posible resultado de un experimento aleatorio. Dentro de la
gran generalidad que entraña esta definición, se pueden destacar algunos
casos particulares de sucesos:
Suceso seguro.
El suceso seguro es aquél que está formado por todos los resultados posibles
del espacio muestral (E), es decir aquél que se realiza siempre.
Suceso imposible.
El suceso imposible es aquél que no ocurre nunca. Se expresa con el símbolo

Ø.
Suceso elemental.
Un suceso se dice que es un suceso elemental si está formado por un único

elemento del espacio muestral.
Suceso compuesto.
Un suceso se dice que es un suceso compuesto si está formado por más de un

elemento del espacio muestral.
Suceso contrario o complementario
Se define el suceso contrario a A como el suceso que ocurre cuando no ocurre

A. Puede notarse como:
3.2.1. Espacio muestral discreto finito: Consta de un número finito de

elementos, por ejemplo, lanzar un dado.
Espacio muestral discreto infinito: Consta de un número infinito

numerable de elementos, por ejemplo, lanzar un dado hasta que salga
un cinco.
3.2.2. Espacio muestral continuo: Consta de un número infinito no numerable

de elementos, por ejemplo, todas las medidas posibles de espárragos
extraídos aleatoriamente de una población.
3.3. Eventos
Un evento se entiende como el acontecimiento de un hecho en proceso o
por venir. Se dice que es aleatorio, si no es posible determinarlo con
exactitud. En todo caso, será posible predecirlo con un nivel dado de
confianza. Al evento también se le denomina un suceso o un fenómeno.
Generalmente, se simula el evento por un conjunto de variables
relacionadas entre si. Por lo tanto, un evento está representado con una o
más variables vinculadas entre ellas. Si las variables (una o varias de
éstas) no son predecibles con exactitud se dice que el evento es aleatorio.
Generalmente las variables representan atributos y propiedades de los
entes que intervienen en el evento, y que pueden ser medidos.
3.3.1. Tipos de eventos
Evento o suceso elemental
Un suceso o evento simple es un subconjunto del espacio muestral

formado por un único elemento. Ejemplos de espacios muestrales y
sucesos elementales:
Si se trata de contar objetos y el espacio muestral S = {1, 2, 3, 4, 5, 6, 7, ...}

(los números naturales), entonces los sucesos elementales son cada uno
de los conjuntos {k}, donde k ∈ N.
Si se lanza una moneda dos veces, S = {cc, cs, sc, ss}, donde (c
representa "sale cara" y s, "sale cruz"), los sucesos elementales son {cc},
{cs}, {sc} y {ss}.
Si X es una variable aleatoria normalmente distribuida, S = (-∞, +∞), los

números reales, los sucesos elementales son todos los conjuntos {x},
donde x ∈ {\displaystyle \mathbb {R} } \mathbb R.
Los sucesos elementales pueden tener probabilidades que son

estrictamente mayores que cero, no definidas o cualquier combinación de
estas:
Por ejemplo, la probabilidad de cualquier variable aleatoria discreta está

determinada por las probabilidades asignadas a los sucesos elementales
del experimento que determina la variable.
Por otra parte, cualquier suceso elemental tiene probabilidad cero en
cualquier variable aleatoria absolutamente continua.
Finalmente, existen distribuciones mixtas que no son completamente

continuas, ni completamente discretas, entre las que pueden darse ambas
situaciones.
Los eventos triviales son el conjunto universal Ω y el conjunto vacío. Al

primero se le llama también evento seguro o cierto, y al segundo, evento
imposible.
Sean dos eventos A y B, si ambos son conjuntos disjuntos, entonces ellos

son eventos excluyentes.
Un evento con elementos infinitos pero numerables se llama σ-álgebra

(sigma-álgebra), y un evento con elementos finitos se llama álgebra de
sucesos de Boole.
3.3.2. Operación sobre eventos:
Unión:
Se representa con el símbolo U.
La unión entre dos conjuntos A y B, de define como los elementos que están en
A, o están en B, se representa por (AUB)
Intersección:
Se representa con el símbolo ∩, se define como los elementos que están en A
y en B (A∩B), complemento.
El complemento de un evento A se define como todos los elementos de Ω que

no están en A. se representa como Ac. A-
Diferencia:
La diferencia entre 2 conjuntos A y B, define como los elementos de A que no
están en B, se representa como A-B, A\B. Ejemplo
Ω={1,2,3,4,5,6,7,8,9}
A={1,2,3,9,8}
B={2,5,4,6,7}
Hallar:
i) AUB
ii)A∩B
i)AUB={1,2,3,4,5,6,7,8,9}=Ω
ii) A∩B= {2}
3.3.3. Eventos mutuamente excluyentes
Eventos mutuamente excluyentes: la ocurrencia de cualquier evento

implica que ningún otro puede ocurrir al mismo tiempo.
En el anterior, los cuatro resultados posibles son mutuamente

excluyentes.
Eventos colectivamente exhaustivos
Colectivamente exhaustivos: por lo menos uno de los eventos debe

ocurrir cuando se realiza un experimento.
En el EJEMPLO, los cuatro resultados posibles son colectivamente

exhaustivos.
En otras palabras, la suma de las probabilidades es = 1 (.25 + .25 + .25

+ .25).
3.3.4. Propiedades de las operaciones con eventos
Si realizamos un experimento aleatorio y consideramos varios sucesos

A, B, C, etc, asociados a dicho experimento, podemos realizar varias
operaciones entre ellos. Los más importantes son:
1. Igualdad de sucesos: Dos sucesos A y B son iguales si están

compuestos por los mismos elementos. Lo expresaremos por A = B.
2. Intersección de sucesos: Llamaremos suceso intersección de los

sucesos A y B, y lo representaremos por A? B, al suceso “ocurren A y B
a la vez”.
Ejemplo: Si tiramos un dado, ya sabemos que el espacio muestral asociado es

E={1,2,3,4,5,6}.
Sean los sucesos A=“sacar un nº par”={2,4,6}, y B=“sacar un número entre 2 y

4 (inclusive)”={2,3,4}.
El suceso A? B es tal que ocurren A y B a la vez, es decir:
A? B=“sacar un nº par y que esté entre 2 y 4 (inclusive)”={2,4}.
El suceso A? B son los elementos comunes a los conjuntos A y B (elementos

que están en los dos conjuntos).
3.4. Probabilidad
La probabilidad mide la frecuencia con la que se obtiene un resultado (o

conjunto de resultados) al llevar a cabo un experimento aleatorio, del que
se conocen todos los resultados posibles, bajo condiciones suficientemente
estables. La teoría de la probabilidad se usa extensamente en áreas como
la estadística, la física, la matemática, la ciencia y la filosofía para sacar
conclusiones sobre la probabilidad de sucesos potenciales y la mecánica
subyacente de sistemas complejos.}
3.5. Tipos de probabilidad:

3.5.1. Probabilidad Clásica o a Priori Si un suceso puede ocurrir de N
maneras mutuamente excluyentes e igualmente probables, y m
de ellas poseen una característica A. Ejemplo 1: P (de que
salga cara al tirar una moneda) Concepto clásico de
Probabilidad Una de las características de un experimento
aleatorio es que no se sabe qué resultado particular se
obtendrá al realizarlo.
Es decir, si A es un suceso asociado con un experimento
aleatorio, no podemos indicar con certeza si A ocurrirá o no en
una prueba en particular. Por lo tanto, puede ser importante
tratar de asociar un número al suceso A que mida la
probabilidad de que el suceso ocurra. Este número es el que
llamaremos P(A). 2
Ejemplo 2: P (de que salga un varón al tomar 2 bebés y observar su
sexo)
3.5.2. Probabilidad empírica o frecuencia

Esta teoría está estrechamente relacionada con el punto de
vista expresado por Aristóteles: “lo probable es aquello que
ocurre diariamente”.
• Notamos a través de gran cantidad de observaciones
acumuladas con los diversos juegos de azar una forma general
de regularidad que permitió establecer una teoría.
• Supongamos que efectuamos una serie de n repeticiones del

experimento E. Sea f el número de repeticiones en las que se
presenta el suceso A, de forma que en las restantes n – f no se
presentará. Obtendremos así una serie de frecuencias relativas
para n1, n2 …. Este número se llamará probabilidad del suceso
A en relación con el experimento aleatorio E.
3.5.3. Probabilidad subjetiva

Se refiere a la probabilidad de ocurrencia de un suceso basado
en la experiencia previa, la opinión personal o la intuición del
individuo. En este caso después de estudiar la información
disponible, se asigna un valor de probabilidad a los sucesos
basado en el grado de creencia de que el suceso pueda ocurrir.
¿Cuál es la probabilidad de que haya vida en Marte? ¡Analiza
esta probabilidad!
3.6. Axiomas de probabilidad
Los axiomas de probabilidad son las condiciones mínimas que deben

verificarse para que una función que definimos sobre unos sucesos
determine consistentemente valores de probabilidad sobre dichos
sucesos.
La probabilidad P de un suceso E, denotada por P(E), se define con

respecto a un "universo" o espacio muestral Ω, conjunto de todos los
posibles sucesos elementales, tal que P verifique los Axiomas de
Kolmogórov, enunciados por el matemático ruso de este nombre en 1933.
En este sentido, el suceso E es, en términos matemáticos, un subconjunto
de Ω
3.7. Teoremas de los axiomas de probabilidad
Axiomas de Kolmogórov:
Primer axioma:
La probabilidad de que ocurra un evento A cualquiera se encuentra entre cero y

uno.
0 £ p(A) ³ 1
Ejemplo: La probabilidad de sacar par en un dado equilibrado es 0,5. P(A)=0,5
Segundo Axioma:
La probabilidad de que ocurra el espacio muestral d debe de ser 1.
p(d) = 1
Ejemplo: La probabilidad de sacar un número del 1 al 6 en un dado equilibrado
es "1".
Tercer Axioma:
Si A y B son eventos mutuamente excluyentes, entonces la,
p(AÈB) = p(A) + p(B)
Ejemplo: La probabilidad de sacar en un dado "as" o sacar "número par" es la

suma de las probabilidades individuales de dichos sucesos.
Según este axioma se puede calcular la probabilidad de un suceso compuesto

de varias alternativas mutuamente excluyentes sumando las probabilidades de
sus componentes.
Generalizando:
Si se tienen n eventos mutuamente excluyentes o exclusivos A1, A2, A3,.....An,

entonces;
p(A1ÈA2È.........ÈAn) = p(A1) + p(A2) + .......+ p(An)
Ejemplo:
Para el experimento aleatorio de tirar un dado, el espacio muestral es W = {1,

2, 3, 4, 5, 6}. En este espacio el conjunto de sucesos es P(W) = {Æ, {1}, {2},
...{1,2}, {1,3}, ...{1,2,3,4,5,6}}. Para establecer una probabilidad hay que asignar
un número a todos esos sucesos.
Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...=

p({6})= 1/6, por la propiedad ii), p.e. la probabilidad del suceso {1, 3} es
p({1,3})= p({1})+ p({3})=2/6.
Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1,
3} es: "el resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es:
"el resultado de tirar el dado es una cara impar".
TEOREMAS
TEOREMA 1. Si f es un evento nulo o vacío, entonces la probabilidad de que
ocurra f debe ser cero.
p(f)=0
Ejemplo: La probabilidad de que un estudiante sea mujer es "1 menos la

probabilidad de que no sea varón".
DEMOSTRACIÓN:
Si sumamos a fun evento A cualquiera, como f y A son dos eventos

mutuamente excluyentes, entonces p(AfÈ)=p(A) +p(f)=p(A). LQQD
TEOREMA 2. La probabilidad del complemento de A, Ac debe ser,
p(Ac)= 1 – p(A).
DEMOSTRACIÓN:
Si el espacio muestral d, se divide en dos eventos mutuamente exclusivos, A y

Ac luego d=AÈAc, por tanto p(d)=p(A) + p(Ac) y como en el axioma dos se
afirma que p(d)=1, por tanto, p(Ac)= 1 - p(A) .LQQD
TEOREMA 3. Si un evento A Ì B, entonces la p(A) £ p(B).
DEMOSTRACIÓN:
Si separamos el evento B en dos eventos mutuamente excluyentes, A y B \ A

(B menos A), por tanto, B=AÈ(B \ A) y p(B)=p(A) +p(B \ A), luego entonces si
p(B \ A)³0 entonces se cumple que p(A)£p(B). LQQD
TEOREMA 4. La p( A \ B )= p(A) – p(AÇB)
DEMOSTRACIÓN: Si A y B son dos eventos cualquiera, entonces el evento A

se puede separar en dos eventos mutuamente excluyentes, (A \ B) y AÇB, por
tanto, A=(A \ B)È(AÇB), luego p(A)=p(A \ B) + p(AÇB), entonces, p(A \ B) = p(A)
– p(AÇB). LQQD
TEOREMA 5. Para dos eventos A y B, p(AÈB)=p(A) + p(B) – p(AÇB).
DEMOSTRACIÓN:
Si AÈB = (A \ B) È B, donde (A \ B) y B son eventos mutuamente excluyentes,
por lo que p(A È B) = p(A \ B) + p(B) y del teorema anterior tomamos que p(A \
B) = p(A) – p(AÇB), por tanto, p(AÈB) = p(A) + p(B) – p(AÇB). LQQD
3.8. Probabilidad condicional
Es la probabilidad de que ocurra un evento A, sabiendo que también

sucede otro evento B. La probabilidad condicional se escribe P(A|B)
o P(A/B), y se lee «la probabilidad de A dado B».
No tiene por qué haber una relación causal o temporal entre A y B. A puede
preceder en el tiempo a B, sucederlo o pueden ocurrir
simultáneamente. A puede causar B, viceversa o pueden no tener relación
causal. Las relaciones causales o temporales son nociones que no
pertenecen al ámbito de la probabilidad. Pueden desempeñar un papel o
no dependiendo de la interpretación que se les dé a los eventos.
Un ejemplo clásico es el lanzamiento de una moneda para luego lanzar un

dado. ¿Cuál es la probabilidad que en el dado salga un 6 dado que ya haya
salido una cara en la moneda? Esta probabilidad se denota de esta
manera: P(6|C).
3.9. Reglas de Probabilidad
Probabilidad total
Sean A y B dos sucesos definidos en el experimento E, cada uno de los cuales puede
presentarse o no cada vez que se realiza el experimento. Plantee estos dos sucesos
en cada uno de los experimentos dados.
Nos interesa considerar el suceso aparición de “al menos uno de ellos”
Es decir, el suceso se cumplirá si aparece A, si lo hace B o si lo hacen ambos.

Para calcular esta probabilidad se pueden presentar dos casos:
Se puede obtener para tres sucesos y luego generalizar más.

Probabilidad condicional
Hay situaciones en las que interesa calcular la probabilidad de sucesos que tienen
cierta información con respecto a un experimento. Dicha información reduce el
espacio muestra original a uno de sus subconjuntos. De esta forma la probabilidad de
un suceso será diferente si se tiene o no información adicional. Así por ejemplo, un
animal elegido de aquellos que están vacunados tendrá una probabilidad mayor de no
contraer la enfermedad que aquel seleccionado entre el conjunto total de animales.
Este tipo de probabilidad se denomina probabilidad condicional y se expresa:
P(A / B) que se lee: probabilidad de que habiendo ocurrido B ocurra A, o probabilidad

de A habiendo ocurrido B.
Probabilidad compuesta o conjunta
La probabilidad condicional estudiada nos conduce a observar reglas de probabilidad

para sucesos conjuntos, es decir, la probabilidad de que dos o más sucesos
aparezcan al mismo tiempo.
Dado que:
Se debe introducir en este momento un concepto nuevo: el de sucesos

independientes.
Dos sucesos se dicen independientes si la probabilidad de ocurrencia de uno no es

afectada por la ocurrencia del otro. Luego
3.9.1. La regla del producto
probabilidad:
La regla o teorema del producto establece que la probabilidad de ocurrencia de

A y B es igual a la probabilidad de ocurrencia de A por la probabilidad de
ocurrencia de B, dado que A ha ocurrido previamente. Es decir:
P (A ∩ B) = P (A)·P(B|A)
donde P(B|A) se lee como "la probabilidad de que ocurra B dado que ha ocurrido A".
Cuando los sucesos A y B son independientes:
P (A ∩ B) = P(A)·P(B)
El teorema de Bayes podemos expresarlo de la siguiente manera:
P(A|B) = (P(A) · P (B|A)) / P(B)
3.9.2. REGLA DE LA SUMA
Probabilidad:
Si dos eventos A y B son mutuamente excluyentes,

esta regla indica que la probabilidad de que ocurra uno u otro de los
eventos, es igual a la suma de sus probabilidades.
P (A ó B) = P (A U B)
P (A U B) = P(A)+ P (B)
P (A ó B o...ó Z) = P(A U B U...U Z)
P (A U B U...UZ)= P(A)+ P(B) +... P(Z)
REGLA GENERAL DE LA ADICIÓN
Cuando los eventos no son mutuamente excluyentes,

la probabilidad de la ocurrencia conjunta de los dos eventos, se resta de la
suma de las probabilidades de los dos eventos.
P (A ó B) = P(A) + P(B) - P (A y B)
En la teoría de conjuntos, la ocurrencia conjunta hace referencia a la

intersección, por lo tanto:
P (A y B) = P (A ∩B)
Entonces: P (A U B) = P(A) + P(B) - P (A ∩ B)

3.10. Tablas de contingencia y tablas de probabilidad
Un método útil para clasificar los datos obtenidos en un recuento es mediante

las tablas de contingencia.
Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos

determinar unas probabilidades conociendo otras de la tabla.
Ejemplo
Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de
automóviles. De ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas.
Se pide:
1. ¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero?
2.Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una
mujer?
3.11. Teorema de Bayes
El teorema de Bayes parte de una situación en la que es posible conocer las

probabilidades de que ocurran una serie de sucesos Ai.
A esta se añade un suceso B cuya ocurrencia proporciona cierta información,
porque las probabilidades de ocurrencia de B son distintas según el suceso Ai
que haya ocurrido.
Conociendo que ha ocurrido el suceso B, la fórmula del teorema de Bayes nos

indica como modifica esta información las probabilidades de los sucesos Ai.
Ejemplo: Si seleccionamos una persona al azar, la probabilidad de que sea diabética

es 0,03. Obviamente la probabilidad de que no lo sea es 0,97.
Si no disponemos de información adicional nada más podemos decir, pero
supongamos que al realizar un análisis de sangre los niveles de glucosa son
superiores a 1.000 mg/l, lo que ocurre en el 95% de los diabéticos y sólo en un 2% de
las personas sanas.
¿Cuál será ahora la probabilidad de que esa persona sea diabética?
La respuesta que nos da el teorema de Bayes es que esa información adicional hace
que la probabilidad sea ahora 0,595.
Vemos así que la información proporcionada por el análisis de sangre hace pasar, la
probabilidad inicial de padecer diabetes de 0,03, a 0,595.
Evidentemente si la prueba del análisis de sangre hubiese sido negativa, esta
información modificaría las probabilidades en sentido contrario. En este caso la
probabilidad de padecer diabetes se reduciría a 0,0016.
3.11.1. Partición de un espacio muestral
Espacio muestral
Definición
En estadística se llama espacio muestral al conjunto de todos los

posibles resultados individuales de un experimento aleatorio. Se suele
representar por Ω.
Sus elementos se representan por letras minúsculas (w1,w2,...) y se
denominan eventos o sucesos elementales. Los subconjuntos de Ω se
designan por medio de letras mayúsculas (A,B,C,D,...) y se denominan
eventos o sucesos. Los sucesos representan los posibles resultados
del experimento aleatorio.
Tipos de espacio muestral
Un espacio muestral Ω es discreto, cuando Ω es un conjunto discreto, es decir,

finito o numerable; y es continuo, cuando no es numerable.
Particiones del espacio muestral
Es posible definir particiones sobre el espacio muestral. Formalmente

hablando, una partición sobre Ω se define como un conjunto numerable:
tal que
Ejemplo:
Por ejemplo, en el caso del experimento aleatorio "lanzar un dado", el espacio

muestral del experimento sería: Ω={1,2,3,4,5,6}. Por otro lado, si cambiamos
ligeramente la experiencia pensando en el número resultante de la suma de 2
dados, entonces tenemos 2 espacios muestrales:
Ω={(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,2),...(6,6)} =
{1,2,3,4,5,6}x{1,2,3,4,5,6}
Ω'={2,3,4,...,12}
La elección del espacio muestral es un factor determinante para realizar el

cálculo de la probabilidad de un suceso.
3.11.2. Probabilidad total

entonces, la probabilidad del evento B, llamada probabilidad total, se calcula
empleando la siguiente fórmula:
3.11.3. El teorema de Bayes
El teorema de Bayes es utilizado para calcular la probabilidad de un

suceso, teniendo información de antemano sobre ese suceso.
Podemos calcular la probabilidad de un suceso A, sabiendo además

que ese A cumple cierta característica que condiciona su
probabilidad. El teorema de Bayes entiende la probabilidad de forma
inversa al teorema de la probabilidad total. El teorema de la
probabilidad total hace inferencia sobre un suceso B, a partir de los
resultados de los sucesos A. Por su parte, Bayes calcula la
probabilidad de A condicionado a B.
El teorema de Bayes ha sido muy cuestionado. Lo cual se ha debido,

principalmente, a su mala aplicación. Ya que, mientras se cumplan los
supuestos de sucesos disjuntos y exhaustivos, el teorema es
totalmente válido.
Fórmula del teorema de Bayes
Para calcular la probabilidad tal como la definió Bayes en este tipo de sucesos,
necesitamos una fórmula. La fórmula se define matemáticamente como:
Donde B es el suceso sobre el que tenemos información previa y A(n) son los
distintos sucesos condicionados. En la parte del numerador tenemos la
probabilidad condicionada, y en la parte de abajo la probabilidad total. En
cualquier caso, aunque la fórmula parezca un poco abstracta, es muy sencilla.
Para demostrarlo, utilizaremos un ejemplo en el que en lugar de A(1), A(2) y
A(3), utilizaremos directamente A, B y C.
CAPITULO IV
4. DISTRIBUCIONES DE PROBABILIDAD IMPORTANTES
Una distribución de probabilidad es aquella que permite establecer toda la

gama de resultados probables de ocurrir en un experimento determinado. Es
decir, describe la probabilidad de que un evento se realice en el futuro.
La distribución de probabilidad es una herramienta fundamental para la

prospectiva, puesto que con ella es posible diseñar un escenario de
acontecimientos futuros considerando las tendencias actuales de diversos
fenómenos.
Las características más importantes a considerar en una distribución de

probabilidad son:
 La probabilidad de un resultado específico está entre cero y uno.
 La suma de las probabilidades de todos los resultados mutuamente

excluyentes es 1.
Toda distribución de probabilidad se genera por una variable (debido a que

puede tomar diferentes valores) aleatoria x (porque el valor que se toma es
completamente al azar), y puede ser de dos tipos:
4.1 Distribución de Probabilidad tipo Discreto
Variable aleatoria discreta (x)
Solo puede tomar valores representados por números enteros y un número

finito de ellos. Por ejemplo:
X variable que nos define el número de alumnos aprobados en el curso de
historia universal en un grupo de 30 alumnos (1, 2 ,3 y así sucesivamente ó los
30).
2. Propiedades de una variable aleatoria discreta (X)
Las probabilidades que se relacionan con cada uno de los valores que toma x
deben ser mayores o iguales a cero y menores o iguales a 1:
P (xi) < 1
La sumatoria de las probabilidades asociadas a cada uno de los valores que

toma x debe ser igual a 1:
E p (xi) = 1
Ejemplo de variable aleatoria discreta: Al lanzar una moneda se puede obtener

solo dos resultados: cara (50%) o sello (50%).
En la siguiente tabla vemos los posibles resultados de lanzar dos veces una
moneda:
Si realizamos la tabla de distribución del número posible de caras que se

obtiene al lanzar una moneda dos veces, obtendremos:
Distribuciones de variable discreta
Se denomina distribución de variable discreta a aquella cuya función de

probabilidad solo toma valores positivos en un conjunto de valores
de X finito o infinito numerable. A dicha función se le llama función de
masa de probabilidad.
4.1.1 Distribución Binomial
La distribución binomial, que describe el número de aciertos en una serie

de n experimentos independientes con posibles resultados binarios, es
decir, de "sí" o "no", todos ellos con probabilidad de acierto p y
probabilidad de fallo q = 1 − p.
En estadística, la distribución binomial es una distribución de
probabilidad discreta que cuenta el número de éxitos en una
secuencia de n ensayos de Bernoulli independientes entre sí, con una
probabilidad fija p de ocurrencia del éxito entre los ensayos.
Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es,
solo dos resultados son posibles. A uno de estos se denomina
«éxito» y tiene una probabilidad de ocurrencia p y al otro, «fracaso», con
una probabilidad2 q = 1 - p.
En la distribución binomial el anterior experimento se repite n veces, de
forma independiente, y se trata de calcular la probabilidad de un
determinado número de éxitos. Para n = 1, la binomial se convierte, de
hecho, en una distribución de Bernoulli.
4.1.2 Distribución De Bernoulli
La distribución de Bernoulli, la clásica binomial, que toma valores "1",

con probabilidad p, o "0", con probabilidad q = 1 − p
En teoría de probabilidad y estadística, la distribución de Bernoulli (o

distribución dicotómica), nombrada así por el matemático
suizo Jacob Bernoulli, es una distribución de probabilidad discreta, que
toma valor 1 para la probabilidad de éxito (P) y el valor O para la
probabilidad de fracaso (X = 1-p )
4.1.2.1 Uso de la tabla de la distribución binomial
¿Cómo utilizar la tabla de la distribución Binomial?
Supongamos que lanzamos al aire una moneda trucada. Con esta

moneda laprobabilidad de obtener cara es del 30%. La probabilidad
que salga cruz será, pues, del 70%. Lanzamos la moneda 10 veces de
manera consecutiva. Si queremos calcular la probabilidad de que
observemos 6 caras o menos nos fijamos en la tabla: localizamos
n=10, x=6, p=0.3 y buscamos la intersección: 0.9894
 ¿Y si nos pidieran la probabilidad de que salieran 7 caras o más?
Entonces utilizaríamos el hecho de que el suceso descrito es el

complementario del anterior para afirmar que la probabilidad buscada es 1-
0.9894=0.0106
 ¿Y si nos pidieran la probabilidad de que salieran exactamente 6 caras?
Tendríamos que calcular la probabilidad de obtener 6 caras o menos (0.9894) y

la de obtener 5 caras o menos (0.9527), las restamos y obtenemos 0.0367. No
obstante, mejor es calcular:
 ¿Qué pasa si el suceso sobre el que queremos calcular tiene una
probabilidad mayor que 0.5?
Este caso se daría, por ejemplo, si la probabilidad de que saliera cara

fuera del 70%. Entonces, si nos piden la probabilidad de obtener 4 caras
o menos tirando 10 veces la moneda, haríamos lo siguiente. Notemos
que la probabilidad de obtener 4 caras o menos será la misma de
obtener 6 cruces o más. Este suceso es el complementario de obtener 5
cruces o menos. Así pues localizamos n=10, x=5, p=0.3 (ya que la
probabilidad de obtener cruz es del 30%) y tomamos la intersección, que
es 0.9527. La probabilidad que nos pedían será de 1-0.9527=0.0473
4.1.3 Distribución de Poisson
Fue descubierta por Siméon-Denis Poisson, que la dio a conocer

en 1838 en su trabajo Recherches sur la probabilité des jugements en
matières criminelles et matière civile(Investigación sobre la probabilidad
de los juicios en materias criminales y civiles).
En teoría de probabilidad y estadística, la distribución de Poisson es

una distribución de probabilidad discreta que expresa, a partir de una
frecuencia de ocurrencia media, la probabilidad de que ocurra un
determinado número de eventos durante cierto período de tiempo.
Concretamente, se especializa en la probabilidad de ocurrencia de
sucesos con probabilidades muy pequeñas, o sucesos "raros"
Propiedades:
La función de masa de probabilidad de la distribución de Poisson es

donde:
1. k es el número de ocurrencias del evento o fenómeno (la función nos da

la probabilidad de que el evento suceda precisamente k veces).
2. λ es un parámetro positivo que representa el número de veces que se
espera que ocurra el fenómeno durante un intervalo dado. Por ejemplo,
si el suceso estudiado tiene lugar en promedio 4 veces por minuto y
estamos interesados en la probabilidad de que ocurra k veces dentro de
un intervalo de 10 minutos, usaremos un modelo de distribución de
Poisson con λ = 10×4 = 40.
3. “e" es la base de los logaritmos naturales (e = 2,71828...)Tanto el valor

esperado como la varianza de una variable aleatoria con distribución de
Poisson son iguales a λ. Los momentos de orden superior
son polinomios de Toucharden λ cuyos coeficientes tienen una
interpretación combinatoria. De hecho, cuando el valor esperado de la
distribución de Poisson es 1, entonces según la fórmula de Dobinski,
el n-ésimo momento iguala al número de particiones de tamaño n.
La función generadora de momentos de la distribución de Poisson con
valor esperado λ es:
Las variables aleatorias de Poisson tienen la propiedad de

ser infinitamente divisibles.
La divergencia Kullback-Leibler desde una variable aleatoria de Poisson

de parámetro λ0a otra de parámetro λ es:
Procesos de poissen:
La distribución de Poisson se aplica a varios fenómenos discretos de la

naturaleza (esto es, aquellos fenómenos que ocurren 0, 1, 2, 3,... veces
durante un periodo definido de tiempo o en un área determinada) cuando
la probabilidad de ocurrencia del fenómeno es constante en el tiempo o
el espacio. Ejemplos de estos eventos que pueden ser modelados por la
distribución de Poisson incluyen:
 El número de autos que pasan a través de un cierto punto en una ruta

(suficientemente distantes de los semáforos) durante un periodo definido
de tiempo.
 El número de errores de ortografía que uno comete al escribir una única

página.
 El número de llamadas telefónicas en una central telefónica por minuto.
 El número de servidores web accedidos por minuto.
 El número de animales muertos encontrados por unidad de longitud de

ruta.
 El número de mutaciones de determinada cadena de ADN después de

cierta cantidad de radiación.
 El número de núcleos atómicos inestables que se han desintegrado en

un determinado período.
 El número de estrellas en un determinado volumen de espacio.
 La distribución de receptores visuales en la retina del ojo humano.
 La inventiva[2] de un inventor a lo largo de su carrera.
 La distribución de la riqueza humana.

4.1.3.2 Distribución de Poisson como aproximación de la binomial
Ejemplo
Durante la segunda guerra mundial cayeron sobre Londres 537

bombas voladoras. El área afectada fue dividida en 576 sectores
iguales. Sea Nk el número real de sectores en los cuales cayeron k
bombas. Suponiendo que las bombas cayeron al azar, el número
esperado de bombas por sector es 537/576= 0.932. La probabilidad
que caigan k bombas en un sector, según la aproximación Poisson, es
Pk= e 0.932 (0.932)k / k! La tabla adjunta muestra la comparación
entre real y teórico:
4.1.3.2 Uso de la tabla de la distribución de Poisson.
La tabla entrega valores de la función de distribución (probabilidad

acumulada), es decir, valores de: y=0 p(y).
La cuantila x toma valores desde 0 hasta que los términos se hacen

cero al nivel de precisión de la tabla.
El parámetro λ toma valores de 0.01 a 0.04 variando en 0.01; de 0.06 a

0.20 variando en 0.02; de 0.25 a 1.00 variando en 0.05; de 1.1 a 3.5
variando en 0.1; de 4 a 18 variando en 0.5; de 19 a 41 variando en 1.
4.2 DISTRIBUCIONES DE PROBABILIDAD DE TIPO CONTINUA
En teoría de la probabilidad una distribución de probabilidad se llama

continua si su función de distribución es continua. Mientras que en una
distribución de probabilidad discreta un suceso con probabilidad cero es
imposible, no se da el caso en una variable aleatoria continua.
4.2.1 Distribución normal
En estadística y probabilidad se llama distribución normal, distribución de
Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de
las distribuciones de probabilidad de variable continua que con más
frecuencia aparece en estadística y en la teoría de probabilidades.
La gráfica de su función de densidad tiene una forma acampanada y es

simétrica respecto de un determinado parámetro estadístico. Esta curva
se conoce como campana de Gauss y es el gráfico de una función
gaussiana.
La importancia de esta distribución radica en que permite modelar

numerosos fenómenos naturales, sociales y psicológicos. 3Mientras que
los mecanismos que subyacen a gran parte de este tipo de fenómenos
son desconocidos, por la enorme cantidad de variables incontrolables
que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas
pocas causas independientes.
De hecho, la estadística descriptiva sólo permite describir un fenómeno,

sin explicación alguna. Para la explicación causal es preciso el diseño
experimental, de ahí que al uso de la estadística en psicología y
sociología sea conocido como método correlacional.
La distribución normal también es importante por su relación con la

estimación por mínimos cuadrados, uno de los métodos de estimación
más simples y antiguos.
4.2.1.1 Propiedades de la distribución normal

-La distribución normal posee ciertas propiedades importantes que
conviene destacar:
-Tiene una única moda, que coincide con su media y su mediana.
-La curva normal es asintótica al eje de abscisas. Por ello, cualquier

valor entre y es teóricamente posible. El área total bajo la curva es,
por tanto, igual a 1.
-Es simétrica con respecto a su media . Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor
que la media, y un 50% de observar un dato menor.
-La distancia entre la línea trazada en la media y el punto de inflexión

de la curva es igual a una desviación típica (). Cuanto mayor sea, más
aplanada será la curva de la densidad.
-El área bajo la curva comprendida entre los valores situados

aproximadamente a dos desviaciones estándar de la media es igual a
0.95. En concreto, existe un 95% de posibilidades de observar un valor
comprendido en el intervalo.
-La forma de la campana de Gauss depende de los parámetros y

(Figura 3). La media indica la posición de la campana, de modo que
para diferentes valores de la gráfica es desplazada a lo largo del eje
horizontal. Por otra parte, la desviación estándar determina el grado de
apuntamiento de la curva. Cuanto mayor sea el valor de , más se
dispersarán los datos en torno a la media y la curva será más plana.
Un valor pequeño de este parámetro indica, por tanto, una gran
probabilidad de obtener datos cercanos al valor medio de la
distribución.
Es importante conocer que, a partir de cualquier variable X que siga

una distribución, se puede obtener otra característica Z con una
distribución normal estándar, sin más que efectuar la transformación:
4.2.1.2 la distribución normal estándar
La distribución normal estándar, o tipificada o reducida, es aquella que

tiene por media el valor cero, μ = 0, y por desviación típica la unidad, σ
=1. Su función de densidad es: Su gráfica es: La probabilidad de la
variable X dependerá del área del recinto sombreado en la figura.
Esta curva "de campana" es la distribución normal estándar.

Puedes usar la tabla de abajo para saber el área bajo la curva desde la
línea central hasta cualquier línea vertical "a valor Z" hasta 3, en
incrementos de 0.1
Esto te dice qué parte de la población está dentro de "Z" desviaciones

estándar de la media.
En lugar de una tabla LARGA, hemos puesto los incrementos de 0.1

hacia abajo, y los de 0.01 de lado.
Por ejemplo, para saber el área debajo de la curva entre 0 y 0.45, ve a

la fila de 0.4, y sigue de lado hasta 0.45, allí pone 0.1736
Como la curva es simétrica, la tabla vale para ir en las dos direcciones,

así que 0.45 negativo también tiene un área de 0.1736
4.2.1.3. Uso de tablas de la distribución normal estándar
La tabla nos da las probabilidades de P(z ≤ k), siendo z la variable

tipificada.
La probabilidad de la variable X dependerá del área del recinto

sombreado en la figura. Y para calcularla utilizaremos una tabla.
Tipificación de la variable
Para poder utilizar la tabla tenemos que transformar la variable X que

sigue una distribución N(μ, σ) en otra variable Z que siga una
distribución N(0, 1).
P(Z ≤ a)
P(Z ≤ 1.47) = 0.9292
P(Z > a) = 1 - P(Z ≤ a)

P(Z > 1.47) = 1 − P(Z ≤ 1.47) = 1 −
0.9292 = 0.0708
P(Z ≤ −a) = 1 − P(Z ≤ a)

P(Z ≤ −1.47) = 1 − P(Z ≤ 1.47) = 1 − 0.9292 = 0.0708
P(Z > −a) = P(Z ≤ a)
p(Z > −1.47) = p(Z ≤ 1.47) = 0.9292
P(a < Z ≤ b ) =P(Z ≤ b) − P(Z ≤ a)

P( 0.45 <Z ≤ 1.47) = P(Z ≤ 1.47) − P(Z ≤ 0.45) =
= 0.9292 − 0.6736 = 0.2556
P(−b < Z ≤ −a ) = = P(a < Z ≤ b )

P(−1.47 <Z ≤ −0.45) =
=P( 0.45 <Z ≤ 1.47)
= P(Z ≤ 1.47) − P(Z ≤ 0.45) = = 0.9292 −
0.6736 = 0.2556
4.2.1.4 Propiedades para el cálculo de otras áreas en la distribución
normal estándar.
La distribución normal estandar posee ciertas propiedades importantes que

conviene destacar:
i. Tiene una única moda, que coincide con su media y su mediana.
ii. La curva normal es asintótica al eje de abscisas. Por ello, cualquier

valor entre y es teóricamente posible. El área total bajo la
curva es, por tanto, igual a 1.
iii. Es simétrica con respecto a su media . Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor
que la media, y un 50% de observar un dato menor.
iv. La distancia entre la línea trazada en la media y el punto de inflexión de

la curva es igual a una desviación típica ( ). Cuanto mayor sea , más
aplanada será la curva de la densidad.
v. El área bajo la curva comprendida entre los valores situados

aproximadamente a dos desviaciones estándar de la media es igual a
0.95. En concreto, existe un 95% de posibilidades de observar un valor
comprendido en el intervalo .
vi. La forma de la campana de Gauss depende de los

parámetros y . La media indica la posición de la campana, de
modo que para diferentes valores de la gráfica es desplazada a lo
largo del eje horizontal. Por otra parte, la desviación estándar determina
el grado de apuntamiento de la curva. Cuanto mayor sea el valor de ,
más se dispersarán los datos en torno a la media y la curva será más
plana. Un valor pequeño de este parámetro indica, por tanto, una gran
probabilidad de obtener datos cercanos al valor medio de la distribución.
4.2.1.5. Aplicaciones de la distribución normal estandar
Suponga que en una determinada empresa se analiza el tiempo que
lleva a los trabajadores la instalación de una determinada pieza del
producto que fabrica, concluyendo que se distribuye como una normal
con una media de 30 minutos y una desviación estándar de 5 minutos.
Con estos datos se podrían contestar preguntas como:
1. ¿Cuál es la probabilidad de que un trabajador aleatoriamente

seleccionado pueda montar la pieza en menos de 30 minutos?
La respuesta es la siguiente: 0,5 5 30 30 ( 30 ) ( P X d P Z d Es decir,

el 50 por ciento. (5) Ϭ Ϭ͕ϭ Ϭ͕Ϯ Ϭ͕ϯ Ϭ͕ϰ Ϭ͕ϱ Ϭ͕ϲ Ϭ͕ϳ Ϭ͕ϴ Ϭ͕ϵ ϬϮϰϲ y Ĩ;ǆͿ
E;ϯ͕Ϭ͘ϱͿ E;ϯ͕ϭͿ E;ϯ͕ϮͿ Grá!co
2. Distribuciones normales con distintas varianzas y la misma media

Fuente: Elaboración propia. (6) (6) ³ f 0 ( ) ( ) z F Z f Z dz (4) eXtoikos
110 Nº 6. 2012 2. ¿Cuántos minutos tienen que pasar antes de que el
10 por ciento de los trabajadores monten la pieza?
Lo que debemos obtener aquí es el valor de la variable Z que deja en la

cola izquierda de la distribución el 10 por ciento. En las tablas
obtendríamos un valor z0 =-1,28. Este será el valor tipi!cado, de
manera que el valor de X será: x0 =μ+z0 σ=30- 1,28x5=23,6 minutos.
4.2.2. Distribución t de student

En probabilidad y estadística, la distribución t (de Student) es
una distribución de probabilidad que surge del problema
de estimar la media de una poblaciónnormalmente distribuida cuando
el tamaño de la muestra es pequeña.
Aparece de manera natural al realizar la prueba t de Student para la

determinación de las diferencias entre dos varianzas muestrales y para
la construcción del intervalo de confianza para la diferencia entre las
partes de dos poblaciones cuando se desconoce la desviación típica de
una población y esta debe ser estimada a partir de los datos de una
muestra.
4.2.2.1. Uso de tablas de la distribución t de student
La distribución t de Student es necesaria para el cálculo de intervalos

de confianza que involucran a medias.
Se utiliza para:
1. Probar que cada una de las muestras tiene una distribución normal.
2. Obtener para cada una de las muestras:
a) el tamaño de las muestras (n1 y n2)
b) sus respectivas medias (m1 y m2)
c) sus varianzas (v1 y v2)
3. Probar que las varianzas sean homogéneas.
4. En caso de homogeneidad en esas varianzas:
a) establecer la diferencia entre las medias: m1-m2
b) calcular la varianza común de las dos muestras. vc = ((n1-1)v1 +

(n2-1)v2) / (n1 + n2 - 2) Es decir, la varianza común (vc) es igual a un
promedio pesado de las varianzas de las dos muestras en donde los
pesos para ese promedio son iguales al tamaño, menos uno (n-1) para
cada una de las muestras.
c) con esa varianza común, se calcula el error estándar de la diferencia

de las medias ESM= √ ((vc) (n1 + n2)/(n1n2))
5. Finalmente, la t-Student es igual al cociente de la diferencia de

medias entre el ESM anterior.
6. De acuerdo con nuestra hipótesis nula y alterna se debe demostrar

que existe diferencia entre las medias de las muestras, se consulta una
tabla de t-Student con grado de libertad igual a n1 + n2-2 y se calcula el
valor de P. 5.
Ejemplo
De un universo de 44,000 niños, a los que se les registró el peso, talla
e índice de masa corporal, se tomó una muestra de 56 adolescentes
(21 niñas y 35 niños), del subgrupo de niñas y niños de 14 años de
edad, para comparar las medias tomando exclusivamente el índice de
masa corporal (IMC).
IMC en niñas y niños de 14 años de edad Paso 1: prueba de
normalidad de cada una de las muestras.
Niñas: p = 0.071, hay normalidad.
Niños: p = 0.0008 no hay normalidad.
Paso 2: en este caso se hace la prueba t-test aun sabiendo que una de
las muestras (los niños) no tiene normalidad.
Paso 3: prueba para la homogeneidad de varianzas; se pueden

considerar que son homogéneas debido a que la p = 0.570.
Paso 4: (i) diferencia de medias = 0.025, (ii) vc a las muestras.
VC = ((n1-1) v1 + (n2-1)v2) / (n1 + n2 - 2)
=20 × 17.852 + 34 × 14.428 / 21 + 35 - 2
= 357.040 + 490.552 / 54
= 847.592 / 54
=15.696
(iii) Error estándar de las diferencias de las medias
Paso 5: el valor de la t-test será:
t= (diferencia de las medias) / (ESM)
t= 0.925 / 1.094
t= 0.846
Paso 6: hipótesis:
Ho: el IMC es igual en niños y niñas.
H1: El IMC es diferente entre los niños y las niñas.
Los grados de libertad, para consultar la tabla de t-Student son 21 + 35-

2 = 54, consultando el valor de p es 0.401. Por lo tanto, no existe
diferencia entre el IMC entre los niños y niñas de 14 años.
Averiguar α ,ν 2 1− t
Supongamos un riesgo del 5% (o un nivel de confianza del 95%),

α=0.05, y grados de libertad ν=10. Utilizaremos α/2 ya que dejamos el
mismo espacio correspondiente a la región de rechazo por ambos
lados. ¿Cuál es el valor, pues, de t2 0.975,10 ? Se busca la
intersección y el resultado es 2.228. Éste es el valor crítico para
rechazar la hipótesis alternativa.
4.2.3. Distribución chi cuadrado
Es una distribución continua que se especifica por los grados de libertad
y el parámetro de no centralidad. La distribución es positivamente
asimétrica, pero la asimetría disminuye al aumentar los grados de
libertad. Se utiliza la distribución de chi-cuadrada (χ2) en
Comprobar qué tan bien se ajusta una muestra a una distribución

teórica. Por ejemplo, puede utilizar una prueba de bondad de ajuste de
chi-cuadrada para determinar si los datos de la muestra se ajustan a
 Comprobar la independencia de las variables categóricas. Por ejemplo,

un fabricante desea saber si la ocurrencia de cuatro tipos de defectos
(espárrago faltante, abrazadera rota, sujetador flojo y sello con fugas)
 está relacionada con los turnos (diurno, vespertino, nocturno).
Cuando los grados de libertad son 30 o más, la distribución de chi-

cuadrada puede aproximarse razonablemente con una distribución
normal, como se ilustra en las siguientes gráficas:
Distribución de chi-cuadrada con 20 grados de libertad
4.2.3.1. Uso de la tabla de la distribución chi cuadrado

Tabla distribución chi-cuadrado
1. ¿Cómo se usa la tabla de la distribución CHI CUADRADA para

averiguar 2 χ α, ν? Supongamos un riesgo del 5% (o un nivel de
confianza del 95%), α=0.05, y grados de libertad ν=10. ¿Cuál es el
valor de X2 0.95,10 ? Se busca la intersección y el resultado es 18.307.
Éste es el valor crítico para rechazar la hipótesis alternativa.
V. CAPITULO
5. INTRODUCCION A LA TRASNFERENCIA ESTADISTCA

Como ya se ha dicho en anteriores temas, uno de los principales objetivos de la
estadística es el aprendizaje a partir de la observación. En particular, la
estadística proporciona el método para poder conocer cómo es el fenómeno
real que ha generado los datos observados y que generará los futuros. En
estadística, el interés final no está tanto en los datos observados, sino en cómo
serán los próximos datos que se vayan a observar. Como ya se ha estudiado
anteriormente, consideraremos que la variable que nos interesa es una variable
aleatoria X, y que los datos que observamos son sólo una muestra (conjunto de
realizaciones) procedente de dicha variable aleatoria. La variable aleatoria
puede generar un número indefinido de datos. Todos los datos posibles
(posiblemente infinitos) serán la población. Por eso, muchas veces nos
referiremos de forma indistinta a la población o a la variable aleatoria que la
genera.
Supongamos, por ejemplo, que queremos saber cómo son los artículos
manufacturados por un determinado proceso. Para ello nos concentraremos en
algún conjunto de variables medibles que sean representativas de las
características de dicho artículo. Por ejemplo, la longitud de alguna de sus
dimensiones podría ser una variable que nos interese conocer. La longitud de
los posibles artículos manufacturados será una variable aleatoria, pues todo
proceso productivo tiene siempre variabilidad, grande o pequeña. Las
longitudes de los distintos artículos serán, en general, distintas. Diremos
entonces que X = longitud de un artículo genérico, es una variable aleatoria de
distribución desconocida. Para poder saber cómo es esa variable aleatoria,
produciremos una muestra de artículos, y a partir de ella haremos un ejercicio
de inducción, para extrapolar las características de la muestra a toda la
población.
En estadística, al ejercicio de inducción, por el que a partir de la muestra

intentamos predecir cómo será el resto de la población que no se ha observado
(la variable aleatoria) se le llama inferencia estadística, o simplemente
inferencia. Supondremos que para realizar este ejercicio de inferencia tenemos
una conjunto de datos obtenidos al azar de entre la población de posibles
datos. A una muestra de este tipo se le llamará muestra aleatoria simple. Por
simplicidad, y mientras no se diga lo contrario, supondremos que las muestras
que obtengamos serán muestras aleatorias simples, y por tanto nos referiremos
a ellas simplemente como muestras. En una muestra aleatoria simple se tienen
dos características importantes
1.2 La Estimación de Parámetros
1.3 Es el procedimiento utilizado para conocer las características de un

parámetro poblacional, a partir del conocimiento de la muestra.
1.4 Con una muestra aleatoria, de tamaño n, podemos efectuar una

estimación de un valor de un parámetro de la población; pero también
necesitamos precisar, al ser una estimación existe cierto error. Incluso,
aunque el estimador tenga todas las propiedades óptimas. Por pequeño
que sea, siempre existirá un error.
Así pues, para obtener estimaciones adaptadas a esa realidad, se

crean intervalos de confianza. Es decir, rangos entre los que están esos
valores estimados con cierto grado de confianza. El grado de confianza
(fiabilidad) se puede modificar. Cuando mayor sea el grado de confianza, más

grande será el intervalo. Eso sí, cuanto menos error tenga la estimación inicial,
más acotado será el intervalo de confianza.
1.5 Estimación puntual

En este tema se trata el problema de la estimación de parámetros.
Para ello, comenzamos recordando algunos conceptos básicos de la inferencia
estadística que ya fueron introducidos en el tema anterior, y que serán
necesarios para la construcción y el estudio de los estimadores:
 Población: conjunto homogéneo de individuos sobre los que se estudian

características observables con el objetivo de extraer alguna
conclusión. Por abuso de notación, en ocasiones nos referimos a la
distribución que sigue la variable de interés en vez de al conjunto de
individuos. Así, se dice que estamos ante una población Normal
indicando que la variable que nos interesa sigue una distribución
normal.
 Parámetro: característica de la población, como la media y la varianza
(o desviación típica) en la distribución Normal o la probabilidad de éxito
en la Binomial son parámetros. Si conocemos su valor (o si somos
capaces de aproximarlo con suficiente precisión) podremos responder a
cualquier pregunta sobre la distribución.
 Estadístico: cualquier función de la muestra. Por ejemplo, la media o la
varianza muéstrales son estadísticos.
 Estimadores: son estadísticos independientes de los parámetros de la
población, y que se utilizan para aproximarlos. Si θ es el parámetro de
interés, el estimador se denotará por ˆθ. En el caso de una población
Normal, podemos considerar la media muestral como estimador de la
media poblacional (es decir, X = µˆ) y la varianza muestral como
estimador de la varianza poblacional (s 2 = σˆ 2 ). Para una distribución
Bi(m, p), donde m denota el número de pruebas de Bernoulli, la
proporción p se puede estimar a partir de la proporción poblacional (que
denotaremos por pˆ). Por tanto, X, s 2 y pˆ son estimadores puntuales
de µ, σ 2 (en distribución Normal) y p (en distribución Binomial),
respectivamente.
 Método de muestreo: procedimiento para seleccionar una muestra. Si
en una población queremos obtener una muestra de un cierto tamaño n
(siendo n menor que el tamaño de la población), la manera de obtener
esta muestra no es única. En este tema, consideraremos muestras
aleatorias simples (m.a.s.).
Las estimaciones puntuales de los parámetros se obtienen a partir de una
muestra aleatoria simple X1, . . . , Xn de la variable X. Si calculamos el valor del
estimador a partir de distintas muestras, los resultados que obtendremos serán
diferentes. Es decir, los estimadores, al estar construidos a partir de muestras
aleatorias, son aleatorios y en consecuencia, tienen una distribución. La
distribución de los estimadores se denomina distribución en el muestreo.
Describimos a continuación los estimadores para la proporción (en distribución
Binomial) y para la media y la varianza (en distribución Normal) y sus
respectivas distribuciones en el muestreo, que serán tenidas en cuenta a la
hora de construir los intervalos de confianza.
1.6
1.7 Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de valores
donde es más probable se encuentre el parámetro. La obtención del intervalo
se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener

las probabilidades de ocurrencia de los estadísticos muéstrales.
b) Si conociéramos el valor del parámetro poblacional, podríamos
establecer la probabilidad de que el estimador se halle dentro de los
intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello
el intervalo se establece alrededor del estimador. Si repetimos el
muestreo un gran número de veces y definimos un intervalo alrededor
de cada valor del estadístico muestral, el parámetro se sitúa dentro de
cada intervalo en un porcentaje conocido de ocasiones. Este intervalo es
denominado "intervalo de confianza".
INTERVALO DE CONFIANZA
Un intervalo de confianza de nivel C para un parámetro
poblacional
tienen dos partes:
• Un intervalo calculado a partir de los datos, en
general, tiene la
forma
estimación ± error de estimación
EJEMPLO.
• Un nivel de confianza C, que proporciona la
probabilidad de que La
en un muestreo repetido, el intervalo contenga el siguiente
verdadero valor imagen
del parámetro muestra la
distribución
de las Medias muestrales obtenidas de 100000 muestras aleatorias y los
intervalos alrededor de cada una de las Medias obtenidas de diez de las
muestras:
Donde ls y le simbolizan los límites superior e inferior del intervalo de confianza
al 95%.
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral

igual a 3.7) incluyen el valor del parámetro dentro sus límites.
1.8 Intervalos de confianza para la media µ
El razonamiento utilizado para hallar un intervalo de confianza del 95% para la
media poblacional µ, se puede aplicar a cualquier nivel de confianza. Partimos
de la distribución de la media muestral x¯. Si conocemos µ, podemos
estandarizar x¯. Estadístico El resultado es el estadístico z de una muestra
z = x¯ − µ σ/ √ n
El estadístico z nos dice si la x¯ observada se halla muy lejos de µ, tomando

como unidad de medida la desviación típica de x¯. Debido a que x¯ tiene una
distribución normal, z tiene una distribución normal estandarizada N(0,1). Para
hallar un intervalo de confianza del 95%, señala el 95% del área por debajo de
la curva. Para un intervalo de confianza de nivel C, marca el área central C.
Llama z ∗ al punto de la distribución normal estandarizada que marca el inicio
del área central C del área total 1 por debajo de la curva
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONA
Obtén una muestra aleatoria simple de tamaño n de una población de media

desconocida µ y desviación típica conocida σ. Un intervalo de confianza C
para µ es
El valor crítico z se ilustra en la figura 6.6 y se puede hallar en la tabla C. El

valor de z es exacto cuando la distribución poblacional es normal, en los
restantes casos es aproximadamente correcto cuando n es grande
1.9 PROPORCIÓN POBLACIONAL
En poblaciones dicotómicas con una proporción de éxitos el estimador
puntual del parámetro es la proporción muestral de éxitos, p, que coincide

con la media de la muestra cuando se codifica como 1 la característica que se
considera como éxito y 0 la que se considera no éxito. A partir de un tamaño
muestral moderadamente grande el estadístico p tiene una distribución
aproximadamente normal. El intervalo de confianza para la proporción
poblacional está centrado en la proporción muestra, siendo sus límites superior
e inferior
donde z/2 es el valor crítico correspondiente al grado de confianza 1- de la
distribución normal tipificada y es el error típico de la proporción.
Para obtener el intervalo de confianza y contrastar hipótesis sobre la proporción
una alternativa consiste en tratar a la proporción como la media poblacional

de una variable dicotómica codificada como se ha descrito anteriormente
(éxito=1, no éxito=0) y la secuencia es:
 Para el intervalo de confianza:
Analizar
Estadísticos Descriptivos
Explorar
 ara contrastar la hipótesis nula
Analizar
Comparar medias
Prueba T para una muestra
Utilizando este criterio los resultados numéricos no coinciden exactamente con

los que se obtendrían aplicando la expresión del error típico de la proporción;
no obstante la discrepancia es despreciable si el número de observaciones es
suficientemente grande.
Otras alternativas para realizar este contraste son de naturaleza no

paramétrica.
5.2 PRUEBA DE HIPOTESIS
Una prueba de hipótesis es una regla que especifica si se puede aceptar o

rechazar una afirmación acerca de una población dependiendo de la evidencia
proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población:
la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que
se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay
efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se
desea poder concluir que es verdadero de acuerdo con la evidencia
proporcionada por los datos de la muestra.
Con base en los datos de muestra, la prueba determina si se puede rechazar la

hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es
menor que el nivel de significancia (denotado como α o alfa), entonces puede
rechazar la hipótesis nula.
5.2.1 PRUEBA DE HIPOTESIS PARA LA MEDIA POBLACIONAL
El propósito de la prueba de hipótesis es determinar si un valor propuesto

(hipotético) para un parámetro poblacional, por ejemplo para una media, debe
aceptarse como plausible con base en la evidencia muestra. Recuérdelas
distribuciones de muestreo, en general el valor de una media muestra difiere
del valor de la media poblacional. Si el valor de un estadístico muestral, como
la media muestral es cercano al valor propuesto con parámetro y solo difiere en
una cantidad que resulta des esperarse debido al muestreo aleatorio, entonces
no se rechaza el valor hipotético. Si el estadístico muestral difiere del valor
propuesto en una cantidad que no es atribuible a la casualidad, entonces se
rechaza la hipótesis por no considerarse plausible. Se han desarrollado tres
métodos para pruebas de hipótesis, todos ellos conducentes a la misma
decisión cuando se usan los mismos estándares de probabilidad y de riesgo.
Independientemente del método que se utilice en las pruebas de hipótesis,
observe que cuando se rechaza el valor hipotético, y por tanto se acepta, esto
no constituye una prueba de que el valor hipotético sea correcto. La aceptación
de un valor propuesto como un parámetro simplemente indica que es un valor
plausible de acuerdo con el valor observado en el estadístico muestral.
La prueba de hipótesis tiene varias etapas:
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula

(H0) es el valor hipotético del parámetro que se compra con el resultado
muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de

significancia del 5%, entonces se rechaza la hipótesis nula solamente si el
resultado muestral es tan diferente del valor hipotético que una diferencia de
esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de
0.05 o menos.
Etapa 3.- Elegir el estadístico de prueba. El estadístico de prueba puede ser el

estadístico muestral (el estimador no segado del parámetro que se prueba) o
una versión transformada de ese estadístico muestral. Por ejemplo, para probar
el valor hipotético de una media poblacional, se toma la media de una muestra
aleatoria de esa distribución normal, entonces es común que se transforme la
media en un valor Z el cual, a su vez, sirve como estadística de prueba.
Etapa 4.- Establecer el valor o valores críticos del estadístico de prueba.

Habiendo especificado la hipótesis nula, el nivel de significancia y el estadístico
de prueba que se van a utilizar, se procede a establecer el o los valores críticos
del estadístico de prueba. Puede haber uno o más de esos valores,
dependiendo de si se va a realizar una prueba de uno o dos extremos o colas.
Etapa 5.- Determinar el valor real del estadístico de prueba. Por ejemplo, al
probar un valor hipotético de la media poblacional, se toma una muestra
aleatoria y se determina el valor de la media muestral. Si el valor crítico que se
establece es un valor de Z, entonces se transforma la media muestral en un
valor de Z.
Etapa 6.- Tomar la decisión. Se compara el valor observado del estadístico

muestral con el valor (o valores) críticos del estadístico de prueba. Después no
se rechaza o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la
alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los
administradores operativos, como por ejemplo, mantener o no un estándar de
desempeño o cuál de dos estrategias de mercadotecnia utilizar.
La distribución apropiada de la prueba estadística se divide en dos regiones:

una región de rechazo y una de no rechazo. Si estadístico de prueba cae en
esta última región no se puede rechazar la hipótesis nula y se llega a la
conclusión de que el proceso funciona correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el

valor crítico en la distribución estadística que divide la región del rechazo (en la
cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora
bien el valor crítico depende del tamaño de la región de rechazo.
Pasos de la prueba de hipótesis:
1. Definir el Problema ( Problema Práctico).
2. Señalar los Objetivos ( Problema Estadístico).
3. Determinar tipo de datos: Atributo o Variable.
4. Si son datos Variables: Hacer Prueba de Normalidad.
5. Establecer las Hipótesis: Hipótesis Nula (Ho con signo igual), o la

Hipótesis Alterna (Ha con signo de mayor o menor).
6. Seleccionar el nivel de Alfa (normalmente 0.05 o 5%).
7. Establecer el tamaño de la muestra, .
8. Desarrollar el Plan de Muestreo.

9. Seleccionar Muestras y Obtener Datos.
10. Decidir la prueba estadística apropiada y calcular el estadístico de

prueba (Z, t, X2 o F) a partir de los datos.
11. Obtener el estadístico correspondiente de tablas o Excel.
12. Determinar la probabilidad de que el estadístico de prueba calculado

ocurra al azar.
13. Comparar el estadístico calculado con el de tablas y ver si cae en la

región de rechazo o ver si la probabilidad es menor a alfa, rechace Ho y
acepte Ha. En caso contrario no rechace Ho.
14. Con los resultados interprete una conclusión estadística para la solución
práctica.
Por ejemplo, probar las afirmaciones en los parámetros se usan los

estadísticos:
En una población
La media poblacional m = 12; estadístico Zc
La varianza poblacional σ2 = 12; estadístico c2
La proporción poblacional p = 0.3 estadístico Zc
En dos poblaciones
Las medias poblacionales son iguales m1 = m2 o m1 - m2 = 0;

estadístico Zc o Tc
Las varianzas poblacionales son iguales σ12 = σ22 o σ12 - σ22 = 0;

estadístico Fc
Las proporciones poblacionales son iguales p1 = p2 o p1 - p2 = 0

estadístico Zc
5.2.2 PRUEBA DE HIPOTESIS PARA LA PROPORCION POBLACIONAL:
El expendio Pollos Deliciosos asegura que 90% de sus órdenes se entregan en

menos de 10 minutos. En una muestra de 100 órdenes, 82 se entregaron
dentro de ese lapso. Puede concluirse en el nivel de significancia 0,01, que
menos de 90% de las órdenes se entregan en menos de 10 minutos?
5.2.3 PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS

POBLACIONALES:
1. Cuando se trabaja simultáneamente con una variable categórica (posible VI)

y una variable dependiente (posible VD).
• Se debe considerar el número de niveles de la variable categórica. • El

objetivo es comparar los valores de la variable e cuantitativa va en función de
los niveles de la variable categórica.
• Se asume que los grupos son independientes.

• ¿Es posible asumir que la población se distribuye normalmente? 2. Cuando
se trabaja con muestras relacionadas, lo que significa dos mediciones
cuantificabas en el mismo grupo.
• Lo habitual es considerar al mismo grupo de sujetos medidos dos veces;

también se pueden con parar a pares de sujetos ( j e : gemelos).
Ejercicio:
• Un equipo de consejeros de rehabilitación juvenil tiene la impresión de que los

jóvenes no reincidentes (NR) son mayores en cuanto al promedio de edad que
los sujetos reincidentes (R) al momento en que caen en poder de las
autoridades.
• El equipo u obtiene una m.a. de n 1 = 50 registros registros de reincidentes

reincidentes y n2= 60 no reincidentes.
Estadísticos:
• Promedio NR = 14.3; Varianza = 4.
• Promedio R = 12.3; varianza = 6.25
• Alfa = 0.05
5.2.4 PRUEBA DE HIPOTES PARA LA DIFERENCIA DE MEDIAS

POBLACIONALES CON OBSERVACIONES PAREADAS:
5.2.5 Prueba de Hipótesis para la diferencia de
proporciones poblacionales.
En ocasiones deseamos saber si dados dos muestras derivadas

de poblaciones diferentes o iguales, presentan diferencias
significativas en sus parámetros o no presentan alguna
diferencia dada una variable dada, en este caso, el parámetro
seleccionado viene dado por la proporción entre cada una de las
poblaciones. Por ello al seleccionar dos muestras aleatorias,
debemos tener en cuenta que tiene las siguientes condiciones:
POBLACIÓ POBLACIÓ DEFINICIÓ

N1 N2 N
𝑛1 𝑛2 Elementos
de la
muestra de
cada
población
𝑃1 𝑃2 Proporción
poblacional
𝑝̅1 𝑝̅2 Proporción
dela
muestra
escogida
Una vez obtenidos cada uno de los parámetros anteriormente

definidos, queda definir el estadístico Z que se contrastara con
los resultados generados en la prueba de hipótesis de las dos
muestras:
 Una vez definida los parámetros de cada una de las

muestras aleatorias, en lo que nos centraremos en la
proporción de cada una de las poblaciones estudiadas,
realizaremos el planteamiento de la prueba de hipótesis tanto
nula como alternativa de la siguiente manera
𝐻0 : 𝑃1 − 𝑃2 = 0, o que 𝐻0 : 𝑃1 = 𝑃2
𝐻1 : 𝑃1 − 𝑃2 ≠ 0, o que 𝐻1 : 𝑃1 ≠ 𝑃2
La hipótesis nula nos indica que las proporciones de ambas

poblaciones no tienen ninguna diferencia estadísticamente
significativa por lo tanto pueden considerarse iguales
(mirándolo desde un punto de vista estadístico), en cambio
las hipótesis alternativas nos plantean que existen
diferencias significativas en las proporciones poblacionales
con un nivel de confianza de α%(alfa)
 Como se mencionó anteriormente, se especificara un nivel

de significación de 𝛼 = 5%(0,05), 1%(0,01) 𝑜 10%(0,1) entre
otros (estos son los más habituales) definiendo de esta
manera el valor critico que presentara nuestra prueba de
hipótesis
 Estimaremos el error estándar de la diferencia de las dos
proporciones, esta será de mucha ayuda a la hora de
calcular el estadístico Z.
𝑝̅1 𝑞1 𝑝̅2 𝑞2
𝑆𝑝1−𝑝2 = √ +
𝑛1 𝑛2
Donde
Los datos de cada una de las formulas provienen de

POBLACIÓ POBLACIÓ DEFINICIÓ
N1 N2 N
𝑛1 𝑛2 Elementos
de la
muestra de
cada
población
𝑃1 𝑃2 Proporción
poblacional
𝑝̅1 𝑝̅2 Proporción
dela
muestra
escogida
 Para calcular el estadístico Z para la media que sigue la

distribución normal es:
(𝑝̅1 − 𝑝̅2 ) − (𝑃1 − 𝑃2 )
𝒁=
𝑆𝑝1−𝑝2
Nota: En algunos ejercicios de este tipo de prueba
generalmente no se conoce las proporciones poblaciones, en
ese caso la diferencia 𝑃1 − 𝑃2 = 0 , por lo que en algunos
ejemplos utilizaremos el estadístico Z
(𝑝̅1 − 𝑝̅2 )
𝒁=
𝑆𝑝1−𝑝2
Donde a raíz del resultado obtenido de este Z calculado
realizaremos el contraste para determinar si se rechaza o no la
hipótesis nula y se acepta o no la alternativa.
5.1 Análisis de regresión de línea simple.

El análisis de regresión lineal, en general, nos permite obtener una
función lineal de una o más variables independientes o predictoras (X1,
X2, ... XK) a partir de la cual explicar o predecir el valor de una variable
dependiente o criterio (Y). En el análisis de regresión lineal podemos
diferenciar entre análisis de regresión lineal simple y análisis de
regresión lineal múltiple. En el primero, se intenta explicar o predecir la
variable dependiente Y a partir de una única variable independiente,
X1; mientras que en el segundo, contamos con un conjunto de
variables independientes, X1, X2, ...XK, para estimar la variable
dependiente Y. En ambos casos, tanto la variable dependiente como
la/s independiente/s están medidas en escala de intervalo o de razón.
En este capítulo nos vamos a ceñir al análisis de regresión lineal simple

posponiendo para el próximo capítulo la regresión lineal múltiple que,
como tendremos ocasión de apreciar, comparte mucho de lo que en
estas líneas se recoge. El análisis de regresión lineal simple tiene por
finalidad predecir y/o estimar los valores de la variable dependiente a
partir de la obtención de la función lineal de la variable independiente.
La anotación matemática de la ecuación de regresión simple se anota
como sigue:
En donde:
Y es la variable a predecir;
a y b1X1 son parámetros desconocidos a estimar;
y e es el error que cometemos en la predicción de los pará-
metros.
No obstante, antes de proceder a la estimación de los parámetros, y
con ellos a la concreción de una ecuación predictiva, debemos
corroborar que, efectivamente, los datos sometidos a análisis se
adaptan a un modelo de regresión lineal. La lección la hemos
estructurado en los siguientes puntos:
1. Exposición de los estadísticos que nos permiten valoración de la
bondad de ajuste de los datos al modelo de regresión lineal
simple.
2. Si los estadísticos certifican que entre los datos se produce una

asociación lineal, podremos pasar a estimar los parámetros de la
ecuación lineal (B0 y B1), a partir de los cuales podremos
efectuar predicciones de la variable dependiente. Cabe advertir
que en el supuesto caso en el que los estadísticos rechazaran la
asociación lineal entre los datos, no significa que entre ellos se
produzca otro tipo de relación (como la curvilínea).
3. Por último, exponemos la secuencia de pasos que nos permiten

determinar lo arriba apuntado. En el análisis de regresión simple,
y con la finalidad de obtener la mayor información posible
respecto a la relación y asociación entre las dos variables,
vamos a trabajar con tres Cuadros de Diálogos, a saber: Cuadro
de Diálogo de Correlaciones Bivariadas. Cuadro de Diálogo de
Gráficos; y Cuadro de Diálogo del Análisis de Regresión Lineal
Múltiple.
5.1.1 Elección de una relación funcional.
5.1.2 El método de los mínimos cuadrados ordinarios.

En estadística, los mínimos cuadrados ordinarios (MCO) o
mínimos cuadrados lineales es el nombre de un método para
encontrar los parámetros poblacionales en un modelo de
regresión lineal. Este método minimiza la suma de las distancias
verticales entre las respuestas observadas en la muestra y las
respuestas del modelo. El parámetro resultante puede
expresarse a través de una fórmula sencilla, especialmente en el
caso de un único regresionador.
El método MCO, siempre y cuando se cumplan los supuestos

clave, será consistente cuando los regresionadores sean
exógenos y no haya perfecta multicolinealidad, este será óptimo
en la clase de parámetros lineales cuando los errores sean
homocedásticos y además no haya autocorrelación. En estas
condiciones, el método de MCO proporciona un estimador
insesgado de varianza mínima siempre que los errores tengan
varianzas finitas. Bajo la suposición adicional de que los errores
se distribuyen normalmente, el estimador MCO es el de máxima
verosimilitud. Los MCO se utilizan en economía (econometría) y
en la ingeniería eléctrica (teoría de control y procesamiento de
señales), entre muchas áreas de aplicación.
Supongamos que los datos se componen de n observaciones { y

i, x
i }n
i=1. Cada observación incluye una respuesta yi escalar y un
vector de regresores o predictores xi. En un modelo de regresión
lineal la variable de respuesta es una función lineal
de p variables explicativas:
donde β es un vector de parámetros desconocidos p×1 ; εi es

un escalar de variables no observadas aleatorias (errores)
que dan cuenta de la discrepancia entre la realidad
observada yi y los "resultados previstos" x′iβ, y denota
la matriz transpuesta, de modo que x′ β es el producto
escalar entre los vectores x y el β. Este modelo también se
puede escribir en notación matricial como
en donde y y ε son vectores n×, y X es una matriz de

regresores n×p , a lo que también se le llama la matriz de
diseño. Como regla general, el término constante se incluye
siempre en el conjunto de regresores X, por ejemplo,
mediante la adopción dexi1 = 1 para todo i = 1, …, n. El
coeficiente β1correspondiente a este regresor se le llama el
intercepto. Puede haber alguna relación entre los
regresores. Por ejemplo, el regresor tercero puede ser el
cuadrado del segundo regresor. En este caso (suponiendo
que el primer regresor es constante) tenemos un modelo de
segundo grado en el regresor segundo. Pero esto todavía se
considera un modelo lineal, ya que es lineal en las βs.
Supuestos clave
Existen tres supuestos que deben cumplirse para llevar a
cabo una regresión lineal, estos son:
1. La varianza de los errores debe ser homocedastica.

2. Las variables explicativas deben ser ortogonales a
los residuos, es decir, no comparten información.
3. Los errores no deben estar correlacionados entre sí.
Hay varios diferentes marcos en los que el modelo
de regresión lineal pueden ser tratado con el fin de hacer
que la técnica de MCO sea aplicable. Cada una de estas
configuraciones produce las mismas fórmulas y los mismos
resultados, la única diferencia es la interpretación y los
supuestos que han de imponerse a fin de que el método
pueda dar resultados significativos. La elección de la
estructura aplicable depende principalmente de la naturaleza
de los datos a la mano, y en la tarea de inferencia que se
tiene que realizar.
Una de las líneas de diferencia en la interpretación es si

tratar los regresores como variables aleatorias, o como
constantes predefinidas. En el primer caso ("diseño
aleatorio) los regresores de xi son aleatorios y se toman
muestras del conjunto con los yi de alguna población, como
en un estudio observacional. Este enfoque permite un
estudio más natural de las propiedades asintóticas de los
estimadores. En la otra interpretación (diseño fijo), los
regresores de X se tratan como constantes conocidas
establecidas por un diseño, y y se muestrea
condicionalmente en los valores de X como en un
experimento. A efectos prácticos, esta distinción a menudo
carece de importancia, ya que la estimación y la inferencia
se lleva a cabo mientras se condiciona en X. Todos los
resultados consignados en este artículo se encuentran
dentro del marco de diseño aleatorio.
Modelo clásico de regresión lineal

El modelo clásico se centra en las "muestras finitas"
estimación y la inferencia, lo que significa que el número de
observaciones n es fijo. Esto contrasta con otros enfoques,
que estudian el comportamiento asintótico de OLS, y en el
que el número de observaciones se hace tender hasta el
infinito.
 Especificación Correcta. La forma funcional lineal se

ha especificado correctamente.
 Exogeneidad estricta..Los errores en la regresión
deben tener media condicionada cero.
La consecuencia inmediata de la hipótesis de

exogeneidad es que los errores han significar
cero: E[ε] = 0, y que los regresores no están
correlacionadas con los errores: E[X′ε] = 0. El
supuesto de exogeneidad es fundamental para la
teoría de MCO. Si se mantiene entonces las
variables regresoras se llaman exógeno. Si no es así,
entonces los regresores que están correlacionadas
con el término de error se llaman endógenas, y luego
las estimaciones MCO dejan de ser válidas. En tal
caso, los métodos de variables instrumentales se
pueden utilizar para llevar a cabo la inferencia.
 No hay dependencia lineal.. Los regresores en X todos

deben ser linealmente independientes. Matemáticamente
esto significa que la matriz X deberá tener rango de
columna completa prácticamente segura.
Por lo general, se supone también que los regresores

tienen momentos finitos de hasta al menos segundo. En tal
caso, la matriz Qxx = E [X'X / n] será finita y positiva semi-
definido. Cuando esta suposición se viola los regresores se
llama linealmente dependiente o multicollinear
perfectamente. En tal caso, el valor de la β coeficiente de
regresión no puede aprenderse, aunque predicción de los
valores de y es posible que los nuevos valores de las
variables independientes que se encuentran en el mismo
subespacio linealmente dependientes.
 Errores esféricos
donde A es un n × n matriz de identidad, y σ2 es un

parámetro que determina la varianza de cada
observación. Esta σ2 se considera un parámetro
molestia en el modelo, aunque por lo general, se
estima. Si esta suposición se viola entonces los
estimadores MCO siguen siendo válidos, pero ya no
es eficaz. Es costumbre de dividir esta suposición en
dos partes:
 Homocedasticidad :E [εi2 | X] = σ2, lo que
significa que el término de error tiene la misma
varianza σ2 en cada observación. Cuando este
requisito se viola esto se llama
heterocedasticidad, en tal caso, un estimador
más eficiente sería mínimos cuadrados
ponderados. Si los errores tienen varianza infinita
entonces las estimaciones MCO también tendrá
varianza infinita (aunque por la ley de los grandes
números que no obstante se tienden hacia los
valores verdaderos, siempre que los errores
tienen media cero). En este caso, técnicas
robustas de estimación se recomiendan.
 Autocorrelación no:los errores no están
correlacionados entre observaciones: E [εiεj | X] =
0 para i ≠ j. Este supuesto puede ser violado en el
contexto de los datos de series de tiempo, datos
de panel, muestras de racimo, datos jerárquicos,
datos de medidas repetidas, datos longitudinales,
y otros datos con dependencias. En tales
casos, mínimos cuadrados generalizados ofrece
una mejor alternativa que el OLS.
 Normality: A veces se supone, además, que los
errores tienen distribución normal multivariante
distribución normal condicional en los regresores:
Este supuesto no es necesario para la validez del

método OLS, aunque ciertos muestra adicionales
finita propiedades se pueden establecer en el
caso cuando lo hace (especialmente en el área
de las pruebas de hipótesis). También cuando los
errores son normales, el estimador MCO es
equivalente a MLE de máxima probabilidad, y por
lo tanto es asintóticamente eficiente en la clase
de todos los estimadores regulares.
Independiente e idénticamente distribuido[editar
En algunas aplicaciones, especialmente
con datos de corte transversal, un supuesto
adicional es impuesto - que todas las
observaciones son independientes e
idénticamente distribuidas (iid). Esto significa que
todas las observaciones se toman de
una muestra aleatoria que hace que todos los
supuestos mencionados anteriormente sean más
simples y más fáciles de interpretar. Además,
este marco permite establecer resultados
asintóticos (como el tamaño de la muestra n →
∞), que se entiende como una posibilidad teórica
de ir a tener nuevas observaciones
independientes de los datos en un proceso de
generación de datos. La lista de las hipótesis en
este caso es:
 Observaciones iid: (xi, yi) son independientes

entre sí, y tiene la misma distribución, xj, yj)
para todo i ≠ j;
 Hay multicolinealidad perfecta: Qxx =
E[ xix′i ] es una matriz indefinida positiva ;
 Endogeneidad: E[ εi | xi ] = 0;
 Heterocedasticidad: Var[ εi | xi ] ≠ σ2.
Modelo de series de tiempo
 El proceso estocástico {xi, yi} es
estacionario y ergódica ;
 Los regresores están predeterminados:
E[xiεi] = 0 for all i = 1, …, n;
 La p×p matriz Qxx es de rango completo, y por
lo tanto definida positiva ;
 {xiεi} es una secuencia de diferencia
martingala , con una matriz finita de segundos
momentos Qxxε² = E[ εi2xix′i ].
5.2 Análisis de correlación lineal simple.
Para estudiar la relación lineal existente entre dos variables continuas

es necesario disponer de parámetros que permitan cuantificar dicha
relación. Uno de estos parámetros es la covarianza, que indica el grado
de variación conjunta de dos variables aleatorias.
Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1
siendo x¯¯¯ e y¯¯¯ la media de cada variable y xi e yi el valor de las
variables para la observación i.
La covarianza depende de las escalas en que se miden las

variables estudiadas, por lo tanto, no es comparable entre distintos
pares de variables. Para poder hacer comparaciones se estandariza la
covarianza, generando lo que se conoce como coeficientes de
correlación. Existen diferentes tipos, de entre los que destacan el
coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva

perfecta y -1 una correlación negativa perfecta.
Se emplean como medida de fuerza de asociación (tamaño del efecto):
0: asociación nula.
0.1: asociación pequeña.
0.3: asociación mediana.
0.5: asociación moderada.
0.7: asociación alta.
0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación
son:
La correlación de Pearson funciona bien con variables cuantitativas que

tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de
la falta de normalidad. Es más sensible a los valores extremos que las
otras dos alternativas.
La correlación de Spearman se emplea cuando los datos son ordinales,
de intervalo, o bien cuando no se satisface la condición de normalidad
para variables continuas y los datos se pueden transformar a rangos.
Es un método no paramétrico.
La correlación de Kendall es otra alternativa no paramétrica para el
estudio de la correlación que trabaja con rangos. Se emplea cuando se
dispone de pocos datos y muchos de ellos ocupan la misma posición
en el rango, es decir, cuando hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es
necesario calcular su significancia. Solo si el p-value es significativo se
puede aceptar que existe correlación, y esta será de la magnitud que
indique el coeficiente. Por muy cercano que sea el valor del coeficiente
de correlación a +1 o −1, si no es significativo, se ha de interpretar que
la correlación de ambas variables es 0, ya que el valor observado
puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el

coeficiente de correlación es el t-test. Al igual que ocurre siempre que
se trabaja con muestras, por un lado está el parámetro estimado (en
este caso el coeficiente de correlación) y por otro su significancia a la
hora de considerar la población entera. Si se calcula el coeficiente de
correlación entre X e Y en diferentes muestras de una misma
población, el valor va a variar dependiendo de las muestras utilizadas.
Por esta razón se tiene que calcular la significancia de la correlación
obtenida y su intervalo de confianza.
t=rN−2−−−−−√1−r2−−−−−√, df=N−2
Para este test de hipótesis, H0 considera que las variables son

independientes (coeficiente de correlación poblacional = 0) mientras
que, la Ha, considera que existe relación (coeficiente de correlación
poblacional ≠ 0)
La correlación lineal entre dos variables, además del valor del

coeficiente de correlación y de sus significancia, también tiene un
tamaño de efecto asociado. Se conoce como coeficiente de
determinación R2. Se interpreta como la cantidad de varianza de Y
explicada por X. En el caso del coeficiente de Pearson y el de
Spearman, R2 se obtiene elevando al cuadrado el coeficiente de
correlación. En el caso de Kendall no se puede calcular de este modo.
(No he encontrado como se calcula).
Mediante bootstrapping también se puede calcular la significancia

de un coeficiente de correlación. Es una alternativa no paramétrica al t-
test. Resampling: Test de permutación, Simulación de Monte Carlo y
Bootstrapping).
5.3 Prueba de independencia
El objetivo es verificar si existe una dependencia entre las

variables cualitativas que definen filas y columnas, es decir, si para
todo i = 1, ..., k y j = 1, .., m se verifica que la probabilidad del
resultado correspondiente a la combinación Ai ∩ Bj es el producto de
las probabilidades marginales correspondientes. P(Ai) es la
probabilidad del resultado i para la variable fila y P(Bj) la del
resultado j para la variable columna.
P(Ai ∩ Bj) = P(Ai) · P(Bj)
Utilizaremos generalmente la notación más simplificada:
P(Ai ∩ Bj) = pij
P(Ai) = pi·
P(Bj) = p·j
Los valores de pi· y p·j se estimarán, a partir de los valores observados
en la tabla de contingencia, por ni·/N y n·j/N respectivamente.
Hipótesis nula de independencia: para toda combinación de
resultados de las variables fila y columna (i, j).
H0: pij = pi· p·j para todo i = 1, ..., k j = 1, .., m
La hipótesis alternativa, que implica dependencia, se puede formular
diciendo que alguna de las igualdades de la hipótesis nula es falsa.
Los valores observados son nij. Los valores esperados bajo la hipótesis
nula de independencia se calculan de la manera siguiente:
eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N
El estadístico de contraste se calcula de la manera habitual:
La distribución asintótica bajo la hipótesis nula es una χ2 con (k − 1) ·

(m − 1) grados de libertad. Los grados de libertad pueden entenderse,
de manera intuitiva, entendiendo que el número de parámetros que se
estiman son (k − 1) y (m − 1), ya que queda fijada la probabilidad de la
última clase de cada característica una vez estimadas las restantes.
Por tanto, aplicando la fórmula para los grados de libertad se obtiene:
grados de libertad = número de clases − número de parámetros
estimados − 1
grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)
El criterio de decisión es el mismo que en el caso general:
Rechazamos la hipótesis nula si
donde el último término es el valor crítico asociado con una

distribución χ2, con (k − 1) · (m − 1) grados de libertad, tal que deja a su
derecha una probabilidad igual a α.
La condición de validez es que las frecuencias esperadas eij sean
mayores que 5.
Capítulo VI.
6. INTRODUCCION A LAS TECNICAS DE MUSTREO

(Abando, 2009) Como ya se sabe, los responsables de marketing necesitan
contar con información que les permita tomar decisiones lo más
acertadamente posible y así reducir el riesgo en éstas. Para ello resulta
imprescindible obtener información acerca de características o parámetros
propios de la población que se necesite estudiar.
Una población es el conjunto de elementos (personas, empresas, familias,

etc.) que comparten una serie de características y que representan el
universo cuyo estudio es objeto del trabajo de investigación.
En IC, los parámetros o variables que se desea determinar de la población

son típicamente números, tales como, por ejemplo, la proporción de
consumidores que son leales a una marca de dentífrico, o la audiencia de
una emisora de radio concreta. En general, la información sobre dicha
población se podría obtener de dos maneras: bien realizando un censo,
esto es, estudiando a todos los elementos que la componen, o bien
trabajando con muestras.
Por tanto, un censo es la enumeración completa de todos los elementos de

una población. En caso de realizar un censo, los parámetros de la
población podrían calcularse directamente después de haber estudiado su
valor a todos los individuos. Por contra, una muestra es un subgrupo de la
población seleccionado y estudiado para obtener los parámetros de ésta a
través de la inferencia estadística. Las conclusiones que se hagan de la
muestra tras el análisis, se supone que serán válidas para toda la
población, si se ha tenido cuidado de escoger una muestra representativa.
La decisión de qué resulta conveniente, si realizar un censo o emplear

muestras, depende de varias cuestiones:
- Tamaño de la población: Si la población es muy grande, como es el caso
de la mayoría de los mercados de consumo, un censo resulta inabordable.
Por ejemplo, un estudio para conocer el nivel de satisfacción de los
consumidores de rollos de fotos implicaría entregar uno o varios como
prueba antes de recoger el veredicto. Considerando a toda la población
esto sería demasiado caro. Por contra, en el caso de poblaciones
pequeñas, como ocurre en determinados mercados industriales, por
ejemplo, no merece la pena establecer procedimientos de selección de
muestras.
- Variabilidad de los miembros de la población: Por otro lado, si la(s)
característica(s) o variable(s) que se quiere(n) estudiar tiene(n) grande(s)
variación(es), este hecho constituye una razón más, (aunque no es
determinante), para realizar un censo. Este vuelve a ser el caso de los
mercados industriales, donde, por ejemplo, se concentra un número
pequeño de empresas dispares, tanto grandes empresas como Pymes, que
tienen cuotas de producción, amplitudes de gama o necesidades de
suministro, por ejemplo, muy diferentes.
- Razones temporales: Sin embargo, dicho lo anterior, es importante saber
que un censo puede provocar errores de tipo sistemático. Si la población es
grande y/o está muy dispersa, solamente el tiempo que llevaría estudiar a
la población haría inoperante el trabajo: se tardaría demasiado, las
primeras observaciones quedarían obsoletas, etc.
- Razones de definición: Frecuentemente se desconoce la existencia de

otros elementos del colectivo que se explora. Por ejemplo, ¿cómo es
posible saber de antemano quiénes constituyen la población de clientes
potenciales de un comercio? Por ejemplo, no habría forma de distinguirles
del resto de los habitantes de la región o ciudad.
Por contra, cuando se sepa bien quiénes son los individuos que integran la
población, será posible, en principio, trabajar con censos.
- Tipos de error que se pueden cometer: En cualquier trabajo de

Investigación Comercial se pueden cometer dos tipos de error:
- Errores muestrales: No pueden ser eliminados debido a que son
inherentes a la naturaleza de la variable a medir. Se deben al hecho
de estar trabajando con muestras en vez de con toda la población.
No obstante, siguiendo procesos de inferencia estadística, sí se
pueden acotar.
- Errores ajenos al muestreo: También se les denomina con el
nombre de errores sistemáticos. No tienen que ver necesariamente
con el hecho de trabajar con muestras, sino con fallos tales como
una mala definición del problema de investigación, fallos en la
redacción de las preguntas del cuestionario, fallos en la mala
selección de los miembros de una muestra, errores de análisis, etc.
Debido al hecho de que en los censos se estudiaría a toda la
población, si ésta fuera muy grande, el tiempo que su estudio
llevaría, junto con otros problemas mencionados, tales como la
indefinición de todos los miembros de la población, darían lugar a
errores sistemáticos importantes. Precisamente en estos casos, para
evitar errores de este tipo se acepta asumir errores aleatorios y
trabajar con muestras.
Resumiendo, el siguiente cuadro recoge las circunstancias para las que resulta
más apropiado bien realizar censos o bien trabajar con muestras:
6.1. Tipos de muestreo:
- Métodos de muestreo probabilístico.
(Bouck, 2017) El muestreo probabilístico es un método de muestreo (muestreo

se refiere al estudio o el análisis de grupos pequeños de una población) que
utiliza formas de métodos de selección aleatoria.
El requisito más importante del muestreo probabilístico es que todos en una

población tengan la misma oportunidad de ser seleccionados.
Por ejemplo, si tienes una población de 100 personas, cada persona tendría
una probabilidad de 1 de 100 de ser seleccionado. El método de muestreo
probabilístico te ofrece la mejor oportunidad de crear una muestra
representativa de la población.
Este método utiliza la teoría estadística para seleccionar al azar un pequeño

grupo de personas (muestra) de una gran población existente y luego predecir
que todas las respuestas juntas coincidirán con la población en general.
Por ejemplo, es prácticamente imposible enviar una encuesta a cada una de

las personas de todo un país para recabar información, pero lo que puedes
hacer utilizar el método de muestreo de probabilidad para obtener datos que
pueden ser muy buenos (incluso aunque se obtengan de una población más
pequeña).
MUESTREO ALEATORIO SIMPLE

(Ochoa, 2015)El muestreo aleatorio simple (M.A.S.) es la técnica de muestreo
en la que todos los elementos que forman el universo y que, por lo tanto, están
descritos en el marco muestral, tienen idéntica probabilidad de ser
seleccionados para la muestra. Sería algo así como hacer un sorteo justo entre
los individuos del universo: asignamos a cada persona un boleto con un
número correlativo, introducimos los números en una urna y empezamos a
extraer al azar boletos. Todos los individuos que tengan un número extraído de
la urna formarían la muestra. Obviamente, en la práctica estos métodos pueden
automatizarse mediante el uso de ordenadores.
Dependiendo de si los individuos del universo pueden ser seleccionados más

de una vez en la muestra, hablaremos de M.A.S. con reposición o sin
reposición. Si usamos reposición, el hecho de que seleccione un individuo al
azar para mi muestra no impediría que este mismo individuo pudiese volver a
ser seleccionado en una siguiente selección. Sería equivalente a decir que
cada vez que extraigo un número al azar de mi urna, vuelvo a colocar el
número antes de la siguiente extracción. Si por el contrario no usamos
reposición, un individuo seleccionado para la muestra una vez ya no entraría
nuevamente en el sorteo.
La pregunta obvia es, ¿qué es mejor, usar reposición o no usar reposición? Es

un simple problema matemático. César Pérez López, en su libro "Muestreo
Estadístico" desarrolla de forma muy clara una comparación entre ambas
técnicas. Tanto si lo miramos desde el punto de vista de qué técnica genera
estimaciones más precisas como desde el punto de vista de qué técnica me
permite tener la misma precisión con menor tamaño de muestra, se puede
concluir que el muestreo aleatorio simple sin reposición siempre es más
eficiente.
Beneficios del muestreo aleatorio simple
 Sencillo y fácil comprensión.
 Calculo rápido de medias y varianza.
 Se basa en la teoría estadística, y por lo tanto existen paquetes

informáticos para analizar los datos. (chospab, s.f.)
El desarrollo de la informática ha permitido que diseñar una muestra aleatoria

simple sea extremadamente rápido y fiable. La generación de números
aleatorios mediante software - estrictamente son números pseudo-aleatorios -
es cada vez más fiable.
De esta forma, al usar M.A.S. nos aseguramos la obtención de muestras

representativas, de manera que la única fuente de error que va a afectar a mis
resultados va a ser el azar. Y lo que es más importante, este error debido al
azar puede calcularse de forma precisa (o al menos acotarse). Puedes
consultar el siguiente post para obtener más información.
Inconvenientes del muestreo aleatorio simple
 Requiere que se posea de antemano un listado de toda la poblacion.
 Cuando se trabaja con muestras pequeñas es posible que no represente

a la poblacion adecuada. (chospab, s.f.)
El único inconveniente del M.A.S. es la dificultad de llevarlo a la práctica en

investigaciones reales. Recordemos: al ser una técnica probabilística, necesito
un marco muestral con todos los individuos y que todos ellos sean
seleccionables para mi muestra. Un requisito que difícilmente puede cumplirse
en la mayoría de estudios de mercado y opinión reales, lo que nos obligará a
emplear otras técnicas.
MUESTREO ALEATORIO SISTEMATICO
El muestreo sistemático es una técnica de muestreo aleatorio que los

investigadores eligen con frecuencia por su sencillez y calidad regular.
El procedimiento del muestreo aleatorio sistemático es muy fácil y se puede

hacer manualmente. Los resultados son representativos de la población a
menos que se repitan ciertas características de la población por cada enésimo
individuo, lo que es muy poco probable.
El proceso de obtención de la muestra sistemática es muy similar a una

progresión aritmética.
Número de inicio:
El investigador selecciona un número entero que debe ser menor al número

total de individuos en la población. Este número entero corresponderá al primer
sujeto.
Intervalo:
El investigador elige otro número entero que servirá como la diferencia

constante entre dos números consecutivos en la progresión.
El número entero se selecciona típicamente de modo que el investigador

obtenga el tamaño de la muestra correcto.
Por ejemplo, el investigador tiene una población total de 100 individuos y

necesita 12 sujetos. Primero elige su número de partida, 5.
Luego, el investigador elige su intervalo, 8. Los miembros de su muestra serán

los individuos 5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93.
Ventajas del muestreo sistemático
 Fácil de aplicar.
 No siempre es necesario tener un listado de población.
 Cuando la población está ordenada siguiendo una tendencia

conocida, asegura una cobertura de unidades de todo tipo.
La principal ventaja de utilizar un muestreo sistemático sobre un muestreo
aleatorio simple es su sencillez. Permite que el investigador añada un grado de
sistema o proceso en la selección aleatoria de los sujetos.
Otra ventaja del muestreo aleatorio sistemático sobre el muestreo aleatorio

simple es la garantía de que el muestreo se hará equitativamente sobre la
población. Existe una posibilidad de un muestreo aleatorio simple que permite
una selección por conglomerados de sujetos. Esto es eliminado
sistemáticamente en el muestreo sistemático.
Desventaja de muestreo sistemático
 Si la constante de muestreo está asociada con el fenómeno de interés,

se pueden hallar estimaciones sesgadas. (chospab, s.f.)
Método de muestreo estratificado.
Esta técnica, perteneciente a la familia de muestreos probabilísticos, consiste

en dividir toda la población objeto de estudio en diferentes subgrupos o estratos
disjuntos, de manera que un individuo sólo puede pertenecer a un estrato. Una
vez definidos los estratos, para crear la muestra se seleccionan individuos
empleando una técnica de muestreo cualquiera a cada uno de los estratos por
separado. Si por ejemplo empleamos muestreo aleatorio simple en cada
estrato, hablaremos de muestreo aleatorio estratificado (M.A.E. en adelante).
Del mismo modo, podríamos usar otras técnicas de muestreo en cada estrato
(muestreo sistemático, aleatorio con reposición, etc.).
Los estratos suelen ser grupos homogéneos de individuos, que a su vez son
heterogéneos entre diferentes grupos. Por ejemplo, si en un estudio esperamos
encontrar un comportamiento muy diferente entre hombres y mujeres, puede
ser conveniente definir dos estratos, uno por cada sexo. Si la selección de
estos estratos es correcta (1) los hombres deberían comportarse de forma
parecida entre ellos, (2) las mujeres deberían comportarse de forma muy
similar entre ellas y (3) hombres y mujeres deberían mostrar comportamientos
dispares entre sí.
Si la anterior condición se cumple (estratos homogéneos internamente,

heterogéneos entre sí) el uso del muestreo aleatorio estratificado reduce el
error muestral, mejorando la precisión de nuestros resultados al realizar un
estudio sobre la muestra.
Es relativamente habitual definir estratos de acuerdo a algunas variables

características de la población como son la edad, sexo, clase social o región
geográfica. Estas variables permiten dividir fácilmente la muestra en grupos
mutuamente excluyentes y con bastante frecuencia, permiten discriminar
comportamientos diferentes dentro de la población.
Tipos de muestreo estratificado
Dependiendo del tamaño que asignamos a los estratos, hablaremos de

diferentes tipos de muestreo estratificado. También se acostumbra a hablar de
diferentes formas de "afijación" de la muestra en estratos.
(1) Muestreo estratificado proporcionado
Cuando seleccionamos una característica de los individuos para definir los

estratos, suele ocurrir que el tamaño de las subpoblaciones resultantes en el
universo son diferentes. Por ejemplo, queremos estudiar el % de la población
que fuma en México y pensamos que la edad puede ser un buen criterio para
estratificar (es decir, pensamos que existen diferencias importantes en el hábito
de fumar dependiendo de la edad). Definimos 3 estratos: menores de 20 años,
de 20 a 44 años y mayores de 44 años. Es de esperar que al dividir toda la
población mexicana en estos 3 estratos no resulten grupos de igual tamaño.
Efectivamente, si miramos datos oficiales, obtenemos:
* Estrato 1 - Población Mexicana menor de 19 años: 42,4 millones (41,0%)
* Estrato 2 - Población Mexicana de 20 a 44 años: 37,6 millones (36,3%)
* Estrato 3 - Población Mexicana mayor de 44 años: 23,5 millones (22,7%)
Si usamos muestreo estratificado proporcionado, la muestra deberá tener

estratos que guarden las mismas proporciones observadas en la población. Si
en este ejemplo queremos crear una muestra de 1.000 individuos, los estratos
tendrán que tener un tamaño como sigue:
Estrato Población Proporción Muestra
1 42,4M 41,0% 410
2 37,6M 36,3% 363
3 23,5M 22,7% 227
(2) Muestreo estratificado uniforme
Hablaremos de una afijación uniforme cuando asignamos el mismo tamaño

de muestra a todos los estratos definidos, sin importar el peso que tienen esos
estratos en la población. Siguiendo con el ejemplo anterior, un muestreo
estratificado uniforme definiría la siguiente muestra por estrato:
Estrato Población Proporción Muestra
1 42,4M 41,0% 334
2 37,6M 36,3% 333
3 23,5M 22,7% 333
Esta técnica favorece los estratos que tienen menos peso en la población,
equiparándolos en importancia a los estratos más relevantes. Globalmente,
reduce la eficiencia de nuestra muestra (menor precisión en los resultados),
pero como contrapartida permite estudiar características particulares de cada
estrato con mayor precisión. En nuestro ejemplo, si queremos emitir alguna
afirmación específica sobre la población del estrato 3 (mayores de 44 años),
podremos hacerlo con menor nivel de error muestral si empleamos una
muestra de 333 unidades que si lo hacemos con una muestra de 227 (como
ocurría en el muestreo estratificado proporcional).
(3) Muestreo estratificado óptimo (respecto a la desviación estándar)
En este caso, el tamaño de los estratos en la muestra no guardará

proporcionalidad con la población. Por el contrario, se define el tamaño de los
estratos proporcionalmente a la desviación estándar de las variables objeto de
estudio. Es decir, se toman estratos de mayor tamaño en los estratos con
mayor variabilidad interna para representar mejor en el total de la muestra los
grupos poblacionales más difíciles de estudiar.
Muestreo por conglomerados
En primer lugar, el investigador selecciona grupos o conglomerados y de cada

grupo selecciona a los sujetos individuales, ya sea por muestreo aleatorio
simple o muestreo aleatorio sistemático. El investigador también puede optar
por incluir a todo el conglomerado, no sólo a un subconjunto.
El conglomerado más utilizado en la investigación es un conglomerado

geográfico. Por ejemplo, un investigador desea estudiar el rendimiento
académico de los estudiantes secundarios en España.
1. Puede dividir a toda la población (población de España) en diferentes

conglomerados (ciudades).
2. Luego, el investigador selecciona una serie de conglomerados en

función de su investigación, a través de un muestreo aleatorio simple o
sistemático.
3. Luego, de los conglomerados seleccionados (ciudades seleccionadas al

azar) el investigador puede incluir a todos los estudiantes secundarios
como sujetos o seleccionar un número de sujetos de cada conglomerado
a través de un muestreo aleatorio simple o sistemático.
Lo más importante sobre esta técnica de muestreo es dar a todos los

conglomerados iguales posibilidades de ser seleccionados.
Tipos de muestra por conglomerados
Muestra por conglomerados en una etapa
Recordemos el ejemplo anterior: una muestra por conglomerados en una etapa

ocurre cuando el investigador incluye a todos los estudiantes secundarios de
todos los conglomerados seleccionados al azar como muestra.
Muestra por conglomerados en dos etapas

En el ejemplo anterior, se obtiene la muestra por conglomerados en dos etapas
cuando el investigador sólo selecciona un número de estudiantes de cada
conglomerado mediante muestreo aleatorio simple o sistemático.
Ventajas y desventajas del muestreo por conglomerados
 Esta técnica de muestreo es barata, rápida y fácil. En lugar de realizar

un muestreo de todo un país como en el muestreo aleatorio simple, el
investigador puede asignar sus recursos limitados a los pocos
conglomerados o áreas seleccionadas aleatoriamente cuando se usan
muestras por conglomerados.
 En relación con la primera ventaja, el investigador también puede

aumentar su tamaño de la muestra con esta técnica. Teniendo en cuenta
que el investigador sólo tendrá que tomar la muestra de una serie de
áreas o conglomerados, puede seleccionar más sujetos, ya que son más
accesibles.
 De todos los diferentes tipos de muestreo probabilístico, esta técnica es

la menos representativa de la población. La tendencia de los individuos
dentro de un conglomerado es tener características similares y con una
muestra por conglomerados, existe la posibilidad de que el investigador
pueda tener un conglomerado sobrerrepresentado o infrarrepresentado
que puede sesgar los resultados del estudio.
 Ésta también es una técnica de muestreo probabilístico con una

posibilidad de error de muestreo alto. Esto se produce por los
conglomerados limitados incluidos en la muestra, dejando una parte
importante de la población sin muestrear.
Muestreo no Probabilístico
(Carrasquedo Velázquez, 2017) No se efectúa bajo normas probabilísticas de

selección, durante sus procesos intervienen opiniones y criterios personales del
investigador o no existe norma bien definida o validada. Por esta razón es
aquel que se utiliza de forma empírica.
Tipos de Muestreo no Probabilístico:
Muestreo por Cuotas
También denominado en ocasiones accidental. Se asienta generalmente sobre

la base de un buen conocimiento de los estratos de la población y/o de los
individuos más representativos o adecuados para los fines de la investigación.
Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero
no tiene el carácter de aleatoriedad de aquél.
Muestreo Intencional o de Conveniencia
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener

muestras representativas mediante la inclusión en la muestra de grupos
supuestamente típicos. Pretende seleccionar unidades de análisis que cumplen
los requisitos de la población objeto de estudio, pero que sin embargo, no son
seleccionadas al azar.
Se utiliza preferentemente en estudios exploratorios. Las pruebas pilotos,

también usan con frecuencia éste tipo de muestreo, es muy frecuente su
utilización en sondeos preelectorales de zonas que en anteriores votaciones
han marcado tendencias de voto.
Bola de Nieve
Se lleva a cabo generalmente cuando hay una población muy pequeña. En

este tipo de muestreo, el investigador le pide al primer sujeto que identifique a
otro sujeto potencial que también cumpla con los criterios de la investigación.
Para llevarlo a cabo se reúnen los datos de los pocos miembros de la población
objetivo que se puedan localizar y se les pide información necesaria para
ubicar a otros miembros que conozcan de esa población.
Muestreo Discrecional
A criterio del investigador los elementos son elegidos sobre lo que él cree que
pueden aportar al estudio.
Aplica bien para estudios de pre-prueba o prueba piloto para un instrumento.

La idea se centra en que el investigador elige la muestra por que los considera
los más representativos.
CALCULO DEL TAMAÑO MUESTRAL
Para el muestreo aleatorio simple
(Ochoa, 2015)Para poder observar este resultado, partimos de la siguiente

expresión para el tamaño de muestra en un M.A.S. sin reposición. La fórmula
relaciona el tamaño de muestra necesario cuando el universo es finito con el
tamaño necesario cuando el universo es infinito:
donde n0 es el tamaño de muestra necesario para un universo infinito y N es el

tamaño del universo finito. Es posible demostrar que el tamaño de muestra
cuando usamos reemplazo (nr) es siempre igual al tamaño necesario para
universo infinito (nr=n0). Si eso sucede, podemos afirmar que
Por lo tanto, el tamaño de muestra cuando no usamos reposición siempre es
menor al necesario si usamos reposición. Este resultado coincide con la
intuición: si estamos empleando reposición y por azar incluimos un individuo
más de una vez en la misma muestra, el efecto es similar a reducir el tamaño
de la muestra ya que observo menor diversidad de individuos. Del mismo
modo, si el universo es infinito, ambos métodos coinciden, dado que la
probabilidad de seleccionar al mismo individuo dos veces en la misma muestra
tiende a ser infinitamente pequeña.
Para el muestreo aleatorio sistemático
Es una técnica dentro de la categoría de muestreos probabilísticos - y que por

lo tanto requiere tener un control preciso del marco muestral de individuos
seleccionables junto con la probabilidad de que sean seleccionados -
consistente en escoger un individuo inicial de forma aleatoria entre la población
y, a continuación, seleccionar para la muestra a cada enésimo individuo
disponible en el marco muestral.
El muestreo sistemático es un proceso muy simple y que sólo requiere la

elección de un individuo al azar. El resto del proceso es trivial y rápido. Los
resultados que obtenemos son representativos de la población, de forma
similar al muestreo aleatorio simple, siempre y cuando no haya algún factor
intrínseco en la forma en que los individuos están listados que haga que se
reproduzcan ciertas características poblacionales cada cierto número de
individuos. Este suceso es realmente poco frecuente.
El proceso
De forma concreta, el proceso que seguiríamos en un muestreo sistemático

sería el siguiente:
1. Elaboramos una lista ordenada de los N individuos de la población, lo que

sería el marco muestral.
2. Dividimos el marco muestral en n fragmentos, donde n es el tamaño de

muestra que deseamos. El tamaño de estos fragmentos será
K=N/n
donde K recibe el nombre de intervalo o coeficiente de elevación.
3. Número de inicio: obtenemos un número aleatorio entero A, menor o igual

al intervalo. Este número corresponderá al primer sujeto que seleccionaremos
para la muestra dentro del primer fragmento en que hemos dividido la
población.
4. Selección de los n-1 individuos restantes: Seleccionamos los siguientes

individuos a partir del individuo seleccionado aleatoriamente, mediante una
sucesión aritmética, seleccionando a los individuos del resto de fragmentos en
que hemos dividido la muestra que ocupan la misma posición que el sujeto
inicial. Esto equivale a decir que seleccionaremos los individuos
A, A + K, A + 2K, A + 3K, ...., A + (n-1)K
Ejemplo
Supongamos que tenemos un marco muestral de 5.000 individuos y deseamos

obtener una muestra de 100 de ellos. Dividimos en primer lugar el marco
muestral en 100 fragmentos de 50 individuos. A continuación,
seleccionamos un número aleatorio entre 1 y 50, para extraer el primer
individuo al azar del primer fragmento: por ejemplo el 24. A partir de este
individuo, queda definida la muestra extrayendo los individuos de la lista con
intervalos de 50 unidades, tal y como sigue
24, 74, 124, 174, ..., 4.974
Para el muestreo aleatorio estratificado
(Ochoa, 2015)Vemos que la estratificación puede proporcionar beneficios. Si

estas técnicas pueden emplearse para estimar de forma más precisa ya sean
medias (p.e. media de cigarrillos consumidos por los fumadores de México) o
proporciones (p.e. proporción de la población de México que fuma), también
pueden permitirnos reducir el tamaño de muestra requerido para lograr una
estimación con un nivel de error determinado.
La siguiente tabla resume el tamaño de muestra requerido al emplear cada

técnica, en función del error máximo que estamos dispuestos a aceptar y de las
características del propio universo, que consideraremos de tamaño infinito (si
fuese finito, debe aplicarse un factor de corrección).
Para interpretar el cuadro anterior es necesario tener en cuenta lo siguiente:
 Z = Es la desviación del valor medio que aceptamos para lograr el nivel

de confianza deseado. En función del nivel de confianza que
busquemos, usaremos un valor determinado que viene dado por la
forma que tiene la distribución de Gauss. Los valores más frecuentes
son:
Nivel de confianza 90% -> Z=1,645

 L es el número de estratos en que particionamos la muestra y h es un

índice que se refiere a un estrato concreto. Por lo tanto, h puede variar
entre 1 y L estratos.
 p es la proporción que buscamos en el total de la población (p.e. % de

fumadores). Por lo tanto, (1-p) es la proporción de la muestra
complementaria, la que no cumple el criterio buscado (no fumadores).
Del mismo modo, ph es dicha proporción dentro de cada uno de los
estratos.
 σ2 es la varianza que el dato buscado (en el caso de estimar medias)

tiene en el total de la población. Asimismo, σh2 es la varianza dentro de
cada estrato.
 e es el margen de error aceptado.
 Wh es el peso que el estrato tiene en la muestra (tamaño del estrato

respecto al total de la muestra). Si hablamos de estratificación
proporcional, cada Wh es igual a la proporción que ese estrato
representa en la población. Si hablamos de estratificación óptima, cada
Wh se calcula en función de la dispersión dentro de cada estrato.
Es posible demostrar a partir de las fórmulas anteriores que los diferentes

métodos de estratificación sólo reducen el tamaño de la muestra si los valores
de p y σ varía entre estratos. De lo contrario, todas las expresiones son
equivalentes. Veamos un ejemplo: si tomamos la expresión de tamaño de
muestra requerido para estimar una media mediante un muestreo estratificado
óptimo (ignorando el parámetro Z en este caso)
y consideramos que todas las varianzas de los estratos son iguales (σ h=σ) y
que el tamaño de los estratos es idéntico (W h=1/L), el resultado que obtenemos
es
Para el muestreo aleatorio conglomerado
¿Cómo podemos comparar esta técnica con otras vistas con anterioridad? Lo
bien o mal que va a funcionar esta técnica va a depender, de forma similar a
como ocurría en el muestreo estratificado, de la relación entre varianza dentro y
fuera de los conglomerados.
Esta relación se suele expresar con un coeficiente de correlación intra

conglomerados (δ), que se define como el coeficiente de correlación lineal
entre todos los pares de valores de la variable en estudio medidos sobre las
unidades de los conglomerados y extendido a todos los conglomerados. En
definitiva, este coeficiente es una medida de la homogeneidad en el interior de
los conglomerados.
Cuanto menor sea el coeficiente de homogeneidad intra conglomerados δ,

mayor eficiencia arrojará el muestreo por conglomerados. Recordemos que lo
ideal es que los conglomerados sean tan heterogéneos como el total de la
muestra, con el fin de que la selección de un conglomerado concreto nos de la
misma información que la selección de individuos al azar del total de la
población.
Si comparamos el muestreo aleatorio simple con el muestreo por

conglomerados, es posible demostrar que si δ=0 ambos métodos son
equivalentes. Esta condición implica que los conglomerados son exactamente
tan heterogeneos como el total de la población. El peor caso sería δ=+1 ,
mientras que el más favorable sería el de δ=-1/(M-1), donde M es el tamaño del
conglomerado. Sin embargo, normalmente δ va a ser siempre mayor que 0, ya
que lo normal es que las unidades de un conglomerado tengan cierto parecido
entre sí.
Otra forma de ver el impacto de este problema es calcular el tamaño de

muestra necesario al emplear muestreo por conglomerados para lograr la
misma precisión de un muestreo aleatorio simple. Esta expresión es la que
sigue
Nc = na (1 + (M-1) δ)
Donde nc es el tamaño de muestra en muestreo por conglomerados y naes el

tamaño de muestra que necesitaríamos en muestreo aleatorio simple. Por lo
tanto, el factor (1+(M-1) δ es la variación del tamaño de muestra que
necesitamos debido al uso de conglomerados. Normalmente será un
incremento. Este factor se conoce como efecto de diseño.
REFERENCIA BIBLIOGRAFICA
sn.(2015). Obtenido de scielo.org:

- http://www.scielo.org.mx/pdf/rmc/v26n1/v26n1a9.pdf
sn.(2017). support de minitab. Obtenido de support.minitab.com:
- https://support.minitab.com/es-mx/minitab/18/help-and-how-to/probability-
distributions-and-random-data/supporting-topics/distributions/chi-square-distribution/
(s.f.). Obtenido de eio.upc.edu:
- http://www-eio.upc.edu/teaching/estad/MC/taules/TStud.pdf
Abando, J. C. (12 de Noviembre de 2009). PDF. Obtenido de PDF:

https://ocw.ehu.eus/pluginfile.php/5806/mod_resource/content/1/Tema_6_A
puntes.pdf
Bouck, T. (19 de Septiembre de 2017). QuestionPro. Obtenido de QuestionPro:
https://www.questionpro.com/blog/es/como-realizar-un-muestreo-
probabilistico/
Carrasquedo Velázquez, K. (23 de 01 de 2017). gestiopolis. Obtenido de muestreo no
probabilistico : https://www.gestiopolis.com/muestreo-probabilistico-y-no-
probabilistico/
chospab. (s.f.). Obtenido de
http://www.chospab.es/calidad/archivos/Metodos/Muestreo.pdf
Ochoa, C. (8 de abril de 2015). netquets. Obtenido de
https://www.netquest.com/blog/es/blog/es/muestreo-probabilistico-
muestreo-aleatorio-simple
Anónimo. (s.f). Media, moda y mediana para datos agrupados. Obtenido de

PortakEducativo: https://www.portaleducativo.net/octavo-basico/792/Media-
moda-y-mediana-para-datos-agrupados
Jauregui, M. (19 de 02 de 2016). Medidas de tendencia central: media, mediana, moda,
rango y eje medio. Obtenido de APRENDIENDO ADMINISTRACIÓN:
https://aprendiendoadministracion.com/medidas-de-tendencia-central-media-
mediana-moda-rango-y-eje-medio/#attachment%20wp-att-701/0/
Quevedo, F. (11 de 03 de 2011). Medidas de tendencia central y dispersión. Obtenido
de ESTADISTICA APLICADA A LA INVESTIGACION EN SALUD:
http://www.medwave.cl/link.cgi/Medwave/Series/MBE04/4934?ver=sindiseno
SPSS FREE. (s.f). Medidas de Distibución - Asimetría y Curtosis. Obtenido de SPSS FREE:
http://www.spssfree.com/curso-de-spss/analisis-descriptivo/medidas-de-
distribucion-curtosis-asimetria.html
Suárez, M. (s.f). Medidas de Forma: Asimetría y Curtosis. Obtenido de
Monografías.com: https://www.monografias.com/trabajos87/medidas-forma-
asimetria-curtosis/medidas-forma-asimetria-curtosis.shtml

ESTADISTICA Trabajo Final

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ESTADISTICA Trabajo Final

Cargado por

Copyright:

Formatos disponibles

"Año de la lucha contra la corrupción e impunidad",

UNIVERSIDAD NACIONAL DE UCAYALI

Este presente trabajo monográfico se lo

Y a todos nuestros compañeros ya que

5. INTRODUCCION A LA INFERENCIA ESTADISTICA

1.1. MEDIDAS DE TENDENCIA CENTRAL

1.1.1. LA MEDIA ARITMÉTICA

Para simplificar la notación se usa convencionalmente el

= media aritmética de la muestra

= sumatoria de todos los valores de Xi

Para encontrar el lugar de la clasificación ordenada que

1. Si el tamaño de la muestra es un número impar, la mediana

La mediana se representa por Me. La mediana se puede

- Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia

La moda o modo es el valor de una serie de datos que

La moda se representa por Mo.

- Todos los intervalos tienen la misma amplitud.

Li Extremo inferior del intervalo modal (intervalo que tiene

- Si los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.

1.4. MEDIDAS DE ASIMETRÍA

1.4.2. LA MEDIA ASIMETRICA

1.2. MEDIDAS DE POSICIÓN O CUANTILAS

Las medidas de posición relativa se llaman en general cuantiles y se

Las medidas de posición como los cuartiles, quintiles, deciles y percentiles

son los tres valores de la variable de una distribución

Se advierte que la posición del segundo cuartil corresponde a la

1º Se ordenan los datos de menor a mayor.

2º Se determina la posición que ocupa cada cuartil mediante la

Para que te quede más claro:

- El primer cuartil (Q1) es el valor de la variable que supera a lo más

- El segundo cuartil (Q2) es un valor que supera a lo más el 50 % de

- El tercer cuartil (Q3) es un valor que supera a lo más al 75 % de los

2º Se determina la posición que ocupa cada cuartil mediante la

En nuestro caso el 7° valor sería :

En la primera serie el número total de datos es n = 70, por lo que:

- Q2→ 2 (n/4) = 2 (70/4) = 35 (indica la posición en que se encuentra

- Q3→ 3 (n/4) =3 (70/4) = 52,5 (indica la posición en que se encuentra

Y se desprende directamente de la tabla de frecuencias absolutas que:

- Q1 = 5, ya que si nos fijamos en la tabla el número 17,5 se encuentra

En la segunda serie el número total de datos es n = 64, por lo que:

Y se desprende directamente de la tabla de frecuencias absolutas que:

Corresponden a los 9 valores que dividen a estos en 10 partes iguales

Son los noventa y nueve valores de la variable de una distribución que la

El percentil p (Pp) es un valor de la variable tal que el p% de la muestra

1° Se determina el intervalo al cual pertenece el percentil por calcular en

Buscamos este valor en la columna de la frecuencia acumulada. El cual

2° Luego, Para calcular el percentil Pk correspondiente al k% de los

1.3. MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Las medidas de dispersión muestran la variabilidad de una distribución,

Las medidas de dispersión son números reales no negativos, su valor es

Para calcular la variabilidad que una distribución tiene respecto de su

La mayoría de las medidas de dispersión se encuentran en las mismas

- Rango: En estadística el es la diferencia entre el valor máximo y el

1.3.2. Rango intercuartil

Se le llama rango intercuartílico o rango intercuartil, a la diferencia entre

Es la distancia entre el primer y tercer cuartiles. Es algunas veces

1.3.5. Desviación estándar o típica

La desviación estándar es la medida de dispersión más común, que

La desviación típica informa sobre la dispersión de los datos respecto al

1.3.6. Coeficiente de variación

Su fórmula expresa la desviación estándar como porcentaje de la media

1.4. MEDIDAS DE ASIMETRÍA