Está en la página 1de 82

INSTITUTO TECNOLOGICO

SUPERIOR DE FRESNILLO

CARRERA: INGENIERIA EN SISTEMAS COMPUTACIONALES

MATERIA:PROBABILIDAD Y ESTADISTICA

TRABAJO: INVESTIGACIÓN TEMARIO

ALUMNO(A): MARIA FERNANDA FLORES HERRERA

MAESTRO: JESUS ADDIEL GOMEZ VALDEZ

FECHA: 31/05/23
INDICE
4.1-FUNCIÓN DE PROBABILIDAD. ................................................................................................ 3
4.2-DISTRIBUCIÓN BINOMIAL. ...................................................................................................... 5
4.3.-DISTRIBUCIÓN HIPERGEOMÉTRICA. ................................................................................... 7
4.4-DISTRIBUCIÓN DE POISSON.................................................................................................. 9
4.5-DISTRIBUCIÓN NORMAL ...................................................................................................... 12
4.6-DISTRIBUCIÓN T-STUDENT. ................................................................................................. 15
4.7.-DISTRIBUCIÓN CHI CUADRADA .......................................................................................... 19
4.8-DISTRIBUCIÓN F ................................................................................................................... 22
5.1.1 DIAGRAMA DE DISPERSIÓN .............................................................................................. 26
5.1.2 REGRESIÓN LINEAL SIMPLE ............................................................................................. 27
5.1.3 CORRELACIÓN ................................................................................................................... 29
5.1.4 DETERMINACIÓN Y EL ANÁLISIS DE LOS COEFICIENTES DE CORRELACIÓN Y DE
DETERMINACIÓN ........................................................................................................................ 31
5.1.5 DISTRIBUCIÓN NORMAL BIDIMENSIONAL ....................................................................... 34
5.1.6 INTERVALOS DE CONFIANZA Y PRUEBAS PARA EL COEFICIENTE DE CORRELACIÓN
...................................................................................................................................................... 36
5.1.7 ERRORES DE MEDICIÓN ................................................................................................... 39
6.1.1-TIPOS DE MUESTREO ....................................................................................................... 40
6.1.2-TEOREMA DE LIMITE CENTRAL ........................................................................................ 45
6.1.3-DISTRIBUCION MUESTRAL DE LA MEDIA ........................................................................ 50
6.1.4-DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN ........................................................ 54
6.2.1 ESTIMACIÓN PUNTUAL...................................................................................................... 58
6.2.2 ESTIMACIÓN POR INTERVALO .......................................................................................... 59
6.2.3 INTERVALO DE CONFIANZA PARA UNA MEDIA. ............................................................... 63
6.2.4 INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN. .................................................. 67
6.3.1 ERRORES TIPO I Y II. ......................................................................................................... 72
6.3.2 PASOS PARA REALIZAR UNA PRUEBA DE HIPÓTESIS ............................................ 75
6.3.3 PRUEBA DE HIPÓTESIS PARA UNA MEDIA ...................................................................... 79
6.3.4 PRUEBA DE HIPÓTESIS PARA UNA PROPORCIÓN.......................................................... 81

2
4.1-FUNCIÓN DE PROBABILIDAD.
Una función de probabilidad, también llamada función de masa de probabilidad, es una
función matemática que describe la probabilidad de que una variable aleatoria discreta tome
un determinado valor.

Es decir, una función de probabilidad devuelve la probabilidad asociada a que una variable
discreta sea exactamente igual a un valor.

Formula:

• 𝑋 = 𝑥 se utiliza para referirse a un evento o suceso especifico relacionado con la


variable aleatoria 𝑋.
• 𝑃[𝑋 = 𝑥] representa la probabilidad de que la variable aleatoria 𝑋 tome el valor 𝑥.
Propiedades de la función de probabilidad

Las funciones de probabilidad tienen las siguientes propiedades:

• Las probabilidades no pueden ser negativas, por lo que la función de probabilidad es nula
o positiva para cualquier valor de x.

• Asimismo, la probabilidad máxima es la unidad, y significa que el evento sucederá


siempre. En consecuencia, el valor máximo de la función de probabilidad es igual a 1.

• Finalmente, la suma de todos los valores de una función de probabilidad da como

resultado 1, pues es la suma de todas las probabilidades del espacio muestral.

La probabilidad debe satisfacer:


1.-la probabilidad asignada a cada valor debe ser mayor o igual a 0 para todos los valores
de x.
2. La suma de las probabilidades de todos los valores posibles debe ser igual a 1 donde la
suma se realiza sobre todos los valores posibles de x.

3
EJEMPLOS:
1) Lanzamiento de una moneda
Si X= 0, la probabilidad es P(X=0) = 0.5/ 50%
Si X=1, las probabilidades P(X=1) = 0.5/ 50%

2) Variable aleatoria lanzamiento de un dado:


Si X = 1, la probabilidad es P (X = 1) = 1/6.
Si X = 2, la probabilidad es P (X = 2) = 1/6.
Si X = 3, la probabilidad es P (X = 3) = 1/6.
Si X = 4, la probabilidad es P (X = 4) = 1/6.
Si X = 5, la probabilidad es P (X = 5) = 1/6.
Si X = 6, la probabilidad es P (X = 6) = 1/6.

3) Variable aleatoria Número de hijos en una familia:


Si X = 0, la probabilidad es P (X = 0) = 0.15.
Si X = 1, la probabilidad es P (X = 1) = 0.4.
Si X = 2, la probabilidad es P (X = 2) = 0.35.
Si X = 3, la probabilidad es P (X = 3) = 0.1.

4) Variable aleatoria puntuación en un examen:


Si X = 60, la probabilidad es P (X = 60) = 0.2.
Si X = 70, la probabilidad es P (X = 70) = 0.3.
Si X = 80, la probabilidad es P (X = 80) = 0.4.
Si X = 90, la probabilidad es P (X = 90) = 0.1.

5) Variable aleatoria color de una bola sacada de una urna:


Si X = Rojo, la probabilidad es P (X = Rojo) = 0.4.
Si X = Azul, la probabilidad es P (X = Azul) = 0.3.
Si X = Verde, la probabilidad es P (X = Verde) = 0.2.
Si X = Amarillo, la probabilidad es P (X = Amarillo) = 0.1.

4
4.2-DISTRIBUCIÓN BINOMIAL.

La distribución binomial es una distribución de probabilidad que cuenta el número de


éxitos al realizar una serie de experimentos dicotómicos e independientes con una
probabilidad de éxito constante. Es decir, la distribución binomial es una distribución que
describe el número de resultados con éxito de una secuencia de ensayos de Bernoulli.

Recuerda que un ensayo de Bernoulli es un experimento que tiene dos posibles resultados:
«éxito» y «fracaso». Por lo tanto, si la probabilidad de «éxito» es p, la probabilidad de
«fracaso» es q=1-p.

En general, el número total de experimentos realizados se define con el parámetro n,


mientras que p es la probabilidad de éxito de cada experimento. De modo que una variable
aleatoria que sigue una distribución binomial se escribe de la siguiente manera:

Ten en cuenta que en una distribución binomial se repite exactamente el mismo


experimento n veces y los experimentos son independientes entre sí, de modo que la
probabilidad de éxito de cada experimento es la misma (p).

La distribución binomial también se puede llamar distribución binómica.

FORMULA:

Por otro lado, la probabilidad acumulada de la distribución binomial se calcula sumando las
probabilidades del número de casos de éxito en cuestión y todas las probabilidades
anteriores. De modo que la fórmula para calcular una probabilidad acumulada de una
distribución binomial es la siguiente:

5
EJEMPLOS:
1) Lanzar una moneda. Suponiendo que lanzas una moneda 10 veces y quiere saber la
posibilidad de obtener 7 caras. Utilizamos la distribución binomial con n=10 y p=
0.5(probabilidad de éxito en cada lanzamiento) la formula seria:
P(X=7) =C (10, 7) *0.5^ 7*(1-0.5) ^ (10-7)

2) Pruebas de embarazo.
Suponiendo que tienes una prueba de embarazo con una precisión del 95% y deseas saber
la probabilidad de que la prueba arroje exactamente 3 resultados positivos en un grupo de
5 pruebas. Aquí, puedes aplicar la distribución binomial con n = 5 y p = 0.95.
P (X = 3) = C (5, 3) * 0.95^3 * (1-0.95) ^ (5-3)

3) Producción de artículos defectuosos.


En una línea de producción, se sabe que el 10% de los artículos producidos son
defectuosos. Si se seleccionan aleatoriamente 100 artículos, puedes utilizar la distribución
binomial para calcular la probabilidad de obtener exactamente 8 artículos defectuosos. Aquí,
n = 100 y p = 0.1. La fórmula sería:

P (X = 8) = C (100, 8) * 0.1^8 * (1-0.1) ^ (100-8).


4) Nacimiento de hijos: Supongamos que, en una población determinada, la probabilidad de
que un bebé sea niño es de 0.5 y deseas calcular la probabilidad de que una pareja tenga
exactamente 3 hijos varones en 5 embarazos. En este caso, se puede aplicar una
distribución binomial con n = 5 y p = 0.5.

5) Éxito en pruebas de productos: Una empresa fabrica un gran lote de productos electrónicos
y sabe que el 95% de los productos son de calidad. Para verificar la calidad, se toma una
muestra aleatoria de 100 productos y se desea calcular la probabilidad de que exactamente
90 productos sean de calidad. Aquí se puede aplicar una distribución binomial con n = 100
y p = 0.95.

6
4.3.-DISTRIBUCIÓN HIPERGEOMÉTRICA.
La distribución hipergeométrica es una distribución de probabilidad que describe el
número de casos de éxito en una extracción aleatoria y sin remplazo de n elementos de una
población.

Es decir, la distribución hipergeométrica sirve para calcular la probabilidad de


obtener x éxitos al extraer n elementos de una población sin reemplazar ninguno.

La distribución hipergeométrica tiene tres parámetros:

• N: es el número de elementos de la población (N = 0, 1, 2,…).


• K: es el número máximo de casos de éxito (K = 0, 1, 2,…,N). Como en una
distribución hipergeométrica un elemento solo puede considerarse «éxito» o
«fracaso», N-K es el número máximo de casos de fracaso.
• n: es el número de extracciones sin reemplazo que se hacen.

Fórmula de la distribución hipergeométrica

La fórmula de la distribución hipergeométrica es el producto del número combinatorio


de K sobre x por el número combinatorio de N-K sobre n-x dividido por el número
combinatorio de N sobre n.

• N: tamaño total de la población


• K: número de elementos de interés en la población.
• n: tamaño de la muestra extraída
• k: número de elementos de interés en la muestra
EJEMPLOS:

7
1) En una bolsa metemos 20 bolas de color azul y 30 bolas de color rojo, es decir, en total hay
50 bolas dentro de la bolsa. Si extraemos 12 bolas sin reponer ninguna, calcula cuál es la
probabilidad de sacar 4 bolas de color azul.
Lo primero que debemos hacer para resolver el ejercicio es identificar los parámetros de la
distribución hipergeométrica. En este caso, el número total de elementos de la población es
50 (N=50), el número máximo de casos favorables es 20 (K=20), y sacamos 12 bolas (n=12).

Queremos calcular la probabilidad de sacar 4 bolas azules (x=4), por lo tanto, aplicamos la
fórmula de la distribución hipergeométrica, sustituimos las variables por sus
correspondientes valores y hacemos el cálculo:

2) En un lote de 1000 productos, hay 100 unidades defectuosas. Si seleccionas una muestra
de 50 productos, ¿cuál es la probabilidad de que exactamente 5 sean defectuosos?
P (x=5; N=1000, K=100, n=50) = (C (100, 5) * C (900, 45)) / C (1000, 50)

3) En una clase de 200 estudiantes, hay 80 mujeres. Si seleccionas aleatoriamente un grupo


de 20 estudiantes, ¿cuál es la probabilidad de que exactamente 8 sean mujeres?
P (x=8; N=200, K=80, n=20) = (C (80, 8) * C (120, 12)) / C (200, 20)

8
4) En una población de 5000 personas, 400 tienen una cierta enfermedad. Si seleccionas
aleatoriamente una muestra de 200 personas para realizarles una prueba, ¿cuál es la
probabilidad de que exactamente 10 tengan la enfermedad?
P (x=10; N=5000, K=400, n=200) = (C (400, 10) * C (4600, 190)) / C (5000, 200)

5) En un lote de 5000 productos, hay 500 defectuosos. Si seleccionas aleatoriamente una


muestra de 100 productos, ¿cuál es la probabilidad de que exactamente 3 sean
defectuosos?
P (x=3; N=5000, K=500, n=100) = (C (500, 3) * C (4500, 97)) / C (5000, 100)

4.4-DISTRIBUCIÓN DE POISSON

La distribución de Poisson es una distribución de probabilidad que define la probabilidad


de que ocurra un determinado número de eventos durante un período de tiempo.

Es decir, la distribución de Poisson sirve para modelizar variables aleatorias que describen
el número de veces que se repite un fenómeno en un intervalo de tiempo. La distribución de
Poisson tiene un parámetro característico, que se representa con la letra griega λ e indica
el número de veces que se espera que ocurra el evento estudiado durante un intervalo dado.

En general, la distribución de Poisson se usa para modelizar estadísticamente sucesos cuya


probabilidad de ocurrencia es muy baja. Más abajo puedes ver varios ejemplos de este tipo

de distribución de probabilidad.

Fórmula de la distribución de Poisson

En una distribución de Poisson, la probabilidad de que ocurran x eventos es igual al


número e elevado a -λ multiplicado por λ elevada a x y dividido por el factorial de x.

9
Por lo tanto, la fórmula para calcular una probabilidad de una distribución de
Poisson es la siguiente:

Características de la distribución de Poisson:

En este apartado veremos cuáles son las características de la distribución de Poisson.

• La distribución de Poisson queda definida por un único parámetro característico, λ,


que indica el número de veces que se espera que ocurra el evento estudiado
durante un determinado periodo de tiempo.

• La media de una distribución de Poisson es igual a su parámetro característico λ.

• Asimismo, la varianza de una distribución de Poisson es equivalente a su parámetro


característico λ.

• Si λ es un número entero, la moda de la distribución de Poisson es bimodal y sus valores


son λ y λ-1. En cambio, si λ no es un número entero, la moda de la distribución de
Poisson es el entero más grande menor o igual que λ.

10
• No hay una fórmula concreta para determinar la mediana de una distribución de
Poisson, pero se puede saber su intervalo:

• La función de probabilidad de la distribución de Poisson es la siguiente:

• La suma de variables aleatorias de Poisson independientes da como resultado otra


variable aleatoria de Poisson cuyo parámetro característico es la suma de los
parámetros de las variables originales.

• Una distribución binomial puede aproximarse como una distribución de Poisson si el


número total de observaciones es suficientemente grande (n≥100), siendo λ el producto
de los dos parámetros característicos de la distribución binomial.

EJEMPLOS:
1) En un café, se sabe que llegan en promedio 3 clientes por minuto. ¿Cuál es la probabilidad
de que lleguen exactamente 5 clientes en un minuto?
P (x=5; λ=3) = (e^ (-3) * 3^5) / 5!

2) En una intersección, se produce en promedio 2 accidentes por semana. ¿Cuál es la


probabilidad de que ocurran exactamente 4 accidentes en una semana?
P (x=4; λ=2) = (e^ (-2) * 2^4) / 4!

3) En una central telefónica, se reciben en promedio 10 llamadas por hora. ¿Cuál es la


probabilidad de recibir exactamente 8 llamadas en 30 minutos?
P (x=8; λ=5) = (e^ (-5) * 5^8) / 8!

11
4) En una impresora, se producen en promedio 0.5 errores por página impresa. ¿Cuál es la
probabilidad de que haya exactamente 1 error en 3 páginas impresas?
P (x=1; λ=1.5) = (e^ (-1.5) * 1.5^1) / 1!

5) En una bandeja de entrada, se reciben en promedio 2 emails no deseados por hora. ¿Cuál
es la probabilidad de recibir exactamente 3 emails no deseados en 45 minutos?
P (x=3; λ=1.5) = (e^ (-1.5) * 1.5^3) / 3!

4.5-DISTRIBUCIÓN NORMAL

La distribución normal es una distribución de probabilidad continua cuya gráfica tiene


forma de campana y es simétrica respecto a su media. En estadística, la distribución normal
sirve para modelizar fenómenos de características muy diferentes, por eso es tan importante
esta distribución.

De hecho, en estadística la distribución normal se considera, por mucho, la distribución más


importante de todas las distribuciones de probabilidad, ya que no solo permite modelizar un
gran número de fenómenos reales, sino que además la distribución normal se puede usar
para aproximar otros tipos de distribuciones bajo ciertas condiciones.

El símbolo de la distribución normal es la letra mayúscula N. Así pues, para indicar que una
variable sigue una distribución normal se indica con la letra N y se añade entre paréntesis
los valores de su media aritmética y su desviación estándar.

La distribución normal recibe muchos nombres diferentes, entre ellos destacan distribución
de Gauss, distribución gaussiana y distribución de Laplace-Gauss

Gráfica de la distribución normal

Una vez hemos visto en qué consiste la distribución normal y varios ejemplos de este tipo
de distribución de probabilidad, vamos a ver cómo es su gráfica para entender mejor el
concepto.

En el siguiente gráfico puedes ver cómo varia la función de densidad de la distribución


normal dependiendo de los valores de su media aritmética y de su desviación típica.

12
Al tener forma de campana centrada en la media aritmética, si una variable tiene una
distribución normal significa que el valor más repetido es la media y que los valores
alrededor de la media se repiten con más frecuencia que los valores de los extremos.
Asimismo, cuanto mayor sea la desviación típica de la distribución normal, más aplastada
es la forma de su representación gráfica.

Por otro lado, la gráfica de la función de probabilidad acumulada de la distribución normal


también depende de los valores de su media aritmética y su desviación típica, tal y como
puedes ver en la siguiente imagen:

La función de densidad y la función de distribución de la distribución normal permiten


calcular probabilidades relacionadas con esta distribución. No obstante, en lugar de utilizar
sus fórmulas, puedes usar directamente las tablas de la distribución normal ya que es más
rápido.

La distribución normal tiene las siguientes características:

13
• La distribución normal depende de dos parámetros característicos que son su media
aritmética (μ) y su desviación típica (σ).

• La distribución normal puede tomar tanto valores positivos como negativos, por lo tanto, el
dominio de la distribución normal son todos los números reales.

• La mediana y la moda de la distribución normal son iguales a la media aritmética de la


distribución.

• El coeficiente de asimetría y el coeficiente de curtosis de la distribución normal son nulos.

• La fórmula de la función de densidad de la distribución normal es la siguiente:

• Asimismo, la fórmula de la función de probabilidad acumulada de la distribución normal es


la siguiente:

• Una aplicación del teorema del límite central es que una distribución de Poisson se puede
aproximar a una distribución normal cuando el valor de λ es suficientemente grande.

• Otra aplicación del teorema del límite central es que una distribución binomial se puede
aproximar a una distribución normal para conjuntos de datos con un gran número de
observaciones.

EJEMPLOS:

14
1) Supongamos que la estatura promedio de una población es de 170 cm y la desviación
estándar es de 10 cm. ¿Cuál es la probabilidad de que una persona seleccionada
aleatoriamente tenga una estatura entre 165 cm y 175 cm?
f (x; μ=170, σ=10) = (1 / (10 * sqrt(2π))) * e^(-((x-170) ^2 / (2*10^2)))

2) En un examen con una media de 80 puntos y una desviación estándar de 5 puntos, ¿cuál
es la probabilidad de que un estudiante seleccionado aleatoriamente obtenga un puntaje
mayor a 85?
f (x; μ=80, σ=5) = (1 / (5 * sqrt(2π))) * e^(-((x-80) ^2 / (2*5^2)))

3) Supongamos que el tiempo de respuesta promedio de un sistema es de 2 segundos y la


desviación estándar es de 0.5 segundos. ¿Cuál es la probabilidad de que un evento se
resuelva en menos de 1.5 segundos?
f (x; μ=2, σ=0.5) = (1 / (0.5 * sqrt(2π))) * e^(-((x-2) ^2 / (2*0.5^2)))

4) En una línea de producción, el peso promedio de un producto es de 500 gramos y la


desviación estándar es de 20 gramos. ¿Cuál es la probabilidad de que un producto
seleccionado aleatoriamente tenga un peso entre 480 gramos y 520 gramos?
f (x; μ=500, σ=20) = (1 / (20 * sqrt(2π))) * e^(-((x-500) ^2 / (2*20^2)))

5) Supongamos que la temperatura ambiente promedio es de 25°C y la desviación estándar


es de 3°C. ¿Cuál es la probabilidad de que la temperatura se encuentre entre 22°C y 28°C?
f (x; μ=25, σ=3) = (1 / (3 * sqrt(2π))) * e^(-((x-25) ^2 / (2*3^2)))

4.6-DISTRIBUCIÓN T-STUDENT.
a distribución T-Student es una distribución de probabilidad muy utilizada en estadística.
En concreto, la distribución t de Student se usa en la prueba t de Student para determinar
la diferencia entre dos medias muestrales y para hacer intervalos de confianza.

La distribución t de Student fue desarrollada por el estadístico William Sealy Gosset en el


año 1908 bajo el pseudónimo «Student». La distribución t de Student queda definida con su
número de grados de libertad, que se obtiene restando una unidad al número total de
observaciones. Por lo tanto, la fórmula para determinar los grados de libertad de una
distribución t de Student es ν=n-1.

15
Gráfica de la distribución t de Student

De la gráfica de la distribución t-Student se pueden deducir las siguientes propiedade

• La distribución t-Student es más dispersa que la distribución normal, es decir, la curva


de la distribución t-Student es más ancha.

• Cuantos más grados de libertad tiene la distribución t-Student, menor es su


dispersión.

En el gráfico de arriba se ha representado la función de densidad de la distribución t-Student


según sus grados de libertad. Sin embargo, abajo puedes cómo varia la función de
probabilidad acumulada de la distribución t- Student:

Características de la distribución t de Student

16
A continuación, se muestran las características más importantes de la distribución t-Student.

• El dominio de la distribución t-Student son todos los números reales.

• Para distribuciones t-Student con más de un grado de libertad, la media de la


distribución es igual a 0.

• La varianza de una distribución t-Student se puede calcular mediante la siguiente


expresión:

• La mediana y la moda de la distribución t-Student, independientemente del número de


grados de libertad, siempre es 0.

• La función de densidad de la distribución t-Student queda definida mediante la siguiente


fórmula:

• La función de distribución de probabilidad acumulada de la distribución t-Student se


define con la siguiente fórmula:

17
• Para distribuciones t-Student con grados de libertad mayor que 3, el coeficiente de
asimetría es nulo porque se trata de una distribución simétrica.

• Si los grados de libertad de la distribución t-Student son más que cuatro, la curtosis se
puede calcular dividiendo seis entre los grados de libertad menos cuatro.

EJEMPLOS:
1) Supongamos que se quiere probar si la media de una variable en una muestra de tamaño
30 es igual a 50, asumiendo que la desviación estándar de la población es desconocida. Si
el promedio de la muestra es de 48 y la desviación estándar de la muestra es de 5, podemos
calcular el valor t y compararlo con el valor crítico para determinar si hay evidencia suficiente
para rechazar la hipótesis nula.

t = (48 - 50) / (5 / sqrt (30))

2) Si se tiene una muestra de tamaño 25 y se quiere construir un intervalo de confianza del


95% para la media de una variable, asumiendo que la desviación estándar poblacional es
desconocida. Si el promedio de la muestra es de 60 y la desviación estándar de la muestra
es de 8, podemos utilizar la fórmula de la distribución t de Student para determinar los
valores críticos.

t* = t (0.025, 24) (valor t para el percentil 2.5% con 24 grados de libertad)


IC = 60 ± (t* * (8 / sqrt (25)))

3) Supongamos que se quiere comparar las medias de dos muestras independientes de


tamaño 20 y 25 respectivamente, asumiendo que las desviaciones estándar de ambas
poblaciones son desconocidas pero iguales. Si el promedio de la primera muestra es de 70,
el de la segunda muestra es de 65, y la desviación estándar combinada es de 6, podemos
calcular el valor t y realizar la comparación.
t = (70 - 65) / sqrt ((6^2 / 20) + (6^2 / 25))

4) En análisis de regresión, se utiliza la distribución t de Student para probar la significancia de


los coeficientes de regresión. Si se tiene un modelo de regresión lineal simple con una
muestra de tamaño 50 y se quiere probar si la pendiente de la recta de regresión es igual a
cero, podemos calcular el valor t utilizando los coeficientes estimados y los errores estándar
correspondientes.
t = (b1 - 0) / (SE(b1))

18
5) Si se realiza un estudio para evaluar el efecto de un tratamiento en una muestra de 30
sujetos y se miden las mismas variables antes y después del tratamiento, se puede utilizar
la distribución t de Student para comparar las medias antes y después del tratamiento y
determinar si hay una diferencia significativa.

4.7.-DISTRIBUCIÓN CHI CUADRADA


La distribución chi-cuadrado es una distribución de probabilidad cuyo símbolo es χ². En
concreto, la distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias
independientes con distribución normal.

Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una
distribución chi-cuadrada tiene tantos grados de libertad como la suma de los cuadrados de
variables con distribución normal que representa.

Gráfica de la distribución chi-cuadrado

Una vez vista la definición de distribución chi-cuadrado, vamos a ver varios ejemplos de
este tipo de distribuciones representadas gráficamente. Así pues, a continuación puedes
ver cómo varia la gráfica de probabilidad de la distribución-chi cuadrado según los grados
de libertad.

Características de la distribución chi-cuadrado

19
En este apartado veremos las propiedades más importantes de la distribución chi-cuadrado
relacionadas con la teoría de la probabilidad y la estadística.

• La media de una distribución chi-cuadrado es igual a sus grados de libertad.

• La varianza de una distribución chi-cuadrado es equivalente al doble de los grados de


libertad de la distribución.

• La moda de una distribución chi-cuadrada es dos unidades menos que sus grados de
libertad, siempre y cuando la distribución tenga más de un grado de libertad.

• La función de densidad de la distribución chi-cuadrado es nula si x=0. No obstante, para


valores de x mayores que 0, la función de densidad de una distribución chi-cuadrado se
define mediante la siguiente fórmula:

• La función de distribución acumulada de la distribución chi-cuadrado está regida por la


siguiente fórmula:

• El coeficiente de asimetría de la distribución chi-cuadrado es la raíz cuadrada del cociente


de ocho entre el número de grados de libertad de la distribución.

• La curtosis de la distribución chi-cuadrado se calcula mediante la siguiente expresión:

20
• Como consecuencia del teorema del límite central, la distribución chi-cuadrado puede
aproximarse por una distribución normal si k es suficientemente gradne.

EJEMPLOS:
1) Supongamos que se quiere probar si una muestra de tamaño 100 sigue una distribución
específica. Si se calculan las frecuencias observadas y esperadas para cada categoría, se
puede utilizar la distribución Chi cuadrada para calcular el valor de prueba.

X^2 = Σ ((O - E) ^2 / E)

2) En el análisis de varianza (ANOVA), se utiliza la distribución Chi cuadrada para determinar


si hay diferencias significativas entre las medias de tres o más grupos. Se calcula la suma
de cuadrados de los residuos y se compara con la distribución Chi cuadrada.

X^2 = Σ ((Y - Y’) ^2)

3) En un estudio de asociación entre dos variables categóricas, se puede utilizar la distribución


Chi cuadrada para probar si las variables son independientes. Se construye una tabla de
contingencia y se calcula el valor de prueba.

X^2 = Σ ((O - E) ^2 / E)

4) En análisis de regresión, se puede utilizar la distribución Chi cuadrada para probar la bondad
de ajuste del modelo. Se compara la suma de los residuos cuadrados con la distribución Chi
cuadrada.

X^2 = Σ ((Y - Y’) ^2)

5) Si se tiene una muestra de tamaño n y se quiere construir un intervalo de confianza para la


varianza de una población, se puede utilizar la distribución Chi cuadrada para determinar
los límites del intervalo.

IC = ((n-1) * s^2) / X^2(α/2, n-1) <= σ^2 <= ((n-1) * s^2) / X^2(1-α/2, n-1)

21
4.8-DISTRIBUCIÓN F
La distribución F de Snedecor, también llamada distribución F de Fisher-Snedecor o
simplemente distribución F, es una distribución de probabilidad continua que se usa en la
inferencia estadística, especialmente en el análisis de la varianza.

Una de las propiedades de la distribución F de Snedecor es que queda definida por el valor
de dos parámetros reales, m y n, que indican sus grados de libertad. Así pues, el símbolo
de la distribución F de Snedecor es Fm,n, donde m y n son los parámetros que definen la
distribución.

Matemáticamente, la distribución F de Snedecor es igual al cociente entre una distribución


chi-cuadrado y sus grados de libertad partido por el cociente entre otra distribución chi-
cuadrado y sus grados de libertad. De modo que la fórmula que define la distribución F de
Snedecor es la siguiente:

Gráfica de la distribución F de Snedecor

Una vez vista la definición de la distribución F de Snedecor, a continuación se muestra la


gráfica de su función de densidad y la gráfica de su probabilidad acumulada.

En el gráfico de abajo puedes ver representados varios ejemplos de distribuciones F de


Snedecor con diferentes grados de libertad.

Características de la distribución F de Snedecor

22
Por último, en este apartado se muestran las características más importantes de la
distribución F de Snedecor.

• Los grados de libertad de la distribución F de Snedecor, m y n, son dos parámetros que


definen la forma de la distribución. Estos valores característicos de la distribución F de
Snedecor son números enteros y positivos.

• El dominio de la distribución F de Snedecor son todos los números reales mayores o igual
que cero.

• Para valores de n más grandes que 2, la media de la distribución F de Snedecor es igual


a n partido por la resta de n menos 2.

• Cuando el parámetro n es mayor que 2, se puede calcular la varianza de la distribución


F de Snedecor aplicando la siguiente fórmula:

• Si el parámetro m es mayor que 2, la moda de la distribución F de Snedecor se puede


calcular con la siguiente expresión:

• La fórmula de la función de densidad de la distribución F de Snedecor es la siguiente:

23
• Si una variable sigue una distribución F de Snedecor con grados de libertad m y n,
entonces la inversa de dicha variable sigue una distribución F de Snedecor con los
mismos grados de libertad pero cambiando el orden de sus valores.

• La distribución t-Student tiene la siguiente relación con la distribución F de Snedecor:

EJEMPLOS:
1) Análisis de varianza (ANOVA): En el análisis de varianza, se utiliza la distribución F
para comparar la variabilidad entre grupos con la variabilidad dentro de los grupos.
Se calcula la estadística F y se compara con la distribución F para determinar si hay
diferencias significativas entre las medias de los grupos.

F = (MSB / MSW)

2) Comparación de varianzas: Supongamos que se tienen dos muestras independientes


y se quiere comparar la varianza de ambas. Se calculan las varianzas muestrales y
se obtiene la estadística F para realizar la comparación.

F = (s1^2 / s2^2)

3) Prueba de regresión: En el análisis de regresión lineal, se utiliza la distribución F para


probar la significancia global del modelo. Se compara la suma de cuadrados
explicada por el modelo con la suma de cuadrados de los residuos utilizando la
estadística F.

F = (SSR / (k - 1)) / (SSE / (n - k))

4) Comparación de modelos: Si se ajustan dos modelos de regresión lineal y se quiere


determinar cuál es el más adecuado, se puede utilizar la distribución F para comparar
la bondad de ajuste de ambos modelos. Se comparan las sumas de cuadrados de
los residuos y se calcula la estadística F.

F = ((SSE1 - SSE2) / (df1 - df2)) / (SSE2 / df2)

24
5) Prueba de igualdad de varianzas: En la prueba de igualdad de varianzas, se utiliza
la distribución F para comparar la varianza de dos muestras. Se construye la
estadística F y se compara con la distribución F para determinar si las varianzas son
significativamente diferentes.

F = (s1^2 / s2^2)

25
5.1.1 DIAGRAMA DE DISPERSIÓN
El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y mejorarlo,
resulta indispensable conocer como se comportan algunas variables o características de
calidad entre si, esto es, descubrir si el comportamiento de unas depende del
comportamiento de otras, o no, y en qué grado.
El Diagrama de Dispersión es una herramienta utilizada cuando se desea realizar un análisis
gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos. El
resultado del análisis puede mostrar que existe una relación entre una variable y la otra.
¿Cómo se construye el Diagrama de Dispersión?
Paso 1
Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,…n donde Xi y Yi
representan los valores respectivos de las dos variables. Los datos se suelen representar
en una tabla.
Paso 2
Diseñar las escalas apropiadas para los ejes X y Y.
Paso 3
Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán como círculos
concéntricos.
Paso 4
Documentar el diagrama.

La relación entre los datos se denomina “correlación positiva” cuando a un aumento en


el valor de la variable X le acompaña un aumento en la otra variable.
El caso inverso da lugar a la llamada “correlación negativa”.

26
5.1.2 REGRESIÓN LINEAL SIMPLE
El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una
variable dependiente (variable respuesta) Y un conjunto de variables independientes
(variables explicativas) X1,..., Xn.
En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la
variable respuesta Y y una única variable explicativa X.

27
Ejemplo: En la muestra de la miel vamos a ver si existe relación lineal entre la acidez libre
(AcLib) y la acidez total (AcTot). Para ver si un modelo de regresión lineal tiene sentido,
comenzamos dibujando un diagrama de dispersión.

Ejemplos
I Estudiar cómo influye la estatura del padre sobre la estatura del hijo.
I Estimar el precio de una vivienda en función de su superficie.
I Predecir la tasa de paro para cada edad.
I Aproximar la calificación obtenida en una materia según el numero
de horas de estudio semanal.
I Prever el tiempo de computación de un programa en función de la
velocidad del procesador

28
El modelo de regresión lineal simple tiene la siguiente expresión:

En donde  es la ordenada en el origen (el valor que toma Y cuando X vale 0),  es la
pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad) y  una
variable que incluye un conjunto grande de factores, cada uno de los cuales influye en la
respuesta sólo en pequeña magnitud, a la que llamaremos error. X e Y son variables
aleatorias, por lo que no se puede establecer una relación lineal exacta entre ellas.

5.1.3 CORRELACIÓN
La correlación es una medida estadística que expresa hasta qué punto dos variables están
relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es una
herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y
efecto. El coeficiente de correlación de la muestra, r, cuantifica la intensidad de la relación.
Las correlaciones también se someten a pruebas para establecer su significancia
estadística.
La correlación es útil para describir relaciones simples entre datos. Por ejemplo, imaginemos
que está consultando un conjunto de datos sobre campings en un parque de montaña. Se
quiere averiguar si hay una relación entre la altura del camping (qué tan alto está en la
montaña) y la temperatura máxima promedio durante el verano.
Para cada camping se tienen dos mediciones: la elevación y la temperatura. Si usa la
correlación para comparar estas dos variables en toda la muestra, se puede ver que hay
una relación lineal: cuanto más sube la altura, más baja la temperatura. Estas variables
tienen una correlación negativa.

29
Describimos la correlación mediante una medida sin unidades llamada coeficiente de
correlación, que va desde -1 a +1 y se indica mediante la letra r. La significancia estadística
se indica mediante un valor p. Por tanto, usualmente las correlaciones se escriben con dos
números clave: r = y p = .

• Cuanto más se aproxima r a cero, más débil es la relación lineal.


• Los valores de r positivos indican una correlación positiva, en la que los valores de
ambas variables tienden a incrementarse juntos.
• Los valores de r negativos indican una correlación negativa, en la que los valores de
una variable tienden a incrementarse mientras que los valores de la otra variable
descienden.
• El valor p aporta evidencia de que podemos concluir de manera significativa que es
probable que el coeficiente de correlación de la población sea diferente a cero,
basándonos en lo que hemos observado en la muestra.
• "Medida sin unidades" significa que la correlación tiene su propia escala: en nuestro
ejemplo, el número de r no está en la misma escala que la altura ni que la
temperatura. Esto es diferente a otros estadísticos de resumen. Por ejemplo, la media
de las medidas de altura está en la misma escala que su variable.

30
5.1.4 DETERMINACIÓN Y EL ANÁLISIS DE LOS COEFICIENTES DE
CORRELACIÓN Y DE DETERMINACIÓN
Son herramientas estadísticas utilizadas para medir la relación entre dos variables. Estos
coeficientes proporcionan información sobre la fuerza y la dirección de la relación lineal entre
las variables y son ampliamente utilizados en diversas disciplinas, incluyendo la
investigación científica, la economía, la psicología y más.

El valor del coeficiente de correlación puede ir desde -1 hasta +1, ambos incluidos. Así pues,
según el valor del coeficiente de correlación, significa que la relación entre las dos variables
es de una forma u otra. A continuación se explica cómo interpretar el valor de la
correlación:
• r=-1: las dos variables tienen una correlación perfecta negativa, por lo que se puede
trazar una recta con pendiente negativa en la que se encuentren todos los puntos.
• -1<r<0: la correlación entre las dos variables es negativa, por lo tanto, cuando una
variable aumenta la otra disminuye. Cuanto más cerca esté el valor de -1 significa
que más relacionadas negativamente están las variables.
• r=0: la correlación entre las dos variables es muy débil, de hecho, la relación lineal
entre ellas es nula. Esto no significa que las variables sean independientes, ya que
podrían tener una relación no lineal.
• 0<r<1: la correlación entre las dos variables es positiva, cuanto más cerca esté el
valor de +1 más fuerte es la relación entre las variables. En este caso, una variable
tiende a incrementar su valor cuando la otra también aumenta.
• r=1: las dos variables tienen una correlación perfecta positiva, es decir, tienen una
relación lineal positiva.

El coeficiente de determinación, representado por "r2", es una medida que indica qué
proporción de la variación en una variable puede ser explicada por la variación en la otra
variable. Su valor también oscila entre 0 y 1, y se interpreta como el porcentaje de
variabilidad compartida entre las variables.
Correlación y regresión
La correlación y la regresión son dos conceptos que suelen ir unidos, ya que ambos sirven
para analizar la relación entre dos variables.
La correlación es una medida estadística que cuantifica la relación entre dos variables, en
cambio, la regresión consiste en hacer un ecuación (si es una regresión lineal será una
recta) que permita relacionar las dos variables.

31
De manera que la correlación simplemente proporciona un valor numérico a la relación entre
variables, mientras que la regresión se puede utilizar para intentar predecir el valor de una
variable a partir de la otra.
Normalmente, primero se analiza si las variables están correlacionadas calculando el
coeficiente de correlación. Y si la correlación es significativa, entonces se procede a hacer
una regresión del conjunto de datos.
Es habitual confundir el coeficiente de correlación con el valor de la pendiente de la recta
obtenida en la regresión lineal, sin embargo, no son equivalentes.
Matriz de correlación
La matriz de correlación es una matriz que contiene en la posición i,j el coeficiente de
correlación entre las variables i y j.
Por lo tanto, la matriz de correlación es una matriz cuadrada llena de unos en la diagonal
principal y el elemento de la fila i y la columna j consiste en el valor del coeficiente de
correlación entre la variable i y la variable j.
Así pues, la fórmula de la matriz de correlación es la siguiente:

Donde es el coeficiente de correlación entre las variables y


La matriz de correlación resulta muy útil para resumir los resultados y comparar la
correlación entre varias variables al mismo tiempo, ya que se puede ver rápidamente qué
relaciones son más fuertes.
Procedimiento
La fórmula general para calcular el coeficiente de correlación entre dos variables es:

El coeficiente de correlación es el resultado de dividir la covarianza entre las variables X y


Y entre la raíz cuadrada del producto de la varianza de X y la de Y.

1. Calcular la covarianza entre la variable X y la variable Y (entre las dos columnas de


la matriz) de acuerdo a la siguiente fórmula:

Se calcula la media de todos los valores de X y de Y


Se realiza la sumatoria del producto de las diferencias entre cada observación de
cada variable y su media correspondiente.
La sumatoria calculada anteriormente se divide entre el número total de
observaciones menos 1

2. Calcular la varianza de la variable X y la varianza de la variable Y y obtener la raíz


cuadrada de cada una:

32
Producto de desviaciones estándar Para cada variable se calcula la desviación
estándar y se multiplican

3. Se divide la covarianza entre el producto de las desviaciones estándar

Ejemplos:

• Estudio sobre la relación entre el tiempo de estudio y el rendimiento académico: Un


investigador recopila datos de un grupo de estudiantes y calcula el coeficiente de
correlación para determinar si existe una relación entre el tiempo dedicado al estudio
y los puntajes obtenidos en los exámenes.

• Análisis de la relación entre la edad y la presión arterial: Un médico lleva a cabo un


estudio para evaluar la correlación entre la edad de los pacientes y sus niveles de
presión arterial. Utiliza el coeficiente de correlación para determinar si existe una
relación lineal entre estas variables.

• Investigación sobre el impacto de la publicidad en las ventas: Una empresa recopila


datos sobre el gasto en publicidad y las ventas mensuales de sus productos. Utiliza
el coeficiente de correlación para analizar si existe una relación significativa entre la
inversión publicitaria y las ventas.

• Estudio de la relación entre la ingesta de calorías y el peso corporal: Un nutricionista


recopila datos de un grupo de individuos y utiliza el coeficiente de correlación para
examinar la relación entre la ingesta diaria de calorías y el peso corporal de las
personas.

• Análisis de la correlación entre la cantidad de horas de sueño y el nivel de estrés: Un


psicólogo realiza una investigación para determinar si hay una correlación entre la
duración del sueño y los niveles de estrés percibidos por los participantes. Utiliza el
coeficiente de correlación para evaluar la relación entre estas variables.

33
5.1.5 DISTRIBUCIÓN NORMAL BIDIMENSIONAL
Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se puede
saber con exactitud el valor de la segunda.
Variable estadística bidimensional
Una variable bidimensional es una variable en la que cada individuo está definido por un par
de caracteres, (X, Y). Estos dos caracteres son a su vez variables estadísticas entre las que
existe relación, una de las dos variables es la variable independiente y la otra variable
dependiente.
Distribuciones bidimensionales
Son aquellas en las que a cada individuo le corresponden los valores de dos variables, las
representamos por el par (xi, yi). Si representamos cada par de valores como las
coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama
de dispersión. Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo
mejor posible, llamada recta de regresión.
Intervienen dos variables, x e y, y, por tanto, a cada individuo le corresponden dos valores,
xi, yi.
Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi) representado
en un diagrama cartesiano. Así, a cada individuo de la distribución le corresponderá un
punto, y toda la distribución se verá representada mediante un conjunto de puntos.

Ejemplos:

Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

34
Matemáticas Física

2 1

3 3

4 2

4 4

5 4

6 4

6 6

7 4

7 6

8 7

10 9

10 10

• En finanzas, se puede utilizar la distribución normal bidimensional para modelar los


rendimientos de dos activos financieros diferentes. Esto permite analizar la relación
entre los rendimientos de ambos activos y evaluar el riesgo y la diversificación de una
cartera de inversiones.

• En meteorología, se puede emplear la distribución normal bidimensional para


analizar la relación entre dos variables climáticas, como la temperatura y la humedad.
Esto puede ser útil para predecir ciertos eventos climáticos o entender cómo afectan
estas variables entre sí.

• En estudios de calidad, la distribución normal bidimensional se puede aplicar para


analizar la relación entre dos características de un producto o proceso de fabricación,
como la longitud y el ancho de un objeto. Esto ayuda a comprender cómo se
relacionan estas características y cómo afectan la calidad del producto.

35
• En psicología, se puede utilizar la distribución normal bidimensional para estudiar la
relación entre dos variables psicológicas, como la ansiedad y la depresión. Esto
puede proporcionar información sobre cómo estas variables se influyen mutuamente
y cómo se distribuye la población en términos de niveles de ansiedad y depresión.

5.1.6 INTERVALOS DE CONFIANZA Y PRUEBAS PARA EL COEFICIENTE DE


CORRELACIÓN
¿Qué es un intervalo de confianza?
El intervalo de confianza representa una técnica de estimación que se utiliza en el campo
de la inferencia estadística. En él se permite acotar uno o diversos pares de valores, entre
los cuales está la estimación puntual indagada. Esto dentro de una determinada
probabilidad.
Un intervalo de confianza estadística en estadística permite calcular los valores que existen
alrededor de una media muestral. Dentro de la muestra, se encuentra un rango superior y
otro inferior. Dentro de dicho rango, se estima la probabilidad determinada y se localiza el
parámetro poblacional. De modo que esto permite expresar con precisión si la estimación
de la muestra coincide con el valor de toda la población.
¿Cuáles son los componentes de un intervalo de confianza?
Para realizar el cálculo de un intervalo de confianza , deben considerarse los siguientes
elementos:
• El tamaño de la selección de la muestra: esto depende de la proporción de datos que
se utilicen para el cálculo del valor muestral. Se debe observar si se acerca más o
menos al parámetro poblacional.

• El nivel de confianza: este informa en qué porcentaje de casos la estimación es


certera. Frecuentemente, los niveles oscilan entre el 95 % y el 99 %.

• El margen de error de la estimación: se señala como alfa y marca la probabilidad que


existe para que el valor poblacional esté fuera del intervalo.

• Estimación de la muestra: se relaciona con los valores de la media, la varianza y las


diferencias de las medias. En dichos valores se fundamenta el cálculo del intervalo.

36
Las pruebas para el coeficiente de correlación, por otro lado, se utilizan para determinar si
la correlación observada entre dos variables es estadísticamente significativa o simplemente
producto del azar. La hipótesis nula establece que no hay correlación entre las variables en
la población, mientras que la hipótesis alternativa sostiene que sí existe una correlación
significativa.
Las pruebas para el coeficiente de correlación son procedimientos estadísticos utilizados
para evaluar si la relación observada entre dos variables es estadísticamente significativa.
El coeficiente de correlación mide el grado y dirección de la asociación lineal entre las dos
variables y varía entre -1 y 1.
Cuando se realiza una prueba para el coeficiente de correlación, se establece una hipótesis
nula y una hipótesis alternativa. La hipótesis nula afirma que no hay correlación entre las
variables en la población, mientras que la hipótesis alternativa sostiene que sí existe una
correlación significativa.
La prueba más común para el coeficiente de correlación es la prueba t de Student. Esta
prueba compara el coeficiente de correlación muestral con un valor crítico y determina si la
diferencia entre el coeficiente muestral y el valor esperado bajo la hipótesis nula es
estadísticamente significativa.
El proceso de realizar una prueba para el coeficiente de correlación generalmente sigue
estos pasos:
1. Formulación de hipótesis: Se establece la hipótesis nula (H0) y la hipótesis alternativa
(H1) en función de la pregunta de investigación.
2. Elección del nivel de significancia: Se selecciona un nivel de significancia
(generalmente 0.05 o 0.01) que determinará la probabilidad aceptable de cometer un
error tipo I al rechazar incorrectamente la hipótesis nula.
3. Cálculo del estadístico de prueba: Se calcula un estadístico de prueba, que puede
ser el coeficiente de correlación muestral transformado a una distribución t o algún
otro estadístico relacionado.
4. Determinación del valor crítico: Se determina el valor crítico de la distribución t de
Student correspondiente al nivel de significancia y los grados de libertad.

37
5. Toma de decisión: Se compara el estadístico de prueba con el valor crítico. Si el
estadístico de prueba es mayor que el valor crítico (en caso de una prueba unilateral),
se rechaza la hipótesis nula y se concluye que hay evidencia de una correlación
significativa. Si el estadístico de prueba no es mayor que el valor crítico, no se
rechaza la hipótesis nula y no se encuentra evidencia suficiente para afirmar una
correlación significativa.
6. Cálculo del valor p: Se calcula el valor p, que es la probabilidad de obtener un valor
del estadístico de prueba igual o más extremo que el observado, bajo la hipótesis
nula. Un valor p pequeño sugiere una evidencia más fuerte en contra de la hipótesis
nula.
Es importante destacar que las pruebas para el coeficiente de correlación evalúan
únicamente la existencia de una asociación lineal entre las variables y no implican
causalidad. Además, estas pruebas asumen que se cumplen ciertos supuestos, como la
normalidad de las variables y la aleatoriedad de la muestra.

Ejemplos:
• Un investigador quiere determinar si existe una correlación significativa entre la edad
de los estudiantes y sus calificaciones en un examen. Realiza un estudio con una
muestra de 100 estudiantes y obtiene un coeficiente de correlación de 0.60. Calcula
un intervalo de confianza del 95% para el coeficiente de correlación y encuentra que
va desde 0.50 a 0.70. Esto indica que con un nivel de confianza del 95%, se estima
que la verdadera correlación entre la edad y las calificaciones en la población se
encuentra en ese rango.

• En un estudio de mercado, se recopilan datos sobre los ingresos anuales y los gastos
en productos electrónicos de una muestra de consumidores. Se calcula un
coeficiente de correlación de -0.45 y se realiza una prueba de hipótesis para
determinar si hay una correlación significativa. El valor p obtenido es 0.03, lo que
significa que hay evidencia suficiente para rechazar la hipótesis nula de no
correlación. Por lo tanto, se concluye que existe una correlación negativa significativa
entre los ingresos y los gastos en productos electrónicos.

• Un estudio médico investiga la relación entre el índice de masa corporal (IMC) y el


riesgo de desarrollar enfermedades cardíacas. Se recolectan datos de una muestra
de 500 individuos y se calcula un coeficiente de correlación de 0.15. Se realiza una
prueba de hipótesis y se obtiene un valor p de 0.10. En este caso, no se encuentra
suficiente evidencia para rechazar la hipótesis nula, lo que indica que no hay una
correlación significativa entre el IMC y el riesgo de enfermedad cardíaca en la
población estudiada.

• En un estudio de psicología, se investiga la relación entre la autoestima y el nivel de


ansiedad en adolescentes. Se realiza un análisis de correlación en una muestra de
200 participantes y se obtiene un coeficiente de correlación de 0.25. Se calcula un
intervalo de confianza del 90% y se encuentra que va desde 0.15 a 0.35. Esto indica

38
que con un nivel de confianza del 90%, se estima que la verdadera correlación entre
la autoestima y la ansiedad en la población se encuentra en ese intervalo.

• En un estudio de ciencias ambientales, se investiga la relación entre los niveles de


contaminación atmosférica y la incidencia de enfermedades respiratorias en
diferentes áreas urbanas. Se recolectan datos de varias ciudades y se realiza un
análisis de correlación. Se obtiene un coeficiente de correlación de -0.70 y se realiza
una prueba de hipótesis, obteniendo un valor p muy pequeño (por debajo de 0.01).
Esto indica que hay una correlación negativa significativa entre la contaminación
atmosférica y las enfermedades respiratorias en las áreas urbanas estudiadas.

5.1.7 ERRORES DE MEDICIÓN


El error de medición se define como la diferencia entre el valor medido y el "valor verdadero".
Los errores de medición afectan a cualquier instrumento de medición y pueden deberse a
distintas causas.
Clases de errores en la medición.

Estos errores se dividen en dos clases sistemático y circunstancial, estos errores se


presentan de manera constante a través de un conjunto de lecturas realizadas al hacer la
medición de una magnitud determinada.
• Los errores circunstanciales (también conocidos como estocásticos o aleatorios) no
se repiten regularmente de una medición a otra, sino que varían y sus causas se
deben a los efectos provocados por las variaciones de presión, humedad, y
temperatura del ambiente sobre los instrumentos.
• Los errores sistemáticos, se dan por una mala calibración en el aparato de medición,
defecto del instrumento o por una mala posición del observador al realizar la lectura,
también se le conoce con el nombre de error de paralaje.
Tipos de errores:
• Error absoluto: es la diferencia entre la medición y el valor promedio.
• Error relativo: es el cociente entre el error absoluto y el valor promedio. (Se expresa
en valores absolutos sin importar el signo del error absoluto).
• Error porcentual: es el error relativo multiplicado por cien, con lo cual queda
expresado en por ciento.

Ejemplos:
1. Errores en la graduación del instrumento.
2. Variación en el tamaño de una regla debido al cambio de temperatura.
3. Error causado por falta de agudeza visual de quien realizar la medición.
4. Deformación del objeto que se quiere medir debido a la presión ejercida sobre él.
5. Mal uso de los instrumentos de medición (mal colocación o mala calibración).

39
6.1.1-TIPOS DE MUESTREO
Los muestreos se clasifican en dos grandes tipos: los muestreos probabilísticos y los
muestreos no probabilísticos.
El muestreo probabilístico es un método que sirve para seleccionar los individuos que
formarán parte de la muestra de un estudio estadístico. La principal característica del
muestreo probabilístico es que se seleccionan a los individuos de manera aleatoria, es decir,
todos tienen la misma probabilidad de ser elegidos.
Esta es una condición indispensable para que el muestreo se considere probabilístico, todos
los elementos de la población estadística deben poder ser escogidos y, además, deben
tener la misma posibilidad de ser seleccionados. El muestreo probabilístico se utiliza para
reducir el número de personas que participan en un estudio estadístico.

Los tipos de muestreos probabilísticos son:

Muestreo aleatorio simple: Otorga a cada elemento de la población estadística la misma


probabilidad de ser incluido en la muestra del estudio. De manera que los individuos de la
muestra se seleccionan simplemente al azar, sin utilizar ningún otro criterio.
Los pasos para hacer un muestreo aleatorio simple son los siguientes:

1. Hacer una lista con todos los elementos de la población.


2. Asignar un número secuencial (1, 2, 3,…, n) a cada elemento de la población.
3. Definir el tamaño de la muestra deseado.
4. Utilizar un generador de números aleatorios para generar tantos números como el
tamaño de la muestra escogido.
5. Los individuos asignados a los números generados son los seleccionados para
formar parte de la muestra.

Muestreo sistemático: Primero se selecciona un elemento de la población aleatoriamente,


y luego se seleccionan el resto de elementos de la muestra utilizando un intervalo fijo. De
manera que en el muestreo sistemático, una vez hemos seleccionado al azar el primer
individuo de la muestra, tenemos que contar tantos números como el intervalo deseado para
coger el siguiente individuo de la muestra. Y vamos repitiendo el mismo procedimiento
sucesivamente hasta tener tantos individuos en la muestra como el tamaño muestral que se
quiere obtener.

Muestreo estratificado: En la técnica del muestreo estratificado primero se divide la


población en estratos (grupos) y luego se selecciona aleatoriamente unos individuos de
cada estrato para formar toda la muestra del estudio. Así que habrá como mínimo un
integrante de cada estrato en la muestra.
Muestreo por conglomerados: El muestreo por conglomerados aprovecha que ya
existen conglomerados (grupos) naturales en la población para estudiar solamente unos
conglomerados en lugar de todos los individuos de la población.

MUESTREO NO PROBABILÍSTICO

40
En el muestreo no probabilístico se seleccionan a los individuos basándose en el criterio
subjetivo de los investigadores. Por lo tanto, en el muestreo no probabilístico no todos los
elementos de la población tienen la misma probabilidad de ser escogidos para la muestra,
ya que la selección no es aleatoria. Esta característica distingue el muestreo no
probabilístico del muestreo probabilístico.

Tipos de muestreo no probabilístico:

Muestreo intencional: Se basa únicamente en el criterio del investigador para escoger la


muestra del estudio. De manera que la persona responsable de la investigación tiene todo
el poder de decisión para seleccionar a los elementos de la muestra. Por lo tanto, es
importante que sea una persona experta en el campo de estudio.

Muestreo consecutivo: En el muestreo consecutivo primero se escoge una muestra


inicial, se investiga y después de obtener los resultados de la muestra inicial se pasa a
estudiar otra muestra. Y el proceso se va repitiendo consecutivamente hasta obtener las
conclusiones de todo el estudio. De modo que el muestreo consecutivo no se centra en una
sola muestra, sino que estudia diferentes muestras de una misma población estadística y al
final saca conclusiones con la información obtenida de todos los grupos.

Muestreo por cuotas: En el muestreo por cuotas primero se establecen grupos (o


estratos) de individuos que comparten como mínimo una característica y luego se
selecciona una cuota de cada grupo, formando así la muestra del estudio. El rasgo de los
individuos que se utiliza para dividir la población en grupos también lo decide el investigador,
por lo tanto, la persona encargada de realizar la investigación tiene una gran influencia en
los resultados obtenidos.

Muestreo por bola de nieve: En el muestreo de bola de nieve el investigador escoge los
primeros participantes y posteriormente estos reclutan a otros individuos para el estudio.
Esta característica del muestreo de bola de nieve hace que el tamaño de la muestra vaya
incrementando cada vez más a medida que los participantes van reclutando a más personas
para el estudio (efecto bola de nieve).

Ejemplos de muestreo probabilístico:

Muestreo probabilístico simple:

1) Un grupo de investigadores estudiará la opinión de los estudiantes de derecho sobre la


carrera. Para realizar la selección de la muestra, los investigadores siguen los pasos del
muestreo aleatorio simple:

• Se selecciona como población objetivo a los estudiantes de derecho de 10 universidades.


• Se determina que de 16.453 estudiantes se necesitarán 270 estudiantes para elaborar la
muestra.
• Se realiza una lista de todos los estudiantes de derecho.
• A cada uno se le asigna un número.
41
• Se escogen 270 números al azar con un cuadro de muestreo, por ejemplo, 59, 798 y 11.245.

2)

3) Muestreo sistemático:

42
Ejemplos de muestreo no probabilístico:

43
1) Un investigador social elige 55 personas desempleadas en una población. Por lo que les
pide a 5 de estas seleccionadas aleatoriamente que busquen otras 10 personas
desempleadas, para terminar el análisis y la investigación mediante el método de bola de
nieve.

2) Muestreo por cuota:


Una empresa dedicada al sector industrial quiere hacer un análisis de mercado sobre las
posibles ventas de un nuevo producto. Para ello, encarga realizar un estudio estadístico por
edades para averiguar la opinión del público e intentar predecir el éxito del nuevo producto.
La empresa primero ha hecho una estimación de los clientes potenciales, estos son los
datos:

Sin embargo, hacer una encuesta a 1000 personas resultaría un coste demasiado alto para
la empresa, así que se ha decidido hacer un muestreo por cuotas para preguntar solamente
a una muestra de 200 personas. En este caso los datos de la población ya están clasificados
por grupos (o estratos) según la edad de la personas. Además, sabemos la cantidad de
cada grupo y su porcentaje respecto el total, por lo tanto, haremos una elección proporcional
para el tamaño de cada cuota.

Finalmente, una vez ya hemos fijado el número de individuos de cada cuota que participará
en el estudio, los investigadores simplemente deben seleccionar tantas personas de cada
cuota como indica su tamaño y realizar la encuesta sobre el nuevo producto a cada sujeto.

44
6.1.2-TEOREMA DE LIMITE CENTRAL

El teorema de límite central declara que sin importar la distribución, la suma de todas las
variables aleatorias generadas va a tender a una distribución normal o gaussiana.
También se dice que las variables estudiadas no necesitan ser obligatoriamente normales,
pudiendo trabajar con cualquier tipo, y obteniendo un resultado con esta misma distribución.

Otras de las declaraciones en torno a este teorema, afirma que es necesario que el tamaño
de la muestra sea grande, utilizando un número grande de variables. Al realizar la suma
de todas estas, se asegura que el teorema se cumple, si y solo si es igual a una distribución
de Gauss. Si durante el estudio, se trabaja con la media, es válida la aplicación del teorema
de límite central, ya que se realiza la suma de todos los datos, y se divide entre una
constante.

En la definición de esta teoría, se habla de número de variables grandes. Esto se debe a


que en su definición, se dice que n tiende a infinito. De esta manera, se establece la
siguiente fórmula:

Zn=X-μσ/n

Donde n tiende a infinito.

Hay que terne en cuenta que el nombre de este teorema viene dado por la aproximación
que existe entre dos distribuciones, siendo esta mayor en el centro, que en sus extremos.
Así mismo, es aplicable dentro de distintos campos, destacándose dentro de la inferencia
estadística y en la teoría de renovación.
Propiedades del teorema de límite central:

Para que la aplicación del teorema de límite central sea correcta, se debe cumplir una serie
de condiciones o propiedades que aseguran su validez:

45
• Al trabajar con muestras de tamaño grande, esto asegura que la suma de las
medias muestrales sea igual a una distribución normal. Según el teorema de límite
central, se considera que una muestra es grande cuando supera un número mayor a
30. Con esto, se afirma que al tener una muestra superior a 30, la distribución de la
media muestral tendrá tendencia a una distribución gaussiana. Este enunciado es
válido para cualquier tipo de distribución con la que se trabaje.
• La media muestral y la media poblacional siempre serán iguales, definiéndose de la
siguiente manera: la media de la distribución de la media muestral será igual a la
media de la población total estudiada.
• La varianza de la distribución de la media muéstrale está definida bajo la siguiente
fórmula: σ²/n, donde σ² es la varianza de la población, y n es el tamaño de la muestra
estudiada.
• Existen distintas manera de aplicar el teorema de límite central, y esto es posible
dependiendo de los factores que aseguran la convergencia. De esta manera, se
declara que las variables inmersas en el estudio, deben cumplir con ciertas
condiciones: deben ser independientes, estar distribuidas de manera similar, contar
con una media y varianza finita.

Tipos de muestras dentro del teorema de límite central

Se sabe que dentro del teorema de límite central se puede trabajar con distintas
distribuciones, tendiendo el resultado final a una distribución normal. Así mismo, puede
aplicarse en distintas muestras, destacándose:

• Muestra de una población uniforme: una de las características propias de este tipo
de muestra, es que posee una distribución uniforme, convirtiéndola en una población
simétrica. Según el teorema de límite central, se considera aproximadamente normal
a la distribución de las medias comprendida por 1000 muestras de tamaño 5.
• Muestra de una población exponencial: las características que identifican a una
población exponencial es que son asimétricas y no normal. Pero en este caso, el
teorema de límite central asegura que es aproximadamente normal la distribución de
las medias comprendida por una muestra de 1000 de tamaño 50.

Ejemplos:
1) Tomando muestras aleatorias de 2 de la distribución uniforme:
Ahora, imagina que tomamos una muestra aleatoria de 2 tortugas de esta población y
medimos el ancho de cada caparazón de tortuga. Suponga que el caparazón de la primera
tortuga tiene un ancho de 3 pulgadas y el segundo tiene un ancho de 6 pulgadas. El ancho
medio de esta muestra de 2 tortugas es de 4,5 pulgadas.

Luego, imagina que tomamos otra muestra aleatoria de 2 tortugas de esta población y
nuevamente medimos el ancho de cada caparazón de tortuga. Suponga que el caparazón
de la primera tortuga tiene un ancho de 2.5 pulgadas y el segundo también tiene un ancho
de 2.5 pulgadas. El ancho medio de esta muestra de 2 tortugas es de 2,5 pulgadas. Imagina
que seguimos tomando muestras aleatorias de 2 tortugas una y otra vez y seguimos
encontrando el ancho medio del caparazón cada vez.

46
Si hiciéramos un histograma para representar el ancho medio del caparazón de todas estas
muestras de 2 tortugas, se vería así:

Esto se conoce como distribución muestral para la media muestral porque muestra la
distribución de las medias muestrales.
La media de esta distribución muestral es x = μ = 4
La varianza de esta distribución muestral es s 2 = σ 2 / n = 1.33 / 2 = .665

2) Tomando muestras aleatorias de 5 de la distribución uniforme:


Ahora, imagine que repetimos el mismo experimento, pero esta vez tomamos muestras
aleatorias de 5 tortugas una y otra vez y encontramos el ancho medio del caparazón cada
vez.

Si hiciéramos un histograma para representar el ancho medio del caparazón de todas estas
muestras de 5 tortugas, se vería así:

Observe cómo esta distribución tiene más forma de «campana» que se asemeja a la
distribución normal . Esto se debe a que cuando tomamos muestras de 5, la varianza entre

47
nuestras medias muestrales es mucho menor, por lo que es menos probable que
obtengamos muestras donde la media es cercana a 2 pulgadas o cercana a 6 pulgadas y
más probabilidades de obtener muestras donde la media está más cerca de la media real
de la población de 4 pulgadas.
La media de esta distribución muestral es x = μ = 4
La varianza de esta distribución muestral es s 2 = σ 2 / n = 1.33 / 5 = .266

3) La distribución uniforme
Suponga que el ancho del caparazón de una tortuga sigue una distribución uniforme con un
ancho mínimo de 2 pulgadas y un ancho máximo de 6 pulgadas. Es decir, si seleccionamos
al azar una tortuga y medimos el ancho de su caparazón, es igualmente probable que
tenga un ancho entre 2 y 6 pulgadas.
Si hiciéramos un histograma para representar la distribución de los anchos de caparazón
de tortuga, se vería así:

La media de una distribución uniforme es μ = (b + a) / 2 donde b es el valor más grande


posible y a es el valor más pequeño posible. En este caso, es (6 + 2) / 2 = 4.
La varianza de una distribución uniforme es σ 2 = (BA) 2 / 12. En este caso, es (6-2) 2 /12
= 1,33

4) Tomando muestras aleatorias de 30 de la distribución uniforme


Ahora, imagine que repetimos el mismo experimento, pero esta vez tomamos muestras
aleatorias de 30 tortugas una y otra vez y encontramos el ancho medio del caparazón cada
vez.

48
Si hiciéramos un histograma para representar el ancho medio del caparazón de todas estas
muestras de 30 tortugas, se vería así:

Observe cómo esta distribución de muestreo tiene aún más forma de campana y es mucho
más estrecha que las dos distribuciones anteriores.

La media de esta distribución muestral es x = μ = 4


La varianza de esta distribución muestral es s 2 = σ 2 / n = 1.33 / 30 = .044

5) Tomando muestras aleatorias de 10:


Ahora, imagine que repetimos el mismo experimento, pero esta vez tomamos muestras
aleatorias de 10 familias una y otra vez y encontramos el número medio de mascotas por
familia cada vez.

Si hiciéramos un histograma para representar el número medio de mascotas por familia en


todas estas muestras de 10 familias, se vería así:

La media de esta distribución muestral es x = μ = 3


La varianza de esta distribución muestral es s 2 = σ 2 / n = 6/10 = 0.6

49
6.1.3-DISTRIBUCION MUESTRAL DE LA MEDIA
La distribución muestral de la media (o distribución muestral de medias) es la
distribución que resulta de calcular la media muestral de cada muestra posible de una
población. Es decir, el conjunto de medias muestrales de todas las muestras posibles de
una población forma la distribución muestral de la media.
O dicho con otras palabras, si estudiamos todas las muestras que se pueden extraer de una
población y calculamos la media de cada una de las muestras, el conjunto de valores
calculados forma una distribución muestral de la media muestral.
En estadística, la distribución muestral de la media sirve para calcular la probabilidad que
se tiene de acercarse al valor de la media de la población al analizar una sola muestra.

Fórmula de la distribución muestral de la media

Dada una población que sigue una distribución de probabilidad normal de media 𝜇 y
desviación estándar 𝜎 y se extraen de ella muestras de tamaño , la distribución muestral
de la media también estará definida por una distribución normal con las siguientes
características:

Donde 𝜇𝑥̅ es la media de la distribución muestral de la media y 𝜎𝑥̅ es su desviación típica.


𝜎
Asimismo, 𝑛 es el error estándar de la distribución muestral.

Nota: si la población no sigue una distribución normal pero el tamaño muestral es grande
(n>30), la distribución muestral de la media también se puede aproximar a la distribución
normal anterior por el teorema central del límite.

Por lo tanto, como la distribución muestral de la media sigue una distribución normal,
la fórmula para calcular cualquier probabilidad relacionada con la media de una
muestra es la siguiente:

Donde:

50
• 𝑥̅ es la media de la muestra.
• 𝜇 es la media de la población.
• 𝜎 es la desviación típica de la población.
• 𝑛 es el tamaño de la muestra.
• 𝑍 es una variable definida por la distribución normal estándar N(0,1).
EJEMPLOS:
1) El peso de los estudiantes de una universidad sigue una distribución normal de media 68 kg
y desviación estándar 9 kg. Determina:
1. ¿Cuál es la probabilidad de que la media de una muestra aleatoria de 25 alumnos esté
por debajo de 66 kg?
2. Si se extraen 300 muestras con un tamaño de 25 alumnos cada una, ¿cuántas medias
muestrales tendrán un valor por debajo de 66 kg?
En primer lugar, tenemos que calcular el valor del estadístico correspondiente, para ello,
aplicamos la fórmula que hemos visto más arriba:

De modo que la probabilidad que estamos buscando es la correspondiente al valor Z=-1,11


de la cola izquierda de la distribución normal estándar, que se puede obtener fácilmente de
la tabla de probabilidades de Z. Así pues, usamos la tabla de Z para determinar la
probabilidad que nos pide el problema:

Ahora que ya sabemos la probabilidad de que la media de una muestra aleatoria esté por
debajo de 66 kg, para saber el número de medias muestrales que están por debajo de 66
kg al sacar 300 muestras iguales tenemos que multiplicar la probabilidad calculada por el
número total de muestras tomadas:

Por lo que aproximadamente 40 de las muestras extraídas tendrán una media por debajo
de 66 kg.

2) En el último año, el peso de los recién nacidos en una maternidad se ha distribuido


según una ley normal de media μ = 3100 g y desviación típica σ = 150 g.

51
¿Cuál será la probabilidad de que la media de una muestra de 100 recién nacidos
sea superior a 3130 g?
3) Supongamos que la estatura media de las alumnas de un instituto es de 165 cm,
con desviación típica de 8 cm.

a) Halla los parámetros de una media muestral de tamaño n = 36.


b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media
de 167 cm o más centímetros?

52
4) Sea una población con distribución normal, con media 30 y varianza 16, si se toman
muestras de tamaño n=16, a) Determinar la distribución de muestreo de la media e indicar
cuáles son sus parámetros (media y varianza). b) encontrar la probabilidad de que, al sacar
una muestra aleatoria, la media muestral no difiera de la media poblacional en más de 2.0

5) Sean dos poblaciones X y Y, con distribución f(x) cualquiera con medias µX=20 y µY=25, y
varianzas σ2 X=4 y σ2 Y=9; si de cada una de ellas se toman muestras aleatorias
independientes, con reemplazo de tamaño 100: a) Determinar la distribución de muestreo
de X −Y e indicar sus parámetros (media y varianza)

53
6.1.4-DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN
La distribución muestral de la proporción (o distribución muestral de proporciones)
es la distribución que resulta de calcular la proporción de cada muestra posible de una
población. Es decir, las proporciones muestrales de todas las muestras posibles de una
población forman la distribución muestral de la proporción.

Dicho de otra forma, la distribución muestral de la proporción se obtiene de estudiar todas


las muestras que se pueden seleccionar de una población y sacar la proporción muestral
de cada muestra. De manera que el conjunto de proporciones muestrales calculadas
conforma la distribución muestral de la proporción. Por si te preguntas para qué sirve la
distribución muestral de la proporción, en estadística se utiliza para calcular la probabilidad
que se tiene de acercarse al valor de la proporción poblacional al analizar una sola muestra.

Fórmula de la distribución muestral de la proporción

En realidad, al estudiar una proporción de una muestra estamos analizando los casos de
éxito, por lo tanto, la variable aleatoria del estudio sigue una distribución de probabilidad
binomial.

Según el teorema central del límite, para tamaños grandes (n>30) podemos aproximar una
distribución binomial a una distribución normal. Por lo tanto, la distribución muestral de la
proporción se aproxima a una distribución normal con los siguientes parámetros:

Donde 𝑝 es la probabilidad de éxito y 𝑞 es la probabilidad de fracaso 𝑞 = 1 − 𝑝 .

Nota: una distribución binomial solo se puede aproximar a una distribución normal si 𝑛 >
30 , 𝑛𝑝 ≥ 5 y 𝑛𝑞 ≥ 5.

Por lo tanto, como se puede aproximar la distribución muestral de la proporción a una


distribución normal, la fórmula para calcular cualquier probabilidad relacionada con la
proporción de una muestra es la siguiente:

54
Donde:
• 𝑝̂ es la proporción de la muestra.
• 𝑝 es la proporción de la población.
• 𝑞 es la probabilidad de fracaso de la población, .
• 𝑛 es el tamaño de la muestra.
• 𝑍 es una variable definida por la distribución normal estándar N(0,1).

EJEMPLOS:
1) Una empresa industrial compra lotes de piezas a una fábrica que afirma producir las piezas
con tan solo un 3% de piezas defectuosas. Para comprobarlo, la empresa decide analizar
un pedido de 500 piezas, ¿cuál es la probabilidad de encontrar más del 5% de piezas
defectuosas en la muestra?
En este caso, la proporción de la población que queremos estudiar es de 0,03, por lo tanto,
el parámetro q es equivalente a 0,97.

Así pues, para hallar la probabilidad que nos piden, tenemos que calcular el estadístico
correspondiente aplicando la fórmula que hemos visto en el apartado anterior:

De modo que la probabilidad de obtener más del 5% de piezas defectuosas es equivalente


a la siguiente probabilidad:

55
Finalmente, buscamos la probabilidad de P[Z≤2,62] en la tabla de distribución Z y
calculamos la probabilidad que nos pedía el problema:

En conclusión, la probabilidad de encontrar más de 5% piezas defectuosas en la muestra


analizada es del 0,44%

2) Una fábrica de pasteles fabrica, en su producción habitual, un 3% de pasteles


defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica.
Calcula la probabilidad de que encuentre más del 5% de pasteles defectuosos.

SOLUCIÓN
Estamos tomando una muestra de tamaño 𝑛 = 500, de una población donde la proporción
de pasteles defectuosos es de 𝑝 = 0.03. Podemos usar la distribución muestral de
proporciones, que se ajusta a una normal

En nuestro ejemplo, si sustituimos los valores de 𝑝 y 𝑛 y calculamos, sería

a)

3) Previo a una elección la senadora X contrata los servicios de la compañía Y para fijar la
contienda establecida con los electores. Ella percibe con respecto a este punto que si tiene

56
el 45% de los votos será nominada de cuerdo con su estrategia de campaña. Suponiendo
que la compañía contratada selecciona una muestra aleatoria simple de 1600 electores
registrados. ¿Cuál es la probabilidad de que la muestra pueda producir una proporción de
45% más dado que la verdadera proporción es del 40%?

4) Se sabe que el 10 % de los habitantes de una determinada ciudad va regularmente al teatro.


Se toma una muestra al azar de 100 habitantes de esta ciudad, ¿cuál es la probabilidad
aproximada de que al menos el 13 % de ellos vaya regularmente al teatro?

5) Un estudio realizado por una compañia de seguros de automóviles establece que una de
cada cinco personas accidentadas es mujer. Si se contabilizan, por término medio,
169 accidentes cada fin de semana : a) ¿Cuál es la probabilidad de que, en un fin de
semana, la proporción de mujeres accidentadas supere el 24 % ?

57
6.2.1 ESTIMACIÓN PUNTUAL
Una estimación puntual de un parámetro poblacional es cuando se utiliza un único valor
para estimar ese parámetro, es decir, se usa un punto en concreto de la muestra para
estimar el valor deseado.
Propiedades deseables de un estimador:
• Insesgadez: Un estimador es insesgado cuando la esperanza matemática del este
es igual al parámetro que se desea estimar. Por tanto, la diferencia entre el parámetro
a estimar y la esperanza de nuestro estimador tendría que ser 0.
• Eficiente: Un estimador es más eficiente o tiene la capacidad de estimar de forma
precisa cuando su varianza es reducida. Por lo tanto, ante 2 estimadores, siempre
elegiremos el que tenga una varianza menor.
• Consistencia: Un estimador consistente es aquel que a medida que la medida que
la muestra crece se aproxima cada vez más al valor real del parámetro. Por lo tanto,
cuantos más y valores entran en la muestra, el parámetro estimado será más preciso
Algunos estimadores frecuentes son:
• Media muestral: para estimar la media teórica de una variable X.
𝑥1 + ⋯ + 𝑥𝑛
𝑥=
𝑛
• Proporción muestral, para estimar una proporción p:
𝑥 +⋯ + 𝑥
𝑝̂ = 1 𝑛 𝑛, siendo 𝑥1 , ⋯ , 𝑥𝑛 una muestra aleatoria simple de la variable 𝑋 ∈
𝐵(1, 𝑝), es decir, son unos o ceros.
• Varianza muestral: para estimar la varianza teórica de una población, se puede
usar la varianza de una muestra:
(𝑥1 − 𝑥)2 + ⋯ + (𝑥𝑛 − 𝑥)2
𝑆2 =
𝑛
Y también la llamada:
• Cuasi-Varianza muestral:
2
(𝑥1 − 𝑥)2 + ⋯ + (𝑥𝑛 − 𝑥)2
𝑆𝑛−1 =
𝑛−1
Que corresponde a la varianza de la muestra, pero dividiendo por n – 1, en lugar
de dividir por n.

Ejemplos:
1. Imaginemos una población de 30 personas de las que seleccionamos una
muestra de 20 para las que conocemos sus edades. Estimar de forma puntual la
media de edad, sería tan sencillo como sumar esos 20 datos y dividirlos entre el
total de la muestra estadística.

2. Cálculo de la media muestral tomando la muestra fija


(𝑥1 , 𝑥2 , 𝑥3 ) = (2, 7, 1)

2 + 7 + 1 10
𝑥= =
3 3
58
3. Se ha realizado una muestra aleatoria simple (m.a.s) de tamaño 10 a una
población considerada normal. Llegando a la conclusión que su varianza muestral
es 4. Calcular la probabilidad 𝑃[|𝑥̅ − 𝜇| < 1,22].
𝑥̅ −𝜇
Conocemos relacionado con lo planteado que 𝑆 √𝑛 − 1 → 𝑡𝑛−1 dado que
conocemos n=10 y S=2 podemos llevar a cabo los correspondientes cambios en
ambas partes de la inecuación y así:
𝑥̅ − 𝜇 1,22
𝑃 [| √𝑛 − 1| < √10 − 1] = 𝑃[|𝑡𝑛−1 | < 1,83]
𝑆 2
en tablas y dado que es en valor absoluto será la probabilidad comprendida entre
-1,83 y 1,83 de la tabla de la t de student con 9 gl. siendo dicho valor 0,9

4. En una ciudad se toma una muestra de 160 personas, de las cuales 49 practican
deporte. Determina y calcula un estimador puntual para la proporción de personas
que practican deporte en la ciudad.
Como estimador puntual vamos a emplear la proporción muestral.
49
𝑝̂ 160 = 0,31 ⇒ 31% es un estimador puntual del número de personas que
practican deporte.

5. En una encuesta, durante una campaña electoral, se preguntó a una muestra


aleatoria de 650 personas a cuál de los candidatos pensaba votar. Declararon 270
que votarían a un determinado partido. Obtén un estimador puntual y un intervalo
de confianza del 95% para la proporción de la población que votaría al citado
partido en las elecciones.
Podríamos tomar como estimador puntual la proporción de población que va a
270
votar al partido 𝑃̂ = 650 = 0,415.
Para un nivel de confianza del 95% tenemos:
1 − 𝛼 = 0,95 ⇒ 𝛼 = 0.05 ⇒ 𝑧𝛼 = 𝑧0,025 = 1,96
2
El intervalo de confianza pedido es el siguiente:
𝑝 ∗ 𝑞 𝑝 ∗ 𝑞
𝑃 ∈ (𝑝 − 𝑧𝛼 ∗ √ ; 𝑝 + 𝑧𝛼 ∗ √ )=
2 𝑛 2 𝑛
0,415 ∗ 0.585 0.415 ∗ 0.585
= (0,415 − 1,96 ∗ √ ; 0,415 + 1,96 ∗ √ )=
650 650

= (0.377; 0.453)

6.2.2 ESTIMACIÓN POR INTERVALO

La estimación por intervalos permite conocer el rango de valores en que podemos confiar
que está el verdadero valor poblacional; por lo tanto, permite dimensionar la imprecisión de
la estimación puntual y este es su principal propósito.
La obtención del intervalo se basa en las siguientes consideraciones:

59
a) Si conocemos la distribución muestral del estimador podemos obtener las
probabilidades de ocurrencia de los estadísticos muestrales.

b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la


probabilidad de que el estimador se halle dentro de los intervalos de la distribución
muestral.

c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo


se establece alrededor del estimador. Si repetimos el muestreo un gran número de
veces y definimos un intervalo alrededor de cada valor del estadístico muestral, el
parámetro se sitúa dentro de cada intervalo en un porcentaje conocido de ocasiones.
Este intervalo es denominado "intervalo de confianza".
Ejemplos:
1. Se generan 100000 muestras aleatorias (n=25) de una población que sigue la
distribución Normal, y resulta:

La distribución de las medias muestrales aproxima al modelo normal:

En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias

muestrales es:

Seguidamente generamos una muestra de la población y obtenemos su Media, que es igual


a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el parámetro poblacional
(5.1) está incluido dentro de sus límites:

60
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón,
la distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En
consecuencia, si hacemos un muestreo con un número grande de muestras observamos
que el 95% de las veces (aproximadamente) el valor de la Media de la población (m) se
encuentra dentro del intervalo definido alrededor de cada uno de los valores de la Media
muestral. El porcentaje de veces que el valor de m se halla dentro de alguno de los
intervalos de confianza es del 95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que el % de veces que m se

halle dentro del intervalo sea igual al 99%, la expresión anterior es:
(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral
en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones
informáticas como Excel), y son los valores cuya función de probabilidad es igual a 0.995 y
0.005 respectivamente).

2. La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de


100000 muestras aleatorias y los intervalos alrededor de cada

una de las Medias obtenidas de diez de las muestras:


3.
Donde l𝑠 y l𝑒 simbolizan los límites superior e inferior del intervalo de confianza al 95%.

Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7)
incluyen el valor del parámetro dentro sus límites.

61
4. Una empresa de investigación llevó a cabo una encuesta para determinar la cantidad
media que los fumadores gastan en cigarrillo durante una semana. La semana
encontró que la distribución de cantidades gastadas por semana tendía a seguir una
distribución normal, con una desviación estándar de $5. Una muestra de 64
fumadores reveló que 𝑥̅ = $20.
a) ¿Cuál es el estimador de intervalo de confianza de 95% para la μ?

5. La Doctora Patton es profesora de inglés. Hace poco contó el número de palabras


con faltas de ortografía en un grupo de ensayos de sus estudiantes. Observó que la
distribución de palabras con faltas de ortografía por ensayo se regía por una
distribución normal con una desviación estándar de 2.44 palabras por ensayo. En su
clase de 40 alumnos de las 10 de la mañana, el número medio de las palabras con
faltas de ortografía fue de 6.05. Construya un intervalo de confianza de 90%

6.05 ± 0.631 5.419 − 6.681

6. María Wilson considera postularse para la alcaldía de la ciudad de Bear Gulch,


Montana. Antes de solicitar la postulación, decide realizar una encuesta entre los
electores de Bear Gulch. Una muestra de 400 electores revela que 300 la apoyarían
en las elecciones de noviembre. Construya un intervalo de confianza del 99% para
la proporción poblacional.

62
6.2.3 INTERVALO DE CONFIANZA PARA UNA MEDIA.
El intervalo de confianza para la media es un intervalo que proporciona un rango de valores
admisibles para la media de una población. Es decir, el intervalo de confianza para la media
nos da un valor máximo y un valor mínimo entre los cuales se encuentra el valor de la media
de una población con un margen de error.
Por ejemplo, si el intervalo de confianza del 95% para la media de una población es (6,10),
significa que el 95% de veces la media poblacional estará entre 6 y 10.
Por lo tanto, el intervalo de confianza para la media se usa para estimar dos valores entre
los cuales se encuentra la media de una población. Así pues, el intervalo de confianza para
la media resulta muy útil para aproximar el promedio de una población cuando se
desconocen todos sus valores.

Fórmula del intervalo de confianza para la media


Partiendo de que el proceso de tipificación de una variable se hace de la siguiente manera:

El intervalo de confianza para la media se calcula sumando y restando a la media muestral


el valor de Zα/2 multiplicado por la desviación típica (σ) y dividido por la raíz cuadrada del
tamaño de la muestra (n). Por lo tanto, la fórmula para calcular el intervalo de confianza para
la media es la siguiente:

Para tamaños muestrales grandes y un nivel de confianza del 95% el valor crítico es
Zα/2=1,96 y para un nivel de confianza del 99% el valor crítico es Zα/2=2,576.

63
La fórmula anterior se utiliza cuando la varianza de la población es conocida.

Fórmula del intervalo de confianza.


Si la varianza de la población es desconocida, que es el caso más frecuente, el intervalo de
confianza para la media se calcula con la siguiente fórmula:

Donde:

• 𝑥̅ es la media de la muestra.
• 𝑡 𝛼⁄2 es el valor de la distribución t de Student de n-1 grados de libertad con una
probabilidad de α/2.
• s es la desviación típica de la muestra.
• n es el tamaño de la muestra.

EJEMPLO 1:
Tenemos una muestra de 8 observaciones con los valores mostrados a continuación. ¿Cuál
es el intervalo de confianza para la media de la población con un nivel de confianza del
95%?
206 203 201 212
194 176 208 201
Para poder determinar el intervalo de confianza de la media, primero tenemos que calcular
la media y la desviación típica de la muestra.

64
Como queremos hallar el intervalo de confianza con un nivel de confianza de 1-α=95% y el
tamaño muestral es 8, tenemos que ir a la tabla de la distribución t de Student y ver qué
valor corresponde a t0,025|7.

Aplicamos la fórmula del intervalo de confianza para la media y hacemos los cálculos para
encontrar los valores límites del intervalo:

En conclusión, el intervalo de confianza calculado nos indica que con un nivel de confianza
del 95% la media de la población estará entre 190,82 y 209,43.

EJEMPLO 2:
Félix es un experto de control de calidad en una fábrica que pinta partes de automóviles. Su
proceso de pintura consiste en una capa base, una capa de color y una capa de
recubrimiento transparente. En cierta parte, estas capas tienen un grosor objetivo
combinado de 150 micras. Félix midió el grosor de 50 puntos seleccionados al azar en una
de estas partes para ver si estaban pintados correctamente. Su muestra tenía un espesor
promedio de 𝑥̅ = 148 micras y una desviación estándar de 𝑠𝑥 = 3.3 micras.
Un intervalo de confianza de 95% para el grosor medio con base en estos datos es (147.1,
148.9).
El intervalo dice que los valores admisibles para el verdadero grosor promedio en esta parte
son entre (147.1, 148.9) micras. Puesto que este intervalo no contiene a 150 micras, no
parece creíble que el espesor medio de esta parte coincida con el valor objetivo. En otras
palabras, el intervalo entero está por debajo del valor objetivo de 150 micras, por lo que el
grosor promedio de esta parte probablemente esté por debajo del objetivo.

EJEMPLO 3:

65
Martina leyó que el estudiante de posgrado promedio tiene 33 años de edad. Quería estimar
la media de edad de los estudiantes de posgrado en su universidad grande, por lo que tomó
una muestra aleatoria de 30 estudiantes. Encontró que su edad media fue 𝑥̅ = 31.8 la
desviación estándar fue 𝑠𝑥 = 4.3 años. Un intervalo de confianza para la media con base a
sus datos fue (30.2, 33.4).
33 está dentro del intervalo, es un valor admisible para la edad media de toda la población
de estudiantes de posgrado en su universidad.

EJEMPLO 4:
La Agencia de protección ambiental (APA) tiene normas y reglamentos que dicen que el
nivel de plomo en el suelo no puede exceder el límite de 400 partes por millón (ppm) en
áreas públicas diseñadas para que los niños jueguen. Lucas es un inspector, y toma 30
muestras seleccionadas al azar de un sitio donde están pensando construir un parque
infantil.
Estos datos exhiben una media muestral de 𝑥̅ = 394 ppm y una desviación estándar de 𝑠𝑥 =
26.3 ppm. El intervalo de confianza resultante de 95% para la concentración media es 394
± 9.8.
El intervalo contiene valores superiores a 400 ppm, por lo que el nivel promedio de la
concentración de plomo en el sitio está potencialmente por encima del límite.

EJEMPLO 5:
Sandra es una ingeniera que trabaja en cargas inalámbricas para un fabricante de teléfonos
móviles. Sus características de diseño dicen que no debe tomar más de 2 horas cargar
totalmente una batería descargada por completo.
Sandra tomó una muestra aleatoria de 40 de estos teléfonos y cargadores. Ella descargó
sus baterías por completo y tomó el tiempo que tardó cada uno de ellos en estar totalmente
cargado. Las medidas se usaron para construir un intervalo de confianza del 95% para la
media del tiempo de carga. El intervalo resultante fue de 123 ± 2.24 minutos.
El intervalo entero está por encima de los 120 minutos, el tiempo medio de carga es probable
que esté por encima de las 2 horas.

66
6.2.4 INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN.
El intervalo de confianza para la diferencia de proporciones es un intervalo que proporciona
un rango de valores admisibles entre los cuales se encuentra el valor de la diferencia de las
proporciones de dos poblaciones con un determinado nivel de confianza.
Por ejemplo, si el intervalo de confianza para la diferencia de las proporciones de dos
poblaciones con un nivel de confianza del 95% es (0,07, 15), significa que la diferencia entre
las dos proporciones poblacionales estará entre el 7% y el 15% con una probabilidad del
95%.
Por lo tanto, en estadística el intervalo de confianza para la diferencia de proporciones sirve
para estimar dos valores entre los cuales se encuentra la diferencia entre dos proporciones
poblacionales. De manera que se recolectan dos muestras y a partir de esos datos se puede
aproximar cuál es la diferencia entre las proporciones de las poblaciones.

Fórmula para calcular el intervalo de confianza para la diferencia de proporciones

Dónde:
• 𝑃̂𝑖 es la proporción de la muestra i.
• 𝑛ⅈ es el tamaño de la muestra i.
• 𝑧𝛼⁄2 es el cuantil de la distribución normal estándar correspondiente a una
probabilidad de α/2. Para tamaños muestrales grandes y un nivel de confianza del
95% se suele aproximar a 1,96 y para una confianza del 99% se suele aproximar a
2,576.

Intervalos de confianza para proporciones.


En la inferencia sobre una proporción el problema se concreta en estimar y contrastar la
proporción p de individuos de una población que presentan una determinada característica
A (proporción de votantes a un partido político, proporción de parados, ...). El problema se
modeliza mediante una variable dicotómica que toma el valor 1 si se presenta la
característica de interés y 0 en caso contrario, esto es, una variable de Bernoulli, 𝑥 → 𝑏(𝑝),
de la que se dispone de una muestra de tamaño n. Entonces, la proporción poblacional p
no es otra cosa que la media poblacional de dicha variable, estimándose con la
correspondiente proporción muestral o media muestral, 𝑃̂ = 𝑥̅ .

En el caso de dos poblaciones, se trata de comparar la proporción en la que se presenta


una cierta característica A en las mismas (comparar la proporción de voto a un partido en
dos regiones, comparar la proporción de parados entre hombres y mujeres, ...). El problema

67
se modeliza mediante dos variables de Bernoulli independientes, de las que se dispone de
sendas muestras aleatorias de tamaño n1 y n2 respectivamente.

Intervalo de confianza sobre la proporción poblacional


Proporciones de una población.
A partir del estadístico

Se construye el intervalo:

siendo 𝑍𝛼 ∕ 2 el valor que en una distribución normal estándar deja a su derecha una
probabilidad de 𝛼⁄2.

Cuando se va a realizar una encuesta para estimar una proporción, lo habitual es plantearse
a priori obtener una cierta fiabilidad y precisión en la estimación, buscando el tamaño
muestral necesario para conseguirlas. La longitud del intervalo de confianza para p resulta:

De aquí podremos calcular el valor de n en función de la longitud del intervalo, L, y de su


fiabilidad, 1-𝛼:

Adviértase que llegamos a un resultado en principio incongruente: queremos saber cuántas


observaciones tenemos que realizar para estimar p y para ello necesitaremos conocer su
estimación, valor que conoceremos una vez hayamos realizado las observaciones. ¿Cómo
solucionar este problema? Existen tres posibles vías:

68
a) Si tuviésemos información (encuestas anteriores, opiniones de experto,...) sobre el
posible valor de la proporción a estimar, sustituiríamos este valor en la anterior expresión.
b) Podríamos realizar una pequeña encuesta (encuesta piloto) que nos proporcionase una
primera evaluación de la proporción muestral. Además, esta encuesta puede servir para
probar y reformar el cuestionario, organizar el trabajo de campo, etc.
c) Si no contásemos con información alguna ni tuviésemos la posibilidad de realizar la
encuesta piloto, nos pondríamos en la situación más desfavorable, esto es, la que da lugar
al tamaño muestral más grande para la fiabilidad y precisión deseadas. Esa situación se
produce cuando n alcanza su máximo, lo cual ocurre cuando p=q=0.5.
En este caso, por otro lado, el más habitual, resulta:

Intervalo de confianza sobre la diferencia de proporciones poblacionales


Proporciones de dos poblaciones.
A partir del estadístico

se construye el intervalo

Siendo 𝑍𝛼⁄2 el valor que en una distribución normal estándar deja a su derecha una
probabilidad de 𝛼⁄2.

EJEMPLO 1:
Se quiere hacer un estudio estadístico sobre la proporción de zurdos, en concreto, se quiere
averiguar la diferencia entre las proporciones de zurdos entre hombres y mujeres. Para ello,
se toma una muestra de 60 hombres y una muestra de 67 mujeres, de los cuales 5 hombres
y 7 mujeres son zurdos. ¿Cuál es el intervalo de confianza para la diferencia de proporciones
con un nivel de confianza del 95%?
En primer lugar, tenemos que calcular la proporción de zurdos de cada muestra estadística:

69
Para hallar el intervalo de confianza para la diferencia de proporciones tenemos que
determinar el valor de Zα/2. Para ello, usamos la tabla de la distribución normal estándar.

Finalmente, sustituimos los datos en la fórmula y calculamos el intervalo de confianza para


la diferencia de proporciones:

En definitiva, el intervalo de confianza para la diferencia de proporciones del problema es:


(-0.122, 0.08)

EJEMPLO 2:
Alicia está a cargo del menú de la cena del baile de graduación y quiere usar un intervalo a
partir de una muestra con base en puntajes z para estimar la proporción de graduados que
podrían pedir el menú vegetariano. Aleatoriamente eligió a 30 de los 150 graduados y
encontró que 7 de ellos prefieren el menú vegetariano.

EJEMPLO 3:
Un analista de mercado tiene curiosidad de saber qué proporción de los habitantes de Los
Ángeles tiene un teléfono fijo. Una encuesta de 200 habitantes de Los Ángeles
seleccionados aleatoriamente muestra que el 48% de los seleccionados tiene un teléfono
fijo. El analista quiere usar estos datos para construir un intervalo a partir de una muestra
con base en puntajes z para una proporción.
Los datos son una muestra aleatoria de población de interés ya que la muestra se selecciona
aleatoriamente de la población de interés.
Las cuentas observadas de éxitos y fracasos son suficientemente grandes ya que incluye
al menos 10 éxitos (96 de 200 es el 48%) y fracasos (104 de 200 es el 52%).
Las observaciones individuales se pueden considerar como independientes ya que
podemos suponer independencia ya que muestrean menos del 10% de la población.

EJEMPLO 4:

70
En una muestra de 100 personas extraída de una población, 20 e ellas son portadoras de
cierta enfermedad. Estima un intervalo de confianza a un nivel del 95% ara la proporción de
personas portadoras de la enfermedad.

Tenemos que

EJEMPLO 5:
En una investigación comercial se muestrea a 100 individuos resultando que 25 de ellos han
comprado nuestro producto. Dar un intervalo para la proporción de penetración en el
mercado con una probabilidad (nivel de confianza) del 95 %.
conocemos:

1-a = 0.95; n=100 (grande) proporción muestral = 𝜌̂ = 0.25


El intervalo sería:

Donde valor de 𝜆⁄2 = 1.96 según la tabla normal y 0.95 de confianza.

Desconocemos la proporción poblacional p; dos opciones


p= 𝑝̂ = 0.25 dado que la muestra es grande ; que aplicada en el intervalo daría que : la
proporción de penetración en el mercado está entre el 16'51 % y el 33'48 % con una
confianza del 95 %.
p=q=0.5 poniéndonos en el caso de varianza máxima ; en el caso por tanto más
desfavorable. En este caso la proporción de penetración en el mercado estaría entre el
15.2% y el 34.8 con una confianza del 95% ; como se puede apreciar el intervalo tiene más
holgura que el realizado por el método anterior.

71
6.3.1 ERRORES TIPO I Y II.
En estadística, una prueba de hipótesis es un método que se usa para rechazar o aceptar
una hipótesis. Es decir, una prueba de hipótesis sirve para determinar si se rechaza o se
acepta una hipótesis que se tiene acerca del valor de un parámetro estadístico de una
población.
En una prueba de hipótesis se analiza una muestra de datos y, a partir de los resultados
obtenidos, se decide rechazar o aceptar una hipótesis de un parámetro poblacional que se
había establecido previamente.
Una de las características de las pruebas de hipótesis es que nunca se puede saber con
total certeza si la decisión de rechazar o aceptar una hipótesis es la correcta. Así pues, en
las pruebas de hipótesis se rechaza o no una hipótesis según qué es más probable que sea
verdad, pero, aunque existe evidencia estadística para rechazar o aceptar la hipótesis,
siempre se puede estar cometiendo un error. Más abajo entraremos en detalle en los errores
que se pueden hacer al realizar una prueba de hipótesis.

Hipótesis nula e hipótesis alternativa


Una prueba de hipótesis siempre tiene una hipótesis nula y una hipótesis alternativa, que
se definen de la siguiente manera:
Hipótesis nula (H0): es la hipótesis que sostiene que la suposición inicial que se tiene
respecto a un parámetro poblacional es falsa. Por lo tanto, la hipótesis nula es aquella
hipótesis que se pretende rechazar.
Hipótesis alternativa (H1): es la hipótesis de la investigación que se pretende probar que
es cierta. Es decir, la hipótesis alternativa es una suposición previa que tiene el investigador
y para intentar demostrar que es verdadera llevará a cabo la prueba de hipótesis.

Tipos de pruebas de hipótesis


Las pruebas de hipótesis se pueden clasificar en dos tipos:
Prueba de hipótesis bilateral (o prueba de hipótesis de dos colas): la hipótesis alternativa
de la prueba de hipótesis afirma que el parámetro poblacional es «diferente a» un valor
concreto.
Prueba de hipótesis unilateral (o prueba de hipótesis de una cola): la hipótesis alternativa
de la prueba de hipótesis afirma que el parámetro poblacional es «mayor que» (>) o «menor
que» (<) un valor concreto.

Prueba de hipótesis Prueba de hipótesis Prueba de hipótesis


bilateral unilateral unilateral

72
Errores de una prueba de hipótesis
En una prueba de hipótesis, al rechazar una hipótesis y aceptar la otra hipótesis de la
prueba, se puede cometer uno de los siguientes dos errores:
Error tipo I: es el error cometido al rechazar la hipótesis nula cuando en realidad es
verdadera.
Error tipo II: es el error cometido al aceptar la hipótesis nula cuando en realidad es falsa.
Por otro lado, la probabilidad de cometer cada tipo de error se llama de la siguiente manera:
Probabilidad alfa (α): es la probabilidad de cometer el error de tipo I.
Probabilidad beta (β): es la probabilidad de cometer el error de tipo II.
Asimismo, la potencia de la prueba de hipótesis se define como la probabilidad de rechazar
la hipótesis nula (H0) cuando esta es falsa, o, dicho de otra forma, es la probabilidad de
escoger la hipótesis alternativa (H1) cuando esta es cierta. Por lo tanto, la potencia de la
prueba de hipótesis es igual a 1-β.
Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en
probabilidades, siempre existe la posibilidad de llegar a una conclusión incorrecta. Cuando
usted realiza una prueba de hipótesis, puede cometer dos tipos de error: tipo I y tipo II. Los
riesgos de estos dos errores están inversamente relacionados y se determinan según el
nivel de significancia y la potencia de la prueba. Por lo tanto, usted debe determinar qué
error tiene consecuencias más graves para su situación antes de definir los riesgos.
Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La
probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que usted
establece para su prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a
aceptar una probabilidad de 5% de estar equivocado al rechazar la hipótesis nula. Para
reducir este riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor
para alfa significa que usted tendrá menos probabilidad de detectar una diferencia si esta
realmente existe.
Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La
probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba.
Puede reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga
suficiente potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo
suficientemente grande como para detectar una diferencia práctica cuando esta realmente
exista.
La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es
la potencia de la prueba.

73
Ejemplo de error de tipo I y tipo II
Un investigador médico desea comparar la efectividad de dos medicamentos. Las hipótesis
nula y alternativa son:
• Hipótesis nula (H0): μ1= μ2
Los dos medicamentos tienen la misma eficacia.

• Hipótesis alternativa (H1): μ1≠ μ2


Los dos medicamentos no tienen la misma eficacia.

Un error de tipo I se produce si el investigador rechaza la hipótesis nula y concluye que los
dos medicamentos son diferentes cuando, en realidad, no lo son. Si los medicamentos
tienen la misma eficacia, el investigador podría considerar que este error no es muy grave,
porque de todos modos los pacientes se beneficiarían con el mismo nivel de eficacia
independientemente del medicamento que tomen. Sin embargo, si se produce un error de
tipo II, el investigador no rechaza la hipótesis nula cuando debe rechazarla. Es decir, el
investigador concluye que los medicamentos son iguales cuando en realidad son diferentes.
Este error puede poner en riesgo la vida de los pacientes si se pone en venta el
medicamento menos efectivo en lugar del medicamento más efectivo.

Cuando realice las pruebas de hipótesis, considere los riesgos de cometer errores de tipo I
y tipo II. Si las consecuencias de cometer un tipo de error son más graves o costosas que
cometer el otro tipo de error, entonces elija un nivel de significancia y una potencia para la
prueba que reflejen la gravedad relativa de esas consecuencias.

74
6.3.2 PASOS PARA REALIZAR UNA PRUEBA DE HIPÓTESIS

Es un proceso en cinco pasos que siguen una secuencia lógica de acciones y decisiones.
Plantear la hipótesis.
La prueba de hipótesis formula dos hipótesis estadísticas que deben anunciarse
explícitamente: hipótesis nula y alternativa. La primera, se designa por el símbolo H0. Esta
hipótesis se conoce también como la hipótesis de no diferencia, ya que es una proposición
de conformidad con (o sin diferencia respecto a) Características que se suponen ciertas en
la población de interés. Esta hipótesis siempre se opone a la hipótesis del investigador.
La segunda, identificada mediante el símbolo H1, es una proposición que se creerá cierta si
los datos de la muestra siguieren que llevan al rechazo de la H0 es falsa. Por lo general, la
H1 y la hipótesis de investigación son la misma y, de hecho; se utilizan los dos términos
indistintamente.
En general H0, esta se establece con el propósito expreso de ser rechazada. Si no se
rechaza, esto no necesariamente significa que es verdadera, se dirá que los datos sobre los
cuales se basa la prueba no proporcionan evidencia suficiente que cause el rechazo. Por el
contrario, si se rechaza se concluye que los datos disponibles no son compatibles con la
H0, pero sirven como apoyo a alguna otra hipótesis. Rechazarla entonces, sugiere que la
hipótesis alternativa puede ser verdadera.
La segunda, identificada mediante el símbolo H1, es una proposición que se creerá cierta
si los datos de la muestra siguieren que llevan al rechazo de la H0 es falsa. Por lo general,
la H1 y la hipótesis de investigación son la misma y, de hecho; se utilizan los dos términos
indistintamente.
En general H0, esta se establece con el propósito expreso de ser rechazada. Si no se
rechaza, esto no necesariamente significa que es verdadera, se dirá que los datos sobre los
cuales se basa la prueba no proporcionan evidencia suficiente que cause el rechazo. Por el
contrario, si se rechaza se concluye que los datos disponibles no son compatibles con la
H0, pero sirven como apoyo a alguna otra hipótesis. Rechazarla entonces, sugiere que la
hipótesis alternativa puede ser verdadera. 2. Establecer un nivel de significancia

Se ha señalado que la clave para la inferencia estadística es la distribución muestral. Es


necesario recordar esto, en los casos en que sea necesario especificar la distribución de
probabilidad de la estadística de prueba. Por ejemplo, la distribución de la estadística de
prueba por lo general; sigue una distribución normal estándar (ver unidad anterior) si la H0
es verdadera y si satisface las suposiciones. Todos los valores posibles que la estadística

75
de prueba puede asumir son puntos sobre el eje horizontal de la gráfica de la distribución
para esta estadística y se dividen en dos grupos: uno de ellos constituye lo que se conoce
como región de rechazo y el otro, forma la región de no rechazo
Diagrama 1. Partes de una distribución en pruebas de hipótesis
Los valores de la estadística de prueba que forman la región de rechazo son aquellos que
tienen la menor probabilidad de ocurrir, mientras que los que forman la región de no rechazo
tienen la mayor probabilidad de ocurrencia, si la H0 es verdadera para ambas regiones.
La decisión en cuanto a que valores van hacia qué región se toma con base en el nivel de
significancia deseado, designado por α. El nivel de significancia α, designa el área bajo la
curva de la distribución de la de prueba que está por encima de los valores, sobre el eje
horizontal; que constituyen la región de rechazo. Y un valor calculado para la estadística de
prueba que cae dentro de la región de rechazo se dice que es significativo.
Ejemplo, si tuviéramos un nivel o grado de confianza del 95% (0.95) entonces el nivel de
significancia sería del 5% (0.05) donde:
Nivel de confianza = (1- α)
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia
sería del 10%.
Dado que rechazar una H0 verdadera sería un error, parece razonable que se deba hacer
pequeña la probabilidad de cometerlo y, de hecho; esto es lo que se hace. Se elige un valor

pequeño de α para hacer que la probabilidad de rechazo para una H0 sea pequeña. Los
valores que se encuentran con más frecuencia son: 0.01, 0.05 y 0.10. La probabilidad de
equivocarse al no rechazar un H0 verdadera generalmente es de 95%, puede ser 90 y 99%,
esto se conoce como el nivel de confianza.
Diagrama 2. Partes de una distribución en pruebas de hipótesis.

Por lo tanto, la probabilidad de no equivocarse al rechazar una H0 falsa generalmente es de


80%, esto es el valor o grado predictivo cuyo valor de β más comúnmente usado es 0.2.
(figura 2).

3. Seleccionar el estadístico de prueba a aplicar.


Es necesario comprender la naturaleza de los datos que forman la base de los
procedimientos de prueba, ya que esto determina la prueba particular que se ha de utilizar.
Se debe determinar, por ejemplo, si los datos constan de conteos o medidas. A partir de los
datos contenidos en la muestra, se calcula un valor de la estadística de prueba y se compara

76
contra las regiones de no rechazo y rechazo que ya fueron especificadas. Luego entonces,
aplicar el estadístico de prueba, previa comprobación los supuestos (restricciones) estas
incluyen, entre otras; suposiciones respecto a la normalidad de la distribución de la
población, igualdad de varianzas e independencia de las muestras. Esto es importante ya
que determina si se usan pruebas paramétricas (para datos que siguen la distribución
normal) o pruebas no paramétricas (para datos cuya distribución es diferente a la normal).
Hay que tener en cuenta que un procedimiento general se modifica según las suposiciones.
Los estadísticos de prueba más comunes los veremos más adelante.

4. Establecer una regla de decisión

Esta señala que se debe ser rechazada H0 si el valor de la estadística de prueba que se
calcula a partir de la muestra es uno de los valores de la región de rechazo, y que no se
debe rechazar si el valor calculado es uno de los valores de la región de no rechazo.
Valor de p en pruebas de hipótesis

Un aspecto, aquí importante es el valor de p (P-Value) que es el valor del estadístico de


prueba que se aplique. Indica que tan significante son los resultados de la muestra,
considerando que la H0 sea verdadera.
Los valores de p son comúnmente utilizados para probar (y descartar) una H0, que por lo
general indica que no existe una diferencia entre dos grupos, o que no hay ninguna
correlación entre un par de características; por lo tanto, ofrece la justificación para dudar de
la certeza de la H0, si esta es verdadera.
Cuanto menor sea el valor de p, menor es la probabilidad de que un conjunto de valores
observados ocurra por casualidad. Un valor p de 0.05 o menos suele entenderse en el
sentido de que las observaciones son estadísticamente significativas y justifica los
resultados de un estudio. Pero eso no es necesariamente cierto, la distancia entre la
significación estadística y la relevancia clínica se debe analizar con cuidado por parte de los
investigadores por lo que hay que evitar sacar conclusiones científicas o tomar decisiones
basadas solo en los valores de p.
Un valor p de 0.05, no significa que hay una posibilidad del 95% que una determinada
hipótesis es correcta. Más bien, significa que, si la H0 es verdadera, y todas las demás
suposiciones hechas son válidas, hay una probabilidad del 5 % de obtener un resultado al
menos tan extremo como el observado. Y un valor de p no puede indicar la importancia de
un hallazgo; por ejemplo, un medicamento puede tener un efecto estadísticamente
significativo en los niveles de glucosa en la sangre del paciente sin tener un efecto
terapéutico, en este caso hay relevancia estadística pero el hallazgo clínico también es
importante dado que dicho medicamento no es eficaz en el tratamiento de la diabetes, por
ejemplo.
Por lo tanto, el valor de p es la probabilidad de observar un valor muestral tan extremo como,
o más extremo que, el valor observado, dado que la H0 es verdadera.

77
En prueba de hipótesis, podemos también comparar el valor de p con el nivel de significancia
α. Si el valor de p < α, H0 se rechaza, de otro modo H0 no se rechaza. Pero ¿qué significa
esto? veamos lo que puede ocurrir, si:

p = 0.10, tenemos alguna evidencia que H0 no es verdadera.


p = 0.05, tenemos fuerte evidencia que H0 no es verdadera.
p = 0.01, tenemos muy fuerte evidencia que H0 no es verdadera.
p = 0.001, tenemos una extremadamente fuerte evidencia que H0 no es verdadera.
5. Tomar una decisión o conclusión
Esto no es otra cosa que decidir si H0 se rechaza, entonces se concluye que H1 es
verdadera. Si H0 no se rechaza, se concluye que H0 puede ser verdadera. Es importante
aclarar que cuando la H0 no es rechazada, tampoco se puede decir que se acepta. Se debe
decir que «no se rechaza«. Se evita el uso de la palabra «aceptar» en este caso porque
pudiera haberse cometido el error de tipo II. Dado que, frecuentemente; la probabilidad de
cometer un error de tipo II puede ser realmente alta, no se pretende cometerlo al aceptar la
H0.
Finalmente, la interpretación está en función de la pregunta de investigación y tiene relación
con la H1, pero la interpretación no necesariamente es igual a dicha hipótesis.
Ejemplo . Un biólogo sospecha que debido a la escasez de alimento que hay en un rio, la
talla promedio de las truchas adultas que viven en el mismo no alcanza el tamaño mínimo
de pesca permitido que es de 25 cm. Si se comprueba la sospecha del investigador se
prohibirá la pesca de truchas en ese rio, de lo contrario no se tomará ninguna medida.
Puesto que el planteamiento que quiere probar el biólogo es que la talla promedio de las
truchas es menor al valor minimo permitido, las hipótesis a probar deben ser las siguientes:

Ejemplo . Se quiere saber si una nueva droga es eficaz como tratamiento del SIDA, Para lo
cual a un grupo de paciente se le aplica un tratamiento con la droga. La eficacia de la droga
implica que la mayoría de los pacientes, es decir que más de la mitad de los pacientes a los
cuales se les aplicó el tratamiento con la droga, respondieron positivamente a la
enfermedad. Si se considera que es la proporción de la población de pacientes para los
cuales la droga es eficaz, las hipótesis que se deben someter a prueba serán las siguientes:
Ejemplo . Un especialista en nutrición sospecha que el contenido de proteina total en la
sangre de pacientes que están sometidos a cierto regimen de alimentación no es el mismo

78
que el registrado en otro grupo de pacientes sometidos a otro tratamiento, para el cual se
sabe que el contenido de proteina total tiene un valor promedio igual a 7.0 unidades.
El especialista sospecha que el contenido de proteina total no es el mismo en los dos grupos
de pacientes, lo cual implica que el valor de esta variable para el grupo problema puede ser
mayor, menor o igual al grupo de referencia, por lo tanto las hipótesis a probar deben ser
las siguientes:

Ejemplo: Cuando Jeffrey tenía ocho años estableció un tiempo medio de 16,43 segundos al
nadar las 25 yardas en estilo libre, con una desviación típica de 0,8 segundos. Su padre,
Frank, pensó que Jeffrey podría nadar más rápido las 25 yardas en estilo libre si utilizaba
gafas para nadar. Frank le compró a Jeffrey un nuevo par de gafas para nadar costosas y
cronometró 15 veces que nadó las 25 yardas en estilo libre. En las 15 veces, el tiempo
medio de Jeffrey fue de 16 segundos. Frank pensó que las gafas para nadar ayudaron a
Jeffrey a nadar más
Ejemplo: Jane acaba de incorporarse al equipo de ventas de una compañía muy
competitiva. En una muestra de 16 llamadas de ventas se comprobó que cerró el contrato
por un valor promedio de 108 dólares con una desviación típica de 12 dólares. Pruebe al 5
% de significación que la media de la población es de al menos 100 dólares contra la
alternativa de que es menor de 100 dólares. La política de la compañía exige que los nuevos
integrantes del equipo de ventas superen un promedio de 100 dólares por contrato durante
el periodo de prueba del empleo. ¿Podemos concluir que Jane ha cumplido este requisito
con un nivel de significación del 95 %?rápido que los 16,43 segundos. Realice una prueba
de hipótesis con un α preestablecido = 0,05.

6.3.3 PRUEBA DE HIPÓTESIS PARA UNA MEDIA

El estadístico de prueba adecuado se debería basar en la variable aleatoria X En La unidad


anterior se presentó el teorema del limite central, el cual establece en esencia que sin
importar la distribución de X, la variable aleatoria X tiene una distribución aproximadamente
normal con media y varianza 02/n para tamaños de muestras razonablemente grandes. De
esta manera, Podemos determinar, entonces, una región crítica basada en el promedio
muestral calculado, x

79
80
Como se puede ver en la ilustración anterior el valor z encontrado por la formula se
encuentra dentro la región de rechazo (en color amarillo) por lo que vamos a rechazar la
hipótesis nula He por lo tanto vamos a dar como “aceptada” la hipótesis alternativa que nos
dice que el promedio de vida es mayor a 70. Por lo que nuestra conclusión sería: que la vida
promedio actual es mayor a 70 años.

6.3.4 PRUEBA DE HIPÓTESIS PARA UNA PROPORCIÓN

Las pruebas de proporciones son adecuadas cuando los datos que se están analizando
constan de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas
pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de
población. Las pruebas se basan en la premisa de que una proporción muestral (es decir, x
ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de la población
si se toman márgenes o tolerancias para la variabilidad muestral. Las pruebas suelen
enfocarse en la diferencia entre un número esperado de ocurrencias, suponiendo que una
afirmación es verdadera, y el número observado realmente. La diferencia se compara con
la variabilidad prescrita mediante una distribución de muestreo que tiene como base el
supuesto de que es realmente verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias,
excepto que, en el caso de las primeras, los datos muestrales se consideran como cuentas
en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones se
pueden utilizar para evaluar afirmaciones con respecto a:
1) Un parámetro de población único (prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras)
3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además,
para tamaños grandes de muestras, la distribución de muestreo adecuada para pruebas de
proporciones de una y dos muestras es aproximadamente normal, justo como sucede en el
caso de pruebas de medias de una y dos muestras.

81
EJEMPLOS :
1)El expendio Pollos Deliciosos asegura que 90% de sus órdenes se entregan en menos de

10 minutos. En una muestra de 100 órdenes, 82 se entregaron dentro de ese lapso. Puede
concluirse en el nivel de significancia 0,01, que menos de 90% de las órdenes se entregan
en menos de 10 minutos?

2)Un artículo reciente, publicado en el diario USA today, indica que solo a uno de cada tres
egresados de una universidad les espera un puesto de trabajo. En una investigación a 200
egresados recientes de su universidad, se encontró que 80 tenían un puesto de trabajo.
Puede concluirse en el nivel de significancia 0,02, que en su universidad la proporción de
estudiantes que tienen trabajo es mayor?

82

También podría gustarte