Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DISTRIBUCIÓN NORMAL
Características de la distribución:
µ ± α = 68,26
µ ± 2α = 95,45
µ ± 3α = 99,74
Tipificación de la variable
Cualquier distribución normal general se puede convertir en una distribución normal
estándar mediante la transformación “Z”, donde:
1. En una ciudad una de cada tres familias posee teléfono. Si se eligen al azar 90
familias, calcular la probabilidad de que entre ellas haya por lo menos 30 tengan
teléfono.
2. En un examen tipo test de 200 preguntas de elección múltiple, cada pregunta tiene
una respuesta correcta y una incorrecta. Se aprueba si se contesta a más de 110
respuestas correctas. Suponiendo que se contesta al azar, calcular la probabilidad de
aprobar el examen.
3. Un estudio ha mostrado que, en un cierto barrio, el 60% de los hogares tienen al
menos dos televisores Se elige al azar una muestra de 50 hogares en el citado barrio.
Se pide:
1. ¿Cuál es la probabilidad de que al menos 20 de los citados hogares tengan
cuando menos dos televisores?
2. ¿Cuál es la probabilidad de que entre 35 y 40 hogares tengan cuando menos dos
televisores?
1.
2.
"No salir negro", le damos el valor 0 y tiene una probabilidad del 0,5
A la suma de las 80 apuestas se le aplica el Teorema Central del Límite, por lo
que se distribuye según una normal cuya media y varianza son:
Media: n * = 80 * 0.5 = 40
Otro análisis
Para doblar nuestro dinero el negro tiene que salir al menos 20 veces más que el
rojo (20 * 500 = 10.000), por lo que tendrá que salir como mínimo 50 veces
(implica que el rojo o el cero salgan como máximo 30 veces).
50 − 40
𝑧= = 2.24
√20
Luego:
Es decir, la probabilidad de doblar el dinero es tan sólo del 1,25% (así, que más vale
que nos pongamos a trabajar).
5. Se supone que los resultados de un examen siguen una distribución normal con
media 78 y varianza 36. Se pide:
¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una
calificación superior a 72?
p(x>72)=p(z>(72-78)/6
p(Z>-1)=0.8413
CONCEPTOS BÁSICOS
POBLACIÓN MUESTRA
Tiempo
Espacio
INFERIR
n
N
CENSO MUESTREO
Parámetro Estadística
Indicador (estadígrafo)
El muestreo probabilístico nos asegura la representatividad de la muestra extraída y es, por tanto,
el más recomendable.
No es posible establecer la posibilidad de que los miembros del universo sean seleccionados como
parte de la muestra.
Elementos individuales; o
Elementos colectivos
ELEMENTO INDIVIDUAL. - Es la persona cuando se analiza la población del Ecuador o de un
provincia en particular, es el miembro del hogar cuando se analiza la población de los hogares, es el
estudiante cuando se analiza la población estudiantil, es el trabajador cuando se analiza la población
de trabajadores . En cada uno de los casos citados el elemento caracteriza a un individuo en estudio,
es “un elemento individual.
PARÁMETRO.- Es una medida que está en función de una población, entre las más conocidas
tenemos:
Media aritmética (miu)
Varianza 2
Desviación típica
Estadística o Estadígrafo.- Es una medida que está en función de una muestra, entre las que
podemos mencionar:
Varianza 2
Desviación típica
Media
VARIABLES
Son características o cualidades que poseen los elementos de una población o muestra, éstas deben
ser medibles y observables.
Las observaciones de una variable continua pueden tomar cualquier valor dentro de un intervalo
determinado. Ejemplos: La presión del aire en un neumático de un automóvil, el peso de un
cargamento de granos (tonelada, la cantidad de cereal en una caja. Las variables continuas resultan
generalmente de medir algo.
OPERACIONALIZACION DE VARIABLES
Definición Operacional
Categorización o Dimensión
Indicador
MEDICIONES Y ESCALAMIENTO
Medición. - significa asignar números u otros símbolos a características de objetos de acuerdo con
determinadas reglas preestablecidas y se debe buscar escalas adecuadas para medir esas
características. El nivel de medición determina los cálculos que se pueden realizar para resumir y
presentar la información y las pruebas estadísticas que pueden desarrollarse.
Tipos de escala de medición básicas
Stevens (1946) consideró que cualquier escala de medida puede clasificarse en alguna de las
siguientes cuatro tipos: nominal, ordinal, de intervalo o de razón
Escala nominal. - Es un esquema de etiquetado o rotulado figurado, en el cual los números solo
sirven como etiquetado para identificar y clasificar objetos.
Resulta inapropiado calcular estadísticas como la media o la varianza de una variable nominal,
debiendo limitarnos a los recuentos de frecuencias, moda o tablas de contingencia cuando se cruce
con otra variable nominal
Una exigencia básica es que los objetos han de poder clasificarse en categorías que sean
mutuamente excluyentes y exhaustivas es decir todos los individuos han de poder clasificarse en las
categorías existentes
Las categorías para los datos no tienen un orden lógico
Escala ordinal. - Una escala ordinal permite determinar si un objeto tiene más o menos de una
característica que algún otro objeto, pero no cuanto más o menos. Por lo tanto, la escala ordinal
indica la posición relativa no la magnitud de las diferencias entre objetos, los ejemplos comunes
incluyen clasificaciones de calidad, de equipos, clases socioeconómicas medir actitudes, opiniones,
preferencias relativas.
Por lo tanto, en las escalas ordinales, tiene sentido distinguir y ordenar, pero no las diferencias ni
las razones.
Los estadísticos que pueden calcularse en este tipo de escalas son, además de los que se calculan
en los nominales, la mediana y los percentiles.
Una exigencia básica es que las categorías de la escala deben ser mutuamente excluyentes y en
conjunto exhaustivas.
Las categorías de la variable se clasifican por su orden, prelación o nivel de importancia
Escala de intervalo. - Una escala de intervalo posee las características de una nominal y de la ordinal
(mayor valor representa mayor presencia de la característica ejm la preferencia). Sin embargo, la
escala de intervalo añade una nueva propiedad, la diferencia también tiene sentido. Siempre que el
atributo que se esté midiendo no tengo aun cero absolutos, sino que este sea arbitrario.
Una escala donde se utiliza los números para calificar objetos, de tal forma que las distancias
numéricas equivalentes en la escala representa distancias equivalentes en la característica medida.
En esta escala pueden calcularse todos los estadísticos menos los que están basados en razones
(ratios) como el coeficiente de variación, no permite establecer que la medida de una variable de
observación es el doble, el triple, la mitad.
Las categorías de la variable son mutuamente excluyentes y exhaustivas.
Las categorías de la variable se clasifican por su orden, prelación o nivel de importancia.
Las diferencias entre dos valores de la escala tienen sentido, sin embargo no permite establecer que
la medida de una unidad de observación es el doble, triple, la mitad.
El valor cero es un valor convencional no indica la ausencia de la condición y pueden existir
cantidades negativas ejm. CI, temperatura.
En investigaciones de mercados es muy habitual el recurso a escalas de intervalo para medir, por
ejm acuerdos o desacuerdos con determinada afirmaciones ( 1= totalmente en desacuerdo, 5=
totalmente de acuerdo)
Escala de razón. - Las escalas de razón tienen las mismas propiedades que las de intervalos pero,
además, las razones si que tienen sentido. Estas escalas tienen un valor base 0 natural: la edad, los
ingresos, temperatura Kelvin
Todas las técnicas estadísticas son aplicables a los datos de razón.
Ejemplo.
Es muy habitual simplificar la clasificación de Stevens dejando en dos grupos el que se corresponde
con variables no métricas (nominal y ordinal) y el de variables métricas (de intervalo y de razón).
TEORÍA DE MUESTREO.
MUESTREO
Es un procedimiento por medio del cual se estudia una parte de la población llamada muestra, con
el objetivo de inferir con respecto a toda la población. Es importante relacionar el muestreo con el
censo, el cual se define como la enumeración completa de todos los elementos de la población de
interés. El objetivo del diseño de estudios por muestreo, es maximizar la cantidad de información
para un costo dado
VENTAJAS DEL MUESTREO:
a) Costos reducidos.
b) Mayor rapidez para obtener resultados.
c) Mayor exactitud o mejor calidad de la información: debido a los siguientes factores
c.1 Volumen de trabajo reducido.
c.2 Puede existir mayor supervisión en el trabajo.
c.3 Se puede dar más entrenamiento al personal.
c.4 Menor probabilidad de cometer errores durante el procesamiento de la información.
d) Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas,
imposibilitando que lleguen a su forma inicial por ejemplo:
VENTAJAS DEL CENSO: Sin embargo, también se debe mencionar que el censo tiene algunas
ventajas que son las siguientes:
a) Existe una cobertura total.
b) Tiene aceptación pública.
c) No se requieren grandes conocimientos de estadística.
TIPOS DE MUESTREO:
MUESTREO NO PROBABILISTICO: Los elementos de la muestra son seleccionados por
procedimientos no al azar ó con probabilidades no conocidas de selección. Por lo tanto es
imposible determinar el grado de representatividad de la muestra. Dentro de los tipos de
muestreo no Probabilístico, podemos mencionar los siguientes:
Podemos definir el conjunto de muestras distintas M1, M2,…Mt, significa que podemos decir con
precisión cuales son las unidades de muestreo que pertenecen a M1, M2, etc
Consideraciones:
Estimación de medias
Estimación de proporciones
Estimación de diferencia de medias
Estimación de diferencia de proporciones
- Este teorema afirma que la distribución de medidas muestrales tiende hacia una
distribución normal, aunque las muestras proceden de una distribución no normal
a medida que el tamaño de muestra aumenta.
µ = ∑µ𝑖 y 𝜎 2 = ∑𝜎𝑖2
- Una variable Poisson Ps(𝜆) se aproxima a una normal N (µ,𝛿𝑖 ) mediante la siguiente
expresión Ps(𝜆) ~ N ( 𝜆, √𝜆)
- Tiene una gran aplicación en inferencias estadísticas permite También aproximar
muchas distribuciones de uso frecuente: Binomial, Poisson, Chi_cuadrado, T-
student, Gamma, etc.
- El TCL explica porqué muchas variables aleatorias en las que influyen un gran
número de factores de forma aditiva tienen distribuciones próximas a la normal
- Los teoremas: de Lindeberg-Lévy y De Moivre son casos particulares del teorema
central
Ejercicio:
- Demostrar que la distribución de medidas muestrales tiende hacia una distribución
normal, aunque las muestras proceden de una distribución no normal a medida que
el tamaño de muestra aumenta.
Lanzamiento de un dado
Frecuencias
1,2
0,8
0,6
0,4
0,2
0
1 2 3 4 5 6
M1 M1 M1 M1 M1 M1
M1 M2 M3 M4 M5 M6 M7 M8 M9 0 1 2 3 4 5
1 1 1 1 1 2 2 2 2 3 3 3 4 4 5
2 3 4 5 6 3 4 5 6 4 5 6 5 6 6
Medias 1,5 2 2,5 3 3,5 2,5 3 3,5 4 3,5 4 4,5 4,5 5 5,5
2,5
1,5
0,5
0
1,5 2 2,5 3 3,5 4 4,5 5 5,5
Ejercicios del Libro del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los <negocios y a la Economías; Mc Graw Hill, México.
Solución:
Xi 1 2 3 4 5 6 7 8 9 10
Media
muestral 5,4 3,6 7 3,6 2 3,4 6,6 5,8 4,4 6,6
Solución:
1,5
0,5
0
2,6 3 3,4 4,2
3. Arm and Hammer Company desea cerciorarse de que su detergente para lavandería
contiene realmente 100 onzas líquidas, como indica la etiqueta. Los registros de los
procesos de llenado indican que la cantidad media por recipiente es de 100 onzas
líquidas y que la desviación estándar es de 2 onzas líquidas. A las diez de la mañana
el técnico de calidad realiza la verificación de 40 recipientes y encuentra que la
cantidad media por recipiente es de 99.8 onzas líquidas. ¿Debe interrumpir el
proceso de llenado, o el error de muestreo es razonable?
Solución
El error de muestreo 100-99,8=0,2
99,8 − 100
z=
2
√40
Z = −0.63
P= 0.2357
6,5 − 6
z=
1,5
√50
Z = 2,36
P= 0.4909
VIDEOS DE LA SEMANA N°
Usted puede ver los videos que sirven como apoyo a las actividades de aprendizaje correspondiente:
https://www.youtube.com/watch?v=EC1bTDBz46k
https://www.youtube.com/watch?v=-lgvcerAu0s
DISTRIBUCIONES EN EL MUESTREO
La estadística de una muestra (el promedio) de “n” elementos es muy probable que sea diferente a
la estadística (el promedio) de otra muestra de igual número de elementos obtenida de la misma
población porque al menos uno de los elementos de las dos muestras será diferente,
consecuentemente, habrá tantas estadísticas (promedios) como muestras posibles se pueden
formar y la estadística o valor muestral constituye en variable aleatoria.
Existen nCr muestras posibles de igual número de elementos sin reemplazo y N^n con reemplazo; y
cada muestra tiene su probabilidad de ocurrencia, sin reemplazo
Distribución en el muestreo del promedio muestral:
µ = E(𝑥̅) y que
El Teorema Central del Límite y la ley de los grandes números expresan que a medida que el
tamaño de la muestra “n” aumenta el valor del estimador se aproxima al valor poblacional y el error
estándar de la media muestral se aproxima a cero. Permite hacer inferencias con respecto a los
parámetros poblacionales sin conocer la forma de distribución de los valores de esa población.
Z=
Donde:
Se define como proporción al cociente entre el número de elementos que poseen determinada
característica y el número total de elementos. Se representa por “π” para los valores
poblacionales y por “p” para los valores muestrales.
p
La distribución en el muestreo de la proporción muestral se aproxima a la distribución normal a
medida que el tamaño de la muestra tiende al infinito y se verifica que:
P = E(p) y que
No hay que olvidar lo que se mencionó anteriormente. Si la población de origen es finita y se
realiza un muestreo sin reemplazo el error estándar de la distribución en el muestreo del
promedio debe ponderarse por el factor de corrección para población finita caso contrario se
omite, sin embargo, este factor tiende a la unidad
Z=
Distribución Muestral de Medias
Ejercicios del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel
(2015) Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México,
página 279, 9-10
Población: 3 6 3 3 0 1 µ= 2,7
δ2= 3,6
Muestras 6C3=20 Medias
1 3 6 3 4,0
2 3 6 3 4,0
3 3 6 0 3,0
4 3 6 1 3,3
5 3 3 3 3,0
6 3 3 0 2,0
7 3 3 1 2,3
8 3 3 0 2,0
9 3 3 1 2,3
10 3 0 1 1,3
11 6 3 3 4,0
12 6 3 0 3,0
13 6 3 1 3,3
14 6 3 0 3,0
15 6 3 1 3,3
16 6 0 1 2,3
17 3 3 0 2,0
18 3 3 1 2,3
19 3 0 1 1,3
20 3 0 1 1,3
Sumatorias 20 1 2,67
0
1,3 2,0 2,3 3,0 3,3 4,0
2. Mid-Motors Ford tiene cinco vendedores. Los cinco representantes de ventas y el
número de automóviles que vendieron la semana pasada son los siguientes:
Población:
3 6 3 3 0 1 µ= 2,7
δ2= 3,6
Muestras 6C2=15 Medias
1 3 6 4,5
2 3 3 3,0
3 3 3 3,0
4 3 0 1,5
5 3 1 2,0
6 6 3 4,5
7 6 3 4,5
8 6 0 3,0
9 6 1 3,5
10 3 3 3,0
11 3 0 1,5
12 3 1 2,0
13 3 0 1,5
14 3 1 2,0
15 0 1 0,5
Distribución muestral de medias
Xi fi Pi XiPi
2 3 0,2 0,4
3 4 0,27 0,8
Sumatorias 15 1 2,67
Distribución Poblacional
3,5
3
2,5
2
1,5
1
0,5
0
0 1 36
Distribución Muestral de Medias
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0,5 1,5 2 3 3,5 4,5
𝑝−𝜋
𝑍=
𝜎𝑝
𝑝−𝜋
𝑍=
√𝜋 ∗ (1 − 𝜋)
𝑛
0.65 − 0.75
𝑍= = −2.3094
√0.75 ∗ 0.25
100
P(X<0.65)= 0.0104
0.02 − 0.05
𝑍= = −1.2406
√0.05 ∗ 0.95 ∗ √500 − 70
70 500 − 1
0.06 − 0.05
𝑍= = 0.4135
√0.05 ∗ 0.95 ∗ √500 − 70
70 500 − 1
P( 2<X<6)= 0.3925+0.1591=0.5530
ESTIMACIÓN
Estimación puntual
Estimación por intervalos
Estimación Puntual:
Estima el valor poblacional con un solo punto deducido de observaciones muestrales.
Un buen estimador debe ser:
Insesgado (Imparcial): El valor esperado del estimador sea igual al valor poblacional.
Consistente (Coherencia): Al aumentar el tamaño de la muestra el valor del
estimador se aproxima al del parámetro y el error del estimador tiende a cero.
Eficiente: Es el estimador de menor error estándar.
Suficiente: que utilice toda la información que proporciona la muestra.
Estimación por intervalos:
Estima el valor del parámetro mediante un intervalo aleatorio cuyos límites son funcionales
de las observaciones muestrales.
El analista debe fijar al nivel de confianza (1 – α) con el que se desea establecer el intervalo
de confianza por lo general se fija en el 90%, 95% ó 99%. (En Excel las probabilidades van
del punto al infinito más lejano) El valor α indica la probabilidad de error que podemos
cometer en el proceso de estimación. En general el intervalo de confianza para un
parámetro se determina por:
𝐿𝑠𝑖 = θ ± K * es(θ)
En donde: 𝐿𝑠𝑖 = Límite superior e inferior de confianza
Θ = Estimador
K = Coeficiente de confianza
𝜎 𝑁−𝑛
es(θ) = Error estándar del estimador αx =̅ √
√𝑛 𝑁−1
INTERVALO DE CONFIANZA PARA EL PROMEDIO
Para muestras relativamente grandes n ≥ 30 elementos, el intervalo de confianza se calcula
mediante:
𝐿𝑠𝑖 = 𝑥̅ ± Zα/2 es(𝑥̅ ) tal que:
P=(𝑥̅ - Zα/2 es(𝑥̅ ) ≤ 𝑢≤ 𝑥̅ +Zα/2 es(𝑥̅ ))
En donde: 𝐿𝑠𝑖 = Límite superior e inferior del promedio
𝑥̅ = Promedio muestral estimador
Zα/2 = Coeficiente de confianza, con el test Z bilateral
es(𝑥̅ ) = Error estándar del promedio muestral
Para muestras menores a 30 elementos se utilizará la distribución “t” como elemento de
cálculo para el coeficiente de confianza.
𝐿𝑠𝑖 = 𝑥̅ ± tα/2 es(𝑥̅ )
P ( 𝑥̅ - tα/2 es(𝑥̅ ) ≤ 𝑢̅ ≤𝑥̅ +tα/2 es(𝑥̅ ) )
En donde: 𝐿𝑠𝑖 = Límite superior e inferior del promedio
𝑥̅ = Promedio muestral estimador
tα/2 = Coeficiente de confianza, con el test t bilateral
es(𝑥̅ ) = Error estándar del promedio muestral
Estimación de medias poblacionales
Ejercicios 8 y 14, página 305 y 313, del texto guía: LIND Douglas,MARCHAL
William, WATHEN Samuel (2015) Estadística Aplicada a los negocios y a la
Economías; Mc Graw Hill, México.
𝛿
x̅ ± 𝑍𝛼
2 √𝑛
2,44
6,05 ± 1,96
√40
6,05 ± 0,7210
5,329- 6,771
Tiempo.M 29 38 38 33 38 21 45 34 40 37 37 42 30 29 35
x̅ = 35,1
S= 6,02
𝑛 = 15
Β = 98%
𝑆
x̅ ± 𝑡𝛼 ,𝑣
2 √𝑛
6,02
35,1 ± 2,6245
√15
35,1 ± 4.0794
31,0206- 39.1794
𝑝𝑞 𝑁−𝑛
es(𝑝) = Error estándar del proporción muestral αp ̅ = √ 𝑛 √ 𝑁−1
Ejercicio propuesto del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel
(2015). Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México. Página
316 ejercicio 18
La empresa X, compra tazas de plástico para imprimir en ellas logotipos de eventos
deportivos, graduaciones, cumpleaños u otras ocasiones importantes. El propietario de la
empresa, recibió un envío grande esta mañana. Para asegurarse de la calidad del envío,
seleccionó una muestra aleatoria de 300 tazas. Halló que 15 estaban defectuosas.
a) ¿Cuál es la proporción aproximada de tazas defectuosas en la población?
b) Construya el intervalo de confianza de 95% de la proporción de tazas defectuosas.
c) Zack llegó con su proveedor al acuerdo de que devolverá lotes con 10% o más de artículos
defectuosos.
¿Debe devolver este lote? Explique su decisión.
𝑃 = 15/300
𝑛 = 300
Β = 95%
Solución:
a. P=0.05
𝑝𝑞
b. p ± 𝑍𝛼 √ 𝑛
2
0.05∗0.95
0,05 ± 1,96 √ 300
0,05 ± 0.0247
0.0253- 0.0747
Aplicación en Excel
EJERCICIO del libro Estadística y Muestreo de Ciro Martínez Begarano
1. Se realizó una encuesta a 10 familias, siguiendo un muestreo aleatorio simple, se
quiere estimar para una población de 1200 familias
Se sugiere se realice una estimación puntual y por intervalos
a. El Promedio de personas por familia
b. Gasto en alimentación por personas
c. Proporción de familias con suscripción al periódico
Determinar el tamaño de la muestra depende del planteamiento del problema, la población, los
objetivos y el propósito de la investigación, de la variabilidad. Además se debe tomar en
consideración la disponibilidad de los recursos y el tiempo.
La fórmula del error de estimación para estimar las medias y proporciones se puede utilizar de tal
forma que sea posible determinar el valor de la muestra (n)
𝐿𝑠𝑖 = p ± ZZα/2
α/2 es(p)
es(p)
Fórmulas:
z
2
Para poblacióninf inita 2 pq
n n z 2
e e
Donde
e = Error de estimación
z = Nivel de confianza
N = Tamaño de la población
P = Probabilidad de éxito
q= Probabilidad de fracaso
Ejercicios resueltos:
N=920
P=50%
q=50%
e=5%
z 2 qpN
n
( N 1)e 2 z 2 pq
(1.96 2 )(0.5)(0.5)(920)
n
(920 1)(0.05) 2 (1.96 2 )(0.5)(0.5)
n= 272
(2.57 2 )(0.5)(0.5)(920)
n
(920 1)(0.05) 2 (2.57 2 )(0.5)(0.5)
n=385
2. Que tamaño de muestra será necesario para producir un intervalo de 90% en el caso de la
media de la población verdadera, con un error de 1 en cualquier sentido, si la desviación
estándar de la población es 10.
z = 1.64
e=1
σ = 10
z
2
n
e
2
1.64 x 10
n 268.96 269
1
3. Qué tamaño de muestra será necesaria para obtener un intervalo de confianza del 95%
para la proporción de la población si el error es de 0.08
Z = 1.96
e = 0.08
PQ
n z2
e2
Muestras grandes
µ1-µ2= 1- 2+/-Z*σ 1- 2
Donde:
𝜎12 𝜎22
𝜎ẋ1−ẋ2 = √ +
𝑛1 𝑛2
σ=S
Muestras pequeñas
µ1-µ2= 1- 2+/-t*S 1- 2
2 2
S 1- 2 = √ 𝑆𝑝 + 𝑆𝑝
𝑛1 𝑛2
gl=n1+n2-2
Varianzas diferentes
2 2
S 1- 2 = √ 𝑆1 + 𝑆2
𝑛1 𝑛2
𝑆2 𝑆2
( 1 + 2 )2
𝑛1 𝑛2
gl = 𝑆2 𝑆2
( 1 )2 ( 𝑛 2 )2
𝑛1
+ 2
( 𝑛1 −1) ( 𝑛2 −1)
∑ 𝑑 2 −𝑛 (𝑑̅ )2
Donde: Sd= √ 𝑛−1
gL = n – 1
Donde:
PRUEBAS DE HIPÓTESIS
Hipótesis es una proposición, una suposición o una conjetura probable no probada sobre algo en
particular
Según el folleto Introducción al Análisis de Experimentos de Cisneros Oscar las hipótesis se clasifican
y tienen la siguiente estructura:
Hipótesis de sentido común: son aquellas que establecen suposiciones que toda persona
puede verificar de manera simple y directa.
Hipótesis científicas: son aquellas que se formulan en términos científicos cuya verificación
requiere un procedimiento científico de prueba.
Hipótesis metafísicas: son aquellas conjeturas cosmológicas teológicas o filosóficas cuya
verificación trasciende de la experiencia científica.
Estructura de la Hipótesis.
En la formulación de una hipótesis deben observarse su estructura desde tres puntos de vista:
científico, gramatical y matemático.
Desde el punto de vista científico deben indicarse las unidades de observación, las variables y los
términos de relación.
Desde el punto de vista gramatical, la unidad de observación es el sujeto de la oración en tanto que
las variables y términos de la relación son el predicado de la misma.
Desde el punto de vista matemático la hipótesis debe expresarse mediante funciones o ecuaciones,
en las que identificado el parámetro de la variable a docimar, este se representa por letras y los
términos lógicos por signos indicativos de las operaciones o relaciones matemáticas.
Ho: u1=u2=u3
Ho: π=25%
1. Formulación de la hipótesis.
2. Fijación de la estadística de prueba
3. Determinación del criterio de decisión
4. Ejecución de los cálculos numéricos y
5. Toma de la decisión.
Tomar una decisión significa “Aceptar” la hipótesis propuesta (hipótesis nula) o “Rechazar” la
hipótesis propuesta (hipótesis nula) y se puede cometer uno de dos errores.
Formulación de la Hipótesis
Hipótesis Nula (Ho): Enunciado que expresa que el parámetro de la población es como se especificó.
Todo lo que se desea probar en la hipótesis se denomina como “Hipótesis Nula” y se representa por
Ho.
Hipótesis Alternativa (H1): Plantea lo contrario de la hipótesis nula. Todo lo contrario, a lo que se
desea probar se denomina “Hipótesis Alternativa” y se representa por H1, HA
La hipótesis alternativa se utiliza para indicar que aspecto de variación no aleatoria resulta de
interés. Existen 3 casos posibles.
H0: θ = θ0
H1: θ ≠ θ0
H0: θ ≥ θ0
H1: θ < θ0
La hipótesis es unilateral derecha cuando H0 se desea probar que el parámetro es menor o igual que
un valor determinado θ.
H0: θ ≤ θ0
H1: θ > θ0
NOTA: La hipótesis nula solamente se puede plantear en términos de igualdad (=), >, <, no de
diferente (≠)
Ejemplos
Ho: μ = 5
H1: μ ≠ 5
Ho = π = 70%
H1 = π ≠ 70%
Determinar la estadística que se usará para establecer la significación de la hipótesis planteada, está
en función:
Del estimador
Tamaño de la muestra
La distribución en el muestreo del estimador.
Mencionamos algunos test: z, t, x², F
Distribución Z
x
Zc
x
Distribución t
x
tc
Sx
Proporciones
𝑝−𝛱
𝑍𝑐 =
𝜎𝑝
Este nivel de significación se simboliza como (α) (alfa) y viene a ser la zona de rechazo de la hipótesis
nula, α marca la zona de rechazo de la hipótesis nula
Ejemplo:
Establece un límite, un valor a partir del cual se puede rechazar la hipótesis nula
ZRHo
ZAHo
ZRHo ZRHo
α/ 2 α/ 2
Formulación de la hipótesis:
Cuando n ≥ 30 Cuando n ≤ 30
̅−𝝁
𝒙 ̅−𝝁𝜶
𝒙
Zc = ∝𝒙
tc = ∝𝒙
Rechazar la Ho Si:
Cuando n ≥ 30
|Zc| ≥ Zα/2 Zc ≥ Zα Zc ≤ -Zα
𝑥̅ ≤ µ0 - Zα/2es(𝑥̅ )
Cuando n < 30
𝑥̅ ≤ µ0 - tα/2ves(𝑥̅ )
PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN
Formulación de la hipótesis
Cuando n ≥ 30
Para n ≥ 30
p−π
Zc =
𝑃 𝑄
√ 0 0
𝑛
Rechazar la Ho Si:
𝑝 ≤ P0 - Zα/2es(𝑝)
Ejercicios del texto: STEVENSON, Willian J; (1978); Estadística para Administración y Economías;
Harla México.
1) Planteamiento de hipótesis
Ho : π = 40
H1 : π < 40
2) Estadística de Prueba
P
Zc
p
P
Zc
PQ
n
0.36 0.40
0.36 x 0.64
50
0.04
0.5893
0.067
α = 5% B = 95%
4) Criterio de decisión
ZRHo
B
0.95
ZRHo
Z7 ZcX
-1.64 -0.5893
5) Desición
Acepto Ho => El programa no tuvo efectos se sugiere realizar otro tipo de programas
. El peso promedio de un lote de pollos de carne era de 2.1 Kg. Durante el último periodo de engorde,
se probó un alimento balanceado, que se cree que aumentó el peso promedio de los pollos, esto se
quiere probar, utilizando un nivel de significación del 5% al obtener una muestra de 50 pollos se
obtuvo que el peso medio fue de 2.2 Kg. Y una desviación de 0.8
1) Planteamiento de Hipótesis
HA: μ > 2.1 El peso promedio de los pollos de carne es > 2.2 Kg.
2) Estadística de Prueba
x
Zc
s
n
2.2 2.1
0.8
50
0.10
0.8839
0.1131
3) Determinar el nivel de significación
α = 5% B= 95%
4) Criterio de decisión
ZAHo ZRHo
1.64
5) Decisión: AHo, el balanceado no funcionó pues siguen pesando 2.1 Kg. Y el 0.1 Kg que aumentó,
se debe a efectos aleatorios o selección de la muestra.
. Una compañía que vende tiras repelentes contra insectos, asegura que su producto es eficaz, por
lo menos durante 400 horas. Un análisis sobre nueve tiras seleccionadas aleatoriamente indicó un
promedio de 380 horas. Pruebe la aseveración de la compañía respecto a la alternativa de que el
repelente sea eficaz menos de las 400 horas, a un nivel 0.01, si la desviación estándar de la muestra
es 60 horas.
1) Planteo de la hipótesis
2) Estadística de Prueba
x
tc
s
n
380 400
60
9
20
1
20
4) Criterio de decisión
B
ZRHo
0.99
ZRHo
α
-2.896 X
t7 Z7
5) Decisión
. Mediante un proceso de fabricación, se produce alambre de acero con una resistencia media a la
tensión de 200 libras por pulgada cuadrada (psi). La desviación estándar del proceso es 20 psi. El
ingeniero encargado del control de calidad quiere diseñar una prueba que le indique si ha habido o
no un cambio en el promedio del proceso, utilizando un tamaño de muestra de 25 y un nivel de
significación de α = 0.05. Suponga que la población de la resistencia del alambre es
aproximadamente normal
b. ¿Para qué intervalo de resistencia del alambre, e l proceso se considerará fuera de control (es
decir, se concluirá que la media del proceso ha cambiado a partir de 200 psi)?
a) Planteo Hipótesis
HA: μ ≠ 200 Se produce alambre con una resistencia diferente de 200 lb.
b) Intervalos
δ = 20
n = 25
α = 0.05
μ = 200
x z x
20
200 1.96
25
200 7.89
207.84
192.16
Interpretación
El alambre de acero se considera fuera de control cuando sale de los intervalos 207.84 y 192.16
ERROR TIPO I Y II
El error de aceptar H0 cuando es falsa se conoce como error TIPO II y la probabilidad de cometerlo
se denota por medio de B (la letra griega minúscula)
Acepte H0 Rechace H0
H0 es verdadero Decisión Correcta Error Tipo I
Falso positivo
H0 es falso Error Tipo II Decisión correcta
Falso negativo
Si rechazamos una hipótesis cuando debería ser aceptada entonces se ha cometido un error tipo I,
por otra parte si aceptamos una hipótesis que debería ser rechazada se ha cometido un error Tipo
II, y en ambos casos se ha producido un juicio erróneo.
Para que la regla de decisión o contraste de hipótesis sean buenas deben diseñarse de modo que
minimicen los errores de la decisión, la única forma de disminuir ambos a la vez es aumentar el
tamaño de la muestra que no siempre es posible.
Al calcular la potencia de una prueba encontramos qué tan satisfactoria es la prueba para ciertos
valores de la media verdadera
Video: https://www.youtube.com/watch?v=TFCWPLAfREg
Ejercicios de Walpole, página 335, ejercicio 10.15
literal a)
Ho: U=200
H1: U≠200
ZRHo P=0,0359
Literal b)
Ho: U=215
H1: U≠215
P=0,1151
215
209
-1,2
Ejercicio 10.17
Ejercicios de prueba de hipótesis
1. Una cadena de tiendas de descuento expide su propia tarjeta de crédito, el gerente de esta
función desea averiguar si el saldo medio mensual es mayor de $ 400. El nivel de significación se fija
en 0.05, una revisión aleatoria de 172 sueldos reveló que la media muestral es de 407 y la desv.
estándar de la muestra es 38
a) Debería concluir el funcionario de crédito que la media poblacional es mayor de 400, o bien es
razonable que la diferencia de 7 obtenida de 407 menos 400 se debe al azar
Solución:
Ho: μ ≤ 400
x
Zc
n
407 400 7
Zc 2.42
38 2.8974
172
ZAHo
ZRHo
1.64 2.42
X 0.31 Z7 Zc
Zc
Decisión:
x
Zc
n
2.75 3 0.25
Zc 1.78
1 0.14
50
ZRHo
ZAHo
-1.8 1.64
Ze Z7 X
Decisión
2. Cuando Isabel Benitez fue contatada como camarera en un restaurante, se le dijo: “Puedes
obtener, en promedio, más de $ 20 (dólares) al día por propinas”. A los primeros 35 días de
su trabajo en el restaurante, el importe medio diario de las propinas recibidas fue de $ 24.85
con una desviación estándar de $ 3.24. Al nivel de significancia de 0.01. ¿Puede la señorita
Benitez concluir que está ganando más de $ 20 por las propinas?
Ho: μ = 20 las propinas promedio en el día es de 20$
ZRHo
2.32 8.85
X Z7 Zc
Decisión
Una encuesta nacional reciente halló que estudiantes de bachillerato miraban un promedio (media)
de 6.8 videos por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número
medio de videos observados el mes pasado fue de 6.2 con una desviación estándar de 0.5. En el
nivel de significancia de 0.05. ¿Puede concluirse que los estudiantes de universidad ven menos
videos que los de bachillerato?
Ho: μ = 6.8 Los est. Universitarios ven 6.8 videos promedio al mes
HA: μ < 6.8 Los est. Universitarios ven menos de 6.8 videos promedio al mes
x
Zc
n
6.2 6.8 0.6
Zc 7.2
0.5 0.083
36
ZRHo
-72 -1.64
Zc Z7 X
Decisión
Rechazo Ho Los estudiantes universitarios ven menos de 6.8 videos promedio al mes.
VALOR P
El valor p de una prueba de hipótesis puede servir como método alternativo para probar
hipótesis.
El valor p es el nivel más bajo de significancia (valor α) al cual se puede rechazar la hipótesis
nula.
El valor p se compara con el nivel de significancia seleccionado para tomar una decisión (AH0
o RH0)
Si el valor de p ≥ α → AH0
1. Formulación de la hipótesis.
2. Fijación de la estadística de prueba
3. Determinar el valor de p: el valor de la estadística de prueba se lleva a valor p
4. Determinación del criterio de decisión
Si el valor de p < α → RH0
Si el valor de p ≥ α → AH0
Ejercicio resuelto:
1. Formulación de la hipótesis.
H0 : µ < 31000
H1 : µ > 31000
Valor p = 0,0268
Z= 1,93
MUESTRAS INDEPENDIENTES
Formulación de la hipótesis:
Equivalente:
2 2
𝑆 𝑆
( 1 + 2 )2
𝑛1 𝑛2
gl =
𝑆2 𝑆2
( 1 )2 ( 𝑛 2 )2
𝑛 1 + 2
( 𝑛1 −1) ( 𝑛2 −1)
Varianzas iguales
Cuando n ≥ 30
|Zc| ≥ Zα/2
Cuando n < 30
|tc| ≥ tα/2,v
Formulación de la hipótesis:
H0 : µd = 0
H1 : µd ≠ 0
∑ 𝑑𝑖
−( 𝜇1 − 𝜇2 )
𝑛
t=
∑ 𝑑2 −𝑛 (𝑑
̅ )2
√ 𝑛−1
𝑛
gL = n – 1
|tc| ≥ tα/2, v
Ejercicio propuesto del libro: LIND Douglas,MARCHAL William, WATHEN Samuel (2015) Estadística
Aplicada a los negocios y a la Economías; Mc Graw Hill, México.
26. Hace poco, el gobierno federal estadounidense otorgó fondos para un programa especial
diseñado para reducir los delitos en áreas de alto riesgo. Un estudio de los resultados del programa
en ocho áreas de alto riesgo de Miami, Florida, produjo los resultados siguientes.
¿Hubo alguna disminución en el número de delitos desde la inauguración del programa? Utilice el
nivel de significancia 0.01. Calcule el valor p.
Solución:
Formulación de la hipótesis:
H0 : µd = 0
H1 : µd ≠ 0
∑ 𝑑𝑖
−( 𝜇1 − 𝜇2 )
𝑛
t= =3.625/1.7107 =2.1191
∑ 𝑑2 −𝑛 (𝑑
̅ )2
√ 𝑛−1
𝑛
gL = n – 1 =7
|tc| ≥ tα/2, v
2.1191 < 3.499 Aho
Formulación de la hipótesis
Cuando n ≥ 30
Para n ≥ 30
p−π
Zc =
𝑃 𝑄
√ 0 0
𝑛
El error de la distribución muestra de proporciones se trabaja en función de la población
Rechazar la Ho Si:
𝑝 ≤ P0 - Zα/2es(𝑝)
Ejercicios del texto: STEVENSON, Willian J; (1978); Estadística para Administración y Economías;
Harla México.
1) Planteamiento de hipótesis
Ho : π = 40
H1 : π < 40
P
Zc
p
P
Zc
PQ
n
0.36 0.40
0.36 x 0.64
50
0.04
0.5893
0.067
α = 5% B = 95%
4) Criterio de decisión
ZRHo
B
0.95
ZRHo
Z7 ZcX
-1.64 -0.5893
5) Desición
Acepto Ho => El programa no tuvo efectos se sugiere realizar otro tipo de programas
. El peso promedio de un lote de pollos de carne era de 2.1 Kg. Durante el último periodo de engorde,
se probó un alimento balanceado, que se cree que aumentó el peso promedio de los pollos, esto se
quiere probar, utilizando un nivel de significación del 5% al obtener una muestra de 50 pollos se
obtuvo que el peso medio fue de 2.2 Kg. Y una desviación de 0.8
1) Planteamiento de Hipótesis
HA: μ > 2.1 El peso promedio de los pollos de carne es > 2.2 Kg.
2) Estadística de Prueba
x
Zc
s
n
2.2 2.1
0.8
50
0.10
0.8839
0.1131
α = 5% B= 95%
4) Criterio de decisión
ZAHo ZRHo
1.64
5) Decisión: AHo, el balanceado no funcionó pues siguen pesando 2.1 Kg. Y el 0.1 Kg que aumentó,
se debe a efectos aleatorios o selección de la muestra.
. Una compañía que vende tiras repelentes contra insectos, asegura que su producto es eficaz, por
lo menos durante 400 horas. Un análisis sobre nueve tiras seleccionadas aleatoriamente indicó un
promedio de 380 horas. Pruebe la aseveración de la compañía respecto a la alternativa de que el
repelente sea eficaz menos de las 400 horas, a un nivel 0.01, si la desviación estándar de la muestra
es 60 horas.
1) Planteo de la hipótesis
2) Estadística de Prueba
x
tc
s
n
380 400
60
9
20
1
20
4) Criterio de decisión
B
ZRHo
0.99
ZRHo
α
-2.896 X
t7 Z7
5) Decisión
. Mediante un proceso de fabricación, se produce alambre de acero con una resistencia media a la
tensión de 200 libras por pulgada cuadrada (psi). La desviación estándar del proceso es 20 psi. El
ingeniero encargado del control de calidad quiere diseñar una prueba que le indique si ha habido o
no un cambio en el promedio del proceso, utilizando un tamaño de muestra de 25 y un nivel de
significación de α = 0.05. Suponga que la población de la resistencia del alambre es
aproximadamente normal
b. ¿Para qué intervalo de resistencia del alambre, e l proceso se considerará fuera de control (es
decir, se concluirá que la media del proceso ha cambiado a partir de 200 psi)?
a) Planteo Hipótesis
HA: μ ≠ 200 Se produce alambre con una resistencia diferente de 200 lb.
b) Intervalos
δ = 20
n = 25
α = 0.05
μ = 200
x z x
20
200 1.96
25
200 7.89
207.84
192.16
Interpretación
El alambre de acero se considera fuera de control cuando sale de los intervalos 207.84 y 192.16
Al probar cualquier hipótesis estadística, hay cuatro situaciones posibles que determinan si
nuestra decisión es correcta o errónea
En ocasiones el nivel de significancia se conoce como tamaño de la prueba.
ERROR TIPO I Y II
El error de aceptar H0 cuando es falsa se conoce como error TIPO II y la probabilidad de cometerlo
se denota por medio de B (la letra griega minúscula)
Hay cuatro situaciones posibles que determinan si la decisión es correcta o no, resumidas en la
siguiente tabla:
Acepte H0 Rechace H0
H0 es verdadero Decisión Correcta Error Tipo I
H0 es falso Error Tipo II Decisión correcta
Si rechazamos una hipótesis cuando debería ser aceptada entonces se ha cometido un error tipo I,
por otra parte si aceptamos una hipótesis que debería ser rechazada se ha cometido un error Tipo
II, y en ambos casos se ha producido un juicio erróneo.
Para que la regla de decisión o contraste de hipótesis sean buenas deben diseñarse de modo que
minimicen los errores de la decisión, la única forma de disminuir ambos a la vez es aumentar el
tamaño de la muestra que no siempre es posible.
1. Una cadena de tiendas de descuento expide su propia tarjeta de crédito, el gerente de esta
función desea averiguar si el saldo medio mensual es mayor de $ 400. El nivel de significación se fija
en 0.05, una revisión aleatoria de 172 sueldos reveló que la media muestral es de 407 y la desv.
estándar de la muestra es 38
a) Debería concluir el funcionario de crédito que la media poblacional es mayor de 400, o bien es
razonable que la diferencia de 7 obtenida de 407 menos 400 se debe al azar
Solución:
Ho: μ ≤ 400
ZAHo
ZRHo
1.64 2.42
X 0.31 Z7 Zc
Zc
Decisión:
ZRHo
ZAHo
-1.8 1.64
Ze Z7 X
Decisión
2. Cuando Isabel Benitez fue contatada como camarera en un restaurante, se le dijo: “Puedes
obtener, en promedio, más de $ 20 (dólares) al día por propinas”. A los primeros 35 días de
su trabajo en el restaurante, el importe medio diario de las propinas recibidas fue de $ 24.85
con una desviación estándar de $ 3.24. Al nivel de significancia de 0.01. ¿Puede la señorita
Benitez concluir que está ganando más de $ 20 por las propinas?
Ho: μ = 20 las propinas promedio en el día es de 20$
x
Zc
n
24.85 20 4.85
Zc 8.85
3.24 0.54
35
3) α = 0.01 B = 0.99 => Z7 = 2.32
Zalto
ZRHo
2.32 8.85
X Z7 Zc
Decisión
Una encuesta nacional reciente halló que estudiantes de bachillerato miraban un promedio (media)
de 6.8 videos por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número
medio de videos observados el mes pasado fue de 6.2 con una desviación estándar de 0.5. En el
nivel de significancia de 0.05. ¿Puede concluirse que los estudiantes de universidad ven menos
videos que los de bachillerato?
Ho: μ = 6.8 Los est. Universitarios ven 6.8 videos promedio al mes
HA: μ < 6.8 Los est. Universitarios ven menos de 6.8 videos promedio al mes
x
Zc
n
6.2 6.8 0.6
Zc 7.2
0.5 0.083
36
-72 -1.64
Zc Z7 X
Decisión
Rechazo Ho Los estudiantes universitarios ven menos de 6.8 videos promedio al mes.
Formulación de la hipótesis:
Equivalente:
𝒑𝟏 − 𝒑𝟐 −(𝝅𝟏 − 𝝅𝟐 )
Zc = 𝑷𝒄(𝟏−𝑷𝒄) 𝑷𝒄(𝟏−𝑷𝒄)
√ +
𝒏𝟏 𝒏𝟐
|Zc| ≥ Zα/2
DISTRIBUCIÓN F
DISTRIBUCIÓN F DE FISHER
• La distribución F es el cociente entre dos variables, ji cuadrado dividas por sus grados de
libertad
• F= Varianza/Varianza
La tabla F en honor a Ronal Fisher contiene el valor tabular, ubicando los grados de libertad del
numerador , parte superior horizontal y el denominador que se ubica en la columna lateral de la
tabla, utilizando el nivel de confianza del 0.05 o 0.01 se puede utilizar la tabla siguiente:
PRUEBA DE HIPÓTESIS DE LA COMPARACIÓN DE DOS VARIANZAS POBLACIONALES
Formulación de la hipótesis:
H0 : 𝛿12 = 𝛿22
H1 : 𝛿12 ≠ 𝛿22
Fc > 𝐹𝛼 𝑛1 −1, 𝑛2 −1
2
ANALISIS DE VARIANZA
El ANOVA, desarrollado por Ronald Fisher en 1918, extiende la prueba t y la prueba Z que
compara tan solo 2 grupos.
La técnica del análisis de la varianza (ANOVA o AVAR), es una de las técnicas más
utilizadas en los análisis de los datos de diseños experimentales, fue desarrollado por
Ronald Fisher, procedimiento utilizado cuando se quiere contrastar más de dos medias.
en donde:
Σ (Xij - µ)2 = Suma de cuadrados total = SCT
nj Σ (µj - µ)2 = Suma de cuadrados entre Tratamientos = SCE
Σ (Xij - µj)2 = Suma de cuadrados Residual = Error = SCR
de donde:
SCT = SCE + SCR.
2
(∑ 𝑋𝑖𝑗)
𝐹𝐶 =
𝑛
SCT FC
SCE =∑(∑xj )2 / nj) -FC
Los supuestos básicas del análisis de varianza son las mismas asociadas con el análisis de
regresión:
Aditividad
Independencia
Linealidad
Varianzas homogéneas
Normalidad
Ante el incumplimiento de los supuestos existen alternativas como las pruebas no
paramétricas, que no requieren supuestos acerca de la distribución de los datos.
En este diseño, interviene un solo factor o variable independiente con más de dos
niveles, llamados también tratamientos, de forma que a una unidad experimental se le
aplicará un solo tratamiento; suele ser común que uno de los tratamientos implique la
no aplicación del factor, o que el factor tiene en éste tratamiento su nivel mínimo, cero;
en este caso, al tratamiento así asignado se le denomina "testigo" y servirá de elemento
base para medir el efecto de los restantes niveles del factor en la variable respuesta.
X ij =µ+αj +εij
Donde:
TRATAMIENTO
OBSERV. T1 T2 Tj Ta
1 X11 X12 X1j X1a
2 X21 X22 X2j X2a
i Xi1 Xi2 Xij Xia
:
n Xn1 Xn2 Xnj Xna
X1 X2 Xj Xa
TOTALES
PRUEBA DE HIPÓTESIS
1. Formulación de la Hipótesis:
H0 : µ1 = µ2 = µj = ..... = µa H0 : αj = 0
HA : µ1 ≠ µ2 ≠ µj ≠ ..... ≠ µa HA : αj ≠ 0
Fc = CME / CMR
3. Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Solución:
Formulación de la Hipótesis:
H0 : µ1 = µ2 = µ3 No existe diferencia significativa en el promedio de la dureza de las
tabletas debido al porcentaje de almidón
Criterio de Decision
Rechazar la H0 si : Fc ≥ Fα,v1,v2
58,1015 > F 0,05 ; 2, 9
58,1015 > 4,2564 Rho
ANÁLISIS DE VARIANZA
FV SC GL CM Fc Valor p Ft
Tratamientos (Dureza) 26,7266667 2 13,3633333 58,1014493 7,16E-06 4,25649473
Error 2,07 9 0,23
Total 28,7966667 11
El diseño ANOVA 2 vías, permite estudiar simultáneamente los efectos de dos fuentes
de variación, variación debido al primer factor y variación debido a un segundo factor.
Se trabaja con dos factores, llamados tratamientos y bloques, cada uno con n niveles
Los bloques se forman con el objetivo de que las unidades experimentales al interior de
ellos, sean lo más homogéneas posibles, lo que permite disminuir el error experimentar
y obtener un diseño más eficiente.
Si el experimento utiliza dos factor o variables independiente, entonces la suma de
cuadrados de la variación total observada en la variable respuesta se divide en: la
primera que determina la variación debido al efecto del primer factor, la segunda, que
representa a la variación debido al segundo factor y la variación debido al error
experimental, lo que se traduce a la siguiente identidad:
Xij = µ + αi + βj + εij
Donde:
TRATAMIENTOS
B1 B2 Bj Bb ∑ Xi•
/BLOQUES
T1 X11 X12 X1j X1b X1•⋅
T2 X21 X22 X2j X2b X2•
Ti Xi1 Xi2 Xij Xib Xi•
Ta Xa1 Xa2 Xaj Xab Xa•
∑ X•j X•1 X•2 X•j X•b X••
Fórmulas de cálculo:
FC = (Σ xij)2/ab
SCT = Σ x2ij - FC
SCE =Σ (( Σxi•)2 / b) - FC
SCB = Σ (( Σx•j)2 / a) - FC
SCR = SCT – SCE – SCB
PRUEBA DE HIPÓTESIS
1. Formulación de la Hipótesis:
Tratamientos
H0 : αi = 0
HA : αi ≠ 0
Bloques
H0 : βj = 0
HA : βj ≠ 0
3. Criterio de Decision
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Ejemplo resuelto:
Solución:
Formulación de la Hipótesis:
Filas
H0 : µ1 = µ2 No existe diferencia significativa en los días de maduración promedio del
aguacate , debido a si es aguacate guatemalteco o criollo
Columnas
Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Filas
3> F 0,05 ; 2, 9
3> 18,5128 Aho
Columnas
3> F 0,05 ; 2, 9
6,3334> 19 Aho
Filas
P-valor: Rechazo la Ho, el p-valor es menor al nivel de significancia (0,05)
0,2254 > 0,05 Aho
Columnas
0,1364 > 0,05 Aho
No existe diferencia significativa en la maduración promedio del aguacate, debido si es
aguacate guatemalteco o criollo
No Existe diferencia significativa en la maduración promedio del aguacate, debido a las
técnicas de maduración
Ejercicio resuelto:
Una empresa agrícola quiere saber si la cantidad de agua y el tipo de terreno influyen en
el crecimiento de las semillas en su periodo de germinaron. Parta ello se utilizó semilla de
lenteja en donde la cantidad de gua fueron de (2, 4 y6) ml, el tipo de terreno fue de (tierra
y algodón). Realizar un análisis de varianzas
Lo resultados en 15 días del crecimiento del tallo de las semillas fueron de:
Solución:
ANÁLISIS DE VARIANZA
FV SC GL CM Fc Valor p Ft
Cantidad de agua
13,1233333 2 6,56166667 14,1111111 0,06617647 19
Terreno 3,84 1 3,84 8,25806452 0,10276455 18,5128205
Error 0,93 2 0,465
Total 17,8933333 5
Formulación de la Hipótesis:
Filas
H0 : µ1 = µ2 = µ3 No existe diferencia significativa en el crecimiento promedio de la
semilla , debido a la cantidad de agua
Columnas
H0 : µ1 = µ2 No existe diferencia significativa en el crecimiento promedio de la semilla
, debido al tipo de terreno
Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Filas
14,1111 < F 0,05 ; 2, 9
14,1111 <18,5128 Aho
Columnas
8,258 < F 0,05 ; 2, 9
8,258 < 18,5128 Aho
Filas
P-valor: Rechazo la Ho, el p-valor es menor al nivel de significancia (0,05)
0,0662 > 0,05 Aho
Columnas
0,1028 > 0,05 Aho
Métodos no paramétricos
Características
Pruebas de Independencia
Relación entre 2 variables cualitativas, en tablas de contingencias.
1. Formulación de la hipótesis.
H0: No existe relación entre las 2 variables. Independencia
H1: Existe relación entre las 2 variables. Dependencia
Donde:
(𝑇𝑜𝑡𝑎𝑙 𝐹)(𝑇𝑜𝑡𝑎𝑙 𝐶)
𝑓𝑒 =
𝑇𝑜𝑡𝑎𝑙
3. Determinación del criterio de decisión
2
Rechazar la Ho Si: 𝑋𝑐2 > 𝑋𝛼,𝑔𝐿
1. Formulación de la hipótesis.
H0: No existe relación entre las 2 variables. No existe relación entre el uso del
teléfono celular y estar involucrado en un accidente de tránsito. Las variables son
independientes
H1: Existe relación entre las 2 variables. Las variables son dependientes
Acepto la H0 Si:
2
𝑥𝑐2 ≤ 𝑥𝛼,(𝑘−1)
k =Número de categorías
Cuando se quiere analizar si los datos se ajustan a una distribución normal, se debe tener al
menos los parámetros media y desviación, caso contrario se debe estimar y en este caso
tomar en cuenta los grados de libertad como lo indica Webster
Ejercicio del libro guía LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México:
Durante muchos años, los ejecutivos de televisión dieron crédito a la pauta de que 30% de
la audiencia veía cada una de las cadenas televisivas de mayor audiencia, y 10%, canales de
televisión por cable durante una noche a la semana. Una muestra aleatoria de 500
televidentes del área de Tampa-St. Petersburg, Florida, el pasado lunes por la noche, reveló
que 165 hogares sintonizaron la filial ABC, 140, la filial CBS, 125, la filial NBC, y el resto vio
un canal de televisión por cable. Con un nivel de significancia de 0.05, ¿es posible concluir
que la pauta aún es razonable?
1. Formulación de la hipótesis
H0: No existe diferencia significativa entre el conjunto de frecuencias observadas y el
conjunto de frecuencia esperada. Es decir el 30% de la audiencia ve
cada una de las cadenas televisivas de mayor audiencia, y 10%, canales de televisión por
cable durante una noche a la semana.
H1: Existe diferencia significativa entre el conjunto de frecuencias observadas y el conjunto
de frecuencia esperada.
2. Fijación de la estadística de prueba
(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑ [ ]= 0.02867
𝑓𝑒
0.02867<7.815
Filial fo fe (fo*fe)2/fe
ABC 0,33 0,3 0,0030
CBS 0,28 0,3 0,0013
NBC 0,25 0,3 0,0083
Cable 0,14 0,1 0,0160
Sumatoria 1 1 0,0287
https://www.youtube.com/watch?v=BsuRH3qJUJ4
https://www.youtube.com/watch?v=_HxWIln8waQ
Regresión y correlación
La regresión establece la función matemática que describe la relación de dos o más variables.
La regresión y correlación se basan en la relación o asociación de una variable dependiente con una
o más variables independientes
La correlación mide la función de una relación entre variables, la regresión da lugar a una ecuación
que describe dicha relación en términos matemáticos y cuya ecuación se puede utilizar para estimar
valores futuros.
En el caso de un problema de dos variables esto significa que cada observación proporciona dos
valores uno para cada variable ejemplo: para un estudio de características físicas puede interesarse
por la edad y estatura de cada individuo.
En el caso de un problema de tres variables cada observación proporciona tres valores ejemplo:
además de la edad y estatura de cada persona talvez desearíamos medir el peso de la misma.
Y = f(x)
Regresión simple: se establece que, y es una función de solo una variable independiente,
Se le denomina regresión bivariada porque solo hay dos variables, una dependiente y una
independiente.
En donde x1, x2, x3, …… xk son variables independientes que permiten explicar y.
La relación puede ser lineal o no lineal de una variable independiente o de dos o más variables
independientes. El investigador debe decidir la función matemática que mejor se ajuste a sus datos.
Modelo de Regresión lineal simple-Función Lineal Simple
La función más sencilla para el análisis de regresión y correlación es la función lineal simple.
Y = α + βX + є para la población
Ŷ=a+bx
El investigador deberá calcular los coeficientes de regresión (a; b) y el error de estimación. El método
más utilizado es el de mínimos cuadrados en el que:
𝑛 ∑ 𝑥𝑦− ∑ 𝑥 ∑ 𝑦
b=
𝑛 ∑ 𝑥 2 −(∑ 𝑥)2
a = 𝑦̅ − 𝑏𝑥̅
En donde el coeficiente “b” indica la razón de cambio en la variable dependiente “Y” por cada unidad
de cambio en la variable independiente “x”.
REGRESIÓN LINEAL
Yi=VARIABLE DEPENDIENTE
MMC Σ(Yi-yestimada)=0
*Yi
Ŷ=Y estimada
en donde:
Σ (Yi - )2 = Variación total SCT
2
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 √∑(𝑌1 − 𝑌̂) ∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑒 = √ = = √
𝑛−2 𝑛−2 𝑛−2
2
(𝑆𝐶𝑥𝑦 )
𝑆𝐶𝐸 = 𝑆𝐶𝑦 − 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟
𝑆𝐶𝑥
𝑆𝐶𝐸
𝐶𝑀𝐸 = 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟
𝑛−2
𝑆𝑒 = √𝐶𝑀𝐸 𝐸𝑟𝑟𝑜𝑟 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟
Análisis de Correlación (r- R).
En general entre mayor sea el valor absoluto de “r” más fuerte será la relación entre “x” y “y”
Desviación no explicada ̂ = 𝒂 + 𝒃𝒙
𝒀
(𝑌𝑖 − 𝑌̂ )
𝑦̂ ̂ = 𝒃 𝟎 + 𝒃𝟏 𝒙
𝒀
Desviación explicada
̂𝑗 − 𝑌̅)
(𝑌
𝑌̅
𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
2
𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
2
𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
› Proporciona una medida de bondad de ajuste porque revela que porcentaje de cambio en
y se explica por un cambio en x.
› El porcentaje de la variación de y está explicada por la variación de x
› 𝑟 2 tiene significado sólo para las relaciones lineales.
Si no existe ninguna relación entre “x” y “y” se esperaría obtener un pendiente 0 que
puede ser contraria a los resultados muestrales, ya que sólo se incluye un subconjunto de
las observaciones.
La ausencia de cualquier patrón indica que no existe relación.
Planteamiento de hipótesis
𝑆𝑒 1
𝑆𝑏 = 𝑜 𝑆𝑒 → 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑜 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
√𝑆𝐶𝑥 √ 2 (∑ 𝑥)2
∑𝑥 − [
𝑛 ]
Regla de decisión
Como el análisis respecto a la correlación entre las variables se basa en datos muéstrales, el error
de muestreo podría llevarnos a conclusiones no apropiadas.
Puede ser que la correlación en nivel poblacional sea cero y que una muestra engañosa, hizo que
se asuma equivocadamente una relación.
Prueba de hipótesis
1 − 𝑟2
𝑆𝑟 = √ 𝑬𝒓𝒓𝒐𝒓 𝒐 𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓
𝑛−2
𝒅𝒆𝒍 𝒄𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
gl=n-2
Los intervalos y la prueba de hipótesis sobre el coeficiente 𝒂 puede establecerse por el hecho de
que A está distribuida normalmente.
Planteamiento de hipótesis
Donde:
𝑆𝐶𝑥 = ∑(𝑥 − 𝑥̅ )2
𝑆𝑒√∑ 𝑥 2
Intervalos de confianza ∝ = 𝑎 ± 𝑡∝⁄
2 √𝑛𝑆𝐶𝑥
Función lineal simple
Ŷ= a + b X
Análisis de varianza en la predicción
Desviación no explicada ̂ = 𝒂 + 𝒃𝒙
𝒀
(𝑌𝑖 − 𝑌̂ )
𝑦̂ ̂ = 𝒃 𝟎 + 𝒃𝟏 𝒙
𝒀
Desviación explicada
̂𝑗 − 𝑌̅)
(𝑌
𝑌̅
2
𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
2
𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
Formular la hipótesis
Fc= CMR/CME
Criterio de decisión:
Fc > Ft,v1,v2
Solución
Diagrama de dispersión
Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,35081942
Coeficiente de
determinación R^2 0,12307427
R^2 ajustado 0,03538169
Error típico 1,93255107
Análisis del modelo
ANÁLISIS DE VARIANZA
Gl SC CM Fc Ft
Regresión 1 5,24163043 5,24163043 1,40347422 0,26353426
Residuos 10 37,3475362 3,73475362
Total 11 42,5891667
Planteamiento de hipótesis
Fc= 1.4035
Criterio de decisión:
Fc > Ft,v1,v2
1.4035>0.2635
Modelos aparentemente no lineales que por algún artificio matemático se pueden hacer lineales,
los modelos no lineales pueden ser operados como modelos lineales mediante transformaciones a
las variables
Las transformaciones que puedan mejorar el ajuste y la capacidad de predicción del modelo son
muy numerosas:
(El logaritmo natural es de base 2.8171)
ln 𝑦 = ln(𝐴𝑥 𝐵 )
ln 𝑦 = ln 𝐴 + 𝐵 ln 𝑥
Y*=A*+BX*
ln 𝑦 = ln(𝐴𝑒 𝐵𝑥 )
ln 𝑦 = ln(𝐴) + 𝐵𝑥 ln 𝑒
ln 𝑦 = ln(𝐴) + 𝐵𝑥
Y*=A*+BX
Modelo Logarítmico 𝒚 = 𝑨 + 𝑩 𝐥𝐧 𝒙
Y=A+BX*
1 1
Recíproca 𝑦 = 𝐴+𝐵𝑥 𝑥∗ = 𝑥 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝒚 𝑐𝑜𝑛𝑡𝑟𝑎 𝒙∗
𝑥 1
Hiperbólica 𝑦 = 𝑦∗ = 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝒚∗ 𝑐𝑜𝑛𝑡𝑟𝑎 𝒙∗
𝐴+𝐵𝑥 𝑦
1
𝑥∗ = 𝑥
Exponencial
Logarítmica Potencial
A 𝛽>1
𝛽<0
𝛽<0
A
𝛽>0
A
1
𝛽>0
𝛽<0 𝛽
A
A menudo se aconseja trabajar con un modelo alternativo en el que x y y o ambas entran de forma
no lineal.
Por lo general nos referimos a un modelo de regresión como lineal cuando es lineal en los
parámetros.
Las medidas de comparación son R2 y Se, pueden utilizarse para medir la utilidad de la
transformación
𝑦̂ = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ … . . + 𝑏𝑥 𝑥𝑥
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ … . . + 𝑏𝑥 𝑥𝑥
Donde:
∑ 𝑦 = 𝑛𝑎 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2
∑ 𝑥1 𝑦 = 𝑎 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2
∑ 𝑥2 𝑦 = 𝑎 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22
Describe la variación con respecto a la línea de regresión. Un error estándar pequeño indica que los
puntos están cerca de tal recta, mientras que un valor grande indica que los puntos están esparcidos
alrededor de aquella, el mismo concepto es en la regresión múltiple.
∑(𝑦𝑖 − 𝑦̂)2
𝑆𝑒 = √
𝑛 − (𝑘 + 1)
Donde:
𝒚𝒊 𝑒𝑠 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛.
̂ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑎 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑒 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛.
𝒚
𝒏 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎.
𝒌 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
Para evaluar la ecuación de regresión, se puede trazar un diagrama de dispersión con cada variable
independiente
Matriz de correlación
La matriz contiene los coeficientes de correlación entre todos los pares de variables.
Se está particularmente interesado en las variables independientes que tienen un fuerte correlación
con la variable dependiente. La matriz de correlación ayuda a identificar cuáles pueden ser
relativamente más importantes.
Multicolinealidad
Correlación entre las variables independientes
Un método práctico común es que las correlaciones entre las variables independientes entre -0.7 y
0.7 no ocasionan dificultad
El remedio usual para la multicolinealidad es eliminar una de las variables independientes que están
fuertemente correlacionadas y determinan la ecuación de regresión
Puede efectuarse un análisis de varianza que permita evaluar la calidad de la ecuación de regresión.
Una hipótesis útil que determina si el método explica una cantidad significativa de variación es la
siguiente:
ANOVA
Fuente de Suma de
g de libertad Media Cuadrática F F. Crítico
variación Cuadrados
MSR= SCR/K (Revisar
SCR k (numerador) F= MSR/MSE
Regresión CMR en Excel)
MSE =SCE/
SCE n-(k+1)(denominador) n-(K-1)
Error o Residual CME
Total SCT n-1
El rechazo 𝐻0 significa que la ecuación de regresión difiere de una constante, es decir al menos una
variable independiente es importante.
Si una 𝛽 puede ser nula, (Aho), ello implica que tal variable independiente en particular no es de
ningún valor para explicar cualquier variación en el valor de pendiente, puede ser deseable
eliminarlos de la ecuación de regresión.
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
Cuando se suprime una variable es necesario volver a construir la ecuación de regresión para revisar
las variables.