Guía Inferencia

REPASO: DISTRIBUCIÓN CONTINUA DE PROBABILIDADES
DISTRIBUCIÓN NORMAL
Características de la distribución:
 La distribución está definida por dos parámetros µ y α

 Existe una distribución normal diferente para cada combinación de medida y
desviación estándar.
 El rango de desviación de la distribución va de -∞ a +∞.
 El valor de la media, la mediana y la moda son exactamente los mismos.
 La distribución es simétrica respecto a la media.
 El área total bajo cualquier curva normal representa el 100% de la probabilidad
relacionada con dicha variable.
 Formulación de cálculo, función de densidad
Dadas las características de la simetría y normalidad tenemos que:
µ ± α = 68,26
µ ± 2α = 95,45
µ ± 3α = 99,74
Distribución Normal Estandarizada o Tipificada:

Se dice que una distribución es normal estándar si su media es cero (µ = 0) y su varianza y
por tanto su desviación estándar es igual a la unidad 1
Tipificación de la variable
Cualquier distribución normal general se puede convertir en una distribución normal
estándar mediante la transformación “Z”, donde:
Una variable normal es parametrizada por su media µ y desviación típica σ.

Existen tablas que se pueden utilizar para calcular las probabilidades para esta distribución.
Ejercicios propuestos:
1. En una ciudad una de cada tres familias posee teléfono. Si se eligen al azar 90
familias, calcular la probabilidad de que entre ellas haya por lo menos 30 tengan
teléfono.
2. En un examen tipo test de 200 preguntas de elección múltiple, cada pregunta tiene
una respuesta correcta y una incorrecta. Se aprueba si se contesta a más de 110
respuestas correctas. Suponiendo que se contesta al azar, calcular la probabilidad de
aprobar el examen.
3. Un estudio ha mostrado que, en un cierto barrio, el 60% de los hogares tienen al
menos dos televisores Se elige al azar una muestra de 50 hogares en el citado barrio.
Se pide:
1. ¿Cuál es la probabilidad de que al menos 20 de los citados hogares tengan
cuando menos dos televisores?
2. ¿Cuál es la probabilidad de que entre 35 y 40 hogares tengan cuando menos dos
televisores?
1.
2.
4. Un día visitamos el Casino y decidimos jugar en la ruleta. Nuestra apuesta va a ser

siempre al negro y cada apuesta de 500 ptas. Llevamos 10.000 ptas. y queremos
calcular que probabilidad tenemos de que tras jugar 80 veces consigamos doblar
nuestro dinero.
"Salir negro", le damos el valor 1 y tiene una probabilidad del 0,5
"No salir negro", le damos el valor 0 y tiene una probabilidad del 0,5
A la suma de las 80 apuestas se le aplica el Teorema Central del Límite, por lo
que se distribuye según una normal cuya media y varianza son:
Media: n *  = 80 * 0.5 = 40
Varianza: n * = 80 * 0,5*0,5 = 20
Gana 50 y pierde 30 =80veces apuesta, entonces total gana 20 veces*$500=10000

+10000iniciales=20000.
Si ganara 45 y pierde 35=80 veces apuesta, entonces gana 10 veces*$500=5000

+10000 iniciales=15000 no dobla
Otro análisis
Para doblar nuestro dinero el negro tiene que salir al menos 20 veces más que el
rojo (20 * 500 = 10.000), por lo que tendrá que salir como mínimo 50 veces
(implica que el rojo o el cero salgan como máximo 30 veces).
Comenzamos por calcular el valor equivalente de la variable normal tipificada:
50 − 40
𝑧= = 2.24
√20
Luego:
P (X > 50) = P (Y > 2,24) = 1 - P (Y < 2,24) = 1 - 0,9875 = 0,0125
Es decir, la probabilidad de doblar el dinero es tan sólo del 1,25% (así, que más vale
que nos pongamos a trabajar).
5. Se supone que los resultados de un examen siguen una distribución normal con
media 78 y varianza 36. Se pide:
¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una
calificación superior a 72?
p(x>72)=p(z>(72-78)/6
p(Z>-1)=0.8413
6. Calcule la probabilidad de que 50 lanzamiento de una moneda ocurran 30 caras

P= 0.0419
7. Calcule la probabilidad de que 50 lanzamiento de una moneda ocurran menos de 30 caras
P=0.8996
CONCEPTOS BÁSICOS
POBLACIÓN O UNIVERSO.- Es el conjunto de elementos que son de nuestro interés de investigación

que poseen características comunes y observables en un lugar (ESPACIO) y en un momento
determinado (TIEMPO).
MUESTRA. Es un subconjunto representativo de población. Las muestras se obtienen con la

intención de inferir (deducir) propiedades de la totalidad de la población.
MUESTREO.- Es un procedimiento de investigación estadística que pretende estudiar el universo

de interés, con base en la información que se obtiene de una parte de las unidades que componen
dicho universo.
POBLACIÓN MUESTRA
Conjunto de elementos subconjunto de elementos
Tiempo
Espacio
INFERIR
n
N
CENSO MUESTREO
Parámetro Estadística
Indicador (estadígrafo)
Describe a la población Describe la muestra

Media=media aritmética=promedio=µ,ẋ
MUESTREO PROBABILÍSTICO.- Todos los métodos probabilísticos tienen un propósito común,

permitir que el azar determine los elementos que incluirán en la muestra.
El muestreo probabilístico nos asegura la representatividad de la muestra extraída y es, por tanto,
el más recomendable.
MUESTREO NO PROBABILÍSTICO.- Los elementos de la muestra son elegidos a voluntad y criterio

de quien investiga por tanto ésta puede ser no representativa.
No es posible establecer la posibilidad de que los miembros del universo sean seleccionados como
parte de la muestra.
ELEMENTOS O UNIDADES DE ANÁLISIS O UNIDADES DE OBSERVACIÓN. - Cada uno de los objetos

que forman la población o universo y que son fuente de datos. Es la unidad básica del estudio.
Pueden ser clasificados como:
 Elementos individuales; o
 Elementos colectivos
ELEMENTO INDIVIDUAL. - Es la persona cuando se analiza la población del Ecuador o de un
provincia en particular, es el miembro del hogar cuando se analiza la población de los hogares, es el
estudiante cuando se analiza la población estudiantil, es el trabajador cuando se analiza la población
de trabajadores . En cada uno de los casos citados el elemento caracteriza a un individuo en estudio,
es “un elemento individual.
ELEMENTOS COLECTIVOS. Cuando se analiza la producción de la industria textil, la población está

conformada por el conjunto de todas las empresas textiles y un elemento es cualquiera de las
empresas de producción textil; si se analiza la atención hospitalaria de los hospitales que pertenecen
al Estado, la población está conformada por todos los hospitales del Estado. En estos ejemplos, el
elemento caracteriza a un colectivo y la población es el conjunto de todos los “elementos colectivos”
PARÁMETRO.- Es una medida que está en función de una población, entre las más conocidas
tenemos:
Media aritmética (miu)

Varianza 2
Desviación típica 
Estadística o Estadígrafo.- Es una medida que está en función de una muestra, entre las que
podemos mencionar:
Varianza 2
Desviación típica 
Media

VARIABLES
Son características o cualidades que poseen los elementos de una población o muestra, éstas deben
ser medibles y observables.
Estas pueden ser de dos tipos:
Cuando la característica o variable es no numérica, se la denomina variable cualitativa o atributo

por ejemplo: sexo, religión, tipo de automóvil, estado o lugar de nacimiento, color de ojos. Cuando
la información estudiada es cualitativa, generalmente interesa saber cuántas o qué proporción entra
en cada categoría. Por ejemplo qué porcentaje de la población tiene ojos azules?, cuántos católicos
y cuántos evangélicos han en el Ecuador? Qué cantidad de automóviles vendidos el mes anterior
fue de la marca Toyota?. Las variables cualitativas pueden ser nominales y ordinales.
Cuando la variable estudiada se puede expresar numéricamente, se denomina variable cuantitativa,

y la población se conoce como población cuantitativa. Ejemplos de variables cuantitativas son: el
saldo en una cuenta de cheques, la edad de los estudiantes del aula de clase, las velocidades de los
vehículos que circulan por una carretera del país, el número de hijos de una familia.
Las variables cuantitativas pueden ser discretas o continuas. Las variables discretas pueden asumir
sólo ciertos valores y generalmente existen brechas o huecos entre ellos, ejemplo: el número de
habitaciones de una casa, la cantidad de automóviles que pasan por una determinada calle. El
número de estudiantes que forman los grupos de trabajo en el aula. Por lo común, las variables
discretas son resultado de un conteo.
Las observaciones de una variable continua pueden tomar cualquier valor dentro de un intervalo
determinado. Ejemplos: La presión del aire en un neumático de un automóvil, el peso de un
cargamento de granos (tonelada, la cantidad de cereal en una caja. Las variables continuas resultan
generalmente de medir algo.
OPERACIONALIZACION DE VARIABLES
 Es el proceso de llevar una variable del nivel abstracto a un plano concreto.

 Operacionalizar una variable es hacerla medible.
Por qué deben definirse las Variables
 Para comparar nuestra investigación con otras similares

 Para evaluar adecuadamente los resultados de nuestra investigación.
Pasos para operacionalizar la variable:
Definición Operacional
 Explica cómo se define el concepto específicamente en el estudio planteado, que puede

diferir de su definición etimológica.
 Equivale a hacer que la variable sea mensurable a través de la concreción de su
significado, y está muy relacionada con una adecuada revisión de la literatura.
 Puede omitirse cuando la definición es obvia y compartida
Categorización o Dimensión
 Cuando el concepto tiene varias dimensiones o clasificaciones o categorías, éstas deben

especificarse en el estudio; tal es el caso de la variable “recursos», que puede hacer
referencia a “recursos técnicos, financieros, ambientales, humanos entre otros».
Definición de las Categorías

• Cada una de las dimensiones, categorías o clasificaciones debe ser definida conceptual y
etimológicamente
Indicador
• Se expresa en razones, proporciones, tasas e índices.

• Permite hacer “medible” la variable.
• Son ejemplos de indicadores:
• indicadores económicos (la UVR, el dólar, la libra de café, el gramo de oro).
• Indicadores de pobreza (las migraciones, los desplazados, el desempleo, los
asentamientos suburbanos).
• La variable “aprovechamiento escolar” puede tener los indicadores: cantidad de
aprobados y desaprobados, deserción escolar, promedio de notas obtenidas, etc.
• La variable “nivel socio económico” puede tener los siguientes indicadores: nivel de
ingreso, nivel de estudios, lugar de residencia, actividad laboral, etc.
MEDICIONES Y ESCALAMIENTO
Medición. - significa asignar números u otros símbolos a características de objetos de acuerdo con
determinadas reglas preestablecidas y se debe buscar escalas adecuadas para medir esas
características. El nivel de medición determina los cálculos que se pueden realizar para resumir y
presentar la información y las pruebas estadísticas que pueden desarrollarse.
Tipos de escala de medición básicas
Stevens (1946) consideró que cualquier escala de medida puede clasificarse en alguna de las
siguientes cuatro tipos: nominal, ordinal, de intervalo o de razón
Escala nominal. - Es un esquema de etiquetado o rotulado figurado, en el cual los números solo
sirven como etiquetado para identificar y clasificar objetos.
Resulta inapropiado calcular estadísticas como la media o la varianza de una variable nominal,
debiendo limitarnos a los recuentos de frecuencias, moda o tablas de contingencia cuando se cruce
con otra variable nominal
Una exigencia básica es que los objetos han de poder clasificarse en categorías que sean
mutuamente excluyentes y exhaustivas es decir todos los individuos han de poder clasificarse en las
categorías existentes
Las categorías para los datos no tienen un orden lógico
Escala ordinal. - Una escala ordinal permite determinar si un objeto tiene más o menos de una
característica que algún otro objeto, pero no cuanto más o menos. Por lo tanto, la escala ordinal
indica la posición relativa no la magnitud de las diferencias entre objetos, los ejemplos comunes
incluyen clasificaciones de calidad, de equipos, clases socioeconómicas medir actitudes, opiniones,
preferencias relativas.
Por lo tanto, en las escalas ordinales, tiene sentido distinguir y ordenar, pero no las diferencias ni
las razones.
Los estadísticos que pueden calcularse en este tipo de escalas son, además de los que se calculan
en los nominales, la mediana y los percentiles.
Una exigencia básica es que las categorías de la escala deben ser mutuamente excluyentes y en
conjunto exhaustivas.
Las categorías de la variable se clasifican por su orden, prelación o nivel de importancia
Escala de intervalo. - Una escala de intervalo posee las características de una nominal y de la ordinal
(mayor valor representa mayor presencia de la característica ejm la preferencia). Sin embargo, la
escala de intervalo añade una nueva propiedad, la diferencia también tiene sentido. Siempre que el
atributo que se esté midiendo no tengo aun cero absolutos, sino que este sea arbitrario.
Una escala donde se utiliza los números para calificar objetos, de tal forma que las distancias
numéricas equivalentes en la escala representa distancias equivalentes en la característica medida.
En esta escala pueden calcularse todos los estadísticos menos los que están basados en razones
(ratios) como el coeficiente de variación, no permite establecer que la medida de una variable de
observación es el doble, el triple, la mitad.
Las categorías de la variable son mutuamente excluyentes y exhaustivas.
Las categorías de la variable se clasifican por su orden, prelación o nivel de importancia.
Las diferencias entre dos valores de la escala tienen sentido, sin embargo no permite establecer que
la medida de una unidad de observación es el doble, triple, la mitad.
El valor cero es un valor convencional no indica la ausencia de la condición y pueden existir
cantidades negativas ejm. CI, temperatura.
En investigaciones de mercados es muy habitual el recurso a escalas de intervalo para medir, por
ejm acuerdos o desacuerdos con determinada afirmaciones ( 1= totalmente en desacuerdo, 5=
totalmente de acuerdo)
Escala de razón. - Las escalas de razón tienen las mismas propiedades que las de intervalos pero,
además, las razones si que tienen sentido. Estas escalas tienen un valor base 0 natural: la edad, los
ingresos, temperatura Kelvin
Todas las técnicas estadísticas son aplicables a los datos de razón.
Ejemplo.
Nominal número asignado a corredores
Ordinal ordenamiento por rangos de los ganadores
De intervalo calificación de desempeño en una escala de 0 a10
De razón Tiempo para terminar en segundos

Otras clasificaciones
Es muy habitual simplificar la clasificación de Stevens dejando en dos grupos el que se corresponde
con variables no métricas (nominal y ordinal) y el de variables métricas (de intervalo y de razón).
También es habitual distinguir entre discretas y continuas.
TEORÍA DE MUESTREO.
MUESTREO
Es un procedimiento por medio del cual se estudia una parte de la población llamada muestra, con
el objetivo de inferir con respecto a toda la población. Es importante relacionar el muestreo con el
censo, el cual se define como la enumeración completa de todos los elementos de la población de
interés. El objetivo del diseño de estudios por muestreo, es maximizar la cantidad de información
para un costo dado
VENTAJAS DEL MUESTREO:
a) Costos reducidos.
b) Mayor rapidez para obtener resultados.
c) Mayor exactitud o mejor calidad de la información: debido a los siguientes factores
c.1 Volumen de trabajo reducido.
c.2 Puede existir mayor supervisión en el trabajo.
c.3 Se puede dar más entrenamiento al personal.
c.4 Menor probabilidad de cometer errores durante el procesamiento de la información.
d) Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas,
imposibilitando que lleguen a su forma inicial por ejemplo:
- Pruebas de germinación, Análisis de sangre, Control de calidad.
VENTAJAS DEL CENSO: Sin embargo, también se debe mencionar que el censo tiene algunas
ventajas que son las siguientes:
a) Existe una cobertura total.
b) Tiene aceptación pública.
c) No se requieren grandes conocimientos de estadística.
TIPOS DE MUESTREO:
MUESTREO NO PROBABILISTICO: Los elementos de la muestra son seleccionados por
procedimientos no al azar ó con probabilidades no conocidas de selección. Por lo tanto es
imposible determinar el grado de representatividad de la muestra. Dentro de los tipos de
muestreo no Probabilístico, podemos mencionar los siguientes:
 Muestreo por Juicio, Selección Experta o Selección Intencional: El investigador toma la

muestra seleccionado los elementos que a él le parecen representativos o típicos de la
población, por lo que depende del criterio del investigados.
 Muestreo casual o fortuito: Se usa en los casos en no es posible seleccionar los elementos,
y deben sacarse conclusiones con los elementos que estén disponibles. Por ejemplo: en el
caso de voluntarios para pruebas de medicamentos de enfermedades como el corazón,
cáncer, etc.
 Muestreo de cuota: Se utiliza en estudios de opinión de mercado. Los enumeradores,
reciben instrucciones de obtener cuotas especificas a partir de las cuales se constituye una
muestra relativamente proporcional a la población.
 Muestreo de poblaciones móviles: Este tipo de muestreo utiliza métodos de captura,
marca y recaptura. Se utiliza mucho en el estudio de migración de poblaciones de
animales y otras características.
MUESTREO PROBABILISTICO, ALEATORIO O ESTOCASTICO: Los elementos de la muestra son

seleccionados siguiendo un procedimiento que brinde a cada uno de los elementos de la población
una probabilidad conocida de ser incluidos en la muestra.
PROPIEDADES DEL MUESTREO PROBABILISTICO:
a) Existe la posibilidad de definir inequívocamente un conjunto de muestras M1, M2, .... , Mt

mediante la aplicación del procedimiento a una población. Esto significa que podemos indicar
cuales unidades de muestreo pertenecen a M1, M2 y así sucesivamente.
Podemos definir el conjunto de muestras distintas M1, M2,…Mt, significa que podemos decir con
precisión cuales son las unidades de muestreo que pertenecen a M1, M2, etc
b) A cada posible muestra Mi se le asigna un probabilidad conocida de selección Pi .

c) Seleccionamos una de las Mi por un proceso mediante el cual, cada Mi tiene una probabilidad Pi
de ser seleccionada, se selecciona mediante un proceso aleatorio
d) El método de estimación se realiza en base a la muestra, siendo único para cualquiera de las
posibles muestras Mi.
TIPOS DE MUESTREO PROBABILISTICO:

a) Muestreo simple aleatorio (m.s.a.).
b) Muestreo Estratificado.
c) Muestreo Sistemático.
d) Muestreo por conglomerados.
e) Muestreo por Areas.
f) Muestreo Polietápico.
Consideraciones:
- A mayor variación mayor tamaño de muestra

- A mayor error de estimación menor tamaño
de muestra
- A mayor nivel de confianza mayor tamaño de
muestra
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
La Estadística inferencial es parte de la Estadística, que se encarga de estudiar
procedimientos para la obtención de conclusiones, referentes al total de la población, a
partir de la información proporcionada por la muestra o muestras seleccionadas.
Es de gran utilidad en todos aquellos estudios de investigación llevados a cabo en
poblaciones demasiado grandes como para poder realizar mediciones en todos y cada uno
de los individuos de dichas poblaciones.
En términos generales, hay dos grandes tipos de procedimientos inferenciales:
 Los procedimientos de estimación

 Los procedimientos de contraste de hipótesis
Principales procedimientos inferenciales
Procedimientos de estimación
Su finalidad es proporcionarnos las herramientas necesarias para poder determinar buenas
aproximaciones (a los que llamaremos estimaciones) a aquellos valores desconocidos en la
población (a los que técnicamente se les denomina parámetros) y que estamos interesados
en conocer.
Su finalidad es proporcionarnos los mecanismos necesarios para poder decidir, con cierta
probabilidad de error, sobre la veracidad o no de determinada afirmación realizada en la
población bajo estudio.
Se puede estimar varios parámetros, por ejemplo:
 Estimación de medias
 Estimación de proporciones
 Estimación de diferencia de medias
 Estimación de diferencia de proporciones
Procedimientos de contraste de hipótesis.

El objetivo es evaluar estadísticamente con evidencia de los datos muestrales las
suposiciones acerca de los valores poblacionales. Se puede probar hipótesis de un, dos o
más grupos, estos grupos o muestras pueden ser independientes o dependientes, de ahí
que se elige el test de prueba más apropiado según las características del problema
TEOREMA CENTRAL DE LÍMITES
- Es un teorema de gran importancia en estadística especialmente en inferencia,
permite estimar los parámetros: µ, π, 𝛿, de una población a partir de muestras
obtenidas de ellas
- El TCL es una sucesión de variables aleatorias independientes de:
Medias µ𝑖 = 𝐸(𝑥𝑖̇ ) y
Varianzas 𝜎 2 = 𝑉𝑎𝑟(𝑥𝑖 ) finitas

- El teorema central del límite Establece que la suma de n variables aleatorias
independientes de varianza finita e idéntica distribución tiende a la distribución
normal cuando n tiende a infinito.
- Este teorema afirma que la distribución de medidas muestrales tiende hacia una
distribución normal, aunque las muestras proceden de una distribución no normal
a medida que el tamaño de muestra aumenta.
- Cualquiera sea la distribución de las variables aleatorias independientes discretas o

continuas, si n es suficientemente grande la distribución de la variable aleatoria es
normal de media la suma de las medias y de varianza la suma de las varianzas
µ = ∑µ𝑖 y 𝜎 2 = ∑𝜎𝑖2
- El teorema central del límite permite calcular razonablemente bien las

probabilidades de variables que siguen una distribución Binomial y de Poisson
siempre que el tamaño de la muestra sea suficientemente grande
- Una variable binomial B(n, p) se aproxima a una normal N (µ, 𝛿𝑖 ) ) mediante la

siguiente expresión B(n,p)~N(np,√𝑛𝑝𝑞).
- Una variable Poisson Ps(𝜆) se aproxima a una normal N (µ,𝛿𝑖 ) mediante la siguiente
expresión Ps(𝜆) ~ N ( 𝜆, √𝜆)
- Tiene una gran aplicación en inferencias estadísticas permite También aproximar
muchas distribuciones de uso frecuente: Binomial, Poisson, Chi_cuadrado, T-
student, Gamma, etc.
- El TCL explica porqué muchas variables aleatorias en las que influyen un gran
número de factores de forma aditiva tienen distribuciones próximas a la normal
- Los teoremas: de Lindeberg-Lévy y De Moivre son casos particulares del teorema
central
Ejercicio:
- Demostrar que la distribución de medidas muestrales tiende hacia una distribución
normal, aunque las muestras proceden de una distribución no normal a medida que
el tamaño de muestra aumenta.
Lanzamiento de un dado
Frecuencias
1,2
0,8
0,6
0,4
0,2
0
1 2 3 4 5 6
El lanzamiento de la moneda sigue una distribución uniforme

Se obtiene 15 combinaciones al lanzar un par de dados, es decir 15 muestras de tamaño 2,
sin reemplazo
M1 M1 M1 M1 M1 M1
M1 M2 M3 M4 M5 M6 M7 M8 M9 0 1 2 3 4 5
1 1 1 1 1 2 2 2 2 3 3 3 4 4 5
2 3 4 5 6 3 4 5 6 4 5 6 5 6 6
Medias 1,5 2 2,5 3 3,5 2,5 3 3,5 4 3,5 4 4,5 4,5 5 5,5
Distribución muestral de medias

Medias 1,5 2 2,5 3 3,5 4 4,5 5 5,5
Frecue 1 1 2 2 3 2 2 1 1
nias
Medias del lanzamiento de un par de dados (sin reemplazo)
3,5
2,5
1,5
0,5
0
1,5 2 2,5 3 3,5 4 4,5 5 5,5
Ejercicios del Libro del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los <negocios y a la Economías; Mc Graw Hill, México.
1. A continuación aparecen los 10 primeros renglones de cinco dígitos del apéndice

B.6. Suponga que se trata de 10 muestras aleatorias de cinco valores cada una.
Determine la media de cada muestra y trace una gráfica similar a la 8-3. Compare
la media de la distribución muestral de las medias con la media poblacional.
Solución:
Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5

0 2 7 1 1
9 4 8 7 3
5 4 9 2 1
7 7 6 4 0
6 1 5 4 5
Media 5,4 3,6 7 3,6 2

1 7 1 4 7
1 3 7 4 8
8 7 4 5 5
0 8 9 9 9
7 8 8 0 4
Media 3,4 6,6 5,8 4,4 6,6
Xi 1 2 3 4 5 6 7 8 9 10
Media
muestral 5,4 3,6 7 3,6 2 3,4 6,6 5,8 4,4 6,6
Media poblacional= 4,84
2. Scrapper Elevator Company tiene 20 representantes de ventas, que distribuyen su

producto en Estados Unidos y Canadá. La cantidad de unidades que el mes pasado
vendió cada representante se incluye a continuación. Suponga que estas cifras
representan los valores de la población.
a) Trace una gráfica que muestre la distribución de la población.

b) Calcule la media de la población.
c) Seleccione cinco muestras aleatorias de 5 cada una. Calcule la media de cada muestra.
Utilice los métodos descritos en el capítulo y en el apéndice B.6 para determinar los
elementos que deben incluirse en la muestra.
d) Compare la media de la distribución muestral de medias con la media poblacional.
¿Esperaría que los dos valores fueran aproximadamente iguales?
e) Trace un histograma de las medias muestrales. ¿Nota alguna diferencia en la forma de
la distribución
Solución:
Media poblacional= 3.3
Cinco muestras aleatorias de 5 elementos cada una.

2 4 2 3 3
3 2 7 3 2
2 4 3 3 3
3 3 4 3 3
3 2 5 5 4
Medias 2,6 3 4,2 3,4 3
Media
poblacional 3,3 3,3 3,3 3,3 3,3
Tabla de frecuencias de las medias muestrales (5 muestras)

Xi 2,6 3 3,4 4,2
Medias
muestrales 1 2 1 1
Medias muestrales
2,5
1,5
0,5
0
2,6 3 3,4 4,2
3. Arm and Hammer Company desea cerciorarse de que su detergente para lavandería
contiene realmente 100 onzas líquidas, como indica la etiqueta. Los registros de los
procesos de llenado indican que la cantidad media por recipiente es de 100 onzas
líquidas y que la desviación estándar es de 2 onzas líquidas. A las diez de la mañana
el técnico de calidad realiza la verificación de 40 recipientes y encuentra que la
cantidad media por recipiente es de 99.8 onzas líquidas. ¿Debe interrumpir el
proceso de llenado, o el error de muestreo es razonable?
Solución
El error de muestreo 100-99,8=0,2
99,8 − 100
z=
2
√40
Z = −0.63
P= 0.2357
4. A.C. Nielsen Company proporciona información a las empresas que se anuncian en

televisión. Las investigaciones indican que, en promedio, los adultos
estadounidenses ven televisión 6.0 horas al día. La desviación estándar es de 1.5
horas. En el caso de una muestra de 50 adultos que viven en el área de Greater de
Boston, ¿sería razonable seleccionar al azar una muestra y encontrar que en
promedio ven 6.5 horas al día?
6,5 − 6
z=
1,5
√50
Z = 2,36
P= 0.4909
VIDEOS DE LA SEMANA N°
Usted puede ver los videos que sirven como apoyo a las actividades de aprendizaje correspondiente:
https://www.youtube.com/watch?v=EC1bTDBz46k
https://www.youtube.com/watch?v=-lgvcerAu0s
LEY DE LOS GRANDES NUMEROS

Ver el documento: https://bookdown.org/aquintela/EBE/las-leyes-de-los-grandes-
numeros.html
Video: https://www.youtube.com/watch?v=6wA1VUhqTPE
A medida que aumentamos n= el número de lanzamientos, se aproxima la media
poblacional a la E (X), la media muestral tiende a aproximarse a la media poblacional en la
medida que repetimos el experimento mayor número de veces, es decir mientras más
datos tengamos sobre la muestra mejores estimaciones tendremos
DISTRIBUCIONES EN EL MUESTREO
La estadística de una muestra (el promedio) de “n” elementos es muy probable que sea diferente a
la estadística (el promedio) de otra muestra de igual número de elementos obtenida de la misma
población porque al menos uno de los elementos de las dos muestras será diferente,
consecuentemente, habrá tantas estadísticas (promedios) como muestras posibles se pueden
formar y la estadística o valor muestral constituye en variable aleatoria.
Existen nCr muestras posibles de igual número de elementos sin reemplazo y N^n con reemplazo; y
cada muestra tiene su probabilidad de ocurrencia, sin reemplazo
Distribución en el muestreo del promedio muestral:
A la distribución de probabilidad de los promedios de todas las muestras posibles se le conoce

como la “Distribución en el muestreo de medias”. Esta distribución es normal si la población de
origen esta normalmente distribuida:
µ = ∑(𝑥̅/n) y que 𝜎ẋ= 𝜎

√𝑛
Si la población de origen no está normalmente distribuida la distribución en el muestreo del

promedio muestral se aproxima a la distribución normal a medida que el tamaño de la muestra se
incrementa en virtud del Teorema Central del Límite de forma que:
µ = E(𝑥̅) y que
El Teorema Central del Límite y la ley de los grandes números expresan que a medida que el
tamaño de la muestra “n” aumenta el valor del estimador se aproxima al valor poblacional y el error
estándar de la media muestral se aproxima a cero. Permite hacer inferencias con respecto a los
parámetros poblacionales sin conocer la forma de distribución de los valores de esa población.
Si la población de origen es finita y se realiza un muestreo sin reemplazo el error estándar de la

distribución en el muestreo del promedio debe ponderarse por el factor de corrección para
población finita
Para calcular la probabilidad de obtener promedios muestrales entre determinados valores

utilizaremos la estadística “Z” donde:
Z=
Donde:
Distribución en el muestreo de la proporción poblacional:
Se define como proporción al cociente entre el número de elementos que poseen determinada
característica y el número total de elementos. Se representa por “π” para los valores
poblacionales y por “p” para los valores muestrales.
p
La distribución en el muestreo de la proporción muestral se aproxima a la distribución normal a
medida que el tamaño de la muestra tiende al infinito y se verifica que:
P = E(p) y que
No hay que olvidar lo que se mencionó anteriormente. Si la población de origen es finita y se
realiza un muestreo sin reemplazo el error estándar de la distribución en el muestreo del
promedio debe ponderarse por el factor de corrección para población finita caso contrario se
omite, sin embargo, este factor tiende a la unidad
Se pueden obtener probabilidades de ocurrencia para ciertos valores de la población muestral

mediante la estadística “Z” donde:
Z=
Distribución Muestral de Medias
Ejercicios del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel
(2015) Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México,
página 279, 9-10
1. El despacho de abogados Tybo and Associates consta de seis socios. En la

siguiente tabla se incluye el número de casos que en realidad atendió cada socio
en los tribunales durante el mes pasado.
a) ¿Cuántas muestras de 3 son posibles?

b) Enumere todas las muestras posibles de 3 y calcule el número medio de casos en cada
muestra.
c) Compare la media de la distribución muestral de las medias con la de la media
poblacional. d ) En una gráfica similar a la 8-1, compare la dispersión en la población
con la de las medias muestrales.
Población: 3 6 3 3 0 1 µ= 2,7
δ2= 3,6
Muestras 6C3=20 Medias
1 3 6 3 4,0
2 3 6 3 4,0
3 3 6 0 3,0
4 3 6 1 3,3
5 3 3 3 3,0
6 3 3 0 2,0
7 3 3 1 2,3
8 3 3 0 2,0
9 3 3 1 2,3
10 3 0 1 1,3
11 6 3 3 4,0
12 6 3 0 3,0
13 6 3 1 3,3
14 6 3 0 3,0
15 6 3 1 3,3
16 6 0 1 2,3
17 3 3 0 2,0
18 3 3 1 2,3
19 3 0 1 1,3
20 3 0 1 1,3

Xi fi Pi XiPi
1,3 3 0,15 0,2
2,0 3 0,15 0,3
2,3 4 0,2 0,47
3,0 4 0,2 0,6
3,3 3 0,15 0,5
4,0 3 0,15 0,6
Sumatorias 20 1 2,67

5
0
1,3 2,0 2,3 3,0 3,3 4,0
2. Mid-Motors Ford tiene cinco vendedores. Los cinco representantes de ventas y el
número de automóviles que vendieron la semana pasada son los siguientes:
a) ¿Cuántas muestras de tamaño 2 son posibles?

b) Enumere todas las muestras posibles de tamaño 2 y calcule la media en cada muestra.
c) Compare la media de la distribución muestral de la media con la de la media poblacional.
d ) En una gráfica similar a la 8-1, compare la dispersión de la población con la de la
media de la muestra.
Población:
3 6 3 3 0 1 µ= 2,7
δ2= 3,6
Muestras 6C2=15 Medias
1 3 6 4,5
2 3 3 3,0
3 3 3 3,0
4 3 0 1,5
5 3 1 2,0
6 6 3 4,5
7 6 3 4,5
8 6 0 3,0
9 6 1 3,5
10 3 3 3,0
11 3 0 1,5
12 3 1 2,0
13 3 0 1,5
14 3 1 2,0
15 0 1 0,5
Xi fi Pi XiPi
0,5 1 0,07 0,03
1,5 3 0,2 0,3
2 3 0,2 0,4
3 4 0,27 0,8
3,5 1 0,07 0,23
4,5 3 0,2 0,9
Sumatorias 15 1 2,67
Distribución Poblacional
3,5
3
2,5
2
1,5
1
0,5
0
0 1 36
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0,5 1,5 2 3 3,5 4,5
Distribución muestral de proporciones
5. El 75% de los estudiantes fuman cigarrillos frecuentemente. Si tomamos una

muestra de 100 estudiantes, Cuál es la probabilidad de que la proporción de la
muestra de personas que fuma cigarrillos sea menor que 0.65
𝑝−𝜋
𝑍=
𝜎𝑝
𝑝−𝜋
𝑍=
√𝜋 ∗ (1 − 𝜋)
𝑛
0.65 − 0.75
𝑍= = −2.3094
√0.75 ∗ 0.25
100
P(X<0.65)= 0.0104
6. Se sabe que la verdadera proporción de artículos defectuosos fabricados en una

empresa es del 5% en una población 500 artículos, sabiendo esto encuentre la
probabilidad de que una muestra de tamaño 70, tenga más del 2% pero menos del
6% de artículos defectuosos
𝑝−𝜋
𝑍=
𝜎𝑝
𝑝−𝜋
𝑍=
√𝜋 ∗ (1 − 𝜋) ∗ √𝑁 − 𝑛
𝑛 𝑁−1
0.02 − 0.05
𝑍= = −1.2406
√0.05 ∗ 0.95 ∗ √500 − 70
70 500 − 1
0.06 − 0.05
𝑍= = 0.4135
√0.05 ∗ 0.95 ∗ √500 − 70
70 500 − 1
P( 2<X<6)= 0.3925+0.1591=0.5530
ESTIMACIÓN
 Estimación puntual
 Estimación por intervalos
Estimación Puntual:
Estima el valor poblacional con un solo punto deducido de observaciones muestrales.
Un buen estimador debe ser:
 Insesgado (Imparcial): El valor esperado del estimador sea igual al valor poblacional.
 Consistente (Coherencia): Al aumentar el tamaño de la muestra el valor del
estimador se aproxima al del parámetro y el error del estimador tiende a cero.
 Eficiente: Es el estimador de menor error estándar.
 Suficiente: que utilice toda la información que proporciona la muestra.
Estimación por intervalos:
Estima el valor del parámetro mediante un intervalo aleatorio cuyos límites son funcionales
de las observaciones muestrales.
El analista debe fijar al nivel de confianza (1 – α) con el que se desea establecer el intervalo
de confianza por lo general se fija en el 90%, 95% ó 99%. (En Excel las probabilidades van
del punto al infinito más lejano) El valor α indica la probabilidad de error que podemos
cometer en el proceso de estimación. En general el intervalo de confianza para un
parámetro se determina por:
𝐿𝑠𝑖 = θ ± K * es(θ)
En donde: 𝐿𝑠𝑖 = Límite superior e inferior de confianza
Θ = Estimador
K = Coeficiente de confianza
𝜎 𝑁−𝑛
es(θ) = Error estándar del estimador αx =̅ √
√𝑛 𝑁−1
INTERVALO DE CONFIANZA PARA EL PROMEDIO
Para muestras relativamente grandes n ≥ 30 elementos, el intervalo de confianza se calcula
mediante:
𝐿𝑠𝑖 = 𝑥̅ ± Zα/2 es(𝑥̅ ) tal que:
P=(𝑥̅ - Zα/2 es(𝑥̅ ) ≤ 𝑢≤ 𝑥̅ +Zα/2 es(𝑥̅ ))
En donde: 𝐿𝑠𝑖 = Límite superior e inferior del promedio
𝑥̅ = Promedio muestral estimador
Zα/2 = Coeficiente de confianza, con el test Z bilateral
es(𝑥̅ ) = Error estándar del promedio muestral
Para muestras menores a 30 elementos se utilizará la distribución “t” como elemento de
cálculo para el coeficiente de confianza.
𝐿𝑠𝑖 = 𝑥̅ ± tα/2 es(𝑥̅ )
P ( 𝑥̅ - tα/2 es(𝑥̅ ) ≤ 𝑢̅ ≤𝑥̅ +tα/2 es(𝑥̅ ) )
𝑥̅ = Promedio muestral estimador
tα/2 = Coeficiente de confianza, con el test t bilateral
es(𝑥̅ ) = Error estándar del promedio muestral
Estimación de medias poblacionales
Ejercicios 8 y 14, página 305 y 313, del texto guía: LIND Douglas,MARCHAL
William, WATHEN Samuel (2015) Estadística Aplicada a los negocios y a la
Economías; Mc Graw Hill, México.
1. La doctora Patton es profesora de inglés. Hace poco contó el número de

faltas de ortografía que cometió un grupo de estudiantes en sus ensayos.
Observó que la distribución de las faltas de ortografía por ensayo se regía
por la distribución normal con una desviación estándar de 2.44 palabras por
ensayo. En su clase de 40 alumnos de las 10 de la mañana, el número medio
de palabras con faltas de ortografía fue de 6.05. Construya un intervalo de
confianza de 95% del número medio de palabras con faltas de ortografía en
la población de ensayos.
𝛿 = 2,44
𝑛 = 40
x̅ = 6,05
Β = 95%
𝛿
x̅ ± 𝑍𝛼
2 √𝑛
2,44
6,05 ± 1,96
√40
6,05 ± 0,7210
5,329- 6,771
2. Greater Pittsburgh Area Chamber of Commerce desea calcular el tiempo

medio que los trabajadores que laboran en el centro de la ciudad utilizan para
llegar al trabajo. Una muestra de 15 trabajadores revela las siguientes
cantidades de minutos de viaje.
Construya el intervalo de confianza de 98% de la media poblacional. Interprete el

resultado.
Solución:
Tiempo.M 29 38 38 33 38 21 45 34 40 37 37 42 30 29 35
x̅ = 35,1
S= 6,02
𝑛 = 15
Β = 98%
𝑆
x̅ ± 𝑡𝛼 ,𝑣
2 √𝑛
6,02
35,1 ± 2,6245
√15
35,1 ± 4.0794
31,0206- 39.1794
INTERVALO DE CONFIANZA PARA PROPORCIONES

Para muestras relativamente grandes n ≥ 30 elementos, el intervalo de confianza se calcula
mediante:
𝐿𝑠𝑖 = p ± Zα/2 es(p) tal que:
P (Li ≤ π ≤ Ls )

𝑝 = Proporción muestral estimador
Zα/2 = Coeficiente de confianza, test Z bilateral
𝑝𝑞 𝑁−𝑛
es(𝑝) = Error estándar del proporción muestral αp ̅ = √ 𝑛 √ 𝑁−1
Método 2 (libro de Walpole pg 297)
Ejercicio propuesto del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel
(2015). Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México. Página
316 ejercicio 18
La empresa X, compra tazas de plástico para imprimir en ellas logotipos de eventos
deportivos, graduaciones, cumpleaños u otras ocasiones importantes. El propietario de la
empresa, recibió un envío grande esta mañana. Para asegurarse de la calidad del envío,
seleccionó una muestra aleatoria de 300 tazas. Halló que 15 estaban defectuosas.
a) ¿Cuál es la proporción aproximada de tazas defectuosas en la población?
b) Construya el intervalo de confianza de 95% de la proporción de tazas defectuosas.
c) Zack llegó con su proveedor al acuerdo de que devolverá lotes con 10% o más de artículos
defectuosos.
¿Debe devolver este lote? Explique su decisión.
𝑃 = 15/300
𝑛 = 300
Β = 95%
Solución:
a. P=0.05
𝑝𝑞
b. p ± 𝑍𝛼 √ 𝑛
2
0.05∗0.95
0,05 ± 1,96 √ 300
0,05 ± 0.0247
0.0253- 0.0747
c. No debe devolver el lote
Aplicación en Excel
EJERCICIO del libro Estadística y Muestreo de Ciro Martínez Begarano
1. Se realizó una encuesta a 10 familias, siguiendo un muestreo aleatorio simple, se
quiere estimar para una población de 1200 familias
Se sugiere se realice una estimación puntual y por intervalos
a. El Promedio de personas por familia
b. Gasto en alimentación por personas
c. Proporción de familias con suscripción al periódico
Familias Número de Ingresos Gastos Suscripción al

personas periódico
1 2 2620 820 Si
2 3 1840 960 No
3 3 1930 1010 N0
4 5 1450 760 No
5 4 2620 1220 Si
6 7 3010 1130 Si
7 2 2420 1040 No
8 4 2620 1230 No
9 2 2210 1020 Si
10 5 2060 1020 N0
DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA
Determinación del tamaño de muestra para estimar la media y proporción poblacional
Determinar el tamaño de la muestra depende del planteamiento del problema, la población, los
objetivos y el propósito de la investigación, de la variabilidad. Además se debe tomar en
consideración la disponibilidad de los recursos y el tiempo.
La fórmula del error de estimación para estimar las medias y proporciones se puede utilizar de tal
forma que sea posible determinar el valor de la muestra (n)
- Al aumentar el error se disminuye n

- Disminuir el nivel de confianza disminuye n
Intervalo de confianza para medias
𝐿𝑠𝑖 = 𝑥̅ ± ZZα/2 es(𝑥̅))

α/2 es(𝑥̅
e=Error estándar de estimación (máx tolerable)
Intervalo de confianza para proporciones
𝐿𝑠𝑖 = p ± ZZα/2
α/2 es(p)
es(p)
e=Error estándar de estimación (máx tolerable)
Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:
1. Tamaño de la población. (en poblaciones finitas)

2. Nivel de confianza.
3. La desviación estándar.
Fórmulas:
 z 
2
Para poblacióninf inita 2 pq
n       n  z 2
 e  e
z 2 2 N Para poblacion finita z 2 qpN

n 2 2 2  n 
z   e ( N  1) ( N  1)e 2  z 2 pq
Donde
σ = Parámetro a nivel de una población (desviación típica)
s = Estadígrafo a nivel de una muestra (desviación típica)
e = Error de estimación
z = Nivel de confianza
N = Tamaño de la población
P = Probabilidad de éxito
q= Probabilidad de fracaso
 El nivel de confianza se simboliza con β pero se la debe transformar a niveles de z

 z es conveniente trabajar con un 95% hasta un 99% de confianza
 e es conveniente trabajar hasta con un 10% de error
 P y Q cuando se desconoce se trabajar con un 50% y 50%, respectivamente que son
consideradas como probabilidades máximas.
Ejercicios resueltos:
1. Nivel de confianza =95% Z=1.96
Nivel de confianza = 99% Z=2.57
N=920
P=50%
q=50%
e=5%
z 2 qpN
n
( N  1)e 2  z 2 pq
(1.96 2 )(0.5)(0.5)(920)
n
(920  1)(0.05) 2  (1.96 2 )(0.5)(0.5)
n= 272
(2.57 2 )(0.5)(0.5)(920)
n
(920  1)(0.05) 2  (2.57 2 )(0.5)(0.5)
n=385
2. Que tamaño de muestra será necesario para producir un intervalo de 90% en el caso de la
media de la población verdadera, con un error de 1 en cualquier sentido, si la desviación
estándar de la población es 10.
Nivel de confianza =0.90
z = 1.64
e=1
σ = 10
 z 
2
n 
 e 
2
 1.64 x 10 
n   268.96  269
 1 
Interpretación. El tamaño de la muestra es de 269 con un 90% de confianza.
3. Qué tamaño de muestra será necesaria para obtener un intervalo de confianza del 95%
para la proporción de la población si el error es de 0.08
Nivel de confianza= 95%
Z = 1.96
e = 0.08
PQ
n  z2
e2
(1.96) 2 (0.5 x0.5)

n  150.06
(0.08) 2
ESTIMACIÓN POR INTERVALOS DE DIFERENCIA DE MEDIAS, CON DOS MUESTRAS

Muestras Independientes
Muestras grandes
µ1-µ2= 1- 2+/-Z*σ 1- 2
Donde:
𝜎12 𝜎22
𝜎ẋ1−ẋ2 = √ +
𝑛1 𝑛2
σ=S
Interpretación: si los intervalos incluyen el 0, entonces no hay diferencia estadística significativa

que los grupos sean diferentes, entonces los grupos son iguales
Muestras pequeñas
µ1-µ2= 1- 2+/-t*S 1- 2
Varianzas son igual

𝑆21 ( 𝑛1 −1)+ 𝑆22 ( 𝑛2 −1)
Sp2 = 𝑛1 + 𝑛2 −2
2 2
S 1- 2 = √ 𝑆𝑝 + 𝑆𝑝
𝑛1 𝑛2
gl=n1+n2-2
Varianzas diferentes
2 2
S 1- 2 = √ 𝑆1 + 𝑆2
𝑛1 𝑛2
𝑆2 𝑆2
( 1 + 2 )2
𝑛1 𝑛2
gl = 𝑆2 𝑆2
( 1 )2 ( 𝑛 2 )2
𝑛1
+ 2
( 𝑛1 −1) ( 𝑛2 −1)
Se aproxima al inmediatamente anterior
Muestras dependientes o pareadas
∑ 𝑑 2 −𝑛 (𝑑̅ )2
Donde: Sd= √ 𝑛−1
gL = n – 1
INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES
Donde:
PRUEBAS DE HIPÓTESIS
La prueba de significación y la estimación son dos de las ramas principales de la inferencia

estadística. EL objetivo de la estimación es calcular el valor de cierto parámetro de la población
mientras que la finalidad de las pruebas hipótesis o de significación es evaluar si una afirmación
acerca del parámetro es verdadero.
Hipótesis es una proposición, una suposición o una conjetura probable no probada sobre algo en
particular
Según el folleto Introducción al Análisis de Experimentos de Cisneros Oscar las hipótesis se clasifican
y tienen la siguiente estructura:
Clasificación de las Hipótesis
Según el número de variables se clasifican en:
 Hipótesis de una variable: son descriptivas de la conformación estructurada o distribución

temporal o espacial de una variable.
 Hipótesis de dos o más variables: son explicativas de los motivos causas o efectos de los
fenómenos.
Según su naturaleza se clasifican en:
 Hipótesis de sentido común: son aquellas que establecen suposiciones que toda persona
puede verificar de manera simple y directa.
 Hipótesis científicas: son aquellas que se formulan en términos científicos cuya verificación
requiere un procedimiento científico de prueba.
 Hipótesis metafísicas: son aquellas conjeturas cosmológicas teológicas o filosóficas cuya
verificación trasciende de la experiencia científica.
Según su Nivel de Generalidad se clasifican en:
 Hipótesis de investigación o de trabajo: son aquellas referidas a una investigación específica

considerando tiempo, lugar y población.
 Hipótesis abstractas: son aquellas que no tienen ningún nivel de concreción y su verificación
es muy dificultosa o no factible.
Condiciones que se debe observar una Hipótesis

 Debe ser comprensible la expresión que manifiesta la hipótesis debe ser clara y fácilmente
comprensible para cualquier persona.
 Debe ser especifica referente a algo concreto que pueda probarse por si misma o mediante
sub-hipótesis.
 Debe ser verificable mediante técnicas o procedimientos asequibles que permitan realizar
el contraste y comprobar su veracidad o falsedad.
 Debe hallarse en consonancia con teorías precedentes debe apoyarse en leyes teorías o
conceptos anteriormente demostrados.
 Debe poseer un alcance general deben presentar un valor de generalidad en el campo o
sector al que se refiere el problema.
Estructura de la Hipótesis.
En la formulación de una hipótesis deben observarse su estructura desde tres puntos de vista:
científico, gramatical y matemático.
Desde el punto de vista científico deben indicarse las unidades de observación, las variables y los
términos de relación.
Desde el punto de vista gramatical, la unidad de observación es el sujeto de la oración en tanto que
las variables y términos de la relación son el predicado de la misma.
Desde el punto de vista matemático la hipótesis debe expresarse mediante funciones o ecuaciones,
en las que identificado el parámetro de la variable a docimar, este se representa por letras y los
términos lógicos por signos indicativos de las operaciones o relaciones matemáticas.
El objetivo de la prueba de hipótesis o de la dócima de hipótesis es evaluar estadísticamente, con la

evidencia de los datos muestrales las suposiciones de los valores poblacionales. Ejem
Ho: u1=u2=u3
Ho: π=25%
El procedimiento clásico de la prueba de hipótesis establece los siguientes pasos:
1. Formulación de la hipótesis.
2. Fijación de la estadística de prueba
3. Determinación del criterio de decisión
4. Ejecución de los cálculos numéricos y
5. Toma de la decisión.
Tomar una decisión significa “Aceptar” la hipótesis propuesta (hipótesis nula) o “Rechazar” la
hipótesis propuesta (hipótesis nula) y se puede cometer uno de dos errores.
Formulación de la Hipótesis
Hipótesis Nula (Ho): Enunciado que expresa que el parámetro de la población es como se especificó.
Todo lo que se desea probar en la hipótesis se denomina como “Hipótesis Nula” y se representa por
Ho.
Hipótesis Alternativa (H1): Plantea lo contrario de la hipótesis nula. Todo lo contrario, a lo que se
desea probar se denomina “Hipótesis Alternativa” y se representa por H1, HA
La hipótesis alternativa se utiliza para indicar que aspecto de variación no aleatoria resulta de
interés. Existen 3 casos posibles.
Caso 1: Colas bilaterales
La hipótesis es bilateral cuando en la H0 se desea probar que el parámetro es igual a un valor

determinado θ.
H0: θ = θ0
H1: θ ≠ θ0
Caso 2: Cola unilateral izquierda
La hipótesis es unilateral izquierda cuando en la H0 se desea probar que el parámetro es mayor o

igual que un determinado valor θ.
H0: θ ≥ θ0
H1: θ < θ0
Caso 3: Cola unilateral derecha
La hipótesis es unilateral derecha cuando H0 se desea probar que el parámetro es menor o igual que
un valor determinado θ.
H0: θ ≤ θ0
H1: θ > θ0
NOTA: La hipótesis nula solamente se puede plantear en términos de igualdad (=), >, <, no de
diferente (≠)
Ejemplos
Pruebe si el promedio del rendimiento de los estudiantes es 5
Ho: μ = 5
H1: μ ≠ 5
El porcentaje de las personas que aprueban el curso = 70% (Proporciones)
Ho = π = 70%
H1 = π ≠ 70%
Fijación de la estadística de prueba:
Determinar la estadística que se usará para establecer la significación de la hipótesis planteada, está
en función:
 Del estimador
 Tamaño de la muestra
 La distribución en el muestreo del estimador.
Mencionamos algunos test: z, t, x², F
Valor medio Media propuesta


de la muestra o poblaciona l
Valor estadística de p 
Erroresdel adistribuc ionmuestral
media ( x) o Pr oporciones ( P)
Distribución Z
x
Zc 
x
Distribución t
x
tc 
Sx
Proporciones
𝑝−𝛱
𝑍𝑐 =
𝜎𝑝
Nivel de significación (α)
Este nivel de significación se simboliza como (α) (alfa) y viene a ser la zona de rechazo de la hipótesis
nula, α marca la zona de rechazo de la hipótesis nula
Determinación del criterio de decisión:
El criterio de decisión divide a la distribución del estimador en una zona de aceptación de la Ho y en

una zona de rechazo de la Ho. La ubicación de la zona de rechazo depende de la formulación de la
hipótesis.
Ejemplo:
Establece un límite, un valor a partir del cual se puede rechazar la hipótesis nula
ZRHo
ZAHo
ZRHo ZRHo
α/ 2 α/ 2
ZRH0 : Zona de rechazo de la hipótesis nula
ZAH0 : Zona de aceptación de la hipótesis nula
PRUEBA DE HIPÓTESIS PARA EL PROMEDIO
Formulación de la hipótesis:
H0: µ = µ0 H0: µ ≤ µ0 H0: µ ≥ µ0
H1: µ ≠ µ0 H1: µ > µ0 H1: µ < µ0
Fijación de la estadística de prueba
Cuando n ≥ 30 Cuando n ≤ 30
̅−𝝁
𝒙 ̅−𝝁𝜶
𝒙
Zc = ∝𝒙
tc = ∝𝒙
𝐿𝑠𝑖 = µ0 ± Zα/2es(𝑥̅ ) 𝐿𝑠𝑖 = µ0 ± tα/2,ves(𝑥̅ )
Determinación del criterio de decisión
Para todos los casos el criterio será:
Rechazar la Ho Si:
Cuando n ≥ 30
|Zc| ≥ Zα/2 Zc ≥ Zα Zc ≤ -Zα
𝑥̅ ≥ µ0 + Zα/2es(𝑥̅ ) 𝑥̅ ≥ µ0 + Zαes(𝑥̅ ) 𝑥̅ ≤ µ0 - Zα/2es(𝑥̅ )
𝑥̅ ≤ µ0 - Zα/2es(𝑥̅ )
Cuando n < 30
|tc| ≥ tα/2v tc ≥ tαv tc ≤ -tαv
𝑥̅ ≥ µ0 + tα/2ves(𝑥̅ ) 𝑥̅ ≥ µ0 + tαves(𝑥̅ ) 𝑥̅ ≤ µ0 - tα/2ves(𝑥̅ )
𝑥̅ ≤ µ0 - tα/2ves(𝑥̅ )
PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN
Formulación de la hipótesis
H0: π = π 0 H0: π ≤ π 0 H0: π ≥ π 0
H1: π ≠ P0 H1: π > π 0 H1: π < π 0
Cuando n ≥ 30
Para n ≥ 30
p−π
Zc =
𝑃 𝑄
√ 0 0
𝑛
El error estándar de la dist muestral de proporciones se trabaja con la proporción

poblacional
𝐿𝑠𝑖 = P0 ± Zα/2 * es(p)
Rechazar la Ho Si:
𝑝 ≥ P0 + Zα/2es(𝑝) 𝑝 ≥ P0 + Zαes(𝑝) 𝑝 ≤ P0 - Zα/2es(𝑝)
𝑝 ≤ P0 - Zα/2es(𝑝)
Ejercicios del texto: STEVENSON, Willian J; (1978); Estadística para Administración y Economías;
Harla México.
. En la Provincia de Cotopaxi el porcentaje de analfabetos es el 40%. El Ministerio de Educación ha

creado un programa especial de educación de adultos, que tiene como objeto disminuir el
porcentaje de analfabetos en la provincia una vez transcurrido el año queremos ver si el programa
ha dado resultado, entonces tomamos una muestra de 50 personas de las cuales 18 resultaron ser
analfabetos usando un nivel de significación del 5%, probar si e programa tuvo o no éxito.
1) Planteamiento de hipótesis
Ho : π = 40
H1 : π < 40
Ho: La proporción de analfabetos en la Prov. Cotopaxi es del 40%
H1: La proporción de analfabetos en la Prov. Cotopaxi es < al 40%
Es decir el programa que imparte el Ministerio de Educación es bueno
2) Estadística de Prueba
P
Zc 
p
P
Zc 
PQ
n
0.36  0.40

0.36 x 0.64
50
0.04
  0.5893
0.067
3) Determinar el nivel de significación
α = 5% B = 95%
4) Criterio de decisión
ZRHo
B
0.95
ZRHo
Z7 ZcX
-1.64 -0.5893
5) Desición
Acepto Ho => El programa no tuvo efectos se sugiere realizar otro tipo de programas
. El peso promedio de un lote de pollos de carne era de 2.1 Kg. Durante el último periodo de engorde,
se probó un alimento balanceado, que se cree que aumentó el peso promedio de los pollos, esto se
quiere probar, utilizando un nivel de significación del 5% al obtener una muestra de 50 pollos se
obtuvo que el peso medio fue de 2.2 Kg. Y una desviación de 0.8
1) Planteamiento de Hipótesis
Ho: µ = 2.1 El peso de los pollos de carne es de 2.1 Kg.
HA: μ > 2.1 El peso promedio de los pollos de carne es > 2.2 Kg.
x
Zc 
s
n
2.2  2.1

0.8
50
0.10
  0.8839
0.1131
α = 5% B= 95%
ZAHo ZRHo
1.64
5) Decisión: AHo, el balanceado no funcionó pues siguen pesando 2.1 Kg. Y el 0.1 Kg que aumentó,
se debe a efectos aleatorios o selección de la muestra.
. Una compañía que vende tiras repelentes contra insectos, asegura que su producto es eficaz, por
lo menos durante 400 horas. Un análisis sobre nueve tiras seleccionadas aleatoriamente indicó un
promedio de 380 horas. Pruebe la aseveración de la compañía respecto a la alternativa de que el
repelente sea eficaz menos de las 400 horas, a un nivel 0.01, si la desviación estándar de la muestra
es 60 horas.
1) Planteo de la hipótesis
Ho: μ = 400 El repelente es eficaz no menos de 400 horas
HA: μ < 400 El repelente es eficaz < 400 horas
x
tc 
s
n
380  400

60
9
 20
  1
20
N = 0.01 α = -9.896 B= 0.99
B
ZRHo
0.99
ZRHo
α
-2.896 X
t7 Z7
5) Decisión
El repelente es eficaz, dura más de 400 horas
. Mediante un proceso de fabricación, se produce alambre de acero con una resistencia media a la
tensión de 200 libras por pulgada cuadrada (psi). La desviación estándar del proceso es 20 psi. El
ingeniero encargado del control de calidad quiere diseñar una prueba que le indique si ha habido o
no un cambio en el promedio del proceso, utilizando un tamaño de muestra de 25 y un nivel de
significación de α = 0.05. Suponga que la población de la resistencia del alambre es
aproximadamente normal
a. Enuncie H0 y H1 para esta prueba.
b. ¿Para qué intervalo de resistencia del alambre, e l proceso se considerará fuera de control (es
decir, se concluirá que la media del proceso ha cambiado a partir de 200 psi)?
a) Planteo Hipótesis
Ho: μ = 200 Se produce alambre con una resistencia de 200 lb.
HA: μ ≠ 200 Se produce alambre con una resistencia diferente de 200 lb.
b) Intervalos
δ = 20
n = 25
α = 0.05
μ = 200
x  z x
 20 
200  1.96 
 25 
200  7.89
207.84
192.16
Interpretación
El alambre de acero se considera fuera de control cuando sale de los intervalos 207.84 y 192.16
ERROR TIPO I Y II
El error de rechazar H0 cuando es verdadera se denomina error TIPO I y la probabilidad de cometerlo

se representa por medio de α (alfa)
El error de aceptar H0 cuando es falsa se conoce como error TIPO II y la probabilidad de cometerlo
se denota por medio de B (la letra griega minúscula)
Acepte H0 Rechace H0
H0 es verdadero Decisión Correcta Error Tipo I
Falso positivo
H0 es falso Error Tipo II Decisión correcta
Falso negativo
Si rechazamos una hipótesis cuando debería ser aceptada entonces se ha cometido un error tipo I,
por otra parte si aceptamos una hipótesis que debería ser rechazada se ha cometido un error Tipo
II, y en ambos casos se ha producido un juicio erróneo.
Para que la regla de decisión o contraste de hipótesis sean buenas deben diseñarse de modo que
minimicen los errores de la decisión, la única forma de disminuir ambos a la vez es aumentar el
tamaño de la muestra que no siempre es posible.
Según el libro de Lind
Potencia de una prueba
Al calcular la potencia de una prueba encontramos qué tan satisfactoria es la prueba para ciertos
valores de la media verdadera
Video: https://www.youtube.com/watch?v=TFCWPLAfREg
Ejercicios de Walpole, página 335, ejercicio 10.15
literal a)
Ho: U=200
H1: U≠200
ZRHo P=0,0359
191 200 209

-1,8 1,8
P= 0,0718 Error tipo I
Literal b)
Ho: U=215
H1: U≠215
191 200 209
P=0,1151
215
209
-1,2
Ejercicio 10.17
Ejercicios de prueba de hipótesis
Ejercicios Libro de Estadística aplicada a los negocios y la economía, William, Marcha
1. Una cadena de tiendas de descuento expide su propia tarjeta de crédito, el gerente de esta
función desea averiguar si el saldo medio mensual es mayor de $ 400. El nivel de significación se fija
en 0.05, una revisión aleatoria de 172 sueldos reveló que la media muestral es de 407 y la desv.
estándar de la muestra es 38
a) Debería concluir el funcionario de crédito que la media poblacional es mayor de 400, o bien es
razonable que la diferencia de 7 obtenida de 407 menos 400 se debe al azar
Solución:
Ho: μ ≤ 400
HA: μ > 400
x
Zc 

n
407  400 7
Zc    2.42
38 2.8974
172
3) α = 0.05 B = 0.95 => Z7 = -1.64
ZAHo
ZRHo
1.64 2.42
X 0.31 Z7 Zc
Zc
Decisión:
Rechazo Ho μ > 400
1. Una cadena de restaurantes (MacBurguer) afirma que el tiempo medio de espera de

clientes por atender está distribuido normalmente, con una media de 3 min. (minutos) y
una desviación estándar de 1 min. El departamento de aseguramiento de calidad halló en
una muestra de 50 clientes en un cierto restaurante, que el tiempo medio de espera era de
2.75 min. Al nivel de significancia de 0.05 ¿Se puede concluir que dicho tiempo es menor
que 3 min?
Ho: μ = 3 La media de tiempo de espera de clientes es de 3 es
HA: μ < 3 La media de tiempo de espera de clientes es menor a 3
x
Zc 

n
2.75  3  0.25
Zc    1.78
1 0.14
50
3) α = 0.05 B = 0.95 => Z7 = -1.64
ZRHo
ZAHo
-1.8 1.64
Ze Z7 X
Decisión
Se rechaza H0, y la media de tiempo es menor a 3
2. Cuando Isabel Benitez fue contatada como camarera en un restaurante, se le dijo: “Puedes
obtener, en promedio, más de $ 20 (dólares) al día por propinas”. A los primeros 35 días de
su trabajo en el restaurante, el importe medio diario de las propinas recibidas fue de $ 24.85
con una desviación estándar de $ 3.24. Al nivel de significancia de 0.01. ¿Puede la señorita
Benitez concluir que está ganando más de $ 20 por las propinas?
Ho: μ = 20 las propinas promedio en el día es de 20$
HA: μ > 20 las propinas promedio en el día es mayor a 20$

x
Zc 

n
24.85  20 4.85
Zc    8.85
3.24 0.54
35
3) α = 0.01 B = 0.99 => Z7 = 2.32

Zalto
ZRHo
2.32 8.85
X Z7 Zc
Decisión
Rechazo Ho La srta. Gana más de $ 20 al día en propinas
Una encuesta nacional reciente halló que estudiantes de bachillerato miraban un promedio (media)
de 6.8 videos por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número
medio de videos observados el mes pasado fue de 6.2 con una desviación estándar de 0.5. En el
nivel de significancia de 0.05. ¿Puede concluirse que los estudiantes de universidad ven menos
videos que los de bachillerato?
Ho: μ = 6.8 Los est. Universitarios ven 6.8 videos promedio al mes
HA: μ < 6.8 Los est. Universitarios ven menos de 6.8 videos promedio al mes
x
Zc 

n
6.2  6.8  0.6
Zc    7.2
0.5 0.083
36
3) α = 0.05 B = 0.95 => Z7 = -1.64

Zalto
ZRHo
-72 -1.64
Zc Z7 X
Decisión
Rechazo Ho Los estudiantes universitarios ven menos de 6.8 videos promedio al mes.
VALOR P
 El valor p de una prueba de hipótesis puede servir como método alternativo para probar
hipótesis.
 El valor p es el nivel más bajo de significancia (valor α) al cual se puede rechazar la hipótesis
nula.
 El valor p se compara con el nivel de significancia seleccionado para tomar una decisión (AH0
o RH0)
Si el valor de p < α → RH0
Si el valor de p ≥ α → AH0
 En curvas bilaterales el valor de p se multiplica por 2, a diferencia de curvas unilaterales.
Prueba de Hipótesis utilizando el valor p
3. Determinar el valor de p: el valor de la estadística de prueba se lleva a valor p
Si el valor de p ≥ α → AH0
Ejercicio resuelto:
H0 : µ < 31000
H1 : µ > 31000

31366−31000
Z= 1894 = 1,93
√100
3. Determinar el valor de p: el valor de la estadística de prueba se lleva a valor p
Valor p = 0,0268
Z= 1,93

0,0268 < 0,05 → RH0
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROMEDIOS
MUESTRAS INDEPENDIENTES
H0: µ1 = µ2 H0: µ1 ≤ µ2 H0: µ1 ≥ µ2
H1: µ1 ≠ µ2 H1: µ1 > µ2 H1: µ1 < µ2
Equivalente:
H0: µ1 - µ2 = 0 H0: µ1 - µ2 ≤ θ0 H0: µ1 - µ2 ≥ θ0
H1: µ1 ≠ µ2 ≠ 0 H1: µ1 - µ2 > θ0 H1: µ1 - µ2 < θ0
Cuando n ≥ 30 Cuando n <30
𝑥̅ 1 − 𝑥̅2 −(𝜇1 − 𝜇2 ) 𝑥̅ 1 − 𝑥̅2 −(𝜇1 − 𝜇2 )

Zc = tc=
𝛿 𝑥̅ 1 − 𝑥̅2 𝑆 𝑥̅1 − 𝑥̅2
𝑥̅ 1 − 𝑥̅2 −(𝜇1 − 𝜇2 )
Zc = Varianzas desiguales
𝛿2 𝛿2
√ 1 + 2
𝑛1 𝑛2
𝑥̅1 − 𝑥̅2 −(𝜇1 − 𝜇2 )
tc =
𝑆 2𝑆 2
√ 1+ 1
𝑛1 𝑛2
2 2
𝑆 𝑆
( 1 + 2 )2
𝑛1 𝑛2
gl =
𝑆2 𝑆2
( 1 )2 ( 𝑛 2 )2
𝑛 1 + 2
( 𝑛1 −1) ( 𝑛2 −1)
Varianzas iguales
𝑥̅1 − 𝑥̅2 −(𝜇1 − 𝜇2 )

tc =
𝑆𝑝2 𝑆𝑝2
√ +
𝑛1 𝑛2
𝑆21 ( 𝑛1 −1)+ 𝑆22 ( 𝑛1 −1)

Sp2 = 𝑛1 + 𝑛2 −2
Para todos los casos el criterio será: Rechazar la Ho si:
Cuando n ≥ 30
|Zc| ≥ Zα/2
Cuando n < 30
|tc| ≥ tα/2,v
PRUEBA DE HIPÓTESIS PARA LA DIFRENCIA DE PROMEDIOS
MUESTRAS DEPENDIENTES O RELACIONADAS
H0 : µd = 0
H1 : µd ≠ 0

𝑑̅ −(𝜇1 − 𝜇2 )
t= 𝑆𝑑
√𝑛
∑ 𝑑𝑖
−( 𝜇1 − 𝜇2 )
𝑛
t=
∑ 𝑑2 −𝑛 (𝑑
̅ )2
√ 𝑛−1
𝑛
gL = n – 1
|tc| ≥ tα/2, v
Ejercicio propuesto del libro: LIND Douglas,MARCHAL William, WATHEN Samuel (2015) Estadística
Aplicada a los negocios y a la Economías; Mc Graw Hill, México.
26. Hace poco, el gobierno federal estadounidense otorgó fondos para un programa especial
diseñado para reducir los delitos en áreas de alto riesgo. Un estudio de los resultados del programa
en ocho áreas de alto riesgo de Miami, Florida, produjo los resultados siguientes.
¿Hubo alguna disminución en el número de delitos desde la inauguración del programa? Utilice el
nivel de significancia 0.01. Calcule el valor p.
Solución:
H0 : µd = 0
H1 : µd ≠ 0

𝑑̅ −(𝜇1 − 𝜇2
t= 𝑆𝑑
√𝑛
∑ 𝑑𝑖
−( 𝜇1 − 𝜇2 )
𝑛
t= =3.625/1.7107 =2.1191
∑ 𝑑2 −𝑛 (𝑑
̅ )2
√ 𝑛−1
𝑛
gL = n – 1 =7
|tc| ≥ tα/2, v
2.1191 < 3.499 Aho
Valor p=0.0782 > 0.01 Aho
PRUEBA DE HIPÓTESIS DE PROPORCIÓN
Formulación de la hipótesis
H0: π = π 0 H0: π ≤ π 0 H0: π ≥ π 0
H1: π ≠ P0 H1: π > π 0 H1: π < π 0
Cuando n ≥ 30
Para n ≥ 30
p−π
Zc =
𝑃 𝑄
√ 0 0
𝑛
El error de la distribución muestra de proporciones se trabaja en función de la población
𝐿𝑠𝑖 = P0 ± Zα/2 * es(p)
Rechazar la Ho Si:
𝑝 ≥ P0 + Zα/2es(𝑝) 𝑝 ≥ P0 + Zαes(𝑝) 𝑝 ≤ P0 - Zα/2es(𝑝)
𝑝 ≤ P0 - Zα/2es(𝑝)
Ejercicios del texto: STEVENSON, Willian J; (1978); Estadística para Administración y Economías;
Harla México.
. En la Provincia de Cotopaxi el porcentaje de analfabetos es el 40%. El Ministerio de Educación ha

creado un programa especial de educación de adultos, que tiene como objeto disminuir el
porcentaje de analfabetos en la provincia una vez transcurrido el año queremos ver si el programa
ha dado resultado, entonces tomamos una muestra de 50 personas de las cuales 18 resultaron ser
analfabetos usando un nivel de significación del 5%, probar si e programa tuvo o no éxito.
1) Planteamiento de hipótesis
Ho : π = 40
H1 : π < 40
Ho: La proporción de analfabetos en la Prov. Cotopaxi es del 40%
H1: La proporción de analfabetos en la Prov. Cotopaxi es < al 40%
Es decir el programa que imparte el Ministerio de Educación es bueno

P
Zc 
p
P
Zc 
PQ
n
0.36  0.40

0.36 x 0.64
50
0.04
  0.5893
0.067
α = 5% B = 95%
ZRHo
B
0.95
ZRHo
Z7 ZcX
-1.64 -0.5893
5) Desición
Acepto Ho => El programa no tuvo efectos se sugiere realizar otro tipo de programas
. El peso promedio de un lote de pollos de carne era de 2.1 Kg. Durante el último periodo de engorde,
se probó un alimento balanceado, que se cree que aumentó el peso promedio de los pollos, esto se
quiere probar, utilizando un nivel de significación del 5% al obtener una muestra de 50 pollos se
obtuvo que el peso medio fue de 2.2 Kg. Y una desviación de 0.8
1) Planteamiento de Hipótesis
Ho: µ = 2.1 El peso de los pollos de carne es de 2.1 Kg.
HA: μ > 2.1 El peso promedio de los pollos de carne es > 2.2 Kg.
x
Zc 
s
n
2.2  2.1

0.8
50
0.10
  0.8839
0.1131
α = 5% B= 95%
ZAHo ZRHo
1.64
5) Decisión: AHo, el balanceado no funcionó pues siguen pesando 2.1 Kg. Y el 0.1 Kg que aumentó,
se debe a efectos aleatorios o selección de la muestra.
. Una compañía que vende tiras repelentes contra insectos, asegura que su producto es eficaz, por
lo menos durante 400 horas. Un análisis sobre nueve tiras seleccionadas aleatoriamente indicó un
promedio de 380 horas. Pruebe la aseveración de la compañía respecto a la alternativa de que el
repelente sea eficaz menos de las 400 horas, a un nivel 0.01, si la desviación estándar de la muestra
es 60 horas.
1) Planteo de la hipótesis
Ho: μ = 400 El repelente es eficaz no menos de 400 horas
HA: μ < 400 El repelente es eficaz < 400 horas
x
tc 
s
n
380  400

60
9
 20
  1
20
N = 0.01 α = -9.896 B= 0.99
B
ZRHo
0.99
ZRHo
α
-2.896 X
t7 Z7
5) Decisión
El repelente es eficaz, dura más de 400 horas
. Mediante un proceso de fabricación, se produce alambre de acero con una resistencia media a la
tensión de 200 libras por pulgada cuadrada (psi). La desviación estándar del proceso es 20 psi. El
ingeniero encargado del control de calidad quiere diseñar una prueba que le indique si ha habido o
no un cambio en el promedio del proceso, utilizando un tamaño de muestra de 25 y un nivel de
significación de α = 0.05. Suponga que la población de la resistencia del alambre es
aproximadamente normal
a. Enuncie H0 y H1 para esta prueba.
b. ¿Para qué intervalo de resistencia del alambre, e l proceso se considerará fuera de control (es
decir, se concluirá que la media del proceso ha cambiado a partir de 200 psi)?
a) Planteo Hipótesis
Ho: μ = 200 Se produce alambre con una resistencia de 200 lb.
HA: μ ≠ 200 Se produce alambre con una resistencia diferente de 200 lb.
b) Intervalos
δ = 20
n = 25
α = 0.05
μ = 200
x  z x
 20 
200  1.96 
 25 
200  7.89
207.84
192.16
Interpretación
El alambre de acero se considera fuera de control cuando sale de los intervalos 207.84 y 192.16
Putos importantes según el libro de Probabilidades y estadística para ingeniería y ciencias de

Walpole:
 Al probar cualquier hipótesis estadística, hay cuatro situaciones posibles que determinan si
nuestra decisión es correcta o errónea
 En ocasiones el nivel de significancia se conoce como tamaño de la prueba.
 Siempre es posible reducir β aumentando el tamaño de la región critica y para reducir α

tenemos que elegir entre aumentar el tamaño de la muestra o ampliar la región de no
rechazo
 La probabilidad de cometer ambos tipos de errores se puede reducir aumentando el tamaño

de la muestra. Los errores tipo I y tipo II rara vez ocurren si el experimento consta de
muestras grandes (100)
 La probabilidad de cometer un error tipo I, o el nivel de significancia de nuestra prueba, es

igual a la suma de las áreas en el caso bilateral
 La potencia de una prueba es la probabilidad de rechazar Ho dado que una alternativa

especifica es verdadera
ERROR TIPO I Y II
El error de rechazar H0 cuando es verdadera se denomina error TIPO I y la probabilidad de cometerlo

se representa por medio de α (alfa)
El error de aceptar H0 cuando es falsa se conoce como error TIPO II y la probabilidad de cometerlo
se denota por medio de B (la letra griega minúscula)
Hay cuatro situaciones posibles que determinan si la decisión es correcta o no, resumidas en la
siguiente tabla:
Acepte H0 Rechace H0
H0 es verdadero Decisión Correcta Error Tipo I
H0 es falso Error Tipo II Decisión correcta
Si rechazamos una hipótesis cuando debería ser aceptada entonces se ha cometido un error tipo I,
por otra parte si aceptamos una hipótesis que debería ser rechazada se ha cometido un error Tipo
II, y en ambos casos se ha producido un juicio erróneo.
Para que la regla de decisión o contraste de hipótesis sean buenas deben diseñarse de modo que
minimicen los errores de la decisión, la única forma de disminuir ambos a la vez es aumentar el
tamaño de la muestra que no siempre es posible.
Ejercicios Libro de Estadística aplicada a los negocios y la economía, William, Marcha
1. Una cadena de tiendas de descuento expide su propia tarjeta de crédito, el gerente de esta
función desea averiguar si el saldo medio mensual es mayor de $ 400. El nivel de significación se fija
en 0.05, una revisión aleatoria de 172 sueldos reveló que la media muestral es de 407 y la desv.
estándar de la muestra es 38
a) Debería concluir el funcionario de crédito que la media poblacional es mayor de 400, o bien es
razonable que la diferencia de 7 obtenida de 407 menos 400 se debe al azar
Solución:
Ho: μ ≤ 400
HA: μ > 400

x
Zc 

n
407  400 7
Zc    2.42
38 2.8974
172
3) α = 0.05 B = 0.95 => Z7 = -1.64
ZAHo
ZRHo
1.64 2.42
X 0.31 Z7 Zc
Zc
Decisión:
Rechazo Ho μ > 400
1. Una cadena de restaurantes (MacBurguer) afirma que el tiempo medio de espera de

clientes por atender está distribuido normalmente, con una media de 3 min. (minutos) y
una desviación estándar de 1 min. El departamento de aseguramiento de calidad halló en
una muestra de 50 clientes en un cierto restaurante, que el tiempo medio de espera era de
2.75 min. Al nivel de significancia de 0.05 ¿Se puede concluir que dicho tiempo es menor
que 3 min?
Ho: μ = 3 La media de tiempo de espera de clientes es de 3 es
HA: μ < 3 La media de tiempo de espera de clientes es menor a 3

x
Zc 

n
2.75  3  0.25
Zc    1.78
1 0.14
50
3) α = 0.05 B = 0.95 => Z7 = -1.64
ZRHo
ZAHo
-1.8 1.64
Ze Z7 X
Decisión
Se rechaza H0, y la media de tiempo es menor a 3
2. Cuando Isabel Benitez fue contatada como camarera en un restaurante, se le dijo: “Puedes
obtener, en promedio, más de $ 20 (dólares) al día por propinas”. A los primeros 35 días de
su trabajo en el restaurante, el importe medio diario de las propinas recibidas fue de $ 24.85
con una desviación estándar de $ 3.24. Al nivel de significancia de 0.01. ¿Puede la señorita
Benitez concluir que está ganando más de $ 20 por las propinas?
Ho: μ = 20 las propinas promedio en el día es de 20$
HA: μ > 20 las propinas promedio en el día es mayor a 20$
x
Zc 

n
24.85  20 4.85
Zc    8.85
3.24 0.54
35
3) α = 0.01 B = 0.99 => Z7 = 2.32
Zalto
ZRHo
2.32 8.85
X Z7 Zc
Decisión
Rechazo Ho La srta. Gana más de $ 20 al día en propinas
Una encuesta nacional reciente halló que estudiantes de bachillerato miraban un promedio (media)
de 6.8 videos por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número
medio de videos observados el mes pasado fue de 6.2 con una desviación estándar de 0.5. En el
nivel de significancia de 0.05. ¿Puede concluirse que los estudiantes de universidad ven menos
videos que los de bachillerato?
Ho: μ = 6.8 Los est. Universitarios ven 6.8 videos promedio al mes
HA: μ < 6.8 Los est. Universitarios ven menos de 6.8 videos promedio al mes
x
Zc 

n
6.2  6.8  0.6
Zc    7.2
0.5 0.083
36
3) α = 0.05 B = 0.95 => Z7 = -1.64

Zalto
ZRHo
-72 -1.64
Zc Z7 X
Decisión
Rechazo Ho Los estudiantes universitarios ven menos de 6.8 videos promedio al mes.
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROPORCIONES
H0: π1 = π2 H0: π1 ≤ π2 H0: π1 ≥ π2
H1: π1 ≠ π2 H1: π1 > π2 H1: π1 < π2
Equivalente:
H0: π1 - π2 = 0 H0: π1 - π2 ≤ θ0 H0: π1 - π2 ≥ θ0
H1: π1 - π2 ≠ 0 H1: π1 - π2 > θ0 H1: π1 - π2 < θ0

𝒑𝟏 − 𝒑𝟐 −(𝝅𝟏 − 𝝅𝟐 )
Zc = 𝜹𝒑𝟏−𝒑𝟐
𝒑𝟏 − 𝒑𝟐 −(𝝅𝟏 − 𝝅𝟐 )
Zc = 𝑷𝒄(𝟏−𝑷𝒄) 𝑷𝒄(𝟏−𝑷𝒄)
√ +
𝒏𝟏 𝒏𝟐
Relación proporcional combinada

𝑋 +𝑋 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠
Pc = 𝑛1 + 𝑛2 = 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑒𝑛 𝑙𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
1 2
Para todos los casos el criterio será: Rechazar la Ho si
|Zc| ≥ Zα/2
DISTRIBUCIÓN F
DISTRIBUCIÓN F DE FISHER
• Recibió el nombre en honor a Ronald Fisher
• La distribución F es el cociente entre dos variables, ji cuadrado dividas por sus grados de
libertad
• F= Varianza/Varianza
• La distribución F es siempre positiva
• La distribución de la variable es asimétrica positiva, mientras aumentan los grados de

libertad del numerador y denominador su asimetría disminuye
• Los grados de libertad están asociados con el numerador y denominador
La distribución F se utiliza en diseños experimentales, permite hacer cálculos de varianzas,

determinando si las medias de más de dos muestras son iguales o diferentes.
Uso de la tabla de F del análisis de variancia (ANOVA)
La tabla F en honor a Ronal Fisher contiene el valor tabular, ubicando los grados de libertad del
numerador , parte superior horizontal y el denominador que se ubica en la columna lateral de la
tabla, utilizando el nivel de confianza del 0.05 o 0.01 se puede utilizar la tabla siguiente:
PRUEBA DE HIPÓTESIS DE LA COMPARACIÓN DE DOS VARIANZAS POBLACIONALES
H0 : 𝛿12 = 𝛿22
H1 : 𝛿12 ≠ 𝛿22

𝑆12
Razón F = 𝑆12 > 𝑆22
𝑆22
Fc > 𝐹𝛼 𝑛1 −1, 𝑛2 −1
2
ANALISIS DE VARIANZA
El ANOVA, desarrollado por Ronald Fisher en 1918, extiende la prueba t y la prueba Z que
compara tan solo 2 grupos.
La técnica del análisis de la varianza (ANOVA o AVAR), es una de las técnicas más
utilizadas en los análisis de los datos de diseños experimentales, fue desarrollado por
Ronald Fisher, procedimiento utilizado cuando se quiere contrastar más de dos medias.
El Análisis de Varianza consiste en partir la suma de los mínimos cuadrados debido a la

variación total, de una serie de observaciones, en las sumas de los mínimos cuadrados
correspondientes a las variantes independientes incluidas en el plan experimental; y, en
la suma de los mínimos cuadrados del error experimental.
Los valores registrados corresponden a la variable respuesta observados en cada unidad

experimental; la variación que registren los diferentes valores de la variable respuesta es
una medida del efecto que produce uno o más factores en esta variable y del error
experimental. El objetivo del Análisis de Varianza es particionar la variación total
observada en aquella debida a efecto del factor o factores incluidos en el diseño y en
aquella debida al error experimental.
Si el experimento utiliza un solo factor o variable independiente, entonces la suma de

cuadrados de la variación total observada en la variable respuesta se divide en dos
partes: la primera que determina la variación debido al efecto del factor considerado, o
variación entre los tratamientos; y la segunda, que representa a la variación debido al
error experimental, lo que se traduce a la siguiente identidad:
Variación total = Variación entre tratamientos + Variación del Error

∑(xij −µ)2 =n j ∑(µj −µ)2 +∑(xij −µj )2
en donde:
Σ (Xij - µ)2 = Suma de cuadrados total = SCT
nj Σ (µj - µ)2 = Suma de cuadrados entre Tratamientos = SCE
Σ (Xij - µj)2 = Suma de cuadrados Residual = Error = SCR
de donde:
SCT = SCE + SCR.
Una forma abreviada de calcularlo es:
2
(∑ 𝑋𝑖𝑗)
𝐹𝐶 =
𝑛
SCT FC
SCE =∑(∑xj )2 / nj) -FC
SCR = SCT − SCE
Los supuestos básicas del análisis de varianza son las mismas asociadas con el análisis de
regresión:
 Aditividad
 Independencia
 Linealidad
 Varianzas homogéneas
 Normalidad
Ante el incumplimiento de los supuestos existen alternativas como las pruebas no
paramétricas, que no requieren supuestos acerca de la distribución de los datos.
Existen varios "modelos" en el análisis de varianza dependiendo del diseño formulado,

los más utilizados son:
• Modelo aleatorizado de una variable, o a un criterio de clasificación, análisis de

varianza de un factor o ANOVA una vía
• Modelo aleatorizado de dos variables, o de dos criterios de clasificación, o de bloques,
análisis de varianza de dos factor o ANOVA dos vía
ANÁLISIS DE VARIANZA DE UN FACTOR O ANOVA UNA VÍA
En este diseño, interviene un solo factor o variable independiente con más de dos
niveles, llamados también tratamientos, de forma que a una unidad experimental se le
aplicará un solo tratamiento; suele ser común que uno de los tratamientos implique la
no aplicación del factor, o que el factor tiene en éste tratamiento su nivel mínimo, cero;
en este caso, al tratamiento así asignado se le denomina "testigo" y servirá de elemento
base para medir el efecto de los restantes niveles del factor en la variable respuesta.
Este es un modelo en el cual los tratamientos, sometidos a experimentación, son

asignados completamente al azar a las unidades experimentales o viceversa.
MODELO MATEMATICO SI EL NUMERO DE OBSERVACIONES ES IGUAL EN TODOS LOS

TRATAMIENTO
X ij =µ+αj +εij
Donde:
Xij = Valor de la variable respuesta

µ = Es el promedio general o promedio poblacional
αj = Es el efecto del j-ésimo tratamiento
εij = Es el error o valor residual de la i-ésima observación del j-ésimo
tratamiento, que se considera es independiente de observación a
observación y está normalmente distribuido con valor esperado
igual a cero y varianza igual a σ2, Ν (0, σ2).
La representación del diseño en una tabla es el siguiente:
TRATAMIENTO
OBSERV. T1 T2 Tj Ta
1 X11 X12 X1j X1a
2 X21 X22 X2j X2a
i Xi1 Xi2 Xij Xia
:
n Xn1 Xn2 Xnj Xna
X1 X2 Xj Xa
TOTALES
CUADRO DE ANALISIS DE VARIANZA
FUENTE DE GRADOS DE SUMA DE CUADRADO ESTADISTICA DE

VARIACION LIBERTAD CUADRADOS MEDIO PRUEBA
Tratamientos a-1 SCE CME = SCE / (a - 1) Fc = CME / CMR
Residual (Error) n-a SCR CMR = SCR / (n -a)
Total n-1 SCT
PRUEBA DE HIPÓTESIS
1. Formulación de la Hipótesis:
H0 : µ1 = µ2 = µj = ..... = µa H0 : αj = 0
HA : µ1 ≠ µ2 ≠ µj ≠ ..... ≠ µa HA : αj ≠ 0
µj representa el promedio del j-ésimo tratamiento del diseño y µa representa el

promedio del a-ésimo tratamiento.
2. Determinación de la estadística de prueba
Fc = CME / CMR
3. Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Ejemplo del Libro de Análisis y diseño de experimentos, Gutiéterres Humberto y

Salazar Román, segunda edición
Solución:
Formulación de la Hipótesis:
H0 : µ1 = µ2 = µ3 No existe diferencia significativa en el promedio de la dureza de las
tabletas debido al porcentaje de almidón
HA : µ1 ≠ µ2 ≠ µ3 Existe diferencia significativa en el promedio de la dureza de las

tabletas debido a la cantidad de almidón
Determinación de la estadística de prueba

Fc = CME / CMR = 13,3633333/0,23 =58,1015
Criterio de Decision
58,1015 > F 0,05 ; 2, 9
58,1015 > 4,2564 Rho
P-valor: Rechazo la Ho, el p-valor es menor al nivel de significancia (0,05)

0,00000715857<0,05
Si existe diferencia significativa en el promedio de la dureza de las tabletas debido a la
cantidad de almidón
ANÁLISIS DE VARIANZA
FV SC GL CM Fc Valor p Ft
Tratamientos (Dureza) 26,7266667 2 13,3633333 58,1014493 7,16E-06 4,25649473
Error 2,07 9 0,23
Total 28,7966667 11
ANÁLISIS DE VARIANZA DE DOS FACTOR O ANOVA DOS VÍA
El diseño ANOVA 2 vías, permite estudiar simultáneamente los efectos de dos fuentes
de variación, variación debido al primer factor y variación debido a un segundo factor.
Se trabaja con dos factores, llamados tratamientos y bloques, cada uno con n niveles
Los bloques se forman con el objetivo de que las unidades experimentales al interior de
ellos, sean lo más homogéneas posibles, lo que permite disminuir el error experimentar
y obtener un diseño más eficiente.
Si el experimento utiliza dos factor o variables independiente, entonces la suma de
cuadrados de la variación total observada en la variable respuesta se divide en: la
primera que determina la variación debido al efecto del primer factor, la segunda, que
representa a la variación debido al segundo factor y la variación debido al error
experimental, lo que se traduce a la siguiente identidad:
SCT = SCE + SCB + SCR.
MODELO A DOS CRITERIOS DE CLASIFICACION CON UNA OBSERVACIÓN POR FILA Y

COLUMNA en modelos fijos
Xij = µ + αi + βj + εij
Donde:
Xij = Valor de la variable respuesta

µ = Es el promedio general o promedipoblacional
αi = Es el efecto del i-ésimo tratamiento
βj = Es el efecto del j-ésimo bloque o repetición.
εij = Es el error o valor residual del i-ésimo tratamiento y del j-ésimo
bloque o repetición, que se considera es independiente de
observación a observación y está normalmente distribuido con
valor esperado igual a cero y varianza igual a σ2 , Ν (0,σ2).
Representación de datos de éste diseño:
TRATAMIENTOS
B1 B2 Bj Bb ∑ Xi•
/BLOQUES
T1 X11 X12 X1j X1b X1•⋅
T2 X21 X22 X2j X2b X2•
Ti Xi1 Xi2 Xij Xib Xi•
Ta Xa1 Xa2 Xaj Xab Xa•
∑ X•j X•1 X•2 X•j X•b X••
Fórmulas de cálculo:
FC = (Σ xij)2/ab
SCT = Σ x2ij - FC
SCE =Σ (( Σxi•)2 / b) - FC
SCB = Σ (( Σx•j)2 / a) - FC
SCR = SCT – SCE – SCB
CUADRO DE ANALISIS DE VARIANZA

FUENTE DE GRADOS DE SUMA DE CUADRADO ESTADISTICA DE
VARIACION LIBERTAD CUADRADOS MEDIO PRUEBA
Tratamientos a-1 SCE CME = SCE / (a - Fc = CME / CMR
1)
Bloques b-1 SCB CMB = SCB / (b- Fc = CMB / CMR
1)
Residual (Error) (a-1) (b-1) SCR CMR = SCR/(a-
1)(b-1)
TOTAL n-1 SCT
PRUEBA DE HIPÓTESIS
1. Formulación de la Hipótesis:
Tratamientos
H0 : αi = 0
HA : αi ≠ 0
Bloques
H0 : βj = 0
HA : βj ≠ 0
2. Determinación de la estadística de prueba
Tratamientos: Fc = CME / CMR

Bloques: Fc = CMB / CMR
3. Criterio de Decision
Ejemplo resuelto:
En un experimento se estudió el proceso de maduración del aguacate. El propósito del

experimento es conocer el efecto que tienen las diferentes técnicas sobre la maduración
en día de los diferentes aguacates. Los factores son: tipo de aguacate con dos niveles
(guatemalteco y criollo) y técnicas de maduración con tres niveles (aire libre, bolsa de
papel kraft, recipiente plástico), se obtuvo los siguientes resultados, construya una anova
2 vías y pruebe cuales son los factores significativos
Técnica de maduración (B)

Dentro de
Dentro de un
Tipo de Aire una bolsa
recipiente
Aguacate(A) libre de papel
plástico
Kraft
Guatemalteco 6 3 4
Criollo 4 2 4
Tipo de
aguacate 1,5000 1,0000 1,5000 3,0000 0,2254 18,5128
Maduración 6,3333 2,0000 3,1667 6,3333 0,1364 19,0000
Error 1,0000 2,0000 0,5000
Total 8,8333 5,0000
Solución:
Filas
H0 : µ1 = µ2 No existe diferencia significativa en los días de maduración promedio del
aguacate , debido a si es aguacate guatemalteco o criollo
HA : µ1 ≠ µ2 Existe diferencia significativa en los días de maduración promedio del

aguacate, debido si es aguacate guatemalteco o criollo
Columnas
H0 : µ1 = µ2 = µ2 No existe diferencia significativa en la maduración promedio del

aguacate , debido a las técnicas de maduración
HA : µ1 ≠ µ2 ≠ µ2 Existe diferencia significativa en la maduración promedio del

aguacate , debido a las técnicas de maduración

Fc = CME / CMR = 1,5/0,5 = 3
Fc = CME / CMR = 3,1667/0,5 =6,3334
Criterio de Decisión
Filas
3> F 0,05 ; 2, 9
3> 18,5128 Aho
Columnas
3> F 0,05 ; 2, 9
6,3334> 19 Aho
Filas
0,2254 > 0,05 Aho
Columnas
0,1364 > 0,05 Aho
No existe diferencia significativa en la maduración promedio del aguacate, debido si es
aguacate guatemalteco o criollo
No Existe diferencia significativa en la maduración promedio del aguacate, debido a las
técnicas de maduración
Ejercicio resuelto:
Una empresa agrícola quiere saber si la cantidad de agua y el tipo de terreno influyen en
el crecimiento de las semillas en su periodo de germinaron. Parta ello se utilizó semilla de
lenteja en donde la cantidad de gua fueron de (2, 4 y6) ml, el tipo de terreno fue de (tierra
y algodón). Realizar un análisis de varianzas
Lo resultados en 15 días del crecimiento del tallo de las semillas fueron de:
cant_agua/ terreno Tierra Algodón
2ml 6,3 8,6

4ml 10,8 11,3
6ml 8,6 10,6
Solución:
Cantidad de agua
13,1233333 2 6,56166667 14,1111111 0,06617647 19
Terreno 3,84 1 3,84 8,25806452 0,10276455 18,5128205
Error 0,93 2 0,465
Total 17,8933333 5
Filas
H0 : µ1 = µ2 = µ3 No existe diferencia significativa en el crecimiento promedio de la
semilla , debido a la cantidad de agua
HA : µ1 ≠ µ2 ≠ µ3 No existe diferencia significativa en el crecimiento promedio de la

semilla , debido a la cantidad de agua
Columnas
H0 : µ1 = µ2 No existe diferencia significativa en el crecimiento promedio de la semilla
, debido al tipo de terreno
HA : µ1 ≠ µ2 Existe diferencia significativa en el crecimiento promedio de la semilla,

debido al tipo de terreno

Fc = CME / CMR = 6,5616/0,465 =14,1111
Fc = CME / CMR = 3,84/0,465 = 8,258
Criterio de Decisión
Filas
14,1111 < F 0,05 ; 2, 9
14,1111 <18,5128 Aho
Columnas
8,258 < F 0,05 ; 2, 9
8,258 < 18,5128 Aho
Filas
0,0662 > 0,05 Aho
Columnas
0,1028 > 0,05 Aho
No existe diferencia significativa en el crecimiento promedio de la semilla, debido a la

cantidad de agua
No existe diferencia significativa en el crecimiento promedio de la semilla, debido al
tipo de terreno
Métodos no paramétricos
Características
 Permite poner a prueba hipótesis no referidas a parámetros poblacionales.

 No se basa en medias sino en medianas
 Pueden ser datos que están en escala nominal u ordinal.
 No se cumple con supuestos de normalidad.
Métodos No paramétricos: aplicación de la Distribución de Muestreo X2

Distribución X2 o Ji cuadrado de Pearson
La distribución X2 se aplica para:
a) Hace inferencias acerca de la varianza poblacional
b) Pruebas de Bondad de ajuste
c) Pruebas de Independencia
Pruebas de Independencia
Relación entre 2 variables cualitativas, en tablas de contingencias.
H0: No existe relación entre las 2 variables. Independencia
H1: Existe relación entre las 2 variables. Dependencia

(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑[ ]
𝑓𝑒
Donde:
(𝑇𝑜𝑡𝑎𝑙 𝐹)(𝑇𝑜𝑡𝑎𝑙 𝐶)
𝑓𝑒 =
𝑇𝑜𝑡𝑎𝑙
2
Rechazar la Ho Si: 𝑋𝑐2 > 𝑋𝛼,𝑔𝐿
Donde: gL = (F-1) * (c-1)

Ejercicio del libro guía LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México:
El uso de teléfonos celulares en automóviles aumentó de forma impresionante en los
últimos años. El efecto en los índices de accidentes es de interés para los expertos de
tránsito, así como para los fabricantes de teléfonos celulares. ¿Es más probable que quien
usa un teléfono celular se vea involucrado en un accidente de tránsito? ¿Cuál es su
conclusión a partir de la siguiente información? Utilice el nivel de significancia 0.05.
H0: No existe relación entre las 2 variables. No existe relación entre el uso del
teléfono celular y estar involucrado en un accidente de tránsito. Las variables son
independientes
H1: Existe relación entre las 2 variables. Las variables son dependientes

(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑ [ ]=2.5234
𝑓𝑒

2
Acepto la Ho Si: 𝑋𝑐2 < 𝑋𝛼1,𝑔𝐿
2.5234<3.841
Donde: gL = (F-1) * (c-1)=1
Pruebas de Hipótesis de Bondad de Ajuste

Determina si las observaciones muestrales se ajustan a las expectativas o a una distribución
planteada como hipótesis
Libro de Webster página 465
1. Formulación de la hipótesis
H0: No existe diferencia significativa entre el conjunto de frecuencias observadas y el
conjunto de frecuencia esperada.
La distribución poblacional es uniforme, normal, binomial, poisson
Los datos se ajustan a una distribución dada
H1: Existe diferencia significativa entre el conjunto de frecuencias observadas y el conjunto

de frecuencia esperada.
La distribución poblacional no es uniforme, normal, binomial, poisson
Los datos no se ajustan a una distribución dada

(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑[ ]
𝑓𝑒
Donde f0: frecuencia observada.

fe: frecuencia esperada.
Rechazar la H0 Si:
2
𝑥𝑐2 > 𝑥𝛼,(𝑘−1)
Acepto la H0 Si:
2
𝑥𝑐2 ≤ 𝑥𝛼,(𝑘−1)
k =Número de categorías
Cuando se quiere analizar si los datos se ajustan a una distribución normal, se debe tener al
menos los parámetros media y desviación, caso contrario se debe estimar y en este caso
tomar en cuenta los grados de libertad como lo indica Webster
Ejercicio del libro guía LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México:
Durante muchos años, los ejecutivos de televisión dieron crédito a la pauta de que 30% de
la audiencia veía cada una de las cadenas televisivas de mayor audiencia, y 10%, canales de
televisión por cable durante una noche a la semana. Una muestra aleatoria de 500
televidentes del área de Tampa-St. Petersburg, Florida, el pasado lunes por la noche, reveló
que 165 hogares sintonizaron la filial ABC, 140, la filial CBS, 125, la filial NBC, y el resto vio
un canal de televisión por cable. Con un nivel de significancia de 0.05, ¿es posible concluir
que la pauta aún es razonable?
1. Formulación de la hipótesis
H0: No existe diferencia significativa entre el conjunto de frecuencias observadas y el
conjunto de frecuencia esperada. Es decir el 30% de la audiencia ve
cada una de las cadenas televisivas de mayor audiencia, y 10%, canales de televisión por
cable durante una noche a la semana.
H1: Existe diferencia significativa entre el conjunto de frecuencias observadas y el conjunto
de frecuencia esperada.
(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑ [ ]= 0.02867
𝑓𝑒

Acepto la H0 Si:
2
𝑥𝑐2 < 𝑥𝛼,(𝑘−1)
0.02867<7.815
Filial fo fe (fo*fe)2/fe
ABC 0,33 0,3 0,0030
CBS 0,28 0,3 0,0013
NBC 0,25 0,3 0,0083
Cable 0,14 0,1 0,0160
Sumatoria 1 1 0,0287
Prueba de hipótesis de Bondad de ajuste

https://www.youtube.com/watch?v=U8ZpUT1c8A4
https://www.youtube.com/watch?v=BsuRH3qJUJ4
Prueba de hipótesis de Independencia

https://www.youtube.com/watch?v=IQuXV1K5DqA
https://www.youtube.com/watch?v=_HxWIln8waQ
Regresión y correlación
La regresión establece la función matemática que describe la relación de dos o más variables.
La correlación establece la naturaleza y la intensidad de la relación entre las variables.
La regresión y correlación se basan en la relación o asociación de una variable dependiente con una
o más variables independientes
La correlación mide la función de una relación entre variables, la regresión da lugar a una ecuación
que describe dicha relación en términos matemáticos y cuya ecuación se puede utilizar para estimar
valores futuros.
Los datos necesarios para el análisis de regresión y correlación provienen de observaciones de

variables correlacionadas Ejemplo:
En el caso de un problema de dos variables esto significa que cada observación proporciona dos
valores uno para cada variable ejemplo: para un estudio de características físicas puede interesarse
por la edad y estatura de cada individuo.
En el caso de un problema de tres variables cada observación proporciona tres valores ejemplo:
además de la edad y estatura de cada persona talvez desearíamos medir el peso de la misma.
Debido a que, y depende de x, y es la variable dependiente y x es la variable independiente => y es

una función de x.
Y = f(x)
Variable dependiente: es la variable que se desea explicar o predecir también se la denomina

regresado o variable de respuesta.
Variable independiente: también se denomina variable explicativa o regreso la variable

independiente x se utiliza para explicar y llama variable de predicción.
Regresión simple: se establece que, y es una función de solo una variable independiente,
Se le denomina regresión bivariada porque solo hay dos variables, una dependiente y una
independiente.
 Y = f(x) se lee y es función de x
Regresión múltiple: y es una función de dos o más variables independientes. Un modelo de

regresión con k variables independientes se puede expresar así.
Y = f (x1, x2, x3, …… xk)
En donde x1, x2, x3, …… xk son variables independientes que permiten explicar y.
La relación puede ser lineal o no lineal de una variable independiente o de dos o más variables
independientes. El investigador debe decidir la función matemática que mejor se ajuste a sus datos.
Modelo de Regresión lineal simple-Función Lineal Simple
La función más sencilla para el análisis de regresión y correlación es la función lineal simple.
Y = α + βX + є para la población
Y = a + bx+e para la muestra
Ŷ=a+bx
El investigador deberá calcular los coeficientes de regresión (a; b) y el error de estimación. El método
más utilizado es el de mínimos cuadrados en el que:
𝑛 ∑ 𝑥𝑦− ∑ 𝑥 ∑ 𝑦
b=
𝑛 ∑ 𝑥 2 −(∑ 𝑥)2
a = 𝑦̅ − 𝑏𝑥̅
En donde el coeficiente “b” indica la razón de cambio en la variable dependiente “Y” por cada unidad
de cambio en la variable independiente “x”.
El coeficiente “a” indica el valor de la variable Y cuando X=0
REGRESIÓN LINEAL
Xi= VARIABLE INDEPENDIENTE
Yi=VARIABLE DEPENDIENTE
MMC Σ(Yi-yestimada)=0
*Yi
Ŷ=Y estimada
variación total de la variable dependiente=variación explicada o debido a la regresión +

variación no explicada o debido al error
en donde:
Σ (Yi - )2 = Variación total SCT
Σ (Ŷ - )2 = Variación explicada SCR

Σ (Yi - Ŷ)2 = Variación no explicada SCE
Supuestos del modelo de Regresión lineal
 El error está normalmente distribuido y es independiente uno de otro

 Varianzas iguales
 Linealidad
Error estándar de estimación (Se)
 El Error estándar de estimación es una medida de bondad de ajuste

 El error estándar de estimación sirve para formar límites alrededor de la recta de
regresión.
 El error estándar de estimación es una medida del grado de dispersión de los valores de y
alrededor de la recta de regresión.
 Mide la variación de los puntos de datos por encima y por debajo de la recta de regresión.
 El grado de dispersión en la población se puede estimar a partir del grado de dispersión en
las observaciones de las muestras con respecto a la línea de regresión calculada.
 El Se siempre se expresa en las mismas unidades de la variable dependiente “y”
 Mide la variabilidad de los valores “y” alrededor de la recta de regresión ajustada.
 Se, es la desviación estándar de la distribución de puntos respecto a la línea de regresión.
2
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 √∑(𝑌1 − 𝑌̂) ∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑒 = √ = = √
𝑛−2 𝑛−2 𝑛−2
2
(𝑆𝐶𝑥𝑦 )
𝑆𝐶𝐸 = 𝑆𝐶𝑦 − 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟
𝑆𝐶𝑥
𝑆𝐶𝐸
𝐶𝑀𝐸 = 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟
𝑛−2
𝑆𝑒 = √𝐶𝑀𝐸 𝐸𝑟𝑟𝑜𝑟 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟
Análisis de Correlación (r- R).
Mide la fuerza de la relación entre “x” y “y”
𝒓 𝑎𝑠𝑢𝑚𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑛𝑡𝑟𝑒 − 1 𝑦 + 1 → −1 ≤ 𝒓 ≤ 1

𝑟 = −1 → 𝐼𝑛𝑑𝑖𝑐𝑎 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 "𝒙" 𝑦 "𝒚"
𝑟 = +1 → 𝐼𝑛𝑑𝑖𝑐𝑎 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 "𝒙" 𝑦 "𝒚"
Los puntos están dispersos en
todo el cuadro sin agruparse, lo
cual sugiere que no hay relación
En general entre mayor sea el valor absoluto de “r” más fuerte será la relación entre “x” y “y”
Para comprender lo que mide el coeficiente de correlación se debe desarrollar 3 medidas de

desviación.
La desviación total se divide en desviación explicada y no explicada.
𝑌𝑖 Desviación Total = (𝑌𝑖 − 𝑌̅)
Desviación no explicada ̂ = 𝒂 + 𝒃𝒙
𝒀
(𝑌𝑖 − 𝑌̂ )
𝑦̂ ̂ = 𝒃 𝟎 + 𝒃𝟏 𝒙
𝒀
Desviación explicada
̂𝑗 − 𝑌̅)
(𝑌
𝑌̅
𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
2
𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
2
𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 𝑆𝐶𝑥𝑦

𝑟=√ = √ = 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑇𝑜𝑡𝑎𝑙 𝑆𝐶𝑇
√(𝑆𝐶𝑥 )(𝑆𝐶𝑦 )
Incluir el signo según la

pendiente porque siempre será +
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 ∗ √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2
Coeficiente de Determinación (𝑹𝟐 − 𝒓𝟐 )
Es otra medida importante de bondad de ajuste.

2
2
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 (𝑆𝐶𝑥𝑦 )
𝑟 = = =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 (𝑆𝐶𝑥 )(𝑆𝐶𝑦 )
› Proporciona una medida de bondad de ajuste porque revela que porcentaje de cambio en
y se explica por un cambio en x.
› El porcentaje de la variación de y está explicada por la variación de x
› 𝑟 2 tiene significado sólo para las relaciones lineales.
Limitaciones de Análisis de Regresión: Se debe tener cuidado de no utilizar el modelo de regresión

para predecir y para valores de x que están fuera del rango del conjunto original de datos.
Inferencias acerca de la Pendiente de la Línea de Regresión ⟶ Parámetro Poblacional (Prueba

De Significación Para La Pendiente De La Recta)
 Si no existe ninguna relación entre “x” y “y” se esperaría obtener un pendiente 0 que
puede ser contraria a los resultados muestrales, ya que sólo se incluye un subconjunto de
las observaciones.
 La ausencia de cualquier patrón indica que no existe relación.
Diagrama de Dispersión para la población de todos los puntos “x” y “y”

Precio
Las observaciones en la elipse sugieren una relación negativa
Planteamiento de hipótesis
𝐻0 : 𝛽1 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.

𝐻1 : 𝛽1 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.
𝑏1 − 𝛽1 𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 − 𝑉𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜

𝒕 𝒑𝒓𝒖𝒆𝒃𝒂 = =
𝑆𝑏 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
𝑆𝑒 1
𝑆𝑏 = 𝑜 𝑆𝑒 → 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑜 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
√𝑆𝐶𝑥 √ 2 (∑ 𝑥)2
∑𝑥 − [
𝑛 ]
Regla de decisión
Si la 𝐻0 se acepta → 𝑆e concluirá que las variables no están relacionadas. Descartando el modelo

se utilizará una variable explicativa diferente.
Si la 𝐻0 se rechaza → Se debe calcular su valor y esto se responde calculando un intervalo de

confianza.
𝛽2= 𝑏1 ± 𝑡1⁄ (𝑆𝑏 )

2
El t crítico o 𝑡1⁄ 𝑒𝑠 𝑢𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑡 𝑐𝑜𝑛 𝑛 − 2 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑.

2
Inferencias Acerca Del Coeficiente De Correlación O Pruebas Para El Coeficiente De Correlación

Población (P)
Como el análisis respecto a la correlación entre las variables se basa en datos muéstrales, el error
de muestreo podría llevarnos a conclusiones no apropiadas.
Puede ser que la correlación en nivel poblacional sea cero y que una muestra engañosa, hizo que
se asuma equivocadamente una relación.
Prueba de hipótesis
𝐻0 : 𝑝 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.

𝐻1 : 𝑝 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.
Donde p es el coeficiente de correlación a nivel poblacional.

𝑟−𝑝
𝒕 𝒑𝒓𝒖𝒆𝒃𝒂 =
𝑆𝑟
1 − 𝑟2
𝑆𝑟 = √ 𝑬𝒓𝒓𝒐𝒓 𝒐 𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓
𝑛−2
𝒅𝒆𝒍 𝒄𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
gl=n-2
Decisión: Si 𝑹𝒆𝒄𝒉𝒂𝒛𝒐 𝑯𝟎 , las variables están relacionadas.
Inferencia Estadística sobre la Intersección
Los intervalos y la prueba de hipótesis sobre el coeficiente 𝒂 puede establecerse por el hecho de
que A está distribuida normalmente.
𝐻0 : ∝= 0 → 𝐿𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑝𝑎𝑠𝑎 𝑝𝑜𝑟 𝑒𝑙 𝑜𝑟𝑖𝑔𝑒𝑛.

𝐻1 : ∝ ≠ 0 → 𝐿𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑛𝑜 𝑝𝑎𝑠𝑎 𝑝𝑜 𝑒𝑙 𝑜𝑟𝑖𝑔𝑒𝑛.
Fijar el estadístico de prueba
𝑎−∝
𝑡𝑝 =
∑ 𝑥2
𝑆𝑒√𝑛𝑆𝐶
𝑥
Donde:
𝑆𝐶𝑥 = ∑(𝑥 − 𝑥̅ )2
𝑆𝑒√∑ 𝑥 2
Intervalos de confianza ∝ = 𝑎 ± 𝑡∝⁄
2 √𝑛𝑆𝐶𝑥
Función lineal simple
Ŷ= a + b X
Análisis de varianza en la predicción
La desviación total se divide en desviación explicada y no explicada.
𝑌𝑖 Desviación Total = (𝑌𝑖 − 𝑌̅)
Desviación no explicada ̂ = 𝒂 + 𝒃𝒙
𝒀
(𝑌𝑖 − 𝑌̂ )
𝑦̂ ̂ = 𝒃 𝟎 + 𝒃𝟏 𝒙
𝒀
Desviación explicada
̂𝑗 − 𝑌̅)
(𝑌
𝑌̅
𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
2
𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
2
𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
Planteamiento de hipótesis del modelo
Formular la hipótesis
𝐻0 : 𝛽 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚

𝐻1 : 𝛽 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚. 𝐸𝑙 𝑚é𝑡𝑜𝑑𝑜 𝑡𝑒𝑛𝑑𝑟á 𝑚𝑎𝑦𝑜𝑟 𝑝𝑜𝑑𝑒𝑟 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑜
Estadístico de prueba
Puede también probarse con F o t → 𝐹 = 𝑡 2
Fc= CMR/CME
Criterio de decisión:
Rechazar la hipótesis nula si:
Fc > Ft,v1,v2
Tabla de análisis de varianza ANOVA

g de Suma de Cuadrado
Fuentes de V Fc
libertad Cuadrados Medios
Debido a la regresión 1 SCR CMR= SCR/1 CMR/CME
Debido al error n-2 SCE CME=SCE/n-2
Total n-1 SCT
Ejercicio propuesto del Libro de Estadística aplicada a los negocios y economía
Solución
Diagrama de dispersión
Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,35081942
Coeficiente de
determinación R^2 0,12307427
R^2 ajustado 0,03538169
Error típico 1,93255107
Análisis del modelo
Gl SC CM Fc Ft
Regresión 1 5,24163043 5,24163043 1,40347422 0,26353426
Residuos 10 37,3475362 3,73475362
Total 11 42,5891667
𝐻0 : 𝛽 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚

𝐻1 : 𝛽 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚. 𝐸𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑡𝑒𝑛𝑑𝑟á 𝑚𝑎𝑦𝑜𝑟 𝑝𝑜𝑑𝑒𝑟 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑜
Estadístico de prueba
Fc= 1.4035
Criterio de decisión:
Rechazar la hipótesis nula si:
Fc > Ft,v1,v2
1.4035>0.2635
Decisión Rho, el modelo tiene poder predictivo
Transformación de modelos no lineales a lineales
Gráficas y transformaciones de datos
Formas Funcionales de los Modelos de Regresión Simple
Modelos aparentemente no lineales que por algún artificio matemático se pueden hacer lineales,
los modelos no lineales pueden ser operados como modelos lineales mediante transformaciones a
las variables
Las transformaciones que puedan mejorar el ajuste y la capacidad de predicción del modelo son
muy numerosas:
(El logaritmo natural es de base 2.8171)
Modelo Potencial 𝒚 = 𝑨𝒙𝑩
ln 𝑦 = ln(𝐴𝑥 𝐵 )
ln 𝑦 = ln 𝐴 + 𝐵 ln 𝑥
Y*=A*+BX*
Modelo Exponencial 𝒚 = 𝑨𝒆𝑩𝒙
ln 𝑦 = ln(𝐴𝑒 𝐵𝑥 )
ln 𝑦 = ln(𝐴) + 𝐵𝑥 ln 𝑒
ln 𝑦 = ln(𝐴) + 𝐵𝑥
Y*=A*+BX
Modelo Logarítmico 𝒚 = 𝑨 + 𝑩 𝐥𝐧 𝒙
Y=A+BX*
1 1
Recíproca 𝑦 = 𝐴+𝐵𝑥 𝑥∗ = 𝑥 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝒚 𝑐𝑜𝑛𝑡𝑟𝑎 𝒙∗
𝑥 1
Hiperbólica 𝑦 = 𝑦∗ = 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝒚∗ 𝑐𝑜𝑛𝑡𝑟𝑎 𝒙∗
𝐴+𝐵𝑥 𝑦
1
𝑥∗ = 𝑥
Para escoger el mejor modelo se realiza el gráfico de dispersión.
Exponencial
Logarítmica Potencial
A 𝛽>1
𝛽<0
𝛽<0
A
𝛽>0
Función Exponencial Función Potencial
A
1
𝛽>0
𝛽<0 𝛽
A
Función Recíproca Función Hiperbólica
A menudo se aconseja trabajar con un modelo alternativo en el que x y y o ambas entran de forma
no lineal.
Por lo general nos referimos a un modelo de regresión como lineal cuando es lineal en los
parámetros.
No es lineal en x y y es lineal en los parámetros.
Las medidas de comparación son R2 y Se, pueden utilizarse para medir la utilidad de la
transformación
Análisis de regresión y correlación Múltiple
Modelo de Regresión Lineal Múltiple
Se examina la influencia de 2 o más variables independientes
𝑦̂ = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ … . . + 𝑏𝑥 𝑥𝑥
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ … . . + 𝑏𝑥 𝑥𝑥
Donde:
𝑥1 ; 𝑥2 ; 𝑥3 ; … . . ; 𝑥𝑥 𝑆𝑜𝑛 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠

𝒂 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜
𝑏1 ; 𝑏2 ; 𝑏3 ; … . . ; 𝑏𝑥 𝑆𝑜𝑛 𝑙𝑜𝑠 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
El método de mínimos cuadradas MCO para calcular 𝑏1 ; 𝑏2 ; 𝑏3 ; … . . ; 𝑏𝑥 minimiza la suma de los
cuadrados de las desviaciones verticales con respecto a la línea recta. Lo mismo se cumple para la
regresión múltiple, la abundancia de cálculos resulta muy tediosa.
Como por ejemplo para 2 variables independientes en necesario resolver 3 ecuaciones.
∑ 𝑦 = 𝑛𝑎 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2
∑ 𝑥1 𝑦 = 𝑎 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2
∑ 𝑥2 𝑦 = 𝑎 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22
Error Estándar Múltiple de estimación o variabilidad en la predicción
Describe la variación con respecto a la línea de regresión. Un error estándar pequeño indica que los
puntos están cerca de tal recta, mientras que un valor grande indica que los puntos están esparcidos
alrededor de aquella, el mismo concepto es en la regresión múltiple.
∑(𝑦𝑖 − 𝑦̂)2
𝑆𝑒 = √
𝑛 − (𝑘 + 1)
Donde:
𝒚𝒊 𝑒𝑠 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛.
̂ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑎 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑒 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛.
𝒚
𝒏 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎.
𝒌 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
Para evaluar la ecuación de regresión, se puede trazar un diagrama de dispersión con cada variable
independiente
Matriz de correlación
Es útil para analizar los factores implicados en la variable dependiente.
La matriz contiene los coeficientes de correlación entre todos los pares de variables.
Se está particularmente interesado en las variables independientes que tienen un fuerte correlación
con la variable dependiente. La matriz de correlación ayuda a identificar cuáles pueden ser
relativamente más importantes.
Multicolinealidad
Correlación entre las variables independientes
Un método práctico común es que las correlaciones entre las variables independientes entre -0.7 y
0.7 no ocasionan dificultad
El remedio usual para la multicolinealidad es eliminar una de las variables independientes que están
fuertemente correlacionadas y determinan la ecuación de regresión
Análisis de Varianza en la Regresión Múltiple
Análisis de varianza del modelo global
Puede efectuarse un análisis de varianza que permita evaluar la calidad de la ecuación de regresión.
Una hipótesis útil que determina si el método explica una cantidad significativa de variación es la
siguiente:
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ … . . = 𝛽𝑘 = 0 𝑁𝑖𝑛𝑔𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑠 𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡𝑒
El modelo no tiene poder explicativo
𝐻1 : 𝛽1 ≠ 𝛽2 ≠ 𝛽3 ≠ ⋯ … . . ≠ 𝛽𝑘 ≠ 0 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑠 𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡𝑒

El modelo tiene poder explicativo
El análisis de varianza implica una prueba F, mediante una tabla.
ANOVA
Fuente de Suma de
g de libertad Media Cuadrática F F. Crítico
variación Cuadrados
MSR= SCR/K (Revisar
SCR k (numerador) F= MSR/MSE
Regresión CMR en Excel)
MSE =SCE/
SCE n-(k+1)(denominador) n-(K-1)
Error o Residual CME
Total SCT n-1
La prueba que se relaciona es la prueba de cola superior.
El rechazo 𝐻0 significa que la ecuación de regresión difiere de una constante, es decir al menos una
variable independiente es importante.
Evaluación de los Coeficientes de Regresión Individuales

Es necesario probar las variables individualmente para determinar cuáles coeficientes de regresión
podrían ser 0 y cuáles no.
Si una 𝛽 puede ser nula, (Aho), ello implica que tal variable independiente en particular no es de
ningún valor para explicar cualquier variación en el valor de pendiente, puede ser deseable
eliminarlos de la ecuación de regresión.
Para la 1ra variable independiente
𝐻0 : 𝛽 = 0 No es un factor de predicción significativo
𝐻1 : 𝛽 ≠ 0 𝐸𝑠 𝑢𝑛 𝑓𝑎𝑐𝑡𝑜𝑟 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜
Para la 2da variable independiente
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
Para la k variable independiente
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
El valor estadístico de prueba es la distribución 𝑡𝛼⁄2 de Student con n-(k+1)=gl
Si alguna variable independiente no es elementos significativo de predicción para “y”, se puede

eliminar del análisis.
Cuando se suprime una variable es necesario volver a construir la ecuación de regresión para revisar
las variables.

Guía Inferencia

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía Inferencia

Cargado por

Copyright:

Formatos disponibles

REPASO: DISTRIBUCIÓN CONTINUA DE PROBABILIDADES

 La distribución está definida por dos parámetros µ y α

Dadas las características de la simetría y normalidad tenemos que:

Distribución Normal Estandarizada o Tipificada:

Una variable normal es parametrizada por su media µ y desviación típica σ.

4. Un día visitamos el Casino y decidimos jugar en la ruleta. Nuestra apuesta va a ser

"Salir negro", le damos el valor 1 y tiene una probabilidad del 0,5

Varianza: n * = 80 * 0,5*0,5 = 20

Gana 50 y pierde 30 =80veces apuesta, entonces total gana 20 veces*$500=10000

Si ganara 45 y pierde 35=80 veces apuesta, entonces gana 10 veces*$500=5000

Comenzamos por calcular el valor equivalente de la variable normal tipificada:

P (X > 50) = P (Y > 2,24) = 1 - P (Y < 2,24) = 1 - 0,9875 = 0,0125

6. Calcule la probabilidad de que 50 lanzamiento de una moneda ocurran 30 caras

POBLACIÓN O UNIVERSO.- Es el conjunto de elementos que son de nuestro interés de investigación

MUESTRA. Es un subconjunto representativo de población. Las muestras se obtienen con la

MUESTREO.- Es un procedimiento de investigación estadística que pretende estudiar el universo

Conjunto de elementos subconjunto de elementos

Describe a la población Describe la muestra

MUESTREO PROBABILÍSTICO.- Todos los métodos probabilísticos tienen un propósito común,

MUESTREO NO PROBABILÍSTICO.- Los elementos de la muestra son elegidos a voluntad y criterio

ELEMENTOS O UNIDADES DE ANÁLISIS O UNIDADES DE OBSERVACIÓN. - Cada uno de los objetos

Pueden ser clasificados como:

ELEMENTOS COLECTIVOS. Cuando se analiza la producción de la industria textil, la población está

Estas pueden ser de dos tipos:

Cuando la característica o variable es no numérica, se la denomina variable cualitativa o atributo

Cuando la variable estudiada se puede expresar numéricamente, se denomina variable cuantitativa,

 Es el proceso de llevar una variable del nivel abstracto a un plano concreto.

Por qué deben definirse las Variables

 Para comparar nuestra investigación con otras similares

Pasos para operacionalizar la variable:

 Explica cómo se define el concepto específicamente en el estudio planteado, que puede

 Cuando el concepto tiene varias dimensiones o clasificaciones o categorías, éstas deben

Definición de las Categorías

• Se expresa en razones, proporciones, tasas e índices.

Nominal número asignado a corredores

Ordinal ordenamiento por rangos de los ganadores

De intervalo calificación de desempeño en una escala de 0 a10

De razón Tiempo para terminar en segundos

También es habitual distinguir entre discretas y continuas.

- Pruebas de germinación, Análisis de sangre, Control de calidad.

 Muestreo por Juicio, Selección Experta o Selección Intencional: El investigador toma la

MUESTREO PROBABILISTICO, ALEATORIO O ESTOCASTICO: Los elementos de la muestra son

PROPIEDADES DEL MUESTREO PROBABILISTICO:

a) Existe la posibilidad de definir inequívocamente un conjunto de muestras M1, M2, .... , Mt

b) A cada posible muestra Mi se le asigna un probabilidad conocida de selección Pi .

TIPOS DE MUESTREO PROBABILISTICO:

- A mayor variación mayor tamaño de muestra

 Los procedimientos de estimación

Procedimientos de contraste de hipótesis.

Varianzas 𝜎 2 = 𝑉𝑎𝑟(𝑥𝑖 ) finitas

- Cualquiera sea la distribución de las variables aleatorias independientes discretas o

- El teorema central del límite permite calcular razonablemente bien las

- Una variable binomial B(n, p) se aproxima a una normal N (µ, 𝛿𝑖 ) ) mediante la

El lanzamiento de la moneda sigue una distribución uniforme

Distribución muestral de medias

1. A continuación aparecen los 10 primeros renglones de cinco dígitos del apéndice

Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5

Muestra 6 Muestra 7 Muestra 8 Muestra 9 Muestra 10

Media poblacional= 4,84

2. Scrapper Elevator Company tiene 20 representantes de ventas, que distribuyen su

a) Trace una gráfica que muestre la distribución de la población.

Media poblacional= 3.3

Cinco muestras aleatorias de 5 elementos cada una.

Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5