Está en la página 1de 111

REPASO: DISTRIBUCIÓN CONTINUA DE PROBABILIDADES

DISTRIBUCIÓN NORMAL
Características de la distribución:

 La distribución está definida por dos parámetros µ y α


 Existe una distribución normal diferente para cada combinación de medida y
desviación estándar.
 El rango de desviación de la distribución va de -∞ a +∞.
 El valor de la media, la mediana y la moda son exactamente los mismos.
 La distribución es simétrica respecto a la media.
 El área total bajo cualquier curva normal representa el 100% de la probabilidad
relacionada con dicha variable.
 Formulación de cálculo, función de densidad

Dadas las características de la simetría y normalidad tenemos que:

µ ± α = 68,26

µ ± 2α = 95,45

µ ± 3α = 99,74

Distribución Normal Estandarizada o Tipificada:


Se dice que una distribución es normal estándar si su media es cero (µ = 0) y su varianza y
por tanto su desviación estándar es igual a la unidad 1

Tipificación de la variable
Cualquier distribución normal general se puede convertir en una distribución normal
estándar mediante la transformación “Z”, donde:

Una variable normal es parametrizada por su media µ y desviación típica σ.


Existen tablas que se pueden utilizar para calcular las probabilidades para esta distribución.
Ejercicios propuestos:

1. En una ciudad una de cada tres familias posee teléfono. Si se eligen al azar 90
familias, calcular la probabilidad de que entre ellas haya por lo menos 30 tengan
teléfono.

2. En un examen tipo test de 200 preguntas de elección múltiple, cada pregunta tiene
una respuesta correcta y una incorrecta. Se aprueba si se contesta a más de 110
respuestas correctas. Suponiendo que se contesta al azar, calcular la probabilidad de
aprobar el examen.
3. Un estudio ha mostrado que, en un cierto barrio, el 60% de los hogares tienen al
menos dos televisores Se elige al azar una muestra de 50 hogares en el citado barrio.
Se pide:
1. ¿Cuál es la probabilidad de que al menos 20 de los citados hogares tengan
cuando menos dos televisores?
2. ¿Cuál es la probabilidad de que entre 35 y 40 hogares tengan cuando menos dos
televisores?

1.

2.

4. Un día visitamos el Casino y decidimos jugar en la ruleta. Nuestra apuesta va a ser


siempre al negro y cada apuesta de 500 ptas. Llevamos 10.000 ptas. y queremos
calcular que probabilidad tenemos de que tras jugar 80 veces consigamos doblar
nuestro dinero.

"Salir negro", le damos el valor 1 y tiene una probabilidad del 0,5

"No salir negro", le damos el valor 0 y tiene una probabilidad del 0,5
A la suma de las 80 apuestas se le aplica el Teorema Central del Límite, por lo
que se distribuye según una normal cuya media y varianza son:

Media: n *  = 80 * 0.5 = 40

Varianza: n * = 80 * 0,5*0,5 = 20

Gana 50 y pierde 30 =80veces apuesta, entonces total gana 20 veces*$500=10000


+10000iniciales=20000.

Si ganara 45 y pierde 35=80 veces apuesta, entonces gana 10 veces*$500=5000


+10000 iniciales=15000 no dobla

Otro análisis

Para doblar nuestro dinero el negro tiene que salir al menos 20 veces más que el
rojo (20 * 500 = 10.000), por lo que tendrá que salir como mínimo 50 veces
(implica que el rojo o el cero salgan como máximo 30 veces).

Comenzamos por calcular el valor equivalente de la variable normal tipificada:

50 − 40
𝑧= = 2.24
√20

Luego:

P (X > 50) = P (Y > 2,24) = 1 - P (Y < 2,24) = 1 - 0,9875 = 0,0125

Es decir, la probabilidad de doblar el dinero es tan sólo del 1,25% (así, que más vale
que nos pongamos a trabajar).

5. Se supone que los resultados de un examen siguen una distribución normal con
media 78 y varianza 36. Se pide:
¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una
calificación superior a 72?

p(x>72)=p(z>(72-78)/6

p(Z>-1)=0.8413

6. Calcule la probabilidad de que 50 lanzamiento de una moneda ocurran 30 caras


P= 0.0419
7. Calcule la probabilidad de que 50 lanzamiento de una moneda ocurran menos de 30 caras
P=0.8996

CONCEPTOS BÁSICOS

POBLACIÓN O UNIVERSO.- Es el conjunto de elementos que son de nuestro interés de investigación


que poseen características comunes y observables en un lugar (ESPACIO) y en un momento
determinado (TIEMPO).

MUESTRA. Es un subconjunto representativo de población. Las muestras se obtienen con la


intención de inferir (deducir) propiedades de la totalidad de la población.

MUESTREO.- Es un procedimiento de investigación estadística que pretende estudiar el universo


de interés, con base en la información que se obtiene de una parte de las unidades que componen
dicho universo.

POBLACIÓN MUESTRA

Conjunto de elementos subconjunto de elementos

Tiempo

Espacio

INFERIR
n
N

CENSO MUESTREO

Parámetro Estadística

Indicador (estadígrafo)

Describe a la población Describe la muestra


Media=media aritmética=promedio=µ,ẋ

MUESTREO PROBABILÍSTICO.- Todos los métodos probabilísticos tienen un propósito común,


permitir que el azar determine los elementos que incluirán en la muestra.

El muestreo probabilístico nos asegura la representatividad de la muestra extraída y es, por tanto,
el más recomendable.

MUESTREO NO PROBABILÍSTICO.- Los elementos de la muestra son elegidos a voluntad y criterio


de quien investiga por tanto ésta puede ser no representativa.

No es posible establecer la posibilidad de que los miembros del universo sean seleccionados como
parte de la muestra.

ELEMENTOS O UNIDADES DE ANÁLISIS O UNIDADES DE OBSERVACIÓN. - Cada uno de los objetos


que forman la población o universo y que son fuente de datos. Es la unidad básica del estudio.

Pueden ser clasificados como:

 Elementos individuales; o
 Elementos colectivos
ELEMENTO INDIVIDUAL. - Es la persona cuando se analiza la población del Ecuador o de un
provincia en particular, es el miembro del hogar cuando se analiza la población de los hogares, es el
estudiante cuando se analiza la población estudiantil, es el trabajador cuando se analiza la población
de trabajadores . En cada uno de los casos citados el elemento caracteriza a un individuo en estudio,
es “un elemento individual.

ELEMENTOS COLECTIVOS. Cuando se analiza la producción de la industria textil, la población está


conformada por el conjunto de todas las empresas textiles y un elemento es cualquiera de las
empresas de producción textil; si se analiza la atención hospitalaria de los hospitales que pertenecen
al Estado, la población está conformada por todos los hospitales del Estado. En estos ejemplos, el
elemento caracteriza a un colectivo y la población es el conjunto de todos los “elementos colectivos”

PARÁMETRO.- Es una medida que está en función de una población, entre las más conocidas
tenemos:
Media aritmética (miu)

Varianza 2

Desviación típica 

Estadística o Estadígrafo.- Es una medida que está en función de una muestra, entre las que
podemos mencionar:

Varianza 2

Desviación típica 
Media

VARIABLES

Son características o cualidades que poseen los elementos de una población o muestra, éstas deben
ser medibles y observables.

Estas pueden ser de dos tipos:

Cuando la característica o variable es no numérica, se la denomina variable cualitativa o atributo


por ejemplo: sexo, religión, tipo de automóvil, estado o lugar de nacimiento, color de ojos. Cuando
la información estudiada es cualitativa, generalmente interesa saber cuántas o qué proporción entra
en cada categoría. Por ejemplo qué porcentaje de la población tiene ojos azules?, cuántos católicos
y cuántos evangélicos han en el Ecuador? Qué cantidad de automóviles vendidos el mes anterior
fue de la marca Toyota?. Las variables cualitativas pueden ser nominales y ordinales.

Cuando la variable estudiada se puede expresar numéricamente, se denomina variable cuantitativa,


y la población se conoce como población cuantitativa. Ejemplos de variables cuantitativas son: el
saldo en una cuenta de cheques, la edad de los estudiantes del aula de clase, las velocidades de los
vehículos que circulan por una carretera del país, el número de hijos de una familia.
Las variables cuantitativas pueden ser discretas o continuas. Las variables discretas pueden asumir
sólo ciertos valores y generalmente existen brechas o huecos entre ellos, ejemplo: el número de
habitaciones de una casa, la cantidad de automóviles que pasan por una determinada calle. El
número de estudiantes que forman los grupos de trabajo en el aula. Por lo común, las variables
discretas son resultado de un conteo.

Las observaciones de una variable continua pueden tomar cualquier valor dentro de un intervalo
determinado. Ejemplos: La presión del aire en un neumático de un automóvil, el peso de un
cargamento de granos (tonelada, la cantidad de cereal en una caja. Las variables continuas resultan
generalmente de medir algo.

OPERACIONALIZACION DE VARIABLES

 Es el proceso de llevar una variable del nivel abstracto a un plano concreto.


 Operacionalizar una variable es hacerla medible.

Por qué deben definirse las Variables

 Para comparar nuestra investigación con otras similares


 Para evaluar adecuadamente los resultados de nuestra investigación.

Pasos para operacionalizar la variable:

Definición Operacional

 Explica cómo se define el concepto específicamente en el estudio planteado, que puede


diferir de su definición etimológica.
 Equivale a hacer que la variable sea mensurable a través de la concreción de su
significado, y está muy relacionada con una adecuada revisión de la literatura.
 Puede omitirse cuando la definición es obvia y compartida

Categorización o Dimensión

 Cuando el concepto tiene varias dimensiones o clasificaciones o categorías, éstas deben


especificarse en el estudio; tal es el caso de la variable “recursos», que puede hacer
referencia a “recursos técnicos, financieros, ambientales, humanos entre otros».

Definición de las Categorías


• Cada una de las dimensiones, categorías o clasificaciones debe ser definida conceptual y
etimológicamente

Indicador

• Se expresa en razones, proporciones, tasas e índices.


• Permite hacer “medible” la variable.
• Son ejemplos de indicadores:
• indicadores económicos (la UVR, el dólar, la libra de café, el gramo de oro).
• Indicadores de pobreza (las migraciones, los desplazados, el desempleo, los
asentamientos suburbanos).
• La variable “aprovechamiento escolar” puede tener los indicadores: cantidad de
aprobados y desaprobados, deserción escolar, promedio de notas obtenidas, etc.
• La variable “nivel socio económico” puede tener los siguientes indicadores: nivel de
ingreso, nivel de estudios, lugar de residencia, actividad laboral, etc.

MEDICIONES Y ESCALAMIENTO

Medición. - significa asignar números u otros símbolos a características de objetos de acuerdo con
determinadas reglas preestablecidas y se debe buscar escalas adecuadas para medir esas
características. El nivel de medición determina los cálculos que se pueden realizar para resumir y
presentar la información y las pruebas estadísticas que pueden desarrollarse.
Tipos de escala de medición básicas
Stevens (1946) consideró que cualquier escala de medida puede clasificarse en alguna de las
siguientes cuatro tipos: nominal, ordinal, de intervalo o de razón
Escala nominal. - Es un esquema de etiquetado o rotulado figurado, en el cual los números solo
sirven como etiquetado para identificar y clasificar objetos.
Resulta inapropiado calcular estadísticas como la media o la varianza de una variable nominal,
debiendo limitarnos a los recuentos de frecuencias, moda o tablas de contingencia cuando se cruce
con otra variable nominal
Una exigencia básica es que los objetos han de poder clasificarse en categorías que sean
mutuamente excluyentes y exhaustivas es decir todos los individuos han de poder clasificarse en las
categorías existentes
Las categorías para los datos no tienen un orden lógico
Escala ordinal. - Una escala ordinal permite determinar si un objeto tiene más o menos de una
característica que algún otro objeto, pero no cuanto más o menos. Por lo tanto, la escala ordinal
indica la posición relativa no la magnitud de las diferencias entre objetos, los ejemplos comunes
incluyen clasificaciones de calidad, de equipos, clases socioeconómicas medir actitudes, opiniones,
preferencias relativas.
Por lo tanto, en las escalas ordinales, tiene sentido distinguir y ordenar, pero no las diferencias ni
las razones.
Los estadísticos que pueden calcularse en este tipo de escalas son, además de los que se calculan
en los nominales, la mediana y los percentiles.
Una exigencia básica es que las categorías de la escala deben ser mutuamente excluyentes y en
conjunto exhaustivas.
Las categorías de la variable se clasifican por su orden, prelación o nivel de importancia
Escala de intervalo. - Una escala de intervalo posee las características de una nominal y de la ordinal
(mayor valor representa mayor presencia de la característica ejm la preferencia). Sin embargo, la
escala de intervalo añade una nueva propiedad, la diferencia también tiene sentido. Siempre que el
atributo que se esté midiendo no tengo aun cero absolutos, sino que este sea arbitrario.
Una escala donde se utiliza los números para calificar objetos, de tal forma que las distancias
numéricas equivalentes en la escala representa distancias equivalentes en la característica medida.
En esta escala pueden calcularse todos los estadísticos menos los que están basados en razones
(ratios) como el coeficiente de variación, no permite establecer que la medida de una variable de
observación es el doble, el triple, la mitad.
Las categorías de la variable son mutuamente excluyentes y exhaustivas.
Las categorías de la variable se clasifican por su orden, prelación o nivel de importancia.
Las diferencias entre dos valores de la escala tienen sentido, sin embargo no permite establecer que
la medida de una unidad de observación es el doble, triple, la mitad.
El valor cero es un valor convencional no indica la ausencia de la condición y pueden existir
cantidades negativas ejm. CI, temperatura.
En investigaciones de mercados es muy habitual el recurso a escalas de intervalo para medir, por
ejm acuerdos o desacuerdos con determinada afirmaciones ( 1= totalmente en desacuerdo, 5=
totalmente de acuerdo)
Escala de razón. - Las escalas de razón tienen las mismas propiedades que las de intervalos pero,
además, las razones si que tienen sentido. Estas escalas tienen un valor base 0 natural: la edad, los
ingresos, temperatura Kelvin
Todas las técnicas estadísticas son aplicables a los datos de razón.

Ejemplo.

Nominal número asignado a corredores

Ordinal ordenamiento por rangos de los ganadores

De intervalo calificación de desempeño en una escala de 0 a10

De razón Tiempo para terminar en segundos


Otras clasificaciones

Es muy habitual simplificar la clasificación de Stevens dejando en dos grupos el que se corresponde
con variables no métricas (nominal y ordinal) y el de variables métricas (de intervalo y de razón).

También es habitual distinguir entre discretas y continuas.

TEORÍA DE MUESTREO.

MUESTREO
Es un procedimiento por medio del cual se estudia una parte de la población llamada muestra, con
el objetivo de inferir con respecto a toda la población. Es importante relacionar el muestreo con el
censo, el cual se define como la enumeración completa de todos los elementos de la población de
interés. El objetivo del diseño de estudios por muestreo, es maximizar la cantidad de información
para un costo dado
VENTAJAS DEL MUESTREO:
a) Costos reducidos.
b) Mayor rapidez para obtener resultados.
c) Mayor exactitud o mejor calidad de la información: debido a los siguientes factores
c.1 Volumen de trabajo reducido.
c.2 Puede existir mayor supervisión en el trabajo.
c.3 Se puede dar más entrenamiento al personal.
c.4 Menor probabilidad de cometer errores durante el procesamiento de la información.
d) Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas,
imposibilitando que lleguen a su forma inicial por ejemplo:

- Pruebas de germinación, Análisis de sangre, Control de calidad.

VENTAJAS DEL CENSO: Sin embargo, también se debe mencionar que el censo tiene algunas
ventajas que son las siguientes:
a) Existe una cobertura total.
b) Tiene aceptación pública.
c) No se requieren grandes conocimientos de estadística.

TIPOS DE MUESTREO:
MUESTREO NO PROBABILISTICO: Los elementos de la muestra son seleccionados por
procedimientos no al azar ó con probabilidades no conocidas de selección. Por lo tanto es
imposible determinar el grado de representatividad de la muestra. Dentro de los tipos de
muestreo no Probabilístico, podemos mencionar los siguientes:

 Muestreo por Juicio, Selección Experta o Selección Intencional: El investigador toma la


muestra seleccionado los elementos que a él le parecen representativos o típicos de la
población, por lo que depende del criterio del investigados.
 Muestreo casual o fortuito: Se usa en los casos en no es posible seleccionar los elementos,
y deben sacarse conclusiones con los elementos que estén disponibles. Por ejemplo: en el
caso de voluntarios para pruebas de medicamentos de enfermedades como el corazón,
cáncer, etc.
 Muestreo de cuota: Se utiliza en estudios de opinión de mercado. Los enumeradores,
reciben instrucciones de obtener cuotas especificas a partir de las cuales se constituye una
muestra relativamente proporcional a la población.
 Muestreo de poblaciones móviles: Este tipo de muestreo utiliza métodos de captura,
marca y recaptura. Se utiliza mucho en el estudio de migración de poblaciones de
animales y otras características.

MUESTREO PROBABILISTICO, ALEATORIO O ESTOCASTICO: Los elementos de la muestra son


seleccionados siguiendo un procedimiento que brinde a cada uno de los elementos de la población
una probabilidad conocida de ser incluidos en la muestra.

PROPIEDADES DEL MUESTREO PROBABILISTICO:

a) Existe la posibilidad de definir inequívocamente un conjunto de muestras M1, M2, .... , Mt


mediante la aplicación del procedimiento a una población. Esto significa que podemos indicar
cuales unidades de muestreo pertenecen a M1, M2 y así sucesivamente.

Podemos definir el conjunto de muestras distintas M1, M2,…Mt, significa que podemos decir con
precisión cuales son las unidades de muestreo que pertenecen a M1, M2, etc

b) A cada posible muestra Mi se le asigna un probabilidad conocida de selección Pi .


c) Seleccionamos una de las Mi por un proceso mediante el cual, cada Mi tiene una probabilidad Pi
de ser seleccionada, se selecciona mediante un proceso aleatorio
d) El método de estimación se realiza en base a la muestra, siendo único para cualquiera de las
posibles muestras Mi.

TIPOS DE MUESTREO PROBABILISTICO:


a) Muestreo simple aleatorio (m.s.a.).
b) Muestreo Estratificado.
c) Muestreo Sistemático.
d) Muestreo por conglomerados.
e) Muestreo por Areas.
f) Muestreo Polietápico.

Consideraciones:

- A mayor variación mayor tamaño de muestra


- A mayor error de estimación menor tamaño
de muestra
- A mayor nivel de confianza mayor tamaño de
muestra
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
La Estadística inferencial es parte de la Estadística, que se encarga de estudiar
procedimientos para la obtención de conclusiones, referentes al total de la población, a
partir de la información proporcionada por la muestra o muestras seleccionadas.
Es de gran utilidad en todos aquellos estudios de investigación llevados a cabo en
poblaciones demasiado grandes como para poder realizar mediciones en todos y cada uno
de los individuos de dichas poblaciones.
En términos generales, hay dos grandes tipos de procedimientos inferenciales:

 Los procedimientos de estimación


 Los procedimientos de contraste de hipótesis
Principales procedimientos inferenciales
Procedimientos de estimación
Su finalidad es proporcionarnos las herramientas necesarias para poder determinar buenas
aproximaciones (a los que llamaremos estimaciones) a aquellos valores desconocidos en la
población (a los que técnicamente se les denomina parámetros) y que estamos interesados
en conocer.
Su finalidad es proporcionarnos los mecanismos necesarios para poder decidir, con cierta
probabilidad de error, sobre la veracidad o no de determinada afirmación realizada en la
población bajo estudio.
Se puede estimar varios parámetros, por ejemplo:

 Estimación de medias
 Estimación de proporciones
 Estimación de diferencia de medias
 Estimación de diferencia de proporciones

Procedimientos de contraste de hipótesis.


El objetivo es evaluar estadísticamente con evidencia de los datos muestrales las
suposiciones acerca de los valores poblacionales. Se puede probar hipótesis de un, dos o
más grupos, estos grupos o muestras pueden ser independientes o dependientes, de ahí
que se elige el test de prueba más apropiado según las características del problema
TEOREMA CENTRAL DE LÍMITES
- Es un teorema de gran importancia en estadística especialmente en inferencia,
permite estimar los parámetros: µ, π, 𝛿, de una población a partir de muestras
obtenidas de ellas
- El TCL es una sucesión de variables aleatorias independientes de:
Medias µ𝑖 = 𝐸(𝑥𝑖̇ ) y

Varianzas 𝜎 2 = 𝑉𝑎𝑟(𝑥𝑖 ) finitas


- El teorema central del límite Establece que la suma de n variables aleatorias
independientes de varianza finita e idéntica distribución tiende a la distribución
normal cuando n tiende a infinito.

- Este teorema afirma que la distribución de medidas muestrales tiende hacia una
distribución normal, aunque las muestras proceden de una distribución no normal
a medida que el tamaño de muestra aumenta.

- Cualquiera sea la distribución de las variables aleatorias independientes discretas o


continuas, si n es suficientemente grande la distribución de la variable aleatoria es
normal de media la suma de las medias y de varianza la suma de las varianzas

µ = ∑µ𝑖 y 𝜎 2 = ∑𝜎𝑖2

- El teorema central del límite permite calcular razonablemente bien las


probabilidades de variables que siguen una distribución Binomial y de Poisson
siempre que el tamaño de la muestra sea suficientemente grande

- Una variable binomial B(n, p) se aproxima a una normal N (µ, 𝛿𝑖 ) ) mediante la


siguiente expresión B(n,p)~N(np,√𝑛𝑝𝑞).

- Una variable Poisson Ps(𝜆) se aproxima a una normal N (µ,𝛿𝑖 ) mediante la siguiente
expresión Ps(𝜆) ~ N ( 𝜆, √𝜆)
- Tiene una gran aplicación en inferencias estadísticas permite También aproximar
muchas distribuciones de uso frecuente: Binomial, Poisson, Chi_cuadrado, T-
student, Gamma, etc.
- El TCL explica porqué muchas variables aleatorias en las que influyen un gran
número de factores de forma aditiva tienen distribuciones próximas a la normal
- Los teoremas: de Lindeberg-Lévy y De Moivre son casos particulares del teorema
central

Ejercicio:
- Demostrar que la distribución de medidas muestrales tiende hacia una distribución
normal, aunque las muestras proceden de una distribución no normal a medida que
el tamaño de muestra aumenta.
Lanzamiento de un dado

Frecuencias
1,2

0,8

0,6

0,4

0,2

0
1 2 3 4 5 6

El lanzamiento de la moneda sigue una distribución uniforme


Se obtiene 15 combinaciones al lanzar un par de dados, es decir 15 muestras de tamaño 2,
sin reemplazo

M1 M1 M1 M1 M1 M1
M1 M2 M3 M4 M5 M6 M7 M8 M9 0 1 2 3 4 5
1 1 1 1 1 2 2 2 2 3 3 3 4 4 5
2 3 4 5 6 3 4 5 6 4 5 6 5 6 6
Medias 1,5 2 2,5 3 3,5 2,5 3 3,5 4 3,5 4 4,5 4,5 5 5,5

Distribución muestral de medias


Medias 1,5 2 2,5 3 3,5 4 4,5 5 5,5
Frecue 1 1 2 2 3 2 2 1 1
nias
Medias del lanzamiento de un par de dados (sin reemplazo)
3,5

2,5

1,5

0,5

0
1,5 2 2,5 3 3,5 4 4,5 5 5,5

Ejercicios del Libro del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los <negocios y a la Economías; Mc Graw Hill, México.

1. A continuación aparecen los 10 primeros renglones de cinco dígitos del apéndice


B.6. Suponga que se trata de 10 muestras aleatorias de cinco valores cada una.
Determine la media de cada muestra y trace una gráfica similar a la 8-3. Compare
la media de la distribución muestral de las medias con la media poblacional.

Solución:

Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5


0 2 7 1 1
9 4 8 7 3
5 4 9 2 1
7 7 6 4 0
6 1 5 4 5
Media 5,4 3,6 7 3,6 2

Muestra 6 Muestra 7 Muestra 8 Muestra 9 Muestra 10


1 7 1 4 7
1 3 7 4 8
8 7 4 5 5
0 8 9 9 9
7 8 8 0 4
Media 3,4 6,6 5,8 4,4 6,6

Xi 1 2 3 4 5 6 7 8 9 10
Media
muestral 5,4 3,6 7 3,6 2 3,4 6,6 5,8 4,4 6,6

Media poblacional= 4,84

2. Scrapper Elevator Company tiene 20 representantes de ventas, que distribuyen su


producto en Estados Unidos y Canadá. La cantidad de unidades que el mes pasado
vendió cada representante se incluye a continuación. Suponga que estas cifras
representan los valores de la población.

a) Trace una gráfica que muestre la distribución de la población.


b) Calcule la media de la población.
c) Seleccione cinco muestras aleatorias de 5 cada una. Calcule la media de cada muestra.
Utilice los métodos descritos en el capítulo y en el apéndice B.6 para determinar los
elementos que deben incluirse en la muestra.
d) Compare la media de la distribución muestral de medias con la media poblacional.
¿Esperaría que los dos valores fueran aproximadamente iguales?
e) Trace un histograma de las medias muestrales. ¿Nota alguna diferencia en la forma de
la distribución

Solución:

Media poblacional= 3.3

Cinco muestras aleatorias de 5 elementos cada una.

Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5


2 4 2 3 3
3 2 7 3 2
2 4 3 3 3
3 3 4 3 3
3 2 5 5 4
Medias 2,6 3 4,2 3,4 3
Media
poblacional 3,3 3,3 3,3 3,3 3,3

Tabla de frecuencias de las medias muestrales (5 muestras)


Xi 2,6 3 3,4 4,2
Medias
muestrales 1 2 1 1
Medias muestrales
2,5

1,5

0,5

0
2,6 3 3,4 4,2

3. Arm and Hammer Company desea cerciorarse de que su detergente para lavandería
contiene realmente 100 onzas líquidas, como indica la etiqueta. Los registros de los
procesos de llenado indican que la cantidad media por recipiente es de 100 onzas
líquidas y que la desviación estándar es de 2 onzas líquidas. A las diez de la mañana
el técnico de calidad realiza la verificación de 40 recipientes y encuentra que la
cantidad media por recipiente es de 99.8 onzas líquidas. ¿Debe interrumpir el
proceso de llenado, o el error de muestreo es razonable?
Solución
El error de muestreo 100-99,8=0,2

99,8 − 100
z=
2
√40
Z = −0.63
P= 0.2357

4. A.C. Nielsen Company proporciona información a las empresas que se anuncian en


televisión. Las investigaciones indican que, en promedio, los adultos
estadounidenses ven televisión 6.0 horas al día. La desviación estándar es de 1.5
horas. En el caso de una muestra de 50 adultos que viven en el área de Greater de
Boston, ¿sería razonable seleccionar al azar una muestra y encontrar que en
promedio ven 6.5 horas al día?

6,5 − 6
z=
1,5
√50
Z = 2,36
P= 0.4909
VIDEOS DE LA SEMANA N°

Usted puede ver los videos que sirven como apoyo a las actividades de aprendizaje correspondiente:

https://www.youtube.com/watch?v=EC1bTDBz46k

https://www.youtube.com/watch?v=-lgvcerAu0s

LEY DE LOS GRANDES NUMEROS


Ver el documento: https://bookdown.org/aquintela/EBE/las-leyes-de-los-grandes-
numeros.html
Video: https://www.youtube.com/watch?v=6wA1VUhqTPE
A medida que aumentamos n= el número de lanzamientos, se aproxima la media
poblacional a la E (X), la media muestral tiende a aproximarse a la media poblacional en la
medida que repetimos el experimento mayor número de veces, es decir mientras más
datos tengamos sobre la muestra mejores estimaciones tendremos

DISTRIBUCIONES EN EL MUESTREO

La estadística de una muestra (el promedio) de “n” elementos es muy probable que sea diferente a
la estadística (el promedio) de otra muestra de igual número de elementos obtenida de la misma
población porque al menos uno de los elementos de las dos muestras será diferente,
consecuentemente, habrá tantas estadísticas (promedios) como muestras posibles se pueden
formar y la estadística o valor muestral constituye en variable aleatoria.

Existen nCr muestras posibles de igual número de elementos sin reemplazo y N^n con reemplazo; y
cada muestra tiene su probabilidad de ocurrencia, sin reemplazo
Distribución en el muestreo del promedio muestral:

A la distribución de probabilidad de los promedios de todas las muestras posibles se le conoce


como la “Distribución en el muestreo de medias”. Esta distribución es normal si la población de
origen esta normalmente distribuida:

µ = ∑(𝑥̅/n) y que 𝜎ẋ= 𝜎


√𝑛

Si la población de origen no está normalmente distribuida la distribución en el muestreo del


promedio muestral se aproxima a la distribución normal a medida que el tamaño de la muestra se
incrementa en virtud del Teorema Central del Límite de forma que:

µ = E(𝑥̅) y que
El Teorema Central del Límite y la ley de los grandes números expresan que a medida que el
tamaño de la muestra “n” aumenta el valor del estimador se aproxima al valor poblacional y el error
estándar de la media muestral se aproxima a cero. Permite hacer inferencias con respecto a los
parámetros poblacionales sin conocer la forma de distribución de los valores de esa población.

Si la población de origen es finita y se realiza un muestreo sin reemplazo el error estándar de la


distribución en el muestreo del promedio debe ponderarse por el factor de corrección para
población finita

Para calcular la probabilidad de obtener promedios muestrales entre determinados valores


utilizaremos la estadística “Z” donde:

Z=

Donde:

Distribución en el muestreo de la proporción poblacional:

Se define como proporción al cociente entre el número de elementos que poseen determinada
característica y el número total de elementos. Se representa por “π” para los valores
poblacionales y por “p” para los valores muestrales.

p
La distribución en el muestreo de la proporción muestral se aproxima a la distribución normal a
medida que el tamaño de la muestra tiende al infinito y se verifica que:

P = E(p) y que
No hay que olvidar lo que se mencionó anteriormente. Si la población de origen es finita y se
realiza un muestreo sin reemplazo el error estándar de la distribución en el muestreo del
promedio debe ponderarse por el factor de corrección para población finita caso contrario se
omite, sin embargo, este factor tiende a la unidad

Se pueden obtener probabilidades de ocurrencia para ciertos valores de la población muestral


mediante la estadística “Z” donde:

Z=
Distribución Muestral de Medias
Ejercicios del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel
(2015) Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México,
página 279, 9-10

1. El despacho de abogados Tybo and Associates consta de seis socios. En la


siguiente tabla se incluye el número de casos que en realidad atendió cada socio
en los tribunales durante el mes pasado.

a) ¿Cuántas muestras de 3 son posibles?


b) Enumere todas las muestras posibles de 3 y calcule el número medio de casos en cada
muestra.
c) Compare la media de la distribución muestral de las medias con la de la media
poblacional. d ) En una gráfica similar a la 8-1, compare la dispersión en la población
con la de las medias muestrales.

Población: 3 6 3 3 0 1 µ= 2,7
δ2= 3,6
Muestras 6C3=20 Medias
1 3 6 3 4,0
2 3 6 3 4,0
3 3 6 0 3,0
4 3 6 1 3,3
5 3 3 3 3,0
6 3 3 0 2,0
7 3 3 1 2,3
8 3 3 0 2,0
9 3 3 1 2,3
10 3 0 1 1,3
11 6 3 3 4,0
12 6 3 0 3,0
13 6 3 1 3,3
14 6 3 0 3,0
15 6 3 1 3,3
16 6 0 1 2,3
17 3 3 0 2,0
18 3 3 1 2,3
19 3 0 1 1,3
20 3 0 1 1,3

Distribución muestral de medias


Xi fi Pi XiPi

1,3 3 0,15 0,2

2,0 3 0,15 0,3

2,3 4 0,2 0,47

3,0 4 0,2 0,6

3,3 3 0,15 0,5

4,0 3 0,15 0,6

Sumatorias 20 1 2,67

Distribución Muestral de Medias


5

0
1,3 2,0 2,3 3,0 3,3 4,0
2. Mid-Motors Ford tiene cinco vendedores. Los cinco representantes de ventas y el
número de automóviles que vendieron la semana pasada son los siguientes:

a) ¿Cuántas muestras de tamaño 2 son posibles?


b) Enumere todas las muestras posibles de tamaño 2 y calcule la media en cada muestra.
c) Compare la media de la distribución muestral de la media con la de la media poblacional.
d ) En una gráfica similar a la 8-1, compare la dispersión de la población con la de la
media de la muestra.

Población:
3 6 3 3 0 1 µ= 2,7
δ2= 3,6
Muestras 6C2=15 Medias
1 3 6 4,5
2 3 3 3,0
3 3 3 3,0
4 3 0 1,5
5 3 1 2,0
6 6 3 4,5
7 6 3 4,5
8 6 0 3,0
9 6 1 3,5
10 3 3 3,0
11 3 0 1,5
12 3 1 2,0
13 3 0 1,5
14 3 1 2,0
15 0 1 0,5
Distribución muestral de medias
Xi fi Pi XiPi

0,5 1 0,07 0,03

1,5 3 0,2 0,3

2 3 0,2 0,4

3 4 0,27 0,8

3,5 1 0,07 0,23

4,5 3 0,2 0,9

Sumatorias 15 1 2,67

Distribución Poblacional
3,5
3
2,5
2
1,5
1
0,5
0
0 1 36
Distribución Muestral de Medias
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0,5 1,5 2 3 3,5 4,5

Distribución muestral de proporciones

5. El 75% de los estudiantes fuman cigarrillos frecuentemente. Si tomamos una


muestra de 100 estudiantes, Cuál es la probabilidad de que la proporción de la
muestra de personas que fuma cigarrillos sea menor que 0.65

𝑝−𝜋
𝑍=
𝜎𝑝

𝑝−𝜋
𝑍=
√𝜋 ∗ (1 − 𝜋)
𝑛
0.65 − 0.75
𝑍= = −2.3094
√0.75 ∗ 0.25
100

P(X<0.65)= 0.0104

6. Se sabe que la verdadera proporción de artículos defectuosos fabricados en una


empresa es del 5% en una población 500 artículos, sabiendo esto encuentre la
probabilidad de que una muestra de tamaño 70, tenga más del 2% pero menos del
6% de artículos defectuosos
𝑝−𝜋
𝑍=
𝜎𝑝
𝑝−𝜋
𝑍=
√𝜋 ∗ (1 − 𝜋) ∗ √𝑁 − 𝑛
𝑛 𝑁−1

0.02 − 0.05
𝑍= = −1.2406
√0.05 ∗ 0.95 ∗ √500 − 70
70 500 − 1

0.06 − 0.05
𝑍= = 0.4135
√0.05 ∗ 0.95 ∗ √500 − 70
70 500 − 1

P( 2<X<6)= 0.3925+0.1591=0.5530

ESTIMACIÓN

 Estimación puntual
 Estimación por intervalos
Estimación Puntual:
Estima el valor poblacional con un solo punto deducido de observaciones muestrales.
Un buen estimador debe ser:

 Insesgado (Imparcial): El valor esperado del estimador sea igual al valor poblacional.
 Consistente (Coherencia): Al aumentar el tamaño de la muestra el valor del
estimador se aproxima al del parámetro y el error del estimador tiende a cero.
 Eficiente: Es el estimador de menor error estándar.
 Suficiente: que utilice toda la información que proporciona la muestra.
Estimación por intervalos:
Estima el valor del parámetro mediante un intervalo aleatorio cuyos límites son funcionales
de las observaciones muestrales.
El analista debe fijar al nivel de confianza (1 – α) con el que se desea establecer el intervalo
de confianza por lo general se fija en el 90%, 95% ó 99%. (En Excel las probabilidades van
del punto al infinito más lejano) El valor α indica la probabilidad de error que podemos
cometer en el proceso de estimación. En general el intervalo de confianza para un
parámetro se determina por:
𝐿𝑠𝑖 = θ ± K * es(θ)
En donde: 𝐿𝑠𝑖 = Límite superior e inferior de confianza
Θ = Estimador
K = Coeficiente de confianza

𝜎 𝑁−𝑛
es(θ) = Error estándar del estimador αx =̅ √
√𝑛 𝑁−1
INTERVALO DE CONFIANZA PARA EL PROMEDIO
Para muestras relativamente grandes n ≥ 30 elementos, el intervalo de confianza se calcula
mediante:
𝐿𝑠𝑖 = 𝑥̅ ± Zα/2 es(𝑥̅ ) tal que:
P=(𝑥̅ - Zα/2 es(𝑥̅ ) ≤ 𝑢≤ 𝑥̅ +Zα/2 es(𝑥̅ ))
En donde: 𝐿𝑠𝑖 = Límite superior e inferior del promedio
𝑥̅ = Promedio muestral estimador
Zα/2 = Coeficiente de confianza, con el test Z bilateral
es(𝑥̅ ) = Error estándar del promedio muestral
Para muestras menores a 30 elementos se utilizará la distribución “t” como elemento de
cálculo para el coeficiente de confianza.
𝐿𝑠𝑖 = 𝑥̅ ± tα/2 es(𝑥̅ )
P ( 𝑥̅ - tα/2 es(𝑥̅ ) ≤ 𝑢̅ ≤𝑥̅ +tα/2 es(𝑥̅ ) )
En donde: 𝐿𝑠𝑖 = Límite superior e inferior del promedio
𝑥̅ = Promedio muestral estimador
tα/2 = Coeficiente de confianza, con el test t bilateral
es(𝑥̅ ) = Error estándar del promedio muestral
Estimación de medias poblacionales

Ejercicios 8 y 14, página 305 y 313, del texto guía: LIND Douglas,MARCHAL
William, WATHEN Samuel (2015) Estadística Aplicada a los negocios y a la
Economías; Mc Graw Hill, México.

1. La doctora Patton es profesora de inglés. Hace poco contó el número de


faltas de ortografía que cometió un grupo de estudiantes en sus ensayos.
Observó que la distribución de las faltas de ortografía por ensayo se regía
por la distribución normal con una desviación estándar de 2.44 palabras por
ensayo. En su clase de 40 alumnos de las 10 de la mañana, el número medio
de palabras con faltas de ortografía fue de 6.05. Construya un intervalo de
confianza de 95% del número medio de palabras con faltas de ortografía en
la población de ensayos.
𝛿 = 2,44
𝑛 = 40
x̅ = 6,05
Β = 95%

𝛿
x̅ ± 𝑍𝛼
2 √𝑛

2,44
6,05 ± 1,96
√40

6,05 ± 0,7210

5,329- 6,771

2. Greater Pittsburgh Area Chamber of Commerce desea calcular el tiempo


medio que los trabajadores que laboran en el centro de la ciudad utilizan para
llegar al trabajo. Una muestra de 15 trabajadores revela las siguientes
cantidades de minutos de viaje.

Construya el intervalo de confianza de 98% de la media poblacional. Interprete el


resultado.
Solución:

Tiempo.M 29 38 38 33 38 21 45 34 40 37 37 42 30 29 35
x̅ = 35,1
S= 6,02
𝑛 = 15
Β = 98%
𝑆
x̅ ± 𝑡𝛼 ,𝑣
2 √𝑛

6,02
35,1 ± 2,6245
√15

35,1 ± 4.0794

31,0206- 39.1794

INTERVALO DE CONFIANZA PARA PROPORCIONES


Para muestras relativamente grandes n ≥ 30 elementos, el intervalo de confianza se calcula
mediante:
𝐿𝑠𝑖 = p ± Zα/2 es(p) tal que:
P (Li ≤ π ≤ Ls )

En donde: 𝐿𝑠𝑖 = Límite superior e inferior del promedio


𝑝 = Proporción muestral estimador
Zα/2 = Coeficiente de confianza, test Z bilateral

𝑝𝑞 𝑁−𝑛
es(𝑝) = Error estándar del proporción muestral αp ̅ = √ 𝑛 √ 𝑁−1

Método 2 (libro de Walpole pg 297)

Ejercicio propuesto del texto guía: LIND Douglas,MARCHAL William, WATHEN Samuel
(2015). Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México. Página
316 ejercicio 18
La empresa X, compra tazas de plástico para imprimir en ellas logotipos de eventos
deportivos, graduaciones, cumpleaños u otras ocasiones importantes. El propietario de la
empresa, recibió un envío grande esta mañana. Para asegurarse de la calidad del envío,
seleccionó una muestra aleatoria de 300 tazas. Halló que 15 estaban defectuosas.
a) ¿Cuál es la proporción aproximada de tazas defectuosas en la población?
b) Construya el intervalo de confianza de 95% de la proporción de tazas defectuosas.
c) Zack llegó con su proveedor al acuerdo de que devolverá lotes con 10% o más de artículos
defectuosos.
¿Debe devolver este lote? Explique su decisión.

𝑃 = 15/300
𝑛 = 300
Β = 95%
Solución:
a. P=0.05
𝑝𝑞
b. p ± 𝑍𝛼 √ 𝑛
2

0.05∗0.95
0,05 ± 1,96 √ 300

0,05 ± 0.0247

0.0253- 0.0747

c. No debe devolver el lote

Aplicación en Excel
EJERCICIO del libro Estadística y Muestreo de Ciro Martínez Begarano
1. Se realizó una encuesta a 10 familias, siguiendo un muestreo aleatorio simple, se
quiere estimar para una población de 1200 familias
Se sugiere se realice una estimación puntual y por intervalos
a. El Promedio de personas por familia
b. Gasto en alimentación por personas
c. Proporción de familias con suscripción al periódico

Familias Número de Ingresos Gastos Suscripción al


personas periódico
1 2 2620 820 Si
2 3 1840 960 No
3 3 1930 1010 N0
4 5 1450 760 No
5 4 2620 1220 Si
6 7 3010 1130 Si
7 2 2420 1040 No
8 4 2620 1230 No
9 2 2210 1020 Si
10 5 2060 1020 N0

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

Determinación del tamaño de muestra para estimar la media y proporción poblacional

Determinar el tamaño de la muestra depende del planteamiento del problema, la población, los
objetivos y el propósito de la investigación, de la variabilidad. Además se debe tomar en
consideración la disponibilidad de los recursos y el tiempo.

La fórmula del error de estimación para estimar las medias y proporciones se puede utilizar de tal
forma que sea posible determinar el valor de la muestra (n)

- Al aumentar el error se disminuye n


- Disminuir el nivel de confianza disminuye n

Intervalo de confianza para medias

𝐿𝑠𝑖 = 𝑥̅ ± ZZα/2 es(𝑥̅))


α/2 es(𝑥̅

e=Error estándar de estimación (máx tolerable)

Intervalo de confianza para proporciones

𝐿𝑠𝑖 = p ± ZZα/2
α/2 es(p)
es(p)

e=Error estándar de estimación (máx tolerable)

Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

1. Tamaño de la población. (en poblaciones finitas)


2. Nivel de confianza.
3. La desviación estándar.

Fórmulas:
 z 
2
Para poblacióninf inita 2 pq
n       n  z 2
 e  e

z 2 2 N Para poblacion finita z 2 qpN


n 2 2 2  n 
z   e ( N  1) ( N  1)e 2  z 2 pq

Donde

σ = Parámetro a nivel de una población (desviación típica)

s = Estadígrafo a nivel de una muestra (desviación típica)

e = Error de estimación

z = Nivel de confianza

N = Tamaño de la población

P = Probabilidad de éxito

q= Probabilidad de fracaso

 El nivel de confianza se simboliza con β pero se la debe transformar a niveles de z


 z es conveniente trabajar con un 95% hasta un 99% de confianza
 e es conveniente trabajar hasta con un 10% de error
 P y Q cuando se desconoce se trabajar con un 50% y 50%, respectivamente que son
consideradas como probabilidades máximas.

Ejercicios resueltos:

1. Nivel de confianza =95% Z=1.96

Nivel de confianza = 99% Z=2.57

N=920

P=50%

q=50%

e=5%

z 2 qpN
n
( N  1)e 2  z 2 pq

(1.96 2 )(0.5)(0.5)(920)
n
(920  1)(0.05) 2  (1.96 2 )(0.5)(0.5)

n= 272

(2.57 2 )(0.5)(0.5)(920)
n
(920  1)(0.05) 2  (2.57 2 )(0.5)(0.5)

n=385

2. Que tamaño de muestra será necesario para producir un intervalo de 90% en el caso de la
media de la población verdadera, con un error de 1 en cualquier sentido, si la desviación
estándar de la población es 10.

Nivel de confianza =0.90

z = 1.64

e=1

σ = 10
 z 
2

n 
 e 

2
 1.64 x 10 
n   268.96  269
 1 

Interpretación. El tamaño de la muestra es de 269 con un 90% de confianza.

3. Qué tamaño de muestra será necesaria para obtener un intervalo de confianza del 95%
para la proporción de la población si el error es de 0.08

Nivel de confianza= 95%

Z = 1.96

e = 0.08

PQ
n  z2
e2

(1.96) 2 (0.5 x0.5)


n  150.06
(0.08) 2

ESTIMACIÓN POR INTERVALOS DE DIFERENCIA DE MEDIAS, CON DOS MUESTRAS


Muestras Independientes

Muestras grandes

µ1-µ2= 1- 2+/-Z*σ 1- 2

Donde:

𝜎12 𝜎22
𝜎ẋ1−ẋ2 = √ +
𝑛1 𝑛2

σ=S

Interpretación: si los intervalos incluyen el 0, entonces no hay diferencia estadística significativa


que los grupos sean diferentes, entonces los grupos son iguales

Muestras pequeñas

µ1-µ2= 1- 2+/-t*S 1- 2

Varianzas son igual


𝑆21 ( 𝑛1 −1)+ 𝑆22 ( 𝑛2 −1)
Sp2 = 𝑛1 + 𝑛2 −2

2 2
S 1- 2 = √ 𝑆𝑝 + 𝑆𝑝
𝑛1 𝑛2

gl=n1+n2-2

Varianzas diferentes

2 2
S 1- 2 = √ 𝑆1 + 𝑆2
𝑛1 𝑛2

𝑆2 𝑆2
( 1 + 2 )2
𝑛1 𝑛2
gl = 𝑆2 𝑆2
( 1 )2 ( 𝑛 2 )2
𝑛1
+ 2
( 𝑛1 −1) ( 𝑛2 −1)

Se aproxima al inmediatamente anterior

Muestras dependientes o pareadas

∑ 𝑑 2 −𝑛 (𝑑̅ )2
Donde: Sd= √ 𝑛−1

gL = n – 1

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES

Donde:
PRUEBAS DE HIPÓTESIS

La prueba de significación y la estimación son dos de las ramas principales de la inferencia


estadística. EL objetivo de la estimación es calcular el valor de cierto parámetro de la población
mientras que la finalidad de las pruebas hipótesis o de significación es evaluar si una afirmación
acerca del parámetro es verdadero.

Hipótesis es una proposición, una suposición o una conjetura probable no probada sobre algo en
particular

Según el folleto Introducción al Análisis de Experimentos de Cisneros Oscar las hipótesis se clasifican
y tienen la siguiente estructura:

Clasificación de las Hipótesis

Según el número de variables se clasifican en:

 Hipótesis de una variable: son descriptivas de la conformación estructurada o distribución


temporal o espacial de una variable.
 Hipótesis de dos o más variables: son explicativas de los motivos causas o efectos de los
fenómenos.

Según su naturaleza se clasifican en:

 Hipótesis de sentido común: son aquellas que establecen suposiciones que toda persona
puede verificar de manera simple y directa.
 Hipótesis científicas: son aquellas que se formulan en términos científicos cuya verificación
requiere un procedimiento científico de prueba.
 Hipótesis metafísicas: son aquellas conjeturas cosmológicas teológicas o filosóficas cuya
verificación trasciende de la experiencia científica.

Según su Nivel de Generalidad se clasifican en:

 Hipótesis de investigación o de trabajo: son aquellas referidas a una investigación específica


considerando tiempo, lugar y población.
 Hipótesis abstractas: son aquellas que no tienen ningún nivel de concreción y su verificación
es muy dificultosa o no factible.

Condiciones que se debe observar una Hipótesis


 Debe ser comprensible la expresión que manifiesta la hipótesis debe ser clara y fácilmente
comprensible para cualquier persona.
 Debe ser especifica referente a algo concreto que pueda probarse por si misma o mediante
sub-hipótesis.
 Debe ser verificable mediante técnicas o procedimientos asequibles que permitan realizar
el contraste y comprobar su veracidad o falsedad.
 Debe hallarse en consonancia con teorías precedentes debe apoyarse en leyes teorías o
conceptos anteriormente demostrados.
 Debe poseer un alcance general deben presentar un valor de generalidad en el campo o
sector al que se refiere el problema.

Estructura de la Hipótesis.

En la formulación de una hipótesis deben observarse su estructura desde tres puntos de vista:
científico, gramatical y matemático.

Desde el punto de vista científico deben indicarse las unidades de observación, las variables y los
términos de relación.

Desde el punto de vista gramatical, la unidad de observación es el sujeto de la oración en tanto que
las variables y términos de la relación son el predicado de la misma.

Desde el punto de vista matemático la hipótesis debe expresarse mediante funciones o ecuaciones,
en las que identificado el parámetro de la variable a docimar, este se representa por letras y los
términos lógicos por signos indicativos de las operaciones o relaciones matemáticas.

El objetivo de la prueba de hipótesis o de la dócima de hipótesis es evaluar estadísticamente, con la


evidencia de los datos muestrales las suposiciones de los valores poblacionales. Ejem

Ho: u1=u2=u3

Ho: π=25%

El procedimiento clásico de la prueba de hipótesis establece los siguientes pasos:

1. Formulación de la hipótesis.
2. Fijación de la estadística de prueba
3. Determinación del criterio de decisión
4. Ejecución de los cálculos numéricos y
5. Toma de la decisión.
Tomar una decisión significa “Aceptar” la hipótesis propuesta (hipótesis nula) o “Rechazar” la
hipótesis propuesta (hipótesis nula) y se puede cometer uno de dos errores.

Formulación de la Hipótesis

Hipótesis Nula (Ho): Enunciado que expresa que el parámetro de la población es como se especificó.
Todo lo que se desea probar en la hipótesis se denomina como “Hipótesis Nula” y se representa por
Ho.

Hipótesis Alternativa (H1): Plantea lo contrario de la hipótesis nula. Todo lo contrario, a lo que se
desea probar se denomina “Hipótesis Alternativa” y se representa por H1, HA

La hipótesis alternativa se utiliza para indicar que aspecto de variación no aleatoria resulta de
interés. Existen 3 casos posibles.

Caso 1: Colas bilaterales

La hipótesis es bilateral cuando en la H0 se desea probar que el parámetro es igual a un valor


determinado θ.

H0: θ = θ0

H1: θ ≠ θ0

Caso 2: Cola unilateral izquierda

La hipótesis es unilateral izquierda cuando en la H0 se desea probar que el parámetro es mayor o


igual que un determinado valor θ.

H0: θ ≥ θ0

H1: θ < θ0

Caso 3: Cola unilateral derecha

La hipótesis es unilateral derecha cuando H0 se desea probar que el parámetro es menor o igual que
un valor determinado θ.
H0: θ ≤ θ0

H1: θ > θ0

NOTA: La hipótesis nula solamente se puede plantear en términos de igualdad (=), >, <, no de
diferente (≠)

Ejemplos

Pruebe si el promedio del rendimiento de los estudiantes es 5

Ho: μ = 5

H1: μ ≠ 5

El porcentaje de las personas que aprueban el curso = 70% (Proporciones)

Ho = π = 70%

H1 = π ≠ 70%

Fijación de la estadística de prueba:

Determinar la estadística que se usará para establecer la significación de la hipótesis planteada, está
en función:
 Del estimador
 Tamaño de la muestra
 La distribución en el muestreo del estimador.
Mencionamos algunos test: z, t, x², F

Valor medio Media propuesta



de la muestra o poblaciona l
Valor estadística de p 
Erroresdel adistribuc ionmuestral
media ( x) o Pr oporciones ( P)

Distribución Z

x
Zc 
x

Distribución t

x
tc 
Sx

Proporciones

𝑝−𝛱
𝑍𝑐 =
𝜎𝑝

Nivel de significación (α)

Este nivel de significación se simboliza como (α) (alfa) y viene a ser la zona de rechazo de la hipótesis
nula, α marca la zona de rechazo de la hipótesis nula

Determinación del criterio de decisión:

El criterio de decisión divide a la distribución del estimador en una zona de aceptación de la Ho y en


una zona de rechazo de la Ho. La ubicación de la zona de rechazo depende de la formulación de la
hipótesis.

Ejemplo:
Establece un límite, un valor a partir del cual se puede rechazar la hipótesis nula

ZRHo
ZAHo
ZRHo ZRHo

α/ 2 α/ 2

ZRH0 : Zona de rechazo de la hipótesis nula

ZAH0 : Zona de aceptación de la hipótesis nula

PRUEBA DE HIPÓTESIS PARA EL PROMEDIO

Formulación de la hipótesis:

H0: µ = µ0 H0: µ ≤ µ0 H0: µ ≥ µ0

H1: µ ≠ µ0 H1: µ > µ0 H1: µ < µ0

Fijación de la estadística de prueba

Cuando n ≥ 30 Cuando n ≤ 30

̅−𝝁
𝒙 ̅−𝝁𝜶
𝒙
Zc = ∝𝒙
tc = ∝𝒙

𝐿𝑠𝑖 = µ0 ± Zα/2es(𝑥̅ ) 𝐿𝑠𝑖 = µ0 ± tα/2,ves(𝑥̅ )

Determinación del criterio de decisión

Para todos los casos el criterio será:

Rechazar la Ho Si:

Cuando n ≥ 30
|Zc| ≥ Zα/2 Zc ≥ Zα Zc ≤ -Zα

𝑥̅ ≥ µ0 + Zα/2es(𝑥̅ ) 𝑥̅ ≥ µ0 + Zαes(𝑥̅ ) 𝑥̅ ≤ µ0 - Zα/2es(𝑥̅ )

𝑥̅ ≤ µ0 - Zα/2es(𝑥̅ )

Cuando n < 30

|tc| ≥ tα/2v tc ≥ tαv tc ≤ -tαv

𝑥̅ ≥ µ0 + tα/2ves(𝑥̅ ) 𝑥̅ ≥ µ0 + tαves(𝑥̅ ) 𝑥̅ ≤ µ0 - tα/2ves(𝑥̅ )

𝑥̅ ≤ µ0 - tα/2ves(𝑥̅ )
PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN

Formulación de la hipótesis

H0: π = π 0 H0: π ≤ π 0 H0: π ≥ π 0

H1: π ≠ P0 H1: π > π 0 H1: π < π 0

Cuando n ≥ 30

Fijación de la estadística de prueba:

Para n ≥ 30

p−π
Zc =
𝑃 𝑄
√ 0 0
𝑛

El error estándar de la dist muestral de proporciones se trabaja con la proporción


poblacional

𝐿𝑠𝑖 = P0 ± Zα/2 * es(p)

Determinación del criterio de decisión:

Para todos los casos el criterio será:

Rechazar la Ho Si:

|Zc| ≥ Zα/2 Zc ≥ Zα Zc ≤ -Zα

𝑝 ≥ P0 + Zα/2es(𝑝) 𝑝 ≥ P0 + Zαes(𝑝) 𝑝 ≤ P0 - Zα/2es(𝑝)

𝑝 ≤ P0 - Zα/2es(𝑝)

Ejercicios del texto: STEVENSON, Willian J; (1978); Estadística para Administración y Economías;
Harla México.

. En la Provincia de Cotopaxi el porcentaje de analfabetos es el 40%. El Ministerio de Educación ha


creado un programa especial de educación de adultos, que tiene como objeto disminuir el
porcentaje de analfabetos en la provincia una vez transcurrido el año queremos ver si el programa
ha dado resultado, entonces tomamos una muestra de 50 personas de las cuales 18 resultaron ser
analfabetos usando un nivel de significación del 5%, probar si e programa tuvo o no éxito.

1) Planteamiento de hipótesis

Ho : π = 40

H1 : π < 40

Ho: La proporción de analfabetos en la Prov. Cotopaxi es del 40%

H1: La proporción de analfabetos en la Prov. Cotopaxi es < al 40%

Es decir el programa que imparte el Ministerio de Educación es bueno

2) Estadística de Prueba

P
Zc 
p

P
Zc 
PQ
n
0.36  0.40

0.36 x 0.64
50
0.04
  0.5893
0.067

3) Determinar el nivel de significación

α = 5% B = 95%
4) Criterio de decisión

ZRHo

B
0.95
ZRHo

Z7 ZcX
-1.64 -0.5893

5) Desición

Acepto Ho => El programa no tuvo efectos se sugiere realizar otro tipo de programas

. El peso promedio de un lote de pollos de carne era de 2.1 Kg. Durante el último periodo de engorde,
se probó un alimento balanceado, que se cree que aumentó el peso promedio de los pollos, esto se
quiere probar, utilizando un nivel de significación del 5% al obtener una muestra de 50 pollos se
obtuvo que el peso medio fue de 2.2 Kg. Y una desviación de 0.8

1) Planteamiento de Hipótesis

Ho: µ = 2.1 El peso de los pollos de carne es de 2.1 Kg.

HA: μ > 2.1 El peso promedio de los pollos de carne es > 2.2 Kg.

2) Estadística de Prueba

x
Zc 
s
n
2.2  2.1

0.8
50
0.10
  0.8839
0.1131
3) Determinar el nivel de significación

α = 5% B= 95%

4) Criterio de decisión

ZAHo ZRHo

1.64

5) Decisión: AHo, el balanceado no funcionó pues siguen pesando 2.1 Kg. Y el 0.1 Kg que aumentó,
se debe a efectos aleatorios o selección de la muestra.

. Una compañía que vende tiras repelentes contra insectos, asegura que su producto es eficaz, por
lo menos durante 400 horas. Un análisis sobre nueve tiras seleccionadas aleatoriamente indicó un
promedio de 380 horas. Pruebe la aseveración de la compañía respecto a la alternativa de que el
repelente sea eficaz menos de las 400 horas, a un nivel 0.01, si la desviación estándar de la muestra
es 60 horas.

1) Planteo de la hipótesis

Ho: μ = 400 El repelente es eficaz no menos de 400 horas

HA: μ < 400 El repelente es eficaz < 400 horas

2) Estadística de Prueba
x
tc 
s
n
380  400

60
9
 20
  1
20

3) Determinar el nivel de significación

N = 0.01 α = -9.896 B= 0.99

4) Criterio de decisión

B
ZRHo
0.99

ZRHo
α

-2.896 X
t7 Z7

5) Decisión

El repelente es eficaz, dura más de 400 horas

. Mediante un proceso de fabricación, se produce alambre de acero con una resistencia media a la
tensión de 200 libras por pulgada cuadrada (psi). La desviación estándar del proceso es 20 psi. El
ingeniero encargado del control de calidad quiere diseñar una prueba que le indique si ha habido o
no un cambio en el promedio del proceso, utilizando un tamaño de muestra de 25 y un nivel de
significación de α = 0.05. Suponga que la población de la resistencia del alambre es
aproximadamente normal

a. Enuncie H0 y H1 para esta prueba.

b. ¿Para qué intervalo de resistencia del alambre, e l proceso se considerará fuera de control (es
decir, se concluirá que la media del proceso ha cambiado a partir de 200 psi)?
a) Planteo Hipótesis

Ho: μ = 200 Se produce alambre con una resistencia de 200 lb.

HA: μ ≠ 200 Se produce alambre con una resistencia diferente de 200 lb.

b) Intervalos

δ = 20

n = 25

α = 0.05

μ = 200

x  z x
 20 
200  1.96 
 25 
200  7.89
207.84
192.16

Interpretación

El alambre de acero se considera fuera de control cuando sale de los intervalos 207.84 y 192.16

ERROR TIPO I Y II

El error de rechazar H0 cuando es verdadera se denomina error TIPO I y la probabilidad de cometerlo


se representa por medio de α (alfa)

El error de aceptar H0 cuando es falsa se conoce como error TIPO II y la probabilidad de cometerlo
se denota por medio de B (la letra griega minúscula)
Acepte H0 Rechace H0
H0 es verdadero Decisión Correcta Error Tipo I
Falso positivo
H0 es falso Error Tipo II Decisión correcta
Falso negativo

Si rechazamos una hipótesis cuando debería ser aceptada entonces se ha cometido un error tipo I,
por otra parte si aceptamos una hipótesis que debería ser rechazada se ha cometido un error Tipo
II, y en ambos casos se ha producido un juicio erróneo.

Para que la regla de decisión o contraste de hipótesis sean buenas deben diseñarse de modo que
minimicen los errores de la decisión, la única forma de disminuir ambos a la vez es aumentar el
tamaño de la muestra que no siempre es posible.

Según el libro de Lind

Potencia de una prueba

Al calcular la potencia de una prueba encontramos qué tan satisfactoria es la prueba para ciertos
valores de la media verdadera

Video: https://www.youtube.com/watch?v=TFCWPLAfREg
Ejercicios de Walpole, página 335, ejercicio 10.15

literal a)
Ho: U=200
H1: U≠200

ZRHo P=0,0359

191 200 209


-1,8 1,8
P= 0,0718 Error tipo I

Literal b)
Ho: U=215
H1: U≠215

191 200 209

P=0,1151

215
209
-1,2

Ejercicio 10.17
Ejercicios de prueba de hipótesis

Ejercicios Libro de Estadística aplicada a los negocios y la economía, William, Marcha

1. Una cadena de tiendas de descuento expide su propia tarjeta de crédito, el gerente de esta
función desea averiguar si el saldo medio mensual es mayor de $ 400. El nivel de significación se fija
en 0.05, una revisión aleatoria de 172 sueldos reveló que la media muestral es de 407 y la desv.
estándar de la muestra es 38

a) Debería concluir el funcionario de crédito que la media poblacional es mayor de 400, o bien es
razonable que la diferencia de 7 obtenida de 407 menos 400 se debe al azar

Solución:
Ho: μ ≤ 400

HA: μ > 400

x
Zc 

n
407  400 7
Zc    2.42
38 2.8974
172

3) α = 0.05 B = 0.95 => Z7 = -1.64

ZAHo

ZRHo

1.64 2.42
X 0.31 Z7 Zc
Zc

Decisión:

Rechazo Ho μ > 400

1. Una cadena de restaurantes (MacBurguer) afirma que el tiempo medio de espera de


clientes por atender está distribuido normalmente, con una media de 3 min. (minutos) y
una desviación estándar de 1 min. El departamento de aseguramiento de calidad halló en
una muestra de 50 clientes en un cierto restaurante, que el tiempo medio de espera era de
2.75 min. Al nivel de significancia de 0.05 ¿Se puede concluir que dicho tiempo es menor
que 3 min?
Ho: μ = 3 La media de tiempo de espera de clientes es de 3 es

HA: μ < 3 La media de tiempo de espera de clientes es menor a 3

x
Zc 

n
2.75  3  0.25
Zc    1.78
1 0.14
50

3) α = 0.05 B = 0.95 => Z7 = -1.64

ZRHo
ZAHo

-1.8 1.64
Ze Z7 X

Decisión

Se rechaza H0, y la media de tiempo es menor a 3

2. Cuando Isabel Benitez fue contatada como camarera en un restaurante, se le dijo: “Puedes
obtener, en promedio, más de $ 20 (dólares) al día por propinas”. A los primeros 35 días de
su trabajo en el restaurante, el importe medio diario de las propinas recibidas fue de $ 24.85
con una desviación estándar de $ 3.24. Al nivel de significancia de 0.01. ¿Puede la señorita
Benitez concluir que está ganando más de $ 20 por las propinas?
Ho: μ = 20 las propinas promedio en el día es de 20$

HA: μ > 20 las propinas promedio en el día es mayor a 20$


x
Zc 

n
24.85  20 4.85
Zc    8.85
3.24 0.54
35

3) α = 0.01 B = 0.99 => Z7 = 2.32


Zalto

ZRHo

2.32 8.85
X Z7 Zc

Decisión

Rechazo Ho La srta. Gana más de $ 20 al día en propinas

Una encuesta nacional reciente halló que estudiantes de bachillerato miraban un promedio (media)
de 6.8 videos por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número
medio de videos observados el mes pasado fue de 6.2 con una desviación estándar de 0.5. En el
nivel de significancia de 0.05. ¿Puede concluirse que los estudiantes de universidad ven menos
videos que los de bachillerato?

Ho: μ = 6.8 Los est. Universitarios ven 6.8 videos promedio al mes

HA: μ < 6.8 Los est. Universitarios ven menos de 6.8 videos promedio al mes
x
Zc 

n
6.2  6.8  0.6
Zc    7.2
0.5 0.083
36

3) α = 0.05 B = 0.95 => Z7 = -1.64


Zalto

ZRHo

-72 -1.64
Zc Z7 X

Decisión

Rechazo Ho Los estudiantes universitarios ven menos de 6.8 videos promedio al mes.

VALOR P

 El valor p de una prueba de hipótesis puede servir como método alternativo para probar
hipótesis.
 El valor p es el nivel más bajo de significancia (valor α) al cual se puede rechazar la hipótesis
nula.
 El valor p se compara con el nivel de significancia seleccionado para tomar una decisión (AH0
o RH0)

Si el valor de p < α → RH0

Si el valor de p ≥ α → AH0

 En curvas bilaterales el valor de p se multiplica por 2, a diferencia de curvas unilaterales.

Prueba de Hipótesis utilizando el valor p

1. Formulación de la hipótesis.
2. Fijación de la estadística de prueba
3. Determinar el valor de p: el valor de la estadística de prueba se lleva a valor p
4. Determinación del criterio de decisión
Si el valor de p < α → RH0
Si el valor de p ≥ α → AH0
Ejercicio resuelto:

1. Formulación de la hipótesis.
H0 : µ < 31000
H1 : µ > 31000

2. Fijación de la estadística de prueba


31366−31000
Z= 1894 = 1,93
√100

3. Determinar el valor de p: el valor de la estadística de prueba se lleva a valor p

Valor p = 0,0268

Z= 1,93

4. Determinación del criterio de decisión


Si el valor de p < α → RH0
0,0268 < 0,05 → RH0

PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROMEDIOS

MUESTRAS INDEPENDIENTES

Formulación de la hipótesis:

H0: µ1 = µ2 H0: µ1 ≤ µ2 H0: µ1 ≥ µ2

H1: µ1 ≠ µ2 H1: µ1 > µ2 H1: µ1 < µ2

Equivalente:

H0: µ1 - µ2 = 0 H0: µ1 - µ2 ≤ θ0 H0: µ1 - µ2 ≥ θ0

H1: µ1 ≠ µ2 ≠ 0 H1: µ1 - µ2 > θ0 H1: µ1 - µ2 < θ0

Fijación de la estadística de prueba:

Cuando n ≥ 30 Cuando n <30

𝑥̅ 1 − 𝑥̅2 −(𝜇1 − 𝜇2 ) 𝑥̅ 1 − 𝑥̅2 −(𝜇1 − 𝜇2 )


Zc = tc=
𝛿 𝑥̅ 1 − 𝑥̅2 𝑆 𝑥̅1 − 𝑥̅2
𝑥̅ 1 − 𝑥̅2 −(𝜇1 − 𝜇2 )
Zc = Varianzas desiguales
𝛿2 𝛿2
√ 1 + 2
𝑛1 𝑛2
𝑥̅1 − 𝑥̅2 −(𝜇1 − 𝜇2 )
tc =
𝑆 2𝑆 2
√ 1+ 1
𝑛1 𝑛2

2 2
𝑆 𝑆
( 1 + 2 )2
𝑛1 𝑛2
gl =
𝑆2 𝑆2
( 1 )2 ( 𝑛 2 )2
𝑛 1 + 2
( 𝑛1 −1) ( 𝑛2 −1)

Varianzas iguales

𝑥̅1 − 𝑥̅2 −(𝜇1 − 𝜇2 )


tc =
𝑆𝑝2 𝑆𝑝2
√ +
𝑛1 𝑛2

𝑆21 ( 𝑛1 −1)+ 𝑆22 ( 𝑛1 −1)


Sp2 = 𝑛1 + 𝑛2 −2
Determinación del criterio de decisión

Para todos los casos el criterio será: Rechazar la Ho si:

Cuando n ≥ 30

|Zc| ≥ Zα/2
Cuando n < 30

|tc| ≥ tα/2,v

PRUEBA DE HIPÓTESIS PARA LA DIFRENCIA DE PROMEDIOS

MUESTRAS DEPENDIENTES O RELACIONADAS

Formulación de la hipótesis:

H0 : µd = 0

H1 : µd ≠ 0

Fijación de la estadística de prueba


𝑑̅ −(𝜇1 − 𝜇2 )
t= 𝑆𝑑
√𝑛

∑ 𝑑𝑖
−( 𝜇1 − 𝜇2 )
𝑛
t=
∑ 𝑑2 −𝑛 (𝑑
̅ )2
√ 𝑛−1
𝑛

gL = n – 1

Determinación del criterio de decisión

Para todos los casos el criterio será: Rechazar la Ho si:

|tc| ≥ tα/2, v

Ejercicio propuesto del libro: LIND Douglas,MARCHAL William, WATHEN Samuel (2015) Estadística
Aplicada a los negocios y a la Economías; Mc Graw Hill, México.
26. Hace poco, el gobierno federal estadounidense otorgó fondos para un programa especial
diseñado para reducir los delitos en áreas de alto riesgo. Un estudio de los resultados del programa
en ocho áreas de alto riesgo de Miami, Florida, produjo los resultados siguientes.

¿Hubo alguna disminución en el número de delitos desde la inauguración del programa? Utilice el
nivel de significancia 0.01. Calcule el valor p.

Solución:
Formulación de la hipótesis:

H0 : µd = 0

H1 : µd ≠ 0

Fijación de la estadística de prueba


𝑑̅ −(𝜇1 − 𝜇2
t= 𝑆𝑑
√𝑛

∑ 𝑑𝑖
−( 𝜇1 − 𝜇2 )
𝑛
t= =3.625/1.7107 =2.1191
∑ 𝑑2 −𝑛 (𝑑
̅ )2
√ 𝑛−1
𝑛

gL = n – 1 =7

Determinación del criterio de decisión

Para todos los casos el criterio será: Rechazar la Ho si:

|tc| ≥ tα/2, v
2.1191 < 3.499 Aho

Valor p=0.0782 > 0.01 Aho

PRUEBA DE HIPÓTESIS DE PROPORCIÓN

Formulación de la hipótesis

H0: π = π 0 H0: π ≤ π 0 H0: π ≥ π 0

H1: π ≠ P0 H1: π > π 0 H1: π < π 0

Cuando n ≥ 30

Fijación de la estadística de prueba:

Para n ≥ 30

p−π
Zc =
𝑃 𝑄
√ 0 0
𝑛
El error de la distribución muestra de proporciones se trabaja en función de la población

𝐿𝑠𝑖 = P0 ± Zα/2 * es(p)

Determinación del criterio de decisión:

Para todos los casos el criterio será:

Rechazar la Ho Si:

|Zc| ≥ Zα/2 Zc ≥ Zα Zc ≤ -Zα

𝑝 ≥ P0 + Zα/2es(𝑝) 𝑝 ≥ P0 + Zαes(𝑝) 𝑝 ≤ P0 - Zα/2es(𝑝)

𝑝 ≤ P0 - Zα/2es(𝑝)

Ejercicios del texto: STEVENSON, Willian J; (1978); Estadística para Administración y Economías;
Harla México.

. En la Provincia de Cotopaxi el porcentaje de analfabetos es el 40%. El Ministerio de Educación ha


creado un programa especial de educación de adultos, que tiene como objeto disminuir el
porcentaje de analfabetos en la provincia una vez transcurrido el año queremos ver si el programa
ha dado resultado, entonces tomamos una muestra de 50 personas de las cuales 18 resultaron ser
analfabetos usando un nivel de significación del 5%, probar si e programa tuvo o no éxito.

1) Planteamiento de hipótesis

Ho : π = 40

H1 : π < 40

Ho: La proporción de analfabetos en la Prov. Cotopaxi es del 40%

H1: La proporción de analfabetos en la Prov. Cotopaxi es < al 40%

Es decir el programa que imparte el Ministerio de Educación es bueno


2) Estadística de Prueba

P
Zc 
p

P
Zc 
PQ
n
0.36  0.40

0.36 x 0.64
50
0.04
  0.5893
0.067

3) Determinar el nivel de significación

α = 5% B = 95%

4) Criterio de decisión

ZRHo

B
0.95
ZRHo

Z7 ZcX
-1.64 -0.5893

5) Desición

Acepto Ho => El programa no tuvo efectos se sugiere realizar otro tipo de programas
. El peso promedio de un lote de pollos de carne era de 2.1 Kg. Durante el último periodo de engorde,
se probó un alimento balanceado, que se cree que aumentó el peso promedio de los pollos, esto se
quiere probar, utilizando un nivel de significación del 5% al obtener una muestra de 50 pollos se
obtuvo que el peso medio fue de 2.2 Kg. Y una desviación de 0.8

1) Planteamiento de Hipótesis

Ho: µ = 2.1 El peso de los pollos de carne es de 2.1 Kg.

HA: μ > 2.1 El peso promedio de los pollos de carne es > 2.2 Kg.

2) Estadística de Prueba

x
Zc 
s
n
2.2  2.1

0.8
50
0.10
  0.8839
0.1131

3) Determinar el nivel de significación

α = 5% B= 95%

4) Criterio de decisión

ZAHo ZRHo

1.64
5) Decisión: AHo, el balanceado no funcionó pues siguen pesando 2.1 Kg. Y el 0.1 Kg que aumentó,
se debe a efectos aleatorios o selección de la muestra.

. Una compañía que vende tiras repelentes contra insectos, asegura que su producto es eficaz, por
lo menos durante 400 horas. Un análisis sobre nueve tiras seleccionadas aleatoriamente indicó un
promedio de 380 horas. Pruebe la aseveración de la compañía respecto a la alternativa de que el
repelente sea eficaz menos de las 400 horas, a un nivel 0.01, si la desviación estándar de la muestra
es 60 horas.

1) Planteo de la hipótesis

Ho: μ = 400 El repelente es eficaz no menos de 400 horas

HA: μ < 400 El repelente es eficaz < 400 horas

2) Estadística de Prueba

x
tc 
s
n
380  400

60
9
 20
  1
20

3) Determinar el nivel de significación

N = 0.01 α = -9.896 B= 0.99

4) Criterio de decisión
B
ZRHo
0.99

ZRHo
α

-2.896 X
t7 Z7

5) Decisión

El repelente es eficaz, dura más de 400 horas

. Mediante un proceso de fabricación, se produce alambre de acero con una resistencia media a la
tensión de 200 libras por pulgada cuadrada (psi). La desviación estándar del proceso es 20 psi. El
ingeniero encargado del control de calidad quiere diseñar una prueba que le indique si ha habido o
no un cambio en el promedio del proceso, utilizando un tamaño de muestra de 25 y un nivel de
significación de α = 0.05. Suponga que la población de la resistencia del alambre es
aproximadamente normal

a. Enuncie H0 y H1 para esta prueba.

b. ¿Para qué intervalo de resistencia del alambre, e l proceso se considerará fuera de control (es
decir, se concluirá que la media del proceso ha cambiado a partir de 200 psi)?

a) Planteo Hipótesis

Ho: μ = 200 Se produce alambre con una resistencia de 200 lb.

HA: μ ≠ 200 Se produce alambre con una resistencia diferente de 200 lb.

b) Intervalos

δ = 20

n = 25

α = 0.05

μ = 200
x  z x
 20 
200  1.96 
 25 
200  7.89
207.84
192.16

Interpretación

El alambre de acero se considera fuera de control cuando sale de los intervalos 207.84 y 192.16

Putos importantes según el libro de Probabilidades y estadística para ingeniería y ciencias de


Walpole:

 Al probar cualquier hipótesis estadística, hay cuatro situaciones posibles que determinan si
nuestra decisión es correcta o errónea
 En ocasiones el nivel de significancia se conoce como tamaño de la prueba.

 Siempre es posible reducir β aumentando el tamaño de la región critica y para reducir α


tenemos que elegir entre aumentar el tamaño de la muestra o ampliar la región de no
rechazo

 La probabilidad de cometer ambos tipos de errores se puede reducir aumentando el tamaño


de la muestra. Los errores tipo I y tipo II rara vez ocurren si el experimento consta de
muestras grandes (100)

 La probabilidad de cometer un error tipo I, o el nivel de significancia de nuestra prueba, es


igual a la suma de las áreas en el caso bilateral

 La potencia de una prueba es la probabilidad de rechazar Ho dado que una alternativa


especifica es verdadera

ERROR TIPO I Y II

El error de rechazar H0 cuando es verdadera se denomina error TIPO I y la probabilidad de cometerlo


se representa por medio de α (alfa)

El error de aceptar H0 cuando es falsa se conoce como error TIPO II y la probabilidad de cometerlo
se denota por medio de B (la letra griega minúscula)

Hay cuatro situaciones posibles que determinan si la decisión es correcta o no, resumidas en la
siguiente tabla:
Acepte H0 Rechace H0
H0 es verdadero Decisión Correcta Error Tipo I
H0 es falso Error Tipo II Decisión correcta

Si rechazamos una hipótesis cuando debería ser aceptada entonces se ha cometido un error tipo I,
por otra parte si aceptamos una hipótesis que debería ser rechazada se ha cometido un error Tipo
II, y en ambos casos se ha producido un juicio erróneo.

Para que la regla de decisión o contraste de hipótesis sean buenas deben diseñarse de modo que
minimicen los errores de la decisión, la única forma de disminuir ambos a la vez es aumentar el
tamaño de la muestra que no siempre es posible.

Ejercicios Libro de Estadística aplicada a los negocios y la economía, William, Marcha

1. Una cadena de tiendas de descuento expide su propia tarjeta de crédito, el gerente de esta
función desea averiguar si el saldo medio mensual es mayor de $ 400. El nivel de significación se fija
en 0.05, una revisión aleatoria de 172 sueldos reveló que la media muestral es de 407 y la desv.
estándar de la muestra es 38

a) Debería concluir el funcionario de crédito que la media poblacional es mayor de 400, o bien es
razonable que la diferencia de 7 obtenida de 407 menos 400 se debe al azar

Solución:

Ho: μ ≤ 400

HA: μ > 400


x
Zc 

n
407  400 7
Zc    2.42
38 2.8974
172

3) α = 0.05 B = 0.95 => Z7 = -1.64

ZAHo

ZRHo

1.64 2.42
X 0.31 Z7 Zc
Zc

Decisión:

Rechazo Ho μ > 400

1. Una cadena de restaurantes (MacBurguer) afirma que el tiempo medio de espera de


clientes por atender está distribuido normalmente, con una media de 3 min. (minutos) y
una desviación estándar de 1 min. El departamento de aseguramiento de calidad halló en
una muestra de 50 clientes en un cierto restaurante, que el tiempo medio de espera era de
2.75 min. Al nivel de significancia de 0.05 ¿Se puede concluir que dicho tiempo es menor
que 3 min?

Ho: μ = 3 La media de tiempo de espera de clientes es de 3 es

HA: μ < 3 La media de tiempo de espera de clientes es menor a 3


x
Zc 

n
2.75  3  0.25
Zc    1.78
1 0.14
50

3) α = 0.05 B = 0.95 => Z7 = -1.64

ZRHo
ZAHo

-1.8 1.64
Ze Z7 X

Decisión

Se rechaza H0, y la media de tiempo es menor a 3

2. Cuando Isabel Benitez fue contatada como camarera en un restaurante, se le dijo: “Puedes
obtener, en promedio, más de $ 20 (dólares) al día por propinas”. A los primeros 35 días de
su trabajo en el restaurante, el importe medio diario de las propinas recibidas fue de $ 24.85
con una desviación estándar de $ 3.24. Al nivel de significancia de 0.01. ¿Puede la señorita
Benitez concluir que está ganando más de $ 20 por las propinas?
Ho: μ = 20 las propinas promedio en el día es de 20$

HA: μ > 20 las propinas promedio en el día es mayor a 20$

x
Zc 

n
24.85  20 4.85
Zc    8.85
3.24 0.54
35
3) α = 0.01 B = 0.99 => Z7 = 2.32

Zalto
ZRHo

2.32 8.85
X Z7 Zc

Decisión

Rechazo Ho La srta. Gana más de $ 20 al día en propinas

Una encuesta nacional reciente halló que estudiantes de bachillerato miraban un promedio (media)
de 6.8 videos por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número
medio de videos observados el mes pasado fue de 6.2 con una desviación estándar de 0.5. En el
nivel de significancia de 0.05. ¿Puede concluirse que los estudiantes de universidad ven menos
videos que los de bachillerato?

Ho: μ = 6.8 Los est. Universitarios ven 6.8 videos promedio al mes

HA: μ < 6.8 Los est. Universitarios ven menos de 6.8 videos promedio al mes

x
Zc 

n
6.2  6.8  0.6
Zc    7.2
0.5 0.083
36

3) α = 0.05 B = 0.95 => Z7 = -1.64


Zalto
ZRHo

-72 -1.64
Zc Z7 X

Decisión

Rechazo Ho Los estudiantes universitarios ven menos de 6.8 videos promedio al mes.

PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROPORCIONES

Formulación de la hipótesis:

H0: π1 = π2 H0: π1 ≤ π2 H0: π1 ≥ π2

H1: π1 ≠ π2 H1: π1 > π2 H1: π1 < π2

Equivalente:

H0: π1 - π2 = 0 H0: π1 - π2 ≤ θ0 H0: π1 - π2 ≥ θ0

H1: π1 - π2 ≠ 0 H1: π1 - π2 > θ0 H1: π1 - π2 < θ0

Fijación de la estadística de prueba


𝒑𝟏 − 𝒑𝟐 −(𝝅𝟏 − 𝝅𝟐 )
Zc = 𝜹𝒑𝟏−𝒑𝟐

𝒑𝟏 − 𝒑𝟐 −(𝝅𝟏 − 𝝅𝟐 )
Zc = 𝑷𝒄(𝟏−𝑷𝒄) 𝑷𝒄(𝟏−𝑷𝒄)
√ +
𝒏𝟏 𝒏𝟐

Relación proporcional combinada


𝑋 +𝑋 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠
Pc = 𝑛1 + 𝑛2 = 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑒𝑛 𝑙𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
1 2

Determinación del criterio de decisión

Para todos los casos el criterio será: Rechazar la Ho si

|Zc| ≥ Zα/2
DISTRIBUCIÓN F
DISTRIBUCIÓN F DE FISHER

• Recibió el nombre en honor a Ronald Fisher

• La distribución F es el cociente entre dos variables, ji cuadrado dividas por sus grados de
libertad

• F= Varianza/Varianza

• La distribución F es siempre positiva

• La distribución de la variable es asimétrica positiva, mientras aumentan los grados de


libertad del numerador y denominador su asimetría disminuye

• Los grados de libertad están asociados con el numerador y denominador

La distribución F se utiliza en diseños experimentales, permite hacer cálculos de varianzas,


determinando si las medias de más de dos muestras son iguales o diferentes.

Uso de la tabla de F del análisis de variancia (ANOVA)

La tabla F en honor a Ronal Fisher contiene el valor tabular, ubicando los grados de libertad del
numerador , parte superior horizontal y el denominador que se ubica en la columna lateral de la
tabla, utilizando el nivel de confianza del 0.05 o 0.01 se puede utilizar la tabla siguiente:
PRUEBA DE HIPÓTESIS DE LA COMPARACIÓN DE DOS VARIANZAS POBLACIONALES

Formulación de la hipótesis:

H0 : 𝛿12 = 𝛿22

H1 : 𝛿12 ≠ 𝛿22

Fijación de la estadística de prueba


𝑆12
Razón F = 𝑆12 > 𝑆22
𝑆22

Determinación del criterio de decisión

Para todos los casos el criterio será: Rechazar la Ho si:

Fc > 𝐹𝛼 𝑛1 −1, 𝑛2 −1
2

ANALISIS DE VARIANZA

El ANOVA, desarrollado por Ronald Fisher en 1918, extiende la prueba t y la prueba Z que
compara tan solo 2 grupos.

La técnica del análisis de la varianza (ANOVA o AVAR), es una de las técnicas más
utilizadas en los análisis de los datos de diseños experimentales, fue desarrollado por
Ronald Fisher, procedimiento utilizado cuando se quiere contrastar más de dos medias.

El Análisis de Varianza consiste en partir la suma de los mínimos cuadrados debido a la


variación total, de una serie de observaciones, en las sumas de los mínimos cuadrados
correspondientes a las variantes independientes incluidas en el plan experimental; y, en
la suma de los mínimos cuadrados del error experimental.

Los valores registrados corresponden a la variable respuesta observados en cada unidad


experimental; la variación que registren los diferentes valores de la variable respuesta es
una medida del efecto que produce uno o más factores en esta variable y del error
experimental. El objetivo del Análisis de Varianza es particionar la variación total
observada en aquella debida a efecto del factor o factores incluidos en el diseño y en
aquella debida al error experimental.

Si el experimento utiliza un solo factor o variable independiente, entonces la suma de


cuadrados de la variación total observada en la variable respuesta se divide en dos
partes: la primera que determina la variación debido al efecto del factor considerado, o
variación entre los tratamientos; y la segunda, que representa a la variación debido al
error experimental, lo que se traduce a la siguiente identidad:

Variación total = Variación entre tratamientos + Variación del Error


∑(xij −µ)2 =n j ∑(µj −µ)2 +∑(xij −µj )2

en donde:
Σ (Xij - µ)2 = Suma de cuadrados total = SCT
nj Σ (µj - µ)2 = Suma de cuadrados entre Tratamientos = SCE
Σ (Xij - µj)2 = Suma de cuadrados Residual = Error = SCR
de donde:
SCT = SCE + SCR.

Una forma abreviada de calcularlo es:

2
(∑ 𝑋𝑖𝑗)
𝐹𝐶 =
𝑛
SCT FC
SCE =∑(∑xj )2 / nj) -FC

SCR = SCT − SCE

Los supuestos básicas del análisis de varianza son las mismas asociadas con el análisis de
regresión:

 Aditividad
 Independencia
 Linealidad
 Varianzas homogéneas
 Normalidad
Ante el incumplimiento de los supuestos existen alternativas como las pruebas no
paramétricas, que no requieren supuestos acerca de la distribución de los datos.

Existen varios "modelos" en el análisis de varianza dependiendo del diseño formulado,


los más utilizados son:

• Modelo aleatorizado de una variable, o a un criterio de clasificación, análisis de


varianza de un factor o ANOVA una vía
• Modelo aleatorizado de dos variables, o de dos criterios de clasificación, o de bloques,
análisis de varianza de dos factor o ANOVA dos vía

ANÁLISIS DE VARIANZA DE UN FACTOR O ANOVA UNA VÍA

En este diseño, interviene un solo factor o variable independiente con más de dos
niveles, llamados también tratamientos, de forma que a una unidad experimental se le
aplicará un solo tratamiento; suele ser común que uno de los tratamientos implique la
no aplicación del factor, o que el factor tiene en éste tratamiento su nivel mínimo, cero;
en este caso, al tratamiento así asignado se le denomina "testigo" y servirá de elemento
base para medir el efecto de los restantes niveles del factor en la variable respuesta.

Este es un modelo en el cual los tratamientos, sometidos a experimentación, son


asignados completamente al azar a las unidades experimentales o viceversa.

MODELO MATEMATICO SI EL NUMERO DE OBSERVACIONES ES IGUAL EN TODOS LOS


TRATAMIENTO

X ij =µ+αj +εij
Donde:

Xij = Valor de la variable respuesta


µ = Es el promedio general o promedio poblacional
αj = Es el efecto del j-ésimo tratamiento
εij = Es el error o valor residual de la i-ésima observación del j-ésimo
tratamiento, que se considera es independiente de observación a
observación y está normalmente distribuido con valor esperado
igual a cero y varianza igual a σ2, Ν (0, σ2).

La representación del diseño en una tabla es el siguiente:

TRATAMIENTO

OBSERV. T1 T2 Tj Ta
1 X11 X12 X1j X1a
2 X21 X22 X2j X2a
i Xi1 Xi2 Xij Xia
:
n Xn1 Xn2 Xnj Xna
X1 X2 Xj Xa
TOTALES

CUADRO DE ANALISIS DE VARIANZA

FUENTE DE GRADOS DE SUMA DE CUADRADO ESTADISTICA DE


VARIACION LIBERTAD CUADRADOS MEDIO PRUEBA
Tratamientos a-1 SCE CME = SCE / (a - 1) Fc = CME / CMR
Residual (Error) n-a SCR CMR = SCR / (n -a)
Total n-1 SCT

PRUEBA DE HIPÓTESIS

1. Formulación de la Hipótesis:
H0 : µ1 = µ2 = µj = ..... = µa H0 : αj = 0
HA : µ1 ≠ µ2 ≠ µj ≠ ..... ≠ µa HA : αj ≠ 0

µj representa el promedio del j-ésimo tratamiento del diseño y µa representa el


promedio del a-ésimo tratamiento.

2. Determinación de la estadística de prueba

Fc = CME / CMR

3. Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2

Ejemplo del Libro de Análisis y diseño de experimentos, Gutiéterres Humberto y


Salazar Román, segunda edición

Solución:

Formulación de la Hipótesis:
H0 : µ1 = µ2 = µ3 No existe diferencia significativa en el promedio de la dureza de las
tabletas debido al porcentaje de almidón

HA : µ1 ≠ µ2 ≠ µ3 Existe diferencia significativa en el promedio de la dureza de las


tabletas debido a la cantidad de almidón

Determinación de la estadística de prueba


Fc = CME / CMR = 13,3633333/0,23 =58,1015

Criterio de Decision
Rechazar la H0 si : Fc ≥ Fα,v1,v2
58,1015 > F 0,05 ; 2, 9
58,1015 > 4,2564 Rho

P-valor: Rechazo la Ho, el p-valor es menor al nivel de significancia (0,05)


0,00000715857<0,05
Si existe diferencia significativa en el promedio de la dureza de las tabletas debido a la
cantidad de almidón

ANÁLISIS DE VARIANZA
FV SC GL CM Fc Valor p Ft
Tratamientos (Dureza) 26,7266667 2 13,3633333 58,1014493 7,16E-06 4,25649473
Error 2,07 9 0,23
Total 28,7966667 11

ANÁLISIS DE VARIANZA DE DOS FACTOR O ANOVA DOS VÍA

El diseño ANOVA 2 vías, permite estudiar simultáneamente los efectos de dos fuentes
de variación, variación debido al primer factor y variación debido a un segundo factor.
Se trabaja con dos factores, llamados tratamientos y bloques, cada uno con n niveles

Los bloques se forman con el objetivo de que las unidades experimentales al interior de
ellos, sean lo más homogéneas posibles, lo que permite disminuir el error experimentar
y obtener un diseño más eficiente.
Si el experimento utiliza dos factor o variables independiente, entonces la suma de
cuadrados de la variación total observada en la variable respuesta se divide en: la
primera que determina la variación debido al efecto del primer factor, la segunda, que
representa a la variación debido al segundo factor y la variación debido al error
experimental, lo que se traduce a la siguiente identidad:

SCT = SCE + SCB + SCR.

MODELO A DOS CRITERIOS DE CLASIFICACION CON UNA OBSERVACIÓN POR FILA Y


COLUMNA en modelos fijos

Xij = µ + αi + βj + εij
Donde:

Xij = Valor de la variable respuesta


µ = Es el promedio general o promedipoblacional
αi = Es el efecto del i-ésimo tratamiento
βj = Es el efecto del j-ésimo bloque o repetición.
εij = Es el error o valor residual del i-ésimo tratamiento y del j-ésimo
bloque o repetición, que se considera es independiente de
observación a observación y está normalmente distribuido con
valor esperado igual a cero y varianza igual a σ2 , Ν (0,σ2).

Representación de datos de éste diseño:

TRATAMIENTOS
B1 B2 Bj Bb ∑ Xi•
/BLOQUES
T1 X11 X12 X1j X1b X1•⋅
T2 X21 X22 X2j X2b X2•
Ti Xi1 Xi2 Xij Xib Xi•
Ta Xa1 Xa2 Xaj Xab Xa•
∑ X•j X•1 X•2 X•j X•b X••

Fórmulas de cálculo:
FC = (Σ xij)2/ab
SCT = Σ x2ij - FC
SCE =Σ (( Σxi•)2 / b) - FC
SCB = Σ (( Σx•j)2 / a) - FC
SCR = SCT – SCE – SCB

CUADRO DE ANALISIS DE VARIANZA


FUENTE DE GRADOS DE SUMA DE CUADRADO ESTADISTICA DE
VARIACION LIBERTAD CUADRADOS MEDIO PRUEBA
Tratamientos a-1 SCE CME = SCE / (a - Fc = CME / CMR
1)
Bloques b-1 SCB CMB = SCB / (b- Fc = CMB / CMR
1)
Residual (Error) (a-1) (b-1) SCR CMR = SCR/(a-
1)(b-1)
TOTAL n-1 SCT

PRUEBA DE HIPÓTESIS

1. Formulación de la Hipótesis:

Tratamientos
H0 : αi = 0
HA : αi ≠ 0

Bloques
H0 : βj = 0
HA : βj ≠ 0

2. Determinación de la estadística de prueba

Tratamientos: Fc = CME / CMR


Bloques: Fc = CMB / CMR

3. Criterio de Decision
Rechazar la H0 si : Fc ≥ Fα,v1,v2

Ejemplo resuelto:

En un experimento se estudió el proceso de maduración del aguacate. El propósito del


experimento es conocer el efecto que tienen las diferentes técnicas sobre la maduración
en día de los diferentes aguacates. Los factores son: tipo de aguacate con dos niveles
(guatemalteco y criollo) y técnicas de maduración con tres niveles (aire libre, bolsa de
papel kraft, recipiente plástico), se obtuvo los siguientes resultados, construya una anova
2 vías y pruebe cuales son los factores significativos

Técnica de maduración (B)


Dentro de
Dentro de un
Tipo de Aire una bolsa
recipiente
Aguacate(A) libre de papel
plástico
Kraft
Guatemalteco 6 3 4
Criollo 4 2 4
ANÁLISIS DE VARIANZA
FV SC GL CM Fc Valor p Ft
Tipo de
aguacate 1,5000 1,0000 1,5000 3,0000 0,2254 18,5128
Maduración 6,3333 2,0000 3,1667 6,3333 0,1364 19,0000
Error 1,0000 2,0000 0,5000
Total 8,8333 5,0000

Solución:
Formulación de la Hipótesis:
Filas
H0 : µ1 = µ2 No existe diferencia significativa en los días de maduración promedio del
aguacate , debido a si es aguacate guatemalteco o criollo

HA : µ1 ≠ µ2 Existe diferencia significativa en los días de maduración promedio del


aguacate, debido si es aguacate guatemalteco o criollo

Columnas

H0 : µ1 = µ2 = µ2 No existe diferencia significativa en la maduración promedio del


aguacate , debido a las técnicas de maduración

HA : µ1 ≠ µ2 ≠ µ2 Existe diferencia significativa en la maduración promedio del


aguacate , debido a las técnicas de maduración

Determinación de la estadística de prueba


Fc = CME / CMR = 1,5/0,5 = 3
Fc = CME / CMR = 3,1667/0,5 =6,3334

Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Filas
3> F 0,05 ; 2, 9
3> 18,5128 Aho

Columnas
3> F 0,05 ; 2, 9
6,3334> 19 Aho

Filas
P-valor: Rechazo la Ho, el p-valor es menor al nivel de significancia (0,05)
0,2254 > 0,05 Aho
Columnas
0,1364 > 0,05 Aho
No existe diferencia significativa en la maduración promedio del aguacate, debido si es
aguacate guatemalteco o criollo
No Existe diferencia significativa en la maduración promedio del aguacate, debido a las
técnicas de maduración

Ejercicio resuelto:
Una empresa agrícola quiere saber si la cantidad de agua y el tipo de terreno influyen en
el crecimiento de las semillas en su periodo de germinaron. Parta ello se utilizó semilla de
lenteja en donde la cantidad de gua fueron de (2, 4 y6) ml, el tipo de terreno fue de (tierra
y algodón). Realizar un análisis de varianzas
Lo resultados en 15 días del crecimiento del tallo de las semillas fueron de:

cant_agua/ terreno Tierra Algodón

2ml 6,3 8,6


4ml 10,8 11,3
6ml 8,6 10,6

Solución:

ANÁLISIS DE VARIANZA
FV SC GL CM Fc Valor p Ft
Cantidad de agua
13,1233333 2 6,56166667 14,1111111 0,06617647 19
Terreno 3,84 1 3,84 8,25806452 0,10276455 18,5128205
Error 0,93 2 0,465
Total 17,8933333 5
Formulación de la Hipótesis:
Filas
H0 : µ1 = µ2 = µ3 No existe diferencia significativa en el crecimiento promedio de la
semilla , debido a la cantidad de agua

HA : µ1 ≠ µ2 ≠ µ3 No existe diferencia significativa en el crecimiento promedio de la


semilla , debido a la cantidad de agua

Columnas
H0 : µ1 = µ2 No existe diferencia significativa en el crecimiento promedio de la semilla
, debido al tipo de terreno

HA : µ1 ≠ µ2 Existe diferencia significativa en el crecimiento promedio de la semilla,


debido al tipo de terreno

Determinación de la estadística de prueba


Fc = CME / CMR = 6,5616/0,465 =14,1111
Fc = CME / CMR = 3,84/0,465 = 8,258

Criterio de Decisión
Rechazar la H0 si : Fc ≥ Fα,v1,v2
Filas
14,1111 < F 0,05 ; 2, 9
14,1111 <18,5128 Aho

Columnas
8,258 < F 0,05 ; 2, 9
8,258 < 18,5128 Aho

Filas
P-valor: Rechazo la Ho, el p-valor es menor al nivel de significancia (0,05)
0,0662 > 0,05 Aho
Columnas
0,1028 > 0,05 Aho

No existe diferencia significativa en el crecimiento promedio de la semilla, debido a la


cantidad de agua
No existe diferencia significativa en el crecimiento promedio de la semilla, debido al
tipo de terreno

Métodos no paramétricos
Características

 Permite poner a prueba hipótesis no referidas a parámetros poblacionales.


 No se basa en medias sino en medianas
 Pueden ser datos que están en escala nominal u ordinal.
 No se cumple con supuestos de normalidad.

Métodos No paramétricos: aplicación de la Distribución de Muestreo X2


Distribución X2 o Ji cuadrado de Pearson
La distribución X2 se aplica para:
a) Hace inferencias acerca de la varianza poblacional
b) Pruebas de Bondad de ajuste
c) Pruebas de Independencia

Pruebas de Independencia
Relación entre 2 variables cualitativas, en tablas de contingencias.
1. Formulación de la hipótesis.
H0: No existe relación entre las 2 variables. Independencia
H1: Existe relación entre las 2 variables. Dependencia

2. Fijación de la estadística de prueba


(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑[ ]
𝑓𝑒

Donde:
(𝑇𝑜𝑡𝑎𝑙 𝐹)(𝑇𝑜𝑡𝑎𝑙 𝐶)
𝑓𝑒 =
𝑇𝑜𝑡𝑎𝑙
3. Determinación del criterio de decisión
2
Rechazar la Ho Si: 𝑋𝑐2 > 𝑋𝛼,𝑔𝐿

Donde: gL = (F-1) * (c-1)


Ejercicio del libro guía LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México:
El uso de teléfonos celulares en automóviles aumentó de forma impresionante en los
últimos años. El efecto en los índices de accidentes es de interés para los expertos de
tránsito, así como para los fabricantes de teléfonos celulares. ¿Es más probable que quien
usa un teléfono celular se vea involucrado en un accidente de tránsito? ¿Cuál es su
conclusión a partir de la siguiente información? Utilice el nivel de significancia 0.05.

1. Formulación de la hipótesis.
H0: No existe relación entre las 2 variables. No existe relación entre el uso del
teléfono celular y estar involucrado en un accidente de tránsito. Las variables son
independientes
H1: Existe relación entre las 2 variables. Las variables son dependientes

2. Fijación de la estadística de prueba


(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑ [ ]=2.5234
𝑓𝑒

3. Determinación del criterio de decisión


2
Acepto la Ho Si: 𝑋𝑐2 < 𝑋𝛼1,𝑔𝐿
2.5234<3.841

Donde: gL = (F-1) * (c-1)=1

Pruebas de Hipótesis de Bondad de Ajuste


Determina si las observaciones muestrales se ajustan a las expectativas o a una distribución
planteada como hipótesis
Libro de Webster página 465
1. Formulación de la hipótesis
H0: No existe diferencia significativa entre el conjunto de frecuencias observadas y el
conjunto de frecuencia esperada.
La distribución poblacional es uniforme, normal, binomial, poisson
Los datos se ajustan a una distribución dada

H1: Existe diferencia significativa entre el conjunto de frecuencias observadas y el conjunto


de frecuencia esperada.
La distribución poblacional no es uniforme, normal, binomial, poisson
Los datos no se ajustan a una distribución dada

2. Fijación de la estadística de prueba


(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑[ ]
𝑓𝑒

Donde f0: frecuencia observada.


fe: frecuencia esperada.
3. Determinación del criterio de decisión
Rechazar la H0 Si:
2
𝑥𝑐2 > 𝑥𝛼,(𝑘−1)

Acepto la H0 Si:
2
𝑥𝑐2 ≤ 𝑥𝛼,(𝑘−1)

k =Número de categorías
Cuando se quiere analizar si los datos se ajustan a una distribución normal, se debe tener al
menos los parámetros media y desviación, caso contrario se debe estimar y en este caso
tomar en cuenta los grados de libertad como lo indica Webster
Ejercicio del libro guía LIND Douglas,MARCHAL William, WATHEN Samuel (2015)
Estadística Aplicada a los negocios y a la Economías; Mc Graw Hill, México:
Durante muchos años, los ejecutivos de televisión dieron crédito a la pauta de que 30% de
la audiencia veía cada una de las cadenas televisivas de mayor audiencia, y 10%, canales de
televisión por cable durante una noche a la semana. Una muestra aleatoria de 500
televidentes del área de Tampa-St. Petersburg, Florida, el pasado lunes por la noche, reveló
que 165 hogares sintonizaron la filial ABC, 140, la filial CBS, 125, la filial NBC, y el resto vio
un canal de televisión por cable. Con un nivel de significancia de 0.05, ¿es posible concluir
que la pauta aún es razonable?
1. Formulación de la hipótesis
H0: No existe diferencia significativa entre el conjunto de frecuencias observadas y el
conjunto de frecuencia esperada. Es decir el 30% de la audiencia ve
cada una de las cadenas televisivas de mayor audiencia, y 10%, canales de televisión por
cable durante una noche a la semana.
H1: Existe diferencia significativa entre el conjunto de frecuencias observadas y el conjunto
de frecuencia esperada.
2. Fijación de la estadística de prueba
(𝑓0 − 𝑓𝑒 )2
𝑋𝑐2 = ∑ [ ]= 0.02867
𝑓𝑒

3. Determinación del criterio de decisión


Acepto la H0 Si:
2
𝑥𝑐2 < 𝑥𝛼,(𝑘−1)

0.02867<7.815

Filial fo fe (fo*fe)2/fe
ABC 0,33 0,3 0,0030
CBS 0,28 0,3 0,0013
NBC 0,25 0,3 0,0083
Cable 0,14 0,1 0,0160
Sumatoria 1 1 0,0287

Prueba de hipótesis de Bondad de ajuste


https://www.youtube.com/watch?v=U8ZpUT1c8A4

https://www.youtube.com/watch?v=BsuRH3qJUJ4

Prueba de hipótesis de Independencia


https://www.youtube.com/watch?v=IQuXV1K5DqA

https://www.youtube.com/watch?v=_HxWIln8waQ
Regresión y correlación

La regresión establece la función matemática que describe la relación de dos o más variables.

La correlación establece la naturaleza y la intensidad de la relación entre las variables.

La regresión y correlación se basan en la relación o asociación de una variable dependiente con una
o más variables independientes

La correlación mide la función de una relación entre variables, la regresión da lugar a una ecuación
que describe dicha relación en términos matemáticos y cuya ecuación se puede utilizar para estimar
valores futuros.

Los datos necesarios para el análisis de regresión y correlación provienen de observaciones de


variables correlacionadas Ejemplo:

En el caso de un problema de dos variables esto significa que cada observación proporciona dos
valores uno para cada variable ejemplo: para un estudio de características físicas puede interesarse
por la edad y estatura de cada individuo.

En el caso de un problema de tres variables cada observación proporciona tres valores ejemplo:
además de la edad y estatura de cada persona talvez desearíamos medir el peso de la misma.

Debido a que, y depende de x, y es la variable dependiente y x es la variable independiente => y es


una función de x.

Y = f(x)

Variable dependiente: es la variable que se desea explicar o predecir también se la denomina


regresado o variable de respuesta.

Variable independiente: también se denomina variable explicativa o regreso la variable


independiente x se utiliza para explicar y llama variable de predicción.

Regresión simple: se establece que, y es una función de solo una variable independiente,

Se le denomina regresión bivariada porque solo hay dos variables, una dependiente y una
independiente.

 Y = f(x) se lee y es función de x

Regresión múltiple: y es una función de dos o más variables independientes. Un modelo de


regresión con k variables independientes se puede expresar así.

Y = f (x1, x2, x3, …… xk)

En donde x1, x2, x3, …… xk son variables independientes que permiten explicar y.

La relación puede ser lineal o no lineal de una variable independiente o de dos o más variables
independientes. El investigador debe decidir la función matemática que mejor se ajuste a sus datos.
Modelo de Regresión lineal simple-Función Lineal Simple

La función más sencilla para el análisis de regresión y correlación es la función lineal simple.

Y = α + βX + є para la población

Y = a + bx+e para la muestra

Ŷ=a+bx

El investigador deberá calcular los coeficientes de regresión (a; b) y el error de estimación. El método
más utilizado es el de mínimos cuadrados en el que:

𝑛 ∑ 𝑥𝑦− ∑ 𝑥 ∑ 𝑦
b=
𝑛 ∑ 𝑥 2 −(∑ 𝑥)2

a = 𝑦̅ − 𝑏𝑥̅

En donde el coeficiente “b” indica la razón de cambio en la variable dependiente “Y” por cada unidad
de cambio en la variable independiente “x”.

El coeficiente “a” indica el valor de la variable Y cuando X=0

REGRESIÓN LINEAL

Xi= VARIABLE INDEPENDIENTE

Yi=VARIABLE DEPENDIENTE
MMC Σ(Yi-yestimada)=0

*Yi

Ŷ=Y estimada

variación total de la variable dependiente=variación explicada o debido a la regresión +


variación no explicada o debido al error

en donde:
Σ (Yi - )2 = Variación total SCT

Σ (Ŷ - )2 = Variación explicada SCR


Σ (Yi - Ŷ)2 = Variación no explicada SCE
Supuestos del modelo de Regresión lineal

 El error está normalmente distribuido y es independiente uno de otro


 Varianzas iguales
 Linealidad

Error estándar de estimación (Se)

 El Error estándar de estimación es una medida de bondad de ajuste


 El error estándar de estimación sirve para formar límites alrededor de la recta de
regresión.
 El error estándar de estimación es una medida del grado de dispersión de los valores de y
alrededor de la recta de regresión.
 Mide la variación de los puntos de datos por encima y por debajo de la recta de regresión.
 El grado de dispersión en la población se puede estimar a partir del grado de dispersión en
las observaciones de las muestras con respecto a la línea de regresión calculada.
 El Se siempre se expresa en las mismas unidades de la variable dependiente “y”
 Mide la variabilidad de los valores “y” alrededor de la recta de regresión ajustada.
 Se, es la desviación estándar de la distribución de puntos respecto a la línea de regresión.

2
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 √∑(𝑌1 − 𝑌̂) ∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑒 = √ = = √
𝑛−2 𝑛−2 𝑛−2
2
(𝑆𝐶𝑥𝑦 )
𝑆𝐶𝐸 = 𝑆𝐶𝑦 − 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟
𝑆𝐶𝑥
𝑆𝐶𝐸
𝐶𝑀𝐸 = 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚𝑒𝑑𝑖𝑜 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟
𝑛−2
𝑆𝑒 = √𝐶𝑀𝐸 𝐸𝑟𝑟𝑜𝑟 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟
Análisis de Correlación (r- R).

Mide la fuerza de la relación entre “x” y “y”

𝒓 𝑎𝑠𝑢𝑚𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑛𝑡𝑟𝑒 − 1 𝑦 + 1 → −1 ≤ 𝒓 ≤ 1


𝑟 = −1 → 𝐼𝑛𝑑𝑖𝑐𝑎 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 "𝒙" 𝑦 "𝒚"
𝑟 = +1 → 𝐼𝑛𝑑𝑖𝑐𝑎 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 "𝒙" 𝑦 "𝒚"
Los puntos están dispersos en
todo el cuadro sin agruparse, lo
cual sugiere que no hay relación

En general entre mayor sea el valor absoluto de “r” más fuerte será la relación entre “x” y “y”

Para comprender lo que mide el coeficiente de correlación se debe desarrollar 3 medidas de


desviación.

La desviación total se divide en desviación explicada y no explicada.

𝑌𝑖 Desviación Total = (𝑌𝑖 − 𝑌̅)

Desviación no explicada ̂ = 𝒂 + 𝒃𝒙
𝒀
(𝑌𝑖 − 𝑌̂ )
𝑦̂ ̂ = 𝒃 𝟎 + 𝒃𝟏 𝒙
𝒀

Desviación explicada
̂𝑗 − 𝑌̅)
(𝑌
𝑌̅
𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙

2
𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

2
𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 𝑆𝐶𝑥𝑦


𝑟=√ = √ = 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑇𝑜𝑡𝑎𝑙 𝑆𝐶𝑇
√(𝑆𝐶𝑥 )(𝑆𝐶𝑦 )

Incluir el signo según la


pendiente porque siempre será +
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 ∗ √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2

Coeficiente de Determinación (𝑹𝟐 − 𝒓𝟐 )

Es otra medida importante de bondad de ajuste.


2
2
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 (𝑆𝐶𝑥𝑦 )
𝑟 = = =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 (𝑆𝐶𝑥 )(𝑆𝐶𝑦 )

› Proporciona una medida de bondad de ajuste porque revela que porcentaje de cambio en
y se explica por un cambio en x.
› El porcentaje de la variación de y está explicada por la variación de x
› 𝑟 2 tiene significado sólo para las relaciones lineales.

Limitaciones de Análisis de Regresión: Se debe tener cuidado de no utilizar el modelo de regresión


para predecir y para valores de x que están fuera del rango del conjunto original de datos.

Inferencias acerca de la Pendiente de la Línea de Regresión ⟶ Parámetro Poblacional (Prueba


De Significación Para La Pendiente De La Recta)

 Si no existe ninguna relación entre “x” y “y” se esperaría obtener un pendiente 0 que
puede ser contraria a los resultados muestrales, ya que sólo se incluye un subconjunto de
las observaciones.
 La ausencia de cualquier patrón indica que no existe relación.

Diagrama de Dispersión para la población de todos los puntos “x” y “y”


Precio
Las observaciones en la elipse sugieren una relación negativa

Planteamiento de hipótesis

𝐻0 : 𝛽1 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.


𝐻1 : 𝛽1 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.

𝑏1 − 𝛽1 𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 − 𝑉𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜


𝒕 𝒑𝒓𝒖𝒆𝒃𝒂 = =
𝑆𝑏 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛

𝑆𝑒 1
𝑆𝑏 = 𝑜 𝑆𝑒 → 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑜 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
√𝑆𝐶𝑥 √ 2 (∑ 𝑥)2
∑𝑥 − [
𝑛 ]

Regla de decisión

Si la 𝐻0 se acepta → 𝑆e concluirá que las variables no están relacionadas. Descartando el modelo


se utilizará una variable explicativa diferente.

Si la 𝐻0 se rechaza → Se debe calcular su valor y esto se responde calculando un intervalo de


confianza.

𝛽2= 𝑏1 ± 𝑡1⁄ (𝑆𝑏 )


2

El t crítico o 𝑡1⁄ 𝑒𝑠 𝑢𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑡 𝑐𝑜𝑛 𝑛 − 2 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑.


2

Inferencias Acerca Del Coeficiente De Correlación O Pruebas Para El Coeficiente De Correlación


Población (P)

Como el análisis respecto a la correlación entre las variables se basa en datos muéstrales, el error
de muestreo podría llevarnos a conclusiones no apropiadas.
Puede ser que la correlación en nivel poblacional sea cero y que una muestra engañosa, hizo que
se asuma equivocadamente una relación.

Prueba de hipótesis

𝐻0 : 𝑝 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.


𝐻1 : 𝑝 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠.

Donde p es el coeficiente de correlación a nivel poblacional.


𝑟−𝑝
𝒕 𝒑𝒓𝒖𝒆𝒃𝒂 =
𝑆𝑟

1 − 𝑟2
𝑆𝑟 = √ 𝑬𝒓𝒓𝒐𝒓 𝒐 𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓
𝑛−2
𝒅𝒆𝒍 𝒄𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
gl=n-2

Decisión: Si 𝑹𝒆𝒄𝒉𝒂𝒛𝒐 𝑯𝟎 , las variables están relacionadas.

Inferencia Estadística sobre la Intersección

Los intervalos y la prueba de hipótesis sobre el coeficiente 𝒂 puede establecerse por el hecho de
que A está distribuida normalmente.

Planteamiento de hipótesis

𝐻0 : ∝= 0 → 𝐿𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑝𝑎𝑠𝑎 𝑝𝑜𝑟 𝑒𝑙 𝑜𝑟𝑖𝑔𝑒𝑛.


𝐻1 : ∝ ≠ 0 → 𝐿𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑛𝑜 𝑝𝑎𝑠𝑎 𝑝𝑜 𝑒𝑙 𝑜𝑟𝑖𝑔𝑒𝑛.
Fijar el estadístico de prueba
𝑎−∝
𝑡𝑝 =
∑ 𝑥2
𝑆𝑒√𝑛𝑆𝐶
𝑥

Donde:

𝑆𝐶𝑥 = ∑(𝑥 − 𝑥̅ )2

𝑆𝑒√∑ 𝑥 2
Intervalos de confianza ∝ = 𝑎 ± 𝑡∝⁄
2 √𝑛𝑆𝐶𝑥
Función lineal simple
Ŷ= a + b X
Análisis de varianza en la predicción

La desviación total se divide en desviación explicada y no explicada.

𝑌𝑖 Desviación Total = (𝑌𝑖 − 𝑌̅)

Desviación no explicada ̂ = 𝒂 + 𝒃𝒙
𝒀
(𝑌𝑖 − 𝑌̂ )
𝑦̂ ̂ = 𝒃 𝟎 + 𝒃𝟏 𝒙
𝒀

Desviación explicada
̂𝑗 − 𝑌̅)
(𝑌
𝑌̅

𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙

2
𝑆𝐶𝑅 = ∑(𝑌̂ − 𝑌̅) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

2
𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂) 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑜 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

Planteamiento de hipótesis del modelo

Formular la hipótesis

𝐻0 : 𝛽 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚


𝐻1 : 𝛽 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚. 𝐸𝑙 𝑚é𝑡𝑜𝑑𝑜 𝑡𝑒𝑛𝑑𝑟á 𝑚𝑎𝑦𝑜𝑟 𝑝𝑜𝑑𝑒𝑟 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑜
Estadístico de prueba

Puede también probarse con F o t → 𝐹 = 𝑡 2

Fc= CMR/CME

Criterio de decisión:

Rechazar la hipótesis nula si:

Fc > Ft,v1,v2

Tabla de análisis de varianza ANOVA


g de Suma de Cuadrado
Fuentes de V Fc
libertad Cuadrados Medios
Debido a la regresión 1 SCR CMR= SCR/1 CMR/CME
Debido al error n-2 SCE CME=SCE/n-2
Total n-1 SCT

Ejercicio propuesto del Libro de Estadística aplicada a los negocios y economía

Solución

Diagrama de dispersión

Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,35081942
Coeficiente de
determinación R^2 0,12307427
R^2 ajustado 0,03538169
Error típico 1,93255107
Análisis del modelo
ANÁLISIS DE VARIANZA
Gl SC CM Fc Ft
Regresión 1 5,24163043 5,24163043 1,40347422 0,26353426
Residuos 10 37,3475362 3,73475362
Total 11 42,5891667

Planteamiento de hipótesis

𝐻0 : 𝛽 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚


𝐻1 : 𝛽 ≠ 0 𝐸𝑥𝑖𝑠𝑡𝑒 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝒙 𝑦 𝒚. 𝐸𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑡𝑒𝑛𝑑𝑟á 𝑚𝑎𝑦𝑜𝑟 𝑝𝑜𝑑𝑒𝑟 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑜
Estadístico de prueba

Fc= 1.4035

Criterio de decisión:

Rechazar la hipótesis nula si:

Fc > Ft,v1,v2

1.4035>0.2635

Decisión Rho, el modelo tiene poder predictivo

Transformación de modelos no lineales a lineales

Gráficas y transformaciones de datos

Formas Funcionales de los Modelos de Regresión Simple

Modelos aparentemente no lineales que por algún artificio matemático se pueden hacer lineales,
los modelos no lineales pueden ser operados como modelos lineales mediante transformaciones a
las variables

Las transformaciones que puedan mejorar el ajuste y la capacidad de predicción del modelo son
muy numerosas:
(El logaritmo natural es de base 2.8171)

Modelo Potencial 𝒚 = 𝑨𝒙𝑩

ln 𝑦 = ln(𝐴𝑥 𝐵 )
ln 𝑦 = ln 𝐴 + 𝐵 ln 𝑥
Y*=A*+BX*

Modelo Exponencial 𝒚 = 𝑨𝒆𝑩𝒙

ln 𝑦 = ln(𝐴𝑒 𝐵𝑥 )
ln 𝑦 = ln(𝐴) + 𝐵𝑥 ln 𝑒
ln 𝑦 = ln(𝐴) + 𝐵𝑥
Y*=A*+BX

Modelo Logarítmico 𝒚 = 𝑨 + 𝑩 𝐥𝐧 𝒙

Y=A+BX*

1 1
Recíproca 𝑦 = 𝐴+𝐵𝑥 𝑥∗ = 𝑥 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝒚 𝑐𝑜𝑛𝑡𝑟𝑎 𝒙∗
𝑥 1
Hiperbólica 𝑦 = 𝑦∗ = 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑑𝑒 𝒚∗ 𝑐𝑜𝑛𝑡𝑟𝑎 𝒙∗
𝐴+𝐵𝑥 𝑦

1
𝑥∗ = 𝑥

Para escoger el mejor modelo se realiza el gráfico de dispersión.

Exponencial

Logarítmica Potencial
A 𝛽>1
𝛽<0
𝛽<0
A
𝛽>0

Función Exponencial Función Potencial

A
1
𝛽>0
𝛽<0 𝛽
A

Función Recíproca Función Hiperbólica

A menudo se aconseja trabajar con un modelo alternativo en el que x y y o ambas entran de forma
no lineal.

Por lo general nos referimos a un modelo de regresión como lineal cuando es lineal en los
parámetros.

No es lineal en x y y es lineal en los parámetros.

Las medidas de comparación son R2 y Se, pueden utilizarse para medir la utilidad de la
transformación

Análisis de regresión y correlación Múltiple

Modelo de Regresión Lineal Múltiple

Se examina la influencia de 2 o más variables independientes

𝑦̂ = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ … . . + 𝑏𝑥 𝑥𝑥
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ … . . + 𝑏𝑥 𝑥𝑥
Donde:

𝑥1 ; 𝑥2 ; 𝑥3 ; … . . ; 𝑥𝑥 𝑆𝑜𝑛 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠


𝒂 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜
𝑏1 ; 𝑏2 ; 𝑏3 ; … . . ; 𝑏𝑥 𝑆𝑜𝑛 𝑙𝑜𝑠 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒𝑠 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
El método de mínimos cuadradas MCO para calcular 𝑏1 ; 𝑏2 ; 𝑏3 ; … . . ; 𝑏𝑥 minimiza la suma de los
cuadrados de las desviaciones verticales con respecto a la línea recta. Lo mismo se cumple para la
regresión múltiple, la abundancia de cálculos resulta muy tediosa.

Como por ejemplo para 2 variables independientes en necesario resolver 3 ecuaciones.

∑ 𝑦 = 𝑛𝑎 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2

∑ 𝑥1 𝑦 = 𝑎 ∑ 𝑥1 + 𝑏1 ∑ 𝑥12 + 𝑏2 ∑ 𝑥1 𝑥2

∑ 𝑥2 𝑦 = 𝑎 ∑ 𝑥2 + 𝑏1 ∑ 𝑥1 𝑥2 + 𝑏2 ∑ 𝑥22

Error Estándar Múltiple de estimación o variabilidad en la predicción

Describe la variación con respecto a la línea de regresión. Un error estándar pequeño indica que los
puntos están cerca de tal recta, mientras que un valor grande indica que los puntos están esparcidos
alrededor de aquella, el mismo concepto es en la regresión múltiple.

∑(𝑦𝑖 − 𝑦̂)2
𝑆𝑒 = √
𝑛 − (𝑘 + 1)

Donde:

𝒚𝒊 𝑒𝑠 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛.
̂ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑎 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑒 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛.
𝒚
𝒏 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎.
𝒌 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.

Para evaluar la ecuación de regresión, se puede trazar un diagrama de dispersión con cada variable
independiente

Matriz de correlación

Es útil para analizar los factores implicados en la variable dependiente.

La matriz contiene los coeficientes de correlación entre todos los pares de variables.

Se está particularmente interesado en las variables independientes que tienen un fuerte correlación
con la variable dependiente. La matriz de correlación ayuda a identificar cuáles pueden ser
relativamente más importantes.

Multicolinealidad
Correlación entre las variables independientes

Un método práctico común es que las correlaciones entre las variables independientes entre -0.7 y
0.7 no ocasionan dificultad

El remedio usual para la multicolinealidad es eliminar una de las variables independientes que están
fuertemente correlacionadas y determinan la ecuación de regresión

Análisis de Varianza en la Regresión Múltiple

Análisis de varianza del modelo global

Puede efectuarse un análisis de varianza que permita evaluar la calidad de la ecuación de regresión.

Una hipótesis útil que determina si el método explica una cantidad significativa de variación es la
siguiente:

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ … . . = 𝛽𝑘 = 0 𝑁𝑖𝑛𝑔𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑠 𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡𝑒

El modelo no tiene poder explicativo

𝐻1 : 𝛽1 ≠ 𝛽2 ≠ 𝛽3 ≠ ⋯ … . . ≠ 𝛽𝑘 ≠ 0 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑠 𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡𝑒


El modelo tiene poder explicativo

El análisis de varianza implica una prueba F, mediante una tabla.

ANOVA

Fuente de Suma de
g de libertad Media Cuadrática F F. Crítico
variación Cuadrados
MSR= SCR/K (Revisar
SCR k (numerador) F= MSR/MSE
Regresión CMR en Excel)
MSE =SCE/
SCE n-(k+1)(denominador) n-(K-1)
Error o Residual CME
Total SCT n-1

La prueba que se relaciona es la prueba de cola superior.

El rechazo 𝐻0 significa que la ecuación de regresión difiere de una constante, es decir al menos una
variable independiente es importante.

Evaluación de los Coeficientes de Regresión Individuales


Es necesario probar las variables individualmente para determinar cuáles coeficientes de regresión
podrían ser 0 y cuáles no.

Si una 𝛽 puede ser nula, (Aho), ello implica que tal variable independiente en particular no es de
ningún valor para explicar cualquier variación en el valor de pendiente, puede ser deseable
eliminarlos de la ecuación de regresión.

Para la 1ra variable independiente

𝐻0 : 𝛽 = 0 No es un factor de predicción significativo

𝐻1 : 𝛽 ≠ 0 𝐸𝑠 𝑢𝑛 𝑓𝑎𝑐𝑡𝑜𝑟 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜

Para la 2da variable independiente

𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0

Para la k variable independiente

𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0

El valor estadístico de prueba es la distribución 𝑡𝛼⁄2 de Student con n-(k+1)=gl

Si alguna variable independiente no es elementos significativo de predicción para “y”, se puede


eliminar del análisis.

Cuando se suprime una variable es necesario volver a construir la ecuación de regresión para revisar
las variables.

También podría gustarte