Está en la página 1de 105

GUIA DIDÁCTICA

INGENIERIA FINANCIERA
ESTADÍSTICA PARA NEGOCIOS
MTRA. DIANA ROSANA GARCIA FAVIEL
PLAN 2018

SEPTIEMBRE –DICIEMBRE 2022

NOMBRE DEL ALUMNO: ____________________________________

GRUPO _____________________ Matricula: _______________________________

1
<<ESTADISTICA PARA NEGOCIOS>>

Objetivo: El alumno será capaz de modelar y estimar los parámetros de los diferentes escenarios
económicos que se presentan en la práctica para contribuir a la toma de decisiones en el manejo
eficiente de los recursos.

Competencias a desarrollar en el alumno.


Permitirá al estudiante adquirir conocimientos y herramientas con las que un ingeniero se enfrenta en
su actividad profesional, dado que tendrá contacto, con situaciones en donde tendrá que aplicar los
diferentes modelos estadísticos.

Contenido temático
1. Regresión múltiple y series de tiempo
1.1 Definición, coeficiente de correlación
1.2 Regresión lineal, Error estándar
1.3 Regresión múltiple
1.4 Series de tiempo

2. Prueba de Hipótesis
2.1 Definición y clasificación

2
2.2 Regresiones no lineales
2.3. Problemas aplicados

3. Diseño de experimentos
3.1 Definición y sus componentes
3.2 Problemas aplicados

EXAMEN DIAGNOSTICO

3
1. Regresión múltiple
1.1 Correlación
ESTADÍSTICA
El término estadística se refiere a datos numéricos, tales como promedios, medianas,
porcentajes y números índices que ayudan a entender una gran variedad de negocios y
situaciones económicas. Sin embargo, como se verá, el campo de la estadística es mucho más
que datos numéricos.

En un sentido amplio, la estadística se define como el arte y la ciencia de reunir datos, analizarlos,
presentarlos e interpretarlos.

4
Ciencia que recoge, organiza, presenta, analiza e interpreta datos con el fin de proporcionar la
forma de decisiones más eficaz

Especialmente en los negocios y en la economía, la información obtenida al reunir datos,


analizarlos, presentarlos e interpretarlos proporciona a directivos, administradores y personas
que deben tomar decisiones una mejor comprensión del negocio o entorno económico,
permitiéndoles así tomar mejores decisiones con base en mejor información

• ¿Por qué se debe estudiar estadística?

• ACTIVIDAD 1. Hacer un mapa mental de Estadística

• 1. Porque la estadística se aplica o prolifera por todas partes, en revistas, noticias, en el trabajo,…

• 2. la segunda razón es que las técnicas estadísticas se emplean para tener decisiones que afectan
la vida diaria.

• 3.Una tercera razón indica en que el conocimiento de sus métodos facilita la compresión de la forma
en que se toman decisiones y proporciona un entendimiento mas claro de como le afectan.

• 4. Y en Finanzas los analistas financieros emplean una diversidad de información estadística como
guía para sus recomendaciones de inversión. En el caso de acciones, el analista revisa diferentes
datos financieros como la relación precio/ganancia y el rendimiento de los dividendos. Al comparar
la información sobre una determinada acción con la información sobre el promedio en el mercado
de acciones, el analista empieza a obtener conclusiones para saber si una determinada acciónestá
sobre o subvaluada

Términos utilizados en Estadística


• 1. Datos son hechos/informaciones y cifras que se recogen, analizan y resumen para su
presentación e interpretación. A todos los datos reunidos para un determinado estudio se les llama
conjunto de datos para el estudio. Y ESTOS SON :

Datos dispersos y Datos Agrupados

• 2. Elementos son las entidades de las que se obtienen los datos.

• 3. Una variable es una característica de los elementos que es de interés.

• 4. La población es el conjunto de todos los elementos de interés en un estudio determinado.

• 5. Muestra: Porción o parte de la población de interés, es decir es un subconjunto de la población.

• 6. Experimento: Actividad planeada cuyos resultados producen un conjunto de datos.

• 7. Parámetros: Valor numérico que resume todos los datos de una población.

• 8. Encuesta: es la recopilación de la información a partir de una muestra de la ´población.

• 9. Censo: es la recopilación del 100% de la información de toda la población.

5
Tipos de variables
1. VARIABLES CUALITATIVAS O DE ATRIBUTO: Son aquellas cuya naturaleza es no
numérica, ejemplo: tipo de automóvil, genero, estado civil, sexo, etc…

• 2. VARIABLES CUANTITATIVAS: Son aquellas cuya característica en estudio es numérica,


ejemplo: La edad, estatura, ingresos, etc..

• Las Variables cuantitativas se clasifican en DISCRETAS Y CONTINUAS

• Las variables discretas Definición:

• Son aquellas que pueden asumir una gran cantidad de valores en donde dichos valores deben
de poderse contabilizar, y además en enteros.

• Ejemplos:

• Número de hijos que tiene una familia

• Número de goles anotados en un partido de fútbol

• La cantidad de alumnos que aprobaron cálculo

• Las variables Continuas : son las que toman cualquier valor dentro de un intervalo especifico, por
lo regular son el resultados de mediciones , ejemplos: las inversiones de un grupo de personas, el
monto del impuesto sobre la renta, etc..

Ejercicio:
• Identifica que tipo de variable son los siguientes ejemplos:

1. Número de veces que se baña una persona_________

2. La cantidad de veces que se presenta un examen ____

3. La cantidad de personas que viajan a puerto Madero en vacaciones _____

4. El número de arena que hay en la playa ____

5. El número de T.V. que vende una tienda ______________

6. El número de popotes que se utilizan en el mundo ______________

7. El número de alumnos de nuevo ingreso en la politécnica _________________

8. El número de mango producido en zona del soconusco _________________

9. Las calificaciones obtenidas en el cuarto bimestre de Estadística_______________

10.Número de canastas anotados en un partido de básquet__________________

11.La cantidad de alumnos que aprobaron PROBABILIDAD.____________________


6
Clasificación de Estadística
• Se divide en dos grandes campos:
• Estadística Descriptiva
• Estadística Inferencial
• La Estadística Descriptiva: Método para organizar, resumir y presentar datos de manera
informativa.
• La Estadística Inferencial: Es un método empleado para determinar una propiedad de una
población con base en la información de una muestra. Y esta se refiere a la técnica de
interpretación de los valores resultantes de las técnicas descriptivas a la toma de decisiones y
obtención de conclusiones sobre la población muestreada.

Para formar una distribución de frecuencia tendremos que calcular el tamaño de la anchura de
la clase :
𝐷𝐴𝑇𝑂 𝑀𝐴𝑌𝑂𝑅 −𝐷𝐴𝑇𝑂 𝑀𝐸𝑁𝑂𝑅
𝐶= n= número total de datos
√𝑛
Intervalo de Frecuencia Marca de clase Frecuencia Frecuencia Frecuencia
clase (f) (M) acumulada ( fa) relativa ( fr ) relativa % (
fr% )
Límite inferior – Se suman los Se suman los se suman las se divide la A la frecuencia
límite superior datos que se intervalos y se frecuencias de frecuencia relativa se le
El límite inferior encuentran en dividen entre cada una de los entre el total de multiplica por
será el dato este intervalo dos intervalos frecuencia, 100 y nos da el
más pequeño y quedando en porcentaje de
el superior será fracción el cada intervalo.
la suma del resultado
pequeño + C
∑ ∑ ∑

7
EJERCICIO
NRF/BIG proporciona los resultados de una investigación sobre las cantidades que gastan en
vacaciones los consumidores (USA Today, 20 de diciembre de 2005). Los datos siguientes son las
cantidades gastadas en vacaciones por los 50 consumidores de una muestra.
1200, 850, 740, 590, 640, 750, 890, 960, 610, 650
1780, 1180, 850, 1050, 770, 800, 1090, 610, 520, 620
1450, 680, 1120, 1200, 750, 560, 1020, 580, 760, 689
899, 789, 689, 743, 1200, 1032, 985, 789, 856, 908
1150, 985, 679, 798, 1267, 781, 689, 799, 890, 1045
• Hacer la distribución de frecuencia
• Calcula las medidas de tendencia central y de dispersión
• Hacer el histograma y la poligonal.
1780 − 520
𝐶= = 178
√ 50

Intervalo F MC FA FR FR% F*MC 𝑀𝐶 − 𝑋̅ (𝑀𝐶 − 𝑋̅)2 𝐹(𝑀𝐶 − 𝑋̅)2


520 - 698 14 609 14 14/50 28% 8526
698 - 876 15 787 29 15/50 30% 11,805
876 - 1054 11 965 40 11/50 22% 10,615
1054 - 1232 7 1143 47 7/50 14% 8,001
1232 - 1410 1 1321 48 1/50 2% 1321
1410 -1588 1 1499 49 1/50 2% 1499
1588 - 1766 0 1677 49 0/50 0% 0
1766 - 1944 1 1855 50 1/50 2% 1855
Total 50 1.00 100% 43,622

∑(𝑀𝐶 ∗ 𝑓) 43622
𝑋̅ = = = 872.44
𝑛 50
𝑛
− 𝑓𝑎 25−14
𝑋̂ = 𝑙𝑖𝑚. 𝑖𝑛𝑓 + ( 2
𝑓
) 𝐶 = 698 + ( 15
) 178 =828.533
𝑋̃ = 787

8
Ejercicio 2.
Nielsen Home Technology Report informa sobre la tecnología en el hogar y su uso.
Los datos siguientes son las horas de uso de computadora por semana en una muestra de 50 personas.
4.1 1.5 10.4 5.9 3.4 5.7 1.6 6.1 3.0 3.7
3.1 4.8 2.0 14.8 5.4 4.2 3.9 4.1 11.1 3.5
4.1 4.1 8.8 5.6 4.3 3.3 7.1 10.3 6.2 7.6
10.8 2.8 9.5 12.9 12.1 0.7 4.0 9.2 4.4 5.7
7.2 6.1 5.7 5.9 4.7 3.9 3.7 3.1 6.1 3.1
• Resuma estos datos construyendo:
a. Una distribución de frecuencia
b. Histograma

Intervalo F MC FA FR FR% F*MC (𝑀𝐶 − 𝑋̅) 𝐹(𝑀𝐶 − 𝑋̅)2

Recordatorio

• MEDIDAS DE TENDENCIA CENTRAL


De acuerdo al comportamiento que tienen los datos, en cuanto a la frecuencia en que se
presentan los datos ya que algunos de estos son más comunes que otros y además que los
datos se agrupan en la parte central de la gráfica de ahí el nombre de medidas de tendencia
central y estas medidas son:
• MEDIA
• MEDIANA
• MODA
MEDIA
Para datos no agrupados, la media muestral es la suma de todos los valores de la muestra
dividida por el número de valores de la muestra.
Donde n es el número total de valores en la muestra.
9
∑𝑋
Formula: 𝑋̅ = 𝑛
La media de una muestra de datos organizados en una distribución de frecuencias (es decir
agrupados) es calculada por la siguiente fórmula:
∑(𝑀𝐶 ∗ 𝑓)
𝑋̅ =
𝑛
Donde : M = Marca de clase
f = la frecuencia de ese intervalo
n = número total de datos

MEDIANA
La mediana: es el valor que corresponde al punto medio de los valores después de
ordenarlos de menor a mayor. Se simboliza 𝑋̂
Cincuenta por ciento de las observaciones son mayores que la mediana, y 50% son menores
que ella.
Para un conjunto par de valores, la mediana será el promedio aritmético de los dos
valores centrales.
La mediana para datos agrupados:

La mediana de una muestra de datos agrupados en una distribución de frecuencias se calcula


con:
𝑛
− 𝑓𝑎
𝑋̂ = 𝑙𝑖𝑚. 𝑖𝑛𝑓 + ( 2
𝑓
)𝐶
donde,
Lim inf = es el límite inferior de la clase que contiene a la media
n es el número total de frecuencias
fa= es la frecuencia acumulada anterior de donde se encuentra la media
f es la frecuencia de la clase que contiene a la media
C = es la amplitud de la clase en que se encuentra la media

MODA
La moda es el valor de la observación que aparece con más frecuencia.
Se simboliza 𝑋̃
MODA PARA DATOS AGRUPADOS
Es la Marca de clase donde se encuentra la mayor frecuencia.
Se simboliza 𝑋̃
Cuando dos
valores ocurren un gran número de veces, la
distribución es llamada bimodal.

10
Ejercicio
Una muestra de 10 cines en un área metropolitana contó el número total de películas en
exhibición la última semana
Películas en Frecuencia MC fa
cartelera f F* MC

1 hasta 3 1

3 hasta 5 2

5 hasta 7 3

7 hasta 9 1

9 hasta 11 3

CALCULA LAS MEDIDAS DE TENDENCIA CENTRAL

Intervalo F MC FA FR FR% F*MC (𝑀𝐶 − 𝑋̅)2 𝐹(𝑀𝐶 − 𝑋̅)2


1-3 1
3-5 2
5-7 3
7-9 1
9 - 11 3
Total

11
MEDIDAS DE DISPERSIÓN.
Definición:
Estas medidas nos proporcionan información sobre la forma en que están distribuidos o dispersos los
valores con relación a la medida de tendencia central.

1. Amplitud de variación o Rango


La amplitud de variación es la diferencia entre el valor más grande y el valor más pequeño.
Características:
Sólo dos valores son utilizados en su cálculo.
Está influido por un valor extremo.
Es fácil calcularlo.

2. Desviación Absoluta media DAM


La desviación Absoluta media (DAM) es el promedio aritmético de los valores absolutos de las
desviaciones con respecto a la media aritmética.
Características de DAM :

12
Todos los valores son utilizados en el cálculo.
No está influido excesivamente por valores muy
grandes o valores muy pequeños.
Los valores absolutos son difíciles de manipular.

• Su fórmula es:

Datos no agrupados Datos agrupados


̅|
∑|𝑿−𝑿 ̅|
∑|𝑴𝑪−𝑿
𝑫𝑨𝑴 = 𝑫𝑨𝑴 =
𝒏 𝒏
Varianza de la población

La varianza de la población es la media aritmética de las desviaciones al cuadrado de la media


poblacional.

Características:

Todos los valores son utilizados en el cálculo.


No está influido por valores extremos.

Las unidades están desproporcionadas, son los cuadrados de la unidad original.

FORMULAS : VARIANZA POBLACIONAL VARIANZA MUESTRAL

𝟐 ∑(𝑿−𝝁)𝟐 𝟐 ̅ )𝟐
∑ 𝑭(𝑴𝑪−𝑿
𝝈 = 𝒔 =
𝑵 𝒏

La desviación estándar poblacional

La desviación estándar poblacional o muestral (𝜎, s)

es la raíz cuadrada de la varianza

Poblacional Muestral

𝝈 = √𝝈𝟐 𝒔 = √𝒔𝟐
El coeficiente de variación:

El coeficiente de variación:

es la razón (cociente) de la desviación estándar y la media aritmética,


expresada como un porcentaje.

𝑺
𝑪𝑽 = 𝑿̅ (100%)
13
Ejercicio.

En un proceso de control de calidad de los productos de una fábrica de explosivos, se obtuvo


la siguiente muestra del peso de los cartuchos de dinamita.

38.4 37.1 38.6 38.5 37.4 37.3 39.0 37.7 39.5 37.4
38.3 37.7 37.4 37.1 36.5 36.3 38.0 39.2 37.0 38.2
36.1 37.6 38.3 39.2 38.7 38.2 36.2 38.8 39.5 39.2
39.8 39.8 38.1 37.8 36.7 38.3 39.0 38.3 36.9 38.8

A) Elabora la tabla de distribución de frecuencias acumulada.


B) Trazar las diferentes graficas.
C) Determina las medidas de tendencia central.
D) Determina las medidas de dispersión.
E) ¿Cuál es el % de cartuchos que pesan más de 38.5?
F) ¿Cuál es el % de cartuchos que pesan menos de 37.9?
G) ¿Cuál es el % de cartuchos que pesan entre 38.5 y 39.7?

Intervalo F MC FA FR FR% F*MC (𝑀𝐶 − 𝑋̅)2 𝐹(𝑀𝐶 − 𝑋̅)2

14
Ejercicio :

Los gastos en publicidad constituyen un elemento significativo de los artículos vendidos. En seguida
aparece una distribución de frecuencia que muestra los gastos en publicidad de 60 compañías
fabricantes. Calcula las medidas de tendencia central, las de dispersión y el histograma.

Gastos en publicidad No. De compañías


Millones de dólares
25 - 35 5
35 - 45 10
45 - 55 21
55 - 65 16
65 - 75 8
Total

Intervalo F MC FA FR FR% F*MC (𝑀𝐶 − 𝑋̅)2 𝐹(𝑀𝐶 − 𝑋̅)2


25 - 35 5
35 - 45 10
45 - 55 21
55 - 65 16
65 - 75 8
Total 5

15
Ejercicio: Se obtuvo la venta en millones de pesos en de ciertos articulo durante 90 días obteniendo la
siguiente tabla:

Ventas Días
120-140 11
140-160 15
160-180 28
180-200 12
200-220 14
220 -240 10
Total

a) indica que promedio de ventas se obtuvieron durante esos días

b) ¿Cuál es la la venta que se repite con mayor frecuencia y las ventas centrales
c) ¿Que tan dispersos se encuentran los datos uno de otro y cuál es el porcentaje de dispersión?

Intervalo F MC FA FR FR% F*MC (𝑀𝐶 − 𝑋̅)2 𝐹(𝑀𝐶 − 𝑋̅)2


120-140 11
140-160 15
160-180 28
180-200 12
200-220 14
220 -240 10
Total

16
Error Estándar de Estimación
El error estándar es la desviación estándar de la distribución muestral de un estadístico. El término se
refiere también a una estimación de la desviación estándar, derivada de una muestra particular usada
para computar la estimación.

Formula:

∑(𝑦 − 𝑦̂)2
𝜎̂ = √
𝑛

Ejercicio. Calcula el error estándar de los ejercicios anteriores. S e realizará la siguiente tabla:

Correlación y Regresión lineal

Introducción

La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la relación
lineal existente entre dos variables. Antes de profundizar en cada uno de ellos, conviene destacar
algunas diferencias:
 La correlación cuantifica como se relaciona están dos variables, mientras que la regresión
lineal consiste en generar una ecuación (modelo) que, basándose en la relación existente
entre ambas variables, permita predecir el valor de una a partir de la otra.
 El cálculo de la correlación entre dos variables es independiente del orden o asignación de
cada variable a XX e YY, mide únicamente la relación entre ambas sin considerar
dependencias. En el caso de la regresión lineal, el modelo varía según qué variable se
considere dependiente de la otra (lo cual no implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando ninguna de las variables se ha
controlado, simplemente se han medido ambas y se desea saber si están relacionadas. En el
17
caso de estudios de regresión lineal, es más común que una de las variables se controle
(tiempo, concentración de reactivo, temperatura…) y se mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la generación de modelos de
regresión lineal. Primero se analiza si ambas variables están correlacionadas y, en caso de
estarlo, se procede a generar el modelo de regresión.

COEFICIENTE DE CORRELACION

TIPO DE CORRELACIONES

18
PARA CALCULAR EL COEFICIENTE DE CORRELACION UTILIZAREMOS LA SIGUIENTE
FORMULA

𝒔𝒄 (𝒙𝒚)
𝒓=
√𝒔𝒄(𝒙)𝒔𝒄(𝒚)

𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 :
(∑ 𝑥) 2
• 𝑠𝑐(𝑥 ) = ∑ 𝑥 2 −
𝑛
(∑ 𝑦 )2
• 𝑠𝑐(𝑦) = ∑ 𝑦 2 −
𝑛
∑𝑥 ∑𝑦
• 𝑠𝑐(𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛

𝑥 𝑠𝑜𝑛 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒


y son los valores de la variable dependiente

n número total de datos

COEFICIENTE DE DETERMINACION

19
Nos indica el porcentaje de variación de la variable dependiente que son explicadas por el modelo. A
medida que el porcentaje es mayor, nos indica en qué medida el modelo se ajusta a los datos, motivo
por el cual a este estadístico también se le conoce por el nombre de BONDAD DE AJUSTE.

Se representa con la letra 𝑟2


𝟐
𝟐 𝒔𝒄 (𝒙𝒚)
• 𝒓 = ( )
√𝒔𝒄 (𝒙)𝒔𝒄(𝒚)

Mientras más se acerque a uno, los datos se ajustan más a ese modelo,

Mientras más se aleje de uno y se acerque a cero quiere decir que están muy alejados los datos a dicho
modelo, no se ajustan a ese modelo.

FORMULA
𝑠𝑐 (𝑥𝑦)
• 𝑟=
√𝑠𝑐 ( 𝑥 ) 𝑠𝑐(𝑦)

𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 :
(∑ 𝑥 ) 2 (∑ 𝑦) 2 ∑𝑥∑𝑦
• 𝑠𝑐 (𝑥 ) = ∑ 𝑥 2 − 𝑠𝑐(𝑦) = ∑ 𝑦 2 − 𝑠𝑐 (𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛 𝑛 𝑛

• 𝑥 𝑠𝑜𝑛 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒


• y son los valores de la variable dependiente

• n número total de datos

• 𝑟2 = 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝐷𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖𝑜𝑛
• Y va a ser el porcentaje de la relación que se da entre las dos variables

DIAGRAMAS DE DISPERSION
• Estas dos correlaciones indican una correlación muy fuerte entre las dos variables.

• Por lo tanto, la fuerza de la correlación no depende de la dirección ya sea positiva o negativa.

• DIAGRAMAS DE DISPERSION

20
CARACTERISTICAS DEL COEFICIENTE DE
CORRELACION
1. El coeficiente de correlación de una muestra se identifica con una “r”

2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables.


3. Varia de -1 a +1 inclusive.

4. Un valor cercano a cero indica que hay poca asociación entre las variables.

5. Un valor cercano a 1 indica una asociación directa o positiva entre las dos variables.

6. Un valor cercano a -1 indica una asociación inversa o negativa entre las dos variabl
EJEMPLO:

21
El gerente de ventas de una empresa que tiene una fuerza de venta grande en Latinoamérica desea
determinar si hay relación entre el número de llamadas de ventas en un mes y el número de aparatos
eléctricos vendidos de ese mes. El gerente selecciona una muestra aleatoria de 10 representantes de
ventas y determina el número de llamadas de ventas que cada uno hizo el mes pasado y el número de
aparatos eléctricos vendidos, obteniéndose la siguiente tabla:

Representantes de Ventas No. De llamadas (x) No. De aparatos vendidos (y)


JOSE RAMIREZ 20 30
LUIS MIGUEL PEREZ 40 60
JUAN CARLOS MENDIZABAL 20 40
SUSANA MENDEZ 30 60
TOMAS JIMENEZ 10 30
MARIA CARDENAS 10 40
ARECELI ROMERO 20 40
FELIPE GOMEZ 20 50
FRANCISCO MERCADO 20 30
HECTOR CEDILLO 30 70

Con los datos anteriores calcula el valor de “r” y 𝑟2

Hacer el diagrama de dispersión

Representantes X Y 𝑋2 𝑌2 XY
de Ventas
JOSE RAMIREZ 20 30 400 900 600
LUIS MIGUEL 40 60 1600 3600 2400
PEREZ
JUAN CARLOS 20 40 400 1600 800
MENDIZABAL
SUSANA MENDEZ 30 60 900 3600 1800
TOMAS JIMENEZ 10 30 100 900 300
MARIA CARDENAS 10 40 100 1600 400
ARECELI ROMERO 20 40 400 1600 800
FELIPE GOMEZ 20 50 400 2500 1000
FRANCISCO 20 30 400 900 600
MERCADO
HECTOR CEDILLO 30 70 900 4900 2100
TOTAL 220 450 5600 22100 10800

Aplicando la formula

2 (∑ 𝑥) 2 (220)2
• 𝑠𝑐 (𝑥 ) = ∑ 𝑥 − 𝑛
= 5600 − 10
= 760

22
2 (∑ 𝑦)2 (450)2
• 𝑠𝑐 (𝑦) = ∑ 𝑦 − = 22100 − = 1850
𝑛 10
∑ 𝑥 ∑𝑦 (220)(450)
• 𝑠𝑐(𝑥𝑦) = ∑ 𝑥𝑦 − = 10,800 − = 900
𝑛 10

𝑠𝑐 (𝑥𝑦) 900
• 𝑟= = = 0.759
√𝑠𝑐 (𝑥) 𝑠𝑐(𝑦) √(760)(1850)

• Por lo tanto, la relación que se da entre las llamadas y las ventas realizadas en este mes están muy
relacionadas en r= 0.76
2
• Calcular el coeficiente de determinación 𝑟2 = (0.759) =0.58 x 100

• El 58% es la relación que existe entre la variable independiente y el modelo al que se está ajustando,
quiere decir que en un 58% se ajusta este modelo al problema

70 *

60 * *

50 *

40 * *

30 * *

10 20 30 40
No. De llamadas
23
Ejercicio.

• Una empresa de mercadeo desea saber si el número de comerciales transmitidos por televisión están o
no correlacionados linealmente con las ventas de sus productos, teniendo una muestra de varias
ciudades durante un semestre, obteniéndose la siguiente tabla:

Ciudad No. De No. De


comerciales unidades X2 Y2 XY
Tv. (X) vendidas(Y)
A 12 7
B 6 5
C 9 10
D 15 14
E 11 12
F 15 9
G 8 6
H 16 11
I 12 11
J 6 8
TOTAL

Calcular:

El coeficiente de correlación y el de determinación

El diagrama de dispersión
OPERACIONES
(∑ 𝑥 ) 2
• 𝑠𝑐 (𝑥 ) = ∑ 𝑥 2 − =
𝑛

(∑ 𝑦 ) 2
• 𝑠𝑐 (𝑦) = ∑ 𝑦 2 − =
𝑛

∑𝑥∑𝑦
• 𝑠𝑐 (𝑥𝑦) = ∑ 𝑥𝑦 − 𝑛
=

𝑠𝑐 (𝑥𝑦)
• 𝑟= =
√𝑠𝑐 (𝑥) 𝑠𝑐(𝑦)
𝑟2 =

24
16 *

14 *

12 *

* *

10 *

8 *

6 *

*
6 8 10 12 14 16

25
EJERCICIOS

1.El número de bacterias por unidad de volumen, presentes en un cultivo después de un cierto
número de horas, viene expresado en la siguiente tabla:

a) Calcula las medias para las variables MEDIA HORAS =2.5 Bacterias= 34.33

b) Calcula el coeficiente de correlación r= 0.97

c) Calcular la ecuación de regresión lineal


d) ¿A la sexta hora cuantas bacterias existirán?

e) ¿En qué hora se tendrán 100 bacterias?


X: Nº de 0 1 2 3 4 5
horas

Y: Nº de 12 19 23 34 56 62
bacterias

26
2. Un centro comercial sabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de
población, acuden los clientes, en cientos, que figuran en la tabla:

No. De Clientes ( X ) Distancia (Y)


8 15
7 19
6 25
4 23
2 34
1 40
TOTAL

a) Calcular el coeficiente de correlación y el de determinación. ____r= -0.95 , __r2=90.25


b) Si el centro comercial se sitúa a 2 Km. ¿Cuántos clientes puede esperar? _____________________
c) Si desea recibir 5 clientes, ¿A qué distancia del núcleo de población debe situarse?
______________________

3.Es una muestra de tamaño 12 sobre la relación existente entre la inversión realizada y el rendimiento obtenido en
cientos miles de euros para la explotación agrícola:

Inversión (x) Rendimiento (y)


11 2
14 3
16 5
15 6
16 5
18 3
20 7
21 10
14 6
20 10
19 5
11 6
total

27
a) Hacer el diagrama de dispersión
b) Calcula el coeficiente de correlación lineal _r= 0.62
c) Calcula el coeficiente de determinación ______ r2 = 38.44%

28
EJERCICIOS :

29
30
31
A) Calcula el coeficiente de correlación.

32
La siguiente tabla muestra los valores observados, como una lista de gastos publicitarios y
volúmenes de ventas de 10 meses que fueron seleccionados al azar de los archivos.
mes Gastos publicitarios Volumen de Ventas
(100000 dólares) (y) (100000 dólares) (x)
1 1.2 101
2 0.8 92
3 1.0 110
4 1.3 120
5 0.7 90
6 0.8 82
7 1.0 93
8 0.6 75
9 0.9 91
10 1.1 105
total

A) Calcula el coeficiente de correlación.

33
ANALISIS DE REGRESION LINEAL
La regresión lineal es la técnica básica del análisis de modelos en una investigación . Mediante dicha técnica
tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente o endógena,
respecto de una o varias variables explicativas o exógenas. Gujarati (1975), define el análisis de regresión
como el estudio de la dependencia de la variable dependiente, sobre una o más variables explicativas, con el
objeto de estimar o predecir el valor promedio poblacional de la primera en términos de los valores conocidos
o fijos (en medias muéstrales repetidas) de las últimas.

FORMULAS

• 𝑦̂ = 𝑎𝑥 + 𝑏

Donde :
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑎= 2
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)

34
∑𝑦−𝑎∑𝑥
𝑏=
𝑛

REGRESION LINEAL SIMPLE: DE LOS MÍNIMOS CUADRADOS ORDINARIOS


• Pero antes de ver en que consiste este método debemos plantear ciertas
• hipótesis sobre el comportamiento de las variables que integran el modelo.
• La variable 𝑒𝑖 la denominamos término de perturbación o error, y en ella recogemos todos
aquellos
• factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin
• embargo, no están reflejados en las variables explicativas, Xi. Estos factores deberían ser
poco
• importantes, ya que no debería existir ninguna variable explicativa relevante omitida en el
modelo
• de regresión. En caso contrario estaríamos incurriendo en lo que se conoce como un error de
• especificación del modelo. El término de perturbación también recogería los posibles errores
de
• medida de la variable dependiente, Y.
• De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de
vital
• importancia que dicho término de error no ejerza ninguna influencia determinante en la
• explicación del comportamiento de la variable dependiente. Por ello, si el modelo esta bien
• especificado, cuando se aplica el método de Mínimos Cuadrados Ordinarios, cabe realizar las
• siguientes hipótesis de comportamiento sobre el término de error:
• 1. La esperanza matemática de 𝑒𝑖 es cero, tal que E(𝑒𝑖) = 0. Es decir, el comportamiento del

• término de error no presenta un sesgo sistemático en ninguna dirección determinada. Por


• ejemplo, si estamos realizando un experimento en el cual tenemos que medir la longitud
• de un determinado objeto, a veces al medir dicha longitud cometeremos un error de
• medida por exceso y otras por defecto, pero en media los errores estarán compensados.
• 2. La covarianza entre 𝑒𝑖 y 𝑒𝑗 es nula para i ¹ j tal que E(𝑒𝑖 . 𝑒𝑗 ) = 0. Ello quiere decir que el

• error cometido en un momento determinado, i, no debe estar correlacionado con el error


• cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen

35
• influencia unos sobre otros. En caso de existir este tipo de influencia o correlación, nos
• encontraríamos ante el problema de la autocorrelación en los residuos, el cual impide
• realizar una estimación por Mínimos Cuadrados válida.

Partiendo de la relación lineal más sencilla:

𝑦̂=𝑎𝑥+𝑏 𝑦̂=𝑎+𝑏𝑥+𝑒𝑖
• Si suponemos que se verifican los supuestos anteriores, la estimación mínimo cuadrática de
los
• parámetros, 𝑏, dará como resultado gráfico una recta que se ajuste lo máximo posible a la
nube de puntos definida por todos los pares de valores muéstrales (𝑋𝑖, 𝑌𝑖 ), tal y como se
puede
• apreciar en el Figura .
Grafica de una regresión lineal o Diagrama de Dispersión

36
Formulas 𝑦̂ = 𝑎𝑥 + 𝑏
Para calcular la ecuación de regresión lineal , tendremos que calcular los valores de a 𝑦 𝑏:

Para obtener nuestra ecuación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦 ∑ 𝑦 − 𝑎 ∑𝑥
𝑎= 𝑏=
𝑛 (∑ 𝑥 2 ) − (∑ 𝑥 )2 𝑛
En donde :
Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que son
estimadas por lo que no se corresponden con el valor real del parámetro sino con el calculado por
nosotros.
donde n = representa el tamaño muestral
a= es la pendiente de la recta
b= es la intersección y, es el valor estimado de y , cuando x=0
Predicción
Una vez obtenida la ecuación de regresión, que se ha verificado la calidad de sus estimadores y
comprobado que describe apropiadamente la teoría económica, el investigador está en condiciones
de visualizar el futuro ( hacer planeación) aplicando el modelo uniecuacional ( o multiecuacional )
en la proyección de los valores, digamos necesarios p ara construir escenarios económicos futuros
de su interés.

Ejercicio :
En un determinado sector, la produccion las exportaciones durante los ultimos 6 años han sido:
AÑO Produccion (x) Exportacion(y)
2014 400 80
2015 420 80
2016 440 90
2017 480 92
2018 500 98
2019 520 110
total

a) Calcula la ecuacion de regresion lineal que mejor se ajuste a estos datos


b) ¿Caunto se tiene que producir para tener una exportar 150 productos?
c) Si se producen 600 millones de dolares ¿Cuál es el volumen de la exportacion?
d) ¿Cuál es el promedio de produccion y de exportacion?
e) Si se estima que la produccion en el 2022 va a ser de 680 millones de dolares y que la
condiciones del mercado no van a variar. ¿Cuál es el volumen de exportacion previsible?
f) Calcula el coeficiente de correlacion y el de determinacion
37
g) Hacer la grafica de dispersion y la de la ecuacion 𝑦̂ estimada
a)
AÑO Produccion Exportacion(y) X2 Y2 xy ⏞
𝑦
(x)
2014 400 80 160000 6400 32000 77.9
2015 420 80 176400 6400 33600 82.5
2016 440 90 193,600 8100 39,600 87.1
2017 480 92 230400 8464 44160 96.3
2018 500 98 250000 9604 49,000 100.9
2019 520 110 270400 12100 57200 105.5
total 2760 550 1280800 51068 255560

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦 6(255560) − (2760)(550)
𝑎= = = 0.23
𝑛 (∑ 𝑥 2 ) − (∑ 𝑥 )2 6(1280800) − (2760)2
∑𝑦 − 𝑎∑𝑥 550 − 0.23(2760)
𝑏= = = −14.13
𝑛 6

𝑎) 𝑦̂ = 0.23𝑥 − 14.13

b)¿Caunto se tiene que producir para tener una exportar Y=150 productos?

𝑦̂ = 0.23𝑥 − 14.13
150 = 0.23𝑥 − 14.13
150 + 14.13 = 0.23𝑥
164.13
𝑥= =
0.23
𝑥 = 713.61
𝑥 = 714
b) Si se producen 600 millones de dolares ¿Cuál es el volumen de la exportacion?
38
𝑦̂ = 0.23(600) − 14.13
𝑦̂ = 123.87
d)¿Cuál es el promedio de produccion y de exportacion?

2760 550
𝑥̅ = = 460 𝑦̅ = = 91.67
6 6
e)Si se estima que la produccion en el 2022 va a ser de 680 millones de dolares y que la
condiciones del mercado no van a variar. ¿Cuál es el volumen de exportacion previsible?

𝑦̂ = 0.23(680) − 14.13
𝑦̂ = 142.27

f)Calcula el coeficiente de correlacion y el de determinacion


r= 0.95 r2 = 90.25%

g) Hacer la grafica de dispersion y la de la ecuacion 𝑦̂ estimada


y

100 *
*
*
90 *

80 * *
*

400 420 440 480 500 520 x


Produccion
39
EJERCICIO
Un hipermercado ha decidido ampliar el negocio y decide estudiar de forma exhaustiva el número de
cajas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los
siguientes datos procedentes de otros establecimientos similares acerca del número de cajas
registradoras (variable X2) y del tiempo medio de espera (variable X1)
No. Cajas Tiempo de
registradoras espera min.(y)
(x)
10 59
12 51
14 42
16 32
18 26
20 22

a) Calcula el coeficiente de correlacion y el de determinacion


b) Encontrar la ecuaion de regresion lineal
c) Si se tiene 15 cajas registradoras, ¿Cuál sera el tiempo de espera?
d) Si se tuvo un tiempo de espera de 40 min. ¿Cuántas cajas registradoras se necesitan?
e) Si se tuvo un tiempo de espera de 60 min. ¿Cuántas cajas registradoras se necesitan?
f) ¿Cuántas cajas registradoras se necesitan para tener 20 min. De espera?
g) Hacer el diagrama de dispersion

40
EJERCICIOS
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un país y la
producción interna de dicho país. En el caso de España, tenemos los datos anuales (expresados en
miles de millones de pesetas) para tales variables correspondientes al quinquenio 2012- 2016 en la
siguiente tabla:
AÑO PRODUCCION EXPORTACION Y
X
2012 52.654 10,420
2013 53,972 11,841
2014 57,383 14,443
2015 61,829 16,732
2016 65.381 18,760

a)Calcula el coeficiente de correlacion


a) Encontra r la ecuacion de regresion lineal

c)Si se producen 70,000 articulos ¿Cuáles serian las exportaciones?


d)¿Cuánto se tiene que producir para obtener una exportacion de 15,000?
e)¿Cuánto se tiene que producir para obtener una exportacion de 20,000?
f)Hacer el diagrama de dispersion

X Y X2 Y2 XY
52,654 10,420
53,972 11,841
57,383 14,443
61,829 16,732
65,381 18,760
291219 72 196

(∑ 𝑥 ) 2
• 𝑠𝑐 (𝑥 ) = ∑ 𝑥 2 − =
𝑛

(∑ 𝑦 ) 2
• 𝑠𝑐 (𝑦) = ∑ 𝑦 2 − =
𝑛

∑𝑥∑𝑦
• 𝑠𝑐 (𝑥𝑦) = ∑ 𝑥𝑦 − =
𝑛

41
𝑠𝑐 (𝑥𝑦)
𝑟= =
√𝑠𝑐 (𝑥 )𝑠𝑐(𝑦)

EJERCICIO
Supongamos que el director de una empresa piensa que la demanda de un producto que él comercializa
depende únicamente del precio de venta al público. Para estudiar la demanda de este producto pretende
estimar el siguiente modelo:

En donde 𝑌𝑖 es la cantidad vendida Del bien Y en el tiempo 𝑖, 𝑋𝑖 es el


Precio medio al cual se vendió el bien Y durante el tiempo 𝑖.

Si se vende en $20 el bien ¿Cuál es la cantidad vendida?

AÑO 𝑌𝑖 𝑋𝑖
1988 10 19
1989 12 18
1990 13 16
1991 14 15
1992 15 15
1993 17 14
1994 20 14
1995 21 13
1996 22 12
1997 20 13
Total

42
𝑦̂ =

AÑO 𝑌𝑖 𝑋𝑖 X2 Y2 XY 𝑦̂
∑(𝑦 − 𝑦̂)2

1988 10 19
1989 12 18
1990 13 16
1991 14 15
1992 15 15
1993 17 14
1994 20 14
1995 21 13
1996 22 12
1997 20 13
Total

∑ ( 𝑦−𝑦̂) 2
𝜎 =√ =
𝑛

a) Calcula el coeficiente de correlación r =


b) Hacer el diagrama de dispersión
c) Calcula la ecuación de regresión lineal

d) ¿Cuántas unidades se tienen que vender para tener un precio de$25?


e) ¿Cuál debe de ser el precio para vender 25 unidades?

43
EJERCICIOS
Un coche de Fórmula 1 realiza un tramo de ella que mide 870 metros, a una velocidad
constante de 80 metros por segundo (288 km/h). Nos interesa saber cómo evoluciona la
distancia que recorre en los poco más de 10 segundos que tarda en completarlos.
Obteniéndose la siguiente tabla:

Segundos Metros
transcurridos(x) recorridos (y)
1 80
2 160
3 240
4 320
5 400
6 480
7 560
8 640

a) Calcula el coeficiente de correlación


b) Hacer el diagrama de dispersión
c) Calcula la ecuación de regresión lineal
d) ¿Qué recorrido tendrá en el décimo segundo?
e) ¿En qué segundo habrá recorrido 960 metros?

Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda


El Método de Mínimos Cuadrados o Regresión Lineal se utiliza tanto para pronósticos de series
de tiempo como para pronósticos de relaciones causales. En particular cuando la variable
dependiente cambia como resultado del tiempo se trata de un análisis de serie temporal.
En el siguiente artículo desarrollaremos un Pronóstico de Demanda haciendo uso de la información
histórica de venta de un producto determinado durante los últimos 12 trimestres (3 años) cuyos datos
se observan en la siguiente tabla resumen:

44
a) Calcula el coeficiente de correlación
b) Hacer el diagrama de dispersión
c) Calcula la ecuación de regresión lineal
d) ¿En que trimestre se venderán 5,500?
e) ¿Cuánto se venderá en el trimestre 15?

45
Ejercicio:
La siguiente tabla muestra información sobre la edad y la presión sanguínea de 10 mujeres:

Edad (y) Presión (x)

a) Calcula el coeficiente de correlación


b) Hacer el diagrama de dispersión
c) Calcula la ecuación de regresión lineal
d) ¿A los 50 años que presión tendrá esa persona?

46
ERROR ESTANDAR DE LA ESTIMACION
DEFINICION:

Es la deviación estándar de la distribución muestral de un estadístico, el término también se refiere


a una estimación de la desviación estándar derivada de una muestra particular usada para obtener la
estimación. Para calcular el error es:

2
√∑(𝑦 − 𝑦̂)
𝜎=
𝑛

En un determinado sector, la produccion las exportaciones durante los ultimos 6 años han sido:
AÑO Produccion (x) Exportacion(y)
2014 400 80
2015 420 80
2016 440 90
2017 480 92
2018 500 98
2019 520 110
total

a)Calcula la ecuacion de regresion lineal que mejor se ajuste a estos datos


b) ¿Caunto se tiene que producir para tener una exportar 150 productos?
c) Si se producen 600 millones de dolares ¿Cuál es el volumen de la exportacion?
d) ¿Cuál es el promedio de produccion y de exportacion?
e) Si se estima que la produccion en el 2022 va a ser de 680 millones de dolares y que la
condiciones del mercado no van a variar. ¿Cuál es el volumen de exportacion previsible?
f) Calcula el coeficiente de correlacion y el de determinacion
g) Hacer la grafica de dispersion y la de la ecuacion 𝑦̂ estimada

47
h) Calcula el error estandar
AÑO Produccion Exportacion X2 Y2 xy ⏞
𝑦 2
(x) (y)
∑(𝑦 − 𝑦̂)
2014 400 80 160000 6400 32000 77.9
2015 420 80 176400 6400 33600 82.5
2016 440 90 193,600 8100 39,600 87.1
2017 480 92 230400 8464 44160 96.3
2018 500 98 250000 9604 49,000 100.9
2019 520 110 270400 12100 57200 105.5
total 2760 550 1280800 51068 255560
𝑦̂ = 0.23𝑥 − 14.13
a) Calcula el error estandar

2
∑(𝑦 − 𝑦̂)
𝜎=√ =
𝑛

Calcula el error estándar de los anteriores ejercicios

48
Series de Tiempo
En Estadística se le llama así a un conjunto de valores observados durante una serie de períodos
temporales secuencialmente ordenada, tales períodos pueden ser semanales, mensuales,
trimestrales o anuales

Se representa por medio de una gráfica de líneas sobre cuyo eje horizontal se representan los
períodos y en cuyo eje vertical se representan los valores de la serie de tiempo
Ejemplos de graficas de series de tiempos

Analizar una serie de tiempo tiene como objetivos, entre otros:


Determinar si se presentan ciertos patrones o pautas no aleatorias

Aislar y entonces estudiar sus componentes a fin de proporcionar claves para movimientos futuros
Hace posible pronosticar los movimientos futuros, así como otros aspectos que estén sincronizados

49
ANALISIS DE REGRESION MULTIPLES
El Análisis de Regresión Lineal Múltiple nos permite establecer la relación que se produce entre una
variable dependiente Y y un conjunto de variables independientes (𝑥 1 , 𝑥 2 , 𝑥 3 , … … … 𝑥 𝑘 ).

El análisis de regresión lineal múltiple, a diferencia del simple, se aproxima más a situaciones de
análisis real puesto que los fenómenos, hechos y procesos sociales, por definición, son complejos y, en
consecuencia, deben ser explicados en la medida de lo posible por la serie de variables que, directa e
indirectamente, participan en su concreción.

Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias variables

exógenas, de tal forma que se trata de determinar la relación que existe entre la variable endógena Y
y variables exógenas: 𝑥 1, 𝑥 2, 𝑥 3, … . . , 𝑥 𝑘 Dicho modelo se puede formular matricialmente de la

siguiente manera:

𝑦̂=𝑎+𝑏1𝑥1+𝑏2𝑥2+𝑏3𝑥3+⋯+𝑏𝑘 𝑥𝑘+𝑒𝑖
en donde: 𝑦̂ es la variable a predecir;

𝑎 , 𝑏1, 𝑏2 , 𝑏3,…. son parámetros desconocidos a estimar;

e es el error que cometemos en la predicción de los pará- metros.


Para una ecuación de dos variables independientes, la ecuación es

𝑦̂ = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2
Donde: Para calcular los coeficientes a, 𝑏1 , 𝑏2

Se utilizará el siguiente sistema de ecuaciones:


∑ 𝑦 = 𝑎𝑛 + 𝑏1 ∑ 𝑥 1 + 𝑏2 ∑ 𝑥 2

∑ 𝑦𝑥 1 = 𝑎 ∑ 𝑥 1 + 𝑏1 ∑ 𝑥 2 1 + 𝑏2 ∑ 𝑥 2 𝑥 1
∑ 𝑦𝑥 2 = 𝑎 ∑ 𝑥 2 + 𝑏1 ∑ 𝑥 1 𝑥2 + 𝑏2 ∑ 𝑥 2 2
El cual resolveremos utilizando el método de Cramer

Coeficiente de correlación múltiple


𝑎 ∑ 𝑦 + 𝑏1 ∑ 𝑥1 𝑦 + 𝑏2 ∑ 𝑥2 𝑦 − 𝑛𝑦̅ 2
𝑟=√
∑ 𝑦 2 − 𝑛𝑦̅ 2
50
EJEMPLO:

Una investigación del proceso de fundición a presión, produjo los datos siguientes:

Donde: y = diferencia de temperatura de la superficie de la matriz

X1= Temperatura del horno


X2 = Tiempo de cierre de la matriz

Diferencia de Temperatura Tiempo x2


temperatura y de horno x1
80 1250 6
95 1300 7
101 1350 6
85 1250 7
92 1300 6
87 1250 8
96 1300 8
106 1350 7
108 1350 8

a) Encuentra la ecuación de regresión múltiple que mejor se ajuste a esta situación


b) ¿Cuál será la diferencia de temperatura si la temperatura del horno es de 1400 y el tiempo del
cierre es de 5?
c) Calcula el coeficiente de correlación y el de determinación
d) Calcula el error estándar

y x1 x2 Y2 X12 X22 x1 Y X2 Y X1X2 𝑦̂ ∑ (𝑦 − 𝑦̂)2

80 1250 6
95 1300 7
101 1350 6
85 1250 7
92 1300 6
87 1250 8
96 1300 8
106 1350 7
108 1350 8
850 11700 63 81000 15,225,000 447 1108150 5968 81900

51
Sustituyendo en las ecuaciones los valores de la tabla :

∑ 𝑦 = 𝑎𝑛 + 𝑏1 ∑ 𝑥 1 + 𝑏2 ∑ 𝑥 2

∑ 𝑦𝑥 1 = 𝑎 ∑ 𝑥 1 + 𝑏1 ∑ 𝑥 2 1 + 𝑏2 ∑ 𝑥 2 𝑥 1
∑ 𝑦𝑥 2 = 𝑎 ∑ 𝑥 2 + 𝑏1 ∑ 𝑥 1 𝑥2 + 𝑏2 ∑ 𝑥 2 2

9 a + 11700b1 + 63b2 = 850

11700 a + 15225000b1 + 81900b2 = 1108150

63 a + 81900b1 + 447b2 = 5968

Resolver el sistema por el método que tu elijas:

9 11700 63
∆ = [11700 15225000 81900] = 810,000
63 81900 447
850 11700 63
∆𝑎 = [1108150 15225000 81900] = −161,640,000
5968 81900 447
9 850 63
∆𝑏1 = [11700 1108150 81900] = 170,100
63 5968 447
9 11700 850
∆ = [11700 15225000 1108150] = 2,430,000
63 81900 5968
𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜 𝑎 = −199.55 𝑏1 = 0.21 𝑏2 = 3
𝐿𝑎 𝑒𝑐𝑢𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑒 𝑒𝑠 ∶

a) 𝑦̂ = −199.55 + 0.21𝑥1 + 3 𝑥2
b) 𝑦̂ = −199.55 + 0.21(1400) + 3 (5) = 109.45
c)
−199.55(850) +0.21(1108150)+3(5968) −9(8919.75)
𝑟= √ =0.9986
81000−9(8919.75)

52
R2= 0.9975
∑(𝑦−𝑦̂) 2
d) Error estándar 𝜎 = √ 𝑛
=

53
Ejercicio:
Se realizo un estudio a 10 familias sobre el gasto mensual expresado en cientos de dólares (Y) y el
ingreso mensual expresado en dólares 𝑥 1 y el tamaño de la familia 𝑥 2 , obteniendo la siguiente
información:
Gasto(y) Ingreso(x1) Tamaño(x2) 𝑥 12 𝑥 22 𝑥1 𝑥2 𝑥 1y 𝑥 2y 𝒚𝟐 𝒚
̂ (𝒚 − 𝒚
̂)𝟐
45 10 9
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1

Calcula:
a) El modelo de regresión múltiple que mejor se acople a estos datos
b) calcula el coeficiente de correlación y el de determinación
c) Cuanto será el gasto de la familia que tenga de ingreso 12 mil dólares y de integrantes 5.

d) Calcula el error estándar

e) Hacer la gráfica de dispersión

54
Ejercicio:
• El gerente de una determinada empresa desea conocer, de forma aproximada, la demanda anual de
producto que se realizará a la empresa en años futuros. Para determinar esta demanda realiza un
estudio en el que intervienen las variables Precio Medio del Producto en un Año (en pesetas), Tasa de
inflación Anual (IPC)(en tantos por uno) y la Demanda Anual (en miles de millones de pesetas). En una
muestra de 20 años, obtuvo los siguientes datos :
• ∑ 𝑦 = 16,945 ∑ 𝑥 1 = 3230 ∑ 𝑥 2 = 1.1
• ∑ 𝑦𝑥 1 = 2609.45 ∑ 𝑦𝑥 2 = .83631 ∑ 𝑥 1 𝑥 2 = 188.81
• ∑ 𝑦 2 = 15.5035 ∑ 𝑥 1 2 = 538638 ∑ 𝑥 2 2 = .0738
a) Encuentra la ecuación lineal múltiple que se ajuste a estas variables
b) Encuentra el coeficiente de correlación y el Porcentaje de determinación
c) Calcula el error estándar.

55
Ejercicio
• Se desea estimar un modelo que permita estimar los gastos en alimentos de una familia (y) en base a la
información que proporciona la variable 𝑥 1 = ingreso mensual, 𝑥 2 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑖𝑒𝑚𝑏𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑓𝑎𝑚𝑖𝑙𝑖𝑎 para ello se elige una muestra de 10 familias, el gasto e ingreso
esta en miles de $.
Gasto Ingreso Tama
(y) x1 ño x2
0.43 2.1 3
0.31 1.1 4
0.32 0.9 5
0.46 1.6 4
1.25 6.2 4
0.44 2.3 3
0.52 1.8 6
0.29 1.0 5
1.29 4.2 3
0.35 2.4 2

• a) Encuentra la ecuación lineal múltiple que se ajuste a estas variables


• b) Si se tiene 8 miembros en la familia y un ingreso de 4.8, ¿Cuál sería el gasto?
c) Encuentra el coeficiente de correlación y el de determinación
d) Calcula el error estándar.

56
EJERCICIOS

consideraremos en el siguiente ejemplo una variable dependiente (Ganancias en Millones de $) y 2


variables explicativas o independientes (Número de Vendedores y Precio del Producto $), es
decir, , donde es el N° de Vendedores y el Precio del Producto ($). La
información se resume en la tabla a continuación:

AÑO Gana No. Preci


ncias Ven o del
(millo ded produ
nes) ores cto$
(Y) x1 x2

1 1.2 24 0.95

2 1.5 25 0.93

3 2.0 25 0.92

4 3.5 28 0.90

5 4.1 27 0.87

6 5.6 29 0.86

a) Encuentra la ecuación de regresión que mejor se ajuste a estos datos


b) Calcula el coeficiente de correlación
c) Si se tuvieran 30 vendedores y el precio del producto es de 0.98, ¿Cuál sería la Ganancia?
d) Calcula el error estándar

57
Ejercicio.

Los siguientes datos muestrales los proporciona una compañía de mudanzas sobre los pesos de
seis envíos, las distancias que se desplazaron y el daño que se provoca al transpórtalos.

Daño Peso Distanc


(dólares) (1000 ia
y libras) (1000
x1 millas)
x2
160 4.0 1.5
112 3.0 2.2
69 1.6 1.0
90 1.2 2.0
123 3.4 0.8
186 4.8 1.6

a) Encuentra la ecuación de regresión lineal múltiple


b) Estimar el daño que se incurre cuando un cargamento pesa 2.4 libras y es desplazado a una
distancia a una distancia de 1.2 millas
c) Calcula el coeficiente de correlación y el de determinación.

58
Ejercicio.
Supongamos tenemos una serie de datos histórica que refleja el 'Coste de mano de
obra' (Y) de una empresa durante los últimos once meses, con datos del 'número de
empleados'(x1) por mes, así como de 'horas reales trabajadas'(x2)
Obteniéndose la siguiente información de los últimos 11 meses

a) Encontrar la ecuación de regresión múltiple que mejor se ajuste a estos datos


b) El coeficiente de correlación y de determinación
c) E l error estándar
d) ¿Cuál seria el costo de mano de obra si se tiene 15 empleados y que trabajen 450
horas?

59
Una agencia de envió realizo una investigación del costo de envió (y) de acuerdo al tiempo en
minutos desde la recepción hasta la entrega del paquete x1 y la distancia en millas de la agencia al
cliente x2. Obteniéndose la siguiente información :

No. De Costo (y) Tiempo de Distancia


muestra entrega x1 Millas x2
1 32.60 61 20
2 23.37 44 12
3 31.49 53 19
4 19.31 27 8
5 28.35 96 17
6 22..63 29 11
7 22.63 48 11
8 21.16 33 10
9 21.53 33 8
10 28.17 42 10

a) Encontrar la ecuación de regresión múltiple


b) Encontrar el coeficiente de correlación y de determinación
c) ¿Cuál será el costo, si para entregar un paquete se tarda una hora 45 minutos y una distancia
de 25 millas?
d) ¿Cuál es el error estándar?
e) Calcular el promedio de costos de envío, de tiempo de entrega y de la distancia

60
61
PRUEBA DE HIPOTESIS

En esta unidad didáctica del curso en línea de “Estadística”, damos inicio a la segunda parte de la
misma; trataremos de la inferencia como tal, centrándonos en una de sus partes: las pruebas de
hipótesis. El propósito de este tema es ayudar al ingeniero financiera, investigador o profesional de
las finanzas a tomar una decisión acerca de una población mediante el examen de una muestra de
ella. Se definen conceptos clave como valor predictivo, nivel se significancia, valor de p, por
mencionar algunos. También se hace hincapié sobre la cautela con que se deben interpretar los
resultados y los tipos de errores en los que se puede caer cuando se hacen pruebas de hipótesis.
DESARROLLO

Concepto de hipótesis de investigación y formulación de hipótesis estadísticas

En varias ocasiones el profesional de las finanzas se ve enfrentado a aceptar o rechazar una


proposición sobre algún parámetro de una población. En general, dichas proposiciones reciben el
nombre de hipótesis que son uno de los aspectos más útiles de la inferencia estadística y se refiere a
los parámetros de las poblaciones para las cuales se hace dicha proposición. Por ejemplo, el
administrador de una empresa puede suponer que el periodo promedio de permanencia de los
productos en la fábrica es de 5 días antes de que salga al mercado; uno de los agentes financieros
supones que debe de ser menos tiempo de permanencia de los productos en la fábrica; un
accionista supone que los productos deben de tener un movimiento del 90% del total de producción.
Todos estos son proposiciones que pueden formularse como hipótesis de investigación en un
momento dado. Por tanto, una definición aceptable de hipótesis es:

Definición de prueba de hipótesis: es una regla que especifica cuando se puede aceptar o
rechazar una afirmación sobre una población dependiendo de la evidencia proporcionada por una
muestra de datos. Una prueba de hipótesis examina dos hipótesis opuestas sobre una población:
la hipótesis nula y la hipótesis alternativa.

Hipótesis: Enunciado que expone supuestos, sujetos a verificación que orientan la búsqueda de la
información y su relación esperada con las variables.
Es importante recalcar que las hipótesis siempre son proposiciones sobre la población o distribución
bajo estudio, no proposiciones sobre la muestra.

Tipos de hipótesis
Los investigadores se interesan en dos tipos de hipótesis: de investigación y estadísticas. La primera
es una conjetura (como los ejemplos anteriores) que motivó la investigación y la segunda son
establecidas o enunciadas de tal manera que puedan ser contrastadas por medio de pruebas
estadísticas adecuadas. Una hipótesis estadística es una proposición o supuesto sobre los
parámetros de una o más poblaciones.

Las hipótesis de investigación son formuladas como resultado de la ocurrencia de eventos que
hacen pensar que éstos tienen influencia sobre alguna variable de interés que se ha estudiado ya
sea a corto o incluso a largo plazo. Ejemplo, el administrador de una empresa puede suponer que el
periodo promedio de permanencia de los productos en la fábrica es de 5 días antes de que salga al
mercado; uno de los agentes financieros supones que debe de ser menos tiempo de permanencia de
62
los productos en la fábrica; un accionista supone que los productos deben de tener un movimiento
del 90% del total de producción. Las investigaciones a menudo se llevan a cabo gracias al deseo de
tales profesionales para determinar si sus teorías, supuestos o sospechas se pueden sostener o no
al ser sometidas a los rigores de la investigación científica. Las hipótesis de investigación conducen
directamente a las hipótesis estadísticas.

Las hipótesis de tipo estadístico tienen el propósito de ayudar al profesional de las finanzas o
investigador a tomar una decisión acerca de una población a partir de una muestra extraída de ella.
Y el tipo de inferencia que se aplica son las pruebas de hipótesis, que determinan si tales
proposiciones son compatibles o no con los datos disponibles. Pero, ¿qué es una prueba de
hipótesis? pues es un procedimiento basado en la evidencia de la muestra, es la probabilidad para
determinar si la hipótesis que se contrasta es una afirmación razonable.

-Hipótesis Nula: enunciado relativo al valor de un parámetro poblacional formulado con el fin de
probar evidencia numérica.

-Hipótesis Alternativa: Afirmación que se acepta si los datos de la muestra ofrecen suficiente
evidencia para rechazar la hipótesis nula

Pasos para la prueba de hipótesis

Es un proceso en cinco pasos que siguen una secuencia lógica de acciones y decisiones.

1. Plantear la hipótesis.
La prueba de hipótesis formula dos hipótesis estadísticas que deben anunciarse explícitamente:
hipótesis nula y alternativa. La primera, se designa por el símbolo H0. Esta hipótesis se conoce
también como la hipótesis de no diferencia, ya que es una proposición de conformidad con (o sin
diferencia respecto a) Características que se suponen ciertas en la población de interés. Esta
hipótesis siempre se opone a la hipótesis del investigador.
La segunda, identificada mediante el símbolo H1, es una proposición que se creerá cierta si los datos
de la muestra siguieren que llevan al rechazo de la H0 es falsa. Por lo general, la H1 y la hipótesis de
investigación son la misma y, de hecho; se utilizan los dos términos indistintamente.
En general H0, esta se establece con el propósito expreso de ser rechazada. Si no se rechaza, esto
no necesariamente significa que es verdadera, se dirá que los datos sobre los cuales se basa la
prueba no proporcionan evidencia suficiente que cause el rechazo. Por el contrario, si se rechaza se
concluye que los datos disponibles no son compatibles con la H0, pero sirven como apoyo a alguna
otra hipótesis. Rechazarla entonces, sugiere que la hipótesis alternativa puede ser verdadera.
Aspectos importantes sobre H0 y H1
 H0 y H1 son mutuamente exclusivas y colectivamente exhaustivas, es decir; son
complementarias.
 H0 siempre se presume ser cierta y es la que debe ser comprobada.
 H1 es la conclusión a la que se desea o espera llegar como resultado de la En consecuencia,
el complemento de la conclusión se convierte en el enunciado de la H0.
 Se utiliza una muestra aleatoria (n) para “rechazar H0”.
 Siempre, la igualdad es parte de H0 (“=”, “≥”, “≤”).
 Mientras que “≠” “<” y “>” siempre es parte de H1.

63
2. Establecer un nivel de significancia
Se ha señalado que la clave para la inferencia estadística es la distribución muestral. Es necesario
recordar esto, en los casos en que sea necesario especificar la distribución de probabilidad de la
estadística de prueba. Por ejemplo, la distribución de la estadística de prueba por lo general; sigue
una distribución normal estándar (ver unidad anterior) si la H0 es verdadera y si satisface las
suposiciones. Todos los valores posibles que la estadística de prueba puede asumir son puntos
sobre el eje horizontal de la gráfica de la distribución para esta estadística y se dividen en dos
grupos: uno de ellos constituye lo que se conoce como región de rechazo y el otro, forma la región
de no rechazo (figura 1)

Diagrama 1. Partes de una distribución en pruebas de hipótesis

El nivel de significancia se simboliza α en ocasiones también se llama nivel de riesgo


Esto es porque se trata del riesgo que se corre al rechazar la hipótesis nula cuando es
verdadera.
Este nivel se resta 0.5 – α = se busca en la tabla de la normal 𝑧α

Los valores de la estadística de prueba que forman la región de rechazo son aquellos que
tienen la menor probabilidad de ocurrir, mientras que los que forman la región de no rechazo
tienen la mayor probabilidad de ocurrencia, si la H0 es verdadera para ambas regiones.

La decisión en cuanto a que valores van hacia qué región se toma con base en el nivel de
significancia deseado, designado por α. El nivel de significancia α, designa el área bajo la

64
curva de la distribución de la de prueba que está por encima de los valores, sobre el eje
horizontal; que constituyen la región de rechazo. Y un valor calculado para la estadística de
prueba que cae dentro de la región de rechazo se dice que es significativo.
Ejemplo, si tuviéramos un nivel o grado de confianza del 95% (0.95) entonces el nivel de
significancia sería del 5% (0.05) donde:

Nivel de confianza = (1- α)


Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia
sería del 10%.

Dado que rechazar una H0 verdadera sería un error, parece razonable que se deba hacer
pequeña la probabilidad de cometerlo y, de hecho; esto es lo que se hace. Se elige un valor
pequeño de α para hacer que la probabilidad de rechazo para una H0 sea pequeña. Los
valores que se encuentran con más frecuencia son: 0.01, 0.05 y 0.10. La probabilidad de
equivocarse al no rechazar un H0 verdadera generalmente es de 95%, puede ser 90 y 99%,
esto se conoce como el nivel de confianza.

Diagrama 2. Partes de una distribución en pruebas de hipótesis.

65
Por lo tanto, la probabilidad de no equivocarse al rechazar una H0 falsa generalmente es de
80%, esto es el valor o grado predictivo cuyo valor de β más comúnmente usado es 0.2.
(figura 2).
Tipos de errores
El error que se comete cuando se rechaza una H0 verdadera se conoce como error del tipo I
(α). EI error del tipo II (β) se comete cuando no se rechaza una H0 falsa. Siempre que se
rechaza una H0 se tiene el riesgo de cometer un error del tipo I, al rechazar una H0 verdadera;
y siempre que no se rechaza, existe el riesgo de no rechazar una H0 falsa. En general,
aunque se dé un valor pequeño a α no se ejerce control sobre β, aunque se sabe que en la
mayoría de las situaciones practicas es mayor que α. Es decir:
El error tipo I (error alfa) se comete cuando:
 Se concluye que hay diferencias cuando realmente no las hay.
 Se detecta significancia estadística p< 0.05 y se rechaza la H0 cuando en realidad es
verdadera.
La probabilidad de cometer este error es lo que mide el valor de p (P-Value)
El error tipo II (error beta) se comete cuando:
 Los resultados NO son significativos (p>0.05) y se concluye que no hay diferencias,
cuando realmente SI las hay y se acepta la H0 cuando en realidad es falsa.
Nunca se sabe si se ha cometido o no uno de estos errores cuando se rechaza o no una H0,
ya que se desconoce el verdadero estado de las cosas. Si el procedimiento de prueba
conduce al rechazo de la H0, puede ser un consuelo el hecho de que al dar un valor pequeño
a α la probabilidad de cometer un error del tipo I también lo es. Si no se rechaza la H0, no se
conoce el riesgo concurrente de cometer un error del tipo II, ya que por lo común se
desconoce; pero como se ha señalado, en la mayoría de situaciones prácticas se sabe que
es mayor que α.
El cuadro 1 muestra las posibles acciones que el investigador puede emprender para varias
condiciones de una prueba de hipótesis, así como las condiciones en las que se produce
cada uno de los dos tipos de error.

Tabla 1. Condiciones en la que es posible cometer un error de tipo I o de tipo II Fuente:


Modificado de Daniel, Wayne W. (2002).
En resumen:

 Error Tipo I: es el nivel de significancia, denotado por la letra griega “α”, se define
como la probabilidad de “rechazar” la H0 cuando esta es
 Error Tipo II: es el valor predictivo, denotado por la letra griega “β”, se define como
probabilidad de “aceptar” la H0 cuando ésta es falsa. El procedimiento busca fijar la
66
probabilidad de cometer error Tipo I, α, y minimizar la probabilidad de cometer error
Tipo II, β.
Recomendaciones para disminuir el error tipo I, α:
 Disponer de una teoría que guíe la investigación, evitando el “salir de pesca” con la
computadora buscando asociaciones entre variables.
 Disminuir el número de pruebas estadísticas llevados a cabo en el estudio.
 Depurar la base de datos para evitar errores de valores extremos que puedan producir
hallazgos signicativos.
 Utilizar valores de alfa más reducidos (0.01 o 0.001).
 Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares,
estaremos más seguros de no estar cometiendo el error de tipo I.
Recomendaciones para disminuir el error tipo II, β:
 Incrementar el tamaño de la muestra.
 Estimar el poder estadístico del estudio (1 – β).
 Incrementar el tamaño del efecto a detectar.
 Incrementar el valor de alfa.
 Utilizar pruebas paramétricas (más potentes) en lugar de pruebas no paramétricas en
la medida de lo posible.
3. Seleccionar el estadístico de prueba a aplicar
Es necesario comprender la naturaleza de los datos que forman la base de los
procedimientos de prueba, ya que esto determina la prueba particular que se ha de utilizar.
Se debe determinar, por ejemplo, si los datos constan de conteos o medidas. A partir de los
datos contenidos en la muestra, se calcula un valor de la estadística de prueba y se compara
contra las regiones de no rechazo y rechazo que ya fueron especificadas. Luego entonces,
aplicar el estadístico de prueba, previa comprobación los supuestos (restricciones) estas
incluyen, entre otras; suposiciones respecto a la normalidad de la distribución de la
población, igualdad de varianzas e independencia de las muestras. Esto es importante ya
que determina si se usan pruebas paramétricas (para datos que siguen la distribución
normal) o pruebas no paramétricas (para datos cuya distribución es diferente a la
normal). Hay que tener en cuenta que un procedimiento general se modifica según las
suposiciones. Los estadísticos de prueba más comunes los veremos más adelante.
4. Establecer una regla de decisión
Esta señala que se debe ser rechazada H0 si el valor de la estadística de prueba que se
calcula a partir de la muestra es uno de los valores de la región de rechazo, y que no se debe
rechazar si el valor calculado es uno de los valores de la región de no rechazo.
Valor de p en pruebas de hipótesis
Un aspecto, aquí importante es el valor de p (P-Value) que es el valor del estadístico de
prueba que se aplique. Indica que tan significante son los resultados de la muestra,
considerando que la H0 sea verdadera.
Los valores de p son comúnmente utilizados para probar (y descartar) una H0, que por lo
general indica que no existe una diferencia entre dos grupos, o que no hay ninguna
correlación entre un par de características; por lo tanto, ofrece la justificación para dudar de
la certeza de la H0, si esta es verdadera.
Cuanto menor sea el valor de p, menor es la probabilidad de que un conjunto de valores
observados ocurra por casualidad. Un valor p de 0.05 o menos suele entenderse en el
sentido de que las observaciones son estadísticamente significativas y justifica los resultados
67
de un estudio. Pero eso no es necesariamente cierto, la distancia entre la significación
estadística y la relevancia clínica se debe analizar con cuidado por parte de los
investigadores por lo que hay que evitar sacar conclusiones científicas o tomar decisiones
basadas solo en los valores de p.

Un valor p de 0.05, no significa que hay una posibilidad del 95% que una determinada
hipótesis es correcta. Más bien, significa que, si la H0 es verdadera, y todas las demás
suposiciones hechas son válidas, hay una probabilidad del 5 % de obtener un resultado al
menos tan extremo como el observado. Y un valor de p no puede indicar la importancia de
un hallazgo; por ejemplo, un medicamento puede tener un efecto estadísticame nte
significativo en los niveles de glucosa en la sangre del paciente sin tener un efecto
terapéutico, en este caso hay relevancia estadística pero el hallazgo clínico también es
importante dado que dicho medicamento no es eficaz en el tratamiento de la diabetes, por
ejemplo.
Por lo tanto, el valor de p es la probabilidad de observar un valor muestral tan extremo como,
o más extremo que, el valor observado, dado que la H0 es verdadera.
En prueba de hipótesis, podemos también comparar el valor de p con el nivel de significancia
α. Si el valor de p < α, H0 se rechaza, de otro modo H0 no se rechaza. Pero ¿qué significa
esto? veamos lo que puede ocurrir, si:
p = 0.10, tenemos alguna evidencia que H0 no es verdadera.
p = 0.05, tenemos fuerte evidencia que H0 no es verdadera.
p = 0.01, tenemos muy fuerte evidencia que H0 no es verdadera.
p = 0.001, tenemos una extremadamente fuerte evidencia que H0 no es verdadera.

5. Tomar una decisión o conclusión


Esto no es otra cosa que decidir si H0 se rechaza, entonces se concluye que H1 es verdadera.
Si H0 no se rechaza, se concluye que H0 puede ser verdadera. Es importante aclarar que
cuando la H0 no es rechazada, tampoco se puede decir que se acepta. Se debe decir que “no
se rechaza“. Se evita el uso de la palabra “aceptar” en este caso porque pudiera haberse
cometido el error de tipo II. Dado que, frecuentemente; la probabilidad de cometer un error de
tipo II puede ser realmente alta, no se pretende cometerlo al aceptar la H0.
Finalmente, la interpretación está en función de la pregunta de investigación y tiene relación
con la H1, pero la interpretación no necesariamente es igual a dicha hipótesis.

Propósito de la prueba de hipótesis


Uno de los propósitos de la prueba de hipótesis es ayudar en la toma de decisiones. En
general, la decisión práctica (la razón por la cual se hizo la prueba) depende de la decisión
estadística. Si se rechaza H0, la decisión práctica generalmente refleja el hecho de que la
H1 es compatible. Se cumple lo opuesto si no se rechaza la H0. Sin embargo, en la práctica
esto puede tener otras alternativas, como la decisión de reunir más datos.
Sin embargo, en este punto es necesario destacar que el resultado de la estadística de
prueba sólo es una parte de la evidencia que influye sobre la decisión final, es decir; la
decisión práctica. La decisión estadística no debe interpretarse como definitiva, sino
considerarse junto con toda la demás información importante de que disponga el
experimentador. Con base en estos comentarios se estudian a continuación pruebas de
hipótesis especificas más comunes.
68
Prueba de hipótesis para una media
A este respecto, pueden darse 3 casos a saber:

1. Cuando el muestreo se realiza a partir de una población de valores que siguen una
distribución normal con varianza conocida;
2. Cuando el muestreo se realiza a partir de una población con distribución normal y con
varianza desconocida, y
3. Cuando el muestreo se realiza a partir de una población que no presenta una
distribución normal (no la veremos, por ahora).
Aunque la teoría para las condiciones 1 y 2 depende de poblaciones con distribución normal,
es una práctica común aplicar la teoría cuando las poblaciones importantes solo están
distribuidas en forma aproximadamente normal. Esto es satisfactorio siempre que la
desviación de la normalidad es moderada.

Diagrama 3. Planteamiento de una hipótesis para probar una media (µ).


Cuando la desviación estándar (σ) es desconocida, se utiliza la desviación estándar muestral
(s) en su lugar. Y la distribución de t de Student se utiliza como estadístico de prueba.

69
Vea la figura:

Diagrama 4. Estadísticos de prueba según la varianza, cuando esta es conocida se usa la


distribución z, cuando no lo es; se usa la distribución t de Student.
Gráficamente tenemos:

70
71
Diagrama 5. Prueba de una cola y prueba de dos colas.
¿Pruebas de cola izquierda o de cola izquierda?
La dirección de la prueba involucra proposiciones que comprenden las palabras “ha
mejorado”, “es mejor que”, y el cómo dependerá sobre la variable que esté siendo medida.
Por ejemplo, si la variable involucra tiempo para que un cierto medicamento haga efecto, las
palabras “mejor” “mejore” “o más efectivo” se traducen como “<” (menos que, i.e. alivio
menos rápido). Por otro lado, si la variable se refiere a un resultado de una prueba, entonces
las palabras “mejor” “se mejora” o “más efectiva” se traducen como “>” (más grande que, i.e.
resultados del examen más altos).

3.4.1 Prueba para una Media de una Población con una Desviación Estándar

Ejemplo 1:

Los servicios coordinados de salud de un municipio de alta marginación reportan en la época


de verano (cuando hace más calor), un número promedio de 200 niños, menores de cinco
años, con problemas de deshidratación por diarrea. Supongamos que la incidencia de niños
deshidratados sigue la distribución de probabilidad normal con una media de 200 y una
desviación estándar de 16. Recientemente, se realizó una campaña de información sobre
hábitos de higiene, que duró 50 semanas. Se quiere investigar si ha habido un cambio en la
incidencia de casos de deshidratación infantil semanal en el municipio de alta marginación.

Solución:

Paso 1: Establezca la hipótesis nula y la hipótesis alternativa.

Paso 2: Seleccione el nivel de significancia.


α = 0.01 en este caso

Paso 3: Seleccione el estadístico de prueba.


Use la distribución de Z en virtud de que σ es conocida (recuerde que en la unidad anterior
esta la tabla de z en anexos, úsela para este ejemplo).
Paso 4: Formule la regla de decisión.
Rechace H0 si |Z| > Zα/2

Cálculos:

72
Diagrama 6. Haga una decisión e interprete el resultado.
Debido a que 1.98 no cae en la región de rechazo, H0: μ = 200 no se rechaza.

Concluimos que la media poblacional no es diferente de 200. Así que reportaríamos que la
incidencia de deshidratación por diarrea, en niños menores de cinco años, en el municipio de
alta marginación no ha cambiado con una campaña de salud e higiene en las últimas 50
semanas.

Recuérdese contrastar esto con el valor de p:

Ejemplo 2:

El Departamento de Reclamaciones de Seguros Médicos de MetLife reporta que el costo


medio para procesar una reclamación es de $60 pesos. Una encuesta mostró que esta
cantidad es más grande que cualquier otra compañía de seguros, así que la aseguradora
instituyó medidas para reducir costos. Para evaluar el efecto de las medidas de reducción de
73
costos, el supervisor del Departamento seleccionó una muestra aleatoria de 26
reclamaciones procesadas el último mes. La información muestral se reporta en el recuadro
inferior. ¿Con un nivel de significancia de p=0?01, es razonable afirmar que el costo de una
reclamación es actualmente menor de $60?

Paso 1: Establezca las hipótesis nula y alternativa.

Paso 2: Seleccione el nivel de significancia.


α = 0.01 como se estableció en el problema

Paso 3: Seleccione el estadístico de prueba.


Use la distribución t de Student en virtud de que σ es desconocido

74
Tabla 2. Porción de una tabla t de Student (vea la tabla completa en el anexo de esta
unidad).

Paso 4: Formule la regla de decisión.


Rechace H0 si t < -tα, n-1

Cálculos:

75
Diagrama 7. Haga una decisión e interprete el resultado.
Debido a que -1.818 no cae en la zona de rechazo, no se rechaza H0 al nivel de significancia
de p=0.01. No hemos demostrado que las medidas para reducir el costo medio por
reclamación de un seguro de gastos médicos de MetLife sean menos de $60.

La diferencia de $3.58 ($56.42 – $60) entre la media muestral y la media poblacional podría
deberse a error de muestreo.

76
Ejemplo 3:

Para poder aplicar la prueba de Hipótesis, utilizaremos la distribución normal y sus


graficas

En vez de estimar el valor de un parámetro, a veces se debe decidir si una afirmación


relativa a un parámetro es verdadera o falsa. Vale decir, probar una Hipótesis relativa a
un parámetro

EN DONDE UTILIZAREMOS LA SIGUIENTES FORMULAS

𝜎 𝑥̅ − 𝜇
𝜎𝑥̅ = 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑛𝑑𝑜 𝑧 =
√𝑛 𝜎𝑥̅

Y la tabla de la normal estandarizada

77
78
Ejercicio 1. Una cadena de restaurante afirma que el tiempo promedio de espera
clientes por atender esta distribuido normalmente con una media de 3 min. Y
desviación estándar de 1. min.

Su departamento de aseguramiento de calidad hallo en una muestra de 50 clientes en


un cierto establecimiento que el tiempo medio de espera era de 2.75 min. Con un nivel
de significancia de 0.05

¿Es dicho tiempo menor de 3 min??

a) enuncie la hipótesis nula y la hipótesis alternativa

b) formule la regla de decisión

c) Calcule el valor estadístico de la prueba

d) interprete el resultado

a) 𝐻1 = 𝜇 ≥ 3

𝐻0 = 𝜇 < 3

Regla de decisión

Hipótesis No rechaza Rechaza

nula
𝐻0 es verdadera Decisión Error tipo I

correcta
𝐻0 es falsa Error Decisión

Tipo II correcta

DATOS Y OPERACIONES

σ= n= 𝑥̅ = 𝜇=

Nivel de significancia α =

CALCULA 𝑍𝛼 =

𝑆𝑒 𝑏𝑢𝑠𝑐𝑎 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑑𝑒 𝑙𝑎 𝑛𝑜𝑟𝑚𝑎𝑙 𝑦 𝑛𝑜𝑠 𝑑𝑎 𝑍0.05 =


79
𝜎 𝑥̅ −𝜇
Calculamos 𝜎𝑥̅ = 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑛𝑑𝑜 𝑧 = =
√𝑛 𝜎𝑥
̅

Calculamos k= 𝜇- 𝜎𝑥̅ (𝑍𝛼 ) =

Se cumple que 𝑥̅ > 𝑘 entonces

Y por lo tanto se toma la decisión de que

Operaciones

• σ =1 n=50 𝑥̅ =2.75 𝜇=3


• Nivel de significancia α = 5% es decir 0.05
• 𝑍𝛼 = 𝑍0.05 = 0.5 − 0.05 = 0.45
• 𝑆𝑒 𝑏𝑢𝑠𝑐𝑎 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑑𝑒 𝑙𝑎 𝑛𝑜𝑟𝑚𝑎𝑙 𝑦 𝑛𝑜𝑠 𝑑𝑎 𝑍0.05= 1.65
𝜎 1 2.75 −3
• Calculamos 𝜎𝑥̅ = = = 0.141 𝑧= =-1.773
√𝑛 √50 0.141

80
Calculamos k= 𝜇- 𝜎𝑥̅ (𝑍𝛼 ) = 3 – 0.141(1.65) = 2.51

Se cumple que 𝑥̅ > 𝑘 𝑦𝑎 𝑞𝑢𝑒 2.75 > 2.51

Y por lo tanto se toma la decisión de que 𝐻0 = 𝜇 < 3

Hay evidencia que la afirmación de la cadena de restaurantes es verdadera

-1.773

95%Zona de aceptación 5% Zona Rechazada

81
Ejercicio:

Una empresa está interesada en lanzar un nuevo producto al mercado. Tras realizar una campaña
publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25 no conocían el producto. A un
nivel de significación del 1% ¿apoya el estudio las siguientes hipótesis?

a. Más del 3% de la población no conoce el nuevo producto.

b. Menos del 2% de la población no conoce el nuevo producto

82
Ejercicio.

Un fabricante de pintura de secado rápido afirma que el tiempo de secado de la misma es de 20 min.
El comprador diseña el siguiente experimento: pinta 36 tableros y decide rechazar el producto si el
promedio de tiempo de secado de los mismos supera los 20.75 min. Si por experiencia σ=2.4 min, se
pregunta cuál es la probabilidad de rechazar la partida aún perteneciendo a una población con media
de 20 min. La probabilidad de que el promedio de las muestras exceda 20.75 min a causa del azar
se calcula del siguiente modo:

σ = 2.4 n= 36 ̅ = 𝟐𝟎. 𝟕𝟓
𝒙 𝝁=20

Sustituir los datos en la formulas y calcula z

83
Ejercicio:

La duración media de una muestra de 100 tubos fluorescentes producidos por una compañía resulta
ser de 1570 horas, con una desviación típica de 120 horas.

Si 𝝁 es la duración media de todos los tubos producidos por la compañía, comprobar la hipótesis
nula 𝝁 = 1600 contra la Hipótesis alternativa 𝝁 <>1600 horas con un nivel de significación de 0.05.

84
Ejercicio:

Una empresa de transportes desconfía de la afirmación de que la vida útil promedio de ciertos
neumáticos es al menos de 28000. Para verificar se colocan 40 neumáticos en camiones y se
obtiene una vida útil promedio de 27463 con una s=1348.

85
Ejercicio:

Heinz, un fabricante de salsa cátsup, utiliza una maquina para vaciar 16 onza de su salsa en
botellas. A partir de su experiencia de varios años con la maquina despachadora. Heinz sabe que la
cantidad del producto en cada botella tiene una distribución normal con una media de 16 onzas y una
desviación estándar de 0.15.Se hizo un estudio de una muestra de 45 botellas llenadas durante una
hora, revelo que la cantidad media por botella era de 16.017 0nzas.La evidencia sugiere que la
cantidad media despachada es diferente a 16 onzas, con un nivel de significancia de 0.05.

A) Establezca la hipótesis nula y la alternativa

B)¿Cual es la decisión respecto a la hipótesis nula?

86
Ejercicio:

La cadena de restaurantes Mac Burger afirma que el tiempo de espera de los clientes es de 3 min.
Con una desviación estándar poblacional de 1. min; El departamento de control de calidad , halló en
una muestra de 50 clientes que el tiempo medio de espera era de 2.75 min, con un nivel de
significancia de 0.05

¿Puede concluir que el tiempo medio de espera sea menor que 3 min??

87
CONCLUSIONES
Concluimos afirmando que la utilización y formulación correcta de las hipótesis permiten al
investigador o especialista en las finanzas poner a prueba aspectos de la realidad,
disminuyendo la distorsión que pudieran producir sus propios deseos o gustos. Debido a que
pueden ser sometidas a prueba y demostrarse como probablemente correctas o incorrectas
sin que interfieran los valores o creencias de la persona.

88
Unidad 3
3. Diseño de experimentos
3.1 Definición y sus componentes
3.2 Problemas aplicados
Introducción
El diseño de experimentos es una ‘‘técnica estadística’’ que nos ayuda a identificar que
factores o variables afectan el comportamiento de un proceso productivo y de esta manera
poder mejorarlo.
Cuando somos capaces de identificar qué factores y cómo influyen éstos en un sistema
productivo, podemos tomar decisiones que efectivamente mejoren las características de
calidad del producto o servicio.
Podemos identificar también cuáles son realmente las fuentes de variación y poder reducir
esta última en la búsqueda de la mejora continua.

89
El diseño de experimentos pretende

planear, ejecutar y analizar el experimento de manera que los datos apropiados sean
recolectados y que tengan validez estadística para poder obtener conclusiones válidas y
útiles.
Se entiende por validez estadística el que los resultados se puedan repetir consistentemente
sobre todo en plena operación a gran escala.
El diseño de experimentos puede ser útil, tanto en la fase de diseño del producto o proceso
como en la fase de control de procesos y se puede combinar las técnicas de diseños de
experimentos con las técnicas básicas de control de calidad.
EXPERIMENTO

Un experimento es un conjunto de pruebas estructurado y coherente que se analizan a fin de


ganar entendimiento acerca del proceso y, no se debe confundir un experimento con una
simple prueba o un grupo de pruebas desorganizadas.
En varias ocasiones se ejecutan, estas últimas, con la idea de que algún método estadístico
organice y/o interprete la información y al final nos encontramos con que estamos ‘‘igual que
al principio’’.
Un experimento es eficiente cuando se obtiene la información requerida con el mínimo
consumo de recursos. Esto es, un experimento eficiente debe ser lo más simple y económico
posible, pero efectivo. Las técnicas del diseño de experimentos pretenden que los
experimentos sean eficientes.

El proceso estadístico de toda investigación consta de tres fases:


1.Planteamiento
2. Experimentación
3. Análisis.

1. El planteamiento implica formular una pregunta clara y adecuada a cerca del estudio a
realizar, involucra los conocimientos técnicos y estadísticos.
2.El diseño experimental es una consecuencia de las necesidades planteadas, implica qué y
cómo se van a realizar las cosas.
3. El análisis incluye los cálculos apropiados para el diseño realizado, la conclusión y la toma
de decisiones.

Para que un experimento tenga validez estadística se deben observar los principios
básicos:

90
1. Reproducción
2. Aleatoriedad
3. Control local Reproducción
REPRODUCCION: Esto significa que las pruebas se puedan repetir bajo las mismas condiciones en
más de una ocasión.

Por ejemplo, suponga que usted desea saber si un reactivo X de diferente marca (llámelas
marca A y B respectivamente), producen o no el mismo rendimiento en una reacción, para
esto usted realiza una reacción con el reactivo A obteniendo un rendimiento del 87%,
enseguida realiza otra reacción con el reactivo B y se obtiene un rendimiento del 90%.
¿Podemos decir que el reactivo B es mejor que el reactivo?
Para aclarar esto:
• es necesario tratar cada muestra con cada tipo de reactivo y cuantificar si la variación
detectada se presenta consistentemente o no.
• La reproducción por lo tanto es importante por al menos dos razones:
I) Permite cuantificar el error aleatorio inherente al proceso.
II) Permite una mejor estimación de los parámetros.

Aleatoriedad: Esto significa que, tanto el material asignado a una prueba en particular,
como el orden en que se realizan las pruebas se efectúen de una manera aleatoria. Es decir,
sin un orden predeterminado.
La aleatoriedad por lo tanto es importante por al menos dos razones:
Se refiere a la forma de agrupar las unidades experimentales (agrupamiento, bloqueo) y al
balanceo.
Permite reducir errores experimentales, por lo que le da eficiencia al experimento.

Control local: Se refiere a la forma de agrupar las unidades experimentales (agrupamiento,


bloqueo) y al balanceo.

Permite reducir errores experimentales, por lo que le da eficiencia al experimento.

METODOLOGIA
1. Identifique claramente la situación a resolver
2. Identificar las variables
3. Definir el diseño
4.Efectuar el experimento

91
5.Analisis de los datos
6.Conclusiones y toma de decisiones.

1. Identifique claramente la situación a resolver:

Antes de poder planear un experimento necesitamos definir claramente qué es lo que estamos
buscando.

Aun cuando esto puede parecer trivial, en ocasiones es tanta la presión por tomar
decisiones que corremos a experimentar sin por lo menos definir claramente nuestros
objetivos.
En este paso es necesario definir que tipo de información es exactamente la que nos
interesa, ya que no podemos medir o variar todos y cada uno de los componentes de
un experimento.
En ocasiones escuchamos que el experimento fue un éxito, pero la calidad no mejoró.

2. Identificar variables:
En este paso dos tipos de variables se deben de identificar :
1.variables dependientes y factores
2. variables independientes.
La variable dependiente o variable de respuesta es la característica de calidad que
queremos mejorar y cuyo comportamiento deseamos conocer; ejemplos de ésta son:
porcentaje de contaminación, satisfacción de un cliente, desgaste de una herramienta,
tiempo de falla, etcétera.
Es deseable que una variable dependiente reúna las características siguientes:
1.Cuantitativa
2.Precisa
3.Que tenga algún significado físico
Las variables independientes o factores representan aquellas causas o factores, cuyo
efecto sobre la variable dependiente que se quiere analizar. Cada uno de estos factores se
deberá probar al menos dos valores diferentes para evaluar su efecto. A cada uno de
estos niveles se les llama tratamientos.

3. Definir el diseño
Esto implica definir de qué manera se efectuarán las pruebas y que modelo matemático
describe mejor el experimento. Existen varios tipos de experimentos, y deberá
seleccionarse el que mejor se ajuste a la situación particular a resolver.
4. Efectuar el experimento.
Esto se realizará de acuerdo al modelo seleccionado en el paso 3. Cuidando detalladamente
que todo se lleve a cabo de acuerdo a lo establecido; así como todos los aspectos de
planeación y logística.

5. Análisis de los datos

92
Incluye básicamente el análisis estadístico y la interpretación de los resultados. El análisis se
puede facilitar con el uso de softwares disponibles en el mercado.
6. Conclusiones y toma de decisiones
La experiencia, los conocimientos técnicos relativos al problema a resolver y la aplicación
adecuada de los métodos estadísticos permiten obtener conclusiones que permitan tomas de
decisiones acertadas.
Es fundamental que cuando se tienen dudas respecto a las conclusiones y/o plan de acción
se realizan experimentos confirmatorios.

Algunos ejemplos son situaciones en las que queremos saber:

1. Si la materia prima que es entregada por tres diferentes proveedores produce


características diferentes en el producto final
2. Si diferentes marcas de herramientas tienen, o no, diferente tiempo de vida útil.
3. Si la temperatura del baño maría afecta, o no, la formación de compuestos coloreados en
una técnica espectrofotométrica.
4.Si diferentes cabezales de una misma máquina generan productos similares.
5. Si un nuevo método analítico incrementa, o no, la productividad del laboratorio.
6. Cuál es el factor que más influye en la variabilidad de alguna característica de calidad.
7. Si el contenido de un analito en una muestra afecta las características del método
(exactitud, precisión, etc.), o no.

Para poder tener un buen diseño de experimentos se necesita tener


conocimientos :
1. Análisis de Regresión y correlación
2.Pruebas de hipótesis
3. Tamaño de una muestra
4. ANOVA

93
TAMAÑO DE UNA MUESTRA

Para seleccionar una muestra es necesario utilizar una técnica de muestreo en donde se
podrá escoger que tipo de muestra se puede utilizar en nuestro diseño de investigación, de tal
manera que se acople al planteamiento del proyecto.
Para que el muestreo sea correcto y la muestra obtenida sea representativa de la población a
estudio debemos hacer que se:
1. conserve la independencia durante la selección de la muestra.
2. Que todos los elementos de la población tengan la misma probabilidad de ser seleccionado,
es decir de perteneces a la muestra.
¿Qué es una muestra?

Es la representación significativa de la población a estudio


¿Qué es la población?

Es un conjunto de sujetos, objetos, sucesos o eventos de lo que se desea conocer algún


aspecto
dato o característica.
MUESTREO
es el conjunto de técnicas y pasos a dar para llevar a cabo el proceso de la selección de la
muestra
existen diferentes métodos, pero los factores que van a decidir en su elección son:
tiempo los recursos económicos las características de los elementos de la población

¿Cómo determinar el tamaño de una muestra?

Determinar el tamaño de la muestra que se va a seleccionar es un paso importante en cualquier estudio de investigación de
mercados, se debe justificar convenientemente de acuerdo al planteamiento del problema, la población, los objetivos y el
propósito de la investigación.

¿De qué depende el tamaño muestral?

El tamaño muestral dependerá de decisiones estadísticas y no estadísticas, pueden incluir por ejemplo la disponibilidad de los
recursos, el presupuesto o el equipo que estará en campo.

Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

94
1. Tamaño de la población. Una población es una colección bien definida de objetos o individuos que tienen
características similares. Hablamos de dos tipos: población objetivo, que suele tiene diversas características y
también es conocida como la población teórica. La población accesible es la población sobre la que los
investigadores aplicaran sus conclusiones.
2. Margen de error (intervalo de confianza). El margen de error es una estadística que expresa la cantidad de error de
muestreo aleatorio en los resultados de una encuesta, es decir, es la medida estadística del número de veces de cada
100 que se espera que los resultados se encuentren dentro de un rango específico.
3. Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con una determinada probabilidad alta.
Por ejemplo, un intervalo de confianza de 95% significa que los resultados de una acción probablemente cubrirán las
expectativas el 95% de las veces.
4. La desviación estándar. Es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras
mayor es la desviación estándar, mayor es la dispersión de la población.

¿Cómo puedo tener una muestra representativa y


adecuada?
Es mucho mejor tener a las personas adecuadas para contestar nuestra encuesta, que tener una gran
cantidad de personas equivocadas que no nos van a aportar la información que necesitamos.
Una muestra representativa está integrada por personas con intereses similares a nuestro objeto de
estudio, no tiene que ver, en este caso, con el tamaño.

95
CÁLCULO DEL TAMAÑO DE LA MUESTRA DESCONOCIENDO EL TAMAÑO DE LA POBLACIÓN

La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la población es la siguiente:

𝑍𝛼 2 𝑥 𝑝 𝑥 𝑞
2
𝑛=
𝑒2
En donde
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
q = probabilidad de fracaso
e = precisión (error máximo admisible en términos de proporción)

CÁLCULO DEL TAMAÑO DE LA MUESTRA CONOCIENDO EL TAMAÑO DE LA POBLACIÓN

La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la población es la siguiente:

𝑁 𝑍𝛼 2 𝑝 𝑞
2
𝑛=
𝑒 2 (𝑁 − 1) + 𝑍𝛼 2 𝑝 𝑞
2
En donde, N = tamaño de la población

Z = nivel de confianza,

P = probabilidad de que ocurra el evento estudiado(éxito)

q = probabilidad de que no ocurra el evento estudiado (fracaso)

e= precisión (Error máximo admisible en términos de proporción).

Para encontrar el tamaño de una muestra donde nos indiquen ni tamaño de la población ni la
probabilidad de éxito:
𝝈 𝝈
𝒁 𝜶 <𝒆 𝒁 𝜶 >𝒆 de aquí despejar n
𝟐 √𝒏 𝟐 √𝒏

𝑍 2𝜎 2
Se puede decir que 𝑛=
𝑒2

96
Tamaño de una muestra para estimar una media
Se halla con esta fórmula:

𝑁 𝑍2 𝜎 2
𝑛= (𝑁−1)𝑒 2 +𝑧 2 𝜎 2

Para aplicarla, debemos saber:

A parte del nivel de confianza (1-α) y el margen de error (e) admitido, de los que se ha hablado
arriba, ahora debemos tener una idea de la varianza (σ2) de la distribución de la variable a
considerar.
Sino tuviésemos datos de esa varianza, recurriríamos a:

 Estudios anteriores sobre el mismo asunto.


 Realizar una prueba piloto con una muestra pequeña.
 Tomar una estimación conservadora de la varianza, con el cuadrado de la mitad de la
diferencia entre el valor máximo y el mínimo que consideramos puede tomar la variable.

El nivel de confianza (1-α) se refiere a la probabilidad de que el dato deseado esté dentro del
margen establecido. Este parámetro lo decide el investigador. Suele ser del 95%, (α = 0,05) al que se
corresponde un coeficiente de confianza Z = 1,96, que es el que se pone en la fórmula. Es la
semidistancia estandarizada en términos de desviaciones típicas que definen ambos extremos del
intervalo.

97
Al hacer varios experimentos semejantes con el mismo tipo de muestra, el 95% de los parámetros
se encontrarían dentro del margen, mientras que el 5% se encontrarían fuera de él.
Suelen emplearse el 95% y el 99%. En la siguiente tabla se ve la correspondencia entre el nivel
de confianza y el coeficiente de confianza:

La estimación de la proporción que se quiere medir es el tema clave. Se quiere estimar la


proporción de los que cumplen la condición. El valor de esa estimación p la obtendremos de estudios
anteriores. En caso contrario, se considera que la condición la cumplan un 50% y, por tanto, que no la
cumplan (1 – p) el otro 50%. En ese caso, pondremos en la fórmula:

El margen de error deseado, o precisión, o margen de error admisible, se refiere a la diferencia


entre la media muestral y la media poblacional. Desde luego, que no se pretende cometer errores. Se
trata de un margen de error que estemos dispuestos a tolerar.
Suele adoptarse e = 3% (0,03), aunque está entre:

En la fórmula pondremos el tanto por uno, por ejemplo, 0,03.

Cuando el tamaño de la población sea muy grande (suele considerarse cuando N > 100.000), la
fórmula para hallar la muestra para obtener una proporción se simplifica:

TIPOS DE MUESTREO
El muestreo es una herramienta para determinar qué parte de una población debemos analizar cuando no es
posible realizar un censo. Depende de los objetivos del estudio el elegir una muestra probabilística o no
probabilística.

MUESTREO PROBABILÍSTICO

Se basa en el principio de equiprobabilidad, esto quiere decir que todos los individuos de la muestra
seleccionada, tendrán las mismas probabilidades de ser elegidos. Lo anterior nos asegura que la muestra
extraída contará con representatividad.
Al azar simple

98
 Sistemática
 Estratificada
 Conglomerados

Características:

 No hay discreción del investigador.


 Los elementos se seleccionan por reglas mecánicas.
 Hay error muestral.
 Se conoce la probabilidad de inclusión.

MUESTREO NO PROBABILÍSTICO

No sirven para hacer generalizaciones, pero sí para estudios exploratorios. En este tipo de muestras, se eligen
a los individuos utilizando diferentes criterios relacionadas con las características de la investigación, no
tienen la misma probabilidad de ser seleccionados ya que el investigador suele determinar la población
objetivo.

 Por juicio u opinión.


 Por cuotas.
 De bola de nieve.
 De conveniencia.

Características:

 La muestra es discrecional
 Los elementos se seleccionan por facilidad conveniencia y no por reglas fijas
 No hay error muestral o no se puede calcular
 No se conoce la posibilidad de inclusión

Cosas que debes tener en cuenta a la hora de calcular el tamaño de tu muestra

Si deseas un margen de error más pequeño, debes tener un tamaño de muestra más grande
para la misma población.

Cuanto más alto desees que sea el nivel de confianza, más grande tendrá que ser el tamaño
de la muestra.
¿Es importante tener un tamaño de muestra estadísticamente significativo?

La regla general es que mientras más grande sea el tamaño de la muestra, más estadísticamente
significativo será, lo que significa que hay menos probabilidades de que los resultados sean una
coincidencia.

99
Encuestas para empleados y recursos humanos

¿Estás trabajando en una encuesta sobre la satisfacción del empleado? Todas las encuestas de
RR. HH. brindan información importante sobre qué piensan los empleados del clima laboral de la
empresa. Tener un tamaño de muestra estadísticamente significativo puede proporcionarte una
perspectiva más completa de tus empleados en general. Sin embargo, aun cuando el tamaño de la
muestra no sea estadísticamente significativo, de todas formas, es importante enviar la encuesta.
Las encuestas sobre RR. HH. pueden brindarte información importante sobre cómo debes mejorar el
lugar de trabajo.

Encuesta sobre la satisfacción del cliente

Como dijimos anteriormente, las encuestas sobre la satisfacción del cliente no necesariamente
dependen de que haya un tamaño de muestra estadísticamente significativo. Si bien es importante
que las repuestas sean precisas y que representen cómo se sienten los clientes, en realidad lo que
más importa y que deberías observar con detenimiento es cada una de las respuestas que los
clientes dieron en la encuesta de satisfacción. Toda la retroalimentación que recibas, ya sea positiva
o negativa, es importante.

Investiga tu mercado

Al realizar una encuesta de investigación de mercado, tener un tamaño de muestra estadísticamente


significativo puede hacer una gran diferencia. Las encuestas de investigación de mercado te ayudan
a obtener más información sobre tus clientes y tu mercado objetivo. Esto quiere decir que un tamaño
de muestra estadísticamente significativo puede ayudarte a obtener fácilmente una percepción sobre
el mercado objetivo general. También garantiza que obtengas la información más precisa.

Encuestas sobre educación

En el caso de las encuestas sobre educación, nosotros recomendamos tener un tamaño de muestra
estadísticamente significativo que represente a la población. Si tienes pensado hacer cambios en tu
escuela teniendo en cuenta la retroalimentación de los estudiantes sobre la institución, los
instructores, los profesores, etc., un tamaño de muestra estadísticamente significativo te ayudará a
obtener resultados que impulsarán a tu escuela hacia el éxito. Si quieres recibir retroalimentación de
los estudiantes simplemente para ver qué piensan, pero no necesariamente para implementar
cambios en el sistema, un tamaño de muestra estadísticamente significativo podría no ser tan
importante.

Encuestas de atención médica

Al realizar encuestas sobre la atención médica, un tamaño de muestra estadísticamente significativo


puede ayudarte a averiguar qué problemas de salud les generan mayor preocupación a los
pacientes. Además, puede ayudarte a sacar conclusiones en investigaciones médicas. Sin embargo,
si utilizas las encuestas de atención médica para conocer el grado de satisfacción de los pacientes o
para preguntarles sobre su atención regular, un tamaño de muestra estadísticamente significativo
podría no ser tan importante. Sin él, aún puedes obtener información valiosa sobre las necesidades y
experiencias de los pacientes.

100
Encuestas informales

Es probable que en el día a día desees enviar encuestas a amigos, colegas, familiares, etc. En este
caso, realmente depende de qué estés buscando obtener con tu encuesta. Si deseas que los
resultados se usen para demostrar algo, tener un tamaño de muestra estadísticamente significativo
es importante. Si no es así y únicamente estás usando SurveyMonkey para divertirte, enviar
encuestas solo a unas cuantas personas no causará ningún daño en tus resultados.

EJERCICIOS :

1.Se quiere estimar la proporción de un determinado parámetro en una población de N = 1500, con
un nivel de confianza del 95% (Z = 1,96). Adoptamos un margen de error e = 6% (0,06) y, como no
tenemos datos previos, estimamos una proporción de cumplimiento del 50% (0,5).

Datos : N= Z= e= p= q=

3. Calcular el tamaño muestral necesario para el mismo planteamiento del ejercicio anterior, pero
esta vez para una población mucho más grande, pongamos que de N = 200.000:

4. Cuántas personas deben formar la muestra para estimar la prevalencia (es una proporción) de
la miopía en los menores de 18 años en una población de en la que actualmente hay censados
101
10.000 menores de 18 años. Sabemos previamente que la proporción esperada está alrededor
del 60%. Escogemos un nivel de os confianza del 90% y admitimos un margen de error del
4%:
Datos: N= P= q= e=

5. En una fábrica de muebles con un proceso muy mecanizado se quiere saber cuál es
la media del peso de un determinado modelo de mesa que ha sido fabricado a lo largo del
último año. Se han fabricado una cantidad muy grande de unidades. Por anteriores ejercicios
sabemos que la desviación típica σ de la variable buscada está alrededor de 50 gr. Queremos
saber la media con un margen de error del 95% y admitimos un margen de error de 6 gr.
Datos : Z= σ= e=
Sustituimos en la fórmula:

𝑍 2𝜎 2
𝑛= 𝑒2
=

El tamaño de la muestra debe ser de 171 mesas fabricadas.


6. Los alumnos varones de 10 años matriculados en el curso 2017-2018 en una nueva
agrupación de centros docentes de una ciudad son 1650. Se quiere hacer un estudio para
estimar la media de la estatura de esos 1650 escolares. Se fija un nivel de confianza del 95%
y admitimos un margen de error de 1,8 cm. Y una desviación estándar de 121

102
ACTIVIDAD
1) Para estimar la proporción de habitantes de una ciudad que poseen ordenador personal se toma
una muestra de tamaño n. Calcula el valor mínimo de n para garantizar, con un nivel de confianza
del 95 %, que el error de estimación no supera el 2 %. (Como se desconoce la proporción, se hará a
partir del caso más desfavorable, que será 0,5).

2) El tiempo de conexión a internet de los alumnos de cierta universidad con una población de
2500 alumnos, error de estimación no supera el 3 %. , con un nivel de confianza del 95 %, %.
(Como se desconoce la proporción, se hará a partir del caso más desfavorable, que será 0,5).
Determina cuál es el tamaño mínimo de la muestra que es necesario observar.

3) Se va a realizar una encuesta entre la población española mayor de edad. Si se admite un


margen de error del 1.5 %, ¿a cuántas personas habrá que entrevistar con un nivel de confianza del
95 %?

4) Para estimar la proporción de familias de una determinada ciudad que poseen microondas, se
quiere utilizar una muestra aleatoria de medida n.
Calcular el valor mínimo de n para garantizar que, a un nivel de confianza del 97 %, el error en la
estimación sea menor que 0,05. (Como se desconoce la proporción, se ha de tomar el caso más
desfavorable, que será 0,5).

5) Calcula el tamaño de la muestra que se ha de considerar para una población de 112,800, con un
nivel de confianza del 95 %, en donde el un error es inferior a 2.5%.

6) Un fabricante de electrodomésticos sabe que la vida media de estos sigue una distribución
normal con una población de 3800 en existencia en bodega, con un nivel de confianza del 98
%, Determina el mínimo tamaño muestral que garantiza un error inferior a 5%.

7) Un fabricante de bombillas sabe que la desviación típica de la duración de las bombillas es 100
horas. Calcula el tamaño de la muestra que se ha de someter a prueba para tener una confianza del
95 % de que el error de la duración media que se calcula sea menor a 10 horas.

8) El peso de los niños varones a las 10 semanas de vida se distribuye según una normal con
desviación típica de 87 g. ¿Cuántos datos son suficientes para estimar, con una confianza del 95 %,
el peso medio de esa población con un error no superior a 15 g?

9) Se sabe que la desviación típica del peso de los individuos de una población es 6 Kg. Calcula el
tamaño de la muestra que se ha de considerar para, con un nivel de confianza del 95 %, estimar el
peso medio de los individuos de la población con un error inferior a 1 Kg.

10.Supóngase que una empresa comercializadora de jabón de tocador está interesada en conocer
qué proporción de hogares consume su marca de jabón, ¿qué tamaño de muestra se requiere para
llevar a cabo su investigación? Considérese que se permite un error muestral del 3%.2.

103
11) Se requiere conocer cuántos egresados de licenciatura gana un salario por encima de los$5,000.
¿Cuál es el tamaño de la muestra para un intervalo de confianza del 99%? Considera un error
muestral del 3% y una probabilidad de éxito del 60%.3.

12) Se está estudiando la preferencia sobre un nuevo partido político, no se tienen datos iniciales
sobre la proporción de la población que lo prefiere, por lo cual se considera que el 50% de la
población lo prefiere como dato inicial. El margen de error máximo a aceptar en el estudio es
del 2%, determina el tamaño de la muestra “n” utilizando un nivel de confianza del 90%.

13) ¿Cuál debe ser el tamaño de la muestra si se desea saber el promedio de gasto diario de los
estudiantes en cafés? Se espera una desviación estándar en estudios similares de $1.1 pesos, el
analista está dispuesto a aceptar un error máximo de $0.5 pesos, con un nivel de confianza del 99%
en el estudio.

14)Calcular el tamaño de la muestra si se está realizando un estudio para conocer la media de la


glucemia basal en una población, con una seguridad del 95% y una precisión de 3 mg/dl y se sabe
que la varianza es de 250 mg/dl.

15) Se está realizando un estudio de mercado en una población de 10,000 habitantes. Se requiere
saber cuántas personas viajarán al extranjero para quedarse a radicar ahí. ¿Cuál debe ser el tamaño
de la muestra para un nivel de confianza del 95% y un posible margen de error del4%?

16 Se desea conocer la opinión de los jóvenes sobre la preferencia de “comida chatarra” en una
escuela para un total de alumnos de 300, ¿cuál debería ser el tamaño de la muestra si se tiene un
nivel de confianza del 95% y un error máximo del 9%?8.

17) Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en
una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable
aleatoria con distribución normal. Si se supone que la desviación típica del peso es de0,5 kg.
determina el tamaño de muestra aleatoria necesaria para un intervalo de confianza del95% y con un
error muestral de 1%.9.

18) Calcule el tamaño de la muestra para una población de 500 con un error de muestreo del 5% y
nivel de confianza del 95%
19)De una población de 20000 ciudadanos se desea obtener una muestra para conocer la estatura
promedio. La estimación muestral deberá tener un error máximo de 1 cm respecto del verdadero
promedio con un nivel de confianza del 95%. Un estudio preliminar nos indica que la desviación
estándar será de 5 cm.
20.Un sondeo previo indica que la proporción de pacientes con lesiones articulares de una población
es de 30%.¿Que tamaño debe tener la muestra para estimar, con una precisión del 5% y un nivel de
confianza 95% si el tamaño de la población es de 10,000

104
105

También podría gustarte