Está en la página 1de 213

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN

Facultad de Ingeniería Mecánica y Eléctrica

Estadística Inferencial
Trabajo Final Ordinario

Alumno: Jan Carlo Licon Tijerina 1913897 IMA


M.C. Rigoberto Américo Garza López
Hora: M3
Grupo: 012

Fecha de entrega: 17/11/21


TEMARIO DEL CURSO
Tema 1: Regresión Lineal Simple y Correlación
Tema 2: Relación Lineal Múltiple y Correlación
• Regresión polinomial
• Coeficiente de determinación
Tema 3: Regresión no Lineal Múltiple
• Ecuación potencial
• Coeficiente de determinación y grafica
• Ecuación exponencial
• Coeficiente de determinación y grafica
• Ecuación logarítmica
• Coeficiente de determinación y grafica
Tema 4: Diseño de Experimentos
• Análisis de varianza para un criterio
• Planteamiento mediante bloques aleatorios
• Planteamiento mediante bloques no aleatorios
• Prueba de Turkey
• Prueba de Duncan
• Análisis de varianza para dos factores
• Prueba de Kruskal-Wallis
11.7) Los siguientes son algunos de los datos contenidos en un conjunto clásico denominado
“datos piloto de graficación” que aparecen en Fitting Equations to Data, de Daniel y Wood,
publicado en 1971. La respuesta y es el contenido de ácido del material determinado por análisis
volumétrico; mientras que el regresor x es el contenido de ácido orgánico determinado por
extracción y ponderación.

y x y x
76 123 70 109
62 55 37 48
66 100 82 138
58 75 88 164
88 159 43 28

a) Grafique los datos; ¿la regresión lineal simple parece un modelo adecuado?

b) Haga un ajuste de regresión lineal simple; calcule la pendiente y la intersección.

c) Grafique la recta de regresión en la gráfica del inciso a)


• Diagrama de Flujo:

Es una representación gráfica de un proceso. Cada paso del proceso se representa por un
símbolo diferente que contiene una breve descripción de la etapa de proceso. Los símbolos
gráficos del flujo del proceso están unidos entre sí con flechas que indican la dirección de flujo
del proceso.

¿ Para que sirve?


Gracias a un diagrama de flujo puedes estructurar una secuencia de pasos que tienen una
conexión entre sí. De este modo, puedes tener una visión de contexto del mapa de esa
actividad, pero también, puedes poner el punto de atención en algún aspecto más individual de
ese proceso.

FUENTE:
https://concepto.de/diagrama-de-flujo/
Diagrama de flujo

Grafica
100
x y
90
123 76
80
55 62
70
100 66
60
75 58
50
159 88
40
109 70
30
48 37
20
138 82
10
164 88
0
28 43 0 20 40 60 80 100 120 140 160 180
• Mejor estimación de la recta:

Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del conjunto de
datos dado.
Es usada para estudiar la naturaleza de la relación entre dos variables.
Una recta que mejor se ajusta puede ser determinada aproximadamente usando el método
visual al dibujar una línea recta en una gráfica de dispersión para que tanto el número de
puntos arriba de la recta y debajo de la recta sean casi iguales (y la línea pasa a través de
tantos puntos como sea posible).

Mejor estimación de la recta: Introducen la ecuación ya conocida de Regresión Simple como


el procedimiento analítico para la obtención exacta de predicciones.

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
Mejor estimación de la recta

Formulas Sustitución
10(74058) − (999)(670)
yො = 𝑎 + 𝑏= = 0.3532
𝑏𝑥 10(119969) − (999)2
2
𝛴𝑥 𝛴𝑦 − (𝛴𝑥)(𝛴𝑥𝑦)
a=
𝑛 𝛴𝑥 2 − (𝛴𝑥)2 119969 670 −(999)(74058)
a= = 31.71
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦) 10 119969 −(999)2
𝑏=
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 yො = 31.71 + 0.03532
𝑥 2
x y xy x2 y
123 76 9348 15129 5776
55 62 3410 3025 3844
100 66 6600 10000 4356
75 58 4350 5625 3364
159 88 13992 25281 7744
109 70 7630 11881 4900
48 37 1776 2304 1369
138 82 11316 19044 6724
164 88 14432 26896 7744
28 43 1204 784 1849
Σx = 999 Σy = 670 Σxy = 74058 Σx2 = 119969 Σy2= 47670
• Relación entre yො = α + bx e yො = α + βx

Diremos que la relación entre dos variables X e Y es “perfectamente lineal”, si todos los pares
de valores observados (xi,yi) de dichas variables satisfacen la ecuación de una
recta:
En esta expresión α y β son constantes: α es la ordenada al origen y β la pendiente.
Decimos que X es una variable predictora de Y, ecuación (1). El valor i del subíndice
indexa las observaciones: i = 1,2,3,...,n. Para el ejemplo y1 representa el valor de la
presión obtenido para la temperatura x1.
• Error estándar en la mejor estimación de la recta
El error estándar (EE) se le conoce como una medida de las variaciones del estimador,
lo cual permite cuantificar el error de estimación (variación entre las estimaciones).
El error estándar del estadístico media muestral indica la confiabilidad de la media obtenida de una muestra
de tamaño n.
Se calcula de la siguiente manera:

∑ (𝑦
𝑆𝑦𝑥 √
= − 𝑦ො )2
𝑛−2

http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_EST
ADISTICA/DOC_%20INFERENCIA/TEMA%204/09%20REGRESION%20Y%20CORRELACION%20LINEAL%
20SIMPLE.pdf
Error Estándar
𝑦 = 𝑎 + 𝑏𝑥

𝑦 = 31.71 + 0.03532 𝑥
x y ^ = 𝑎+ 𝖰𝒙
𝒚 (𝒚 − 𝒚^)𝟐 Formulas
123 76 36.05 1596

55 62 33.65 803.72
∑(𝑦 − 𝑦ො )2
100 66 35.24 946.17 𝑆𝑦𝑥 =√
𝑛−2
75 58 34.36 558.84

159 88 37.32 2568.46

109 70 35.56 1186.11 Sustitución


48 37 33.40 12.96
12391.77
138 82 36.58 2062.97 𝑆𝑦𝑥 = √ = 39.35
10 − 2
164 88 37.50 2550.25

28 43 32.69 106.29

Σx = 999 Σy = 670 Σ = 352.35 Σ = 12391.77


• Coeficiente de correlación de PEARSON

Es una medida de la correspondencia o relación lineal entre dos variables cuantitativas


aleatorias. En palabras más simples se puede definir como un índice utilizado para medir el
grado de relación que tienen dos variables, ambas cuantitativas.

Teniendo dos variables, la correlación facilita que se hagan estimaciones del valor de una de
ellas, con conocimiento del valor de la otra variable.

Este coeficiente es una medida que indica la situación relativa de los sucesos respecto a las
dos variables, es decir, representa la expresión numérica que indica el grado de
correspondencia o relación que existe entre las 2 variables. Estos números varían entre límites
de +1 y -1.

https://www.webyempresas.com/coeficiente-de-correlacion-de-pearson/
Coeficiente de correlación de Pearson
Formulas x y xy x2 y2

123 76 9348 15129 5776


(∑ 𝑦 ) 2
𝑆 𝑦𝑦 = ∑ 𝑦 2 − 55 62 3410 3025 3844
𝑛
100 66 6600 10000 4356

(∑ 𝑥)2 75 58 4350 5625 3364


𝑆𝑥𝑥 = ∑ 𝑥2 −
𝑛 159 88 13992 25281 7744

109 70 7630 11881 4900

(∑ 𝑥)(∑ 𝑦) 48 37 1776 2304 1369


𝑆𝑥𝑦 = ∑ 𝑥𝑦 −
𝑛 138 82 11316 19044 6724

164 88 14432 26896 7744


𝑆 𝑥𝑦
𝑟= 28 43 1204 784 1849
√ (𝑆 𝑦 𝑦 )(𝑆 𝑥𝑥 )
Σx = 999 Σy = 670 Σxy = 74058 Σx2 = 119969 Σy2= 47670

Coeficiente de correlación de Pearson: En estadística, el coeficiente de correlación de


Pesaron es una medida de la relación lineal entre dos variables que sean aleatorias
cuantitativas. A diferencia de la covarianza, la correlación de Pesaron es independiente de la
escala de medida de las variables.
Tabla

Valor Significado

-1 Correlación negativa grande y perfecta

-0,9 a -0,99 Correlación negativa muy alta


-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta

1 Correlación positiva grande y perfecta


Sustitución

(670)2
𝑆𝑦𝑦 = 47670 − = 2780
10

(999)2
𝑆𝑥𝑥 = 119969 − = 20168.9
10

(999)(670)
𝑆𝑥𝑦 = 74058 − = 7125
10

7125
𝑟= = 𝟎. 𝟗𝟓𝟏𝟓
√(2780)(20168.9)

Tabla

El valor obtenido fue de 0.9515


Por lo tanto, esto quiere decir que el valor obtenido significa que es una Correlación positiva muy alta.

Esto indica que mediante el proceso de correlación de Pearson, siempre se encontrara con valores
positivos, no se será posible encontrar algún valor que sea negativo.
• Coeficiente de Correlación de Spearman: La correlación de Spearman evalúa la
relación monótona entre dos variables continuas u ordinales.

El coeficiente de correlación de Spearman se basa en los valores jerarquizados de cada


variable y no en los datos sin procesar. La correlación de Spearman suele utilizarse para
evaluar relaciones en las que intervienen variables ordinales.

¿Qué relación hay entre el coeficiente de correlación de Spearman y el coeficiente de


Pearson?

El valor de los coeficientes de correlación de Pearson y Spearman puede variar de −1 a


+1. Para que el coeficiente de correlación de Pearson sea +1, cuando una variable
aumenta, la otra variable aumenta en una cantidad consistente. Esta relación forma una
línea perfecta. El coeficiente de correlación de Spearman también es +1 en este caso.

Los coeficientes de correlación de Pearson solo miden relaciones lineales. Los


coeficientes de correlación de Spearman solo miden relaciones monótonas. Por lo tanto,
puede existir una relación significativa aunque los coeficientes de correlación sean 0.

https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-spearman/
x y Rango x Rango y 𝑑𝑖 𝑑𝑖2
123 76 7 7 0 0
55 62 3 4 -1 1
100 66 5 5 0 0
75 58 4 3 1 1
159 88 9 9.5 -0.5 0.25
109 70 6 6 0 0
48 37 2 1 1 1
138 82 8 8 0 0
164 88 10 9.5 0.5 0.25
28 43 1 2 -1 1
---- ---- ---- ---- ---- Σ = 4.5

Formulas Sustitución
𝑑𝑖 = 𝑟𝑎𝑛𝑔𝑜 𝑥 − 𝑟𝑎𝑛𝑔𝑜 𝑦 6(4.5)
6 ∑ 𝑑2𝑖 𝑟𝑠= 1 − = 0.9728
10[(10)2 − 1]
𝑟𝑠 = 1 −
𝑛(𝑛2 − 1)
Diferentes tipos de relación entre Spearman y Pearson
Pearson = +1 Pearson = +0.851 Pearson = −0.093 Pearson = −1 Pearson = −0.799
Spearman = +1 Spearman = +1 Spearman = −0.093 Spearman = −1 Spearman = −1

Para que el Si la relación es Cuando una Si la relación es Si la relación es


coeficiente de que una variable relación es aleatoria una línea que una variable
correlación de aumenta cuando o no existe, perfecta para disminuye cuando
Pearson sea +1, la otra aumenta, entonces ambos una relación la otra aumenta,
cuando una pero la cantidad coeficientes de decreciente, pero la cantidad
variable aumenta, no es consistente, correlación son casi entonces ambos no es consistente,
la otra variable el coeficiente de cero. coeficientes de entonces el
aumenta en una correlación de correlación son coeficiente de
cantidad Pearson es −1. correlación de
consistente. Esta positivo pero Pearson es
relación forma una menor que +1. El negativo, pero
línea perfecta. El coeficiente de mayor que −1. El
coeficiente de Spearman sigue coeficiente de
correlación de siendo igual a +1 Spearman sigue
Spearman en este caso. siendo igual a −1
también es +1 en en este caso
este caso.
• Varianza
Es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha
variable respecto a la media.

• Desviación Estándar
Es la raíz cuadrada de la varianza de la variable.

¿Qué relación hay entre Varianza y Relación Estándar?


- La varianza de un conjunto de datos mide la dispersión matemática de los datos con respecto a la
media
-La desviación estándar, siendo la raíz cuadrada de la varianza tiene un valor que está en las
mismas unidades que los valores originales, lo que hace mucho más fácil el trabajar con ella.
x y xy x2 y2

123 76 9348 15129 5776

55 62 3410 3025 3844

100 66 6600 10000 4356

75 58 4350 5625 3364

159 88 13992 25281 7744

109 70 7630 11881 4900

48 37 1776 2304 1369

138 82 11316 19044 6724

164 88 14432 26896 7744

28 43 1204 784 1849

Σx = 999 Σy = 670 Σxy = 74058 Σx2 = 119969 Σy2= 47670

FORMULA: 𝑺𝟐 = √𝑺𝒚𝒚 −𝒃∗𝑺𝒙𝒚


𝒏−𝟐
SUSTITUCIÓN:

10(74058) − (999)(670)
𝑏= = 0.3532
10(119969) − (999)2

(670)2
𝑆𝑦𝑦 = 47670 − = 2780
10

(999)2
𝑆𝑥𝑥 = 119969 − = 20168.9
10

(2780) − (0.3532)(7125)
𝑆2 = √ = 23.30
10 − 2

𝑆 = 5.74
Relación entre desviación estándar y el error estándar en la mejor estimación de la recta:

- El error estándar es la desviación estándar de la distribución muestral de un estadístico. El término


se refiere también a una estimación de la desviación estándar

- La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes
muestras escogidas de la misma población tienden en general a dar distintos valores de medias
muéstrales.

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf
• Coeficiente de determinación

Es el cuadrado del coeficiente de correlación de Pearson, y da la proporción de variación


de la variable Y que es explicada por la variable X. Si la proporción es igual a 0, significa
que la variable productora no tiene nula capacidad predictiva de la variable a predecir (Y).
Cuanto mayor sea la proporción, mejor será la predicción.

https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html
y 𝒚^ ̅ (^𝑦 − ̅ )2 ( 𝑦 − )̅ 2
76 36.05 6.7 29.35 4802.49
62 33.65 6.7 26.95 3058.09
66 35.24 6.7 28.54 3516.49
58 34.36 6.7 27.66 2631.69
88 37.33 6.7 30.63 6609.69
70 35.56 6.7 28.86 4006.89
37 33.41 6.7 26.71 918.09
82 36.58 6.7 29.88 5670.09
88 37.50 6.7 30.8 6606.69
43 32.70 6.7 26 1317.69
Σ = 670 Σ = 352.38 Σ = 67 Σ = 285.38 Σ = 39137.9
• Relacion entre el coeficiente de determinación y el coeficiente de correlación de Pearson:

R² es simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto


para la regresión lineal simple.

El R² adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde


este valor puede tomar valores negativos.

FÓRMULA: SUTITUCIÓN:

∑( 𝑦ො 285.38
𝑅2 = − ̅ )2 𝑅2 = √
∑( 𝑦 − ̅)2 39137.9

𝑅2 = √0.007916

𝑅2 = 0.08897
Intervalos de confianza
El intervalo de confianza es un intervalo en torno a la estimación obtenida donde, con el nivel de
significación fijado, tenemos la confianza de encontrar el auténtico valor del parámetro estimado. Y así
con todos los intervalos que podemos construir a partir de todas las muestras del mismo tamaño.

 La confianza se mide en términos de probabilidad: 0,95, 0,99 (nivel de significación α = 5%, 1%).

https://www.geogebra.org/m/Ps6ZVrVZ
Intervalo de confianza para β Intervalo de confianza para α

(𝑇𝛼 /2 )𝑆 (𝑇𝛼/2 )𝑆 (𝑇𝛼/2 )𝑆√∑ 𝑥 2 (𝑇𝛼/2 )𝑆√∑ 𝑥 2


1 1
𝑏− <𝛽<𝑏+ 𝛼− <𝛼<𝛼+
√𝑆𝑥𝑥 √𝑆𝑥𝑥 √ 𝑛 ∗ 𝑆𝑥𝑥 √ 𝑛 ∗ 𝑆𝑥𝑥

Intervalo de confianza para My / xo

1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ + ) < 𝑀𝑦/𝑥𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

Intervalo de confianza para yo

1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
Intervalo de confianza para β

Formula

(𝑇𝛼 /2 )𝑆 (𝑇𝛼/2 )𝑆
𝑏− <𝛽<𝑏+
√𝑆𝑥𝑥 √𝑆𝑥𝑥

Sustitución

(2.306)(5.74) (2.306)(5.74)
(0.3532) − < 𝛽 < (0.3532) +
√20168.9 √20168.9

0.3532 < 𝛽 < 0.4462


Tabla

“ Valores críticos para la distribución t “

I. C. 0.95 y=n–2 α
𝛼 =1− =1− = 0.025 y = 10 – 2 y
2 2 0.025
y=8
8 2.306

𝑇𝛼/2 = 2.306
Intervalo de confianza para α
Formula

(𝑇𝛼/2 )𝑆√∑ 𝑥 2 (𝑇𝛼/2 )𝑆√∑ 𝑥 2


1 1
𝛼− <𝛼<𝛼+
√ 𝑛 ∗ 𝑆𝑥𝑥 √ 𝑛 ∗ 𝑆𝑥𝑥
Sustitución

Σx2 = 119969

(2.306)(5.74)√119969 (2.306)(5.72)√119969
(31.71) − < 𝛼 < (31.71) +
√(10)(20168.9) √(10)(20168.9)

21.484 < 𝛼 < 41.936

Tabla

“ Valores críticos para la distribución t “


I. C. 0.95 α
𝛼 = 1− =1− = 0.025 y=n–2 y
2 2 y = 10 – 2 0.025
y=8 8 2.306 𝑇𝛼 /2 = 2.306
Intervalo de confianza para M y / xo
Formula
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2)𝑆 ( √ + ) < 𝑀𝑦/𝑥𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2)𝑆 ( √ + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

Sustitución

xo = cualquier valor de "x" ∑𝑥 999 𝑦ො 𝑜 = 𝑎 + 𝑏 ∗ 𝑥𝑜 = 31.71 + (0.03532)(123)


̅= = = 99.9
𝑛 10 𝑦ො = 36.05
xo = 123 𝑜

( 123 − 99.9)2 ( 123 − 99.9)2


√ 1 √1
(36.05) − (2.306)(5.74) ( + ) < 𝑀𝑦/𝑥 𝑜 < (36.05) + (2.306)(5.74) ( + )
10 20168.9 10 20168.9

34.37 < 𝑀𝑦/𝑥 𝑜 < 37.72

Tabla
“ Valores críticos para la distribución t “

I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Intervalo de confianza para yo
Formula
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2)𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2)𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

Sustitución

xo = cualquier valor de "x" ∑𝑥 999 𝑦ො 𝑜 = 𝑎 + 𝑏 ∗ 𝑥𝑜 = 31.71 + (0.03532)(123)


̅= = = 99.9
xo = 123 𝑛 10 𝑦ො 𝑜 = 36.05

1 ( 123 − 99.9)2 1 ( 123 − 99.9)2



(36.05) − (2.306)(5.74) ( 1 + + ) < 𝑦 √
𝑜 < (36.05) + (2.306)(5.74) ( 1 + 10 + 20168.9 )
10 20168.9

21.15 < 𝑦𝑜 < 50.95

Tabla
“ Valores críticos para la distribución t “

I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Método de Análisis de Varianza
⚫ Es un procedimiento mediante el cual la variación total de la variable dependiente se subdivide en componentes
significativos, que luego se observan y se tratan en forma sistemática.
⚫ Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con medias iguales,
cuando hay más de dos poblaciones en estudio.
⚫ El análisis de varianza (ANOVA) permite comparar simultáneamente todas la medias, evitando tener que realizar
pruebas en grupos de dos.
⚫ La comparación de las medias muestrales se basa en las varianzas muestrales

k= # de Tratamientos
n= número total de observaciones en todos los tratamientos convinados
T= Tratamientos
Fc= Factor de corrección
SCT= Suma de cuadrados totales
SCTr= Suma de cuadrados de tratamiento
SCE= Suma de cuadrados de error

https://www.dspace.espol.edu.ec/bitstream/123456789/25020/1/PROBABILIDAD%20Y%20ESTADISTICA%20BASICA%20P
ARA%20INGENIEROS.pdf
¿En qué consiste ANOVA?
⚫ Es una de las técnicas estadísticas más utilizadas para comparar grupos de medidas y
normalmente se emplea para establecer semejanzas y diferencias entre tres o más grupos
distintos. A través de ANOVA se establece un análisis para evaluar comparativamente unos
resultados en distintas clasificaciones o grupos. De esta manera, es posible calcular si los
valores medios son iguales en los distintos grupos estudiados.
Este análisis comparativo se realiza en aquellos contextos en los que los grupos estudiados
son independientes entre sí, pero la global de ellos puede ofrecer resultados
estadísticos que resulten de interés. En pocas palabras, los resultados obtenidos indican si
los valores medios entre dos grupos o más son semejantes o diferentes. Si no se utiliza el
análisis ANOVA de un factor las diferencias entre los distintos grupos estudiados
dependerían de la subjetiva de cada observador.

https://www.definicionabc.com/economia/anova.php
Formulas

∑ X = X + X + X … + Xn

∑ Y = y1 + y2 + y3 … + yn
⚫ 11.7) Los siguientes son algunos de los datos contenidos en un conjunto clásico denominado
“datos piloto de graficación” que aparecen en Fitting Equations to Data, de Daniel y Wood,
publicado en 1971. La respuesta y es el contenido de ácido del material determinado por
análisis volumétrico; mientras que el regresor x es el contenido de ácido orgánico
determinado por extracción y ponderación.
Hipótesis
H0 : µ 1 = µ 2 α = 0.05
H 1: Al menos una media es distinta

Procedimiento:

1.- Suma de 1ra y 2da fila

2.- Suma de 1ra y 2da fila al


cuadrado
3.- Se obtiene el valor de T

4.- Se obtiene el valor de Fc

5.- Se obtiene el valor de SCT

6.- Se obtiene el valor de SCTr

7.- Se obtiene el valor de SCE


Finalmente se realiza la tabla ANOVA

Fuente de Grados de Suma de Cuadrados Razón F


variación libertad cuadrados medios

Tratamientos k– 1 SCTr SCTr/k-1


2 - 1= 1 5,412.05 5,412.05

Error n– k SCE SCE/n-k Fcal= 4.244


20 – 2= 18 22,948.9 1274.93

Total n– 1 SCT
20 – 1= 19 28,360.95
Se rechaza H0 sí

Fcal > F α, ,

4.244 < 4.41 ; Se acepta H0


Tabla Factores Criticos Hipótesis
de F H0 : µ 1 = µ 2 α = 0.05
α = 0.05 H 1: Al menos una media es distinta

Coclusión: Se acepta H0
la nota media es significativamente igual al contenido de acido
del material determinado por análisis que el acido organico
determinado por extracción y ponderación.
Prueba de hipótesis para β
Sustitución

Datos
(999)2
H0 : β = 1 𝑆𝑥𝑥 = 119969 − = 20168.9
10
H1 : β < 1

α = 0.05

n = 10
(2780) − (0.3532)(7125)
x = Cualquier valor de “x” 𝑆2 = √ = 23.30
10 − 2
Valor escogido  x = 123

Formula

0.3532 − 1
𝑇= 5.74 = −16.0099
b−𝛽 √20168.9
𝑇=
𝑆
√𝑆𝑥𝑥
𝐻1 = −16.0099
Tabla (Valores críticos de Gráfica
la distribución t)

α = 0.05

y=n– 2
y = 10 – 2
y=8
α
y
0.05
8 1.860 - 16.0099 - 1.91
H1 H0

H0 = 1.860 + 0.05 = 1.91


Conclusión Bibliografía

Se rechaza H0 “Probabilidad y Estadística para


Ingenieros”
La pendiente es mayor o igual a 1 Ronald E. Walpole, Raymond
H. Myers
Sharon L. Myers
Prueba de hipótesis para α
Sustitución x

Datos 119969 670 −(999)(74058) 123


a= = 31.71
H0 :α = 0 10 119969 −(999)2
55
H1 :α≠ 0
100
α= 0.05 (999)2
𝑆𝑥𝑥 = 119969 − = 20168.9
10 75
n = 10

159
(2780) − (0.3532)(7125)
Formula 𝑆2 = √ = 23.30 109
10 − 2
48

a−𝛼 31.71 − 0.05 138


𝑇= 𝑇= = 7.18
(∑ 𝑥 2 ) 119969
𝑆 √ (5.74)√ 164
𝑛 ∗ 𝑆𝑥𝑥 (10)(20168.9)
28

𝐻1 = 7.18 Σ = 999
Tabla (Valores críticos de Gráfica
la distribución t)
𝛼 0.05
2 = 2 = 0.025
y=n– 2
y = 10 – 2
y=8
α
y
0.025
8 2.306 - 7.18 - 2.331 2.331 7.18
H1 H0 H0 H1

H0 = 2.306 + 0.025 = 2.331


Conclusión Bibliografía

Se rechaza H0 “Probabilidad y Estadística


para Ingenieros”
La pendiente si se encuentra que es diferente de 0 Ronald E. Walpole,
Raymond H. Myers
Sharon L. Myers
TEMA 1: Regresión lineal simple y correlación

Problema 2

Una empresa de mensajería de entrega puerta a puerta, con el fin de mejorar la


prestación del servicio desea establecer la relación que puede existir entre el tiempo
empleado y la distancia recorrida para la entrega de un determinado producto.

a. Realice un diagrama de dispersión a partir de los datos obtenidos.

b. Determine la mejor ecuación que se ajuste a los datos.

Distancia (Km) 825 215 1070 550 480 920 1350 325 670 1215
Tiempo (Días) 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
Mejor estimación de la recta

Formulas Sustitución
10(26370) − (7620)(28.5)
𝑦 = 𝑎 + 𝑏𝑥 𝑏= = 0.003585
10(7104300) − (7620)2
(∑ 𝑦) − 𝑏(∑ 𝑥)
𝑎= 28.5 − (0.003585)(7620)
𝑛 𝑎= = 0.11823
10
𝑛(∑ 𝑥𝑦) − (∑ 𝑥)(∑ 𝑦)
𝑏=
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 𝑦 = 0.11823 + 0.003585 𝑥

x y xy x2 y2
Mejor estimación de la recta:
825 3.5 2887.5 680625 12.25
Introducen la ecuación ya conocida
215 1.0 215 46225 1 de Regresión Simple como el
1070 4.0 4280 1144900 16 procedimiento analítico para la
550 2.0 1100 302500 4 obtención exacta de predicciones.
480 1.0 480 230400 1
920 3.0 2760 846400 9
Conclusión
En este problema, lo que es la mejor
1350 4.5 6075 1822500 20.25
estimación de la recta indica que,
325 1.5 487.6 105625 2.25 basándose en la ecuación ya dada
670 3.0 2010 448900 9 de la recta de regresión indicara la
1215 5.0 6075 1476225 25 variación entre la tensión normal X
con la resistencia al corte.
Σ = 7620 Σ = 28.5 Σ = 26370 Σ = 7104300 Σ = 99.75
Diagrama de flujo
y = 0.0036x + 0.1181
Distancia vs Tiempo
R² = 0.9005
6

Tiempo 4

0
0 200 400 600 800 1000 1200 1400 1600
Distancia

Σ = 7620
x 825 215 1070 550 480 920 1350 325 670 1215

Σ = 28.5
y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0

𝑦 = 0.11823 + 0.003585 𝑥
Error Estándar
x y ^ =𝑎+ 𝖰𝒙
𝒚 (𝒚 − 𝒚^)𝟐 Formulas

825 3.5 3.0758 0.1799

215 1.0 0.8890 0.0123


∑(𝑦 − 𝑦ො )2
𝑆𝑥𝑦 = √
1070 4.0 3.9541 0.0021 𝑛−2
550 2.0 2.0899 0.0080

480 1.0 1.8390 0.7039

920 3.0 3.4164 0.1733 Sustitución


1350 4.5 4.9579 0.2096

325 1.5 1.2833 0.0469


2.0925
670 3.0 2.5201 0.4799 𝑆𝑥𝑦 = √ = √0.2615 = 0.5115
10 − 2
1215 5.0 4.4740 0.2766

Σ = 7620 Σ = 28.5 Σ = 28.4995 Σ = 2.0925

Error Estándar: El error estándar (EE) se le conoce como una medida de las variaciones del
estimador, lo cual permite cuantificar el error de estimación (variación entre las estimaciones).

El error estándar del estadístico media muestral indica la confiabilidad de la media obtenida
de una muestra de tamaño n.
Formulas x y xy x2 y2

(∑ 𝑦 ) 2 825 3.5 2887.5 680625 12.25


𝑆 𝑦𝑦 = ∑ 𝑦2 −
𝑛 215 1.0 215 46225 1

1070 4.0 4280 1144900 16

(∑ 𝑥)2 550 2.0 1100 302500 4


𝑆𝑥𝑥 = ∑ 𝑥2 −
𝑛 480 1.0 480 230400 1

920 3.0 2760 846400 9

(∑ 𝑥)(∑ 𝑦) 1350 4.5 6075 1822500 20.25


𝑆𝑥𝑦 = ∑ 𝑥𝑦 −
𝑛 325 1.5 487.6 105625 2.25

670 3.0 2010 448900 9


𝑆 𝑥𝑦
𝑟= 1215 5.0 6075 1476225 25
√ (𝑆 𝑦 𝑦 )(𝑆 𝑥𝑥 )
Σ = 7620 Σ = 28.5 Σ = 26370 Σ = 7104300 Σ = 99.75

Coeficiente de correlación de Pearson: En estadística, el coeficiente de correlación de


Pesaron es una medida de la relación lineal entre dos variables que sean aleatorias
cuantitativas. A diferencia de la covarianza, la correlación de Pesaron es independiente de la
escala de medida de las variables.
Tabla

Valor Significado

-1 Correlación negativa grande y perfecta

-0,9 a -0,99 Correlación negativa muy alta


-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta

1 Correlación positiva grande y perfecta


Sustitución

(28.5)2
𝑆𝑦𝑦 = 99.75 − = 18.525
10

(7620)2
𝑆𝑥𝑥 = 7104300 − = 1297860
10

(7620)(28.5)
𝑆𝑥𝑦 = 26370 − = 4653
10

4653
𝑟= = 𝟎. 𝟗𝟒𝟖𝟗
√(18.525)(1297860)

Tabla

El valor obtenido fue de 0.9489


Por lo tanto, esto quiere decir que el valor obtenido significa que es una Correlación positiva muy alta.

Esto indica que mediante el proceso de correlación de Pearson, siempre se encontrara con valores
positivos, no se será posible encontrar algún valor que sea negativo.
x y Rango x Rango y 𝑑𝑖 𝑑𝑖2
825 3.5 6 7 1 1
215 1.0 1 1.5 0.5 0.25
1070 4.0 8 8 0 0
550 2.0 4 4 0 0
480 1.0 3 1.5 1.5 2.25
920 3.0 7 5.5 1.5 2.25
1350 4.5 10 9 1 1
325 1.5 2 3 1 1
670 3.0 5 5.5 0.5 0.25
1215 5.0 9 10 1 1
---- ---- ---- ---- ---- Σ = 9.0

Formulas Sustitución
𝑑𝑖 = 𝑟𝑎𝑛𝑔𝑜 𝑥 − 𝑟𝑎𝑛𝑔𝑜 𝑦 6(9)
6 ∑ 𝑑2𝑖 𝑟𝑠 = 1 − = 0.0545
𝑟𝑠 = 1 − 10[(10)2 − 1]
𝑛(𝑛2 − 1)
Coeficiente de Correlación de Spearman: La correlación de Spearman evalúa la
relación monótona entre dos variables continuas u ordinales.

El coeficiente de correlación de Spearman se basa en los valores jerarquizados de


cada variable y no en los datos sin procesar. La correlación de Spearman suele
utilizarse para evaluar relaciones en las que intervienen variables ordinales.

¿Qué relación hay entre el coeficiente de correlación de Spearman y el


coeficiente de Pearson?

El valor de los coeficientes de correlación de Pearson y Spearman puede variar de


−1 a +1. Para que el coeficiente de correlación de Pearson sea +1, cuando una
variable aumenta, la otra variable aumenta en una cantidad consistente. Esta
relación forma una línea perfecta. El coeficiente de correlación de Spearman
también es +1 en este caso.

Los coeficientes de correlación de Pearson solo miden relaciones lineales. Los


coeficientes de correlación de Spearman solo miden relaciones monótonas. Por lo
tanto, puede existir una relación significativa aunque los coeficientes de correlación
sean 0.
Diferentes tipos de relación entre Spearman y Pearson
Pearson = +1 Pearson = +0.851 Pearson = −0.093 Pearson = −1 Pearson = −0.799
Spearman = +1 Spearman = +1 Spearman = −0.093 Spearman = −1 Spearman = −1

Para que el Si la relación es Cuando una Si la relación es Si la relación es


coeficiente de que una variable relación es aleatoria una línea que una variable
correlación de aumenta cuando o no existe, perfecta para disminuye cuando
Pearson sea +1, la otra aumenta, entonces ambos una relación la otra aumenta,
cuando una pero la cantidad coeficientes de decreciente, pero la cantidad
variable aumenta, no es consistente, correlación son casi entonces ambos no es consistente,
la otra variable el coeficiente de cero. coeficientes de entonces el
aumenta en una correlación de correlación son coeficiente de
cantidad Pearson es −1. correlación de
consistente. Esta positivo pero Pearson es
relación forma una menor que +1. El negativo, pero
línea perfecta. El coeficiente de mayor que −1. El
coeficiente de Spearman sigue coeficiente de
correlación de siendo igual a +1 Spearman sigue
Spearman en este caso. siendo igual a −1
también es +1 en en este caso
este caso.
Varianza y Desviación Estándar

Varianza = Es una medida de dispersión definida como la esperanza del cuadrado de la desviación de
dicha variable respecto a la media.
Desviación Estándar = Es la raíz cuadrada de la varianza de la variable.

¿Qué relación hay entre Varianza y Relación Estándar?


- La varianza de un conjunto de datos mide la dispersión matemática de los datos con respecto a la media
- La desviación estándar, siendo la raíz cuadrada de la varianza tiene un valor que está en las mismas
unidades que los valores originales, lo que hace mucho más fácil el trabajar con ella.

x y xy x2 y2
825 3.5 2887.5 680625 12.25
215 1.0 215 46225 1
1070 4.0 4280 1144900 16
550 2.0 1100 302500 4
480 1.0 480 230400 1
920 3.0 2760 846400 9
1350 4.5 6075 1822500 20.25
325 1.5 487.6 105625 2.25
670 3.0 2010 448900 9
1215 5.0 6075 1476225 25
Σ = 7620 Σ = 28.5 Σ = 26370 Σ = 7104300 Σ = 99.75
Formula: Sustitución:
10(26370) − (7620)(28.5)
𝑏= = 0.003585
10(7104300) − (7620)2

(7620)(28.5)
𝑺𝒚𝒚 − 𝒃 ∗ 𝑺𝒙𝒚 𝑆𝑥𝑦 = 26370 − = 4653
𝑺𝟐 = √ 10
𝒏−𝟐

(28.5)2
𝑆𝑦𝑦 = 99.75 − = 18.525
10

(18.525) − (0.003585)(4653)
𝑆2 = √ = 0.2304 𝑆 = 0.4801
10 − 2

Relación entre desviación estándar y el error estándar en la mejor estimación de la recta:

- El error estándar es la desviación estándar de la distribución muestral de un estadístico. El


término se refiere también a una estimación de la desviación estándar

-La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes
muestras escogidas de la misma población tienden en general a dar distintos valores de
medias muéstrales.
Coeficiente de determinación

Es el cuadrado del coeficiente de correlación de Pearson, y da la proporción de variación de la


variable Y que es explicada por la variable X. Si la proporción es igual a 0, significa que la
variable productora no tiene nula capacidad predictiva de la variable a predecir (Y). Cuanto
mayor sea la proporción, mejor será la predicción.

y 𝒚^ ̅ ( ^𝑦 − ̅)2 ( 𝑦 − )̅ 2
3.5 3.0758 2.85 0.0509 0.4225
1.0 0.8890 2.85 3.8455 3.4225
4.0 3.9541 2.85 1.2119 1.3225
2.0 2.0899 2.85 0.5777 0.7225
1.0 1.8390 2.85 1.0221 3.4225
3.0 3.4164 2.85 0.3208 0.0225
4.5 4.9579 2.85 4.4432 2.7225
1.5 1.2833 2.85 2.4545 1.8225
3.0 2.5201 2.85 0.1088 0.0225
5.0 4.4740 2.85 2.6373 4.6225
Σ = 28.5 Σ = 28.4995 Σ = 28.5 Σ = 16.6727 Σ = 18.5250
Formula Sustitución

∑( 𝑦ො 16.6727
𝑅 2 = − ̅ )2 𝑅2 = √
∑( 𝑦 − ̅)2 18.5250

𝑅2 = √0.900010796

𝑅2 = 0.9486

• Relación entre el coeficiente de determinación y el coeficiente de


correlación de Pearson:

R² es simplemente el cuadrado del coeficiente de correlación de Pearson, lo


cual es sólo cierto para la regresión lineal simple.

El R² adquiere valores entre 0 y 1. Existen casos dentro de la definición


computacional de R² donde este valor puede tomar valores negativos.
Intervalos de Confianza

Se les conoce como Intervalos de Confianza a la prueba de hipótesis del


coeficiente β0 , donde de igual forma se podrían establecer perfectamente a partir
del hecho de que B0 también se puede distribuir de una forma normal.

Intervalo de confianza para β Intervalo de confianza para α

(𝑇𝛼 /2 )𝑆 (𝑇𝛼/2 )𝑆 (𝑇𝛼/2 )𝑆√∑ 𝑥 2 (𝑇𝛼/2 )𝑆√∑ 𝑥 2


1 1
𝑏− <𝛽<𝑏+ 𝛼− <𝛼<𝛼+
√𝑆𝑥𝑥 √𝑆𝑥𝑥 √ 𝑛 ∗ 𝑆𝑥𝑥 √ 𝑛 ∗ 𝑆𝑥𝑥

Intervalo de confianza para My / xo

1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ + ) < 𝑀𝑦/𝑥𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

Intervalo de confianza para yo

1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2 )𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2 )𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
Intervalo de confianza para β

Formula

(𝑇𝛼 /2 )𝑆 (𝑇𝛼/2 )𝑆
𝑏− <𝛽<𝑏+
√𝑆𝑥𝑥 √𝑆𝑥𝑥

Sustitución

(2.306)(0.4801) (2.306)(0.4801)
(0.003585) − < 𝛽 < (0.003585) +
√1297860 √1297860

0.0026132 < 𝛽 < 0.0045568

Tabla

“ Valores críticos para la distribución t “

I. C. 0.95 y=n– 2 α
𝛼 =1− =1− = 0.025 y
2 2 y = 10 – 2 0.025
y=8
8 2.306

𝑇𝛼/2 = 2.306
Intervalo de confianza para α
Formula

(𝑇𝛼/2 )𝑆√∑ 𝑥 2 (𝑇𝛼/2 )𝑆√∑ 𝑥 2


1 1
𝛼− <𝛼<𝛼+
√ 𝑛 ∗ 𝑆𝑥𝑥 √ 𝑛 ∗ 𝑆𝑥𝑥
Sustitución

Σx2 = 7104300

(2.306)(0.4801)√7104300 (2.306)(0.4801)√7104300
(0.11823) − < 𝛼 < (0.11823) +
√(10)(1297860) √(10)(1297860)

−0.700871519 < 𝛼 < 0.937331519

Tabla

“ Valores críticos para la distribución t “


I. C. 0.95 α
𝛼 = 1− =1− = 0.025 y=n– 2 y
2 2 y = 10 – 2 0.025
y=8 8 2.306 𝑇𝛼/2 = 2.306
Intervalo de confianza para M y / xo
Formula
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2)𝑆 ( √ + ) < 𝑀𝑦/𝑥𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2)𝑆 ( √ + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

Sustitución
xo = cualquier valor de "x" ∑𝑥 7620 𝑦ො 𝑜 = 𝑎 + 𝑏 ∗ 𝑥𝑜 = 0.11823 + (0.003585)(825)
̅= = = 762
xo = 825 𝑛 10 𝑦ො 𝑜 = 3.075855

1 ( 825 − 762)2 1 ( 825 − 762)2


(3.075855)−(2.306)(0.4801)( √ + ) < 𝑀𝑦/𝑥𝑜 < (3.075855)+(2.306)(0.4801)( √ + )
10 1297860 10 1297860

1.913094673 < 𝑀𝑦/𝑥 𝑜 < 4.238615327

Tabla
“ Valores críticos para la distribución t “

I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Intervalo de confianza para yo
Formula
1 ( 𝑥𝑜 − ̅)2 1 ( 𝑥𝑜 − ̅)2
𝑦ො 𝑜− (𝑇𝛼/2)𝑆 ( √ 1 + + ) < 𝑦𝑜 < 𝑦ො 𝑜+ (𝑇𝛼/2)𝑆 ( √ 1 + + )
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

Sustitución
xo = cualquier valor de "x" ∑𝑥 7620 𝑦ො 𝑜 = 𝑎 + 𝑏 ∗ 𝑥𝑜 = 0.11823 + (0.003585)(825)
̅= = = 762
xo = 825 𝑛 10 𝑦ො 𝑜 = 3.075855

1 ( 825 − 762)2 1 ( 825 − 762)2


(3.075855) − (2.306)(0.4801) (

1+ + ) < 𝑦𝑜 < (3.075855) + (2.306)(0.4801) ( √
1+ + )
10 1297860 10 1297860

1.913094673 < 𝑦𝑜 < 4.238615327

Tabla
“ Valores críticos para la distribución t “

I. C. 0.95 y=n– 2 α
𝛼 = 1− =1− = 0.025 y = 10 – 2 y
2 2 y=8 0.025
8 2.306 𝑇𝛼/2 = 2.306
Método de Análisis de Varianza
⚫ Es un procedimiento mediante el cual la variación total de la variable dependiente se subdivide en componentes
significativos, que luego se observan y se tratan en forma sistemática.
⚫ Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con medias iguales,
cuando hay más de dos poblaciones en estudio.
⚫ El análisis de varianza (ANOVA) permite comparar simultáneamente todas la medias, evitando tener que realizar
pruebas en grupos de dos.
⚫ La comparación de las medias muestrales se basa en las varianzas muestrales

k= # de Tratamientos
n= número total de observaciones en todos los tratamientos convinados
T= Tratamientos
Fc= Factor de corrección
SCT= Suma de cuadrados totales
SCTr= Suma de cuadrados de tratamiento
SCE= Suma de cuadrados de error

https://www.dspace.espol.edu.ec/bitstream/123456789/25020/1/PROBABILIDAD%20Y%20ESTADISTICA%20BASICA%20P
ARA%20INGENIEROS.pdf
¿En qué consiste ANOVA?
⚫ Es una de las técnicas estadísticas más utilizadas para comparar grupos de medidas y
normalmente se emplea para establecer semejanzas y diferencias entre tres o más grupos
distintos. A través de ANOVA se establece un análisis para evaluar comparativamente unos
resultados en distintas clasificaciones o grupos. De esta manera, es posible calcular si los
valores medios son iguales en los distintos grupos estudiados.
Este análisis comparativo se realiza en aquellos contextos en los que los grupos estudiados
son independientes entre sí, pero la global de ellos puede ofrecer resultados
estadísticos que resulten de interés. En pocas palabras, los resultados obtenidos indican si
los valores medios entre dos grupos o más son semejantes o diferentes. Si no se utiliza el
análisis ANOVA de un factor las diferencias entre los distintos grupos estudiados
dependerían de la subjetiva de cada observador.

https://www.definicionabc.com/economia/anova.php
Formulas

∑ X2 = X 2 + X 2 + X 2 … + Xn 2

∑ X = X + X + X … + Xn ∑ Y2 = y 2 + y 2 + y 2 … + yn 2

∑ Y = y1 + y2 + y3 … + yn
Problema 2

Una empresa de mensajería de entrega puerta a puerta, con el fin de mejorar la


prestación del servicio desea establecer la relación que puede existir entre el tiempo
empleado y la distancia recorrida para la entrega de un determinado producto.

Distancia (Km) 825 215 1070 550 480 920 1350 325 670 1215
Tiempo (Días) 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
Hipótesis
H0 : µ 1 = µ 2 α = 0.05
H 1: Al menos una media es distinta

Procedimiento:

1.- Suma de 1ra y 2da fila

2.- Suma de 1ra y 2da fila al


cuadrado
3.- Se obtiene el valor de T

4.- Se obtiene el valor de Fc

5.- Se obtiene el valor de SCT

6.- Se obtiene el valor de SCTr

7.- Se obtiene el valor de SCE


Finalmente se realiza la tabla ANOVA

Fuente de Grados de Suma de Cuadrados Razón F


variación libertad cuadrados medios

Tratamientos k– 1 SCTr SCTr/k-1


2 - 1= 1 2,881,543.613 2,881,543.613

Error n– k SCE SCE/n-k Fcal= 39.96


20 – 2= 18 1,297,878.524 78,104.36

Total n– 1 SCT
20 – 1= 19 4,179,422.137
Se rechaza H0 sí

Fcal > F α, ,

39.96 > 4.41 ; Se rechaza H0


Tabla Factores Criticos Hipótesis
de F H0 : µ 1 = µ 2 α = 0.05
α = 0.05 H 1: Al menos una media es distinta

Coclusión: Se rechaza H0
No se mejora la prestación del servicio establecido en la
relación que existe entre tiempo empleado y la distancia
recorrida.
Regresión polinomial y su grafica

La regresión polinomial es una forma de regresión lineal en la que la relación entre la variable
independiente x y la variable dependiente y es modelada como un polinomio de grado n en x. La
regresión polinomial se ajusta a una relación no lineal entre el valor de x y la correspondiente media
condicional de y, denotada E (y | x), y se ha utilizado para describir fenómenos no lineales como la tasa
de crecimiento de los tejidos, la distribución de carbono Isótopos en sedimentos del lago, y la
progresión de epidemias de la enfermedad. Aunque la regresión polinómica se ajusta a un modelo no
lineal a los datos, como un problema de estimación estadística, es lineal, en el sentido de que la función
de regresión E (y | x) es lineal en los parámetros desconocidos que se calculan a partir de los datos.
Por esta razón, la regresión polinomial se considera un caso especial de regresión lineal múltiple.

https://conzmr.wordpress.com/2017/04/04/regresion-polinomial/
Regresión Lineal Múltiple: En estadística, la regresión lineal o ajuste lineal es un
modelo matemático usado para aproximar la relación de dependencia entre una
variable dependiente Y, las variables independientes Xi y un término aleatorio.
x y xy x2 x3 x4 x2y

123 76 9348 15129 1860867 228886641 1149804

55 62 3410 3025 166375 9150625 187550

100 66 6600 10000 1000000 100000000 660000

75 58 4350 5625 421875 31640625 326250

159 88 13992 25281 4019679 639128961 2224728

109 70 7630 11881 1295029 141158161 831670

48 37 1776 2304 110592 5308416 85248

138 82 11316 19044 2628072 362673936 1561608

164 88 14432 26896 4410944 723394816 2366848

28 43 1204 784 21952 614656 33712

Σx = 999 Σy = 670 Σxy = 74058 Σx2 = 119969 Σx3= 15935385 Σx4= 2241956837 Σx2y= 9427418
Formulas del tema
Sustitución
• El primer paso es calcular u obtener el determinante ΔD con el procedimiento en la matriz, sin
tomar la columna en donde se encuentran los resultados en las matrices.

10 𝑏𝑜 999 𝑏1 119969 𝑏2 = 670


999 𝑏𝑜 119969 𝑏1 15935385 𝑏2 = 74058
119969 𝑏𝑜 15935385 𝑏1 2241956837𝑏2 = 9427418

10 [ 119969 15935385 999 15935385 999 119969


] − 999 [ ] + 119969 [ ]
15935385 2241956837 119969 2241956837 119969 15935385

10 [(119969)(2241956837) − (15935385)2] = 1.50𝑥1014

−999 [(999)(2241956837) − (119969)(15935385)] = −3.3𝑥1014


119969 [(999)(15935385) − (119969)2] = 1.83𝑥1014

1.50𝑥1014 − 3.3𝑥1014 + 1.83𝑥1014 = 3𝑥1012


∆𝐷 = 3𝑥1012
Sustitución
• El siguiente paso es calcular u obtener el determinante Δbo con el procedimiento en la matriz,
sustituyendo la columna de resultados de las matrices en la columna de bo.

670 999 𝑏1 119969 𝑏2


74058 119969 𝑏1 15935385 𝑏2
9427418 15935385 𝑏1 2241956837 𝑏2

670 [ 119969 15935385 ] − 999 [ 74058 15935385 ] + 119969 [ 74058 119969


]
15935385 2241956837 9427418 2241956837 9427418 15935385

670 [(119969)(2241956837) − (15935385)2] = 1𝑥1016


−999 [(74058)(2241956837) − (9427418)(15935385)] = −1.57𝑥1016
119969 [(74058)(15935385) − (9427418)(119969)] = 5.89𝑥1015

1𝑥1016 − 1.57𝑥1016 + 5.89𝑥1015 = 1.9𝑥1014


∆𝑏𝑜 = 1.9𝑥1014
Sustitución
• El siguiente paso es calcular u obtener el determinante Δb1 con el procedimiento en la matriz,
sustituyendo la columna de resultados de las matrices en la columna de b1.

10 𝑏𝑜 670 119969 𝑏2
999 𝑏𝑜 74058 15935385 𝑏2
119969 𝑏𝑜 9427418 2241956837 𝑏2

10 [(74058)(2241956837) − (9427418)(15935385)] = 1.58𝑥1014

−670 [(999)(2241956837) − (119969)(15935385)] = −2.19𝑥1014


119969 [(999)(9427418) − (119969)(74058)] = 6.4𝑥1013

1.58𝑥1014 − 2.19𝑥1014 + 6.4𝑥1013 = 3𝑥1012


∆𝑏1 = 3𝑥1012
Sustitución
• El siguiente paso es calcular u obtener el determinante Δb2 con el procedimiento en la matriz,
sustituyendo la columna de resultados de las matrices en la columna de b2.

10 𝑏𝑜 999 𝑏1 670
999 𝑏𝑜 119969 𝑏1 74058
119969 𝑏𝑜 15935385 𝑏1 9427418

10 [(119969)(9427418) − (15935385)(74058)] = −4.91𝑥1011

−999 [(999)(9427418) − (119969)(74058)] = −5.32𝑥1011


670 [(999)(15935385) − (119969) 2] = 1.02𝑥1012

−4.91𝑥1011 − 5.32𝑥1011 + 1.02𝑥1011 = −9.21𝑥1011


∆𝑏2 = −9.21𝑥1011
Sustitución
∆𝑏𝑜 1.9𝑥1014 • Conclusión
𝑏𝑜 = = = 63.33 Como conclusión, se obtuvo que la ecuación final es:
∆𝐷 3𝑥1012

∆𝑏1 3𝑥1012
𝑏1 = = =1
∆𝐷 3𝑥1012

∆𝑏2 −9.21𝑥1011
𝑏2 = = = −0.037
∆𝐷 3𝑥1012
x y
Grafica
825 -24294.795 0
215 -1431.995 0 200 400 600 800 1000 1200 1400 1600
-10000
1070 -41227.97
-20000
550 -10579.17
-30000
480 -7981.47
920 -30333.47 -40000

1350 -66019.17 -50000

325 -3519.795 -60000


670 -15875.97 -70000
1215 -53341.995
Coeficiente de Determinación

El coeficiente de determinación, se define como la proporción de la varianza total de la


variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.

• Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.


Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable
que estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos
ajustado estará el modelo y, por tanto, menos fiable será.

https://economipedia.com/definiciones/r-cuadrado-coeficiente-determinacion.html
El coeficiente nos indicara si el modelo que se
utilizo es el adecuado para saber la variación en la
resistencia al corte, así entre mas grande sea el
coeficientede determinación este será mejor
El ajuste, según el cálculo del R cuadrado, es de 0.4371
Lo cual quiere decir que es un modelo cuyas
estimaciones no se ajustan bien a la variable real. Aunque
técnicamente no sería correcto, podríamos decir algo así
como que el modelo explica en un 43.71% a la variable
real.
TEMA 2: Regresión Lineal Múltiple y Correlación

Problema 2

x y xy x2 x3 x4 x2y

825 3.5 2887.5 680625 561515625 4.63 x 1011 2382187.5

215 1.0 215 46225 9938375 2.13 x 109 46225

1070 4.0 4280 1144900 1225043000 1.31 x 1012 4579600

550 2.0 1100 302500 166375000 9.15 x 1010 605000

480 1.0 480 230400 110592000 5.30 x 1010 230400

920 3.0 2760 846400 77868000 7.16 x 1011 2539200

1350 4.5 6075 1822500 2460375000 3.32 x 1012 8201250

325 1.5 487.6 105625 34328125 1.11 x 1010 158437.5

670 3.0 2010 448900 300763000 2.01 x 1011 1346700

1215 5.0 6075 1476225 1793613375 2.17 x 1012 7381125

Σ = 7620 Σ = 28.5 Σ = 26370 Σ = 7104300 Σ = 6740411500 Σ = 8.33 x 1012 Σ = 27470125


Formulas del tema

∆𝑏𝑜 ∆𝑏1 ∆𝑏2


𝑦 = 𝑏𝑜 + 𝑏1 𝑥 + 𝑏2 𝑥 2 … 𝑏𝑘 𝑥 𝑦 𝑏𝑜 = 𝑏1 = 𝑏2 =
∆𝐷 ∆𝐷 ∆𝐷
Sustitución
• El primer paso es calcular u obtener el determinante ΔD con el procedimiento en la matriz, sin
tomar la columna en donde se encuentran los resultados en las matrices.

10 𝑏𝑜 7620 𝑏1 7104300 𝑏2 = 28.5


7620 𝑏𝑜 7104300 𝑏1
6740411500 = 26370
𝑏2 = 27470125
7104300 6740411500 𝑏1 8.33 𝑥 10 12

𝑏𝑜 𝑏2
7104300 6740411500] −7620[ 7620 6740411500] +7104300[ 7620 7104300
10[ ]
6740411500 8.33𝑥1012 7104300 8.33𝑥1012 7104300 6740411500

10 [(7104300)(8.33𝑥1012 ) − (6740411500)2] = 1.37𝑥1020


−7620 [(7620)(8.33𝑥1012 ) − (6740411500)(7104300)] = −1.18𝑥1020
7104300 [(7620)(6740411500) − (7104300)2] = 8.90𝑥1011

1.37𝑥10 20 − 1.18𝑥10 20 + 8.90𝑥10 11 = 1.9𝑥10 19


∆𝐷 = 1.9𝑥1019
Sustitución
• El siguiente paso es calcular u obtener el determinante Δbo con el procedimiento en la matriz,
sustituyendo la columna de resultados de las matrices en la columna de bo.

28.5 7620 𝑏1 7104300 𝑏2


26370 7104300 𝑏1 6740411500 𝑏2
27470125 6740411500 𝑏1 8.33 𝑥 1012 𝑏2

7104300 6740411500]−7620[ 26370 6740411500]+7104300[ 26370 7104300


28.5[ ]
6740411500 8.33𝑥1012 27470125 8.33𝑥1012 27470125 6740411500

28.5 [(7104300)(8.33𝑥1012 ) − (6740411500)2] = 3.91𝑥1020


−7620 [(26370)(8.33𝑥1012 ) − (6740411500)(27470125)] = −2.62𝑥1020
7104300 [(26370)(6740411500) − (7104300)(27470125)] = −1.23𝑥1020

3.91𝑥10 20 − 2.62𝑥10 20 − 1.23𝑥10 20 = 6𝑥10 18


∆𝑏𝑜 = 6𝑥1018
Sustitución
• El siguiente paso es calcular u obtener el determinante Δb1 con el procedimiento en la matriz,
sustituyendo la columna de resultados de las matrices en la columna de b1.

10 𝑏𝑜 28.5 7104300 𝑏2
7620 𝑏𝑜 26370 6740411500 𝑏2
7104300 𝑏𝑜 27470125 8.33 𝑥 1012 𝑏2

26370 6740411500] − 28.5 [ 7620 6740411500] + 7104300 [ 7620 26370


10 [ 12 12 ]
27470125 8.33 𝑥 10 7104300 8.33 𝑥 10 7104300 27470125

10 [(26370)(8.33𝑥1012 ) − (6740411500)(27470125)] = 3.45𝑥1017

−28.5 [(7620)(8.33𝑥1012 ) − (6740411500)(7104300)] = −4.44𝑥1017


7104300 [(7620)(27470125) − (26370)(7104300)] = 1.56𝑥1017

3.45𝑥1017 − 4.44𝑥1017 + 1.56𝑥1017 = 5.7𝑥1016


∆𝑏1 = 5.7𝑥1016
Sustitución
• El siguiente paso es calcular u obtener el determinante Δb2 con el procedimiento en la matriz,
sustituyendo la columna de resultados de las matrices en la columna de b2.

10 𝑏𝑜 7620 𝑏1 28.5
7620 𝑏𝑜 7104300 𝑏1 26370
7104300 𝑏𝑜 6740411500 𝑏1 27470125

7104300 26370 7620 26370 7620 7104300


10 [ ] − 7620 [ ] + 28.5 [ ]
6740411500 27470125 7104300 27470125 7104300 6740411500

10 [(7104300)(27470125) − (26370)(6740411500)] = 1.74𝑥1014

−7620 [(7620)(27470125) − (26370)(7104300)] = −1.67𝑥1014


28.5 [(7620)(6740411500) − (7104300)2] = 2.53𝑥1013

1.74𝑥1014 − 1.67𝑥1014 + 2.53𝑥1013 = 3.23𝑥1013


∆𝑏2 = 3.23𝑥1013
Sustitución
∆𝑏𝑜 6𝑥1018 • Conclusión
𝑏𝑜 = = = 0.3157 Como conclusión, se obtuvo que la ecuación final es:
∆𝐷 1.9𝑥1019

∆𝑏1 5.7𝑥1016
𝑏1 = = = 0.003 𝑦 = 0.31
∆𝐷 1.9𝑥1019

∆𝑏2 3.23𝑥1013
𝑏2 = = = 1.7𝑥10−6
∆𝐷 1.9𝑥1019
x y y
825 3.9477 8

215 1.0392 7
1070 5.4720 6
550 2.4799 5
480 2.1473 4
920 4.5505 3
1350 7.4995 2
325 1.5062 1
670 3.1248 0
1215 6.5062 0 200 400 600 800 1000 1200 1400 1600
Comparación de regresión lineal y no lineal múltiple
La regresión lineal múltiple se basa en obtener una relación lineal entre un
conjunto de variables independientes X1,..,Xn con una variable dependiente Y, es
decir:
Y = b0+b1X1+b2X2+b3X3+ ··· +bnXn.
El éxito de determinar una correlación lineal múltiple es que exista una correlación
lineal simple de cada variable independiente con la variable dependiente.

En la regresión no lineal múltiple; Muchas de las relaciones entre variables que estudiamos en
geoquímica no son lineales. Se pueden destacar las funciones logarítmica, inversa, cuadrática,
cúbica, potencia, exponencial, etc. En la siguiente tabla se definen las funciones mas utilizadas:
-Lineal
-Logarítmica
- Cuadrático
- Potencia
- Exponencial
En general, para determinar qué modelo utilizar se representan los datos y se ajustan al modelo
más adecuado teniendo en cuenta la bondad del ajuste dentro del rango de datos medidos
experimentalmente y/o fuera del dicho rango (debido al carcter predictivo de las funciones).

https://web.ua.es/es/lpa/docencia/analisis-estadistico-de-datos-geoquimicos-con-
r/regresion-lineal-simple-y-multiple-regresion-no-lineal.html
Ecuaciones no lineales

Llamamos sistema no lineal a un sistema de ecuaciones en el que una o


ambas de las ecuaciones que forman el sistema es una ecuación no lineal, es
decir, cuando alguna de las incógnitas que forman parte de la ecuación no
son de primer grado. Por tanto en este tipo de sistemas nos podemos
encontrar polinomios de segundo grado, raíces, logaritmos, exponenciales.

https://matematica.laguia2000.com/general/sistema-de-ecuaciones-no-
lineales
Coeficiente de determinación

Es el cuadrado del coeficiente de correlación de Pearson, y da la proporción de variación de la


variable Y que es explicada por la variable X. Si la proporción es igual a 0, significa que la
variable productora no tiene nula capacidad predictiva de la variable a predecir (Y). Cuanto
mayor sea la proporción, mejor será la predicción.

y 𝒚^ ̅ ( ^𝑦 − ̅)2 ( 𝑦 − )̅ 2
3.5 3.0758 2.85 0.0509 0.4225
1.0 0.8890 2.85 3.8455 3.4225
4.0 3.9541 2.85 1.2119 1.3225
2.0 2.0899 2.85 0.5777 0.7225
1.0 1.8390 2.85 1.0221 3.4225
3.0 3.4164 2.85 0.3208 0.0225
4.5 4.9579 2.85 4.4432 2.7225
1.5 1.2833 2.85 2.4545 1.8225
3.0 2.5201 2.85 0.1088 0.0225
5.0 4.4740 2.85 2.6373 4.6225
Σ = 28.5 Σ = 28.4995 Σ = 28.5 Σ = 16.6727 Σ = 18.5250
Formula Sustitución

∑( 𝑦ො 16.6727
𝑅 2 = − ̅ )2 𝑅2 = √
∑( 𝑦 − ̅)2 18.5250

𝑅2 = √0.900010796

𝑅2 = 0.9486

• Relación entre el coeficiente de determinación y el coeficiente de


correlación de Pearson:

R² es simplemente el cuadrado del coeficiente de correlación de Pearson, lo


cual es sólo cierto para la regresión lineal simple.

El R² adquiere valores entre 0 y 1. Existen casos dentro de la definición


computacional de R² donde este valor puede tomar valores negativos.
https://www.studocu.com/es/document/universidad-de-guayaquil/psicologia/practica/practica-estadistica-
regresion-potencial/2631104/view
ECUACION POTENCIAL

Problema 1

Los siguientes datos son la inversión neta (y) y la tasa de interés (x)

Tasa de
2.5 3 4 5 5.5 6 7
interés (x)
Inversión
12.5 10 7 4.5 4 3 3.5
neta (y)

Hallar la ecuación de regresión potencial: 𝑦 = 𝑎𝑥 𝐵


x y xI = log x yI = log y xIyI (yI )2 (xI )2
2.5 12.5 0.3979 1.0969 0.4364 1.2031 0.1583
3 10 0.4771 1 0.4771 1 0.2276
4 7 0.6020 0.8450 0.5086 0.7140 0.3624
5 4.5 0.6989 0.6532 0.4565 0.4266 0.4884
5.5 4 0.7403 0.6020 0.4456 0.3624 0.5480
6 3.5 0.7781 0.5440 0.4232 0.2959 0.6054
7 3 0.8450 0.4771 0.4031 0.2276 0.7140
Σ = 4.5397 Σ = 5.2185 Σ = 3.155 Σ = 4.2296 Σ = 3.1049

Formulas Sustitución
𝑛(∑ 𝑥 𝑖 𝑦𝑖 ) − (∑ 𝑥 𝑖 )(∑ 𝑦𝑖 ) 7(3.155) − (4.5397)(5.2185)
𝐵= 𝐵=
𝑖 2 𝑖 2 𝑖 2 [7(3.
1 049) −(4.
5 397)2][7(4.2296) −(5.2185)2] =−0.600762
[𝑛 (∑ 𝑥 ) − (∑ 𝑥 ) ] [𝑛 (∑ 𝑦 )
− (∑ 𝑦𝑖 )2 ]
𝑦𝑖 = 𝐴𝑖 + 𝐵𝑥𝑖 → 𝐴 = 𝑦𝑖̅ − 𝐵𝑥𝑖̅
5.2185 4.5397
𝐴𝑖 = − (−0.600762) ( ) = 1.1351
𝑦𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 7 7
𝑖
𝐴 = (10)𝐴 = (10)1.1351 = 13.6489
GRAFICA

yI
1.2
x yI

2.5 1.0969
1

3 1
0.8
4 0.845

5 0.6532 Inversión neta


0.6
5.5 0.602

6 0.544 0.4

7 0.4771
0.2

0
0 1 2 3 4 5 6 7 8

Tasa de interés
Problema 2:
Sea el siguiente conjunto de valores, las lecturas de un experimento donde “x” es el volumen
(variable independiente) e “y” es la presión de una masa dada de gas (variable resultante).

x y
1 7
2 30
3 90
4 170
5 290
6 450
7 650
x y xI = log x yI = log y xIyI (yI )2 (xI )2

1 7 0 0.8450 0 0.7140 0
2 30 0.3010 1.4771 0.4446 2.1818 0.0906
3 90 0.4771 1.9542 0.9323 3.8188 0.2276
4 170 0.6020 2.2304 1.3427 4.9746 0.3624
5 290 0.6989 2.4623 1.7209 6.0629 0.4884
6 450 0.7781 2.6532 2.0644 7.0394 0.6054
7 650 0.8450 2.8129 2.3769 7.9124 0.7140
Σ = 3.7021 Σ = 14.4351 Σ = 8.8818 Σ = 32.7039 Σ = 2.4884
Formulas Sustitución
7(8.8818) − (3.7021)(14.4351)
𝑛(∑𝑥𝑖𝑦𝑖)−(∑𝑥𝑖)(∑𝑦𝑖) 𝐵= = 0.1144
𝐵= [7(2.4884) − (3.7021)2][7(32.7039) − (14.4351)2]
[𝑛(∑𝑥𝑖2) −(∑𝑥𝑖)2][𝑛(∑𝑦𝑖2)−(∑𝑦𝑖)2]
𝑦𝑖 = 𝐴𝑖 + 𝐵𝑥𝑖 → 𝐴 = 𝑦𝑖̅ − 𝐵𝑥𝑖̅
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 14.4351 3.7021
𝐴𝑖 = − (0.1144) ( ) = 2.0005
7 7
𝑖
∑𝑦 𝑖 𝐴 = (10)𝐴 = (10)2.0005 = 100.1151
∑ 𝑥𝑖 𝑦𝑖̅ =
𝑥̅ =
𝑖
𝑛 𝑛
𝑦 = 𝐴𝑥𝐵 = 𝟏𝟎𝟎. 𝟏𝟏𝟓𝟏 𝒙𝟎.𝟏𝟏𝟒𝟒
GRAFICA

x yI
3
1 0.8450
2 1.4771 2.5

3 1.9542 2

4 2.2304 Presión
1.5
5 2.4623
6 2.6532 1

7 2.8129 0.5

0
0 1 2 3 4 5 6 7 8

Volumen
ECUACION EXPONENCIAL

Es aquella en la que aparecen exponenciales, es decir, potencias cuyos exponentes son


expresiones en las que aparece la incógnita, x. En esta sección resolveremos ecuaciones
exponenciales sin usar logaritmos.
Con esta formula que se muestra podemos calcular la ecuación de regresión exponencial:

𝑦 = 𝑎𝑒 𝑏𝑥

https://www.matesfacil.com/ESO/exponenciales/ejercicios-
resueltos-ecuaciones-exponenciales.html
ECUACION EXPONENCIAL

Problema 1:

El volumen de ventas mensuales (y) en miles de dólares y los años de experiencia


en ventas (x) registradas de una muestra aleatoria de 6 vendedores de la empresa
“LOZANO” procesadora de alimentos se dan en la siguiente tabla

Años de
1 2 3 4 5 6
experiencia(x)
Volumen de ventas
10 40 120 300 800 500
mensuales (y)

Hallar la ecuación de regresión exponencial: 𝑦 = 𝐴𝑒 𝐵𝑥


x y yI = Ln y xyI (yI )2 x2
1 10 2.3025 2.3025 5.3015 1
2 40 3.6888 7.3776 13.6072 4
3 120 4.7874 14.3622 22.9191 9
4 300 5.7037 22.8148 32.5321 16
5 800 6.6846 33.4230 44.6838 25
6 500 6.2146 37.2876 38.6212 36
Σ = 21 Σ = 1770 Σ = 29.3820 Σ = 117.569 Σ = 157.6649 Σ = 91

Formulas Sustitución
𝑛(∑ 𝑥𝑦 𝑖 ) − (∑ 𝑥)(∑ 𝑦 𝑖 ) 6(117.569) − (21)(29.3820)
𝐵= 𝐵= = 0.010180
2 [ 6(91) − (21)2][ 6(157.6649) − (29.3820)2]
[𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 ] [𝑛 (∑ 𝑦 𝑖 ) − (∑ 𝑦 𝑖
)2 ]
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 → 𝐴 = 𝑦𝑖̅ − 𝐵 ̅
29.3820 21
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝐴𝑖 = − (0.010180) ( ) = 4.86137
6 6
𝑖
𝐴 = 𝑒 𝐴 = 𝑒4.86137 = 129.2010864
GRAFICA

x yI
yI
1 2.3025 yI
8
2 3.6888
7
3 4.7874
6
4 5.7037
5
5 6.6846
4
6 6.2146
3

0
0 1 2 3 4 5 6 7

Años de experiencia en ventas


Problema 2:
Sea el siguiente conjunto de valores, las lecturas de un experimento donde “x” es el volumen
(variable independiente) e “y” es la presión de una masa dada de gas (variable resultante).

x y
1 7
2 30
3 90
4 170
5 290
6 450
7 650
x y yI = Ln y xyI (yI )2 x2
1 7 1.9459 1.9459 3.7865 1
2 30 3.4011 6.8022 11.5674 4
3 90 4.4998 13.4994 20.2482 9
4 170 5.1357 20.5428 26.3754 16
5 290 5.6698 28.349 32.1466 25
6 450 6.1092 36.6552 37.3223 36
7 650 6.4769 45.3383 41.9502 49
Σ = 28 Σ= 1687 Σ = 33.2384 Σ = 153.1328 Σ = 173.3966 Σ = 140
Formulas Sustitución

𝑛(∑𝑥𝑦𝑖) −(∑𝑥)(∑𝑦𝑖) 𝐵=
𝐵= 2 [ 7(140) − (28)2][ 7
[𝑛(∑𝑥2)−(∑𝑥)2][𝑛(∑𝑦𝑖 ) −(∑𝑦𝑖)2]

𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 → 𝐴 = 𝑦̅𝑖− 𝐵 ̅
𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝐴𝑖 =
33.2384
− (0.000001644) ( 28) = 4.7482
7 7
𝑖
∑𝑥 ∑ 𝑦𝑖 𝐴 = 𝑒𝐴 = 𝑒4.7482 = 115.3764
̅= 𝑦̅𝑖=
𝑛 𝑛
𝑦 = 𝐴𝑒𝐵𝑥 = 𝟏𝟏𝟓. 𝟑𝟕𝟔𝟒𝒆𝟎.𝟎𝟎𝟎𝟎𝟎𝟏𝟔𝟒𝟒𝒙
GRAFICA
x yI
7
1 1.9459
2 3.4011 6

3 4.4998
5
4 5.1357
5 5.6698 4

6 6.1092 Presión
3
7 6.4769
2

0
0 1 2 3 4 5 6 7 8

volumen
ECUACION LOGARITMICA

Este modelo de regresión es una alternativa cuando el modelo lineal no logra un


coeficiente de determinación apropiado, o cuando el fenómeno en estudio tiene un
comportamiento que puede considerarse potencial o logarítmico.

𝑦 = 𝐴 + 𝐵 𝐿𝑛 𝑥

http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Ecuaciones
_exponenciales_logaritmicas/Ecu_log.htm
ECUACION LOGARITMICA

Problema 1:

Los siguientes datos son precios en soles (x) y cantidades de ventas (y) en miles de
unidades de un articulo en periodo de 8 meses

Precios en
4 8 12 14 18 23 28 32
soles (x)
Cantidades de
240 200 150 130 100 80 60 30
ventas (y)

Hallar la ecuación de regresión exponencial: 𝑦 = 𝐴 + 𝐵 𝐿𝑛 𝑥


x y xI = Ln x xI y y2 (xI )2
4 240 1.3862 332.688 57600 1.9215
8 200 2.0794 415.880 40000 4.3239
12 150 2.4849 372.735 22500 6.1747
14 130 2.6390 343.070 16900 6.9643
18 100 2.8903 289.030 10000 8.3538
23 80 3.1354 250.832 6400 9.8307
28 60 3.3322 199.932 3600 11.1035
32 30 3.4657 103.971 900 12.0110
Σ = 139 Σ = 990 Σ = 21.4135 Σ = 2308.1935 Σ = 157900 Σ = 60.6858
Formulas Sustitución
𝑛(∑ 𝑥 𝑖 𝑦) − (∑ 𝑥 𝑖 )(∑ 𝑦) 8(2308.1935) − (21.4135)(990)
𝐵=
[𝑛 (∑ 𝑥 𝑖 2 ) − (∑ 𝑥 𝑖 )2 ] [𝑛(∑ 𝑦2 ) − (∑ 𝑦)2 ]
𝐵= =−0.0003583
[ 8(60.6858)−(21.4135)2][8(157900) −(990)2]

𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝑦 𝑖 = 𝐴 + 𝐵 𝑥 𝑖 → 𝐴 = ̅ − 𝐵𝑥̅𝑖
990 21.4135
𝐴= — (−0.0003583)( ) = 123.7509
8 8
GRAFICA
xI y

1.3862 240 y
y
2.0794 200 300

2.4849 150
250
2.639 130

2.8903 100 200


cantidades de ventas
3.1354 80
150
3.3322 60

3.4657 30 100

50

0
0 0.5 1 1.5 2 2.5 3 3.5 4

Precios en soles
Problema 2:
Sea el siguiente conjunto de valores, las lecturas de un experimento donde “x” es el volumen
(variable independiente) e “y” es la presión de una masa dada de gas (variable resultante).

x y
1 7
2 30
3 90
4 170
5 290
6 450
7 650
x y xI = Ln x xI y y2 (xI) 2
1 7 0 0 49 0
2 30 0.6931 20.793 900 0.4803
3 90 1.0986 98.874 8100 1.2069
4 170 1.3862 235.654 28900 1.9215
5 290 1.6094 466.726 84100 2.5901
6 450 1.7917 806.265 202500 3.2101
7 650 1.9459 1264.835 422500 3.7865
Σ = 28 Σ= 1687 Σ = 8.5249 Σ = 2893.147 Σ = 747049 Σ = 13.1954
Formulas Sustitución
𝑛(∑ 𝑥 𝑖 𝑦) − (∑ 𝑥 𝑖 )(∑ 𝑦) 7(2893.147) − (8.5249)(1687)
𝐵= 𝐵= = −0.000003561
2 [ 7(13.1954) − (28)2][ 7(747049) − (1687)2]
[𝑛 (∑ 𝑥 𝑖 ) − (∑ 𝑥 𝑖 )2 ] [𝑛(∑ 𝑦2 ) − (∑ 𝑦)2 ]

𝑦 𝑖 = 𝐴𝑖 + 𝐵𝑥 𝑖 𝑦 𝑖 = 𝐴 + 𝐵 𝑥 𝑖 → 𝐴 = ̅ − 𝐵𝑥 𝑖̅
1687 28
𝐴= — (−0.000003561) ( ) = 241.0000142
7 7
∑ 𝑥𝑖 ∑𝑦
𝑥̅𝑖= ̅= 𝑦 = 𝐴 + 𝐵 𝐿𝑛 𝑥
𝑛 𝑛
= 𝟐𝟒𝟏. 𝟎𝟎𝟎𝟎𝟏𝟒𝟐 − 𝟎. 𝟎𝟎𝟎𝟎𝟎𝟑𝟓𝟔𝟏 𝑳𝒏
𝒙
GRAFICA

xI y
0 7 Y
700
0.6931 30
1.0986 90 600

1.3862 170
500
1.6094 290
400
1.7917 450
1.9459 650 300

200

Presión
100

0
0 0.5 1 1.5 2 2.5

Volumen
GRAFICA
Potencial Exponencial
7
6.4769
6 6.1092
5.6698

5 5.1357

4.4998
4

3.4011
3
2.8129
2.6532
2.4623
2.2304
2 1.9459 1.9542
1.4771
1
0.845

0
1 2 3 4 5 6 7
Diseño de experimentos
Diseñar un experimento significa planear un experimento de modo que reúna la información pertinente al problema
bajo investigación. El diseño de un experimento es la secuencia completa de pasos tomados de antemano para
asegurar que los datos apropiados se obtendrán de modo que permitan un análisis objetivo que conduzca a
deducciones válidas con respecto al problema establecido.

Principios básicos del diseño de experimentos


1.- Reproducción. Proporciona una estimación del error experimental. Permite obtener una estimación más precisa del
efecto medio de cualquier factor.
2.- Aleatorización. Asignación al azar de tratamiento a las unidades experimentales. Una suposición frecuente en los
modelos estadísticos de diseño de experimentos en que las observaciones o los errores en ellas están distribuidos
independientemente. La aleatorización hace válida esta suposición
3.- Control Local. Cantidad de balanceo, bloqueo y agrupamiento de las unidades experimentales que se emplean en
el diseño estadístico adaptado.

https://www.gestiopolis.com/diseno-de-experimentos-en-la-estadistica-aplicada/.
Análisis de varianzas para un criterio o
un factor

https://www.gestiopolis.com/diseno-de-experimentos-en-la-estadistica-aplicada/.
Distingo entre bloques aleatorios y no aleatorios

Se puede distinguir un problema de no bloques contra uno de bloques desde que se muestran los datos, ya que
en la forma de ser acomodados los de no bloques solo se dividen por tratamientos solamente, mientras que los
de bloques están divididos en tratamientos y aparte seccionados en bloques, esto para saber como actúa cada
tratamiento aplicado en cada unidad experimental de la que se tomaron los datos. El diseño de bloque
aleatorizado identifica dos factores: tratamientos y bloques, los cuales afectan la respuesta obtenida en el
experimento.
Un diseño de bloque aleatorizado no debe usarse cuando tanto tratamientos como bloques corresponden a
factores experimentales de interés para el investigador. Al diseñar un factor como bloque, puede suponer que el
efecto del tratamiento será el mismo, cualquiera que sea el bloque que utilice. Si éste no es el caso, los dos
factores, bloques y tratamientos, se dice que interactúan y el análisis podría llevar a conclusiones incorrectas
respectoa la relación entre los tratamientos y la respuesta.
Recuerde que el bloqueo puede no ser siempre benéfico. Cuando el SCB se elimine del SCE, el número de
grados de libertad asociado con el SCE se reduce. Para que el bloqueo sea benéfico, la información ganada al
aislar la variación de bloque debe importar más que la pérdida de grados de libertad por error, pero, por lo
general, si se sospecha que las unidades experimentales no son homogéneas y se pueden agrupar las unidades
en bloques, es bueno usar el diseño de bloque aleatorizado.

https://www.gestiopolis.com/diseno-de-experimentos-en-la-estadistica-aplicada/.
Análisis de varianza para la clasificación unilateral
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios
Tratamientos SCT

Error SCE

Tabla Total STC


ANOVA de
Análisis de varianza para el diseño de bloques completos aleatorios
bloques
aleatorios y Fuente de Grados de
Suma de cuadrados Media cuadrática
no variación Libertad
aleatorios.
Tratamientos

Bloques

Error (dentro de
los
tratamientos)

Total
Prueba de Tukey

https://es.slideshare.net/erikapuerto/prueba-de-tukey.
Prueba de Duncan

https://estadisticaorquestainstrumento.wordpress.com/2013/01/28/test-de-duncan/.
Análisis de la varianza para dos factores

https://rpubs.com/Joaquin_AR/219504
Prueba de Krustall Wallis

https://rpubs.com/Joaquin_AR/219504
Planteamiento mediante bloques no aleatorios

Uno de los diseños experimentales más sencillos es el diseño completamente aleatorizado o de


no bloques, en el que muestras aleatorias se seleccionan de manera independiente de cada una
de k poblaciones. Este diseño comprende sólo un factor, la población de donde proviene la
medición, de aquí la designación como una clasificación en una dirección. Hay k niveles
diferentes correspondientes a las k poblaciones, que también son los tratamientos para esta
clasificación de una dirección. No obstante, se debe recordar que cada prueba que se realice está
sujeta a la posibilidad de error. Para comparar k=4 medias, se necesitarían seis pruebas y se
necesitarían 10 pruebas para comparar k=5 medias. Cuantas más pruebas se realicen en un
conjunto de mediciones, más probable será que al menos una de las conclusiones sea incorrecta.
El análisis de procedimiento de varianza provee una prueba general para juzgar la igualdad de las k
medias poblacionales.

Bibliografía
Libro: Introducción a la probabilidad y estadística.
Planteamiento mediante bloques no
Problema 1
aleatorios
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la
absorción media de humedad del concreto varía para 5 agregados de concreto diferentes. Las
muestras se exponen a la humedad durante 48 horas y se decide que para cada agregado
deben probarse 6 muestras, lo que haceque se requiera probarun total de 30 muestras.

Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3664 16, 854
Media 553.33 596.33 610.50 465.17 610.67 561.80
Análisis de varianza para la clasificación unilateral
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios
Tratamientos SCT

Error SCE

Total STC

Análisis de varianza para la clasificación unilateral


Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios
Tratamientos 6536.6 21339.15
Error 124021 4960.84
Total 209377 26299.99
Gráfica

0
0.17 2.76 4.30

Fórmula Sustitución Valor Critico

Bibliografía
Probabilidad y Estadística para
Ingenieros. Walpole No. 9 edición.
Prueba de Tukey

https://es.slideshare.net/erikapuerto/prueba-de-tukey.
Planteamiento mediante bloques no
Problema 1
aleatorios
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la
absorción media de humedad del concreto varía para 5 agregados de concreto diferentes. Las
muestras se exponen a la humedad durante 48 horas y se decide que para cada agregado
deben probarse 6 muestras, lo que haceque se requiera probarun total de 30 muestras.

Agregad 1 2 3 4 5
o
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3664 16, 854
Media 553.33 596.33 610.50 465.17 610.67 561.80
Humedad absorbida en mezclas de concreto

Mezcla 1 2 3 4 5

1 551.00 595.00 639.00 417.00 563.00 553

2 457.00 580.00 615.00 449.00 631.00 546.4

3 450.00 508.00 511.00 517.00 522.00 501.6

4 731.00 583.00 573.00 438.00 613.00 587.6

5 499.00 633.00 648.00 415.00 656.00 570.2

6 632.00 517.00 677.00 555.00 679.00 612

Total 3320.00 3416.00 3663.00 2791.00 3664.00 3370.8

553.33 569.33 610.50 465.17 610.67 561.80


Grado de Valor de
Se interpola el valor Libertad Tablas
con el grado de
libertad 25 24 4.17
25 X
30 4.11
Medias: 553.33 569.33 610.50 465.17 610.67
Diferencia de
Medias
465.17
553.33
569.33
610.5
610.67

Diferencia de
Medias
465.17 145.5 145.33 104.16 88.16
553.33 57.34 57.17 16
569.33 41.34 41.17
610.5 0.17
610.67
Comparando el resultado con q

Diferencia de
Medias
465.17 145.5 145.33 104.16 88.16
553.33 57.34 57.17 16
569.33 41.34 41.17 Media Igual
610.5 0.17 Media Diferen te
610.67
Prueba de Duncan

https://estadisticaorquestainstrumento.wordpress.com/2013/01/28/test-de-duncan/.
Planteamiento mediante bloques no
Problema 1 aleatorios
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la
absorción media de humedad del concreto varía para 5 agregados de concreto diferentes. Las
muestras se exponen a la humedad durante 48 horas y se decide que para cada agregado
deben probarse 6 muestras, lo que haceque se requiera probar un total de 30 muestras.

Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3664 16, 854
Media 553.33 596.33 610.50 465.17 610.67 561.80
Sustitución
Se entra con la Tabla de rangos estudentizados

γ P
2 3 4 5
24 2.919 3.066 3.16 3.226
25 2.9125 3.060 3.155 3.221
30 2.88 3.035 3.131 3.199

Se interpola los valores del 25*


⚫ma 2
Proble

Tiempo en segundos para ensamblar el producto.


Maquina Operador: 1 2 3 4 5 6 Total Medias
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8 41.3
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3 41.3833
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4 42.5666
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4 43.2333
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9 42.1208
Medias 40.95 40.525 41.225 42.45 44.05 43.525
Sustitución
Tabla: Análisis de varianza para el diseño de bloques completos Grafica
aleatorios

Fuente de Suma de Media


Grados de Libertad cuadrática
variación cuadrados

Maquinas 3

Operadores 0.149 3.2 3 33

Error 15
0.149 3.29 3.33

Total 23 15.3

3
15 3.29

15
=1
=0.1149 3 8.70
8.70
Prueba de Tukey

https://es.slideshare.net/erikapuerto/prueba-de-tukey.
⚫ma 1
Proble

Tiempo en segundos para ensamblar el producto.


Maquina Operador: 1 2 3 4 5 6 Total Medias
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8 41.3
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3 41.3833
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4 42.5666
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4 43.2333
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9 42.1208
Medias 40.95 40.525 41.225 42.45 44.05 43.525
Operador
Máquina 1 2 3 4 5 6 Total Medias
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8 41.3
2 39.8 40.1 40.5 42.5 42.5 43.1 248.5 41.42
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4 42.57
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4 43.23
Total 163.8 162.1 164.9 170 176.2 174.1
Medias 40.95 40.525 41.225 42.5 44.05 43.525
Medias:

Operador 1 2 3 4 5 6
Medias 40.95 40.525 41.225 42.45 44.05 43.525

Formula y sustitución:

Tabla:
Puntos porcentuales superioresde la distribución de rango studentizado.

Grados de k
libertad 6
Numero de comparaciones: 15 4.59
Medias: 40.95 40.52 41.22 42.45 44.05 43.52

Comparando el resultado con q

0
Media Igual
0 Media Diferente
0

0
⚫ma 2
Proble

Tiempo en segundos para ensamblar el producto.


Maquina Operador: 1 2 3 4 5 6 Total Medias
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8 41.3
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3 41.3833
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4 42.5666
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4 43.2333
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9 42.1208
Medias 40.95 40.525 41.225 42.45 44.05 43.525
Operador
Máquina 1 2 3 4 5 6 Total Medias
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8 41.3
2 39.8 40.1 40.5 42.5 42.5 43.1 248.5 41.42
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4 42.57
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4 43.23
Total 163.8 162.1 164.9 170 176.2 174.1
Medias 40.95 40.525 41.225 42.5 44.05 43.525

41.3 41.38 42.56 43.23


Se entra con la Tablade rangos estudentizados

γ P
2 3 4
15 3.014 3.16 3.25
Diferencia de
Medias
41.3

41.42
Condición

42.57 Si el valor de Rp es menor que el


valor de la diferencia de medias,
43.23 estas medias son diferentes

Diferencia de Medias

41.3 1.93>2.04 1.27<1.99 0.12<1.90


41.42 1.81>1.99 1.15<1.90 Media Diferen te
42.57 0.66<1.90 Media Igual
43.23
Conclusión
Hay dos medias en las maquinas que no es igual a
cero.
M4-M1 y M4-M2
Análisis de la varianza para dos factores

https://rpubs.com/Joaquin_AR/219504
Problema 1
En un experimento realizado para determinar cuál de 3 sistemas de misiles distintos es preferible,
se midió la tasa de combustión del propulsor para 24 arranques estáticos. Se emplearon 4 tipos de
combustible diferentes y el experimento generó observaciones duplicadas de las tasas de
combustión para cada combinación de los tratamientos.

Tipo de propulsor
Sistema de
misil
34.0 30.1 29.8 29.0
32.7 32.8 26.7 28.9
32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Formulas:

a-1 (a-1)(b-1) ab(n-1)

b-1 ab(n-1)
Sustitución:
Formulas:

a-1 (a-1)(b-1) ab(n-1)

b-1 ab(n-1)
Sustitución:
Tabla ANOVA:

Fuente de Suma Grados de Cuadrados


varianza decuadrados libertad medios Calculada

Sistema de
2
misiles

Tipo de
3
propulsor

Interacción 6

Error 12

Total 23
Tabla 1: Valores críticos de la distribución F

2 12
12 3.89 2 19.41
Grafica:

Referencia:
Probabilidad y Estadística
para ingeniería y ciencias,
novena edición, Ronald E.
0
0.1715 5.85 Walpole , Raymond H.
Myers , Sharon L. Myers,
editorial Pearson, 2012
Conclusión:
Tabla 2: Valores críticos de la distribución F

3 12
12 3.49 3 8.74
Grafica:

Referencia:
Probabilidad y Estadística
para ingeniería y ciencias,
novena edición, Ronald E.
0 Walpole , Raymond H.
3.49 10.77
Myers , Sharon L. Myers,
editorial Pearson, 2012
Conclusión:
Tabla 3: Valores críticos de la distribución F

6 12
12 3.00 6 4.00

Grafica:

Referencia:
Probabilidad y Estadística
para ingeniería y ciencias,
novena edición, Ronald E.
0 Walpole , Raymond H.
2.97 3.00
Myers , Sharon L. Myers,
editorial Pearson, 2012
Conclusión:
Prueba de Krustall Wallis

https://rpubs.com/Joaquin_AR/219504
¿Cuándo se aplica?

https://previa.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factor-lectura.pdf
Problema 1

En un experimento realizado para determinar cuál de 3 sistemas de misiles distintos es


preferible, se midió la tasa de combustión del propulsor para 24 arranques estáticos. Se
emplearon 4 tipos de combustible diferentes y el experimento generó observaciones duplicadas
de las tasas de combustión para cada combinación de los tratamientos.

Tipo de propulsor
Sistema de
misil
34.0 30.1 29.8 29.0
32.7 32.8 26.7 28.9
32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Tabla de rangos:

Tasas de consumo de los propulsores

Tipo de
propulsor: Rango Rango Rango Rango

34.0 24 30.1 18 29.8 16.5 29.0 12

32.7 21 32.8 22 26.7 1 28.9 10.5

32.0 20 30.2 19 28.7 8 27.6 4

33.2 23 29.8 16.5 28.1 6 27.8 5

28.4 7 27.3 2.5 29.7 15 28.8 9

29.3 14 28.9 10.5 27.3 2.5 29.1 13


Suma de
rangos
Datos: Tabla:
Valores críticos de la distribución ji cuadrada

3 9.3448 3 0.216
Formula:

Sustitución:
Grafica:

0
0.216 8.255 9.3448

Conclusión:
Se acepta H0, no hay diferencia en las tasas medias de combustión del propulsor
cuando se emplean diferentes sistemas de misiles.

Referencia:
Probabilidad y Estadística para ingenieríay ciencias, novena edición, Ronald E.
Walpole , Raymond H. Myers , Sharon L. Myers, editorial Pearson, 2012.
PLANTEAMIENTO

Se tienen tres especies de cítricos a los cuales se mide la razón entre el área de las hojas y el peso
seco, bajo 3 condiciones de sombra (sol, semisombra y sombra).

Encuentre si existe una diferencia entre los valores obtenidos con una significancia del 5%
ANÁLISIS DE VARIANZA PARA
UN CRITERIO POR BLOQUES

Naranja Pomelo Mandarina Totales


H0: µ1 = µ2 = µ3 = µ4 = µ5 = µ6
SOL 112 90 123 325 H1: Al menos dos no son
SEMISOMBRA 86 73 89 248 significativas.
SOMBRA 80 62 81 223
Donde:
Total 278 225 293 796 a=3
b=3
N=9
SUMA DE CUADRADOS TOTAL

Naranja Pomelo Mandarina Totales


SOL 112 90 123 325
SEMISOMBRA 86 73 89 248
SOMBRA 80 62 81 223
Total 278 225 293 796

  y  Y2
2
SSA  i j ij 
N
2
796
SSA  (112 2  862  ...  812 )   2,822.23
9
SUMA DE CUADRADOS DEL TRATAMIENTO
Naranja Pomelo Mandarina Totales
SOL 112 90 123 325
SEMISOMBRA 86 73 89 248
2 SOMBRA 80 62 81 223
1 Y
SSA   i yi 
2
Total 278 225 293 796

a N
2 SSA
1
SSA  (3252  2482  2232 )  796
 1,884.23 S  2

k 1
1
3 9

1884.23
S 
1
2
 942.115
2
SUMA DE CUADRADOS DEL BLOQUE
Naranja Pomelo Mandarina Totales
2
Y
SSB   j y j 
1 2 SOL 112 90 123 325
b N SEMISOMBRA 86 73 89 248
SOMBRA 80 62 81 223
Total 278 225 293 796

2
1
SSB  (278  225  293 )  796
2 2 2
 850.89 SSB
3 9 S 22 
k 1

850.89
S  2
2  425.44
2
SUMA DE CUADRADOS DEL ERROR
Naranja Pomelo Mandarina Totales

SSE  SST  SSA  SSB SOL


SEMISOMBRA
112
86
90
73
123
89
325
248
SOMBRA 80 62 81 223
Total 278 225 293 796
2
796
SSA  (112 2  862  ... 812 )   2,822.23 SSE
9 S32 
1 796 2 (b 1)(a 1)
SSA  (3252  2482  2232 )   1,884.23
3 9 2 87.11
1 796 S 
2
 9.67
SSB  (278  225  293 ) 
2 2 2
 850.89 3
9
3 9
S12 942.11
SSE  2822.23 1884.23 850.89  87.11 f  2
S3
 97.42
9.67
Fuente de Suma de Grados de Cuadrados medios
varianza cuadrados libertad Calculada

Tratamientos 𝑺𝑺𝑨 = 1884.23 2 𝑺𝟐𝟏 = 942.11

Bloques SSB = 850.89 2 𝑺𝟐𝟐 = 425.44


𝒇 = 97.42
Error 𝑺𝑺𝑬 = 87.11 4 𝑺𝟐 3= 9.67

Total 8
𝑺𝑺𝑻 = 2822.23
TOMA DE DECISIÓN
La hipótesis nula H0 se rechaza en el nivel de significancia
cuando

2
4 6.94 97.42  6.94
CONCLUSIÓN
Se rechaza H0, por lo menos 2 de los tamaños si
varían.

BIBLIOGRAFÍA
Libro: Estadística
Autor: Murray R. Spiegel
PRUEBA DE TUKEY

Sirve para probar todas las diferencias entre las medidas de tratamientos de un experimento es decir cuando
H0 ha sido rechazada. La única exigencia es que el número de repeticiones sea constante en todos los
tratamientos. Sirve para comprobar las medidas de los tratamientos dos a dos.
Ahora para realizar la prueba de Tukey utilizamos las medias de cada muestra ordenadas de menor a mayor ,
las cuales pondremos a continuación:

Naranja Pomelo Mandarina Totales Medias

SOL 112 90 123 325 108.33


SEMISOMBR 86 73 89 248 82.66
A
SOMBRA 80 62 81 223 74.33
Total 278 225 293 796

M1 M2 M3
108.33 82.66 74.33
APLICACIÓN DE LA FORMULA TABLA PUNTOS
PORCENTUALES DE RANGOS
ESTUDENTIZADOS
Después aplicamos la fórmula de la ley de Tukey la cual es la

1
siguiente:

2
3

4 6.50

Fuente de Suma de Grados de Cuadrados medios


varianza cuadrados libertad
Calculada
SUSTITUCIÓN

𝑺𝑺𝑨 = 1884.23 𝑺𝟐𝟏 =


Tratamientos 2
942.11
9.67
q  6.5  11.66 Bloques SSB = 850.89 2
3 𝑺𝟐𝟐 = 425.44
𝒇 = 97.42
Error 𝑺𝑺𝑬 = 87.11 4 𝑺𝟐 3= 9.67

Total 𝑺𝑺𝑻 = 2822.23 8


OBTENCIÓN DE MEDIAS DIFERENTES Comparaciones = k(k-1)/2
Comparaciones = 3(3-1)/2 =
3
M1 M2 M3
108.33 82.66 74.33

M1
108.33
M2
82.66
M3
74.33 q  11.66
M3 74.33 34 8.33 - Si q es menor que el valor de
la diferencia de las medias,
M2 82.66 25.37 -
las medias son diferentes.
M1 108.33 -

M1 M2 M3
108.33 82.66 74.33 Se puede concluirque hay una variación
entre las siguientes medias con una
M3 74.33 34 8.33 -
significancia mayoral 0.5
M2 82.66 25.37 -
M1 108.33 - • M1-M3
• M1-M2
PRUEBA DE DUNCAN

Este procedimiento se basa en la noción general de un rango utilizado. El rango de cualquier subconjunto
de p medias muéstrales debe exceder cierto valor antes de que encuentre que cualquiera de las p medias
es diferente. Este valor se llama rango de menor significancia para las p medias y se denota como Rp.

Los siguientes datos se obtienen de la tabla de la prueba de Duncan con una significancia
del .05 y 4 grados de libertad.

M1 M2 M3
108.33 82.66 74.33

S22 rp= Es el dato obtenido de la tabla


D  rp
n
SUSTITUCIÓN
Se procedea realizar los cálculos para cada uno de los rangos.

Tabla de Duncan (Rangos


estandarizados para rp)
2
S 2 3
D  rp 2
3.92 4.01
n
Fuente de Suma de Grados de Cuadrados medios
varianza cuadrados libertad Calculada

9.67
D2  3.92  7.03 Tratamientos 𝑺𝑺𝑨 = 1884.23 2
𝑺𝟐𝟏 =

3 942.11

Bloques SSB = 850.89 2 𝑺𝟐𝟐 = 425.44


𝒇 = 97.42
Error 𝑺𝑺𝑬 = 87.11 4 𝑺𝟐 3= 9.67

9.67
D3  4.01  7.19 Total
𝑺𝑺𝑻 = 2822.23
8
3
Si el valor de D es menor que el
valor de la diferencia de medias,
estas medias son diferentes

Método de Comparación Comparación de Medias


M1 M2 M3 M1 M2 M3

145.6 142 129 108.33 82.66 74.33

M3 128 D3 D2 - M3 74.33 34 8.33 -

M2 128 D2 - M2 82.66 25.37 -

M1 128.3 - M1 108.33 -

Se puede concluirque hay una variación


entre las siguientes medias con una
significancia mayoral 0.5
D2=7.03
M1-M3
D3=7.19 M1-M2
M2-M3
ANÁLISIS DE VARIANZA PARA UN CRITERIO POR NO
BLOQUES
PLANTEAMIENTO

Se realizan 3 pruebas de la resistencia a la compresión en seis muestras de tubo de acero 2-


20. La fuerza que fractura cada muestra esta medida en pascales y está dada en la siguiente
tabla:
1 2 3 4 5 6

127 126 130 139 128 140

129 130 128 138 127 137

128 128 129 145 130 150

Realice el análisis de variancia a nivel de significancia de .05, e identifique si las


resistencias promedio a la compresión difieren o no significativamente para las 6
máquinas.
TABLA ANOVA H0: µ1 = µ2 = µ3 = µ4
= µ5 = µ6
H1: Al menos dos no
Fuente de Suma de cuadrados Grados de Cuadrados
Calculada son significativas.
varianza libertad medios

Maquinas K-1
Donde “k” es igual al
número de muestras
𝒌=𝟔
Error 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴 k(n-1)
Donde “n” es igual al
número de pruebas
𝒏=𝟑
Total nk-1
MUESTRAS

1 2 3 4 5 6

127 126 130 145 128 150


129 130 128 140 127 137

128 128 129 141 130 150

total 384 384 387 426 385 437 2403

media 128 128 129 142 128.3 145.6 800.9


SUMA DE CUADRADOS TOTAL
MUESTRA
S

T
2 1 2 3 4 5 6
k n 127 126 130 145 128
SST   y
i j ij 150
2
ij  129 130 128 140 127 137
i0 j 0 nk 128 128 129 141 130 150

 T   2403
i j ij
2 2
total

media
384

128
384

128
387

129
426

142
385

128.3
437

145.6
2403

800.9

k n

 ij
y 2

i0 j0
127 2
129 2
128 2
 ...150 2
 321927

24032
SST  321927   1126.5
18
SUMA DE CUADRADOS DEL TRATAMIENTO

SSA  
k
Ti 2  T  ij
2 MUESTRAS


i j 1 2 3 4 5 6

i0 k nk 127 126 130 145 128 150

  T   2403
129 130 128 140 127 137
2 2
128 128 129 141 130 150
i j ij

k total 384 384 387 426 385 437 2403

i
T 2
 384 2
 3842  ...  437 2  965351 media 128 128 129 142 128.3 145.6 800.9
i

SSA
965351 24032 S  2

SSA    983.16 k 1
1

3 18
983.16
S 
1
2
 196.63
5
SUMA DE CUADRADOS DEL ERROR
MUESTRA
S

SSE  SST  SSA 1


127
2
126
3
130
4
145 128
5 6
150

129 130 128 140 127 137


2
2403
SST  321927   1126.5 128 128 129 141 130 150

18 total 384 384 387 426 385 437 2403

media 128 128 129 142 128.3 145.6 800.9


2
965351 2403
SSA    983.16 SSE
3 18 S  2
S22 
143.34
 11.94
k(n 1)
2
12
SSE  1126.5  983.16  143.34 S12 196.63
f  2  16.46
S1 11.94
TABLA ANOVA PARA UN CRITERIO

Fuente de Suma de Grados de Cuadrados medios


varianza cuadrados libertad
Calculada

Maquinas 𝑺𝑺𝑨 = 983.16 5 𝑺𝟐𝟏 =196.63


𝒇 = 16.46
Error 𝑺𝑺𝑬 = 143.34 12 𝑺𝟐 = 11.94
𝟐

Total 𝑺𝑺𝑻 = 1126.5 17


Tabla valores
TOMA DE DECISIÓN
críticos de la La hipótesis nula H0 se rechaza en el nivel de significancia
distribución f cuando

12
5
3.11
16.46  3.11
CONCLUSIÓN
Se rechaza H0, las resistencias si varían, por lo
menos 2.

BIBLIOGRAFÍA
Libro: Estadística
Autor: Murray R. Spiegel
PRUEBA DE TUKEY
Sirve para probar todas las diferencias entre las medidas de tratamientos de un experimento es decir cuando
H0 ha sido rechazada. La única exigencia es que el número de repeticiones sea constante en todos los
tratamientos. Sirve para comprobar las medidas de los tratamientos dos a dos.
Ahora para realizar la prueba de Tukey utilizamos las medias de cada muestra ordenadas de menor a mayor ,
las cuales pondremos a continuación:

MUESTRA
1 2 3 4 5 6

́𝟏 ́𝟐 ́𝟑 ́𝟒 ́𝟓 ́𝟔

Media 128 128 129 142 128.3 145.6 800.9


TABLA PUNTOS
APLICACIÓN DE LA FORMULA PORCENTUALES DE RANGOS
ESTUDENTIZADOS

Después aplicamos la fórmula de la ley de Tukey la cual es


la siguiente:
1
2
6

12 3.00

Fuente de Suma de Grados de Cuadrados medios


varianza cuadrados libertad
Calculada

SUSTITUCIÓN
𝑺𝑺𝑨 = 983.16
Maquinas 5 𝑺𝟐
𝟏 =196.63
11.94
q3  5.98 𝒇 = 16.46
3 Error 𝑺𝑺𝑬 = 143.34 12 𝑺𝟐𝟐 = 11.94

𝑺𝑺𝑻 = 1126.5
Total 17
OBTENCIÓN DE MEDIAS DIFERENTES

́𝟏 ́𝟐 ́𝟑 ́𝟒 ́𝟓 ́𝟔
128 128 129 142 128.3 145.6

M6 M4 M3 M5 M2 M1
145.6 142 129 128.3 128 128
M1
M2
128
128
17.6*
17.6*
14*
14*
1
1
0.3
0.3
0
-
-
-
q  5.98
M5 128.3 17.3* 13.7* 0.7 - - -
Si q es menor que el valor de
M3 129 16.6* 13* - - - - la diferencia de las medias,
M4 142 3.6 - - - - - las medias son diferentes.
M6 145.6 - - - - - -

CONCLUSIÓN • M6-M1
• M6-M2 • M4-M1
Se puede concluirque hay una variación entre • M6-M5 • M4-M2
las siguientes medias con una significancia • M6-M3 • M4-M5
mayor al 0.5 • M4-M3
PRUEBA DE DUNCAN

Este procedimiento se basa en la noción general de un rango utilizado. El rango de cualquier subconjunto
de p medias muéstrales debe exceder cierto valor antes de que encuentre que cualquiera de las p medias
es diferente. Este valor se llama rango de menor significancia para las p medias y se denota como Rp.

́𝟏 ́𝟐 ́𝟑 ́𝟒 ́𝟓 ́𝟔
128 128 129 142 128.3 145.6

S22 rp= es el dato obtenido de la tabla


D  rp
n
SUSTITUCIÓN

Se procede a realizar los cálculos para cada uno de los rangos.

11.94
S 2 D5  3.36  6.68
D  rp 2 3
n 11.94
D6  3.40  6.76 TABLA DE VALORES ESTUDENTIZADOS DE Rp
3
11.94
D2  3.06  6.10 2 3 4 5 6
3 D2=6.10 3.06 3.29 3.33 3.36 3.40
D3=6.54
11.94
D3  3.29  6.54 D4=6.62
3 D5=6.68
D6=6.76
11.94
D4  3.33  6.62
3
M6 M4 M3 M5 M2 M1 D2=6.10
145.6 142 129 128.3 128 128 D3=6.54
D4=6.62
M1 128 D6 D5 D4 D3 D2 -
D5=6.68 Si el valor de D es menorque el
M2 128 D5 D4 D3 D2 - - valor de la diferencia de medias,
D6=6.76
estas medias son diferentes
M5 128.3 D4 D3 D2 - - -

M3 129 D3 D4 - - - -

M4 142 D2 - - - - -
CONCLUSIÓN
M6 145.6 - - - - - - Se puede concluirque hay una
variación entre las siguientes
medias con una significancia
M6 M4 M3 M5 M2 M1
mayoral 0.5
145.6 142 129 128.3 128 128
• M6-M1
M1 128 17.6* 14* 1 0.3 0 - • M6-M2
M2 128 17.6* 14* 1 0.3 - - • M6-M5
• M6-M3
M5 128.3 17.3* 13.7* 0.7 - - -
M3 129 16.6* 13* - - - - • M4-M1
M4 142 3.6 - - - - - • M4-M2
• M4-M5
M 145.6 - - - - - -
• M4-M3
6
ANÁLISIS DE VARIANZA PARA
DOS CRITERIOS
PLANTEAMIENTO
ANÁLISIS DE VARIANZA PARA DOS CRITERIOS
Suponga que usted haya experimentado con levadura para una receta de panes dulces. Parece ser
que la cantidad de azúcar y la temperatura del agua afectan el tamaño de los panes. Basándose en
los siguientes datos, usted realiza un análisis de varianza para averiguar lo que es significativo de
estas recetas.

Tamaño de los panes dulces


Levadura:
Agua Fría Agua Tibia Agua caliente
76 87 60
Poco azúcar
75 85 55
70 79 52
Mucho azúcar
69 78 50
Tabla de sumas y medias. Y Tabla de sumas por grupos.

B1 B2 B3
76 87 60
A1
75 85 55
70 79 52
A2
69 78 50 TOTAL
TOTAL 290 329 217 836
MEDIAS 72.5 82.25 54.25 209

B1 B2 B3 TOTAL
A1 151 172 115 438
A2 139 157 102 398
TOTAL 290 329 217
TABLA ANOVA PARA DOS CRITERIOS

Fuente de Suma de Grados de


Cuadrados Medios
Variación Cuadrados Libertad

A SSA a-1

B SSB b-1

AB SS(AB) (a-1)(b-1)

Error SSE ab(n-1)

Total SST abn-1


B1 B2 B3 TOTAL
A1 151 172 115 438
A2 139 157 102 398
TOTAL 290 329 217

B1 B2 B3
76 87 60
A1
75 85 55
70 79 52
A2
69 78 50 TOTAL
TOTAL 290 329 217 836
MEDIAS 72.5 82.25 54.25 209
SUSTITUCIÓN
SUSTITUCIÓN
Tabla Valores Críticos de la Distribución F
Resultados en Tabla ANOVA

Fuente de Suma de Grados de Cuadrados


Variación Cuadrados Libertad Medios

1 2
A 1
6 5.99 5.14
B 2
AB 2
Error 6
Total 11
PRUEBA DE KRUSKAL-WALLIS
PROBLEMA 1

B1 RANGO B2 RANGO B3 RANGO


76 8 87 12 60 4
A1
75 7 85 11 55 3
70 6 79 10 52 2
A2
69 5 78 9 50 1
TOTAL 290 26 329 42 217 10
n 72.5 4 82.25 4 54.25 4
Se usa la tabla α
0.05

11 19.67

Conclusión: Se acepta Ho. Las medias de cada muestra


son idénticas en términos del tamaño de pan. Esto quiere
decir que provienen de muestras idénticas o “de la misma
población de panes”.

También podría gustarte