Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 1 Doctorado en Ciencias Ambientales
Clase 1 Doctorado en Ciencias Ambientales
ESCUELA DE POSGRADO
ASIGNATURA : TESIS V
SUMILLA
Redacción del informe final de la tesis, basado en la información obtenida en
las etapas de elaboración y ejecución del proyecto realizado conforme a las
pautas de la estructura de la tesis aprobada por la Escuela.
LIBRO
, . . .
Apellido inicial de nombres(s) (Año) Título del libro (Edición de
, . .
Apellido inicial de nombre(s) (Año) Título del capítulo o artículo .
: ,
En Apellidos de los editores (Editores) Título del libro (páginas del
. :
capítulo o artículo) Ciudad Editorial .
EDITOR
, . .. .
Apellido inicial de nombre(s) del editor (Ed ) (Año) Título del
TESIS
, . . .
Apellido inicial de nombre(s) (Año) Título Tesis para optar el
, :
grado de ... Ciudad Nombre completo de la Universidad .
ARTÍCULO CIENTÍFICO
, . . .
Apellido inicial de nombre(s) (Año) Título del artículo Nombre
,
de la revista Volumen (Número del fascículo), Número de
páginas.
INTERNET
, . . .
Apellido inicial de nombre(s) Año) Título del artículo Nombre de
ARTÍCULO DE PERIÓDICO
, . .
Apellido inicial de nombres(s) (Año mes día) Título del artículo.
Nombre del periódico, (Cuando es pertinente sección y columna) p.
TABLAS Y FIGURAS
Tabla 1
Alumnos según Escuela Profesional de la Facultad de Ingeniería
Agraria, Industrias Alimentarias y Ambiental.
Escuela Número
Ingeniería Zootécnica 250
Ingeniería Agrónomica 300
Ingeniería en Industrias Alimentarias 240
Ingeniería Ambiental 290
Total 1080
Nota: Tomado de Velásquez (2016).
ESTADÍSTICA
MUESTRA
se recolectan
se extrae
POBLACIÓN DATOS
Inferencia
(probabilidades)
DIVISIÓN DE LA ESTADÍSTICA
CONCEPTOS BASICOS
POBLACIÓN
Ejemplos
MUESTRA
VARIABLE
OBSERVACIÓN O REGISTRO
Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo.
Pueden ser nominal y ordinal. En la variable nominal sus valores posibles no
tienen un orden de importancia. En la variable ordinal sí se puede establecer un
criterio de orden o jerarquía entre sus atributos de la variable.
VARIABLES CUANTITATIVAS
Continua Discreta
Peso al destete Número de huevos puestos/semana
Ganancia de peso Número de crías/parto
Consumo de alimento Número de óvulos/celo
Lana a la primera esquila Número de Glándulas sudoríparas/cm 2
Ingreso por venta de carne Número de papilas gustativas/cm2
Perímetro torácico Número de células somáticas/mL
MEDIDAS ESTADÍSTICAS
ORGANIZACIÓN DE DATOS
VARIABLE CUALITATIVA
Las tablas de frecuencia para este tipo de variable (Nominal y/o Jerárquica)
muestran las clases o categorías, frecuencias absolutas, relativas y porcentaje.
Tabla 3. Causas de descarte en un establo lechero
Frecuencia Frecuencia
Causa Porcentaje
absoluta relativa
Problemas reproductivos 508 0,3508 35,08
Problemas de ubre 297 0,2051 20,51
Aparato locomotor y traumatismos 162 0,1119 11,19
Problemas peripartales 163 0,1126 11,26
Emergencia 181 0,1250 12,50
Otros 137 0,0946 9,46
Total 1448 1,0000 100
Fuente: Adaptado de Paz (2010). Causas de descarte en vacunos lecheros.
Gráfico de barras
Cuando se desea dar idea de altura mostrando los conteos en las diferentes
categorías. Las barras pueden representar categorías de una variable o más
variables (Figuras 7 - 9).
12
10
Conteo
8
6
6
5
4
4
3
0
terneras terneros vacas vaquillas vaquillonas
Categoría
Sistema de ordeño manual
7
6
6
Conteo
5
4
4
3
2
2
0
diarrea no si no si
sexo hembras machos
12
10
Conteo
6 6
6
2
2
0
sexo hembras machos
Figura 9. Gráfico de barras con dos criterios de clasificación apilados
Gráfico circular
Se utiliza cuando tenemos pocas categorías y se desea dar una idea de áreas,
además da la posibilidad de destacar una de ellas
terneras
vaquillonas 3; 9,4%
5; 15,6%
terneros
6; 18,8%
vaquillas
4; 12,5%
Categoría
terneras
terneros
vacas
vaquillas
vaquillonas
vacas
14; 43,8%
Diagrama de Pareto
Es muy útil este tipo de gráfico cuando se tiene factores que afectan una
variable y se quiere mostrar la influencia de cada una de ellos,. Se utiliza para
mostrar en primer lugar la categoría que es de mayor importancia seguida de la
de menor importancia, indicando el porcentaje acumulado (la línea roja). En
este caso se muestra que de las enfermedades que afectan al ternero, la
neumonía y meteorismo representan el 68%.
Diagrama de Pareto de enfermedades
20 100
80
15
Porcentaje
60
Conteo
10
40
5
20
0 0
enfermedades piojera neumonia diarrea timpanismo
Conteo 8 5 4 3
Porcentaje 40,0 25,0 20,0 15,0
% acumulado 40,0 65,0 85,0 100,0
Figura 11. Diagrama de Pareto mostrando las principales
enfermedades que afectan a los terneros.
VARIABLE CUANTITATIVA
11 11 10 10 9 12 12 11 9 12 11 12 9 11
11 8 13 7 12 8 12 10 1 12 12 11 13 12
12 9 7 11 10 12 12 10 6 14 11 13 14 9
0
9 9 11 11 12 11 10 12 1 12 8 11 14 10
11 10 11 8 8 11 11 9 9 13 8 11 16 7
2
20
18
16
15
Frecuencia
10 9 9
5 4
3 3
1 1
0
6 7 8 9 10 11 12 13 14 16
Número de lechones destetados por marrana
Pasos.
30
28
25
20
17
Frecuencia
16
15
10
10
8
5
3
1
0
3,4 4,1 4,8 5,5 6,2 6,9 7,6 8,3 9,0 9,7
Promedio de peso al destete por camada
90
80
70
Frecuencia acumulada
60
50
40
30
20
10
0
4,1 4,8 5,5 6,2 6,9 7,6 8,3 9,0
Promedio de peso al destete por camada
Figura 14. Frecuencia acumulada del promedio de peso al destete por camada
(ojiva)
Figura 15. Diagrama de puntos del promedio de peso al destete por camada
Se observa que existen mayor cantidad de pesos al destete entre 6,0 y 6,6
kilogramos.
2 4 14
4 4 58
11 5 0011134
19 5 55578899
(25) 6 0001111122222222233344444
39 6 5577777778899
26 7 00001112233444
12 7 566679
6 8 00112
1 8 5
Los gráficos de dispersión nos sirven para observar la relación entre dos
variables cuantitativas, puede ser graficada con la finalidad de observar la
relación que existe entre ellas. En vacunos por ejemplo, el perímetro toráxico
está relacionado positivamente con el peso de los animales, a mayor perímetro
toráxico mayor peso del animal (Figura 4).
750
700
650
peso (kg)
600
550
500
450
170 180 190 200 210 220
perímetro toráxico (cm)
14
13
12
Nacidos vivos
11
10
7
1 5 10 15 20 25 30 35 40 45 50
Semanas
MEDIDAS ESTADÍSTICAS
N
μ=∑ X i / N
i=1
n
x́=∑ X i /n
i=1
10+13+12+9+14 +12+11
x́= =11,57
7
n+1
Si n es impar, la mediana es el número que se encuentra en la posición, . Si
2
n es par, la mediana es el promedio de los números que se encuentran en las
n n
posiciones y + 1.
2 2
Considerando los siete tamaños de camada (número impar) en cerdos, 10, 13,
12, 9, 14, 12, 11, la mediana se obtiene ordenando de menor a mayor los
tamaño de camada, 9, 10, 11, 12, 12, 13, 14 y luego, se identifica el registro
n+1 7 +1
que ocupa la posición = =4 ° , por lo tanto la mediana sería el registro
2 2
cuyo valor es 12.
n n 6 6
las posiciones 2 y 2 + 1, entonces las posiciones son 2 =3 y 2 + 1=4 ° ; la
11+12
mediana por lo tanto, será la semi-suma de los valores 11 y 12, =11,5.
2
18 Mediana
Media
16
14
Frecuencia
12
10
0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)
16
Moda
14 Mediana
Media
12
10
Frecuencia
0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)
Moda
14
Mediana
12 Media
10
Frecuencia
0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)
Rango=372−109=263 g
n
2 2
s =∑ ( xi −x́ ) /n−1
i =1
2
2 (∑ x )
∑x − n
s2=
n−1
( 7107 )2
1766749−
30
s2= =2865,50 g2
30−1
Desviación estándar. Es definida como la raíz cuadrada de la varianza. Es la
más utilizada para expresar variación. Las unidades de la variable no están
elevadas al cuadrado. Se puede definir como la desviación promedio de los
datos con respecto a su media.
s=
√ ∑x −2
n−1
(∑ x)
n
=
√
1766749−
30−1
( 7107 )2
30
=53,53 g
Rango 263
s= = =65,75 g
4 4
Desv.Est.
53,53
80,53
s 53,53
CV = ∗100= ∗100=22,60 %
x́ 236,9
s 0,71
CV = ∗100= ∗100=14,73 %
x́ 4,82
MEDIDAS DE POSICIÓN
k i ( n+1 )
Qi=
4
donde,
Qi = cuartil 1,2 y 3.
ki = 1, 2 y 3.
n = número de registros.
Para ilustrar el cálculo se ordena los 30 registros de peso al destete (Tabla 3), de
menor a mayor y se utiliza la expresión indicada para hallar cada cuartil.
1 ( n+1 ) 1 ( 31 )
Q 1= = =7,75° ( posición)
4 4
Se ubican los valores que están en la posición 7º y 8º. Resultan ser el 205 y el
209. Aplicando el concepto de interpolación se tiene
2 ( n+1 ) 2 ( 31 )
Q 2= = =15,5 ° ( posición)
4 4
Se ubican los valores que están en la posición 15º y 16º. Ambos números
resultan ser 234. Del mismo modo se obtiene
3 ( 31 )
Q 3= =23,25° ( posición)
4
Se ubican los valores que están en la posición 23º y 24º. Resultan ser el 266 y el
273. Finalmente se obtiene el valor del tercer cuartil
El diagrama de cajas (Box plot) es una técnica gráfica que nos permite
determinar los valores atípicos, la asimetría de la distribución que corresponde
al 50% central de los datos y la variabilidad del 50% central de los datos.
Es una gráfica que nos da la opción de mostrar los cuartiles y detectar datos
anómalos. En los datos de pesos al destete de cuyes, se encontraron dos
datos anómalos, 109 y 372.
x1− x́ 109−236,9
z 1= = =−2,39
s 53,53
x2 −x́ 372−236,9
z 2= = =2,52
s 53,53
Con los datos de los pesos al destete de los cuyes, el coeficiente de asimetría es
n
n
x i− x́ 3 30
sk= ∑
( n−1 )( n−2 ) i=1 ( )s
=
29∗28
(1,041 ) =0,04
Al ser positivo podemos concluir que los datos están más concentrados hacia la
izquierda con una cola derecha más larga.
Leptocúrtica
Mesocúrtica
Platicúrtica
x i− x́ 4
n 2
n ( n+1 ) 3 ( n−1 )
kt = ∑ s
( n−1 )( n−2 ) ( n−3 ) i=1( ) −
( n−2 ) ( n−3 )
30∗31 ( 3∗292
kt = 97,66 )− =0,81
29∗28∗27 28∗27
Al ser positivo el coeficiente de curtosis, se concluye que los datos tienen una
distribución empinada, es decir es leptocúrtica.
CLASE 3
Prueba de hipótesis
Se establecen los pasos para realizar la prueba de hipótesis.
a) Definir las hipótesis estadísticas
Ho: µ = 4000 kg
La población sigue teniendo una media de 4000 kg ó cambió y se
H1: µ ≠ 4000 kg
considera otra población
b) Elegir el nivel de error alfa.
Elegimos 0,05
c) Definir la prueba estadística
Se elige la prueba t:
ý−μ 4200−4000
t= = =1,26
s 500
√n √ 10
d) Se establecen las regiones críticas en la distribución t para dos colas
∝
(gl = 9 y =¿ 0,05/2).
2
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-2,262 0 2,262
Valores t
Intervalo de confianza
Al utilizar intervalos de confianza de lo que se trata es encontrar dos valores L 1
y L2, tales que el parámetro µ se encuentre entre ellos con una probabilidad de
1-α. Los términos involucrados se muestran a continuación:
t ∝∗s t ∝ ∗s
donde,
(
P x́− 2
√n
≤ μ ≤ x́+ 2
√n )
=1−α
x́=media de lamuestra
α
t α =valor de t buscado en latabla( , n−1 gl)
2
2
s=desviación estándar
n=tamaño de la muestra
μ=media de la población
α =nivel de error
2,262∗500 2,262∗500
(
P 4200−
√ 10
≤ μ ≤ 4200+
√ 10
=0,95 )
Finalmente, se encuentran los límites de confianza.
P¿
Al analizar los límites del intervalo, podemos apreciar que el intervalo estimado
incluye a la media de 4000 kg, por lo que se puede afirmar que la muestra
pertenece a esa población. La técnica de manejo no mejoró la producción de
leche por campaña en vacas de primer parto.
Muestras independientes
Dos grupos de lechones fueron alimentados con dos diferentes raciones (A y
B). En el grupo A se consideraron 20 lechones y en el grupo B, 18 vacas para
evaluar su efecto en el peso al destete ¿Cuál de las dos raciones favorece a un
mayor peso al destete?
Prueba de hipótesis
H 0 :µ1=µ2
H 1 : µ 1≠ µ2
ý 1− ý 2 6,80−5,50
t= = =7,22
EE ý − ý
1 2
0,18
( n1 −1 ) s12+ ( n1−1 ) s 22 Y
s p=
√ n1+ n2−2
=
√ ( 20−1 )∗0,38+ (18−1 )∗0,20
18+ 20−2
=0,54
posteriormente,
1 1 1 1
EE ý − ý =s p
1 2
√ + =0,54
n 1 n2 √ + =¿ 0,18 ¿
18 20
α
d) Establecemos las regiones críticas en t (gl, 36 y ,0,025)
2
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-2,028 0 2,028
Valores t
( x́1 −x́2 )
t=
( s 21+ s22 )
√ n
s21 s 22
v∗¿
( +
n1 n2 )
2 2
s21 s 22
( ) ( )
n1
+
n2
n1 −1 n2−1
*Los valores de v generalmente no son enteros. Se redondea v hacia abajo, al más cercano
entero para usar la tabla.
( x́ 1−x́ 2 )
t=
s 21 s22
√ +
n1 n2
Intervalo de confianza
P¿
donde,
ý 1− ý 2=diferencia de la medias
α
t ∝ =valor de t de la tablabuscado a y (n 1+ n2−2)gl
2
2
EE ý − ý =error estándar de la diferencia de medias
1 2
CLASE 4
Muestras dependientes
Medida Vaca1 Vaca2 Vaca3 Vaca4 Vaca5 Vaca6 Vaca7 Vaca8 Vaca9
Antes 27 45 38 20 22 50 40 33 18
Después 31 54 43 28 21 49 41 34 20
Diferenci
a 4 9 5 8 -1 -1 1 1 2
(d)
sd =
√ 2
∑d −
n−1
(∑ d )
n
=
√ 194−
8
784
9
=3,66
d́=
∑ d = 28 =3,11
n 9
Prueba de hipótesis
d́ 3,11
t= = =2,55
sd 3,66
√n √9
α
d) Establecemos las regiones críticas en t (gl, 8 y ,0,025)
2
0,4
Densidad 0,3
0,2
0,1
0,025 0,025
0,0
-2,306 0 2,306
Valores t
Intervalo de confianza
Se utiliza una expresión semejante para hallar el intervalo de confianza
de una media, sólo que ahora es media de las diferencias ( d́).
t ∝ ∗s d t ∝∗sd
2 2
donde, P( d́ − ≤ μd ≤ d́ + )=1−α
√n √n
d́=media de las diferencias
∝
t ∝ =valor de t de la tablabuscado con y n−1 gl
2
2
sd
=error estándar
√n
μd =media poblacional de la diferencias
Reemplazando valores se tiene.
2,306∗3,66 2,306∗3,66
(
P 3,11−
√9
≤ μ d ≤3,11+
√9 ) =95 %
y
p=
n
p−π 0,12−0,15
z= = =−1,03
π ( 1−π ) 0,15 ( 1−0,15 )
√ n √ 150
d) Se establecen las regiones críticas en z (0,025)
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-1,960 0 1,960
-1,03 Valores Z
pq pq
P( p−z ∝ ∗
2 √ n 2√
≤ π ≤ p+ z ∝∗
n
)=1−α
Establo1 Establo2
Retorno de celo Y1 = 40 Y2 = 30
Vacas n1= 100 n2 = 100
inseminadas
Proporción p1 = 0,40 p2 = 0,30
Prueba de hipótesis
a) Establecer las hipótesis estadísticas
H 0 :π 1=π 2
Las proporciones de muestras se consideran de una misma población o
H 0 :π 1 ≠ π 2 provienen de diferentes poblaciones.
b) Elegir el nivel de error alfa.
Elegimos 0,05
c) Definimos la prueba estadística
Se elige la prueba z, las muestras analizadas son consideradas grandes
[muestra 1: pn = 40 y (1-p)n=60; muestra 2: pn = 30 y (1-p)n = 70; se
comprueba que son mayores a 5].
Se calcula un p y q (1-p) con base en las dos muestras.
y +y 40+ 30
p= 1 2 = =0,35 ; entonces q = 0,65
n1 +n2 100+100
Luego se calcula,
1 1 1 1
1 2
√
S p − p = pq
( ) √
+ = ( 0,35 ) ( 0,65 )
n1 n2
+
100 100
=0,07 ( )
p 1− p2 0,40−0,30
z= = =1,43
S p −p 1
0,072
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-1,960 0 1,960
X
P ( p 1− p2 )−z α ∗s p −p ≤ π 1 −π 2 ≤ ( p 1− p2 ) + z α ∗s p − p =1−α
[ 2
1 2
2
1 2
]
Reemplazando valores tenemos
CLASE 5
ANALISIS DE LA VARIANZA
Unidad experimental
Es el artículo, animal o parcela de la cual se obtiene una medición o dato
representativo de lo que allí ocurre.
Diseño experimental
Es un arreglo de las unidades experimentales que se utiliza para controlar el error
experimental a la vez que se acomodan los tratamientos.
Factor de estudio
Es la variable que se investiga en el experimento en cuanto a cómo influyen o afectan
a la variable respuesta. Es la variable independiente. Ej. Temperatura, densidad,
proteína, etc.
Niveles de un factor
Son los diferentes valores que se asigna dentro de cada factor estudiado. Ej. 10º, 20º y
30º (factor temperatura).
Tratamiento
Es todo lo que se aplica a las unidades experimentales. Es el nivel del factor aplicado
a las unidades experimentales.
Replicación
Es aplicar un tratamiento a más de una unidad experimental.
Repetición
Son mediciones repetidas en la misma unidad experimental.
Bloqueo
Es detectar un criterio de estratificación en las unidades experimentales. La
variabilidad dentro de bloques es menor que la variabilidad entre bloques.
Variable respuesta
Es la característica, variable de salida o propiedad del producto, cuyo valor interesa
conocer. Es la variable dependiente.
Error aleatorio
Es la variabilidad observada que no se puede explicar por los factores estudiados.
Error experimental
Es el error que comete el investigador durante el experimento. Si estos son graves, la
detección de cuáles de los factores estudiados tienen un efecto real sobre la variable
respuesta será difícil.
Cuando se corre un diseño experimental es importante que la variabilidad de la
respuesta observada se deba principalmente a los factores estudiados y en menor
medida al error aleatorio, y además que este error sea efectivamente aleatorio.
Aleatoriedad
Consiste en hacer las asignaciones de los tratamientos en orden aleatorio; este
principio aumenta la posibilidad de que el supuesto de independencia de los errores se
cumpla.
Probando medias:
Probando efectos:
Para analizar los registros de la variable respuesta que están en la Tabla 1, se los
agrupa según tratamientos:
T1 T2 T3
y11 y21 y31
y12 y22 y32
y13 y23 y33
y14 y24 y34
y15 y25 y35
Para analizar los registros de la variable respuesta con un DBCA, se agrupan por
tratamiento y bloque:
Bloqu T1 T2 T3
e
1º y11 y21 y31
2º y12 y22 y32
3º y13 y23 y33
≥4º y14 y24 y34
Estos Diseños, tienen variantes según la intención del investigador y la naturaleza del
experimento; pueden incluir arreglos factoriales, covarianza y sub-muestreo. Estas
variantes serán tratadas en lecciones posteriores. Así por ejemplo, podemos tener un
Diseño Completamente al Azar con arreglo factorial.
El análisis de los diseños experimentales se realiza a través de una técnica
denominada análisis de varianza.
La técnica del análisis de la varianza,fue una técnica ideada por Sir R. Fisher y
consiste en cuantificar la variabilidad debida a las fuentes de variación identificadas
que afectan a las unidades experimentales. Esto se realiza utilizando un tabla de
ANOVA (Analysis of variance). En nuestro idioma sería ANVA (análisis de la varianza).
Consta de cinco columnas:
Esta técnica, debe cumplir una serie de asunciones para que los resultados obtenidos
sean válidos:
Normalidad de los errores. Existen pruebas como la de Anderson-Darling,
Kolmogorov- Smirnov, Shapiro-Wilks entre otras.
60
50
40
30
20
10
5
1
600 700 800 900 1000 1100 1200
peso
trata
vs. orden
(la respuesta es peso)
50
25
0
Residuo
-25
-50
-75
-100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden de observación
Datos anómalos. Las observaciones que resultan muy diferentes al resto son
considerados datos anómalos. El investigador deberá decidir si los retira o los deja en
el experimento.
Gráfica de caja de peso
1000
950
900
850
peso
800
750
700
650
1 2 3
trata
En el caso que las gráficas de los residuos u otros diagnósticos indiquen que el
modelo ANOVA no es apropiado para los datos, se requieren posibles medidas
correctoras. Una de las medidas es utilizar transformaciones sobre la variable
respuesta, como la recíproca, inversa de la raíz, logarítmica o raíz cuadrada. Una vez
que los datos originales se han transformado se procede a desarrollar la técnica del
análisis de la varianza (ANOVA), con resultados confiables.
Dentro de t r
Y 2i .
2
t
SC (error )
grupos r. - t ∑ ∑ Y −∑ r ij
(error)
i=1 j=1 i=1 i r .−t
t
Y 2..
r
2
Total r. -1 ∑∑ Y − r ij
i=1 j=1 .
T1 T2 T3
Y.. = 13268
Ý ..=884,50
FV GL SC CM Fcal
Tratamiento 152202,5
2 76101,27 39,12 *
3
Error 12 23341,20 1945,10
Total 175543,7
14
3
2 Y 2..
2 2
SCTotal =Y +Y +…+ Y −
11 12 35
r∗t
2 2 (13268)2 2
SCTotal =(777) +(746) + …+ ( 985 ) − =175543,73
5∗3
Gráfica de distribución
F; df1=2; df2=12
1,0
0,8
Densidad
0,6
0,4
0,2
0,05
0,0
0 3,885
X
Conclusión: Como Fcal (39,12) > Ftabla (3,89; buscado con un alfa 0,05 con 2 y 12 gl), se
acepta la hipótesis alterna y se concluye que existen diferencias significativas (*) entre
tratamientos.
FV GL SC CM Fcal
Tratamiento 70756,5
2 141513,01 33,52 *
s 1
Error 11 23216,20 2110,56
Total 13 164729,21
( 12283 )2
SCTotal =(777)2+(746)2+ …+ ( 1000 )2− =164729,21
14
Gráfica de distribución
F; df1=2; df2=11
1,0
0,8
Densidad
0,6
0,4
0,2
0,05
0,0
0 3,982
X
Conclusión: Como Fcal (33,52) > Ftabla (3,98; buscado con un alfa 0,05 con 2 y 11 gl), se
sigue aceptando la hipótesis alterna y se concluye que existen diferencias
significativas (*) entre tratamientos.
EL DISEÑO DE BLOQUES COMPLETOS AL AZAR (DBCA)
La tabla de ANOVA de un DBCA incluye en este caso como fuentes de variación los
tratamientos, bloques y el error.
Modelo estadístico:
Y ij =μ+ τ i+ β j+ ε ij
Diferencia
Error (t-1)(b-1) SC (Error)
GL(Error)
t b
2 y 2..
Total bt-1 ∑∑ y ij−
i=1 j=1 bt
Los bloques como muchas veces no son distribuidos al azar, la prueba de F para
bloques es una prueba aproximada. En la práctica se recomienda su interpretación
porque es evidencia a favor o en contra de que valió la pena el esfuerzo de controlar el
factor de bloque.
Sin embargo, también se puede interpretar que al extraer una parte de la variación
como bloques y no salir significativo, se estaría favoreciendo para hallar significación
entre tratamientos, debido a que la suma de cuadrados del error se ve disminuida.
Un supuesto del diseño de bloques es que no existe interacción entre el factor de
bloques y factor de tratamientos.
Como ejemplo consideraremos un estudio de seis programas diferentes de aplicación
de nitrógeno (A, B, C, D, E y F) sobre el contenido de nitrógeno en las espigas de
trigo. El bloqueo era la gradiente de irrigación (Bi).
A B C D E F Y.j
Gradiente
1 34,98 40,89 42,07 37,18 37,99 34,8 228,00
9
2 41,22 46,69 49,42 45,85 41,99 50,1 275,32
5
3 36,94 46,65 52,68 40,23 37,61 44,5 258,68
7
4 39,97 41,90 42,91 39,20 40,45 43,2 247,72
9
Yi. 153,11 176,13 187,0 162,4 158,04 172,9 Y..=1009,72
8 6
FV GL SC CM Fcal
Nitrógeno 5 201.32 40,26 5,59 *
Gradient 3 197,00 65,67 9,12
e
Error 15 108,01 7,20
Total 23 506,33
(228)2+(275,32)2+(258,68)2+(247,72)2 ( 1009,72 )2
SC grad. = − 197,00
6 4∗6
2 ( 1009,72 )2
2 2
SCTotal =(34,98) +(41,22) + …+ ( 43,29 ) − 506,33
4∗6
SCerror =sc total −( SCT + SC b )=506,33−( 201,32+197 )=108,01
Gráfica de distribución
F; df1=5; df2=15
0,8
0,7
0,6
0,5
Densidad
0,4
0,3
0,2
0,1
0,05
0,0
0 2,901
X
Conclusión: Como Fcal > Ftabla (5,59 > 2,90, hallado a un alfa de 0,05 con 5 y 15 gl ), se
acepta la hipótesis alterna y se concluye que existen diferencias significativas (*) entre
tratamientos.
CLASE 6
PRUEBAS DE COMPARACIONES MÚLTIPLES
CME
√
DHS=q α ,k , v∗
r
El multiplicador q α ,k , v : es hallado para un α; k medias y v grados de libertad del
error. El CME, es el cuadrado medio del error y r son las replicaciones por
tratamiento.
La hipótesis que se prueban por parejas de comparación son:
H 0 :μ i=μ j
H 1: μi≠ μj
√
B=t B∗ CME
( r1 + r1 )
i j
H 1 : μi ≠ μj
Si | ý i− ý j|< B , se acepta la H 0
Si | ý i− ý j|> B , se acepta la H 1
FV GL SC CM Fcal Ftab
Empaqu 3 32,87 10,95 94,466 4,07
e 3 8
Error 8 0,927 0,116
Total 11 33,80
0
0,116
DHS=4,53∗
√ 3
=0,89
I III II IV
7,48 7,26 5,50 3,36
I III II IV
7,48a 7,26a 5,50b 3,36c
b. Procedimiento de Bonferroni
Como el Fcal = 134,924 es mayor al Ftab = 4,35 (buscado con 0,05, 3 y 7 gl), se
concluye que existe diferencia significativa entre tratamientos.
Para realizar la comparación por pares de los tratamientos calculamos el valor
crítico B según las replicaciones de los tratamientos involucrados. Para lo cual
buscamos el multiplicador en tabla a un α = 0,05, k = 6 [t(t-1)/2] y v = 7, esto es
igual a 3,64.
Para comparar tratamientos con ri = 2 y rj = 3
√
B1=3,64∗ 0,079∗ ( 13 + 13 )=0,84
Para comparar tratamiento con ri = 3 y rj = 2
B2=3,64∗ 0,079∗
√ ( 13 + 12 )=0,93
Ordenamos las medias de mayor a menor
I III II IV
Promedios 7,73 7,26 5,50 3,36
Replicaciones 2 3 3 3
Comparamos la diferencia de medias con su respectivo valor crítico B1 o B2,
según los tratamientos involucrados en esa comparación.
|7,73−7,26|=0,47 < 0,93 entonces son iguales
|7,73−5,50|=¿ 2,23 > 0,93 entonces son diferentes
|7,73−3,36|=¿ 4,37 > 0,93 entonces son diferentes
|7,26−5,50|=1,76> 0,84 entonces son diferentes
|7,26−3,36| = 3,90 > 0,84 entonces son diferentes
|5,50−3,36|=2,14> 0,084 entonces son diferentes
La igualdad de tratamientos se representa por líneas horizontales o letras.
I III II IV
7,73 7,26 5,50 3,36
I III II IV
7,73a 7,26a 5,50b 3,36c
2. COMPARACIONES A PRIORI O PLANEADAS
Problema:
Crecimiento bacterial en carnes almacenadas.
Hipótesis de investigación
Alguna forma de atmósfera controlada proporcionará un entorno más efectivo
de empaque para el almacenamiento de carne.
Diseño de Tratamientos
Los tratamientos desarrollados por el investigador para evaluar o probar la Hi
incluyen empaques:
Replicació T1: Comercial T2: Al vacío T3: Mezcla de gases T4: CO2
n
1 7,66 5,26 7,41 3,51
2 6,98 5,44 7,33 2,91
3 7,80 5,80 7,04 3,66
Suma y 1.= 22,44 y 2.= 16,50 y 3.= 21,78 y 4.= 10,08
Promedio ý 1. =¿7,48 ý 2. =¿5,50 ý 3. =¿7,26 ý 4. =¿3,36
Diseño experimental
Al analizar la tabla del ANOVA, F cal. (94,466) > Ftab (4,07), por lo que se acepta la
H1. Existe diferencia significativa entre tratamientos.
1
C 1 : μ1 − μ + μ + μ =0
3 ( 2 3 4)
Las hipótesis estadísticas para este contraste a probar son:
H0: C1 = 0
H1: C1 ≠ 0
H0: C2 = 0
H1: C2 ≠ 0
C3 : μ 3−μ 4 = 0
Las hipótesis estadísticas para este contraste a probar son:
H 0: C 3 = 0
H 1: C 3 ≠ 0
¿Encuentra lógica en las comparaciones especiales que el investigador desea
realizar?
μ1 μ2 μ3 μ4
K1 K2 K3 K4
C1 1 - -1/3 -1/3
1/3
C2 0 1 -1/2 -1/2
C3 0 0 1 -1
μ1 μ2 μ3 μ4
K1 K2 K3 K4
C1 3 -1 -1 -1 0
C2 0 2 -1 -1 0
C3 0 0 1 -1 0
(3)(0) (-1)(2) (-1)(-1) (-1)(-1)(- 0
(0) (0) (1) 1)
Como vemos, sí se cumple la condición de ortogonalidad o independencia de
los contrastes. Por lo tanto es posible analizarlos.
2
3∗( ( 3 ) ( 7,48 ) + (−1 ) (5,50 )+ (−1 )( 7,26 ) + (−1 ) ( 3,36 ) )
S CC = 2 2 2 2
=9,986
1
( 3 ) + (−1 ) + (−1 ) + (−1 )
2
3∗( ( 0 ) ( 7,48 ) + ( 2 ) ( 5,50 )+ (−1 )( 7,26 )+ (−1 )( 3,36 ) )
S CC = 2 2 2 2
=0,072
2
( 0 ) + ( 2 ) + (−1 ) + (−1 )
2
3∗( ( 0 )( 7,48 ) + ( 0 ) ( 5,50 ) + (−1 ) ( 7,26 ) + ( +1 )( 3,36 ) )
S CC = 2 2 2 2
=22,815
3
( 0 ) + ( 0 ) + ( ∓1 ) + (−1 )
Para comprender los valores que aparecen en la tabla de ANOVA con respecto
a los contrastes; podemos observar que si sumamos las suma de cuadrados de
los tres contrastes, resulta un total que es justamente la suma de cuadrados de
tratamientos.
Para averiguar si los contrastes son significativos se sigue el procedimiento
conocido, se haya el CM y los Fcal para cada contraste y finalmente se
compara los Fcal con las Ftab.
Conclusiones:
CLASE 7
RELACIÓN ENTRE CARACTERÍSTICAS
I. LA CORRELACIÓN
La correlación mide el nivel de asociación que puede existir entre dos
características. Se expresa a través del coeficiente de correlación.
Ejemplo de aplicación:
Vaca 1 2 3 4 5 6 7 8 9 10
Peso (kg.) 641 620 63 651 64 666 650 68 680 670
3 0 8
Perímetro toráxico 205 212 21 216 21 217 218 21 221 226
(cm) 3 6 9
680
670
660
peso 650
640
630
620
∑ x∑ y
∑ xy − n
r=
2 2
√[ 2
∑x −
(∑ x )
n ][ ∑ 2
y−
(∑ y )
n ]
Utiliza los datos de la Tabla 1 se procede a calcular los términos
involucrados en la expresión para hallar el coeficiente de regresión tal como se
detalla en la tabla 2.
Peso
(y) Perímetro (x) peso^2 (y2) perímetro^2 (x2) peso*perímetro (X*Y)
641 205 410881 42025 131405
620 212 384400 44944 131440
633 213 400689 45369 134829
651 216 423801 46656 140616
640 216 409600 46656 138240
666 217 443556 47089 144522
650 218 422500 47524 141700
688 219 473344 47961 150672
680 221 462400 48841 150280
670 226 448900 51076 151420
Y X Y2 X2 XY
6539 2163 4280071 468141 1415124
∑ x∑ y
∑ xy − n 738,3
r= = =0,67
2 2 √ ( 284.1 )( 4218,9 )
√[ 2
∑x −
(∑ x )
n ][ ∑ 2
y−
(∑ y )
n ]
Debemos recordar que este coeficiente de correlación ha sido calculado
en la muestra. Para probar que existe la correlación entre las dos
características en la población con base en los datos de la muestra, se realiza
la respectiva prueba de hipótesis.
Prueba de hipótesis
a. Se define la hipótesis
H 0 : ρ=0
H 1 : ρ≠ 0
b. Se elige el nivel de ∝
∝=0,05
c. Se elige la prueba
r r r √n−2 0,67 √10−2
t cal= = = = =2,58
sr 1−r 2 √1−r
2
√ 1−( 0,67 )2
√n−2
∝
probabilidad, el valor crítico a y 8 grados de libertad es t 0,025,8=2,306.
2
Gráfica de distribución
T, df=8
0.4
0.3
Densidad
0.2
0.1
Zona de aceptación de H0
0.025 0.025
0.0
-2.306 0 2.306
X
II. LA REGRESIÓN
Y^ =a+bX
donde:
Y^ :valor estimado de la variable dependiente
a: intercepción con el eje y.
b: coeficiente de regresión
X: valor de la variable independiente.
∑ x∑ y 2163∗6539
∑ xy− n
1415124−
10
b= 2
= =2,598
(∑ x ) 4678569
2 468141−
∑x − n
10
a= ý−b x́ =653,9−2,598∗216,3=91,79
680 S 16,9568
R-cuad. 45,5%
R-cuad.(ajustado) 38,7%
670
660
peso
650
640
630
620
H 0 : β=0
H1: β ≠ 0
700 S 16,9568
R-cuad. 45,5%
R-cuad.(ajustado) 38,7%
680
660
peso
640
620
600
36∗36
132−
8
r s= =−0,714
36 2 362
√( 204−
8 )(
204−
8 )
Ejercicios propuestos
En un estudio se tiene datos de ganancia de peso y consumo de calorías en
ratas. El investigador define a X= consumo de calorías y Y=ganancia
corporal, los datos. Se desea calcular la relación existente y la influencia del
consumo de calorías sobre la ganancia de peso. Los datos fueron los
siguientes.
Con frecuencia las observaciones se clasifican de acuerdo con varias variables. Por ejemplo, un
animal (vaca), puede clasificarse como con metritis o sin metritis post parto y al mismo tiempo
como un animal que parió en la época de verano o invierno. En estos casos los datos se
registran en una tabla de doble entrada en forma conveniente llamada tabla de contingencia,
con el objeto de determinar si las dos direcciones de clasificación están relacionadas o no.
Así, una tabla de contingencia conteniendo el número de animales dispuestos en ambas
clasificaciones sería:
Invierno Verano
Con metritis 32 50 82
Sin metritis 43 28 71
75 78 153
( observado−esperado )2
X 2 =∑
esperado
Los valores esperados son calculados asumiendo que las variables no están
asociadas, es decir si fueran independientes los valores serían los valores que aparecen
como esperados.
Utilizando los datos del ejemplo el esperado para la casilla donde figura un
observado de 50 se calcula de la siguiente manera:
78∗82
Valor esperado = =41.80
153
Procediendo de similar manera con todas las casillas se obtiene:
Invierno Verano
Con metritis 40.20 41.80 82
Sin metritis 34.80 36.20 71
75 78 153
Teniendo todos los esperados se aplica la fórmula de Chi cuadrado, que suma
la relación de observados y esperados de todas las casillas:
X2calculado=7.064
X2tabla,=3.840
con 32 50 82
40.20 41.80 82.00
sin 43 28 71
34.80 36.20 71.00
Todo 75 78 153
75.00 78.00 153.00
Como la metritis post parto resultó estar asociada a la época de parto, cabe la
pregunta ¿Qué nivel de relación tiene estas variables?
Invierno Verano
Con metritis 32 50 82
Sin metritis 43 28 71
75 78 153
50∗43
Odds ratio= =2.40
28∗32
Interpretación:
El número de vacas con metritis post parto que paren en verano es 2.40 veces
mayor que el número de vacas con metritis post parto que paren en invierno.
Ejemplo:
Una solución tentadora es juntar los datos recolectados en los tres establos y
confeccionar un asola tabla de contingencia y luego calcular el odds ratio. Sin embargo, por las
diferencias que puede existir entre establos no sería lo adecuado.
Con el método de Mantel-Haenzsel, se evalúa si existe asociación entre la variable
preñez y la variable reimplante, sin juntar los datos en una sola tabla evaluando la asociación y
pudiéndose calcular el respectivo odds ratio común.
Resultados de establo = 1
preñadas 85 25 110
vacias 86 50 136
Todo 171 75 246
Resultados de establo = 2
preñadas 19 16 35
vacias 11 16 27
Todo 30 32 62
Resultados de establo = 3
preñadas 57 48 105
vacias 45 70 115
Todo 102 118 220
Estadístico MHC GL Valor P
11.1160 1 0.0008559
Conclusión: Al estudio conjunto de los tres establos se ha encontrado que existe asociación
entre los dos criterios de clasificación y esta asociación se refleja en el odds ratio que significa
que el número de vacas que quedan preñadas con reimplante es en promedio 88% mayor en
relación al número de vacas que quedan preñadas sin reimplante.
Las tablas de contingencia no sólo pueden ser de 2*2, sino pueden ser de varias filas y
varias columnas. Cuando una tabla de contingencia tiene dos filas y tres columnas sería un
atabla de contingencia 2*3.
Lactación
Primera Segunda Tercera
Con mastitis 6 10 35 51
Sin mastitis 20 30 15 65
26 40 50 116
con 6 10 35 51
11.43 17.59 21.98 51.00
sin 20 30 15 65
14.57 22.41 28.02 65.00
Todo 26 40 50 116
26.00 40.00 50.00 116.00