Clase 1 Doctorado en Ciencias Ambientales

UNIVERSIDAD NACIONAL JOSÉ FAUSTINO SÁNCHEZ CARRIÓN
ESCUELA DE POSGRADO
DOCTORADO EN CIENCIAS AMBIENTALES
ASIGNATURA : TESIS V
SUMILLA
Redacción del informe final de la tesis, basado en la información obtenida en
las etapas de elaboración y ejecución del proyecto realizado conforme a las
pautas de la estructura de la tesis aprobada por la Escuela.
DATOS DEL DOCENTE
REGLAMENTO GENERAL DE GRADOS ACADÉMICOS Y TÍTULOS

PROFESIONALES
Artículo 95
…. En el caso del grado de Doctor, “Sustentar y aprobar una tesis de máxima
rigurosidad académica y de carácter original…..”
Clase introductoria
Para cumplir lo indicado en el Reglamento:
1.Ética en investigación (CRI)

2.Adecuado análisis estadístico
3.Adecuada redacción científica
ADECUADO ANÁLISIS ESTADÍSTICO

ADECUADA REDACCIÓN CIENTÍFICA
ESTILO ASOCIACIÓN AMERICANA DE PSICOLOGÍA

(APA)
LIBRO
, . . .
Apellido inicial de nombres(s) (Año) Título del libro (Edición de
tenerla a partir de la segunda). Ciudad: Editorial.
ARTÍCULO O CAPÍTULO DE UN LIBRO
, . .
Apellido inicial de nombre(s) (Año) Título del capítulo o artículo .
: ,
En Apellidos de los editores (Editores) Título del libro (páginas del
. :
capítulo o artículo) Ciudad Editorial .
EDITOR
, . .. .
Apellido inicial de nombre(s) del editor (Ed ) (Año) Título del
libro. (Edición a partir de la segunda). Ciudad: Editorial.
Cuando son varios autores, la conjunción entre el penúltimo y el

último autor es &.
TESIS
, . . .
Apellido inicial de nombre(s) (Año) Título Tesis para optar el
, :
grado de ... Ciudad Nombre completo de la Universidad .
ARTÍCULO CIENTÍFICO
, . . .
Apellido inicial de nombre(s) (Año) Título del artículo Nombre
,
de la revista Volumen (Número del fascículo), Número de
páginas.
INTERNET
, . . .
Apellido inicial de nombre(s) Año) Título del artículo Nombre de
la revista, número de volumen (Número del fascículo), número de
páginas. Recuperado el …, desde http.//www…
Recuperado, citado, obtenido, consultado, extraído.
ARTÍCULO DE PERIÓDICO
, . .
Apellido inicial de nombres(s) (Año mes día) Título del artículo.
Nombre del periódico, (Cuando es pertinente sección y columna) p.
TABLAS Y FIGURAS
Tabla 1
Alumnos según Escuela Profesional de la Facultad de Ingeniería
Agraria, Industrias Alimentarias y Ambiental.
Escuela Número
Ingeniería Zootécnica 250
Ingeniería Agrónomica 300
Ingeniería en Industrias Alimentarias 240
Ingeniería Ambiental 290
Total 1080
Nota: Tomado de Velásquez (2016).
Figura 1. Líneas de investigación de Ecología y Ciencias

Ambientales.
Los comentarios sobre las tablas y figuras siempre

están encima y no debajo de ellas.
CLASE 1
ESTADÍSTICA
Es la ciencia aplicada que se encarga de recolectar datos de una

muestra, organizarlos y analizarlos para luego inferir sobre la población.
MUESTRA
se recolectan
se extrae
POBLACIÓN DATOS
Inferencia
(probabilidades)
DIVISIÓN DE LA ESTADÍSTICA
La Estadística puede ser dividida en:
Estadística Descriptiva. Parte de la estadística que se ocupa de la

clasificación, descripción, simplificación y presentación de los datos.
Comprende el uso de tablas de frecuencias, gráficos y el cálculo de medidas
estadísticas.
Estadística Inferencial. Parte de la estadística que se ocupa de la estimación

y prueba de hipótesis de los parámetros de una población, a partir de una
muestra aleatoria extraída de dicha población.
CONCEPTOS BASICOS
POBLACIÓN
Conjunto de unidades elementales que se quieran estudiar y poseen una

característica común. El estudio de toda la población se llama CENSO. El
conjunto de unidades elementales es el conjunto de animales, forrajes u otros
objetos que poseen características comunes.
Ejemplos
Ovejas corriedale de primera esquila.
Marranas landrace de segundo parto.
Lechones duroc destetados.
Alfalfa moapa de primer corte. Se denomina parámetros.
MUESTRA
Es un subconjunto de la población. El proceso de obtener una muestra se le

llama “muestreo”. Para que una muestra sea representativa debe cumplir con
las siguientes condiciones: Debe haber sido obtenida al azar y su tamaño y sus
elementos deben haber sido seleccionados aplicando un método de muestreo.
Puede ser, un grupo de animales, plantas forrajeras u otros objetos que se
extraen de una población.
Ejemplos
30 ovejas corriedale de primera esquila.
50 marranas landrace de segundo parto.
80 lechones duroc destetados.
10 parcelas de alfafa moapa de primer corte.
VARIABLE
Se denomina variable a la característica o atributo que involucra a un grupo de

observaciones o registros. Ejemplos, raza, condición corporal, peso al destete,
número de crías por parto. Puede ser cuantitativa y cualitativa.
OBSERVACIÓN O REGISTRO
Es el valor posible que se registra de la unidad elemental en relación a una

variable. Por ejemplo, de la variable raza, puede ser Holstein, de la variable
número de crías por parto, puede ser 10 crías.
VARIABLES CUALITATIVAS
Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo.
Pueden ser nominal y ordinal. En la variable nominal sus valores posibles no
tienen un orden de importancia. En la variable ordinal sí se puede establecer un
criterio de orden o jerarquía entre sus atributos de la variable.
Tabla 1. Algunas variables cualitativas en producción animal
NOMINAL ORDINAL O JERAQUICA

Tipo de infección Facilidad al parto.
Grupo sanguíneo Gravedad de una enfermedad.
Color de piel Condición corporal.
Raza Calidad de carcasa en gancho.
En las variables cualitativas se cuenta el número de animales que caen

en una categoría y se calcula la proporción de éstos en relación al total de
individuos.
VARIABLES CUANTITATIVAS
Agrupan registros expresados como números dentro de la escala de los

números reales. Pueden ser continuas y discretas. Las variables continuas
pueden tomar infinitos valores dentro de un rango (con decimales), mientras
que las variables discretas toman sólo valores enteros (sin decimales). Algunos
ejemplos adicionales de variables cuantitativas se muestran en la Tabla 2.
Tabla 2. Algunas variables cuantitativas en producción animal
Continua Discreta
Peso al destete Número de huevos puestos/semana
Ganancia de peso Número de crías/parto
Consumo de alimento Número de óvulos/celo
Lana a la primera esquila Número de Glándulas sudoríparas/cm 2
Ingreso por venta de carne Número de papilas gustativas/cm2
Perímetro torácico Número de células somáticas/mL
MEDIDAS ESTADÍSTICAS
Son calculadas con la finalidad de describir el comportamiento de una variable

en la población o en la muestra.
Parámetro. Son medidas estadísticas, para describir el comportamiento de una

variable en la población. Son calculadas con los datos de toda la población. Es
un valor constante. Se representan con letras griegas.
Valor estadístico. Son medidas estadísticas, para describir el comportamiento

de una variable en la muestra. Se calculan con los datos obtenidos de una
muestra. Son valores variables (varían de muestra a muestra). Los estadísticos
sirven para estimar a los parámetros. Se representan con letras latinas.
ORGANIZACIÓN DE DATOS
La organización de datos consiste en la elaboración de tablas de frecuencias y

gráficos con la finalidad de clasificar, agrupar y presentar la información en
forma resumida, facilitando el análisis descriptivo de los conjuntos de datos.
La elaboración de tablas y gráficos dependerá del tipo de variable definida.
VARIABLE CUALITATIVA
Con las variables cualitativas se pueden elaborar tablas de frecuencia y de

contingencia.
Las tablas de frecuencia para este tipo de variable (Nominal y/o Jerárquica)
muestran las clases o categorías, frecuencias absolutas, relativas y porcentaje.
Tabla 3. Causas de descarte en un establo lechero
Frecuencia Frecuencia
Causa Porcentaje
absoluta relativa
Problemas reproductivos 508 0,3508 35,08
Problemas de ubre 297 0,2051 20,51
Aparato locomotor y traumatismos 162 0,1119 11,19
Problemas peripartales 163 0,1126 11,26
Emergencia 181 0,1250 12,50
Otros 137 0,0946 9,46
Total 1448 1,0000 100
Fuente: Adaptado de Paz (2010). Causas de descarte en vacunos lecheros.
Las tablas de contingencia, también llamadas tablas cruzadas o de doble

entrada se usan para resumir y presentar de manera simultánea los datos para
dos variables cualitativas. Una tabla de contingencia es una de las formas más
comunes de resumir datos categóricos
Tabla 4. Seroprevalencia de Brucella abortus por razas en la provincia de

Leoncio Prado, departamento de Huánuco.
Interpretació Holstein Brown Swiss Cruzado TOTAL

Negativo
n 47 96 s 122 265
Sospechoso 1 3 2 6
Positivo - 3 1 4
TOTAL 48 102 125 275
Fuente: Adaptado de Fernández (2002).
Para graficar las variables cualitativas se pueden usar las frecuencias

absolutas, relativas o porcentuales para elaborar tres tipos de gráficos.
Gráfico de barras
Cuando se desea dar idea de altura mostrando los conteos en las diferentes
categorías. Las barras pueden representar categorías de una variable o más
variables (Figuras 7 - 9).
Distribución por categorías en un establo

14
14
12
10
Conteo
8
6
6
5
4
4
3
0
terneras terneros vacas vaquillas vaquillonas
Categoría
Sistema de ordeño manual
Figura 7. Gráfico de barras
Gráfica de sexo; diarrea

9
8
8
7
6
6
Conteo
5
4
4
3
2
2
0
diarrea no si no si
sexo hembras machos
Figura 8. Gráfico de barras con dos criterios de clasificación

Gráfica de sexo; diarrea
14 diarrea
14 si
no
12
10
Conteo
6 6
6
2
2
0
sexo hembras machos
Figura 9. Gráfico de barras con dos criterios de clasificación apilados
Gráfico circular
Se utiliza cuando tenemos pocas categorías y se desea dar una idea de áreas,
además da la posibilidad de destacar una de ellas
Ditribución de animales por categorías en un establo
terneras
vaquillonas 3; 9,4%
5; 15,6%
terneros
6; 18,8%
vaquillas
4; 12,5%
Categoría
terneras
terneros
vacas
vaquillas
vaquillonas
vacas
14; 43,8%
Sistema de ordeño manual
Figura 10. Gráfico de torta para la distribución por categorías en un establo
Diagrama de Pareto
Es muy útil este tipo de gráfico cuando se tiene factores que afectan una
variable y se quiere mostrar la influencia de cada una de ellos,. Se utiliza para
mostrar en primer lugar la categoría que es de mayor importancia seguida de la
de menor importancia, indicando el porcentaje acumulado (la línea roja). En
este caso se muestra que de las enfermedades que afectan al ternero, la
neumonía y meteorismo representan el 68%.
Diagrama de Pareto de enfermedades
20 100
80
15
Porcentaje
60
Conteo
10
40
5
20
0 0
enfermedades piojera neumonia diarrea timpanismo
Conteo 8 5 4 3
Porcentaje 40,0 25,0 20,0 15,0
% acumulado 40,0 65,0 85,0 100,0
Figura 11. Diagrama de Pareto mostrando las principales
enfermedades que afectan a los terneros.
VARIABLE CUANTITATIVA
Con las variables cuantitativas se pueden de igual manera elaborar

tablas. Si los datos discretos son pocos se puede elaborar una tabla de
frecuencia donde cada valor es una clase. Se tiene 70 registros de número de
lechones destetados por marrana.
11 11 10 10 9 12 12 11 9 12 11 12 9 11
11 8 13 7 12 8 12 10 1 12 12 11 13 12
12 9 7 11 10 12 12 10 6 14 11 13 14 9
0
9 9 11 11 12 11 10 12 1 12 8 11 14 10
11 10 11 8 8 11 11 9 9 13 8 11 16 7
2
Tabla 5. Número de lechones destetados por marrana

(datos discretos)
Número lechones Frecuencia Frecuenci Frecuencia Frecuencia

destetados/marran absoluta a relativa relativa acumulada
a acumulada
6 1 1 0,01 0,01
7 3 4 0,04 0,05
8 6 10 0,09 0,14
9 9 19 0,13 0,27
10 9 28 0,13 0,40
11 18 46 0,26 0,66
12 16 62 0,23 0,89
13 4 66 0,06 0,95
14 3 69 0,04 0,99
16 1 70 0,01 1,00
Total 70
Fuente: Datos por cortesia de Pic Star SCRL (2018).
20
18
16
15
Frecuencia
10 9 9
5 4
3 3
1 1
0
6 7 8 9 10 11 12 13 14 16
Número de lechones destetados por marrana
Figura 12. Número de lechones destetados por marrana

(variable discreta)
En los datos continuos las clases ya no son categorías sino intervalos de clase.
Si los valores de los datos discretos son muchos, al igual que con los continuos
se puede elaborar una tabla con intervalos de clase. Se tiene 83 registros de
promedios de peso al destete por camada en lechones.
6, 6,2 7,1 6, 4,4 5,8 5,9 6, 7,6

5,
2 5,1 5,3 6,
1 6,9 7,3 6,7 7,
2 8,0
6,
0 6,2 7,2 7,
2 5,1 8,5 6,8 6,
6 6,7
5,
5 6,7 7,0 6,
1 6,2 6,2 6,0 5,
1
6,
5 6,7 7,1 6,
0 6,0 8,1 6,5 7,
5
5,
1 4,8 5,7 6,
3 5,1 6,4 7,6 6,
0
6,
9 8,1 6,7 6,
1 7,2 7,3 6,7 6,
4
7,
1 8,2 6,4 5,
4 6,8 5,8 6,2 4,
9
7,
7 7,0 6,3 4,
5 6,7 6,3 5,0 7,
5
6,
4 7,0 5,4 7,
1 8,0 6,2 7,4 7,
9
4 4 5
Tabla 6. Promedio del peso al destete por camada en lechones
(datos continuos)
Frecuenci Frecuencia Frecuencia Frecuencia
Clases a acumulada relativa relativa acumulada Marca de clase
absoluta
[4,1 –
4,8> 3 4 0,04 0,05 4,45
[4,8 –
5,5> 8 11 0,10 0,13 5,15
[5,5 –
6,2> 16 27 0,19 0,33 5,85
[6,2 –
6,9> 28 55 0,34 0,66 6,55
[6,9 –
7,6> 17 72 0,20 0,87 7,25
[7,6 –
8,3> 10 82 0,12 0,99 7,95
[8,3 – 9,0 1 83 0,01 1,00 8,65
Fuente: Datos por cortesia de Pic Star SCRL (2018).
Esta técnica se utiliza para realizar conteos de un grupo de datos estableciendo

intervalos iguales. Los pasos a seguir utilizando los datos del promedio de
pesos al destete en lechones, son los siguientes.
Pasos.
a. Hallar la amplitud (A) = Max-Min.

A = 8,5 – 4,1 = 4,4
b. Hallar el número de clases (K) = 1+3,3*log(n), regla de Sturges. El

redondeo es simple.
K = 1+3,3*log (83) = 7,33 = 7
c. Hallar el tamaño del intervalo de clase (TIC) = A/K. El redondeo es por

exceso a los decimales que muestran los datos para asegurar que el
último registro quede incluido.
4,4
TIC= =0,62=0,7
7
Las variables cuantitativas discretas y continuas se pueden graficar utilizando

el histograma, polígono de frecuencia, diagrama de puntos, tallo y hojas,
diagrama de cajas y si son dos variables como gráficos de dispersión y serie de
tiempo.
El histograma es un gráfico que condensa los datos por agrupamiento de ellos

en varias clases, representadas por rectángulos adyacentes (Figura 12 y 13).
Para mostrar un histograma para variables discretas y continuas utilizaremos
datos de las Tablas 5 y 6.
30
28
25
20
17
Frecuencia
16
15
10
10
8
5
3
1
0
3,4 4,1 4,8 5,5 6,2 6,9 7,6 8,3 9,0 9,7
Promedio de peso al destete por camada
Figura 13. Histograma y polígono de frecuencia del promedio del peso al

destete por camada en lechones (variable continua)
Se observa rectángulos adyacentes mostrando los límites de clase y el
número de observaciones por clase. Además, una línea que une los puntos
medios de cada intervalo llamada polígono de frecuencia.
La frecuencia acumulada absoluta o relativa también se puede graficar

mostrando una línea que une los puntos medios, llamada ojiva (Figura 14).
90
80
70
Frecuencia acumulada
60
50
40
30
20
10
0
4,1 4,8 5,5 6,2 6,9 7,6 8,3 9,0
Promedio de peso al destete por camada
Figura 14. Frecuencia acumulada del promedio de peso al destete por camada
(ojiva)
El diagrama de puntos es útil para comparar distribuciones. El valor

numérico de cada medida es representada por un punto en la escala horizontal.
Cuando los valores se repiten, los puntos son colocados sobre el otro de
manera vertical. Para mostrar este gráfico utilizaremos 30 pesos al destete de
cuyes raza Perú.
4,2 4,8 5,4 6,0 6,6 7,2 7,8 8,4
Figura 15. Diagrama de puntos del promedio de peso al destete por camada
Se observa que existen mayor cantidad de pesos al destete entre 6,0 y 6,6
kilogramos.
Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una

representación parecida un histograma. La ventaja de este diagrama es
que no sólo muestran las frecuencias sino que contienen los valores
reales. A diferencia de las tablas de frecuencias con este procedimiento
ningún dato se pierde. Cada dato se divide en dos partes: la primera se
llama tallo y la segunda hoja. Cada tallo se forma con uno o más
dígitos iniciales de cada dato y las hojas se forman con los dígitos
restantes (generalmente de un solo dígito)
Consideraremos los 83 registros del promedio de peso al destete por camada.
Este tipo de gráfica muestra similar distribución que el diagrama de puntos, la
diferencia es que aquí no se pierde de vista a los datos.
Tallo y hoja de peso al deste N = 83

Unidad de hoja = 0,10
2 4 14
4 4 58
11 5 0011134
19 5 55578899
(25) 6 0001111122222222233344444
39 6 5577777778899
26 7 00001112233444
12 7 566679
6 8 00112
1 8 5
Los gráficos de dispersión nos sirven para observar la relación entre dos
variables cuantitativas, puede ser graficada con la finalidad de observar la
relación que existe entre ellas. En vacunos por ejemplo, el perímetro toráxico
está relacionado positivamente con el peso de los animales, a mayor perímetro
toráxico mayor peso del animal (Figura 4).
750
700
650
peso (kg)
600
550
500
450
170 180 190 200 210 220
perímetro toráxico (cm)
Figura 16. Relación entre perímetro toráxico y peso vivo en vacunos.

Los datos que son producidos y monitoreados a través del tiempo, reciben el
nombre de datos en serie de tiempo.
14
13
12
Nacidos vivos
11
10
7
1 5 10 15 20 25 30 35 40 45 50
Semanas
Fuente: Vergara et al. (2016). Síndrome reproductivo respiratorio: Presentación en el tiempo y

efecto sobre los parámetros productivos y reproductivos. Rev. Inv. Vet. Perú 27(4):813-821.
Figura 17. Promedio semanal /camada de lechones nacidos vivos durante 52

semanas.
En la Figura 17, se muestra el promedio semanal /camada de lechones nacidos

vivos durante 52 semanas en una granja que fue afectada por el Síndrome
Reproductivo Respiratorio Porcino (PRRS). Se observa que en la primera
semana del año, el promedio de nacidos vivos fue de 12 lechones y cae
drásticamente a 8,51 en la semana treinta y uno, por efecto de esta afección.
CLASE 2
MEDIDAS ESTADÍSTICAS
MEDIDAS DE TENDENCIA CENTRAL
Media o promedio. La media aritmética de un grupo de datos cuantitativos es

la suma de las mediciones dividida entre el número de mediciones contenidas
en el grupo de datos. Se representa por µ, cuando se refiere a la media
poblacional y x́, cuando se calcula con los datos de una muestra.
N
μ=∑ X i / N
i=1
n
x́=∑ X i /n
i=1
Si tenemos siete tamaños de camada en cerdos de 10, 13, 12, 9, 14, 12 y 11

lechones.
La media o promedio del tamaño de camada será:
10+13+12+9+14 +12+11
x́= =11,57
7
Así mismo, con la producción de leche de vacas en crianza extensiva de la

Tabla 5 se obtiene:
4,2+5,8+ 4,2+4,5+3,9+ …+5,1

x́= =4,82
30
El promedio es una medida estadística que es susceptible a ser influenciada

por valores extremos.
Mediana. La mediana de un grupo de datos cuantitativos es el número medio

cuando las mediciones son arregladas en orden ascendente (o descendente).
n+1
Si n es impar, la mediana es el número que se encuentra en la posición, . Si
2
n es par, la mediana es el promedio de los números que se encuentran en las
n n
posiciones y + 1.
2 2
Considerando los siete tamaños de camada (número impar) en cerdos, 10, 13,
12, 9, 14, 12, 11, la mediana se obtiene ordenando de menor a mayor los
tamaño de camada, 9, 10, 11, 12, 12, 13, 14 y luego, se identifica el registro
n+1 7 +1
que ocupa la posición = =4 ° , por lo tanto la mediana sería el registro
2 2
cuyo valor es 12.
Si se considera sólo seis registros (número par) de los tamaño de camada, 9,

10, 11, 12, 13, 14, la mediana sería la semisuma de los registros que ocupan
n n 6 6
las posiciones 2 y 2 + 1, entonces las posiciones son 2 =3 y 2 + 1=4 ° ; la
11+12
mediana por lo tanto, será la semi-suma de los valores 11 y 12, =11,5.
2
Debemos tener presente que la mediana no está influenciada por valores

extremos.
Moda. La moda es la medición que ocurre más frecuentemente en el grupo de

datos, si es una es unimodal. Puede ser que existan dos números que se
repitan frecuentemente en el grupo de datos, en este caso se dice que es
bimodal. Si los datos no se repiten no existe moda. En relación a los siete
tamaños de camada señalados anteriormente, el registro que se repite es el 12,
por lo tanto la moda es 12.
Existe una relación de ubicación entre el promedio, la mediana y la moda en la

distribución de un grupo de datos. Considerando un grupo de datos de pesos al
destete de lechones. Si la distribución es simétrica las tres medidas de
tendencia central coinciden en un punto. Si esta distribución es asimétrica para
la derecha o para la izquierda la ubicación de estas medidas cambia (Figuras
9-11). Como se puede observar, la media es una medida que es más afectada
por valores extremos. Con valores extremos menores la media tiende a
disminuir y con valores extremos mayores, tiende a incrementar.
20 Moda
18 Mediana
Media
16
14
Frecuencia
12
10
0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)
Figura 10. Distribución simétrica
16
Moda
14 Mediana
Media
12
10
Frecuencia
0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)
Figura 11. Distribución asimétrica hacia la izquierda
Moda
14
Mediana
12 Media
10
Frecuencia
0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)
Figura 12. Distribución asimétrica hacia la derecha

MEDIDAS DE VARIABILIDAD
Las medidas de tendencia central proveen solamente una parcial descripción

de los datos cuantitativos. La descripción es incompleta sin una medida de
variabilidad o amplitud del grupo de datos. Conociendo la variabilidad de los
datos junto con su media podremos visualizar la forma del grupo de datos así
como también sus valores extremos.
Rango. Es la medida más simple de variabilidad para datos cuantitativos. Se

obtiene al restar el valor máximo menos el valor mínimo. Si sólo usamos el
rango como medida de variabilidad, puede ocurrir que dos grupos de datos
tengan el mismo rango y sean completamente diferentes en relación a su
variación. El rango se obtiene
Rango=V . Max−V . min
Con los pesos al destete de los cuyes de la Tabla 3.
Rango=372−109=263 g
Varianza. Es una medida que complementa el rango, utiliza las desviaciones

de los datos con respecto a su media. Si estas desviaciones al cuadrado son
grandes, los datos exhiben una mayor variabilidad. Si estas desviaciones al
cuadrado son pequeñas, existe menos variabilidad. Al calcular la varianza de
una variable, sus unidades quedan elevadas al cuadrado.
n
2 2
s =∑ ( xi −x́ ) /n−1
i =1
Otra expresión para su cálculo es
2
2 (∑ x )
∑x − n
s2=
n−1
La varianza por ejemplo de los pesos al destete de los cuyes es
( 7107 )2
1766749−
30
s2= =2865,50 g2
30−1
Desviación estándar. Es definida como la raíz cuadrada de la varianza. Es la
más utilizada para expresar variación. Las unidades de la variable no están
elevadas al cuadrado. Se puede definir como la desviación promedio de los
datos con respecto a su media.
Sacando la raíz cuadrada de la varianza se obtiene la desviación estándar de

los pesos de los cuyes al destete.
s=
√ ∑x −2
n−1
(∑ x)
n
=
√
1766749−
30−1
( 7107 )2
30
=53,53 g
Existe una relación práctica entre el rango y la desviación estándar. Si se

desea tener una idea de la desviación estándar de una característica sólo
utilizando el rango, éste se divide entre cuatro para obtener de manera burda la
desviación estándar. Por supuesto, siempre es conveniente el cálculo exacto
para evitar el sesgo observado.
Rango 263
s= = =65,75 g
4 4
Dos muestras pueden tener el mismo promedio; sin embargo, su desviación

estándar puede ser diferente. Una desviación estándar mayor indica mayor
variabilidad. La desviación estándar se utiliza para comparar la variabilidad de
dos conjuntos de datos que tienen las mismas unidades y sus promedios son
iguales o semejantes.
Desv.Est.
53,53
80,53
0 100 200 236,9 300 400 500

Peso al destete (g)
Figura 13. Poblaciones con medias iguales pero diferente desviación estándar
Coeficiente de variación. Se utiliza mayormente para comparar la variabilidad

entre dos variables o características cuando las unidades de medida son
diferentes o si sus promedios son diferentes. Es una medida expresada en
porcentaje. Por ejemplo, si se mide en un grupo de animales el peso y la altura
y sus respectivos CV son 30% y 20% respectivamente, podemos concluir que
el peso es más variable que la altura. Por ejemplo, la variabilidad entre el peso
al destete de los cuyes y la producción de leche de las vacas criollas.
s 53,53
CV = ∗100= ∗100=22,60 %
x́ 236,9
s 0,71
CV = ∗100= ∗100=14,73 %
x́ 4,82
Comparando los coeficientes de variabilidad obtenidos, podemos decir que la

variabilidad en el peso de los cuyes es mayor que en la de la producción de
leche. En ganadería se observan coeficientes de variación de hasta un 30 %,
mayores valores pueden considerarse extremos.
MEDIDAS DE POSICIÓN
Percentiles. En un conjunto ordenado de observaciones, el percentil es un

número expresado en porcentaje de manera tal que p% de las mediciones caen
bajo un valor de la variable y un (100 – p)% caen sobre ese valor. El percentil es
un valor expresado en las mismas unidades que la variable en estudio.
Cuartiles. Son percentiles que dividen el conjunto de datos en 4 partes iguales

(25% cada una). Utilizando cuartiles se puede evaluar rápidamente la dispersión
y la tendencia central de un conjunto de datos, que son los pasos iniciales para
entender sus datos. El primer cuartil (Q1), indica que el 25% de los datos es
menor o igual a ese valor. El segundo cuartil (Q2), es la mediana. El tercer cuartil
(Q3), indica que el 75% de los datos es menor o igual a ese valor. El rango
intercuartílico es la distancia entre el primer cuartil y el tercer cuartil (Q3-Q1), de
esta manera abarca el 50% central de los datos. Los cuartiles se hallan
utilizando la siguiente expresión, sea un número par o impar de datos:
k i ( n+1 )
Qi=
4
donde,
Qi = cuartil 1,2 y 3.
ki = 1, 2 y 3.
n = número de registros.
Si se obtiene un número exacto indicando la posición, sólo se busca el número

que se encuentra en esa posición. Si el número que indica la posición no es
exacto se procede a la interpolación utilizando los registros que se encuentran
antes y después de la posición hallada.
Para ilustrar el cálculo se ordena los 30 registros de peso al destete (Tabla 3), de
menor a mayor y se utiliza la expresión indicada para hallar cada cuartil.
109 152 158 176 192

194 205 209 209 219
219 219 224 230 234
234 239 248 250 256
262 266 266 273 281
298 299 201 313 372
Para hallar el primer cuartil
1 ( n+1 ) 1 ( 31 )
Q 1= = =7,75° ( posición)
4 4
Se ubican los valores que están en la posición 7º y 8º. Resultan ser el 205 y el
209. Aplicando el concepto de interpolación se tiene
Q 1=205+ (209−205 )∗0,75=208
Para el segundo cuartil
2 ( n+1 ) 2 ( 31 )
Q 2= = =15,5 ° ( posición)
4 4
Se ubican los valores que están en la posición 15º y 16º. Ambos números
resultan ser 234. Del mismo modo se obtiene
Q2=¿ 234 + (234 - 234)*0 = 234
Para el tercer cuartil
3 ( 31 )
Q 3= =23,25° ( posición)
4
Se ubican los valores que están en la posición 23º y 24º. Resultan ser el 266 y el
273. Finalmente se obtiene el valor del tercer cuartil
Q 3=¿ 266 + (273 - 266)*0,25 = 267,75
Gráfico de cajas y la detección de datos anómalos
El diagrama de cajas (Box plot) es una técnica gráfica que nos permite
determinar los valores atípicos, la asimetría de la distribución que corresponde
al 50% central de los datos y la variabilidad del 50% central de los datos.
Es una gráfica que nos da la opción de mostrar los cuartiles y detectar datos
anómalos. En los datos de pesos al destete de cuyes, se encontraron dos
datos anómalos, 109 y 372.
Figura 14. Diagrama de cajas
En Minitab, por opción predeterminada el bigote superior se extiende hasta el

valor más alto y el bigote inferior hasta el valor más bajo que no sea anómalo.
Un dato anómalo es aquel que supera un límite superior o un límite inferior
determinado. Estos límites se calculan de la siguiente manera:
Límite superior Q3 + 1,5*RIC = 267,75 + 1,5*59,75 = 357,38
Límite inferior Q1 - 1,5*RIC = 208,00 - 1,5*59,75 = 118,38
Otra forma de detectar datos anómalos es utilizar los valores z. Es la desviación

de una observación respecto a su media en unidades de desviación estándar.
Las observaciones con valores z más grandes que tres en valor absoluto son
considerados datos anómalos. Las observaciones con valores z más grandes
que dos en valor absoluto son considerados sospechosos. Con los pesos al
destete de los cuyes de 109 y 372 observamos que por sus valores z son
clasificados como sospechosamente anómalos.
x1− x́ 109−236,9
z 1= = =−2,39
s 53,53
x2 −x́ 372−236,9
z 2= = =2,52
s 53,53
MEDIDAS DE FORMA DE LA DISTRIBUCIÓN
Las medidas de asimetría permiten determinar la forma de una distribución para

un conjunto de datos.
Asimetría. Según la forma la distribución pueden ser simétricas o asimétricas a

la derecha o a la izquierda. Se mide por el coeficiente de asimetría. Muestra si
las desviaciones respecto a la media son más grandes en un lado que en el otro
de la distribución. Para una distribución simétrica el coeficiente de asimetría es
cero (b). Es positivo cuando la cola derecha es más larga (a) y negativo cuando
la cola izquierda es más larga (c).
(a) (b) (c)
Figura 15. Casos de asimetría
Con los datos de los pesos al destete de los cuyes, el coeficiente de asimetría es
n
n
x i− x́ 3 30
sk= ∑
( n−1 )( n−2 ) i=1 ( )s
=
29∗28
(1,041 ) =0,04
Al ser positivo podemos concluir que los datos están más concentrados hacia la
izquierda con una cola derecha más larga.
Curtosis. Una distribución puede ser aplanada, normal o empinada. Si la

distribución es normal el coeficiente de curtosis es cero y se denomina
mesocúrtica. Si es positivo, la distribución es empinada y se denomina
leptocúrtica y es negativo cuando es aplanada y se denomina platicúrtica.
Leptocúrtica
Mesocúrtica
Platicúrtica
Figura 16. Casos de curtosis
x i− x́ 4
n 2
n ( n+1 ) 3 ( n−1 )
kt = ∑ s
( n−1 )( n−2 ) ( n−3 ) i=1( ) −
( n−2 ) ( n−3 )
Utilizando los pesos al destete de los cuyes se tendrá:
30∗31 ( 3∗292
kt = 97,66 )− =0,81
29∗28∗27 28∗27
Al ser positivo el coeficiente de curtosis, se concluye que los datos tienen una
distribución empinada, es decir es leptocúrtica.
CLASE 3
INFERENCIA ESTADÍSTICA BÁSICA
La inferencia estadística de los parámetros de la población se puede realizar

utilizando dos técnicas muy relacionadas como son la prueba de hipótesis y los
intervalos de confianza. Con los intervalos de confianza, se busca encontrar,
dos valores entre los que puede hallar la media de la población, con un nivel de
error. En las pruebas de hipótesis, la intención es aceptar o rechazar si la
media de la población es un determinado valor, siempre con un nivel de error.
El error mencionado es conocido como alfa, comúnmente en las
investigaciones se utiliza un alfa de 0,05 (5%) ó 0,01(1%).
Comparación de una media con un estándar

Se utiliza en los casos donde se busca comparar la media de una característica
de importancia económica, producto de una gestión productiva con respecto a
un estándar o producción comercial.
La población de vacas de primer parto en un establo, bajo un manejo
tradicional tiene una media de 4000 kg de leche por campaña. Luego de aplicar
una nueva técnica de manejo en el establo en las vacas de primer parto, se
extrae una muestra de 10 vacas que tienen una media de producción por
campaña de 4200 kg., con una desviación estándar de 500 kg. ¿La nueva
técnica de manejo, mejoró la producción de leche por campaña?
Prueba de hipótesis
Se establecen los pasos para realizar la prueba de hipótesis.
a) Definir las hipótesis estadísticas
Ho: µ = 4000 kg
La población sigue teniendo una media de 4000 kg ó cambió y se
H1: µ ≠ 4000 kg
considera otra población
b) Elegir el nivel de error alfa.
Elegimos 0,05
c) Definir la prueba estadística
Se elige la prueba t:
ý−μ 4200−4000
t= = =1,26
s 500
√n √ 10
d) Se establecen las regiones críticas en la distribución t para dos colas
∝
(gl = 9 y =¿ 0,05/2).
2
0,4
0,3
Densidad
0,2
Región Región Región

aceptación H1 aceptación Ho aceptación H1
0,1
0,025 0,025
0,0
-2,262 0 2,262
Valores t
a. Se compara el valor calculado con el valor crítico respectivo y se

concluye.
El valor de t calculado es 1,26, ubicándolo en el gráfico cae en la región

de aceptación de la hipótesis nula. Se concluye que la media poblacional
sigue siendo igual a 4000 kg. La técnica de manejo no mejoró la
producción de leche por campaña en vacas de primer parto.
La prueba de hipótesis se puede realizar a una cola o dos colas; sin

embargo, actualmente cada vez más revistas científicas están exigiendo
el uso de las pruebas a dos colas por ser más exigente.
Intervalo de confianza
Al utilizar intervalos de confianza de lo que se trata es encontrar dos valores L 1
y L2, tales que el parámetro µ se encuentre entre ellos con una probabilidad de
1-α. Los términos involucrados se muestran a continuación:
t ∝∗s t ∝ ∗s
donde,
(
P x́− 2
√n
≤ μ ≤ x́+ 2
√n )
=1−α
x́=media de lamuestra
α
t α =valor de t buscado en latabla( , n−1 gl)
2
2
s=desviación estándar
n=tamaño de la muestra
μ=media de la población
α =nivel de error
De acuerdo al ejemplo, reemplazando los valores en la fórmula, tenemos:
2,262∗500 2,262∗500
(
P 4200−
√ 10
≤ μ ≤ 4200+
√ 10
=0,95 )
Finalmente, se encuentran los límites de confianza.
P¿
Al analizar los límites del intervalo, podemos apreciar que el intervalo estimado
incluye a la media de 4000 kg, por lo que se puede afirmar que la muestra
pertenece a esa población. La técnica de manejo no mejoró la producción de
leche por campaña en vacas de primer parto.
Comparación entre dos medias
En los casos donde se pretende comparar dos gestiones de manejo o dos

técnicas de producción a través de una característica de importancia
económica, se puede utilizar esta opción. Se distinguen dos casos,
comparación para muestras independientes y muestra dependientes.
Muestras independientes
Dos grupos de lechones fueron alimentados con dos diferentes raciones (A y
B). En el grupo A se consideraron 20 lechones y en el grupo B, 18 vacas para
evaluar su efecto en el peso al destete ¿Cuál de las dos raciones favorece a un
mayor peso al destete?
Estadígafo Ración Ración B

A
Media (miles de kg) 6,80 5,50
Desviación estándar 0,62 0,45
n 20 18
Los pasos para realizar la prueba de hipótesis son:
a) Establecer las hipótesis estadísticas
H 0 :µ1=µ2
H 1 : µ 1≠ µ2

Elegimos 0,05
Se elige la prueba t para datos independientes.
ý 1− ý 2 6,80−5,50
t= = =7,22
EE ý − ý
1 2
0,18
Para hallar el EE ý − ý , se calcula primero,

1 2
( n1 −1 ) s12+ ( n1−1 ) s 22 Y
s p=
√ n1+ n2−2
=
√ ( 20−1 )∗0,38+ (18−1 )∗0,20
18+ 20−2
=0,54
posteriormente,
1 1 1 1
EE ý − ý =s p
1 2
√ + =0,54
n 1 n2 √ + =¿ 0,18 ¿
18 20
α
d) Establecemos las regiones críticas en t (gl, 36 y ,0,025)
2
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-2,028 0 2,028
Valores t
e) Comparar el valor calculado con los valores críticos y realizar la

conclusión.
El valor de t calculado es 7,22, ubicándolo en el gráfico cae en la zona

de rechazo de la hipótesis nula. Se concluye que las medias muestrales
pertenecen a dos poblacionales diferentes. La ración A propició una
mayor producción de leche por campaña.
Las condiciones requeridas para dar validez a esta la inferencia son:
- Las dos muestras son elegidas al azar de manera independiente

provenientes de dos poblaciones.
- Ambas muestras tienen distribuciones que son aproximadamente
normal.
- Las varianzas de la población son iguales (σ 12=σ 22).
Cuando las σ 12 ≠ σ 22 y n1 =n2 , la prueba estadística todavía posee
aproximadamente una distribución t.
( x́1 −x́2 )
t=
( s 21+ s22 )
√ n
Sin embargo, cuandoσ 12 ≠ σ 22 y n1 ≠ n2 los grados de libertad asociado a la

distribución t se modifican para obtener una buena aproximación.
s21 s 22
v∗¿
( +
n1 n2 )
2 2
s21 s 22
( ) ( )
n1
+
n2
n1 −1 n2−1
*Los valores de v generalmente no son enteros. Se redondea v hacia abajo, al más cercano
entero para usar la tabla.
En este caso la prueba t tiene la siguiente expresión
( x́ 1−x́ 2 )
t=
s 21 s22
√ +
n1 n2
Se utiliza una expresión semejante a la de una media pero considerando

la diferencia de medias.
P¿
donde,
ý 1− ý 2=diferencia de la medias
α
t ∝ =valor de t de la tablabuscado a y (n 1+ n2−2)gl
2
2
EE ý − ý =error estándar de la diferencia de medias
1 2
μ1−μ 2=diferencia de medias poblacionales

α =nivel de error
Reemplazando valores se tiene
P [(6,80−5,50)−2,028∗0,1772≤ μ1−μ2 ≤(6,80−5,50)+2,028∗0,1772 ] =95 %
Para finalmente obtener los límites de confianza
( 0,94 ≤ μ1−μ 2 ≤ 1,66 )=95 %
Analizando el intervalo de confianza de la diferencia de medias poblacionales,

podemos apreciar que no incluye a cero, la media poblacional debida a la
ración A es superior a la población debida a la ración B. Esta superioridad
puede ir desde 0,94 hasta 1,66 miles de kg.
CLASE 4
Muestras dependientes
El efecto de un tratamiento es probado sobre la producción de leche en vacas.

Las vacas fueron del mismo número de parto y estado de lactación. La
producción de leche diaria fue medida antes y después de la administración un
tratamiento.
Medida Vaca1 Vaca2 Vaca3 Vaca4 Vaca5 Vaca6 Vaca7 Vaca8 Vaca9
Antes 27 45 38 20 22 50 40 33 18
Después 31 54 43 28 21 49 41 34 20
Diferenci
a 4 9 5 8 -1 -1 1 1 2
(d)
En este caso se considera la diferencia de las producciones antes y después

de cada una de las vacas como una variable. Debemos mencionar que en este
caso se favorece la remoción de la variación debida a diferencias entre los
animales. Usando este diseño se obtiene un mayor poder de la prueba que si
se usa dos muestras independientes. Se calculan la desviación estándar y la
media de las diferencias.
2
sd =
√ 2
∑d −
n−1
(∑ d )
n
=
√ 194−
8
784
9
=3,66
d́=
∑ d = 28 =3,11
n 9

H 0 :μ d =0
La media poblacional de las diferencias es cero o es una población cuya
H 1: μd ≠ 0 media de las diferencias es diferente a cero.

Elegimos 0,05
Se elige la prueba t para datos independientes
d́ 3,11
t= = =2,55
sd 3,66
√n √9
α
d) Establecemos las regiones críticas en t (gl, 8 y ,0,025)
2
0,4
Densidad 0,3
0,2
0,1
0,025 0,025
0,0
-2,306 0 2,306
Valores t
e) Comparamos el valor calculado con los valores críticos y concluimos.
El valor de t calculado es 2,55, ubicándolo en el gráfico cae en la zona de

rechazo de la hipótesis nula en el lado derecho. Se concluye que la media
poblacional de las diferencias es diferente cero. El tratamiento aplicado
favoreció una mayor producción de leche diaria (3,11 kg.)
Se utiliza una expresión semejante para hallar el intervalo de confianza
de una media, sólo que ahora es media de las diferencias ( d́).
t ∝ ∗s d t ∝∗sd
2 2
donde, P( d́ − ≤ μd ≤ d́ + )=1−α
√n √n
d́=media de las diferencias
∝
t ∝ =valor de t de la tablabuscado con y n−1 gl
2
2
sd
=error estándar
√n
μd =media poblacional de la diferencias
Reemplazando valores se tiene.
2,306∗3,66 2,306∗3,66
(
P 3,11−
√9
≤ μ d ≤3,11+
√9 ) =95 %
Finalmente, el intervalo de confianza es:
( 0,30 ≤ μd ≤ 5,92 )=95 %
Al analizar el intervalo de confianza vemos que la media poblacional de las

diferencias ( μd ¿ es diferente de cero. Se puede encontrar diferencias desde
0,30 hasta 5,92 a favor del tratamiento aplicado después.
Comparación de una proporción con un estándar
Para una muestra de tamaño n y un número de eventos y, la proporción es

igual a:
y
p=
n
La distribución de una proporción estimada de una muestra, p, es

aproximadamente normal si la muestra es bastante grande. Una muestra es
bastante grande si np y (1-p)n son mayores o iguales a 5.
En una granja porcina la proporción de lechones con diarrea en maternidad es

de 0,15. Se decide realizar cambios en el manejo. Luego, se toma una muestra
de 150 lechones y se observa que 18 lechones están con diarrea (0,12). ¿Se
redujo la diarrea en maternidad?
Ho:π = 0,15
La población sigue teniendo una proporción de 0,15 ó cambió y se
H1: π ≠ 0,15
considera otra población
Elegimos 0,05
Se elige la prueba z, porque es considerada una muestra grande
[pn =18 y (1-p)n = 132, ambos son mayores a 5].
p−π 0,12−0,15
z= = =−1,03
π ( 1−π ) 0,15 ( 1−0,15 )
√ n √ 150
d) Se establecen las regiones críticas en z (0,025)
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-1,960 0 1,960
-1,03 Valores Z
e) Se compara el valor calculado con los valores críticos y realizar la

conclusión.
El valor de z calculado es -1,03, ubicándolo en el gráfico cae en

la zona de aceptación de la hipótesis nula. Se concluye que las
proporciones son iguales. El manejo establecido no logró reducir la
proporción de diarrea en lechones.
1.1. Intervalo de confianza
Se utiliza una fórmula semejante a la de una media pero considerando la
proporción.
pq pq
P( p−z ∝ ∗
2 √ n 2√
≤ π ≤ p+ z ∝∗
n
)=1−α
( 0,12 ) ( 0,88 ) ( 0,12 ) ( 0,88 )

(
P 0,12−1,96∗
√ 150 √
≤ π ≤ 0,12+1,96∗
150 ) =95 %
P ( 0,07 ≤ π ≤ 0,17 )=95 %
Al analizar el intervalo de confianza y observar que π = 0,15 está

contenida en el intervalo de confianza, se puede decir que la población sigue
siendo la misma y por lo tanto no hubo ningún cambio en la presentación de
diarrea.
Comparación de dos proporciones
Probar la diferencia entre las proporciones de vacas que retornaron al celo

después de la primera inseminación en dos establos. Los datos se muestran en
la siguiente tabla.
Establo1 Establo2
Retorno de celo Y1 = 40 Y2 = 30
Vacas n1= 100 n2 = 100
inseminadas
Proporción p1 = 0,40 p2 = 0,30
H 0 :π 1=π 2
Las proporciones de muestras se consideran de una misma población o
H 0 :π 1 ≠ π 2 provienen de diferentes poblaciones.
Elegimos 0,05
c) Definimos la prueba estadística
Se elige la prueba z, las muestras analizadas son consideradas grandes
[muestra 1: pn = 40 y (1-p)n=60; muestra 2: pn = 30 y (1-p)n = 70; se
comprueba que son mayores a 5].
Se calcula un p y q (1-p) con base en las dos muestras.
y +y 40+ 30
p= 1 2 = =0,35 ; entonces q = 0,65
n1 +n2 100+100
Luego se calcula,
1 1 1 1
1 2
√
S p − p = pq
( ) √
+ = ( 0,35 ) ( 0,65 )
n1 n2
+
100 100
=0,07 ( )
p 1− p2 0,40−0,30
z= = =1,43
S p −p 1
0,072
d) Se establecen las regiones críticas en Z(0,025)

Gráfica de distribución
Normal; Media=0; Desv.Est.=1
0,4
0,3
Densidad
0,2
0,1
0,025 0,025
0,0
-1,960 0 1,960
X
e) Se compara el valor calculado con los valores críticos y se realiza la

conclusión.
El valor de z calculado es 1,43, ubicándolo en el gráfico cae en la zona

de aceptación de la hipótesis nula. Se concluye que las proporciones
son iguales. No hay suficiente evidencia para establecer que las
proporciones de retorno al celo en ambos establos fuera diferente.
1.2. Intervalo de confianza
Se utiliza una fórmula semejante a la de una proporción pero considerando la
diferencia de proporciones. Se construye los intervalos de confianza como
sigue:
P ( p 1− p2 )−z α ∗s p −p ≤ π 1 −π 2 ≤ ( p 1− p2 ) + z α ∗s p − p =1−α
[ 2
1 2
2
1 2
]
Reemplazando valores tenemos
P [ ( 0,40−0,30 )−1,96∗0,06745 ≤ π 1−π 2 ≤ ( 0,40−0,30 ) +1,96∗0,06745 ]=95 %
P (−0,032 ≤ π 1−π 2 ≤0,232 ) =95 %
Al analizar el intervalo de confianza, podemos observar que la diferencia

entre proporciones incluye a cero, por lo que se concluye que la proporción de
celos en ambos establos es la misma.
CLASE 5
ANALISIS DE LA VARIANZA
ASPECTOS CONCEPTUALES EN EL DISEÑO DE EXPERIMENTOS
Existen definiciones muy importantes que se tienen que considerar:
Unidad experimental
Es el artículo, animal o parcela de la cual se obtiene una medición o dato
representativo de lo que allí ocurre.
Diseño experimental
Es un arreglo de las unidades experimentales que se utiliza para controlar el error
experimental a la vez que se acomodan los tratamientos.
Factor de estudio
Es la variable que se investiga en el experimento en cuanto a cómo influyen o afectan
a la variable respuesta. Es la variable independiente. Ej. Temperatura, densidad,
proteína, etc.
Niveles de un factor
Son los diferentes valores que se asigna dentro de cada factor estudiado. Ej. 10º, 20º y
30º (factor temperatura).
Tratamiento
Es todo lo que se aplica a las unidades experimentales. Es el nivel del factor aplicado
a las unidades experimentales.
Replicación
Es aplicar un tratamiento a más de una unidad experimental.
Repetición
Son mediciones repetidas en la misma unidad experimental.
Bloqueo
Es detectar un criterio de estratificación en las unidades experimentales. La
variabilidad dentro de bloques es menor que la variabilidad entre bloques.
Unidad de observación o submuestreo

Es un subconjunto de la unidad experimental.
Variable respuesta
Es la característica, variable de salida o propiedad del producto, cuyo valor interesa
conocer. Es la variable dependiente.
Error aleatorio
Es la variabilidad observada que no se puede explicar por los factores estudiados.
Error experimental
Es el error que comete el investigador durante el experimento. Si estos son graves, la
detección de cuáles de los factores estudiados tienen un efecto real sobre la variable
respuesta será difícil.
Cuando se corre un diseño experimental es importante que la variabilidad de la
respuesta observada se deba principalmente a los factores estudiados y en menor
medida al error aleatorio, y además que este error sea efectivamente aleatorio.
Aleatoriedad
Consiste en hacer las asignaciones de los tratamientos en orden aleatorio; este
principio aumenta la posibilidad de que el supuesto de independencia de los errores se
cumpla.
Análisis de la varianza (Analysis of variance)(ANOVA)

Es una técnica estadística que se usa para probar la igualdad de varias medias
poblacionales. Separa la variación total en varias fuentes. Por ejemplo la variación
total del experimento puede ser dividida en debida a tratamientos y debida al error
aleatorio.
Hipótesis a probar en el ANOVA

Son dos formas equivalentes que prueban los tratamientos. La primera se refiere a las
medias de los tratamientos y la segunda a los efectos de los tratamientos.
Probando medias:
H 0 :μ 1=μ2=μ3 =…=μ k “Las medias de los tratamientos son iguales”

H 1 : μ i ≠ μi para algún i≠ i`
Probando efectos:
H 0 :τ 1=τ 2=τ 3 =…=τ k = 0 “Los efectos de los tratamientos son iguales

H1: τi≠ 0 y es cero”
PRINCIPALES DISEÑOS EXPERIMENTALES EN ZOOTECNIA
Según los criterios que se identifiquen en la variabilidad que se observa en las

unidades experimentales se define el diseño experimental a utilizar.
Existen Diseños Experimentales de uso frecuente como son:

Diseño Completamente al Azar. Para aplicar este diseño se debe observar que las
unidades experimentales a utilizar sean homogéneas, es decir que todas posean
similares características y a las cuales se les asigna al azar los tratamientos. Por
ejemplo, si se desea utilizar este diseño en cuyes de engorde debemos observar que
todos los animales sean de la misma raza y sexo. Si se desea evaluar madres, que
todas sean de la misma raza y del mismo número de parto. Por ejemplo si tenemos 15
terneros y tres tratamientos con cinco replicaciones por tratamiento. La asignación al
azar de los tratamientos en quince terneros ubicados en quince corrales se muestra en
la Tabla 1.
Tabla 1. Distribución al azar de los tratamientos en un DCA
T3 (1) T2 (2) T1 (3)

T2 (4) T1 (5) T1 (6)
T2 (7) T3 (8) T3 (9)
T1 (10) T3 (11) T2 (12)
T1 (13) T1 (14) T2 (15)
Para analizar los registros de la variable respuesta que están en la Tabla 1, se los
agrupa según tratamientos:
Tabla 2. Variables respuesta por tratamiento
T1 T2 T3
y11 y21 y31
y12 y22 y32
y13 y23 y33
y14 y24 y34
y15 y25 y35
Diseño de Bloques Completos al Azar. En este segundo Diseño, las unidades

experimentales no exhiben homogeneidad completa, se distingue una característica
que nos sirve para agruparlas y en las que se aplica al azar los tratamientos. En
pasturas los suelos pueden estratificarse por pendiente, humedad, etc. En vacas, se
puede estratificar según lactación de 1º, 2º, 3º y 4º a más. Por ejemplo si tuviésemos
12 vacas, tres de cada grupo de lactación y se desea estudiar el efecto de tres
tratamientos.
Tabla 3. Distribución al azar de los tratamientos dentro del bloque en un DBCA
Bloqu Distribución al azar

e
1º T3 (1) T1 (2) T2 (3)
2º T2 (4) T3 (5) T1 (6)
3º T1 (7) T2 (8) T3 (9)
>=4º T3 (10) T2 (11) T1 (12)
Para analizar los registros de la variable respuesta con un DBCA, se agrupan por
tratamiento y bloque:
Tabla 4. Variable respuesta por tratamiento y bloque
Bloqu T1 T2 T3
e
1º y11 y21 y31
2º y12 y22 y32
3º y13 y23 y33
≥4º y14 y24 y34
Estos Diseños, tienen variantes según la intención del investigador y la naturaleza del
experimento; pueden incluir arreglos factoriales, covarianza y sub-muestreo. Estas
variantes serán tratadas en lecciones posteriores. Así por ejemplo, podemos tener un
Diseño Completamente al Azar con arreglo factorial.
El análisis de los diseños experimentales se realiza a través de una técnica
denominada análisis de varianza.
LA TÉCNICA DEL ANÁLISIS DE VARIANZA Y SUS ASUNCIONES
La técnica del análisis de la varianza,fue una técnica ideada por Sir R. Fisher y
consiste en cuantificar la variabilidad debida a las fuentes de variación identificadas
que afectan a las unidades experimentales. Esto se realiza utilizando un tabla de
ANOVA (Analysis of variance). En nuestro idioma sería ANVA (análisis de la varianza).
Consta de cinco columnas:
Fuente Grados de Suma de Cuadrados Fcal

Variación Libertad Cuadrados Medios
Esta técnica, debe cumplir una serie de asunciones para que los resultados obtenidos
sean válidos:
Normalidad de los errores. Existen pruebas como la de Anderson-Darling,
Kolmogorov- Smirnov, Shapiro-Wilks entre otras.
Gráfica de probabilidad de peso

Normal
99
Media 884,5
Desv.Est. 112,0
95 N 15
RJ 0,943
90
Valor p 0,069
80
70
Porcentaje
60
50
40
30
20
10
5
1
600 700 800 900 1000 1100 1200
peso
Homocedasticidad (igualdad de varianzas). Las pruebas son Bartlett, Cochran y

Hartley, así como la de Levene.
Prueba de varianzas iguales: peso vs. trata
Prueba de Bartlett
Valor p 0,192
1
trata
0 50 100 150 200

Intervalos de confianza de Bonferroni de 95% para Desv.Est.
Independencia de los errores. Existe la prueba de Durbin-Watson. Sin embargo, no

detecta la correlación entre datos no continuos.
vs. orden
(la respuesta es peso)
50
25
0
Residuo
-25
-50
-75
-100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden de observación
Datos anómalos. Las observaciones que resultan muy diferentes al resto son
considerados datos anómalos. El investigador deberá decidir si los retira o los deja en
el experimento.
Gráfica de caja de peso
1000
950
900
850
peso
800
750
700
650
1 2 3
trata
En el caso que las gráficas de los residuos u otros diagnósticos indiquen que el
modelo ANOVA no es apropiado para los datos, se requieren posibles medidas
correctoras. Una de las medidas es utilizar transformaciones sobre la variable
respuesta, como la recíproca, inversa de la raíz, logarítmica o raíz cuadrada. Una vez
que los datos originales se han transformado se procede a desarrollar la técnica del
análisis de la varianza (ANOVA), con resultados confiables.
EL DISEÑO COMPLETAMENTE AL AZAR (DCA)
El Diseño Completamente al Azar tiene su modelo estadístico como sigue:

Y ij =μ+ τ i+ ε ij
Y ij : es la medición de la variable respuesta de la j-ésima unidad experimental

con el i-ésimo tratamiento.
μ : es el promedio general de la variable respuesta.
τ i : es el efecto del i-ésimo tratamiento.
ε ij : es el error experimental en la j-ésima unidad experimental con el i-ésimo

tratamiento.
Grados Suma de Cuadrados

Fuente
de Cuadrados Medios Fcal
variación
libertad (SC) (CM)
Entre grupos
t
Y 2i . Y 2.. SC (trat ) CM (trat )
(tratamientos)
t -1 ∑ r
−
rt t−1 CM (error )
i=1
Dentro de t r
Y 2i .
2
t
SC (error )
grupos t(r -1) ∑ ∑ Y −∑ r ij
(error)
i=1 j=1 i=1 t( r−1)
t
Y 2..
r
2
Total rt -1 ∑ ∑ Y − rt ij
i=1 j=1
Considerando datos no equilibrados (diferente número de replicaciones por

tratamiento) la tabla de ANOVA resulta ser:
Grados Suma de Cuadrados

Fuente
de Cuadrados Medios Fcal
variación
libertad (SC) (CM)
Entre grupos Y 2i . Y 2..
t
SC (trat ) CM (trat )
(tratamientos)
t -1 ∑ r −r t−1 CM (error )
i=1 i .
Dentro de t r
Y 2i .
2
t
SC (error )
grupos r. - t ∑ ∑ Y −∑ r ij
(error)
i=1 j=1 i=1 i r .−t
t
Y 2..
r
2
Total r. -1 ∑∑ Y − r ij
i=1 j=1 .
En el diseño no equilibrado, la diferencia está en el cálculo de la Suma de Cuadrados

de Tratamientos : en el primer término de la SC trat, cada tratamiento se divide según
sus replicaciones. En el segundo término ya no se divide por “rt” en vez de ello se
divide por “r.” que representa la suma de todas las observaciones que quedan.
Como ejemplo, para diseño equilibrado, consideraremos un experimento donde se

probó tres dietas con diferentes niveles de energía por kilogramo de materia seca (2.6
Mcal/Kg.; 2.8 Mcal/Kg.y 3.0 Mcal/Kg.). Estas tres dietas contenían 18 % de proteína
y fueron aplicadas a cuyes destetados, de la raza Perú por dos meses y transcurrido el
tiempo experimental se observó el peso final, como se muestra en la Tabla 9:
Tabla 9. Pesos Finales de cuyes según tratamientos
T1 T2 T3
2.6 Mcal 2.8 Mcal 3.0 Mcal
y11  777 y 21  913 y31  960
y12  746 y 22  883 y32  980
y13  785 y 23  990 y33  950
y14  753 y 24  995 y34  1000

y15  659 y 25  892 y35  985
Y1. = 3720 Y2. = 4673 Y3. = 4875
Y.. = 13268
Ý 1. =744,00 Ý 2. =934,60 Ý 3. =975,00
Ý ..=884,50
En el modelo equilibrado la Tabla de análisis de la varianza es como sigue:
Tabla 10. Análisis de la varianza de un DCA equilibrado
FV GL SC CM Fcal
Tratamiento 152202,5
2 76101,27 39,12 *
3
Error 12 23341,20 1945,10
Total 175543,7
14
3
Ho: μ 1=μ1=μ1=μ 1=μ1
H 1 : Algún tratamiento es diferente
Y 21. +Y 22. +Y 23. Y 2.. ( 3720 )2 + ( 4673 )2+ ( 4875 )2 ( 13268 )2

SCTrat = − = − =152202,53
r r∗t 5 5∗3
2 2 2 Y 21. +Y 22. +Y 23.

SC Error =Y 11 +Y 12 +…+Y 35−
5
( 3720 )2 + ( 4673 )2 + ( 4875 )2

SC Error =(777)2+(746)2+ …+ ( 985 )2− =23341,20
5
2 Y 2..
2 2
SCTotal =Y +Y +…+ Y −
11 12 35
r∗t
2 2 (13268)2 2
SCTotal =(777) +(746) + …+ ( 985 ) − =175543,73
5∗3
F; df1=2; df2=12
1,0
0,8
Densidad
0,6
0,4
0,2
0,05
0,0
0 3,885
X
Conclusión: Como Fcal (39,12) > Ftabla (3,89; buscado con un alfa 0,05 con 2 y 12 gl), se
acepta la hipótesis alterna y se concluye que existen diferencias significativas (*) entre
tratamientos.
En el modelo no equilibrado, cuando la última observación del tratamiento tres se

perdió, la Tabla de ANOVA es la siguiente:
Tabla 11. Análisis de la varianza de un DCA no equilibrado
FV GL SC CM Fcal
Tratamiento 70756,5
2 141513,01 33,52 *
s 1
Error 11 23216,20 2110,56
Total 13 164729,21
Ho: μ 1=μ1=μ1=μ 1=μ1

(3720)2 (4673)2 (3890)2 ( 12283 )2
SCTrat = + + − =141513,01
5 5 4 14
( 3720 )2 ( 4673 )2 ( 3890 )2

SC Error =(777)2+(746)2+ …+ ( 1000 )2− + + =23216,20
5 5 4
( 12283 )2
SCTotal =(777)2+(746)2+ …+ ( 1000 )2− =164729,21
14
F; df1=2; df2=11
1,0
0,8
Densidad
0,6
0,4
0,2
0,05
0,0
0 3,982
X
Conclusión: Como Fcal (33,52) > Ftabla (3,98; buscado con un alfa 0,05 con 2 y 11 gl), se
sigue aceptando la hipótesis alterna y se concluye que existen diferencias
significativas (*) entre tratamientos.
EL DISEÑO DE BLOQUES COMPLETOS AL AZAR (DBCA)
La tabla de ANOVA de un DBCA incluye en este caso como fuentes de variación los
tratamientos, bloques y el error.
Modelo estadístico:
Y ij =μ+ τ i+ β j+ ε ij
Y ij : es la medición de la variable respuesta de la j-ésima unidad experimental
con el i-ésimo tratamiento.
μ : es el promedio general de la variable respuesta.
τ i : es el efecto del i-ésimo tratamiento.

β j : es el efecto del j-ésimo bloque.
ε ij : es el error experimental en la j-ésima unidad experimental con el i-ésimo

tratamiento.
Tabla 12. ANOVA de un DBCA
Fuente Grados de Suma de Cuadrados

variación libertad Cuadrados medios Fcal
(GL) (SC) (CM)
t
Y 2i . Y 2..
t -1 ∑ b − b∗t SC (Trat) CM (Trat)
Tratamiento i=1
GL(Trat ) CM ( Error)
b
y 2. j y 2.. SC (Bloques)
b-1 ∑ t
−
bt
Bloques j=1 GL(Bloques) CM ( Bloques)
CM ( Error)
Diferencia
Error (t-1)(b-1) SC (Error)
GL(Error)
t b
2 y 2..
Total bt-1 ∑∑ y ij−
i=1 j=1 bt
Los bloques como muchas veces no son distribuidos al azar, la prueba de F para
bloques es una prueba aproximada. En la práctica se recomienda su interpretación
porque es evidencia a favor o en contra de que valió la pena el esfuerzo de controlar el
factor de bloque.
Sin embargo, también se puede interpretar que al extraer una parte de la variación
como bloques y no salir significativo, se estaría favoreciendo para hallar significación
entre tratamientos, debido a que la suma de cuadrados del error se ve disminuida.
Un supuesto del diseño de bloques es que no existe interacción entre el factor de
bloques y factor de tratamientos.
Como ejemplo consideraremos un estudio de seis programas diferentes de aplicación
de nitrógeno (A, B, C, D, E y F) sobre el contenido de nitrógeno en las espigas de
trigo. El bloqueo era la gradiente de irrigación (Bi).
Tabla13. Distribución de los tratamientos en un DBCA

B 40,89(B) 37,99 (E) 37,18(D 34,98(A) 34,89(F) 42,07(C)
1 )
B 41,22(A 49,42(C) 45,85(D 50,15(F) 41,99(E) 46,69(B)
2 ) )
B 44,57(F) 52,68(C) 37,61(E) 36,94(A) 46,65(B) 40,23(D)

3
B 41,90(B) 39,20(D) 43,29(F) 40,45(E) 42,91(C) 39,97(A)
4
Dr. T Doerge, Department of Soil and Water Science, University of Arizona. Kuhel (2001).
La tabla para el análisis sería:
Tabla 14. Variable respuesta por Tratamiento y bloque
A B C D E F Y.j
Gradiente
1 34,98 40,89 42,07 37,18 37,99 34,8 228,00
9
2 41,22 46,69 49,42 45,85 41,99 50,1 275,32
5
3 36,94 46,65 52,68 40,23 37,61 44,5 258,68
7
4 39,97 41,90 42,91 39,20 40,45 43,2 247,72
9
Yi. 153,11 176,13 187,0 162,4 158,04 172,9 Y..=1009,72
8 6
La tabla del ANOVA se muestra a continuación.
Tabla 15. Análisis de la varianza de un DBCA
FV GL SC CM Fcal
Nitrógeno 5 201.32 40,26 5,59 *
Gradient 3 197,00 65,67 9,12
e
Error 15 108,01 7,20
Total 23 506,33
Ho: μ 1=μ1=μ1=μ 1=μ1
Y 21. +Y 22. +Y 23. +Y 24. +Y 25. +Y 26. Y 2..

SC Nitrog .= −
b b∗t
(153,11)2 +(176,13)2 +…+(172,9)2 ( 1009,72 )2

SC Nitrog .= − =201,32
4 4∗6
Y 2.1 +Y 2.2 +Y 2.3 +Y 2.4 Y 2..

SC grad. = −
t b∗t
(228)2+(275,32)2+(258,68)2+(247,72)2 ( 1009,72 )2
SC grad. = − 197,00
6 4∗6
2 ( 1009,72 )2
2 2
SCTotal =(34,98) +(41,22) + …+ ( 43,29 ) − 506,33
4∗6
SCerror =sc total −( SCT + SC b )=506,33−( 201,32+197 )=108,01
F; df1=5; df2=15
0,8
0,7
0,6
0,5
Densidad
0,4
0,3
0,2
0,1
0,05
0,0
0 2,901
X
Conclusión: Como Fcal > Ftabla (5,59 > 2,90, hallado a un alfa de 0,05 con 5 y 15 gl ), se
acepta la hipótesis alterna y se concluye que existen diferencias significativas (*) entre
tratamientos.
CLASE 6
PRUEBAS DE COMPARACIONES MÚLTIPLES
I. COMPARACIONES A POSTERIORI O NO PLANEADAS
Cuando se concluye que hay diferencia significativa entre grupos de

tratamientos, luego de realizar el ANOVA, el investigador deseará averiguar
qué tratamientos son iguales o cuáles son diferentes. Existen varios
procedimientos para determinar la diferencia entre un par de medias. Todas
esas pruebas pueden incurrir en dos tipos de error.
 Rechazar la hipótesis nula cuando ésta es verdadera es un error Tipo I.

La probabilidad de cometer un error tipo I se denomina alfa (α).
 Aceptar la hipótesis nula cuando éstas es falsa es un error tipo II. La
probabilidad de cometer un error tipo II se denomina Beta (β).
Las pruebas de acuerdo al criterio mostrado se pueden clasificar en tres
grupos:
Error Tipo I
DMS (Diferencia Mínima Significativa)
Duncan
Error intermedio
Tukey DHS
Bonferroni
Dunnett
Error Tipo II
Scheffeé
Actualmente, se recomiendan utilizar las pruebas que tienen un error

intermedio, que se detallan a continuación.
I.1. PROCEDIMIENTO DE TUKEY
Se denomina DHS (Diferencia Honestamente Significativa) de Tukey. Es

llamada así, porque algunos otros procedimientos hacen que la significancia
sea demasiado fácil de obtener. Se recomienda cuando se desea comparar
tratamientos con igual número de replicaciones.
Se calcula un solo valor crítico para todas las comparaciones.
CME
√
DHS=q α ,k , v∗
r
El multiplicador q α ,k , v : es hallado para un α; k medias y v grados de libertad del
error. El CME, es el cuadrado medio del error y r son las replicaciones por
tratamiento.
La hipótesis que se prueban por parejas de comparación son:
H 0 :μ i=μ j
H 1: μi≠ μj
Si | ý i− ý j|< DHS , se acepta la H 0
Si | ý i− ý j|> DHS , se acepta la H 1
Existe una modificación del procedimiento de Tukey cuando los tratamientos

tienen diferente número de repeticiones, llamada Tukey-Kramer, pero que
muchos estadísticos no la recomiendan.
I.2. PROCEDIMIENTO DE BONFERRONI
La estrategia de Bonferroni considera el número de comparaciones y no el

número de tratamientos como la DHS de Tukey. El valor de k es el número de
comparaciones por pares, que se halla de la siguiente forma, k = t(t-1)/2 ,
donde t es el número de tratamientos.
Como es una prueba que se recomienda cuando hay diferente número de
replicaciones por tratamiento podría ser necesario calcular más de un valor
crítico B para alguna comparación. Si en un experimento, t 1 tiene n1=5; t2 tiene
n2=4 y t3 tiene n3=5 se tendrían que calcular dos valores críticos B para realizar
la comparación por parejas utilizando esta expresión:
√
B=t B∗ CME
( r1 + r1 )
i j
El multiplicador t B es hallado para un α; k comparaciones por pares y v grados

de libertad del error.
La hipótesis que se prueban son:
H 0 :μ i=μ j
H 1 : μi ≠ μj
Si | ý i− ý j|< B , se acepta la H 0
Si | ý i− ý j|> B , se acepta la H 1
I.3. EJEMPLO DE APLICACIÓN PARA LAS DOS PRUEBAS
Se desea investigar diferentes tipos de empaque para el almacenamiento de

carnes. Se selecciona cuatro tipos de empaque:
 Aire del ambiente con un empaque de plástico comercial.
 Al vacío.
 Mezcla de gases con 1% CO, 40% 02 y 59% N
 100% CO2.
Cort Tratamiento Log(N°/cm2) Promedios

e
1 Comercial 7,66
6 Comercial 6,98
7 Comercial 7,80 7,48
12 Al vacío 5,26
5 Al vacío 5,44
3 Al vacío 5,80 5,50
10 Mezcla de 7,41
gases
9 Mezcla de 7,33
gases
2 Mezcla de 7,04 7,26
gases
8 CO2 3,51
4 CO2 2,91
11 CO2 3,66 3,36
Por la disposición de los tratamientos y los datos mostrados se trata de un DCA

y el análisis de varianza que resulta de los datos de empaque es como se
muestra:
FV GL SC CM Fcal Ftab
Empaqu 3 32,87 10,95 94,466 4,07
e 3 8
Error 8 0,927 0,116
Total 11 33,80
0
Como el Fcal = 94,58 es mayor al Ftab = 4,07(buscado con 0,05, 3 y 8 gl), se

concluye que existe diferencia significativa entre tratamientos.
Se desea realizar la comparación por pares de los tratamientos para averiguar
qué tratamientos son iguales y qué tratamientos son diferentes.
a. Procedimiento de Tukey
Calculamos el valor crítico para todas las comparaciones. Buscamos en tabla el

multiplicador para un α = 0,05, k = 4 y v = 8, esto es igual a 4,53 y obtenemos
el valor crítico DHS.
0,116
DHS=4,53∗
√ 3
=0,89
Ordenamos las medias de mayor a menor

I III II IV
Promedios 7,48 7,26 5,50 3,36
Comparamos la diferencia de cada par de medias con la DHS (valor crítico).
|7,48−7,26|=0,22 < 0,89 entonces son iguales
|7,48−5,50|=¿ 1,98 > 0,89 entonces son diferentes
|7,26−5,50|=1,76>¿ 0,89 entonces son diferentes
|7,26−3,36| = 3,90 > 0,89 entonces son diferentes
|5,50−3,36|=2,14>¿ 0,89 entonces son diferentes
La información obtenida de igualdad y desigualdad de las comparaciones por
parejas se puede representar utilizando líneas horizontales o colocando letras a
lado de los promedios iguales estadísticamente.
I III II IV
7,48 7,26 5,50 3,36
I III II IV
7,48a 7,26a 5,50b 3,36c
b. Procedimiento de Bonferroni
Esta prueba se elige cuando existe diferente número de replicaciones por

tratamiento. Para aplicar esta prueba, en el experimento en carnes asumiremos
que en el tratamiento 1 se pierde una replicación ( r12 = 6,98). Sin esta
replicación el ANOVA será el siguiente.
FV GL SC CM Fcal Ftab
Empaqu 3 31,97 10,65 134,924 4,35
e 5 9
Error 7 0,552 0,079
Total 10 32,52
7
Como el Fcal = 134,924 es mayor al Ftab = 4,35 (buscado con 0,05, 3 y 7 gl), se
concluye que existe diferencia significativa entre tratamientos.
Para realizar la comparación por pares de los tratamientos calculamos el valor
crítico B según las replicaciones de los tratamientos involucrados. Para lo cual
buscamos el multiplicador en tabla a un α = 0,05, k = 6 [t(t-1)/2] y v = 7, esto es
igual a 3,64.
Para comparar tratamientos con ri = 2 y rj = 3
√
B1=3,64∗ 0,079∗ ( 13 + 13 )=0,84
Para comparar tratamiento con ri = 3 y rj = 2
B2=3,64∗ 0,079∗
√ ( 13 + 12 )=0,93
Ordenamos las medias de mayor a menor
I III II IV
Promedios 7,73 7,26 5,50 3,36
Replicaciones 2 3 3 3
Comparamos la diferencia de medias con su respectivo valor crítico B1 o B2,
según los tratamientos involucrados en esa comparación.
|7,73−7,26|=0,47 < 0,93 entonces son iguales
|7,26−5,50|=1,76> 0,84 entonces son diferentes
|7,26−3,36| = 3,90 > 0,84 entonces son diferentes
|5,50−3,36|=2,14> 0,084 entonces son diferentes
La igualdad de tratamientos se representa por líneas horizontales o letras.
I III II IV
7,73 7,26 5,50 3,36
I III II IV
7,73a 7,26a 5,50b 3,36c
2. COMPARACIONES A PRIORI O PLANEADAS
Problema:
Crecimiento bacterial en carnes almacenadas.
Hipótesis de investigación
Alguna forma de atmósfera controlada proporcionará un entorno más efectivo
de empaque para el almacenamiento de carne.
Diseño de Tratamientos
Los tratamientos desarrollados por el investigador para evaluar o probar la Hi
incluyen empaques:
 Aire del ambiente con un empaque comercial de plástico.

 Al vacío.
 Mezcla de gases con 1 % CO; 40 % 02 y 59 % .
 100 % CO2.
Se utilizaron tres replicaciones para cada tratamiento. En cada unidad

experimental se midió el número de bacterias/cm 2 que luego se expresó en
logaritmo: log (Nº/cm2).
Los datos del experimento se muestran en la siguiente tabla.
Replicació T1: Comercial T2: Al vacío T3: Mezcla de gases T4: CO2
n
1 7,66 5,26 7,41 3,51
2 6,98 5,44 7,33 2,91
3 7,80 5,80 7,04 3,66
Suma y 1.= 22,44 y 2.= 16,50 y 3.= 21,78 y 4.= 10,08
Promedio ý 1. =¿7,48 ý 2. =¿5,50 ý 3. =¿7,26 ý 4. =¿3,36
Diseño experimental
Se utilizó el Diseño Completo Al Azar (DCA) con cuatro tratamientos y tres

replicaciones por tratamiento.
Se realizó el ANOVA respectivo para probar las hipótesis estadísticas:

H o:
μ1 =μ 2 =μ 3 =μ 4
H1: al menos una

μi es diferente.
Al desarrollar el ANOVA, se obtiene la siguiente Tabla:
F.V. G.L. S.C. C.M. Fcal. Ftab.

Empaqu 3 32,87 10,958 94,46 4,07
e 8 3 0,116 6
Error 0,927
Total 11 33,80
0
Al analizar la tabla del ANOVA, F cal. (94,466) > Ftab (4,07), por lo que se acepta la
H1. Existe diferencia significativa entre tratamientos.
2.1. Contrastes ortogonales

Ahora queda saber que promedios de tratamientos son diferentes y qué
promedios de tratamientos son iguales.
El investigador podría utilizar Tukey; pero no está interesado en todas las

comparaciones por pares; sin embargo, sí desea realizar comparaciones
(contrastes) de una manera especial. Desea respuestas para las siguientes
preguntas:
a. ¿Las nuevas tecnologías de empaque en promedio, son mejores

que la tecnología comercial?
Lo que se desea es comparar el crecimiento bacterial promedio del T 1

con el crecimiento bacterial promedio de los otros tres tratamientos.
Esto se expresa de la siguiente manera:
1
C 1 : μ1 − μ + μ + μ =0
3 ( 2 3 4)
Las hipótesis estadísticas para este contraste a probar son:
H0: C1 = 0
H1: C1 ≠ 0
b. ¿La tecnología de empaque al vacío es mejor que las tecnologías

que incluyen gases?
Lo que desea es comparar el crecimiento bacterial del T 2 con el
crecimiento bacterial promedio de los tratamientos T 3 y T4. Esto se
expresa como sigue:
1
C2 : μ 2− μ +μ =
2 ( 3 4) 0
H0: C2 = 0
H1: C2 ≠ 0
c. ¿Las tecnologías que incluyen algún gas son iguales?

Lo que se desea comparar el crecimiento bacterial de T 3 con el
crecimiento bacterial de T4. La expresión es la siguiente:
C3 : μ 3−μ 4 = 0
H 0: C 3 = 0
H 1: C 3 ≠ 0
¿Encuentra lógica en las comparaciones especiales que el investigador desea
realizar?
Para desarrollar el procedimiento de comparaciones con contrates ortogonales

se requiere que los contrastes escogidos sean independientes (ortogonales).
Para lo cual se reúnen en una tabla donde se registran los coeficientes de las
medias involucradas:
μ1 μ2 μ3 μ4
K1 K2 K3 K4
C1 1 - -1/3 -1/3
1/3
C2 0 1 -1/2 -1/2
C3 0 0 1 -1
Para simplificar los cálculos estos coeficientes se llevan a enteros. Luego se

verifica que:
 En cada fila la suma de los coeficientes debe ser cero.

 La suma del producto de los coeficientes en cada columna debe ser
cero.
μ1 μ2 μ3 μ4
K1 K2 K3 K4
C1 3 -1 -1 -1 0
C2 0 2 -1 -1 0
C3 0 0 1 -1 0
(3)(0) (-1)(2) (-1)(-1) (-1)(-1)(- 0
(0) (0) (1) 1)
Como vemos, sí se cumple la condición de ortogonalidad o independencia de
los contrastes. Por lo tanto es posible analizarlos.
Para analizar los contrastes se incluyen en la tabla de ANOVA, con un grado

de libertad para cada uno de ellos con su respectiva suma de cuadrados,
calculados con la siguiente fórmula:
SC C=r¿¿¿¿
Por ejemplo utilizando la fórmula, la suma de cuadros para el C 1 C2 y C3, es:
2
3∗( ( 3 ) ( 7,48 ) + (−1 ) (5,50 )+ (−1 )( 7,26 ) + (−1 ) ( 3,36 ) )
S CC = 2 2 2 2
=9,986
1
( 3 ) + (−1 ) + (−1 ) + (−1 )
2
3∗( ( 0 ) ( 7,48 ) + ( 2 ) ( 5,50 )+ (−1 )( 7,26 )+ (−1 )( 3,36 ) )
S CC = 2 2 2 2
=0,072
2
( 0 ) + ( 2 ) + (−1 ) + (−1 )
2
3∗( ( 0 )( 7,48 ) + ( 0 ) ( 5,50 ) + (−1 ) ( 7,26 ) + ( +1 )( 3,36 ) )
S CC = 2 2 2 2
=22,815
3
( 0 ) + ( 0 ) + ( ∓1 ) + (−1 )
Una vez obtendidos las respectivas SCC , SCC , SC C , se incluyen en la tabla de

1 2 3
ANOVA hallado previamente:
F.V. G.L. S.C. C.M. Fcal. Ftab. Sig.

Empaqu 3 32,873 10,95 94,466 4,07 *
e 1 (9,986) 8 86,086 5,32 *
C1 1 (0,072) 9,986 0,621 5,32 ns
C2 1 (22,815 0,072 196,681 5,32 *
C3 8 ) 22,81
Error 0,927 5
0,116
Total 11 33,800
Debemos indicar que el número de contrastes que un investigador puede

probar es como máximo el número de grados de libertad de tratamientos. Así
en nuestro ejemplo como hay 03 grados de libertad en tratamientos máximo el
investigador puede probar tres contrastes especiales.
Para comprender los valores que aparecen en la tabla de ANOVA con respecto
a los contrastes; podemos observar que si sumamos las suma de cuadrados de
los tres contrastes, resulta un total que es justamente la suma de cuadrados de
tratamientos.
Para averiguar si los contrastes son significativos se sigue el procedimiento
conocido, se haya el CM y los Fcal para cada contraste y finalmente se
compara los Fcal con las Ftab.
Conclusiones:
 El promedio de bacterias con el empaque comercial es mayor que el

promedio de bacterias considerando las otras tres tecnologías de
empaque. En promedio las tecnologías de empaque reducen el número
de bacterias.
 El número de bacterias promedio con el empaque al vacío es similar al
promedio de bacterias con las técnicas de empaque con gases.
 De las técnicas de empaque con gases, el CO 2 reduce
significativamente el número promedio de bacterias.
CLASE 7
RELACIÓN ENTRE CARACTERÍSTICAS
I. LA CORRELACIÓN
La correlación mide el nivel de asociación que puede existir entre dos
características. Se expresa a través del coeficiente de correlación.
El símbolo utilizado para el coeficiente de correlación de la muestra es

“r” y para el coeficiente de correlación de la población es “” (Rho)
El tipo de asociación puede ser negativa o positiva. Cuando el

coeficiente de correlación tiene signo negativo es llamada correlación negativa.
Significa que si el valor de una característica sube, el valor de la otra
característica baja. Cuando el coeficiente de correlación tiene signo positivo es
llamada correlación positiva. Significa que si el valor de una característica sube,
el valor de la otra característica también sube.
Los valores que puede tomar el coeficiente de correlación van de -1 a

+1.
La correlación entre dos características según el valor del coeficiente de

correlación puede ser:
Intensida Coeficiente de correlación

d
Baja ¿0,20
Media 0,20-0,50
Alta >0,50
Las gráficas de correlación que podemos encontrar son:

Se observa que los puntos que representan los (X,Y) de las
carcaterísticas siguen una tendencia hacia arriba, si una aumenta la otra
también aumenta y están muy cerca de una línea.

características siguen una tendencia hacia abajo, si una aumenta la otra
disminuye y están muy cerca de una línea.

características siguen una tendencia no muy definida y no están muy cerca de
una línea.
Finalmente , se observa que los puntos que representan los (X,Y) de las
características siguen una tendencia no lineal.
Ejemplo de aplicación:
¿Existirá una relación lineal entre el peso corporal y el perímetro toráxico en

vacas?
Para contestar esta pregunta el investigador realiza mediciones de peso

corporal (kg) y perímetro toráxico (cm) en 10 vacas.
Tabla 1. Mediciones de peso y perímetro toráxico en diez vacas
Vaca 1 2 3 4 5 6 7 8 9 10
Peso (kg.) 641 620 63 651 64 666 650 68 680 670
3 0 8
Perímetro toráxico 205 212 21 216 21 217 218 21 221 226
(cm) 3 6 9
Luego grafica los diez pares ordenados producto de las mediciones

realizadas en cada una de las diez vacas para observar la dirección de la
asociación entre las características. Puede observar que la asociación es
positiva.
Gráfica de dispersión
690
680
670
660
peso 650
640
630
620
205 210 215 220 225

perímetro
Para averiguar la intensidad de la asociación, calcula el valor del

coeficiente de correlación lineal (r). La expresión para hallar r, es:
∑ x∑ y
∑ xy − n
r=
2 2
√[ 2
∑x −
(∑ x )
n ][ ∑ 2
y−
(∑ y )
n ]
Utiliza los datos de la Tabla 1 se procede a calcular los términos
involucrados en la expresión para hallar el coeficiente de regresión tal como se
detalla en la tabla 2.
Tabla 2. Cálculo de términos involucrados en el coeficiente de

correlación
Peso
(y) Perímetro (x) peso^2 (y2) perímetro^2 (x2) peso*perímetro (X*Y)
641 205 410881 42025 131405
620 212 384400 44944 131440
633 213 400689 45369 134829
651 216 423801 46656 140616
640 216 409600 46656 138240
666 217 443556 47089 144522
650 218 422500 47524 141700
688 219 473344 47961 150672
680 221 462400 48841 150280
670 226 448900 51076 151420
Y X Y2 X2 XY
6539 2163 4280071 468141 1415124
Reemplazando el valor de los términos en la expresión, tenemos:
∑ x∑ y
∑ xy − n 738,3
r= = =0,67
2 2 √ ( 284.1 )( 4218,9 )
√[ 2
∑x −
(∑ x )
n ][ ∑ 2
y−
(∑ y )
n ]
Debemos recordar que este coeficiente de correlación ha sido calculado
en la muestra. Para probar que existe la correlación entre las dos
características en la población con base en los datos de la muestra, se realiza
la respectiva prueba de hipótesis.
a. Se define la hipótesis
H 0 : ρ=0
H 1 : ρ≠ 0
b. Se elige el nivel de ∝
∝=0,05
c. Se elige la prueba
r r r √n−2 0,67 √10−2
t cal= = = = =2,58
sr 1−r 2 √1−r
2
√ 1−( 0,67 )2
√n−2
d. Se definen las regiones críticas. En la gráfica de la distribución de
∝
probabilidad, el valor crítico a y 8 grados de libertad es t 0,025,8=2,306.
2
T, df=8
0.4
0.3
Densidad
0.2
0.1
Zona de aceptación de H0
0.025 0.025
0.0
-2.306 0 2.306
X
e. Conclusión. Como t cal (2,58)> t tabla (2,306), la hipótesis nula es rechazada.

Es decir, existe verdaderamente, en la población, una relación lineal
entre el peso corporal y el perímetro toráxico.
II. LA REGRESIÓN
Una vez que se ha comprobado que la correlación entre las dos

características existe. El investigador define cual es la variable independiente y
cuál es la variable dependiente según su interés y luego querrá averiguar el
cambio que ocurre en la variable dependiente (peso vivo) si la variable
independiente (perímetro toráxico) cambia una unidad. Esto se expresa a
través del coeficiente de regresión.
El símbolo para el coeficiente de regresión de la muestra es “b” y para el
de la población es “β”.
Los valores del coeficiente de regresión van de −∞ a+ ∞
Procede hallar la línea de tendencia de los datos que se denomina la

línea de regresión.
La línea de regresión tiene esta forma:
Y^ =a+bX
donde:
Y^ :valor estimado de la variable dependiente
a: intercepción con el eje y.
b: coeficiente de regresión
X: valor de la variable independiente.
Como se podrá intuir el coeficiente de regresión es la pendiente de la

línea. Para poder graficar la línea que nos muestre la tendencia de los datos se
necesita calcular a y b.
El cálculo del coeficiente de regresión se muestra a continuación con los
datos del ejemplo.
∑ x∑ y 2163∗6539
∑ xy− n
1415124−
10
b= 2
= =2,598
(∑ x ) 4678569
2 468141−
∑x − n
10
El cálculo del intercepto a tiene la siguiente fórmula:
a= ý−b x́ =653,9−2,598∗216,3=91,79
Finalmente la ecuación de regresión con los valores hallados de sus

coeficientes es:
Y^ =91,79+2,60 X
La gráfica de la línea de regresión es como sigue:
Gráfica de línea ajustada

peso = 91,8 + 2,599 perímetro
690
680 S 16,9568
R-cuad. 45,5%
R-cuad.(ajustado) 38,7%
670
660
peso
650
640
630
620
205 210 215 220 225

perímetro
Utilizando el programa Minitab los valores de la línea de regresión

resultan más exactos por redondeo. El valor del coeficiente de regresión nos
permite concluir que por cada centímetro de aumento en el perímetro toráxico
el peso aumenta en 2,60 kilogramos.
Existe una correspondencia entre el coeficiente de correlación y el

coeficiente de regresión. Si el coeficiente de correlación existe en la población
el coeficiente de regresión también; es decir, no es necesario realizar otra
prueba de hipótesis para averiguar si el coeficiente de regresión existe en la
población.
H 0 : β=0
H1: β ≠ 0
Debido a que el coeficiente de determinación “R 2” (es el coeficiente de

regresión al cuadrado), es bajo no es conveniente utilizar esta línea de
regresión para estimar pesos que pueden ser de nuestro interés, con base en
el perímetro del corazón, debido a que la estima del peso no sería muy
acertada. Para tal fin se requiere un R2 de 70 % a más.
Teniendo una línea de regresión con buenas características estadísticas

podemos utilizarla para realizar predicciones. Podemos estimar el peso
utilizando valores de perímetro toráxico. Las bandas de confianza nos indican
que las predicciones de peso son adecuadas dentro del rango de valores de la
variable perímetro. Registros de perímetro que están muy alejados de dicho
rango darán predicciones no muy confiables.
Gráfica de línea ajustada

peso = 91,8 + 2,599 perímetro
720 Regresión
IC de 95%
700 S 16,9568
R-cuad. 45,5%
R-cuad.(ajustado) 38,7%
680
660
peso
640
620
600
205 210 215 220 225

perímetro
III. CORRELACION NO PARAMÉTRICA

Cuando los datos no siguen una distribución normal, existe una alternativa
denominada correlación de Spearman. Es una correlación libre de distribución.
Se utiliza propiamente cuando por lo menos una variable es ordinal.
Se basa en la misma fórmula para calcular el coeficiente de correlación
Pearson sólo que ahora utiliza rangos. Como ejemplo del cálculo de rangos en
el ejemplo de las vacas, se tiene:
Vaca 1 2 3 4 5 6 7 8 9 10
Peso (y) 641 620 633 651 640 666 650 688 680 670
Rangos 4 1 2 6 3 7 5 10 9 8
Perímetro toráxico 205 212 213 216 216 217 218 219 221 226
(x) 1 2 3 4,5 4,5 6 7 8 9 10
Rangos
Para calcular el coeficiente de correlación de Spearman sólo se utiliza los
rangos hallados:
55∗55
370,5−
10
r s= =0,8267
552 552
√( 384,5−
10 )(
385−
10 )
Un ejemplo con datos ordinales. Un grupo de ocho profesores ha sido

evaluado por un jurado de acuerdo a su habilidad de enseñanza y luego todos
tuvieron un examen. ¿Existe correlación entre el ranking del jurado y el ranking
por nota del examen?
Profesor Jurado Examen

1 7 44 (1)
2 4 72 (5)
3 2 69 (3)
4 6 70 (4)
5 1 93 (8)
6 3 82 (7)
7 8 67 (2)
8 5 80 (6)
36∗36
132−
8
r s= =−0,714
36 2 362
√( 204−
8 )(
204−
8 )
Ejercicios propuestos
En un estudio se tiene datos de ganancia de peso y consumo de calorías en
ratas. El investigador define a X= consumo de calorías y Y=ganancia
corporal, los datos. Se desea calcular la relación existente y la influencia del
consumo de calorías sobre la ganancia de peso. Los datos fueron los
siguientes.
Consumo de calorías (x) Ganancia de peso (y)

108 73
136 102
138 118
159 104
146 81
141 107
175 100
149 87
174 117
176 111
Se registraron en un grupo de ratones el peso inicial y el peso después de tres

semanas (peso final), luego de aplicado un determinado tratamiento. Se desea
calcular la influencia del peso inicial sobre el peso final.
Peso Peso final

inicial
236 255
228 242
212 223
240 254
220 230
201 209
215 223
207 218
218 218
248 255
IV. TABLAS DE CONTINGENCIA (DATOS CATEGORICOS)

Datos en tablas de contingencia en tablas de 2 X 2
Con frecuencia las observaciones se clasifican de acuerdo con varias variables. Por ejemplo, un
animal (vaca), puede clasificarse como con metritis o sin metritis post parto y al mismo tiempo
como un animal que parió en la época de verano o invierno. En estos casos los datos se
registran en una tabla de doble entrada en forma conveniente llamada tabla de contingencia,
con el objeto de determinar si las dos direcciones de clasificación están relacionadas o no.
Así, una tabla de contingencia conteniendo el número de animales dispuestos en ambas
clasificaciones sería:
Invierno Verano
Con metritis 32 50 82
Sin metritis 43 28 71
75 78 153
Las hipótesis para probar asociación serían:
Ho: No existe asociación entre la presentación de metritis y la época de parto.

H1: Si existe asociación entre la presentación de metritis y la época de parto.
Las hipótesis para probar diferencia entre proporciones serían:
Ho: Las proporciones de vacas con metritis es la misma

H1: Las proporciones de vacas con metritis son diferentes.
Ambas tipos de hipótesis utilizan la misma prueba que es la Chi cuadrado
( observado−esperado )2
X 2 =∑
esperado
Para hallar el valor de la prueba de Chi cuadrado se relaciona los valores

observados y esperados de cada casilla y luego se suma.
Los valores esperados son calculados asumiendo que las variables no están
asociadas, es decir si fueran independientes los valores serían los valores que aparecen
como esperados.
El valor esperado para cada casilla se calcula por la multiplicación de sus

totales marginales de columna y fila correspondiente sobre su gran total.
Utilizando los datos del ejemplo el esperado para la casilla donde figura un
observado de 50 se calcula de la siguiente manera:
78∗82
Valor esperado = =41.80
153
Procediendo de similar manera con todas las casillas se obtiene:
Invierno Verano
Con metritis 40.20 41.80 82
Sin metritis 34.80 36.20 71
75 78 153
Normalmente en una sola tabla figuran los observados y esperados

Invierno Verano
(40.20) (41.80)
(34.80) (36.20)
75 78 153
Teniendo todos los esperados se aplica la fórmula de Chi cuadrado, que suma
la relación de observados y esperados de todas las casillas:
(32−40.20 )2 (50−41.80 )2 ( 43−34.80 )2 ( 28−36.20 )2

X2= [ 40.20
+
41.80
+
34.80
+
36.20 ]
=¿ 7.064
El valor de X2calculado, obtenido se compara con el X 2tabla, a un alfa y (r-1)(c-1)

grados de libertad. Para nuestro ejemplo escogemos un alfa de 0.05 con un grado de
libertad. Se indica que alfa es el grado de error que asume el investigador y r es el
número de filas y c es el número de columnas.
X2calculado=7.064
X2tabla,=3.840
Como el valor de X2calculado > X2tabla, se rechaza la hipótesis nula y se concluye

que existe asociación entre los dos criterios de clasificación. También se podría decir
que las proporciones son diferentes.
Todos estos cálculos se pueden realizar utilizando Minitab en la opción Tablas/

tabulación cruzada y chi cuadrado
Todos estos cálculos se pueden realizar utilizando en MINITAB la opción

tablas/Tabulación cruzada y chi cuadrado.
Estadísticas tabuladas: metritis, epoca
Usando frecuencias en conteo
Filas: metritis Columnas: epoca
invierno verano Todo
con 32 50 82
40.20 41.80 82.00
sin 43 28 71
34.80 36.20 71.00
Todo 75 78 153
75.00 78.00 153.00
Contenido de la celda: Conteo

Conteo esperado
Chi-cuadrada de Pearson = 7.064, GL = 1, Valor P = 0.008

Chi-cuadrada de la tasa de verosimilitud = 7.118, GL = 1, Valor P =
0.008
Como la metritis post parto resultó estar asociada a la época de parto, cabe la
pregunta ¿Qué nivel de relación tiene estas variables?
Para responder a esta pregunta resulta interesante calcular el odds ratio

(cociente de ventaja). Para la Tabla de contingencia el odds ratio sería:
Invierno Verano
75 78 153
50∗43
Odds ratio= =2.40
28∗32
Interpretación:
El número de vacas con metritis post parto que paren en verano es 2.40 veces
mayor que el número de vacas con metritis post parto que paren en invierno.
Tablas de contingencia múltiples
Existen circunstancias de investigación donde se puede realizar estudios similares en varios

lugares para tener una idea general. Entonces tendría varias tablas de contingencia que se
necesitaría evaluar. Un método interesante es el propuesto por Mantel-Haenzsel para tablas
de contingencia múltiples de 2 * 2.
Ejemplo:
En una investigación se consideraron tres establos de vacunos de leche, donde se

practicaba el reimplante del dispositivo CIDR a los cinco días. En cada establo se registraron las
vacas que preñaron o no con una aplicación del CIDR y las vacas que preñaron o no con el
reimplante. El investigador esta interesado en saber si el reimplante esta asociado a una mayor
preñez.
Una solución tentadora es juntar los datos recolectados en los tres establos y
confeccionar un asola tabla de contingencia y luego calcular el odds ratio. Sin embargo, por las
diferencias que puede existir entre establos no sería lo adecuado.
Con el método de Mantel-Haenzsel, se evalúa si existe asociación entre la variable
preñez y la variable reimplante, sin juntar los datos en una sola tabla evaluando la asociación y
pudiéndose calcular el respectivo odds ratio común.
Utilizando el programa MInitab en la opción: Tablas/Tabulación cruzada y chi

cuadrado/otras estadísticas, obtenemos:
Estadísticas tabuladas: preñez, reimplante, establo
Resultados de establo = 1
Filas: preñez Columnas: reimplante
con sin Todo
preñadas 85 25 110
vacias 86 50 136
Todo 171 75 246

Chi-cuadrada de la tasa de verosimilitud = 5.748, GL = 1, Valor P = 0.017
con sin Todo
preñadas 19 16 35
vacias 11 16 27
Todo 30 32 62

con sin Todo
preñadas 57 48 105
vacias 45 70 115
Todo 102 118 220

Resultados de todas las tablas de 2x2
Relación de probabilidades común 1.88421
Estadístico MHC GL Valor P
11.1160 1 0.0008559
Conclusión: Al estudio conjunto de los tres establos se ha encontrado que existe asociación
entre los dos criterios de clasificación y esta asociación se refleja en el odds ratio que significa
que el número de vacas que quedan preñadas con reimplante es en promedio 88% mayor en
relación al número de vacas que quedan preñadas sin reimplante.
Datos en las de contingencia r*c
Las tablas de contingencia no sólo pueden ser de 2*2, sino pueden ser de varias filas y
varias columnas. Cuando una tabla de contingencia tiene dos filas y tres columnas sería un
atabla de contingencia 2*3.
Ejemplo: Se desea averiguar si el número de lactación esta asociado con la presentación de

mastitis. Se recolectan datos de un establo de vacas con mastitis y que eran de primera,
segunda y más de tres lactaciones. Se confeccionó una tabla de contingencia, donde se
clasificaron los datos observados.
Lactación
Primera Segunda Tercera
Con mastitis 6 10 35 51
Sin mastitis 20 30 15 65
26 40 50 116
Utilizando el Minitab en la opción Tablas/Tabulación cruzada y chi cuadrado tendremos

lo siguiente:
Estadísticas tabuladas: mastitis, lactación
Filas: mastitis Columnas: lactación
primera segunda tercera Todo
con 6 10 35 51
11.43 17.59 21.98 51.00
sin 20 30 15 65
14.57 22.41 28.02 65.00
Todo 26 40 50 116
26.00 40.00 50.00 116.00

Conteo esperado

Conclusión: Se encontró que existe asociación entre las variables mastitis y el número de parto.

Clase 1 Doctorado en Ciencias Ambientales

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 1 Doctorado en Ciencias Ambientales

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL JOSÉ FAUSTINO SÁNCHEZ CARRIÓN

DOCTORADO EN CIENCIAS AMBIENTALES

DATOS DEL DOCENTE

REGLAMENTO GENERAL DE GRADOS ACADÉMICOS Y TÍTULOS

1.Ética en investigación (CRI)

ADECUADO ANÁLISIS ESTADÍSTICO

ESTILO ASOCIACIÓN AMERICANA DE PSICOLOGÍA

tenerla a partir de la segunda). Ciudad: Editorial.

ARTÍCULO O CAPÍTULO DE UN LIBRO

libro. (Edición a partir de la segunda). Ciudad: Editorial.

Cuando son varios autores, la conjunción entre el penúltimo y el

la revista, número de volumen (Número del fascículo), número de

páginas. Recuperado el …, desde http.//www…

Recuperado, citado, obtenido, consultado, extraído.

Figura 1. Líneas de investigación de Ecología y Ciencias

Los comentarios sobre las tablas y figuras siempre

Es la ciencia aplicada que se encarga de recolectar datos de una

La Estadística puede ser dividida en:

Estadística Descriptiva. Parte de la estadística que se ocupa de la

Estadística Inferencial. Parte de la estadística que se ocupa de la estimación

Conjunto de unidades elementales que se quieran estudiar y poseen una

Ovejas corriedale de primera esquila.

Marranas landrace de segundo parto.

Lechones duroc destetados.

Alfalfa moapa de primer corte. Se denomina parámetros.

Es un subconjunto de la población. El proceso de obtener una muestra se le

30 ovejas corriedale de primera esquila.

50 marranas landrace de segundo parto.

80 lechones duroc destetados.

10 parcelas de alfafa moapa de primer corte.

Se denomina variable a la característica o atributo que involucra a un grupo de

Es el valor posible que se registra de la unidad elemental en relación a una

Tabla 1. Algunas variables cualitativas en producción animal

NOMINAL ORDINAL O JERAQUICA

En las variables cualitativas se cuenta el número de animales que caen

Agrupan registros expresados como números dentro de la escala de los

Tabla 2. Algunas variables cuantitativas en producción animal

Son calculadas con la finalidad de describir el comportamiento de una variable

Parámetro. Son medidas estadísticas, para describir el comportamiento de una

Valor estadístico. Son medidas estadísticas, para describir el comportamiento

La organización de datos consiste en la elaboración de tablas de frecuencias y

La elaboración de tablas y gráficos dependerá del tipo de variable definida.

Con las variables cualitativas se pueden elaborar tablas de frecuencia y de

Las tablas de contingencia, también llamadas tablas cruzadas o de doble

Tabla 4. Seroprevalencia de Brucella abortus por razas en la provincia de

Interpretació Holstein Brown Swiss Cruzado TOTAL

Para graficar las variables cualitativas se pueden usar las frecuencias

Distribución por categorías en un establo

Figura 7. Gráfico de barras

Gráfica de sexo; diarrea

Figura 8. Gráfico de barras con dos criterios de clasificación

Ditribución de animales por categorías en un establo

Sistema de ordeño manual

Figura 10. Gráfico de torta para la distribución por categorías en un establo

Con las variables cuantitativas se pueden de igual manera elaborar

Tabla 5. Número de lechones destetados por marrana

Número lechones Frecuencia Frecuenci Frecuencia Frecuencia

Figura 12. Número de lechones destetados por marrana

6, 6,2 7,1 6, 4,4 5,8 5,9 6, 7,6

Esta técnica se utiliza para realizar conteos de un grupo de datos estableciendo

a. Hallar la amplitud (A) = Max-Min.

b. Hallar el número de clases (K) = 1+3,3*log(n), regla de Sturges. El

K = 1+3,3*log (83) = 7,33 = 7

c. Hallar el tamaño del intervalo de clase (TIC) = A/K. El redondeo es por

Límite inferior Q1 - 1,5RIC = 208,00 - 1,559,75 = 118,38