Está en la página 1de 85

UNIVERSIDAD NACIONAL JOSÉ FAUSTINO SÁNCHEZ CARRIÓN

ESCUELA DE POSGRADO

DOCTORADO EN CIENCIAS AMBIENTALES

ASIGNATURA : TESIS V

SUMILLA
Redacción del informe final de la tesis, basado en la información obtenida en
las etapas de elaboración y ejecución del proyecto realizado conforme a las
pautas de la estructura de la tesis aprobada por la Escuela.

DATOS DEL DOCENTE

REGLAMENTO GENERAL DE GRADOS ACADÉMICOS Y TÍTULOS


PROFESIONALES
Artículo 95
…. En el caso del grado de Doctor, “Sustentar y aprobar una tesis de máxima
rigurosidad académica y de carácter original…..”
Clase introductoria
Para cumplir lo indicado en el Reglamento:

1.Ética en investigación (CRI)


2.Adecuado análisis estadístico
3.Adecuada redacción científica

ADECUADO ANÁLISIS ESTADÍSTICO


ADECUADA REDACCIÓN CIENTÍFICA

ESTILO ASOCIACIÓN AMERICANA DE PSICOLOGÍA


(APA)

LIBRO

, . . .
Apellido inicial de nombres(s) (Año) Título del libro (Edición de

tenerla a partir de la segunda). Ciudad: Editorial.

ARTÍCULO O CAPÍTULO DE UN LIBRO

, . .
Apellido inicial de nombre(s) (Año) Título del capítulo o artículo .
: ,
En Apellidos de los editores (Editores) Título del libro (páginas del

. :
capítulo o artículo) Ciudad Editorial .

EDITOR

, . .. .
Apellido inicial de nombre(s) del editor (Ed ) (Año) Título del

libro. (Edición a partir de la segunda). Ciudad: Editorial.

Cuando son varios autores, la conjunción entre el penúltimo y el


último autor es &.

TESIS

, . . .
Apellido inicial de nombre(s) (Año) Título Tesis para optar el

, :
grado de ... Ciudad Nombre completo de la Universidad .
ARTÍCULO CIENTÍFICO

, . . .
Apellido inicial de nombre(s) (Año) Título del artículo Nombre

,
de la revista Volumen (Número del fascículo), Número de

páginas.

INTERNET

, . . .
Apellido inicial de nombre(s) Año) Título del artículo Nombre de

la revista, número de volumen (Número del fascículo), número de

páginas. Recuperado el …, desde http.//www…

Recuperado, citado, obtenido, consultado, extraído.

ARTÍCULO DE PERIÓDICO

, . .
Apellido inicial de nombres(s) (Año mes día) Título del artículo.
Nombre del periódico, (Cuando es pertinente sección y columna) p.
TABLAS Y FIGURAS

Tabla 1
Alumnos según Escuela Profesional de la Facultad de Ingeniería
Agraria, Industrias Alimentarias y Ambiental.

Escuela Número
Ingeniería Zootécnica 250
Ingeniería Agrónomica 300
Ingeniería en Industrias Alimentarias 240
Ingeniería Ambiental 290
Total 1080
Nota: Tomado de Velásquez (2016).

Figura 1. Líneas de investigación de Ecología y Ciencias


Ambientales.

Los comentarios sobre las tablas y figuras siempre


están encima y no debajo de ellas.
CLASE 1

ESTADÍSTICA

Es la ciencia aplicada que se encarga de recolectar datos de una


muestra, organizarlos y analizarlos para luego inferir sobre la población.

MUESTRA
se recolectan
se extrae

POBLACIÓN DATOS

Inferencia

(probabilidades)
DIVISIÓN DE LA ESTADÍSTICA

La Estadística puede ser dividida en:

Estadística Descriptiva. Parte de la estadística que se ocupa de la


clasificación, descripción, simplificación y presentación de los datos.
Comprende el uso de tablas de frecuencias, gráficos y el cálculo de medidas
estadísticas.

Estadística Inferencial. Parte de la estadística que se ocupa de la estimación


y prueba de hipótesis de los parámetros de una población, a partir de una
muestra aleatoria extraída de dicha población.

CONCEPTOS BASICOS

POBLACIÓN

Conjunto de unidades elementales que se quieran estudiar y poseen una


característica común. El estudio de toda la población se llama CENSO. El
conjunto de unidades elementales es el conjunto de animales, forrajes u otros
objetos que poseen características comunes.

Ejemplos

Ovejas corriedale de primera esquila.

Marranas landrace de segundo parto.

Lechones duroc destetados.

Alfalfa moapa de primer corte. Se denomina parámetros.

MUESTRA

Es un subconjunto de la población. El proceso de obtener una muestra se le


llama “muestreo”. Para que una muestra sea representativa debe cumplir con
las siguientes condiciones: Debe haber sido obtenida al azar y su tamaño y sus
elementos deben haber sido seleccionados aplicando un método de muestreo.
Puede ser, un grupo de animales, plantas forrajeras u otros objetos que se
extraen de una población.
Ejemplos

30 ovejas corriedale de primera esquila.

50 marranas landrace de segundo parto.

80 lechones duroc destetados.

10 parcelas de alfafa moapa de primer corte.

VARIABLE

Se denomina variable a la característica o atributo que involucra a un grupo de


observaciones o registros. Ejemplos, raza, condición corporal, peso al destete,
número de crías por parto. Puede ser cuantitativa y cualitativa.

OBSERVACIÓN O REGISTRO

Es el valor posible que se registra de la unidad elemental en relación a una


variable. Por ejemplo, de la variable raza, puede ser Holstein, de la variable
número de crías por parto, puede ser 10 crías.
VARIABLES CUALITATIVAS

Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo.
Pueden ser nominal y ordinal. En la variable nominal sus valores posibles no
tienen un orden de importancia. En la variable ordinal sí se puede establecer un
criterio de orden o jerarquía entre sus atributos de la variable.

Tabla 1. Algunas variables cualitativas en producción animal

NOMINAL ORDINAL O JERAQUICA


Tipo de infección Facilidad al parto.
Grupo sanguíneo Gravedad de una enfermedad.
Color de piel Condición corporal.
Raza Calidad de carcasa en gancho.

En las variables cualitativas se cuenta el número de animales que caen


en una categoría y se calcula la proporción de éstos en relación al total de
individuos.

VARIABLES CUANTITATIVAS

Agrupan registros expresados como números dentro de la escala de los


números reales. Pueden ser continuas y discretas. Las variables continuas
pueden tomar infinitos valores dentro de un rango (con decimales), mientras
que las variables discretas toman sólo valores enteros (sin decimales). Algunos
ejemplos adicionales de variables cuantitativas se muestran en la Tabla 2.

Tabla 2. Algunas variables cuantitativas en producción animal

Continua Discreta
Peso al destete Número de huevos puestos/semana
Ganancia de peso Número de crías/parto
Consumo de alimento Número de óvulos/celo
Lana a la primera esquila Número de Glándulas sudoríparas/cm 2
Ingreso por venta de carne Número de papilas gustativas/cm2
Perímetro torácico Número de células somáticas/mL
MEDIDAS ESTADÍSTICAS

Son calculadas con la finalidad de describir el comportamiento de una variable


en la población o en la muestra.

Parámetro. Son medidas estadísticas, para describir el comportamiento de una


variable en la población. Son calculadas con los datos de toda la población. Es
un valor constante. Se representan con letras griegas.

Valor estadístico. Son medidas estadísticas, para describir el comportamiento


de una variable en la muestra. Se calculan con los datos obtenidos de una
muestra. Son valores variables (varían de muestra a muestra). Los estadísticos
sirven para estimar a los parámetros. Se representan con letras latinas.

ORGANIZACIÓN DE DATOS

La organización de datos consiste en la elaboración de tablas de frecuencias y


gráficos con la finalidad de clasificar, agrupar y presentar la información en
forma resumida, facilitando el análisis descriptivo de los conjuntos de datos.

La elaboración de tablas y gráficos dependerá del tipo de variable definida.

VARIABLE CUALITATIVA

Con las variables cualitativas se pueden elaborar tablas de frecuencia y de


contingencia.

Las tablas de frecuencia para este tipo de variable (Nominal y/o Jerárquica)
muestran las clases o categorías, frecuencias absolutas, relativas y porcentaje.
Tabla 3. Causas de descarte en un establo lechero

Frecuencia Frecuencia
Causa Porcentaje
absoluta relativa
Problemas reproductivos 508 0,3508 35,08
Problemas de ubre 297 0,2051 20,51
Aparato locomotor y traumatismos 162 0,1119 11,19
Problemas peripartales 163 0,1126 11,26
Emergencia 181 0,1250 12,50
Otros 137 0,0946 9,46
Total 1448 1,0000 100
Fuente: Adaptado de Paz (2010). Causas de descarte en vacunos lecheros.

Las tablas de contingencia, también llamadas tablas cruzadas o de doble


entrada se usan para resumir y presentar de manera simultánea los datos para
dos variables cualitativas. Una tabla de contingencia es una de las formas más
comunes de resumir datos categóricos

Tabla 4. Seroprevalencia de Brucella abortus por razas en la provincia de


Leoncio Prado, departamento de Huánuco.

Interpretació Holstein Brown Swiss Cruzado TOTAL


Negativo
n 47 96 s 122 265
Sospechoso 1 3 2 6
Positivo - 3 1 4
TOTAL 48 102 125 275
Fuente: Adaptado de Fernández (2002).

Para graficar las variables cualitativas se pueden usar las frecuencias


absolutas, relativas o porcentuales para elaborar tres tipos de gráficos.

Gráfico de barras
Cuando se desea dar idea de altura mostrando los conteos en las diferentes
categorías. Las barras pueden representar categorías de una variable o más
variables (Figuras 7 - 9).

Distribución por categorías en un establo


14
14

12

10
Conteo

8
6
6
5
4
4
3

0
terneras terneros vacas vaquillas vaquillonas
Categoría
Sistema de ordeño manual

Figura 7. Gráfico de barras

Gráfica de sexo; diarrea


9
8
8

7
6
6
Conteo

5
4
4

3
2
2

0
diarrea no si no si
sexo hembras machos

Figura 8. Gráfico de barras con dos criterios de clasificación


Gráfica de sexo; diarrea
14 diarrea
14 si
no

12

10
Conteo

6 6
6

2
2

0
sexo hembras machos
Figura 9. Gráfico de barras con dos criterios de clasificación apilados

Gráfico circular

Se utiliza cuando tenemos pocas categorías y se desea dar una idea de áreas,
además da la posibilidad de destacar una de ellas

Ditribución de animales por categorías en un establo

terneras
vaquillonas 3; 9,4%
5; 15,6%

terneros
6; 18,8%
vaquillas
4; 12,5%

Categoría
terneras
terneros
vacas
vaquillas
vaquillonas
vacas
14; 43,8%

Sistema de ordeño manual

Figura 10. Gráfico de torta para la distribución por categorías en un establo

Diagrama de Pareto

Es muy útil este tipo de gráfico cuando se tiene factores que afectan una
variable y se quiere mostrar la influencia de cada una de ellos,. Se utiliza para
mostrar en primer lugar la categoría que es de mayor importancia seguida de la
de menor importancia, indicando el porcentaje acumulado (la línea roja). En
este caso se muestra que de las enfermedades que afectan al ternero, la
neumonía y meteorismo representan el 68%.
Diagrama de Pareto de enfermedades
20 100

80
15
Porcentaje

60
Conteo

10

40

5
20

0 0
enfermedades piojera neumonia diarrea timpanismo
Conteo 8 5 4 3
Porcentaje 40,0 25,0 20,0 15,0
% acumulado 40,0 65,0 85,0 100,0
Figura 11. Diagrama de Pareto mostrando las principales
enfermedades que afectan a los terneros.

VARIABLE CUANTITATIVA

Con las variables cuantitativas se pueden de igual manera elaborar


tablas. Si los datos discretos son pocos se puede elaborar una tabla de
frecuencia donde cada valor es una clase. Se tiene 70 registros de número de
lechones destetados por marrana.

11 11 10 10 9 12 12 11 9 12 11 12 9 11
11 8 13 7 12 8 12 10 1 12 12 11 13 12
12 9 7 11 10 12 12 10 6 14 11 13 14 9
0
9 9 11 11 12 11 10 12 1 12 8 11 14 10
11 10 11 8 8 11 11 9 9 13 8 11 16 7
2

Tabla 5. Número de lechones destetados por marrana


(datos discretos)

Número lechones Frecuencia Frecuenci Frecuencia Frecuencia


destetados/marran absoluta a relativa relativa acumulada
a acumulada
6 1 1 0,01 0,01
7 3 4 0,04 0,05
8 6 10 0,09 0,14
9 9 19 0,13 0,27
10 9 28 0,13 0,40
11 18 46 0,26 0,66
12 16 62 0,23 0,89
13 4 66 0,06 0,95
14 3 69 0,04 0,99
16 1 70 0,01 1,00
Total 70
Fuente: Datos por cortesia de Pic Star SCRL (2018).

20
18

16

15
Frecuencia

10 9 9

5 4
3 3

1 1

0
6 7 8 9 10 11 12 13 14 16
Número de lechones destetados por marrana

Figura 12. Número de lechones destetados por marrana


(variable discreta)
En los datos continuos las clases ya no son categorías sino intervalos de clase.
Si los valores de los datos discretos son muchos, al igual que con los continuos
se puede elaborar una tabla con intervalos de clase. Se tiene 83 registros de
promedios de peso al destete por camada en lechones.

6, 6,2 7,1 6, 4,4 5,8 5,9 6, 7,6


5,
2 5,1 5,3 6,
1 6,9 7,3 6,7 7,
2 8,0
6,
0 6,2 7,2 7,
2 5,1 8,5 6,8 6,
6 6,7
5,
5 6,7 7,0 6,
1 6,2 6,2 6,0 5,
1
6,
5 6,7 7,1 6,
0 6,0 8,1 6,5 7,
5
5,
1 4,8 5,7 6,
3 5,1 6,4 7,6 6,
0
6,
9 8,1 6,7 6,
1 7,2 7,3 6,7 6,
4
7,
1 8,2 6,4 5,
4 6,8 5,8 6,2 4,
9
7,
7 7,0 6,3 4,
5 6,7 6,3 5,0 7,
5
6,
4 7,0 5,4 7,
1 8,0 6,2 7,4 7,
9
4 4 5
Tabla 6. Promedio del peso al destete por camada en lechones
(datos continuos)
Frecuenci Frecuencia Frecuencia Frecuencia
Clases a acumulada relativa relativa acumulada Marca de clase
absoluta
[4,1 –
4,8> 3 4 0,04 0,05 4,45
[4,8 –
5,5> 8 11 0,10 0,13 5,15
[5,5 –
6,2> 16 27 0,19 0,33 5,85
[6,2 –
6,9> 28 55 0,34 0,66 6,55
[6,9 –
7,6> 17 72 0,20 0,87 7,25
[7,6 –
8,3> 10 82 0,12 0,99 7,95
[8,3 – 9,0 1 83 0,01 1,00 8,65
Fuente: Datos por cortesia de Pic Star SCRL (2018).

Esta técnica se utiliza para realizar conteos de un grupo de datos estableciendo


intervalos iguales. Los pasos a seguir utilizando los datos del promedio de
pesos al destete en lechones, son los siguientes.

Pasos.

a. Hallar la amplitud (A) = Max-Min.


A = 8,5 – 4,1 = 4,4

b. Hallar el número de clases (K) = 1+3,3*log(n), regla de Sturges. El


redondeo es simple.

K = 1+3,3*log (83) = 7,33 = 7

c. Hallar el tamaño del intervalo de clase (TIC) = A/K. El redondeo es por


exceso a los decimales que muestran los datos para asegurar que el
último registro quede incluido.
4,4
TIC= =0,62=0,7
7

Las variables cuantitativas discretas y continuas se pueden graficar utilizando


el histograma, polígono de frecuencia, diagrama de puntos, tallo y hojas,
diagrama de cajas y si son dos variables como gráficos de dispersión y serie de
tiempo.

El histograma es un gráfico que condensa los datos por agrupamiento de ellos


en varias clases, representadas por rectángulos adyacentes (Figura 12 y 13).
Para mostrar un histograma para variables discretas y continuas utilizaremos
datos de las Tablas 5 y 6.

30
28

25

20
17
Frecuencia

16

15

10
10
8

5
3
1

0
3,4 4,1 4,8 5,5 6,2 6,9 7,6 8,3 9,0 9,7
Promedio de peso al destete por camada

Figura 13. Histograma y polígono de frecuencia del promedio del peso al


destete por camada en lechones (variable continua)
Se observa rectángulos adyacentes mostrando los límites de clase y el
número de observaciones por clase. Además, una línea que une los puntos
medios de cada intervalo llamada polígono de frecuencia.

La frecuencia acumulada absoluta o relativa también se puede graficar


mostrando una línea que une los puntos medios, llamada ojiva (Figura 14).

90

80

70
Frecuencia acumulada

60

50

40

30

20

10

0
4,1 4,8 5,5 6,2 6,9 7,6 8,3 9,0
Promedio de peso al destete por camada

Figura 14. Frecuencia acumulada del promedio de peso al destete por camada
(ojiva)

El diagrama de puntos es útil para comparar distribuciones. El valor


numérico de cada medida es representada por un punto en la escala horizontal.
Cuando los valores se repiten, los puntos son colocados sobre el otro de
manera vertical. Para mostrar este gráfico utilizaremos 30 pesos al destete de
cuyes raza Perú.
4,2 4,8 5,4 6,0 6,6 7,2 7,8 8,4

Figura 15. Diagrama de puntos del promedio de peso al destete por camada

Se observa que existen mayor cantidad de pesos al destete entre 6,0 y 6,6
kilogramos.

Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una


representación parecida un histograma. La ventaja de este diagrama es
que no sólo muestran las frecuencias sino que contienen los valores
reales. A diferencia de las tablas de frecuencias con este procedimiento
ningún dato se pierde. Cada dato se divide en dos partes: la primera se
llama tallo y la segunda hoja. Cada tallo se forma con uno o más
dígitos iniciales de cada dato y las hojas se forman con los dígitos
restantes (generalmente de un solo dígito)
Consideraremos los 83 registros del promedio de peso al destete por camada.
Este tipo de gráfica muestra similar distribución que el diagrama de puntos, la
diferencia es que aquí no se pierde de vista a los datos.

Tallo y hoja de peso al deste N = 83


Unidad de hoja = 0,10

2 4 14
4 4 58
11 5 0011134
19 5 55578899
(25) 6 0001111122222222233344444
39 6 5577777778899
26 7 00001112233444
12 7 566679
6 8 00112
1 8 5

Los gráficos de dispersión nos sirven para observar la relación entre dos
variables cuantitativas, puede ser graficada con la finalidad de observar la
relación que existe entre ellas. En vacunos por ejemplo, el perímetro toráxico
está relacionado positivamente con el peso de los animales, a mayor perímetro
toráxico mayor peso del animal (Figura 4).

750

700

650
peso (kg)

600

550

500

450
170 180 190 200 210 220
perímetro toráxico (cm)

Figura 16. Relación entre perímetro toráxico y peso vivo en vacunos.


Los datos que son producidos y monitoreados a través del tiempo, reciben el
nombre de datos en serie de tiempo.

14

13

12
Nacidos vivos

11

10

7
1 5 10 15 20 25 30 35 40 45 50
Semanas

Fuente: Vergara et al. (2016). Síndrome reproductivo respiratorio: Presentación en el tiempo y


efecto sobre los parámetros productivos y reproductivos. Rev. Inv. Vet. Perú 27(4):813-821.

Figura 17. Promedio semanal /camada de lechones nacidos vivos durante 52


semanas.

En la Figura 17, se muestra el promedio semanal /camada de lechones nacidos


vivos durante 52 semanas en una granja que fue afectada por el Síndrome
Reproductivo Respiratorio Porcino (PRRS). Se observa que en la primera
semana del año, el promedio de nacidos vivos fue de 12 lechones y cae
drásticamente a 8,51 en la semana treinta y uno, por efecto de esta afección.
CLASE 2

MEDIDAS ESTADÍSTICAS

MEDIDAS DE TENDENCIA CENTRAL

Media o promedio. La media aritmética de un grupo de datos cuantitativos es


la suma de las mediciones dividida entre el número de mediciones contenidas
en el grupo de datos. Se representa por µ, cuando se refiere a la media
poblacional y x́, cuando se calcula con los datos de una muestra.

N
μ=∑ X i / N
i=1

n
x́=∑ X i /n
i=1

Si tenemos siete tamaños de camada en cerdos de 10, 13, 12, 9, 14, 12 y 11


lechones.

La media o promedio del tamaño de camada será:

10+13+12+9+14 +12+11
x́= =11,57
7

Así mismo, con la producción de leche de vacas en crianza extensiva de la


Tabla 5 se obtiene:

4,2+5,8+ 4,2+4,5+3,9+ …+5,1


x́= =4,82
30

El promedio es una medida estadística que es susceptible a ser influenciada


por valores extremos.

Mediana. La mediana de un grupo de datos cuantitativos es el número medio


cuando las mediciones son arregladas en orden ascendente (o descendente).

n+1
Si n es impar, la mediana es el número que se encuentra en la posición, . Si
2
n es par, la mediana es el promedio de los números que se encuentran en las

n n
posiciones y + 1.
2 2

Considerando los siete tamaños de camada (número impar) en cerdos, 10, 13,
12, 9, 14, 12, 11, la mediana se obtiene ordenando de menor a mayor los
tamaño de camada, 9, 10, 11, 12, 12, 13, 14 y luego, se identifica el registro

n+1 7 +1
que ocupa la posición = =4 ° , por lo tanto la mediana sería el registro
2 2
cuyo valor es 12.

Si se considera sólo seis registros (número par) de los tamaño de camada, 9,


10, 11, 12, 13, 14, la mediana sería la semisuma de los registros que ocupan

n n 6 6
las posiciones 2 y 2 + 1, entonces las posiciones son 2 =3 y 2 + 1=4 ° ; la

11+12
mediana por lo tanto, será la semi-suma de los valores 11 y 12, =11,5.
2

Debemos tener presente que la mediana no está influenciada por valores


extremos.

Moda. La moda es la medición que ocurre más frecuentemente en el grupo de


datos, si es una es unimodal. Puede ser que existan dos números que se
repitan frecuentemente en el grupo de datos, en este caso se dice que es
bimodal. Si los datos no se repiten no existe moda. En relación a los siete
tamaños de camada señalados anteriormente, el registro que se repite es el 12,
por lo tanto la moda es 12.

Existe una relación de ubicación entre el promedio, la mediana y la moda en la


distribución de un grupo de datos. Considerando un grupo de datos de pesos al
destete de lechones. Si la distribución es simétrica las tres medidas de
tendencia central coinciden en un punto. Si esta distribución es asimétrica para
la derecha o para la izquierda la ubicación de estas medidas cambia (Figuras
9-11). Como se puede observar, la media es una medida que es más afectada
por valores extremos. Con valores extremos menores la media tiende a
disminuir y con valores extremos mayores, tiende a incrementar.
20 Moda

18 Mediana
Media
16

14

Frecuencia
12

10

0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)

Figura 10. Distribución simétrica

16
Moda
14 Mediana
Media
12

10
Frecuencia

0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)

Figura 11. Distribución asimétrica hacia la izquierda

Moda
14
Mediana

12 Media

10
Frecuencia

0
4,8 5,2 5,6 6,0 6,4 6,8 7,2 7,6 8,0 8,4
Peso al destete (g)

Figura 12. Distribución asimétrica hacia la derecha


MEDIDAS DE VARIABILIDAD

Las medidas de tendencia central proveen solamente una parcial descripción


de los datos cuantitativos. La descripción es incompleta sin una medida de
variabilidad o amplitud del grupo de datos. Conociendo la variabilidad de los
datos junto con su media podremos visualizar la forma del grupo de datos así
como también sus valores extremos.

Rango. Es la medida más simple de variabilidad para datos cuantitativos. Se


obtiene al restar el valor máximo menos el valor mínimo. Si sólo usamos el
rango como medida de variabilidad, puede ocurrir que dos grupos de datos
tengan el mismo rango y sean completamente diferentes en relación a su
variación. El rango se obtiene

Rango=V . Max−V . min

Con los pesos al destete de los cuyes de la Tabla 3.

Rango=372−109=263 g

Varianza. Es una medida que complementa el rango, utiliza las desviaciones


de los datos con respecto a su media. Si estas desviaciones al cuadrado son
grandes, los datos exhiben una mayor variabilidad. Si estas desviaciones al
cuadrado son pequeñas, existe menos variabilidad. Al calcular la varianza de
una variable, sus unidades quedan elevadas al cuadrado.

n
2 2
s =∑ ( xi −x́ ) /n−1
i =1

Otra expresión para su cálculo es

2
2 (∑ x )
∑x − n
s2=
n−1

La varianza por ejemplo de los pesos al destete de los cuyes es

( 7107 )2
1766749−
30
s2= =2865,50 g2
30−1
Desviación estándar. Es definida como la raíz cuadrada de la varianza. Es la
más utilizada para expresar variación. Las unidades de la variable no están
elevadas al cuadrado. Se puede definir como la desviación promedio de los
datos con respecto a su media.

Sacando la raíz cuadrada de la varianza se obtiene la desviación estándar de


los pesos de los cuyes al destete.

s=
√ ∑x −2

n−1
(∑ x)
n
=

1766749−
30−1
( 7107 )2
30
=53,53 g

Existe una relación práctica entre el rango y la desviación estándar. Si se


desea tener una idea de la desviación estándar de una característica sólo
utilizando el rango, éste se divide entre cuatro para obtener de manera burda la
desviación estándar. Por supuesto, siempre es conveniente el cálculo exacto
para evitar el sesgo observado.

Rango 263
s= = =65,75 g
4 4

Dos muestras pueden tener el mismo promedio; sin embargo, su desviación


estándar puede ser diferente. Una desviación estándar mayor indica mayor
variabilidad. La desviación estándar se utiliza para comparar la variabilidad de
dos conjuntos de datos que tienen las mismas unidades y sus promedios son
iguales o semejantes.

Desv.Est.
53,53
80,53

0 100 200 236,9 300 400 500


Peso al destete (g)
Figura 13. Poblaciones con medias iguales pero diferente desviación estándar

Coeficiente de variación. Se utiliza mayormente para comparar la variabilidad


entre dos variables o características cuando las unidades de medida son
diferentes o si sus promedios son diferentes. Es una medida expresada en
porcentaje. Por ejemplo, si se mide en un grupo de animales el peso y la altura
y sus respectivos CV son 30% y 20% respectivamente, podemos concluir que
el peso es más variable que la altura. Por ejemplo, la variabilidad entre el peso
al destete de los cuyes y la producción de leche de las vacas criollas.

s 53,53
CV = ∗100= ∗100=22,60 %
x́ 236,9

s 0,71
CV = ∗100= ∗100=14,73 %
x́ 4,82

Comparando los coeficientes de variabilidad obtenidos, podemos decir que la


variabilidad en el peso de los cuyes es mayor que en la de la producción de
leche. En ganadería se observan coeficientes de variación de hasta un 30 %,
mayores valores pueden considerarse extremos.

MEDIDAS DE POSICIÓN

Percentiles. En un conjunto ordenado de observaciones, el percentil es un


número expresado en porcentaje de manera tal que p% de las mediciones caen
bajo un valor de la variable y un (100 – p)% caen sobre ese valor. El percentil es
un valor expresado en las mismas unidades que la variable en estudio.

Cuartiles. Son percentiles que dividen el conjunto de datos en 4 partes iguales


(25% cada una). Utilizando cuartiles se puede evaluar rápidamente la dispersión
y la tendencia central de un conjunto de datos, que son los pasos iniciales para
entender sus datos. El primer cuartil (Q1), indica que el 25% de los datos es
menor o igual a ese valor. El segundo cuartil (Q2), es la mediana. El tercer cuartil
(Q3), indica que el 75% de los datos es menor o igual a ese valor. El rango
intercuartílico es la distancia entre el primer cuartil y el tercer cuartil (Q3-Q1), de
esta manera abarca el 50% central de los datos. Los cuartiles se hallan
utilizando la siguiente expresión, sea un número par o impar de datos:

k i ( n+1 )
Qi=
4

donde,

Qi = cuartil 1,2 y 3.

ki = 1, 2 y 3.

n = número de registros.

Si se obtiene un número exacto indicando la posición, sólo se busca el número


que se encuentra en esa posición. Si el número que indica la posición no es
exacto se procede a la interpolación utilizando los registros que se encuentran
antes y después de la posición hallada.

Para ilustrar el cálculo se ordena los 30 registros de peso al destete (Tabla 3), de
menor a mayor y se utiliza la expresión indicada para hallar cada cuartil.

109 152 158 176 192


194 205 209 209 219
219 219 224 230 234
234 239 248 250 256
262 266 266 273 281
298 299 201 313 372
Para hallar el primer cuartil

1 ( n+1 ) 1 ( 31 )
Q 1= = =7,75° ( posición)
4 4

Se ubican los valores que están en la posición 7º y 8º. Resultan ser el 205 y el
209. Aplicando el concepto de interpolación se tiene

Q 1=205+ (209−205 )∗0,75=208

Para el segundo cuartil

2 ( n+1 ) 2 ( 31 )
Q 2= = =15,5 ° ( posición)
4 4
Se ubican los valores que están en la posición 15º y 16º. Ambos números
resultan ser 234. Del mismo modo se obtiene

Q2=¿ 234 + (234 - 234)*0 = 234

Para el tercer cuartil

3 ( 31 )
Q 3= =23,25° ( posición)
4

Se ubican los valores que están en la posición 23º y 24º. Resultan ser el 266 y el
273. Finalmente se obtiene el valor del tercer cuartil

Q 3=¿ 266 + (273 - 266)*0,25 = 267,75

Gráfico de cajas y la detección de datos anómalos

El diagrama de cajas (Box plot) es una técnica gráfica que nos permite
determinar los valores atípicos, la asimetría de la distribución que corresponde
al 50% central de los datos y la variabilidad del 50% central de los datos.

Es una gráfica que nos da la opción de mostrar los cuartiles y detectar datos
anómalos. En los datos de pesos al destete de cuyes, se encontraron dos
datos anómalos, 109 y 372.

Figura 14. Diagrama de cajas

En Minitab, por opción predeterminada el bigote superior se extiende hasta el


valor más alto y el bigote inferior hasta el valor más bajo que no sea anómalo.
Un dato anómalo es aquel que supera un límite superior o un límite inferior
determinado. Estos límites se calculan de la siguiente manera:
Límite superior Q3 + 1,5*RIC = 267,75 + 1,5*59,75 = 357,38

Límite inferior Q1 - 1,5*RIC = 208,00 - 1,5*59,75 = 118,38

Otra forma de detectar datos anómalos es utilizar los valores z. Es la desviación


de una observación respecto a su media en unidades de desviación estándar.
Las observaciones con valores z más grandes que tres en valor absoluto son
considerados datos anómalos. Las observaciones con valores z más grandes
que dos en valor absoluto son considerados sospechosos. Con los pesos al
destete de los cuyes de 109 y 372 observamos que por sus valores z son
clasificados como sospechosamente anómalos.

x1− x́ 109−236,9
z 1= = =−2,39
s 53,53

x2 −x́ 372−236,9
z 2= = =2,52
s 53,53

MEDIDAS DE FORMA DE LA DISTRIBUCIÓN

Las medidas de asimetría permiten determinar la forma de una distribución para


un conjunto de datos.

Asimetría. Según la forma la distribución pueden ser simétricas o asimétricas a


la derecha o a la izquierda. Se mide por el coeficiente de asimetría. Muestra si
las desviaciones respecto a la media son más grandes en un lado que en el otro
de la distribución. Para una distribución simétrica el coeficiente de asimetría es
cero (b). Es positivo cuando la cola derecha es más larga (a) y negativo cuando
la cola izquierda es más larga (c).

(a) (b) (c)

Figura 15. Casos de asimetría

Con los datos de los pesos al destete de los cuyes, el coeficiente de asimetría es
n
n
x i− x́ 3 30
sk= ∑
( n−1 )( n−2 ) i=1 ( )s
=
29∗28
(1,041 ) =0,04

Al ser positivo podemos concluir que los datos están más concentrados hacia la
izquierda con una cola derecha más larga.

Curtosis. Una distribución puede ser aplanada, normal o empinada. Si la


distribución es normal el coeficiente de curtosis es cero y se denomina
mesocúrtica. Si es positivo, la distribución es empinada y se denomina
leptocúrtica y es negativo cuando es aplanada y se denomina platicúrtica.

Leptocúrtica
Mesocúrtica
Platicúrtica

Figura 16. Casos de curtosis

x i− x́ 4
n 2
n ( n+1 ) 3 ( n−1 )
kt = ∑ s
( n−1 )( n−2 ) ( n−3 ) i=1( ) −
( n−2 ) ( n−3 )

Utilizando los pesos al destete de los cuyes se tendrá:

30∗31 ( 3∗292
kt = 97,66 )− =0,81
29∗28∗27 28∗27

Al ser positivo el coeficiente de curtosis, se concluye que los datos tienen una
distribución empinada, es decir es leptocúrtica.
CLASE 3

INFERENCIA ESTADÍSTICA BÁSICA

La inferencia estadística de los parámetros de la población se puede realizar


utilizando dos técnicas muy relacionadas como son la prueba de hipótesis y los
intervalos de confianza. Con los intervalos de confianza, se busca encontrar,
dos valores entre los que puede hallar la media de la población, con un nivel de
error. En las pruebas de hipótesis, la intención es aceptar o rechazar si la
media de la población es un determinado valor, siempre con un nivel de error.
El error mencionado es conocido como alfa, comúnmente en las
investigaciones se utiliza un alfa de 0,05 (5%) ó 0,01(1%).

Comparación de una media con un estándar


Se utiliza en los casos donde se busca comparar la media de una característica
de importancia económica, producto de una gestión productiva con respecto a
un estándar o producción comercial.
La población de vacas de primer parto en un establo, bajo un manejo
tradicional tiene una media de 4000 kg de leche por campaña. Luego de aplicar
una nueva técnica de manejo en el establo en las vacas de primer parto, se
extrae una muestra de 10 vacas que tienen una media de producción por
campaña de 4200 kg., con una desviación estándar de 500 kg. ¿La nueva
técnica de manejo, mejoró la producción de leche por campaña?

Prueba de hipótesis
Se establecen los pasos para realizar la prueba de hipótesis.
a) Definir las hipótesis estadísticas
Ho: µ = 4000 kg
La población sigue teniendo una media de 4000 kg ó cambió y se
H1: µ ≠ 4000 kg
considera otra población
b) Elegir el nivel de error alfa.
Elegimos 0,05
c) Definir la prueba estadística
Se elige la prueba t:
ý−μ 4200−4000
t= = =1,26
s 500
√n √ 10
d) Se establecen las regiones críticas en la distribución t para dos colas


(gl = 9 y =¿ 0,05/2).
2

0,4

0,3
Densidad

0,2

Región Región Región


aceptación H1 aceptación Ho aceptación H1

0,1

0,025 0,025
0,0
-2,262 0 2,262
Valores t

a. Se compara el valor calculado con el valor crítico respectivo y se


concluye.

El valor de t calculado es 1,26, ubicándolo en el gráfico cae en la región


de aceptación de la hipótesis nula. Se concluye que la media poblacional
sigue siendo igual a 4000 kg. La técnica de manejo no mejoró la
producción de leche por campaña en vacas de primer parto.

La prueba de hipótesis se puede realizar a una cola o dos colas; sin


embargo, actualmente cada vez más revistas científicas están exigiendo
el uso de las pruebas a dos colas por ser más exigente.

Intervalo de confianza
Al utilizar intervalos de confianza de lo que se trata es encontrar dos valores L 1
y L2, tales que el parámetro µ se encuentre entre ellos con una probabilidad de
1-α. Los términos involucrados se muestran a continuación:

t ∝∗s t ∝ ∗s

donde,
(
P x́− 2

√n
≤ μ ≤ x́+ 2

√n )
=1−α

x́=media de lamuestra

α
t α =valor de t buscado en latabla( , n−1 gl)
2
2

s=desviación estándar

n=tamaño de la muestra

μ=media de la población

α =nivel de error

De acuerdo al ejemplo, reemplazando los valores en la fórmula, tenemos:

2,262∗500 2,262∗500
(
P 4200−
√ 10
≤ μ ≤ 4200+
√ 10
=0,95 )
Finalmente, se encuentran los límites de confianza.

P¿

Al analizar los límites del intervalo, podemos apreciar que el intervalo estimado
incluye a la media de 4000 kg, por lo que se puede afirmar que la muestra
pertenece a esa población. La técnica de manejo no mejoró la producción de
leche por campaña en vacas de primer parto.

Comparación entre dos medias

En los casos donde se pretende comparar dos gestiones de manejo o dos


técnicas de producción a través de una característica de importancia
económica, se puede utilizar esta opción. Se distinguen dos casos,
comparación para muestras independientes y muestra dependientes.

Muestras independientes
Dos grupos de lechones fueron alimentados con dos diferentes raciones (A y
B). En el grupo A se consideraron 20 lechones y en el grupo B, 18 vacas para
evaluar su efecto en el peso al destete ¿Cuál de las dos raciones favorece a un
mayor peso al destete?

Estadígafo Ración Ración B


A
Media (miles de kg) 6,80 5,50
Desviación estándar 0,62 0,45
n 20 18

Prueba de hipótesis

Los pasos para realizar la prueba de hipótesis son:

a) Establecer las hipótesis estadísticas

H 0 :µ1=µ2
H 1 : µ 1≠ µ2

b) Elegir el nivel de error alfa.


Elegimos 0,05
c) Definir la prueba estadística
Se elige la prueba t para datos independientes.

ý 1− ý 2 6,80−5,50
t= = =7,22
EE ý − ý
1 2
0,18

Para hallar el EE ý − ý , se calcula primero,


1 2

( n1 −1 ) s12+ ( n1−1 ) s 22 Y
s p=
√ n1+ n2−2
=
√ ( 20−1 )∗0,38+ (18−1 )∗0,20
18+ 20−2
=0,54

posteriormente,

1 1 1 1
EE ý − ý =s p
1 2
√ + =0,54
n 1 n2 √ + =¿ 0,18 ¿
18 20
α
d) Establecemos las regiones críticas en t (gl, 36 y ,0,025)
2

0,4

0,3
Densidad

0,2

0,1

0,025 0,025
0,0
-2,028 0 2,028
Valores t

e) Comparar el valor calculado con los valores críticos y realizar la


conclusión.

El valor de t calculado es 7,22, ubicándolo en el gráfico cae en la zona


de rechazo de la hipótesis nula. Se concluye que las medias muestrales
pertenecen a dos poblacionales diferentes. La ración A propició una
mayor producción de leche por campaña.

Las condiciones requeridas para dar validez a esta la inferencia son:

- Las dos muestras son elegidas al azar de manera independiente


provenientes de dos poblaciones.
- Ambas muestras tienen distribuciones que son aproximadamente
normal.
- Las varianzas de la población son iguales (σ 12=σ 22).
Cuando las σ 12 ≠ σ 22 y n1 =n2 , la prueba estadística todavía posee
aproximadamente una distribución t.

( x́1 −x́2 )
t=
( s 21+ s22 )
√ n

Sin embargo, cuandoσ 12 ≠ σ 22 y n1 ≠ n2 los grados de libertad asociado a la


distribución t se modifican para obtener una buena aproximación.

s21 s 22

v∗¿
( +
n1 n2 )
2 2
s21 s 22
( ) ( )
n1
+
n2
n1 −1 n2−1

*Los valores de v generalmente no son enteros. Se redondea v hacia abajo, al más cercano
entero para usar la tabla.

En este caso la prueba t tiene la siguiente expresión

( x́ 1−x́ 2 )
t=
s 21 s22
√ +
n1 n2

Intervalo de confianza

Se utiliza una expresión semejante a la de una media pero considerando


la diferencia de medias.

P¿

donde,

ý 1− ý 2=diferencia de la medias
α
t ∝ =valor de t de la tablabuscado a y (n 1+ n2−2)gl
2
2
EE ý − ý =error estándar de la diferencia de medias
1 2

μ1−μ 2=diferencia de medias poblacionales


α =nivel de error
Reemplazando valores se tiene

P [(6,80−5,50)−2,028∗0,1772≤ μ1−μ2 ≤(6,80−5,50)+2,028∗0,1772 ] =95 %

Para finalmente obtener los límites de confianza

( 0,94 ≤ μ1−μ 2 ≤ 1,66 )=95 %

Analizando el intervalo de confianza de la diferencia de medias poblacionales,


podemos apreciar que no incluye a cero, la media poblacional debida a la
ración A es superior a la población debida a la ración B. Esta superioridad
puede ir desde 0,94 hasta 1,66 miles de kg.

CLASE 4
Muestras dependientes

El efecto de un tratamiento es probado sobre la producción de leche en vacas.


Las vacas fueron del mismo número de parto y estado de lactación. La
producción de leche diaria fue medida antes y después de la administración un
tratamiento.

Medida Vaca1 Vaca2 Vaca3 Vaca4 Vaca5 Vaca6 Vaca7 Vaca8 Vaca9

Antes 27 45 38 20 22 50 40 33 18

Después 31 54 43 28 21 49 41 34 20

Diferenci
a 4 9 5 8 -1 -1 1 1 2
(d)

En este caso se considera la diferencia de las producciones antes y después


de cada una de las vacas como una variable. Debemos mencionar que en este
caso se favorece la remoción de la variación debida a diferencias entre los
animales. Usando este diseño se obtiene un mayor poder de la prueba que si
se usa dos muestras independientes. Se calculan la desviación estándar y la
media de las diferencias.
2

sd =
√ 2
∑d −
n−1
(∑ d )
n
=
√ 194−
8
784
9
=3,66

d́=
∑ d = 28 =3,11
n 9

Prueba de hipótesis

a) Establecer las hipótesis estadísticas


H 0 :μ d =0
La media poblacional de las diferencias es cero o es una población cuya
H 1: μd ≠ 0 media de las diferencias es diferente a cero.

b) Elegir el nivel de error alfa.


Elegimos 0,05
c) Definir la prueba estadística
Se elige la prueba t para datos independientes

d́ 3,11
t= = =2,55
sd 3,66
√n √9

α
d) Establecemos las regiones críticas en t (gl, 8 y ,0,025)
2
0,4

Densidad 0,3

0,2

0,1

0,025 0,025
0,0
-2,306 0 2,306
Valores t

e) Comparamos el valor calculado con los valores críticos y concluimos.

El valor de t calculado es 2,55, ubicándolo en el gráfico cae en la zona de


rechazo de la hipótesis nula en el lado derecho. Se concluye que la media
poblacional de las diferencias es diferente cero. El tratamiento aplicado
favoreció una mayor producción de leche diaria (3,11 kg.)

Intervalo de confianza
Se utiliza una expresión semejante para hallar el intervalo de confianza
de una media, sólo que ahora es media de las diferencias ( d́).

t ∝ ∗s d t ∝∗sd
2 2
donde, P( d́ − ≤ μd ≤ d́ + )=1−α
√n √n
d́=media de las diferencias


t ∝ =valor de t de la tablabuscado con y n−1 gl
2
2

sd
=error estándar
√n
μd =media poblacional de la diferencias
Reemplazando valores se tiene.

2,306∗3,66 2,306∗3,66
(
P 3,11−
√9
≤ μ d ≤3,11+
√9 ) =95 %

Finalmente, el intervalo de confianza es:

( 0,30 ≤ μd ≤ 5,92 )=95 %

Al analizar el intervalo de confianza vemos que la media poblacional de las


diferencias ( μd ¿ es diferente de cero. Se puede encontrar diferencias desde
0,30 hasta 5,92 a favor del tratamiento aplicado después.

Comparación de una proporción con un estándar

Para una muestra de tamaño n y un número de eventos y, la proporción es


igual a:

y
p=
n

La distribución de una proporción estimada de una muestra, p, es


aproximadamente normal si la muestra es bastante grande. Una muestra es
bastante grande si np y (1-p)n son mayores o iguales a 5.

En una granja porcina la proporción de lechones con diarrea en maternidad es


de 0,15. Se decide realizar cambios en el manejo. Luego, se toma una muestra
de 150 lechones y se observa que 18 lechones están con diarrea (0,12). ¿Se
redujo la diarrea en maternidad?
Prueba de hipótesis
a) Establecer las hipótesis estadísticas
Ho:π = 0,15
La población sigue teniendo una proporción de 0,15 ó cambió y se
H1: π ≠ 0,15
considera otra población
b) Elegir el nivel de error alfa.
Elegimos 0,05
c) Definir la prueba estadística
Se elige la prueba z, porque es considerada una muestra grande
[pn =18 y (1-p)n = 132, ambos son mayores a 5].

p−π 0,12−0,15
z= = =−1,03
π ( 1−π ) 0,15 ( 1−0,15 )
√ n √ 150
d) Se establecen las regiones críticas en z (0,025)

0,4

0,3
Densidad

0,2

0,1

0,025 0,025
0,0
-1,960 0 1,960
-1,03 Valores Z

e) Se compara el valor calculado con los valores críticos y realizar la


conclusión.

El valor de z calculado es -1,03, ubicándolo en el gráfico cae en


la zona de aceptación de la hipótesis nula. Se concluye que las
proporciones son iguales. El manejo establecido no logró reducir la
proporción de diarrea en lechones.
1.1. Intervalo de confianza
Se utiliza una fórmula semejante a la de una media pero considerando la
proporción.

pq pq
P( p−z ∝ ∗
2 √ n 2√
≤ π ≤ p+ z ∝∗
n
)=1−α

( 0,12 ) ( 0,88 ) ( 0,12 ) ( 0,88 )


(
P 0,12−1,96∗
√ 150 √
≤ π ≤ 0,12+1,96∗
150 ) =95 %

P ( 0,07 ≤ π ≤ 0,17 )=95 %

Al analizar el intervalo de confianza y observar que π = 0,15 está


contenida en el intervalo de confianza, se puede decir que la población sigue
siendo la misma y por lo tanto no hubo ningún cambio en la presentación de
diarrea.

Comparación de dos proporciones

Probar la diferencia entre las proporciones de vacas que retornaron al celo


después de la primera inseminación en dos establos. Los datos se muestran en
la siguiente tabla.

Establo1 Establo2
Retorno de celo Y1 = 40 Y2 = 30
Vacas n1= 100 n2 = 100
inseminadas
Proporción p1 = 0,40 p2 = 0,30

Prueba de hipótesis
a) Establecer las hipótesis estadísticas
H 0 :π 1=π 2
Las proporciones de muestras se consideran de una misma población o
H 0 :π 1 ≠ π 2 provienen de diferentes poblaciones.
b) Elegir el nivel de error alfa.
Elegimos 0,05
c) Definimos la prueba estadística
Se elige la prueba z, las muestras analizadas son consideradas grandes
[muestra 1: pn = 40 y (1-p)n=60; muestra 2: pn = 30 y (1-p)n = 70; se
comprueba que son mayores a 5].
Se calcula un p y q (1-p) con base en las dos muestras.

y +y 40+ 30
p= 1 2 = =0,35 ; entonces q = 0,65
n1 +n2 100+100
Luego se calcula,

1 1 1 1
1 2

S p − p = pq
( ) √
+ = ( 0,35 ) ( 0,65 )
n1 n2
+
100 100
=0,07 ( )
p 1− p2 0,40−0,30
z= = =1,43
S p −p 1
0,072

d) Se establecen las regiones críticas en Z(0,025)


Gráfica de distribución
Normal; Media=0; Desv.Est.=1

0,4

0,3
Densidad

0,2

0,1

0,025 0,025
0,0
-1,960 0 1,960
X

e) Se compara el valor calculado con los valores críticos y se realiza la


conclusión.

El valor de z calculado es 1,43, ubicándolo en el gráfico cae en la zona


de aceptación de la hipótesis nula. Se concluye que las proporciones
son iguales. No hay suficiente evidencia para establecer que las
proporciones de retorno al celo en ambos establos fuera diferente.
1.2. Intervalo de confianza
Se utiliza una fórmula semejante a la de una proporción pero considerando la
diferencia de proporciones. Se construye los intervalos de confianza como
sigue:

P ( p 1− p2 )−z α ∗s p −p ≤ π 1 −π 2 ≤ ( p 1− p2 ) + z α ∗s p − p =1−α
[ 2
1 2
2
1 2
]
Reemplazando valores tenemos

P [ ( 0,40−0,30 )−1,96∗0,06745 ≤ π 1−π 2 ≤ ( 0,40−0,30 ) +1,96∗0,06745 ]=95 %

P (−0,032 ≤ π 1−π 2 ≤0,232 ) =95 %

Al analizar el intervalo de confianza, podemos observar que la diferencia


entre proporciones incluye a cero, por lo que se concluye que la proporción de
celos en ambos establos es la misma.

CLASE 5

ANALISIS DE LA VARIANZA

ASPECTOS CONCEPTUALES EN EL DISEÑO DE EXPERIMENTOS

Existen definiciones muy importantes que se tienen que considerar:

Unidad experimental
Es el artículo, animal o parcela de la cual se obtiene una medición o dato
representativo de lo que allí ocurre.

Diseño experimental
Es un arreglo de las unidades experimentales que se utiliza para controlar el error
experimental a la vez que se acomodan los tratamientos.

Factor de estudio
Es la variable que se investiga en el experimento en cuanto a cómo influyen o afectan
a la variable respuesta. Es la variable independiente. Ej. Temperatura, densidad,
proteína, etc.

Niveles de un factor
Son los diferentes valores que se asigna dentro de cada factor estudiado. Ej. 10º, 20º y
30º (factor temperatura).

Tratamiento
Es todo lo que se aplica a las unidades experimentales. Es el nivel del factor aplicado
a las unidades experimentales.

Replicación
Es aplicar un tratamiento a más de una unidad experimental.

Repetición
Son mediciones repetidas en la misma unidad experimental.
Bloqueo
Es detectar un criterio de estratificación en las unidades experimentales. La
variabilidad dentro de bloques es menor que la variabilidad entre bloques.

Unidad de observación o submuestreo


Es un subconjunto de la unidad experimental.

Variable respuesta
Es la característica, variable de salida o propiedad del producto, cuyo valor interesa
conocer. Es la variable dependiente.

Error aleatorio
Es la variabilidad observada que no se puede explicar por los factores estudiados.

Error experimental
Es el error que comete el investigador durante el experimento. Si estos son graves, la
detección de cuáles de los factores estudiados tienen un efecto real sobre la variable
respuesta será difícil.
Cuando se corre un diseño experimental es importante que la variabilidad de la
respuesta observada se deba principalmente a los factores estudiados y en menor
medida al error aleatorio, y además que este error sea efectivamente aleatorio.

Aleatoriedad
Consiste en hacer las asignaciones de los tratamientos en orden aleatorio; este
principio aumenta la posibilidad de que el supuesto de independencia de los errores se
cumpla.

Análisis de la varianza (Analysis of variance)(ANOVA)


Es una técnica estadística que se usa para probar la igualdad de varias medias
poblacionales. Separa la variación total en varias fuentes. Por ejemplo la variación
total del experimento puede ser dividida en debida a tratamientos y debida al error
aleatorio.

Hipótesis a probar en el ANOVA


Son dos formas equivalentes que prueban los tratamientos. La primera se refiere a las
medias de los tratamientos y la segunda a los efectos de los tratamientos.

Probando medias:

H 0 :μ 1=μ2=μ3 =…=μ k “Las medias de los tratamientos son iguales”


H 1 : μ i ≠ μi para algún i≠ i`

Probando efectos:

H 0 :τ 1=τ 2=τ 3 =…=τ k = 0 “Los efectos de los tratamientos son iguales


H1: τi≠ 0 y es cero”

PRINCIPALES DISEÑOS EXPERIMENTALES EN ZOOTECNIA

Según los criterios que se identifiquen en la variabilidad que se observa en las


unidades experimentales se define el diseño experimental a utilizar.

Existen Diseños Experimentales de uso frecuente como son:


Diseño Completamente al Azar. Para aplicar este diseño se debe observar que las
unidades experimentales a utilizar sean homogéneas, es decir que todas posean
similares características y a las cuales se les asigna al azar los tratamientos. Por
ejemplo, si se desea utilizar este diseño en cuyes de engorde debemos observar que
todos los animales sean de la misma raza y sexo. Si se desea evaluar madres, que
todas sean de la misma raza y del mismo número de parto. Por ejemplo si tenemos 15
terneros y tres tratamientos con cinco replicaciones por tratamiento. La asignación al
azar de los tratamientos en quince terneros ubicados en quince corrales se muestra en
la Tabla 1.

Tabla 1. Distribución al azar de los tratamientos en un DCA

T3 (1) T2 (2) T1 (3)


T2 (4) T1 (5) T1 (6)
T2 (7) T3 (8) T3 (9)
T1 (10) T3 (11) T2 (12)
T1 (13) T1 (14) T2 (15)

Para analizar los registros de la variable respuesta que están en la Tabla 1, se los
agrupa según tratamientos:

Tabla 2. Variables respuesta por tratamiento

T1 T2 T3
y11 y21 y31
y12 y22 y32
y13 y23 y33
y14 y24 y34
y15 y25 y35

Diseño de Bloques Completos al Azar. En este segundo Diseño, las unidades


experimentales no exhiben homogeneidad completa, se distingue una característica
que nos sirve para agruparlas y en las que se aplica al azar los tratamientos. En
pasturas los suelos pueden estratificarse por pendiente, humedad, etc. En vacas, se
puede estratificar según lactación de 1º, 2º, 3º y 4º a más. Por ejemplo si tuviésemos
12 vacas, tres de cada grupo de lactación y se desea estudiar el efecto de tres
tratamientos.

Tabla 3. Distribución al azar de los tratamientos dentro del bloque en un DBCA

Bloqu Distribución al azar


e
1º T3 (1) T1 (2) T2 (3)
2º T2 (4) T3 (5) T1 (6)
3º T1 (7) T2 (8) T3 (9)
>=4º T3 (10) T2 (11) T1 (12)

Para analizar los registros de la variable respuesta con un DBCA, se agrupan por
tratamiento y bloque:

Tabla 4. Variable respuesta por tratamiento y bloque

Bloqu T1 T2 T3
e
1º y11 y21 y31
2º y12 y22 y32
3º y13 y23 y33
≥4º y14 y24 y34

Estos Diseños, tienen variantes según la intención del investigador y la naturaleza del
experimento; pueden incluir arreglos factoriales, covarianza y sub-muestreo. Estas
variantes serán tratadas en lecciones posteriores. Así por ejemplo, podemos tener un
Diseño Completamente al Azar con arreglo factorial.
El análisis de los diseños experimentales se realiza a través de una técnica
denominada análisis de varianza.

LA TÉCNICA DEL ANÁLISIS DE VARIANZA Y SUS ASUNCIONES

La técnica del análisis de la varianza,fue una técnica ideada por Sir R. Fisher y
consiste en cuantificar la variabilidad debida a las fuentes de variación identificadas
que afectan a las unidades experimentales. Esto se realiza utilizando un tabla de
ANOVA (Analysis of variance). En nuestro idioma sería ANVA (análisis de la varianza).
Consta de cinco columnas:

Fuente Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios

Esta técnica, debe cumplir una serie de asunciones para que los resultados obtenidos
sean válidos:
Normalidad de los errores. Existen pruebas como la de Anderson-Darling,
Kolmogorov- Smirnov, Shapiro-Wilks entre otras.

Gráfica de probabilidad de peso


Normal
99
Media 884,5
Desv.Est. 112,0
95 N 15
RJ 0,943
90
Valor p 0,069
80
70
Porcentaje

60
50
40
30
20

10
5

1
600 700 800 900 1000 1100 1200
peso

Homocedasticidad (igualdad de varianzas). Las pruebas son Bartlett, Cochran y


Hartley, así como la de Levene.
Prueba de varianzas iguales: peso vs. trata
Prueba de Bartlett
Valor p 0,192
1

trata

0 50 100 150 200


Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Independencia de los errores. Existe la prueba de Durbin-Watson. Sin embargo, no


detecta la correlación entre datos no continuos.

vs. orden
(la respuesta es peso)

50

25

0
Residuo

-25

-50

-75

-100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden de observación

Datos anómalos. Las observaciones que resultan muy diferentes al resto son
considerados datos anómalos. El investigador deberá decidir si los retira o los deja en
el experimento.
Gráfica de caja de peso
1000

950

900

850
peso

800

750

700

650
1 2 3
trata

En el caso que las gráficas de los residuos u otros diagnósticos indiquen que el
modelo ANOVA no es apropiado para los datos, se requieren posibles medidas
correctoras. Una de las medidas es utilizar transformaciones sobre la variable
respuesta, como la recíproca, inversa de la raíz, logarítmica o raíz cuadrada. Una vez
que los datos originales se han transformado se procede a desarrollar la técnica del
análisis de la varianza (ANOVA), con resultados confiables.

EL DISEÑO COMPLETAMENTE AL AZAR (DCA)

El Diseño Completamente al Azar tiene su modelo estadístico como sigue:


Y ij =μ+ τ i+ ε ij

Y ij : es la medición de la variable respuesta de la j-ésima unidad experimental


con el i-ésimo tratamiento.
μ : es el promedio general de la variable respuesta.
τ i : es el efecto del i-ésimo tratamiento.

ε ij : es el error experimental en la j-ésima unidad experimental con el i-ésimo


tratamiento.

Grados Suma de Cuadrados


Fuente
de Cuadrados Medios Fcal
variación
libertad (SC) (CM)
Entre grupos
t
Y 2i . Y 2.. SC (trat ) CM (trat )
(tratamientos)
t -1 ∑ r

rt t−1 CM (error )
i=1
Dentro de t r
Y 2i .
2
t
SC (error )
grupos t(r -1) ∑ ∑ Y −∑ r ij
(error)
i=1 j=1 i=1 t( r−1)
t
Y 2..
r
2
Total rt -1 ∑ ∑ Y − rt ij
i=1 j=1

Considerando datos no equilibrados (diferente número de replicaciones por


tratamiento) la tabla de ANOVA resulta ser:

Grados Suma de Cuadrados


Fuente
de Cuadrados Medios Fcal
variación
libertad (SC) (CM)
Entre grupos Y 2i . Y 2..
t
SC (trat ) CM (trat )
(tratamientos)
t -1 ∑ r −r t−1 CM (error )
i=1 i .

Dentro de t r
Y 2i .
2
t
SC (error )
grupos r. - t ∑ ∑ Y −∑ r ij
(error)
i=1 j=1 i=1 i r .−t
t
Y 2..
r
2
Total r. -1 ∑∑ Y − r ij
i=1 j=1 .

En el diseño no equilibrado, la diferencia está en el cálculo de la Suma de Cuadrados


de Tratamientos : en el primer término de la SC trat, cada tratamiento se divide según
sus replicaciones. En el segundo término ya no se divide por “rt” en vez de ello se
divide por “r.” que representa la suma de todas las observaciones que quedan.

Como ejemplo, para diseño equilibrado, consideraremos un experimento donde se


probó tres dietas con diferentes niveles de energía por kilogramo de materia seca (2.6
Mcal/Kg.; 2.8 Mcal/Kg.y 3.0 Mcal/Kg.). Estas tres dietas contenían 18 % de proteína
y fueron aplicadas a cuyes destetados, de la raza Perú por dos meses y transcurrido el
tiempo experimental se observó el peso final, como se muestra en la Tabla 9:

Tabla 9. Pesos Finales de cuyes según tratamientos

T1 T2 T3

2.6 Mcal 2.8 Mcal 3.0 Mcal

y11  777 y 21  913 y31  960

y12  746 y 22  883 y32  980

y13  785 y 23  990 y33  950

y14  753 y 24  995 y34  1000


y15  659 y 25  892 y35  985

Y1. = 3720 Y2. = 4673 Y3. = 4875

Y.. = 13268

Ý 1. =744,00 Ý 2. =934,60 Ý 3. =975,00

Ý ..=884,50

En el modelo equilibrado la Tabla de análisis de la varianza es como sigue:

Tabla 10. Análisis de la varianza de un DCA equilibrado

FV GL SC CM Fcal
Tratamiento 152202,5
2 76101,27 39,12 *
3
Error 12 23341,20 1945,10

Total 175543,7
14
3

Ho: μ 1=μ1=μ1=μ 1=μ1

H 1 : Algún tratamiento es diferente

Y 21. +Y 22. +Y 23. Y 2.. ( 3720 )2 + ( 4673 )2+ ( 4875 )2 ( 13268 )2


SCTrat = − = − =152202,53
r r∗t 5 5∗3

2 2 2 Y 21. +Y 22. +Y 23.


SC Error =Y 11 +Y 12 +…+Y 35−
5

( 3720 )2 + ( 4673 )2 + ( 4875 )2


SC Error =(777)2+(746)2+ …+ ( 985 )2− =23341,20
5

2 Y 2..
2 2
SCTotal =Y +Y +…+ Y −
11 12 35
r∗t

2 2 (13268)2 2
SCTotal =(777) +(746) + …+ ( 985 ) − =175543,73
5∗3
Gráfica de distribución
F; df1=2; df2=12

1,0

0,8

Densidad
0,6

0,4

0,2

0,05
0,0
0 3,885
X

Conclusión: Como Fcal (39,12) > Ftabla (3,89; buscado con un alfa 0,05 con 2 y 12 gl), se
acepta la hipótesis alterna y se concluye que existen diferencias significativas (*) entre
tratamientos.

En el modelo no equilibrado, cuando la última observación del tratamiento tres se


perdió, la Tabla de ANOVA es la siguiente:

Tabla 11. Análisis de la varianza de un DCA no equilibrado

FV GL SC CM Fcal
Tratamiento 70756,5
2 141513,01 33,52 *
s 1
Error 11 23216,20 2110,56
Total 13 164729,21

Ho: μ 1=μ1=μ1=μ 1=μ1

H 1 : Algún tratamiento es diferente


(3720)2 (4673)2 (3890)2 ( 12283 )2
SCTrat = + + − =141513,01
5 5 4 14

( 3720 )2 ( 4673 )2 ( 3890 )2


SC Error =(777)2+(746)2+ …+ ( 1000 )2− + + =23216,20
5 5 4

( 12283 )2
SCTotal =(777)2+(746)2+ …+ ( 1000 )2− =164729,21
14

Gráfica de distribución
F; df1=2; df2=11

1,0

0,8
Densidad

0,6

0,4

0,2

0,05
0,0
0 3,982
X

Conclusión: Como Fcal (33,52) > Ftabla (3,98; buscado con un alfa 0,05 con 2 y 11 gl), se
sigue aceptando la hipótesis alterna y se concluye que existen diferencias
significativas (*) entre tratamientos.
EL DISEÑO DE BLOQUES COMPLETOS AL AZAR (DBCA)

La tabla de ANOVA de un DBCA incluye en este caso como fuentes de variación los
tratamientos, bloques y el error.

Modelo estadístico:
Y ij =μ+ τ i+ β j+ ε ij

Y ij : es la medición de la variable respuesta de la j-ésima unidad experimental

con el i-ésimo tratamiento.

μ : es el promedio general de la variable respuesta.

τ i : es el efecto del i-ésimo tratamiento.


β j : es el efecto del j-ésimo bloque.

ε ij : es el error experimental en la j-ésima unidad experimental con el i-ésimo


tratamiento.

Tabla 12. ANOVA de un DBCA

Fuente Grados de Suma de Cuadrados


variación libertad Cuadrados medios Fcal
(GL) (SC) (CM)
t
Y 2i . Y 2..
t -1 ∑ b − b∗t SC (Trat) CM (Trat)
Tratamiento i=1
GL(Trat ) CM ( Error)
b
y 2. j y 2.. SC (Bloques)
b-1 ∑ t

bt
Bloques j=1 GL(Bloques) CM ( Bloques)
CM ( Error)

Diferencia
Error (t-1)(b-1) SC (Error)
GL(Error)

t b
2 y 2..
Total bt-1 ∑∑ y ij−
i=1 j=1 bt

Los bloques como muchas veces no son distribuidos al azar, la prueba de F para
bloques es una prueba aproximada. En la práctica se recomienda su interpretación
porque es evidencia a favor o en contra de que valió la pena el esfuerzo de controlar el
factor de bloque.
Sin embargo, también se puede interpretar que al extraer una parte de la variación
como bloques y no salir significativo, se estaría favoreciendo para hallar significación
entre tratamientos, debido a que la suma de cuadrados del error se ve disminuida.
Un supuesto del diseño de bloques es que no existe interacción entre el factor de
bloques y factor de tratamientos.
Como ejemplo consideraremos un estudio de seis programas diferentes de aplicación
de nitrógeno (A, B, C, D, E y F) sobre el contenido de nitrógeno en las espigas de
trigo. El bloqueo era la gradiente de irrigación (Bi).

Tabla13. Distribución de los tratamientos en un DBCA


B 40,89(B) 37,99 (E) 37,18(D 34,98(A) 34,89(F) 42,07(C)
1 )
B 41,22(A 49,42(C) 45,85(D 50,15(F) 41,99(E) 46,69(B)
2 ) )

B 44,57(F) 52,68(C) 37,61(E) 36,94(A) 46,65(B) 40,23(D)


3
B 41,90(B) 39,20(D) 43,29(F) 40,45(E) 42,91(C) 39,97(A)
4
Dr. T Doerge, Department of Soil and Water Science, University of Arizona. Kuhel (2001).

La tabla para el análisis sería:

Tabla 14. Variable respuesta por Tratamiento y bloque

A B C D E F Y.j
Gradiente
1 34,98 40,89 42,07 37,18 37,99 34,8 228,00
9
2 41,22 46,69 49,42 45,85 41,99 50,1 275,32
5
3 36,94 46,65 52,68 40,23 37,61 44,5 258,68
7
4 39,97 41,90 42,91 39,20 40,45 43,2 247,72
9
Yi. 153,11 176,13 187,0 162,4 158,04 172,9 Y..=1009,72
8 6

La tabla del ANOVA se muestra a continuación.

Tabla 15. Análisis de la varianza de un DBCA

FV GL SC CM Fcal
Nitrógeno 5 201.32 40,26 5,59 *
Gradient 3 197,00 65,67 9,12
e
Error 15 108,01 7,20
Total 23 506,33

Ho: μ 1=μ1=μ1=μ 1=μ1

H 1 : Algún tratamiento es diferente

Y 21. +Y 22. +Y 23. +Y 24. +Y 25. +Y 26. Y 2..


SC Nitrog .= −
b b∗t

(153,11)2 +(176,13)2 +…+(172,9)2 ( 1009,72 )2


SC Nitrog .= − =201,32
4 4∗6

Y 2.1 +Y 2.2 +Y 2.3 +Y 2.4 Y 2..


SC grad. = −
t b∗t

(228)2+(275,32)2+(258,68)2+(247,72)2 ( 1009,72 )2
SC grad. = − 197,00
6 4∗6

2 ( 1009,72 )2
2 2
SCTotal =(34,98) +(41,22) + …+ ( 43,29 ) − 506,33
4∗6
SCerror =sc total −( SCT + SC b )=506,33−( 201,32+197 )=108,01

Gráfica de distribución
F; df1=5; df2=15
0,8

0,7

0,6

0,5
Densidad

0,4

0,3

0,2

0,1
0,05
0,0
0 2,901
X
Conclusión: Como Fcal > Ftabla (5,59 > 2,90, hallado a un alfa de 0,05 con 5 y 15 gl ), se
acepta la hipótesis alterna y se concluye que existen diferencias significativas (*) entre
tratamientos.

CLASE 6
PRUEBAS DE COMPARACIONES MÚLTIPLES

I. COMPARACIONES A POSTERIORI O NO PLANEADAS

Cuando se concluye que hay diferencia significativa entre grupos de


tratamientos, luego de realizar el ANOVA, el investigador deseará averiguar
qué tratamientos son iguales o cuáles son diferentes. Existen varios
procedimientos para determinar la diferencia entre un par de medias. Todas
esas pruebas pueden incurrir en dos tipos de error.

 Rechazar la hipótesis nula cuando ésta es verdadera es un error Tipo I.


La probabilidad de cometer un error tipo I se denomina alfa (α).
 Aceptar la hipótesis nula cuando éstas es falsa es un error tipo II. La
probabilidad de cometer un error tipo II se denomina Beta (β).
Las pruebas de acuerdo al criterio mostrado se pueden clasificar en tres
grupos:
Error Tipo I
DMS (Diferencia Mínima Significativa)
Duncan
Error intermedio
Tukey DHS
Bonferroni
Dunnett
Error Tipo II
Scheffeé

Actualmente, se recomiendan utilizar las pruebas que tienen un error


intermedio, que se detallan a continuación.

I.1. PROCEDIMIENTO DE TUKEY

Se denomina DHS (Diferencia Honestamente Significativa) de Tukey. Es


llamada así, porque algunos otros procedimientos hacen que la significancia
sea demasiado fácil de obtener. Se recomienda cuando se desea comparar
tratamientos con igual número de replicaciones.
Se calcula un solo valor crítico para todas las comparaciones.

CME

DHS=q α ,k , v∗
r
El multiplicador q α ,k , v : es hallado para un α; k medias y v grados de libertad del
error. El CME, es el cuadrado medio del error y r son las replicaciones por
tratamiento.
La hipótesis que se prueban por parejas de comparación son:
H 0 :μ i=μ j

H 1: μi≠ μj

Si | ý i− ý j|< DHS , se acepta la H 0

Si | ý i− ý j|> DHS , se acepta la H 1

Existe una modificación del procedimiento de Tukey cuando los tratamientos


tienen diferente número de repeticiones, llamada Tukey-Kramer, pero que
muchos estadísticos no la recomiendan.
I.2. PROCEDIMIENTO DE BONFERRONI

La estrategia de Bonferroni considera el número de comparaciones y no el


número de tratamientos como la DHS de Tukey. El valor de k es el número de
comparaciones por pares, que se halla de la siguiente forma, k = t(t-1)/2 ,
donde t es el número de tratamientos.
Como es una prueba que se recomienda cuando hay diferente número de
replicaciones por tratamiento podría ser necesario calcular más de un valor
crítico B para alguna comparación. Si en un experimento, t 1 tiene n1=5; t2 tiene
n2=4 y t3 tiene n3=5 se tendrían que calcular dos valores críticos B para realizar
la comparación por parejas utilizando esta expresión:


B=t B∗ CME
( r1 + r1 )
i j

El multiplicador t B es hallado para un α; k comparaciones por pares y v grados


de libertad del error.
La hipótesis que se prueban son:
H 0 :μ i=μ j

H 1 : μi ≠ μj

Si | ý i− ý j|< B , se acepta la H 0
Si | ý i− ý j|> B , se acepta la H 1

I.3. EJEMPLO DE APLICACIÓN PARA LAS DOS PRUEBAS

Se desea investigar diferentes tipos de empaque para el almacenamiento de


carnes. Se selecciona cuatro tipos de empaque:
 Aire del ambiente con un empaque de plástico comercial.
 Al vacío.
 Mezcla de gases con 1% CO, 40% 02 y 59% N
 100% CO2.

Cort Tratamiento Log(N°/cm2) Promedios


e
1 Comercial 7,66
6 Comercial 6,98
7 Comercial 7,80 7,48
12 Al vacío 5,26
5 Al vacío 5,44
3 Al vacío 5,80 5,50
10 Mezcla de 7,41
gases
9 Mezcla de 7,33
gases
2 Mezcla de 7,04 7,26
gases
8 CO2 3,51
4 CO2 2,91
11 CO2 3,66 3,36

Por la disposición de los tratamientos y los datos mostrados se trata de un DCA


y el análisis de varianza que resulta de los datos de empaque es como se
muestra:

FV GL SC CM Fcal Ftab
Empaqu 3 32,87 10,95 94,466 4,07
e 3 8
Error 8 0,927 0,116
Total 11 33,80
0

Como el Fcal = 94,58 es mayor al Ftab = 4,07(buscado con 0,05, 3 y 8 gl), se


concluye que existe diferencia significativa entre tratamientos.
Se desea realizar la comparación por pares de los tratamientos para averiguar
qué tratamientos son iguales y qué tratamientos son diferentes.
a. Procedimiento de Tukey

Calculamos el valor crítico para todas las comparaciones. Buscamos en tabla el


multiplicador para un α = 0,05, k = 4 y v = 8, esto es igual a 4,53 y obtenemos
el valor crítico DHS.

0,116
DHS=4,53∗
√ 3
=0,89

Ordenamos las medias de mayor a menor


I III II IV
Promedios 7,48 7,26 5,50 3,36
Comparamos la diferencia de cada par de medias con la DHS (valor crítico).
|7,48−7,26|=0,22 < 0,89 entonces son iguales
|7,48−5,50|=¿ 1,98 > 0,89 entonces son diferentes
|7,48−3,36|=¿ 4,62 > 0,89 entonces son diferentes
|7,26−5,50|=1,76>¿ 0,89 entonces son diferentes
|7,26−3,36| = 3,90 > 0,89 entonces son diferentes
|5,50−3,36|=2,14>¿ 0,89 entonces son diferentes
La información obtenida de igualdad y desigualdad de las comparaciones por
parejas se puede representar utilizando líneas horizontales o colocando letras a
lado de los promedios iguales estadísticamente.

I III II IV
7,48 7,26 5,50 3,36

I III II IV
7,48a 7,26a 5,50b 3,36c

b. Procedimiento de Bonferroni

Esta prueba se elige cuando existe diferente número de replicaciones por


tratamiento. Para aplicar esta prueba, en el experimento en carnes asumiremos
que en el tratamiento 1 se pierde una replicación ( r12 = 6,98). Sin esta
replicación el ANOVA será el siguiente.
FV GL SC CM Fcal Ftab
Empaqu 3 31,97 10,65 134,924 4,35
e 5 9
Error 7 0,552 0,079
Total 10 32,52
7

Como el Fcal = 134,924 es mayor al Ftab = 4,35 (buscado con 0,05, 3 y 7 gl), se
concluye que existe diferencia significativa entre tratamientos.
Para realizar la comparación por pares de los tratamientos calculamos el valor
crítico B según las replicaciones de los tratamientos involucrados. Para lo cual
buscamos el multiplicador en tabla a un α = 0,05, k = 6 [t(t-1)/2] y v = 7, esto es
igual a 3,64.
Para comparar tratamientos con ri = 2 y rj = 3


B1=3,64∗ 0,079∗ ( 13 + 13 )=0,84
Para comparar tratamiento con ri = 3 y rj = 2
B2=3,64∗ 0,079∗
√ ( 13 + 12 )=0,93
Ordenamos las medias de mayor a menor

I III II IV
Promedios 7,73 7,26 5,50 3,36
Replicaciones 2 3 3 3
Comparamos la diferencia de medias con su respectivo valor crítico B1 o B2,
según los tratamientos involucrados en esa comparación.
|7,73−7,26|=0,47 < 0,93 entonces son iguales
|7,73−5,50|=¿ 2,23 > 0,93 entonces son diferentes
|7,73−3,36|=¿ 4,37 > 0,93 entonces son diferentes
|7,26−5,50|=1,76> 0,84 entonces son diferentes
|7,26−3,36| = 3,90 > 0,84 entonces son diferentes
|5,50−3,36|=2,14> 0,084 entonces son diferentes
La igualdad de tratamientos se representa por líneas horizontales o letras.
I III II IV
7,73 7,26 5,50 3,36

I III II IV
7,73a 7,26a 5,50b 3,36c
2. COMPARACIONES A PRIORI O PLANEADAS

Problema:
Crecimiento bacterial en carnes almacenadas.

Hipótesis de investigación
Alguna forma de atmósfera controlada proporcionará un entorno más efectivo
de empaque para el almacenamiento de carne.

Diseño de Tratamientos
Los tratamientos desarrollados por el investigador para evaluar o probar la Hi
incluyen empaques:

 Aire del ambiente con un empaque comercial de plástico.


 Al vacío.
 Mezcla de gases con 1 % CO; 40 % 02 y 59 % .
 100 % CO2.

Se utilizaron tres replicaciones para cada tratamiento. En cada unidad


experimental se midió el número de bacterias/cm 2 que luego se expresó en
logaritmo: log (Nº/cm2).
Los datos del experimento se muestran en la siguiente tabla.

Replicació T1: Comercial T2: Al vacío T3: Mezcla de gases T4: CO2
n
1 7,66 5,26 7,41 3,51
2 6,98 5,44 7,33 2,91
3 7,80 5,80 7,04 3,66
Suma y 1.= 22,44 y 2.= 16,50 y 3.= 21,78 y 4.= 10,08
Promedio ý 1. =¿7,48 ý 2. =¿5,50 ý 3. =¿7,26 ý 4. =¿3,36

Diseño experimental

Se utilizó el Diseño Completo Al Azar (DCA) con cuatro tratamientos y tres


replicaciones por tratamiento.

Se realizó el ANOVA respectivo para probar las hipótesis estadísticas:


H o:
μ1 =μ 2 =μ 3 =μ 4

H1: al menos una


μi es diferente.

Al desarrollar el ANOVA, se obtiene la siguiente Tabla:

F.V. G.L. S.C. C.M. Fcal. Ftab.


Empaqu 3 32,87 10,958 94,46 4,07
e 8 3 0,116 6
Error 0,927
Total 11 33,80
0

Al analizar la tabla del ANOVA, F cal. (94,466) > Ftab (4,07), por lo que se acepta la
H1. Existe diferencia significativa entre tratamientos.

2.1. Contrastes ortogonales


Ahora queda saber que promedios de tratamientos son diferentes y qué
promedios de tratamientos son iguales.

El investigador podría utilizar Tukey; pero no está interesado en todas las


comparaciones por pares; sin embargo, sí desea realizar comparaciones
(contrastes) de una manera especial. Desea respuestas para las siguientes
preguntas:

a. ¿Las nuevas tecnologías de empaque en promedio, son mejores


que la tecnología comercial?

Lo que se desea es comparar el crecimiento bacterial promedio del T 1


con el crecimiento bacterial promedio de los otros tres tratamientos.
Esto se expresa de la siguiente manera:

1
C 1 : μ1 − μ + μ + μ =0
3 ( 2 3 4)
Las hipótesis estadísticas para este contraste a probar son:

H0: C1 = 0
H1: C1 ≠ 0

b. ¿La tecnología de empaque al vacío es mejor que las tecnologías


que incluyen gases?
Lo que desea es comparar el crecimiento bacterial del T 2 con el
crecimiento bacterial promedio de los tratamientos T 3 y T4. Esto se
expresa como sigue:
1
C2 : μ 2− μ +μ =
2 ( 3 4) 0

Las hipótesis estadísticas para este contraste a probar son:

H0: C2 = 0
H1: C2 ≠ 0

c. ¿Las tecnologías que incluyen algún gas son iguales?


Lo que se desea comparar el crecimiento bacterial de T 3 con el
crecimiento bacterial de T4. La expresión es la siguiente:

C3 : μ 3−μ 4 = 0
Las hipótesis estadísticas para este contraste a probar son:
H 0: C 3 = 0
H 1: C 3 ≠ 0
¿Encuentra lógica en las comparaciones especiales que el investigador desea
realizar?

Para desarrollar el procedimiento de comparaciones con contrates ortogonales


se requiere que los contrastes escogidos sean independientes (ortogonales).
Para lo cual se reúnen en una tabla donde se registran los coeficientes de las
medias involucradas:

μ1 μ2 μ3 μ4
K1 K2 K3 K4
C1 1 - -1/3 -1/3
1/3
C2 0 1 -1/2 -1/2
C3 0 0 1 -1

Para simplificar los cálculos estos coeficientes se llevan a enteros. Luego se


verifica que:

 En cada fila la suma de los coeficientes debe ser cero.


 La suma del producto de los coeficientes en cada columna debe ser
cero.

μ1 μ2 μ3 μ4
K1 K2 K3 K4
C1 3 -1 -1 -1 0
C2 0 2 -1 -1 0
C3 0 0 1 -1 0
(3)(0) (-1)(2) (-1)(-1) (-1)(-1)(- 0
(0) (0) (1) 1)
Como vemos, sí se cumple la condición de ortogonalidad o independencia de
los contrastes. Por lo tanto es posible analizarlos.

Para analizar los contrastes se incluyen en la tabla de ANOVA, con un grado


de libertad para cada uno de ellos con su respectiva suma de cuadrados,
calculados con la siguiente fórmula:
SC C=r¿¿¿¿
Por ejemplo utilizando la fórmula, la suma de cuadros para el C 1 C2 y C3, es:

2
3∗( ( 3 ) ( 7,48 ) + (−1 ) (5,50 )+ (−1 )( 7,26 ) + (−1 ) ( 3,36 ) )
S CC = 2 2 2 2
=9,986
1
( 3 ) + (−1 ) + (−1 ) + (−1 )

2
3∗( ( 0 ) ( 7,48 ) + ( 2 ) ( 5,50 )+ (−1 )( 7,26 )+ (−1 )( 3,36 ) )
S CC = 2 2 2 2
=0,072
2
( 0 ) + ( 2 ) + (−1 ) + (−1 )

2
3∗( ( 0 )( 7,48 ) + ( 0 ) ( 5,50 ) + (−1 ) ( 7,26 ) + ( +1 )( 3,36 ) )
S CC = 2 2 2 2
=22,815
3
( 0 ) + ( 0 ) + ( ∓1 ) + (−1 )

Una vez obtendidos las respectivas SCC , SCC , SC C , se incluyen en la tabla de


1 2 3

ANOVA hallado previamente:

F.V. G.L. S.C. C.M. Fcal. Ftab. Sig.


Empaqu 3 32,873 10,95 94,466 4,07 *
e 1 (9,986) 8 86,086 5,32 *
C1 1 (0,072) 9,986 0,621 5,32 ns
C2 1 (22,815 0,072 196,681 5,32 *
C3 8 ) 22,81
Error 0,927 5
0,116
Total 11 33,800

Debemos indicar que el número de contrastes que un investigador puede


probar es como máximo el número de grados de libertad de tratamientos. Así
en nuestro ejemplo como hay 03 grados de libertad en tratamientos máximo el
investigador puede probar tres contrastes especiales.

Para comprender los valores que aparecen en la tabla de ANOVA con respecto
a los contrastes; podemos observar que si sumamos las suma de cuadrados de
los tres contrastes, resulta un total que es justamente la suma de cuadrados de
tratamientos.
Para averiguar si los contrastes son significativos se sigue el procedimiento
conocido, se haya el CM y los Fcal para cada contraste y finalmente se
compara los Fcal con las Ftab.

Conclusiones:

 El promedio de bacterias con el empaque comercial es mayor que el


promedio de bacterias considerando las otras tres tecnologías de
empaque. En promedio las tecnologías de empaque reducen el número
de bacterias.
 El número de bacterias promedio con el empaque al vacío es similar al
promedio de bacterias con las técnicas de empaque con gases.
 De las técnicas de empaque con gases, el CO 2 reduce
significativamente el número promedio de bacterias.

CLASE 7
RELACIÓN ENTRE CARACTERÍSTICAS
I. LA CORRELACIÓN
La correlación mide el nivel de asociación que puede existir entre dos
características. Se expresa a través del coeficiente de correlación.

El símbolo utilizado para el coeficiente de correlación de la muestra es


“r” y para el coeficiente de correlación de la población es “” (Rho)

El tipo de asociación puede ser negativa o positiva. Cuando el


coeficiente de correlación tiene signo negativo es llamada correlación negativa.
Significa que si el valor de una característica sube, el valor de la otra
característica baja. Cuando el coeficiente de correlación tiene signo positivo es
llamada correlación positiva. Significa que si el valor de una característica sube,
el valor de la otra característica también sube.

Los valores que puede tomar el coeficiente de correlación van de -1 a


+1.

La correlación entre dos características según el valor del coeficiente de


correlación puede ser:

Intensida Coeficiente de correlación


d
Baja ¿0,20
Media 0,20-0,50
Alta >0,50

Las gráficas de correlación que podemos encontrar son:


Se observa que los puntos que representan los (X,Y) de las
carcaterísticas siguen una tendencia hacia arriba, si una aumenta la otra
también aumenta y están muy cerca de una línea.

Se observa que los puntos que representan los (X,Y) de las


características siguen una tendencia hacia abajo, si una aumenta la otra
disminuye y están muy cerca de una línea.

Se observa que los puntos que representan los (X,Y) de las


características siguen una tendencia no muy definida y no están muy cerca de
una línea.
Finalmente , se observa que los puntos que representan los (X,Y) de las
características siguen una tendencia no lineal.

Ejemplo de aplicación:

¿Existirá una relación lineal entre el peso corporal y el perímetro toráxico en


vacas?

Para contestar esta pregunta el investigador realiza mediciones de peso


corporal (kg) y perímetro toráxico (cm) en 10 vacas.

Tabla 1. Mediciones de peso y perímetro toráxico en diez vacas

Vaca 1 2 3 4 5 6 7 8 9 10
Peso (kg.) 641 620 63 651 64 666 650 68 680 670
3 0 8
Perímetro toráxico 205 212 21 216 21 217 218 21 221 226
(cm) 3 6 9

Luego grafica los diez pares ordenados producto de las mediciones


realizadas en cada una de las diez vacas para observar la dirección de la
asociación entre las características. Puede observar que la asociación es
positiva.
Gráfica de dispersión
690

680

670

660

peso 650

640

630

620

205 210 215 220 225


perímetro

Para averiguar la intensidad de la asociación, calcula el valor del


coeficiente de correlación lineal (r). La expresión para hallar r, es:

∑ x∑ y
∑ xy − n
r=
2 2

√[ 2
∑x −
(∑ x )
n ][ ∑ 2
y−
(∑ y )
n ]
Utiliza los datos de la Tabla 1 se procede a calcular los términos
involucrados en la expresión para hallar el coeficiente de regresión tal como se
detalla en la tabla 2.

Tabla 2. Cálculo de términos involucrados en el coeficiente de


correlación

Peso
(y) Perímetro (x) peso^2 (y2) perímetro^2 (x2) peso*perímetro (X*Y)
641 205 410881 42025 131405
620 212 384400 44944 131440
633 213 400689 45369 134829
651 216 423801 46656 140616
640 216 409600 46656 138240
666 217 443556 47089 144522
650 218 422500 47524 141700
688 219 473344 47961 150672
680 221 462400 48841 150280
670 226 448900 51076 151420
Y X Y2 X2 XY
6539 2163 4280071 468141 1415124

Reemplazando el valor de los términos en la expresión, tenemos:

∑ x∑ y
∑ xy − n 738,3
r= = =0,67
2 2 √ ( 284.1 )( 4218,9 )
√[ 2
∑x −
(∑ x )
n ][ ∑ 2
y−
(∑ y )
n ]
Debemos recordar que este coeficiente de correlación ha sido calculado
en la muestra. Para probar que existe la correlación entre las dos
características en la población con base en los datos de la muestra, se realiza
la respectiva prueba de hipótesis.

Prueba de hipótesis

a. Se define la hipótesis

H 0 : ρ=0
H 1 : ρ≠ 0

b. Se elige el nivel de ∝
∝=0,05
c. Se elige la prueba
r r r √n−2 0,67 √10−2
t cal= = = = =2,58
sr 1−r 2 √1−r
2
√ 1−( 0,67 )2
√n−2

d. Se definen las regiones críticas. En la gráfica de la distribución de


probabilidad, el valor crítico a y 8 grados de libertad es t 0,025,8=2,306.
2

Gráfica de distribución
T, df=8
0.4

0.3
Densidad

0.2

0.1

Zona de aceptación de H0
0.025 0.025
0.0
-2.306 0 2.306
X

e. Conclusión. Como t cal (2,58)> t tabla (2,306), la hipótesis nula es rechazada.


Es decir, existe verdaderamente, en la población, una relación lineal
entre el peso corporal y el perímetro toráxico.

II. LA REGRESIÓN

Una vez que se ha comprobado que la correlación entre las dos


características existe. El investigador define cual es la variable independiente y
cuál es la variable dependiente según su interés y luego querrá averiguar el
cambio que ocurre en la variable dependiente (peso vivo) si la variable
independiente (perímetro toráxico) cambia una unidad. Esto se expresa a
través del coeficiente de regresión.
El símbolo para el coeficiente de regresión de la muestra es “b” y para el
de la población es “β”.

Los valores del coeficiente de regresión van de −∞ a+ ∞

Procede hallar la línea de tendencia de los datos que se denomina la


línea de regresión.
La línea de regresión tiene esta forma:

Y^ =a+bX
donde:
Y^ :valor estimado de la variable dependiente
a: intercepción con el eje y.
b: coeficiente de regresión
X: valor de la variable independiente.

Como se podrá intuir el coeficiente de regresión es la pendiente de la


línea. Para poder graficar la línea que nos muestre la tendencia de los datos se
necesita calcular a y b.
El cálculo del coeficiente de regresión se muestra a continuación con los
datos del ejemplo.

∑ x∑ y 2163∗6539
∑ xy− n
1415124−
10
b= 2
= =2,598
(∑ x ) 4678569
2 468141−
∑x − n
10

El cálculo del intercepto a tiene la siguiente fórmula:

a= ý−b x́ =653,9−2,598∗216,3=91,79

Finalmente la ecuación de regresión con los valores hallados de sus


coeficientes es:
Y^ =91,79+2,60 X

La gráfica de la línea de regresión es como sigue:

Gráfica de línea ajustada


peso = 91,8 + 2,599 perímetro
690

680 S 16,9568
R-cuad. 45,5%
R-cuad.(ajustado) 38,7%
670

660
peso

650

640

630

620

205 210 215 220 225


perímetro

Utilizando el programa Minitab los valores de la línea de regresión


resultan más exactos por redondeo. El valor del coeficiente de regresión nos
permite concluir que por cada centímetro de aumento en el perímetro toráxico
el peso aumenta en 2,60 kilogramos.

Existe una correspondencia entre el coeficiente de correlación y el


coeficiente de regresión. Si el coeficiente de correlación existe en la población
el coeficiente de regresión también; es decir, no es necesario realizar otra
prueba de hipótesis para averiguar si el coeficiente de regresión existe en la
población.

H 0 : β=0
H1: β ≠ 0

Debido a que el coeficiente de determinación “R 2” (es el coeficiente de


regresión al cuadrado), es bajo no es conveniente utilizar esta línea de
regresión para estimar pesos que pueden ser de nuestro interés, con base en
el perímetro del corazón, debido a que la estima del peso no sería muy
acertada. Para tal fin se requiere un R2 de 70 % a más.

Teniendo una línea de regresión con buenas características estadísticas


podemos utilizarla para realizar predicciones. Podemos estimar el peso
utilizando valores de perímetro toráxico. Las bandas de confianza nos indican
que las predicciones de peso son adecuadas dentro del rango de valores de la
variable perímetro. Registros de perímetro que están muy alejados de dicho
rango darán predicciones no muy confiables.

Gráfica de línea ajustada


peso = 91,8 + 2,599 perímetro
720 Regresión
IC de 95%

700 S 16,9568
R-cuad. 45,5%
R-cuad.(ajustado) 38,7%
680

660
peso

640

620

600

205 210 215 220 225


perímetro

III. CORRELACION NO PARAMÉTRICA


Cuando los datos no siguen una distribución normal, existe una alternativa
denominada correlación de Spearman. Es una correlación libre de distribución.
Se utiliza propiamente cuando por lo menos una variable es ordinal.
Se basa en la misma fórmula para calcular el coeficiente de correlación
Pearson sólo que ahora utiliza rangos. Como ejemplo del cálculo de rangos en
el ejemplo de las vacas, se tiene:
Vaca 1 2 3 4 5 6 7 8 9 10
Peso (y) 641 620 633 651 640 666 650 688 680 670
Rangos 4 1 2 6 3 7 5 10 9 8
Perímetro toráxico 205 212 213 216 216 217 218 219 221 226
(x) 1 2 3 4,5 4,5 6 7 8 9 10
Rangos
Para calcular el coeficiente de correlación de Spearman sólo se utiliza los
rangos hallados:
55∗55
370,5−
10
r s= =0,8267
552 552
√( 384,5−
10 )(
385−
10 )

Un ejemplo con datos ordinales. Un grupo de ocho profesores ha sido


evaluado por un jurado de acuerdo a su habilidad de enseñanza y luego todos
tuvieron un examen. ¿Existe correlación entre el ranking del jurado y el ranking
por nota del examen?

Profesor Jurado Examen


1 7 44 (1)
2 4 72 (5)
3 2 69 (3)
4 6 70 (4)
5 1 93 (8)
6 3 82 (7)
7 8 67 (2)
8 5 80 (6)

36∗36
132−
8
r s= =−0,714
36 2 362
√( 204−
8 )(
204−
8 )

Ejercicios propuestos
En un estudio se tiene datos de ganancia de peso y consumo de calorías en
ratas. El investigador define a X= consumo de calorías y Y=ganancia
corporal, los datos. Se desea calcular la relación existente y la influencia del
consumo de calorías sobre la ganancia de peso. Los datos fueron los
siguientes.

Consumo de calorías (x) Ganancia de peso (y)


108 73
136 102
138 118
159 104
146 81
141 107
175 100
149 87
174 117
176 111

Se registraron en un grupo de ratones el peso inicial y el peso después de tres


semanas (peso final), luego de aplicado un determinado tratamiento. Se desea
calcular la influencia del peso inicial sobre el peso final.

Peso Peso final


inicial
236 255
228 242
212 223
240 254
220 230
201 209
215 223
207 218
218 218
248 255

IV. TABLAS DE CONTINGENCIA (DATOS CATEGORICOS)


Datos en tablas de contingencia en tablas de 2 X 2

Con frecuencia las observaciones se clasifican de acuerdo con varias variables. Por ejemplo, un
animal (vaca), puede clasificarse como con metritis o sin metritis post parto y al mismo tiempo
como un animal que parió en la época de verano o invierno. En estos casos los datos se
registran en una tabla de doble entrada en forma conveniente llamada tabla de contingencia,
con el objeto de determinar si las dos direcciones de clasificación están relacionadas o no.
Así, una tabla de contingencia conteniendo el número de animales dispuestos en ambas
clasificaciones sería:

Invierno Verano
Con metritis 32 50 82
Sin metritis 43 28 71
75 78 153

Las hipótesis para probar asociación serían:

Ho: No existe asociación entre la presentación de metritis y la época de parto.


H1: Si existe asociación entre la presentación de metritis y la época de parto.

Las hipótesis para probar diferencia entre proporciones serían:

Ho: Las proporciones de vacas con metritis es la misma


H1: Las proporciones de vacas con metritis son diferentes.

Ambas tipos de hipótesis utilizan la misma prueba que es la Chi cuadrado

( observado−esperado )2
X 2 =∑
esperado

Para hallar el valor de la prueba de Chi cuadrado se relaciona los valores


observados y esperados de cada casilla y luego se suma.

Los valores esperados son calculados asumiendo que las variables no están
asociadas, es decir si fueran independientes los valores serían los valores que aparecen
como esperados.

El valor esperado para cada casilla se calcula por la multiplicación de sus


totales marginales de columna y fila correspondiente sobre su gran total.

Utilizando los datos del ejemplo el esperado para la casilla donde figura un
observado de 50 se calcula de la siguiente manera:

78∗82
Valor esperado = =41.80
153
Procediendo de similar manera con todas las casillas se obtiene:

Invierno Verano
Con metritis 40.20 41.80 82
Sin metritis 34.80 36.20 71
75 78 153

Normalmente en una sola tabla figuran los observados y esperados


Invierno Verano
Con metritis 32 50 82
(40.20) (41.80)
Sin metritis 43 28 71
(34.80) (36.20)
75 78 153

Teniendo todos los esperados se aplica la fórmula de Chi cuadrado, que suma
la relación de observados y esperados de todas las casillas:

(32−40.20 )2 (50−41.80 )2 ( 43−34.80 )2 ( 28−36.20 )2


X2= [ 40.20
+
41.80
+
34.80
+
36.20 ]
=¿ 7.064

El valor de X2calculado, obtenido se compara con el X 2tabla, a un alfa y (r-1)(c-1)


grados de libertad. Para nuestro ejemplo escogemos un alfa de 0.05 con un grado de
libertad. Se indica que alfa es el grado de error que asume el investigador y r es el
número de filas y c es el número de columnas.

X2calculado=7.064
X2tabla,=3.840

Como el valor de X2calculado > X2tabla, se rechaza la hipótesis nula y se concluye


que existe asociación entre los dos criterios de clasificación. También se podría decir
que las proporciones son diferentes.

Todos estos cálculos se pueden realizar utilizando Minitab en la opción Tablas/


tabulación cruzada y chi cuadrado

Todos estos cálculos se pueden realizar utilizando en MINITAB la opción


tablas/Tabulación cruzada y chi cuadrado.

Estadísticas tabuladas: metritis, epoca

Usando frecuencias en conteo

Filas: metritis Columnas: epoca

invierno verano Todo

con 32 50 82
40.20 41.80 82.00
sin 43 28 71
34.80 36.20 71.00

Todo 75 78 153
75.00 78.00 153.00

Contenido de la celda: Conteo


Conteo esperado

Chi-cuadrada de Pearson = 7.064, GL = 1, Valor P = 0.008


Chi-cuadrada de la tasa de verosimilitud = 7.118, GL = 1, Valor P =
0.008

Como la metritis post parto resultó estar asociada a la época de parto, cabe la
pregunta ¿Qué nivel de relación tiene estas variables?

Para responder a esta pregunta resulta interesante calcular el odds ratio


(cociente de ventaja). Para la Tabla de contingencia el odds ratio sería:

Invierno Verano
Con metritis 32 50 82
Sin metritis 43 28 71
75 78 153

50∗43
Odds ratio= =2.40
28∗32
Interpretación:

El número de vacas con metritis post parto que paren en verano es 2.40 veces
mayor que el número de vacas con metritis post parto que paren en invierno.

Tablas de contingencia múltiples

Existen circunstancias de investigación donde se puede realizar estudios similares en varios


lugares para tener una idea general. Entonces tendría varias tablas de contingencia que se
necesitaría evaluar. Un método interesante es el propuesto por Mantel-Haenzsel para tablas
de contingencia múltiples de 2 * 2.

Ejemplo:

En una investigación se consideraron tres establos de vacunos de leche, donde se


practicaba el reimplante del dispositivo CIDR a los cinco días. En cada establo se registraron las
vacas que preñaron o no con una aplicación del CIDR y las vacas que preñaron o no con el
reimplante. El investigador esta interesado en saber si el reimplante esta asociado a una mayor
preñez.

Una solución tentadora es juntar los datos recolectados en los tres establos y
confeccionar un asola tabla de contingencia y luego calcular el odds ratio. Sin embargo, por las
diferencias que puede existir entre establos no sería lo adecuado.
Con el método de Mantel-Haenzsel, se evalúa si existe asociación entre la variable
preñez y la variable reimplante, sin juntar los datos en una sola tabla evaluando la asociación y
pudiéndose calcular el respectivo odds ratio común.

Utilizando el programa MInitab en la opción: Tablas/Tabulación cruzada y chi


cuadrado/otras estadísticas, obtenemos:

Estadísticas tabuladas: preñez, reimplante, establo

Usando frecuencias en conteo

Resultados de establo = 1

Filas: preñez Columnas: reimplante

con sin Todo

preñadas 85 25 110
vacias 86 50 136
Todo 171 75 246

Contenido de la celda: Conteo


Chi-cuadrada de Pearson = 5.654, GL = 1, Valor P = 0.017
Chi-cuadrada de la tasa de verosimilitud = 5.748, GL = 1, Valor P = 0.017

Resultados de establo = 2

Filas: preñez Columnas: reimplante

con sin Todo

preñadas 19 16 35
vacias 11 16 27
Todo 30 32 62

Contenido de la celda: Conteo


Chi-cuadrada de Pearson = 1.120, GL = 1, Valor P = 0.290
Chi-cuadrada de la tasa de verosimilitud = 1.124, GL = 1, Valor P = 0.289

Resultados de establo = 3

Filas: preñez Columnas: reimplante

con sin Todo

preñadas 57 48 105
vacias 45 70 115
Todo 102 118 220

Contenido de la celda: Conteo


Chi-cuadrada de Pearson = 5.069, GL = 1, Valor P = 0.024
Chi-cuadrada de la tasa de verosimilitud = 5.086, GL = 1, Valor P = 0.024

Resultados de todas las tablas de 2x2

Relación de probabilidades común 1.88421

Estadístico MHC GL Valor P
11.1160 1 0.0008559
Conclusión: Al estudio conjunto de los tres establos se ha encontrado que existe asociación
entre los dos criterios de clasificación y esta asociación se refleja en el odds ratio que significa
que el número de vacas que quedan preñadas con reimplante es en promedio 88% mayor en
relación al número de vacas que quedan preñadas sin reimplante.

Datos en las de contingencia r*c

Las tablas de contingencia no sólo pueden ser de 2*2, sino pueden ser de varias filas y
varias columnas. Cuando una tabla de contingencia tiene dos filas y tres columnas sería un
atabla de contingencia 2*3.

Ejemplo: Se desea averiguar si el número de lactación esta asociado con la presentación de


mastitis. Se recolectan datos de un establo de vacas con mastitis y que eran de primera,
segunda y más de tres lactaciones. Se confeccionó una tabla de contingencia, donde se
clasificaron los datos observados.

Lactación
Primera Segunda Tercera
Con mastitis 6 10 35 51
Sin mastitis 20 30 15 65
26 40 50 116

Utilizando el Minitab en la opción Tablas/Tabulación cruzada y chi cuadrado tendremos


lo siguiente:

Estadísticas tabuladas: mastitis, lactación

Usando frecuencias en conteo

Filas: mastitis Columnas: lactación

primera segunda tercera Todo

con 6 10 35 51
11.43 17.59 21.98 51.00

sin 20 30 15 65
14.57 22.41 28.02 65.00

Todo 26 40 50 116
26.00 40.00 50.00 116.00

Contenido de la celda: Conteo


Conteo esperado

Chi-cuadrada de Pearson = 24.201, GL = 2, Valor P = 0.000


Chi-cuadrada de la tasa de verosimilitud = 24.953, GL = 2, Valor P = 0.000
Conclusión: Se encontró que existe asociación entre las variables mastitis y el número de parto.

También podría gustarte