Está en la página 1de 37

Alejandra Narváez Vallejo 22/11/2017

Principios y análisis
de datos con

Alejandra Narváez Vallejo


Bióloga de la Universidad Nacional de Colombia
M.Sc Hidro ciencia e ingeniería, Universidad técnica de Dresden
M.Sc Ciencias de la información Geográfica. Universidad de Lund Suecia

Contraste de hipótesis
• Normalidad
• Paramétrico
• No paramétrico

Alejandra Narváez Vallejo 1


Alejandra Narváez Vallejo 22/11/2017

Normalidad
• Distribución normal es una de las distribuciones de probabilidad de variable continua que describe los
datos que se agrupan en torno a un valor central y que con más frecuencia aparece aproximada en
fenómenos reales.

Ejemplos:

• estatura;
• el efecto de un fármaco;
• consumo de cierto producto por un mismo
grupo de individuos;
• cociente intelectual;
• nivel de ruido en telecomunicaciones;
• errores cometidos al medir ciertas magnitudes

Normalidad

Propiedades:

• Distribución con forma


de Campana de Gauss
• Simétrica
• Media= Mediana
• Asintónica

Alejandra Narváez Vallejo 2


Alejandra Narváez Vallejo 22/11/2017

Contraste de hipótesis
• Una muestra
• 2 poblaciones independientes
• 2 poblaciones pareadas

Contraste de hipótesis

¿Es una hipótesis suficientemente verosímil?

Bases:
• La verosimilitud es modelada a partir de la probabilidad de que el resultado obtenido sea
observado si la hipótesis se cumple.
• Se basa en los datos muestreados
• Enfrentar hipótesis posibles y antagónicas

Alejandra Narváez Vallejo 3


Alejandra Narváez Vallejo 22/11/2017

Contraste de hipótesis
Procedimiento
• Enfrentar hipótesis posibles y antagónicas
H0: μ=0 H1: μ≠0
H0: μ<=5 H1: μ>5

• Se supone cierta H0
• Se determina hasta qué grado las observaciones registradas son coherentes con H0
• Si hay fuertes indicios de incompatibilidad con de H0 con los datos obtenidos se
descartará H0

Contraste de hipótesis
Procedimiento

H0 cierta H1 cierta

H0 rechazada Error tipo I (a ) Decisión correcta

H0 no rechazada Decisión correcta Error tipo II (b )

a = p(rechazar H0|H0 cierta)


b = p(aceptar H0|H0 falsa)
Potencia =1- b = p(rechazar H0|H0 falsa)

Alejandra Narváez Vallejo 4


Alejandra Narváez Vallejo 22/11/2017

Contraste de hipótesis
Procedimiento
• Enfrentar hipótesis posibles y antagónicas
H0: μ=0 H1: μ≠0
H0: μ<=5 H1: μ>5

• Se supone cierta H0
• Elegir un nivel de significación: nivel crítico para a
• Se determina hasta qué grado las observaciones registradas son coherentes con H0
• Si hay fuertes indicios de incompatibilidad con de H0 con los datos obtenidos se
descartará H0

Contraste de hipótesis
Procedimiento
• Enfrentar hipótesis posibles y antagónicas
H0: μ=0 H1: μ≠0
H0: μ<=5 H1: μ>5

• Se supone cierta H0
• Elegir un nivel de significación: nivel crítico para a
• Elegir estadístico de contraste
• Se determina hasta qué grado las observaciones registradas son coherentes con H0
• Si hay fuertes indicios de incompatibilidad con de H0 con los datos obtenidos se
descartará H0

10

Alejandra Narváez Vallejo 5


Alejandra Narváez Vallejo 22/11/2017

Contraste de hipótesis
Procedimiento
• Enfrentar hipótesis posibles y antagónicas
H0: μ=0 H1: μ≠0
H0: μ<=5 H1: μ>5

• Se supone cierta H0
• Elegir un nivel de significación: nivel crítico para a
• Elegir estadístico de contraste
• Calcular región crítica o región de rechazo: región en la que el estadístico tiene una
probabilidad menor que α si H0 fuera cierta. Su área es el nivel de significancia
• Calcular el estadístico para una muestra aleatoria y compararlo con la región crítica

11

12

Alejandra Narváez Vallejo 6


Alejandra Narváez Vallejo 22/11/2017

http://colposfesz.galeon.com/inferencia/teoria/conhip.htm 13

Contraste de hipótesis
Procedimiento
• Enfrentar hipótesis posibles y antagónicas
H0: μ=0 H1: μ≠0
H0: μ<=5 H1: μ>5

• Se supone cierta H0
• Elegir un nivel de significación: nivel crítico para a
• Elegir estadístico de contraste
• Calcular región crítica o región de rechazo: región en la que el estadístico tiene una
probabilidad menor que α si H0 fuera cierta.
• Calcular el estadístico para la muestra y compararlo con la región crítica

14

Alejandra Narváez Vallejo 7


Alejandra Narváez Vallejo 22/11/2017

http://colposfesz.galeon.com/inferencia/teoria/conhip.htm 15

• Calcular el "valor p" del estadístico


(probabilidad de obtener ese valor, u
otro más alejado de la H0, si H0 fuera
cierta) y compararlo con a.

16

Alejandra Narváez Vallejo 8


Alejandra Narváez Vallejo 22/11/2017

Estadísticos paramétricos

17

Contrastes para una muestra sobre la media


Preguntas

• La contaminación observada en una localización: ¿es peligrosa para la salud?


• ¿Está la descarga efectuada de acuerdo con las limitaciones establecidas?
• El nivel de contaminantes: ¿es significativamente mayor que los niveles habituales?
• La talla media de los hombres de 18 años de un país es igual o mayor a 175.
• El consumo de energía de localidad de chapinero es en promedio 72 kWh/persona

18

Alejandra Narváez Vallejo 9


Alejandra Narváez Vallejo 22/11/2017

Principios y supuestos
• Dada una población X (que sigue una distribución cualquiera), con media μ y desviación
estándar σ desconocidas, se trata de contrastar alguno de los tres tests siguientes:

19

Contraste unilateral
Problema 1 : Un fabricante de bombillos afirma que sus bombillos tienen una duración
media mayor a 1500 horas. http://www.centennialbulb.org/index.htm.
• Datos: n=100
• Variable : duración en horas de los bombillos

Hipótesis:
• H0: μ<=1500 H1: μ>1500
• Intervalo de confianza: 95%
• α =0,05

20

Alejandra Narváez Vallejo 10


Alejandra Narváez Vallejo 22/11/2017

Contraste unilateral
Resultados :
• Promedio: 1595.474
tc t0

Estadístico para el contraste


• t0= 2.9558 muestral
• Tc=1.660391
• p-value = 0.001949

Conclusión:
• T0 > tc se rechaza H0  H0: μ<=1500
• p-value < α

21

Contraste unilateral

Definir que cola o


variable colas son de interés Intervalo de confianza

t.test(x = NULL, alternative = c("greater"), mu = 0, conf.level = 0.95, ...)

Valor de la media
a contrastar

22

Alejandra Narváez Vallejo 11


Alejandra Narváez Vallejo 22/11/2017

Contraste unilateral
t.test(x,mu=1500,alternative="greater")
##
## One Sample t-test
##
## data: x
## t = 2.9558, df = 99, p-value = 0.001949
## alternative hypothesis: true mean is greater than 1500
## 95 percent confidence interval:
## 1541.843 Inf
## sample estimates:
## mean of x
## 1595.474

23

Contraste unilateral
Problema 1 : Una concentración de al menos 34 µg/m2 de Libio es peligrosa. Con los datos
observados, ¿podemos considerar que la concentración en la zona H no es peligrosa? .
• Datos: n=134
• Variable : concentraciones de Libio

Hipótesis:
• H0: μ>=34 H1: μ<34
• Intervalo de confianza: 95%
• α =0,05

24

Alejandra Narváez Vallejo 12


Alejandra Narváez Vallejo 22/11/2017

Contraste unilateral
Resultados :
• Promedio: 1595.474
Estadístico para el contraste t0 tc
• t0= -5.795389 muestral
• Tc=-1.656391
• p-value = 2.35e-08

Conclusión:
• T0< tc se rechaza H0  H0: μ>=34
• Intervalo de confianza: 95%
• Α =0,05

25

Contraste unilateral
t.test(x,mu=34,alternative="less")
##
## One Sample t-test
##
## data: x
## t = -5.7954, df = 133, p-value = 2.35e-08
## alternative hypothesis: true mean is less than 34
## 95 percent confidence interval:
## -Inf 31.94208
## sample estimates:
## mean of x
## 31.11851

26

Alejandra Narváez Vallejo 13


Alejandra Narváez Vallejo 22/11/2017

Contraste unilateral
Problema 1 :
¿El promedio de edad en Sogamoso es de 23 años?.
• Datos: n= 290
• Variable : edades

Hipótesis:
• H0: μ=23 H1: μ≠23
• Intervalo de confianza: 95%
• α =0,05

27

Contraste bilateral
t.test(x,alternative="two.sided“,mu=23)
##
## One Sample t-test
##
## data: x
## t = 0.70141, df = 289, p-value = 0.4836
## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
## 21.25373 26.68006
## sample estimates:
## mean of x
## 23.9669

28

Alejandra Narváez Vallejo 14


Alejandra Narváez Vallejo 22/11/2017

Validación de la Normalidad

29

Normalidad
qqnorm(x)
qqline(x)

30

Alejandra Narváez Vallejo 15


Alejandra Narváez Vallejo 22/11/2017

Normalidad
H0: distribución igual al normal
H1: distribución diferente a la normal

shapiro.test(x) # ## Shapiro-Wilk; muestras pequeñas <50


library(nortest)

lillie.test(x) # ## Lilliefors (Kolmogorov-Smirnov) muestras grandes,


variables continuas

• Si el test es significativo entonces: no es normal

31

shapiro.test(x)
## Shapiro-Wilk normality test
## data: x
## W = 0.98705, p-value = 0.2398

shapiro.test(y)
## Shapiro-Wilk normality test
## data: y
## W = 0.84304, p-value = 5.271e-10

32

Alejandra Narváez Vallejo 16


Alejandra Narváez Vallejo 22/11/2017

Comparación de dos poblaciones normales


• Si dos poblaciones son normales entonces comparar las poblaciones se reduce a
comparar las medias y las varianzas.

33

Comparación de dos poblaciones normales


Contraste de diferencia de medias en dos muestras
independientes

 Las poblaciones muestreadas tienen una


distribución normal
 Las dos muestras son independientes
 Las desviaciones estándar de ambas poblaciones
son iguales

34

Alejandra Narváez Vallejo 17


Alejandra Narváez Vallejo 22/11/2017

Principios y supuestos
• Hipótesis

35

Comparación de dos poblaciones normales


Contraste de diferencia de medias en dos muestras
independientes

 Las poblaciones muestreadas tienen una


distribución normal
 Las dos muestras son independientes
 Las desviaciones estándar de ambas poblaciones
son iguales

36

Alejandra Narváez Vallejo 18


Alejandra Narváez Vallejo 22/11/2017

Comparación de dos poblaciones normales


Contraste de diferencia de medias en dos muestras independientes
 Las desviaciones estándar de ambas poblaciones son iguales
• Las varianzas de las dos poblaciones se comparan utilizando el cociente σ2X/σ2Y
• Se contrasta usando el estimador Fisher:

• Donde las hipótesis son:

H0: σ2X/σ2Y=1 H1: σ2X/σ2Y≠ 1

37

Contraste de diferencia de medias en dos muestras


independientes
Problema 1 : Alturas de plantas en dos parcelas (k1 y k2) son diferentes
• Datos: n=45, m=54
• Variable : altura

Hipótesis:
• H0: μk1=μk2 H1: μk1 ≠ μk2
• Intervalo de confianza: 95%
• α =0,05

38

Alejandra Narváez Vallejo 19


Alejandra Narváez Vallejo 22/11/2017

Comparación de dos poblaciones normales


Contraste de diferencia de medias en dos muestras independientes
 Las desviaciones estándar de ambas poblaciones son iguales
var.test (x,y)
##
## F test to compare two variances
## data: x and y
## F = 0.59444, num df = 44, denom df = 53, p-value =
## 0.07819
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.3380477 1.0614600
## sample estimates:
## ratio of variances
## 0.5944433

39

Contraste de diferencia de medias en dos muestras


independientes
Problema 1 : Alturas de plantas en dos parcelas (k1 y k2) son diferentes
• Datos: n=45, m=54
• Variable : altura

Hipótesis:
• H0: μk1=μk2 H1: μk1 ≠ μk2
• Intervalo de confianza: 95%
• α =0,05

40

Alejandra Narváez Vallejo 20


Alejandra Narváez Vallejo 22/11/2017

Contraste de diferencia de medias en dos muestras

Muestreo de Definir que cola o Varianza


cada población colas son de interés homogenea?

t.test(x ,y, alternative = c("greater“, “less”, “two.sided“),paired=FALSE, var.equal=FALSE,


conf.level = 0.95, ...)

Independientes o
pareadas?

41

Contraste de diferencia de medias en dos muestras


independientes
t.test(x, y, var.equal=TRUE, paired=FALSE, alternative = c(“two.sided“))

## Two Sample t-test


## data: x and y
## t = -10.528, df = 97, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.938818 -5.420354
## sample estimates:
## mean of x mean of y
## 22.93550 29.61508

42

Alejandra Narváez Vallejo 21


Alejandra Narváez Vallejo 22/11/2017

Comparación de dos poblaciones normales


Contraste de diferencia de medias en dos muestras pareadas

 Las dos muestras no son independientes (diferente tiempo, cambio de dieta)


 Las distribución de las diferencias de los valores de las parejas tienen una distribución
normal
 El contraste se hace sobre las diferencias y se usa el t Student de contrastes para una
muestra sobre la media:
 Las hipótesis quedan entonces así:

H0: μ(x-y)=0 H1: μ(x-y)≠0

43

Comparación de dos poblaciones normales


• Problema 1 : Si medimos la humedad en una localización un día y repetimos la
medición otro día pero en el mismo lugar entonces tenemos dos observaciones
apareadas. Hubo un cambio en la humedad del suelo en la mañana y en la noche?.

• Datos: n= 145
• Variable : porcentaje de humedad del suelo

Hipótesis:
H0: μ(mañana-noche)=0 H1: μ(mañana-noche)≠0
• Intervalo de confianza: 95%
• α =0,05

44

Alejandra Narváez Vallejo 22


Alejandra Narváez Vallejo 22/11/2017

Comparación de dos poblaciones normales


t.test(x,y,paired=TRUE)
##
## Paired t-test
## data: x and y
## t = -3.6672, df = 144, p-value = 0.0003443
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.630276 -1.387014
## sample estimates:
## mean of the differences
## -3.008645

45

Análisis de varianza (anova)

46

Alejandra Narváez Vallejo 23


Alejandra Narváez Vallejo 22/11/2017

ANOVA
• Comparar múltiples poblaciones
• Contrastar la hipótesis nula de que las medias de distintas poblaciones coinciden.

HO : µ 1 = µ 2 = ... = µ 5 H1 : no todas las µ son iguales

Principio y supuestos
 Las observaciones son independientes definidas por niveles (tratamientos)
 Las poblaciones muestreadas tienen una distribución normal
 Los errores del modelo son variables aleatorias con distribución normal, de media cero y varianza
σ2
 La varianza se supone constante para todos los niveles (o grupos) del factor
 Evita la acumulación del error tipo I

47

ANOVA unidireccional
Procedimiento
1. Calcular la varianza común: varianza
dentro de las muestras o varianza
residual
Tabla de análisis de varianza
2. Varianza entre muestras
1. Promedio de cada grupo
2. Varianza ente los promedios de las
muestras
3. Calcular la relación S2entre grupos/σ2dentro de
grupos=1

4. El estadístico de contraste es el F de Fischer.


Valor p < α indica diferencias significativas
entre las medias de los grupos

48

Alejandra Narváez Vallejo 24


Alejandra Narváez Vallejo 22/11/2017

ANOVA
Procedimiento
1. El estadístico de contraste es el F de
Fischer.

Decisión:

CME/CMI =F*
F * > Fa , k - 1 , n – k : Rechazo H0
F * < Fa , k - 1 , n – k : No Rechazo H0

Valor p < α indica diferencias significativas


entre las medias de los grupos

49

Anova

Definir la formula del modelo:


VarRespuesta ~ VarGrupo

aov(formula, data = NULL, ...)

Marco de datos

50

Alejandra Narváez Vallejo 25


Alejandra Narváez Vallejo 22/11/2017

51

Probar supuestos

• Homogeneidad de varianzas
car:: leveneTest(y=valores, group, center=median, ...)
Prueba Levene : no significativa, entonces son homogeneas las varianzas

• Normalidad sobre los residuos :Correr la prueba Shapiro-Wilk sobre los residuos
shapiro.test(anova.model$residuals )

52

Alejandra Narváez Vallejo 26


Alejandra Narváez Vallejo 22/11/2017

53

54

Alejandra Narváez Vallejo 27


Alejandra Narváez Vallejo 22/11/2017

Post- ANOVA
¿Cuáles son los grupos diferentes?
• Múltiple comparación por parejas Tukey (Tukey HSD)
TukeyHSD(anova)

• Multiple comparación por parejas con t test


pairwise.t.test(x=datos, g=grupos, p.adjust.method = p.adjust.methods,...)

55

¿Cuáles son los grupos diferentes?


• Hipótesis:
• H0: μk1 -μk2 = 0 H1: μk1 - μk2 ≠ 0

56

Alejandra Narváez Vallejo 28


Alejandra Narváez Vallejo 22/11/2017

ANOVA bidireccional
• Evalúa simultáneamente el efecto de dos variables agrupadoras (factores) sobre una variable
respuesta
• Las categorías de los factores : niveles
• La combinación de los dos factores se llaman celdas
• Contrastar la hipótesis nula de que las medias de distintas poblaciones coinciden.

Factor1 HO : µ .1 = µ .2 = ... = µ .k H1 : no todas las µ µ .x son iguales


Factor2 HO : µ 1. = µ 2. = ... = µ Q. H1 : no todas las µ µ .x son iguales
Interacción HO : µ 11 = µ 12 = ... = µ .kQ H1 : no todas las µ µ .x son iguales

57

58

Alejandra Narváez Vallejo 29


Alejandra Narváez Vallejo 22/11/2017

ANOVA bidireccional

Principio y supuestos
 Las observaciones son independientes definidas por celdas
 Las observaciones dentro de cada celda son normales y tiene igual varianza
 Los errores del modelo son variables aleatorias con distribución normal, de media cero y varianza
σ2
 Evita la acumulación del error tipo I
 Diseño balanceado. Igual numero de casos por grupo /factor

59

Interacción

• El efecto de un factor depende del nivel del otro factor

Prueba:
• Realizar gráfico de interacciones

‐ Gráfica de los promedios en la respuesta de las combinaciones de los 2 factores


‐ Permite apreciar los efectos principales y la interacción

• Probar estadísticamente con anova

60

Alejandra Narváez Vallejo 30


Alejandra Narváez Vallejo 22/11/2017

Interacción

¿Son paralelos o
no?

https://courses.washington.edu/smartpsy/interactions.htm
61

ANOVA bidireccional

Fuente de variación Grados de Suma de Cuadrados medios F


libertad Cuadrados

Entre tratamientos K-1 SCTR CMTR CMTR/CME


Entre bloques Q-1 SCB CMBL CMBL/CME
Interacción (K-1)(Q-1) SCIN CMIN CMI/CME
Residual n-QK SCR CME
Total n-1 SCT CMT

62

Alejandra Narváez Vallejo 31


Alejandra Narváez Vallejo 22/11/2017

Anova bidireccional

Definir la formula del modelo:


Evaluar interacción: VarRespuesta ~ VarFactor1 * VarFactor2
No evaluar interacción: VarRespuesta ~ VarFactor1 + VarFactor2

aov(formula, data = NULL, ...)

Marco de datos

63

Problema
• La siembra, el genotipo o la interacción entre las estratificaciones explican las variaciones
en el número de huevos eclosionados

64

Alejandra Narváez Vallejo 32


Alejandra Narváez Vallejo 22/11/2017

Interacción??

65

66

Alejandra Narváez Vallejo 33


Alejandra Narváez Vallejo 22/11/2017

67

Probar supuestos?

68

Alejandra Narváez Vallejo 34


Alejandra Narváez Vallejo 22/11/2017

69

¿Cuáles son los grupos diferentes?

70

Alejandra Narváez Vallejo 35


Alejandra Narváez Vallejo 22/11/2017

Estadísticos no paramétricos

71

No paramétrico

• Constrastes para una muestra


wilcox.test(x = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
conf.level = 0.95, ...)

• Constrastes para comparación dos poblaciones pareadas

wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,


paired = TRUE, conf.level = 0.95, ...)

• Contrastes para comparación dos poblaciones independientes. Mann-Whitney


wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
paired = FALSE, conf.level = 0.95, ...)

72

Alejandra Narváez Vallejo 36


Alejandra Narváez Vallejo 22/11/2017

No paramétrico

• Contrastar varias poblaciones


kruskal.test(x, g, ...)

• Cuales grupos son diferentes


pairwise.wilcox.rating.test(x=datos, g=variableQueAgrupa, p.adjust.method = "fdr",
paired = FALSE, ...)

PMCMR::posthoc.kruskal.dunn.test( x, g, p.adjust.method = p.adjust.methods, ..),


...)
PMCMR::posthoc.kruskal.nemenyi.test ( x, g, dist =c("Tukey", "Chisquare0“,...)

• Tratamientos y bloques
friedman.test(y, groups, blocks, …)

73

Alejandra Narváez Vallejo 37