Está en la página 1de 73

ESTADÍSTICA y DISEÑO EXPERIMENTAL

1) Estadística descriptiva 2) Estimación estadística


Prueba de Hipótesis
datos, variables
muestra, muestreo probabilidad
población, estadísticos p-valor
distribuciones de f y p estimación y errores
estadísticos de prueba

3) Modelos lineales generalizados

Análisis de la varianza
Regresión y correlación
Diseños de ANOVA
1) ESTADÍSTICA DESCRIPTIVA. Conceptos básicos

ESTADÍSTICA  observación, recolección, descripción y análisis de los datos del Estado.

BIOESTADÍSTICA moderna:

estudio científico de los datos numéricos basados en fenómenos naturales.

a) estudio científico  HIPÓTESIS  verosimilitud y validación  publicidad de los resultados

b) datos numéricos información cuali o cuantitativa de grupos de individuos y poblaciones

c) fenómenos naturales  en campo (sin manipulación experimental)


 en experimentos
Muestra y población
DATO  valor numérico de una variable biológica obtenido en la mínima unidad muestral.

UNIDAD MUESTRAL  unidad sobre la que se mide la variable.


POBLACIÓN BIOLÓGICA  conjunto más amplio de unidades de estudio.

Imposible de conocer en su
totalidad (CENSO)

INFERENCIA

representación estadística
de la población.

N, número total de unidades de la población


n, número total de unidades de la muestra
VARIABLES

VARIABLE BIOLÓGICA  característica o propiedad con respecto a la cual los individuos


de una muestra difieren de manera comprobable.
 Variabilidad

Variables de medida o cuantitativas Variables cualitativas

CONTINUA  toma valores continuos (f resolución) RANGO  toma valores


p. ej.: peso (grs.), [glucosa]plasma mg/l ATRIBUTO  tabular en frecuencias
DISCRETA  toma valores discretos
p. ej.: número de crías, número de metástasis

DERIVADA  tasa, índice, proporción


CODIFICADAS  ej. «grados de
desarrollo» 1, 2, 3
Parámetro y estadístico
Obtención de la muestra («muestreo»)

- Aleatorio o al azar: todas las UM tienen la misma probabilidad

- No aleatorio:
sistemático
estratificado
Distribución de frecuencias
Muestreo al azar
Var: peso al nacer

peso (oz) intervalo frecuencia fr (%)


de clase
124 61-70 0 0

89 71-80 0 0

101 81-90 1 10

93 91-100 1 10

132 101-110 2 20

116 111-120 3 30

149 121-130 2 20

115 131-140 1 1

128 141-150 0 0

120 151-160 0 0

n=10
Distribución de frecuencias muestral y poblacional

n N

Estadístico Parámetro
muestral poblacional
ESTADÍSTICA DESCRIPTIVA

- Describe la distribución de frecuencias de los datos de la muestra.

Estadísticos de Estadísticos de
localización o de dispersión
tendencia central

describen la posición de describen la forma de la


la distribución a lo largo distribución.
de una dimensión de una
variable.

- También son variables aleatorias, si se obtienen de una muestra aleatoria


Estadísticos de localización o de tendencia central

- Como medida de posición se busca el centro de la distribución

 Hacen falta medidas de dispersión


Estadísticos de localización o de tendencia central
MEDIA o PROMEDIO

𝑥 1 , 𝑥 2 , 𝑥3 , … 𝑥n para n datos de la muestra

σ𝑛𝑖=1 𝑥 Media aritmética  centro de gravedad de la


𝑥= distribución
𝑛

𝑎𝑛𝑡𝑖𝑙𝑜𝑔 σ𝑛𝑖=1 log 𝑥


𝐺𝑀𝑥 = Media geométrica  para datos xT = log10 x
𝑛

1
1 σ𝑛𝑖=1 Media armónica  para datos xR = 1/x
= 𝑥
H𝑥 𝑛
Estadísticos de localización o de tendencia central

MEDIANA:

valor de la variable que tiene IGUAL NÚMERO DE DATOS A AMBOS LADOS


en la distribución

14, 15, 16, 19, 23 14, 15, 16, 19


M = 16 M = 15.5

MODA:

valor MÁS FRECUENTE de la variable en la distribución.


Puede haber más de uno  distribución bimodal, multimodal
Estadísticos de dispersión

describen la forma de la
distribución.

distribuciones con
igual 𝑥, n
distinta dispersión
Estadísticos de dispersión
RANGO:
Diferencia entre el mayor y el menor valor de la distribución. No es muy robusto dado
que es muy sensible a outliers.

DESVIACIÓN:
Diferencia de cada dato con la media: 𝑑 = 𝑥𝑖 − 𝑥

𝑥 𝑥𝑖 − 𝑥 𝑑2

𝑥 = 7,713

σ𝑛𝑖=1(𝑥𝑖 − 𝑥) = 0 SS = σ𝑛𝑖=1(𝑥𝑖 − 𝑥) 2 suma de los cuadrados


de las desviaciones
Estadísticos de dispersión

σ𝑛 (𝑥
𝑖=1 𝑖 − 𝑥) 2
VARIANZA o CUADRADOS MEDIOS de una muestra 𝑠2 = 𝑛

DESVIACIÓN ESTÁNDAR de una muestra σ𝑛


𝑖=1(𝑥𝑖 − 𝑥)
2
𝑠= 𝑛

VARIANZA o CUADRADOS MEDIOS de la población σ𝑁 (𝑥 − 𝑥) 2


𝜎2= 𝑖=1 𝑖
𝑁

DESVIACIÓN ESTÁNDAR de la población σ𝑁


𝑖=1(𝑥𝑖 − 𝑥) 2
𝜎= 𝑁
Para comparar distribuciones con medias muy distintas

COEFICIENTE DE VARIACIÓN  dispersión como % de 𝑥

p. ej., si comparamos la variabilidad de:


𝑠 . 100
𝐶𝑉 = - peso corporal vs. [glucosa]plasma en humanos
𝑥 - peso corporal en 2 sp. de aves
Estadísticos de la muestra como estimadores
insesgados de los parámetros de la población

ESTADÍSTICO PARÁMETRO
de la muestra de la población

σ𝑛𝑖=1 𝑥
𝑥= 𝜇
𝑛

σ𝑛
𝑖=1(𝑥𝑖 − 𝑥)
2
𝑠2 = 𝜎2
𝑛 −1

σ𝑛
𝑖=1(𝑥𝑖 − 𝑥) 2
𝜎
𝑠= 𝑛 −1

𝑛 − 1, grados de libertad
Distribución de frecuencias - Probabilidad
Probabilidad de obtener un valor de la distribución, P [f] = casos favorables / casos totales

Variable: peso al nacer

intervalo f fr (%) marca f fr (%)


de clase de clase
51-60 0 0 P [91] = 1/10 = 0.1 59.5 2 0.02 P [91] = 888/9465 = 0.1
61-70 0 0 67.5 6 0.06
P [75] = 0/10 = 0 P [75] = 39/9465 = 0.004
71-80 0 0 75.5 39 0,41

81-90 1 10 P [140] ≤ 1/10 ≤ 0.1 83.5 385 4,06 P [140] ≤ 200/9465 ≤ 0.2
91-100 1 10 91.5 888 9,38
99.5 1729 18,26
101-110 2 20
107.5 2240 23,77
111-120 3 30
115.5 2007 21,20
121-130 2 20
123.5 1233 13,02
131-140 1 1
131.5 641 6,77
141-150 0 0
139.5 201 2,12
151-160 0 0
147.5 74 0,78
161-170 0 0
155.5 14 0,14
171-180 0 0
163.5 5 0,05
n=10 100% 171,5 1 0,01

n=9465 100%
Distribución de probabilidad
𝑓
P = 𝑛→𝑁
lim
𝑁

Distribución de frecuencias f observadas

𝑥, 𝑠2

Distribución teórica
f esperadas
de probabilidad

Distribución poblacional predicción

𝜇, 𝜎2
Distribución de probabilidad Normal
Distribución de frecuencias para variables continuas

 función de densidad (df/dx) de probabilidad

fe = área bajo la curva para un intervalo de clase


Distribución Normal o de Gauss

X Z , densidad, df/dx

X , variable biológica
𝜇, media
𝜎, desviación estándar

𝜋, 𝑒 constantes
𝜎 = 0.5

𝜎=1

𝜎=1

𝜇=4 𝜇=8
Propiedades

Simétrica a ambos lados de 𝜇


=> 𝜇 = mediana = moda

Función distribución
normal

𝜇±𝜎 contiene el 68.27% de los datos


𝜇 ± 2𝜎 contiene el 95.45% de los datos
𝜇 ± 3𝜎 contiene el 99.73% de los datos

fe = área bajo la curva para un intervalo de


clase

P [𝜇, −1𝜎] = 0.500 – 0.1587


P [𝜇, −1𝜎] = 0.3413
Aplicaciones de la distribución Normal

ESTADÍSTICA PARAMÉTRICA: se basa en que los estadísticos (𝑥, 𝑠) de una muestra son
estimadores de los parámetros (𝜇, 𝜎) de la población.

 la muestra sigue una distribución normal

En general, las variables biológicas siguen una distribución normal (𝜇, 𝜎), dado que:

- están determinadas por múltiples factores (genéticos y ambientales).

- estos factores son independientes en su ocurrencia.

- son independientes en sus efectos


 generan efectos aditivos sobre la variable.

- Tienen igual contribución a la varianza.


¿Por qué las variables biológicas siguen una distribución Normal?

Podemos entender la Normal como una Binomial para múltiples factores

Distribución Binomial (p + q)k k factores

Variable: color del pelo del ratón Factor: agrega 1 unidad de pigmentación cuando
está presente (C=1)

p = P [C] = 0.5
Asume que la presencia o ausencia tienen igual
q = P [c] = 0.5 probabilidad en un individuo.

k=1 k=2 k=3


(p + q)1 (p + q)2 = p2 + 2pq + q2 (p + q)3 = p3 + 3p2q + 3pq2 + q3
espacio de P {C, c } {CC, Cc, cc } {CCC, CCc, Ccc, ccc }

fesp {0.5, 0.5} {0.25, 0.50, 0.25} {0.125, 0.375, 0.375, 0,125}

pigmentación {1, 0 } {2, 1, 0 } {3, 2, 1, 0 }


(0.5 + 0.5)10 Distribución binomial para k=10  Normal

C (pigmentación)

Las distribuciones Normales:


- están determinadas por múltiples factores (genéticos y ambientales).

- estos factores son independientes en su ocurrencia.

- son independientes en sus efectos


 generan efectos aditivos sobre la variable.

- Tienen igual contribución a la varianza de la distribución.


Desviaciones de la normalidad

marca límite f fA % fA
de clase superior
del int.
59.5 63.5 2 2 0.02
67.5 71.5 6 8 0.08
75.5 79.5 39 47 0.50
83.5 87.5 385 432 4.6
91.5 95.5 888 1320 13.9
99.5 103.5 1729 3049 32.2
107.5 111.5 2240 5289 55.9
115.5 119.5 2007 7296 77.1
123.5 127.5 1233 8529 90.1
131.5 135.5 641 9170 96.9
139.5 143.5 201 9371 99.0
147.5 151.5 74 9445 99.79
155.5 159.5 14 9459 99.94
163.5 167.5 5 9464 99.99
171,5 175.5 1 9465 100

n=9465
Desviaciones de la normalidad

SESGO

CURTOSIS
2) ESTIMACIÓN ESTADÍSTICA.

Distribución de las medias

Las medias de muestras tomadas de una población normal,


tienen una distribución normal
Las medias de muestras tomadas de una población
normal, tienen una distribución normal

independientemente del tamaño de la muestra (n).


TEOREMA DEL LÍMITE CENTRAL

Al aumentar el tamaño de la muestra (n), las medias de


muestras tomadas de una población de cualquier tipo de
distribución, seguirán una distribución normal.

 Si nN, es posible utilizar la distribución normal para


obtener inferencias estadísticas.

Para muestras sesgadas se requiere n grande.


Dispersión de las medias
La desviación y la varianza dependen del tamaño de la muestra

La varianza esperada es el promedio de


las varianzas de infinitas muestras

Desviación estándar de las medias


Dispersión de las medias

S es estimador insesgado cuando n  N

SY disminuye con el tamaño de la muestra:


Error estándar de los estadísticos
Distribución de las varianzas
Estadísticos de la muestra como estimadores
insesgados de los parámetros de la población

ESTADÍSTICO PARÁMETRO
de la muestra de la población

σ𝑛𝑖=1 𝑥
𝑥= 𝜇
𝑛

σ𝑛
𝑖=1(𝑥𝑖 − 𝑥)
2
𝑠2 = 𝜎2
𝑛 −1

σ𝑛
𝑖=1(𝑥𝑖 − 𝑥) 2
𝜎
𝑠= 𝑛 −1

𝑛 − 1, grados de libertad
Intervalos de confianza
Se obtienen para obtener un determinado estadístico de la muestra dentro de límites de confianza
de la distribución teórica.

Intervalo de confianza para la media

95% de 𝑥 de muestras de tamaño n en:


𝜇 ± 1.96 𝜎 (parámetro conocido)

𝑥 𝑥 𝑥
Distribución t de Student

𝑥-𝜇 desviaciones de las medias muestrales siguen una distribución normal

𝑥−𝜇 Estadístico ts sigue una distribución normal.


𝑠𝑥
Distribución t de Student
𝑥 −𝜇
ts =
𝑠
𝑥

Distribución Normal  t[∞]


Probabilidad  función de probabilidad acumulada,
para P = 1, 100% área bajo la curva a

a = 0.05, 5% de probabilidad, a 2 colas  a/2


Valor crítico del estadístico en la distribución  valor del estadístico para

- a , probabilidad
- n-1, grados de libertad

- t a [n-1]
Valores de t
Intervalos de confianza para las medias muestrales

Límites de Confianza para 𝑥 Para una P = 1 – a = 0.95 (95%),


a = 0.05
Linf = 𝑥 − t a [n−1] S𝑥
P { Linf ≤ µ ≤ Lsup } =
Lsup = 𝑥 + t a [n−1] S𝑥
P { 𝑥 - t a [n−1] S𝑥 ≤ µ ≤ 𝑥 + t a [n−1] S𝑥 } = I - a

95% de los intervalos para 200 𝑥


contienen a µ
Prueba de hipótesis y diseño experimental

Hipótesis biológica Diseño Hipótesis estadística


experimental y
Es una afirmación sobre el estadístico Afirmación sobre muestras
proceso en estudio de la variable con una distribución
esperada de los datos

Ej. 1) la droga A aumenta 1) las medias de proliferación de linf. B


la proliferación de linfocitos B provenientes de muestras de bazo son
en el bazo de ratones C3H diferentes al comparar los tratamientos

Ej. 2) la línea celular A genera un 2) Las medias de volúmenes tumorales


mayor volumen tumoral en un de muestras de carcinomas inducidos
modelo murino de carcinoma en ratones son diferentes al comparar
mamario que la línea cel. B las líneas celulares

Ej. 3) la fosforilación del 3) Las medias de [dopamina] son


péptido X aumenta diferentes al comparar la fosforilación
la liberación de dopamina en del péptido X
neuronas colinérgicas
Prueba de hipótesis
Permite decidir sobre la aceptación o rechazo de una hipótesis estadística sobre las muestras
de datos, sobre la base de una distribución esperada.

Hipótesis nula (Ho): hipótesis bajo prueba. Asume que no hay diferencia entre las
distribuciones (estadísticos) de las muestras aleatorias provenientes de una población.

Hipótesis alternativa (Ha): las distribuciones (estadísticos) son diferentes.

Regla de decisión: se construye en base a la Ho, estableciendo una probabilidad de


aceptación o rechazo.
Ho: las proporciones de sexos son iguales
pH = qM = 0.5

muestras al azar de n=17

P (14 /3) = 0.00518, a dos colas = 0.01


a = 0.01  1/100 muestras al azar de la población contienen una proporción 14/3 o mayor, 3/14 o menor

(p + q)k

a/2

a/2
Error de tipo I, a: probabilidad de rechazar la Ho cuando es verdadera

a = 0.01  1/100 muestras al azar de la población contienen una proporción 14/3 o mayor

a = 0.05  5/100 muestras al azar de la población contienen una proporción 13/4 o mayor

(p + q)k

a/2

a/2
Rechazo de Ho  Ha: las proporciones de sexos son diferentes
pH = 2qM = 0,66

para a = 0.01  bajo Ho, todas las muestras con 14/3 hembras o mayor son muy improbables.

bajo Ha: la probabilidad de obtener 14 o más hembras aumenta

a/2

a/2
Error de tipo II, : probabilidad de aceptar la Ho cuando es falsa

 es la proporción de la distribución bajo Ha que se superpone con la región de aceptación de Ho


en este caso,  = S frel = 0.87

 99% de las muestras caerán en la región de aceptación de Ho siendo V.


 87% de las muestras caerán en la región de aceptación de Ho siendo F

a/2

a/2
Prueba de hipótesis para las medias muestrales
pertenece una media muestral a la población..?

m = 45.5, s2 = 15.21 Ho: m = 𝑥i = 45.5 s 𝑛=5


S𝑥 =
𝑛

Linf = 𝑥 − t a [∞] S𝑥 = 45.5 – (1.96) 1.744 = 42.08


para a = 0.05
Lsup = 𝑥 + t a [∞] S𝑥 = 45.5 + (1.96) 1.744 = 48.92

𝑥1 = 37 m = 45,5 𝑥2 = 54

42.08 48.92

Bajo H2:
𝑥 2 – Lsup = 54 – 48.92 = 5.08

Expresado en S𝑥 = 5,08/1.744 = 2.91 s


Áreas de la distribución
Normal

Valores más allá de 2.91 s :


A = 0.5 – 0.4984 = 0.0018
 = 0.0018

 Siendo Ha verdadera, 18/10000 muestras tendrán 𝑥i = m


llevando a la aceptación de una Ho falsa (que las medias son similares)

𝑥1 = 37 m = 45,5 𝑥2 = 54
 = 0.0018  = 0.0018

42.08 48.92
 depende de Ha
3) ANÁLISIS DE LA VARIANZA
Analysis of variance, ANOVA

Método estadístico para determinar si dos o más distribuciones muestrales


pertenecen a la misma población.

Se basa en estudiar la variabilidad de los datos respecto a la media, identificando (o


diseñando) las FUENTES DE VARIACIÓN y analizando las varianzas:

σ𝑛 (𝑥
𝑖=1 𝑖 − 𝑥) 2
𝑆𝐶
𝑠2 = 𝑛 −1
= 𝐺𝐿

Los diseños de ANOVA se basan en cómo se clasifican las distribuciones muestrales o


subpoblaciones de datos.
ANOVA de clasificación simple o de un FACTOR
Las subpoblaciones de la variable se clasifican en grupos o tratamientos dentro de un
factor que opera como fuente de variación.

i
Modelo asumido

y = μ + ε, observación de la variable aleatoria de una población normal

yij = μi + εij, observación de la variable para el individuo j de una subpoblación i


con i = 1, 2,... , a, j = 1, 2,... , bi

εij = yij - μi, error o variabilidad no controlada

μi = μ + αi efecto del tratamiento i

yij = μ + αi + εij

Modelo lineal de ANOVA de 1 FACTOR


Supuestos del ANOVA

a) Los a grupos o tratamientos, son muestras aleatorias (o subpoblaciones) extraídas


de la población.

b) Las a subpoblaciones son independientes.

c) Cada subpoblación sigue una distribución normal, con media μi y varianza σ²i.

d) Las varianzas de las subpoblaciones son similares u homogéneas.

Supuestos de NORMALIDAD y HOMOGENEIDAD son verificables mediante tests.


Prueba de hipótesis del ANOVA

H0 : μi = μ para todo i
Ha: μi ≠ μ para algún i
yij = μ + αi + εij

H0 : αi = 0 para todo i
Ha: : αi ≠ 0 para algún i

Bajo Ho: los tratamientos o grupos no producen efectos diferentes, o lo que es


lo mismo, las muestras provienen de una misma población o de poblaciones
con la misma media.

Los αi pueden valorarse estadísticamente mediante el análisis de la variabilidad


(suma de cuadrados de las fuentes de variación)
Experimento. Efecto de nutrientes sobre el crecimiento
1 Factor: nutrientes
3 niveles, tratamientos o grupos: control, fosforo, nitrógeno (a=3)
b=15, N = a.b =45
Variabilidad total diferencias de cada observación respecto a la media general.

media de todos los datos


Variabilidad por el tratamiento
b=15 media de todos los datos
media de cada tratamiento
Variabilidad por el tratamiento
b=15 media de todos los datos
SCentre =
media de cada tratamiento
Variabilidad biológica o error

Scdentro =
Descomposición de la suma de cuadrados
La variabilidad total se debe a las diferencias de cada observación respecto a la media
general.

Scdentro =

Scentre =
Descomposición de la suma de cuadrados

Las SC divididas por sus grados de libertad (GL) son estimadores de la varianza
o CUADRADOS MEDIOS.

GLtotal = N – 1, estima a la varianza total 𝜎2


GLentre = a – 1, estima la varianza entre los a grupos

GLdentro = N – a, estima la varianza dentro de los a grupos.

N - 1 = (a - 1) + (N - a)
Tabla de ANOVA

= E

= D

- Los CME son un estimador de la varianza de la media entre los grupos, S2E.

- Los CMD son un estimador del error aleatorio no controlado, S2D

- FANOVA: estadístico de prueba


Construcción del estadístico de prueba

H0 : μi = μ para todo i
Ha: μi ≠ μ para algún i

H0 : αi = 0 para todo i
Ha: : αi ≠ 0 para algún i

Bajo Ho: si los αi = 0, Bajo Ha: si los αi ≠ 0,

CME = CMD = s2 CME ≠ CMD

Es decir, estiman la misma varianza Es decir, la varianza de los tratamientos


poblacional es distinta a la del error

~1 >1
Distribución de Fisher

GLentre, GLdentro
Valores de densidad de probabilidad acumulada (área)
Regla de decisión

H0 : μi = μ para todo i
Ha: μi ≠ μ para algún i

H0 : αi = 0 para todo i
Ha: : αi ≠ 0 para algún i

se rechazará la hipótesis nula si FAnova > VC (valor crítico).

H0 se rechaza al α% si Fanova > ℑ a -1, N - a, α

También podría gustarte