Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este guión está LIBRE, no podría ser de otra forma, de cualquier copyright.
Primeros pasos.
INTRODUCCION
El paquete estadístico que se utilizará durante las prácticas de la asignatura Estadística Aplicada a la
Biología es el STATGRAPHICS Centurion XVI. Para ejecutar este programa, desde el botón de INICIO
del sistema operativo se debe acceder a la opción de programas Statgraphics Centurion XVI.I y dentro de
esta opción elegir el icono Statgraphics.
Una vez terminado el proceso de inicialización del Statgraphics, se muestra en pantalla la ventana
principal del programa que se conoce como StatFolio (Figura 1).
Figura 1
Un StatFolio contiene una serie de ventanas o paneles que tendrán distinta información relativa a un
análisis de datos. Estas ventanas se muestran en la figura anterior y son las siguientes:
StatAdvisor
En esta ventana se muestra un comentario generado por el programa que ayuda a la interpretación de los
resultados que se obtengan en cada momento. Esta ayuda se referirá a la ventana de resultados de análisis
que esté activa en cada momento.
StatReporter
Consiste en un pequeño procesador de textos donde se puede ir escribiendo un informe a medida que se
van generando los resultados. Tiene la posibilidad de cortar y pegar los resultados en forma de texto y en
forma gráfica.
StatGallery
Esta ventana, al igual que la anterior, se utiliza para visualizar los resultados que se vayan generando en
forma de texto o en forma de gráficos.
Ficheros de Datos
Para realizar análisis de datos, la ventana o libro de datos debe contener la hoja de datos a analizar. Para
activar una hoja de datos se puede proceder de dos maneras, bien recuperando un fichero de datos ya
guardado o bien introduciendo los nuevos datos en la hoja de datos seleccionada. Para la primera de las
operaciones se debe acceder a la opción Archivo del menú principal y elegir la opción Abrir. Se pueden
abrir diversos tipos de ficheros almacenados mediante Statgraphics. En el caso que nos ocupa se elegiría
la opción Abrir Datos…. Además de poder abrir ficheros de datos, se puede abrir un StatFolio completo,
que contiene además de los datos, las ventanas mencionadas en los párrafos anteriores, o bien abrir sólo
parte de él, es decir, abrir un StatGallery o un StatReporter.
Si se opta por introducir los datos directamente en una hoja de datos, primeramente se deben definir las
variables (columnas) de esa hoja. Para definir una variable, se selecciona la columna deseada con el botón
izquierdo del ratón. Una vez que esta columna está seleccionada (se debe observar que la columna está
toda ella en azul) se pulsa el botón derecho del ratón y se despliega la ventana de opciones de columna.
Entre las opciones que se muestran en este nuevo menú, se elige la opción de modificar columna
(Modificar Columna …). Se despliega una ventana donde se puede modificar el nombre de la variable,
introducir un comentario, modificar el ancho de la columna y cambiar el tipo de variable. Por defecto,
todas las variables se definen como numéricas. En ocasiones, el tipo de variable puede modificarse para
poder almacenar nombres, fechas, etc. (Figura 2).
Figura 2
Para introducir los datos de las distintas variables para cada uno de los casos observados (sujetos o
unidades experimentales), se teclea el dato en la celda correspondiente y se acepta dicho caso con la tecla
<Intro>. Una vez introducidos los datos, se deben almacenar en un fichero. Para ello, se elige la opción
Guardar Datos Como… dentro de la opción Guardar Como del menú principal de ficheros (Archivo).
Una vez grabados los datos con un nombre de fichero, éste aparecerá en el título de la hoja de datos
sustituyendo al anterior nombre <sin título>.
Transformación de datos
Para transformar variables, utilidad de interés para normalización de observaciones, por ejemplo, se debe
seleccionar la columna donde se quiere almacenar el resultado de la transformación pulsando con el ratón
en el nombre de la variable. Posteriormente seleccionando la opción de generar datos (Generar Datos) del
menú que aparece pulsando el botón derecho del ratón se mostrará la ventana de la Figura 3.
Figura 3
En esta ventana de generación de datos, se debe introducir la expresión cuyo resultado será el contenido
de la variable que ha sido seleccionada. Desde esta ventana se tiene acceso a una serie de operadores para
realizar la transformación al igual que se tiene acceso a la lista de variables que componen la matriz de
datos y que pueden ser utilizadas como argumentos de las distintas funciones de transformación. Una vez
compuesta la expresión para transformar, se puede, antes de generar los datos con el botón (Aceptar),
visualizar el resultado de la expresión pulsando el botón Mostrar…. El resultado que se muestra es el
número de filas de la matriz que se transforman y una muestra del contenido de la nueva variable.
Recodificación de datos
Para recodificar alguna variable, es aconsejable copiar y pegar los datos originales en nuevas columnas de
la matriz de datos. Para realizar esta operación basta con ir marcando con el ratón las variables a copiar y
a partir de las opciones de columna (botón derecho del ratón) seleccionar sucesivamente las opciones
copiar (Copiar) y pegar en la nueva localización (Pegar). Una vez copiada la información en la nueva
columna, seleccionar la opción de recodificación de datos (Recodificar Datos…). Aparece una ventana en
la que se configurarán los valores originales de la variable a los que se les asignará un valor nuevo
(Figura 4). Los valores antiguos se introducen en forma de intervalo del que se definen el extremo
inferior (Límite Inferior) y superior (Límite Superior), pudiendo seleccionar distintas opciones para los
extremos de dicho intervalo en función de que se trate de un intervalo abierto o cerrado.
Figura 4
Parámetros y Estadísticos
• Percentiles (cuantiles): Sean y1,...,yn las observaciones del contenido en calcio de una muestra de
n items, y denotamos por y(1) ,..., y(n) a los mismos datos, pero ordenados de menor a mayor. Si
decimos que un dato está en el percentil 85, queremos señalar que su contenido en calcio es mayor
que el 85% de los n datos o, de manera equivalente, menor que el 15%. De forma similar, se
entiende por cuantil de orden 0.85 o cuantil 0.85 al valor de la escala de datos que divide el conjunto
de n datos en dos grupos, de manera que una fracción 0.85 de las observaciones se encuentran por
debajo y otra 0.15 por encima. Si el modelo de probabilidad de Y es conocido, podemos hablar de
cuantil de orden p (0<p<1) , designado por cp o Q(p) , como aquel valor que verifica la siguientes
desigualdades:
⎧⎪p(Y ≤ cp ) ≥ p
⎨
⎪⎩p(Y ≥ cp ) ≥ 1 − p
Una forma algo particular de definir el concepto de cuantil de orden p, que asegure su unicidad, es la
siguiente: el menor valor de Y tal que p(Y≤cp) ≥p.
Los percentiles o cuantiles, referidos a un conjunto de n datos, son generalmente estimaciones de los
correspondientes parámetros poblacionales. Cuantiles de interés son:
Dado que por el momento estamos trabajando con conjuntos de datos, NO DISTINGUIREMOS, salvo
que se señale específicamente, ENTRE la notación empleada para PARAMETROS Y
ESTIMACIONES, entendiéndose que nos referimos a estas últimas.
Algunas estimaciones, respecto de los cuantiles, que nos indican el algoritmo utilizado por las
aplicaciones informáticas, Statgraphics por ejemplo:
• Mediana (muestral)
Si n es impar,
m = c0.5 = y ⎛ n +1 ⎞
⎜ 2 ⎟
⎝ ⎠
Si n es par,
y⎛ n ⎞ + y⎛ n ⎞
⎜2⎟ ⎜ 2 +1 ⎟
⎝ ⎠ ⎝ ⎠
m = c 0. 5 =
2
• Primer y tercer Cuartil (muestrales)
Si n es múltiplo de 4,
y⎛ n ⎞ + y⎛ n ⎞
⎜4⎟ ⎜ 4 +1 ⎟
⎝ ⎠ ⎝ ⎠
Q1 =
2
y ⎛ 3n ⎞ + y ⎛ 3n ⎞
⎜ 4 ⎟ ⎜ 4 +1 ⎟
⎝ ⎠ ⎝ ⎠
Q3 =
2
Si n no es múltiplo de 4,
• Moda (Mode): máximo de la densidad de probabilidad del modelo de una variable. En el estudio de
un conjunto de n datos u observaciones, correspondientes a una variable categórica o
cuantitativa discreta, señala la cualidad o valor que aparece con mayor frecuencia.
• Varianza (Variance), medida de dispersión media , respecto de valor medio; designada por σ , cuya
2
( yi − y )
2
n
2
s =s = 2
y ∑i =1 n −1
• Desviación típica o estándar (Standard deviation), raíz cuadrada positiva de la varianza,
representada por σ , cuya estimación se establecerá con
( yi − y )
2
n
s = sy = ∑
i =1 n −1
• Rango (referido a n datos) : diferencia entre el mayor y el menor valor observado ,
y(n) − y(1)
• Rango intercuartil (definido anteriormente)
n
n∑ ( yi − y )
3
b1 = g1 = i=1
(n − 1)(n − 2)s3
Este parámetro es cero para modelos de probabilidad simétricos. Un valor mayor que cero señala que
el modelo está sesgado positivamente, más desviado hacia la derecha, la cola derecha está más
pronunciada. En distribuciones unimodales al comparar media y mediana se tiene
Figura 5
1
Desde la barra de herramientas de análisis, se accede a la configuración de paneles de resultados
(tablas) y a la configuración de paneles gráficos pulsando el tercer botón por la izquierda.
Figura 6
Figura 7
Las ventanas de la figura 8 han sido obtenidas seleccionando las opciones de tablas: Tablas de
Frecuencias y Percentiles; y las opciones gráficas: Gráfico de Dispersión y Gráfico de Caja y Bigotes.
Figura 8
Continuación del caso práctico resuelto:
Opciones de
tablas y
gráficas
Se comentan a continuación los diferentes gráficos obtenidos y su significado:
Gráfico de dispersión : Una forma sencilla de representación de los datos y1,...,yn ; de una muestra
univariante, a lo largo de un eje horizontal. Permite ver claramente los valores mínimo y máximo y, en
caso de no existir un exceso de solapamiento, se puede detectar la zona de máxima densidad, la dispersión
de los datos, la simetría y los outliers (valores atípicos anormalmente grandes o pequeños, respecto a la
media de los restantes). Con el fin de evitar que datos coincidentes, al solaparse, no se distingan en la
gráfica, Statgraphics produce una “agitación-separación” vertical aleatoria, que puede ser modificada en
las opciones de este tipo de gráficos.
Diagrama de Caja y Bigotes : Forma de representación gráfica de datos introducida por Tukey
(1977), que contempla una parte rectangular central, extendida desde el primer (Q1) al tercer cuartil (Q3),
conteniendo un segmento que señala la localización de la mediana muestral y un signo “+” en rojo que
representa la media muestral. Desde los extremos del rectángulo se prolongan los bigotes, cuyo valor
adyacente superior es la mayor observación que sea menor o igual a Q3 + 1.5 x IQR; mientras que el valor
adyacente inferior es la menor observación que es superior o igual a Q1 - 1.5 x IQR . Si alguna
observación se encuentra fuera del rango de los valores adyacentes, es representado de manera individual,
como valor atípico, mediante un pequeño cuadrado que además contendrá el signo “+” si su alejamiento
es excesivo (más de tres veces el rango intercuartil por encima o por debajo de la caja rectangular, es
decir, su valor es superior Q3 + 3 x IQR o inferior a Q1 - 3 x IQR, respectivamente).
En el caso de simetría y para cada par, la distancia de la primera y segunda coordenada a la mediana no
deber de ser muy diferente (en una situación ideal, deberían coincidir). El diagrama de simetría representa
los puntos cuyas coordenadas son las distancias para cada par (la situación perfecta en cuanto a la simetría
señalaría los puntos sobre la recta y=x)
nº de observ. en ⎡⎣ y-h/2,y+h/2⎤⎦
densidad local en y =
h x nº total de observaciones
Agitación
aleatoria
Se consideran n observaciones de una población bivariante, es decir, los siguientes pares de valores
correspondientes a la medición de la variable bivariante (X,Y), que suponemos de tipo cuantitativo o
cualitativo recodificadas, en los n individuos o unidades estadísticas que integrarían una muestra de
tamaño n seleccionada al azar: (x1,y1), (x2,y2),...,(xn,yn). Uno de los objetivos del estudio de estos datos
bidimensionales podría consistir en la comprobación, a nivel esencialmente descriptivo, de que éstos
puedan proceder de una población con un determinado modelo de probabilidad conjunto. Para ello, las
frecuencias absolutas y relativas a nivel de zonas rectangulares Rik (producto cartesiano de dos intervalos:
Ii x Jk) pueden ser de gran ayuda:
nº de pares de la muestra en R ik
Frecuencia relativa en Rik =
n
será una estimación, sin entrar en detalles acerca de su calidad, de la siguiente probabilidad
STATGRAPHICS aborda este tipo de análisis con ayuda de las opciones TABULACIÓN CRUZADA y
TABLAS DE CONTINGENCIA, correspondientes a la opción de la barra de menús DESCRIBIR.....
DATOS CATEGÓRICOS; con independencia de que se trate de variables categóricas o numéricas y,
en ambos casos, recodificadas numéricamente por intervalos.
J1 J2 ……. Js
I1 Z11 Z12 ……. Z1s
I2 Z21 Z22 ......... Z2s
. . . ……. .
Ir Zr1 Zr2 Zrs
Esta estructura matricial ha de considerarse de alguna forma en la Hoja de Datos, definiendo para ello s
variables que contendrán las frecuencias absolutas de cada columna, respectivamente. Un ejemplo de tal
ventana de datos sería la siguiente, que surge de una muestra de tamaño 50 en la que los individuos están
clasificados en función de 5 y 3 modalidades o niveles de dos características o factores de clasificación,
respectivamente:
Una vez seleccionada la opción DESCRIBIR ..... DATOS CATEGÓRICOS ..... TABLAS DE
CONTINGENCIA, se introducirán los nombres de las variables (columnas J1, J2 y J3) que identifican a
los niveles de factor columna, y opcionalmente el nombre de la variable, en este caso Etiqueta, que
identifica los niveles del factor fila:
Parte de los resultados de ese análisis (tabla de frecuencias absolutas y relativas, e histograma
tridimensional) se muestran en las dos siguientes figuras, observándose que en la tabla de frecuencias se
recogen así mismo las frecuencias absolutas y relativas por filas y columnas. Por ejemplo, la fracción 0.18
que corresponde a la frecuencia relativa total de la primera columna sería, en caso de que J1 fuese un
intervalo, una estimación de la probabilidad que la variable Y tomase valores en tal intervalo; mientras
que representaría una estimación de la proporción de individuos de la población manifestando la opción J1
de la característica Y, en caso de que se trate de una categórica o cualitativa. Del mismo modo, la fracción
0.24 , total de la tercera fila, podría informar , por ejemplo, acerca de la probabilidad que X tome un valor
en el intervalo I3 .
figura 9
figura 10
La otra opción, Tabulación Cruzada, supone que los datos están recodificados con números enteros
(por ejemplo) para que el programa realice el contaje correspondiente, que da origen a la tabla de
frecuencias absolutas y relativas. Consideraremos esencialmente tres situaciones –no se abordan todas las
posibilidades- y a efectos de generar las variables o columnas que contienen las observaciones:
a) (X,Y) variables categóricas : recodificación con enteros de las observaciones, para cada variable
por separado. Las variables codificadas (dos columnas) deberán precisarse en la ventana de
configuración (o caja de diálogo de entrada de datos) de Tabulación Cruzada (ver figura 11: se
entendería que X e Y son los nombres de las variables recodificadas).
b) (X,Y) variables numéricas discretas : no es preciso codificación alguna. Los datos bivariantes de
la muestra , que figurarán en dos variables de la ventana de datos, se procesarán tal cual.
c) (X,Y) variables numéricas continuas: recodificación por separado por intervalos o clases. Las
variables codificadas serán las utilizadas en la ventana de configuración del análisis o caja de
diálogo de entrada de datos.
figura 11
Una vez cumplimentados los campos de las dos variables de la ventana anterior, los resultados del
análisis serían similares a los de las figuras 9 y 10.
se observan indicios de una posible asociación o dependencia lineal entre X e Y. Para poner de manifiesto
el grado de asociación lineal entre las dos variables aleatorias de una población bivariante se utilizan dos
parámetros: ρXY , coeficiente de correlación entre X e Y, variando entre –1 y 1; y su cuadrado, ρ2XY ,
designado coeficiente de determinación, cuyo máximo valor es 1, señalando si tomase este valor que
la asociación lineal es perfecta, es decir, Y = α + βX, donde α = µy - βµx y β = ρσy/σx . Cuando ρ2XY
sea inferior a 1, se comprueba teóricamente que Y = (α + βX) +Z , donde Z , de valor medio cero,
disminuye su varianza a medida que ρXY se aproxima a 1 ó –1. El valor del coeficiente de
determinación puede interpretarse como el porcentaje o fracción de variabilidad de Y debida o
explicada por el término lineal (α + βX). La estimación del coeficiente de correlación y, por tanto del
determinación, se obtiene a partir de una muestra bivariante de tamaño n de la población, con el
coeficiente de correlación muestral:
n
∑ (x i
− x)(y i − y)
s xy
ρ xy =
ˆ i =1
= ,
n n
sxsy
∑ (x i
− x)
2
∑ (y i
2
− y)
i =1 i =1
∑ (x i
− x)(y i − y)
donde s xy = i =1
= cov arianza muestral
n −1
En base a la expresión Y = (α + βX) +Z y siempre que se pudiésemos tener bajo control la variable X en
un valor x, el valor medio de la variable Yx,, es decir, de la variable Y condicionada al valor x de X,
se denomina curva de regresión , que podría ser una recta (α + βx) (recta de regresión) siempre
que E(Zx)=0, donde Zx , que designa a la variable Z condicionada al valor x de X , surge en la
descomposición
Yx = α + β x + Zx
(En realidad E(Zx) pone de manifiesto la posible diferencia entre la curva y la recta de regresión).
En este contexto de control en el valor x (lo cual puede entenderse que X ha perdido su aleatoriedad), y
siempre que E(Zx)=0, lo cual no está asegurado en general, (α + βx) es denominada recta de regresión
, x variable independiente o predictora e Y variable dependiente o respuesta.
La estimación de la recta de regresión , designada por Ŷx y denominada recta de regresión estimada,
se obtiene a partir de los n pares de valores, (x1,y1), (x2,y2),...,(xn,yn), que integran la muestra, por el
método de estimación de los mínimos cuadrados:
ˆ =ˆ
Y α +ˆ
βx , donde
x
sy
α = y −ˆ
ˆ βx , ˆ
β =ˆ
ρ xy
sx
de manera que la recta de regresión estimada estima, valga la redundancia, el valor medio o la respuesta
media de Y cuando X está controlada en el valor x.
donde el comando joint(rep(1;200);rep(2,200)) del campo Códigos por Nivel asigna el valor 1 a los datos
de longitud_tarso y el valor 2 a los de longitud_fémur, para distinguir los datos de los dos diagramas. El
panel de resultados podría tener el aspecto de la figura siguiente, observándose, por ejemplo que los datos
de longitud_tarso están menos dispersos que los de longitud_fémur, advirtiendo de la posibilidad de que
procedan de poblaciones univariantes con varianzas muy diferentes.
Figura 12
Los resultados iniciales en el caso del modelo normal N(0,1) se muestran en varias ventanas (figura 13).
Para acceder, por ejemplo, al cálculo de los cuantiles (valores de la inversa de la función de distribución)
hay que seleccionar la opción Distribuciones Acumuladas Inversas, activando sobre la barra de
herramientas de análisis el botón de opciones de tablas y gráficas:
Pulsando el botón derecho del ratón sobre esta ventana se puede establecer el tamaño muestral deseado.
Para grabar los datos de la muestra en una variable del fichero de datos activo, se selecciona de la barra de
botones aquél identificado por un disquete, completándose los datos solicitados.
figura 13
Observación: esta versión de Statgraphics contempla los modelos de probabilidad no centrados de las
variables T de “Student”, Chi-cuadrado de Pearson y F de Fisher, que pueden ser de utilidad para el
cálculo de la potencia en determinados contrastes de hipótesis.
⎛n⎞
• Binomial (B(n,p)) : f (x ) = ⎜ ⎟ px qn− x ; x = 0,1,...., n
⎝x⎠
Aproximaciones:
• Poisson (P(np)) si n>10 ; p<0.05
• Normal ( N(np , npq ) ) ; si npq≥9; o bien np>5 (para
p ≤ 0.5) o nq>5 (para p>0.5); o bien np≥5 y nq≥5.
⎛ m⎞ ⎛ N − m⎞
⎜ x ⎟⎜ n − x ⎟
• Hipergeométrica : f (x ) =
⎝ ⎠⎝ ⎠ ; x = 0, 1,...., n ; (n≤m)
⎛N⎞
⎜n⎟
⎝ ⎠
Aproximaciones (p=m/N):
• Binomial (B(n,p)) si n/N<0.1 ; N≥60
• Poisson (P(np)) si n/N<0.05
N −1
• Normal N(np, npq ) ; si np≥4
n −1
1
• Uniforme discreta : f (x ) = ; x = a+1, a+2, ...., a+n
n
⎛ x − 1⎞ r x −r
• Binomial negativa : f (x ) = ⎜ ⎟p q ; x = r, r+1, .... (X=nº de ensayos hasta
⎝ r − 1 ⎠
conseguir r éxitos)
• Si se considera Y=X-r = nº de fracasos previos al r-ésimo éxito, se obtiene una segunda versión de
este modelo binomial negativa, con densidad
⎛ y + r − 1⎞ r y
f (y ) = ⎜ ⎟p q , y=0,1,2,...
⎝ r −1 ⎠
−λ λx
• Poisson (P(λ)) : f (x ) = e ; x = 0, 1,...
x!
Aproximación Normal : N(λ , λ) , si λ ≥9
α p x p −1e − αx
• Gamma (G(α, p)) : f (x ) = , x>0, (α, p constantes >0)
Γ(p)
x
−
α −1 β
x e
(o bien, G(α, β) con f (x ) = , x>0, (α,β constantes >0), α = parámetro de forma y
β α Γ(α)
1/β = parámetro de escala )
( x + k − 1)! k x
f (x) = p q , x=0,1,2,...
x !(k − 1)!
k
donde p= , q=1-p , (x+k-1)!=Γ(x+k) , (k-1)!=Γ(k)
k+m
n ⎡2 χ2 ⎤
Aproximación normal: 3 ⎢ + − 1⎥ es una variable N(0, 1) si n≥30.
2 ⎢⎣ 9n n ⎥⎦
1 (ln x − µ )2
1 −
f (x) = e 2 σ2
, x>0
x σ 2π
donde
µ = valor medio de ln(X)
σ2 = varianza de ln(X)
⎛k + 1⎞
Γ⎜ ⎟ ⎛
⎛ k +1 ⎞
−⎜ ⎟
⎝ 2 ⎠ 1+ t 2
⎞ ⎝ 2 ⎠
f(t) = ⎜ ⎟ , t cualquier número real
⎛k ⎞ ⎝ k⎠
πk Γ ⎜ ⎟
⎝2⎠
Para k≥30, los valores críticos2 pueden aproximarse mediante la expresión
3
tα = zα + (zα + zα ) / 4k , donde zα son los correspondientes a la distribución N(0, 1) .
⎧ 2(x − a)
⎪ (b − a)(c − a) a ≤ x ≤ c
⎪
• Triangular : f (x ) = ⎨
⎪ 2(b − x ) c ≤ x ≤b
⎪⎩ (b − a)(b − c)
1
• Uniforme continua : f (x ) = , a≤x≤b
b−a
2
Para una variable aleatoria X, su valor crítico de tamaño α, designado por xα , donde 0<α<1,
corresponde al cuantil de orden 1-α, es decir, xα = c1-α . En otras palabras, xα es el mayor valor tal que
p(X ≥ xα ) ≥ α .
A pesar de que la literatura estadística recoge numerosos procedimientos y estadísticos respecto de los
test de bondad de ajuste, aludiremos sólamente a los tres de mayor difusión y que prácticamente
resuelven las situaciones más generales:
aproximada χ2 (k − 1)
y
k ˆ)
(X − nP
2 k ˆ)
(O − E
2
2
X = Q = Uk = ∑ i nPˆ i = ∑ i Eˆ i , con distribución
i =1 i
i =1 i
aproximada χ2 (k − r − 1)
donde, en el estadístico de Pearson-Fisher, r = nº de parámetros desconocidos de la distribución
F0, que son estimados a partir de las observaciones; Xi = nº de observaciones entre las n en el
i.ésimo intervalo o clase; pi = p(Y tome valores en el i.ésimo intervalo); P̂i = estimador de esta
probabilidad.
Debido a su relativa falta de potencia, respecto de los procedimientos basados en las funciones
de distribución empíricas (tests EDF), se recomienda su uso si Y es discreta, ya que, en el caso
continuo, el procedimiento de Pearson “discretiza” de alguna forma la distribución F0.
La ventana de resultados de Pruebas de bondad de Ajuste corresponde por defecto al test basado
en el estadístico de Kolmogorov; de manera que, al tratarse del modelo de Poisson, debemos
seleccionar el basado en la distribución chi-cuadrado, en las Opciones de Ventana… , que se
muestra al pulsar el botón derecho del ratón:
2
χ (2) ; (K=4, r=1)
2
P − valor = p(χ (2) ≥ 1.28653) = 0.525573
Como se habrá comprobado los datos no soportan la hipótesis del modelo de Poisson. La razón
de ello radica –quizás- en los distintos tamaños de las hojas consideradas en la muestra, que
conduciría a considerar que a cada tamaño de hoja le correspondería un parámetro λ, es decir, el
parámetro se convierte entonces en una variable aleatoria de modelo Gamma, tal y como
formuló Fisher en el trabajo aludido anteriormente. La mezcla de la variable de Poisson con la
Gamma da como resultado la tercera variante del modelo binomial negativa (ver pág. 25 de este
guión). Contraste tal modelo de probabilidad para esta variable discreta, utilizando de nuevo el
estadístico de Pearson-Fisher.
RS H : F(x)
0 = F0 (x) para todo x
T H : F(x)
1 ≠ F0 (x) para algún x
Dn = sup x Sn ( x ) − F0 ( x )
donde
nº de observ. en la muestra ≤ x
Sn ( x ) =
n
hace referencia a la función de distribución empírica (EDF).
Si la hipótesis nula fuese cierta, el valor dn de Dn no debe ser excesivamente grande. Por tanto,
el criterio de rechazo de H0 para un nivel de significación α será:
RECHAZO DE H0 ⇔ dn ≥ dn,α
⇔ P-valor = p(Dn≥ dn)≤α
(valores críticos tabulados)
Con el fin de contrastar que la variable T = duración del ciclo celular (en minutos) del bacilo B.
micoydes sigue el modelo de probabilidad Gamma , se tomaron los tiempos de vida de una
muestra de 20 bacilos de la especie citada, obteniéndose los siguientes resultados que figuran en
el fichero de prácticas, en la variable duracion_ciclo_B_mycoides.
α = 3.03
ˆ
1
= 0.095
ˆ
β
d20=0.0954476
P-valor = p(D20 ≥ 0.0954476)=0.993
, N0 permiten el RECHAZO de la hipótesis de que la variable se distribuya según el modelo de
probabilidad Gamma.
m' V −1Y
σ=
ˆ , donde m' = (E(X(1) ),E(X(2) ),...,E(X(n) )
m' V −1m
X(i) = i-ésimo estadístico de orden
V = matriz de covarianzas entre X(i) y X(j)
Y = vector columna de las datos ordenados, Y(1) ,Y(2) ,...,Y(n)
El anterior estimador, junto con la varianza muestral usual, S2, definen el estadístico de
Shapiro y Wilk
b2
W= , donde
(n − 1)S2
R4 2
b2 = σ , R y C constantes:
ˆ
C2
R 2 = m' V −1m , C2 = m'(V −1 )2 m
dado que en poblaciones no normales el valor medio de W tiende a ser bastante menor que el
que corresponde a la hipótesis nula, de normalidad (en donde E(W) es relativamente próximo a
1), estamos ante un contraste unilateral de cola inferior, con criterio de rechazo de la hipótesis
nula (para un nivel de significación α)
RECHAZO DE H0 ⇔ w ≤ wn,α
⇔ P-valor = p(Wn≤ wn)≤α
La variable índice plasmático (medido en ml/Kg) , del fichero de prácticas, contiene los datos de
una muestra de 95 individuos. Contrastaremos la normalidad de la variable implicada, con la
opción de la barra de menús DESCRIBIR…AJUSTE DE DISTRIBCIONES... AJUSTE DE
DATOS NO CENSURADOS…. . En la ventana de configuración del análisis seleccionaremos
la variable (el fichero de datos debe estar abierto):
P̂ − p
es asíntoticamente N(0,1)
ˆ 1 − P)
P( ˆ
n
Y nº de éxitos
donde P̂ = =
n nº de ensayos
ˆ 1 − p)
p( ˆ ˆ 1 − p)
p( ˆ
ˆ α/2
(p-z ˆ α/2
, p+z )
n n
o de forma equivalente
y y y y
(1 − ) (1 − )
y n n , y +z n n )
( -zα/2 α/2
n n n n
Si no estamos ante buenas condiciones de aproximación, basta con inspeccionar esta estructura
de intervalo de confianza para observar efectos indeseados, como, por ejemplo, que alguno de
los extremos del intervalo pueda estar fuera de [0,1].
Por todo ello y con la finalidad de utilizar un procedimiento “exacto”, aplicable a las situaciones
más usuales, Statgraphics y prácticamente cualquier software estadístico, recurre al siguiente
formato de intervalo para el parámetro p, al nivel 1- α:
de estos extremos (que es el utilizado por Statgraphics), que recurrre a la distribución F de Fisher
y que puede ser consultado en el excelente apéndice A del trabajo: A comparison of approximate
interval estimators for the Bernoulli parameter, The American Statistician, 50, 1 63-68 (1996). A
continuación presentamos su forma:
1 1
(pL , pU ) = ( , )
n− y +1 n−y
1+ 1+
yf2 y ,2(n− y +1),1−α /2 (y + 1)f2(y +1),2(n− y),α / 2
donde y es el valor observado de "éxitos"
Con cada estimación puntual del parámetro p anotada (por ejemplo, la que corresponde al
fármaco 5), se selecciona la opción de la barra de menús DESCRIBIR…DATOS
NUMERICOS (O DATOS CATEGÓRICOS)…PRUEBAS DE HIPÓTESIS…, que además
de desarrollar algunos contrastes de hipótesis -como se verá más adelante- determina estimación
por intervalos de proporciones, valor medios y varianzas de variables normales y del parámetro
λ de una variable de Poisson. En nuestro ejemplo, se activa la opción PROPORCION
BINOMIAL y se completan los campos PROPORCION DE LA MUESTRA y TAMAÑO DE
MUESTRA , con 0.6333 y 30 (fig. 14) (el campo Hipótesis Nula se puede dejar tal cual ya que
no afecta al intervalo de confianza); y en el siguiente panel (fig. 15) se comprueba que la opción
No Igual (caso del intervalo con cota inferior y superior) está activada y que en el campo
ALPHA aparece el valor 5, es decir, la unidad menos el nivel de confianza considerado.
Finalmente, se obtiene el resultado para el nivel de confianza del 95% en la figura 16:
Para el intervalo de confianza al 90%, se pulsa el botón derecho del ratón en la ventana de
resultados y sobre el menú desplegado se pulsa OPCIONES DE ANÁLISIS, y se cambia 5
por 10 en el campo ALPHA (fig.17). De esta forma, se presentan los resultados tal y como se
reflejan en la figura 18.
Figura 14
Figura 15
Figura 16
Figura 17
Figura 18
Obsérvese que a mayor confianza, mayor amplitud de intervalo, lo que se traduce en mayor
imprecisión en la estimación.
X−µ
es una var iable T de "Student " con n − 1
S/ n
grados de libertad, donde X y S2 son la media y
la varianza muestral, respectivamente
lo que permite establecer -por la técnica habitual- la estructura del intervalo de confianza para µ,
siguiente, al nivel 1-α,
s s
(µL , µU ) = (x − tn−1,α /2 ,x + tn−1,α /2 )
n n
x y s , valores obtenidos en la muestra
La variable longitud_tarso (medida en mm.), del fichero de datos de prácticas, recoge las
observaciones de esta magnitud anatómica en una muestra de tamaño 200 y que corresponden a
una especie de escarabajo. Vamos a establecer una estimación por intervalos, al 95%, para la
longitud media de tarso, en base a lo expuesto anteriormente. Dado que requerimos la
normalidad de esta variable, procedemos a su contraste con la prueba de ajuste basada en el
estadístico de Shapiro y Wilk, tal y como ha sido desarrollado anteriormente (ver págs. 32-34):
De manera que con una certeza del 95%, podemos afirmar que la longitud media de tarso de la
especie si sitúa entre 1.73 y 1.77 mm.; o bien, que si tomamos como valor de longitud media de
tarso la cantidad 1.75, es decir la media muestral, el error máximo cometido es 0.02 mm; bien
entendido si el intervalo contiene el valor exacto de dicho parámetro, con la certeza o confianza
señalada.
Otra forma de obtener el mismo resultado, se basa en el cálculo previo de las estimaciones
puntuales del valor medio y de la varianza, 1.75038 y 0.021572 (desviación típica muestral
0.146721) y recurrir al procedimiento descrito en el último párrafo del la página 37,
seleccionando la opción de la barra de menús DESCRIBIR…DATOS NUMERICOS (O
DATOS CATEGÓRICOS)…PRUEBAS DE HIPÓTESIS…, En nuestro caso, se activa la
opción Media Normal y se completan los campos Media Muestral, Sigma Muestral y
Tamaño muestral , etc…; obteniéndose finalmente el intervalo al nivel de confianza del 95%,
tal y puede observarse en los paneles siguientes:
(n − 1)S2 χ2 con n − 1
se distribuye según el mod elo
σ2
grados de libertad, donde S2 y σ2 son la varianza
muestral y poblacional , respectivamente
⎛ (n − 1)s2 (n − 1)s2 ⎞
⎜⎜ , ⎟⎟
⎝ χ n − 1 , α / 2 χ n − 1 ,1 − α / 2 ⎠
2
donde s es la estimación puntual obtenida de la varianza
X−µ S
p( ≤ tn−1,α )=1-α ⇔ p(µ ≥ X − tn−1,α ) =1− α
S/ n n
surge la estructura del intervalo de confianza de cota inferior para el valor medio, al nivel
1-α :
s
(µL , ∞) = (x − tn−1,α , ∞)
n
x y s , valores obtenidos en la muestra
y de forma similar se obtendría la estructura del intervalo de confianza de cota superior
s
(-∞ , µU ) = (−∞ , x + tn−1,α )
n
x y s , valores obtenidos en la muestra
En el caso práctico nº 4, a resolver por el alumno (ver pág. 34) se planteaba contrastar la
normalidad de la diferencia PADA-PADD (diferencia entre la presión arterial diástólica antes y
después de la aplicación de un fármaco), y se disponía de los datos suministrados por 14
individuos hipertensos (datos apareados). Con estos datos del fichero de prácticas, vamos a
determinar un intervalo de confianza de cota inferior para el valor medio de la diferencia de estas
variables. De la barra de menús seleccionamos la opción DESCRIBIR…DATOS
NUMERICOS…Análisis de Una Variable…; y completamos la ventana de configuración
del análisis:
sD
(µL , ∞) = (d − tn−1,α , ∞) = (0.8 , ∞)
n
d y sD , valores de la diferencia obtenidos en la muestra
puede ser interpretado de la forma siguiente: con una confianza del 95%, se puede afirmar que
en media el fármaco reduce un mínimo de 0.8 cm de Hg la presión arterial diastólica.
pT -pNT , donde
p T = proporción exacta de imnunes vacunados
pNT = proporción exacta de imnunes no vacunados
Se recuerda que para variables binomiales independientes, tipos B(n1,pT) y B(n2,pNT), se tiene
que
ˆ −P
P ˆ − (p − p )
T NT T NT
es asíntoticamente N(0,1)
ˆ (1 − P
P ˆ) Pˆ (1 − P
ˆ )
T T
+ NT NT
n1 n2
donde P̂T = proporción de éxitos en n1 ensayos (tratados)
ˆ = proporción de éxitos en n ensayos (no tratados)
PNT 2
⎛ ˆT (1 − p
p ˆT ) p
ˆ (1 − p
ˆNT ) ˆT (1 − p
p ˆT ) p ˆNT ) ⎞
ˆ (1 − p
ˆT − p
⎜ (p ˆNT )-z α/2 + NT ˆT − p
, (p ˆNT )+z α/2 + NT ⎟
⎝ n1 n2 n1 n2 ⎠
zα/2 = cuantil de orden 1-α / 2
Para los intervalos unilaterales de cota inferior y de cota superior, basta con considerar los
límites inferior y superior, respectivamente, del intervalo bilateral anterior, salvo que el cuantil
es de tamaño 1-α.
La opción de la barra de menús de Statgraphics que se debe seleccionar, para una par de
muestras independientes de poblaciones tipo Bernoulli, es COMPARAR … DOS MUESTRAS
….PRUEBAS DE HIPÓTESIS… ; se selecciona Proporciones Binomiales y se
completan los campos solicitados, etc …(Llegados a este punto del guión, el alumno debería, de
manera autónoma, finalizar el caso práctico) (Los resultados y respuestas a las cuestiones
planteadas se reflejarán en hoja anexa que será entregada en la sesión práctica).
X − Y − (µ x − µ y )
que se distribuye según tn1 +n2 −2
1 1
Sp +
n1 n2
2
(n1 − 1)S2x + (n2 − 1)S2y
donde S = p = var ianza muestral combinada
n1 + n2 − 2
estimador de la varianza común a X e Y
S2x y S2y = var ianzas muestrales de cada muestra
X − Y − (µ x − µ y )
que se distribuye según t ν
S 2
S2y
+
x
n1 n2
S2x y S2y = var ianzas muestrales de cada muestra
2
⎛ s2x s2y ⎞
⎜⎜ + ⎟⎟
ν = entero más próximo al valor ⎝ n1 n2 ⎠
2 2
⎛ s2x ⎞ ⎛ s2y ⎞
⎜ ⎟ ⎜⎜ ⎟⎟
⎝ n1 ⎠ + ⎝ n2 ⎠
n1 − 1 n2 − 1
⎛ 1 1 1 1 ⎞
⎜⎜ x − y − tn1 +n2 −2 ,α /2sp + , x − y + tn1 +n2 −2 ,α / 2sp + ⎟
⎝ n1 n2 n1 n2 ⎟⎠
⎛ s2 s
2
s2 s ⎞
2
⎜ x − y − t ν , α / 2 x + y , x − y + t ν ,α / 2 x + y ⎟
⎜ n1 n2 n1 n2 ⎟
⎝ ⎠
Como paso previo, y al margen de que posteriormente se contrastará la igualdad de varianzas, el
alumno desarrollará en primer lugar la prueba de normalidad de las dos variables implicadas,
con ayuda del estadístico de Shapiro-Wilk, teniendo en cuenta que en la ventana de
configuración del análisis se completarán los campos (Datos y Selección) tal y como se muestra
a continuación para el grupo No fumador (Nivel fumador=1) y de forma similar para el de
Fumador pasivo (Nivel fumador=2):
Desde uno de los paneles o subventanas de resultados que aparecen en pantalla se accede, del
modo habitual, a la obtención del intervalo deseado (Observación: ver pag. 43, para seleccionar
el unilateral correspondiente) (Los resultados y respuestas a las cuestiones planteadas se
reflejarán en hoja anexa que será entregada en la sesión práctica).
Tal y como actuamos en la anterior sección, de estimación por intervalos, empezaremos con el
desarrollo de contrastes de hipótesis que pueden afectar al parámetro p de una población de
Bernoulli. Los contrastes pueden ser bilaterales o unilaterales (de cola inferior o superior),
respectivamente:
⎧H0 : p = p0
⎨
⎩H1 : p ≠ p0
⎧H0 : p = p0 (p ≥ p0 )
⎨
⎩H1 : p < p0
⎧H0 : p = p0 (p ≤ p0 )
⎨
⎩H1 : p > p0
(los P-valores son calculados por Statgraphics usando la distribución binomial o su aproximación
asintótica a la distribución normal)
En 1866 fue publicado el famoso trabajo de Mendel (Versuche über Plflanzenhybriden), con
traducción al inglés de 1901 (Experiments in Plant Hybridization, J. Royal Horticultural Soc.,
Vol. 26.,pp. 1–32) que puede ser obtenida de http://www.mendelweb.org/Mendel.html; en el que
se recogen distintos experimentos con plantas de guisante (Pisum sativum). Los datos obtenidos
por hibridación en uno de estos experimentos corresponden a 258 plantas, cuyas vainas
contuvieron en total 6022 semillas amarillas y 2001 semillas verdes. Asímismo, se muestran los
resultados en detalle de las 10 primeras plantas:
Color de la semilla
Planta Amarilla Verde
1 25 11
2 32 7
3 14 5
4 70 27
5 24 13
6 20 6
7 32 13
8 44 9
9 50 14
10 44 18
A partir de estos datos, Mendel postuló que el número de semillas amarillas y de semillas verdes
mantenía una proporción de 3:1, hecho deducible de su segunda ley. Contrastaremos dicho
postulado utilizando, en primer lugar, las 10 primeras plantas (355 semillas amarillas y 123
verdes) y posteriormente con la totalidad. Las hipótesis a contrastar son:
⎧H : p = 3
⎪⎪ 0 4
⎨
⎪H : p ≠ 3
⎪⎩ 1 4
donde p = proporción exacta de guisantes amarillos
"éxito" = guisante amarillo
Para que Statgraphics desarrolle, este contraste es preciso suministrarle la estimación de la
proporción aludida, concretamente
y 355
p̂ = = = 0.7427
n 478
Procedemos, entonces, tal y como hicimos en la página 37: se selecciona la opción de la barra de
menús DESCRIBIR…DATOS NUMERICOS (O DATOS CATEGÓRICOS)…PRUEBAS
DE HIPÓTESIS…, y se completan los campos Hipótesis Nula, Proporción de la
Muestra y Tamaño Muestral , con 0.75, 0.7427 y 478 , respectivamente; y en el último
panel se comprueba que la opción No Igual (bilateral) de la hipótesis alternativa está
seleccionada; obteniéndose el panel de resultados:
El P-valor = 0.91274, “reafirma” de nuevo el postulado de Mendel (de este espectacular P-valor,
podemos asegurar que la “naturaleza”, “predecible o impredecible”, se ha “portado bastante
bien” con Mendel).
Observación: en el panel gráfico siguiente se superponen las curvas de potencias para los
tamaños muestrales 478 (en azul o trazo fino) y 8023 (en rojo o trazo grueso), que conviene
estudiar previamente y con independencia de los resultados obtenidos en el experimento,
recordando que la potencia de un contraste evalúa la capacidad del procedimiento para detectar
la falsedad de la hipótesis nula, en nuestro caso, respecto de nivel de significación α (0.05 en
este caso) :
La potencia para p = p0 +δ , donde |δ| > 0, se define por
1 - β = p(rechazar H0 p = p0 +δ) =
= p(Y ≥ y α /2 p = p0 +δ) + p(Y ≤ y1− α /2 p = p0 +δ)
para Y variable binomial, correspondiente a n ensayos
De la gráfica se obtiene, por ejemplo, que la potencia para p=0.73 es prácticamente 1, si n=8023.
Sin embargo, la potencia para p=0.73 es aproximadamente 0.1788, si se considera n=478; es
decir, si p es 0.73 sólo en el 18% de los casos se detectaría, rechazando la hipótesis nula. Estos
últimos cálculos de potencia deben ser comprobados y valorados por el alumno, con ayuda
de la definición anterior.
La variable Estatura, del fichero de prácticas, contiene los datos, en cm, correspondientes a una
muestra de individuos adultos de un determinado entorno geográfico. Estas observaciones ha
sido recogidas con el fin de contrastar la conjetura de un investigador que afirma que se ha
producido un aumento significativo de la estatura media, respecto del valor establecido hace 25
años, concretamente 165.5 cm. Por ello, las hipótesis a contrastar serán:
⎧H0 : µ = 165.5
⎨
⎩H1 : µ > 165.5
donde µ designa el valor actual de la estatura media. Podemos observar, en primer lugar, que la
conjetura del investigador figura como hipótesis alternativa del contraste, ya que su aceptación
errónea viene determinada por el nivel de significación α :
α = p(rechazar H0 H0 es cierta) =
= p(aceptar H1 H0 es cierta) = p(aceptar H1 µ = 165.5)
y, en alguna medida, este nivel es fijado por el experimentador. Dado que se trata de un contraste
unilateral superior o de cola derecha, el criterio de rechazo de la hipótesis nula será:
X − 165.5
Re chazo de H0 ⇔ P − valor = p( ≥ t) ≤ α
S / 36
X − 165.5 x − 165.5
donde sigue el modelo t35 , t =
S / 36 s / 36
2
x y s valores observados de la media y varianza muestral
(en todo lo anterior, se supone que la variable X = estatura, sigue una distribución normal con
varianza desconocida. Esta aserción deberá ser contrastada por el alumno con ayuda del
estadístico de Shapiro-Wilk)
De la barra de menús seleccionamos la opción DESCRIBir… DATOS NUMERICOS…
ANALISIS DE UNA VARIABLE y completamos la ventana de configuración del análisis con
la variable Estatura:
En el caso práctico nº 7 (ver página 44) se hizo mención a las variables Vacunados y No
Vacunados, del fichero de prácticas, cuyos datos corresponden a un ensayo clínico que trata de
comprobar la eficacia de una vacuna contra la gripe. Afecta a dos grupos o muestras
independientes (tratados con vacuna y tratados con placebo) de 400 individuos cada una.
Vamos a contrastar la eficacia de la vacuna, utilizando un nivel de significación de 0.025. Las
hipótesis a considerar son las siguientes:
⎧H0 : pT -pNT = 0
⎨ donde
⎩H1 : p T -pNT > 0
p T = proporción exacta de imnunes vacunados
pNT = proporción exacta de imnunes no vacunados
con el fin de establecer el criterio de rechazo de la hipótesis nula, utilizaremos el hecho que bajo
H0 :
ˆ −P
P ˆ
T NT
es asíntoticamente N(0,1)
ˆ )( 1 + 1 )
ˆ (1 − P
P
n1 n2
donde P̂T = proporción de éxitos en n1 ensayos (tratados)
ˆ = proporción de éxitos en n ensayos (no tratados)
PNT 2
ˆ + n P̂
n1P
P̂ = T 2 NT
= estimador combinado del parámetro
n1 + n2
El criterio de rechazo H0 a aplicar para un nivel de significación α será:
Del P-valor obtenido y del nivel de significación adoptado, no queda confirmada la eficacia de la
vacuna. Como motivo de reflexión, analícese si el no rechazo de la hipótesis nula, y por tanto la
asunción de la ineficacia de la vacuna, puede ser debido a un falta de potencia.
En las prácticas de Biología Celular, a fin de estudiar la relación entre la temperatura de cultivo y
la adherencia celular, se realizó el siguiente experimento: de una suspensión celular de bazo
obtenida mediante disgregación mecánica, tras determinar la viabilidad celular, se prepararon
3ml con una concentración de 2x106 céls/ml en RPMI. Dicha suspensión se añadió a una placa
Petri de plástico y se incubó 60 minutos a 4ºC o a 37º C para permitir la adherencia de las
células. Se realizó el recuento del número de células recuperado en cada condición (variable
temperatura) y se determinó el índice de células adherentes (variable adherencia) y no
adherentes.
Nº cél. _ Recuperadas
% _ Cél. _ NO _ adherentes = x100
Nº cél. _Iniciales
% Cél. adherentes = 100 - % Cél. NO adherentes
(Los resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que
será entregada en la sesión práctica)
Como ya se mencionó en el caso práctico nº 5 (pág. 39), las variables del ficheros de datos:
Grupo O, Grupo A, Grupo B y Grupo AB; configuran una tabla de contingencia 5x4, relativa a
dos factores cualitativos de clasificación: sintomatología de una enfermedad (cinco niveles
excluyentes: S1, S2, S3, S4, S5) y el grupo sanguíneo (cuatro niveles); que corresponde a una
muestra de 2373 afectados. Vamos a tratar de contrastar si ambos factores de clasificación son
independientes, ya que si fuese el caso, significaría que no existe ninguna asociación entre el
grupo sanguíneo y la sintomatología a la que alude la enfermedad, o dicho de otro modo, la
proporción de individuos manifestando un síntoma determinado es la misma en todos y cada uno
de los grupos sanguíneos. Recordemos que si F1 y F2 son dos factores de clasificación
poblacional, de niveles A1, A2 ,…, Ar; y B1, B2, …, Bs, respectivamente; se dice que son
independientes si
r s ˆˆ )2
(X ij − nPP r s ˆ )2
(Oij − E
Q = ∑∑ ∑ ∑ Eˆ ij ,
i j
= con distribución
i=1 j =1
ˆˆ
nPP i=1 j =1
i ij
Para que Statgraphics realice los cálculos anteriores, seleccionamos de la barra de menús
Describir… Datos Categóricos… Tablas de Contingencia… , y completamos la
ventana de configuración del análisis con las variables Grupo O, Grupo A, Grupo B y Grupo
AB:
Finalmente, utilizando el botón derecho del ratón sobre la subventana Tabla de Frecuencias se
seleccionan todas las opciones que se presentan:
Al obtener un valor tan extremo del estadístico, q=44.43 , al que le corresponde un P-valor de
0.0000 (en realidad 0.000005), y por tanto, altamente significativo, nos vemos obligados a
rechazar la hipótesis de independencia.
Ahora, inspeccionando exclusivamente el panel Frequency table, intentaremos localizar en qué
celdillas de la tabla que figura en la página siguiente se detectan datos dispares respecto de la
independencia. Si nos detenemos, por ejemplo, en la celdilla de la primera fila y última columna,
que corresponde a los individuos con síntoma S1 y grupo sanguíneo AB, se observan 226
individuos de la muestra, cuando se esperaba observar por estimación 186.46, bajo la hipótesis
de independencia. La diferencia o residuo entre estas dos cantidades, ajustado, corregido o
estandarizado por su error estándar (ver, por ejemplo, The Analysis of Contingency Tables, B.S.
Everitt, Chapman and Hall ed. 1977) , es decir:
ˆˆ
Xij − nPP
i j
eij = , con distribución asintótica N(0,1)
ˆˆ (1 − P)(
nPP ˆ 1−P
ˆ)
i j i j
Tabla de Frecuencias
de datos corresponde a los hombres y la segunda a las mujeres. Además de contrastar la citada
independencia, considere la posibilidad de contrastar si la proporción de hombres difiere o no
significativamente de la proporción de mujeres, considerando la totalidad de datos del año. (Los
resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica)
En el caso estudiado en la página 36, se hizo alusión a una tabla de contingencia 2x6 (variables:
Placebo, Fármaco 1, Fármaco 2, … , Fármaco 5) que analiza el efecto terapéutico de 5 fármacos
contra la depresión. La tabla contiene los resultados de pacientes deprimidos que corresponden a
seis grupos seleccionados al azar de tamaño 30, a los que se les aplica uno de los cinco fármacos
o un placebo, observándose si “su estado ha mejorado=éxito” o si “su estado es el mismo o ha
empeorado=fracaso” . Es obvio que nos encontramos ante seis muestras de poblaciones
independientes de Bernoulli (éxito, fracaso) y nos preguntamos si los datos obtenidos son
consistentes con la hipótesis de que el parámetro p (probabilidad de éxito), en cada una de las
poblaciones, es esencialmente el mismo; lo cual conduciría a asumir que los fármacos
considerados no tienen efecto terapéutico alguno. En general, las hipótesis enfrentadas en estas
pruebas de homogeneidad son:
r s ˆ )2
(X ij − n jP r s ˆ )2
(Oij − E
Q= ∑∑ ˆ
njP
i
= ∑∑
ˆ
E
ij
, con distribución
i=1 j =1 i i=1 j =1 ij
Ya que los cálculos son totalmente equivalentes a los de la prueba sobre independencia de dos
factores de clasificación, de nuevo seleccionamos de la barra de menús Describir… Datos
Categóricos… Tablas de Contingencia… , y completamos la ventana de configuración
del análisis con las variables Placebo, Fármaco 1, Fármaco 2, … , Fármaco 5:
Seleccionando los mismas opciones de los siguientes paneles, tal y como hicimos en la página
57, se obtienen los siguientes paneles de resultados, significativos al nivel del 5%:
controlar el error de tipo I, a efectos de no declarar más diferencias que las que merecen los
datos, utilizaremos un nivel de significación de α/(c-1) para cada contraste 2x2, para que el error
de tipo I global (lo que se denomina la tasa de error experimental o experimentalmente
prudente) sea a lo sumo α (desigualdad de Bonferroni): en nuestro caso, con c=6 y α=0.05; se
tomará 0.05/5=0.01 como nivel de significación para cada uno de de los contrastes individuales,
cuyos resultados se exponen a continuación, una vez que seleccionemos la opción de la variable
Chi-cuadrado con la corrección por continuidad de Yates, siguiendo las recomendaciones de
Cochran (ver página 56 de este guión). Para ello, se pulsa el botón derecho de ratón sobre la
subventana Pruebas de independencia y selecciona de las opciones de ventana correspondiente:
2 2
ˆ − 0.5)2
( Xij − njP 2 2
ˆ − 0.5)2
( Oij − E
i ij
Q= ∑∑ ˆ
n jP
= ∑∑ ˆ
E
i=1 j =1 i i=1 j =1 ij
Estos resultados declaran diferencias claras entre el placebo y el Fármaco 2, y dudosas entre el
placebo y el Fármaco 5, al nivel considerado.
⎧H0 : µ1 = µ2 = ... = µk
⎨
⎩H1 : no es el caso (al menos dos difieren)
El no rechazo de H0, para un nivel de significación α, conduce a declarar efecto nulo de los
tratamientos o que Y, la variable respuesta, se comporta de manera similar en las k situaciones
experimentales o tratamientos considerados para el factor. Para el citado nivel de significación,
el criterio a emplear es:
Y1 Y2 ... Yk
y11 y21 ... y k1
y12 y22 ... yk 2
... ... ... ...
y1n1 y2n2 yknk
(N = n1 + n2 + ... + nk )
Se obtienen los siguientes paneles de resultados, con muy alta significación (P-valor
prácticamente 0), pudiéndose observar que la estimación puntual de σ2 es mse=0.619728,
mientras que la suma de cuadrados medios de los tratamientos es msa=39.583, más de 60 (63.87
exactamente) veces mse; lo cual señalaría que se está sobreestimando la varianza común a los
tratamientos o niveles, lo cual ocurre cuando H0 es falsa; además, en el panel Verificación de
Varianza se ha utilizado, para contrastar la requerida homocedasticidad, el estadístico de Bartlett
y no el de Levene, que es el que aparece por defecto (véase el estudio comparativo : A
comparison of type I error and power of Bartlett’s test, Levene’s test and Cochran’s test under
violation of assumptions , de Vorapongsathorn T. et alt, en Songklanakarin J. Sci. Technol.,
2004, 26(4) pág 537-547) :
Se trata ahora de establecer qué niveles son el origen de la significación; para lo cual
recurriremos a realizar comparaciones o contrastes por pares de todos los niveles, utilizando la
técnica de Fisher LSD, y que se basa en la utilización para cada par de valores medios µi y µj de:
con el objeto de desarrollar los k(k-1)/2 contrastes, donde k es el número de niveles considerados
en la variable respuesta:
⎧⎪H0 : µi = µ j
⎨
⎪⎩H1 : µi ≠ µ j
yi. − y j.
con rechazo de H0 ⇔ t ≥ tN-k,α / 2 donde t =
1 1
mse( + )
ni nj
Los Límites que aparecen en la cuarta columna de la segunda columna del panel anterior hacen
referencia a los valores:
1 1
tN-k,α / 2 mse( + )
ni nj
que se comparan con el valor absoluto de la diferencias de las dos medias muestrales de los
niveles contrastados ( la significación, en su caso, se marca con un asterisco).
Es un hecho contrastado que la hipertensión está asociada o es una de las posibles causas de una
fracción de eyección insuficiente (FEV = proporción de sangre que el corazón bombea del
ventrículo izquierdo en cada latido). A esto se añade que en el 90% aproximadamente de los
casos de hipertensión, existe una relevante influencia o carga hereditaria.
En base a lo anterior, y para ilustrar esta técnica de análisis de la varianza de efectos aleatorios o
análisis de componentes de varianza, supongamos que se desea estimar el grado de semejanza
en los miembros familiares (en los miembros de la misma familia), respecto de la fracción
de eyección; o poner de manifiesto que este grado de semejanza es comparable al que existe
entre los individuos de diferentes familias; en aquéllas con antecedentes en hipertensión. Para
ello, se seleccionan 12 familias, donde algún miembro tiene antecedentes por presión arterial
diastólica alta (que se excluye del estudio), de las cuales se seleccionan al azar 4 miembros
adultos con grado de parentesco próximo. Los datos correspondientes se encuentran en las
variables FEV y familia, del fichero de datos de prácticas.
Bajo este modelo, cada observación pude expresarse como
yij = µi + eij
Se supone que Ai y Eij son independientes, que los Ai se distribuyen de modo similar, así como
que los Eij se distribuyen igual, pero estos errores o desviaciones y por tanto las observaciones Yij
no son independientes: la dependencia de este modelo de efectos aleatorios se puede poner de
manifiesto mediante el llamado coeficiente de correlación intraclase (ICC), muy usado en
análisis de la fiabilidad y de la concordancia:
es decir, el ICC no es otra cosa que el coeficiente de correlación entre dos observaciones de la
misma familia.
El anova de efectos aleatorios formula el siguiente contraste:
⎧⎪H0 : σ2A = 0
⎨ 2
⎪⎩H1 : σ A > 0
y del panel de resultados siguiente se observa una alta significación, lo que conduce considerar
el rechazo de la hipótesis nula del ANOVA, extrayendo entonces la interpretación comentada
anteriormente:
(Observemos que la variabilidad “Entre grupos” se refiere a la detectada entre las familias,
mientras que la “Intra grupos” afecta a los miembros de cada familia.).
Si deseamos una estimación puntual del ICC (coeficiente de correlación intraclase), se selecciona
de la barra de menús Comparar… Analisis de Varianza… Análisis de Componentes
de Varianza… y completamos la ventana de configuración del análisis con las variables:
obteniéndose, tal y como se observa a continuación, la estimación puntual del ICC en el valor
0.7403 (como era de esperar, las sumas de cuadrados de ambos paneles de resultados son
coincidentes) (Un desarrollo detallado del modelo de efectos aleatorios puede encontrarse, por
ejemplo, en el capítulo 7 de “The Analysis of Variance“, Scheffé H., John Wiley ed. 1959):
k
Yi. k n Yij n Yij
Y.. = ∑
i =1 k
= ∑ ∑ nk
i =1 j =1
, donde Yi. = ∑
j =1 n
La varianza y por tanto el error estándar asociado a este estimador es una medida de su precisión
a la hora de estimar el parámetro aludido, y de ello podremos observar en qué medida dicho error
estándar depende de las determinaciones en cada hoja y en qué medida depende de la distintas
hojas. Con ayuda de lo expuesto en las páginas 71 y 72, el alumno debe ser capaz de calcular la
varianza de la media muestral global , en función de la componentes de la varianza presentes en
este modelo. Una vez establecido este valor, deberá realizar una estimación de esta varianza con
ayuda de lo observado en 10 hojas y en 4 determinaciones por hoja; información que
corresponde con los datos de las variables factorhoja y Con_calcio, del fichero de prácticas.
Con esta estimación del error, se verá el modo más adecuado para estimar el parámetro µ (Los
resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que será
entregada en la sesión práctica)
(El siguiente trabajo hace referencia a este tipo de problemas: The assumption underlying the
analysis of variance, C. Eisenhart ; Biometrics, 3, nº 1, 1-21, 1947)
Recordemos que el análisis de la regresión lineal simple se enmarca dentro de los llamados
modelos predictivos, y permite dado un valor de una variable x, no aleatoria o controlada,
denominada variable predictora, regresora o independiente, realizar una estimación, en media,
del valor de una variable aleatoria, Yx, denominada variable respuesta o dependiente, según el
supuesto modelo poblacional siguiente, que habitualmente asume, además, homocedasticidad,
normalidad e independencia:
ˆ =ˆ
Y α +ˆ
βx
se obtiene minimizando la suma de cuadrados de los residuos o residuales, que correspondería
a los n pares de observaciones (x1,Y1); (x2, Y2); …; (xn,Yn) :
n n n
SSE = ∑ ˆ2 =
Ei ∑ α −ˆ
(Yi − ˆ βxi ) =
2
∑ (Y i
ˆ )2
−Yi
i =1 i =1 i =1
y se comprueba que
n
∑ (x i
− x)(Yi − Y)
Sy
α = Y −ˆ
ˆ βx , ˆ
β= i =1
n
=R
Sx
∑ (x
i =1
i
− x)2
Tammes en un trabajo titulado “On origin of number and arrangement of the places of exit on the
surface grains”, Diss. Groningen , 1930, puso de manifiesto la relación entre el grosor del grano
de polen y el número de orificios en su circulo ecuatorial, correspondiente a la especie Fuchsia
globosa. Para cada valor entre 0 y 4 de la variable predictora x = número de orificios en el
círculo ecuatorial, se obtuvieron 10 observaciones de la variable respuesta Y = diámetro del
grano de polen en micras. Los pares de datos obtenidos y redondeados a un múltiplo de 5 micras,
respecto del diámetro, se encuentran en las variables diámetro_espora y n_orificio_espora, del
fichero de prácticas.
Para determinar, en base a los pares de datos, la recta de regresión estimada, utilizamos de la
barra de menús la opción Relacionar … Un Factor… Regresión Simple … y se completa
la ventana del análisis:
Se obtienen así predicciones a nivel estimativo que afectan a la variable respuesta para los
valores 0, 3 y 5 de la variable regresora: estimaciones puntuales respecto de su valor medio, así
como por intervalos y finalmente estimación por intervalos del valor de la variable dependiente.
Por ejemplo, para las esporas con tres orificios, se predice un diámetro medio de 44.1 micras;
con una confianza del 95%, el diámetro se sitúa entre 36.27 y 51.93 micras; y con la misma
certeza del 95% , el diámetro medio se encontrará entre 42.76 y 45.44 micras.
Llegado este punto, nos debemos preguntar -quizás hubiese sido lo previo a considerar- si hemos
procedido de manera adecuada. Las cuestiones a tratar serían:
1º Bajo el supuesto de que el ajuste al modelo lineal es el adecuado, ya que ello parece señalarlo
el valor 0.9438 del coeficiente de determinación (el 94% de la variabilidad detectada en la
variable respuesta se debe a la recta de regresión), ¿difiere de cero significativamente la
pendiente, β, de la recta de regresión o, por el contrario, es un valor despreciable? En el último
caso, significaría que x no explica de ninguna forma el comportamiento de la variable respuesta:
el diámetro se manifiesta de manera independiente al número de orificios. Aparentemente la
respuesta está recogida en dos datos del panel de resultados de la página anterior : los p-valores,
prácticamente nulos, correspondientes respectivamente a los valores de t = 28.40 y f = 806.63,
señalan de manera equivalente el rechazo de la hipótesi nula del siguiente contraste:
⎧H0 : β = 0
⎨
⎩H1 : β ≠ 0
2º Sin embargo, a pesar de todo lo anterior, que defiende de manera contundente el postulado de
la linealidad del modelo, no hemos contrastado su adecuación de manera formal y tal
contraste, en nuestro ejemplo, podemos realizarlo al disponer de repetidos valores de la variable
respuesta para cada valor de la variable predictora, y descomponiendo la suma de cuadrados de
los residuos en suma de cuadrados de falta de ajuste más la que corresponde al error puro:
k ni k k ni
SSE SSL SS e
El correspondiente análisis de la varianza sobre la posible falta de ajuste del modelo lineal se
obtiene pulsando de nuevo el botón de configuración de Tablas y Gráficos, y seleccionando la
opción Prueba de Carencia de Ajuste, y la sorpresa es que los datos conducen al rechazo
del modelo lineal:
Comentario sobre este caso práctico: Todo lo anterior parece defender la consideración de un
modelo más complejo que el lineal. Sin embargo, en este ejemplo y a efectos prácticos, la
simplicidad del modelo lineal no debería descartarse, ya que la mejora no es realmente
sustancial. Convendría que el alumno ahonde en esta observación como motivo de reflexión.
1/v0
Pendiente
Km/Vmáx
1/Vmáx
1/[S]
-1/Km
(Los resultados y respuestas a las cuestiones planteadas se reflejarán en hoja anexa que
será entregada en la sesión práctica)
El análisis de la covarianza es una técnica que combina el análisis de la varianza con el análisis
de la regresión, y es un caso particular del llamado Modelo Lineal General. Vamos a presentar,
como hemos hecho en casos anteriores, el modelo más simple de esta técnica, que considera tan
sólo una variable, x, concomitante, llamada covariante; y tan sólo un factor (vía) a efectos o
tratamientos fijos, todo ello respecto de una variable respuesta Y; y, además, que la pendiente, β,
del modelo lineal, que afecta a la covariante, es idéntica se cual sea el nivel considerado en el
factor. Para ilustrar este procedimiento abordaremos un ejemplo interesante (extraído de Applied
Regression Analysis and other Multivariable Methods, Kleinbaum et alt., Duxbury Press, 2008),
partiendo del factor sexo, con dos niveles, mujer y hombre, respecto de la respuesta Y = PAS
(presión arterial sistólica), añadiendo como covariante x, la edad. El análisis de la covarianza
permite descomponer la variabilidad de la respuesta en dos partes, la que corresponde a los
tratamientos del factor, de aquélla asignada a la variable concomitante, en este caso, la edad. Este
modelo aborda las siguientes cuestiones.
1º ¿Es el efecto de la edad significativo, al margen del nivel que se manifieste, respecto de
sexo?, es decir, ¿explica la edad, en alguna medida o cuantía significativa, parte de la
variabilidad detectada en la presión arterial diastólica?
2º Si descontamos el efecto de la edad, ¿es la presión arterial media similar en hombres y en
mujeres?, es decir, ¿es la presión arterial media similar en hombres y mujeres de la misma edad?
Para responder a tales preguntas, se considera el siguiente modelo para una situación general y
que afecta a las observaciones:
ŷij = yi. + ˆ
β(xij − x i. )
donde
ni ni
∑ xij ∑y ij
j =1 j =1
xi. = ; yi. =
ni ni
son las medias muestrales que se obtienen de los datos disponibles, en la muestra bivariante, del
i-ésimo tratamiento.
Si β es nulo, la covariante no explica, no altera la variabilidad o el comportamiento de la variable
respuesta (al menos linealmente).
Los contrastes, por tanto, de interés son dos:
⎧H0 : β = 0
⎨ (1)
⎩H1 : β ≠ 0
y
⎧H0 : µ1 = µ 2 = ... = µ k
⎨ (2)
⎩H1 : a l menos dos difieren
(Par ver el detalle de las expresiones de las sumas de cuadrados en los dos análisis de la varianza
que se desarrollan al efecto, véase, por ejemplo, página 289 y siguientes de Linear Statistical
Inference and its Applications, de C. R. Rao, Wiley ed., 1973; o página 192 y siguientes de The
Analysis of Variance“, Scheffé H., John Wiley ed. 1959 ).
Nota: En el caso de asumir que β ≠ 0, y se rechace la hipótesis nula de (2), el modelo predictivo
para el i-ésimo tratamiento sería
(n1 − 1)s x ˆ
β1 + ... + (nk − 1)s x ˆ
2 2
βk
ŷ ij = y i. + ˆ
β(x ij − xi. ) , donde ˆ
β =
1.
2 2
k.
yˆ
β r sería la estimación de la pendiente,
Por tanto, en ambos análisis de la varianza se observa una altísima significación, lo que conduce
a defender la hipótesis de que el efecto de la edad y el del sexo afectan al valor de la presión
arterial sistólica: parece que las mujeres, en media, tienen diferente (menos) presión arterial
sistólica que los hombres, para cualquier edad, es decir, sea cual sea la edad considerada; y
en ambos niveles (mujer y hombre), la PAS media se modifica (aumenta) con la edad.
Una manera de ver con más detalles lo que parece estar ocurriendo, pasaría por determinar las
rectas de regresión (que son modelos predictivos de interés) por separado para cada uno de los
dos niveles (sexo=1 en hembras, sexo=0 en machos) y comprobar, aunque sea de manera
informal, el siguiente supuesto de este modelo: que las pendientes son muy similares (la
pendiente, en este caso, informa sobre el aumento o disminución medio de la presión arterial
sistólica por cada año que aumentase la edad). Hágalo, siguiendo las instrucciones de la
página 75 y siguientes de este guión.
Sin embargo, si hubiésemos utilizado un modelo de regresión múltiple con dos variables
predictivas, la edad x ; y una variable indicadora (dummy) z, que toma el valor 1 en hembras y 0
en machos, para controlar el posible efecto del sexo; en la forma siguiente:
Y = β 0 + β1 x + β2 z + β 3 xz +E