Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A Metodos y Aplicaciones Univ Malaga PDF
A Metodos y Aplicaciones Univ Malaga PDF
Aplicaciones Cursos
Bioestadstica
ndice
Universidad de Mlaga
1. Conceptos previos
1.2 Introduccin
1.3 Qu es la estadstica?
Bioestadstica: mtodos y aplicaciones
1.5 Elementos. Poblacin.
Caracteres Este curso contiene documentos HTML que utilizan el lenguaje JavaScript que pueden
ser interpretados por Netscape 2 o superior.
1.7 Organizacin de los datos
1.9 Representaciones Grficas
1.11 Problemas Si necesitas material complementario para la asignatura (transparencias de PowerPoint y
Vdeos de las prcticas) lo encontrars aqu
2. Medidas descriptivas
2.1 Introduccin
2.3 Estadsticos de tendencia central
2.5 Estadsticos de posicin
2.7 Medidas de variabilidad o
dispersin
2.9 Asimetra y apuntamiento
2.11 Problemas
3. Variables bidimensionales
3.2 introduccin
3.4 Tablas de doble entrada
3.6 Dependencia funcional e
independencia
3.8 Medias y varianzas marginales y
condicionadas
3.10 Covarianza y coeficiente de
correlacin
3.12 Regresin
3.14 Problemas
4.2 introduccin
4.4 Experimentos y sucesos
aleatorios
4.6 Operaciones bsicas con
sucesos aleatorios
4.8 Experimentos aleatorios y
probabilidad
4.10 Probabilidad condicionada e
independencia de sucesos
4.12 Ciertos teoremas fundamentales
del clculo de probabilidades
4.14 Tests diagnsticos
4.16 Problemas
5. Variables aleatorias
5.2 Introduccin
5.4 Variables aleatorias discretas
5.6 Variables aleatorias continuas
6. Principales leyes de distribucin de
variables aleatorias
6.2 Introduccin
6.4 Distribuciones discretas
6.6 Reproductividad de familias de v.
a.
6.8 Distribuciones continuas
6.10 Problemas
7. Introduccin a la inferencia
7.2 Introduccin
7.4 Tcnicas de muestreo sobre una
poblacin
7.6 Propiedades deseables de un
estimador
8. Estimacin confidencial
8.2 Introduccin
8.4 Intervalos de confianza para la
distribucin normal
8.6 Intervalos de confianza para
variables dicotmicas
8.8 Problemas
9. Contrastes de hiptesis
9.2 Introduccin
9.4 Contrastes paramtricos en una
poblacin normal
9.6 Contrastes de una proporcin
9.8 Contrastes para la diferencia de
medias apareadas
9.10 Contrastes de dos distribuciones
normales independientes
9.12 Contrastes sobre la diferencia
de proporciones
9.14 Problemas
10.2 Introduccin
10.4 El estadstico y su
distribucin
10.6 Contraste de bondad de ajuste
para distribuciones
10.8 Problemas
11.2 Introduccin
11.4 ANOVA con un factor
11.6 ANOVA de varios factores
11.8 Consideraciones sobre las
hiptesis subyacentes en el modelo
factorial
12. Contrastes no paramtricos
12.2 Introduccin
12.4 Aleatoriedad de una muestra:
Test de rachas
12.6 Normalidad de una muestra:
Test de D'Agostino
12.8 Equidistribucin de dos
poblaciones
12.10 Contraste de Wilcoxon para
muestras apareadas
12.12 Contraste de Kruskal-Wallis
12.14 Problemas
Bibliografa
About this document ...
1. Conceptos previos
1.2 Introduccin
1.3 Qu es la estadstica?
1.5 Elementos. Poblacin. Caracteres
1.5.0.1 Ejemplo
1.7.4.1 Ejemplo
1.7.4.4 Observacin
1.7.4.5 Ejemplo
1.9.4.2 Ejemplo
1.9.4.3 Ejemplo
1.9.4.5 Ejemplo
1.11 Problemas
1.2 Introduccin
Iniciamos este captulo con la definicin de algunos conceptos elementales y bsicos, y sin embargo
pilares, para una comprensin intuitiva y real de lo que es la Bioestadstica. Pretendemos introducir al
estudiante en los primeros pasos sobre el uso y manejos de datos numricos: distinguir y clasificar las
caractersticas en estudio, ensearle a organizar y tabular las medidas obtenidas mediante la
construccin de tablas de frecuencia y por ltimo los mtodos para elaborar una imagen que sea
capaz de mostrar grficamente unos resultados.
El aserto ``una imagen vale ms que mil palabras'' se puede aplicar al mbito de la estadstica
descriptiva diciendo que ``un grfico bien elaborado vale ms que mil tablas de frecuencias''. Cada
vez es ms habitual el uso de grficos o imgenes para representar la informacin obtenida. No
obstante, debemos ser prudente al confeccionar o interpretar grficos, puesto que unas misma
informacin se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas
o vlidas. Nuestro objetivo, en este captulo, consiste en establecer los criterios y normas mnimas
que deben verificarse para construir y presentar adecuadamente los grficos en el mbito de la
estadstica descriptiva.
1.3 Qu es la estadstica?
Cuando coloquialmente se habla de estadstica, se suele pensar en una relacin de datos numricos
presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del concepto popular que
existe sobre el trmino y que cada vez est ms extendido debido a la influencia de nuestro entorno,
ya que hoy da es casi imposible que cualquier medio de difusin, peridico, radio, televisin, etc, no
nos aborde diariamente con cualquier tipo de informacin estadstica sobre accidentes de trfico,
ndices de crecimiento de poblacin, turismo, tendencias polticas, etc.
La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar
regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa
intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar
a la toma de decisiones y en su caso formular predicciones.
Podramos por tanto clasificar la Estadstica en descriptiva, cuando los resultados del anlisis no
pretenden ir ms all del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las
conclusiones obtenidas a un conjunto de datos ms amplio.
Individuos o elementos: personas u objetos que contienen cierta informacin que se desea estudiar.
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una
poblacin.
Finita, como es el caso del nmero de personas que llegan al servicio de urgencia de un
hospital en un da;
Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras
y cruces obtenida en el lanzamiento repetido de una moneda al aire.
1.5.0.1 Ejemplo
Consideremos la poblacin formada por todos los estudiantes de la Universidad de Mlaga (finita).
La altura media de todos los estudiantes es el parmetro . El conjunto formado por los alumnos de
la Facultad de Medicina es una muestra de dicha poblacin y la altura media de esta muestra, , es
un estadstico.
Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la vez
exhaustivas y mutuamente excluyentes --cada elemento posee una y slo una de las modalidades
posibles.
Clases: conjunto de una o ms modalidades en el que se verifica que cada modalidad pertenece a una
y slo una de las clases.
1.5.0.1 Ejemplo
1.7.4.4 Observacin
1.7.4.5 Ejemplo
1.9.4.2 Ejemplo
1.9.4.3 Ejemplo
1.9.4.5 Ejemplo
1.11 Problemas
Ejercicio 1..1. Clasificar las siguientes variables:
1.
Preferencias polticas (izquierda, derecha o centro).
2.
Marcas de cerveza.
3.
Velocidad en Km/h.
4.
El peso en Kg.
5.
Signo del zodiaco.
6.
Nivel educativo (primario secundario, superior).
7.
Aos de estudios completados.
8.
Tipo de enseanza (privada o pblica).
9.
Nmero de empleados de una empresa.
10.
La temperatura de un enfermo en grados Celsius.
11.
La clase social (baja, media o alta).
12.
La presin de un neumtico en
1.
Cul es su edad?
2.
Estado civil:
(a)
Soltero
(b)
Casado
(c)
Separado
(d)
Divorciado
(e)
Viudo
3.
Cuanto tiempo emplea para desplazarse a su trabajo?
4.
Tamao de su municipio de residencia:
(a)
Municipio pequeo (menos de 2.000 habitantes)
(b)
Municipio mediano (de 2.000 a 10.000 hab.)
(c)
Municipio grande (de 10.000 a 50.000 hab.)
(d)
Ciudad pequea (de 50.000 a 100.000 hab.)
(e)
Ciudad grande (ms de 100.000 hab.)
5.
Est afiliado a la seguridad social?
Ejercicio 1..3.
En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de nios nacidos
en cierto intervalo de tiempo:
1.
Construir una distribucin de frecuencia de estos pesos.
2.
Encontrar las frecuencias relativas.
3.
Encontrar las frecuencias acumuladas.
4.
Encontrar las frecuencias relativas acumuladas.
5.
Dibujar un histograma con los datos del apartado a.
6.
Por qu se ha utilizado un histograma para representar estos datos, en lugar de una grfica de
barras?
2. Medidas descriptivas
2.1 Introduccin
2.3 Estadsticos de tendencia central
2.3.2 La media
2.3.2.1 Observacin
2.3.2.2 Proposicin
2.3.2.3 Ejemplo
2.3.2.6 Proposicin
2.3.2.7 Observacin
2.3.4 La mediana
2.3.4.1 Observacin
2.3.4.2 Observacin
2.3.4.3 Ejemplo
2.3.4.4 Ejemplo
2.3.6 La moda
2.3.6.1 Observacin
2.3.8.1 Ejemplo
2.5.0.2 Ejemplo
2.5.0.3 Ejemplo
2.5.0.4 Ejemplo
2.7.4.2 Proposicin
2.7.4.3 Observacin
2.7.4.4 Proposicin
2.7.4.5 Observacin
2.7.4.8 Tipificacin
2.7.6.1 Observacin
2.7.6.2 Ejemplo
2.9.2.1 Observacin
2.9.2.4 Ejemplo
2.9.2.5 Observacin
2.9.2.7 Ejemplo
2.11 Problemas
2.1 Introduccin
Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que junto a una medida
que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia
a la variabilidad que refleje dicha fluctuacin.
*
La tendencia central de los datos;
*
La dispersin o variacin con respecto a este centro;
*
Los datos que ocupan ciertas posiciones.
*
La simetra de los datos.
*
La forma en la que los datos se agrupan.
*
la media,
*
la mediana,
*
la moda.
En ciertas ocasiones estos tres estadsticos suelen coincidir, aunque generalmente no es as. Cada uno
de ellos presenta ventajas e inconvenientes.
2.3.2 La media
2.3.2.1 Observacin
2.3.2.2 Proposicin
2.3.2.3 Ejemplo
2.3.2.6 Proposicin
2.3.2.7 Observacin
2.3.4 La mediana
2.3.4.1 Observacin
2.3.4.2 Observacin
2.3.4.3 Ejemplo
2.3.4.4 Ejemplo
2.3.6 La moda
2.3.6.1 Observacin
M = P50
ed
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo
que no puede considerarsele como una medida de tendencia central.
Los cuartiles, Q , son un caso particular de los percentiles. Hay 3, y se definen como:
l
De forma anloga se definen los deciles como los valores de la variable que dividen a las
observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ..., D9 como:
Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados
estadsticos de posicin.
2.5.0.1 Ejemplo
Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus cuartiles.
x n N
i i i
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solucin:
1.
Primer cuartil:
2.
Segundo cuartil:
3.
Tercer cuartil:
2.5.0.2 Ejemplo
l -1 - l n N
i i i i
0-1 10 10
1-2 12 22
2-3 12 34
3-4 10 44
4-5 7 51
n=51
Solucin:
1.
Primer cuartil
2.
Segundo cuartil:
3.
Tercer cuartil
2.5.0.3 Ejemplo
Intervalos f.a.
l -1 -- l n
i i i
38 -- 45 3
45 -- 52 2
52 -- 59 7
59 -- 66 3
66 -- 73 6
21
Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo nmero de
observaciones.
Solucin: Las cantidades que buscamos son los tres cuartiles: , y . Para calcularlos, le
aadimos a la tabla las columnas con las frecuencias acumuladas, para localizar qu intervalos son
los que contienen a los cuartiles buscados:
l -1 -- l n N
i i i i
38 -- 45 3 3
45 -- 52 2 5
52 -- 59 7 12
59 -- 66 3 15
66 -- 73 6 21
21
y se encuentran en el
intervalo 52--59, ya que
N3=12 es la primera f.a.a. que
supera a y
que .
As se tiene que:
Obsrvese que . Esto es lgico, ya que la mediana divide a la distribucin en dos partes
con el mismo nmero de observaciones, y , hace lo mismo, pues es deja a dos cuartos de los datos
por arriba y otros dos cuartos por abajo.
2.5.0.4 Ejemplo
La distribucin de una variable tiene por polgono acumulativo de frecuencias el de la figura 2.6. Si el
nmero total de observaciones es 50:
1.
Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de clase,
frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias relativa
acumulada.
2.
Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y cuntas fueron
superior a 11.
3.
Calcule las modas.
4.
Determine los cuartiles.
Figura:Diagrama acumulado de frecuencias relativas.
Solucin:
1.
En la siguiente tabla se proporciona la informacin pedida y algunos clculos auxiliares que
nos permitirn responder a otras cuestiones.
Intervalos ni Ni f
i
F
i
x
i
a
i
2.
Calculemos el nmero de observaciones pedido:
3.
Hay dos modas. Calculemos la ms representativa:
4.
Cuartiles:
2.5.0.1 Ejemplo
2.5.0.2 Ejemplo
2.5.0.3 Ejemplo
2.5.0.4 Ejemplo
Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene restando el
valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil de calcular y sus unidades
son las mismas que las de la variable, aunque posee varios inconvenientes:
En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior. Estas se
determinan en funcin de la distancia entre las observaciones y algun estadstico de tendencia central.
2.7.4.2 Proposicin
2.7.4.3 Observacin
2.7.4.4 Proposicin
2.7.4.5 Observacin
2.7.4.8 Tipificacin
2.7.6.2 Ejemplo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.7.2 Desviacin media, Dm
Previo: 2.5 Estadsticos de posicin
Estas ideas son las que vamos a desarrollar en lo que resta del captulo.
2.9.2.4 Ejemplo
2.9.2.5 Observacin
2.9.2.7 Ejemplo
2.11 Problemas
Ejercicio 2..1. En el siguiente conjunto de nmeros, se proporcionan los pesos (redondeados a la
libra ms prxima) de los bebs nacidos durante un cierto intervalo de tiempo en un hospital:
1.
Construir una distribucin de frecuencias de estos pesos.
2.
Encontrar las frecuencias relativas.
3.
Encontrar las frecuencias acumuladas.
4.
Encontrar las frecuencias relativas acumuladas.
5.
Dibujar un histograma con los datos de la parte a.
6.
Por qu se ha utilizado un histograma para representar estos datos, en lugar de una grfica de
barras?
7.
Calcular las medidas de tendencia central.
8.
Calcular las medidas de dispersin.
9.
Calcular las medidas de forma.
10.
Es esta una distribucin sesgada? De ser as, en qu direccin?
11.
Encontrar el percentil 24.
Ejercicio 2..2. A continuacin se dan los resultados obtenidos con una muestra de 50 universitarios.
la caracterstica es el tiempo de reaccin ante un estmulo auditivo:
1.
Cul es la amplitud total de la distribucin de los datos?
2.
Obtenga la distribucin de frecuencias absolutas y relativas.
3.
Obtenga la distribucin de frecuencias acumuladas, absolutas y relativas, con los intervalos
anteriores.
4.
Calcular la media y la varianza con los intervalos del apartado b y despus calculense las
mismas magnitudes sin ordenar los datos en una tabla estadstica.Con qu mtodo se obtiene
mayor precisin?
5.
Dibuje el polgono de frecuencias relativas.
6.
Dibuje el polgono de frecuencias relativas acumuladas.
Ejercicio 2..3. Con el fin de observar la relacin entre la inteligencia y el nivel socioeconmico
(medido por el salario mensual familiar) se tomaron dos grupos, uno formado con sujetos de cociente
intelectual inferior a 95 y otro formado por los dems; De cada sujeto se anot el salario mensual
familiar. Teniendo en cuenta los resultados que se indican en la tabla:
10 o menos 75 19
10 - 16 35 26
16 - 22 20 25
22 - 28 30 30
28 - 34 25 54
ms de 34 15 46
1.
Dibuje un grfico que permita comparar ambos grupos.
2.
Calcule las medidas de tendencia central para aquellos sujetos con CI < 95.
3.
Calcular las medidas de dispersin para aquellos sujetos con .
Ejercicio 2..4. Un estudio consisti en anotar el nmero de palabras ledas en 15 segundos por un
grupo de 120 sujetos dislxicos y 120 individuos normales. Teniendo en cuenta los resultados de la
tabla
25 o menos 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 o ms 2 32
calcule:
1.
Las medias aritmticas de ambos grupos.
2.
Las medianas de ambos grupos.
3.
El porcentaje de sujetos dislxicos que superaron la mediana de los normales.
4.
Compare la variabilidad relativa de ambos grupos.
Ejercicio 2..5. La tabla siguiente muestra la composicin por edad, sexo y trabajo de un grupo de
personas con tuberculosis pulmonar en la provincia de Vizcaya en el ao 1979:
1.
Representar grficamente la distribucin de frecuencias de aquellas personas trabajadoras que
padecen tuberculosis.
2.
Representar grficamente la distribucin de frecuencias de los varones no trabajadores que
padecen tuberculosis.
3.
Representar grficamente la distribucin de frecuencias del nmero total de mujeres que
padecen tuberculosis.
4.
Cul es la edad en la que se observa con mayor frecuencia que no trabajan los varones? Y
las mujeres? Determinar asmismo la edad ms frecuente (sin distincin de sexos ni
ocupacin).
5.
Por debajo de qu edad est el 50% de los varones?
6.
Por encima de qu edad se encuentra el 80% de las mujeres?
7.
Obtener la media, mediana y desviacin tpica de la distribucin de las edades de la muestra
total.
8.
Estudiar la asimetra de las tres distribuciones.
de muertos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
1.
Representar grficamente estos datos.
2.
Obtener la distribucin acumulada y representarla.
3.
Calcular media, mediana y moda.
4.
Calcular la varianza y la desviacin tpica.
5.
Porcentaje de ciudades con al menos 2 muertos.
6.
Porcentaje de ciudades con ms de 3 muertos.
7.
Porcentaje de ciudades con a lo sumo 5 muertos.
3. Variables bidimensionales
3.2 introduccin
3.4 Tablas de doble entrada
3.4.2 Distribuciones marginales
3.4.2.1 Observacin
3.4.4.1 Observacin
3.6.2.1 Ejemplo
3.6.4 Independencia
3.6.4.2 Observacin
3.6.4.3 Ejemplo
3.10.0.2 Ejemplo
3.10.2.1 Proposicin
3.10.4.1 Proposicin
3.12 Regresin
3.12.2 Bondad de un ajuste
3.12.4.1 Observacin
3.12.4.6 Proposicin
3.12.4.7 Observacin
3.12.4.8 Proposicin
3.12.4.9 Ejemplo
3.12.4.10 Ejemplo
3.14 Problemas
3.2 introduccin
En lo estudiado anteriormente hemos podido aprender cmo a partir de la gran cantidad de datos que
describen una muestra mediante una variable, X, se representan grficamente los mismos de modo
que resulta ms intuitivo hacerse una idea de como se distribuyen las observaciones.
Otros conceptos que segn hemos visto, tambin nos ayudan en el anlisis, son los estadsticos de
tendencia central, que nos indican hacia donde tienden a agruparse los datos (en el caso en que lo
hagan), y los estadsticos de dispersin, que nos indican si las diferentes modalidades que presenta la
variable estn muy agrupadas alrededor de cierto valor central, o si por el contrario las variaciones
que presentan las modalidades con respecto al valor central son grandes.
Tambin sabemos determinar ya si los datos se distribuyen de forma simtrica a un lado y a otro de
un valor central.
En este captulo pretendemos estudiar una situacin muy usual y por tanto de gran inters en la
prctica:
Si Y es otra variable definida sobre la misma poblacin que X, ser posible determinar
si existe alguna relacin entre las modalidades de X y de Y?
Un ejemplo trivial consiste en considerar una poblacin formada por alumnos de primero de
Medicina y definir sobre ella las variables
ya que la relacin es determinista y clara: Y=X/100. Obsrvese que aunque la variable Y, como tal
puede tener cierta dispersin, vista como funcin de X, su dispersin es nula.
Un ejemplo ms parecido a lo que nos interesa realmente lo tenemos cuando sobre la misma
poblacin definimos las variables
Intuitivamente esperamos que exista cierta relacin entre ambas variables, por ejemplo,
dispersin
que nos expresa que (en media) a mayor altura se espera mayor peso. La relacin no es exacta y por
ello ser necesario introducir algn termino que exprese la dispersin de Ycon respecto a la variable
X.
Es fundamental de cara a realizar un trabajo de investigacin experimental, conocer muy bien las
tcnicas de estudio de variables bidimensionales (y n-dimensionales en general). Baste para ello
pensar que normalmente las relaciones entre las variables no son tan evidentes como se mencion
arriba. Por ejemplo:
Se puede decir que en un grupo de personas existe alguna relacin entre X = tensin
arterial e Y = edad?
Aunque en un principio la notacin pueda resultar a veces algo desagradable, el lector podr
comprobar, al final del captulo, que es bastante accesible. Por ello le pedimos que no se asuste. Al
final ver que no son para tanto.
las p modalidades de Y.
Con la intencin de reunir en una sla estructura toda la informacin disponible, creamos una tabla
formada por casillas, organizadas de forma que se tengan k filas y p columnas. La casilla
Y y1 y2 ... y ... y
j p
x n1 n2 ... n ... n
i i i ij ip
... ...
Obsrvese que hemos escrito un smbolo `` '' en la ``parte de las jotas'' que simboliza que estamos
considerando los elemento que presentan la modalidad x , independientemente de las modalidades
i
que presente la variable Y. De forma anloga se define la frecuencia absoluta marginal de la
modalidad y como
j
3.6.4 Independencia
3.6.4.1 Proposicin (Independencia en tablas de doble entrada)
3.6.4.2 Observacin
3.6.4.3 Ejemplo
Es interesante observar que podemos considerar que las observaciones de la variable Xhan sido
agrupadas en p subgrupos, cada uno de ellos caracterizados por la propiedad de que Y=y para algn
j
. As la proposicin de la pgina nos permite afirmar que las medias de las
marginales es la media ponderada de las condicionadas, y la proposicin de la pgina 2.1, que la
varianza de las marginales es la media ponderada de las varianzas condicionadas mas la varianza
ponderada de las medias condicionadas (uff!). Vamos a enunciar de modo ms preciso lo que
acabamos de enunciar:
3.8.0.1 Proposicin
Las medias y varianzas marginales de las variables X y Yse pueden escribir de modo equivalente
como:
3.8.0.1 Proposicin
vemos que las cantidades y van al cuadrado y por tanto no pueden ser
negativas.
Como se ve, la frmula es muy parecida a las de las varianzas. Es sencillo comprobar que se verifica
la siguiente expresin de , ms til en la prctica:
3.10.0.1 Proposicin
Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que
o lo que es lo mismo
3.10.0.2 Ejemplo
Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras ( ), en la tabla
siguiente:
0 1 2 3 4
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
1.
Hallar las medias, varianzas y desviaciones tpicas marginales.
2.
Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos?
3.
Qu nmero medio de hijos varones hay en aquellas familias que no tienen hijas?
4.
Qu nmero medio de hijos varones tienen aquellas familias que a lo sumo tienen 2 hijas?
5.
Hallar la covarianza
Solucin:En primer lugar, definimos las variables X= nmero de hijos varones, e Y=nmero de hijas
y construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son tiles en el
clculo de medias y varianzas:
y1 y2 y3 y4 y5
0 1 2 3 4
4 6 9 4 1 24 0 0 0
5 10 7 4 2 28 28 28 44
7 8 5 3 1 24 48 96 62
5 5 3 2 1 16 48 144 63
2 3 2 1 0 8 32 128 40
0 32 52 42 20 146
El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribucin
condicionada de
n3 n3 y
j j j
7 0
8 8
5 10
3 9
1 4
24 31
Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula con la
distribucin condicionada
n1 n1x
i i i
4 0
5 5
7 14
5 15
2 8
23 42
El nmero medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando
las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3
4 6 9 19 19
5 10 7 22 22
7 8 5 20 40
5 5 3 13 39
2 3 2 7 28
81 129
La covarianza es:
3.10.0.1 Proposicin
3.10.0.2 Ejemplo
3.10.2 Una interpretacin geomtrica de la covarianza
3.10.2.1 Proposicin
3.12 Regresin
Las tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una
relacin. Para ilustrarlo retomemos los ejemplos mencionados al principio del captulo. Si sobre un
grupo de personas observamos los valores que toman las variables
no es necesario hacer grandes esfuerzos para intuir que la relacin que hay entre ambas es:
Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de personas
es
La razn es que no es cierto que conocida la altura x de un individuo, podamos determinar de modo
i
exacto su peso y (v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin
i
embargo, alguna relacin entre ellas debe existir, pues parece mucho ms probable que un individuo
de 2 m pese ms que otro que mida 1,20 m. Es ms, nos puede parecer ms o menos aproximada una
relacin entre ambas variables como la siguiente
A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que
denominamos regresin.
mediante una curva del tipo . Para ello hemos de asegurarnos de que la
diferencia entre los valores y e sea tan pequea como sea posible.
i
Mediante las tcnicas de regresin inventamos una variable como funcin de otra variable X (o
viceversa),
Esto es lo que denominamos relacin funcional. El criterio para construir , tal como citamos
anteriormente, es que la diferencia entre Y e sea pequea.
El trmino que hemos denominado error debe ser tan pequeo como sea posible (figura 3.7). El
3.14 Problemas
Ejercicio 3..1. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la
concentracin de estrona en saliva(X) para predecir la concentracin del esteroide en plasma libre
(Y). Se extrajeron los siguientes datos de 14 varones sanos:
1.
Estdiese la posible relacin lineal entre ambas variables.
2.
Obtener la ecuacin que se menciona en el enunciado del problema.
3.
Determinar la variacin de la concentracin de estrona en plasma por unidad de estrona en
saliva.
Ejercicio 3..2. Los investigadores estn estudiando la correlacin entre obesidad y la respuesta
individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al
dolor se mide utilizando el umbral de reflejo de flexin nociceptiva (Y), que es una medida de
sensacin de punzada. Se obtienen los siguientes datos:
X 89 90 75 30 51 75 62 45 90 20
Y 2 3 4 4,5 5,5 7 9 13 15 14
1.
Qu porcentaje de la varianza del peso es explicada mediante un modelo de regesein lineal
por la variacin del umbral de reflejo?
2.
Estdiese la posible relacin lineal entre ambas variables, obteniendo su grado de ajuste.
3.
Qu porcentaje de sobrepeso podemos esperar para un umbral de reflejo de 10?
Ejercicio 3..3. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad
corporal para absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada uno se le da una
dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad de cada componente
retenida en el sistema corporal y, a partir de sta, se determina el porcentaje absorbido por el cuerpo.
Se obtuvieron los siguientes datos:
Porcentaje de plomo 8 17 18 25 58 59 41 30 43 58
1.
Comprobar la idoneidad del modelo lineal de regresin.
2.
Obtener la recta de regresin, si el modelo lineal es adecuado.
3.
Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el
15% del plomo ingerido.
Ejercicio 3..4. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un
lago, se toman medidas de la concentracin de nitrato en el agua. Para monitorizar la variable se ha
utilizado un antiguo mtodo manual. Se idea un nuevo mtodo automtico. Si se pone de manifiesto
una alta correlacin positiva entre las medidas tomadas empleando los dos mtodos, entonces se har
uso habitual del mtodo automtico. Los datos obtenidos son los siguientes:
1.
Hallar el coeficiente de determinacin para ambas variables.
2.
Comprobar la idoneidad del modelo lineal de regresin. Si el modelo es apropiado, hallar la
recta de regresin de Y sobre X y utilizarla para predecir la lectura que se obtendra empleando
la tcnica automtica con una muestra de agua cuya lectura manual es de 100.
3.
Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal de
regresin para X en funcin de Y, e Y en funcin de X, es decir, e .
4.
Calcule los errores para cada una de dichas predicciones, es decir, las variables e
.
5.
Que relacin hay entre las medias de X y ? Y entre las de Y e ?
6.
Calcule las medias de e . Era de esperar el valor obtenido?
7.
Calcule las varianzas de X, , Y, , e .
8.
Qu relacin existe entre y Y entre y ?
9.
Que relacin ecuentra entre y ? Tambin es vlida para y ?
10.
Justifique a partir de todo lo anterior porqu se denomina r2 como grado de bondad del
ajuste lineal.
Ejercicio 3..5. Se ha medido el aclaramiento de creatinina en pacientes tratados con Captopril tras la
suspensin del tratamiento con dilisis, resultando la siguiente tabla:
1.
Hllese la expresin de la ecuacin lineal que mejor exprese la variacin de la creatinina, en
funcin de los dias transcurridos tras la dilisis, as como el grado de bondad de ajuste y la
varianza residual.
2.
En qu porcentaje la variacin de la creatinina es explicada por el tiempo transcurrido desde
la dilisis?
3.
Si un individuo presenta 4'1 mg/dl de creatinina, cunto tiempo es de esperar que haya
transcurrido desde la suspensin de la dilisis?
Ejercicio 3..6. En un ensayo clnico realizado tras el posible efecto hipotensor de un frmaco, se
evala la tensin arterial diastlica (TAD) en condiciones basales (X), y tras 4 semanas de
tratamiento (Y), en un total de 14 pacientes hipertensos. Se obtienen los siguiente valores de TAD:
1.
Existe relacin lineal entre la TAD basal y la que se observa tras el tratamiento?
2.
Cul es el valor de TAD esperado tras el tratamiento, en un paciente que present una TAD
basal de 95 mm de Hg?
Ejercicio 3..7. Se han realizado 9 tomas de presin intracraneal en animales de laboratorio, por un
mtodo estndar directo y por una nueva tcnica experimental indirecta, obtenindose los resultados
siguientes en mm de Hg:
Mtodo estndar 9 12 28 72 30 38 76 26 52
Mtodo experimental 6 10 27 67 25 35 75 27 53
1.
Hallar la ecuacin lineal que exprese la relacin existente entre las presiones intracraneales,
determinadas por los dos mtodos.
2.
Qu tanto por ciento de la variabilidad de Y es explicada por la regresin? Hllese el grado de
dependencia entre las dos variables y la varianza residual del mismo.
4.2 introduccin
4.4 Experimentos y sucesos aleatorios
4.4.0.0.0.1 Suceso seguro:
4.4.0.1 Ejemplo
4.6.0.0.0.2 Interseccin:
4.6.0.0.0.3 Diferencia:
4.8.2.1 Ejemplo
4.8.4.3 Observacin
4.10.0.2 Observacin
4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.5 Teorema (Probabilidad total)
4.12.0.6 Ejemplo
4.12.0.8 Ejemplo
4.12.0.9 Observacin
4.16 Problemas
4.2 introduccin
Si el nico propsito del investigador es describir los resultados de un experimento concreto, los
mtodos analizados en los captulos anteriores pueden considerarse suficientes. No obstante, si lo que
se pretende es utilizar la informacin obtenida para extraer conclusiones generales sobre todos
aquellos objetos del tipo de los que han sido estudiados, entonces estos mtodos constituyen slo el
principio del anlisis, y debe recurrirse a mtodos de inferencia estadstica, los cuales implican el uso
inteligente de la teora de la probabilidad.
Tal como hemos citado anteriormente, en las aplicaciones prcticas es importante poder describir los
rasgos principales de una distribucin, es decir, caracterizar los resultados del experimento aleatorio
mediante unos parmetros. Llegamos as al estudio de las caractersticas asociadas a una variable
aleatoria introduciendo los conceptos de esperanza y varianza matemtica, relacionndolos con los
conceptos de media y varianza de una variable estadstica.
El clculo de probabilidades nos suministra las reglas para el estudio de los experimentos aleatorios
o de azar, constituyendo la base para la estadstica inductiva o inferencial.
Para trabajar con el clculo de probabilidades es necesario fijar previamente cierta terminologa.
Vamos a introducir parte de ella en las prximas lneas.
1.
Se puede repetir indefinidamente, siempre en las mismas condiciones;
2.
Antes de realizarlo, no se puede predecir el resultado que se va a obtener;
3.
El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de resultados
posibles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo
denotaremos normalmente mediante la letra E. Los elementos del espacio muestral se
denominan sucesos elementales.
Cualquier subconjunto de E ser denominado suceso aleatorio, y se denotar normalmente con las
letras A, B,...
Obsrvese que los sucesos elementales son sucesos aleatorios compuestos por un slo elemento. Por
supuesto los sucesos aleatorios son ms generales que los elementales, ya que son conjuntos que
pueden contener no a uno slo, sino a una infinidad de sucesos elementales --y tambin no contener
ninguno.-- Sucesos aleatorios que aparecen con gran frecuencia en el clculo de probabilidades son
los siguientes:
Es aquel que nunca se verifica como resultado del experimento aleatorio. Como debe ser un
subconjunto de E, la nica posibilidad es que el suceso imposible sea el conjunto vaco
Tambin se denomina complementario de A y es el suceso que se verifica si, como resultado del
experimento aleatorio, no se verifica A. Se acostumbra a denotar con el smbolo
4.6.0.0.0.1 Unin:
Como ejemplo, tenemos que la unin de un suceso cualquiera con su complementario es el suceso
seguro:
A veces por comodidad se omite el smbolo para denotar la interseccin de conjuntos, sobre todo
cuando el nmero de conjuntos que intervienen en la expresin es grande. En particular podremos
usar la siguiente notacin como equivalente a la interseccin:
4.6.0.0.0.3 Diferencia:
Obsrvese que el suceso contrario de un suceso A, puede escribirse como la diferencia del suceso
seguro menos ste, o sea,
As:
Hay ciertas propiedades que relacionan la unin, interseccin y suceso contrario, que son conocidas
bajo el nombre de Leyes de Morgan:
4.6.0.0.0.1 Unin:
4.6.0.0.0.2 Interseccin:
4.6.0.0.0.3 Diferencia:
4.6.0.0.0.4 Diferencia simtrica:
En los experimentos aleatorios se observa que cuando el nmero de experimentos aumenta, las
frecuencias relativas con las que ocurre cierto suceso e, f (e),
n
4.8.0.1 Ejemplo
En la Figura 4.3 se presenta la evolucin de la frecuencia relativa del nmero de caras obtenido en el
lanzamiento de una moneda en 100 ocasiones (simulado por un ordenador). En principio la evolucin
de las frecuencias relativas es errtica, pero a medida que el nmero de tiradas aumenta, tiende a lo
que entendemos por probabilidad de cara.
Esta es la nocin frecuentista de probabilidad. Sin embargo esta definicin no se puede utilizar en
la prctica pues:
los experimentos aleatorios a veces no pueden ser realizados, como es el caso de calcular la
probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se debe)
calcular esta probabilidad repitiendo el experimento un nmero indefinidamente alto de veces
para aproximarla mediante la frecuencia relativa). Para ello existen mtodos mucho ms
seguros, como los que mencionaremos a continuacin.
4.8.0.1 Ejemplo
4.8.2 Probabilidad de Laplace
4.8.2.1 Ejemplo
4.8.4.3 Observacin
4.10.0.1 Ejemplo
Se lanza un dado al aire Cul es la probabilidad de que salga el nmero 4? Si sabemos que el
resultado ha sido un nmero par, se ha modificado esta probabilidad?
Solucin:
Por otro lado, si ha salido un nmero par, de nuevo por la definicin de probabilidad de Laplace
tendramos
y entonces
que por supuesto coincide con el mismo valor que calculamos usando la definicin de probabilidad
de Laplace.
4.10.0.2 Observacin
Si entre dos sucesos no existe ninguna relacin cabe esperar que la expresin ``sabiendo que'' no
aporte ninguna informacin. De este modo introducimos el concepto de independencia de dos
sucesos A y B como:
Esta relacin puede ser escrita de modo equivalente, cuando dos sucesos son de probabilidad no nula
como
4.10.0.1 Ejemplo
4.10.0.2 Observacin
4.12.0.1 Proposicin
1.
Probabilidad de la unin de sucesos:
2.
Probabilidad de la interseccin de sucesos:
3.
Probabilidad del suceso contrario:
4.
Probabilidad condicionada del suceso contrario:
4.12.0.2 Ejemplo
En una universidad el 50% de los alumnos habla ingls, el 20% francs y el 5% los dos idiomas
Cul es la probabilidad de encontrar alumnos que hablen alguna lengua extranjera?
Solucin:
As:
4.12.0.3 Ejemplo
En una estacin de esqu, para navidad-es, la experiencia indica que hay un tiempo soleado slo el
de los das. Por otro lado, se ha calculado que cuando un da es soleado, hay una probabilidad
del 20% de que el da posterior tambin lo sea. Calcular la probabilidad de que, en navidades, un fin
de semana completo sea soleado.
Solucin: Llamemos S al suceso sbado soleado y D al suceso domingo soleado. La nica manera en
que un fin de semana completo sea soleado es que lo sea en primer lugar el sbado, y que el domingo
posterior tambin. Es decir:
Luego slo el de los fines de semana son soleados.
Demostracin
Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando tenemos que
el suceso seguro est descompuesto en una serie de sucesos incompatibles de los que conocemos su
probabilidad. Para ello necesitamos introducir un nuevo concepto: Se dice que la coleccin
es un sistema exhaustivo y excluyente de sucesos si se verifican las
relaciones (vase la figura 4.5):
Demostracin
Se tienen dos urnas, y cada una de ellas contiene un nmero diferente de bolas blancas y rojas:
U1
U2
Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe
provenir de una de esas dos urnas y de una slo de ellas), el teorema de la probabilidad total nos
permite afirmar entonces que
Demostracin
Es una consecuencia de la definicin de probabilidad condicionada en trminos de la interseccin, y
del teorema de la probabilidad total:
4.12.0.8 Ejemplo
Se tienen tres urnas. Cada una de ellas contiene un nmero diferente de bolas blancas y rojas:
Alguien elije al azar y con la misma probabilidad una de las tres urnas, y saca una bola.
Si el resultado del experimento es que ha salido una bola blanca, cul es la probabilidad de que
provenga de la primera urna? Calcular lo mismo para las otras dos urnas.
Solucin:
U2
U3
En este caso U1, U2 y U3 forman un sistema incompatible y excluyente de sucesos (la bola resultado
debe provenir de una de esas tres urnas y de una slo de ellas), por tanto es posible aplicar el teorema
de Bayes:
Con respecto a las dems urnas hacemos lo mismo:
4.12.0.9 Observacin
Obsrvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de extraer una bola
para ver su resultado, tenamos que la probabilidad de elegir una urna i cualquiera es . Estas
probabilidades se denominan probabilidades a priori. Sin embargo, despus de realizar el
experimento, y observar que el resultado del mismo ha sido la extraccin de una bola blanca, las
probabilidades de cada urna han cambiado a . Estas cantidades se denominan
probabilidades a posteriori. Vamos a representar en una tabla la diferencia entre ambas:
a priori a posteriori
1 1
Esta fenmeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos teoras cientficas
diferentes, T1 y T2, que pretenden explicar cierto fenmeno, y a las que asociamos unas
probabilidades a priori de ser ciertas,
podemos llevar a cabo la experimentacin que se considere ms conveniente, para una vez obtenido
el cuerpo de evidencia, B, calcular como se modifican las probabilidades de verosimilitud de cada
teora mediante el teorema de Bayes:
As la experimentacin puede hacer que una teora sea descartada si o reforzada si
4.12.0.1 Proposicin
4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.5 Teorema (Probabilidad total)
4.12.0.6 Ejemplo
4.12.0.7 Teorema (Bayes)
4.12.0.8 Ejemplo
4.12.0.9 Observacin
1.
Se sospecha que un paciente puede padecer cierta enfermedad, que tiene una incidencia de la
enfermedad en la poblacin (probabilidad de que la enfermedad la padezca una persona elegida al
azar) de ;
2.
Como ayuda al diagnstico de la enfermedad, se le hace pasar una serie de pruebas (tests), que dan
como resultado:
+
Positivo, T , si la evidencia a favor de que el paciente est enfermo es alta en funcin de estas
pruebas;
-
Negativo, T , en caso contrario.
Previamente, sobre el test diagnstico a utilizar, han debido ser estimadas las cantidades:
Sensibilidad:
Es la probabilidad de el test de positivo sobre una persona que sabemos que padece la
enfermedad, .
Especificidad:
Es la probabilidad que el test de negativo sobre una persona que no la padece, .
T+ 89 3
T- 11 97
100 100
3.
teniendo en cuenta el resultado del test diagnstico, se utiliza el teorema de Bayes para ver cual es, a
la vista de los resultados obtenidos, la probabilidad de que realmente est enfermo si le dio positivo
(ndice predictivo de verdaderos positivos),
4.14.0.1 Ejemplo
Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. Tal tcnica tiene una sensibilidad del
91% y una especificidad del 98%. En la poblacin que nos ocupa, la probabilidad de colelietasis es de 0,2.
1.
Si a un individuo de tal poblacin se le aplican los ultrasonidos y dan positivos, cul es la
probabilidad de que sufra la colelietasis?
2.
Si el resultado fuese negativo, cul sera la probabilidad de que no tenga la enfermedad?
Solucin:
En el primer apartado se pide calcular el ``ndice Predictivo de Verdaderos Positivos'', , que por el
teorema de Bayes es:
Este problema puede ser resuelto de otro modo, utilizando tablas bidimensionales e identificando las
probabilidades con las frecuencias relativas de la siguiente tabla
T+
T-
de modo que se puede calcular como la probabilidad condicionada de E sobre la primera fila (T
+):
4.14.0.1 Ejemplo
4.16 Problemas
Ejercicio 4..1. Una mujer portadora de hemofilia clsica da a luz tres hijos.
1.
Cual es la probabilidad de que de los tres hijos, ninguno est afectado por la enfermedad?
2.
Cual es la probabilidad de que exactamente dos de los tres nios est afectado?
Ejercicio 4..2. El 60% de los individuos de una poblacin estn vacunados contra una cierta
enfermedad. Durante una epidemia se sabe que el 20% la ha contrado y que 2 de cada 100 individuos
estn vacunados y son enfermos. Calcular el porcentaje de vacunados que enferma y el de vacunados
entre los que estn enfermos..
Ejercicio 4..4. Dos tratamientos A y B curan una determinada enfermedad en el 20% y 30% de los
casos, respectivamente. Suponiendo que ambos actan de modo independiente, cul de las dos
siguientes estrategias utilizara para curar a un individuo con tal enfermedad:
1.
Aplicar ambos tratamientos a la vez.
2.
Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.
Ejercicio 4..5. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar un control
antidopaje; Se sabe que 2 de los jugadores del equipo han tomado sustancias prohibidas. Cul es la
probabilidad de elegir para el anlisis a alguno de los infractores?
Ejercicio 4..6. Estamos interesados en saber cul de dos anlisis A y B es mejor para el diagnstico
de una determinada enfermedad, de la cual sabemos que la presentan un 10% de individuos de la
poblacin. El porcentaje de resultados falsos positivos del anlisis A es del 15% y el de B es del 22%.
El porcentaje de falsos negativos de A es del 7% y de B es del 3%. Cul es la probabilidad de
acertar en el diagnstico con cada mtodo?
Ejercicio 4..7. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal tcnica tiene
una sensibilidad del 91% y una especificidad del 98%. En la poblacin que nos ocupa la probabilidad
de colelitiasis es del 20%.
1.
Si a un individuo de tal poblacin se le aplican los ultrasonidos y dan positivos, cul es la
probabilidad de que sufra la colelitiasis?
2.
Si el resultado fuese negativo, cul es la probabilidad de que no tenga la enfermedad?
Ejercicio 4..8. Entre los estudiantes de una Facultad de Filosofa y Letras se dan las siguientes
proporciones: el 40% son hombres. El 70% de los varones fuman, mientras que entre las mujeres slo
fuman el 20%. Escogido un estudiante al azar, calclese la probabilidad de que fume.
Ejercicio 4..9. Los estudios epidemiolgicos indican que el 20% de los ancianos sufren un deterioro
neuropsicolgico. Sabemos que la tomografa axial computerizada (TAC) es capaz de detectar este
trastorno en el 80% de los que lo sufren, pero que tambin da un 3% de falsos positivos entre
personas sanas. Si tomamos un anciano al azar y da positivo en el TAC, cul es la probabilidad de
que est realmente enfermo?
Ejercicio 4..10. Sabemos que tiene estudios superiores el 15% de la poblacin espaola, estudios
medios el 40%, estudios primarios el 35% y no tiene estudios el 10%. Los desempleados no se
distribuyen proporcionalmente entre esas categoras, dado que de entre los de estudios superiores
estn sin trabajo el 10%, entre los de estudios medios el 35%, entre los de estudios primarios el 18%,
y entre los que no tienen estudios el 37%. Obtenga las probabilidades de que extrado uno al azar,
ste sea:
1.
Titulado superior, sabiendo que est parado.
2.
Un sujeto sin estudios que est en paro.
3.
Un sujeto con estudios primarios o que est trabajando.
Ejercicio 4..11. Una enfermedad puede estar producida por tres virus A, B, y C. En el laboratorio hay
3 tubos de ensayo con el virus A, 2 tubos con el virus B y 5 tubos con el virus C. La probabilidad de
que el virus A produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el
virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad. Cul es la probabilidad
de que el virus que se inocule sea el C?
Ejercicio 4..12. El 70% de los estudiantes aprueba una asignatura A y un 60% aprueba otra
asignatura B. Sabemos, adems, que un 35% del total aprueba ambas. Elegido un estudiante al azar,
calcular las probabilidades de las siguientes situaciones:
1.
Haya aprobado la asignatura B, sabiendo que ha aprobado la A.
2.
Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A.
3.
No haya aprobado la asignatura B, sabiendo que ha aprobado la A.
4.
No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
Ejercicio 4..13. La cuarta parte de los conductores de coche son mujeres. La probabilidad de que una
mujer sufra un accidente en un ao es de 5/10.000, y para los hombres es de 1/10.000. Calclese la
probabilidad de que si acaece un accidente, el accidentado sea hombre.
Ejercicio 4..14. En un campus universitario existen 3 carreras sanitarias. Se sabe que el 50% cursan
estudios de Enfermera, el 30% Medicina y el 20% Veterinaria. Los que finalizaron sus estudios son
el 20, 10 y 5% respectivamente. Elegido un estudiante al azar, hllese la probabilidad de que haya
acabado la carrera.
5. Variables aleatorias
5.2 Introduccin
5.2.0.1 Observacin
5.2.0.2 Observacin
5.6.0.2 Observacin
5.6.0.3 Proposicin
5.6.2.1 Proposicin
5.8.2.1 Observacin
5.8.4 Varianza
5.8.4.1 Ejemplo
5.8.4.2 Ejemplo
5.8.4.3 Ejemplo
5.8.10.2 Proposicin
5.8.10.3 Proposicin
5.8.10.4 Teorema
5.8.10.5 Proposicin
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 5. Variables aleatorias
Siguiente: 5.4 Variables aleatorias discretas
Previo: 5. Variables aleatorias
5.2 Introduccin
Normalmente, los resultados posibles (espacio muestral E) de un experimento aleatorio no son
valores numricos. Por ejemplo, si el experimento consiste en lanzar de modo ordenado tres monedas
al aire, para observar el nmero de caras ( ) y cruces ( ) que se obtienen, el espacio muestral
asociado a dicho experimento aleatorio sera:
En estadstica resulta ms fcil utilizar valores numricos en lugar de trabajar directamente con los
elementos de un espacio muestral como el anterior. As preferimos identificar los sucesos
con el valor numrico 1 que representa el nmero de caras obtenidas al
realizar el experimento. De este modo aparece el concepto de variable aleatoria unidimensional
como el de toda funcin
que atribuye un nico nmero real x , a cada suceso elemental e, del espacio muestral E5.1.
e
=1.00mm
La composicin de una funcin real5.3 con una variable es tambin variable aleatoria, pues
est definida sobre Ey a cada elemento suyo le asocia un valor real.
En funcin de los valores que tome la variable, esta puede ser clasificada en discreta o continua del
siguiente modo:
v.a. discreta
es aquella que slo puede tomar un nmero finito o infinito numerable de valores. Por
ejemplo,
v.a. continua
es la que puede tomar un nmero infinito no numerable de valores.
5.2.0.2 Observacin
Si sobre los elementos de E existe una distribucin de probabilidad, esta se transmite a los valores
que toma la variable X. Es decir, toda v.a. conserva la estructura probabilstica del experimento
aleatorio que describe, en el sentido de que si es la funcin de probabilidad definida sobre el
espacio muestral E, sta induce otra funcin definida sobre , de forma que conserva los
valores de las probabilidades (figura 5.1):
5.2.0.1 Observacin
5.2.0.2 Observacin
Si x no es uno de los valores que puede tomar X, entonces f(x )=0. La representacin grfica de la
i i
funcin de probabilidad se realiza mediante un diagrama de barras anlogo al de distribucin de
frecuencias relativas para variables discretas (figura 5.3). Por ejemplo, si retomamos el caso del
lanzamiento de 3 monedas de forma que cada una de ellas tenga probabilidad 1/2 de dar como
resultado cara o cruz, se tiene que (vase la figura 5.2):
Figura:Equivalencia entre las probabilidades calculadas directamente sobre el
espacio muestral E de resultados del experimento aleatorio, y las calculadas sobre
el subconjunto mediante la v.a. X.
5.4.0.1 Observacin
Obsrvese que X est definido sobre el espacio muestral de sucesos E, mientras que f lo est sobre el
espacio de nmeros reales .
Las propiedades de la funcin de probabilidad de v.a. se deducen de forma inmediata de los axiomas
de probabilidad:
Otro concepto importante es el de funcin de distribucin de una variable aleatoria discreta, F, que
se define de modo que si , F(x ) es igual a la probabilidad de que X tome un valor inferior o
i
igual a x :
i
Esta funcin se representa grficamente del mismo modo que la distribucin de frecuencias relativas
acumuladas (figura 5.3). Volviendo al ejemplo de las tres monedas, se tiene que
Hay que observar que a valores no admisibles por la variable les pueden corresponder valores de F no
nulos. Por ejemplo,
Es sencillo comprobar que las siguientes propiedades de la funcin de distribucin son ciertas:
y
5.4.0.1 Observacin
5.4.0.2 Proposicin (Distribuciones discretas)
Aun cuando la variable tomase un nmero infinito de valores, x1, x2, ..., no hay ningn problema en
comprobar que cada x contribuye con una cantidad f(x ) al total de modo que
i i
Cuando la variable es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de
los trminos en el sentido anterior, ya que el conjunto de valores que puede tomar la variable es no
numerable. En este caso, lo que generaliza de modo natural el concepto de suma ( ) es el de
integral ( ). Por otro lado, para variables continuas no tiene inters hablar de la probabilidad de que
, ya que esta debe de valer siempre 0, para que la suma infinita no numerable de las
probabilidades de todos los valores de la variable no sea infinita.
De este modo es necesario introducir un nuevo concepto que sustituya en v.a. continuas, al de funcin
de probabilidad de una v.a. discreta. Este concepto es el de funcin de densidad de una v.a.
continua, que se define como una funcin integrable, que verifica las dos
propiedades siguientes:
y que adems verifica que dado a<b, se tiene que
5.6.0.1 Observacin
y por ello al calcular la probabilidad de un intervalo no afectara nada el que este sea abierto o cerrado
por cualquiera de sus extremos, pues estos son puntos y por tanto de probabilidad nula:
5.6.0.2 Observacin
tenemos la masa media de probabilidad por unidad de longitud en (a,b], es decir, su densidad media
de probabilidad. Si hacemos tender a hacia b, , la cantidad
es la densidad de probabilidad del punto b (que como hemos mencionado no se ha de confundir con
la probabilidad de b).
5.6.0.3 Proposicin
Demostracin
Los sucesos
y
5.6.0.1 Observacin
5.6.0.2 Observacin
5.6.0.3 Proposicin
5.6.2 Cambio de variable
5.6.2.1 Proposicin
Nodo Raz: 5. Variables aleatorias
Siguiente: 5.6.2 Cambio de variable
Previo: 5.4 Variables aleatorias discretas
6.2 Introduccin
6.4 Distribuciones discretas
6.4.2 Distribucin de Bernoulli
6.4.2.1 Observacin
6.4.4.1 Ejemplo
6.4.6.1 Observacin
6.4.6.2 Observacin
6.4.6.3 Ejemplo
6.4.6.4 Observacin
6.4.8.1 Ejemplo
6.4.8.2 Observacin
6.4.10.1 Observacin
6.4.12.1 Ejemplo
6.8.4.1 Ejemplo
6.8.4.2 Ejemplo
6.8.6.1 Observacin
6.8.6.2 Observacin
6.8.6.3 Proposicin (Cambio de origen y escala)
6.8.6.4 Ejemplo
6.8.6.5 Proposicin
6.8.6.6 Aproximacin a la normal de la ley binomial
6.8.6.7 Ejemplo
6.8.6.8 Ejemplo
6.8.8 Distribucin
6.8.8.1 Observacin
6.8.8.2 Ejemplo
6.2 Introduccin
Como complemento al captulo anterior en el que definimos todos los conceptos relativos a variables
aleatorias, describimos en ste las principales leyes de probabilidad que encontramos en las
aplicaciones del clculo de probabilidades. Atendiendo a la clasificacin de las v.a. en discretas y
continuas describiremos las principales leyes de probabilidad de cada una de ellas, las cuales
constituirn el soporte subyacente de la inferencia estadstica y a las que ser necesario hacer
referencia en el estudio de dicho bloque. Iniciamos este captulo con el estudio de las distribuciones
para v.a. discretas.
6.4.6.2 Observacin
6.4.6.3 Ejemplo
6.4.6.4 Observacin
6.4.8.2 Observacin
Por ejemplo no es reproductiva con respecto a p, ya que la suma de dos v.a. de esa familia
6.8.4.2 Ejemplo
6.8.6.2 Observacin
6.8.6.4 Ejemplo
6.8.6.5 Proposicin
6.8.6.7 Ejemplo
6.8.6.8 Ejemplo
6.8.8 Distribucin
6.8.8.1 Observacin
6.8.8.2 Ejemplo
6.10 Problemas
Ejercicio 6..1. Para estudiar la regulacin hormonal de una lnea metablica se inyectan ratas albinas
con un frmaco que inhibe la sntesis de protenas del organismo. En general, 4 de cada 20 ratas
mueren a causa del frmaco antes de que el experimento haya concluido. Si se trata a 10 animales con
el frmaco, cul es la probabilidad de que al menos 8 lleguen vivas al final del experimento?
Ejercicio 6..2. En una cierta poblacin se ha observado un nmero medio anual de muertes por
cncer de pulmn de 12. Si el nmero de muertes causadas por la enfermedad sigue una distribucin
de Poisson, cul es la probabilidad de que durante el ao en curso:
1.
Haya exactamente 10 muertes por cncer de pulmn?
2.
15 o ms personas mueran a causa de la enfermedad?
3.
10 o menos personas mueran a causa de la enfermedad?
Ejercicio 6..3. Daando los cromosomas del vulo o del espermatozoide, pueden causarse
mutaciones que conducen a abortos, defectos de nacimiento, u otras deficiencias genticas. La
probabilidad de que tal mutacin se produzca por radiacin es del 10%. De las siguientes 150
mutaciones causadas por cromosomas daados, cuntas se esperara que se debiesen a radiaciones?
Cul es la probabilidad de que solamente 10 se debiesen a radiaciones?
Ejercicio 6..4. Entre los diabticos, el nivel de glucosa en sangre X, en ayunas, puede suponerse de
distribucin aproximadamente normal, con media 106 mg/100 ml y desviacin tpica 8 mg/100 ml, es
decir
1.
Hallar
2.
Qu porcentaje de diabticos tienen niveles comprendidos entre 90 y 120 ?
3.
Hallar .
4.
Hallar .
5.
Hallar el punto x caracterizado por la propiedad de que el 25% de todos los diabticos tiene un
nivel de glucosa en ayunas inferior o igual a x.
Ejercicio 6..5. Una prueba de laboratorio para detectar herona en sangre tiene un 92% de precisin.
Si se analizan 72 muestras en un mes, cul es la probabilidad de que:
1.
60 o menos estn correctamente evaluadas?
2.
menos de 60 estn correctamente evaluadas?
3.
exactamente 60 estn correctamente evaluadas?
Ejercicio 6..6. El 10% de las personas tiene algn tipo de alergia. Se seleccionan aleatoriamente 100
individuos y se les entrevista. Hallar la probabilidad de que, al menos, 12 tengan algn tipo de
alergia. Hallar la probabilidad de que, como mximo, 8 sean alrgicos a algo.
1.
Cuntas muertes debidas a esta causa se esperan?
2.
Cul es la probabilidad de que haya, como mximo, 25 de estas muertes?
3.
Cul es la probabilidad de que el nmero de muertes debidas a esta causa est entre 25 y 35,
inclusive?
2.
Tomando una muestra de 80 personas, cul ser la probabilidad de que aparezcan ms de 5
individuos con la caracterstica?
Ejercicio 6..9. Se supone que en una cierta poblacin humana el ndice ceflico i, (cociente entre el
dimetro transversal y el longitudinal expresado en tanto por ciento), se distribuye segn una Normal.
El 58% de los habitantes son dolicocfalos (i 75), el 38% son mesocfalos (75 < i 80) y el 4%
son braquicfalos (i > 80). Hllese la media y la desviacin tpica del ndice ceflico en esa
poblacin.
Ejercicio 6..10. Se supone que la glucemia basal en individuos sanos, X sigue una distribucin
s
1.
Por debajo de qu valor se considera sano a un individuo? Cuntos sanos sern clasificados
como diabticos?
2.
Se sabe que en la poblacin en general el 10% de los individuos son diabticos cul es la
probabilidad de que un individuo elegido al azar y diagnosticado como diabtico, realmente lo
sea?
Ejercicio 6..11. Supngase que se van a utilizar 20 ratas en un estudio de agentes coagulantes de la
sangre. Como primera experiencia, se dio un anticoagulante a 10 de ellos, pero por inadvertencia se
pusieron todas sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del
estudio y se les tom al azar sin reemplazamiento. Cul es la probabilidad de que de las 12 elegidas
6 tengan la droga y 6 no la tengan?
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: I. Inferencia estadstica
Previo: 6.8.12 La distribucin de Snedecor
7. Introduccin a la inferencia
7.2 Introduccin
7.4 Tcnicas de muestreo sobre una poblacin
7.4.2 Muestreo aleatorio
7.4.2.5 Ejemplo
7.4.4.1 Ejemplo
7.4.4.4 Teorema
7.4.6.1 Observacin
7.6.4 Consistencia
7.6.4.1 Teorema
7.6.6 Eficiencia
7.6.8 Suficiencia
7.6.8.1 Teorema
7.6.12.2 Proposicin
7.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando, extraer conclusiones
acerca de la naturaleza de una poblacin. Al ser la poblacin grande y no poder ser estudiada en su
integridad en la mayora de los casos, las conclusiones obtenidas deben basarse en el examen de
solamente una parte de sta, lo que nos lleva, en primer lugar a la justificacin, necesidad y
definicin de las diferentes tcnicas de muestreo.
Los primeros trminos obligados a los que debemos hacer referencia, definidos en el primer captulo,
sern los de estadstico y estimador.
Dentro de este contexto, ser necesario asumir un estadstico o estimador como una variable aleatoria
con una determinada distribucin, y que ser la pieza clave en las dos amplias categoras de la
inferencia estadstica: la estimacin y el contraste de hiptesis.
Cmo deducir la ley de probabilidad sobre determinado carcter de una poblacin cuando slo
conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relacin entre
el fumar y el cncer de pulmn e intentamos extender las conclusiones obtenidas sobre una muestra
al resto de individuos de la poblacin.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
* Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del total de la
poblacin, los gastos de recogida y tratamiento de los datos sern menores. Por ejemplo,
cuando se realizan encuestas previas a un referndum, es ms barato preguntar a 4.000
personas su intencin de voto, que a 30.000.000;
* Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras mesas
electorales, se obtiene una aproximacin bastante buena del resultado final de unas elecciones,
muchas horas antes de que el recuento final de votos haya finalizado;
* Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de bombillas, no
es posible en la prctica destruirlas todas para conocer su vida media, ya que no quedara nada
que vender. Es mejor destruir slo una pequea parte de ellas y sacar conclusiones sobre las
dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos problemas:
7.4.2.5 Ejemplo
7.4.4.4 Teorema
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende
unvocamente de los valores de la muestra observados (X =x ), la eleccin de la muestra es un proceso
i i
aleatorio. Una vez que la muestra ha sido elegida, se denomina estimacin el valor numrico que toma
el estimador sobre esa muestra.
Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria (que
usaremos para estimar el parmetro desconocido) deben ser:
* Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al
parmetro desconocido.
* Carencia de sesgo
El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el valor del
parmetro.
* Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se obtenga como
estimacin el valor exacto del parmetro. Sin embargo podemos pedirle que su dispersin con
respecto al valor central (varianza) sea tan pequea como sea posible.
* Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.
A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de esas caractersticas.
7.6.0.1 Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es gaussiana,
7.6.0.1 Ejemplo
7.6.2 Carencia de sesgo
7.6.4 Consistencia
7.6.4.1 Teorema
7.6.6 Eficiencia
7.6.8 Suficiencia
7.6.8.1 Teorema
7.6.12.2 Proposicin
7.6.12.4 Proposicin
7.6.12.5 Proposicin
8. Estimacin confidencial
8.2 Introduccin
8.4 Intervalos de confianza para la distribucin normal
8.4.2 Intervalo para la media si se conoce la varianza
8.4.4.1 Ejemplo
8.4.6.1 Ejemplo
8.4.8.1 Ejemplo
8.4.10.2 Ejemplo
8.6.2.1 Ejemplo
8.6.4.1 Ejemplo
8.8 Problemas
8.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores o intervalo, en los
que pueda precisarse --con una determinada probabilidad-- que el valor de un parmetro se encuentra
dentro de esos lmites. Este parmetro ser habitualmente una proporcin en el caso de variables
dicotmicas, y la media o la varianza para distribuciones gaussianas.
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A la probabilidad de
que hayamos acertado al decir que el parmetro estaba contenido en dicho intervalo se la denomina
nivel de confianza. Tambin se denomina nivel de significacin a la probabilidad de equivocarnos.
Ms adelante, consideramos el caso en que tenemos dos poblaciones donde cada una sigue su propia
ley de distribucin y . Los problemas asociados a este caso son
* Diferencia de medias homocedticas
Se realiza el clculo del intervalo de confianza suponiendo que ambas variables tienen la
misma varianza, es decir son homocedticas. En la prctica se usa este clculo, cuando ambas
variables tienen parecida dispersin.
8.4.10.2 Ejemplo
8.8 Problemas
Ejercicio 8..1. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos sanos,
obtenindose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo que la muestra ha
sido obtenida por muestreo aleatorio simple sobre una poblacin normal?
Ejercicio 8..2. La cantidad mnima requerida para que un anestsico surta efecto en una intervencin
quirrgica fue por trmino medio de 50 mg, con una desviacin tpica de 10,2 mg, en una muestra de
60 pacientes. Obtener un intervalo de confianza para la media al 99%, suponiendo que la muestra fue
extrada mediante muestreo aleatorio simple sobre una poblacin normal.
Ejercicio 8..3. Un investigador est interesado en estimar la proporcin de muertes debidas a cncer
de estmago en relacin con el nmero de defunciones por cualquier tipo de neoplasia. Su
experiencia le indica que sera sorprendente que tal proporcin supere el valor de 1/3. Qu tamao
de muestra debe tomar para estimar la anterior proporcin, con una confianza del 99%, para que el
valor estimado no difiera del valor real en ms de 0,03?.
Ejercicio 8..4. Se desea realizar una estimacin confidencial de la varianza de la estatura de los nios
varones de 10 aos de una ciudad con una confianza del 95%. Cul ser dicho intervalo si se toma
una muestra de 101 nios al azar, entre todos los que renen las caractersticas deseadas, y medimos
sus estaturas, y se obtienen las siguientes estimaciones puntuales: ,
Ejercicio 8..5. Un cardilogo se encuentra interesado en encontrar lmites de confianza al 90%, para
la presin sistlica tras un cierto ejercicio fsico. Obtenerlos si en 50 individuos se obtuvo ,
y suponemos que el comportamiento de la v.a. es normal.
Ejercicio 8..6. En una muestra de 25 bebs varones de 12 semanas de vida, se obtuvo un peso medio
de 5.900 gr y una desviacin tpica de 94 gr.
1.
Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.
2.
Cuntos nios habra que tomar para estimar dicha media con una precisin de 15 gr?
Ejercicio 8..7. En un determinado servicio de odontologa se sabe que el 22% de las visitas llevan
consigo una extraccin dentaria inmediata. En cierto ao, de 2.366 visitas, 498 dieron lugar a una
extraccin inmediata. Entran en contradiccin las cifras de ese ao con el porcentaje establecido de
siempre?
Ejercicio 8..8. Slo una parte de los pacientes que sufren un determinado sndrome neurolgico
consiguen una curacin completa; Si de 64 pacientes observados se han curado 41, dar una
estimaciones puntual y un intervalos de la proporcin de los que sanan. Qu nmero de enfermos
habra que observar para estimar la proporcin de curados con un error inferior a 0,05 y una
confianza del 95%?
Ejercicio 8..10. En una determinada regin se tom una muestra aleatoria de 125 individuos, de los
cuales 12 padecan afecciones pulmonares.
1.
Estmese la proporcin de afecciones pulmonares en dicha regin.
2.
Si queremos estimar dicha proporcin con un error mximo del 4%, para una confianza del
95%, qu tamao de muestra debemos tomar?
Ejercicio 8..11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso expresado
en gramos, obtenemos:
1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2
1.
Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.
2.
Sin ninguna informacin previa.
9. Contrastes de hiptesis
9.2 Introduccin
9.2.0.1 Ejemplo
9.2.2 Observaciones
9.4.2.4 Observacin
9.4.2.6 Ejemplo
9.4.2.7 Ejemplo
9.8.0.3 Observacin
9.10.10.1 Observacin
9.10.10.2 Observacin
9.10.10.3 Ejemplo
9.14 Problemas
9.2 Introduccin
Pueden presentarse en la prctica, situaciones en las que exista una teora preconcebida relativa a la
caracterstica de la poblacin sometida a estudio. Tal sera el caso, por ejemplo si pensamos que un
tratamiento nuevo puede tener un porcentaje de mejora mayor que otro estndar, o cuando nos
planteamos si los nios de las distintas comunidades espaolas tienen la misma altura. Este tipo de
circunstancias son las que nos llevan al estudio de la parcela de la Estadstica Inferencial que se
recoge bajo el ttulo genrico de Contraste de Hiptesis. Implica, en cualquier investigacin, la
existencia de dos teoras o hiptesis implcitas, que denominaremos hiptesis nula e hiptesis
alternativa, que de alguna manera reflejarn esa idea a priori que tenemos y que pretendemos
contrastar con la ``realidad''. De la misma manera aparecen, implcitamente, diferentes tipos de
errores que podemos cometer durante el procedimiento. No podemos olvidar que, habitualmente, el
estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de slo una parte de sta. De la probabilidad con la que estemos
dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida.
Desarrollamos en este captulo los contrastes de hiptesis para los parmetros ms usuales que
venimos estudiando en los captulos anteriores: medias, varianzas y proporciones, para una o dos
poblaciones. Los contrastes desarrollados en este captulo se apoyan en que los datos de partida
siguen una distribucin normal.
9.2.0.1 Ejemplo
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo
de Espaa. Antes de tomar una muestra, lo lgico es hacer la siguiente suposicin a priori, (hiptesis
que se desea contrastar y que denotamos H0):
Al obtener una muestra de tamao n=8, podramos encontrarnos ante uno de los siguientes casos:
1.
Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}
2.
Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}
Intuitivamente, en el caso a sera lgico suponer que salvo que la muestra obtenida sobre los
habitantes del pueblo sea muy poco representativa9.1, la hiptesis H0 debe ser rechazada. En el caso b
tal vez no podamos afirmar con rotundidad que la hiptesis H0 sea cierta, sin embargo no podramos
descartarla y la admitimos por una cuestin de simplicidad.
Este ejemplo sirve como introduccin de los siguientes conceptos: En un contraste de hiptesis
(tambin denominado test de hiptesis o Contraste de significacin) se decide si cierta hiptesis H0
que denominamos hiptesis nula puede ser rechazada o no a la vista de los datos suministrados por
una muestra de la poblacin. Para realizar el contraste es necesario establecer previamente una
hiptesis alternativa (H1) que ser admitida cuando H0 sea rechazada. Normalmente H1es la
negacin de H0, aunque esto no es necesariamente as.
La decisin de rechazar o no la hiptesis nula est al fin y al cabo basado en la eleccin de una
muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Los errores que se pueden
cometer se clasifican como sigue:
* Error de tipo I:
Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error
es lo que anteriormente hemos denominado nivel de significacin. Es una costumbre
establecida el denotarlo siempre con la letra
9.2.0.1 Ejemplo
9.2.2 Observaciones
mediante muestreo aleatorio simple. Vamos a ver cuales son las tcnicas para contrastar hiptesis
sobre los parmetros que rigen X. Vamos a comenzar haciendo diferentes tipos de contrastes para
medias y despus sobre las varianzas y desviaciones tpicas.
9.4.2.4 Observacin
9.4.2.6 Ejemplo
9.4.2.7 Ejemplo
La v.a. X, definida como el nmero de xitos obtenidos en una muestra de tamao n es por definicin
una v.a. de distribucin binomial:
frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (de contraste) que ya fue
considerado anteriormente en la construccin de intervalos de confianza para proporciones y que
sigue una distribucin aproximadamente normal para tamaos muestrales suficientemente grandes:
Si la hiptesis H0 es cierta se tiene
Para el contraste
siendo el criterio de aceptacin o rechazo de la hiptesis nula el que refleja la figura 9.12:
Luego
Paciente x y d
i i i
1 150 120 30
2 180 130 50
... ... ... ...
n 140 90 50
d = x -y
i i i
Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento es una v.a. d
que se distribuye normalmente, pero cuyas media y varianza son desconocidas
Si queremos contrastar la hiptesis de que el tratamiento ha producido cierto efecto
en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos conviene es
Entonces se define
Si el contraste es
entonces se rechaza H0 si . Para el test contrario
se rechaza H0 si .
9.8.0.3 Observacin
No supone ninguna dificultad el haber realizado el contraste con conocida, ya que entonces el
estadstico del contraste es
De las que de modo independiente se extraen muestras de tamao respectivo n1 y n2. Los tests que
vamos a realizar estn relacionados con la diferencias existentes entre ambas medias o los cocientes
de sus varianzas.
9.10.10.2 Observacin
9.10.10.3 Ejemplo
Si X1 y X2 contabilizan en cada caso el nmero de xitos en cada muestra se tiene que cada una de
ellas se distribuye como una variable aleatoria binomial:
de modo que los estimadores de las proporciones en cada poblacin tienen distribuciones que de un
modo aproximado son normales (cuando n1 y n2 son bastante grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada poblacin
es una cantidad conocida
En el contraste
se rechaza H0 si .
9.14 Problemas
En todos los problemas que siguen a continuacin, se supone que las muestras han sido elegidas de
modo independiente, y que las cantidades cuantitativas que se miden, se distribuyen de modo
gaussiano. En temas posteriores se ver cmo contrastar si estas premisas pueden ser aceptadas o no
al examinar las muestras.
Ejercicio 9..2. El nmero de accidentes mortales en una ciudad es, en promedio, de 12 mensuales.
Tras una campaa de sealizacin y adecentamiento de las vas urbanas se contabilizaron en 6 meses
sucesivos
8, 11, 9, 7, 10 , 9
Ejercicio 9..5. Una poblacin infantil se dice que es susceptible de recibir una campaa de educacin
e higiene si su porcentaje de nios con dientes cariados es superior al . Una poblacin con
12.637 nios, debe hacerse la campaa si de 387 de ellos 70 tenan algn diente cariado?
Ejercicio 9..6. Un 8% de los individuos que acuden a un servicio sanitario son hiperutilizadores del
mismo (ms de 11 visitas al ao) y, de entre ellos, un 70% son mujeres. De entre los no
hiperutilizadores, son mujeres el 51%. Puede afirmarse que han variado los hbitos de estas si, tras
una campaa de informacin y control de visitas, de 90 mujeres elegidas al azar 6 resultaron
hiperutilizadoras?
Ejercicio 9..7. Se conoce que un de los individuos tratados crnicamente con digoxina sufren
una reaccin adversa por causa de ella. A 10 pacientes se les administr durante largo tiempo
digoxina mas otros medicamentos, y de ellos 5 desarrollaron la reaccin adversa. Puede afirmarse
que la asociacin entre la digoxina y los otros medicamentos hace variar el nmero de reacciones
adversas?
Ejercicio 9..8. Para comprobar si un tratamiento con cidos grasos es eficaz en pacientes con eczema
atpico, se tomaron 10 pacientes con eczema de ms de 9 meses y se les someti durante 3 semanas a
un tratamiento ficticio (placebo) y durante las tres siguientes a un tratamiento con cidos grasos. Tras
cada periodo, un mdico ajeno al proyecto evalu la importancia del eczema en una escala de 0 (no
eczema) a 10 (tamao mximo de eczema). Los datos fueron los siguientes:
Placebo 6 8 4 8 5 6 5 6 4 5
Tratamiento 5 6 4 5 3 6 6 2 2 6
Es eficaz el tratamiento?
Inic. 180 200 160 170 180 190 190 180 190 160 170 190 200 210 220
Fin. 140 170 160 140 130 150 140 150 190 170 120 160 170 160 150
Es efectivo el tratamiento?
Ejercicio 9..10. Muchos autores afirman que los pacientes con depresin tienen una funcin cortical por
debajo de lo normal debido a un riego sanguneo cerebral por debajo de lo normal. A dos muestras de
individuos, unos con depresin y otros normales, se les midi un ndice que indica el flujo sanguneo en la
materia gris (dado en mg/(100g/min))obtenindose:
Depresivos n1=19
Normales n2=22
Ejercicio 9..11. Por fistulizacin se obtuvo el pH de 6 muestras de bilis heptica con los siguientes resultados:
Se desea saber al nivel de significacin del 0,05 si la bilis heptica puede considerarse neutra. Si se conociera
, qu decisin tomaramos?
Ejercicio 9..12. La prueba de la d-xilosa permite la diferenciacin entre una esteatorrea originada por una
mala absorcin intestinal y la debida a una insuficiencia pancretica, de modo que cifras inferiores a 4 grs. de
d-xilosa, indican una mala absorcin intestinal. Se realiza dicha prueba a 10 individuos, obtenindose una
media de 3,5 grs. y una desviacin tpica de 0'5 grs. Sepuede decir que esos pacientes padecen una mala
absorcin intestinal?
Ejercicio 9..13. La eliminacin por orina de aldosterona est valorada en individuos normales en 12 mgs/24
h. por trmino medio. En 50 individuos con insuficiencia cardaca se observ una eliminacin media de
aldosterona de 13 mgs/24 h., con una desviacin tpica de 2,5 mgs/24 h.
1.
Son compatibles estos resultados con los de los individuos normales?
2.
La insuficiencia cardaca aumenta la eliminacin por orina de aldosterona?
Ejercicio 9..14. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presin
sangunea sistlica de 11 pacientes.
Placebo 211 210 210 203 196 190 191 177 173 170 163
H-cloro 181 172 196 191 167 161 178 160 149 119 156
Segn estos datos experimentales, podemos afirmar que existe diferencia en la presin sistlica media
durante la utilizacin de estos dos frmacos?
Ejercicio 9..15. Se sabe que el 70% de los pacientes internados en un hospital traumatolgico requieren algn
tipo de intervencin quirrgica. Para determinar si un nuevo mtodo de fisioterapia reduce el porcentaje de
intervenciones, se aplica ste a 30 pacientes de los cuales 17 requieren alguna intervencin quirrgica.
Comprobar que no hay razones suficientes para afirmar la eficacia del mtodo con un nivel de confianza del
95%.
Ejercicio 9..16. De un estudio sobre la incidencia de la hipertensin en la provincia de Mlaga, se sabe que en
la zona rural el porcentaje de hipertensos es del 27,7%. Tras una encuesta a 400 personas de una zona urbana,
se obtuvo un 24% de hipertensos.
1.
Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que en la zona
rural?
2.
Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural?
Ejercicio 9..17. Con cierto mtodo de enseanza para nios subnormales se obtiene una desviacin tpica de
8, en las puntuaciones de los tests finales. Se pone a prueba un nuevo mtodo y se ensaya en 51 nios. Las
calificaciones obtenidas en los tests finales dan una desviacin tpica de 10. Puede asegurarse que el nuevo
mtodo produce distinta variacin en las puntuaciones?
Ejercicio 9..18. Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y otro de
36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una clula fotoelctrica durante 24
horas. Los datos obtenidos fueron los siguientes:
Ejercicio 9..19. Se pretende comprobar la hiptesis expuesta en algunos trabajos de investigacin acerca de
que la presencia del antgeno AG-4 est relacionada con un desenlace Con ste fin, se hizo una revisin sobre
las historias clnicas de 21 mujeres muertas por carcinoma de cuello uterino, observando que 6 de ellas
presentaban el citado antgeno. Por otro lado y con fines de comparacin se tom otra muestra de 42 personas,
con edades similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello
uterino, en 28 de las cuales se observ la presencia del citado antgeno. Est relacionada la presencia del
antgeno con una efectividad del tratamiento?
Ejercicio 9..20. Se quiso probar si la cirrosis de hgado hacia variar el ndice de actividad de la colinesterasa
en suero. Se eligieron dos muestras aleatorias e independientes de individuos. Los resultados fueron:
Individuos normales n1 = 20
Ejercicio 9..21. Un investigador ha realizado el siguiente experimento: Tom una primera muestra de 25
pacientes que padecan cierto sntoma y otra segunda muestra de 30 pacientes con el mismo sntoma. A los de
la primera muestra les aplic un tratamiento especifico y a los de la segunda les dio un placebo. Anot el
tiempo en horas en que cada uno dijo que el sntoma haba desaparecido y obtuvo los siguientes resultados:
a n1=25
Muestra 1
a n2=30
Muestra 2
Ejercicio 9..22. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se
realiz un test oral de glucosa a dos muestras de pacientes sanos, unos jvenes y otros adultos. El test
consisti en medir el nivel de glucosa en sangre en el momento de la ingestin (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes:
Jvenes:
Basal 81 89 80 75 74 97 76 89 83 77
60 minutos 136 150 149 141 138 154 141 155 145 147
Adultos:
Basal 98 94 93 88 79 90 86 89 81 90
60 minutos 196 190 191 189 159 185 182 190 170 197
1.
Se detecta una variacin significativa del nivel de glucosa en sangre en cada grupo?
2.
Es mayor la concentracin de glucosa en sangre a los 60 minutos, en adultos que en jvenes?
3.
El contenido basal de glucosa en sangre, es menor en jvenes que en adultos?
4.
Se detecta a los 60 minutos una variacin del nivel de glucosa en sangre diferente de los
adultos, en los jvenes?
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 10. Contrastes basados en el estadstico
Previo: 9.12 Contrastes sobre la diferencia de
10.2 Introduccin
10.4 El estadstico y su distribucin
10.4.0.1 Observacin
10.4.0.2 Observacin
10.4.0.3 Observacin
10.4.0.4 Ejemplo
10.4.0.5 Observacin
10.6.2.1 Ejemplo
10.6.4.3 Ejemplo
10.8 Problemas
10.2 Introduccin
Existen multitud de situaciones en el mbito de la salud en el que las variables de inters, las cuales no pueden
cuantificarse mediante cantidades numricas, entre las que el investigador est interesado en determinar
posibles relaciones. Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervencin
quirrgica, el sexo, el nivel socio-cultural, etc. En este caso tendramos, a lo sumo, las observaciones
agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de
las variables, por los que los mtodos estudiados en los captulos anteriores no seran aplicables.
El objetivo de este tema es el estudio de este tipo de cuestiones en relacin con las variables cualitativas (y
tambin v.a. discretas o continuas agrupadas en intervalo). Estos son los contrastes asociados con el
estadstico . En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia
significativa entre las frecuencias observadas y las especificadas por la ley terica del modelo que se
contrasta, tambin denominadas ``frecuencias esperadas".
Sin embargo, aunque ste sea el aspecto ms conocido, el uso del test no se limita al estudio de variables
cualitativas. Podramos decir que existen tres aplicaciones bsicas en el uso de este test, y cuyo desarrollo
veremos en el transcurso de este captulo:
Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribucin Binomial
pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de un experimento aleatorio
es una clase c1, c2, ..., c (c , ), que puede representar valores cualitativos, discretos o bien
k i
intervalos para variables continuas. Sea p la probabilidad de que el resultado del experimento sea la clase c .
i i
0
Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores p , propuestos para las cantidades p
i i
son correctas o no, en funcin de los resultados experimentales
Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen a partir de ella unas
frecuencias observadas de cada clase que representamos mediante , , ...,
c
i
c1
c2
... ...
c
k
el cual, siguiendo la linea de razonamiento anterior debe tomar valores pequeos si H0 es cierta. Si al tomar una
muestra, su valor es grande eso pone en evidencia que la hiptesis inicial es probablemente falsa. Para decidir
cuando los valores de son grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente
resultado
Como slo son los valores grandes de los que nos llevan a rechazar H0, la regin crtica es (vase la figura
10.1
es decir,
10.4.0.1 Observacin
A pesar de que el contraste parece ser bilateral al ver la expresin de la relacin (10.1), la forma de , nos indica
que el contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo observado, pero no
podemos contrastar hiptesis alternativas del tipo ``p mayor que cierto valor''.
i
10.4.0.2 Observacin
Obsrvese que en realidad no es una variable aleatoria continua: Los posibles resultados de la muestra se
resumen en las cantidades , , ..., , que nicamente toman valores discretos. Luego las cantidades
slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con decimales). Por tanto su
distribucin no es continua. Luego al realizar la aproximacin mencionada hay que precisar en qu condiciones
el error cometido es pequeo. De modo aproximado podemos enunciar el siguiente criterio que recuerda al de la
aproximacin binomial por la distribucin normal:
1.
n>30;
2.
para todo .
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se utiliza entonces una
regla ms flexible y que no sacrifica demasiada precisin con respecto a la anterior:
1.
Para ninguna clase ocurre que
2.
para casi todos los , salvo a lo sumo un de ellos.
Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos
elementos con sus adyacentes.
10.4.0.3 Observacin
El lector puede considerar los contrastes con el estadstico como una generalizacin del contraste de
proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.
10.4.0.4 Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se
considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y el
resto son mujeres. Qu conclusiones se obtiene de ello?
Solucin:
El contraste a realizar se puede plantear de dos formas que despus veremos que son equivalentes:
De la muestra obtenemos la siguiente estimacin puntual del porcentaje de enfermos de sexo masculino:
Para ver si esto es un valor ``coherente'' con la hiptesis nula, calculemos la significatividad del
contraste:
Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres,
junto a los valores esperados en el caso de que la hiptesis nula fuese cierta:
frecuencias frecuencias
observadas esperadas diferencia
donde:
k=2es el numero de modalidades posibles que toma la variable sexo: hombres y mujeres;
p=0 es el nmero de parmetros estimados;
h=1 es el nmeros de restricciones impuestas a los valores esperados. Slo hay una (que es
habitual), que consiste en que el nmero esperado de enfermos entre hombres y mujeres es 60.
El estadstico calculado sobre la muestra ofrece el valor experimental:
En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo
porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la ltima forma de plantear el contraste
(diferencia entre frecuencias observadas y esperadas) es que la tcnica se puede aplicar a casos ms generales que
variables dicotmicas, como se ver ms adelante.
10.4.0.5 Observacin
Hay una frmula alternativa para el clculo de cuya expresin es ms fcil de utilizar cuando realizamos
clculos:
Demostracin
10.4.0.1 Observacin
10.4.0.2 Observacin
10.4.0.3 Observacin
10.4.0.4 Ejemplo
10.4.0.5 Observacin
10.6.4.3 Ejemplo
10.8 Problemas
Ejercicio 10..1. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific a sus hijos en
tres categoras en funcin de su peso en relacin con los percentiles y de la poblacin. El resultado
se expresa en la tabla siguiente:
Si 117 529 19
No 124 1147 117
Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?
Ejercicio 10..2. Varios libros de Medicina Interna recomiendan al mdico la palpacin de la arteria radial con
el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasific segn la
palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura,
respectivamente) y segn una puntuacin de 0 a 4 en orden creciente de degeneracin arterial (evaluada tras
la muerte del paciente y su anlisis anatomo-patolgico). Los datos son los de la tabla siguiente:
Palpabilidad
Degeneracin 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5
Ejercicio 10..3. Se realiz una encuesta a 2979 andaluces para evaluar su opinin acerca de la atencin
recibida en los Ambulatorios de la Seguridad Social, clasificndolos tambin en relacin a sus estudios.
Analizar los datos de la siguiente tabla:
Opinin
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7
Ejercicio 10..4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos, etc...), se divide
un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada rea. Los resultados son los
siguientes:
o 0 1 2 3 4 5
n de bacterias
o 229 211 93 35 7 1
n de reas
Ejercicio 10..5. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:
Ejercicio 10..6. La distribucin en Andaluca del grupo sanguneo es de un 35%, 10%, 6% y un 49% para los
grupos A, B, AB y O respectivamente. En Mlaga, se realiz el estudio en una muestra de 200 individuos
obtenindose una distribucin del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribucin del grupo sanguneo en dicha provincia es igual que en Andaluca.
Ejercicio 10..7. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en
el estudio. Cada paciente despus de haber tomado el nuevo analgsico durante un periodo de tiempo
determinado, fue interrogado para saber si prefera ste o el que haba tomado anteriormente con regularidad,
obteniendo los siguientes resultados:
o o o
n de pacientes que n de mdicos que n total de pacientes
prefieren el nuevo obtienen estos que prefieren el
analgsico resultados nuevo analgsico
0 5 0
1 6 6
2 8 16
3 10 30
4 10 40
5 15 75
6 17 102
7 10 70
8 10 80
9 9 81
10 o ms 0 0
Total 100 500
Ejercicio 10..8. Disponemos de una muestra de 250 mujeres mayores de 18 aos, cuyos pesos son los
presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribucin
Normal.
Pesos o
n de mujeres
30 - 40 16
40 - 50 18
50 - 60 22
60 - 70 51
70 - 80 62
80 - 90 55
90 - 100 22
100 - 110 4
Ejercicio 10..9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguneo, en tres muestras
referidas atendiendo al tipo de tensin arterial, se distribuyen de igual manera. Para lo cual, se reuni una
muestra de 1500 sujetos a los que se les determin su grupo sanguneo y se les tom la tensin arterial,
clasificndose sta en baja, normal, y alta. Obtenindose los siguientes resultados:
Grupo sanguneo
Tensin arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500
Ejercicio 10..10. La recuperacin producida por dos tratamientos distintos A y B se clasifican en tres
categoras: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22
recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14
corresponden al tratamiento A y de los 14 que tienen una mala recuperacin corresponden al tratamiento A.
Son igualmente efectivos ambos tratamientos para la recuperacin de los pacientes?
11.2 Introduccin
11.4 ANOVA con un factor
11.4.0.1 Observacin
11.4.2.1 Observacin
11.4.2.2 Ejemplo
11.4.4.1 Observacin
11.4.8.1 Ejemplo
11.10 Problemas
11.2 Introduccin
Del mismo modo que el contraste generalizaba el contraste de dos proporciones, es necesario definir un
nuevo contraste de hiptesis que sea aplicable en aquellas situaciones en las que el nmero de medias que
queremos comparar sea superior a dos. Es por ello por lo que el anlisis de la varianza, ANOVA11.1 surge
como una generalizacin del contraste para dos medias de la de Student, cuando el nmero de muestras a
contrastar es mayor que dos.
Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaos que suponemos que provienen de
tres poblaciones normales con la misma varianza:
podramos en plantearnos como primer mtodo el fijar una cantidad prxima a cero y realizar los
Por ello el nivel de significacin obtenido para este contraste sobre la igualdad de medias de tres muestras no
es como hubisemos esperado obtener inicialmente, sino . Por ejemplo, si tomamos un
nivel de significacin para cada uno de los contrastes de igualdad de dos medias, se obtendra que
el nivel de significacin (error de tipo I) para el contraste de las tres medias es de 1-0,93=0,27, lo que es una
cantidad muy alta para lo que acostumbramos a usar.
Una tcnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este captulo y
que se denomina anlisis de la varianza.
Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede
presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se
administra a t=3 grupos de personas y se les realiza cierta medicin del efecto causado:
Resultado de la medicin
Gripe (nivel 1) 5 3 2 5 4 3
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10
Sanos (nivel 3) 2 3 2 1 2 3 2
En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe,
apendicitis, o que est sana.
De modo general podemos representar las t muestras (o niveles) del siguiente modo:
donde por supuesto, los tamaos de cada muestra n , no tienen por que ser iguales. En este caso decimos que
i
se trata del modelo no equilibrado.
11.4.0.1 Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:
En el modelo de un factor suponemos que las observaciones del nivel i, x , provienen de una
ij
variable X de forma que todas tienen la misma varianza --hiptesis de homocedasticidad:
ij
o lo que es lo mismo,
De este modo es el valor esperado para las observaciones del nivel i, y los errores son
variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de
dispersin para todas las observaciones.
Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el valor
esperado para una persona cualquiera de la poblacin (sin tener en cuenta los diferentes
niveles), y considerar los efectos introducidos por los niveles, de modo que
11.4.0.1 Observacin
11.4.2 Especificacin del modelo
11.4.2.1 Observacin
11.4.2.2 Ejemplo
Como ilustracin podemos escribir el modelo ANOVA de dos factores con interaccin en el cual se tiene
Si suponemos que no hay interaccin entre ambos factores, es decir, cada factor acta independientemente del
otro, tenemos el modelo de efectos aditivos:
En ambos casos se supone que las cantidades son independientes para todos los niveles i1 e i2 y todos
los individuos jdentro de esos niveles, estando equidistribuidos y con la misma varianza segn una ley
gaussiana:
Las observaciones de cada muestra han de ser independientes y tambin la de las muestras
entre s. Para ello podemos aplicar cualquiera de los contrastes no paramtricos de
aleatoriedad. En principio esta aleatoriedad es algo que es bastante razonable admitir si la
metodologa para elegir los datos (muestreo) ha sido realizada siguiendo tcnicas adecuadas.
Los datos han de ser normales en cada una de las muestras. Esto es algo que debera ser
contrastado previamente antes de utilizar el ANOVA de un factor mediante, por ejemplo, el
test de ajuste a la distribucin normal mediante el estadstico que ya conocemos, o bien el
Para esto podemos utilizar un par de contrastes que exponemos brevemente a continuacin:
contraste de Cochran y contraste de Bartlett.
12.2 Introduccin
12.4 Aleatoriedad de una muestra: Test de rachas
12.4.0.1 Aproximacin normal del test de rachas
12.14 Problemas
12.2 Introduccin
Hasta ahora todas las tcnicas utilizadas para realizar algn tipo de inferencia exigan:
bien asumir de ciertas hiptesis como la aleatoriedad en las observaciones que componen la
muestra, o la normalidad de la poblacin, o la igualdad de varianzas de dos poblaciones, etc;
El conjunto de estas tcnicas de inferencia se denominan tcnicas paramtricas. Existen sin embargo otros
mtodos paralelos cuyos procedimientos no precisan la estimacin de parmetros ni suponer conocida
ninguna ley de probabilidad subyacente en la poblacin de la que se extrae la muestra. Estas son las
denominadas tcnicas no paramtricas o contrastes de distribuciones libres, algunos de los cuales
desarrollamos en este captulo. Sus mayores atractivos residen en que:
Por otro lado, esta liberacin en los supuestos sobre la poblacin tiene inconvenientes. El principal es la falta
de sensibilidad que poseen para detectar efectos importantes. En las tcnicas no paramtricas juega un papel
fundamental la ordenacin de los datos, hasta el punto de que en gran cantidad de casos ni siquiera es
necesario hacer intervenir en los clculos las magnitudes observadas, ms que para establecer una relacin de
menor a mayor entre las mismas, denominadas rangos.
Consideremos una muestra de tamao n que ha sido dividida en dos categoras y con n1 y n2
observaciones cada una. Se denomina racha a una sucesin de valores de la misma categora. Por ejemplo si
estudiamos una poblacin de personas podemos considerar como categora el sexo
En funcin de las cantidades n1 y n2 se espera que el nmero de rachas no sea ni muy pequeo ni muy
grande.
Si las observaciones son cantidades numricas estas pueden ser divididas en dos categoras que poseen
aproximadamente el mismo tamao ( ), si consideramos la mediana de las observaciones
como el valor que sirve para dividir a la muestra:
Se define la v.a. R como el nmero de rachas. Su distribucin est tabulada para los casos y
Si el tamao de cualquiera de las dos muestras es mayor que 30, la distribucin de R se aproxima a una
normal de media
y varianza
y se considera el estadstico
Se calculan sobre la muestra la media, la desviacin tpica un estadstico T y por ltimo el estadstico del
contraste D cuya distribucin est tabulada
otro caso se asume. Para realizar este test es necesario que al menos .
provienen de poblaciones que tienen idnticas distribuciones. Para aplicar estos contrastes ser en primer
lugar necesario contrastar si cada una de las muestras se ha obtenido mediante un mecanismo aleatorio. Esto
puede realizarse mediante un test de rachas.
Supongamos que el contraste de aleatoriedad de ambas muestras (cuantitativas) no permite que sta se
rechace a un nivel de significacin . Entonces aplicaremos el contraste de Mann--Withney o el de rachas
de Wald--Wolfowitz, que exponemos a continuacin.
El test de Wilcoxon, al igual que los otros contrastes no paramtricos puede realizarse siempre que lo sea su
homlogo paramtrico, con el inconveniente de que este ltimo detecta diferencias significativas en un
Sin embargo a veces las hiptesis necesarias para el test paramtrico (normalidad de las diferencias apareadas,
d ) no se verifican y es estrictamente necesario realizar el contraste que presentamos aqu. Un caso muy claro
i
de no normalidad es cuando los datos pertenecen a una escala ordinal.
1.
Ordenar las cantidades de menor a mayor y obtener sus rangos.
2.
Consideramos las diferencias d cuyo signo (positivo o negativo) tiene menor frecuencia (no
i
consideramos las cantidades d =0) y calculamos su suma, T
i
Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las observaciones con
signo de d de mayor frecuencia, pero si hemos ya calculado Tla siguiente expresin de T' es ms
i
sencilla de usar
T' = m(n+1)-T
3.
Si T T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon (tabla
nmero 10), se rechaza la hiptesis nula del contraste
donde
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumple algunas de las
condiciones que se necesitan para aplicar dicho mtodo.
Al igual que las dems tcnicas no paramtricas, sta se apoya en el uso de los rangos asignados a las
observaciones.
Para la exposicin de este contraste, supongamos que tenemos k muestras representadas en una tabla como
sigue,
Niveles Observaciones de X
... ...
Nivel x x x
k1 k2 knk
Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su rango (1
para la menor, 2 para la siguiente, ...,Npara la mayor).
Para cada una de las muestras, se calcula R , , como la suma de los rangos de
i
las observaciones que les corresponden. Si H0 es falsa, cabe esperar que esas cantidades sean
muy diferentes.
Se calcula el estadstico:
12.14 Problemas
Ejercicio 12..1. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actan
estudiantes, indican que la duracin media de la visita por paciente es de 22 minutos. Se cree que en centros
donde con un elevado nmero de estudiantes en prcticas esta cifra es menor. Se obtuvieron los siguientes
datos sobre las visitas de 20 pacientes aleatoriamente seleccionados:
1.
Constituyen estos datos una muestra aleatoria?
2.
Podemos concluir en base a estos datos que la poblacin de la cual fue extrada esta muestra
sigue una distribucin Normal?
Ejercicio 12..2. Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes
cuya funcin renal est deteriorada a causa de una metstasis maligna avanzada de causa no urolgica. Se
mide la tensin arterial de cada paciente antes y despus de la operacin. Se obtienen los siguientes
resultados:
Tensin arterial
Antes 150 132 130 116 107 100 101 96 90 78
Despus 90 102 80 82 90 94 84 93 89 8?????
Ejercicio 12..3. Se ensayaron dos tratamientos antirreumticos administrados al azar, sobre dos grupos de 10
pacientes, con referencia a una escala convencional (a mayor puntuacin, mayor eficacia), valorada despus
del tratamiento. Los resultados fueron:
Nivel de eficacia del tratamiento
Tratamiento primero 12 15 21 17 38 42 10 23 35 28
Tratamiento segundo 21 18 25 14 52 65 40 43 35 42
Ejercicio 12..4. Puesto que el hgado es el principal lugar para el metabolismo de los frmacos, se espera que
los pacientes con enfermedades de hgado tengan dificultades en la eliminacin de frmacos. Uno de tales
frmacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este frmaco. Se estudian tres
grupos: controles normales, pacientes con cirrosis heptica, pacientes con hepatitis activa crnica. A cada
individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basndose en los anlisis de
sangre se determina para cada uno el tiempo de mxima concentracin en plasma (en horas). Se obtienen
estos datos:
Se puede concluir que las tres poblaciones difieren respecto del tiempo de mxima concentracin en plasma
de fenilbutazona?
Ejercicio 12..5. El administrador de un laboratorio est considerando la compra de un aparato para analizar
muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 tcnicos mdicos
que despus de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dndole el
rango 1 al preferido. Se obtienen los siguientes datos:
Analizador de sangre
Tcnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4
7 5 1 4 3 2
Utilizar el contraste adecuado para determinar si los tcnicos perciben diferencias entre los aparatos.
Ejercicio 12..6. Los efectos de tres drogas con respecto al tiempo de reaccin a cierto estmulo fueron
estudiados en 4 grupos de animales experimentales. El grupo IV sirvi de grupo control, mientras que a los
grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicacin del
estmulo:
A B C Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35
Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reaccin?
Ejercicio 12..7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4
grupos de personas. Usar el test de Kruskal-Wallis para contrastar a un nivel de confianza de 0'05, la hiptesis
nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados.
Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3
Ejercicio 12..8. La cantidad de aminocidos libres fue determinada para 4 especies de ratas sobre 1 muestra
de tamao 6 para cada especie. Comprobar si el contenido de aminocidos libres es el mismo para las 4
especies.
Especies de ratas
I II III IV
431'1 477'1 385'5 366'8
440'2 479'0 387'9 369'9
443'2 481'3 389'6 371'4
445'5 487'8 391'4 373'2
448'6 489'6 399'1 377'2
451'2 403'6 379'4 381'3
Ejercicio 12..9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y da en
diferentes momentos en un ao. Usar un contraste no paramtrico para comprobar si el consumo de comida es
el mismo en los 4 meses considerados.
Ejercicio 12..10. Se hizo un estudio neurofisiolgico sobre la conduccin motora tibial posterior en dos
grupos de pacientes embarazadas con las siguientes determinaciones:
Ejercicio 12..11. En un experimento diseado para estimar los efectos de la inhalacin prolongada de xido
de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10 animales
similares sirvieron de controles. La variable de inters fue el nivel de hemoglobina despus del experimento.
Se desea saber si puede concluirse que la inhalacin prolongada de xido de cadmio disminuye el nivel de
hemoglobina segn los siguientes datos que presentamos:
Nivel de hemoglobina
Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3
15'7 16'7 13'7 15'3 14'0
No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8
Ejercicio 12..12. A 11 ratas tratadas crnicamente con alcohol se les midi la presin sangunea sistlica
antes y despus de 30 minutos de administrarles a todas ellas una cantidad fija de etanol, obtenindose los
datos siguientes:
Ejercicio 12..13. Un test de personalidad, tiene dos formas de determinar su valoracin suponiendo
inicialmente que ambos mtodos miden igualmente la extroversin. Para ello se estudia en 12 personas
obtenindose los siguientes resultados:
Medida de la extraversin
Forma A 12 18 21 10 15 27 31 6 15 13 8 10
Forma B 10 17 20 5 21 24 29 7 11 13 8 11
Bibliografa
AB 92
P. ARMITAGE, G. BERRY, Estadstica para la Investigacin Biomdica. Doyma, Barcelona,
1992.
Cal 74
G. CALOT, Curso de Estadstica Descriptiva. Paraninfo, Madrid, 1974.
Car 82
J.L. CARRASCO DE LA PEA, El Mtodo Estadstico en la Investigacin Mdica. Karpus,
Madrid, 1982.
Dan 90
W.W. DANIEL, Applied Nonparemetric Statistics. PWS-Kent Publishing Company, Boston,
1990.
Ham 90
L.C. HAMILTON, Modern Data Analysis. Brooks/Cole Publishing Company, Pacific Grove,
1990.
Mar 94
A. MARTN ANDRS, J.D. LUNA DEL CASTILLO, Bioestadstica para las Ciencias de la salud.
Norma, Granada, 1994.
MS 88
L.A. MARASCUILO, R.C. SERLIN, Statistical Methods for the Social and Behavioral Sciences.
W.H. Freeman and Company, Nueva York, 1988.
Pe 94
D. PEA SNCHEZ DE RIVERA, Estadstica: Modelos y Mtodos, 1. Alianza Universidad
Textos, Madrid, 1994.
RMR 91
T. RIVAS MOYA, M.A. MATEO, F. RUS DAZ, M. RUIZ, Estadstica Aplicada a las Ciencias
Sociales: Teora y Ejercicios (EAC). Secretariado de Publicaciones de la Universidad de
Mlaga, Mlaga, 1991.
RM 92
E. RUBIO CALVO, T. MARTNEZ TERRER Y OTROS, Bioestadstica. Coleccin Monografas
Didcticas, Universidad de Zaragoza, Zaragoza, 1992.
RS 79
R.D. REMINGTON, M.A. SCHORK, Estadstica Biomtrica y Sanitaria. Prentice Hall
International, Madrid, 1979.
Rum 77
L. RUIZ-MAYA, Mtodos Estadsticos de investigacin (Introduccin al Anlisis de la
Varianza). I.N.E. Artes Grficas, Madrid, 1977.
SR 90
E. SNCHEZ FONT, F. RUS DAZ, Gua para la Asignatura de Bioestadstica (EAC).
Secretariado de Publicaciones de la Universidad de Mlaga, Mlaga, 1990.
ST 85
STEEL, TORRIE, Bioestadstica (Principios y Procedimientos). Mac Graw-Hill, Bogot, 1985.
Tso 89
M. TSOKOS, Estadstica para Psicologa y Ciencias de la Salud. Interamericana Mac Graw-
Hill, Madrid, 1989.
WG 82
S.L. WEINBERG, K.P. GOLDBERG, Estadstica Bsica para las Ciencias Sociales. Nueva
Editorial Interamericana, Mexico, 1982.
Zar 74
J.H. ZAR, Biostatistical Analysis. Prentice Hall Inc., Englewood Cliffs, 1974.
This document was generated using the LaTeX2HTML translator Version 98.1p1 release (March 2nd,
1998)
Copyright 1993, 1994, 1995, 1996, 1997, Nikos Drakos, Computer Based Learning Unit,
University of Leeds.
Condiciones de uso
Puedes usar libremente el material tanto si eres profesor como estudiante.
Formato PPT. Para abrir usando Microsoft Power Point o el paquete ofimtico
gratuito Openoffice. Es lo mismo que lo anterior, pero os lo recomiendo para seguirlo
en la pantalla de un ordenador.
Formato VDEO (WMV). Son vdeos sobre la teora teorico y las prcticas con
SPSS. Para que no aparezca borroso tenis que poner el escritorio a resolucin
superior o igual a 800x600 y el reproductor windows media a pantalla completa.
Es posible que al descargar los vdeos no veas la imagen. Eso ocurre si tu
reproductor "Windows Media" no tiene instalados los CODECS necesarios. En
principio si la versin es la windows media 9 o superior, debera hacerlo
automticamente si la primera vez que veas el vdeo estas conectado a Internet. Si a
pesar de eso no lo ves, te puede ayudar descargar este CODEC e instlalo en tu
ordenador. Tranquilo. No tiene virus.
Primer ciclo:
Conforme vayamos avanzando en el curso, iris encontrando nuevos temas. Puedo poner
temas antes de que estn terminado. Incluso puedo modificarlos completamente. Estad
atento a las modificaciones.
Versin
Presentacin Vdeo windows
Tema Ttulo Acrobat
PowerPoint media 9
Reader
Tema 0 Presentacin del curso. PDF PPT
Tema 1 Introduccin a la PDF PPT Vdeo (6.2MB)
estadstica descriptiva.
Tema 2 Estadsticos PDF PPT Vdeo(12.4MB)
Tema 3 Estadstica bivariante y PDF PPT Vdeo(10.5MB)
regresin
Tema 4 Probabilidad PDF PPT Vdeo (14.5MB)
Tema 5 Modelos de PDF PPT En preparacin
Probabilidad.
Tema 6 Muestreo PDF PPT En preparacin
Tema 7 Contrastes de hiptesis. PDF PPT Vdeo (9.7MB)
Versin Vdeo
Prctica Ttulo Acrobat windows
Reader media 9
Prctica Creacin de una base de datos en Vdeo prctica
1 SPSS. 1 (1.8MB)
Acrobat Vdeo
Prctica Ttulo Vdeo prctica Bases de datos
Reader teora
Tema 1 Estadstica PDF Vdeo (4,7MB) Se registro
descriptiva mal el
con una o ms audio, pero
variables. algo se
entiende...
Vdeo 1
parte
(34MB):
Conceptos
bsicos,
tablas,
grficas.
Vdeo 2
parte
(45MB):
Estadsticos
Vdeo 3
parte
(18MB):
Varias
variables.
Tema 2 Intervalos de PDF Vdeo
confianza (32MB)
Tema 3 Contrastes de PDF Vdeo
hiptesis. (20MB)
Significacin
estadstica
Tema 4 Variables PDF Vdeo Vdeo tstud.sav para 2 muestras
numricas en (1,7MB) (47MB) relacionadas.
2 grupos muestras
T-Student relacionadas. calcio.sav para 2
Wilcoxon muestras independientes.
Mann- Vdeo (3MB)
Whitney muestras
independientes.
Tema 5 Variables PDF Vdeo Vdeo lectura.sav para 3
numricas en (2,7MB) (31MB) muestras independientes.
varios grupos ANOVA, post-
ANOVA hoc y Kruskal-
Kruskal- Wallis.
Wallis
Diplomatura en Fisioterapia
E. U. Ciencias de la Salud
Universidad de Mlaga
La estadstica es antiptica
n En mis estudios no sera necesario
n Quidquid latine dictum sit, Las Ciencias de la Salud no son
altum viditur deterministas
1
Pgina del curso
http://www.bioestadistica.uma.es
n Contiene enlaces a
Apuntes y videos de los temas
Informacin ampliada
Pruebas de autoevaluacin
Tutoras, bibliografa, enlaces tiles,...
Anuncios, resultados de los exmenes
n Papel
Diapositivas en el servicio de reprografa. 2 diapositivas por pgina
n Contienen errores?
S, con confianza del 95%.
Ayudadme a corregirlos. Contrastadlo con lo que realmente diga e n clase.
2
Bibliografa
n Bioestadstica: mtodos y aplicaciones
F. Rius, F.J. Barn, E. Snchez, L. Parras.
Ed: SPICUM, Mlaga. 3 Ed. 1999.
ISBN: 84-7496-579-9
n Bioestadstica Amigable
M.A. Martnez-Gonzlez, Jokin de Irala, F.J. Fauln Fajardo
Ed: Daz de Santos. Madrid, 2001.
Evaluacin
n Dificultades
Un slo examen en febrero (adems del de septiembre)
Las respuestas errneas valen - de las acertadas.
La opcin ms evidente no es la correcta... o s...
3
Letra pequea
Estos apuntes estn hechos para complementar las clases a los alumnos de la asignatura
cuatrimestral de Bioestadstica en la E.U. de Ciencias de la Sal ud y en la Facultad de
Medicina de la Universidad de Mlaga, no siendo el nico material pedaggico del que
disponen. Pueden contener errores, se omiten conceptos y aclaraciones que haran
farragosas las transparencias, y por supuesto no estn temas importantes que deberan
formar parte de un curso de estadstica de mayor duracin. No me hago responsable de que
algo de lo anterior pueda causar el suspenso de alguin, que lo deje la novia, etc... Mi objetivo
es que puedan servir para facilitar el aprendizaje de la estadstica a cualquiera que le interese,
as que si quieres, puedes descargarlos libremente. Si eres profesor de la materia, puedes
hacer correcciones, mejorar las explicaciones, modificarlo como te parezca mejor para
adecuarlo a tus alumnos y distribuirlo libremente sin ningn tipo de consentimiento ni
necesidad de informarme. No es necesario incluir ninguna referencia al original, aunque se
agradece. La nica restriccin es que no debes aadir al documento ningn tipo de
restricciones adicionales a las que ests leyendo. De todas formas, si lo haces no soy el tipo
de persona que reclama. Si las modificaciones o temas que aadas crees que pueden ser de
utilidad para incluirlos en esta distribucin, te agradecera que me informases en
baron@uma.es. Si lo usas en algn curso y tienes la amabilidad de informarme tambin te lo
agradecer. Si crees que estas condiciones van en contra de algn tipo de ley de propiedad
intelectual (que no me he ledo) no puedes usarlo de ninguna manera. Est expresamente
prohibido usar cualquier argumentacin en contra que a un abogado pudiera ocurrrsele o no.
4
Siguiente: 1. Conceptos previos
1. Conceptos previos
1.2 Introduccin
1.3 Qu es la estadstica?
1.5.0.1 Ejemplo
1.11 Problemas
2. Medidas descriptivas
2.1 Introduccin
2.3.2 La media
2.3.4 La mediana
2.3.6 La moda
2.5.0.1 Ejemplo
2.5.0.2 Ejemplo
2.5.0.3 Ejemplo
2.5.0.4 Ejemplo
2.11 Problemas
3. Variables bidimensionales
3.2 introduccin
3.6.4 Independencia
3.8.0.1 Proposicin
3.10.0.1 Proposicin
3.10.0.2 Ejemplo
3.12 Regresin
3.14 Problemas
4.4.0.1 Ejemplo
4.6.0.0.0.1 Unin:
4.6.0.0.0.2 Interseccin:
4.6.0.0.0.3 Diferencia:
4.8.0.1 Ejemplo
4.10.0.1 Ejemplo
4.10.0.2 Observacin
4.12.0.1 Proposicin
4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.6 Ejemplo
4.12.0.8 Ejemplo
4.12.0.9 Observacin
4.14.0.1 Ejemplo
4.16 Problemas
5. Variables aleatorias
5.2 Introduccin
5.2.0.1 Observacin
5.2.0.2 Observacin
5.4.0.1 Observacin
5.6.0.1 Observacin
5.6.0.2 Observacin
5.6.0.3 Proposicin
5.8.4 Varianza
I. Inferencia estadstica
7. Introduccin a la inferencia
7.2 Introduccin
7.6.0.1 Ejemplo
7.6.4 Consistencia
7.6.6 Eficiencia
7.6.8 Suficiencia
8. Estimacin confidencial
8.2 Introduccin
8.8 Problemas
9. Contrastes de hiptesis
9.2 Introduccin
9.2.0.1 Ejemplo
9.2.2 Observaciones
9.8.0.3 Observacin
9.14 Problemas
10.4.0.3 Observacin
10.4.0.4 Ejemplo
10.4.0.5 Observacin
10.8 Problemas
11.4.0.1 Observacin
mltiples
11.6 ANOVA de varios factores
11.8 Consideraciones sobre las hiptesis subyacentes en el modelo factorial
11.10 Problemas
12.2 Introduccin
12.14 Problemas
Bibliografa
About this document ...