Estadística Biología 2023 24def

Departamento de Estadı́stica
.
e Investigación Operativa
I.O
e
a
ic
Estadı́stica Aplicada a la Biologı́a
st
dí
Curso 2023-2024
ta
Es
Grado en Biologı́a
GRADO EN BIOLOGÍA
ESTADÍSTICA APLICADA A LA BIOLOGÍA
CURSO 2023-2024
Nota: Este documento es un guión-resumen de la materia que se desarrollará en clase.

No puede ser considerado como “apuntes”de la asignatura
CARÁCTER: FORMACIÓN BÁSICA. PRIMER CURSO. PRIMER CUATRIMESTRE
.
DEPARTAMENTO QUE LA IMPARTE: Departamento de Estadı́stica e Investigación Operativa
I.O
Facultad de Matemáticas.
www.departamento.us.es/destadio
Número de créditos: 6
METODOLOGÍAS DOCENTES:
e
Sesiones académicas teórico-prácticas: 4 horas semanales.
Tutorı́as personalizadas: voluntarias.

a
Básicamente, se expondrá el contenido teórico de los temas a través de clases presenciales, siguiendo
ic
libros de texto de referencia y/o documentación adicional, que servirán para fijar los conocimientos
y contenidos ligados a las competencias previstas.
st
A su vez, las clases prácticas de resolución de problemas y/o estudio de casos prácticos permitirán
la aplicación de las definiciones, propiedades y teoremas expuestos en las clases teóricas, utilizando
dí
cuando sea conveniente medios informáticos, de modo que los estudiantes alcancen las competencias
previstas.
Se impartirán clases prácticas con software especı́fico si las condiciones (laboratorios, presencialidad,
ta
o/y otras circunstancias excepcionales) lo permitan. Inicialmente, las fechas para clases con software
especı́fico son:
Es
GRUPO A: 18.10.2023, 25.10.2023, 13.12.2023 y 20.12.2023
GRUPO B: 16.10.2023, 23.10.2023, 11.12.2023 y 18.12.2023
GRUPO C: 16.10.2023, 23.10.2023, 11.12.2023 y 18.12.2023
GRUPO D: 17.10.2023, 24.10.2023, 12.12.2023 y 19.12.2023
Tanto las aulas de realización de las prácticas, como los posibles cambios, se comunicarán en clase y
a través de la plataforma.
1
BLOQUES TEMÁTICOS
BLOQUE TEMÁTICO I: ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DA-

TOS.
1. Introducción a la Estadı́stica. Conceptos básicos.
2. Métodos gráficos.
3. Caracterı́sticas asociadas a una distribución de frecuencias.
.
4. Series estadı́sticas de dos caracteres. Regresión.
I.O
BLOQUE TEMÁTICO II: NOCIONES DE PROBABILIDAD. MODELOS TEÓRICOS
POBLACIONALES.
5. Experimentos aleatorios. Probabilidad.
e
6. Variables aleatorias. Modelos clásicos de distribuciones de probabilidad.
BLOQUE TEMÁTICO III: INFERENCIA ESTADÍSTICA.

a
7. Introducción a la Inferencia Estadı́stica.
ic
8. El problema de la estimación: Estimación puntual y estimación por regiones de confianza.
st
9. Contrastes de hipótesis estadı́sticas.

dí
SISTEMAS Y CRITERIOS DE EVALUACIÓN:

Se ofrecerán dos formas de evaluación:
ta
1.- Sistema de evaluación continua (evaluación alternativa). Se desarrolla durante el periodo de do-
cencia de la asignatura a través de pruebas escritas y participación en las actividades presenciales u
Es
otros medios que serán fijados por el profesor.
Se realizarán dos pruebas escritas que constarán de cuestiones relacionadas con la materia impartida
en las clases teóricas y también del planteamiento y resolución de problemas de naturaleza similar a
los realizados en clase. La calificación obtenida en estas pruebas constituye el 90 % de la calificación
final. Por otro lado, se evaluarán las prácticas de laboratorio con software especifico mediante un
ejercicio práctico, interpretando los resultados obtenidos. La calificación obtenida en esta prueba
constituye el 10 % de la calificación final.
Para el cálculo de la calificación final, mediante este sistema de evaluación, habrá que obtener un
2
mı́nimo de 4 puntos sobre 10 en cada una de las pruebas escritas. Para superar la asignatura, la media
final ponderada de las tres pruebas debe ser mayor o igual a 5. La materia aprobada (calificación
mayor o igual que 5) en la evaluación continua será eliminatoria sólo para la primera convocatoria.
Fechas inicialmente previstas para las pruebas:
PRIMERA PRUEBA EVALUACIÓN ALTERNATIVA:
GRUPO A: 7.11.2023 (en horario de 11 a 13 horas)
GRUPO B: 6.11.2023 (en horario de 12 a 14 horas)
.
I.O
GRUPO C: 6.11.2023 (en horario de 9 a 11 horas)
GRUPO D: 7.11.2023 (en horario de 11 a 13 horas)
SEGUNDA PRUEBA EVALUACIÓN ALTERNATIVA:

La realizarán todos los grupos el 21-12-2023 (el horario se comunicará en clase y a través de la pla-
e
taforma)
a
PRUEBA DE LABORATORIO: Todos los grupos la realizarán en la última clase práctica.
ic
Tanto las aulas de realización de las PRUEBAS como los posibles cambios se comunicarán en clase
y a través de la plataforma.
st
dí
2.- Sistema de evaluación tradicional (convocatorias oficiales). El alumno deberá realizar un examen
teórico-práctico que constará de dos partes acordes con la división de contenidos realizada en las dos
pruebas escritas de la evaluación alternativa. Dicho examen tendrá estructura análoga a la de dichas
ta
pruebas alternativas. La evaluación de las prácticas de laboratorio se realizará mediante una prueba
de laboratorio o incluyendo cuestiones en el examen teórico-práctico sobre la materia desarrollada
Es
en las prácticas.
Para el cálculo de la calificación final mediante el sistema de evaluación tradicional se seguirán los
mismos criterios que en la evaluación alternativa, tanto en la ponderación como en la puntuación
mı́nima exigida para cada parte del examen.
Las fechas y aulas de los exámenes de las convocatorias oficiales serán publicadas por la facultad.
BIBLIOGRAFÍA RECOMENDADA
Arriaza Goméz. A. J. et al. (2008) Estadı́stica Básica con R y R-Commander. Servicio de Publicaciones
Universidad de Cádiz.
3
Fernández Dı́az, M.J., Garcı́a Ramos, J.M., Asensio Muñoz, I., Fuentes Vicente, A. (1992). 225 pro-
blemas de Estadı́stica aplicada a las ciencias sociales: ejercicios prácticos para alumnos. Ed. Sı́ntesis
González Rosales, A., Guervós Sánchez, E., Garcı́a Nicolás, M. B. (2010). Estadı́stica Aplicada. Re-
curso electrónico.
Martı́n Andrés, A., Luna del Castillo, J.D. (2004). Bioestadı́stica para las Ciencias de la Salud. Ed.
Norma-Capitel.
Milton, J.S. (2007). Estadı́stica para la Biologı́a y Ciencias de la Salud. Ed. McGraw-Hill.
Quesada Paloma, V. Isidoro Martı́n, A., López Martı́n, L.A. (2005). Curso y ejercicios de estadı́stica:
.
aplicación a las ciencias biológicas, médicas y sociales. Ed. Alhambra.
I.O
Rius Dı́az, F., Barón López, F.J. (2005). Bioestadı́stica. Ed. Thomson.
Samuels, M.L., Witmer J.A., Schaffner, A.A. (2012). Fundamentos de Estadı́stica para las Ciencias
de la Vida. Ed. Pearson.
e
Spiegel, M.R., Stephens, L.J. (2009). Estadı́stica. Ed. McGraw-Hill.
a
ic
st
dí
ta
Es
4
BLOQUE TEMÁTICO I:
ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DATOS
1. Introducción a la Estadı́stica. Conceptos básicos. Distribuciones de

frecuencias
.
1.1. Introducción
I.O
Los investigadores en el campo de las Ciencias de la Vida realizan sus actividades en varios entor-
nos como en la clı́nica, laboratorio, invernadero o en el campo. Generalmente los datos resultantes
presentan una cierta variabilidad. A menudo el grado de variabilidad es sustancial, incluso aunque
las condiciones experimentales se mantengan tan constantes como sea posible. Las Ciencias de la
e
Vida son esencialmente ciencias experimentales que necesitan del razonamiento inductivo a partir de
datos: se hacen afirmaciones acerca de un colectivo de individuos u objetos, habiendo observado en
realidad sólo una parte de ellos.
a
La Estadı́stica es la ciencia de la interpretación de los datos y de la toma de decisiones en entornos
ic
de variabilidad e incertidumbre. Los conceptos y métodos de la estadı́stica permiten al investigador
describir la variabilidad y planificar sus investigaciones teniendo en cuenta dicha variabilidad. Es
st
decir, la estadı́stica tiene como objetivo descubrir los patrones que pueden estar más o menos ocultos
por la variabilidad de las respuestas de los sistemas vivos.
Los métodos estadı́sticos se utilizan para analizar los datos y extraer la máxima información, iden-
dí
tificando además la fiabilidad de dicha información.

ta
1.2. Tipos de estudios

Hay dos modos básicos de recoger datos: estudios observacionales y diseño de experimentos.
Es
En un estudio observacional, los investigadores recogen datos de un modo que no interfieran

directamente en cómo se obtienen los datos.
En cambio, el investigador puede realizar una planificación previa para la recolección de datos. A la
metodologı́a utilizada en este caso se le llama diseño de experimentos.
1.3. Conceptos básicos

Se llama población o universo al conjunto de elementos que es objeto de estudio y que
poseen una determinada caracterı́stica. Cada uno de los elementos de la población se denomina
5
individuo o unidad estadı́stica.
Se llama Carácter o Variable a un rasgo de la población, es decir, es una caracterı́stica de

una persona o cosa a la que se le puede asignar un número o una categorı́a.
Distinguimos dos tipos de variables o caracteres: cualitativos y cuantitativos.
• Una Variable Cualitativa, Categórica o Atributo es aquella que no se puede cuan-

tificar. Dado que las variables categóricas no pueden medirse no tienen un orden natural
asociado (cualitativa nominal), sin embargo, en algunas ocasiones las categorı́as se pue-
den disponer en algún tipo de orden que tenga sentido (cualitativa ordinal).
.
I.O
• Una Variable Cuantitativa o Numérica es aquella que puede ser medida numérica-
mente.
A su vez dentro de las variables cuantitativas podemos distinguir dos tipos: variables
discretas (toman valores aislados) y variables continuas (toman todos los valores de
un intervalo).
e
Durante este curso trabajaremos básicamente con variables cuantitativas, discretas o continuas.
a
No siempre es posible estudiar todos los elementos de una población. En estos casos se recurre
a observar un subconjunto de la misma. Se llama muestra a un subconjunto de la población
ic
elegido en términos de representatividad. Por regla general el tamaño de la muestra se
representa por n (o N).
st
De la población, por razones de inaccesibilidad, extraeremos una muestra, de forma que del compor-
tamiento estudiado en la muestra pueda generalizarse o inferir el de la población.
dí
Razones habituales de inaccesibilidad a la población:

ta
Imposibilidad fı́sica de acceder a toda la población.
Imposibilidad económica de acceder a toda la población:

Es
Imposibilidad por destrucción del individuo objeto de estudio.
Para poder extraer conclusiones de la muestra que sean aplicables a toda la población con una base
cientı́fica las diferencias entre la muestra y la población deben ser mı́nimas, es decir la muestra debe
ser representativa de la población. Pero la población es desconocida, debemos escoger la muestra “a
ciegas”. Por ello debemos cuidar:
Tamaño de la muestra. Viene determinado por el tamaño de la población, por la variabilidad

de la misma, por el procedimiento de selección de la muestra, el objetivo del estudio y por la
precisión deseada.
6
Procedimiento de elección que garantice la objetividad y la representatividad.
La forma de seleccionar los individuos que han de constituir la muestra tiene, como es lógico, una
importancia capital para garantizar que ésta permita obtener conclusiones que puedan extrapolarse
válidamente a la población de la que la muestra procede. No hay que olvidar nunca que el objeto
final del estudio es siempre la población y que la muestra es sólo un medio para obtener información
sobre ésta.
Con el fin de permitir inferir conclusiones válidas sobre una población la muestra debe ser repre-
sentativa de ésta. En teorı́a la única forma de garantizar la representatividad de una muestra es
seleccionando al azar los individuos.
.
I.O
Definición 1 Una muestra aleatoria simple de n elementos es una muestra en la que:
a) todos los miembros de la población, y sólo ellos, tienen las mismas oportunidades de ser inclui-
dos en la muestra,
e
b) los miembros de la muestra se escogen independientemente entre sı́. Es decir que las oportu-
nidades de que un determinado miembro de la población sea elegido no dependen de que otros
miembros de la población son elegidos y los valores que presentan esos individuos no están
a
condicionados por los valores que presenten otros individuos.
ic
Aunque esta forma de proceder rara vez sea aplicable de forma estricta en la práctica, siempre hay
st
que extremar las precauciones para que la forma real de obtener la muestra sea lo más parecida
posible a la ideal.
Al procedimiento mediante el cual se obtiene la muestra se llama muestreo.
dí
El objetivo de los métodos de muestreo es conseguir que la muestra sea una réplica de la población.
Pero esto puede fallar debido a:
ta
Errores de muestreo. Se producen por la variabilidad inherente a la población.

Es
Errores ajenos al muestreo:
• de observación: sobrecobertura, de medida y de proceso.

• no en la observación: subcobertura, falta de respuesta.
Según la naturaleza de la investigación que se lleve a cabo será conveniente un tipo de muestreo u
otro. Se deberá escoger aquel que minimice los errores de muestreo.
7
1.4. Distribución de frecuencias
Un primer paso para entender el significado de un conjunto de datos de una variable dada consiste
en explorar dichos datos y describirlos en forma resumida. En este apartado se verán tres mane-
ras complementarias de resumir esta información: las distribuciones de frecuencias, las medidas de
localización y las medidas de dispersión.
Usualmente se denotará por X la variable de interés en el estudio, n el número total de individuos
estudiados (población total o grupo reducido de ésta). Los valores observados u observaciones de la
variable X para dichos individuos, se notarán por x1 , . . . , xn . También se utiliza frecuentemente, de
forma alternativa, la notación x1 , . . . , xk para expresar los valores distintos observados de la variable
.
ordenados en sentido creciente, es decir, x1 < . . . < xk .
I.O
Si X es un atributo, a x1 , . . . , xk se les denomina modalidades. Nótese que en caso nominal x1 , . . . , xk
no se pueden ordenar.
Una distribución de frecuencias es simplemente una presentación del número de apariciones de
cada valor en el conjunto de datos. Esta información se puede presentar en forma de tabla o mediante
e
un gráfico.
Para ello, definimos los siguientes conceptos:
a
Frecuencia (absoluta) de xi , que denotaremos ni , es el número de veces que se observa dicho
ic
valor. Se tiene que
k
X
ni ∈ Z+ , 0 ≤ ni ≤ n, (1 ≤ i ≤ k) y ni = n.
st
i=1
Frecuencia relativa de xi , que denotaremos fi , es la proporción de observaciones que toman

dí
dicho valor, es decir

ni
fi = , 1 ≤ i ≤ k.
n
ta
Se tiene que
X k
0 ≤ fi ≤ 1 (1 ≤ i ≤ k) y fi = 1.
Es
i=1
Si la variable es cuantitativa o cualitativa ordinal, se puede definir:
Frecuencia (absoluta) acumulada de xi , que denotaremos Ni , es el número de observaciones

con valor menor o igual que xi .
i
X
Ni = nj , 1 ≤ i ≤ k.
j=1
Se tiene que
N1 = n 1 , Nk = n, ni = Ni − Ni−1 , 2 ≤ i ≤ k.
8
Frecuencia relativa acumulada de xi , que denotaremos Fi , es la proporción de observaciones
con valor menor o igual que xi ,
i
Ni X
Fi = = fj , 1 ≤ i ≤ k.
n j=1
Se tiene que
F 1 = f1 , Fk = 1, fi = Fi − Fi−1 , 2 ≤ i ≤ k.
Las frecuencias se representan en una tabla, denominada tabla de frecuencias. En el caso de que
.
la variable sea cualitativa nominal, serı́a:
I.O
xi ni fi
x1 n1 f1
x2 n2 f2
.. .. ..
. . .
e
xk nk fk
a n 1
Y en el caso de variable cualitativa ordinal o cuantitativa discreta:

ic
xi ni Ni fi Fi
x1 n1 N1 f1 F1
st
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
dí
xk nk Nk fk Fk
n 1
ta
Si la variable toma muchos valores distintos, entonces es usual agruparlos en intervalos. En esta
situación, se definen de manera análoga las frecuencias de los intervalos, que se disponen en una
Es
tabla de la siguiente forma:
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(L0 , L1 ] n1 N1 f1 F1 x1 a1 h1
(L1 , L2 ] n2 N2 f2 F2 x2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
(Lk−1 , Lk ] nk Nk fk Fk xk ak hk
n 1
9
donde xi = (Li + Li−1 )/2 es el punto medio de cada intervalo, denominado marca de clase y que
representa al intervalo, ai = Li − Li−1 es la amplitud del intervalo y hi = ni /ai es la densidad de
frecuencia.
Ejemplo 1 Se quiere estudiar el número de crı́as del lobo común. Para ello se toma una muestra de
15 lobos y se obtienen los siguientes resultados:
4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5
La tabla de frecuencias para estos datos es
xi ni Ni fi Fi
.
3 2 2 0.133 0.133
I.O
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
e
15 1
Ejemplo 2 Se miden las longitudes en milı́metros de las patas de una determinada variedad de
a
escarabajos, obteniéndose los siguientes resultados
0.2, 0.6, 1.1, 1.7, 1.9, 3.7, 3.8, 4.2, 4.5, 4.8, 5.3,
ic
5.7, 6.2, 6.7, 7.5, 8.1, 8.5, 8.7, 9.2, 9.5
Obsérvese que en los datos se repiten muy pocos valores, por lo que casi todas las frecuencias son
st
1, y en consecuencia, la tabla de frecuencias que se obtendrı́a serı́a demasiado larga. En este caso,
es aconsejable agrupar los datos por intervalos. El criterio de división no es objetivo, pero no ha
dí
de haber muy pocos intervalos, pues se perderı́a demasiada información, ni demasiados, pues no se
lograrı́a el efecto deseado, aunque sı́ deben abarcar todos los posibles valores y no solaparse. Tomare-
mos como criterio general los intervalos de la forma (a, b]. En este caso, hemos tomado la división
ta
(0, 1], (1, 3], (3, 5], (5, 6], (6, 8], (8, 10]. Entonces la tabla quedará como sigue:
Es
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1
Nótese que no todos los intervalos han de tener la misma amplitud.
10
2. Métodos gráficos
Una buena representación gráfica de los datos puede mostrar de forma clara y concisa las caracterı́sti-
cas de los mismos. No obstante, es necesario recalcar que la representación gráfica no es más que un
elemento auxiliar de análisis y representación, y que por sı́ sola no sirve para un estudio riguroso de
la información contenida en los datos.
Una misma información puede ser representada gráficamente de muchas maneras. Existen distin-
tos tipos de representación según el tipo de la variable, ya sea cuantitativa o cualitativa. Las más
importantes son:

 Diagrama de barras
.
 
Discretas
I.O


 Polı́gono de frecuencias
(no agrupadas)
 
Curva acumulativa

 

V. cuantitativas 
 Histograma

Continuas

 


Polı́gono de frecuencias

(agrupadas)


e
Curva acumulativa


 Diagrama de rectángulos

V. cualitativas Diagrama de sectores


Pictogramas
a
ic
2.1. Variables no agrupadas
st
2.1.1. Diagrama de barras
En el eje de abscisas se representan los distintos valores observados de la variable. Para cada valor
dí
observado se levanta un segmento con altura igual a la frecuencia absoluta de dicho valor.
El diagrama de barras de los datos en el ejemplo 1 se muestra en la figura 1.
ta
También puede usarse el diagrama de barras para representar las frecuencias relativas. En ese caso,
la altura de cada segmento serı́a fi , en vez de ni .
Es
2.1.2. Polı́gono de frecuencias
El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el diagrama de
barras. Se construye uniendo los extremos superiores de los segmentos del correspondiente diagrama
de barras, como se muestra en la figura 2.
También puede usarse para representar las frecuencias relativas en vez de las absolutas.
11
ni 5
4
1 2 3 4 5 6 7 8
.
I.O
Figura 1: Diagrama de barras para los datos del ejemplo 1.
ni
5
e
4
3
a
2
ic
1
st
1 2 3 4 5 6 7 8
dí
Figura 2: Polı́gono de frecuencias para los datos del ejemplo 1

ta
2.1.3. Curva acumulativa

Es
Hasta ahora ninguno de los métodos gráficos ha representado las frecuencias acumuladas, ya sean
absolutas o relativas. La curva acumulativa es una forma de representar estas frecuencias, esto es, el
número de observaciones que hay con valor menor o igual que uno dado. Es una función escalonada
que vale 0 desde −∞ hasta el valor observado más pequeño. Entre el primer y el segundo valor más
pequeño, la función vale N1 , la primera frecuencia acumulada. Entre el segundo valor más pequeño
y el tercero, la función vale N2 , etc. A partir del mayor valor observado, la función es constante e
igual al número de observaciones n. En la figura 3 puede apreciarse la curva acumulativa para los
datos del ejemplo 1.
La función dibujada es discontinua en cada valor observado, siendo continua a la derecha.
12
Ni
16
14
12
10
8 ni
6
4
2
1 2 3 4 5 6 7 8
.
I.O
Figura 3: Curva acumulativa correspondiente a los datos del ejemplo 1.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en cuyo
caso a partir del valor más grande, la función es constante e igual a 1.
2.2. Variables agrupadas
e
2.2.1. Histograma
a
ic
En el eje de abscisas se sitúan los intervalos en los que se han agrupado los datos, y para cada uno
de ellos se levanta un rectángulo con base dicho intervalo y área igual o proporcional a la frecuencia
st
absoluta observada. Obsérvese que si ai es la amplitud del intervalo, para que el área del rectángulo
sea igual a ni , entonces su altura ha de ser
dí
ni
hi =
ai
ta
En el caso de que todas las amplitudes sean iguales podemos tomar como altura las ni , obteniendo
rectángulos de áreas proporcionales a dichas ni . El histograma correspondiente a los datos del ejemplo
Es
2 puede verse en la figura 4.

Al igual que en el caso anterior, también puede usarse el histograma para representar las frecuencias
relativas en vez de las absolutas. En ese caso, la fórmula para la altura de los rectángulos pasarı́a a
ser
fi
hi =
ai
y el área de los rectángulos serı́a fi .
13
hi
2.5
1.5
0.5
.
1 3 5 6 8 10
I.O
Figura 4: Histograma correspondiente a los datos del ejemplo 2.
2.2.2. Polı́gono de frecuencias
e
El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el histograma.
Su construcción difiere ligeramente del caso discreto. En el caso de variables agrupadas por intervalos,
a
se unen los puntos medios de la parte superior de cada rectángulo. Obsérvese que la coordenada x
ic
de cada punto es la marca de clase del intervalo. Un ejemplo del polı́gono de frecuencias en este caso
puede verse en la figura 5.
st
hi
2.5
dí
1.5
ta
1
Es
0.5
1 3 5 6 8 10
Figura 5: Polı́gono de frecuencias para los datos del ejemplo 2.
Al igual que en los casos anteriores, también puede usarse para representar las frecuencias relativas
en vez de las absolutas.
14
2.2.3. Curva acumulativa
Como en el caso discreto, representa el número de observaciones que hay con valor menor o igual
que uno dado. En el caso continuo, la curva acumulativa es una lı́nea quebrada que vale 0 desde
−∞ hasta L0 . Dentro del primer intervalo, (L0 , L1 ], es un segmento que une los puntos (L0 , 0) y
(L1 , N1 ). En el segundo intervalo, (L2 , L3 ], es un segmento que une los puntos (L1 , N1 ) y (L2 , N2 ),
y ası́ sucesivamente. A partir del extremo derecho del último intervalo, Lk , hasta +∞ su valor será
siempre igual al número de observaciones n. Un ejemplo de este tipo de curva acumulativa puede
verse en la figura 6.
.
Ni
I.O
20
18
16
14
12
e
10
8
6 a
4
2
ic
1 3 5 6 8 10
st
Figura 6: Curva acumulativa correspondiente a los datos del ejemplo 2.

dí
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en cuyo
caso a partir del extremo derecho del último intervalo hasta +∞ su valor será siempre 1.
ta
2.3. Variables cualitativas o atributos

Es
2.3.1. Diagrama de rectángulos
Su construcción es similar al diagrama de barras. Las frecuencias se pueden representar en el eje

horizontal o en el eje vertical.
Ejemplo 3 En un estudio sobre roedores se dispone de 12 ejemplares, cuya especie se registra en la
15
siguiente tabla:
Especie ni
Marmotas (M) 5
Ratones (R) 3
Otros (O) 4
12
Estos datos se pueden representar en un diagrama de rectángulos (horizontales o verticales) como
sigue
ni 6
.
I.O
5
6
4
M
3
R
e
2
O
1
a - -
ic
1 2 3 4 5 ni M R O
st
2.3.2. Diagrama de sectores

dí
En un cı́rculo, se asigna a cada modalidad un sector de tamaño proporcional a su frecuencia. Para

el ejemplo 3, los sectores correspondientes a cada categorı́a serı́an:
ta
Especie ni fi fi × 360o
Marmotas (M) 5 0.4166 150o
90o
Es
Ratones (R) 3 0.2500

Otros (O) 4 0.3333 120o
12 1 360o
Con los datos del ejemplo 3 se obtendrı́a el siguiente diagrama de sectores:
16
M
.
I.O
2.3.3. Pictograma
En este tipo de gráficos se emplean figuras relacionadas con el fenómeno que se está estudiando, de
forma que su tamaño o número nos indique la frecuencia asociada a cada modalidad.
Ejemplo 4 Dentro de un estudio sobre cómo afecta la urbanización al medio ambiente, se contabiliza
e
el número de viviendas construidas en 3 zonas
Zonas ni
a Zona1 200
ic
Zona 2 400
Zona 3 600
st
1200
Pictograma con figuras de tamaño proporcional a las frecuencias:

dí
@
@
ta
@ @
@ @
@ @
@
@@
Es
Zona 1 Zona 2 Zona 3
Pictograma con número figuras proporcional a las frecuencias:
17
@ @
@@ @@
=200
Zona 1
@ @
@@ @@
Zona 2
@ @ @
@@ @@ @@
Zona 3
.
I.O
e
a
ic
st
dí
ta
Es
18
3. Caracterı́sticas asociadas a una distribución de frecuencias
Una vez recogidos los datos, hay que buscar un número reducido de magnitudes o valores que nos
resuman la información contenida en los mismos y que a su vez, nos permita comparar dos o más
series. El tipo de información sobre la variable puede ser muy diverso. Centraremos nuestro estudio
en las medidas de localización y las medidas de dispersión.
3.1. Medidas de localización

El objetivo de las medidas de localización consiste en resumir cuantitativamente una distribución, es
.
decir, dar un único valor que represente a todos los datos.
I.O
3.1.1. La media aritmética
Se define la media aritmética como
e
n
X k
X
xi xi ni
i=1 i=1
x= =
n n
a
o de forma alternativa
ic
k
X
x= xi f i
i=1
st
donde x1 , . . . , xk son los valores distintos observados para variables no agrupadas y las marcas de
clase para variables agrupadas en intervalos.
dí
Nótese que la media aritmética se mide en las mismas unidades que los datos.
Ejemplo 5 Se toman 100 cajas de semillas y se observa que en cada una de ellas hay entre 0 y 5
ta
semillas germinadas. Si X =“Número semillas germinadas en una caja”, calcule el número medio
de semillas germinadas a partir de los datos en la siguiente tabla:
Es
xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100
19
k
X
xi ni
i=1 0 × 4 + 1 × 20 + 2 × 45 + 3 × 25 + 4 × 5 + 5 × 1
x= = = 2.1 semillas
n 100
Propiedades (linealidad)
(a) Si sobre una variable se realiza una transformación de tipo lineal Y = a + bX, entonces
y = a + bx
es decir, realizar un cambio de escala y/o un cambio de ejes en los datos supone realizar el
.
I.O
mismo cambio a la media aritmética.
(b) Si la variable Z se puede expresar de la forma Z = aX + bY , entonces
z = ax + by.
e
Ejemplo 6 La relación entre la temperatura medida en grados Fahrenheit y en grados Celsius es:
9
F = C + 32
5
a
Si la temperatura media en un laboratorio es de 200 C, la media en grados Fahrenheit es:
ic
9
F̄ = × 20 + 32 = 680 F.
5
st
Ejemplo 7 Calcule la media aritmética de la variable Z, si sus valores son zi = 3yi + 9xi , i =
1, 2, ..., n, y se sabe que y = −3 y x = 4.
dí
z = 3y + 9x = 3 × (−3) + 9 × 4 = 27.
ta
Ejemplo 8 El tamaño de las esporas se puede medir en micras o en milı́metros. Sea X= “Tamaño
de las esporas en milı́metros” e Y =“Tamaño de las esporas en micras”. Sabiendo que 1 mm=1000
micras, (Y =1000X), si x̄=4 mm entonces ȳ = 1000 x̄ = 4000 micras.
Es
3.1.2. Moda
La moda es el valor o modalidad de la variable que más veces se presenta.
M o = xi tal que ni = max{nj : 1 ≤ j ≤ k} o fi = max{fj : 1 ≤ j ≤ k}
La moda puede no ser única. Si una distribución tiene 2 modas se llama bimodal, o si tiene 3 modas
se llama trimodal. En general, si tiene varias modas se llama multimodal y si sólo tiene una se llama
unimodal.
20
En el ejemplo 5 M o = 2 semillas; en el ejemplo 3, M o =Marmota y en el ejemplo 1, M o1 = 4 y
M o2 = 5.
En caso de tratarse de una variable cuantitativa, la moda se mide en las mismas unidades que los
datos.
Si los datos se encuentran agrupados en intervalos, el intervalo que presenta mayor hi se denomina
intervalo modal y la moda se asocia a la marca de clase del mismo.
3.1.3. Mediana
La mediana se define como el punto que deja a su izquierda el 50 % de las observaciones y a su
.
I.O
derecha el otro 50 %. Es decir, es el punto que “corta” a los datos ordenados de menor a mayor en
dos, con igual número de observaciones en cada lado. Matemáticamente, es aquel valor xi tal que
Fi = 1/2 (o equivalente, Ni = n/2).
La mediana se mide en las mismas unidades que los datos.
Si los datos no los tenemos resumidos en una tabla de frecuencias, la mediana serı́a el valor que se
e
encuentre en la posición central de la serie, una vez ordenada de menor a mayor. Por lo tanto si
tenemos un número impar de datos (n = 2r + 1), la mediana serı́a la observación (r+1)-ésima. Si
a
embargo si n es par (n = 2r), la mediana serı́a el punto medio entre las observaciones r-ésima y
(r+1)-ésima.
ic
Ejemplo 9
st
Si tenemos los datos 4, 6, 6, 8, 9, 11, 12, la mediana es 8, que ocupa la posición central. (n =
7 = 2 · 3 + 1, r = 4 )
dí
Si tenemos los datos 4, 6, 6, 8, 9, 11, 12, 12, la mediana será 8.5. (n = 8 = 2 · 4, r = 4 )
En el caso de tener los datos resumidos en una tabla de frecuencias, para calcular la mediana primero
ta
obtenemos las frecuencias absolutas acumuladas y si existe un i de forma que Ni = n/2, la mediana
se puede determinar mediante la siguiente fórmula:
xi + xi+1
Es
Me =
2
Si ningún Ni = n/2, sea j de forma que Nj−1 < n/2 < Nj , es decir, j indica el primer Nj que es
mayor que n/2. Entonces Me= xj .
Ejemplo 10 Calcule la mediana de los siguientes datos:

x i n i Ni
2 3 3
7 44 47
15 7 54
19 54 108
21
En este caso, obsérvese que N3 = 54 = n/2, luego la mediana vale Me=(x3 +x4 )/2 = (15+19)/2 = 17.
Ejemplo 11 Calcule la mediana de los datos del ejemplo 5. En este caso, observamos que ningún
Ni coincide con n/2 = 50. La primera frecuencia acumulada que supera a n/2 es N3 = 69, entonces,
la mediana valdrá
Me = x3 = 2
3.1.4. Percentiles
Dijimos antes que la mediana es el punto que deja a su izquierda el 50 % (n/2) observaciones. La idea
.
de percentil generaliza en este sentido al de la mediana definiendo el percentil de orden α como aquel
I.O
punto que deja a su izquierda αn/100 observaciones y a su derecha (100 − α)n/100 observaciones, y
se denota Pα , es decir, Pα es aquel xi tal que Fi = α/100. Ası́, P20 es el punto que deja a su izquierda
el 20 % de las observaciones, P55 el que deja un 55 %, etc. Obsérvese que P50 =Me.
El cálculo de los percentiles es análogo al de la mediana, pero sustituyendo n/2 por nα/100.
e
Los percentiles P25 , P50 y P75 también se llaman cuartiles y dividen a los datos en 4 partes con igual
número de observaciones. Se representan por Q1 , Q2 y Q3
a
Ejemplo 12 Para calcular el tercer cuartil, P75 = Q3 , con los datos del ejemplo 1, tenemos que ver
si hay algún i con Ni = 75n/100 = 11.25. Como ningún i verifica esta igualdad, se procede igual que
ic
en la mediana, es decir, se busca el primer valor cuya frecuencia absoluta acumulada sea mayor que
11.25, que en este caso es x4 = 6 con N4 = 12, y entonces
st
P75 = x4 = 6,
dí
lo que se interpreta como sigue: un 75 % de los lobos tiene 6 crı́as o menos.

ta
3.2. Medidas de dispersión

Es
Dado que las medidas de localización resumen los datos en un valor, es interesante conocer si este
valor representa bien la serie, es decir, si los datos se encuentran concentrados en torno a este valor,
o bien están muy dispersos. Las medidas de dispersión miden la representatividad de las medidas de
localización.
3.2.1. Recorrido o rango
Se define el rango como el mayor valor observado menos el menor. Matemáticamente
Rango = xmax − xmin
22
En el ejemplo 1, su rango vale 7 − 3 = 4.
Cuando las variables vienen agrupadas en intervalos:
Rango = Lk − L0
Observamos que viene dado en las mismas unidades de los datos.
3.2.2. Varianza, desviación tı́pica, cuasivarianza y cuasidesviacı́ón tı́pica
Se define la varianza, que denotaremos por S 2 , como

Xn n
X
.
2
(xi − x) x2i
I.O
i=1 i=1
S2 = = − x̄2 =
n n
k
X k
X
2
(xi − x) ni x2i ni
i=1 i=1
= = − x2
n n
e
donde, como es usual, los xi denotan los valores de la variable.
√
Se define la desviación tı́pica como S = + S 2 .
a
Otra forma de denotar la varianza de una variable X es V ar(X).
Propiedades
ic
(a) S 2 ≥ 0, S ≥ 0.
st
(b) S = 0 ⇐⇒ S 2 = 0 ⇐⇒ los valores observados son todos iguales, es decir, no existe

variabilidad en las observaciones.
dí
(c) Si yi = a + bxi , entonces Sy2 = b2 Sx2 y Sy = |b|Sx , donde Sy2 es la varianza de Y y Sx2 es la
varianza de X.
ta
(d) Las unidades en que se mide la varianza son las de X al cuadrado y las de la desviación tı́pica
coinciden con las de X.
Es
2
(e) En general, SX+Y 6= Sx2 + Sy2
Ejemplo 13 Para los datos del ejemplo 1, la varianza del número de crı́as es
k
X
x2i ni
i=1
S2 = − x2
n
32 × 2 + 42 × 4 + 52 × 4 + 62 × 2 + 72 × 3
= − 52
15
= 26.733 − (5)2 = 1.733
23
Ejemplo 14 Considerando el ejemplo 8, donde X= tamaño de las esporas en milı́metros e Y = ta-
maño de las esporas en micras, Y =1000X, si Sx2 =0.01, entonces Sy2 =10002 Sx2 =10002 0.01 =10000.
Otras medidas de dispersión, que se usan principalmente en Inferencia Estadı́stica, cuando los datos
proceden de muestras, son la cuasivarianza y la cuasidesviación tı́pica. La cuasivarianza es:
n
X k
X
2
(xi − x) (xi − x)2 ni
i=1 i=1
SC2 = =
n−1 n−1
y la cuasidesviación tı́pica
.
q
I.O
SC = + SC2
Es inmediato que nS 2 = (n − 1)SC2 .
3.2.3. Coeficiente de variación
e
El problema que plantea el uso de la varianza y de la desviación tı́pica, como medidas de dispersión,
es la dependencia de las unidades. Por ello, es conveniente definir una medida adimensional de
a
dispersión (es decir, que no tenga unidades), que sea objetiva y además, que permita la comparación
de la dispersión entre distintas variables. Si x 6= 0, esta medida nos la da el coeficiente de variación:
ic
S
CV = 100 · ( %)
|x|
st
Cuanto más se separen las observaciones de la media, mayor es la dispersión y el valor de la varianza,
y por tanto mayor es el coeficiente de variación. Cuanto menor sea S, más representativa es la media.
dí
√
Ejemplo 15 Para el ejemplo1, S = 1.733 = 1.3164 x̄ = 5 y el coeficiente de variación
ta
1.3164
CV = 100 · = 26.33( %)
5
Es
0.1
Ejemplo 16 En el ejemplo 8 se tendrı́a que: CVx = 4
100 = 2.5 % de dispersión.
100
CVy = 4000 100 = 2.5 % de dispersión.
CVy = CVx .
24
4. Series estadı́sticas de dos caracteres. Regresión
Hasta ahora hemos estudiado herramientas que nos permiten describir las caracterı́sticas de una sola
variable. Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más
variables, ası́ como la relación que hay entre ellas.
De ahora en adelante supondremos que sobre cada individuo se miden u observan dos variables X e
Y , o equivalentemente, que sobre cada individuo se observa la variable bidimensional (X, Y ). Cada
observación vendrá dada por un par (xi , yi ), 1 ≤ i ≤ n, y por tanto ahora los datos observados serán
los n pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). Alternativamente, denotaremos por x1 , ..., xk a los k valores
distintos observados de la variable X; y por y1 , ..., yp a los p valores distintos observados de la variable
.
I.O
Y . En general k y p no tienen por qué coincidir.
Ejemplo 17 Se quiere estudiar la efectividad de cierto fungicida, en olmos afectados por hongos
grafiosis. Se tratan 10 olmos afectados por el hongo con el fungicida considerando el número de apli-
caciones realizadas a la planta al año y el número de veces que ha reaparecido el hongo, obteniéndose
e
los siguientes datos,
Olmo 1 2 3 4 5 6 7 8 9 10
Aplicaciones
a 2 5 3 2 5 4 2 4 5 3
Reapariciones 2 1 2 3 1 1 3 2 1 2
ic
A la representación de los n pares observados en un sistema de ejes se le denomina nube de puntos
st
o diagrama de dispersión.
dí
3
ta
1
Es
0
−1 0 1 2 3 4 5
−1
4.1. Tabla de frecuencias

La frecuencia (absoluta) conjunta del par (xi , yj ), que denotaremos nij , es el número de veces
que se observa dicho par. Se tiene que
p
k X
X
nij = n.
i=1 j=1
25
La frecuencia relativa conjunta del par (xi , yj ), que denotaremos fij , es la proporción de veces
que se observa dicho par, es decir
nij
fij = , 1 ≤ i ≤ k, 1 ≤ j ≤ p.
n
Se tiene que
p
k X
X
fij = 1.
i=1 j=1
La frecuencia (absoluta) marginal de xi , que denotaremos ni. , es el número de veces que X

presenta dicho valor. La frecuencia relativa marginal de xi , que denotaremos fi. , es la proporción
.
de veces que X presenta dicho valor. La frecuencia (absoluta) marginal de yj , que denotaremos
I.O
n.j , es el número de veces que Y presenta dicho valor. La frecuencia relativa marginal de yj ,
que denotaremos f.j , es la proporción de veces que Y presenta dicho valor. Estas frecuencias se
representan en una tabla llamada tabla de frecuencias conjuntas o tabla de doble entrada
como sigue
e
X\Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
..
.
a ..
.
.. . .
.
.
. ..
..
.
ic
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p n
st
Nótese que las frecuencias marginales son las frecuencias de cada variable, sin tener en cuenta la otra.
Son distribuciones de una variable, llamadas distribuciones marginales, y por tanto tiene sentido, para
dí
cada una de ellas, calcular las medidas estudiadas anteriormente, como la media y la varianza. Ası́,
hablaremos de la media marginal de la variable X, x, la varianza marginal de la variable X, Sx2 , la
media marginal de la variable Y , y, y la varianza marginal de la variable Y , Sy2 .
ta
Ejemplo 18 La tabla de frecuencias conjuntas con los datos del ejemplo 17 es

Es
X= Aplicaciones, Y = Reapariciones
X\Y 1 2 3
2 0 1 2
3 0 2 0
4 1 1 0
5 3 0 0
26
4.2. Distribuciones condicionadas
De los n individuos en el estudio hay n.j con Y = yj . Podemos estar interesados en estudiar la
variable X en este subconjunto de los datos originales. A la distribución de frecuencias de la variable
X en este subconjunto, definido por aquellos individuos con Y = yj , se le denomina distribución
de X condicionada a Y = yj .
Ejemplo 19 Con los datos del ejemplo 17, la distribución de frecuencias de X condicionada a Y = 2,
es decir el número de aplicaciones en las plantas que tuvieron 2 reapariciones, es
X|Y = 2 Frec. Abs. Cond.
.
2 1
I.O
3 2
4 1
5 0
4
e
Análogamente podemos considerar la distribución de Y condicionada a X = xi ,
Ejemplo 20 Con los datos del ejemplo 17, la distribución de frecuencias de Y condicionada a X = 4,
a
Y |X = 4 Frec. Abs. Cond.
ic
1 1
2 1
st
3 0
2
dí
Las distribuciones condicionadas son distribuciones de una variable (en un subconjunto de los datos
originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas en el
ta
tema anterior, como la media y la varianza. Ası́, hablaremos de la media condicional de la variable
2
X dado que Y = yj , x|Y =yj , la varianza condicional de la variable X dado que Y = yj , SX| Y =yj
, la
Es
media condicional de la variable Y dado que X = xi , y|X=xi y la varianza condicional de la variable

Y dado que X = xi , SY2 |X=x .
i
4.3. Dependencia funcional e Independencia

Diremos que la variable Y depende funcionalmente de X cuando existe una función f tal que
Y = f (X). Es decir, a cada valor x le corresponde un único valor y. Análogamente se define la
relación de dependencia funcional de X respecto de Y .
Diremos que dos variables X e Y son independientes si la distribución de una variable, por ejemplo
X, no depende de los valores de la otra, en este caso Y . Es decir, la distribución de los valores de
27
X es la misma para los individuos en los que Y = y1 , que en los que Y = y2 , etc. Esto se traduce
en que las frecuencias relativas de X condicionada a los valores de Y no dependen de la elección del
valor de Y , o equivalentemente
fij = fi· f·j para todo i, j
o bien, usando frecuencias absolutas

ni· n·j
nij = para todo i, j.
n
Si existe un i y un j que no cumplan la ecuación anterior, entonces las variables no son independientes.
Para que se dé la independencia ha de cumplirse la igualdad para todos los i, j.
.
I.O
Se tiene que: X e Y son independientes ⇔ las filas de la tabla de doble entrada son proporcionales
entre sı́ ⇔ las columnas de la tabla de doble entrada son proporcionales entre sı́.
4.4. Covarianza
e
Dada una variable bidimensional (X, Y ), definimos la covarianza entre X e Y como
n k p
1X 1 XX
Sxy =
n i=1
a
(xi − x)(yi − y) =
n i=1 j=1
(xi − x)(yj − y)nij .
ic
Una forma alternativa para el cálculo de la covarianza es
n k p
st
1X 1 XX
Sxy = xi yi − x y = xi yj nij − x y.
n i=1 n i=1 j=1
dí
Otra forma de denotar la covarianza entre dos variables es Cov(X, Y ).

La covarianza es una medida de dependencia de las dos variables: si la covarianza es positiva, la
ta
relación entre X e Y es directa, es decir, cuando X crece, Y también tiende a crecer, y viceversa.
Si la covarianza es negativa, la relación es inversa, o sea, cuando X crece, Y tiende a decrecer, y
viceversa (ver figura 7). Si SXY = 0, se dice que las variables X e Y son incorreladas.
Es
28
Y Y
SXY > 0 X SXY < 0 X
Figura 7: Interpretación del signo de la covarianza.
Propiedades
.
I.O
(a) X, Y independientes =⇒ X, Y incorreladas.
(b) Cov(aX + b, cY + d) = acSxy .
(c) Cov(aX + bY, Z) = aSxz + bSyz .
e
(d) V ar(X + Y ) = Sx2 + Sy2 + 2Sxy .
(e) V ar(X − Y ) = Sx2 + Sy2 − 2Sxy .

a
Aunque la independencia implique incorrelación (propiedad (a)), la implicación contraria no es cierta
ic
en general, como se muestra en el siguiente ejemplo.
st
Ejemplo 21 Consideremos la siguiente tabla de doble entrada:
X\Y −1 0 1
dí
−2 3 4 3 10
0 1 0 1 2
ta
2 2 2 2 6
6 6 6 18
Es
Para estos datos se tiene que Sxy = 0, pero X e Y no son independientes pues
2×6 n2. × n.2
n22 = 0 6= = .
18 n
4.5. Análisis de regresión. Recta de regresión

Dada la variable bidimensional (X, Y ), muchas veces es interesante estudiar la relación o nivel de
asociación que presentan, ası́ como predecir o estimar el valor de una variable en función de la otra,
digamos la Y en función de X. En este sentido, es necesario buscar cuál es la “mejor” función h(X)
que aproxima a Y . Es lo que llamamos Análisis de Regresión.
29
El criterio más usado para encontrar la “mejor” función suele ser el de mı́nimos cuadrados, es
decir, hallar la función h que haga lo más pequeña posible la cantidad
n p
k X
X X
2
(yi − h(xi )) = (yj − h(xi ))2 nij
i=1 i=1 j=1
Puede demostrarse que la mejor función en este sentido es h(x) = y |X=x , es decir, la media condicio-
nada. Como en general, en la práctica no puede calcularse en todos los valores reales, se suele buscar
la mejor función h dentro de un conjunto de funciones. Y ası́ podremos calcular la “mejor”función
lineal (recta), la “mejor”función cuadrática (parábola), la “mejor”función logarı́tmica, etc.
.
Desde el punto de vista teórico solo desarrollaremos la aproximación de la nube de puntos a partir de
I.O
una función lineal (análisis de regresión lineal). Es decir, buscamos la recta que “mejor represente
a la nube de puntos”, es decir
h(x) = y ∗ = a + bx.
Para determinar los coeficientes a y b aplicamos de nuevo el criterio de mı́nimos cuadrados, es decir,
e
consideramos la función
n
X n
X
2
F (a, b) = (yi − h(xi )) = (yi − a − bxi )2
a
i=1 i=1
ic
y buscamos a y b que minimicen esta función F . Para ello, se deriva F (a, b) con respecto a a y b y
se iguala a 0, obteniéndose 
st
 a = y − bx

Sxy
 b=

Sx2
dí
A dicha recta se le llama recta de regresión de Y sobre X o recta de mı́nimos cuadrados de

Y sobre X y se denota rY |X .
ta
Análogamente también podemos aproximar los valores de X a partir de los Y a través de una recta
y calcular la recta de regresión de X sobre Y , rX|Y , cambiando los papeles de las variables:
Es
h0 (y) = x∗ = a0 + b0 y
con 
0 0
 a = x−b y

Sxy
 b0 =

Sy2
30
Propiedades
(a) Las dos rectas no coinciden, a menos que exista dependencia lineal funcional entre las variables
(los puntos de la nube de puntos estarı́an alineados). Por tanto, si de la ecuación de la recta
rY |X despejáramos x no obtendremos, en general, la recta de regresión rX|Y .
(b) Las dos rectas pasan siempre por el punto (x, y). En general, es el punto de corte de ambas
rectas, salvo en el caso de dependencia funcional lineal, donde todos los puntos de las dos rectas
son coincidentes.
(c) Las pendientes de las dos rectas rY |X y rX|Y tienen el mismo signo y coincide con el signo de
.
I.O
la covarianza. Es decir, si una de ellas es creciente, la otra también. No puede darse el caso de
que una tenga pendiente positiva y la otra negativa.
Ejemplo 22 Calcule las rectas de regresión del ejemplo 17.
X\Y 1 2 3
e
2 0 1 2 3
3 0 2 0 2
4
a 1 1 0 2
5 3 0 0 3
ic
4 4 2 10
st
Calculamos primero las medias, las desviaciones tı́picas y la covarianza que necesitamos para el
cálculo de las rectas de regresión,
dí
q
x = 35
10
= 3.5 S x = 137
10
− 3.52 = 1.2042 Sx2 = 1.45
55
Sxy = 10
− 3.5 · 1.8 = −0.8
ta
q
18 38
y= 10
= 1.8 Sy = 10
− 1.82 = 0.7483 Sy2 = 0.56
Sx,y < 0 nos indica una relación inversa entre X e Y , es decir, a mayor número de aplicaciones del
Es
fungicida tiende a haber menos reapariciones del hongo.

La recta de regresión de Y sobre X será rY /X : y ∗ = a + bx siendo
Sxy
b= = −0.551 a = y − (−0.5517) · x = 3.73
Sx2
es decir, y∗ = 3.73 − 0.5517x.
La recta de regresión de X sobre Y es rX/Y : x∗ = a0 + b0 y con
Sxy
b0 = = −1.4286 a0 = x − (−1.4286) · y = 6.07
Sy2
31
es decir, x∗ = 6.07 − 1.4286y.
Calculamos la prediccción del número de reapariciones que sufrirá un olmo al que se le han realizado
6 aplicaciones.
x=6 yb = 3.73 − 0.5517 · 6 = 0.42
Calculamos la prediccción del número de veces que se ha de aplicar el fungicida a un olmo para que
experimente 4 reapariciones en un año.
y=4 b = 6.07 − 1.4286 · 4 = 0.36

x
.
4.6. Medida de la bondad del ajuste
I.O
Además de calcular la recta de regresión de Y sobre X para predecir la Y en función de la X es
necesario dar una medida de la fiabilidad de las estimaciones que hagamos. Para ello necesitamos
medir la “fuerza de la asociación lineal” existente entre las variables. Es necesario saber cómo es de
bueno el ajuste hecho por la recta de regresión. Para ello, tenemos que introducir alguna cantidad
e
que nos mida la distancia entre la nube de puntos y la recta.
Si el ajuste es bueno, entonces las diferencias entre los valores observados y los valores ajustados
a
(errores o residuos),
ic
ei = yi − yi∗ , con yi∗ = a + bxi , i = 1, 2, ..., n
e0i = xi − x∗i , con x∗i = a0 + b0 yi , i = 1, 2, ..., n

st
serı́an todas muy pequeñas y por tanto, las varianzas de dichos residuos, también debe ser pequeña.
dí
Se puede comprobar fácilmente que

n
X n
X
ei = e0i = 0 y por tanto ē = ē0 = 0
ta
i=1 i=1
Ası́ que las varianzas de los residuos u errores, llamadas varianzas residuales, son
Es
n n
1X 1X
Se2 = (yi − yi∗ )2 = (yi − a − bxi )2
n i=1 n i=1
n n
1X 1X
Se20 = (xi − x∗i )2 = (xi − a0 − b0 yi )2
n i=1 n i=1
Sustituyendo a , b, a0 , b0 , en las expresiones para la varianzas residuales y operando obtenemos

Sxy
Se2 = Sy2 (1 − r2 ) Se20 = Sx2 (1 − r2 ) donde r=
Sx Sy
32
ajuste bueno ajuste malo ajuste bueno
-1 0 1
A la cantidad r se le llama coeficiente de correlación lineal. Obsérvese que la varianza residual

será más pequeña cuanto más cercano esté r a 1 o a −1. Obsérvese también que la varianza residual
alcanza su valor más grande cuando r = 0, por lo tanto, podemos medir el grado del ajuste realizado
por la recta de regresión mediante el coeficiente de correlación lineal.
Propiedades
(a) r2 = b · b0
.
I.O
(b) El signo de r es el mismo signo que b, b0 y Sxy . Si r < 0 entonces la dependencia lineal entre
X e Y es inversa (cuando una crece la otra decrece), y si r > 0 entonces la dependencia lineal
entre X e Y es directa (cuando una crece la otra también).
(c) r es un número entre −1 y 1.
e
(d) Si r = 1 o r = −1, entonces el ajuste es perfecto. Esto es debido a que si r2 = 1, entonces
Se2 = 0, y en consecuencia, los valores ajustados coinciden con los observados. En este caso las
a
dos rectas de regresión coinciden. A la hora de la práctica, en raras ocasiones se tiene r = 1 o
r = −1. El ajuste lineal serı́a mejor cuanto más cercano está r a 1 o a -1, en otras palabras,
ic
cuanto más cercano está r2 a 1.
Conviene notar que una correlación de 0 no significa necesariamente que no haya relación entre
st
X e Y , si no que no hay relación lineal.
(e) El coeficiente de correlación lineal es una medida numérica invariante bajo cambios de escala
dí
y de origen.
(f) A r2 se le denomina coeficiente de determinación y representa la proporción de varianza

ta
de Y explicada por la recta de regresión rY |X , o recı́procamente la proporción de varianza de

X explicada por la recta de regresión rX|Y .
Es
Ejemplo 23 Con los datos del ejemplo 17, para obtener el coeficiente de correlación lineal.
Coeficiente de Correlación Lineal r
Sxy
r= = −0.8878
Sx Sy
Al ser r < 0 la relación es inversa, por lo que cuantas más veces se aplica el fungicida, tiende a haber
un menor número de reapariciones.
Como criterio a seguir, podemos decir que se considera que existe una correlación lineal significativa
si r2 > 0.75.
33
En nuestro ejemplo r2 = (−0.8878)2 = 0.7881 > 0.75, por lo que podemos decir que existe una buena
relación lineal entre el número de aplicaciones del fungicida y el número de reapariciones y, por
tanto, es adecuado realizar un ajuste lineal para explicar o describir una de las variables en función
de la otra. Consideraremos fiables las predicciones que se puedan derivar de dichos modelos lineales.
.
I.O
e
a
ic
st
dí
ta
Es
34
Hoja de Problemas n0 1
1. Un centro de investigación realizó un estudio hace 50 años sobre la distribución de la edad de los
alcornoques de un bosque, construyéndose una tabla en papel deteriorado, quedando sólo la siguiente
información. Reconstruya a partir de ella la tabla original, y construya el histograma correspondiente:
.
(Li−1 , Li ] xi ni Ni fi Fi ai hi
I.O
(20, 50] 35 2 2
( , 60] 10 0.125
(60, ] 0.425 10
( , ] 75 0.225
( , 100] 28 80 1.4
e
a
2. El siguiente gráfico representa la curva acumulativa de la edad de las ciervas de una manada X.
ic
1
st
0.7
dí
0.2 !
!
!
!!
ta
5 7 12 15
Si la manada tiene 40 ciervas,
Es
(a) Señale la mediana en la gráfica.
(b) Construya la tabla estadı́stica: intervalos, marcas de clase, frecuencias.
(c) Represente el histograma.
3. Se realiza un estudio sobre una especie de alacrán que habita en cierto desierto. Para ello, se
recopiló información a lo largo de una noche de luna nueva. En las siguientes tablas se muestra la
información recogida en relación al tiempo que tardaron en localizarse cada uno de los 60 alacranes
encontrados desde que anocheció, en horas, y si fueron capturados por algún depredador.
35
Depredador Número de alacranes
Tiempo Número de alacranes
No capturado 45
0-2 20
Búho 5
2-3 20
Serpiente 5
3-10 20
Sapo 5
a) ¿Qué tipo de caracteres se han estudiado (atributo/variable cuantitativa discreta/variable cuan-

titativa continua)? En el caso de atributo, represente el diagrama de sectores; en el caso de
variable cuantitativa discreta represente el diagrama de barras; y en el caso de variable cuan-
titativa continua, represente el histograma.
.
I.O
b) ¿Cuál es el mejor momento de la noche para encontrar alacranes? Justifique la rspuesta.
4. Considérese el siguiente diagrama:
e
1
3/4
1/4
a
1 3 7
ic
(a) Señale la mediana en la gráfica.
st
(b) Obtenga los datos originales sabiendo que el tamaño muestral es 20.
dí
(c) Calcule las medidas de tendencia central y dispersión aplicables a esta distribución e interpréte-
las.
ta
(d) Calcule el tercer cuartil y el percentil 20.

Es
5. Un veterinario estudió el número de ataques de un grupo de gatos con epilepsia severa en un

periodo de ocho semanas.
N0 ataques 5 6 8 9 10 12
N0 gatos 12 18 20 15 15 20
(a) Identifique y clasifique la variable del estudio.
(b) Represente el diagrama de barras y la curva acumulativa.
36
(c) Calcule e interprete media, mediana, moda, varianza, desviación tı́pica, coeficiente de variación,
los cuartiles y los percentiles 15, 80 y 90.
(d) Complete: el 60 % de los gatos sufrieron más de....ataques
(e) ¿Entre qué valores oscila el 80 % central de la distribución de la variable?
6. Los datos sobre el retraso en la entrega de los últimos cien pedidos de material sufridos en
un laboratorio se han agrupado en cuatro intervalos, recordándose sólo los siguientes datos de la
distribución de frecuencias:
.
I.O
El primer intervalo tiene 6 dı́as como extremo superior, una frecuencia relativa de 0.2 y una
amplitud de 4 dı́as.
En el segundo intervalo se acumulan 60 entregas retrasadas.
Las marcas de clase del segundo y cuarto intervalo son 8 y 50 dı́as respectivamente.
e
El tercer intervalo presenta una frecuencia de 30 entregas retrasadas y una amplitud de 30 dı́as.
a
(a) Construya la tabla de frecuencias de la distribución del tiempo de retraso en las entregas.
ic
(b) ¿Cuál es el tiempo medio de demora en las entregas?
(c) Si el tiempo de retraso se incrementa un 10 %, ¿cuál será el nuevo valor medio del tiempo de
st
demora? ¿Y la nueva varianza?

dí
(d) Represente la curva acumulativa y señalar en ella la mediana de la distribución.
7. Los datos sobre la concentración de estrona en la saliva (X) y la concentración en plasma libre
ta
(Y ), en pg/ml, de 15 individuos son los siguientes
X 7.5 8 8.3 7.5 8.9 12 11.2 10 14.4 16.5 15.1 18 17.9 22 22.3
Es
Y 26 35 34 27 43.5 25.8 45 46 50.7 43.2 54 68 68.5 53.1 60
(a) Calcule las medias marginales e interprételas.
(b) Calcule la recta de mı́nimos cuadrados para ajustar la concentración de estrona en la saliva en
función de la concentración de estrona en plasma libre.
(c) ¿Cuál se estima que serı́a la concentración de estrona en la saliva en un individuo con 50pg/ml
en plasma libre? ¿Es fiable esta predicción?
(d) ¿En qué variable presentan los datos una mayor dispersión?
37
8. Al observar dos variables estadı́sticas X e Y sobre un conjunto de 20 plantas, se han obtenido
los siguientes valores:
(5, 1) (5, 0) (5, 0) (8, 1) (5, 0) (5, 1) (8, 0) (5, 1) (5, 2) (8, 1)
(5, 0) (8, 0) (5, 1) (5, 0) (8, 2) (5, 1) (5, 0) (5, 2) (8, 0) (5, 0)
(a) Represente el gráfico de dispersión.
(b) Construya la tabla de frecuencias conjunta.
(c) Determine la distribución relativa de Y condicionada a X = 5, calcule su media y expliquéla.
.
I.O
(d) ¿Son independientes las variables? Razone la respuesta.
(e) Determine qué valor de X cabe esperar para un valor de Y igual a 3.
(f) Valore si es fiable la predicción realizada.
e
9. Supongamos que se quiere estudiar la relación entre la concentración de cierta sustancia en un
abono (X), y el crecimiento de una planta a lo largo de una semana (Y), medido en cm. Los datos
a
recogidos son los siguientes:
ic
Concentración (X) \ Crecimiento (Y) 0-5 5-10 10-15 15-20 Número de plantas
2% 8 2 0 0 10
st
5% 0 1 13 1 15
7% 0 0 0 25 25
Número de plantas 8 3 13 26 50
dí
(a) Calcule el crecimiento medio y la varianza para la variable Y medida en pulgadas, utilizando
ta
las propiedades de las transformaciones lineales. Justifique la respuesta. Nota: 1 pulgada=2.54

cm.
Es
(b) Calcule el crecimiento medio de las plantas a las que se les aplicó el abono con una concentración
de la sustancia del 2 %.
(c) Calcule la covarianza entre ambas variables.
(d) Con los datos anteriores y admitiendo un modelo lineal, ¿qué crecimiento se espera en una
planta a la que se le administre una concentración del 1 %? ¿Se puede considerar fiable la
predicción anterior?
38
10. En un estudio sobre hábitos alimenticios de los habitantes de una región, se han anotado el
peso (medido en kg) y el nivel de colesterol total (medido en mg/dl) de un conjunto de 50 individuos
varones sanos, obteniéndose la siguiente tabla:
Peso \ Colesterol 140 190 245

(40, 60] 2 1 1
(60, 70] 1 4 7
(70, 90] 2 5 12
(90, 100] 0 5 10
.
(a) Represente el histograma de la distribución de pesos.
I.O
(b) Calcule la media, moda y desviación tı́pica de la variable Peso.
(c) ¿Cuál de las dos variables, Peso y Nivel de Colesterol, presenta mayor dispersión? Interprete
la respuesta.
e
(d) Calcule la mediana del colesterol de los habitantes que tienen un peso en el intervalo (70, 90]
kg.
a
(e) ¿Son independientes el Peso y el Nivel de Colesterol? ¿Por qué?
(f) Obtenga una predicción del nivel de colesterol que tendrı́a un habitante con peso de 103 kg.
ic
Justifique si esta predicción se puede considerar fiable.
X
st
(AYUDA: xi yj nij = 862325)

i,j
dí
11. Los costes de producción de los productos elaborados por un laboratorio farmacéutico se pueden
desglosar de la siguiente forma: costes laborales, más costes materiales, más un fijo de 0.65 euros por
patente. Si el coste medio laboral de un preparado es 1.55 euros con 0.36 de desviación tı́pica y la
ta
media de los costes materiales es 0.2 euros por preparado con 0.5 de desviación tı́pica,
(a) ¿cuánto es la media de los costes de producción por preparado?

Es
(b) ¿Y su varianza, si no queda probado que costes laborales y costes materiales sean independien-
tes? ¿Y si se suponen independientes?
12. De una variable estadı́stica bidimensional se conoce: la recta de regresión de Y sobre X: y =

0.5x + 2 y la recta de regresión de X sobre Y : x = 1.98y + 2. Se pide:
(a) Determine las medias marginales, x̄ e ȳ.
(b) Estimar qué valor de la variable X cabe esperar para un valor de la variable Y igual a 1. ¿Es
fiable esta estimación?
39
13. En una granja se realizó un estudio donde se medı́a por un lado el nivel de ruido producido
por la autopista cercana (X) y por otro la cantidad de leche producida (Y ). Tras el tratamiento de
los datos se obtuvo que: X̄ = 35, rXY = −0.95 y la recta de minimos cuadrados de X sobre Y era
X = −2.5Y + 300, ¿cuál será el valor estimado de Y cuando X valga 50? Justifique si se puede
considerar que esas dos variables están relacionadas y de qué forma.
14. En un estudio sobre la reducción del número de ganglios linfáticos cancerosos detectados en un
conjunto de 100 pacientes sometidos a tratamiento, los resultados obtenidos fueron que el número
medio de ganglios reducidos fue de 3, con una varianza de 5. Se sospecha que otra variable, Y , influye
.
en la reducción del número de ganglios. Los datos obtenidos al observarlas conjuntamente fueron:
I.O
100
X 100
X 100
X
yi = 540, yi2 = 3520, xi yi = 1100
i=1 i=1 i=1
(a) ¿Puede afirmarse que en general a mayor valor de Y , el número de ganglios reducidos disminuye?
¿Por qué?
e
(b) En un paciente en el que Y = 6, ¿qué reducción se estima que se produzca?
a
(c) Proporcione una medida de la fiabilidad de la anterior estimación e interprétala.
ic
st
dí
ta
Es
40
BLOQUE TEMÁTICO II:
NOCIONES DE PROBABILIDAD.
MODELOS TEÓRICOS POBLACIONALES
5. Experimentos aleatorios. Probabilidad
5.1. Experimentos aleatorios. Sucesos
.
I.O
El azar juega un papel importante en el pensamiento cientı́fico sobre los sistemas vivos. Algunos
procesos biológicos están afectados directamente por el azar (aparición de mutaciones, separación
de gametos, etc...), otras veces los experimentos se ven afectados por fluctuaciones aleatorias en las
condiciones, variaciones aleatorias en la genética, etc.
e
Las conclusiones de un análisis de datos estadı́stico se establecen en términos de probabilidad, no
sólo porque el azar influya en los resultados del experimento, sino también porque los modelos de
probabilidad nos permiten cuantificar cómo es de probable o improbable un resultado experimental,
dadas ciertas hipótesis iniciales.
a
ic
En este tema se introducirá el lenguaje probabilı́stico y algunas herramientas básicas para manejar
probabilidades.
st
Definición Diremos que un experimento o fenómeno es aleatorio si se verifican las siguientes

condiciones:
dí
(a) Se puede repetir indefinidamente, siempre en las mismas condiciones.

ta
(b) Antes de realizarlo, no se puede predecir el resultado que se va a obtener.
(c) El resultado que se obtenga pertenece a un conjunto conocido, previamente, de resultados posi-
Es
bles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo deno-

taremos por Ω. Los elementos del espacio muestral se denominan sucesos elementales.
Cualquier subconjunto de Ω será denominado suceso y lo denotaremos por letras mayúsculas: A,

B,...
Dados dos sucesos A, B, se dirá que A está incluido en B si todos los sucesos elementales que
pertenecen a A pertenecen también a B, se denotará por A ⊆ B. Todos los sucesos están incluidos
en Ω
41
5.1.1. Operaciones con sucesos
Unión: Dados dos sucesos A, B ⊆ Ω, se denomina suceso unión de A y B al suceso formado

por todos los sucesos elementales que pertenecen a A o bien pertenecen a B. Se denotará por
A ∪ B.
Intersección: Dados dos sucesos A, B ⊆ Ω, se denomina suceso intersección de A y B al

suceso formado por todos los sucesos elementales que pertenecen a A y a la vez pertenecen a
B. Se denotará por A ∩ B.
.
Definiremos:
I.O
Suceso imposible: Lo representaremos por ∅ y es cualquier resultado que no puede suceder al
realizar el experimento.
Suceso complementario: Dado un suceso A ⊆ Ω llamaremos suceso complementario, Ā, al

suceso formado por todos los elementos del espacio muestral que no pertenecen a A.
e
Sucesos disjuntos, incompatibles o mutuamente excluyentes: Dados dos sucesos A, B ⊆ Ω dire-
mos que son disjuntos, incompatibles o mutuamente excluyentes si cuando ocurre uno
a
de ellos nunca ocurre el otro, es decir, A ∩ B = ∅
ic
Suceso seguro: Es aquel que ocurre sea cual sea el resultado del experimento. Lo representare-
mos por Ω.
st
Propiedades:
dí
A∪B =B∪A
A ∪ Ā = Ω
ta
A∪∅=A
Es
A∩B =B∩A
A ∩ Ā = ∅
A∩Ω=A
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) .
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) .
Leyes de Morgan: A∪B = A∩B , A∩B = A∪B .
42
Si A ⊆ B entonces A ∩ B = A y A ∪ B = B.
A = (A ∩ B) ∪ (A ∩ B̄).
5.2. Probabilidad
Definición Una probabilidad es una cantidad numérica (∈ [0, 1]) que expresa verosimilitud o
posibilidad de ocurrencia de un suceso. Se expresa como P(A).
.
Noción frecuentista de probabilidad
I.O
En los experimentos aleatorios se observa que cuando el número de pruebas aumenta, las frecuencias
relativas con las que ocurre cierto suceso, A, tienden a estabilizarse en torno a un valor fijo al que
denominaremos probabilidad de A, P (A).
nA
P (A) = lı́m
n→+∞ n
e
Es decir, cada vez que se repite el experimento aleatorio, un suceso A ocurre o no ocurre. La pro-
babilidad P (A) se interpreta como la frecuencia relativa de A en una serie infinitamente larga de
repeticiones del experimento.
a
ic
Regla de Laplace
Si un experimento aleatorio tiene un espacio muestral finito y no existe ninguna razón que privile-
st
gie unos resultados elementales en contra de otros, decimos entonces que los resultados elementales
son equiprobables. En este caso se calcula la probabilidad de un suceso A, según la regla de La-
dí
place como el cociente entre el número de casos favorables (o sucesos elementales) a A, y el de todos
los posibles resultados del experimento.
ta
número de casos favorables a A

P (A) =
número de casos posibles
Es
Propiedades básicas de la probabilidad (Axiomática de Kolmogorov)
(P1) P (Ω) = 1.
(P2) 0 ≤ P (A) ≤ 1.
(P3) Si A y B son dos sucesos disjuntos o mutuamente excluyentes entonces P (A∪B) = P (A)+P (B)
Otras Propiedades de la probabilidad
Si A ⊆ B entonces P (A) ≤ P (B).
43
Probabilidad de la unión. Sean A, B ⊂ Ω dos sucesos cualesquiera (no necesariamente
disjuntos). Se tiene que
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Probabilidad del complementario: P (Ā) = 1 − P (A)

En particular P (∅) = 0.
Probabilidad condicionada
.
Sea B ⊂ Ω un suceso aleatorio de probabilidad no nula, es decir P (B) > 0. Para cualquier otro
I.O
suceso A ⊂ Ω, llamamos probabilidad condicionada de A a B a
P (A ∩ B)
P (A|B) =
P (B)
e
Más resultados básicos para calcular probabilidades
Probabilidad de la intersección: P (A ∩ B) = P (B)P (A|B) si P (B) > 0.

a
Como los papeles de A y B se pueden intercambiar también podemos escribir P (A ∩ B) =
ic
P (A)P (B|A) si P (A) > 0.
P (Ā|B) = 1 − P (A|B)
st
dí
Independencia de sucesos. Diremos que dos sucesos de probabilidad no nula son indepen-
dientes si el conocimiento de que ha ocurrido uno de ellos no cambia la probabilidad de que ocurra
el otro. Es decir:
ta
P (A|B) = P (A)
Es
Equivalentemente, si:
P (A ∩ B) = P (A)P (B).
La expresión anterior permite extender la definición de independencia a sucesos de probabilidad nula.
Es inmediato probar que: A y B independientes ⇔ Ā y B independientes ⇔ A y B̄ independientes
⇔ Ā y B̄ independientes.
Teorema de la Probabilidad Total y Teorema de Bayes
44
Llamaremos sistema exhaustivo y excluyente de sucesos (o también sistema completo de su-
cesos) a una colección de sucesos A1 , A2 , ..., An ⊂ Ω tales que
n
[
Ai = Ω y Ai ∩ Aj = ∅ para todo i 6= j .
i=1
Teorema de la Probabilidad Total Sean A1 , A2 , ..., An ⊂ Ω un sistema exhaustivo y excluyente

de sucesos con P (Ai ) > 0 para todo i. Entonces para cualquier B ⊂ Ω se tiene
n
X
P (B) = P (B|Ai )P (Ai ).
.
i=1
I.O
Teorema de la Bayes Sean A1 , A2 , ..., An ⊂ Ω un sistema exhaustivo y excluyente de sucesos con
P (Ai ) > 0 para todo i y sea B ⊂ Ω cualquier otro suceso con P (B) > 0. Entonces para cualquier j
P (B|Aj )P (Aj )
P (Aj |B) = n
e
X
P (B|Ai )P (Ai )
i=1
a
ic
5.3. Evaluación de pruebas diagnósticas
En la práctica y la investigación clı́nica, las pruebas diagnósticas son pruebas para determinar si un
st
individuo tiene o no, una cierta enfermedad u otra caracterı́stica. Serı́a deseable que los test que se
aplican para detectar la presencia de una enfermedad, un factor genético o alguna otra condición
dí
fueran seguros en el sentido de que siempre detectaran la condición cuando está presente y nunca la
indicaran cuando el individuo no la tiene. Desgraciadamente, esto no es ası́.
ta
5.3.1. Índices de validez

Es
Consideremos el caso más sencillo: una prueba cuyos resultados posibles sean positivo o negativo.
Para evaluar su validez habrá que aplicarla a una muestra de individuos que sepamos que tienen la
enfermedad y a otra que sepamos que no la tiene. Los resultados podrı́an ser expresados en una tabla
de este tipo:
No Enfermo (Ē) Enfermo (E)

Negativa (-) a b
Positiva (+) c d
Si la prueba fuera perfectamente válida b=c=0. Como ı́ndices de validez se establecen de forma
frecuentista:
45
(a) Sensibilidad (S) o proporción de verdaderos positivos como la probabilidad de que la prueba
dé positivo condicionado a que el individuo esté enfermo, P (+|E).
(b) Especificidad (E) o proporción de verdaderos negativos como la probabilidad de que la prueba
dé negativo condicionado a que el individuo no esté enfermo, P (−|Ē).
(c) También se usan como ı́ndices de error sus complementarios, es decir proporción de falsos
positivos (PFP), P (+|Ē). y proporción de falsos negativos (PFN), P (−|E).
Ejemplo 24 Evaluación de la gammagrafı́a en el diagnóstico de embolismo pulmonar, donde se tomó

como prueba de referencia (gold standard) la arterografı́a pulmonar:
.
I.O
Gammagrafı́a No Enfermo (Ē) Enfermo (E)
Negativa (-) 2 0
Positiva (+) 78 54
54
S = P (+|E) = =1
e
54
2
E = P (−|Ē) = = 0.025
80
a
Es una prueba extraordinariamente sensible (en todos los enfermos da positivo, S = 1), pero muy
inespecı́fica (también da positivo en muchos individuos no enfermos, E = 0.025). Podemos calcular
ic
su ı́ndice de validez:
\ \ 54 2
st
P (diagnóstico correcto) = P (E +) + P (Ē −) = + = 0.4179

134 134
5.3.2. Valores predictivos

dí
A partir del ejemplo anterior, podemos plantearnos si serı́a razonable usar esa prueba, dado que
únicamente permite clasificar correctamente individuos enfermos, pero no ası́ con los no enfermos.
ta
Por ello hay otros ı́ndices que ayudan en esta decisión y que se calculan teniendo en cuenta la
prevalencia de la enfermedad, P (E): porcentaje de la población que presenta una enfermedad,
Es
aplicando el Teorema de Bayes.
(a) Valor Predictivo Positivo (VP+): proporción de individuos con resultado positivo que
verdaderamente tienen la enfermedad.
(V P +) = P (E|+)
(b) Valor Predictivo Negativo (VP-): proporción de individuos con resultado negativo que
verdaderamente no tienen la enfermedad.
(V P −) = P (Ē|−)
46
Ejemplo 25 Para una prueba con S = 0.99 y E = 0.025, si la prevalencia se estima en 0.15
(V P +) = 0.152 (V P −) = 0.935
que ponen de manifiesto que podrı́a ser una muy buena prueba para descartar un diagnóstico del
embolismo pulmonar, pero mala para confirmarlo.
5.4. Riesgo relativo

Algunos estudios se diseñan para investigar un factor que el investigador cree que puede estar asociado
.
con el desarrollo de una enfermedad o condición especı́fica. Este factor se denomina factor de riesgo.
I.O
Para realizar el estudio se seleccionan dos muestras, una formada por sujetos que han estado expuestos
al facto de riesgo (F ); los demás no han estado expuestos al factor de riesgo (F̄ ). Si notamos por E
al suceso padecer la enfermedad, se denomina factor de riesgo relativo (RR) al cociente:
P (E|F )
RR =
e
P (E|F̄ )
Si RR = 1, significa que no existe asociación entre el factor de riesgo y el desarrollo de la

a
enfermedad.
ic
Si RR > 1, se supone que un individuo expuesto al riesgo tiene más probabilidades de desarro-
llar la enfermedad que uno que no estuvo expuesto.
st
Si RR < 1, indica que es menos probable que un individuo expuesto desarrolle la enfermedad
que uno que no lo estuvo.
dí
ta
Es
47
6. Variables aleatorias. Modelos clásicos de distribuciones
de probabilidad

Llamaremos variable aleatoria (v.a.) a cualquier función X : Ω −→ R tal que asigna un número
real a cada suceso elemental del espacio muestral.
Las variables aleatorias se representarán por letras mayúsculas, y sus valores numéricos, por letras
minúsculas
.
Para describir el comportamiento de la variable en términos de probabilidades se utiliza la Función
I.O
de Distribución
F : R −→ [0, 1]
x −→ F (x) = P [X ≤ x]
Uso de la Función de la Distribución para el cálculo de probabilidades
e
(a) P [a < X ≤ b] = F (b) − F (a)
(b) P [X > a] = 1 − F (a)

a
Diremos que una variable aleatoria es discreta si sólo puede tomar un número finito o infinito
ic
numerable de valores. Y diremos que es continua si puede tomar un número infinito no numerable
de valores, normalmente, un intervalo o unión de intervalos.
st
6.2. Variables aleatorias discretas

dí
Dada una v.a. discreta, X, se define su función de probabilidad como

ta
P [X = k] = P [{sucesos elementales que se transforman en k mediante la v.a. X}]

P
Se verifica que P [X = k] = 1.
Es
Para una v.a. discreta la función de distribución viene dada por:
F : R −→ [0, 1]
X
x −→ F (x) = P [X ≤ x] = P [X = k]
k≤x
Ejemplo 1: Consideremos una cabra que va a tener tres crı́as. El sexo de las crı́as es un fenómeno
aleatorio con el siguiente espacio muestral,
Ω = {OOO, OOA, OAO, AOO, OAA, AOA, AAO, AAA}
48
donde O={macho} y A={hembra}.
Este fenómeno puede ser modelizado por la v.a. X= “número de machos”. Entonces:
X(OOO) = 3
X(OOA) = X(OAO) = X(AOO) = 2
X(OAA) = X(AAO) = X(AOA) = 1
X(AAA) = 0
Por tanto, X(Ω) = {0, 1, 2, 3} que es un conjunto finito, luego X es una v.a. discreta con función de
probabilidad:
P [X = 0] = P [{AAA}] = 81
.
I.O
P [X = 1] = P [{OAA, AOA, AAO}] = 38
P [X = 2] = P [{OOA, OAO, AOO}] = 38
P [X = 3] = P [{OOO}] = 18
El fenómeno aleatorio planteado puede ser, entonces, sustituido por un modelo matemático repre-
sentado por la v.a.
e
k 0 1 2 3
P [X = k] 18 83 38 18
a
Su función de distribución viene dada por:
ic


 0 si x<0
st

1
si 0≤x<1


 8

4
F (x) = 8
si 1≤x<2
 7
si 2≤x<3
dí




 8
 1 si x≥3
ta
6.3. Variables aleatorias continuas

En Estadı́stica Descriptiva utilizamos el histograma para representar la distribución de frecuencias
Es
de las variables continuas (o que presentaban tantos valores diferentes que resultaba más eficiente
agruparlas en intervalos). Si consideramos un histograma construido con frecuencias relativas (recor-
demos la noción frecuentista de probabilidad) podemos verlo como una representación aproximada
de la verdadera distribución de probabilidades que sigue la variable de la que provienen los datos.
Suponiendo que consideramos un histograma de frecuencias relativas con intervalos muy estrechos,
el polı́gono de frecuencias se convierte en una “curva”, llamada curva de densidad que es la
representación gráfica de la función de densidad.
Definición: Dada una v.a. continua, X, se define su función de densidad como una función
f : R → R que verifica las siguientes propiedades:
49
(a) f (x) ≥ 0.
(b) Interpretación de la densidad. Dados dos números a y b, a ≤ b, a, b ∈ R.
área bajo la curva de densidad limitada entre a y b =

= proporción de valores de X comprendidos entre a y b=
Z b
P [a < X ≤ b] = f (x)dx
a
Z +∞
(c) f (x)dx = 1 ya que P [−∞ < X ≤ +∞] = 1.
.
−∞
I.O
(d) Paradoja del continuo. La interpretación de la probabilidad, en una v.a. continua, como el área
limitada por la f.d.d. nos lleva a que la probabilidad de que X tome un valor concreto es cero.
Entonces, para las variables continuas se cumple que P [X = x] = 0, para cualquier x ∈ R. Lo
que implica que
e
P [a < X ≤ b] = P [a < X < b] = P [a ≤ X ≤ b] = P [a ≤ X < b] = F (b) − F (a)
a
P [X ≤ a] = P [X < a] = F (a)
ic
P [X > a] = P [X ≥ a] = 1 − F (a)
La función de distribución de una variable aleatoria continua, F , viene dada por:

st
F : R −→ [0, 1]
x
dí
Z
x −→ F (x) = P [X ≤ x] = f (t)dt
−∞
ta
6.4. Medidas de tendencia central y dispersión de una variable aleatoria

Por su interés nos vamos a centrar en dos medidas que son la esperanza matemática y la varianza que
Es
desempeñan un papel equivalente al de la media aritmética y la varianza en la Estadı́stica Descriptiva.

Dada una variable aleatoria X, se define:
Esperanza matemática o valor esperado de X, E[X]: es el promedio teórico de X a largo

plazo.
50
Variable discreta Variable continua
X R +∞
E[X] = xi P [X = xi ] E[X] = −∞
xf (x)dx
i∈I
donde {xi , i ∈ I} es el conjunto de

valores que toma la variable X
.
I.O
Propiedades de la esperanza matemática
(a) E[aX + b] = aE[X] + b, siendo a y b números reales y X una variable aleatoria.

(b) E[X + Y ] = E[X] + E[Y ]
Varianza de X, V ar[X] = E[(X − E[X])2 ]. Se demuestra que V ar[X] = E[X 2 ] − (E[X])2
e
Variable discreta
a Variable continua
ic
X Z +∞
2
V ar[X] = (xi − E[X]) P [X = xi ] = V ar[X] = (x − E[X])2 f (x)dx =
st
i∈I −∞
X Z +∞
= x2i P [X = xi ] − (E[X])2 = x2 f (x)dx − (E[X])2
dí
i∈I −∞
ta
Propiedades de la varianza
(a) V ar[X] ≥ 0
Es
(b) V ar[aX + b] = a2 V ar[X], donde a y b son números reales y X una variable aleatoria.
Desviación tı́pica de X: es la raı́z cuadrada positiva de la varianza de X.
Ejemplo 1:Considerando la variable X= “número de crı́as machos”, su valor esperado se calcula

como
1 3 3 1
E[X] = 0 × + 1 × + 2 × + 3 × = 1.5
8 8 8 8
Su varianza se calcula como
1 3 3 1
V ar[X] = (0 × + 1 × + 4 × + 9 × ) − 1.52 = 0.75
8 8 8 8
51
6.5. Independencia de variables aleatorias
Dadas dos variables aleatorias X e Y , diremos que son independientes si lo son los sucesos aleatorios
que cada una de ellas describe, es decir, si el resultado de uno no influye en absoluto en el resultado
del otro.
Este concepto puede extenderse a más de dos variables, en general a n variables independientes,
X1 , X2 , ..., Xn .
Propiedad: Si X e Y son variables aleatorias independientes entonces
V ar(X + Y ) = V ar(X − Y ) = V ar(X) + V ar(Y )
.
I.O
6.6. Modelos clásicos de distribuciones de probabilidad
Modelos Discretos
6.6.1. Distribución Bernoulli
e
Considérese un experimento con dos posibles resultados, E (éxito) y F (fracaso). A un experimento
ası́ se le denomina experimento de Bernoulli. En este caso el espacio muestral es Ω = {E, F }. Sean
a
P (E) = p ∈ (0, 1) y P (F ) = q = 1 − p. A la v.a. X que se define como:
ic
X(E) = 1, X(F ) = 0,
st
se le denomina variable aleatoria Bernoulli (o que sigue un modelo de distribución de Bernoulli) con
probabilidad de éxito p y se denota X ∼ Be(p).
dí
La función de probabilidad de esta v.a. es
P (X = 1) = p, P (X = 0) = 1 − p = q.
ta
La media y la varianza de esta distribución son E(X) = p y V ar(X) = pq.

Es
6.6.2. Distribución Binomial
Supongamos que realizamos n experimentos Bernoulli independientes, todos ellos con igual probabi-
lidad de éxito p. La distribución de la v.a. definida como
X= “número de éxitos ocurridos en los n experimentos Bernoulli independientes”,
se denomina distribución Binomial de parámetros n y p y se denota X ∼ B(n, p). La función de

probabilidad de esta v.a. viene dada por

n k
P (X = k) = p (1 − p)n−k , k = 0, . . . , n.
k
52
La media y la varianza de esta distribución son E(X) = np y V ar(X) = npq.
Los siguientes fenómenos aleatorios pueden modelarse como distribuciones Binomiales.
Un portador de tuberculosis tiene un 10 % de posibilidades de transmitir la enfermedad a

alguien que no haya estado previamente expuesto a ella y con el que entre en contacto directo.
Durante el transcurso de un dı́a, un portador entra en contacto con diez de tales individuos.
Sea X=”número de individuos que contraen la enfermedad”.
Se está desarrollando una nueva variedad de maı́z. Se espera que tenga una tasa de germinación
del 90 %. Para verificar esto, se plantan 20 semillas en suelos de idéntica composición y se les
.
dedican los mismos cuidados. Sea X=”número de semillas que germinan en la muestra”.
I.O
Se está llevando a cabo un estudio de opinión pública relativo a la conveniencia de construir una
presa para controlar inundaciones. Hay que elegir aleatoriamente y preguntar a 15 residentes del
área. Resulta que un 80 % de la gente que vive en el área se opone a la presa. Sea X=”número
de personas que se oponen en la muestra seleccionada”.
e
Notas
(a) Se define el factorial de k como k! = k × (k − 1) × · · · × 2 × 1 k = 0, 1, 2, . . .

a
(b) Se define el número combinatorio nk , n sobre k como nk = n!

k = 0, . . . , n
ic
k!(n−k)!
(c) Se cumple:
st
a) 0! = 1! = 1 n! = n(n − 1)!
b) n0 = nn = 1 n n

= n−1 =n
dí
6.6.3. Distribución Poisson

ta
Supongamos que se realiza un experimento que consiste en observar la ocurrencia de cierto suceso
a lo largo de un intervalo continuo de tiempo, longitud o espacio. Supongamos que tales sucesos
Es
ocurren de modo independiente y que se conoce el número medio de ocurrencias que tienen lugar en
una unidad de tiempo (longitud o espacio), llamémosle λ. Entonces la v.a. X que da el número de
ocurrencias del suceso en esa unidad de tiempo (longitud o espacio) se distribuye según una ley de
Poisson con parámetro λ, lo que se denota X ∼ P(λ).
Si X ∼ P(λ), entonces su función de probabilidad es de la forma
λk
P (X = k) = e−λ , k = 0, 1, 2, ...
k!
La media y la varianza de esta distribución son E(X) = V ar(X) = λ.
Se ajustan a modelos de Poisson:
53
El número de leucocitos en una gota de sangre.
El número de veces que una planta de energı́a nuclear emite gases radioactivos en un perı́odo
de tres meses.
El número de llamadas de emergencia recibidas cada noche por una brigada de rescate.
A la ley Poisson también se le conoce como ”ley de los sucesos raros”por lo siguiente: si X ∼ B(n, p), n
grande y p es pequeño, entonces podemos aproximar la ley Binomial por una ley Poisson de parámetro
λ = np. En la práctica, la usaremos si n > 30, p < 0.1 y np ≤ 5 o n > 30, q < 0.1 y nq ≤ 5.
.
Modelos continuos
I.O
6.6.4. Distribución Exponencial
Diremos que una v.a. X sigue una distribución Exponencial de parámetro λ > 0, y se denota
X ∼ Exp(λ), si su función de densidad es de la forma
e
(
λe−λx si x > 0,
f (x) =
0 en caso contrario.
La función de distribución es
a
ic
(
0 si x < 0,
F (x) = P [X ≤ x] = −λx
1−e si x ≥ 0.
st
1 1
La media y la varianza son E(X) = y V ar(X) = 2 .
λ λ
Usualmente esta variable representa el tiempo de vida restante, esto es, el tiempo hasta que ocu-
dí
rre un determinado suceso, cuando no depende del tiempo transcurrido (es decir, cuando no hay
envejecimiento o deterioro).
ta
6.6.5. Distribución Normal

Es
Un gran número de fenómenos aleatorios continuos como el peso, la altura, etc, se pueden modelar
con la distribución Normal. Diremos que una v.a. X sigue una ley Normal de parámetros µ y σ 2
(µ ∈ R, σ > 0), X ∼ N (µ, σ 2 ), si su función de densidad es

1 1 2
f (x) = √ exp − 2 (x − µ) , x ∈ R.
2π σ 2σ
La media y la varianza de esta distribución son
E(X) = µ, V ar(X) = σ 2 .
Siguen un modelo de distribución Normal:
54
La concentración de plomo en partes por millón en la corriente sanguı́nea del individuo.
La cantidad de radiación que puede ser absorbida por un individuo antes de que sobrevenga la
muerte.
El volumen de la cavidad craneal de los primates.
El error que se comete cuando se utiliza un instrumento electrónico para contar partı́culas como
glóbulos blancos.
La densidad de la tierra arcillosa, etc.
.
I.O
Propiedades
(a) Por ser una variable aleatoria continua, el área determinada por la gráfica de la función de
densidad de cualquier variable aleatoria Normal es igual a 1. Y el valor de la función de distri-
bución en un punto, x0 , F (x0 ) = P [X ≤ x0 ] viene dada por el área delimitada por la gráfica
e
de la función de densidad, a la izquierda del punto x0
X −µ
(b) Sea X ∼ N (µ, σ 2 ), entonces si realizamos una transformación lineal del tipo , la v.a.
σ
resultante
a X −µ
Z= ∼ N (0, 1)
ic
σ
A Z se le denomina variable tipificada. A la distribución N (0, 1) se le denomina distribución
st
Normal estándar.
De lo que se deduce que cualquier v.a. Normal sean cuales sean sus parámetros puede trans-
dí
formarse en la N (0, 1) sin más que tipificarla. Ası́, para calcular probabilidades en cualquier
distribución Normal, lo primero que debemos hacer es tipificar la variable, esto es,
ta

x−µ
P (X ≤ x) = P Z ≤ = P [Z ≤ z] = Φ (z) ,
σ
x−µ
Es
donde Φ representa la función de distribución de una distribución Normal estándar y z = .

σ
(c) La gráfica de la función de densidad de cualquier variable aleatoria Normal, X ∼ N (µ, σ 2 ) es
una curva simétrica respecto a x = µ. Por lo que
P [X ≤ µ − a] = P [X ≥ µ + a] para cualquier a ∈ R
En particular, para N (0, 1)
P [Z ≤ −a] = P [Z ≥ a] = 1 − P [Z ≤ a]
55
(d) Los valores de Φ(z) están tabulados pero sólo para z ≥ 0, ya que por la propiedad (c) se verifica
que Φ(−z) = 1 − Φ(z).
2
(e) Si X e Y son variables aleatorias independientes de modo que X ∼ N (µX , σX ) e Y ∼
2
N (µY , σY ), entonces para cualesquiera a, b ∈ R se tiene que
aX + b ∼ N (aµX + b, a2 σX
2
),
2
X +Y ∼ N (µX + µY , σX + σY2 ),
2
X −Y ∼ N (µX − µY , σX + σY2 ).
.
(f) Si X1 , ..., Xn son v.a. independientes que se distribuyen todas como N (µ, σ 2 ) entonces
I.O
σ2

X1 + . . . + Xn
X̄ = ∼ N µ,
n n
(g) Si X1 , ..., Xn , n > 30, son v.a. independientes, todas con el mismo modelo de distribución de
probabilidad (cualquiera), con E[X] = µ, V ar(X) = σ 2 , entonces
e
σ2

X1 + . . . + Xn
X̄ = ≈ N µ,
n n
a
(h) Percentiles o puntos crı́ticos: sea α ∈ (0, 1), representaremos por Zα el valor x ∈ R tal que
ic
P [Z ≤ x] = P [Z ≤ Zα ] = α
st
Ejemplo: Para hallar el percentil 70 de una distribución N (0, 1), buscaremos en la tabla de la
función de distribución de dicha variable qué valor proporciona una probabilidad (aproximada)
dí
de 0.70; observamos entonces que
P [Z ≤ 0.52] = 0.6985
ta
por lo que aproximando deducimos que Z0.7 = 0.52
(i) La importancia de la distribución Normal radica en que no sólo es útil para modelar algunos
Es
fenómenos aleatorios frecuentes (peso, altura, etc), sino que también sirve para aproximar la
función de distribución de otras distribuciones, como muestran las siguientes propiedades:
X Si X ∼ B(n, p) con n elevado, entonces podemos aproximar la distribución de X por una

ley Normal de parámetros µ = np y σ 2 = npq, en el siguiente sentido

X − np x − np x − np
P (X ≤ x) = P √ ≤ √ 'Φ √ .
npq npq npq
Emplearemos la aproximación Normal a la distribución Binomial cuando n sea grande y
no sea adecuado aplicar la aproximación por la distribución de Poisson.
56
X Si X ∼ P(λ) y λ es elevado, entonces podemos aproximar la distribución de X por una
ley Normal de parámetros µ = λ y σ 2 = λ, en el siguiente sentido

X −λ x−λ x−λ
P (X ≤ x) = P √ ≤ √ 'Φ √ .
λ λ λ
6.7. Modelos de distribuciones de probabilidad asociados al muestreo

A continuación definiremos tres modelos de distribuciones de probabilidad fundamentales para las
técnicas de inferencia estadı́stica que introduciremos en el siguiente bloque
.
I.O
6.7.1. Distribución chi-cuadrado
Definición 2 Sean X1 , X2 , ..., Xn n v.a. independientes e idénticamente distribuidas según una ley
N (0, 1) y consideremos la v.a.
Y = X12 + X22 + ... + Xn2
e
A la distribución de la v.a. Y se le denomina distribución chi-cuadrado con n grados de
libertad, lo que se representa como Y ∼ χ2n
a
• La esperanza y la varianza de esta distribución son:
ic
E[X] = n V ar[X] = 2n
st
• Percentiles o puntos crı́ticos: sea α ∈ (0, 1), mediante χ2n,α representaremos a aquel x ∈ R tal que
χ2n,α = x / P (χ2n ≤ x) = α.
dí
Ejemplo: Para X ∼ χ220 , hallar el percentil o punto crı́tico de nivel α = 0.95.

ta
Solución: χ220,0.95 = 31.410, lo que significa que P [χ220 ≤ 31.410] = 0.95
6.7.2. Distribución t de Student

Es
Definición 3 Sean X e Y dos v.a. independientes de modo que X ∼ N (0, 1) e Y ∼ χ2n . Sea
X
T =p
Y /n
A la distribución de la v.a. T se le denomina distribución t de Student con n grados de

libertad, y se representa T ∼ tn
• La distribución t de Student tiene propiedades parecidas a N (0, 1).
57
Su esperanza es cero y es simétrica respecto a dicho valor. Como consecuencia:
P (T ≤ −x) = 1 − P (T ≤ x)
Para un número alto de grados de libertad se puede aproximar por la Normal, es decir
tn −−−→ N (0, 1)
n→∞
• Percentiles o puntos crı́ticos: sea α ∈ (0, 1), mediante tn,α representaremos a aquel x ∈ R tal que si
T ∼ tn , entonces:
.
tn,α = x / P (T ≤ x) = α.
I.O
Por la simetrı́a respecto del origen se verifica que tn,α = −tn,1−α .
Ejemplo: Para X ∼ t20 , hallar el percentil o punto crı́tico de nivel α = 0.9 y de nivel α = 0.1.
Solución: t20,0.9 = 1.325341, lo que significa que P [t20 ≤ 1.325341] = 0.9, y
e
t20,0.1 = −t20,0.9 = −1.325341
6.7.3. Distribución F de Snedecor

a
Definición 4 Sean X e Y dos v.a. independientes de modo que X ∼ χ2n e Y ∼ χ2m . Sea
ic
X/n
F =
st
Y /m
A la distribución de la v.a. F se le denomina distribución F de Snedecor con n y m grados

dí
de libertad, y se representa F ∼ Fn,m .
• Percentiles o puntos crı́ticos: sea α ∈ (0, 1), mediante Fn,m,α representaremos a aquel x ∈ R tal
ta
que si F ∼ Fn,m , entonces:

Fn,m,α = x / P (F ≤ x) = α.
Es
1 1
• Si F ∼ Fm,n entonces ∼ Fn,m . Por tanto, se verifica que Fm,n,α = .
F Fn,m,1−α
Ejemplo: Para X ∼ Fn=8,m=15 , hallar el percentil o punto crı́tico de nivel α = 0.9 y de nivel α = 0.1.
Solución: F8,15,0.9 = 2.11853, lo que significa que P [F8,15 ≤ 2.11853] = 0.9, y
1 1
F8,15,0.1 = = = 0.4058
F15,8,0.9 2.464216
58
1
15. Sean A y B dos sucesos tales que P (A) = 3
y P (B̄) = 14 . ¿Son A y B mutuamente excluyentes?
16. Calcule los valores de las siguientes probabilidades condicionadas, sabiendo que P (A) > 0 y
.
P (B) = 21 .
I.O
P (B|B).
P (B|B̄).
P (B|Ω).
e
P (B|∅).
a
P (B|A) cuando A es un subconjunto de B.
ic
P (B|A) cuando A es un subconjunto de B̄.
st
17. Sean A y B dos sucesos del espacio muestral de un experimento aleatorio. Responda razona-
damente a las siguientes cuestiones.
dí
(a) Si P (A) 6= 0 y P (B) 6= 0, ¿pueden ser independientes e incompatibles simultáneamente?
(b) Si los dos sucesos son independientes ¿qué relación hay entre P (A|B), P (A) y P (B)?
ta
(c) Si dos sucesos son incompatibles, ¿cuanto vale P (A|B)?

Es
18. ¿Cuál es la probabilidad de que una mujer con tres hijos que es portadora de hemofilia clásica
no transmita el gen a ninguno de sus hijos? ¿Y que la transmita solo a uno? ¿Y a alguno?
19. Se diseña un estudio para investigar el peso y el hábito de fumar de los pacientes con hi-
pertensión. El 70 % de los pacientes tiene sobrepeso y un 60 % fuma; además, un 35 % del total
presenta ambas condiciones. Elegido un paciente al azar, calcule las probabilidades de las siguientes
situaciones:
(a) Que sólo sea fumador.
59
(b) Que fume si tiene sobrepeso.
(c) Que fume si no tiene sobrepeso.
(d) Que no fume, sabiendo que tiene sobrepeso.
(e) Que fume o tenga sobrepeso.
(f) Que fume o no tenga sobrepeso.
(g) ¿Son los sucesos fumar y tener sobrepeso independientes?
20. Un profesor realiza en su asignatura dos parciales. Según su experiencia si decide aprobar a
.
aquellos que superen alguno de los parciales, la probabilidad de aprobar es 0.45. Sabiendo que la
I.O
probabilidad de superar el primero es 0.40 y la del segundo es 0.30 ¿cuál será la probabilidad de
aprobar si exige superar ambos parciales? Superar los parciales, ¿son sucesos independientes? ¿Por
qué?
21. Un estudio de las corrientes acuáticas que circulan en las proximidades de un complejo industrial
e
revela que el 35 % tiene una alta DBO (demanda biológica de oxı́geno), el 10 % muestra una acidez
elevada y un 4 % presenta ambas caracterı́sticas ¿Son independientes los sucesos la corriente tiene
a
una alta DBO y la corriente posee una acidez elevada? ¿Son excluyentes? Calcular la probabilidad
de que la corriente tenga una acidez elevada, dado que presenta una alta DBO.
ic
22. Cada vehı́culo que llega a Sevilla por cierta zona dispone de tres itinerarios para cruzarla. El
st
20 % de los vehı́culos toma el itinerario A, el 35 % el itinerario B y el 45 % el C. Si se toma el itinerario

A, existe probabilidad 0.25 de encontrar atasco, si se toma el B, una probabilidad de 0.35 y si se
dí
toma el C, una probabilidad de 0.5. Se pide:
(a) Calcular la probabilidad de que un vehı́culo de los anteriores tomado al azar encuentre atasco
ta
al cruzar Sevilla.
(b) Sabiendo que un vehı́culo que llega a Sevilla por dicha zona ha encontrado atasco, calcular la
Es
probabilidad de que no lo haya hecho usando el itinerario A.
23. Un médico aplica un test para detectar una enfermedad cuya prevalencia (probabilidad a priori
de padecer la enfermedad) es del 10 %. La sensibilidad (probabilidad de que el test dé positivo al
aplicarlo sobre un enfermo) es del 80 % y la especificidad (probabilidad de que el test dé negativo
sobre una persona sana) es del 75 %.
(a) Calcule la probabilidad de que el test dé positivo al aplicarlo sobre un paciente elegido al azar.
(b) Calcule las proporciones de falsos positivos y falsos negativos del test.
60
(c) Calcule la probabilidad de que el test suministre un resultado incorrecto.
(d) Si el test ha dado positivo sobre un paciente ¿cuál es la probabilidad de que esté realmente
enfermo?
(e) Si el test ha dado negativo ¿cuál es la probabilidad de que esté sano?
24. Para una determinada enfermedad de la cual sabemos que la presentan un 8 % de individuos
de la población existen dos pruebas diagnósticas. La prueba A tiene un porcentaje de resultados de
falsos positivos del 15 % y de falsos negativos del 7 %. La prueba B tiene una sensibilidad del 88 % y
.
una especificidad el 78 %. ¿Cuál es la probabilidad de acertar en el diagnóstico con cada prueba?
I.O
25. En una época del año se sabe, por datos históricos, que la probabilidad de que el agua de un rı́o
esté contaminada es 0.2. Se dispone de un test para analizar el agua y se sabe que este test, cuando
hay contaminación, la detecta en un 95 % de los casos, y cuando no hay contaminación, también da
positivo en un 7 % de los casos. Calcule la probabilidad de que habiendo dado negativo, el test haya
e
realmente contaminación.
a
26. Se ha realizado un estudio sobre la edad de la madre en el momento del nacimiento de su
hijo como factor de riesgo en el desarrollo del sı́ndrome de la muerte súbita (SMS). Se seleccionaron
ic
para el estudio un total de 7330 mujeres que estaban por debajo de los 25 años en el momento del
nacimiento. De ellas, 15 tuvieron niños afectados de SMS. De las 11256 mujeres que tenı́an 25 años
st
o más, 39 tuvieron niños con SMS. ¿Qué puede concluirse?

dí
27. Se estudia si cierta sustancia afecta a la capacidad motora de los caballos. Para ello, al 30 % de
los caballos que tienen en las cuadras se le administra dicha sustancia. Para comparar sus habilidades
ta
motoras, se les hace recorrer cierto circuito a todos los caballos. De los caballos que tomaron la
sustancia, el 85 %, completaron el circuito sin problemas. Y entre los que no la tomaron, el 25 % no
pudieron completar el recorrido correctamente.
Es
Se escoge un caballo al azar.
(a) ¿Cuál es la probabilidad de que haya completado el circuito sin problemas?
(b) Si el caballo se elige entre los que han completado el circuito, ¿cuál es la probabilidad de que
se le hubiera inyectado la sustancia?
(c) ¿Cuál es la probabilidad de que el caballo escogido sea uno de los que se han tomado la sustancia
y, además, han tenido problemas en completar el circuito?
61
(d) Calcule el riesgo relativo para determinar si la sustancia afecta a la capacidad motora. Interprete
el resultado.
(e) ¿Son independientes los hechos “completar el circuito sin problemas” y “haber ingerido la
sustancia”? Justifique la respuesta.
28. Una variable aleatoria discreta viene dada por la función de probabilidad
X 2 4 6 8 10
P[X=x] 0.5 0.1 0.1 0.1 0.2
.
(a) Halle la función de distribución.
I.O
(b) Calcule la esperanza, la varianza y la desviación tı́pica.
(c) Calcule P [2 < X ≤ 7], P [2 ≤ X ≤ 8], P [X ≥ 3], P [X < 6], P [X > 6], P [X ≥ 4|X ≤ 7]
29. Sea X una variable aleatoria discreta que toma los valores 0, 1 y 2 , y de la que se conoce:
e
1 5
P [X ≤ 1] = y E[X] =
2 4
Determine la función de probabilidad de X.
a
ic
30. Después de una determinada operación quirúrgica, un equipo médico tiene dos opciones: man-
tener ingresado al paciente en el hospital durante 5 dı́as o durante 8 dı́as. Cuando los pacientes son
st
dados de alta a los 8 dı́as el coste por paciente es de 600 euros y no regresan al hospital por causa de
la operación. Cuando son dados de alta a los 5 dı́as, 23 de los pacientes no regresan pero el 31 restante
sı́ lo hacen. Cada individuo del primer caso cuesta 300 euros y del segundo 900 euros. En términos
dí
puramente económicos ¿es preferible dar de alta a los enfermos a los 5 o a los 8 dı́as?
ta
31. Un varón y una mujer, cada uno con un gen recesivo y uno dominante para el color de los ojos,
son padres de tres hijos. ¿Cuál es la distribución de probabilidad y la función de probabilidad para
el número de hijos con ojos azules?
Es
32. Los agricultores de una región están preocupados por la calidad de sus cosechas, ya que se ha
detectado en ciertas áreas la existencia de sustancias contaminantes en el suelo. Para analizarla, se
segmenta la tierra en parcelas de 100 m2 , y se concluye que hay una probabilidad de 0.6 de encontrar
estos contaminantes en una determinada parcela. Cultivar una parcela que estuviera contaminada
provoca unas pérdidas de 1000 euros, si no lo estaban reporta unos beneficios de 3000 euros. Una
empresa de productos fitosanitarios oferta un tratamiento que garantiza que si se aplica antes del
cultivo, anula los efectos de la contaminación. El tratamiento tiene un coste de 2000 euros por parcela
¿Resultarı́a rentable a los agricultores aplicar el tratamiento?
62
33. El tiempo en minutos que transcurre entre corredores sucesivos detectados por un radar es una
variable aleatoria con función de distribución:
(
0 x≤0
F (x) = − x8
1−e x>0
(a) ¿De qué tipo de variable aleatoria se trata: continua o discreta? Justifique su respuesta.
(b) Calcule la probabilidad de esperar menos de 12 minutos entre corredores sucesivos
(c) Calcule la probabilidad de esperar menos de 12 minutos si ya hemos esperado 5.
.
(d) Calcule el tiempo, c, tal que el 95 % de los tiempos entre corredores es menor que c.
I.O
34. Una variable aleatoria X tiene como función de densidad:
(
1 si 0 < x < 1
f (x) =
0 en caso contrario
e
Determine un valor de a tal que la probabilidad de que el valor de X sea mayor que a, sea 0.99.
a
35. Una técnica operatoria tiene un 5 % de complicaciones graves. ¿Cuál es la probabilidad de que
en un mes, en el que se realiza la técnica veinte veces, haya dos complicaciones graves? ¿Y de que
ic
haya al menos una?
st
36. Al realizar un estudio sobre cierta especie animal se ha observado que el 60 % de los machos
vive más de 9 años, porcentaje que es del 80 % en el caso de las hembras. Se sabe también que en la
dí
población los machos representan el 40 % y las hembras el 60 % del total.
(a) Si se eligen 10 ejemplares de la especie al azar, ¿cuál es la probabilidad de que se obtengan

ta
como máximo 2 machos?

(b) Calcule la probabilidad de que al elegir 5 ejemplares al azar, al menos 1 viva más de 9 años.
Es
37. El número de fallos de un instrumento de prueba debidos a las partı́culas de un producto es

una variable de Poisson con media 0.2 fallos por hora.
(a) ¿Cuál es la probabilidad de que el instrumento falle alguna vez en una hora? ¿Y que falle sólo
una vez?
(b) ¿Cuál es la probabilidad de que el instrumento no falle en una jornada de 8 horas?
(c) ¿Cuál es la probabilidad de que haya entre 20 y 40 fallos (ambos incluidos) en un periodo de
una semana (funcionando los 7 dı́as, 24 horas diarias)?
63
38. Se sabe que el número medio de llamadas que se reciben en un teléfono de emergencias entre
las 22:00 y las 24:00 horas es de 10. ¿Cuál es la probabilidad de que un dı́a cualquiera, en ese tramo
horario se reciban exactamente 11 llamadas?
39. El número de partı́culas alfa que llegan a un contador Geiger procedente de una sustancia
radioactiva es, por término medio, de 20 unidades en cada unidad de tiempo considerada. Para
prever la protección del personal del laboratorio en que se encuentra el contador, se está interesado
en saber el número máximo de partı́culas que llegarán en un 99 % de los tiempos considerados.
.
40. Se sabe que la distribución de la variable aleatoria X = “Tiempo en minutos que transcurre
I.O
entre que dos flores se abren de forma consecutiva en cierta época del año” posee una distribución
Exponencial de media 130 minutos.
(a) Determine la probabilidad de que, entre dos flores que se abren, pasen más de 140 minutos.
(b) Determine la probabilidad de que pasen entre 80 y 120 minutos entre que se abre una flor y la
e
siguiente.
(c) Se abre una flor. Determine la probabilidad de que la siguiente tarde menos de 150 en abrirse.
a
ic
41. En una población de primates, el volumen de la cavidad craneal X sigue una distribución
Normal de media 1200 cm3 y desviación tı́pica 140 cm3 .
st
(a) Calcule e interprete la probabilidad de que un miembro de la población seleccionado al azar

tenga una cavidad craneal cuyo volumen:
dí
i. Sea inferior a 1410 cm3 .

ii. Sea mayor que 1000 cm3 .
ta
iii. Se encuentre comprendido entre 1000 y 1410 cm3 .

Es
(b) Halle el valor de x tal que el 10 % de los primates tenga una cavidad craneal con un volumen
superior a x.
42. Entre los hombres diabéticos, el nivel de glucemia en ayunas puede suponerse que sigue una
distribución aproximadamente Normal con media 106mg/100ml y desviación tı́pica 8 mg/100ml. Y
en las mujeres, puede suponérsele una distribución aproximadamente Normal con media 98mg/100ml
y la misma desviación tı́pica.
(a) ¿Qué porcentaje de hombres diabéticos en ayunas tendrá niveles entre 90 y 120 mg/100ml? ¿Y
menores o iguales a 111? ¿Y superiores a 95?
64
(b) Si tomamos aleatoriamente a un hombre y a una mujer diabéticos en ayunas ¿cuál es la pro-
babilidad de que el nivel de glucemia de la mujer sea superior al del hombre?
(c) Halle el valor x tal que el 10 % de los diabéticos varones tenga un nivel de glucemia en ayunas
superior a x.
43. Sea X la cantidad de radiación que puede ser absorbida por un individuo antes de que le
sobrevenga la muerte. Supongamos que X es Normal con una media de 500 roentgen y una desviación
tı́pica de 150 roentgen. ¿Por encima de qué nivel de dosificación sobrevivirı́a solamente el 5 % de los
expuestos?
.
I.O
44. En un bosque conviven dos tipos de escarabajos, A y B; el 60 % de la población es de tipo A y
el resto de tipo B. La longitud, en cm, de la población de escarabajos sigue una distribución Normal
de media 1.5 cm y desviación tı́pica 0.25 cm para el tipo A y media 1.6 cm y desviación tı́pica 0.2
cm para el tipo B. Si tomamos un escarabajo al azar,
e
(a) ¿Cuál es la probabilidad de que mida menos de 1.8 cm?
(b) Si mide menos de 1.8 cm, ¿cual es la probabilidad de que pertenezca al tipo B?
a
(c) Si se ha tomado una muestra de 20 ejemplares del tipo B, ¿cuál será el número esperado de
ic
escarabajos cuya longitud esté entre 1.5 cm y 1.8 cm?
st
45. Se dispone de una muestra de 225 individuos a los que se les hace una prueba de nivel de
azúcar en la sangre. Se puede suponer que esta caracterı́stica se ajusta a un modelo de distribución
dí
Normal y que su desviación tı́pica es 10. Los resultados de la prueba nos los dan expresados a partir
de valores de la media muestral.
P [X̄ < 1.6] = 0.3085
ta
Determine la media poblacional del nivel de azúcar en sangre en la población de donde fue escogida
esa muestra.
Es
46. En la fabricación de un cierto tipo de lámparas, la resistencia eléctrica se distribuye según una
ley Normal de media 2000 y desviación tı́pica 200. Dichas lámparas se empaquetan en lotes de 10,
considerándose un lote defectuoso si la resistencia media de las lámparas que contiene el lote no
se encuentra en el intervalo (1900, 2150). ¿Cuál es la probabilidad de que un determinado lote sea
defectuoso?
65
47. Un atleta realiza saltos cuya longitud, en metros, sigue una distribución N (µ = 7.5, σ 2 = 0.52 ).
Por cada salto menor de 6.86 metros que realiza en una competición, su entrenador le multa con 1
euro.
(a) Calcule la probabilidad de que el atleta sea multado.
(b) ¿Cuál es la probabilidad de que en 10 saltos de competición realizados haya tenido que pagar
más de 2 euros?
(c) Sabiendo que ha sido multado en el primer salto, ¿cuál es la probabilidad de que éste haya sido
mayor de 6.5 metros?
.
I.O
(d) Si cada competición consta de 5 saltos y al final se calcula la longitud media saltada. Calcule
la longitud media que no ha superado en el 75 % de las competiciones.
48. Una máquina realiza automáticamente el envasado de cierto producto. En cada frasco introduce
una cantidad X, que es una variable aleatoria con media 20 y desviación tı́pica 0.5. Sea X̄ la media
e
de los contenidos de una muestra de tamaño 100. Calcule la probabilidad de que el error absoluto
que se comete al envasar sea inferior a 0.1, es decir, P (|X̄ − 20| ≤ 0.1).
a
ic
st
dí
ta
Es
66
BLOQUE TEMÁTICO III:
INFERENCIA ESTADÍSTICA
7. Introducción a la Inferencia Estadı́stica
La Inferencia Estadı́stica es la parte de la Estadı́stica que se encarga de obtener conclusiones sobre

una población, a partir de los datos de una muestra. Para ello emplea técnicas basadas en el cálculo
de probabilidades y también, generalmente, en hipótesis sobre modelos de probabilidad para las
.
variables aleatorias bajo estudio. Es el conjunto de técnicas estadı́sticas que permiten la formulación
I.O
y confirmación de hipótesis realizadas sobre una población desconocida o inaccesible. Además, se
cuantifica el grado de certidumbre con el que se pueden establecer afirmaciones poblacionales basadas
en los datos muestrales. Es decir, permite obtener conclusiones a partir de una información incompleta
acompañando estas conclusiones de una medida de fiabilidad.
e
Recordemos los conceptos básicos que manejamos
Población: conjunto de objetos o individuos que se desean estudiar.

a
Muestra: parte de esa población seleccionada para el estudio.
ic
Variable: Es una caracterı́stica de los individuos que puede tomar distintos valores sin una
norma fija (X).
st
Observación: es cada uno de los valores que toma la variable al medirla sobre los objetos
dí
o individuos que nos sirven como fuente de datos para la realización de nuestra investigación
(x1 , ..., xn ). Pueden recibir diferentes nombres: unidades muestrales, casos, unidades experimen-
tales, etc...
ta
Valor: Son los distintos estados en los que se puede encontrar la caracterı́stica objeto de estudio.
Es
De la población, por razones de inaccesibilidad, extraemos una muestra, de forma que del compor-
tamiento estudiado en la muestra pueda generalizarse o inferirse el de la población.
Los aspectos a tener en cuenta al aplicar las técnicas de inferencia estadı́stica pueden resumirse en:
(a) Selección de la muestra (métodos de muestreo).
(b) Estimación de los parámetros del modelo probabilı́stico que describe a la población.
(c) Contraste de hipótesis sobre el comportamiento de la población.
67
Ası́, consideremos una caracterı́stica bajo estudio en una población descrita por una variable aleatoria
X con función de distribución F que será desconocida, bien en parte (por ejemplo, X ∼ P(λ), con
λ desconocida), o bien totalmente (no sabemos nada sobre F ). Supongamos que disponemos de un
conjunto de observaciones o datos experimentales, que denotaremos por x1 , x2 , ..., xn .
Objetivo fundamental de la Inferencia Estadı́stica: A partir de estos datos experimentales pretende-
mos deducir información acerca de la distribución de la variable en la población. Es decir, nuestro
objetivo es la obtención de información acerca de la F.d.D. F .
Lo haremos siguiendo tres enfoques diferentes:
Estimación puntual: daremos un valor numérico aproximado del valor del parámetro o
.
I.O
parámetros poblacionales desconocidos.
Estimación por intervalos: daremos un intervalo dentro del cuál está el verdadero y desco-
nocido valor del parámetro poblacional buscado, con alta probabilidad, fijada de antemano.
Contrastes de hipótesis: haremos hipótesis (conjeturas) acerca del valor o valores de los
e
parámetros de una población, en distintas situaciones, o sobre la forma o expresión de su
función de distribución. a
Pero todas ellas estarán basadas en la previa selección de una muestra. Las diferencias entre la
ic
muestra y la población deben ser mı́nimas, es decir la muestra debe ser representativa de la población.
Pero la población es desconocida, debemos escoger la muestra “a ciegas”. Por ello debemos cuidar:
st
Tamaño de la muestra.
dí
Procedimiento de elección que garantice la objetividad y la representatividad
7.1. Muestra aleatoria simple y Estadı́stico

ta
Para tratar la investigación con datos, hay que considerar primero cómo se obtienen esos datos. La
Es
forma de obtener los datos implica luego a los métodos de análisis e incluso a la validez de nuestro
estudio.
Sea X una variable aleatoria (v.a.) que cuantifica los valores de una caracterı́stica medida sobre una
población. Supongamos que hacemos n pruebas independientes del experimento, obteniendo los da-
tos x1 , x2 , ..., xn . Cada xi se puede considerar como una realización de una v.a. Xi que se distribuye
como X. Ası́ pues, (x1 , x2 , ..., xn ) puede ser considerado como una realización de un vector aleatorio
(X1 , X2 , ..., Xn ), cuyas componentes son variables aleatorias independientes y están igualmente dis-
tribuidas (i.i.d.) como X. A X1 , X2 , ..., Xn se le denomina muestra aleatoria simple, (m.a.s.) de
X. A n se le denomina tamaño de muestra.
68
Definición 1 Sea X1 , X2 , ..., Xn una m.a.s. de una v.a. X y sea T : Rn → R una función. Entonces
a la v.a. dada por T (X1 , X2 , ..., Xn ) se denomina estadı́stico.
Ejemplos:
n
1X
• T (X1 , X2 , ..., Xn ) = Xi = X̄, media muestral.
n i=1
n
1X
• T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = S 2 , varianza muestral.
n i=1
n
1 X
• T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = Sc2 , cuasivarianza muestral.
n − 1 i=1
.
I.O
Nótese que cualquier estadı́stico, T (X1 , X2 , ..., Xn ), es una v.a. que tomará diferentes valores de-
pendiendo de la muestra extraı́da, y cada valor tendrá una probabilidad asociada. Luego conviene
recordar que un estadı́stico es una v.a. con una distribución de probabilidad (o modelo probabilı́stico
asociado).
e
a
ic
st
dí
ta
Es
69
8. El problema de la estimación: estimación puntual y estimación por
intervalos
8.1. Estimación Puntual

El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de
propiedades que nos servirán para elegir el “mejor”para un determinado parámetro de una población.
Supongamos que queremos estudiar una población descrita por una v.a. X, con F.d.D. F y f.d.d. f
(si X es continua) ó función de probabilidad P (si X es discreta). A lo largo del tema supondremos
que la forma funcional de f o de P es conocida, y que desconocemos el valor de un número finito de
.
I.O
parámetros, que denotaremos mediante θ = (θ1 , θ2 , ..., θk ) (por ejemplo, sabemos que X ∼ Exp(λ),
pero desconocemos el valor de θ = λ). Nótese que si θ fuera conocido, entonces conocerı́amos comple-
tamente el comportamiento de la variable en la población. Por tanto, nuestro objetivo será estimar
o aproximar θ “lo mejor posible”.
e
8.1.1. El concepto de estimador
Se denomina estimador de un parámetro θ a cualquier estadı́stico que tenga por objetivo aproximar
el valor de dicho parámetro.
a
ic
Sea X1 , X2 , ..., Xn una m.a.s. de la población. Basándonos en la muestra, deseamos estimar o aproxi-
mar el valor desconocido de θ. Para ello, tendremos que buscar una función de la muestra o estadı́stico,
T = T (X1 , X2 , ..., Xn ) que estime el parámetro θ. Al estimador obtenido lo notaremos por θ̂.
st
Para cada posible realización de la muestra, esto es, para cada posible muestra extraı́da, (x1 , x2 , ..., xn ),
obtendrı́amos un valor de T , T (x1 , x2 , ..., xn ), al que llamaremos estimación del parámetro.
dí
Obsérvese que el estimador no es un valor concreto sino una variable aleatoria (por ser un estadı́stico),
ya que depende de la muestra y la elección de ésta es un proceso aleatorio. Una vez que la muestra ha
ta
sido elegida, se denomina estimación al valor numérico que toma el estadı́stico sobre esa muestra.
Debido a que un estimador es una variable aleatoria podremos conocer, en algunos casos, su función
Es
de distribución y ello nos permitirá determinar sus propiedades.
8.1.2. Propiedades
Como hemos visto, el problema de la estimación puntual consiste en la búsqueda de un estimador

que aproxime o estime al parámetro θ. Obviamente, es deseable obtener una “buena” aproximación
o estimación, en otras palabras, serı́a deseable que la función de la muestra que utilicemos para
estimar el parámetro desconocido verificara una serie de propiedades. A continuación daremos algunas
propiedades que nos van a permitir evaluar la bondad u optimalidad de un estimador.
70
Intuitivamente, las caracterı́sticas que serı́an deseables para esta nueva variable aleatoria, que llama-
mos estimador y que usamos para estimar un parámetro desconocido deben ser:
Consistencia: cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se

aproxima al verdadero y desconocido valor del parámetro.
Insesgadez: el valor medio que se obtiene de la estimación para un número suficientemen-

te grande de muestras diferentes debe ser el valor del parámetro, es decir, la esperanza del
estimador es el parámetro .
Eficiencia: Al estimador, por ser una variable aleatoria, no puede exigı́rsele que para una
.
I.O
muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo
podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña
como sea posible.
Suficiencia: El estimador deberı́a aprovechar toda la información existente en la muestra.
e
8.1.3. Algunos estimadores de interés
a
Basándonos en las propiedades anteriormente mencionadas podemos construir el siguiente cuadro
donde se definen los estimadores de los parámetros de las distribuciones de probabilidad presentadas
ic
en el tema 6.
µ
b = X̄
st
N (µ, σ 2 )
σ̂ 2 = Sc2
Be(p) p̂ = X̄
dí
B(N, p), N conocido p̂ = X̄/N

P(λ) λ̂ = X̄
ta
Exp(λ) λ̂ = 1/X̄
8.2. Estimación por Intervalos de Confianza

Es
8.2.1. Concepto e interpretación de un intervalo de confianza
Existen una multitud de circunstancias en las que el interés de un estudio no estriba tanto en
obtener una estimación puntual para un parámetro, como determinar un posible ”rango”de valores
o ”intervalo” en los que pueda precisarse, con una determinada probabilidad, que el verdadero valor
del parámetro se encuentra dentro de esos lı́mites.
Un estimador puntual nos proporciona un único valor posible para un parámetro poblacional. Sin
embargo, una estimación difı́cilmente es exacta. Serı́a conveniente poder dar información de lo con-
fiados que estamos en la estimación. Con este objetivo, en lugar de dar un único posible valor para
71
el parámetro, facilitaremos un rango de valores posibles del parámetro poblacional, al que se le lla-
ma intervalo de confianza. Nuestra estimación puntual es el valor más adecuado para el parámetro
poblacional, por lo que tiene sentido que construyamos el intervalo de confianza en torno al valor de
la estimación puntual. El error estándar, una medida de la incertidumbre asociada con el estimador
puntual, nos da una indicación de cómo de grande deberı́a ser el intervalo de confianza.
Las técnicas que abordan este tipo de situaciones, se encuadran dentro de la estadı́stica inferencial
bajo el tı́tulo de estimación confidencial, estimación por intervalos o regiones de confianza.
Definición 2 Sea X una variable aleatoria con función de distribución F que depende de un paráme-
.
tro θ que desconocemos. Sea X1 , . . . , Xn una m.a.s. procedente de la población descrita por la variable
I.O
X. Fijado α ∈ (0, 1), diremos que IC(θ, 1 − α) es un intervalo aleatorio al nivel de significación
α, o equivalentemente, intervalo aleatorio al nivel de confianza 1 − α si
P [θ ∈ IC(θ, 1 − α)] ≥ 1 − α
o lo que es lo mismo
e
P [θ ∈
/ IC(θ, 1 − α)] < α
a
Conviene observar que IC(θ, 1 − α) es un conjunto aleatorio que depende de la muestra elegida.
Por tanto para cada muestra obtendremos un intervalo numérico diferente. Una vez seleccionada
ic
una muestra y calculado, con esa muestra, el intervalo aleatorio correspondiente, obtendremos dos
valores numéricos: extremo inferior y extremo superior. Al intervalo determinado por estos extremos
st
le llamaremos intervalo de confianza y también lo notaremos por IC(θ, 1 − α) aunque conviene tener
presente la diferente naturaleza del intervalo aleatorio y del intervalo de confianza.
dí
Interpretación de un Intervalo de Confianza: Si elegimos un nivel de confianza, por ejemplo

de α = 95 %, y encontramos los intervalos de confianza al 95 % que se correspondan con todas y
cada una de las muestras de tamaño n que podrı́amos extraer de esa población, lo que
ta
sabemos es que, al menos el 95 % de todos esos intervalos encontrados contienen el verdadero

valor del parámetro y, como mucho, un 5 % no lo contienen. Pero nosotros sólo tenemos uno de esos
Es
intervalos.
En la práctica se suele tomar 1 − α = 0.90 , 0.95 , 0.99
La amplitud del intervalo, el tamaño muestral y el nivel de confianza son tres factores que están
interrelacionados. Para un nivel de confianza fijado, a mayor tamaño muestral, menor amplitud del
intervalo. Fijado el tamaño muestral, considerar mayor nivel de confianza supone que el intervalo
obtenido tiene mayor amplitud.
72
8.2.2. Intervalos aleatorios para los parámetros de las principales distribuciones de
probabilidad
Utilizando el método de la cantidad pivotal (que no desarrollaremos explı́citamente) se construyen

los siguientes intervalos aleatorios para los parámetros de algunas de las distribuciones estudiadas en
el tema 6.
(a) INTERVALOS DE CONFIANZA PARA UNA POBLACIÓN NORMAL

Sea X1 , ...Xn una m.a.s. procedente de una población X ∼ N (µ; σ 2 )
Intervalos de confianza para µ
.
I.O

Sc Sc Sc
IC(µ; 1 − α) = X̄ ∓ tn−1,1− α2 √ = X̄ − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √
n n n
Intervalo de confianza para σ 2 ,
!
(n − 1)Sc2 (n − 1)Sc2
e
IC σ 2 ; 1 − α =

,
χ2n−1,1− α χ2n−1, α
2 2
ESTIMACIÓN DEL TAMAÑO MUESTRAL Debido a la posibilidad de conocer

a
las distribuciones de probabilidad de los intervalos aleatorios, antes de realizar el estu-
ic
dio podemos estimar el tamaño necesario de la muestra a seleccionar, para un nivel de
significación y un error fijados de antemano.
st
Ası́, para realizar una estimación de la media poblacional con una precisión d y un nivel
de confianza prefijado 1 − α, se deberá elegir n tal que
dí
2
Z1− α
n≥ 2
Ŝ 2 ,
d2
ta
donde Ŝ 2 es una primera aproximación de la varianza de la muestra, ya que ésta es

desconocida. Para obtener dicha aproximación nos podemos basar en una cota superior
conocida por nuestra experiencia previa o estudios anteriores, o simplemente, calcularla a
Es
partir de una muestra piloto.
(b) INTERVALOS DE CONFIANZA PARA UNA POBLACIÓN BERNOULLI
a) Intervalo de confianza para una proporción: Sean X1 , . . . , Xn una m.a.s. de una población
Be(p) donde n es grande (n ≥ 30) y p no está próximo a 0 ni a 1 (0.1 ≤ p ≤ 0.9).
r !
p̂q̂
IC(p, 1 − α) = p̂ ∓ Z1− α2
n
donde p̂ = X̄ y q̂ = 1 − p̂.
73
b) ELECCIÓN DEL TAMAÑO MUESTRAL Si queremos elegir una muestra que sa-
tisfaga nuestros requerimientos con respecto al error (d) cometido en la estimación del
parámetro p y al nivel de significación, tendremos que considerar un tamaño muestral que
verifique:
2
1 Z1− α2
n≥
4 d2
c) INTERVALOS DE CONFIANZA PARA LA MEDIA (CASO GENERAL CON
TAMAÑO DE MUESTRA ELEVADO) Sea X1 , . . . , Xn una m.a.s. procedente de
una distribución cualquiera con E[X] = µ, donde n es suficientemente grande

Sc
.
IC(µ ; 1 − α) = X̄ ∓ Z1− α2 √
I.O
n
d ) INTERVALOS DE CONFIANZA PARA DOS POBLACIONES EN CONDI-
CIONES DE NORMALIDAD
2
1) X1 , . . . , Xn m.a.s. de N (µX ; σX ) ; Y1 , . . . , Ym m.a.s. de N (µY ; σY2 ) independientes.
Intervalo de confianza para la diferencia de medias,
e
2
• si σX = σY2 desconocidas:
s !
(n − 1)Sc2X + (m − 1)Sc2Y

1 1
IC(µX −µY ; 1−α) =
a (X̄ − Ȳ ) ∓ tn+m−2,1− α2
n+m−2
+
n m
ic
2
• si σX 6= σY2 desconocidas:
r !
Sc2X Sc2
IC(µX − µY ; 1 − α) = (X̄ − Ȳ ) ∓ tν,1− α2 + Y
st
,
n m
S2 Sc2
2
cX
+ Y
dí
n m
con ν = 2 2 S 2 2 −2.
S cX 1 cY 1
n n−1
+ m m−1
ta
Intervalo de confianza para el cociente de varianzas:

!
Sc2X Sc2X
2
σX 1 1
IC 2
; 1−α = 2
, 2
σY ScY Fn−1,m−1,1− α2 ScY Fn−1,m−1, α2
Es
2) Sean X1 , . . . , Xn e Y1 , . . . , Yn dos m.a.s. relacionadas de las v.a. X e Y , respectivamen-

2
te. Si la variable D = X − Y ∼ N (µD , σD ), se puede calcular el intervalo de confianza
para µD utilizando la muestra de las diferencias D1 = X1 − Y1 , ..., Dn = Xn − Yn .
e) INTERVALOS DE CONFIANZA PARA DOS POBLACIONES BERNOULLI
Sean X1 , . . . , Xn una m.a.s. de una Be(pX ) e Y1 , ...Ym una m.a.s de una Be(pY ) indepen-
dientes y n y m suficientemente grandes
r !
pˆX qˆX pˆY qˆY
IC(pX − pY , 1 − α) = (pˆX − pˆY ) ∓ Z1− α2 +
n m
74
9. Contrastes de hipótesis estadı́sticas.

En ocasiones, el investigador estáı̈¿ 12 interesado, más que en obtener una estimación de los parámetros
de interés, en determinar si hipótesis realizadas sobre la población son ciertas o no, a partir de una
serie de resultados experimentales. Un problema de este tipo se denomina un problema de contraste
de hipótesis.
Por ejemplo:
.
Un biólogo puede estar interesado en contrastar, con base en la evidencia experimental, si la
I.O
longitud media de cierta especie es mayor o igual que cierta cantidad µ0 .
Si denotamos mediante µ a la media de la variable aleatoria X=“longitud de la especie en
estudio”, entonces la hipótesis a contrastar es
H : µ ≥ µ0
e
Un biólogo podrı́a tener la necesidad de decidir si, con base en una serie de pruebas, existe
diferencia entre las precisiones de dos clases de medidores.
a
Si las variables X e Y , medida realizada con el medidor 1 y medida realizada con el medidor 2,
ic
respectivamente, se distribuyen según leyes N (µ, σ12 ) y N (µ, σ22 ), respectivamente, la hipótesis
a contrastar es
st
H : σ12 = σ22
Una vez definida la hipótesis a contrastar, el siguiente paso es hallar una medida de la discrepancia
dí
entre los datos resultantes de la experimentación y la hipótesis H, de modo que si la discrepancia es

muy grande se rechazarı́a tal hipótesis, y en caso contrario se tomarı́a como válida.
ta
Un problema de contraste de hipótesis implica la existencia de dos teorı́as o hipótesis implı́citas,

que denominaremos hipótesis nula e hipótesis alternativa, que reflejarán la idea a priori que tenemos
Es
y que pretendemos contrastar con la “realidad”. De la misma manera aparecen, implı́citamente,

diferentes tipos de errores que podemos cometer durante el procedimiento. De la probabilidad con
la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra
requerida.
Definición 3 Una hipótesis estadı́stica es una afirmación sobre la distribución de una o más
variables aleatorias.
En un contraste de hipótesis, también denominado test de hipótesis o contraste de significación se

decide si cierta hipótesis H0 que denominamos hipótesis nula puede ser rechazada o no a la vista
75
de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario
establecer previamente una hipótesis alternativa, H1 , que será admitida cuando H0 sea rechazada.
Ejemplos:
Supongamos que queremos contrastar si una moneda es perfecta o no. Las hipótesis a contrastar
serı́an:
H0 : p = 1/2
H1 : p 6= 1/2
siendo p = P (cara).
.
Si X es una variable aleatoria continua, nos planteamos si la distribución es Normal o no.
I.O
H0 : X ∼ N ormal
H1 : X N ormal
Incluso, las hipótesis, no tienen por qué ser exhaustivas. Se estudia si un medicamento es
e
efectivo. Suponiendo que la variable aleatoria es X: reducción de la temperatura, de la que se
sabe que sigue una distribución N (µ, σ 2 ), las hipótesis planteadas serı́an:
a H0 : µ = 0
ic
H1 : µ > 0
st
Sea X una variable aleatoria simétrica respecto a 0 y dudamos entre si la distribución es Normal
o sigue una t de Student. En tal caso, planteamos las hipótesis:
dí
H0 : X ∼ N ormal
H1 : X ∼ t-Student
ta
Los contrastes de hipótesis o de significación se realizan de la siguiente forma:

Es
(a) se extrae una muestra aleatoria de dicha población.
(b) si el “comportamiento” de la muestra es “diferente” al que cabrı́a esperar bajo la hipótesis

hecha a priori, concluimos que existen evidencias muestrales para suponer que la hipótesis de
partida era errónea.
Si se pretende decidir cuál de las dos hipótesis propuestas es la que más se adapta a las evidencias
que nos dan los datos, necesitamos una regla de decisión o procedimiento para rechazar o aceptar
una hipótesis estadı́stica. A esta regla se le llama test o contraste de hipótesis.
Definición 4 Un test o contraste de hipótesis es una regla para decidir cuándo rechazar H0 .
76
Un contraste de hipótesis se elabora a partir de la muestra. Si la muestra contradice la hipótesis nula,
H0 , rechazaremos tal hipótesis. En caso contrario, diremos que no existen evidencias significativas
para rechazar la hipótesis nula ( “aceptamos H0 ”). Ası́, cuando nosotros tomemos una muestra, nos
llevarı́a a “aceptar H0 ” o rechazar H0 . Por lo tanto, las muestras las podemos dividir en dos grupos:
con las que se rechaza H0 y con las que se “acepta”tal hipótesis.
Siguiendo con el ejemplo de la moneda, supongamos que se desea contrastar si una moneda es perfecta
o no. Para ello la lanzamos 20 veces, de las que 18 de ellas resultan ser cara. El resultado obtenido
hace dudar de la hipótesis H0 de que la moneda es perfecta. Obviamente, bajo H0 , el resultado
obtenido es posible. No obstante, y bajo esta hipótesis, el número esperado de caras es 10, que dista
.
bastante del resultado obtenido 18. De hecho si H0 es cierta X=“Número de caras obtenidas en 20
I.O
lanzamientos” ∼ B(20, 0.5). Si razonamos: lo poco probable no ocurre entonces
Pp=1/2 (|X − 10| ≥ 8) = 0.0004
nos conduce a pensar que la hipótesis de partida era falsa y por tanto, p 6= 1/2.
e
Por otra parte, si el resultado obtenido hubiera sido de 10 caras, esto podrı́a inducirnos a aceptar
nuestra hipótesis inicial de que la moneda es perfecta; pero no hemos de olvidar que este resultado
también puede ocurrir si p 6= 1/2.
a
Como consecuencia, podemos afirmar que, aunque el resultado obtenido muestre fuertes evidencias
ic
a favor o en contra de la hipótesis nula, cabe la posibilidad de que la decisión a tomar (rechazar o
aceptar H0 ) sea errónea.
st
Formalmente, al realizar un test de hipótesis, pueden darse las siguientes circunstancias:
Realidad
dí
H0 cierta H0 falsa
Decisión
Rechazar H0 Error tipo I
ta
Regla correcta
de decisión Decisión
Aceptar H0 Error tipo II
correcta
Es
Definición 5 Se denomina error tipo I al error que se comete al rechazar H0 siendo cierta. Se
denomina error tipo II al error que se comete al aceptar H0 siendo falsa.
Ası́, continuando con el ejemplo de la moneda, si en los 20 lanzamientos se obtienen 18 caras,

sospecharemos que la moneda no es perfecta y por lo tanto p 6= 0.5. Pero, aún siendo p = 0.5, el
hecho anterior puede ocurrir aunque sea poco probable. De este modo se cometerı́a un error de tipo
I si rechazamos la hipótesis nula. De igual forma, si obtuviéramos 10 caras, lo más lógico es pensar
que la moneda es perfecta, pero siendo p 6= 0.5, también puede darse esta situación. En este caso
cometerı́amos un error de tipo II al no rechazar H0 : p = 0.5.
77
Estos errores se deben a que las decisiones se toman a partir de m.a.s., que están constituidas por
variables aleatorias. Tales errores sólo pueden ser cuantificados con probabilidades (medidas de la
posibilidad de que ocurran).
Llamaremos
α = P (error tipo I) = P (rechazar H0 /H0 )
β = P (error tipo II) = P (aceptar H0 /H1 )
Nuestro objetivo, lógicamente, es intentar equivocarnos lo menos posible, es decir, que la probabilidad
de equivocarnos sea lo menor posible
Lo ideal serı́a hallar un test que minimizara la probabilidad de ocurrencia simultánea de ambos
.
errores. Pero esto no es posible en general, ya que al disminuir uno aumenta el otro. Por ello, lo
I.O
que se hace es acotar la probabilidad de ocurrencia de uno de ellos, el de tipo I. A esta cota se le
denomina nivel de significación.
P (Rechazar H0 / H0 cierta) ≤ α
e
Usualmente α=0.10, 0.05, 0.01. Una vez fijado el nivel de significación, se trata de encontrar una
regla de decisión, es decir, un test, que minimice la probabilidad de error tipo II.
a
9.2. Interpretación de un test de hipótesis
ic
Es una constante en Estadı́stica acompañar toda afirmación con una medida del error que pueda
cometerse al realizarla (nunca estamos libres de este error al realizar inferencias, pues la afirmaciones
st
se basan en el análisis de una muestra, no de toda la población). Por tanto, y puesto que tal y como
se han diseñado los contrastes de hipótesis, tan sólo estamos controlando el error tipo I, en caso de
dí
no rechazar H0 , no debe interpretarse como que H0 es cierta (ya que en general se desconoce P(error
tipo II)), sino que los datos no aportan suficiente evidencia para dudar de su validez.
ta
Éste es el motivo por el que no se debe decir que se acepta la hipótesis nula: cuando H0 es cierta,
la probabilidad de equivocarnos (al rechazar) es muy pequeña (α) y está acotada, pero cuando H0
es falsa la probabilidad de equivocarnos (al aceptar) es elevada y no la podemos controlar por no
Es
poderla calcular. Ası́, serı́a más correcto decir que no existen evidencias significativas para rechazar
H0 , mejor que decir que aceptamos tal hipótesis. Cuando aceptamos, serı́a porque no hay evidencias
de que se dé lo contrario, no porque tengamos una gran seguridad de ello y de cualquier forma no
podrı́amos dar una medida de la probabilidad de equivocarnos.
Existen dos tipos de problemas de contrates de hipótesis, según el tipo de hipótesis que se planteen:
Contrastes paramétricos: aquéllos en los que las hipótesis versan sobre el valor de los parámetros
desconocidos de la distribución de la v.a. bajo estudio.
78
Contrastes no paramétricos: aquéllos en los que las hipótesis versan sobre otros aspectos de la
distribución de la v.a. bajo estudio.
9.3. Contrastes paramétricos

En los contrastes paramétricos se supone que la variable aleatoria X objeto del contraste sigue una
distribución de probabilidad conocida, si bien se desconoce alguno de los parámetros que la determi-
nan. En estos casos, el contraste de hipótesis esté referido a algún parámetro θ de la distribución cuyo
valor se desconoce. Por ejemplo, si sabemos que X ∼ Be(p), podemos estar interesados en contrastar,
a partir de una muestra X1 , ..., Xn , si el valor de p es superior a un cierto valor de referencia p0 (una
.
I.O
situación como ésta se tendrá al someter a un conjunto de n personas a una prueba para diagnosticar
una enfermedad, a partir de los resultados podrı́amos contrastar si la prevalencia de la enfermedad
es superior al 15 %).
En los contrastes paramétricos podemos distinguir entre unilaterales y bilaterales. Si θ es el parámetro
estudiado, los pares de hipótesis
e
(
H0 : θ = θ0
(1)
H1 : θ 6= θ0
a (
H0 : θ = θ0
ic
(2)
H1 : θ > θ0
(
H0 : θ = θ0
st
(3)
H1 : θ < θ0
proporcionan contrastes unilaterales (2), (3) y bilaterales (1)
dí
9.4. Relación entre intervalos de confianza y contrastes de hipótesis pa-

ta
ramétricos
Existe una estrecha relación entre los contrastes de hipótesis y los intervalos de confianza. De hecho,
Es
puede demostrarse la siguiente equivalencia:

La hipótesis H0 : θ = θ0 es rechazada a un nivel de significación α si y sólo si θ0
no es un valor del intervalo de confianza construido para θ al nivel 1 − α
Ası́, por ejemplo, si calculamos un intervalo de confianza para la proporción p de manzanas sanas
que tiene un manzano, y obtenemos (0.69,0.99), la hipótesis H0 : p =0.85 no serı́a rechazada, y por
ejemplo, la hipótesis H0 : p =0.65 sı́ serı́a rechazada. Por tanto, la equivalencia anterior puede ser
utilizada como regla de decisión para resolver los problemas de contrastes de hipótesis paramétricos.
Una forma de obtener el contraste de hipótesis para el caso bilateral se basa en los intervalos de
confianza. Suponemos que vamos a utilizar un nivel de significación α. La forma es la siguiente:
79
Se construye un intervalo de confianza con nivel 1 − α para θ.
Se comprueba si θ0 pertenece al intervalo de confianza:
• Si θ0 ∈
/ IC(θ; 1 − α) rechazaremos H0 ya que tenemos evidencias significativas para pensar
que es falso.
• Si θ0 ∈ IC(θ; 1 − α) sólo diremos que no rechazamos H0 . La muestra no proporciona
evidencias significativas para contradecir la hipótesis nula.
9.5. Región crı́tica y Región de aceptación
.
I.O
Como regla general de decisión para realizar un contraste de hipótesis podemos calcular la Región
crı́tica. El procedimiento general consiste en definir un estadı́stico T relacionado con la hipótesis que
deseamos contrastar. A éste lo denominamos estadı́stico del contraste. Como todo estadı́stico es
una v.a. tomará diferentes valores dependiendo de la muestra extraı́da. A continuación suponiendo
que H0 es verdadera, se calcula la distribución de estadı́stico y se determina una región Rc llamada,
e
región crı́tica, de valores que son poco probables para el estadı́stico y por tanto, si al calcular el
valor del estadı́stico para nuestra muestra obtenemos uno de esos valores, nos llevará pensar que H0
a
es falsa.
ic
Definición 6 Se denomina región crı́tica al conjunto de valores del estadı́stico que nos llevarán a
rechazar H0 .
st
Es decir que después de calcular el valor del estadı́stico T sobre la muestra, Texp seguimos el siguiente
criterio:
dí
Si Texp ∈
/ Rc ⇒ no rechazamos H0 (; aceptamos H0 )
ta
Si Texp ∈ Rc ⇒ rechazamos H0 y aceptamos H1
Al complementario de la región crı́tica se le llama región de aceptación

Es
Ra = R \ Rc
9.6. El concepto de p-valor

Veamos otra forma de obtener conclusiones en un problema de contrastes de hipótesis que en la
práctica es más rápida de interpretar y lo incorporan la mayorı́a de los paquetes estadı́sticos. El
p-valor proporciona el nivel de significación más pequeño que nos hubiera llevado a rechazar la
hipótesis nula con los datos experimentales del problema concreto que se esté estudiando. Si el p-
valor es inferior al nivel de significación prefijado, se rechazará la hipótesis nula planteada. Si es
80
igual o superior no se rechazará la hipótesis nula. También podemos verlo como la probabilidad de
equivocarnos al rechazar la hipótesis nula. Si esta probabilidad es menor que la cota máxima fijada
de antemano (α) rechazamos dicha hipótesis, en caso contrario, no.
En la práctica, tras introducir las observaciones que se obtienen de la muestra y tras indicar el estudio
deseado, los paquetes estadı́sticos proporcionan el p-valor asociado. A partir de éste se realizarán las
interpretaciones correspondientes.
Ejemplo: Suponemos que para resolver el problema del tiempo (segundos) en recorrer 30 metros
por jóvenes entre 14 y 18 años, introducimos en un paquete estadı́stico los tiempos obtenidos por 50
jóvenes. En tal caso, pediremos que el paquete estudie la hipótesis: el tiempo medio en recorrerlos
.
es 5. Debemos de fijar el nivel de significación a utilizar en el problema, por ejemplo α = 0.05. Si
I.O
el p-valor obtenido por el paquete estadı́stico es p = 0.386, al ser p > α = 0.05, no se rechaza la
hipótesis nula, es decir, el tiempo medio no es significativamente diferente de 5. En cambio, si el
p-valor fuera 0.013 < α = 0.05, se rechazarı́a la hipótesis nula, es decir, podrı́amos afirmar que el
tiempo medio es significativamente diferente de 5.
e
9.7. Contrastes no paramétricos
a
Los contrastes no paramétricos se caracterizan porque en ellos no se tiene información a priori sobre
la distribución que sigue la variable aleatoria objeto de estudio.
ic
Para realizar estos contraste utilizaremos como regla de decisión el cálculo de la Región Crı́tica o el
p-valor.
st
Un grupo de interés, dentro de los contrastes no paramétricos, lo constituyen los contrastes sobre
tablas de contingencia (es decir, sobre tablas de frecuencias conjuntas). De éstos estudiaremos en
dí
detalle el contraste χ2 de homogeneidad e independencia.
9.7.1. χ2 para contrastar independencia

ta
Consideremos dos variables X e Y , cualitativas o cuantitativas, con k y p modalidades, respectiva-

Es
mente. Queremos contrastar la hipótesis de que ambas variables son independientes.
H0 : Las variables Xe Y son independientes

H1 : Las variables Xe Y no son independientes
Partimos de una muestra de tamaño n y construimos la tabla de doble entrada (tabla de contingencia):
81
X/Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .
. ... ... ... ... ..
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p n
Si la hipótesis de independencia es cierta, vimos que debe verificarse

ni. n.j
nij =
n
.
I.O
para todo par de ı́ndices i, j. Por tanto, de ser cierta H0 , la frecuencia esperada del par (xi , yj ) debe
ser igual a
ni. n.j
eij =
n
El estadı́stico del contraste se basará, por tanto, en evaluar las diferencias entre las frecuencias
e
observadas (en la muestra), nij , y las frecuencias esperadas, eij
k X p
2
X (nij − eij )2
χ =
a i=1 j=1
eij
ic
Este estadı́stico sigue aproximadamente una distribución χ2(k−1)(p−1) cuando H0 es cierta. Teniendo
en cuenta que el valor del estadı́stico debe ser pequeño cuando la hipótesis nula es cierta (pues lo
st
son las diferencias nij − eij ), la regla de decisión resultante es la siguiente:
Rechazar H0 si χ2 ≥ χ2(k−1)(p−1),1−α
dí
Con objeto de garantizar que la aproximación a la distribución χ2 es adecuada, es preciso exigir

que todas las frecuencias esperadas, eij , sean mayores o iguales a 5. Si esto no se cumple, se deben
ta
agrupar clases contiguas hasta que se satisfaga esa condición, o bien aplicar la denominada corrección
de Yates al estadı́stico del contraste:
Es
k X p
X (|nij − eij | − 0.5)2
χ2c =
i=1 j=1
eij
La corrección de Yates conduce a tests más conservadores, es decir, que tienden a no rechazar la
hipótesis nula en un mayor número de casos.
Ejemplo: Se desea contrastar, con nivel de significación del 5 %, si existe algún tipo de relación entre
la hipertensión arterial (HTA) y el estado civil en una determinada población. Para ello se seleccionó
una muestra formada por 619 individuos, obteniéndose los siguientes resultados:
82
Estado civil
Tensión Casado Soltero Viudo/Separado
HTA 76 7 23 106
No HTA 393 83 37 513
469 90 60 619
Las frecuencias esperadas eij obtenidas a partir de la tabla anterior son las siguientes:
Estado civil
Tensión Casado Soltero Viudo/Separado
.
HTA 80.3134 15.4119 10.2746 106
I.O
No HTA 388.6866 74.5880 49.7254 513
469 90 60 619
Haciendo los cálculos oportunos con R, se obtiene que el p-valor es 0.00000404<0.05, por lo que el
test es significativo y, por tanto, se concluye que existe relación entre la tensión arterial y el estado
civil.
9.7.2. χ2 para contrastar homogeneidad
e
a
Consideramos r poblaciones en las que se observa una variable (cualitativa o cuantitativa) con s
ic
modalidades o valores, lo que da lugar a s grupos o clases en cada una de las poblaciones. Nuestro
objetivo es contrastar la hipótesis nula
st
H0 : Las r poblaciones son homogéneas

dí
Dos poblaciones se dicen homogéneas si la proporción de individuos pertenecientes a cada clase es la

misma en todas las poblaciones.
Para ello nos basaremos en r muestras de tamaños respectivos n1 , n2 , ..., nr , lo que nos permitirá
ta
construir la siguiente tabla de contingencia:
Clase
Es
Muestra
C1 C2 ... Cs
P1 n11 n12 ... n1s n1
P2 n21 n22 ... n2s n2
..
. ... ... ... ...
Pr nr1 nr2 ... nrs nr
m1 m2 ... ms n
m
La proporción del total de individuos que pertenece a la clase Cj viene dada por nj . Por tanto, si la
hipótesis nula es cierta, esa misma proporción deberá presentarse en la clase Cj de cualquiera de las
83
poblaciones. Ası́, de ser cierta H0 , el número esperado de individuos en la clase Cj de la muestra Pi
será
mj
eij = ni
n
El estadı́stico del contraste estará basado en la comparación de las frecuencias observadas en cada
clase dentro de cada muestra, nij , con las que cabrı́a esperar de ser cierta la hipótesis nula, eij :
r X s
2
X (nij − eij )2
χ =
i=1 j=1
eij
Cuando la hipótesis nula es cierta, las diferencias nij − eji deben ser pequeñas, por lo que el valor
.
del estadı́stico también lo será. Teniendo en cuenta que este estadı́stico sigue aproximadamente una
I.O
distribución χ2(r−1)(s−1) cuando H0 es cierta, la regla de decisión que se obtiene es la siguiente:
Rechazar H0 si χ2 ≥ χ2(r−1)(s−1),1−α
Ejemplo: Con objeto de comparar el rendimiento de dos marcas de fertilizantes F1 y F2 , se abo-
e
naron 50 naranjos con el fertilizante F1 y 60 con F2 . Como resultado, unos naranjos aumentaron su
producción, otros la disminuyeron y, por último, en otros no se vio alterada.
a
Producción + Producción = Producción -
ic
F1 20 20 10 50
F2 35 15 10 60
st
55 35 20 110
Teniendo en cuenta esta información muestral (frecuencias muestrales), ¿podemos concluir que los
dí
dos fertilizantes producen los mismos efectos, con un nivel de significación α=0.1?
La hipótesis nula consiste en suponer que los dos fertilizantes producen efectos homogéneos o, lo que
ta
es lo mismo, que ambas muestras proceden del mismo modelo de distribución de probabilidad.
Si la hipótesis nula fuera cierta esa muestra tendrı́a que comportarse de la siguiente forma (frecuencias
esperadas)
Es
Producción + Producción = Producción -

F1 25 15.9091 9.0909 50
F2 30 19.0909 10.9091 60
55 35 20 110
Para este ejemplo, el p-valor resulta ser igual a 0.14 >0.1, por tanto el test no es significativo y no
podemos afirmar que los fertilizantes produzcan efectos diferentes.
Al igual que en el contraste de independencia, se debe verificar eij ≥ 5 en todos los pares de ı́ndices
i, j. En caso contrario, se deben agrupar modalidades contiguas o bien aplicar la corrección de Yates.
84
9.8. Contrastes no paramétricos de Bondad de Ajuste
De entre los diferentes tipos de contrastes no paramétricos, podemos destacar los denominados con-
trastes de bondad de ajuste, que permiten determinar si los datos experimentales proceden de una
determinada distribución de probabilidad. De entre éstos citaremos como ejemplo, por su relevancia,
los tests de Shapiro-Wilk y D’Agostino, que permiten contrastar si los datos experimentales proce-
den de una distribución Normal. También dentro de este grupo se encuentra el test de Kolmogorov-
Smirnov, que permite comprobar si los datos experimentales proceden de una variable continua dada,
o el test χ2 de bondad de ajuste, con idéntica finalidad que el anterior para el caso de una variable
discreta o cualitativa.
.
I.O
e
a
ic
st
dí
ta
Es
85
49. Las observaciones siguientes corresponden a una muestra aleatoria de tamaño 9 de la variable
aleatoria X, consumo de carbón por servicios eléctricos en millones de toneladas, en un año dado,
que podemos suponer sigue una distribución Normal:
.
406 395 400 450 390 410 415 401 408
I.O
Halle una estimación puntual para µ, consumo medio de carbón para servicios eléctricos. ¿Es el valor
que ha obtenido igual al consumo medio de carbón para electricidad en ese año en la población?
Justifique su respuesta.
e
50. El número de plantas por metro cuadrado que pueden encontrarse en un parque natural es una
variable aleatoria que se distribuye según una Poisson de parámetro λ desconocido. Se muestrearon
a
al azar 10 zonas de 1 m2 . El número de plantas obtenidas en cada zona fue:
ic
ZONA 1 2 3 4 5 6 7 8 9 10
N◦ DE PLANTAS 7 6 4 10 12 15 3 8 4 4
st
Estime el parámetro λ.
dí
51. El tiempo de vida de una artemia en un cultivo de laboratorio se distribuye según una expo-
nencial de parámetro λ. Para estimar λ se observaron 8 artemias obteniéndose los siguientes tiempos
ta
de vida en dı́as:
13, 9, 7, 18, 15, 14, 10, 12
Es
Estime λ.
52. A continuación se dan los resultados de un estudio realizado con 30 universitarios sobre el
tiempo de reacción ante un estı́mulo auditivo:
0.11 0.11 0.12 0.17 0.13 0.15 0.10 0.12 0.19 0.19
0.18 0.11 0.10 0.16 0.14 0.15 0.16 0.18 0.20 0.17
0.12 0.16 0.13 0.17 0.18 0.19 0.20 0.12 0.14 0.18
Suponiendo que la caracterı́stica en estudio sigue una distribución Normal:
86
(a) ¿En cuánto se estima el tiempo esperado de reacción en un individuo cualquiera?
(b) ¿Cuál es la probabilidad de que, elegido un individuo al azar, tarde más de 0.135 en reaccionar?
(c) Si está establecido que valores por encima de 0.175 indican algún tipo de anomalı́a, ¿qué
proporción de universitarios presentan alguna incidencia?
53. En una muestra aleatoria de 26 botellas de suero se ha observado que el contenido medio es de
71.2 centilitros y la varianza es 13.4. Se supone normalidad de la caracterı́stica en estudio.
(a) Calcule un intervalo de confianza al 95 % para el contenido medio de las botellas.
.
I.O
(b) Manteniendo el nivel de confianza del 95 %, ¿cuántas observaciones habrı́a que tomar para
estimar dicho contenido medio con un error máximo de 1 centilitro?
54. El peso por comprimido de cierto preparado farmacéutico sigue una distribución Normal. De
e
la producción diaria extraemos una muestra aleatoria de seis artı́culos para estudiar la varianza de
esta caracterı́stica. Estime la varianza mediante un intervalo de confianza al 90 % sabiendo que la
varianza muestral obtenida es de 40.
a
ic
55. En cierta región se observó que en una muestra aleatoria de 125 individuos, 12 padecı́an afec-
ciones pulmonares.
st
(a) Estime por intervalos de confianza la proporción de individuos en dicha región con afecciones
pulmonares (nivel de confianza del 90 %)
dí
(b) Para un nivel de confianza del 95 %, ¿qué tamaño mı́nimo de muestra debemos tomar para
estimar dicha proporción con un error máximo de 0.10?
ta
56. En un estudio realizado sobre la efectividad del servicio de emergencias que atiende las inci-
Es
dencias de un parque natural, se ha querido estudiar el número de llamadas telefónicas no atendidas

antes de conseguir hablar con dicho servicio. Para ello se ha llamado a dicho teléfono durante 50
dı́as anotando el número de llamadas fallidas antes de ser atendidos. Los datos muestrales nos dan
una media de 8.8 llamadas fallidas con una varianza de 16. A partir de estos datos se desea estimar
mediante un intervalo de confianza, el número medio de llamadas fallidas antes de ser atendidos a
un nivel de confianza del 98 %.
87
57. La concentración de ciertas partı́culas contaminantes en el agua de desecho de una fábrica es
una variable Normal. El ingeniero responsable de mantenimiento debe evitar que la concentración
media de las partı́culas sea mayor que 250 ppm, ya que en ese caso la Secretarı́a de Ecologı́a cerrarı́a
la fábrica. El más reciente análisis de 26 alicuotas de agua de desecho arrojó datos cuyo promedio
fue de 229 ppm con desviación tı́pica de 24ppm. Calcula un intervalo de confianza al 95 % para
la concentración media de partı́culas. ¿Esta información serı́a suficiente para que la Secretarı́a de
Ecologı́a cerrara la fábrica con un nivel de significación del 0.05?
58. La experiencia ha sugerido que una dosis fija de cierta droga produce un aumento medio de
.
pulsaciones de 9 latidos por minuto, en ratas. En un grupo de nueve ratas que recibieron la misma
I.O
dosis se encontraron los siguientes aumentos:
13, 15, 14, 10, 8, 12, 16, 9, 20
¿Puede considerarse que la ingesta de esta droga aumenta las pulsaciones en 9 latidos de media?
Tome un nivel de significación del 5 % y suponga normalidad.
e
59. A continuación se muestra la presión sanguı́nea sistólica medida en un conjunto de 11 individuos
a
antes (variable X) y después (variable Y ) de la administración de un hipotensor beta-bloqueante.
ic
X: 164 144 175 196 194 205 126 165 192 148 156
Y : 144 136 152 157 147 145 142 141 109 146 148
st
Suponiendo condiciones de normalidad,

dí
(a) Estime con un nivel de confianza del 95 % la diferencia de las presiones sistólicas medias medidas
antes y después de la administración del medicamento.
ta
(b) ¿Puede considerarse a un nivel de significación del 0.05 que el fármaco es efectivo para el
tratamiento de la hipertensión? ¿Y que produce una disminución de 10 puntos en la presión
sanguı́nea?
Es
60. Una central de productos lácteos recibe diariamente la leche de dos granjas A y B. Deseando
estudiar la calidad de los productos recibidos se extraen dos muestras al azar y se analiza el contenido
en materia grasa, obteniéndose los siguientes resultados en tantos por cientos:
granja A x̄A =8.7 % s2cA =1.05 nA = 31

granja B x̄B =10.9 % s2cB =1.80 nB = 25
¿Puede considerarse a un nivel de significación del 0.1 que el contenido medio en materia grasa de
la leche es igual en las dos granjas? Nota: Podemos suponer condiciones de normalidad.
88
61. Se quiere probar la efectividad de un antitérmico (reductor de la fiebre) en caballos. Con tal
fin se tomó la temperatura a 10 caballos afectados de una cierta enfermedad, antes y después de
la administración del antitérmico resultando una diferencia de medias de d¯ = x̄ − ȳ=1.58 y una
cuasidesviación tı́pica de la diferencia Scd =1.71. Suponiendo condiciones de normalidad, estudie si
el antitérmico es efectivo, a un nivel de confianza del 90 %. ¿La conclusión serı́a la misma a un nivel
de confianza del 99 %?
62. La resistencia en Kg/cm2 de cierto material se distribuye normalmente. Se desea comparar la

resistencia de los materiales suministrados por dos proveedores para lo que se toman las siguientes
.
muestras:
I.O
Proveedor 1: 10 30 32 23 23 24 20 18 19 45
Proveedor 2: 32 39 35 30 37 28 34 33 25 30 37 33
¿Puede considerarse que la diferencia entre las resistencias medias es de 20 puntos? (Considere un
nivel de significación α =0.1).
e
63. En una fábrica de piensos, se desea mejorar la conservación de los mismos, haciendo un cam-
a
bio en su proceso de empaquetamiento. Se toman muestras del procedimiento de empaquetamiento
existente y del nuevo para determinar si éste tiene como resultado alguna mejorı́a. Si se obtiene que
ic
75 de 1500 sacos deteriorados con el procedimiento actual y 80 de 2000 sacos deteriorados con el
procedimiento nuevo, estudie si el nuevo proceso de fabricación es mejor que el antiguo. Considere
st
un nivel de significación del 10 %.

dí
64. Se pretende determinar si la edad de los chimpancés puede explicar su preferencia por dis-
tintos tipos de alimentos (A, B o C) con diferente contenido en hidratos de carbono. Para ello se
seleccionaron 200 chimpancés, obteniéndose:
ta
Edad A B C
0-15 11 39 13
Es
15-30 37 31 25
30-50 7 18 19
¿Puede afirmarse que la edad influye en la selección del tipo de alimento? Considere α = 0.05.
65. En un ensayo clı́nico se han probado cinco medicamentos diferentes sobre un grupo de pa-
cientes afectados de una cierta enfermedad, observándose si éstos presentaban mejorı́a al realizar el
tratamiento:
89
Medicamento A B C D E
Número de pacientes 51 54 48 49 48
Pacientes con mejorı́a 12 8 10 15 5
¿Puede considerarse, a un nivel de significación α = 0.05, que los cinco tratamientos son igualmente
efectivos?
66. Ocho grupos de 30 ranas, cada uno de distintas procedencias, fueron inyectadas con estrofantina
G, anotándose las siguientes cantidades de ranas fallecidas en cada grupo: 15, 12, 12, 18, 14, 22, 17,
13. ¿Puede suponerse al 5 % de significación que las ranas de los diferentes grupos fallecen con la
.
misma probabilidad?
I.O
e
a
ic
st
dí
ta
Es
90
.
I.O
e
a
ANEXO: TABLAS ESTADÍSTICAS
ic
st
dí
ta
Es
91
Función de distribución Normal Estándar, N(0,1)
N(0,1)
P(Z ≤ z)
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
.
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
I.O
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
e
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222
a
0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
ic
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
st
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
dí
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
ta
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
Es
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
4.0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Tabla A
2
Puntos críticos de la distribución Chi−cuadrado, 𝜒𝑛,𝛼
n/α 0.005 0.01 0.025 0.05 0.1

1 0.000039 0.000157 0.000982 0.003932 0.015791
2 0.010025 0.020101 0.050636 0.102587 0.210721
3 0.071722 0.114832 0.215795 0.351846 0.584374
4 0.206989 0.297109 0.484419 0.710723 1.063623
5 0.411742 0.554298 0.831212 1.145476 1.610308
6 0.675727 0.872090 1.237344 1.635383 2.204131
7 0.989256 1.239042 1.689869 2.167350 2.833107
8 1.344413 1.646497 2.179731 2.732637 3.489539
.
9 1.734933 2.087901 2.700389 3.325113 4.168159
I.O
10 2.155856 2.558212 3.246973 3.940299 4.865182
11 2.603222 3.053484 3.815748 4.574813 5.577785
12 3.073824 3.570569 4.403789 5.226029 6.303796
13 3.565035 4.106915 5.008751 5.891864 7.041505
14 4.074675 4.660425 5.628726 6.570631 7.789534
e
15 4.600916 5.229349 6.262138 7.260944 8.546756
16 5.142205 5.812212
a 6.907664 7.961646 9.312236
17 5.697217 6.407760 7.564186 8.671760 10.085186
18 6.264805 7.014911 8.230746 9.390455 10.864936
ic
19 6.843971 7.632730 8.906516 10.117013 11.650910
20 7.433844 8.260398 9.590777 10.850811 12.442609
st
21 8.033653 8.897198 10.282898 11.591305 13.239598

22 8.642716 9.542492 10.982321 12.338015 14.041493
23 9.260425 10.195716 11.688552 13.090514 14.847956
dí
24 9.886234 10.856361 12.401150 13.848425 15.658684

25 10.519652 11.523975 13.119720 14.611408 16.473408
ta
26 11.160237 12.198147 13.843905 15.379157 17.291885

27 11.807587 12.878504 14.573383 16.151396 18.113896
28 12.461336 13.564710 15.307861 16.927875 18.939242
Es
29 13.121149 14.256455 16.047072 17.708366 19.767744

30 13.786720 14.953457 16.790772 18.492661 20.599235
40 20.706535 22.164261 24.433039 26.509303 29.050523
50 27.990749 29.706683 32.357364 34.764252 37.688648
60 35.534491 37.484852 40.481748 43.187958 46.458888
70 43.275180 45.441717 48.757565 51.739278 55.328940
90 59.196304 61.754079 65.646618 69.126030 73.291090
100 67.327563 70.064895 74.221927 77.929465 82.358136
Tabla B
2
Puntos críticos de la distribución Chi−cuadrado, 𝜒𝑛,𝛼
n/α 0.9 0.95 0.975 0.99 0.995
1 2.705543 3.841459 5.023886 6.634897 7.879439
2 4.605170 5.991465 7.377759 9.210340 10.596635
3 6.251389 7.814728 9.348404 11.344867 12.838156
4 7.779440 9.487729 11.143287 13.276704 14.860259
5 9.236357 11.070498 12.832502 15.086272 16.749602
6 10.644641 12.591587 14.449375 16.811894 18.547584
7 12.017037 14.067140 16.012764 18.475307 20.277740
8 13.361566 15.507313 17.534546 20.090235 21.954955
.
9 14.683657 16.918978 19.022768 21.665994 23.589351
I.O
10 15.987179 18.307038 20.483177 23.209251 25.188180
11 17.275009 19.675138 21.920049 24.724970 26.756849
12 18.549348 21.026070 23.336664 26.216967 28.299519
13 19.811929 22.362032 24.735605 27.688250 29.819471
14 21.064144 23.684791 26.118948 29.141238 31.319350
e
15 22.307130 24.995790 27.488393 30.577914 32.801321
16 23.541829 26.296228
a 28.845351 31.999927 34.267187
17 24.769035 27.587112 30.191009 33.408664 35.718466
18 25.989423 28.869299 31.526378 34.805306 37.156451
ic
19 27.203571 30.143527 32.852327 36.190869 38.582257
20 28.411981 31.410433 34.169607 37.566235 39.996846
st
21 29.615089 32.670573 35.478876 38.932173 41.401065

22 30.813282 33.924438 36.780712 40.289360 42.795655
23 32.006900 35.172462 38.075627 41.638398 44.181275
dí
24 33.196244 36.415029 39.364077 42.979820 45.558512

25 34.381587 37.652484 40.646469 44.314105 46.927890
ta
26 35.563171 38.885139 41.923170 45.641683 48.289882

27 36.741217 40.113272 43.194511 46.962942 49.644915
28 37.915923 41.337138 44.460792 48.278236 50.993376
Es
29 39.087470 42.556968 45.722286 49.587884 52.335618

30 40.256024 43.772972 46.979242 50.892181 53.671962
40 51.805057 55.758479 59.341707 63.690740 66.765962
50 63.167121 67.504807 71.420195 76.153891 79.489978
60 74.397006 79.081944 83.297675 88.379419 91.951698
70 85.527043 90.531225 95.023184 100.425184 104.214899
90 107.565009 113.145270 118.135893 124.116319 128.298944
100 118.498004 124.342113 129.561197 135.806723 140.169489
Tabla C
Puntos críticos de la distribución t−Student, 𝑡𝑛,𝛼
n/α 0.9 0.95 0.975 0.99 0.995

1 3.077684 6.313752 12.706205 31.820516 63.656741
2 1.885618 2.919986 4.302653 6.964557 9.924843
3 1.637744 2.353363 3.182446 4.540703 5.840909
4 1.533206 2.131847 2.776445 3.746947 4.604095
5 1.475884 2.015048 2.570582 3.364930 4.032143
6 1.439756 1.943180 2.446912 3.142668 3.707428
7 1.414924 1.894579 2.364624 2.997952 3.499483
8 1.396815 1.859548 2.306004 2.896459 3.355387
.
9 1.383029 1.833113 2.262157 2.821438 3.249836
I.O
10 1.372184 1.812461 2.228139 2.763769 3.169273
11 1.363430 1.795885 2.200985 2.718079 3.105807
12 1.356217 1.782288 2.178813 2.680998 3.054540
13 1.350171 1.770933 2.160369 2.650309 3.012276
14 1.345030 1.761310 2.144787 2.624494 2.976843
e
15 1.340606 1.753050 2.131450 2.602480 2.946713
16 1.336757 1.745884
a 2.119905 2.583487 2.920782
17 1.333379 1.739607 2.109816 2.566934 2.898231
18 1.330391 1.734064 2.100922 2.552380 2.878440
ic
19 1.327728 1.729133 2.093024 2.539483 2.860935
20 1.325341 1.724718 2.085963 2.527977 2.845340
st
21 1.323188 1.720743 2.079614 2.517648 2.831360

22 1.321237 1.717144 2.073873 2.508325 2.818756
23 1.319460 1.713872 2.068658 2.499867 2.807336
dí
24 1.317836 1.710882 2.063899 2.492159 2.796940

25 1.316345 1.708141 2.059539 2.485107 2.787436
ta
26 1.314972 1.705618 2.055529 2.478630 2.778715

27 1.313703 1.703288 2.051831 2.472660 2.770683
28 1.312527 1.701131 2.048407 2.467140 2.763262
Es
29 1.311434 1.699127 2.045230 2.462021 2.756386

30 1.310415 1.697261 2.042272 2.457262 2.749996
40 1.303077 1.683851 2.021075 2.423257 2.704459
50 1.298714 1.675905 2.008559 2.403272 2.677793
60 1.295821 1.670649 2.000298 2.390119 2.660283
70 1.293763 1.666914 1.994437 2.380807 2.647905
90 1.291029 1.661961 1.986675 2.368497 2.631565
100 1.290075 1.660234 1.983972 2.364217 2.625891
1000 1.282399 1.646379 1.962339 2.330083 2.580755
Tabla D
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.9
den/num 1 2 3 4 5 6 7 8 9
1 39.863458 49.500000 53.593245 55.832961 57.240077 58.204416 58.905953 59.438981 59.857585
2 8.526316 9.000000 9.161790 9.243416 9.292626 9.325530 9.349081 9.366770 9.380544
3 5.538319 5.462383 5.390773 5.342644 5.309157 5.284732 5.266195 5.251671 5.239996
4 4.544771 4.324555 4.190860 4.107250 4.050579 4.009749 3.978966 3.954940 3.935671
5 4.060420 3.779716 3.619477 3.520196 3.452982 3.404507 3.367899 3.339276 3.316281
6 3.775950 3.463304 3.288762 3.180763 3.107512 3.054551 3.014457 2.983036 2.957741
7 3.589428 3.257442 3.074072 2.960534 2.883344 2.827392 2.784930 2.751580 2.724678
8 3.457919 3.113118 2.923796 2.806426 2.726447 2.668335 2.624135 2.589349 2.561238
.
9 3.360303 3.006452 2.812863 2.692680 2.610613 2.550855 2.505313 2.469406 2.440340
I.O
10 3.285015 2.924466 2.727673 2.605336 2.521641 2.460582 2.413965 2.377150 2.347306
11 3.225202 2.859511 2.660229 2.536188 2.451184 2.389067 2.341566 2.303997 2.273502
12 3.176549 2.806796 2.605525 2.480102 2.394022 2.331024 2.282780 2.244575 2.213525
13 3.136205 2.763167 2.560273 2.433705 2.346724 2.282979 2.234103 2.195350 2.163820
14 3.102213 2.726468 2.522224 2.394692 2.306943 2.242559 2.193134 2.153904 2.121955
e
15 3.073186 2.695173 2.489788 2.361433 2.273022 2.208082 2.158178 2.118530 2.086209
16 3.048110 2.668171 2.461811 2.332745 2.243758 2.178329 2.128003 2.087982 2.055331
17 3.026232 2.644638 2.437434 2.307747 2.218253 2.152392 2.101689 2.061336 2.028388
18 3.006977 2.623947
a
2.416005 2.285772 2.195827 2.129581 2.078541 2.037889 2.004674
19 2.989900 2.605612 2.397022 2.266303 2.175956 2.109364 2.058020 2.017098 1.983639
ic
20 2.974653 2.589254 2.380087 2.248934 2.158227 2.091322 2.039703 1.998534 1.964853
21 2.960956 2.574569 2.364888 2.233345 2.142311 2.075123 2.023252 1.981858 1.947974
st
22 2.948585 2.561314 2.351170 2.219274 2.127944 2.060497 2.008397 1.966796 1.932725

23 2.937356 2.549290 2.338727 2.206512 2.114911 2.047227 1.994915 1.953124 1.918880
24 2.927117 2.538332 2.327390 2.194882 2.103033 2.035132 1.982625 1.940658 1.906255
dí
25 2.917745 2.528305 2.317017 2.184242 2.092165 2.024062 1.971376 1.929246 1.894693

26 2.909132 2.519096 2.307491 2.174469 2.082182 2.013893 1.961039 1.918758 1.884067
ta
27 2.901192 2.510609 2.298712 2.165463 2.072981 2.004519 1.951510 1.909087 1.874267

28 2.893846 2.502761 2.290595 2.157136 2.064473 1.995851 1.942696 1.900141 1.865199
29 2.887033 2.495483 2.283069 2.149415 2.056583 1.987811 1.934521 1.891842 1.856786
Es
30 2.880695 2.488716 2.276071 2.142235 2.049246 1.980333 1.926916 1.884121 1.848958

40 2.835354 2.440369 2.226092 2.090950 1.996820 1.926879 1.872522 1.828863 1.792902
50 2.808658 2.411955 2.196730 2.060816 1.965999 1.895431 1.840496 1.796300 1.759836
60 2.791068 2.393255 2.177411 2.040986 1.945710 1.874720 1.819393 1.774829 1.738020
70 2.778604 2.380015 2.163735 2.026947 1.931343 1.860049 1.804438 1.759607 1.722546
90 2.762115 2.362513 2.145660 2.008390 1.912348 1.840645 1.784650 1.739457 1.702053
100 2.756378 2.356427 2.139376 2.001938 1.905742 1.833896 1.777765 1.732443 1.694917
0.9
Tabla E
den/num 10 12 15 24 30 40 60 80 100
1 60.194980 60.705212 61.220343 62.002046 62.264970 62.529052 62.794279 62.927318 63.007277
2 9.391573 9.408132 9.424711 9.449616 9.457927 9.466244 9.474565 9.478727 9.481225
3 5.230411 5.215618 5.200313 5.176365 5.168111 5.159719 5.151187 5.146868 5.144259
4 3.919876 3.895527 3.870360 3.830994 3.817422 3.803615 3.789568 3.782452 3.778153
5 3.297402 3.268239 3.238011 3.190523 3.174084 3.157324 3.140230 3.131555 3.126308
6 2.936935 2.904721 2.871222 2.818345 2.799960 2.781169 2.761952 2.752178 2.746259
7 2.702510 2.668111 2.632230 2.575327 2.555457 2.535096 2.514218 2.503575 2.497122
8 2.538037 2.501958 2.464216 2.404097 2.383016 2.361362 2.339097 2.327723 2.320818
.
9 2.416316 2.378885 2.339624 2.276827 2.254720 2.231958 2.208493 2.196480 2.189178
I.O
10 2.322604 2.284051 2.243515 2.178426 2.155426 2.131691 2.107161 2.094576 2.086917
11 2.248230 2.208725 2.167094 2.100005 2.076214 2.051610 2.026118 2.013013 2.005028
12 2.187764 2.147437 2.104851 2.035993 2.011492 1.986102 1.959732 1.946148 1.937862
13 2.137635 2.096588 2.053160 1.982718 1.957575 1.931466 1.904287 1.890259 1.881692
14 2.095396 2.053714 2.009535 1.937663 1.911933 1.885163 1.857234 1.842791 1.833960
e
15 2.059319 2.017070 1.972216 1.899044 1.872774 1.845393 1.816764 1.801931 1.792852
16 2.028145 1.985386 1.939921 1.865561 1.838792 1.810841 1.781557 1.766356 1.757042
17 2.000936 1.957716 1.911695 1.836242 1.809010 1.780528 1.750627 1.735078 1.725540
18 1.976980 1.933340
a
1.886811 1.810348 1.782685 1.753706 1.723222 1.707343 1.697592
19 1.955725 1.911702 1.864705 1.787307 1.759241 1.729793 1.698758 1.682565 1.672611
ic
20 1.936738 1.892363 1.844935 1.766667 1.738223 1.708334 1.676776 1.660283 1.650134
21 1.919674 1.874975 1.827148 1.748068 1.719268 1.688962 1.656907 1.640127 1.629791
st
22 1.904255 1.859255 1.811057 1.731217 1.702083 1.671382 1.638853 1.621798 1.611283

23 1.890252 1.844974 1.796431 1.715878 1.686428 1.655352 1.622371 1.605053 1.594365
24 1.877480 1.831942 1.783076 1.701854 1.672104 1.640673 1.607260 1.589688 1.578834
dí
25 1.865782 1.820003 1.770834 1.688981 1.658947 1.627177 1.593350 1.575536 1.564521

26 1.855028 1.809023 1.759571 1.677122 1.646819 1.614725 1.580502 1.562453 1.551283
ta
27 1.845109 1.798891 1.749173 1.666160 1.635601 1.603198 1.568595 1.550320 1.539000

28 1.835930 1.789513 1.739543 1.655997 1.625193 1.592496 1.557527 1.539034 1.527569
29 1.827412 1.780807 1.730600 1.646547 1.615511 1.582531 1.547210 1.528506 1.516901
Es
30 1.819485 1.772704 1.722272 1.637737 1.606479 1.573228 1.537569 1.518662 1.506920

40 1.762686 1.714563 1.662411 1.574111 1.541076 1.505625 1.467157 1.446524 1.433612
50 1.729150 1.680167 1.626896 1.536066 1.501797 1.464779 1.424238 1.402290 1.388465
60 1.707009 1.657429 1.603368 1.510718 1.475539 1.437342 1.395201 1.372207 1.357645
70 1.691297 1.641276 1.586630 1.492605 1.456726 1.417609 1.374189 1.350343 1.335168
90 1.670478 1.619851 1.564392 1.468426 1.431540 1.391075 1.345738 1.320578 1.304440
100 1.663225 1.612381 1.556629 1.459952 1.422691 1.381718 1.335642 1.309963 1.293439
0.9
Tabla F
den/num 1 2 3 4 5 6 7 8 9
1 161.44764 199.50000 215.70735 224.58324 230.16188 233.98600 236.76840 238.88269 240.54325
2 18.512821 19.000000 19.164292 19.246794 19.296410 19.329534 19.353218 19.370993 19.384826
3 10.127964 9.552094 9.276628 9.117182 9.013455 8.940645 8.886743 8.845238 8.812300
4 7.708647 6.944272 6.591382 6.388233 6.256057 6.163132 6.094211 6.041044 5.998779
5 6.607891 5.786135 5.409451 5.192168 5.050329 4.950288 4.875872 4.818320 4.772466
6 5.987378 5.143253 4.757063 4.533677 4.387374 4.283866 4.206658 4.146804 4.099016
7 5.591448 4.737414 4.346831 4.120312 3.971523 3.865969 3.787044 3.725725 3.676675
8 5.317655 4.458970 4.066181 3.837853 3.687499 3.580580 3.500464 3.438101 3.388130
.
9 5.117355 4.256495 3.862548 3.633089 3.481659 3.373754 3.292746 3.229583 3.178893
I.O
10 4.964603 4.102821 3.708265 3.478050 3.325835 3.217175 3.135465 3.071658 3.020383
11 4.844336 3.982298 3.587434 3.356690 3.203874 3.094613 3.012330 2.947990 2.896223
12 4.747225 3.885294 3.490295 3.259167 3.105875 2.996120 2.913358 2.848565 2.796375
13 4.667193 3.805565 3.410534 3.179117 3.025438 2.915269 2.832098 2.766913 2.714356
14 4.600110 3.738892 3.343889 3.112250 2.958249 2.847726 2.764199 2.698672 2.645791
e
15 4.543077 3.682320 3.287382 3.055568 2.901295 2.790465 2.706627 2.640797 2.587626
16 4.493998 3.633723 3.238872 3.006917 2.852409 2.741311 2.657197 2.591096 2.537667
17 4.451322 3.591531 3.196777 2.964708 2.809996 2.698660 2.614299 2.547955 2.494291
18 4.413873 3.554557
a
3.159908 2.927744 2.772853 2.661305 2.576722 2.510158 2.456281
19 4.380750 3.521893 3.127350 2.895107 2.740058 2.628318 2.543534 2.476770 2.422699
ic
20 4.351244 3.492828 3.098391 2.866081 2.710890 2.598978 2.514011 2.447064 2.392814
21 4.324794 3.466800 3.072467 2.840100 2.684781 2.572712 2.487578 2.420462 2.366048
st
22 4.300950 3.443357 3.049125 2.816708 2.661274 2.549061 2.463774 2.396503 2.341937

23 4.279344 3.422132 3.027998 2.795539 2.639999 2.527655 2.442226 2.374812 2.320105
24 4.259677 3.402826 3.008787 2.776289 2.620654 2.508189 2.422629 2.355081 2.300244
dí
25 4.241699 3.385190 2.991241 2.758710 2.602987 2.490410 2.404728 2.337057 2.282097

26 4.225201 3.369016 2.975154 2.742594 2.586790 2.474109 2.388314 2.320527 2.265453
ta
27 4.210008 3.354131 2.960351 2.727765 2.571886 2.459108 2.373208 2.305313 2.250131

28 4.195972 3.340386 2.946685 2.714076 2.558128 2.445259 2.359260 2.291264 2.235982
29 4.182964 3.327654 2.934030 2.701399 2.545386 2.432434 2.346342 2.278251 2.222874
Es
30 4.170877 3.315830 2.922277 2.689628 2.533555 2.420523 2.334344 2.266163 2.210697

40 4.084746 3.231727 2.838745 2.605975 2.449466 2.335852 2.249024 2.180170 2.124029
50 4.034310 3.182610 2.790008 2.557179 2.400409 2.286436 2.199202 2.129923 2.073351
60 4.001191 3.150411 2.758078 2.525215 2.368270 2.254053 2.166541 2.096968 2.040098
70 3.977779 3.127676 2.735541 2.502656 2.345586 2.231192 2.143478 2.073690 2.016601
90 3.946876 3.097698 2.705838 2.472927 2.315689 2.201056 2.113067 2.042986 1.985595
100 3.936143 3.087296 2.695534 2.462615 2.305318 2.190601 2.102513 2.032328 1.974829
0.95
Tabla G
den/num 10 12 15 24 30 40 60 80 100
1 241.88175 243.90604 245.94993 249.05177 250.09515 251.14315 252.19574 252.72373 253.04107
2 19.395897 19.412511 19.429135 19.454089 19.462411 19.470736 19.479064 19.483228 19.485727
3 8.785525 8.744641 8.702870 8.638501 8.616576 8.594411 8.572004 8.560709 8.553902
4 5.964371 5.911729 5.857805 5.774389 5.745877 5.716998 5.687744 5.672973 5.664064
5 4.735063 4.677704 4.618759 4.527153 4.495712 4.463793 4.431380 4.414982 4.405081
6 4.059963 3.999935 3.938058 3.841457 3.808164 3.774286 3.739797 3.722314 3.711745
7 3.636523 3.574676 3.510740 3.410494 3.375808 3.340430 3.304323 3.285983 3.274885
8 3.347163 3.283939 3.218406 3.115240 3.079406 3.042778 3.005303 2.986230 2.974674
.
9 3.137280 3.072947 3.006102 2.900474 2.863652 2.825933 2.787249 2.767522 2.755557
I.O
10 2.978237 2.912977 2.845017 2.737248 2.699551 2.660855 2.621077 2.600753 2.588412
11 2.853625 2.787569 2.718640 2.608974 2.570489 2.530905 2.490123 2.469246 2.456555
12 2.753387 2.686637 2.616851 2.505482 2.466279 2.425880 2.384166 2.362772 2.349753
13 2.671024 2.603661 2.533110 2.420196 2.380334 2.339180 2.296596 2.274716 2.261387
14 2.602155 2.534243 2.463003 2.348678 2.308207 2.266350 2.222950 2.200611 2.186988
e
15 2.543719 2.475313 2.403447 2.287826 2.246789 2.204276 2.160105 2.137331 2.123428
16 2.493513 2.424660 2.352223 2.235405 2.193841 2.150711 2.105813 2.082625 2.068455
17 2.449916 2.380654 2.307693 2.189766 2.147708 2.103998 2.058411 2.034828 2.020401
18 2.411702 2.342067
a
2.268622 2.149665 2.107143 2.062885 2.016643 1.992682 1.978010
19 2.377934 2.307954 2.234063 2.114143 2.071186 2.026410 1.979544 1.955221 1.940314
ic
20 2.347878 2.277581 2.203274 2.082454 2.039086 1.993819 1.946358 1.921689 1.906554
21 2.320953 2.250362 2.175670 2.054004 2.010248 1.964515 1.916486 1.891483 1.876131
st
22 2.296696 2.225831 2.150778 2.028319 1.984195 1.938018 1.889445 1.864123 1.848559

23 2.274728 2.203607 2.128217 2.005009 1.960537 1.913938 1.864844 1.839213 1.823446
24 2.254739 2.183380 2.107673 1.983760 1.938957 1.891955 1.842360 1.816432 1.800468
dí
25 2.236474 2.164891 2.088887 1.964306 1.919188 1.871801 1.821727 1.795512 1.779357

26 2.219718 2.147926 2.071642 1.946428 1.901010 1.853255 1.802719 1.776228 1.759888
ta
27 2.204292 2.132303 2.055755 1.929940 1.884236 1.836129 1.785149 1.758390 1.741871

28 2.190044 2.117869 2.041071 1.914686 1.868709 1.820263 1.768857 1.741838 1.725146
29 2.176844 2.104493 2.027458 1.900531 1.854293 1.805523 1.753704 1.726435 1.709574
Es
30 2.164580 2.092063 2.014804 1.887360 1.840872 1.791790 1.739574 1.712062 1.695037

40 2.077248 2.003459 1.924463 1.792937 1.744432 1.692797 1.637252 1.607666 1.589224
50 2.026143 1.951528 1.871384 1.737080 1.687157 1.633682 1.575654 1.544469 1.524911
60 1.992592 1.917396 1.836437 1.700117 1.649141 1.594273 1.534314 1.501853 1.481386
70 1.968875 1.893248 1.811681 1.673829 1.622040 1.566078 1.504572 1.471064 1.449840
90 1.937567 1.861344 1.778927 1.638904 1.585937 1.528369 1.464531 1.429404 1.406986
100 1.926692 1.850255 1.767530 1.626708 1.573302 1.515125 1.450386 1.414618 1.391720
0.95
Tabla H
den/num 1 2 3 4 5 6 7 8 9
1 647.78901 799.50000 864.16297 899.58331 921.84790 937.11108 948.21689 956.65622 963.28458
2 38.506329 39.000000 39.165495 39.248418 39.298228 39.331458 39.355205 39.373022 39.386883
3 17.443443 16.044106 15.439182 15.100979 14.884823 14.734718 14.624395 14.539887 14.473081
4 12.217863 10.649111 9.979199 9.604530 9.364471 9.197311 9.074141 8.979580 8.904682
5 10.006982 8.433621 7.763589 7.387886 7.146382 6.977702 6.853076 6.757172 6.681054
6 8.813101 7.259856 6.598799 6.227161 5.987565 5.819757 5.695470 5.599623 5.523407
7 8.072669 6.541520 5.889819 5.522594 5.285237 5.118597 4.994909 4.899341 4.823217
8 7.570882 6.059467 5.415962 5.052632 4.817276 4.651696 4.528562 4.433260 4.357233
.
9 7.209283 5.714705 5.078119 4.718078 4.484411 4.319722 4.197047 4.101956 4.025994
I.O
10 6.936728 5.456396 4.825621 4.468342 4.236086 4.072131 3.949824 3.854891 3.778963
11 6.724130 5.255889 4.630025 4.275072 4.043998 3.880651 3.758638 3.663819 3.587899
12 6.553769 5.095867 4.474185 4.121209 3.891134 3.728292 3.606515 3.511777 3.435846
13 6.414254 4.965266 4.347178 3.995898 3.766674 3.604256 3.482669 3.387987 3.312032
14 6.297939 4.856698 4.241728 3.891914 3.663423 3.501365 3.379933 3.285288 3.209300
e
15 6.199501 4.765048 4.152804 3.804271 3.576415 3.414665 3.293360 3.198738 3.122712
16 6.115127 4.686665 4.076823 3.729417 3.502116 3.340631 3.219431 3.124822 3.048753
17 6.042013 4.618874 4.011163 3.664754 3.437944 3.276689 3.155577 3.060973 2.984859
18 5.978052 4.559672
a
3.953863 3.608344 3.381968 3.220915 3.099877 3.005271 2.929112
19 5.921631 4.507528 3.903428 3.558706 3.332718 3.171844 3.050868 2.956257 2.880052
ic
20 5.871494 4.461255 3.858699 3.514695 3.289056 3.128340 3.007416 2.912797 2.836546
21 5.826648 4.419918 3.818761 3.475408 3.250084 3.089509 2.968630 2.873999 2.797704
st
22 5.786299 4.382768 3.782886 3.440126 3.215087 3.054639 2.933799 2.839155 2.762815

23 5.749805 4.349202 3.750486 3.408268 3.183488 3.023154 2.902347 2.807689 2.731307
24 5.716639 4.318726 3.721080 3.379359 3.154816 2.994586 2.873808 2.779135 2.702711
dí
25 5.686366 4.290932 3.694273 3.353009 3.128684 2.968549 2.847795 2.753106 2.676642

26 5.658624 4.265483 3.669736 3.328894 3.104770 2.944720 2.823988 2.729283 2.652780
ta
27 5.633109 4.242094 3.647192 3.306741 3.082802 2.922831 2.802118 2.707396 2.630856

28 5.609564 4.220525 3.626408 3.286321 3.062554 2.902655 2.781959 2.687220 2.610643
29 5.587768 4.200572 3.607187 3.267438 3.043830 2.883998 2.763317 2.668562 2.591950
Es
30 5.567535 4.182061 3.589359 3.249925 3.026466 2.866696 2.746027 2.651256 2.574610

40 5.423937 4.050992 3.463260 3.126114 2.903722 2.744382 2.623781 2.528863 2.451939
50 5.340323 3.974931 3.390189 3.054415 2.832654 2.673555 2.552974 2.457942 2.380821
60 5.285611 3.925265 3.342520 3.007659 2.786315 2.627370 2.506792 2.411672 2.334406
70 5.247025 3.890290 3.308972 2.974763 2.753714 2.594875 2.474294 2.379106 2.301729
90 5.196210 3.844295 3.264880 2.931540 2.710881 2.552179 2.431588 2.336299 2.258766
100 5.178594 3.828367 3.249619 2.916582 2.696059 2.537403 2.416807 2.321481 2.243889
0.975
Tabla I
den/num 10 12 15 24 30 40 60 80 100
1 968.62744 976.70795 984.86684 997.24925 1001.41441 1005.59810 1009.80011 1011.90792 1013.17477
2 39.397975 39.414615 39.431261 39.456238 39.464566 39.472895 39.481226 39.485392 39.487891
3 14.418942 14.336552 14.252711 14.124146 14.080523 14.036509 13.992098 13.969742 13.956280
4 8.843881 8.751159 8.656541 8.510873 8.461274 8.411132 8.360436 8.334875 8.319469
5 6.619154 6.524549 6.427728 6.278040 6.226879 6.175050 6.122529 6.096002 6.079999
6 5.461324 5.366244 5.268667 5.117192 5.065227 5.012471 4.958891 4.931779 4.915406
7 4.761116 4.665830 4.567787 4.414999 4.362393 4.308876 4.254398 4.226782 4.210087
8 4.295127 4.199667 4.101213 3.947220 3.894016 3.839780 3.784446 3.756345 3.739339
.
9 3.963865 3.868220 3.769357 3.614196 3.560410 3.505474 3.449302 3.420723 3.403411
I.O
10 3.716792 3.620945 3.521673 3.365369 3.311017 3.255396 3.198402 3.169353 3.151738
11 3.525672 3.429613 3.329935 3.172519 3.117617 3.061330 3.003533 2.974023 2.956110
12 3.373553 3.277277 3.177201 3.018711 2.963278 2.906346 2.847768 2.817807 2.799601
13 3.249668 3.153175 3.052713 2.893191 2.837247 2.779693 2.720356 2.689956 2.671465
14 3.146861 3.050155 2.949321 2.788811 2.732377 2.674223 2.614152 2.583325 2.564556
e
15 3.060197 2.963282 2.862093 2.700640 2.643735 2.585005 2.524226 2.492984 2.473944
16 2.986163 2.889048 2.787518 2.625166 2.567813 2.508529 2.447066 2.415423 2.396119
17 2.922195 2.824886 2.723032 2.559824 2.502042 2.442228 2.380105 2.348072 2.328513
18 2.866376 2.768881
a
2.666719 2.502697 2.444504 2.384181 2.321422 2.289012 2.269204
19 2.817245 2.719574 2.617118 2.452321 2.393736 2.332924 2.269552 2.236777 2.216727
ic
20 2.773671 2.675831 2.573096 2.407562 2.348602 2.287322 2.223359 2.190229 2.169945
21 2.734764 2.636762 2.533762 2.367526 2.308208 2.246478 2.181945 2.148472 2.127960
st
22 2.699813 2.601657 2.498405 2.331500 2.271840 2.209678 2.144594 2.110790 2.090055

23 2.668244 2.569941 2.466451 2.298907 2.238919 2.176343 2.110728 2.076601 2.055651
24 2.639590 2.541148 2.437429 2.269277 2.208976 2.146000 2.079873 2.045434 2.024274
dí
25 2.613466 2.514890 2.410954 2.242222 2.181619 2.118261 2.051639 2.016896 1.995533

26 2.589551 2.490848 2.386705 2.217418 2.156527 2.092800 2.025699 1.990663 1.969101
ta
27 2.567576 2.468752 2.364412 2.194595 2.133427 2.069345 2.001781 1.966459 1.944704

28 2.547315 2.448375 2.343847 2.173522 2.112088 2.047664 1.979653 1.944054 1.922111
29 2.528575 2.429524 2.324816 2.154006 2.092317 2.027563 1.959118 1.923250 1.901123
Es
30 2.511191 2.412034 2.307154 2.135879 2.073944 2.008872 1.940008 1.903877 1.881573

40 2.388161 2.288157 2.181903 2.006868 1.942916 1.875197 1.802770 1.764373 1.740503
50 2.316794 2.216209 2.109012 1.931343 1.865940 1.796275 1.721144 1.680971 1.655849
60 2.270198 2.169192 2.061308 1.881696 1.815202 1.744046 1.666791 1.625187 1.599037
70 2.237384 2.136060 2.027655 1.846552 1.779207 1.706873 1.627903 1.585119 1.558108
90 2.194227 2.092453 1.983313 1.800071 1.731487 1.657409 1.575840 1.531220 1.502843
100 2.179280 2.077342 1.967932 1.783898 1.714849 1.640107 1.557528 1.512179 1.483251
0.975
Tabla J
den/num 1 2 3 4 5 6 7 8 9
1 4052.18070 4999.50000 5403.35201 5624.58333 5763.64955 5858.98611 5928.35573 5981.07031 6022.47324
2 98.502513 99.000000 99.166201 99.249372 99.299296 99.332589 99.356374 99.374215 99.388093
3 34.116222 30.816520 29.456695 28.709898 28.237081 27.910657 27.671696 27.489177 27.345206
4 21.197690 18.000000 16.694369 15.977025 15.521858 15.206865 14.975758 14.798889 14.659134
5 16.258177 13.273934 12.059954 11.391928 10.967021 10.672255 10.455511 10.289311 10.157762
6 13.745023 10.924767 9.779538 9.148301 8.745895 8.466125 8.259995 8.101651 7.976121
7 12.246383 9.546578 8.451285 7.846645 7.460435 7.191405 6.992833 6.840049 6.718752
8 11.258624 8.649111 7.590992 7.006077 6.631825 6.370681 6.177624 6.028870 5.910619
.
9 10.561431 8.021517 6.991917 6.422085 6.056941 5.801770 5.612865 5.467123 5.351129
I.O
10 10.044289 7.559432 6.552313 5.994339 5.636326 5.385811 5.200121 5.056693 4.942421
11 9.646034 7.205713 6.216730 5.668300 5.316009 5.069210 4.886072 4.744468 4.631540
12 9.330212 6.926608 5.952545 5.411951 5.064343 4.820574 4.639502 4.499365 4.387510
13 9.073806 6.700965 5.739380 5.205330 4.861621 4.620363 4.440997 4.302062 4.191078
14 8.861593 6.514884 5.563886 5.035378 4.694964 4.455820 4.277882 4.139946 4.029680
e
15 8.683117 6.358873 5.416965 4.893210 4.555614 4.318273 4.141546 4.004453 3.894788
16 8.530965 6.226235 5.292214 4.772578 4.437420 4.201634 4.025947 3.889572 3.780415
17 8.399740 6.112114 5.185000 4.668968 4.335939 4.101505 3.926719 3.790964 3.682242
18 8.285420 6.012905
a
5.091890 4.579036 4.247882 4.014637 3.840639 3.705422 3.597074
19 8.184947 5.925879 5.010287 4.500258 4.170767 3.938573 3.765269 3.630525 3.522503
ic
20 8.095958 5.848932 4.938193 4.430690 4.102685 3.871427 3.698740 3.564412 3.456676
21 8.016597 5.780416 4.874046 4.368815 4.042144 3.811725 3.639590 3.505632 3.398147
st
22 7.945386 5.719022 4.816606 4.313429 3.987963 3.758301 3.586660 3.453034 3.345773

23 7.881134 5.663699 4.764877 4.263567 3.939195 3.710218 3.539024 3.405695 3.298634
24 7.822871 5.613591 4.718051 4.218445 3.895070 3.666717 3.495928 3.362867 3.255985
dí
25 7.769798 5.567997 4.675465 4.177420 3.854957 3.627174 3.456754 3.323937 3.217217

26 7.721254 5.526335 4.636570 4.139960 3.818336 3.591075 3.420993 3.288399 3.181824
ta
27 7.676684 5.488118 4.600907 4.105622 3.784770 3.557991 3.388219 3.255827 3.149385

28 7.635619 5.452937 4.568091 4.074032 3.753895 3.527559 3.358073 3.225868 3.119547
29 7.597663 5.420445 4.537795 4.044873 3.725399 3.499475 3.330252 3.198219 3.092009
Es
30 7.562476 5.390346 4.509740 4.017877 3.699019 3.473477 3.304499 3.172624 3.066516

40 7.314100 5.178508 4.312569 3.828294 3.513840 3.291012 3.123757 2.992981 2.887560
50 7.170577 5.056611 4.199343 3.719545 3.407680 3.186434 3.020168 2.890008 2.784956
60 7.077106 4.977432 4.125892 3.649047 3.338884 3.118674 2.953049 2.823280 2.718454
70 7.011399 4.921872 4.074397 3.599647 3.290689 3.071209 2.906032 2.776533 2.671859
90 6.925135 4.849058 4.006968 3.534992 3.227626 3.009106 2.844515 2.715364 2.610879
100 6.895301 4.823910 3.983695 3.512684 3.205872 2.987684 2.823295 2.694263 2.589841
0.99
Tabla K
den/num 10 12 15 24 30 40 60 80 100
1 6055.84671 6106.32071 6157.28462 6234.63089 6260.64858 6286.78205 6313.03005 6326.19659 6334.11004
2 99.399196 99.415852 99.432511 99.457502 99.465833 99.474165 99.482497 99.486663 99.489163
3 27.228734 27.051819 26.872195 26.597523 26.504534 26.410813 26.316351 26.268839 26.240242
4 14.545901 14.373587 14.198202 13.929064 13.837660 13.745379 13.652198 13.605264 13.576992
5 10.051017 9.888275 9.722219 9.466471 9.379329 9.291189 9.202015 9.157029 9.129907
6 7.874119 7.718333 7.558994 7.312721 7.228533 7.143222 7.056737 7.013037 6.986667
7 6.620063 6.469091 6.314331 6.074319 5.992010 5.908449 5.823566 5.780605 5.754657
8 5.814294 5.666719 5.515125 5.279264 5.198130 5.115610 5.031618 4.989038 4.963296
.
9 5.256542 5.111431 4.962078 4.728998 4.648582 4.566649 4.483087 4.440656 4.414980
I.O
10 4.849147 4.705870 4.558140 4.326929 4.246933 4.165287 4.081855 4.039422 4.013719
11 4.539282 4.397401 4.250867 4.020910 3.941132 3.859573 3.776071 3.733533 3.707744
12 4.296054 4.155258 4.009619 3.780485 3.700789 3.619181 3.535473 3.492763 3.466845
13 4.100267 3.960326 3.815365 3.586753 3.507042 3.425293 3.341287 3.298357 3.272282
14 3.939396 3.800141 3.655697 3.427387 3.347596 3.265641 3.181274 3.138094 3.111842
e
15 3.804940 3.666240 3.522194 3.294029 3.214110 3.131906 3.047135 3.003683 2.977242
16 3.690931 3.552687 3.408947 3.180811 3.100733 3.018248 2.933046 2.889308 2.862669
17 3.593066 3.455198 3.311694 3.083502 3.003241 2.920458 2.834806 2.790774 2.763932
18 3.508162 3.370608
a
3.227286 2.998974 2.918516 2.835420 2.749309 2.704978 2.677930
19 3.433817 3.296527 3.153343 2.924866 2.844201 2.760786 2.674211 2.629578 2.602323
ic
20 3.368186 3.231120 3.088041 2.859363 2.778485 2.694749 2.607708 2.562774 2.535313
21 3.309830 3.172953 3.029951 2.801050 2.719955 2.635896 2.548393 2.503160 2.475492
st
22 3.257606 3.120891 2.977946 2.748802 2.667490 2.583111 2.495149 2.449619 2.421747

23 3.210599 3.074025 2.931118 2.701720 2.620191 2.535496 2.447081 2.401258 2.373184
24 3.168069 3.031615 2.888732 2.659072 2.577329 2.492321 2.403461 2.357349 2.329076
dí
25 3.129406 2.993056 2.850186 2.620260 2.538305 2.452990 2.363691 2.317296 2.288826

26 3.094108 2.957848 2.814982 2.584787 2.502624 2.417007 2.327279 2.280604 2.251941
ta
27 3.061754 2.925573 2.782703 2.552239 2.469872 2.383960 2.293812 2.246863 2.218009

28 3.031992 2.895881 2.753000 2.522268 2.439701 2.353501 2.262941 2.215723 2.186682
29 3.004524 2.868472 2.725577 2.494579 2.411817 2.325335 2.234372 2.186890 2.157666
Es
30 2.979094 2.843095 2.700180 2.468921 2.385967 2.299211 2.207854 2.160114 2.130710

40 2.800545 2.664827 2.521616 2.287998 2.203382 2.114232 2.019411 1.969368 1.938341
50 2.698139 2.562497 2.418961 2.183485 2.097593 2.006592 1.909032 1.857122 1.824753
60 2.631751 2.496116 2.352297 2.115364 2.028479 1.936018 1.836259 1.782816 1.749328
70 2.585226 2.449575 2.305517 2.067425 1.979748 1.886115 1.784557 1.729835 1.695398
90 2.524326 2.388623 2.244198 2.004390 1.915536 1.820141 1.715821 1.659088 1.623133
100 2.503311 2.367582 2.223015 1.982556 1.893254 1.797181 1.691780 1.634242 1.597669
0.99
Tabla L

Estadística Biología 2023 24def

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Biología 2023 24def

Cargado por

Copyright:

Formatos disponibles

Departamento de Estadı́stica

Nota: Este documento es un guión-resumen de la materia que se desarrollará en clase.

CARÁCTER: FORMACIÓN BÁSICA. PRIMER CURSO. PRIMER CUATRIMESTRE

Tutorı́as personalizadas: voluntarias.

GRUPO A: 18.10.2023, 25.10.2023, 13.12.2023 y 20.12.2023

GRUPO B: 16.10.2023, 23.10.2023, 11.12.2023 y 18.12.2023

GRUPO C: 16.10.2023, 23.10.2023, 11.12.2023 y 18.12.2023

GRUPO D: 17.10.2023, 24.10.2023, 12.12.2023 y 19.12.2023

BLOQUE TEMÁTICO I: ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DA-

1. Introducción a la Estadı́stica. Conceptos básicos.

3. Caracterı́sticas asociadas a una distribución de frecuencias.

5. Experimentos aleatorios. Probabilidad.

BLOQUE TEMÁTICO III: INFERENCIA ESTADÍSTICA.

9. Contrastes de hipótesis estadı́sticas.

SISTEMAS Y CRITERIOS DE EVALUACIÓN:

otros medios que serán fijados por el profesor.

PRIMERA PRUEBA EVALUACIÓN ALTERNATIVA:

GRUPO A: 7.11.2023 (en horario de 11 a 13 horas)

GRUPO B: 6.11.2023 (en horario de 12 a 14 horas)

GRUPO D: 7.11.2023 (en horario de 11 a 13 horas)

SEGUNDA PRUEBA EVALUACIÓN ALTERNATIVA:

ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DATOS

1. Introducción a la Estadı́stica. Conceptos básicos. Distribuciones de

tificando además la fiabilidad de dicha información.

1.2. Tipos de estudios

En un estudio observacional, los investigadores recogen datos de un modo que no interfieran

1.3. Conceptos básicos

Se llama Carácter o Variable a un rasgo de la población, es decir, es una caracterı́stica de

Distinguimos dos tipos de variables o caracteres: cualitativos y cuantitativos.

• Una Variable Cualitativa, Categórica o Atributo es aquella que no se puede cuan-

Razones habituales de inaccesibilidad a la población:

Imposibilidad fı́sica de acceder a toda la población.

Imposibilidad económica de acceder a toda la población:

Imposibilidad por destrucción del individuo objeto de estudio.

Tamaño de la muestra. Viene determinado por el tamaño de la población, por la variabilidad

Errores de muestreo. Se producen por la variabilidad inherente a la población.

Errores ajenos al muestreo:

• de observación: sobrecobertura, de medida y de proceso.

Frecuencia relativa de xi , que denotaremos fi , es la proporción de observaciones que toman

dicho valor, es decir

Si la variable es cuantitativa o cualitativa ordinal, se puede definir:

Frecuencia (absoluta) acumulada de xi , que denotaremos Ni , es el número de observaciones

Y en el caso de variable cualitativa ordinal o cuantitativa discreta:

tabla de la siguiente forma:

2.1.1. Diagrama de barras

2.1.2. Polı́gono de frecuencias

Figura 2: Polı́gono de frecuencias para los datos del ejemplo 1

2.1.3. Curva acumulativa

2.2. Variables agrupadas

2 puede verse en la figura 4.

2.2.2. Polı́gono de frecuencias

Figura 5: Polı́gono de frecuencias para los datos del ejemplo 2.

Figura 6: Curva acumulativa correspondiente a los datos del ejemplo 2.

2.3. Variables cualitativas o atributos

2.3.1. Diagrama de rectángulos

Su construcción es similar al diagrama de barras. Las frecuencias se pueden representar en el eje

Ejemplo 3 En un estudio sobre roedores se dispone de 12 ejemplares, cuya especie se registra en la

2.3.2. Diagrama de sectores

En un cı́rculo, se asigna a cada modalidad un sector de tamaño proporcional a su frecuencia. Para

Ratones (R) 3 0.2500

Con los datos del ejemplo 3 se obtendrı́a el siguiente diagrama de sectores:

Pictograma con figuras de tamaño proporcional a las frecuencias:

Zona 1 Zona 2 Zona 3