Está en la página 1de 70

Aplicaciones estadísticas:

estimación e inferencia,
estadística inductiva
Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Índice de Contenidos

1 La estadística y sus aplicaciones ........................................................... 3


2 Análisis de un ejemplo concreto ............................................................ 7
3 Concepto de Estimador. Propiedades deseables .................................. 13
4 El estimador media muestral .............................................................. 17
5 Los estimadores varianza muestral y varianza muestral corregida ..... 20
6 Estimación puntual y estimación por intervalos .................................. 26
7 Teorema Central del Límite ................................................................. 35
8 Intervalos de confianza para la estimación de medias ........................ 38
9 Intervalos de confianza para la estimación de la desviación tipo ........ 43
10 Estimación de proporciones ................................................................ 46
11 Precisión a priori y determinación del tamaño de la muestra .............. 51
12 Contraste de hipótesis ........................................................................ 53
12.1 Introducción ........................................................................................................................ 53
12.2 Región crítica y de aceptación de H0. Error de tipo I y de tipo II. Puntos críticos. ................ 55
13 Contraste de hipótesis de una función de distribución desconocida .... 63
13.1 Introducción ........................................................................................................................ 63
13.2 Ensayo de significación ....................................................................................................... 66

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 2


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Aplicaciones estadísticas: estimación e


inferencia, estadística inductiva

1 La estadística y sus aplicaciones

En anteriores capítulos hemos estudiados diferentes "modelos" o "patrones" de


distribución de variables aleatorias, discretas y continuas, de las cuales provengan
nuestros conjuntos de observaciones.

No obstante, en la práctica, cuando queremos calcular los parámetros de una cierta


población (entendemos población en el sentido amplio del término tanto si se
refiere a la especie humana como si se trata de conjunto de objetos o de
observaciones en general) a partir del análisis de los datos, no sabemos el modelo
que puede haber detrás de la generación de los datos. Concretamente no sabemos
tampoco si hay algún modelo de donde provengan nuestras observaciones.

En estos casos, tal como se ilustra en la Figura 1, lo que haremos será aproximar o,
como llamaremos más adelante, estimar el valor de aquellos parámetros, como la
media aritmética o la desviación tipo, que nos permitirán ajustar un modelo,
escogido entre los conocidos, que nos describa las observaciones.

Fig. 1: Modelización de los datos de una población.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 3


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

De hecho podríamos pensar en encuestar a todos los individuos de la población con


el fin de determinar el valor exacto de los parámetros que buscamos, ya sea la
media, la desviación tipo,... pero eso que aparenta ser tan sencillo resulta imposible
de realizar en la mayoría de poblaciones; solamente hemos de pensar que a
menudo estas poblaciones pueden ser muy grandes y que por lo tanto es inviable
una toma de datos exhaustiva (imaginemos por ejemplo que todos los miles de
productos de una fabricación en cadena tuvieran que pasar por un control de
calidad, o que, simplemente, el tipo de ensayo fuera destructivo) o que el coste de
recoger la información es siempre un factor importante que hay que tener en
cuenta y que conviene rentabilizar (¡¡calculemos el número de personas necesarias
en la sección de control de calidad del ejemplo anterior!!).

¿Qué se hace, pues, en estos casos? La respuesta es trabajar con subconjuntos de


la población que llamaremos muestras, de acuerdo con la siguiente definición.

Muestra aleatoria simple


Se entiende por muestra aleatoria simple de tamaño n de una variable aleatoria X
el conjunto de n observaciones X1 , X2, ... Xn independientes.

Observación:

Fijémonos que las observaciones Xi son variables aleatorias que siguen la misma
distribución que la variable X y que estamos pidiendo que la realización de una de
las observaciones no condicione a las otras.

Hay que resaltar que hay un conjunto de técnicas de muestreo, que no


desarrollaremos en este capítulo, que permiten obtener muestras realmente
representativas de la población, en el sentido que las variables objeto de estudio
no queden condicionadas por otras como podría ser el sexo, la edad, la profesión...
en el caso de personas o el taller, las máquinas, las materias primas, la
temperatura... en el caso de controles de calidad.

En la práctica profesional la técnica más habitual es la clasificación de los individuos


en las diferentes variables que pueden intervenir (sexo, residencia, ocupación...) de
manera que los individuos del muestreo provengan en la misma proporción de
todos los estratos de la población. A nivel metodológico lo más frecuente es la
simulación o generación de la variable aleatoria que se quiere estudiar. Así pues en

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 4


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

nuestros ejemplos estaremos siempre en el supuesto de haber escogido muestras


que efectivamente son representativas de la población de la que provienen o bien
trabajaremos con muestras simuladas.

De los datos de la muestra podemos obtener los descriptores estadísticos exactos y


entonces la pregunta es:

¿Qué me informan estos descriptores sobre los correspondientes valores


de toda la población?

o análogamente,

¿Cómo podemos ESTIMAR, a partir de los valores de los estadísticos de la


muestra los parámetros de la población?

Fig. 2: Objetivos de la Estadística Inductiva

Responder estas preguntas como muestra la Figura 2 es el objetivo de la


Estadística Inductiva o Inferencial.

Antes que nada, parece claro que el tamaño de la muestra jugará un papel
importante en el instante de realizar la inferencia; intuitivamente podemos decir
que cuanto más grande sea el tamaño de la muestra más significativa será la
estimación.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 5


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

En los apartados siguientes trataremos en primer lugar un ejemplo concreto que


nos permitirá introducir el concepto de estimador y sus propiedades, para a pasar
después al estudio de los estimadores más usuales en Estadística; veremos sus
distribuciones y propiedades. Avanzando más en el módulo, se tratan los dos tipos
básicos de estimación, puntual y por intervalo, y se aplican a los diferentes
estimadores y en particular a la técnica denominada del contraste de hipótesis.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 6


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

2 Análisis de un ejemplo concreto

El ejemplo trabaja con una población de 250 probetas de hormigón y las


respectivas medidas de resistencia cilíndrica. Esta población resulta tener unos

parámetros de y realizando un gráfico


simultaneo del histograma de los datos y de la correspondiente función de densidad
normal, en la misma escala obtenemos la Figura 3 que permite verificar el ajuste
Normal de la población.

Fig. 3: Histograma y función de densidad de la población de probetas

Estos valores de los parámetros y que ahora conocemos, en general no son


conocidos y, como hemos dicho anteriormente, estimarlos a partir de los
estadísticos de las muestras de la población es el objetivo de la Estadística
Inductiva y el que nos proponemos ilustrar en este ejemplo.

En los pasos siguientes actuaremos como si y fueran desconocidos pero, de


hecho, saber su valor servirá de referencia y permitirá la interpretación de los
resultados.

En un primer momento nos podemos preguntar de qué forma afecta el tamaño de

la muestra a los descriptores y s y a la precisión de la estimación de y a

partir de y s.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 7


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Para resolver esta cuestión tomaremos muestras aleatorias de diferente tamaño,


calcularemos los respectivos estadísticos y los compararemos con los de la
población.

La Tabla 1 muestra los resultados obtenidos después de una simulación hecha con
el ordenador con diferentes valores para el tamaño de la muestra.

5 200.184 302.101 17.381


25 208.811 147.837 12.159
50 208.466 253.597 15.925
75 210.326 219.839 14.827
100 209.708 279.028 16.704
150 209.858 269.263 16.409
200 210.377 226.039 15.035

Tabla 1: Estadísticos para diferentes valores del tamaño de la muestra.

A la vista de los resultados observamos la "tendencia" de .a aproximarse a


 y  como intuitivamente habíamos pensado. Esto nos permite considerar que
cuanto mayor sea el tamaño de la muestra "más pequeña" será la diferencia entre
los estadísticos y los respectivos parámetros de la población.

Si representamos los valores obtenidos, por ejemplo de la media de las muestras

, sobre la recta real (Figura 4) ilustramos la posición de cada valor de


respecto de la media poblacional . También podemos observar, que debido a la
aleatoriedad de los datos la "tendencia" hacia al parámetro poblacional no es
necesariamente monótona.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 8


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Más adelante veremos que tanto los valores más cercanos a  como los que no lo
están tanto nos resultan útiles para el análisis estadístico y la estimación de con
los respectivos márgenes de error que controlaremos en cada momento.

Fig. 4: Distribución de , para diferentes valores de n.

Cada muestra nos da, por tanto, una primera estimación, que denominamos
estimación puntual, del parámetro de la población; pero observemos,

continuando con el estadístico , que de no conocer a priori el valor de  no


tenemos ninguna medida que nos permita decir cuál de las estimaciones es mejor.

Por otro lado, qué ocurre si queremos rehacer la Tabla 1 repitiendo la elección de
las muestras para los mismos valores de n? Naturalmente, obtendríamos en
general valores diferentes que no podemos determinar a priori, porqué están en
función de las muestras escogidas, lo que nos determina que "fijada una n, la

media muestral es una variable aleatoria" que expresaremos:

Análogamente, utilizando los mismos argumentos que hemos utilizado para la

media muestral, podemos hablar de la variable aleatoria varianza muestral

y de la variable aleatoria desviación tipo muestral , que representaremos


por:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 9


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Fijado el tamaño de la muestra, n, el conocimiento de la distribución de estas


variables aleatorias (de la media como valor esperado y de la desviación tipo como
medida de la variación de la variable alrededor de la media) es lo que nos permitirá
medir en términos probabilísticos la bondad de las estimaciones de los diferentes
parámetros poblacionales.

Para tener una primera aproximación de la distribución de los anteriores


estadísticos como variables aleatorias que son, utilizaremos la misma simulación
anterior para diferentes valores del tamaño de la muestra (p.e. n=4, 16 y 64) y
para cada uno realizaremos 10 réplicas o realizaciones que nos permitirán observar
la distribución de los valores obtenidos para cada uno de los estadísticos muestrales

y que muestran las Tablas 2a y 2b.

Número de réplica. n=4

1a 200.356 130.462 11.422


2a 202.868 41.443 6.438
3a 209.341 183.840 13.559
4a 213.450 275.924 16.611
5ena 206.184 67.958 8.244
6ena 215.717 103.683 10.182
7ena 211.809 170.232 13.047
8ena 211.210 67.610 8.223
9ena 200.532 423.860 20.588
10a 200.691 611.925 24.737

Tabla 2a: Observaciones de los estadísticos para n=4.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 10


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Cada una de las filas de la Tabla anterior son observaciones de las respectivas

variables aleatorias y por tanto podemos calcular su media, varianza y


desviación tipo. Los valores obtenidos se muestran en la Tabla 3a.

N=4

media 207.216 207.694 13.305


varianza 30.697 30032.9 30.669
desv. Tipo 5.540 173.300 5.538

Tabla 3a: Media, Varianza y Desv. tipo de los estadísticos ("estimadores")

Los respectivos resultados para n=16 y n=64 quedan ilustrados en la Taula 2b y los
resultados de todos los estadísticos en la Tabla 3b:

número de Réplica. n=16 n=64

1a 216.297 165.282 12.856 208.624 276.823 16.638


2a 207.267 290.689 17.050 207.807 301.183 17.353
3a 209.295 148.024 12.167 208.946 225.413 15.014
4a 206.137 248.468 15.763 210.570 280.907 16.760
5ena 214.664 166.256 12.894 209.612 214.582 14.649
6ena 214.669 182.490 13.509 207.228 248.091 15.751
7ena 214.064 105.073 10.251 211.884 180.551 13.437
8ena 207.660 101.201 10.060 214.353 227.048 15.068
9ena 210.501 184.729 13.592 210.646 203.552 14.267
10a 205.072 131.633 11.473 208.129 241.473 15.539

Tabla 2b: Observaciones de los estadísticos para n=16 y n=64

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 11


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

n=4 n=16 n=64

media 207.216 207.694 13.305 210.563 172.384 12.961 209.780 239.958 15.448
varianza 30.692 30032.9 30.669 14.946 3197.90 4.384 4.190 1272.42 1.327
desv. tipo 5.240 173.300 5.538 3.866 56.550 2.095 2.047 35.671 1.152

Tabla 3b: Media, Varianza y Desv. tipo de los estadísticos ("estimadores")

Como hemos hecho observar antes, y para cada una de los tamaños de la muestra,
las observaciones de la Tabla 2 se distribuyen aleatoriamente (obsérvese los
valores extremos indicados en negrita) alrededor de su media (Tabla 3). La
desviación tipo de estos estadísticos nos da una medida de la variabilidad del
estimador, que observemos que mejora con el tamaño de la muestra, lo que nos
dice que la distribución de los estadísticos se concentra cada vez más alrededor de
su media. En nuestro caso podemos intuir que esta media estima el parámetro
poblacional.
Una simulación de más réplicas nos permitiría comprobar que la variable aleatoria

se distribuye de forma Normal con media y desviación tipo

con como ilustra la Figura 5 para los valores de n =1,4 y 16.

Fig. 5: Distribuciones de la variable , para n=1, 4 y 16.

Los elementos de teoría que desarrollaremos en este módulo nos demostraran que
este ejemplo es un caso particular de resultados más generales.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 12


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

3 Concepto de Estimador. Propiedades deseables

Estimador
Sea X una variable aleatoria y  un parámetro asociado a la distribución de X.

Definiremos estimador de , y lo representaremos por , a toda variable aleatoria


definida sobre las muestras de la población que tome valores cercanos a los del
parámetro .

El hecho que sea desconocido y que queramos estimarlo a partir de los valores

de la variable aleatoria , hace que estemos interesados en estimadores que,


estadísticamente hablando, en términos medios tomen valores alrededor del valor
de que queremos estimar. Esta idea motiva la siguiente definición.

Sesgo de un estimador

Sea un estimador del parámetro  .

Diremos que es un estimador centrado o sin sesgo o no sesgado si .

Si , diremos que tiene un sesgo positivo y denominaremos sesgo del

estimador a la diferencia entre el valor esperado del estimador y el valor del

parámetro que queremos estimar, .

Análogamente si , diremos que tiene un sesgo negativo.

Fig. 6a: Estimador Normal centrado (1).

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 13


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Fig. 6b: Estimador Normal con sesgo positivo (2).

De acuerdo con la definición fijémonos que, en general, los estimadores interesa


que sean no sesgados para garantizar que se distribuyen alrededor del parámetro

. Si tiene sesgo positivo nos llevará a sobreestimaciones y si tiene sesgo


negativo obtendremos infraestimaciones.

Por otro lado, y para garantizar la proximidad a , conviene que a medida que

aumente el tamaño de la muestra los valores de estén más concentrados


probabilísticamente alrededor de y en este contexto hay que entender la
siguiente definición.

Consistencia de un estimador

Si es un estimador de , diremos que es consistente si

siendo n el tamaño de las muestras.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 14


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Fig. 7: Estimador sesgado consistente que muestra como la distribución de se

concentra alrededor de cuando aumenta n.

Si estamos interesados en comparar dos estimadores de un mismo


parámetro lo que haremos será comparar las respectivas medidas de proximidad
descritas anteriormente y esto nos permitirá establecer cuál de los dos es más
eficiente, de acuerdo con la siguiente definición.

Eficiencia de un estimador

Si son dos estimadores del parámetro , diremos que es más eficiente

que si

Fig. 8: Comparación de estimadores centrados.

El estimador (2) es más eficiente que el estimador (1).

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 15


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Observación:

Fijémonos que en el caso de estimadores no sesgados, como que , la

medida de la anterior proximidad es la varianza del estimador, ), y


obtenemos:

es consistente

es más eficiente que

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 16


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

4 El estimador media muestral

Vamos a ver que es un estimador no sesgado y consistente de la media

poblacional . Ambos resultados quedan probados de manera inmediata a partir


de la siguiente proposición.

Proposición 1. Parámetros del estimador media muestral

Sea X una variable aleatoria con media y desviación tipo y la media


muestral de n observaciones independientes de la variable aleatoria X.

Entonces

Demostración
Calculemos directamente la esperanza de la media muestral utilizando la linealidad

del operador esperanza y que para toda i:

como queríamos demostrar. Para el cálculo de la varianza utilizaremos que la


varianza de una suma de variables aleatorias independientes es la suma de las

variancias respectivas, que para cada una es .

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 17


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Con este resultado es inmediato demostrar la siguiente proposición.

Proposición 2

es un estimador no sesgado y consistente de la media poblacional .

Ejemplo 1: Media muestral


Si volvemos al ejemplo introductorio, hasta ahora hemos demostrado que las

observaciones de en la Tabla 1 son estimaciones de y que son "más


buenas" conforme aumenta n. Observemos que por "más buena" entendemos
estadísticamente más concentrada alrededor de ; cosa que impide que, con
probabilidad cada vez más pequeña, alguna de ellas esté en términos absolutos

más lejos del parámetro . La Figura 4 también nos ilustra que la observación

, en nuestro caso, es, en términos absolutos, más mala que .

Con relación a la consistencia de podemos ver en la Tabla 2 como el rango de

efectivamente va disminuyendo cuando aumenta la n. En la Tabla 3 también

podemos comprobar cómo decrece la desviación tipo observada de y podemos


verificar la correspondencia entre la desviación tipo observada en las 10 réplicas de

la Tabla 2 con la de la variable aleatoria , en la siguiente Tabla.

n=4 n=16 n=64


5.240 3.866 2.047
desviación tipo de
7.694 3.847 1.924

Tabla 4: Comparación de la desviación tipo observada en y la correcta

Observación:

Interesa observar que un factor k2 en el tamaño de la muestra introduce un factor


1/k en la correspondiente desviación tipo de la media muestral. Por ejemplo en la
Tabla 4 vemos como el tamaño de la muestra crece en un factor 4 mientras que la
desviación tipo disminuye en un factor 2.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 18


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Comentario:

Naturalmente hay muchos otros estimadores de . Por ejemplo, si los datos


provienen de una población normal sabemos que la media y la mediana coinciden y
por tanto la mediana muestral será un estimador no sesgado y consistente de ;
o, si conocemos que la distribución es simétrica, estadísticos como por ejemplo la
media aritmética del primer y tercer cuartil, ½(Q1+Q3), o la media aritmética de
los valores muestrales extremos, ½(Xmín+Xmax) también estiman . Se puede
demostrar que estos tres estimadores no son tan eficientes como la media muestral

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 19


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

5 Los estimadores varianza muestral y varianza muestral


corregida

En esta sección veremos que el estimador varianza muestral es un estimador

con sesgo negativo y consistente de la varianza poblacional . Ambos resultados


son consecuencia inmediata de la siguiente proposición.

Proposición 3

Sea X una variable aleatoria con media y desviación tipo y la varianza


muestral de n observaciones independientes de la variable aleatoria X.
Entonces:

donde a, b y c son constantes.

Demostración
Por el nivel de esta documentación probaremos solamente la parte relativa a la
esperanza.

Queremos calcular:

y sabemos que .

Antes de nada, intentemos expresar las diferencias en términos de

y comprobemos la siguiente identidad:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 20


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

En efecto,

y por tanto

Observemos que tiene un sesgo negativo que es más pequeño cuando más
grande es la n.

Por tanto podemos establecer la siguiente proposición.

Proposición 4

es un estimador con sesgo negativo y consistente de la varianza de la población


.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 21


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Para conseguir tener estimaciones no sesgadas de utilizaremos la varianza

muestral corregida de acuerdo con la definición

que encontramos disponibles en muchas calculadoras científicas y que corrige la

infraestimación de que da , aunque aumenta la varianza del estimador en un


factor (n/(n-1))2.

Proposición 5

es un estimador no sesgado y consistente de .

Demostración

Solamente es necesario comprobar de manera inmediata a partir de la proposición


4 que

y que

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 22


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Observación:

Fijémonos que si es conocida entonces podríamos estimar con el estimador


no sesgado

que tiene n grados de libertad ya que es proporcional a la suma de los cuadrados

de n desviaciones independientes .

Pero si estamos obligados a estimar  a partir de la media muestral, , entonces


el estimador

tiene n-1 grados de libertad ya que del hecho que , por ser la

media muestral, tenemos que conocidas n-1 desviaciones podemos hallar


la que falta.

Esto hace que el denominador n-1 de la expresión se denomine grados de


libertad sobre los que el estimador varianza muestral corregida está basado.

Ejemplo 2: Varianza muestral

Volviendo al ejemplo introductorio podemos ver en las tablas 2 y 3 como las

observaciones de y sus medias son estimaciones con sesgo negativo de


, y que el sesgo es más pequeño cuanto mayor es la n.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 23


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Como ocurría con la media muestral, , la desviación tipo del estimador


efectivamente disminuye cuando crece n. Para valores grandes de n, un factor
en el tamaño de la muestra introduce aproximadamente un factor 1/k en la
desviación tipo.

La Tabla 5 nos muestra la comparación entre los estadísticos de la desviación tipo


muestral y la desviación tipo muestral corregida para los diferentes tamaños de
muestra considerados.

n=4 n=16 n=64

media 13.305 15.363 12.961 13.386 15.448 15.570


desv. tipo 5.538 6.395 2.095 2.164 1.152 1.161

Tabla 5: Comparación de los estadísticos de los estimadores y .

Así pues, observemos que de no conocer la desviación tipo de la población en los

apartados anteriores, la desviación tipo muestral corregida es una buena

estimación para n pequeña o la misma desviación tipo muestral para n grande.

Comentario:

La desviación tipo también se puede estimar mediante los valores extremos de


las muestras. De hecho se puede demostrar que el valor medio del rango de las
muestras es proporcional a , con una constante de proporción cn que solo
depende del tamaño de la muestra

Y por tanto la expresión es un estimador no sesgado de .

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 24


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Fijémonos que, aunque se puede demostrar que este estimador tiene una eficiencia

considerablemente más baja que , se trata de un estimador muy fácil de


calcular ya que solo precisa disponer de la correspondiente tabla de valores para la
constante cn.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 25


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

6 Estimación puntual y estimación por intervalos

Hasta ahora, en los apartados anteriores, el resultado de nuestra estimación es un


valor numérico resultado de evaluar un estadístico sobre las observaciones de una
muestra de la población; esto lo que entenderemos por una estimación puntual.

Estimación puntual
Denominamos estimación puntual del parámetro  de una población a cualquier

observación de un estimador definido sobre las muestras de la población.

Ejemplo 3: Estimadores puntuales.

Todos los valores de de las tablas 1 y 2 son estimaciones puntuales


respectivamente de , y .

Ahora bien, ¿para qué nos sirve una estimación puntual? ¿De qué nos
informa?

De hecho la estimación puntual por ella misma nos informa realmente de poca
cosa. Nos será de utilidad en la medida que conozcamos la distribución del
estimador para poder avaluar la proximidad del parámetro que estimamos y de
este moda la bondad del estimador.

Si de la distribución solamente conocemos la esperanza y la desviación tipo, como


hasta ahora, aunque que no conozcamos la distribución exacta, la desigualdad de
Txebyshev ya nos permite asegurar que

que en particular para k=2 nos da

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 26


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

o, dicho de otra manera, que como mínimo el 75 % de las observaciones de

pertenecen al intervalo como muestra la


Figura 9.

Fig. 9: Intervalo alrededor de .

Si el estimador no tiene sesgo tenemos pues que como mínimo un

75 % de las observaciones de pertenecen al intervalo

o en términos equivalentes que el parámetro a estimar  pertenece, como mínimo,


a un 75 % de los intervalos

Observemos pues que es una medida por exceso del error estadístico que
estamos cometiendo si afirmamos que el parámetro  no se aleja de la estimación

puntual más de k desviaciones.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 27


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Ejemplo 4: Estimación por intervalos

Sabemos que , es un estimador no sesgado de la media con desviación tipo

. Por tanto, ¿qué nos puede decir de una observación de

Pues que

En la Tabla 6 están calculados algunos intervalos de estimación para  y en la


última columna la cota superior del error probabilístico que se comete en cada uno
de los casos.

n k

4 206.184 2 206.18415.388 190.796, 221.572[ 1/4


3 206.18423.082 183.102, 229.266[ 1/9

16 206.137 2 206.1377.694 198.443, 213.821[ 1/4


3 206.13711.543 194.594, 217.680[ 1/9

64 214.353* 2 214.3533.847 210.506, 218.200[ 1/4


3 214.3535.771 208.582, 220.124[ 1/9

Tabla 6: Estimaciones de  para intervalos a partir de la Des. de Txebyshev.

Fijémonos que el parámetro , que en nuestro caso lo conocemos y vale ,


pertenece a todos los intervalos resultantes a excepción del caso n=64 k=2 (caso
marcado con *) cosa que está de acuerdo con la aleatoriedad de las estimaciones y
que resalta la importancia de controlar la probabilidad de error con que se afirma la
estimación.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 28


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

De las expresiones anteriores y con los datos de la Tabla 6 para verificarlo podemos
deducir:

El radio del 'intervalo , que denominaremos error de la estimación, no


depende del valor de la estimación puntual sino del tamaño de la muestra y de la
probabilidad que nos hayamos fijado como valor del riesgo en la estimación.

A un factor a2 en el tamaño de la muestra le corresponde 1/a en el error o, en


otras palabra, que para introducir un factor 1/a en el error necesitamos aplicar un
factor a2 en el tamaño de la muestra.

Ejemplo 5: Tamaño de la muestra y error.


En la Tabla 6 para n=4 y k=2 tenemos e=15.388 y si queremos rebajar e a una
cuarta parte necesitamos multiplicar por 4 2=16 el tamaño de la muestra y
obtenemos n=64, k=2 y e=3.847.

Cuanta más pequeña queramos que sea la probabilidad máxima de error en la


estimación (1/k2) más grande será el número de desviaciones (k) que nos
tendremos de alejar de la estimación puntual.

Ejemplo 6: Tamaño de la muestra y error.


Fijémonos que para un tamaño de muestra fijado, n, si queremos garantizar la
estimación con un riesgo máximo de 1/9 en lugar de 1/4, necesitamos introducir
más error en la estimación tomando k=3 en lugar de k=2.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 29


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Observemos que en la Tabla 6 completamos la estimación puntual dando un

intervalo alrededor de donde podemos encontrar y una medida del riesgo

probabilístico que estamos cometiendo al afirmar que el parámetro pertenece al


intervalo I. Este procedimiento nos lleva al concepto de estimación por intervalo de
acuerdo con la siguiente definición.

Estimación por intervalo

Sea X una variable aleatoria y  un parámetro asociado.

Fijado un número , diremos que los estadísticos r1 y r2 constituyen

una estimación por intervalo con nivel de significación del parámetro


si

De manera equivalente, el intervalo se denomina Intervalo de Confianza


con coeficiente de confianza 1- y los extremos r1 y r2 límites de confianza.

El nivel de significación  significa la probabilidad que  no pertenezca al intervalo y

es la medida del error probabilístico o riesgo que cometemos al decir que . Por

otro lado mide la probabilidad que que es la "confianza" que merece


nuestra estimación.

Las estimaciones significativas serán para niveles de pequeños y los habituales

son que tienen el nombre propio


de casi significativo, significativo y muy significativo respectivamente y de

manera equivalente diremos que trabajamos con un coeficiente de confianza


del 95%, 99% y 99.9%. El uso habitual de estos tres niveles de significación no
impide la consideración de otros valores de en función del contexto y a los
cuales haremos referencia por su valor numérico.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 30


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Habitualmente los intervalos de confianza los estableceremos a partir de una


estimación puntual y la información sobre la distribución de probabilidad del
estimador permitirá obtener el intervalo de manera que la probabilidad a cada lado
del estimador sea la misma.

En particular, si la distribución del estimador es simétrica, por ejemplo una


distribución normal, los intervalos de confianza también serán simétricos alrededor
de la estimación puntual, es decir que:

Fijado ,

siendo por tanto el correspondiente intervalo de


confianza.

Observemos que cuanto más pequeño sea , más grande será el error por tal
de mantener la igualdad.

Ejemplo 7: Intervalo de probabilidad


En el apartado siguiente haremos referencia a la normalidad de la media muestral

; exactamente veremos que es .

El conocimiento de la distribución exacta del estimador nos permitirá calcular la


amplitud del intervalo de confianza.

Fijado tendremos que

y podemos determinar y el correspondiente intervalo de probabilidad tal que

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 31


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Fijémonos, pero, que para una observación de que satisfaga el suceso de la


igualdad anterior, algebraicamente podemos ver que satisface el suceso

y por tanto

y entonces

y obtenemos el intervalo de confianza:

como expresión del intervalo de confianza con nivel de significación para la , con

la correspondencia entre y siguiente:

nivel de significación coeficiente de confianza número de desv. tipo

0.1 90% 1.645


0.05 95 % 1.96
0.045 95.5 % 2.00
0.01 99 % 2.575
0.001 99.9 % 3.31

Tabla 7: Valores de para diferentes niveles de

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 32


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Si recuperamos los datos de la Tabla 2 para n=64 y trabajando con una confianza

del 90 % los respectivos Intervalos de Confianza para la estimación de


son los de la Tabla 8.

núm. observ.

1 208.6243.164 205.460, 211.788 SI


2 207.8073.164 204.643, 210.971 SI
3 208.9463.164 205.782, 212.110 SI
4 210.5703.164 207.406, 213.734 SI
5 209.6123.164 206.448, 212.776 SI
6 207.2283.164 204.064, 210.392 SI
7 211.8843.164 208.720, 215.048 SI
8 214.3533.164 211.189, 217.517 NO
9 210.6463.164 207.482, 213.810 SI
10 208.1293.164 204.965, 211.293 SI

Tabla 8: Intervalos de confianza al 90% para diferentes observaciones

Fijémonos que el nivel de significación % nos indica que, en términos de


probabilidad, un 10 % de los intervalos de confianza obtenidos (en nuestro caso
significa uno de diez) no contendrán el parámetro . Efectivamente el intervalo de
confianza correspondiente a la observación 8 de la Tabla anterior es el único que no
contiene el valor de (conocido en este caso) como ilustra también la
Figura 10.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 33


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Fig. 10: Intervalos de confianza al 90% para las observaciones de la Tabla 8.

Como ya hemos indicado, fijémonos que el nivel de significación, , es la


probabilidad que el parámetro que estamos estimando, , no pertenezca al
intervalo que estamos proponiendo para la estimación. Es, por tanta, la medida del
error probabilístico que cometeremos al hacer la estimación. Este valor se
acostumbra a fijar a priori aunque también se puede hacer un estudio a posteriori
del nivel de significación de un estadístico como veremos en apartados siguientes.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 34


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

7 Teorema Central del Límite

Si la variable aleatoria poblacional X es de tipo normal, entonces se puede demostrar


que la variable aleatoria media muestral es también una variable aleatoria de tipo

normal y por tanto la proposición 1 sobre el estimador se puede completar con la


siguiente proposición.

Proposición 6. Normalidad de la media muestral en poblaciones normales.

Si X1, ... Xn son observaciones independientes de una población normal ,

entonces la variable aleatoria media muestral, , es Normal con parámetros

y podemos escribir

Si no se conoce la función de distribución de la variable poblacional, la variable


aleatoria media muestral no tiene por qué tener una distribución de tipo normal.
Vamos a establecer un resultado que, en particular, nos dirá que para muestras
grandes la variable aleatoria media muestral es aproximadamente Normal. Este
resultado se conoce con el nombre de Teorema Central del Límite.

De resultados de capítulos anteriores sabemos que si X1,...,Xn son variables aleatorias


independientes con medias y desviaciones tipo , la variable aleatoria Y

tiene media y varianza .

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 35


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Teorema 1. Teorema Central del Límite

Si Xi , i=1,...,n son variables aleatorias independientes que tienen la misma función

de distribución y Y es la variable aleatoria , entonces, la variable


tipificada

verifica

En este caso diremos que la variable aleatoria Y es "asinptóticamente normal"


en el sentido

Este resultado nos informa que, para valores suficientemente grandes de n (n > 30),
la variable aleatoria media muestral se puede considerar "aproximadamente
normal" como demuestra el siguiente corolario.

Corolario 1. Normalidad de la media muestral en poblaciones no normales.

Si X1, ... Xn son observaciones independientes de una población de media y


desviación tipo con función de distribución desconocida, entonces la variable

aleatoria media muestral, , es asinptóticamente normal de la forma

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 36


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Demostración
Solamente hay que tener en cuenta el Teorema 1 en este caso en el que todas las
variables Xi son una réplica de la variable poblacional X y por tanto tienen la misma
función de distribución.

Tenemos pues,

y dividiendo numerador y denominador por n obtenemos

o equivalentemente .

Observación:

El Teorema Central del Límite, tal como se ha presentado, hace referencia a una
función simétrica, Y, de los valores de la muestra (o sea que el valor de la función es
independiente del orden de las observaciones) como es la suma de las observaciones.
El Teorema admite una generalización a otros tipos de funciones simétricas como la
suma de las potencias k- ésimas de las variables o de su diferencia respecto a un
valor, expresiones racionales de las anteriores potencias k-ésimas,...

Observemos que esta generalización nos permitirá aplicar el Teorema Central del
Límite al caso de variables aleatorias como la varianza muestral de expresión

o la varianza muestral corregida

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 37


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

8 Intervalos de confianza para la estimación de medias

Consideraremos diferentes casos atendiendo al conocimiento a priori o no de la


desviación tipo y de la distribución normal o no de la variable poblacional.

a) Si conocemos la desviación tipo de la población se pueden dar dos


situaciones:

1. Si la variable poblacional X sabemos que es , entonces,

independientemente del valor de n, y por tanto

2. Si no sabemos de qué tipo es la variable poblacional, entonces, si n es


suficientemente grande, podemos utilizar el resultado del T.C.L. y
considerar la variable tipificada

Entonces, en las dos situaciones y de manera análoga a como ya se había


avanzado en el ejemplo 5 de la sección 6.6, fijado un nivel de significación

obtenemos el correspondiente intervalo de confianza para el

parámetro de la población

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 38


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

b) Si no conocemos la desviación tipo de la población podemos tener en


cuenta también las dos situaciones anteriores.
1. Si la variable aleatoria de la población es , entonces, la variable
tipificada

que no nos será de gran utilidad ya que es desconocida. Nos interesa un


estadístico de distribución conocida que no dependa de y que nos permita
estimar .

Se puede demostrar que la variable aleatoria sigue una distribución

con n-1 grados de libertad y, de acuerdo con la definición de la


distribución t de Student del Módulo 5, la variable aleatoria:

tiene una distribución t-d'Student con n-1 grados de libertad y,


substituyendo, se obtiene

que ya no depende de sino de los estadísticos muestrales .

Esta distribución nos permitirá establecer el intervalo de confianza ya que

fijado un nivel de significación obtenemos el valor de de


manera que:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 39


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

que haciendo operaciones se puede transformar

Tenemos pues que el intervalo de confianza para la media es

o equivalentemente

Fijémonos que el resultado obtenido es análogo al del caso a), en el que


conocemos , y que ahora ha sido estimada por y la distribución tipo
resultante ha sido una t de Student y no una N (0,1).

2. Si la variable poblacional no es normal pero n es suficientemente grande


tenemos la expresión

y de manera análoga al caso a.ii) obtendríamos que fijado un nivel de

significación el correspondiente intervalo de confianza, para la


poblacional, sería

Observemos que en el anterior intervalo aparece que es desconocida. Dado

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 40


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

que estamos considerando n suficientemente grande (para tener la

aproximación asintótica), sn-1 es una buena estimación de , con lo que


obtenemos el intervalo de confianza

Resumiremos lo que hemos explicado anteriormente en el siguiente cuadro:

Estimación de la media  conocida  desconocida

Población

con n-1 g.l.

Población X no Normal
de parámetros y ,n grande

Tabla 9: Intervalos de confianza con nivel de significación para la media


poblacional.

Ejemplo 8: Intervalos de confianza para la media poblacional


La media y la desviación tipo del peso máximo que soportan una muestra de 60 vigas
son de 11.09 Tm y 0.73 Tm respectivamente. Vamos a hallar un intervalo de
confianza del 95% y 99% para la media del peso máximo de todas las vigas que
produce la compañía.(Podemos suponer la normalidad de la distribución de pesos)

Representemos por X el peso máximo que soporta una viga.

El enunciado nos dice que la muestra de n=60 vigas nos da una desviación tipo
sn=0.73 Tm y por tanto una sn-1=0.7362 que es una estimación no sesgada de la
desviación tipo .

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 41


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Por otro lado la variable aleatoria y por tanto un IC con nivel de


significación para la media es:

Si el nivel de confianza es 0.95 entonces .

y por tanto IC: 11.09  0.1863 =  10.9037, 11.2763 .

Si el nivel de confianza es 0.99 entonces

y por tanto IC: 11.09  0.2447 =  10.8453, 11.3347 .

En el caso de trabajar con muestras de medida pequeña, la distribución de referencia


debería ser, como indica la Tabla 9, la t de Student.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 42


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

9 Intervalos de confianza para la estimación de la desviación


tipo

Consideraremos diferentes casos atendiendo al conocimiento a priori de si es Normal


o no la función de distribución de la variable poblacional.

1. Si la variable poblacional sabemos que es Normal


Utilicemos la variable aleatoria

que sabemos que tiene una distribución con n-1 grados de libertad.

Entre todos los intervalos con nivel de significación  escogemos el intervalo


particular

donde son los valores correspondientes a la distribución

con n-1 grados de libertad calculados con .

Tenemos que

con una sencilla transformación podemos calcular la relación equivalente:

que sacando la raíz cuadrada también se puede escribir:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 43


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

y por tanto el intervalo de confianza con nivel de significación para es

2. Si no sabemos de qué tipo es la variable poblacional, y la n es grande,


podemos utilizar el estimador sn-1 para obtener una estimación puntual y aplicar

el T.C.L. a la variable aleatoria , de acuerdo con la observación de la sección


6.7

Consideremos la varianza muestral corregida

de la que por la Proposición 5 sabemos que

donde a, b y c son constantes.

Para poder formular el correspondiente intervalo de confianza hemos de conocer

la desviación tipo del estimador que en estos momentos desconocemos. Se


puede demostrar que bajo la hipótesis que la distribución de la población no es
"muy diferente" de la Normal (lo que podemos suponer si n es muy grande)

la anterior desviación tipo, , se puede aproximar por la expresión y


por el T.C.L. sabemos que

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 44


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

y por tanto el intervalo de confianza para es

y para la estimación de

Resumiendo los dos casos anteriores tenemos la tabla:

Estimación de la desviación tipo 

Población X no Normal
de parámetros y , n grande

Tabla 10: Intervalos de confianza con nivel de significación para la desviación


tipo.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 45


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

10 Estimación de proporciones

Pensemos en el problema siguiente:

Queremos conocer la proporción p (o equivalentemente el porcentaje) de


edificios construidos en la provincia de Barcelona durante el decenio que va
de 1960 hasta a 1970 que tienen aluminosis.

El tratamiento exhaustivo de este problema es difícil y costoso. Lo que habitualmente


se hace es una estimación aproximada de la proporción p a partir de una muestra
representativa de la población.

La aluminosis es una característica concreta de la población de edificios construidos en


el decenio considerado. Un edificio tiene aluminosis o no tiene. Des del punto de vista
de la Estadística podemos considerar una variable aleatoria discreta, X, que toma el
valor 1 si un edificio tiene aluminosis y un 0 si el edificio no tiene.

Si tomamos una muestra representativa de n elementos de la población (en nuestro


caso edificios construidos entre 1960-1970) y calculamos cuantos edificios de la
muestra tienen la característica estudiada, esto nos da un valor que será diferente
para cada muestra de n elementos que cogemos. La variable aleatoria frecuencia
absoluta nos cuenta el número de elementos de la muestra que tienen la
característica estudiada (tener aluminosis en nuestro ejemplo) y la podemos
representar

donde cada Xi tiene el valor 0 o 1 en el sentido indicado anteriormente.

Como estimación puntual para la proporción p podemos coger la frecuencia relativa

Como es sabido de capítulos anteriores tanto la frecuencia absoluta (número de éxitos


en una serie de n experiencias de Bernoulli) como la frecuencia relativa tienen como

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 46


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

función de distribución de probabilidad una función de distribución Binomial, por lo


que tenemos

en el caso de la frecuencia absoluta y

en el caso de la frecuencia relativa.

Además, también sabemos que la función de distribución de probabilidad de una


función de distribución Binomial es asinptóticamente Normal. es decir, la variable
tipificada:

verifica:

Si cogemos , podemos expresar la anterior igualdad mediante un

intervalo centrado y con nivel de confianza en la forma

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 47


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

que haciendo operaciones se puede transformar en

Tenemos pues que el intervalo de confianza vale

En el anterior intervalo interviene fr que es la frecuencia relativa observada y que


como proporción observada a menudo representamos por p0, pero también p y q
que son los valores desconocidos que estamos estimando.

Para poder formular el correspondiente intervalo de confianza podemos hacer


diferentes consideraciones:

a) Una primera consideración consiste en pensar cuál es la situación más


desfavorable que podemos encontrar. Este caso se da para p=q=0.5, que es
cuando el producto pq = p(1-p) toma el valor máximo y que denominaremos el
caso de máxima indeterminación, y por tanto el intervalo de confianza lo
podemos expresar

b) Por otro lado podemos aproximar p por la frecuencia relativa p0 de la muestra


que estamos considerando y, entonces, el intervalo de confianza lo podemos
expresar

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 48


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Ejemplo 9: Intervalos de confianza y tamaño de la muestra

Disponemos de una población de 250 individuos de los cuales 200 tienen una
determinada característica A (es decir que la proporción poblacional es p=0.8). Si
tomamos muestras de diferentes tamaños y calculamos los intervalos de confianza
para la proporción p, con un mismo nivel de significación =0.05, obtenemos los
resultados que presentamos en la siguiente tabla:

n p0 Intervalo de confianza

20 0.7 0.102
30 0.767 0.077

40 0.85 0.056

50 0.86 0.049

100 0.79 0.041

Tabla 11: Intervalos de confianza para una estimación de proporciones.

Observemos que, en todos los casos representados, p=0.8 se halla en el intervalo


de confianza correspondiente.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 49


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Ejemplo 10: Intervalos de confianza para diferentes niveles de


significación
Fijémonos que sucede cuando para una observación, n=50, p0=0.86, consideramos
los intervalos de confianza con diferentes niveles de significación

Fig. 11: Intervalos de confianza para diferentes niveles de significación .

Observemos que a medida que disminuimos el riesgo de la estimación para el


intervalo de la proporción p va aumentando el error de precisión e (el intervalo es
cada vez más ancho). Fijémonos, también, que el valor de la proporción que
estamos estimando p=0.8 está dentro del correspondiente intervalo de confianza
excepto en el primer caso que es el que hemos trabajado con un riesgo más alto de

error probabilístico o, en otras palabras, que hemos estimado con una

confianza más baja .

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 50


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

11 Precisión a priori y determinación del tamaño de la


muestra

Queremos fijar, a priori, el tamaño de la muestra con un error determinado e, de tal


manera que la proporción observada de la muestra, como máximo, esté a una

distancia de la proporción p de la población con un nivel de significación .

La expresión de este error es:

Observemos que en la anterior igualdad interviene el parámetro p que es justo el que


queremos estimar, lo que hace que a priori no sabemos exactamente el error e que
cometeremos.

Una de las maneras que tenemos de saber a priori el tamaño de la muestra, n, para
una precisión, e, y un nivel de significación, , determinados, es considerar el caso
más desfavorable que será cuando el producto pq = p(1-p) = -p2+p sea máximo. Esto
es así cuando p=q=0.5. A partir de aquí deducimos que el tamaño de la muestra ha
de ser

donde denota el redondeo entero por exceso del número x.

Observación:

El valor de n es el redondeo por exceso del valor de la expresión y representa un


tamaño independiente de la proporción real que se observe. A posteriori, para
proporciones p diferentes del 50%, podemos ver que con un número inferior de
observaciones hubiéramos tenido suficiente. Esto hace que, en algunos estudios y con
el fin de ahorrar, se utilice como valor supuesto de p en la expresión anterior,
estimaciones hechas en experiencias anteriores.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 51


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Comentario:

De manera análoga a como hemos visto al principio de este apartado, para variables
aleatorias normales o asinptóticamente normales, para conocida, tendríamos:

y por tanto:

Ejemplo 11: Cálculo del tamaño de la muestra

Supongamos que queremos estimar, con un error máximo del 4% y con un riesgo , el porcentaje
de viviendas con bigas aluminosas de la población de viviendas construidas en Catalunya durante la
década del 60 y que se calcula que es aproximadamente de 800.000 viviendas.

El problema inicial que se plantea es el de la determinación del tamaño de la muestra. ¿Cuantas


viviendas deberemos visitar?

De acuerdo con lo que hemos establecido en este apartado

Así pues si, en las 601 viviendas visitadas, observamos una proporción, por ejemplo, de p0=0.09, esto

nos permite determinar que el porcentaje estimado es de , es decir entre el 5% y el 13% de


viviendas de las 800.000 construidas en Catalunya en la década de los 60 tienen aluminosis. Serían
entre 40.000 y 104.000 viviendas.

Es fácil comprobar que si hubiéramos sabido que la proporción era del orden del 10%, entonces
utilizando la expresión

habría sido suficiente, para hacer esta misma estimación, visitar 217 viviendas.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 52


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

12 Contraste de hipótesis

12.1 Introducción

Hasta ahora, hemos calculado intervalos de probabilidad (IP) para la distribución de


variables aleatorias continuas de función de densidad conocida, o intervalos de
confianza (IC) para la estimación de parámetros de una población estadística. El
objetivo del contraste de hipótesis, como su nombre indica, es contrastar la
verificación estadística de ciertas hipótesis sobre los parámetros de la población con
los correspondientes estadísticos obtenidos a partir de la información contenida en
una muestra de individuos de la población.

Supongamos que nos informan que el peso de un cierto producto alimentario sigue

una distribución normal de media gramos y desviación tipo gramos.


Adquirimos 4 unidades de este producto y calculamos que la media es de 47.75
gramos. Nos preguntamos.

a) ¿Hay motivos para pensar que el producto no sigue la media de 50 gramos o es


debido al azar que nuestra muestra ha tenido una media ligeramente más baja?

b) ¿Hay motivos para pensar que el producto sigue una media más baja que la que
se nos propone?

c) ¿Cómo cambiarían las respuestas de los apartados anteriores si los mismos


resultados se hubieran obtenido en una muestra de tamaño 16 y no de tamaño
4?

En este punto del tema es obvio que la respuesta a las preguntas anteriores
dependerá de la “confianza” que depositemos en la hipótesis del fabricante.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 53


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Para poder tratar adecuadamente este tema vamos a establecer las siguientes
definiciones:

Hipótesis Estadísticas. Hipótesis nula y Hipótesis alternativa


Denominamos Hipótesis Estadísticas a aquellas suposiciones que se formulan
sobre la población que estudiamos y que pretendemos contrastar. Podemos
diferenciar entre:
Hipótesis nula, H0, que pone de manifiesto la igualdad, desigualdad o relación en
general entre el valor de un parámetro determinado de la población y un valor
supuesto y
Hipótesis alternativa, H1 , que es cualquier hipótesis diferente de H0

En nuestro ejemplo, en concreto, tenemos:

 Hipótesis nula:

 Hipótesis alternativa:

Para verificar la certeza o no de la hipótesis H0 se utiliza una variable aleatoria X de

función distribución conocida . En


este apartado no tendremos en cuenta una función de distribución concreta y, por
eso, la indicaremos por G en sentido general. A la variable aleatoria X que
utilizaremos para verificar la hipótesis H 0 la denominaremos test estadístico y a
su distribución, G, distribución de referencia.

En nuestro ejemplo el test estadístico será la distribución de la variable aleatoria


media de una muestra, concretamente:

en los apartados a) y b) y:

en el apartado c).

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 54


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

De hecho se trata de ver si el valor que toma en nuestro test se aleja


significativamente de los valores que habría de tomar en el supuesto de ser cierta
la hipótesis nula, H0. El contraste de hipótesis servirá para decidir si hay motivos
estadísticos para rechazar la hipótesis nula. Si no los hay, la aceptaremos.
Naturalmente dependerá de la “confianza” que depositemos en la hipótesis nula (sí
esta confianza es grande el test estadístico deberá tomar valores más alejados de
los establecidos por la H0, para rechazarla; mientras que si la confianza es baja,
fácilmente encontraremos motivos para rechazarla).

Fijémonos que, en este sentido, podemos aceptar (es decir, no tener motivos para
rechazar) diferentes hipótesis nulas para un mismo problema.

El apartado siguiente nos introduce en los criterios para el rechazo o no de la


hipótesis nula así como para el control del error estadístico que cometemos al
rechazarla o no.

12.2 Región crítica y de aceptación de H0. Error de tipo I y de tipo II.


Puntos críticos.

Si la hipótesis H0 es cierta, la probabilidad de que un valor obtenido a partir de una


muestra esté en un intervalo y alrededor del valor sugerido para H 0 ha de ser alta.
O en otros términos, si  es un nivel de significación pequeño entonces la

probabilidad y, en virtud del principio de imposibilidad práctica de

sucesos poco probables, es muy difícil que el suceso suceda. Por tanto si, en
una única prueba, este suceso aparece esta ha de ser debido a que H0 es falsa y
hemos de rechazarla.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 55


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Esto nos permite introducir las siguientes definiciones:

Región de aceptación y región crítica

Para cada test, fijado un nivel de significación , (o de confianza, ) el conjunto


de todos sus valores posibles se divide en dos subconjuntos disjuntos:
El que contiene los valores del test para los cuales se acepta H 0 que denominamos
región de aceptación de H0, y representaremos como I y

Su complementario, , que contiene los valores del test para los cuales, si la
característica estudiada a partir de la muestra que tenemos es uno de estos
valores, la hipótesis H0 se rechaza. Este subconjunto lo denominamos región
crítica o de rechazo de H0.

Una ilustración de estas definiciones para el ejemplo anterior la encontramos en la


Figura 12.

Fig. 12: Ilustración de las regiones de aceptación y de rechazo.

Fijémonos que puede darse el caso de que la hipótesis H 0 sea cierta (cosa que no
podemos saber) y, porque el valor que ha tomado nuestro test está en la región de
rechazo (que de hecho solo depende de los valores de la muestra observada), la

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 56


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

refutamos. En este caso estamos cometiendo lo que denominamos un error de


tipo I. La probabilidad de rechazar H0 cuando ésta es cierta es precisamente el
valor  del nivel de significación escogido, como también vemos en la Figura 12.

Pero, por otro lado, también puede ocurrir que no siendo cierta la hipótesis H 0, no
encontramos motivos para rechazarla y no la rechazamos cuando de hecho
tendríamos que hacerlo. Este error lo denominamos error de tipo II.

Formalmente estos conceptos los recoge la siguiente definición.

Errores de Tipo I y II
Dado un contraste de hipótesis, H0, H1, denominaremos
Error de tipo I = = P(rechazar H0 | H0 es cierta) = P(X  I)

Error de tipo II = = P(aceptar H0 | H0 es falsa)

Observemos que el Error de tipo I se puede calcular rápidamente porque


conocemos la suposición de H0 cierta, como ilustra la Figura 12. Pero el cálculo del
Error de tipo II, presupone un estudio detallado de las diferentes situaciones para
las que H0 puede ser falsa.

En nuestro ejemplo, fijémonos que H0 falsa quiere decir diferente de 50, esto es

Para cada uno de estos valores sí que podemos calcular:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 57


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Porque volvemos a conocer la distribución que condiciona y podemos calcular el

área indicada en la Figura 13 dibujada para el caso .

Fig. 13: Cálculo de para .

Puntos críticos
Denominamos puntos críticos a los puntos que separan la región crítica de la
región de aceptación.

En las dos figuras anteriores k1 y k2 representan los puntos críticos.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 58


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Según la naturaleza de la hipótesis alternativa, H1, respecta del parámetro t0 objeto


del contraste, que determina el tipo de intervalo I, región de aceptación de H0,
distinguiremos entre los siguientes tipos de regiones críticas.


Si entonces y tenemos una región crítica bilateral y
calcularemos k1 y k2 a partir de la distribución de referencia G, de manera que

. Si, además, la distribución es simétrica respecto al origen

entonces podemos escribir


Si y a la región crítica la denominamos

unilateral a la derecha y el cálculo de k2 será de manera que

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 59


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

 Sí entonces y la región crítica diremos que es


unilateral a la izquierda. En este caso, k1 ha de satisfacer P(X<k1)=

Acabemos esta parte con la resolución completa del ejemplo propuesto como
motivación para este apartado.

Ejemplo 12: Contraste de hipótesis para una media

El peso de un cierto producto alimentario sigue una distribución normal de media


gramos y desviación tipo gramos. Adquirimos 4 unidades de este producto y calculamos
que la media de los respectivos pesos es 47.75 gramos. Trabajando con una confianza del
95.5% y del 99% decidir si:

a) ¿Hay motivos para pensar que el producto no sigue la media de 50 gramos o es


debido al azar que nuestra muestra ha tenido una media ligeramente más baja?.
b) ¿Hay motivos para pensar que el producto sigue una media más baja que la que se
nos propone?.
c) ¿Cambiarían las respuestas de los apartados anteriores si los mismos resultados se
hubieran obtenido con una muestra más grande, por ejemplo de tamaño 16?.

a)
El test estadístico que utilizaremos es que tiene una distribución de referencia

o su valor tipificado.

que sigue una distribución N(0,1).

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 60


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

El contraste que nos proponemos es . Se trata de un


contraste bilateral y para determinar sus puntos críticos, consultamos la distribución
N(0,1) de referencia para nuestro nivel de significación.

Para , obtenemos unos valores críticos de . es

decir la región de aceptación es I = -2, 2. Como que , entonces tenemos


motivos para rechazo la hipótesis nula H0.

Para obtenemos unos valores críticos de . Es decir una


región de aceptación de I = -2.575, 2.575. Como que , entonces no
tenemos motivos para rechazar la hipótesis nula H0.

Fijémonos que de hecho hemos construido un intervalo de probabilidad para la


variable tipificada Z y hemos comprobado si el valor observado de nuestro test
pertenece o no al mismo.

b) El test estadístico es el mismo que el del apartado a), solo que, en este caso el

contraste que nos proponemos es con y . Se trata de un


contraste unilateral por la izquierda y para determinar su punto crítico, consultamos
la distribución N(0,1) de referencia para nuestro nivel de significación.

Para obtenemos un valor crítico de k1 =-1.7. es decir una

región de aceptación de

Como que , entonces tenemos motivos para rechazar la hipótesis nula


H0.

Para obtenemos unos valores críticos de k1=-2.33. es decir una

región de aceptación de .

Como que , entonces no tenemos motivos para rechazar la hipótesis nula


H0.

c) La nueva distribución de referencia para la variable

es

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 61


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

y por tanto el valor del test Z es

Hay que observar que el mismo valor de la media observada (47.75), para un tamaño
de muestra más grande, nos marca un valor del test más alejado del esperado en la
hipótesis nula.

Los resultados los podemos agrupar en las siguientes tablas.

Apartado a)

Resultado del contraste

0.045 -2 2 Rechazamos H0

0.01 -2.575 2.575 Rechazamos H0

Apartado b)

Resultado del contraste

0.045 -1.7 Rechazamos H0


I
0.01 -2.33 Rechazamos H0

Debido al aumento del tamaño de la muestra, observemos que en todos los casos,
para los dos niveles de significación, rechazamos la H0.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 62


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

13 Contraste de hipótesis de una función de distribución


desconocida

13.1 Introducción

Supongamos que disponemos de un conjunto de valores muestrales x1,..., xn de


una variable aleatoria X. Es frecuente contrastar la hipótesis de que X tiene una
cierta función de densidad f(x).

Si hacemos un histograma que represente nuestros datos observados, entonces los


podremos comparar con la función de densidad hipotética f(x) y tener una idea
cualitativa de la relación que hay entre ambas distribuciones. La figura 14 ilustra el
ajuste de unos datos con una densidad Normal y visualmente parece bueno a pesar
del comportamiento de algunas clases. A pesar de esto, si queremos tener una idea
más precisa hemos de establecer algún tipo de medida cuantitativa del grado de
desviación de los datos respecto a la distribución hipotética.

Fig. 14: Ajuste gráfico de datos para una distribución Normal.

Para disponer de una medida del grado de desviación, empezamos realizando una
partición en r intervalos o categorías (este valor es un dato del problema o hay que

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 63


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

fijarlo de entrada) del conjunto de valores que puede tomar la variable X. Sea pi la
probabilidad, según la función de densidad hipotética f(x), que la variable tome un
valor del i-ésimo intervalo de la partición, mientras que ni representa el número de
valores de la muestra que pertenecen al mismo intervalo. Entonces, se verifica:

p1 + p2 + ... + pr = 1

n1 + n2 + ...+ nr = n.

Si la hipótesis que estamos considerando es cierta, ni se puede pensar como una


variable aleatoria que representa la frecuencia, en una muestra de n observaciones,
de un suceso de Bernoulli con probabilidad de éxito pi. La variable aleatoria ni viene
representada por una función de distribución binomial, B(n, pi), de media npi y

desviación tipo .

Si la n es grande ni es aproximadamente normal de la forma:

y es de esperar, además, que las diferencias ni - npi para i=1,...,r sean pequeñas.

Otra manera de expresarlo es mediante las expresiones que también han


de ser numéricamente cercanas a cero. Entonces, una medida cuantitativa del
grado de desviación de los datos respecto de la distribución hipotética puede venir
dada por una variable aleatoria como la siguiente:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 64


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Pero, para poder utilizar expresiones donde intervienen variables aleatorias ya


conocidas y estudiadas como la Normal o la Chi-cuadrado, es más conveniente,
como veremos más adelante, utilizar la variable aleatoria que tiene como
expresión:

Hay que observar que las expresiones de los sumandos de tienen

el mismo límite, cuando el número de intervalos de la partición (y por

tanto, , que . Cuando n es grande, este límite común es la

distribución N(0,1) y, además, satisfacen la relación .

Por todo lo dicho podemos enunciar la siguiente proposición:

Proposición 7. Test de 2 para ajuste de distribuciones


La variable aleatoria:

es asintóticamente una variable aleatoria Chi-cuadrado (2 ) con r-1 grados de


libertad.

Observación:

Los valores npi los podemos entender como las frecuencias esperadas o teóricas
ei, de la misma manera ni las podemos entender como las frecuencias
observadas oi, entonces, la variable aleatoria  la podemos escribir de una
manera más útil en la práctica de la forma:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 65


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

13.2 Ensayo de significación

Antes de formular el contraste de hipótesis para decidir si unas observaciones


provienen de una función de densidad f(x), es preciso realizar las siguientes
consideraciones:

1. Si denota los grados de libertad que tiene la distribución Chi-cuadrado que


sigue el estadístico , observemos que, si las observaciones provienen de la
función de densidad f(x), tomará valores alrededor de su esperanza .
2. Por otro lado si toma valores muy cercanos a 0, las frecuencias observadas y
las teóricas serán muy parecidas; lo que cosa es deseable aunque es improbable

para la distribución que tiene .


3. Si las diferencias entre las frecuencias teóricas y las observadas son grandes
entonces serán grandes los valores de .

Estas consideraciones previas hacen que en la práctica para decidir la significación


del ajuste de una distribución de frecuencias para una densidad f(x), se contraste

unilateralmente por la derecha la hipótesis nula las observaciones provienen

de una función de densidad , tal como ilustra la figura 15.

Fig. 15: Distribución de con 10 grados de libertad, regiones de aceptación y de

rechazo y valor crítico .

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 66


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Hay que tener en cuenta de que manera se han de establecer los grados de libertad
de la distribución Chi-cuadrado que utilizaremos, porque este es un punto delicado
para estos tipos de problemas.

Consideraremos dos casos:

1. Si las frecuencias teóricas se pueden calcular sin haber de ’estimar


parámetros de la población a partir de estadísticos muestrales, entonces, hay

que considerar la distribución para  = r-1 grados de libertad.

2. Por otro lado, si las frecuencias teóricas tan solo se pueden calcular haciendo
una estimación de m parámetros de la población a partir de estadísticos

muestrales, entonces, hemos de considerar la distribución para  = r-1-m


grados de libertad.

En cualquiera de los dos casos anteriores el procedimiento a seguir para realizar el


contraste de hipótesis es el mismo. En efecto, dado un nivel de significación y el

valor correspondiente a la distribución para  grados de libertad, entonces,


para valores grandes de n tenemos que:

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 67


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Y podemos establecer el criterio de decisión siguiente:

Proposición 8. Criterio de decisión para ensayos de significación

Si , la muestra tiene una desviación significativa respecto de la distribución


hipotética, y hemos de rechazar H0 .

Por otro lado, si , la muestra y la distribución concuerdan significativamente,


y aceptamos la hipótesis H0 .

Ejemplo 13: Sin tener que estimar parámetros de la población

El resultado de lanzar 120 veces un dado nos da los resultados siguientes:

cara 1 2 3 4 5 6
Frecuencia observada 25 17 15 23 24 16
Frecuencia esperada 20 20 20 20 20 20

queremos realizar el ensayo de la hipótesis de que el dado está bien hecho con un
nivel de significación del 0.05.
Aplicaremos la expresión:

teniendo en cuenta que r = 6 y los grados de libertad son =r-1=6-1=5. Por otro

lado, el valor de para (según la tabla).

Como podemos aceptar la hipótesis que el dado está bien


construido.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 68


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Ejemplo 14: Estimando parámetros de la población


Un experimento aleatorio que consiste en realizar 1000 series de 5 lanzamientos de
una misma moneda y observar el número de caras que aparecen en cada serie, ha
dado el siguiente resultado:

número de caras obtenidas 0 1 2 3 4 5

número de series 38 144 342 287 164 25

Queremos considerar el hecho de ajustar estos datos utilizando una distribución


binomial.

En cada serie de 5 lanzamientos de la moneda la probabilidad de obtener k caras se


calcula:

donde p es la probabilidad de que salga cara en un lanzamiento de la moneda.


Como que la probabilidad p no la conocemos hemos de realizar una estimación a
partir de los datos del problema calculando la media de caras que han salido en
las 1000 series de 5 lanzamientos.

Como que en una distribución binomial tenemos que 2.47=5p y p=0.494.


Con este valor de p podemos calcular las frecuencias esperadas (e i) utilizando la
fórmula descrita anteriormente

de donde obtenemos la tabla siguiente:

número de caras obtenidas 0 1 2 3 4 5


frecuencia esperada (ei) 33.2 161.9 316.2 308.7 150.7 29.4

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 69


Aplicaciones estadísticas: estimación e inferencia, estadística inductiva

Aplicaremos la expresión:

que da como resultado:

Como que r=6 y los grados de libertad los calculamos teniendo en cuenta que
hemos estimado el parámetro p a partir de los datos observados, tenemos que
m=1, y entonces .

Para tenemos que y el ajuste es correcto siempre


que pensemos en una confianza suficientemente grande en la hipótesis nula

Si por el contrario la confianza, , que queremos para H0 es pequeña, entonces,


el nivel de significación será grande, por ejemplo , entonces tenemos que

y el ajuste no sería tan bueno como podíamos pensar.

En la práctica, para calculamos el valor en la tabla de la correspondiente a

( que también se conoce con el nombre de valor de probabilidad o p-valor )


que da un nivel de significación . Este valor nos da una cota inferior del 90%

para la confianza de aceptar la hipótesis nula, o equivalentemente,


una cota superior del error de tipo I para la aceptación de la hipótesis nula.

© UPCPLUS.COM - FUNDACIÓ UNIVERSITAT POLITÈCNICA DE CATALUNYA 70

También podría gustarte