t5 Ig12

TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
TEMA 5
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
1. INTRODUCCIÓN
1.1 CONCEPTOS BÁSICOS
2. DISTRIBUCIONES EN EL MUESTREO
2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL MUESTREO
2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON.

2.1.2 DISTRIBUCIÓN t DE STUDENT
2.1.3 DISTRIBUCIÓN F DE SNEDECOR
2.1.4 TEOREMA CENTRAL DEL LÍMITE
2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES

ESTADÍSTICOS
2.2.1 EN UNA POBLACIÓN CUALQUIERA

2.2.2 EN UNA POBLACIÓN NORMAL
Curso 02-03
2
TEMA 5
INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
1. INTRODUCCIÓN
Inferir es, en general, establecer un nuevo conocimiento a partir de uno ya

dado. En nuestro contexto, nos interesa, basándonos en la información
contenida en una muestra, inferir información sobre una población.
La Inferencia Estadística es la parte de la Estadística que incluye los

métodos utilizados para tomar decisiones o para obtener conclusiones sobre
una característica desconocida de la población a partir de la información
contenida en una o más muestras representativas de esa población. La
herramienta teórica que utiliza es la teoría de la probabilidad.
Ejemplo: Un ingeniero ha diseñado un nuevo tipo de CPU y desea obtener

conclusiones sobre la forma en que funcionará una vez que se produzca a gran
escala. Para ello toma una muestra de 40 CPU, y de las conclusiones que
obtenga podrá inferir el funcionamiento de toda la producción prevista.
La Inferencia Estadística, estudia principalmente dos tipos de problemas:
a) La Estimación: consiste en determinar una característica desconocida

de la población. Ejemplo: Averiguar la velocidad media de las CPU.
Puede ser:
puntual: determinar el valor concreto.
por intervalos: determinar un intervalo en el que esté contenida con
cierto grado de probabilidad.
b) El Contraste de hipótesis: determinar si es aceptable, a partir de los

datos muestrales, que la característica estudiada tome un valor
predeterminado o pertenezca a un intervalo concreto. Ejemplo: ¿Es la
velocidad media mayor que 5 millones de flops? ¿La velocidad media de las
CPU tiene una distribución normal?
1.1 CONCEPTOS BÁSICOS
a) Población: es el conjunto de todos los individuos sujetos a estudio.
b) Muestra: es el subconjunto finito de elementos selecionados de la

población.
Para que las inferencias sean válidas, las muestras deben ser
representativas de la población.
c) Muestreo: procedimiento de obtención de una muestra. Podemos

describir los sigientes tipos:
Curso 02-03
3
Muestreo Opinático: la selección de los elementos muestrales se realiza

según el criterio del investigador. la muestra no es representativa de la
población.
Muestreo Aleatorio: se seleciona de forma que cada elemento de la

población tiene una probabilidad positiva de ser elegido.
Muestreo Aleatorio Simple: Cada elemento de la población tiene la

misma probabilidad de ser elegido y esta probabilidad se mantiene
constante a lo largo del proceso. La técnica del muestreo puede asimilarse
a un modelo de extracción con reemplazamiento. Un mismo dato puede ser
muestreado más de una vez. Los datos muestrales serán estocasticamente
independientes .
Muestreo Aleatorio Irrestricto: Cada elemento de la población tiene en

un principio la misma probabilidad de ser elegido, pero posteriormente, la
probabilidad de obtener un valor en cada selección viene influida por los
resultados anteriores. Se corresponde con un modelo de extracción sin
reemplazamiento.
Muestreo Estratificado: Se divide a la población en estratos, niveles o

grupos según criterios prefijados y la muestra se toma asignando una
proporción de miembros a cada estrato y escogiendo los elementos dentro de
cada estrato por muestreo aleatorio simple (m.a.s.)
El muestreo aleatorio debe utilizarse cuando los elementos de la población

son homogéneos respecto a la característica a estudiar. Cuando dispongamos
de información sobre la población conviene tenerla en cuenta al seleccionar la
muestra. Un ejemplo son las encuestas de opinión, donde los elementos
(personas) son hetereogéneos en razón a su sexo, edad, profesión,etc.
Interesa en estos casos que la muestra tenga composición análoga a la
población y esto se consigue con un muestreo estratificado.
Muestreo por conglomerados: cuando los elementos de la población se

encuentran "de manera natural" agrupados en conglomerados, cuyo número
se conoce, y podamos suponer que cada uno de estos conglemerados es una
muestra representativa de la población respecto de la variable que se estudia.
El muestreo consiste en seleccionar uno de estos conglomerados al azar y,
dentro de ellos, analizar todos sus elementos o una muestra aleatoria simple.
En este curso vamos a suponer que la muestra ha sido obtenida por

muestreo aleatorio simple (m.a.s.) puesto que la teoría bajo este tipo de
muestreo es la más sencilla. Sin embargo, en la práctica se suele realizar el
muestreo irrestricto. De todas formas, si la población tiene un número grande
de elementos, la probabilidad de que un elemento salga repetido es muy
pequeña y los dos tipos de muestreo serán equivalentes.
Si el muestreo es aleatorio, seleccionar un elemento de la población es

realizar un experimento aleatorio y cada observación de la muestra es el valor
observado de una variable aleatoria. La distribución de probabilidad de cada
Curso 02-03
4
una de estas variables aleatorias viene determinada por la distribución de los

elementos de la población. Así podemos definir:
Muestra aleatoria simple de tamaño n: es una variable aleatoria n-

dimensional X = ( x1 , x2 ,... , xn ) donde cada xi representa el valor observado
en la i-ésima extracción y podrá tomar cualquier valor de la población. Por
tanto, una muestra concreta realizada, será un valor particular, una realización
de la muestra genérica.
En la medida en el que el m.a. cada elemento de la población tiene una

probabilidad de ser elegido, cada dato muestral genérico será una variable
aleatoria que tendrá asociada una función de probabilidad (de cuantía o de
densidad) según una determinada distribución que llamaremos distribución
de la población. Si trabajamos con un m.a.s. cada xi es estocásticamente
independiente y entonces la función de probabilidad o de densidad
conjunta de la muestra será:
n
f ( X ) = f ( x , x ,... , xn ) = Õ f ( x )
1 2 i =1 i
Ya hemos mencionado en la introducción que uno de los propósitos del

tema es estimar cantidades desconocidas de la población (tales como la media
poblacional, la varianza, etc.) llamadas parámetros poblacionales, o más
brevemente parámetros, a partir del conocimiento de las correspondientes
cantidades muestrales (tales como la media muestral, la varianza muestral,
etc.) llamadas estadísticos muestrales, o más brevemente estadísticos.
Así pues estadístico es cualquier función de los valores muestrales que

depende exclusivamente de éstos. Como los valores muestrales son variables
aleatorias, también lo son los estadísticos.
Todas las medidas descriptivas que veíamos en el tema 1 son ejemplos de

estadísticos como la media muestral x , la varianza muestral s2, ó x4 - x1 ;
ns 2
pero no es estadístico porque s 2 es la varianza poblacional, y por
s2
tanto, no depende exclusivamente de los valores muestrales.
Consideremos todas las posibles muestras que pueden extraerse de una

población dada. Para cada muestra se puede calcular un estadístico, tal como
la media, la desviación típica, etc. que variará de una muestra a otra. De esta
forma se obtiene una distribución del estadístico que se conoce como
distribución muestral o distribuciones en el muestreo.
Nuestro objetivo es dedicar el resto del tema al estudio de las

distribuciones muestrales de los principales estadísticos: media muestral,
varianza muestral, diferencia de medias muestrales y cociente de varianzas
muestrales, pues son practicamente los únicos estadísticos que vamos a usar
en este curso. Para ello, necesitamos previamente introducir otros modelos de
Curso 02-03
5
distribución de probabilidad, que tienen su principal papel en el muestreo. A

diferencia de los modelos estudiados en el tema anterior, en este caso
definimos cada una de las distribuciones de probabilidad a partir de su relación
con una muestra aleatoria simple de una población normal. También damos
una idea de su representación gráfica y sus características (medias y
varianzas).
2. DISTRIBUCIONES EN EL MUESTREO
2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL

MUESTREO.
2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON.
La distribución c 2 de Pearson con n grados de libertad se define como la

distribución que sigue la variable definida como suma de los cuadrados de n
variables normales tipificadas independientes.
Sean Z1, Z2 ,..., Zn un conjunto de variables aleatorias indepen-dientes

n
Z ® N (0,1) , entonces X = å Z2 ® c 2
i n
i =1 i
Características
E[ X ] = n Var[ X] = 2n
Para el cálculo de probabilidades, en las tablas podremos encontrar el valor

de x tal que P ( X £ x) = p
Propiedad (Teorema de adición)
k
k 2
Dadas  Xi  i =1 ® c 2ni independientes Þ å Xi ® c n + n + ...+ n
i =1 1 2 k
Relación con la normal
2
Si X ® c n , entonces Y =
»
2X ¾¾ ® N ( 2n - 1,1) si n es grande.
2.1.2. DISTRIBUCIÓN t DE STUDENT
Dadas las variables aleatorias independientes X e Y tales que

X
T=
X ® N (0,1) e Y ® c 2 , la nueva variable aleatoria definida como Y
n
n
Curso 02-03
6
sigue una distribución t de Student con n grados de libertad, que denotamos

por tn .
Características
E [T ] = 0 para n>2; si n=1 no existe media
n
Var[T ] = para n>3
n- 2
Para el cálculo de probabilidades, en las tablas podremos encontrar el

valor de x tal que P (T £ x) = p
Es una distribución simétrica y por tanto se cumple que

f(x)=f(-x). Con lo cual se deduce que P (T £ x) = 1- P (T £ - x)
La distribución t de Student converge a una normal cuando los grados de

libertad tienden a infinito (sirve para n>30).
2.1.3. DISTRIBUCIÓN F DE SNEDECOR
Sus principales usos son los de la contrastación de la igualdad de varianzas

de dos poblaciones normales y, fundamentalmente, el análisis de la varianza y
el diseño de experimentos, técnicas que permiten detectar la existencia o
inexistencia de diferencias significativas entre muestras diferentes.
Dadas dos variables aleatorias independientes X1, X2 tales que sus

2 2
distribuciones son X ® c n y X ® c m , definimos la nueva variable
1 2
X
1
F = n que sigue una distribución F de Snedecor con n grados de libertad en
X
2
m
el numerador y m grados de libertad en el denominador, que denotamos por
F n,m .
Para el cálculo de probabilidades, en las tablas podremos encontrar el valor

de x tal que P ( F n,m £ x) = p para p=0.9 y 0.99.
1 1
Se cumple que P(F £ x) = P ( F ³ ) = 1- P (F £ )
x x
n ,m n ,m n, m
2
Un resultado particular interesante es que si X ® tn Þ X ® F .
1,n
2.1.4. TEOREMA CENTRAL DEL LÍMITE
Curso 02-03
7
Sean X1, X2 ,..., Xn variables aleatorias independientes con la misma

distribución y con media m y varianza s 2 . Entonces
X + X +...+ Xn s2
X= 1 2 ¾¾¾¾¾® N(m, )
n n® n
(aprox)
æ ö
x - m
Un enunciado más riguroso sería: Lim P ( X £ x) = F ç ÷
n®  çs ÷
è nø
2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES

ESTADÍSTICOS.
2.2.1 EN UNA POBLACIÓN CUALQUIERA.
Sean X1 , X2 ,..., Xn una muestra aleatoria de variables aleatorias

identicamente distribuidas con E [Xi ] = m y Var[ Xi ] = s . Si no conocemos la
2
distribución de la población, no podemos, en general, calcular la distribución de

los estadísticos, pero sí se podrá, en cualquier caso, determinar la esperanza y
varianza de los principales estadísticos en función de los parámetros de la
distribución de la población.
A.Media muestral
(tanto para muestreo simple como irrestricto)
(para m.a.s.) (para irrestricto)
Siempre que n sea muy grande (n>30) podemos aplicar el TCL:
B.Varianza muestral
Los siguientes resultados serán para m.a.s:
Llamando tenemos
Curso 02-03
8
2.2.2 EN UNA POBLACIÓN NORMAL.
A partir de ahora supondremos que la población tiene una distribución

normal, ya que los resultados que vamos a obtener por el Teorema Central del
Límite, lo requieren. Si ni lo tuviera serían una aproximación cuando la muestra
que tomemos sea de tamaño grande.
En estas circunstancias, ya no sólo podré averiguar los valores de la

esperanza y varianza, sino que podremos hablar de sus modelos de
distribución.
A. UNA MUESTRA
Sean una muestra aleatoria simple de variables aleatorias tales que
a.Media muestral
Podemos ver que
ya que si , por el teorema de la adición del tema anterior se cumple que , y

por las transformaciones lineales
b.Varianza muestral
No conocemos exactamente la distribución de , solamente:
pero podemos calcular
Debemos recordar que una distribución chi-cuadrado se definía como una

suma de normales tipificadas elevadas al cuadrado.
c.Media muestral con varianza desconocida
Si no conocemos el valor de , la distribución que hemos deducido

anteriormente para el estadístico media muestral no nos sirve, podemos utilizar
entonces:
Recordemos que la distribución t de Student se definía como el cociente

entre una normal tipificada y la raiz cuadrada de una chi-cuadrado dividida por
sus grados de libertad.
d.Proporción muestral.
Curso 02-03
9
Tenemos una población Bernouilli y elegimos una muestra donde .
Consideremos la variable aleatoria X= "nº de éxitos en la muestra", que

sigue una distribución Bi(n,p). Definimos P="proporción de éxitos en n
extracciones" entonces P=X/n
B. DOS MUESTRAS INDEPENDIENTES
Supongamos ahora que queremos comparar dos variables o dos

poblaciones. Para ello necesitamos tomar dos muestras y vamos a suponer
que estas muestras se toman independientemente. Ejemplo: Velocidad de las
CPU del fabricante A y velocidad de las CPU del fabricante B.
Seguimos suponiendo que la distribución de las dos poblaciones es Normal.
Sean una muestra aleatoria de variables aleatorias independientes tales que

e Y1 , Y2 ,..., Ym una muestra aleatoria de variables aleatorias tales que .
a.Diferencia de medias muestrales con varianzas conocidas.
Un caso particular sería la diferencia de proporciones
b.Diferencia de medias muestrales con varianzas desconocidas pero

iguales.
c.Cociente de varianzas muestrales
No conocemos la distribución de exactamente, solo:
C. DOS MUESTRAS RELACIONADAS
Supongamos ahora que queremos comparar dos variables pero que las dos
muestras que se toman no son independientes (los datos están apareados).
Ejemplo: Velocidad de las CPU antes y después de añadir una componente.
Sean una muestra aleatoria de variables aleatorias tales que e una

muestra aleatoria de variables aleatorias tales que . Las muestras están
relacionadas. Notar que en este caso n=m.
Curso 02-03
10
a.Diferencia de medias muestrales.
Sea y sea su desviación típica muestral. podemos usar el siguiente

resultado:
Curso 02-03
11

t5 Ig12

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

t5 Ig12

Cargado por

Copyright:

Formatos disponibles

TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

1.1 CONCEPTOS BÁSICOS

2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL MUESTREO

2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON.

2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES

2.2.1 EN UNA POBLACIÓN CUALQUIERA

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Inferir es, en general, establecer un nuevo conocimiento a partir de uno ya

La Inferencia Estadística es la parte de la Estadística que incluye los

Ejemplo: Un ingeniero ha diseñado un nuevo tipo de CPU y desea obtener

La Inferencia Estadística, estudia principalmente dos tipos de problemas:

a) La Estimación: consiste en determinar una característica desconocida

b) El Contraste de hipótesis: determinar si es aceptable, a partir de los

1.1 CONCEPTOS BÁSICOS

a) Población: es el conjunto de todos los individuos sujetos a estudio.

b) Muestra: es el subconjunto finito de elementos selecionados de la

c) Muestreo: procedimiento de obtención de una muestra. Podemos

Muestreo Opinático: la selección de los elementos muestrales se realiza

Muestreo Aleatorio: se seleciona de forma que cada elemento de la

Muestreo Aleatorio Simple: Cada elemento de la población tiene la

Muestreo Aleatorio Irrestricto: Cada elemento de la población tiene en

Muestreo Estratificado: Se divide a la población en estratos, niveles o

El muestreo aleatorio debe utilizarse cuando los elementos de la población

Muestreo por conglomerados: cuando los elementos de la población se

En este curso vamos a suponer que la muestra ha sido obtenida por

Si el muestreo es aleatorio, seleccionar un elemento de la población es

una de estas variables aleatorias viene determinada por la distribución de los

Muestra aleatoria simple de tamaño n: es una variable aleatoria n-

En la medida en el que el m.a. cada elemento de la población tiene una

Ya hemos mencionado en la introducción que uno de los propósitos del

Así pues estadístico es cualquier función de los valores muestrales que

Todas las medidas descriptivas que veíamos en el tema 1 son ejemplos de

Consideremos todas las posibles muestras que pueden extraerse de una

Nuestro objetivo es dedicar el resto del tema al estudio de las

distribución de probabilidad, que tienen su principal papel en el muestreo. A

2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL

2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON.

La distribución c 2 de Pearson con n grados de libertad se define como la

Sean Z1, Z2 ,..., Zn un conjunto de variables aleatorias indepen-dientes

Para el cálculo de probabilidades, en las tablas podremos encontrar el valor

Propiedad (Teorema de adición)

Relación con la normal

2.1.2. DISTRIBUCIÓN t DE STUDENT

Dadas las variables aleatorias independientes X e Y tales que

sigue una distribución t de Student con n grados de libertad, que denotamos

E [T ] = 0 para n>2; si n=1 no existe media

Para el cálculo de probabilidades, en las tablas podremos encontrar el

Es una distribución simétrica y por tanto se cumple que

La distribución t de Student converge a una normal cuando los grados de

2.1.3. DISTRIBUCIÓN F DE SNEDECOR

Sus principales usos son los de la contrastación de la igualdad de varianzas

Dadas dos variables aleatorias independientes X1, X2 tales que sus

Para el cálculo de probabilidades, en las tablas podremos encontrar el valor

2.1.4. TEOREMA CENTRAL DEL LÍMITE

Sean X1, X2 ,..., Xn variables aleatorias independientes con la misma

2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES

2.2.1 EN UNA POBLACIÓN CUALQUIERA.

Sean X1 , X2 ,..., Xn una muestra aleatoria de variables aleatorias

distribución de la población, no podemos, en general, calcular la distribución de

(tanto para muestreo simple como irrestricto)

(para m.a.s.) (para irrestricto)

Siempre que n sea muy grande (n>30) podemos aplicar el TCL: