Está en la página 1de 11

TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

TEMA 5

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

1. INTRODUCCIÓN

1.1 CONCEPTOS BÁSICOS

2. DISTRIBUCIONES EN EL MUESTREO

2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL MUESTREO

2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON.


2.1.2 DISTRIBUCIÓN t DE STUDENT
2.1.3 DISTRIBUCIÓN F DE SNEDECOR
2.1.4 TEOREMA CENTRAL DEL LÍMITE

2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES


ESTADÍSTICOS

2.2.1 EN UNA POBLACIÓN CUALQUIERA


2.2.2 EN UNA POBLACIÓN NORMAL

Curso 02-03
2
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

TEMA 5

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

1. INTRODUCCIÓN

Inferir es, en general, establecer un nuevo conocimiento a partir de uno ya


dado. En nuestro contexto, nos interesa, basándonos en la información
contenida en una muestra, inferir información sobre una población.

La Inferencia Estadística es la parte de la Estadística que incluye los


métodos utilizados para tomar decisiones o para obtener conclusiones sobre
una característica desconocida de la población a partir de la información
contenida en una o más muestras representativas de esa población. La
herramienta teórica que utiliza es la teoría de la probabilidad.

Ejemplo: Un ingeniero ha diseñado un nuevo tipo de CPU y desea obtener


conclusiones sobre la forma en que funcionará una vez que se produzca a gran
escala. Para ello toma una muestra de 40 CPU, y de las conclusiones que
obtenga podrá inferir el funcionamiento de toda la producción prevista.

La Inferencia Estadística, estudia principalmente dos tipos de problemas:

a) La Estimación: consiste en determinar una característica desconocida


de la población. Ejemplo: Averiguar la velocidad media de las CPU.

Puede ser:
puntual: determinar el valor concreto.
por intervalos: determinar un intervalo en el que esté contenida con
cierto grado de probabilidad.

b) El Contraste de hipótesis: determinar si es aceptable, a partir de los


datos muestrales, que la característica estudiada tome un valor
predeterminado o pertenezca a un intervalo concreto. Ejemplo: ¿Es la
velocidad media mayor que 5 millones de flops? ¿La velocidad media de las
CPU tiene una distribución normal?

1.1 CONCEPTOS BÁSICOS

a) Población: es el conjunto de todos los individuos sujetos a estudio.

b) Muestra: es el subconjunto finito de elementos selecionados de la


población.

Para que las inferencias sean válidas, las muestras deben ser
representativas de la población.

c) Muestreo: procedimiento de obtención de una muestra. Podemos


describir los sigientes tipos:

Curso 02-03
3
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Muestreo Opinático: la selección de los elementos muestrales se realiza


según el criterio del investigador. la muestra no es representativa de la
población.

Muestreo Aleatorio: se seleciona de forma que cada elemento de la


población tiene una probabilidad positiva de ser elegido.

Muestreo Aleatorio Simple: Cada elemento de la población tiene la


misma probabilidad de ser elegido y esta probabilidad se mantiene
constante a lo largo del proceso. La técnica del muestreo puede asimilarse
a un modelo de extracción con reemplazamiento. Un mismo dato puede ser
muestreado más de una vez. Los datos muestrales serán estocasticamente
independientes .

Muestreo Aleatorio Irrestricto: Cada elemento de la población tiene en


un principio la misma probabilidad de ser elegido, pero posteriormente, la
probabilidad de obtener un valor en cada selección viene influida por los
resultados anteriores. Se corresponde con un modelo de extracción sin
reemplazamiento.

Muestreo Estratificado: Se divide a la población en estratos, niveles o


grupos según criterios prefijados y la muestra se toma asignando una
proporción de miembros a cada estrato y escogiendo los elementos dentro de
cada estrato por muestreo aleatorio simple (m.a.s.)

El muestreo aleatorio debe utilizarse cuando los elementos de la población


son homogéneos respecto a la característica a estudiar. Cuando dispongamos
de información sobre la población conviene tenerla en cuenta al seleccionar la
muestra. Un ejemplo son las encuestas de opinión, donde los elementos
(personas) son hetereogéneos en razón a su sexo, edad, profesión,etc.
Interesa en estos casos que la muestra tenga composición análoga a la
población y esto se consigue con un muestreo estratificado.

Muestreo por conglomerados: cuando los elementos de la población se


encuentran "de manera natural" agrupados en conglomerados, cuyo número
se conoce, y podamos suponer que cada uno de estos conglemerados es una
muestra representativa de la población respecto de la variable que se estudia.
El muestreo consiste en seleccionar uno de estos conglomerados al azar y,
dentro de ellos, analizar todos sus elementos o una muestra aleatoria simple.

En este curso vamos a suponer que la muestra ha sido obtenida por


muestreo aleatorio simple (m.a.s.) puesto que la teoría bajo este tipo de
muestreo es la más sencilla. Sin embargo, en la práctica se suele realizar el
muestreo irrestricto. De todas formas, si la población tiene un número grande
de elementos, la probabilidad de que un elemento salga repetido es muy
pequeña y los dos tipos de muestreo serán equivalentes.

Si el muestreo es aleatorio, seleccionar un elemento de la población es


realizar un experimento aleatorio y cada observación de la muestra es el valor
observado de una variable aleatoria. La distribución de probabilidad de cada

Curso 02-03
4
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

una de estas variables aleatorias viene determinada por la distribución de los


elementos de la población. Así podemos definir:

Muestra aleatoria simple de tamaño n: es una variable aleatoria n-


dimensional X = ( x1 , x2 ,... , xn ) donde cada xi representa el valor observado
en la i-ésima extracción y podrá tomar cualquier valor de la población. Por
tanto, una muestra concreta realizada, será un valor particular, una realización
de la muestra genérica.

En la medida en el que el m.a. cada elemento de la población tiene una


probabilidad de ser elegido, cada dato muestral genérico será una variable
aleatoria que tendrá asociada una función de probabilidad (de cuantía o de
densidad) según una determinada distribución que llamaremos distribución
de la población. Si trabajamos con un m.a.s. cada xi es estocásticamente
independiente y entonces la función de probabilidad o de densidad
conjunta de la muestra será:
n
f ( X ) = f ( x , x ,... , xn ) = Õ f ( x )
1 2 i =1 i

Ya hemos mencionado en la introducción que uno de los propósitos del


tema es estimar cantidades desconocidas de la población (tales como la media
poblacional, la varianza, etc.) llamadas parámetros poblacionales, o más
brevemente parámetros, a partir del conocimiento de las correspondientes
cantidades muestrales (tales como la media muestral, la varianza muestral,
etc.) llamadas estadísticos muestrales, o más brevemente estadísticos.

Así pues estadístico es cualquier función de los valores muestrales que


depende exclusivamente de éstos. Como los valores muestrales son variables
aleatorias, también lo son los estadísticos.

Todas las medidas descriptivas que veíamos en el tema 1 son ejemplos de


estadísticos como la media muestral x , la varianza muestral s2, ó x4 - x1 ;
ns 2
pero no es estadístico porque s 2 es la varianza poblacional, y por
s2
tanto, no depende exclusivamente de los valores muestrales.

Consideremos todas las posibles muestras que pueden extraerse de una


población dada. Para cada muestra se puede calcular un estadístico, tal como
la media, la desviación típica, etc. que variará de una muestra a otra. De esta
forma se obtiene una distribución del estadístico que se conoce como
distribución muestral o distribuciones en el muestreo.

Nuestro objetivo es dedicar el resto del tema al estudio de las


distribuciones muestrales de los principales estadísticos: media muestral,
varianza muestral, diferencia de medias muestrales y cociente de varianzas
muestrales, pues son practicamente los únicos estadísticos que vamos a usar
en este curso. Para ello, necesitamos previamente introducir otros modelos de

Curso 02-03
5
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

distribución de probabilidad, que tienen su principal papel en el muestreo. A


diferencia de los modelos estudiados en el tema anterior, en este caso
definimos cada una de las distribuciones de probabilidad a partir de su relación
con una muestra aleatoria simple de una población normal. También damos
una idea de su representación gráfica y sus características (medias y
varianzas).

2. DISTRIBUCIONES EN EL MUESTREO

2.1 MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD EN EL


MUESTREO.

2.1.1 DISTRIBUCIÓN CHI-CUADRADO DE PEARSON.

La distribución c 2 de Pearson con n grados de libertad se define como la


distribución que sigue la variable definida como suma de los cuadrados de n
variables normales tipificadas independientes.

Sean Z1, Z2 ,..., Zn un conjunto de variables aleatorias indepen-dientes


n
Z ® N (0,1) , entonces X = å Z2 ® c 2
i n
i =1 i
Características

E[ X ] = n Var[ X] = 2n

Para el cálculo de probabilidades, en las tablas podremos encontrar el valor


de x tal que P ( X £ x) = p

Propiedad (Teorema de adición)

k
k 2
Dadas  Xi  i =1 ® c 2ni independientes Þ å Xi ® c n + n + ...+ n
i =1 1 2 k

Relación con la normal

2
Si X ® c n , entonces Y =
»
2X ¾¾ ® N ( 2n - 1,1) si n es grande.

2.1.2. DISTRIBUCIÓN t DE STUDENT

Dadas las variables aleatorias independientes X e Y tales que


X
T=
X ® N (0,1) e Y ® c 2 , la nueva variable aleatoria definida como Y
n
n

Curso 02-03
6
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

sigue una distribución t de Student con n grados de libertad, que denotamos


por tn .

Características

E [T ] = 0 para n>2; si n=1 no existe media

n
Var[T ] = para n>3
n- 2

Para el cálculo de probabilidades, en las tablas podremos encontrar el


valor de x tal que P (T £ x) = p

Es una distribución simétrica y por tanto se cumple que


f(x)=f(-x). Con lo cual se deduce que P (T £ x) = 1- P (T £ - x)

La distribución t de Student converge a una normal cuando los grados de


libertad tienden a infinito (sirve para n>30).

2.1.3. DISTRIBUCIÓN F DE SNEDECOR

Sus principales usos son los de la contrastación de la igualdad de varianzas


de dos poblaciones normales y, fundamentalmente, el análisis de la varianza y
el diseño de experimentos, técnicas que permiten detectar la existencia o
inexistencia de diferencias significativas entre muestras diferentes.

Dadas dos variables aleatorias independientes X1, X2 tales que sus


2 2
distribuciones son X ® c n y X ® c m , definimos la nueva variable
1 2
X
1
F = n que sigue una distribución F de Snedecor con n grados de libertad en
X
2
m
el numerador y m grados de libertad en el denominador, que denotamos por
F n,m .

Para el cálculo de probabilidades, en las tablas podremos encontrar el valor


de x tal que P ( F n,m £ x) = p para p=0.9 y 0.99.

1 1
Se cumple que P(F £ x) = P ( F ³ ) = 1- P (F £ )
x x
n ,m n ,m n, m

2
Un resultado particular interesante es que si X ® tn Þ X ® F .
1,n

2.1.4. TEOREMA CENTRAL DEL LÍMITE

Curso 02-03
7
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Sean X1, X2 ,..., Xn variables aleatorias independientes con la misma


distribución y con media m y varianza s 2 . Entonces

X + X +...+ Xn s2
X= 1 2 ¾¾¾¾¾® N(m, )
n n® n
(aprox)
æ ö
x - m
Un enunciado más riguroso sería: Lim P ( X £ x) = F ç ÷
n®  çs ÷
è nø

2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES


ESTADÍSTICOS.

2.2.1 EN UNA POBLACIÓN CUALQUIERA.

Sean X1 , X2 ,..., Xn una muestra aleatoria de variables aleatorias


identicamente distribuidas con E [Xi ] = m y Var[ Xi ] = s . Si no conocemos la
2

distribución de la población, no podemos, en general, calcular la distribución de


los estadísticos, pero sí se podrá, en cualquier caso, determinar la esperanza y
varianza de los principales estadísticos en función de los parámetros de la
distribución de la población.

A.Media muestral

(tanto para muestreo simple como irrestricto)

(para m.a.s.) (para irrestricto)

Siempre que n sea muy grande (n>30) podemos aplicar el TCL:

B.Varianza muestral

Los siguientes resultados serán para m.a.s:

Llamando tenemos

Curso 02-03
8
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

2.2.2 EN UNA POBLACIÓN NORMAL.

A partir de ahora supondremos que la población tiene una distribución


normal, ya que los resultados que vamos a obtener por el Teorema Central del
Límite, lo requieren. Si ni lo tuviera serían una aproximación cuando la muestra
que tomemos sea de tamaño grande.

En estas circunstancias, ya no sólo podré averiguar los valores de la


esperanza y varianza, sino que podremos hablar de sus modelos de
distribución.

A. UNA MUESTRA

Sean una muestra aleatoria simple de variables aleatorias tales que

a.Media muestral

Podemos ver que

ya que si , por el teorema de la adición del tema anterior se cumple que , y


por las transformaciones lineales

b.Varianza muestral

No conocemos exactamente la distribución de , solamente:

pero podemos calcular

Debemos recordar que una distribución chi-cuadrado se definía como una


suma de normales tipificadas elevadas al cuadrado.

c.Media muestral con varianza desconocida

Si no conocemos el valor de , la distribución que hemos deducido


anteriormente para el estadístico media muestral no nos sirve, podemos utilizar
entonces:

Recordemos que la distribución t de Student se definía como el cociente


entre una normal tipificada y la raiz cuadrada de una chi-cuadrado dividida por
sus grados de libertad.

d.Proporción muestral.

Curso 02-03
9
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Tenemos una población Bernouilli y elegimos una muestra donde .

Consideremos la variable aleatoria X= "nº de éxitos en la muestra", que


sigue una distribución Bi(n,p). Definimos P="proporción de éxitos en n
extracciones" entonces P=X/n

B. DOS MUESTRAS INDEPENDIENTES

Supongamos ahora que queremos comparar dos variables o dos


poblaciones. Para ello necesitamos tomar dos muestras y vamos a suponer
que estas muestras se toman independientemente. Ejemplo: Velocidad de las
CPU del fabricante A y velocidad de las CPU del fabricante B.

Seguimos suponiendo que la distribución de las dos poblaciones es Normal.

Sean una muestra aleatoria de variables aleatorias independientes tales que


e Y1 , Y2 ,..., Ym una muestra aleatoria de variables aleatorias tales que .

a.Diferencia de medias muestrales con varianzas conocidas.

Un caso particular sería la diferencia de proporciones

b.Diferencia de medias muestrales con varianzas desconocidas pero


iguales.

c.Cociente de varianzas muestrales

No conocemos la distribución de exactamente, solo:

C. DOS MUESTRAS RELACIONADAS

Supongamos ahora que queremos comparar dos variables pero que las dos
muestras que se toman no son independientes (los datos están apareados).
Ejemplo: Velocidad de las CPU antes y después de añadir una componente.

Sean una muestra aleatoria de variables aleatorias tales que e una


muestra aleatoria de variables aleatorias tales que . Las muestras están
relacionadas. Notar que en este caso n=m.

Curso 02-03
10
TEMA 5:INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

a.Diferencia de medias muestrales.

Sea y sea su desviación típica muestral. podemos usar el siguiente


resultado:

Curso 02-03
11

También podría gustarte