Está en la página 1de 17

Universidad Politécnica de la

Energía
CARRERA: ING. Petrolera
MATERIA: Probabilidad y Estadística
GRUPO y GRADO: “IP6A”
Estimación de parámetros
estadísticos.
CATEDRÁTICO: ING. Efrén
Santamaria Islas
ALUMNO: López Ángeles Leandro Daniel.

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


La estimación de parámetros

La inferencia estadística es un tipo de razonamiento que procede de lo


concreto a lo general: intenta extraer conclusiones sobre los parámetros
de una población a partir de la información contenida en los estadísticos
de una muestra de esa población (Pardo y San Martín, 1998).

• La inferencia estadística asume que se cuenta con datos de una


muestra y que se desea conocer cuáles son las características (ya sea
la media, la mediana, la curtosis o cualquier otra que nos pueda
interesar), no de esa muestra, sino de la población a la que esa muestra
pertenece. A los valores de esas características a nivel poblacional se
les conoce como parámetros y se representan simbólicamente con
letras griegas (en realidad, sólo algunos de ellos tienen tal privilegio):

Para conocer los valores de los parámetros podemos plantearnos, bien


recoger datos para todos los elementos de la población, algo que puede
resultar poco viable en muchas situaciones prácticas, bien realizar una
estimación de los mismos a partir de los datos de una muestra. Esta
segunda vía es mucho más habitual en la práctica, si bien, supone
asumir cierto riesgo de error pues, en cuanto que estimación, el valor
que obtengamos no tiene por qué coincidir con el verdadero valor de
ese parámetro.

• En la literatura se pueden diferenciar dos grandes aproximaciones a la


estimación de parámetros: la estimación puntual y la estimación por
intervalos. La diferencia básica entre ambas a la hora de estimar un
parámetro es que la primera proporciona una estimación consistente en

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


un valor concreto (puntual), mientras que la segunda ofrece como
estimación un rango de valores (intervalo).

En realidad, la segunda aproximación consiste en una extensión de la


primera, por lo que será la estimación puntal la que se abordará a reglón
seguido.

Estimación puntual

El objetivo de la estimación puntual es aproximar el valor del parámetro


desconocido (tiempo medio de ejecución de un algoritmo, altura media
de las mujeres de una población, diferencia del resultado medio entre
dos tratamientos médicos, proporción de gente que mejora con un
tratamiento médico…)

Para ello se utiliza la información de la


muestra (x1,x2,…,xn)(x1,x2,…,xn), a través de un estimador.

Algunos estimadores frecuentes son:

• Media muestral, para estimar la media teórica de una variable X.

• Proporción muestral, para estimar una proporción p:

, siendo x1,…,xn una muestra aleatoria


simple de la variable X∈B(1,p)X∈B(1,p), es decir, son unos o ceros.

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


• Varianza muestral: para estimar la varianza teórica de una
población, se puede usar la varianza de una muestra:

• Cuasi-varianza muestral:

que corresponde a la varianza de la muestra, pero dividiendo por n−1,


en lugar de dividir por n. En el capítulo de estadística descriptiva, ya
comentamos que el R, por defecto, al calcular la desviación típica de
una muestra, mediante el comando sd, calcula directamente la cuasi-
varianza y luego obtiene la raiz cuadrada.

Propiedades de los Estimadores Puntuales

Un escenario ideal en la estimación puntual es que su estimador en


promedio sea muy parecido al parámetro, luego un estimador se dice
insesgado si y solo si se cumple que: 𝐸(𝜃̂) = 𝜃̂

Observación: Si el valor esperado del estimador no es el parámetro, es


decir, 𝐸(𝜃̂) ≠ 𝜃, el estimador no es insesgado o se dice que tiene sesgo.
El sesgo se define como sigue: 𝐵(𝜃̂) = 𝐸(𝜃̂) – 𝜃

De donde también se define una estadística de error muy importante, el


error cuadrático medio, notado como 𝑀𝑆𝐸𝜃 y escrito de la siguiente
manera: 𝑀𝑆𝐸𝜃 = 𝑉(𝜃̂) + [𝐵(𝜃̂)] 2

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


Ejemplo 1: El promedio muestral es un estimador insesgado para la
media poblacional de cualquier distribución con media 𝜇. Entones
veamos que 𝐸(𝑥̅) = 𝜇, en efecto:

Consistencia

Cuando el estimador no es insesgado en primera medida, lo que sería


lo idóneo, se requiere al menos que su valor oscile cerca del valor del
parámetro para tamaños de muestra grandes, es decir, un estimador es
consistente cuando:

• lim𝑛→∞ 𝐸(𝜃̂) = 𝜃

• lim𝑛→∞ 𝑉(𝜃̂) = 0

Ejemplo 2: Sea 𝑥1 , 𝑥2 ,… , 𝑥𝑛 una muestra aleatoria de una población


𝑁(𝜇, 𝜎 2 ), se define la media muestral 𝑥̅= 1 𝑛 ∑ 𝑥𝑖 𝑛 𝑖=1 mostremos que
este es un estimador consiste para la media 𝜇. Entonces veamos que
lim𝑛→∞ 𝐸(𝑥̅− 𝜇) 2 = 0, en efecto:

Pero

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


Suficiencia

Intuitivamente hablando un estimador es suficiente para un


parámetro si toda la información acerca del parámetro está
contenida en la muestra. Formalmente sería: una estadística 𝜃̂
se dice suficiente para 𝜃 basada en una muestra aleatoria

𝑥1 , 𝑥2 ,…, 𝑥𝑛 de una población con función masa o de


densidad de probabilidad 𝑓𝑥 (𝑥, 𝜃). Si la distribución
condicional de las variables aleatorias 𝑥1 , 𝑥2 ,… , 𝑥𝑛 dado 𝜃̂
no depende del parámetro 𝜃, es decir, 𝜃̂ es un estimador
suficiente de 𝜃 si:

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


Eficiencia

La eficiencia es un requisito de precisión, esto es, es más preciso aquel


estimador que tenga menor varianza ya que tiene la capacidad de
producir estimaciones más centradas. Así sean 𝜃̂ y 𝜃̂′ dos estimadores
insesgados para 𝜃, estimadores basados en una muestra aleatoria 𝑥1 ,
𝑥2 ,… , 𝑥𝑛 de una población con función masa o de densidad de
probabilidad 𝑓𝑥 (𝑥, 𝜃), se dice que 𝜃̂ es estimador uniformemente mejor
que 𝜃̂′ si: 𝑉(𝜃̂) ≤ 𝑉(𝜃̂′ )

Distribuciones de Muestrales

Es de interés conocer la distribución asintótica de las estadísticas


muéstrales para fines de estimaciones de mayor calidad y precisión.
Algunas de estas, las más comunes e importantes.

Distribución de la Media Muestral

Sea 𝑥̅ la media muestral proveniente de una muestra aleatoria

𝑥1 , 𝑥2 ,…, 𝑥𝑛 de tamaño 𝑛 entonces para tamaños de muestra grandes:

Este resultado se deduce del teorema del límite central, además de que
por ser combinaciones lineales de normales se hereda la normalidad.

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


Distribución de la Varianza Muestral

Sea 𝑥̅ y 𝑆² la media y varianza muestral respectivamente, provenientes


de una muestra aleatoria 𝑥1 , 𝑥2 ,… , 𝑥𝑛 de tamaño 𝑛, entonces para
tamaños de muestra grandes:

De donde se deduce que (omitiendo las demostraciones no pertinentes


a este curso):

Distribución de la Proporción Muestral

Utilizando las mismas conclusiones a partir del teorema del límite


central, como es de saber para tamaños de muestra considerados
grandes, para una población con función de densidad masa 𝐵𝑒𝑟(𝑝), se
tiene que la distribución de la proporción muestral se puede aproximar
mediante una normal, tal que:

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de


valores donde es más probable se encuentre el parámetro. La obtención
del intervalo se basa en las siguientes consideraciones:

a) Si conocemos la distribución muestral del estimador podemos


obtener las probabilidades de ocurrencia de los estadísticos muestrales.

b) Si conociéramos el valor del parámetro


poblacional, podríamos establecer la probabilidad de que el estimador
se halle dentro de los intervalos de la distribución muestral.

c) El problema es que el parámetro poblacional es desconocido, y por


ello el intervalo se establece alrededor del estimador. Si repetimos el
muestreo un gran número de veces y definimos un intervalo alrededor
de cada valor del estadístico muestral, el parámetro se sitúa dentro de
cada intervalo en un porcentaje conocido de ocasiones. Este intervalo
es denominado "intervalo de confianza".

Ejemplo

Se generan 100000 muestras aleatorias (n=25) de una población que


sigue la distribución Normal, y resulta:

La distribución de las Medias muestrales aproxima al modelo Normal:

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


En consecuencia, el intervalo dentro del cual se halla el 95% de las
Medias muestrales es

(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la


distribución muestral son los valores cuya función de distribución es
igual a 0.975 y 0.025 respectivamente y se pueden obtener en las tablas
de la distribución Normal estandarizada o de funciones en aplicaciones
informáticas como Excel). Seguidamente generamos una muestra de la
población y obtenemos su Media, que es igual a 4.5. Si establecemos
el intervalo alrededor de la Media muestral, el parámetro poblacional
(5.1) está incluido dentro de sus límites:

Ahora bien, la distancia de un punto A a un punto B es la misma que de


B a A. Por esa razón, la distancia desde m a la Media muestral es la
misma que va de la Media muestral a m. En consecuencia, si hacemos
un muestreo con un número grande de muestras observamos que el

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


95% de las veces (aproximadamente) el valor de la Media de la
población (m) se encuentra dentro del intervalo definido alrededor
de cada uno de los valores de la Media muestral. El porcentaje de
veces que el valor de m se halla dentro de alguno de los intervalos de
confianza es del 95%, y es denominado nivel de confianza.

Si queremos establecer un intervalo de confianza en que el % de veces


que m se halle dentro del intervalo sea igual al 99%, la expresión
anterior es:

(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la


distribución muestral en las tablas de la distribución Normal
estandarizada o de funciones en aplicaciones informáticas como Excel),
y son los valores cuya función de probabilidad es igual a 0.995 y 0.005
respectivamente).

Ejemplo

La siguiente imagen muestra la distribución de las Medias muestrales


obtenidas de 100000 muestras aleatorias y los intervalos alrededor de
cada una de las Medias obtenidas de diez de las muestras:

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


donde ls y le simbolizan los límites superior e inferior del intervalo de
confianza al 95%.

Nueve de los diez intervalos (salvo el definido alrededor de la Media


muestral igual a 3.7) incluyen el valor del parámetro dentro sus límites.

Intervalos de probabilidad vs. intervalos de confianza

Ambos conceptos reflejan la complementariedad de la Probabilidad y


de la Estadística:

• La teoría de la probabilidad establece los procedimientos que permiten


realizar predicciones acerca de las características de una muestra
(estadísticos) extraída al azar de una población en que esas
características (parámetros) son conocidas. Un procedimiento básico

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


para realizar tal tipo de predicción es el intervalo de probabilidad (IP),
un intervalo de valores que, con un determinado nivel de confianza,
contendrá el valor del estadístico.

• La teoría estadística estudia de la realización de inferencias acerca


de las características de una población (parámetros) a partir de las
características de una muestra extraída al azar de esa población
(estadísticos). Un procedimiento básico para realizar tal tipo de
inferencia es el intervalo de confianza (IC), un intervalo de valores que
tiene un determinado nivel de confianza de contener el valor del
parámetro.

• La estimación por intervalos de confianza (IC) de un parámetro


cualquiera (θ ) consiste en obtener un intervalo de valores a partir de los
datos de una muestra de modo que, con una determinada probabilidad
(nivel de confianza), el verdadero valor del parámetro se encontrará en
el intervalo construido.

• La obtención de los dos límites de un IC supone sumar y restar al


estadístico obtenido en una muestra ( ˆθ ) (estimación puntual del
A 09 de agosto de 2021, Tula de Allende, Hidalgo.
parámetro objeto de interés), un término de error que depende de: (1)
el error estándar de la distribución muestral del estadístico en cuestión;
(2) el nivel de confianza asumido en la definición del intervalo. Así, la
expresión general del IC para un determinado parámetro θ es:

Nótese que la expresión para el cálculo de un IC es la misma que la


utilizada para el cálculo de un IP, a excepción de que se sustituye el
valor del parámetro por su estimación puntual en una muestra.

• El nivel de confianza de un IC no se ha de interpretar como la


probabilidad de que un IC concreto contenga el valor del parámetro de
interés, sino que la confianza se refiere al porcentaje de éxito del
procedimiento de cálculo que se utiliza. Por ejemplo, si creamos un IC
en que (1−α) es igual a 0,95 (o sea, α = 0,05), ello supone que si
calculamos un mismo IC en distintas muestras, un 95% de los ICs
contendría el valor del parámetro estimado. Es incorrecto interpretar que
un IC en concreto tiene una probabilidad de 0,95 de contener el valor
del parámetro.

• Siguiendo a Wonnacott y Wonnacott (1991, p. 125-131), la


siguiente figura contiene todos los elementos necesarios para la
comprensión del mecanismo de construcción del intervalo de
confianza de un parámetro θ, siguiendo la distribución muestral
del estadístico θ ˆ una ley Normal, y asumiendo un riesgo de error
del 5% (Nota: esta figura será explicada en clase)

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


• Dado que el valor que se suma y resta al valor del estadístico
obtenido en la muestra para obtener el IC es el mismo que el que
se utilizaba para calcular el IP, la precisión del IC depende de los
mismos factores que en aquel caso, a saber, del nivel de
confianza elegido y del error estándar de la distribución muestral
del estadístico.

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


En resumen

• Las propiedades de los estimadores puntuales son: el


insesgamiento, la consistencia, la suficiencia y la eficiencia.
• La distribución asintótica permite realizar estimaciones de mayor
calidad y precisión.
• Las distribuciones de muestrales más comunes son: la
distribución de la media muestral, la distribución de la varianza
muestral y la distribución de la proporción muestral.

A 09 de agosto de 2021, Tula de Allende, Hidalgo.


Bibliografía

Miranda, I. E., Palacín, F., Sánchez, M. L., Márquez, M., Chía, A. R.,
Navas, A. S., y otros. (3ra. Edición 2006). Estadística Descriptiva y
Probabilidad. Cádiz: Servicio de Publicaciones de la Universidad de
Cádiz.

Montgomery, D., & R., R. (2da. Edición 2008). Probabilidad y


Estadística Aplicada a la Ingeniería. México: Limusa Wiley.

Walpole, R., Myers, R., & Myers, S. y. (2007). Probabilidad y Estadística


para Ingeniería y Ciencias. México: Pearson.

Kahneman, D. 2014. Pensar Rápido, Pensar Despacio / Thinking, Fast


and Slow. Debolsillo Mexico.

Wainer, Howard. 2007. “The Most Dangerous Equation.” American


Scientist 95 (3): 249.

Losilla, J. M., Navarro, B., Palmer, A., Rodrigo, M. F., y Ato, M. (2005).
Del contraste de hipótesis al modelado estadístico. Tarrasa: CBS
(www.edicionsapeticio.com).

Pardo, A., y San Martín, R. (1998). Análisis de datos en Psicología II


(2ª ed.) Madrid: Pirámide. Wonnacott, T. H. y Wonnacott, R. J. (1990).
Introductory Statistics. New York: Wiley

A 09 de agosto de 2021, Tula de Allende, Hidalgo.

También podría gustarte