Está en la página 1de 40

UNIDAD 2

ESTADÍSTICA APLICADA

NOMBRE: Noé Avila Meza


# DE CONTROL: 21130407
PROFESOR: Juan Alberto López Vejar
MATERIA: Estadística y Control de
Calidad
CARRERA: Ing. Mecatrónica
Introducción
La estadística aplicada es la ciencia que
utiliza conjuntos de datos numéricos para
obtener inferencias basadas en el cálculo de
probabilidades.
La estadística no es un concepto
perteneciente a la gestión de la calidad sino
una disciplina en sí misma. El mundo de la
calidad ha aprovechado las utilidades que le
ha ofrecido la estadística convirtiéndola en
un elemento clave para la calidad. Estas
utilidades se aplican fundamentalmente en
cuanto a:
 Control estadístico de procesos (SPC)
 Establecimiento de planes de muestreo
de materias primas, productos
semielaborados y productos terminados
 Establecimiento de muestras para
realizar encuestas de satisfacción
 Análisis de datos e indicadores
El empleo de la estadística abarata los
procesos de obtención y análisis de datos al
permitir obtener conclusiones fiables a partir
de muestras reducidas sin necesidad de
analizar las poblaciones completas. El uso
de la estadística para simplificar el control de
los procesos fue la gran aportación de uno
de los padres de la calidad, Walter Shewhart
en los años 20 del siglo pasado quien creó
los gráficos de control como un medio para
controlar el desempeño de los procesos y
evaluar las tendencias de lo mismo.
Es la parte de la estadística que se aplica en
cualquier otra rama externa a ella, como la
psicología, la medicina, la sociología, la
historia, la biología, la mercadotecnia,
etcétera.
Los parámetros poblacionales se estiman
mediante funciones denominadas
estimadores o estadísticos. La estimación se
hace con base en la estimación estadística y
puede ser puntual, por intervalos o de
contraste de hipótesis. En una estimación
puntual, se obtiene un solo valor con una
confianza nula, como cuando se dice que la
estatura media de tal población es de 1,72m.
En la estimación por intervalos, el nivel de
confianza depende de la amplitud del
intervalo, es cuando se afirma que el 95% de
tal población mide menos de 1,96m. El
contraste de hipótesis consiste en verificar
estadísticamente si una suposición acerca
de una población es cierta o falsa.
La estadística aplicada se apoya totalmente
en la utilización de paquetes estadísticos
que ayudan a resolver problemas de índole
estadística, acortando dramáticamente los
tiempos de resolución. Es por esto que en
muchas universidades se enseña a utilizar
estos programas estadísticos sin que, a
veces, el alumno entienda ni tenga la
necesidad de entender cómo funcionan.
Los beneficios de conocer la Estadística
Aplicada son incontables.
Algunos ejemplos:
 Obtener una guía estadística durante tu
doctorado.
 Dar respuestas solventes a los revisores
que están juzgando tu trabajo.
 Analizar las muestras de datos que tanto
esfuerzo te ha costado conseguir.
 Mejorar la metodología estadística de tus
nuevas investigaciones y ganar una
propuesta de proyecto.
 Tomar mejores decisiones en tu empresa
 Ser un ciudadano/a competente con
capacidad crítica para valorar la
información de su entorno y hacerse las
preguntas oportunas.
La Era de los datos
La Estadística Aplicada tiene un rol
primordial en los cambios que estamos
viviendo.

Gracias al gran progreso informático que


hemos experimentado y a la enorme
cantidad de información que disponemos,
hoy podemos responder a preguntas que
antes no éramos capaces de resolver.
Estamos justo al comienzo de este proceso
de transformación impulsada por datos
(véase por ejemplo el libro “Homo deus: a
brief History of tomorrow” de Yuval Noah
Harari). Nunca se han tomado tantas
decisiones basadas en estadísticas como
hoy en día.

2.1 Inferencia estadística


2.1.1 Concepto
La inferencia estadística es el conjunto de
métodos y técnicas que permiten inducir, a
partir de la información empírica
proporcionada por una muestra, cual es el
comportamiento de una determinada
población con un riesgo de error medible en
términos de probabilidad.
Los métodos paramétricos de la inferencia
estadística se pueden dividir, básicamente,
en dos: métodos de estimación de
parámetros y métodos de contraste de
hipótesis. Ambos métodos se basan en el
conocimiento teórico de la distribución de
probabilidad del estadístico muestral que se
utiliza como estimador de un parámetro.

La estimación de parámetros consiste en


asignar un valor concreto al parámetro o
parámetros que caracterizan la distribución
de probabilidad de la población. Cuando se
estima un parámetro poblacional, aunque el
estimador que se utiliza posea todas las
propiedades deseables, se comete un error
de estimación que es la diferencia entre la
estimación y el verdadero valor del
parámetro. El error de estimación es
desconocido por lo cual es imposible saber
en cada caso cual ha sido la magnitud o el
signo del error; para valorar el grado de
precisión asociado con una estimación
puntual se parte de dicha estimación para
construir un intervalo de confianza. En
síntesis, un intervalo de confianza está
formado por un conjunto de valores
numéricos tal que la probabilidad de que
éste contenga al verdadero valor del
parámetro puede fijarse tan grande como se
quiera. Esta probabilidad se denomina grado
de confianza del intervalo, y la amplitud de
éste constituye una medida del grado de
precisión con el que se estima el parámetro.

Los métodos de contraste de hipótesis


tienen como objetivo comprobar si
determinado supuesto referido a un
parámetro poblacional, o a parámetros
análogos de dos o más poblaciones, es
compatible con la evidencia empírica
contenida en la muestra. Los supuestos que
se establecen respecto a los parámetros se
llaman hipótesis paramétricas. Para
cualquier hipótesis paramétrica, el contraste
se basa en establecer un criterio de decisión,
que depende en cada caso de la naturaleza
de la población, de la distribución de
probabilidad del estimador de dicho
parámetro y del control que se desea fijar a
priori sobre la probabilidad de rechazar la
hipótesis contrastada en el caso de ser ésta
cierta.

En todo contraste intervienen dos hipótesis.


La hipótesis nula (Ho) es aquella que recoge
el supuesto de que el parámetro toma un
valor determinado y es la que soporta la
carga de la prueba. La decisión de rechazar
la hipótesis nula, que en principio se
considera cierta, está en función de que sea
o no compatible con la evidencia empírica
contenida en la muestra. El contraste clásico
permite controlar a priori la probabilidad de
cometer el error de rechazar la hipótesis nula
siendo ésta cierta; dicha probabilidad se
llama nivel de significación del contraste ( )
y suele fijarse en el 1%, 5% o 10%.
La proposición contraria a la hipótesis nula
recibe el nombre de hipótesis alternativa
(H1) y suele presentar un cierto grado de
indefinición: si la hipótesis alternativa se
formula simplemente como 'la hipótesis nula
no es cierta', el contraste es bilateral o a dos
colas; por el contrario, cuando se indica el
sentido de la diferencia, el contraste es
unilateral o a una sola cola.

Cuando se realiza un contraste con el SPSS


no se fija el nivel de significación deseado, el
programa calcula el valor-p o significación
asintótica, que es la probabilidad de que el
estadístico de prueba tome un valor igual o
superior al muestral bajo el supuesto de que
la hipótesis nula es cierta. Por tanto, si el
valor-p es menor o igual que el nivel de
significación deseado se rechazará Ho. Un
valor-p próximo a cero indica que se
rechazará la Ho para cualquier nivel de
significación.
2.1.2 Muestreo
En estudios pasados de Estadísticas
centramos nuestra atención en técnicas que
describen los datos, tales como organizar
datos en distribuciones de frecuencias y
calcular diferentes promedios y medidas de
variabilidad. Estábamos concentrados en
describir algo que ya ocurrió. También
comenzamos a establecer los fundamentos
de la estadística inferencial, con el estudio
de los conceptos básicos de la probabilidad,
las distribuciones de probabilidad discretas y
continuas. Distribuciones que son
principalmente generadas para evaluar algo
que podría ocurrir. Ahora veremos otro tipo
de distribución de probabilidad, que se
llaman distribuciones muestrales.
¿Por qué muestrear?
Muestrear es una forma de evaluar la calidad
de un producto, la opinión de los
consumidores, la eficacia de un
medicamento o de un tratamiento. Muestra
es una parte de la población. Población es el
total de resultados de un experimento. Hacer
una conclusión sobre el grupo entero
(población) basados en información
estadística obtenida de un pequeño grupo
(muestra) es hacer una inferencia
estadística.
A menudo no es factible estudiar la
población entera. Algunas de las razones por
lo que es necesario muestrear son:
 La naturaleza destructiva de algunas
pruebas
 La imposibilidad física de checar todos
los elementos de la población.
 El costo de estudiar a toda la población
es muy alto.
 El resultado de la muestra es muy similar
al resultado de la población.
 El tiempo para contactar a toda la
población es inviable.
Muestra Aleatoria.
Es una muestra seleccionada de tal forma
que cada artículo o persona de una
población que está siendo estudiada tiene la
misma probabilidad de ser incluida en la
muestra
No hay un mejor método para seleccionar
una muestra aleatoria de una población de
interés. El método utilizado dependerá de las
características de la población. Sin embargo,
todos los métodos de muestreo aleatorios
tienen una meta similar, dar la misma
oportunidad a todos los elementos de la
población de ser incluidos en la muestra.
Muestreo Aleatorio Simple
Es cuando una muestra es formulada de tal
manera que cada elemento en la población
tiene la misma oportunidad de ser incluido.
Una forma podría ser escribir en papelitos
los nombres de los elementos de la
población y depositarlos en una caja, si la
muestra fuera de diez elementos, entonces
sacamos diez papelitos.
Otra forma es usar un número de
identificación para cada uno de los
integrantes de la población y seleccionar la
muestra mediante una tabla de números
aleatorios. Como su nombre lo indica estos
números han sido generados mediante un
proceso aleatorio en una computadora. Para
cada dígito de un número la probabilidad es
la misma. Entonces la probabilidad de que el
elemento 22 sea seleccionado es igual a la
del elemento 382.
Muestreo Aleatorio Sistemático
Una población es primero dividida en
subgrupos llamados estratos y una muestra
es seleccionada aleatoriamente de cada
estrato.
Puede haber dos tipos de muestreo
estratificado, proporcional y no proporcional.
Como su nombre lo indica, en un muestreo
aleatorio estratificado proporcional, el
número de elementos de la muestra de cada
estrato tiene la misma proporción de lo
encontrado en la población.
Muestreo por bloque
Este método de muestro es empleado para
reducir el costo de muestrear una población
cuando está dispersa sobre una gran área
geográfica. El muestreo por bloque consiste
en dividir el área geográfica en sectores,
seleccionar una muestra aleatoria de esos
sectores, y finalmente obtener una muestra
aleatoria de cada uno de los sectores
seleccionados.
Error de Muestreo
Si seleccionamos una muestra por el método
de muestreo aleatorio simple, por muestreo
sistemático, por muestreo estratificado, por
muestreo por bloques o por una combinación
de estos métodos, es poco probable que la
media de la muestra sea idéntica a la media
de la población de donde fue obtenida. De la
misma forma, es probable que la desviación
estándar de la muestra no sea exactamente
igual al valor correspondiente de la
población. Por lo tanto, podemos esperar
alguna diferencia entre un estadístico
muestral y el correspondiente parámetro
poblacional. Esta diferencia es llamada error
de muestreo.
Error de muestreo es la diferencia entre un
estadístico muestral y su correspondiente
parámetro poblacional
Una población de 5 empleados de
producción que tienen ratings de eficiencia
de 97, 103, 96, 99 y 105. Una muestra de 2
ratings (97 y 105) fue seleccionada de esa
población para estimar la media poblacional.
La media de esa muestra sería 101. Otra
muestra de 2 es seleccionada (103 y 96) con
una media de 99.5. La media de todos los
ratings (la media poblacional) es igual a 100.
El error de muestreo para la primera muestra
es 1 y para la segunda es -.5.
Distribución Muestral de las Medias
El ejemplo de los ratings de eficiencia
muestra como las medias de muestras de un
tamaño específico varían de muestra a
muestra. La media de la primera muestra fue
101 y la media de la segunda fue 99.5. En
una tercera muestra probablemente
resultaría una media diferente. Si
organizamos las medias de todas las
posibles muestras de tamaño 2 en una
distribución de probabilidad, obtendremos la
distribución muestral de las medias.
Es una distribución de probabilidad de todas
las posibles medias muestrales, de un
tamaño de muestra dado, seleccionadas de
una población.

2.1.3 Estimación
Un estimador de un parámetro poblacional
es una función de los datos muestrales. En
pocas palabras, es una fórmula que depende
de los valores obtenidos de una muestra,
para realizar estimaciones. Lo que se
pretende obtener es el valor exacto de un
parámetro. Por ejemplo, si se pretende
estimar la talla media de un determinado
grupo de individuos, puede extraerse una
muestra y ofrecer como estimación puntual
la talla media de los individuos de la
muestra.
La media de la muestra puede ser un
estimador de la media de la población, la
cuasivarianza muestral es un buen
estimador de la varianza poblacional y el
total muestral es un buen estimador del total
poblacional. Por tanto, una definición más
matemática de un estimador y las
propiedades que debe de cumplir un
estimado para ser bueno. Sea X1......Xn, una
m.a.s. de tamaño n, decimos que es un
estimador θ* de un parámetro θ si el
estadístico que se emplea para conocer
dicho parámetro desconocido es este.
Propiedades deseables de un estimador
Las propiedades o criterios para seleccionar
un buen estimador son los siguientes:
a) Insesgadez: Diremos que un
estimador θ* de un parámetro θ es
insesgado si su esperanza coincide con
el verdadero valor del parámetro.
E [θ*]=θ
En el caso de que no coincidan, diremos que
el estimador es sesgado.
b) Eficiencia: Dados dos estimadores
θ1* y θ2* para un mismo parámetro θ, se
dice que θ1 * es más eficiente que θ2* si:
V [θ1 *] < V[θ2 *].
c) Suficiencia: Se dice que un
estimador de un parámetro es suficiente
cuando para su cálculo utiliza toda la
información de la muestra.
d) Consistencia: Decimos que un
estimador θ* de un parámetro θ es
consistente si la distribución del
estimador tiende a concentrarse en un
cierto punto cuando el tamaño de la
muestra tiende a infinito.
Limn→∞= {P [ộ − ε ≤ ộ ≤ ộ + ε]}.
Métodos para obtener estimadores
El demostrar que un cierto estimador cumple
estas propiedades puede ser complicado en
determinadas ocasiones. Existen varios
métodos que nos van a permitir obtener los
estimadores puntuales. Los más importantes
son:
 MÉTODO DE LOS MOMENTOS: se
basa en que los momentos poblacionales
y se estiman mediante los momentos
muestrales. Suelen dar estimadores
consistentes.
 MÉTODO DE MÍNIMOS CUADRADOS:
consiste en obtener un estimador que
hace mínima una determinada función.
 MÉTODO DE MÁXIMA
VEROSIMILITUD: consiste en tomar
como parámetro poblacional el valor de
la muestra que sea más probable, es
decir, que tenga mayor probabilidad. Se
suelen obtener estimadores consistentes
y eficientes. Es el más utilizado.
La probabilidad de que la media muestral
sea igual a la media poblacional es cero, P [
= µ] =0, es decir, que será bastante
complicado obtener un estimador puntual,
por ello se utiliza más el Intervalo de
Confianza y el Contraste de Hipótesis.

2.1.4 Prueba de hipótesis


 En la inferencia estadística existen dos
aproximaciones complementarias:
pruebas de hipótesis y estimación.
 Las pruebas de hipótesis evalúan la
probabilidad asociada a la hipótesis nula
(H0) de que no hay efecto o diferencia.
 El valor de p obtenido refleja la
probabilidad de rechazar la H0 siendo
esta verdadera; en ningún caso prueba
que la hipótesis alternativa, de que, si
hay efecto o diferencia, sea verdadera.
 Error tipo I (α) es un falso negativo:
rechazar H0 cuando esta es verdadera.
 Error tipo II (β) es un falso negativo,
aceptar H0 la cuando esta es falsa.
 La potencia de un experimento o test
describe la probabilidad de detectar una
diferencia verdadera de una determinada
magnitud.
Los datos obtenidos en el transcurso de una
investigación médica frecuentemente son
usados para comparar el efecto de
diferentes maniobras o situaciones: tratados
versus no tratados, casos versus controles o
normales versus enfermos. Aunque existen
numerosas alternativas para hacer esas
comparaciones – que dependerán
fundamentalmente del diseño experimental,
del tipo de datos y escalas de medición, y
del número de muestras – y a pesar de la
enorme variedad en el tipo de problemas
médicos que pueden plantearse o de las
soluciones estadísticas que se aplique,
existen básicamente dos aproximaciones:
pruebas de hipótesis y estimación. Vale la
pena discutir algunos puntos de estas
alternativas antes de elaborar sobre las
pruebas estadísticas propiamente tales.
Hipótesis de Trabajo e Hipótesis Nula
Una hipótesis es una proposición que puede
o no ser verdadera pero que se adopta
provisionalmente hasta recabar información
que sugiera lo contrario. Si hay
inconsistencia, se rechaza la hipótesis. Las
pruebas de hipótesis se usan precisamente
para evaluar el grado de esa inconsistencia.
Se puede describir formalmente los pasos a
seguir:
 Formular la hipótesis y su alternativa.
Normalmente la hipótesis de trabajo (por
ejemplo, tal tratamiento es mejor que el
control o tal procedimiento tiene menos
morbilidad) es contrastada con una
hipótesis estadística que supone que no
existe tal efecto o tal diferencia. La razón
para hacer esto es que se puede calcular
de antemano la distribución de
probabilidades asociadas con tal
situación. Esta hipótesis se conoce con
el nombre de hipótesis nula que se
abrevia como H0 (Nullus: Nula, falto de
valor y fuerza para obligar o tener
efecto). La expresión matemática es H0:
1= 2. La hipótesis alternativa es que el
efecto sí existe, que es distinto de cero, y
que en algunos casos se puede
especificar el signo de esa diferencia.
Normalmente corresponde a la hipótesis
de trabajo, se abrevia como H1 y tiene
tres alternativas: µ 1≠ µ 2, µ 1< µ 2 o
bien µ 1> µ 2.
 Elegir la prueba estadística apropiada de
acuerdo con el diseño experimental, el
tipo de datos y el número de grupos que
se comparan. La cifra que resulta de
usar la prueba (aplicar la o las fórmulas)
en los datos recolectados se conoce
como el estadístico de la prueba en
cuestión: z; estadístico t o de Student, la
r de Pearson, F del análisis de varianza,
2. La distribución del estadístico puede
ser calculada de antemano cuando la H0
es verdadera y por lo tanto conocer los
valores que delimitarán distintas
porciones del área bajo la curva de esa
distribución; éstas se conocen como
distribuciones de muestreo. Vale la pena
decir aquí, y lo reiteraremos luego, que
las pruebas de hipótesis en ningún caso
prueban la veracidad de la hipótesis
alternativa o de trabajo, limitándose a
decir que no hay suficiente evidencia
para rechazar la hipótesis nula
basándose en un nivel preestablecido de
probabilidades.
 Elegir el nivel de significación α de la
prueba, el límite para rechazar H0. En
general, se acepta α = 0,01 ó 0,05, cifras
que implican un 1%, o un 5%
respectivamente, de posibilidades de
equivocarse cuando se rechaza H0, de
decir que hay una diferencia cuando en
realidad no la hay. Este es el llamado
error tipo I.
 Calcular el valor de P. Esta es la
probabilidad de obtener los resultados
observados u otros más extremos si la
H0 es verdadera, cifra que es
determinada por el área de la distribución
que queda más allá del valor calculado.
 Si p es menor que α, rechazar H0 y
aceptar la alternativa; en caso contrario,
se acepta la hipótesis nula. El conjunto
de valores que resultarían en el rechazo
de H0 – calculados conociendo la prueba
usada, α y el número de observaciones –
se conoce con el nombre de región
crítica (Figura 1). Este punto puede
refrasearse así: se rechaza la H0 si el
estadístico cae en la región crítica. En
los apéndices de los textos de
estadística aparecen tablas con la
distribución de estos estadísticos, dando
el valor de p y donde el tamaño de la
muestra se considera en los grados de
libertad.

Como se evalúa el estadístico calculando la


probabilidad de observar el valor encontrado
u otro más extremo, el valor de P constituye
la cola de la distribución. Este concepto es
importante pues permite entender qué
significa una prueba de una cola o de dos
colas. Si la hipótesis de trabajo implica que
existe una diferencia, sin especificar la
dirección de esa diferencia (1 ≠ µ 2) debe
usarse una prueba de dos colas. Si se es
capaz de especificar de antemano el signo
de ella (µ 1 < 2 o bien µ 1> µ 2), se puede y
se debe usar una prueba de una cola. El
punto es importante pues el área crítica es
mayor en este último caso lo que equivale a
decir que se puede rechazar con un valor
menor del estadístico. Como veremos luego,
esto equivale a aumentar la potencia de la
prueba en cuestión.
Conclusiones y Errores de un Test de
Hipótesis
Frente a dos posibilidades reales, no hay
diferencias (H0) o bien sí las hay (H1), las
pruebas de hipótesis pueden dar dos
resultados: rechazar o aceptar H0. En estas
circunstancias, en forma análoga a lo que
sucede con los exámenes de laboratorio
diagnósticos, las alternativas son cuatro. Dos
no constituyen más que la coincidencia entre
la realidad y el resultado de las pruebas:
 Se rechaza H0 cuando ésta es falsa, una
diferencia verdadera es declarada
estadísticamente significativa. Es un
verdadero positivo.
 Se acepta H0 cuando ésta es verdadera,
no hay una diferencia estadísticamente
significativa y en realidad no la hay. Un
verdadero negativo.
Las otras alternativas implican una
incongruencia entre la realidad y los
resultados y, por lo tanto, constituyen
errores.
 Se rechaza H0 cuando ésta es
verdadera, concluyendo que hay una
diferencia que en realidad no existe, un
falso positivo. Se ha cometido un error
que se denomina de tipo I (α). La
probabilidad de que ocurra este tipo de
error es la que se controla al establecer α
y normalmente no va más allá del 5%.
Sin embargo, inadvertidamente puede
ser mayor cuando no se cumplen los
requisitos necesarios para aplicar la
prueba de hipótesis elegida: usar un test
paramétrico cuando en realidad se debió
usar uno no paramétrico, una prueba de
una cola en vez de una de dos colas o
comparaciones múltiples con tests
diseñados para comparar sólo dos
medias o medianas.
 Se acepta H0 cuando en realidad es
falsa, un falso negativo, concluyendo que
no hay diferencia cuando en realidad
existe. Este es el error tipo II (β), que la
mayoría de las veces se debe a un
tamaño insuficiente de la muestra. La
probabilidad de cometer un error tipo II
es β cuyo valor depende de la magnitud
del efecto de interés y del tamaño de la
muestra. Sin embargo, es más frecuente
hablar de la potencia de la prueba para
detectar un efecto de un tamaño
determinado.
Estos dos errores deben ser considerados al
evaluar el resultado de un trabajo de
investigación que haya empleado pruebas
de hipótesis, considerando la posibilidad de
un error I cuando los resultados son
significativos y de un error tipo II cuando son
no significativos.

2.1.5 Método clásico de


estimación puntual
Estimación Puntual
El estimador puntual más empleado es el de
máxima verosimilitud. Dada una muestra
multinomial x = [x1, . . ., xk], siendo n = x1 + · ·
· + xk, la verosimilitud de los parámetros
tiene la siguiente expresión:
Los valores de p1, . . ., pk que maximizan el
valor de esta función y por tanto los
estimadores de máxima verosimilitud p1, . . .,
pk de las probabilidades multinomiales son:

Se trata de la frecuencia clásica, el cociente


entre el número de sucesos registrados en la
categoría i-ésima y el número total de
experimentos.
Cuando el número de sucesos observados
en la categoría i es xi = 0, resulta que pi = 0/n
= 0. Este resultado no es matemáticamente
consistente, puesto que asignar una
probabilidad nula a un suceso equivale en
cierta manera a negar su existencia.
Estimación bayesiana clásica
La estimación bayesiana se basa en suponer
que los parámetros desconocidos p =
[p1, . . ., pk] no son fijos sino que son
variables aleatorias y por tanto tienen
asociada una densidad de probabilidad que
modela la incertidumbre acerca de su valor.
El paradigma bayesiano establece que a
partir de una distribución a priori fpriori(p), en
la que pueden reflejarse las creencias
previas a la realización del experimento, la
distribución a posteriori fpost(p) se obtiene
mediante el teorema de Bayes:

Cuando el vector de parámetros que se


desea estimar son las probabilidades de la
distribución multinomial, el método
bayesiano clásico consiste en suponer que
el priori es una distribución Dirichlet con
parámetros α = [α1, . . ., αk], αi ≥ 0,

donde el coeficiente B(α) es la función beta


multinomial:
2.1.6 Estimador insesgado
Un estimador insesgado es aquel
cuya esperanza matemática coincide con el
valor del parámetro que se desea estimar.
En caso de no coincidir se dice que el
estimador tiene sesgo.
La razón de buscar un estimador insesgado
es que el parámetro que deseamos estimar
esté bien estimado. Es decir, si queremos
estimar la media de goles por partido de
determinado jugador de fútbol, hemos de
utilizar una fórmula que nos proporcione un
valor lo más aproximado posible al valor real.
En caso de que la esperanza del estimador
no coincida con el verdadero valor del
parámetro se dice que el estimador tiene un
sesgo. El sesgo se mide como la diferencia
entre el valor de la esperanza del estimador
y el valor verdadero. Matemáticamente se
puede notar como sigue:
De la fórmula anterior queda clara la primera
parte y la última. Es decir, la esperanza del
estimador es igual al verdadero valor del
parámetro. Si se cumple esta igualdad,
entonces el estimador es insesgado. La
parte de en medio, matemáticamente más
abstracta, se explica en el siguiente párrafo.
La media de todas las estimaciones que
puede realizar el estimador para cada
muestra diferente, es igual al parámetro. Por
ejemplo, si tenemos 30 muestras diferentes,
lo normal es que en cada muestra el
estimador (aunque sea por poco) ofrezca
valores diferentes. Si realizamos la media de
los 30 valores del estimador en las 30
muestras diferentes, entonces el estimador
debe arrojar un valor igual al verdadero valor
del parámetro.
El sesgo de un estimador
No siempre se puede encontrar un estimador
insesgado para calcular cierto parámetro.
Así pues, puede que nuestro estimador
tenga sesgo. Que un estimador tenga sesgo
no quiere decir que no sea válido.
Simplemente, quiere decirnos que no se
ajusta todo lo bien que estadísticamente nos
gustaría.
Dicho esto, aunque no se ajuste todo lo bien
que nos gustaría, en ocasiones, no nos
queda otra opción que utilizar un estimador
con sesgo. Por tanto, resulta fundamental
que conozcamos el tamaño de ese sesgo. Si
lo conocemos, podemos utilizar esa
información en las conclusiones de nuestra
investigación. Matemáticamente el sesgo se
define del siguiente modo:

En la fórmula anterior el sesgo es un valor


distinto de cero. Si fuese cero, entonces el
estimador sería insesgado.
Ejemplo de estimador insesgado
Un ejemplo de estimador insesgado lo
encontramos en el estimador media. Este
estimador es conocido en estadística como
media muestral. Si utilizamos la fórmula
matemática descrita al principio llegamos a
la conclusión de que la media muestral es un
estimador insesgado. Antes de operar,
hemos de tener en cuenta la siguiente
información:

Denotamos X con una barrita arriba a la


media muestral.

La fórmula de la media muestral es la suma


de los n valores que tenemos dividido entre
el número de valores. Si tenemos 20 datos,
n será igual a 20. Tendremos que sumar los
valores de los 20 datos y dividirlo entre 20.

La notación anterior significa esperanza o


valor esperado de la media muestral.
Coloquialmente, podríamos decir que se
calcula como el valor medio de la media
muestral. Con esto en mente, utilizando las
técnicas matemáticas adecuadas podemos
deducir lo siguiente:

La esperanza del estimador coincide con


‘mu’ que es el verdadero valor del
parámetro. Es decir, la media real. Todo sea
dicho, son necesarios unos conceptos
básicos sobre matemáticas, para entender el
anterior desarrollo.
Del mismo modo, podríamos intentar hacer
lo mismo con el estimador de la varianza
muestral. En lo que sigue S al cuadrado es
la varianza muestral y la letra griega sigma
(que parece la letra o con un palito a la
derecha) es la varianza real.
2.2 Intervalos de confianza
En estadística, se llama intervalo de
confianza a un par o varios pares de
números entre los cuales se estima que
estará cierto valor desconocido respecto de
un parámetro poblacional con un
determinado nivel de confianza.
Formalmente, estos números determinan un
intervalo, que se calcula a partir de datos de
una muestra, y el valor desconocido es un
parámetro poblacional. El nivel de confianza
representa el porcentaje de intervalos que
tomados de 100 muestras independientes
distintas contienen en realidad el valor
desconocido. En estas circunstancias, α es
el llamado error aleatorio o nivel de
significancia, esto es, el número de
intervalos sobre 100 que no contienen el
valor.
El nivel de confianza y la amplitud del
intervalo varían conjuntamente, de forma
que un intervalo más amplio tendrá más
probabilidad de acierto (mayor nivel de
confianza), mientras que para un intervalo
más pequeño, que ofrece una estimación
más precisa, aumenta su probabilidad de
error.
Para la construcción de un determinado
intervalo de confianza es necesario conocer
la distribución teórica que sigue el parámetro
a estimar, θ. Es habitual que el parámetro
presente una distribución normal. También
pueden construirse intervalos de confianza
con la desigualdad de Chebyshev.

Factores de los que depende un intervalo


de confianza
El cálculo de un intervalo de confianza
depende principalmente de los siguientes
factores:
 Tamaño de la muestra
seleccionada: Dependiendo de la
cantidad de datos que se hayan utilizado
para calcular el valor muestral, este se
acercará más o menos al verdadero
parámetro poblacional.
 Nivel de confianza: Nos va a informar
en qué porcentaje de casos nuestra
estimación acierta. Los niveles
habituales son el 95% y el 99%.
 Margen de error de nuestra
estimación: Este se denomina como
alfa y nos informa de la probabilidad que
existe de que el valor poblacional esté
fuera de nuestro intervalo.
 Lo estimado en la muestra (media,
varianza, diferencia de medias…): De
esto va a depender el estadístico pivote
para el cálculo del intervalo.

También podría gustarte