Está en la página 1de 13

Sustentante: Katherin Cesarina González Melo

Estadística Aplicada
Practica XI

Tema I: Muestreo y distribuciones muéstrales

Distribución muéstrales para medidas muéstrales

Error de muestreo

en estadística, error muestral o error de estimación es el error que surge a


causa de observar una muestra de la población completa.1

La estimación de valor de interés, como la media o el porcentaje, estará


generalmente sujeta a una variación entre una muestra y otra.1 Estas variaciones
en las posibles muestras de una estadística pueden, teóricamente, ser
expresadas como errores muestrales, sin embargo, normalmente, en la práctica
el error exacto es desconocido. El error muestral se refiere en términos más
generales al fenómeno de la variación entre muestras. Cuando este no es
mencionado se considera que el margen de error base es el 0.02% (0.2 para
muestreo paralelo y 2 para muestreo directo).

El error muestral deseado, generalmente puede ser controlado tomando


una muestra aleatoria de la población, suficientemente grande,2 sin embargo, el
costo de esto puede ser limitante. Si las observaciones son tomadas de una
muestra aleatoria, la teoría estadística brinda cálculos probabilísticos del
tamaño deseado del error muestral para una estadística en particular o
estimación. Estos usualmente son expresados en términos del error estándar.

El error muestral puede ser contrastado con el error no maestral, el cual se


refiere al conjunto de las desviaciones del valor real que no van en función de la
muestra escogida, entre los cuales se encuentran varios errores sistemáticos y
algunos errores aleatorios. Resultan mucho más difíciles de cuantificar que el
error muestral.

La media de las medias muéstrales

Se extraen muestras aleatorias de tamaño n de una población infinita


con media poblacional y varianza: La media de las medias muéstrales es igual a
la media poblacional. Es decir. La varianza de las medias muéstrales es igual a la
varianza poblacional dividida por.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

El error estándar

El error estándar de la media (es decir, el error debido a la estimación de


la media poblacional a partir de las medias muéstrales) es la
desviación estándar de todas las posibles muestras (de un tamaño dado)
escogidos de esa población.

El error estándar es la desviación estándar de la distribución muestral de


un estadístico muestral.1 El término se refiere también a una estimación de la
desviación estándar, derivada de una muestra particular usada para computar la
estimación.

Aplicaciones para una distribución normal

Muchos sucesos que, por su naturaleza, parecen caprichosos e inciertos, y para


los cuales en ningún caso individual existe grado obtenible de conocimientos que
nos permita preverlos, ocurren con un grado de regularidad que raya lo
matemático, si se tienen en cuenta cifras considerables”

Así como hemos visto que hay otros casos de variables muy representativas de
un conjunto de situaciones, como las leyes de potencias, la distribución normal o
Gaussiana aparece en muchas más ocasiones en la práctica, debido, entre otros
motivos, al teorema central del límite (al final de este tema). Veamos ahora unos
cuantos ejemplos de variables que siguen esta ley.

Distribución muéstrales para proporciones muéstrales

Para calcular la media de la distribución muestral de proporciones se tendría


que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y
dividirla entre el número total de muestras. ... Como podemos observar la
media de la distribución muestral de proporciones es igual a la Proporción de la
población.

Teorema central de límite

El teorema del límite central o teorema central del límite (el nombre viene de un
documento científico escrito por George Pólya en 1920, titulado Über den
zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das
Momentenproblem1 [Sobre el «teorema del límite» (Grenzwertsatz) central del
cálculo probabilístico y el problema de los momentos] por lo que lo central
[importante] es el teorema, no el límite) indica que, en condiciones muy

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

generales, si Sn es la suma de n variables aleatorias independientes y


de varianza no nula pero finita, entonces la función de distribución de Sn «se
aproxima bien» a una distribución normal (también llamada distribución
gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema asegura que
esto ocurre cuando la suma de estas variables aleatorias e independientes es lo
suficientemente grande.

Factor de corrección pro finitud

Factor de corrección por finitud. Se determina restando al tamaño del universo,


el tamaño de la muestra y dividiendo este diferencial nuevamente entre el
tamaño del universo; es un ajuste que se hace a la varianza cuando el universo es
finito.

Muestreo aleatorio simple

Muestreo aleatorio simple se trata del procedimiento de muestreo menos


complejo. Se tiene una población homogénea, se selecciona aleatoriamente la
muestra representativa. Cuando todas las unidades de la población son conocidas
y la probabilidad de ser seleccionadas es la misma.

El muestreo aleatorio simple es una técnica de muestreo en la que todos los


elementos que forman el universo - y que por lo tanto están incluídos en el marco
muestral - tienen idéntica probabilidad de ser seleccionados para la muestra.

Muestreo con reemplazo

El muestreo con reemplazo es aquel en que un elemento puede ser seleccionado


más de una vez en la muestra para ello se extrae un elemento de la población se
observa y se devuelve a la población, por lo que de esta forma se pueden hacer
infinitas extracciones de la población aun siendo esta finita.

Muestreo sin reemplazo

Es un método en el cual los miembros de la muestra no se regresan a la población


antes de elegir a los miembros siguientes. ... Se realiza muestreo sin
reemplazo cuando en el muestreo aleatorio cada una de las sucesivas unidades
muéstrales son excluidas de la población antes de ser extraída la siguiente.

Estadístico muestral

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

En estadística un estadístico (muestral) es una medida cuantitativa, derivada


de un conjunto de datos de una muestra, con el objetivo de estimar o inferir
características de una población o modelo estadístico.

Más formalmente un estadístico es una función medible T que, dada una muestra
estadística de valores, les asigna un número, que sirve para estimar determinado
parámetro de la distribución de la que procede la muestra. Así, por ejemplo, la
media de los valores de una muestra (media muestral) sirve para estimar la media
de la población de la que se ha extraído la misma; la varianza muestral podría
usarse para estimar la varianza poblacional, etc.1 Esto se denomina como realizar
una estimación puntual.

Estimación puntual

Una estimación es puntual cuando se usa un solo valor extraído de la muestra


para estimar el parámetro desconocido de la población.

Distribución muestral

La distribución maestral es lo que resulta de considerar todas las muestras


posibles que pueden ser tomadas de una población. Su estudio permite calcular
la probabilidad que se tiene, dada una sola muestra, de acercarse al parámetro
de la población.

Factor de corrección para pruebas finita

El factor se denomina factor de corrección para una población finita. Suponga


además que se seleccionan muestras aleatorias de tamaño 2 sin reemplazo.
Calcule la antigüedad media para cada muestra, la media de la distribución
muestral y el error estándar, o la desviación estándar de la distribución
muestral.

Métodos de muestreo aleatorios probabilístico

Muestreo probabilístico (aleatorio): En este tipo de muestreo, todos los


individuos de la población pueden formar parte de la muestra, tienen
probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo
de muestreo que deberemos utilizar en nuestras investigaciones, por ser el
riguroso y científico.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Muestreo aleatorio simple

El muestreo aleatorio simple es una técnica de muestreo en la que todos los


elementos que forman el universo - y que por lo tanto están incluídos en el marco
muestral - tienen idéntica probabilidad de ser seleccionados para la muestra.

Muestreo sistemático

El muestreo sistemático es un tipo de muestreo probabilístico, esta se basa en


enlistar a toda la población y elegir el primer individuo para la muestra de forma
aleatoria y luego a partir de un intervalo definido por el investigador, se
seleccionará al resto de los individuos que conformarán dicha muestra.

Muestreo aleatorio estratificado

Muestreo aleatorio estratificado proporcionado. En esta técnica, el tamaño de


la muestra de cada estrato es proporcional al tamaño de la población del estrato
si se compara con la población total.

Muestreo por conglomerado

El muestreo por conglomerados es una técnica utilizada cuando hay


agrupamientos "naturales" relativamente homogéneos en una población
estadística. A menudo se utiliza en la investigación de mercados.

Métodos de muestreo no aleatorios probabilístico

El muestreo no probabilístico es una técnica de muestreo donde las muestras se


recogen en un proceso que no brinda a todos los individuos de la población iguales
oportunidades de ser seleccionados. En cualquier tipo de investigación es difícil
lograr un muestreo aleatorio auténtico.

La mayoría de los investigadores tienen limitaciones temporales, monetarias y


de mano de obra y, gracias a ellas, es casi imposible tomar una muestra aleatoria
de toda la población. Generalmente, es necesario emplear otra técnica de
muestreo, la técnica de muestreo no probabilístico.

Muestreo por conveniencia

El muestreo de o por conveniencia es una técnica de muestreo no probabilístico


donde los sujetos son seleccionados dada la conveniente accesibilidad y
proximidad de los sujetos para el investigador. Los sujetos de una investigación

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

específica, son seleccionados para el estudio sólo porque son más fáciles de
reclutar y el investigador no está considerando las características de inclusión
de los sujetos que los hace representativos de toda la población.

Muestreo subjetivo

Muestreo subjetivo por decisión razonada. En este caso las unidades de la


muestra se eligen en función de algunas de sus características de manera
racional y no casual.

Tema II: Estimación por intervalo de confianza

Principios e interpretación de intervalos de confianzas

En estadística, se llama intervalo de confianza a un par o varios pares de


números entre los cuales se estima que estará cierto valor desconocido con un
determinado nivel de confianza. Formalmente, estos números determinan
un intervalo, que se calcula a partir de datos de una muestra, y el valor
desconocido es un parámetro poblacional. El nivel de confianza representa el
porcentaje de intervalos que tomados de 100 muestras independientes distintas
contienen en realidad el valor desconocido. En estas circunstancias, α es el
llamado error aleatorio o nivel de significación, esto es, el número de intervalos
sobre 100 que no contienen el valor1

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma


que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de
confianza), mientras que, para un intervalo más pequeño, que ofrece una
estimación más precisa, aumenta su probabilidad de error.

Para la construcción de un determinado intervalo de confianza es necesario


conocer la distribución teórica que sigue el parámetro a estimar, θ.2 Es habitual
que el parámetro presente una distribución normal. También pueden construirse
intervalos de confianza con la desigualdad de Chebyshev.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de


un parámetro poblacional θ que sigue una determinada distribución de
probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α,
donde P es la función de distribución de probabilidad de θ.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

El valor de alfa en la probabilidad del error

La probabilidad de cometer un error de tipo I es α, que es el nivel de


significancia que usted establece para su prueba de hipótesis. ... Sin embargo,
usar un valor menor para alfa significa que usted tendrá menos probabilidad de
detectar una diferencia si está realmente existe.

Intervalos de confianzas Para proporciones poblacionales

En la inferencia sobre una proporción el problema se concreta en estimar y


contrastar la proporción p de individuos de una población que presentan una
determinada característica A (proporción de votantes a un partido político,
proporción de parados, ...). El problema se modeliza mediante una variable
dicotómica que toma el valor 1 si se presenta la característica de interés y 0 en

caso contrario, esto es, una variable de Bernoulli, ,de la que se dispone
de una muestra de tamaño n. Entonces, la proporción poblacional p no es otra
cosa que la media poblacional de dicha variable, estimándose con la
correspondiente proporción muestral o media muestral, .

Intervalos de confianzas Para muestras grandes

Si el intervalo de confianza es demasiado amplio, no podemos estar muy seguros


del valor real de un parámetro, como por ejemplo la media. Sin embargo, podemos
llevar a cabo varias estrategias para reducir el ancho de un intervalo de
confianza y hacer que la estimación sea más precisa. Debemos aumentar la
potencia del estudio.

Las siguientes características afectan el ancho del intervalo de confianza.

• Tamaño de la muestra.
• Variación en los datos.
• Tipo de intervalo.
• Nivel de confianza.
• Existen 2 formas de aumentar la potencia del estudio.

Cambio en el nivel de confianza

La ventaja de un nivel de confianza más bajo es que se obtiene un intervalo de


confianza más estrecho y más preciso. La desventaja es que se está menos

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

seguro de que el intervalo de confianza contiene el parámetro de población de


interés.

Si es demasiado costoso aumentar el tamaño de la muestra en un estudio,


disminuir el nivel de confianza reducirá la longitud del intervalo a expensas de
perder algo de confianza.

En resumen, la amplitud del intervalo de confianza es directamente proporcional


al grado de confianza e inversamente proporcional a la potencia del estudio, al
tamaño muestral y a la alfa crítica del estudio.

Por ejemplo, si tenemos una p=0.06 en un estudio que se ha trabajado con IC95%
(alfa crítica = 0.05) para hacerla significativa (p<0.05) debemos aumentar la
potencia del estudio ya sea aumentado el tamaño de la muestra (sería lo ideal) o
realizando un estudio con menor grado de confianza (IC90%; alfa crítica = 0.10)
(que no sería la adecuada forma de proceder puesto que aumentaríamos el error
tipo 1 del estudio).

Cambio en el en el tamaño muestral

En estadística el tamaño de la muestra se le conoce como aquel número


determinado de sujetos o cosas que componen la muestra extraída de
una población, necesarios para que los datos obtenidos sean representativos de
la población.

Propiedades de los buenos estimadores

En general, escogeremos el estimador que posea mejores propiedades que los


restantes, como insesgada, eficiencia, convergencia y robustez (consistencia).
SESGO: ... Es deseable que un estimador sea insesgado o centrado, es decir, que
su sesgo sea nulo por ser su esperanza igual al parámetro que se desea estimar.

Insesgado

Un estimador insesgado es aquel cuya esperanza matemática coincide con el


valor del parámetro que sea desea estimar. En caso de no coincidir se dice que
el estimador tiene sesgo.

La razón de buscar un estimador insesgado es que el parámetro que deseamos


estimar esté bien estimado. Es decir, si queremos estimar la media de goles por

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

partido de determinado jugador de fútbol, hemos de utilizar una fórmula que


nos proporcione un valor lo más aproximado posible al valor real.

Eficiente

En estadística se dice que un estimador es más eficiente o más preciso que otro
estimador, si la varianza del primero es menor que la del segundo.

Un estimador es más eficiente (más preciso), por tanto, cuanto menor es su


varianza.

La eficiencia de los estimadores está limitada por las características de la


distribución de probabilidad de la muestra de la que proceden. El teorema de
Cramér-Rao determina que la varianza de un estimador insesgado de un
parámetro es, como mínimo,

donde es la función de densidad de probabilidad de la muestra en función del


parámetro, (denominada función de verosimilitud). Si un estimador alcanza esta
cota mínima, entonces se dice que el estimador es de mínima varianza.

Consistente

Un estimador consistente es aquel cuyo error de medida o sesgo se aproxima a


cero cuando el tamaño de la muestra tiende a infinito.

De la definición de estimador insesgado, podemos extraer la conclusión de que,


en ocasiones, tenemos errores de estimación. Ahora bien, existen casos en los
que cuando la muestra se va haciendo más grande el error disminuye.

Algunas veces, por las características del estimador utilizado, conforme el


tamaño de la muestra aumenta el error aumenta también. Ese estimador no sería
deseable utilizarlo. Ahora bien, a priori, no sabemos hacia dónde tiende el sesgo.
Si tiende a cero, tiende a cierto valor o tiende a infinito cuando el tamaño de la
muestra se hace más grande.

Dicho esto, se hace necesario definir el concepto de consistencia. Para ellos,


hemos de decir que existen dos tipos de consistencia. Por un lado, existe la
consistencia simple. Mientras que, por otra parte, se encuentra la consistencia
en media cuadrática.

Por decirlo de alguna manera, son dos herramientas matemáticas que nos
permiten calcular hacia que número o números converge nuestro estimador.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Suficiente

Decimos que un estimador es suficiente cuando es suficiente como estadístico,


esto es, cuando tiene tanta información sobre el parámetro como la propia
muestra. Más en concreto,

Determinación de los tamaños muéstrales

Determinar el tamaño de la muestra que se va a seleccionar es un paso


importante en cualquier estudio de investigación de mercados, se debe justificar
convenientemente de acuerdo al planteamiento del problema, la población, los
objetivos y el propósito de la investigación.

El tamaño muestral dependerá de decisiones estadísticas y no estadísticas,


pueden incluir por ejemplo la disponibilidad de los recursos, el presupuesto o el
equipo que estará en campo.

Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

Tamaño de la población. Una población es una colección bien definida de objetos


o individuos que tienen características similares. Hablamos de dos tipos:
población objetivo, que suele tiene diversas características y también es
conocida como la población teórica. La población accesible es la población sobre
la que los investigadores aplicaran sus conclusiones.

Margen de error (intervalo de confianza). El margen de error es una estadística


que expresa la cantidad de error de muestreo aleatorio en los resultados de una
encuesta, es decir, es la medida estadística del número de veces de cada 100
que se espera que los resultados se encuentren dentro de un rango específico.

Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor
con una determinada probabilidad alta. Por ejemplo, un intervalo de confianza de
95% significa que los resultados de una acción probablemente cubrirán las
expectativas el 95% de las veces.

La desviación estándar. Es un índice numérico de la dispersión de un conjunto de


datos (o población). Mientras mayor es la desviación estándar, mayor es la
dispersión de la población.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Para estimar proporción

Sea X una variable binomial de parámetros n y p (una variable binomial es el


número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la
misma, por ejemplo: número de diabéticos en 2000 personas).
Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es aproximadamente normal
con media np y varianza npq (siendo q = 1 - p) y se puede usar el

estadístico (proporción muestral), que es también aproximadamente

normal, con error típico dado por


en consecuencia, un IC para p al 100(1 - a)% será

Tema III: Prueba de hipótesis

Concepto de prueba de hipótesis

Una prueba de hipótesis es una regla que especifica si se puede aceptar o


rechazar una afirmación acerca de una población dependiendo de la evidencia
proporcionada por una muestra de datos. Una prueba de hipótesis examina
dos hipótesis opuestas sobre una población: la hipótesis nula y
la hipótesis alternativa.

Valor critico de z y zona de rechazo

Los valores de Z de ± 1. 96 son valores críticos que determinan las zonas de


rechazo. ...  Este 5% es el nivel de significancia, o el valor alfa de la prueba. 
Esto nos permite establecer una regla de decisión que diga si se rechaza la
hipótesis nula o no.

Probabilidad de error

Probabilidad de Error, P (e) es una función de la relación de potencia de la


portadora, C, a Ruido, N. de energía por bit de ruido con relación al número de
posibles condiciones de codificación utilizadas M-ario.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Formulación de la regla de decisión

La regla de decisión en estos casos es: el valor de la prueba debe ser mayor o
igual al de la tabla para rechazar la hipótesis nula. ... y el nivel de significancia o
probabilidad, éste representa la posición del valor del estadístico en el área de
rechazo, o aceptación, de la hipótesis nula.

Prueba de hipótesis para una media poblacional


Pruebas de hipótesis para medias. En vez de estimar el valor de un parámetro,
a veces se debe decidir si una afirmación relativa a un parámetro es verdadera
o falsa. ... Se realiza una prueba de hipótesis cuando se desea probar una
afirmación realizada acerca de un parámetro o parámetros de una población.

Prueba de una cola y de dos colas

Una prueba de dos colas se asocia a una hipótesis alternativa para la cual se
desconoce el signo de la potencial diferencia. Por ejemplo, supongamos que
deseamos comparar las medias de dos muestras A y B. ... Las pruebas de dos
colas son con diferencia las más utilizadas.

El valor p

En estadística general y contrastes de hipótesis, el valor p (conocido también


como p, p-valor, valor de p consignado, o directamente en inglés p-value) se
define como la probabilidad de que un valor estadístico calculado sea posible
dada una hipótesis nula cierta.

Prueba para medias de población con muestras pequeñas

En vez de estimar el valor de un parámetro, a veces se debe decidir si una


afirmación relativa a un parámetro es verdadera o falsa. Es decir, probar una
hipótesis relativa a un parámetro. Se realiza una prueba de hipótesis cuando se
desea probar una afirmación realizada acerca de un parámetro o parámetros de
una población.

Prueba de hipótesis para una proporción

Una hipótesis es un enunciado acerca del valor de un parámetro (media,


proporción, etc.).

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Prueba de Hipótesis es un procedimiento basado en evidencia muestral


(estadístico) y en la teoría de probabilidad (distribución muestral del
estadístico) para determinar si una hipótesis es razonable y no debe rechazarse,
o si es irrazonable y debe ser rechazada.

La hipótesis de que el parámetro de la población es igual a un valor determinado


se conoce como hipótesis nula. Una hipótesis nula es siempre una de status quo
o de no diferencia.

Pruebas de hipótesis para proporciones. Las pruebas de proporciones son


adecuadas cuando los datos que se están analizando constan de cuentas o
frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es
evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de
población.

Prueba de una cola y de dos colas

Una prueba de dos colas se asocia a una hipótesis alternativa para la cual se
desconoce el signo de la potencial diferencia. Por ejemplo, supongamos que
deseamos comparar las medias de dos muestras A y B. Antes de diseñar el
experimento y ejecutar la prueba, esperamos que si se resalta una diferencia
entre las dos medias, realmente no saabemos si A debería ser superior a B o a
la inversa. Esto nos lleva a elegir una prueba de dos colas, asociada a la siguiente
hipótesis alternativa: Ha: media(A) ≠ media(B). Las pruebas de dos colas son con
diferencia las más utilizadas.

Pruebas unilaterales o de una cola

Una prueba de una cola normalmente está asociada a una hipótesis alternativa
para la cual se conoce el signo de la potencial diferencia antes de ejecutar el
experimento y la prueba. En el ejemplo descrito más arriba, la hipótesis
alternativa referida a una prueba de una cola podría redactarse así: media(A) <
media(B) o media(A) > media(B), dependiendo de la dirección esperada de la
diferencia.

En todos los cuadros de diálogo de las pruebas estadísticas de XLSTAT, el


usuario puede elegir entre pruebas de una y dos colas (normalmente en la pestaña
Opciones).

Matricula: 2016-3101923

También podría gustarte