Está en la página 1de 21

MODULO 1 (Técnicas Cuantitativas)

DISTRIBUCION EN EL MUESTREO
CONCEPTOS BASICOS
ESTADISTICA:
- La estadística es una rama de las matemáticas que se ocupa de la obtención,
orden y análisis de un conjunto de datos con el fin de obtener explicaciones y
predicciones sobre fenómenos observados.
- Ciencia (rama de la matemática) que estudia la recolección, análisis e
interpretación de datos ya sea para ayudar en la toma de decisiones o para
explicar condiciones regulares o irregulares de algún fenómeno o estudio
aplicado».

 Estadística descriptiva: Se refiere a los métodos de recolección, organización,


Resumen y presentación de un conjunto de datos.
Describir las características fundamentales de los datos y para ellos se suelen utilizar
indicadores, gráficos y tablas. Presentar de manera resumida y organizada los datos
numéricos obtenidos tras un estudio o análisis en particular.
Su objetivo es describir las características principales de los datos reunidos y evitar
generalizaciones. Ejemplos básicos de parámetros estadísticos son: la media y la
desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional,
clúster, entre otros.
 Estadística inferencial: Se refiere a los métodos utilizados para poder hacer
predicciones, generalizaciones y obtener conclusiones a partir de los datos
analizados teniendo en cuenta el grado de incertidumbre existente.
Generar modelos, inferencias y predicciones asociadas a los fenómenos en
cuestión teniendo en cuenta la aleatoriedad de las observaciones.
Modelar patrones en los datos y extraer inferencias acerca de la población bajo
estudio.
Las inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba
de hipótesis), estimaciones de características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación (correlación)
o modelamiento de relaciones entre variables (análisis de regresión).

Etapas de una investigación


 Formulación o definición del problema
 Diseño de la investigación (Población – Muestra – Individuo – Variable)
 Población (universo): Conjunto de todos los elementos sobre los cuales
se desea observar y analizar una o varias características. Compuesto
por individuo o unidades elementales
 Muestra: Subconjunto de la población de interés.
 Recolección de los datos
 Organización y descripción de los datos (Análisis univariado y multivariado –
Modelación)
 Decisión o inferencia fina
¿Por qué trabajar con una muestra…?
 Ahorra dinero
 Ahorra tiempo
 Casos de destrucción o contaminación del elemento muestreado
 Población infinita
Para que los resultados de la muestra se puedan generalizar a la población…
 Técnica de muestreo (probabilístico) (Modo en el cual se selecciona la
muestra)
 Tamaño de muestra adecuado

TÉCNICAS DE MUESTREO
• Probabilístico: Cada elemento de la población tiene una probabilidad conocida
de ser seleccionado. Puede calcularse el error muestral. (Aleatorio simple -
Sistemático - Estratificado - Por conglomerados - Por áreas)
• No probabilístico: La selección de un elemento de la población no tiene una
probabilidad conocida. No puede calcularse el error muestral. (Por
conveniencia - Por juicio - Por cuotas – Etc)
VARIABLE: Característica a analizar de los individuos de una población (que tenga
la particularidad de variar).
- Categorías: Posibles valores que puede tomar la variable. La categorización
debe cumplir con las condiciones de exhaustividad y exclusión.
- Tipos de variables: Cualitativa o cuantitativa.
- Escala de medición: Nominal, ordinal, de intervalos, de razones.
- Dato: Valor observado de una variable.
Herramientas de estadística descriptiva para el Análisis Univariado
 Organización y tabulación de datos (frecuencias absolutas, relativas y
porcentuales)
 Gráficos
 Resumen de la información mediante indicadores
de posición (y de tendencia central): Resumen la información en un
valor de variable
de dispersión: Miden la dispersión del conjunto de datos
Objetivo: Entender mejor los datos
MEDIDAS NUMÉRICAS (INDICADORES)
 Medidas de tendencia central y de posición: Se usan para resumir los
datos en un único valor de variable.
Media, mediana, moda, cuartiles, deciles, percentiles, etc.
 Medidas de dispersión: Miden la dispersión de los datos con respecto a
un valor central.
 Recorrido, recorrido intercuartílico, varianza, desviación estándar,
coeficiente de variación.

Indicadores de posición
Media aritmética (promedio)
- Medida más común en la que todos los valores desempeñan el mismo papel.
- Sirve como “punto de equilibrio”.
- Se calcula sumando todos los valores del conjunto de datos y dividiendo por la
cantidad total de datos.

x i
 i 1
N
Poblacional

Mediana: Valor que divide en dos partes de igual cantidad de datos a un conjunto de
datos ya ordenado. El 50% de los datos tiene un valor menor (o igual) que la mediana y
el 50% de los datos tienen un valor mayor (o igual) que la mediana.
n 1
me  dato(posicion( ))
2 Cuartiles, deciles, percentiles, …
Moda:Valor de variable que más se repite.
Indicadores de dispersión
Recorrido o rango: Medida numérica más sencilla para el cálculo de la distribución
total de un conjunto de datos. Se calcula como la diferencia entre el valor máximo y el
valor mínimo
rango  x max  x min

Recorrido intercuartílico (o dispersión media): Mide la dispersión en la parte central


de los datos.
rango int ercuartil(RIQ)  Q3  Q1

Varianza:
N n

 (xi  )2  (x i  x)2


2  i1 S2  i1

N (n  1)

Poblacional Muestral
Desviación estándar (o desvío estándar):

  2 S  S2

Poblacional Muestral

Coeficiente de variación: Medida relativa de la variación que se expresa como porcentaje y


que no depende de las unidades de medida (elimina “la escala” y las unidades de medida).
Se usa para:
o determinar la representatividad de la media (si es menor del 50% se toma que la
media es representativa del conjunto de datos, no hay datos extremos).
o Comparar la dispersión de conjuntos de datos con distinta media y distintas
unidades.


CV  x 100%

Funciones de la estadística
 Descripción: recolección, organización, presentación, resumen y
análisis de datos (Estadística descriptiva)
 Inducción: formulación de generalizaciones sobre una población a
partir de una muestra (estimación, prueba de hipótesis, generación de
modelos, predicciones, etc…) (Estadística inductiva)
La inferencia estadística se define como la colección de técnicas que permiten
formular inferencias inductivas y que proporcionan una medida del riesgo de éstas.
Si se obtiene una muestra técnicamente buena, puede contener información útil con
respecto al estado de la naturaleza y a partir de ello se podrán formular inferencias. (Se
está sujeto a riesgo dado que representa un razonamiento que va de lo particular a lo
general)
Muestra
x1,x2,……xn

Inferencia

Población
(Distribución de
probabilidad)
Para poder generalizar los valores muéstrales a la población, es necesario tener en
cuenta:
• Tamaño de la muestra (n)
• Método de selección de la muestra
MUESTRA ALEATORIA: Base teórica para la inferencia estadística.
Cada objeto de la población tiene una posibilidad igual e independiente de ser
incluido en la muestra.
Cada muestra de tamaño n tenga la misma probabilidad de ser seleccionada.

Variable aleatoria.
Cualquier función de las variables aleatorias que observaron en la muestra de
2
manera que esta función no contiene cantidades desconocidas (, s , s,
proporción estimada).

Muestra Estadístico
x1,x2,……xn

Inferencia

Población
Parámetro
(Distribución de probabilidad)

Caracterización numérica de la distribución de la población de manera que


describe, parcial o completamente, la función de densidad de la característica de
2
interés (,  , , p).

Se emplean los estadísticos (muestra) para estimar los parámetros


(población). ESTIMACIÓN

Distribución en el muestreo
Los datos de la muestra se usan para corroborar o rechazar alguna hipótesis
planteada. COMPROBACIÓN DE HIPÓTESIS
DISTRIBUCION EN EL MUESTREO
Parámetro: Caracterización numérica de la distribución de la población de manera que
describe, parcial o completamente, la función de densidad de la característica de interés
(, 2, , p).Valor fijo desconocido.
Estadístico: Variable aleatoria. Cualquier función de las variables aleatorias que
observaron en la muestra de manera que esta función no contiene cantidades
desconocidas (, s2, s, proporción estimada).
Los parámetros o sus funciones se estiman con base en estadísticos que, a su vez, se
obtienen a partir de la información contenida en una muestra aleatoria.
MUESTRA ALEATORIA

(Canavos, 1988)

(Base teórica necesaria para la inferencia)


Todo muestreo probabilístico (sistemático, estratificado, conglomerados) se basa en el
concepto de muestra aleatoria.
Situaciones

Muestreo de una población infinita

Muestreo con reemplazo de una población


finita

Muestreo sin reemplazo de una población finita

Situaciones de extracción de una muestra


 Si el tamaño de la población es pequeño, puede preferirse el muestreo
aleatorio sin reemplazo.
 Si la población es muy grande, es irrelevante si el muestreo se hace con o sin
reemplazo.
Muestreo aleatorio con reemplazo: Cada una de las observaciones X1, X2, …,
Xn es una variable aleatoria cuya distribución de probabilidad es igual a la de la
población. X1, X2, …, Xn conjunto de variables aleatorias independientes e
idénticamente distribuidas (IID).
Muestreo aleatorio sin reemplazo: Cada una de las observaciones X1, X2, …,
Xn es una variable aleatoria cuya distribución de probabilidad es igual a la de la
población pero no son independientes.
Los estadísticos son variables aleatorias
Ninguna muestra es más válida que cualquier otra que se haya tomado con el
mismo fin.

Distribución de muestreo de la media muestral


Muestreo con reemplazo

En el muestreo sin reemplazo, se agrega un factor de corrección a la varianza

Comportamiento típico de la desviación estándar de la media muestral como función del tamaño de muestra
Mayor tamaño de muestra, menor variabilidad de la media muestral
Teorema central del límite

Si la distribución de la variable poblacional es normal y la desviación estándar


poblacional es conocida entonces… la distribución de las medias muéstrales es
normal
Si la distribución de la variable poblacional es normal y la desviación estándar
poblacional es desconocida entonces…la distribución de las medias muéstrales es t-
student

Si no se conoce la distribución de la variable y n  30 (o 15 ≤ n < 30 y la distribución


puede suponerse normal) y la desviación estándar poblacional es conocida
entonces…la distribución de las medias muestrales es normal
Si la desviación estándar poblacional es desconocida entonces…la distribución de las
medias muestrales es t-student. Si n < 15

Distribución de muestreo de la varianza

La distribución de muestreo de un estadístico es la distribución de probabilidad del


estadístico que puede obtenerse como resultado de un número infinito de muestras
aleatorias independientes, cada una de tamaño n, provenientes de la población de
interés.
Hace posible realizar un análisis de probabilidad para valorar el riesgo inherente cuando
se formulan inferencias.
Distribución del muestreo de la media con varianza conocida (distribución normal)
Distribución del muestreo de la media con varianza desconocida (distribución t-
student)
Distribución del muestreo de la varianza (distribución chi-cuadrado)
Distribución del muestreo de la proporción (distribución normal)
Distribución del muestreo de la diferencia entre dos medias muestrales
Distribución muestral de una proporción
Variable categórica con dos clasificaciones:
«cliente prefiere la marca», «cliente prefiere la marca de la competencia»

Interesa la proporción de elementos de una de las categorías


Relación de elementos en toda la
P o = proporción de la población
(parámetro)
población, que cuentan con la
característica de interés.

Relación de elementos en la muestra,


o P = proporción de(estadístico)
la muestra que cuentan con la característica de
interés.

P = proporción de la muestra P asume valores entre 0 y 1


(estadístico)

X número de elementos con la característica de interés


P= n = tamaño de la muestra

σ =
Error estándar para la proporción

p
Si se seleccionan todas las muestras posibles de cierto tamaño, la distribución de todas
las proporciones muestrales posibles se denomina distribución muestral de la
proporción.
Ante muestras con reemplazo de una población finita, la distribución muestral de la
proporción sigue la distribución binomial.
Puede usarse la distribución normal para aproximar la distribución binomial cuando:

n Y n (1- ) Son cada uno >=5

Diferencia entre la proporción muestral y la proporción poblacional en unidades


normales estandarizadas.
ESTIMACION
CONCEPTOS GENERALES
Los estadísticos (θ^ ) se emplean para estimar los valores de parámetros desconocidos ()
o funciones de éstos.
θ^ es el estimador de  y el valor específico de θ^ como un resultado de los datos
muestrales es la estimación de .
La estimación de un parámetro involucra el uso de los datos muestrales en conjunción
con algún estadístico.
 Estimación puntual
 Estimación por intervalos

ESTIMACION PUNTUAL
El problema es encontrar una función que proporcione la “mejor” estimación del
parámetro 
El estimador de un parámetro debe tener una distribución de muestreo concentrada
alrededor del parámetro y la varianza debe ser la menor posible

Propiedades de los estimadores


 Insesgado: Es deseable que un estimador tenga una media igual a
la del parámetro que se está estimando.
 Consistente: Es razonable esperar que un buen estimador de un
parámetro sea cada vez mejor conforme crece el tamaño de la
muestra
 Insesgado de mínima varianza: Debe buscarse aquél estimador
insesgado con mínima varianza
 Eficiente: El mejor estimador insesgado, en el contexto de la
inferencia clásica.

Una estadística suficiente para un parámetro es aquélla que utiliza toda la información
contenida en la muestra aleatoria con respecto al parámetro.

El Error Cuadrático Medio refiere a la esperanza del cuadrado de la diferencia entre el


estadístico y el parámetro.
Considera la varianza del estimador y el cuadrado del sesgo del estimador
Estimadores insesgados:

Es deseable que un estimador tenga una media igual a la del parámetro que se está
estimando.

=0
Estimadores consistentes:

Es razonable esperar que un buen estimador de un parámetro sea cada vez mejor
conforme crece el tamaño de la muestra.

Ley de los grandes números


Fundamento teórico para estimar la media de la distribución de la población con base en
el promedio de un número finito de observaciones de manera tal que la confiabilidad de
este promedio es mejor que la de cualquiera de las observaciones.
Permite determinar el tamaño necesario de la muestra para asegurar con determinada
probabilidad que la media muestral no se alejará más allá de una cantidad específica de
la media de la población.

Estimadores insesgados de varianza mínima (eficientes):

Dentro de los estimadores insesgados, debe buscarse aquél con mínima varianza
Estadísticas suficientes:

Una estadística suficiente para un parámetro es aquélla que utiliza toda la información
contenida en la muestra aleatoria con respecto al parámetro.
Algunos métodos de estimación puntual
Máxima verosimilitud: En general, proporciona estimadores que son funciones de
estadísticas suficientes, estimadores eficientes y sesgados.
Momentos
Mínimos cuadrados

Estimador de la media poblacional


 Sea X una v.a. con E(X)=µ (media poblacional) desconocida

   xi pi
i 1
 Un estimador de µ es la “media muestral” (n tamaño muestral, muestra aleatoria
IID)

n
1
ˆ  X   X i ¿Parámetro?

i 1 n ¿Estadístico?
¿Estimador?
¿Estimación?
Valor / resultado

Estimador de la varianza poblacional


 Sea X una v.a. con var(X)=σ2 (varianza poblacional) desconocida

    X i    2 pi
2

i 1
 Un estimador de σ2 es la “varianza muestral”
¿Parámetro?

  X  X
N 2
¿Estadístico?
i ¿Estimador?
2
S i1
Valor / resultado ¿Estimación?
n 1 ¿Por qué el denominador de S2 es (n-1)?

Porque la distribución del muestreo de S2 sigue una distribución Chi-cuadrada con (n-1)
grado de libertad.

Estimador de la proporción poblacional


Si se tiene una población con Distribución Binomial (1: éxito, 0: fracaso) la
probabilidad de éxito puede ser estimada como:
# exitos
pˆ 
n n: tamaño muestral

Limitaciones de la estimación puntual: El valor obtenido sólo da una idea


aproximada del verdadero valor del parámetro a estimar.
No se conoce el grado de bondad de la aproximación, esto es, en qué medida el valor
obtenido se aproxima al verdadero valor del parámetro estimado.

ESTIMACION POR INTERVALOS

Para la estimación del intervalo se consideran, tanto el estimador puntual del


parámetro como su distribución de muestreo, con el objetivo de determinar un
intervalo que con cierta seguridad/confianza (1-) contiene al parámetro ().
El intervalo de confianza se construye teniendo en cuenta:
• Estimador
• Desviación estándar del estimador
• Distribución en el muestreo del estimador
• Nivel de confianza

Notación:
P (xinf <  < xsup) = (1-)
IC (xinf ; xsup) con una confianza (1-)

(1-) x 100% /2

Nivel de Proporción de la cola de la Proporción de la cola superior de


confianza distribución por fuera del la distribución por fuera del
intervalo de confianza intervalo de confianza.
El parámetro µ es fijo
Los estadísticos xinf y xsup son variables aleatorias.

Intervalo de confianza para la media  de una distribución normal (o con tamaño de


muestra mayor o igual que 30) con varianza conocida

Z= Valor crítico: valor correspondiente a área acumulativa de (1-/2) de la


distribución normal estandarizada (probabilidad de la cola superior de /2)

(1-) = 0,95

 = 0,05

/2= 0,025

Z= 1,96 Z -1,96  +1,96

Intervalo de confianza para la media  de una distribución normal de varianza conocida


Por ejemplo, para un nivel de confianza del
95%

Si se repitiera muchas veces el experimento


con muestras extraídas al azar, se verificaría
que: el 95% de las ocasiones, se obtendrían xinf
y xsup de los intervalos de confianza
correspondientes que contendrían al verdadero
valor del parámetro , mientras que el 5%
restante, no lo contendrían.
Intervalo de confianza para la media  de una distribución normal (o con tamaño de
muestra mayor o igual a 30) de varianza desconocida

Intervalo de confianza para la varianza y el desvío estándar de una distribución


normal

Intervalo de confianza para la proporción p cuando se muestrea de una distribución


binomial

# exitos
pˆ 
n

Con remplazo

Sin remplazo

IC para la diferencia de medias cuando se muestrean dos distribuciones normales


independientes:
 con varianzas conocidas (distribución normal)
 con varianzas desconocidas e iguales (distribución t-student)
IC para  cuando se muestrea de una distribución normal con media desconocida
2

(distribución chi-cuadrado)
IC para el cociente de dos varianzas cuando se muestrean dos distribuciones normales
independientes (distribución F)

Cálculo del tamaño muestral Cantidad de imprecisión de la


Depende de qué parámetro se quiere estimar. estimación que resulta del error de
Tiene en cuenta: muestreo
- el error máximo que se está dispuesto a “tolerar”,
- el nivel de confianza y =e
- la variabilidad.

Estimación de la media (con varianza conocida y distribución normal)


Z correspondiente al nivel de confianza
σ2 : varianza poblacional

n= Z2
x σ 2 e : error máximo

e2
Estimación de la proporción

n= Z xpxq
2 Z correspondiente al nivel de confianza
p x q: varianza poblacional o p(1-p)
e : error máximo
e2
Forma general de los Intervalos de Confianza

Estadístico  (Valor Crítico x Desviación estándar del estadístico)

PRUEBA DE HIPOTESIS
Otra área de la inferencia prueba o contraste de una hipótesis estadística
Hipótesis estadística:
Afirmación con respecto a alguna característica desconocida de una población de
interés.
Probar una hipótesis estadística:
Decidir si la afirmación se encuentra apoyada por la evidencia experimental que se
obtiene a través de una muestra aleatoria.

Ejemplo: Una máquina encargada del llenado de cajas de cereal funciona correctamente
si carga 368 gr. con una desviación estándar de 15 gr. Se supone normalidad en la
distribución de los datos. El gerente de producción ha decidido que la máquina no
funciona correctamente si no se llena con la cantidad apropiada (es decir, 368 gr. en más
o en menos).
La evidencia estará en una muestra aleatoria de tamaño n obtenida de la distribución
de interés para la cantidad de gramos que se carga en cada caja.
No es de interés la estimación de la cantidad de gramos promedio sino determinar si
el promedio es 368 grs.
(Antes de obtener la muestra, se conjeturó que el muestreo se llevará a cabo sobre una
distribución cuya media es 368 grs.)

Entonces….
Se busca validar una afirmación:

Prueba de hipótesis
µ = 368 grs.

Utilizando:
 Considera la evidencia 
Para ver si respalda

H0 o H1

µ = 368 grs.
µ ≠ 368 grs.

«Hacer inferencia sobre un parámetro poblacional mediante análisis diferencial entre


los resultados observados (estadístico de la muestra) y los resultados esperados si la
hipótesis subyacente es realmente cierta»

Siempre es una hipótesis de status quo (creencia actual en una situación dada)

H0: µ = 368
grs.
Se escribe en términos de Población Con signo =
Hipótesis de afirmación de investigación o inferencia

Se acompaña con una hipótesis


alternativa
que debe ser cierta H1: µ ≠ 368 grs.
si la hipótesis nula es falsa

Se escribe en términos de Población Con signo ≠

Hipótesis nula (H0) y alternativa (H1)


El procedimiento de prueba se construye de manera tal que la hipótesis nula sea o no
rechazada (complementariedad de las hipótesis)

H0 : µ = #
H1: µ  #
Casos:

H0 : µ = # H0 : µ  #
H 1: µ  #
H1: µ > #
Test a dos colas
H0 : µ  #
H1: µ < #
Test a una cola

La distribución muestral del estadístico de muestra se divide en 2 regiones

Región crítica o de rechazo Región de aceptación


H0 : µ = #
H1: µ #
Test a dos
colas

H0 : µ #
H1: µ > #
H0 : µ #
H1: µ < #
Test a una cola

µ µ
µ µ

Si el estadístico de prueba queda en la región de aceptación


H0 : µ =
#
No se rechaza: no existe evidencia suficiente de que µ  #

Si el estadístico de prueba queda en la región de rechazo

H0 : µ =
Se rechaza:#concluye que µ  #,
porque ese valor (#) tiene pocas posibilidades de presentarse si la H0 es cierta.

¿Pero qué necesito conocer para tomar la decisión?

El valor crítico del estadístico de


prueba

Separa las Depende del tamaño


regiones de la región de rechazo

Llegar a una
conclusión Utilizo estadístico de muestra
Qué puede Por
equivocada para decidir sobre parámetro
pasar? qué?
poblacional

También podría gustarte