Está en la página 1de 32

Distribución de probabilidad

• Una distribución de probabilidad describe


el rango de valores que puede tomar
una variable aleatoria y la
probabilidad asignada a cada valor o
rango de valores.
Distribuciones de probabilidad
Paramétricas
• La distribución de probabilidad se ajusta a la
descripción matemática de un proceso
aleatorio que cumple con determinados
supuestos teóricos.
• Los parámetros que definen la distribución en
general no guardan relación intuitiva con la
forma de la distribución.
• Ejemplos: Normal, Lognormal, Exponencial,
Beta.
Distribuciones de probabilidad
No Paramétricas
• Los parámetros que se usan para definir
estas distribuciones describen la forma de
la distribución.
• No se apoyan en una teoría que describa el
proceso de generación de valores aleatorios.
• Ejemplos: Triangular, Histograma, General,
Uniforme, Acumulada
Normal
La distribución de probabilidad
Normal, tiene forma de
campana

Para una variable aleatoria X, que


se distribuye normalmente con
media : μ y desviación típica :
σ, la probabilidad de que la
variable X esté comprendida
entre los valores a y b es el
área teñida de rojo en la
siguiente figura
Esta probabilidad
analíticamente se puede
calcular así: 2
1  x 
1   
e
b
p ( a  X  b)   2  
a
 2
Como el cálculo de esta
integral es laborioso, para
calcular el área se realiza
el siguiente cambio de
variable:
Este cambio origina una distribución normal
estándar de media μ = 0 y desviación
típica σ = 1 cuya función de densidad es :
Estimación
subjetiva de los
parámetros de
una Normal
• Media: Valor más probable
• Desvío: el intervalo +/- 2*sigma contiene
el 95% de los valores, por lo tanto:
Sigma: (máximo - más probable) / 2
Lognormal

• Aplicaciones: modelar variables que son el producto


de una cantidad de otras variables aleatorias que
ocurren naturalmente.
Generalmente brinda una buena representación de
variables que se extienden de 0 a +inf y que tienen
un sesgo positivo.
• Parámetros: Lognormal (mu,sigma)
Se usan como parámetros la media aritmética y el
desvío standard de los datos disponibles.
Condiciones
subyacentes de una
distribución Lognormal
• La variable aleatoria puede tomar valores que
aumentan sin límites pero no puede tomar
valores negativos.

• La variable aleatoria tiene un sesgo positivo


(modo < media) con la mayor parte de los
valores cerca del límite inferior.

• El logaritmo natural de la variable se ajusta a


una distribución Normal.
ESTADÍSTICA INFERENCIAL

La Estadística Inferencial proporciona las


técnicas para formular proposiciones acerca
de la población, incluyendo una medida para
determinar el riesgo de la afirmación.
INFERENCIA ESTADÍSTICA
Una inferencia estadística es una afirmación que se hace
acerca de la población en base a la información contenida
en una muestra aleatoria tomada de esta población.
Debido a la naturaleza aleatoria de los datos obtenidos en la
muestra, hay un riesgo en la certeza de la afirmación
propuesta, y es necesario cuantificar el valor de este riesgo.
Un estimador es una variable aleatoria cuyas
propiedades permiten estimar el valor del parámetro
poblacional de interés. La muestra aleatoria
proporciona únicamente un valor de esta variable y
se denomina estimación puntual.
Para estimar al parámetro poblacional, es posible definir más de un
estimador, por ejemplo para a la media poblacional μ pueden elegirse
la mediana muestral X o la media muestral X. Cada uno tiene sus
propias características, por lo tanto, es necesario establecer
criterios para elegirlo.
•Sean θ : Parámetro poblacional de interés (Ej. μ) (Valor
desconocido)
•Θ : Estimador (Ej.X) (Variable aleatoria)
•θ: Estimación puntual de Θ (Ej.x) (Un valor del estimador)
La intuición sugiere que el estimador debe tener una distribución muestral
concentrada alrededor del parámetro y que la varianza del estimador debe ser
la menor posible. De esta manera, el valor que se obtiene en la muestra será
cercano al valor del parámetro y será útil para estimarlo.
MÉTODOS DE INFERENCIA ESTADÍSTICA
1. ESTIMACIÓN PUNTUAL
Se trata de determinar la distancia, o error máximo entre la estimación puntual
θ y el valor del parámetro θ que se desea estimar, con algún nivel de certeza
especificado.
•|θ – θ |
2. ESTIMACIÓN POR INTERVALO
Con el valor θ del estimador Θ se construye un intervalo que contenga al valor
del parámetro θ que se desea estimar, con algún nivel de certeza especificado.
Li ≤ θ ≤ Ls
En donde Li y Ls son los límites inferior y superior del intervalo
3. PRUEBA DE HIPÓTESIS
Se formula una hipótesis acerca del parámetro θ asignándole un valor supuesto
θ0 y con el valor θ del estimador Θ se realiza una prueba para aceptar
o rechazar la hipótesis propuesta con algún nivel de certeza
especificado.
•Hipótesis propuesta: θ = θ0
Contexto de la investigación
“Toma de decisiones bajo
Teorías y/o incertidumbre sobre lo adecuadas
investigaciones previas que son las explicaciones teóricas y la
hipótesis que se deducen de ellas”

Hipótesis de
Hipótesis alternativa (H1)
investigación

Diferencia-igualdad entre 2 ó más


grupos
Hipótesis estadística

Asociación entre 2 ó más


variables
Contexto de las pruebas de contraste
de hipótesis
Escepticismo (azar,
casualidad)

Pruebas de contraste Hipótesis nula (H0) versus


de hipótesis alternativa (H1)

Reglas de inferencia negativa Se da por supuesto que la hipótesis


nula es verdadera

Comprobar la validez de la Comparar H0 con H1


hipótesis estadística

Estadístico de contraste Significación estadística (p)


Significación estadística (p)
• ¿El azar explica los resultados?
• Probabilidad de equivocarse al rechazar la
hipótesis nula.
• Credibilidad de la H0.
• Probabilidad de error (error tipo I) al rechazar H 0.
• Probabilidad de obtener un estadístico de
contraste tan grande como el obtenido si H 0 fuera
cierta.
• La probabilidad de que las diferencias (o
asociación entre las variables) pueda explicarse
simplemente por el azar o la casualidad.
TABLAS DE CONTINGENCIA
• Analizar la relación entre dos variables con un nivel de
medida nominal u ordinal (cualitativas).
• Comprobar si existen diferencias entre dos o más
grupos (variable columna, cualitativa) en una variable
(fila) cualitativa.
• Analizar la fuerza de la relación entre dos variables
cualitativas.
• Se toma como base una tabla de contingencia.
• Se calcula el estadístico de contraste Chi o Ji cuadrado.
Cálculo del estadístico de contraste χ2
No existe relación entre 2 variables
Hipótesis nula
No existen diferencias entre los grupos en la
variable criterio

Existe asociación entre 2 variables


Hipótesis alternativa Existen diferencias entre los grupos en la
variable criterio

Fórmulas:

El nivel de significación asociado al estadístico ²


Interpretación representa la probabilidad de obtener un determinado valor
Chi cuadrado: de ² en el caso de que las dos variables sean
independientes (hipótesis nula). Cuando el valor obtenido
sea menor que 0.05 (p<0.05) se podrá rechazar la hipótesis
nula y afirmar que existe una asociación significativa entre
las variables consideradas.
PRUEBA DE HIPÓTESIS
Esta técnica estadística es muy utilizada como soporte a la
investigación sistemática y científica. Consiste en suponer
algún valor para el parámetro de interés y usar los datos de
la muestra para aceptar o rechazar esta afirmación.
Es importante entender las diferentes situaciones que
pueden ocurrir al probar una hipótesis estadísticamente.
Sea Ho: hipótesis que se propone para el parámetro
de interés
Suponer que se dispone de datos con los que se realiza una
prueba estadística de esta hipótesis. Entonces pueden
ocurrir las siguientes situaciones para tomar una decisión:
• Si con el resultado de la prueba estadística rechazamos
la hipótesis propuesta sin conocer que era verdadera,
entonces cometemos el Error tipo I
• Si con el resultado de la prueba estadística aceptamos la
hipótesis propuesta sin conocer que era falsa, entonces
cometemos el Error tipo II
• Ambos errores pueden tener consecuencias importantes
al tomar una decisión en una situación real. Por lo tanto
es necesario cuantificar la probabilidad de cometer cada
tipo de error.
Definiciones:
Medida del error tipo I:
α = P(Rechazar Ho dado que Ho es verdadera)
Medida del error tipo II:
β = P(Aceptar Ho dado que otra hipótesis es verdadera)
El valor α se denomina nivel de significancia de la prueba y puede darse
como un dato para realizar la prueba.
Algunos valores típicos para α son 10%, 5%, 2%, 1%
Terminología
Ho: Hipótesis nula. Es la hipótesis que se plantea o propone para el
parámetro en estudio.
Ha: Hipótesis alterna. Es la hipótesis que se plantea en oposición a Ho
y que es aceptada en caso de que Ho sea rechazada
Generalmente es de interés probar Ha, por lo que se plantea Ho con la
esperanza de que sea rechazada utilizando la información de la
muestra.
TIPOS DE PRUEBAS
Sea θ: parámetro de interés para la prueba
θ0: algún valor supuesto para el parámetro
Pruebas de una cola
1) Ho: θ = θ0: (hipótesis nula)
Ha: θ < θ0: (hipótesis alterna)
2) Ho: θ = θ0: (hipótesis nula)
Ha: θ > θ0: (hipótesis alterna)
Prueba de dos colas
3) Ho: θ = θ0: (hipótesis nula)
Ha: θ < θ0 ∨ θ > θ0: (hipótesis alterna)
PROCEDIMIENTO BÁSICO PARA REALIZAR
UNA PRUEBA DE HIPÓTESIS

PRUEBA DE HIPÓTESIS RELACIONADA CON LA


MEDIA
Caso n ≥ 30 (Muestras grandes)
Parámetro: μ (media poblacional)
Población con distribución desconocida, varianza σ2
Estimador: X (media muestral)
Valor propuesto para el parámetro: μ0
PASOS
Paso 1. Formular la hipótesis nula: Ho: μ = μ0
Paso 2. Formular una hipótesis alterna que es de interés
probar. Elegir una entre:
Ha: μ > μ0
Ha: μ < μ0
Ha: μ < μ0 ∨ μ > μ0
Paso 3. Especificar el nivel de significancia de la prueba α
Paso 4. Seleccionar el estadístico de prueba y definir la región
de rechazo de Ho
Por el Teorema del Límite Central, el estadístico
Z=ẋ-μ0/σ/√n, tiene distribución normal estándar
aproximadamente
La región de rechazo depende de la hipótesis alterna elegida Ha y
está determinada por el valor de α especificado. Se analizan los
tres casos
Primer caso:

Con el valor especificado α se obtiene el valor de Zα el cual delimita


la región de rechazo.
La media muestral X es un estimador insesgado del parámetro μ,
por lo tanto su valor esperado coincide con el valor propuesto
μ0 para el parámetro.
Según lo anterior, el valor obtenido para la media muestral X debería
estar cerca de μ0, y por lo tanto, el valor de Z=ẋ- μ0/σ/√n, estará
cercano a 0, a la izquierda de Zα.
•Pero si el valor obtenido en la media muestral X es
“significativamente” mas grande que μ0, entonces Z caerá en la
región de rechazo definida: Z > Zα.
•Esto debe entenderse como una evidencia de que la media μ 0
propuesta para el parámetro μ no es verdad y que debería ser
algún valor más grande, es decir: μ > μ0
•Con esta interpretación rechazamos Ho en favor de Ha con un
nivel de significancia α
•Sin embargo, siendo X una variable aleatoria, es posible que caiga
en la región de rechazo aún siendo verdad que μ0 es el
verdadero valor de la media muestral μ.
•Esto constituye el error tipo I, y la probabilidad que esto ocurra
es también α
Esta interpretación debe
ayudar a entender los
otros dos casos:
Segundo caso
Ho: μ = μ0
Ha: μ < μ0
Tercer caso
Ho: μ = μ0
Ha: μ < μ0 ∨ μ > μ0
Paso 5. Calcular el valor del estadístico de prueba
con los datos de la muestra
Paso 6. Tomar una decisión
Si el valor del estadístico de prueba cae en la región de
rechazo, la decisión es rechazar Ho en favor de Ha. Pero,
si el valor no cae en esta región crítica, se dice que
no hay evidencia suficiente para rechazar Ho. En este
caso es preferible abstenerse de aceptar como
verdadera Ho pues esto puede introducir el Error tipo
II
Ejemplo
Una muestra aleatoria de 100 paquetes mostró un peso promedio de 71.8 gr. con una
desviación estándar de 8.9 gr.
Pruebe, con un nivel de significancia de 5%, que el peso promedio de todos los paquetes
(población) es mayor a 70 gr.
Seguimos los pasos indicados en el procedimiento básico indicado:
1. Hipótesis nula
Ho: μ = 70
2. Hipótesis alterna
Ha: μ > 70
3. Nivel de significancia
α = 0.05
4. Estadístico de prueba
Z=ẋ-μ0/σ/√n, por el Teorema del Límite Central. Además σ2 ≅ s2
Región de rechazo
zα = z0.05 = 1.645 ⇒ Rechazar Ho en favor de Ha, si z > 1.645
5. Valor del estadístico
Z=ẋ-μ0/σ/√n, =71.8708.9/100−= 2.02 ⇒ 2.02 cae en la región de rechazo
6. Decisión
Se rechaza que la media poblacional es 70 y se concluye, con una significancia de 5%
que el peso promedio de la población es mayor a 70 gr,

También podría gustarte