el rango de valores que puede tomar una variable aleatoria y la probabilidad asignada a cada valor o rango de valores. Distribuciones de probabilidad Paramétricas • La distribución de probabilidad se ajusta a la descripción matemática de un proceso aleatorio que cumple con determinados supuestos teóricos. • Los parámetros que definen la distribución en general no guardan relación intuitiva con la forma de la distribución. • Ejemplos: Normal, Lognormal, Exponencial, Beta. Distribuciones de probabilidad No Paramétricas • Los parámetros que se usan para definir estas distribuciones describen la forma de la distribución. • No se apoyan en una teoría que describa el proceso de generación de valores aleatorios. • Ejemplos: Triangular, Histograma, General, Uniforme, Acumulada Normal La distribución de probabilidad Normal, tiene forma de campana
Para una variable aleatoria X, que
se distribuye normalmente con media : μ y desviación típica : σ, la probabilidad de que la variable X esté comprendida entre los valores a y b es el área teñida de rojo en la siguiente figura Esta probabilidad analíticamente se puede calcular así: 2 1 x 1 e b p ( a X b) 2 a 2 Como el cálculo de esta integral es laborioso, para calcular el área se realiza el siguiente cambio de variable: Este cambio origina una distribución normal estándar de media μ = 0 y desviación típica σ = 1 cuya función de densidad es : Estimación subjetiva de los parámetros de una Normal • Media: Valor más probable • Desvío: el intervalo +/- 2*sigma contiene el 95% de los valores, por lo tanto: Sigma: (máximo - más probable) / 2 Lognormal
• Aplicaciones: modelar variables que son el producto
de una cantidad de otras variables aleatorias que ocurren naturalmente. Generalmente brinda una buena representación de variables que se extienden de 0 a +inf y que tienen un sesgo positivo. • Parámetros: Lognormal (mu,sigma) Se usan como parámetros la media aritmética y el desvío standard de los datos disponibles. Condiciones subyacentes de una distribución Lognormal • La variable aleatoria puede tomar valores que aumentan sin límites pero no puede tomar valores negativos.
• La variable aleatoria tiene un sesgo positivo
(modo < media) con la mayor parte de los valores cerca del límite inferior.
• El logaritmo natural de la variable se ajusta a
una distribución Normal. ESTADÍSTICA INFERENCIAL
La Estadística Inferencial proporciona las
técnicas para formular proposiciones acerca de la población, incluyendo una medida para determinar el riesgo de la afirmación. INFERENCIA ESTADÍSTICA Una inferencia estadística es una afirmación que se hace acerca de la población en base a la información contenida en una muestra aleatoria tomada de esta población. Debido a la naturaleza aleatoria de los datos obtenidos en la muestra, hay un riesgo en la certeza de la afirmación propuesta, y es necesario cuantificar el valor de este riesgo. Un estimador es una variable aleatoria cuyas propiedades permiten estimar el valor del parámetro poblacional de interés. La muestra aleatoria proporciona únicamente un valor de esta variable y se denomina estimación puntual. Para estimar al parámetro poblacional, es posible definir más de un estimador, por ejemplo para a la media poblacional μ pueden elegirse la mediana muestral X o la media muestral X. Cada uno tiene sus propias características, por lo tanto, es necesario establecer criterios para elegirlo. •Sean θ : Parámetro poblacional de interés (Ej. μ) (Valor desconocido) •Θ : Estimador (Ej.X) (Variable aleatoria) •θ: Estimación puntual de Θ (Ej.x) (Un valor del estimador) La intuición sugiere que el estimador debe tener una distribución muestral concentrada alrededor del parámetro y que la varianza del estimador debe ser la menor posible. De esta manera, el valor que se obtiene en la muestra será cercano al valor del parámetro y será útil para estimarlo. MÉTODOS DE INFERENCIA ESTADÍSTICA 1. ESTIMACIÓN PUNTUAL Se trata de determinar la distancia, o error máximo entre la estimación puntual θ y el valor del parámetro θ que se desea estimar, con algún nivel de certeza especificado. •|θ – θ | 2. ESTIMACIÓN POR INTERVALO Con el valor θ del estimador Θ se construye un intervalo que contenga al valor del parámetro θ que se desea estimar, con algún nivel de certeza especificado. Li ≤ θ ≤ Ls En donde Li y Ls son los límites inferior y superior del intervalo 3. PRUEBA DE HIPÓTESIS Se formula una hipótesis acerca del parámetro θ asignándole un valor supuesto θ0 y con el valor θ del estimador Θ se realiza una prueba para aceptar o rechazar la hipótesis propuesta con algún nivel de certeza especificado. •Hipótesis propuesta: θ = θ0 Contexto de la investigación “Toma de decisiones bajo Teorías y/o incertidumbre sobre lo adecuadas investigaciones previas que son las explicaciones teóricas y la hipótesis que se deducen de ellas”
Hipótesis de Hipótesis alternativa (H1) investigación
Diferencia-igualdad entre 2 ó más
grupos Hipótesis estadística
Asociación entre 2 ó más
variables Contexto de las pruebas de contraste de hipótesis Escepticismo (azar, casualidad)
Pruebas de contraste Hipótesis nula (H0) versus
de hipótesis alternativa (H1)
Reglas de inferencia negativa Se da por supuesto que la hipótesis
nula es verdadera
Comprobar la validez de la Comparar H0 con H1
hipótesis estadística
Estadístico de contraste Significación estadística (p)
Significación estadística (p) • ¿El azar explica los resultados? • Probabilidad de equivocarse al rechazar la hipótesis nula. • Credibilidad de la H0. • Probabilidad de error (error tipo I) al rechazar H 0. • Probabilidad de obtener un estadístico de contraste tan grande como el obtenido si H 0 fuera cierta. • La probabilidad de que las diferencias (o asociación entre las variables) pueda explicarse simplemente por el azar o la casualidad. TABLAS DE CONTINGENCIA • Analizar la relación entre dos variables con un nivel de medida nominal u ordinal (cualitativas). • Comprobar si existen diferencias entre dos o más grupos (variable columna, cualitativa) en una variable (fila) cualitativa. • Analizar la fuerza de la relación entre dos variables cualitativas. • Se toma como base una tabla de contingencia. • Se calcula el estadístico de contraste Chi o Ji cuadrado. Cálculo del estadístico de contraste χ2 No existe relación entre 2 variables Hipótesis nula No existen diferencias entre los grupos en la variable criterio
Existe asociación entre 2 variables
Hipótesis alternativa Existen diferencias entre los grupos en la variable criterio
Fórmulas:
El nivel de significación asociado al estadístico ²
Interpretación representa la probabilidad de obtener un determinado valor Chi cuadrado: de ² en el caso de que las dos variables sean independientes (hipótesis nula). Cuando el valor obtenido sea menor que 0.05 (p<0.05) se podrá rechazar la hipótesis nula y afirmar que existe una asociación significativa entre las variables consideradas. PRUEBA DE HIPÓTESIS Esta técnica estadística es muy utilizada como soporte a la investigación sistemática y científica. Consiste en suponer algún valor para el parámetro de interés y usar los datos de la muestra para aceptar o rechazar esta afirmación. Es importante entender las diferentes situaciones que pueden ocurrir al probar una hipótesis estadísticamente. Sea Ho: hipótesis que se propone para el parámetro de interés Suponer que se dispone de datos con los que se realiza una prueba estadística de esta hipótesis. Entonces pueden ocurrir las siguientes situaciones para tomar una decisión: • Si con el resultado de la prueba estadística rechazamos la hipótesis propuesta sin conocer que era verdadera, entonces cometemos el Error tipo I • Si con el resultado de la prueba estadística aceptamos la hipótesis propuesta sin conocer que era falsa, entonces cometemos el Error tipo II • Ambos errores pueden tener consecuencias importantes al tomar una decisión en una situación real. Por lo tanto es necesario cuantificar la probabilidad de cometer cada tipo de error. Definiciones: Medida del error tipo I: α = P(Rechazar Ho dado que Ho es verdadera) Medida del error tipo II: β = P(Aceptar Ho dado que otra hipótesis es verdadera) El valor α se denomina nivel de significancia de la prueba y puede darse como un dato para realizar la prueba. Algunos valores típicos para α son 10%, 5%, 2%, 1% Terminología Ho: Hipótesis nula. Es la hipótesis que se plantea o propone para el parámetro en estudio. Ha: Hipótesis alterna. Es la hipótesis que se plantea en oposición a Ho y que es aceptada en caso de que Ho sea rechazada Generalmente es de interés probar Ha, por lo que se plantea Ho con la esperanza de que sea rechazada utilizando la información de la muestra. TIPOS DE PRUEBAS Sea θ: parámetro de interés para la prueba θ0: algún valor supuesto para el parámetro Pruebas de una cola 1) Ho: θ = θ0: (hipótesis nula) Ha: θ < θ0: (hipótesis alterna) 2) Ho: θ = θ0: (hipótesis nula) Ha: θ > θ0: (hipótesis alterna) Prueba de dos colas 3) Ho: θ = θ0: (hipótesis nula) Ha: θ < θ0 ∨ θ > θ0: (hipótesis alterna) PROCEDIMIENTO BÁSICO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS
PRUEBA DE HIPÓTESIS RELACIONADA CON LA
MEDIA Caso n ≥ 30 (Muestras grandes) Parámetro: μ (media poblacional) Población con distribución desconocida, varianza σ2 Estimador: X (media muestral) Valor propuesto para el parámetro: μ0 PASOS Paso 1. Formular la hipótesis nula: Ho: μ = μ0 Paso 2. Formular una hipótesis alterna que es de interés probar. Elegir una entre: Ha: μ > μ0 Ha: μ < μ0 Ha: μ < μ0 ∨ μ > μ0 Paso 3. Especificar el nivel de significancia de la prueba α Paso 4. Seleccionar el estadístico de prueba y definir la región de rechazo de Ho Por el Teorema del Límite Central, el estadístico Z=ẋ-μ0/σ/√n, tiene distribución normal estándar aproximadamente La región de rechazo depende de la hipótesis alterna elegida Ha y está determinada por el valor de α especificado. Se analizan los tres casos Primer caso:
Con el valor especificado α se obtiene el valor de Zα el cual delimita
la región de rechazo. La media muestral X es un estimador insesgado del parámetro μ, por lo tanto su valor esperado coincide con el valor propuesto μ0 para el parámetro. Según lo anterior, el valor obtenido para la media muestral X debería estar cerca de μ0, y por lo tanto, el valor de Z=ẋ- μ0/σ/√n, estará cercano a 0, a la izquierda de Zα. •Pero si el valor obtenido en la media muestral X es “significativamente” mas grande que μ0, entonces Z caerá en la región de rechazo definida: Z > Zα. •Esto debe entenderse como una evidencia de que la media μ 0 propuesta para el parámetro μ no es verdad y que debería ser algún valor más grande, es decir: μ > μ0 •Con esta interpretación rechazamos Ho en favor de Ha con un nivel de significancia α •Sin embargo, siendo X una variable aleatoria, es posible que caiga en la región de rechazo aún siendo verdad que μ0 es el verdadero valor de la media muestral μ. •Esto constituye el error tipo I, y la probabilidad que esto ocurra es también α Esta interpretación debe ayudar a entender los otros dos casos: Segundo caso Ho: μ = μ0 Ha: μ < μ0 Tercer caso Ho: μ = μ0 Ha: μ < μ0 ∨ μ > μ0 Paso 5. Calcular el valor del estadístico de prueba con los datos de la muestra Paso 6. Tomar una decisión Si el valor del estadístico de prueba cae en la región de rechazo, la decisión es rechazar Ho en favor de Ha. Pero, si el valor no cae en esta región crítica, se dice que no hay evidencia suficiente para rechazar Ho. En este caso es preferible abstenerse de aceptar como verdadera Ho pues esto puede introducir el Error tipo II Ejemplo Una muestra aleatoria de 100 paquetes mostró un peso promedio de 71.8 gr. con una desviación estándar de 8.9 gr. Pruebe, con un nivel de significancia de 5%, que el peso promedio de todos los paquetes (población) es mayor a 70 gr. Seguimos los pasos indicados en el procedimiento básico indicado: 1. Hipótesis nula Ho: μ = 70 2. Hipótesis alterna Ha: μ > 70 3. Nivel de significancia α = 0.05 4. Estadístico de prueba Z=ẋ-μ0/σ/√n, por el Teorema del Límite Central. Además σ2 ≅ s2 Región de rechazo zα = z0.05 = 1.645 ⇒ Rechazar Ho en favor de Ha, si z > 1.645 5. Valor del estadístico Z=ẋ-μ0/σ/√n, =71.8708.9/100−= 2.02 ⇒ 2.02 cae en la región de rechazo 6. Decisión Se rechaza que la media poblacional es 70 y se concluye, con una significancia de 5% que el peso promedio de la población es mayor a 70 gr,