Resumen E.. (1) Estadistica

UNIDAD I
Estadstica Herramienta para traducir informacin cuantitativa en informacin til para la toma de decisiones. La construccin se hace a partir de informacin real. Conjunto de tcnicas que permiten ordenar y clasificar informacin para posteriormente analizarla y extraer conclusiones. Los aspectos a analizar pueden referirse a: # Estudios de asociacin de variables cuanti o cualis # Anlisis descriptivos o exploratorios de variables # Estudios de inferencia As, la estadstica se divide en dos ramas: 1) Estadstica Descriptiva: clasificacin, ordenacin, descripcin y medicin estadstica de variables para analizar su posicin, dispersin y forma (medidas resumen). Es decir, describe las caractersticas o el comportamiento del conjunto de datos de la muestra o de la poblacin. Esto se conoce como Anlisis exploratorio de las variables. 2) Inferencia Estadstica: anlisis de situaciones mediante muestras representativas, utilizadas para estudiar la poblacin. Se extraen conclusiones a partir de la muestra para dar solucin al problema. Entonces el fin de la estadstica es la aplicacin de un conjunto de mtodos que permiten analizar variables para facilitar la toma de decisiones. Elementos o Conceptos bsicos del anlisis estadstico: - Partimos de un objetivo o problema que tenemos. - Definimos la Poblacin o Universo: conjunto de personas o elementos sobre los cuales se requiere informacin para ser analizada. Debe ser definida con CLARIDAD, PRESICION Y EN CONCORDANCIA CON EL PROBLEMA OBJETO DE ESTUDIO. Conjunto total de elementos o unidades estadsticas que son objeto de estudio. Se simboliza con la letra N. Puede ser finita o infinita, lo que depende de la posibilidad o no de enumerar sus elementos, siendo finita cuando puedo enumerar sus elementos, e infinita cuando no. - Definimos la Muestra: parte representativa de la poblacin, por lo que debe reflejar las mismas caractersticas y proporcionalidades que posee la poblacin objeto de anlisis. Se simboliza con la letra n. A la hora de elaborar la muestra es importante tener en cuenta: a) La manera o forma de seleccin de las unidades estadsticas que se toman de la poblacin, ya que se hace a travs de procedimientos estadsticos para que generen formas representativas. b) El tamao. Para determinarlo debemos tener en cuenta: * Variabilidad o dispersin de la poblacin: ms pareja u homognea la poblacin, menos casos o unidades voy a tomar. * Grado de confianza de las estimaciones que voy a hacer, es decir, con qu confianza traslado el resultado de la muestra a la poblacin. * Error de muestreo o muestral: a menor error ms cantidad de unidades necesito. Por lo general se admite un rango de error entre el 1% y 10%, pero depende de la disciplina en donde estoy. El error nunca se puede eliminar pero se trata de minimizarlo. - Definimos la Unidad estadstica, elemental o de observacin: cada elemento individualmente considerado de la poblacin, es decir se considera como un punto dentro del conjunto total de puntos que es la poblacin. Es un dato que forma parte del conjunto, es decir, tiene valor en el conjunto. Por ejemplo: cada estudiante. UNIDAD DE RELEVAMIENTO: quin o qu me proporciona el dato. Puede coincidir con la unidad estadstica (por ejemplo familia) o no (por ejemplo jefe de familia). 1
Definimos las Variables y su clasificacin: cada caracterstica observada sobre la unidad elemental. Por ejemplo, para ver el rendimiento acadmico observamos la cantidad de materias aprobadas de cada estudiante, el promedio general de cada estudiante, el secundario (especialidad, promedio), la edad, el estado civil, el trabajo, etc. Las respuestas que cada individuo nos de sobre los aspectos que indagamos sern DATOS, y recin en el conjunto de todos los individuos entrevistados formar una variable, es decir que la informacin referida a un solo elemento es un dato y no una variable. La denominacin variable significa que el resultado puede cambiar de un individuo a otro; cuando la variable no vara, la variable se transforma en una CONSTANTE. Clasificacin: 1) Por su naturaleza CUANTITATIVAS: El resultado
que puede generar la variable es un nmero que representa cantidad, medicin o valoracin del aspecto observado. ASUME VALORES.
CONTINUAS: Asumen cualquier valor en el eje real o surgen de un

proceso de medicin. Asume un valor dentro de un intervalo de valores, es decir, con decimales. El nmero refleja una magnitud numrica. Por ejemplo: una estatura (valor) = la estatura (variable); una unidad o valuacin monetaria; etc.
DISCRETAS: Asumen valores enteros que se obtienen por un proceso

de conteo y no de medicin. Por ejemplo: la cantidad de hijos, la cantidad de materias aprobadas; etc.
VAR
CUALITATIVAS: Muestra una cualidad o un atributo que posee la unidad observada. ASUME CATEGORAS QUE
SE EXPRESAN A TRAVS DE PALABRAS PORQUE SON ATRIBUTOS O CUALIDADES DEL INDIVIDUO. De todos modos se las traslada a nmeros por medio de la asignacin de un cdigo que es arbitrario y que no necesariamente tiene que ser numrico.
2) Por su funcin o lugar que ocupan en la investigacin: se refiere al rol que desempea la variable en el proceso de investigacin. Dependiente: es la variable explicada o de respuesta, el efecto. Por ejemplo: el promedio general del estudiante ha sido provocado por todas las otras variables. Independiente: es la variable que explica, explicativa, la causa. Por ejemplo: promedio secundario. De control: variables dummy, para evitar relaciones de espuria 3) Segn la escala de medicin que se aplicar sobre cada variable 4) En escala NOMINAL: sta se establece mediante categoras que no se diferencian por jerarqua, sino slo por el
nombre. Es decir, las categoras no se jerarquizan, no tienen un orden entre s. No son exhaustivas ni excluyentes. Por ejemplo: sexo, estado civil, nacionalidad. En escala ORDINAL: sta se forma por categoras que responden a un orden jerarquizado. Es decir, las categoras asumen un orden o jerarqua que se refleja en una escala de mayor a menor o viceversa. Son exhaustivas y mutuamente excluyentes. Por ejemplo: alto, medio, bajo; E, MB, B, M, MM; etc.
CUALI
En escala INTERVALAR o de INTERVALO: Se subdivide el recorrido de la variable en intervalos o segmentos de igual tamao y el origen del sistema numrico no tiene el significado que habitualmente se le atribuye en la escala numrica (el cero de la escala es arbitrario, no significa que no hay variable). Por ejemplo: * Talles: el talle 0 no significa ausencia de variable, sino que es un nico talle * Temperatura: t 0 no significa ausencia de variable, sino que hace fro, es decir, tiene un significado ms all del nmero. No tiene sentido hacer diferencias o distancias ni relaciones entre los valores de las variables. En escala de RAZN: el cero tiene el significado numrico de nulo (es decir que aqu el cero tiene su escala como tal) y las distancias se determinan en relacin al mismo. Tiene sentido hacer diferencias o distancias y relaciones entre los valores de las variables.
CUANTI
UNIDAD II
Recogidos los datos, armamos una base de datos (Organizacin) y luego procedemos a la presentacin de los datos estadsticos mediante: tablas y grficos estadsticos Serie Simple Presentacin de datos sin arreglo previo, en la forma en que se recopilaron, no se ordenaron las cifras ni se consideraron las repeticiones. Es por eso que ser necesario establecer criterios que permitan ordenar los datos para una adecuada descripcin del comportamiento de la variable lo que conduce a la construccin de tablas y/o grficos. X: 3,5,6,8,6,5,4,4,6,9 Distribuciones de frecuencia o tablas cuando los datos son ordenados de acuerdo a un criterio de clasificacin. La tabla se elabora de acuerdo a la frecuencia, que es la cantidad de valores de la variable que pertenecen a cada categora de la misma. Las distribuciones de frecuencia se confeccionan teniendo en cuenta la naturaleza de la variable pudindose analizar una variable a la vez (estudio unidimensional), dos variables a la vez (estudio bidimensional), mas de dos variables (estudio multidimensional o multivariado). Por lo tanto la tabla es un arreglo de filas y columnas que contiene datos de una o ms variables. Frecuencias: 1) Frecuencias absolutas: ni indica la cantidad de observaciones que pertenecen a cada categora de la variable, es decir, la cantidad de veces que se repite cada valor de la variable. Ser siempre un nmero entero positivo, y la suma de todas las frecuencias absolutas ser igual al total de datos (n), o sea, igual al nmero de la poblacin o muestra. 2) Frecuencias relativas: hi se obtiene como el cociente entre ni y n. Es la proporcin en que participa cada valor de la variable en el valor total, pudiendo presentarse en tanto por uno o en tanto por cien. hi es un valor comprendido entre 0 y 1. La suma de todas las hi ser siempre = a 1. 3) Frecuencia absoluta acumulada: Ni es la suma de la frecuencia absoluta para cada categora de la tabla. 4) Frecuencia relativa acumulada: Hi es la suma de la frecuencia relativa para cada categora de la variable. Tablas para variables CUALI: Tablas cruzadas, sobre todo porcentuales. En este caso se trabaja con ms de una variable, por lo que ya no se trata de un estudio unidimensional, pero slo ni y hi Tablas para variables CUANTI DISCRETAS: Tablas simples Tablas para variables CUANTI CONTINUAS: Tablas con/de intervalos (se aconseja su construccin cuando la cantidad de observaciones de la variable CUANTI DISCRETA es considerablemente grande, o cuando la variable es de naturaleza CUANTI CONTNUA). Construccin de intervalos: 1) Determinar la cantidad de intervalos arbitrariamente (se aconseja de 5 a 15). El intervalo es cerrado por la izquierda y abierto por la derecha ) 2) Calcular el Rango o recorrido de la variable. R= VM - Vm VM: valor mayor o mximo que asume la variable en la serie. Vm: valor menor o mnimo que asume la variable en la serie. 3) Calcular la Amplitud (c a) de cada intervalo C= R/Nro intervalos Siempre se busca redondear a un valor entero mayor. 4) Confeccin de la tabla desde la primera clase o intervalo comenzando con el menor valor de la variable. Marca de clase o punto medio Y X Promedio simple entre los lmites de cada intervalo. Este valor representa a la variable en esa categora, de modo que para realizar clculo se va a utilizar ESE valor. Es el valor que representa el intervalo. 3
Grficos son diagramas o dibujos que permiten representar grficamente la informacin para tener una visin general del comportamiento de la variable a travs de la frecuencia, tanto simple como acumulada. Grficos para variables CUALI: - Grficos de barra mltiples o apiladas, verticales u horizontales (cuando se trabaja con dos variables simultneamente). - Grficos pastel o de crculo (til para analizar una variable por vez y cuando las categoras de la variable son pocas). Grficos para variables CUANTI DISCRETAS (n1; h1): Grfico de bastones Grficos para variables CUANTI DISCRETAS (N1; H1): Grfico acumulativo, en escalera o escalonado, o escalonado discontinuo, o escalonado punteado. Grficos para variables CUANTI CONTINUAS: - HISTOGRAMA (ni ; hi) Este grafico es de superficie (barra que se levanta a la altura de la frecuencia en cada intervalo). Las barras son pegadas porque muestra una continuidad en las variables, a diferencia del grfico de barras. - POLGONO (ni ; hi) Es un grfico lineal que se confecciona uniendo mediante lneas los puntos de coordenadas que corresponden a cada marca de clase y la frecuencia. - OJIVA (Ni ; Hi) Es un grafico lineal que se confecciona uniendo los puntos de coordenadas correspondientes al lmite inferior de cada intervalo y la frecuencia acumulada hasta el mismo.
UNIDAD III
Medidas resumen o descriptivas de las variables
En estadstica importan tres aspectos de los datos: posicin, dispersin y forma. Para cada una de estas propiedades habr medidas que permitirn resumir y explicar el comportamiento de la variable respecto al aspecto estudiado. Medidas de POSICIN: indican la localizacin de los datos sobre el eje de las abscisas. Localizacin Central: media aritmtica, media geomtrica (para ndices, como de precios), media armnica (para variables donde se relacionan dos unidades de medida), mediana, modo. Estas medidas se llaman PROMEDIO. Localizacin No Central: cuartiles, deciles, percentiles cuantiles DISPERSIN: grado de variacin de los valores individuales de la variable alrededor de la medida de posicin central de la variable. Me permite ver que tan concentrados o dispersos estn los valores de la variable con respecto al promedio o valor central. Se toman respecto a la media. Varianza Desviacin estndar Coeficiente de variacin Desviacin intercuartlica FORMA: muestran de que manera se distribuyen los datos de una determinada variable. Asimetra: deformacin horizontal de los datos Simtrica, Asimtrica izquierda, Asimtrica derecha. Curtosis: deformacin vertical de los datosPlaticrtica, Mesocrtica, Leptocrtica.
MEDIDAS DE POSICIN CENTRAL Media aritmtica: PROMEDIO central que se utiliza cuando los datos son numricos. Puede aplicarse sobre una serie simple o sobre una distribucin de frecuencias. Suma de los valores de la variable dividida por el total de datos. Cuando la media se saca respecto de la poblacin, es un parmetro que se simboliza con (mu); si es respecto a la muestra ser un estadstico M(x) o . 4
= Xi / N = Xi / n
M: media poblacional (parmetro); N: tamao de la poblacin; Xi: variable : media muestral (estadstico); n: tamao de la muestra; Xi: variable
*Cuando se quiere sacar la media aritmtica tener en cuenta la frecuencia absoluta. * Cuando se quiere sacar la media aritmtica de una variable en intervalos se hace desde la marca de clase. Propiedades de la Media aritmtica: 1) La media aritmtica se ve afectada por los valores atpicos de la variable. Cuando hay un valor atpico, la media aritmtica no resulta representativa. Tal problema se soluciona con el uso de otras medidas de posicin como la Mediana o la Moda. 2) La media aritmtica de una constante es igual a la constante. M(c) = c si x asume valor 3,3,3; la media ser 3 3) La media del producto de una constante por una variable; es igual a la constante por la media de la variable. M(cx) = c. M(x) 4) La media aritmtica de la suma de una constante ms una variable es la constante ms la media de la variable. M(c+x) = c + M(x) 5) La suma de las diferencias entre los valores de la variable y su media aritmtica es siempre nula. Xi M(x) = 0 6) La suma de cuadrados respecto de la media aritmtica es un valor mnimo. 7) La media aritmtica de las medias de las k submuestras se obtiene como la media aritmtica de las medias de las submuestras ponderadas por los tamaos de las respectivas submuestras. Esto significa que al considerar a una poblacin dividida en subpoblaciones y conocer la media de la variable para cada subpoblacin, la media total ser una media ponderada de las medias de cada una de ellas. Mediana: Es el valor central de un conjunto ordenado de valores de una variable. Se calcula despus de ordenar los datos de la variable y luego de ubicar el centro de esa serie ordenada. Al estar ubicado en el centro, supera al 50% de los valores a la vez que es superado por el 50% de los valores restantes. Para obtenerla: -se ordenan lo valores -se determina el punto central de la serie a ojo o utilizando la frmula orden o = (n+1)/ 2 -se ubica dicho lugar y el valor de la variable perteneciente al mismo es la mediana. Si la serie es par, este valor se determina como el promedio simple de los dos valores centrales. Si la serie es impar, este valor se determina directamente mediante su ubicacin. En la distribucin de frecuencia la mediana se calcula utilizando la frecuencia acumulada (Ni). Es aconsejable utilizarla en series donde existen valores extremos o atpicos porque la mediana no se ve afectada por la incidencia de stos. Moda: Es el valor de la variable que se presenta ms frecuentemente, el que ms se repite. Puede ocurrir que para una variable en vez de existir un solo valor modal (unimodal), existan dos o ms valores que cumplan la condicin de presentarse con mayor frecuencia; en esos casos se dice que la distribucin es bimodal (dos valores modales) o multimodal (ms de dos valores). Tambin puede no existir ningn valor modal (distribucin amodal o uniforme). MEDIDAS DE POSICIN NO CENTRAL Son los llamados cuantiles. Se determinan dividiendo la distribucin en partes tales como cuartos, decenas o centenas. El valor del cuantil ser el que supera a no ms que la fraccin ubicada a su izquierda y es superado por no ms que la fraccin ubicada a su derecha. Se ubican sobre un eje real 5
Cuartiles: Son 3 valores de la variable que dividen a la serie ordenada de datos en 4 partes iguales
25% Vm Q1 25% Q2 25% Q3 25% VM
Para determinarlos: 1) Ordenar los valores de la variable de acuerdo a su magnitud 2) Calcular la posicin de los cuartiles con las siguientes frmulas: o1= (n+1)* 1/4 = (n+1)/4 o2= (n+1)* 2/4 = (n+1)/2 = Mediana o3= (n+1)* 3/4 = 3*(n+1)/4 3) Buscar que valores corresponden a esas ubicaciones. *Q1: ser el valor de la variable que supera a no ms del 25% de las observaciones y es superado por el 75% de las observaciones. *Q2: es equivalente a la mediana, por lo tanto supera la 50% de las observaciones a su izquierda, a la vez que es superado por el 75% de las observaciones ubicadas a su derecha. *Q3: es el valor de la variable que supera el 75% de las observaciones ye s superado por el 25% restante de los valores. Las medias de posicin no central al igual que la mediana y la moda, se utilizan frecuentemente para estudiar el comportamiento de la variable que contiene valores atpicos ya que stos afectan la representatividad de la media aritmtica. Recorrido intercuarti: medida de dispersin til para determinar la concentracin del 50% central de los datos. Se calcula mediante la diferencia entre el tercer y primer cuartil RI= Q3-Q1 Diagrama de caja y brazos: confeccionado con la mediana y los cuartiles. Permite estudiar el comportamiento de una variable (detecta la asimetra o no de las variables) como as tambin permite detectar la existencia o no de valores extremos o atpicos, que son los que pasan las barreras (si pasan las barreras internas, son ATPICOS; si pasan las barreras externas son EXTREMADAMENTE ATPICOS). El diagrama consiste en: - marcar sobre un eje real los valores mnimo y mximo de la variable -marcar los cuartiles construyendo una caja entre el primer y el tercer cuartil -a los lados de la caja quedan los brazos que determinan si hay deformaciones horizontales -en los brazos se marcan las barreras (internas y externas) que permiten establecer si los valores extremos de las variables son atpicos en relacin a los dems. Calcular barreras B. Interna: determinadas a una distancia de 1,5 veces el recorrido intercuartlico de los Q1 y Q3 BIIzquierda= Q1- [1,5*RI] BIDerecha= Q3- [1.5*RI] B. Externas: se calculan a una distancia de 3 veces el recorrido intercuartlico de los Q1 y Q3 BEIzquierda= Q1-[3*RI] BEDerecha= Q3- [3*RI] Deciles: son 9 valores de la variable que dividen a la serie ordenada de datos en 10 partes iguales. Percentiles: son 99 valores de la variable que dividen a la serie ordenada de datos en 100 partes iguales.
MEDIDAS DE DISPERSIN Varianza: Mide la distancia total mnima entre los valores de la variable y su media aritmtica. Distancia mnima implica la suma del cuadrado de las diferencias entre los valores de la variable y su media. Las diferencias se suman y se elevan al cuadrado para que no den cero, luego se divide por el total de observaciones y as estaramos promediando las distancias que hay a la media aritmtica, por eso la varianza es un promedio de las distancias (desvos) que hay entre cada valor de la variable con respecto a la media aritmtica. Cuanto mayores sean las distancias, ms grande ser la varianza, y por lo tanto ms dispersin. Sirve para determinar si hay o no dispersin entre un rango de 0 a infinito (si es cero no hay dispersin). Pero no es un dato para interpretar ya que la varianza se expresa en unidades al cuadrado. Si queremos volver a la unidad original, se calcula la raz. Varianza muestral: S2= ( *(Xi- X) 2]) / n-1 X: Media muestral 2 2 Varianza poblacional: = ( *(Xi- ) ]) / N : Media poblacional En el caso de series ordenadas en distribuciones de frecuencia hay que multiplicar (Xi - ) 2 por ni (frecuencia absoluta) En el caso de series intervalares se utiliza para sacar la varianza a la marca de clase. Propiedades: 1) La varianza es siempre positiva: Elevar cada diferencia al cuadrado hace que todos los nmeros sean positivos (para evitar que los nmeros negativos reduzcan la varianza). 2) La varianza de una constante es igual a 0. V(c) = 0 3) La varianza de la suma de una constante ms una variable, es igual a la varianza de la variable V(c+x)= V(x) O sea que si sumamos a la variable un nmero constante, la varianza no cambia. 4) La varianza del producto de una constante por una variable, es el producto de la constante al cuadrado por la varianza de la variable V(cx) = c2.V(x) O sea que el producto de una constante s modifica la constante, es decir que si a la variable la multiplicamos por un nmero, la varianza queda multiplicada por ese nmero al cuadrado. 5) La varianza de una suma o de una resta de dos variables, es siempre igual a la suma de las varianzas de cada una de las variables ms o menos dos veces la covarianza de las dos variables. Si las dos variables (X, Y) son independientes la covarianza es igual a 0, y en ese caso se anula la parte de la covarianza. Suma: V(x + y) = V(x)+V(y) + 2cov(xy) Resta: V(x - y) = V(x)+V(y) - 2cov(xy) Desviacin Estndar: es la raz cuadrada positiva de la varianza. Permite expresar su resultado en las mismas unidades que la variable, por lo tanto su interpretacin es ms razonable. DS muestral DS poblacional Coeficiente de Variacin: Medida relativa de dispersin que se calcula como el cociente entre la desviacin estndar y la media aritmtica. Se utiliza para comparar, en cuanto a su dispersin, distribuciones expresadas en diferentes unidades de medida, mostrando cual de ellas presenta una menor dispersin mayor concentracin datos ms homogneos respecto de su media y en consecuencia confirma o no la representatividad del promedio. * si la DS es menor a la media, hay una baja dispersin, o sea, los valores estn ms concentrados. Entonces, mientras ms chico sea el resultado, ms cerca de la media, lo cual es bueno porque significa que la muestra es representativa de los valores y la media es igual en los distintos casos. Mientras ms pequeo, ms representativa es la media * si la DS est por arriba de la media, los valores estn ms dispersos. CV(x) = DS(x) / M(x) Si el resultado se multiplica por 100 se expresa en porcentaje e indica el porcentaje de dispersin de la variable en torno a su media. 7
Covarianza y Coeficiente de correlacin: Son medidas de asociacin entre dos variables. Covarianza: Es una medida de dispersin conjunta entre dos variables y su significado indica la presencia de asociacin lineal directa o inversa entre las variables. Mide la asociacin en trminos absolutos. Con ella veo si hay o no asociacin. Su rango de variacin oscila entre infinito negativo y positivo y su significado depende del signo. Si las variables X e Y son independientes, es decir, no tienen asociacin lineal, entonces: Cov (x,y) = cero. Si las variables X e Y estn asociadas en forma lineal directa: Cov (x,y) > cero (no importa cuanto mayor sea) Si las variables X e Y estn asociadas en forma lineal inversa: Cov (x,y) < cero (no importa cuanto menor sea) Cov (x,y) = xi - M(x) . yi - M(y) N Coeficiente de correlacin de Parsons: Mide el grado y sentido de asociacin lineal entre dos variables. Mide la asociacin en trminos relativos. Con l veo el grado o intensidad de la asociacin o relacin. Puede asumir cualquier valor en el rango que va de -1 a 1. Su signo proviene o lo da la COV porque la DS es siempre positiva. * Si su valor se aproxima a cero, el grado de asociacin existente entre las variables es casi nulo * Si se aproxima a uno positivo, muestra una fuerte intensidad en la asociacin lineal directa. * Si el coeficiente es negativo y prximo a -1 indica una muy buena o muy fuerte asociacin lineal inversa. R = Cov (x,y) / DS(x)*DS(y) Diagrama de dispersin Grfico que muestra el conjunto de puntos de coordenadas de las dos variables en un eje de coordenadas. La variable X se representa en el eje de abscisas, mientras que la variable Y se representa en el de ordenadas. MEDIDAS DE FORMA Determinan el comportamiento general de la variable. Se divide en Anlisis de comportamiento horizontal o asimetra; y Anlisis de comportamiento vertical o curtosis. Asimetra: coeficiente de asimetra. Puede asumir valores mayores, iguales o menores que cero. Si CA = 0 la distribucin es perfectamente simtrica Si CA > 0 la distribucin es asimtrica positiva (derecha) Si CA < 0 la distribucin es asimtrica negativa (izquierda) Curtosis: coeficiente de curtosis. Puede asumir valores mayores, iguales o menores que cero, indicando que la distribucin es alta (leptocrtica), media (mesocrtica) y baja (platicrtica), respectivamente.
UNIDAD IV
Probabilidad: medida numrica de la posibilidad de que un hecho ocurra. Es un nmero comprendido entre 0 y 1 que indica la posibilidad de que ocurra un hecho o evento aleatorio. Mientras ms prximo a cero, indica baja posibilidad de ocurrencia. Mientras ms tiende a uno, hay ms posibilidad de que ocurra, o lo que es lo mismo, menos imposibilidad. Si la probabilidad es uno, el hecho es CIERTO. Si la probabilidad es cero, el hecho es IMPOSIBLE DE OCURRIR. Espacio muestral: es el conjunto que contiene todos los resultados posibles de un hecho aleatorio. Se simboliza con la letra S. Puede ser finito (contiene una cantidad numerable de elementos; por ejemplo: la tirada de un dado) o infinito (no
contiene una cantidad numerable de elementos; por ejemplo: conjunto de nmeros reales). Es exhaustivo (porque abarca todos los resultados) y excluyente (porque los resultados no pueden presentarse simultneamente con los otros). Experimento aleatorio: acontecimiento que genera dos o ms resultados posibles. Es lo contrario de un hecho cierto, ya que algo es cierto cuando tiene un solo resultado, e incierto cuando genera dos o ms cursos de accin. La teora de probabilidad est basada en hechos de este tipo, donde al definir una situacin se originan dos o ms posibilidades, por eso es que la probabilidad es una funcin del experimento aleatorio que mide la posibilidad de que cada uno de los eventos ocurra. Evento: cada posibilidad o resultado del espacio muestral. Se simboliza con las letras maysculas del abecedario. Se clasifican en: 1) SIMPLES, porque es una mnima expresin del espacio muestral. Por ejemplo: salida del nmero 1 en la tirada del dado. 2) COMPUESTO, porque hay ms de un componente del espacio muestral. Por ejemplo: salida de nmero par en la tirada del dado. 3) POSIBLE, un evento totalmente posible es el espacio muestral. 4) IMPOSIBLE, por ejemplo: salida del nmero 7 en la tirada del dado. Teoras sobre el clculo de probabilidades: Teora Clsica o de razn insuficiente: considera que todo suceso tiene la misma posibilidad de ocurrir. No hay razn suficiente para que uno tenga ms probabilidad de ocurrir que otro. P(A) = casos favorables a A / Total de casos posibles del Espacio muestral Teora Frecuencial: cuando existe informacin respecto de un suceso, la frecuencia relativa pasa a ser la medida de probabilidad si el hecho se repite un nmero grande de veces. Esta teora est basada en la repeticin del experimento en idnticas condiciones un nmero grande de veces. Es decir que cuando n tiende a infinito, la probabilidad de un evento se determina mediante la frecuencia relativa. Teora Subjetiva: basada en la confianza o en la creencia de quien asigna la probabilidad; admite la probabilidad segn la subjetividad o criterio de quien lo aplica. Axiomtica: establece un conjunto de propiedades basadas en la teora de conjuntos que permiten reglamentar los valores asignados a las probabilidades. LEYES o TEOREMAS: 1) La probabilidad del espacio muestral es 1 2) La probabilidad de que ocurra un evento es un nmero mayor que 0. La probabilidad no puede ser negativa 3) La probabilidad de la unin de eventos es igual a la suma de las probabilidades. A partir de estas 3 leyes o teoremas, se deducen estos AXIOMAS: i) La probabilidad de un evento es un nmero comprendido entre 0 y 1 ii) La probabilidad del complemento de un evento es igual a 1 menos la probabilidad del evento. Complemento de A: evento que abarca todos los otros eventos que forman parte del espacio muestral que no sea A. iii) La probabilidad del evento imposible es 0 Eventos compuestos: Es la combinacin de eventos simples mediante la unin o relacin aditiva o la interseccin o relacin multiplicativa, con lo cual surgen dos leyes de probabilidad: 9
Ley aditiva de Probabilidad o suma de subconjuntos: se refiere al clculo de probabilidades cuando se plantea la unin de eventos, es decir que est considerando la posibilidad de que se presente un hecho u otro. Hay que tener en cuenta si los eventos son mutuamente excluyentes o no. Excluyente significa que la presentacin de ambos eventos simultneamente es imposible. Eventos no excluyentes es cuando la presentacin de ambos hechos no es imposible. Para no mutuamente excluyentes: P (A u B) = P(A) + P(B) P(A n B) Para mutuamente excluyentes: P(A u B) = P(A) + P(B) Ley multiplicativa de probabilidad o producto: plantea la interseccin de dos eventos, es decir, la probabilidad que ocurra un hecho y el otro. Para analizar el producto de probabilidades hay que tener en cuenta si los eventos son dependientes o independientes. Dos eventos son Dependientes cuando la ocurrencia de uno afecta la probabilidad de ocurrencia de otro, es decir, cuando se presenta la probabilidad condicional cuyo significado es que un enunciado reduce el espacio muestral: P (A/B) = P (A n B) P (A n B) = P(A) . P (B/A) P(B) = P(B). P (A/B) Adems, en un proceso de extraccin la dependencia surge cuando se trabaja sin reposicin (extracciones sucesivas), es decir, al sacar y no reponer, se reduce la cantidad, con lo cual, disminuye la posibilidad de ocurrencia para la prxima extraccin. Dos eventos son Independientes cuando la ocurrencia de uno no depende o no est condicionada por la probabilidad de ocurrencia de otro, es decir, cuando no hay condicin (ya que la probabilidad condicional es cero) y en extraccin se trabaja con reposicin P (A n B) = P(A) . P(B) Tablas de probabilidad: son tablas de doble entrada donde aparecen eventos simples y compuestos con sus respectivas probabilidades, es decir, si una tabla de contingencia o cruzada es determinada por sus frecuencias relativas, habr en ella probabilidades conjuntas que son las de la interseccin de las categoras y probabilidades marginales (de fila y de columna), que son las que corresponden a cada categora. Variable Aleatoria: Es aquella que surge de un experimento aleatorio (ms de un resultado posible). Cuando se define sobre los componentes del espacio muestral una caracterstica de modo que se puedan asociar cada resultado del experimento con una probabilidad y un valor de la variable, se genera una variable aleatoria. Esto significa que asociada a la caracterstica observable habr una funcin que hace corresponder a cada valor de la variable una probabilidad; esa funcin se denomina funcin de probabilidad. Las funciones de probabilidad se constituyen en distribuciones de probabilidad y como tales, pueden ser representadas en forma grfica y utilizadas para el clculos de medidas de posicin, dispersin y forma. Entonces una variable aleatoria surge de relacionar cada valor que asume la variable en el conjunto con su probabilidad de ocurrencia. Funcin de probabilidad y de acumulacin: Cuando est determinada la variable y la funcin de probabilidad, tenemos la distribucin de probabilidad. La expresin se refiere a identificar la naturaleza de la variable y con ello, asignarle el tratamiento matemtico que le corresponde a la funcin que estar asociada con esa variable. Entonces: + Si la variable aleatoria es de naturaleza DISCRETA, la funcin de probabilidad llamada FUNCIN DE CUANTA ser una expresin matemtica asociada con las tcnicas de conteo. 10
+ Si la variable aleatoria es de naturaleza CONTNUA, la funcin de probabilidad llamada FUNCIN DE DENSIDAD estar relacionada con el anlisis matemtico y el clculo integral. (Nosotros no la veremos). La diferencia entre stas es que en el campo discreto, puedo calcular la probabilidad de un valor, ya que la medida de probabilidad es la medida del rea bajo la curva de la funcin de densidad; pero en el campo continuo no, ya que en l, la probabilidad de un nmero es cero. Propiedades de la funcin de probabilidad: Para funcin de probabilidad de variable DISCRETA para FUNCIN DE CUANTA La suma de todas las probabilidades de la distribucin debe ser = a 1 Cada probabilidad asociada a la variable aleatoria debe estar comprendida entre 0 y 1 Para funcin de probabilidad de variable CONTNUA para FUNCIN DE DENSIDAD El rea total bajo la curva de la funcin debe medir uno. La probabilidad en un punto ser cero en virtud de tratarse de la integral en un punto. La medida del rea entre dos puntos de la distribucin se determinar como la integral entre esos dos puntos de la funcin de densidad y ser la P (a < x < b), para una variable cualquiera x, y dos puntos cualesquiera de la distribucin de dicha variable representados por a y b. Funcin de acumulacin: surge al analizar la probabilidad para un conjunto de valores acumulados hasta un valor dado de las variables dentro del recorrido de la misma. Medidas que caracterizan a las VA: Las medidas ms usadas para caracterizar estas variables son la media o la esperanza matemtica y la varianza. Para su clculo es necesario tener en cuenta la naturaleza de la variable aleatoria. Esperanza Matemtica: - De VA discreta: E (x)= xipi Se interpreta como el valor esperado. - De VA contnua: no lo vemos Varianza: - De VA discreta: (xi- E(x)) pi No tiene interpretacin debido a que est expresada en unidades al 2calculo DS - De VA contnua: no lo vemos Representacin Grfica: Para variable cuantitativa discreta grfico de bastones para mostrar la funcin de probabilidad grfico acumulado (escalonado) para mostrar la funcin de acumulacin
UNIDAD V
MODELOS DE PROBABILIDAD
Las distribuciones de probabilidad permiten describir y analizar variables que presentan particularidades especiales, ya sea por su comportamiento o por la forma en la que se realiza el estudio del cual surge la variable. En estos modelos se definen funciones matemticas que permiten calcular probabilidades asociadas a esas variables. Entonces los modelos de probabilidad son funciones matemticas que permiten calcular las probabilidades de determinadas variables. Es conveniente distinguir modelos para variables cuantitativas discretas de los que se aplican a variables cuantitativas continuas, debido a que matemticamente son tratados de manera diferente. Distribuciones de probabilidad para VA discretas: Distribucin Bipuntual Distribucin Binomial 11
Distribucin Hipergeomtrica Distribucin Poisson
Distribuciones de probabilidad para VA continuas: Normal Exponencial Uniforme Distribucin de probabilidad Bipuntual: Este modelo se aplica para describir una poblacin que est dividida en dos categoras: xito y fracaso. Es decir que la caracterstica a observar est clasificada en dos categoras contrapuestas y nicas a los fines del estudio planeado. xito no representa puntualmente el significado de la palabra sino que refiere al aspecto que pretende estudiar. Estas poblaciones se llaman dicotmicas y son frecuentes en estudios estadsticos. La variable definida como la presentacin del xito en una extraccin es codificada con los valores 1 si se presenta el xito y 0 si no se presenta, razn por la cual es llamada binaria. Esta variable aleatoria tiene asociada una probabilidad para cada uno de sus valores (1,0), que es determinada al considerar los casos favorables al xito o fracaso, segn el valor de la variable (1,0) divido el total de elementos de la poblacin. En otros trminos, la probabilidad del xito es la proporcin de xitos en la poblacin que se simboliza P; la probabilidad del fracaso es la proporcin de fracasos en la poblacin que se simboliza como K, probabilidad complementaria a P (1-P). E(x)= p V(x)= pk (producto entre la proporcin de xitos y la proporcin de fracasos) Distribucin de probabilidad Binomial: Se trata de un experimento: Realizado sobre una poblacin dicotmica o binaria, finita o infinita; Sobre la cual se realizan extracciones o pruebas sucesivas con reposicin. La cantidad de pruebas es n, tamao de la muestra; Al ser binaria se compone de dos categoras definidas como xito y fracaso. Categoras excluyentes en donde xito se refiere al aspecto que se investiga; Al trabajar con reposicin los eventos en cada prueba son independientes y la probabilidad del xito es constante denotada por p. La probabilidad del fracaso es constante q= 1-p; Se define la variable aleatoria x: cantidad de xitos en la muestra. P(X=x)=p(1-p) E(x)=np V(x)=np(1-p) Distribucin Hipergeomtrica: Se trata de un experimento: Se realiza sobre una poblacin binaria o dicotmica, finita; Sobre la cual se realizan extracciones o pruebas sucesivas SIN reposicin. La cantidad de pruebas es n, tamao de la muestra; Al ser binaria se compone de dos categoras definidas como xito y fracaso. Categoras excluyentes en donde xito se refiere al aspecto que se investiga; 12
Al trabajar sin reposicin los eventos en cada prueba son dependientes y la probabilidad del xito no es constante; Se define la variable x: cantidad de xitos en la muestra; Cuando n representa al menos el 5% de N, se puede tratar por binomial. P= K/N 1-P= N-K/N E(x)= np V(x)= np(1-p).N-n/N-1 (vza multiplicada por el factor de correccin de poblacin finita) Distribucin de probabilidad de Poissn: Una VA con distribucin de probabilidad Poissn surge como el conteo de hechos raros en un tiempo, espacio o volumen determinado, es decir, si se pueden observar eventos discretos en un intervalo contnuo (de tiempo, de duracin, de rea, etc.); Es un hecho raro porque se puede determinar la ocurrencia del mismo pero es imposible calcular las veces que el hecho no ocurre; Tambin surge cuando un experimento binomial se hace un N grande de veces (n tiende a infinito) con probabilidad de xito muy pequea de modo que tienda a 0; El promedio de presentacin del hecho observado es directamente proporcional al intervalo de tiempo, duracin, rea, etc., considerado; La media en el intervalo especificado es igual a la varianza. P(X=x)= e.Mu/X E(x)= Mu V(x)= Mu Distribucin de probabilidad Normal Se aplica a variables aleatorias continuas que tienen un comportamiento simtrico o semisimtrico y mesocrtico. Es la distribucin que se utiliza en la mayora de los mtodos de inferencia estadstica, al ser la ms simple. La no utilizacin de esta distribucin normal requiere, en inferencia estadstica, de la aplicacin de mtodos de estadstica avanzada; de all su simplicidad. Adems es una distribucin de probabilidad lmite para distribuciones de variable aleatoria discreta, lo que significa que una VA de naturaleza discreta es tratada tambin mediante la aplicacin de la distribucin de probabilidad normal; de all su importancia para la utilizacin de variables aleatorias en general. Caractersticas grficas de la distribucin normal: - Con forma de campana, llamada campana de Gauss - Simtrica con respecto a la media - Mesocrtica - Asinttica respecto al eje X - No acotada (los valores que puede adquirir la variable normal van desde infinito a + infinito) - Presenta dos puntos de inflexin en el valor de la variable ubicando una desviacin estndar de la media - X se distribuye normal con E(x) = Mu y DS (x) = sigma - El rea de probabilidad total que est por debajo de la curva es P(sx) = 1 - El rea a la izquierda y a la derecha de Mu mide 0,5 de probabilidad - Cualquier intervalo tendr probabilidad positiva - Un cambio en la media desplaza la distribucin hacia la derecha o izquierda - Un cambio en la desviacin altera su forma sin moverla 13
M+ 2 y M- 2 = Puntos de inflexin
M- 2
M+ 2
Funcin de probabilidad normal
Esta funcin tiene dos parmetros de la variable X: su media y varianza; y tiene constantes numricas como el nmero pi el nmero e y el 2. En consecuencia depende de la media y de la varianza de la variable en estudio, por lo que habr tantas distribuciones normal como variables que puedan tener diferentes parmetros exista. Para resolver se debe estandarizar, es decir, transformar la variable x en variable z Ella tiene media= 0 y Varianza= 1 y es -<Z<+ E (z)=0 y DS (z)=1 Variable - media Z= Desviacin estndar = x- Mu
Distribucin de probabilidad Exponencial Esta distribucin se utiliza en problemas de confiabilidad, donde el inters radica en estudiar el tiempo de vida promedio de un componente o de un sistema de estos.
UNIDAD VI
INFERENCIA ESTADSTICA
Aquellos mtodos que permiten extraer conclusiones respecto de una poblacin con informacin proveniente de una muestra extrada de dicha poblacin. Los mtodos en los que se basa la inferencia estadstica son: estimacin y prueba de hiptesis. ESTIMACIN: tiene como objetivo descubrir valores de parmetros (Media poblacional; Proporcin de xitos en la poblacin; Varianza poblacional) desconocidos a partir de muestras. 1. Puntual (un punto que estima al parmetro) el estimador es el estadstico de la muestra. 2. Por intervalo (un intervalo que abarca el valor del parmetro con una confianza dada). Permite medir el error de estimacin. 1. ESTIMACIN PUNTUAL: es la estimacin de un parmetro mediante un punto. Qu estimador elijo para un parmetro? El mejor estimador (que es el estadstico) para los tres parmetros ms usados: PARMETRO Mu P Sigma ESTADSTICO Media muestral Proporcin muestral Varianza muestral ergo Desviacin estndar muestral
Ahora bien, la estimacin es el valor o resultado que asume el estimador al aplicar la frmula sobre los datos de la muestra. 14
De entre los distintos estimadores, nos quedamos con la media muestral ( x ) porque es la que rene las 4 propiedades de un buen estimador: Insesgabilidad Cuando la esperanza matemtica o media del estimador es igual al parmetro. Un estimador que se obtiene de un proceso aleatorio es una variable aleatoria, en consecuencia asume un conjunto de valores que constituyen el recorrido de una variable aleatoria y que al corresponderle a cada valor de probabilidad, forma una distribucin de probabilidad; esta variable tiene esperanza matemtica y varianza. Eficiencia Un estimador es relativamente ms eficiente que otro si su varianza es menor. Estos se conoce como eficiencia relativa. Si un mismo parmetro posee dos estimadores insesgados, ser ms eficiente el que tenga menor dispersin ya que con ello estamos asegurando una estimacin ms cercana al verdadero valor del parmetro. El estimador absolutamente eficiente es la media muestral porque su varianza, que es la variabilidad del estimador, es menor en comparacin con la mediana muestral. Consistencia Un estimador es consistente si, al tomar muestras mayores, existe certeza de que el valor del estimador se aproxima al parmetro. Suficiencia Un estimador es suficiente cuando utiliza para su clculo la mayor informacin posible de la muestra. 2. ESTIMACIN POR INTERVALOS: es la estimacin del parmetro por un intervalo llamado intervalo de confianza. Se puede afirmar con una determinada probabilidad que el intervalo [a;b] encierra el verdadero valor del parmetro. a y b son variables aleatorias por ser funcin de las observaciones muestrales. b - a es la distancia entre los lmites del intervalo. 1-: nivel de confianza (medida de confianza que refleja la posibilidad que tiene esa muestra de captar el valor del parmetro) Para realizar estimacin por intervalos hay un mtodo general: 1. Se define el parmetro (Mu, P, Sigma) 2. Se define una muestra de tamao n 3. Se define el estimador puntual del parmetro (Media muestral, Proporcin muestral, Desviacin estndar muestral) 4. Se selecciona un estadstico adecuado para realizar la estimacin. a) Debe constituir una variable aleatoria, para lo cual debe ser funcin de las observaciones de la muestra. b) Debe tener una distribucin de probabilidad determinada; es conveniente que sea de uso corriente y tabulada. c) Debe contener en su frmula al parmetro. 5. Se fija un nivel de confianza (1-) que oscila entre 0.90 a 0.99. Constituye una probabilidad cuando se interpreta como la seleccin de todas las muestras de tamao n que pueden extraerse de esa poblacin. En consecuencia 1- es la probabilidad de que el intervalo contenga el verdadero valor del parmetro. De cada 100 muestras de tamao n: 1-% de ellas abarcan el verdadero valor del parmetro en el intervalo (a,b), y el % restante no. 6. Se establecen z y z, los coeficientes de confianza que surgen de la tabla de probabilidad del estadstico (tabla de la normal) y estarn definidos por el nivel de confianza 1- 2.a) Estimacin por intervalos para la media poblacional (parmetro): Aplicando los pasos antes descriptos 1. Parmetro: Mu 2. Tamao de la muestra: n 3. Estimador puntual con distribucin normal en la mayora de las situaciones 4. Estadstico: z 15
5. 1-=nivel de confianza 6. A partir de z y z: P (z<z<z)= 1- 7. Establezco los lmites del intervalo
+- Z / n
RELACIN ENTRE ERROR Y RIESGO Error de estimacin: diferencia absoluta entre el estimador y el parmetro. e = Z . / n Al ser la desviacin estndar un parmetro es constante, en consecuencia los elementos que afectan al error son n y z, adems z depende de 1-. Riesgo: es la probabilidad de cometer un error mayor que el mximo error permitido en la estimacin. Se simboliza como . El error es un valor determinado arbitrariamente cuando se realiza un procedimiento de estimacin. El error es proporcional al nivel de confianza (cuanto mayor nivel de confianza mayor error) e inversamente proporcional al tamao de la muestra (mayor tamao de muestra menor error). El Tamao de muestra para la media poblacional que se requiere para realizar la estimacin con determinado nivel de 2 2 confianza ser: n= z no = no . N Poblacin FINITA Poblacin INFINITA e2 no + (N-1) (conozco el tamao
de la poblacin)
2.b) Estimacin por intervalos para la proporcin poblacional (parmetro): 1. Parmetro: P 2. Tamao de la muestra : n 3. Estimador puntual p se forma mediante el cociente entre la cantidad de xitos en la muestra (x) y el total de las observaciones de la muestra (n). Generalmente tiene una distribucin binomial pero pasar a tener una distribucin normal cuando n*p y n (1-p) sean mayores o iguales que cinco. 4. Estadstico:
Z=
p - P
P(1-P) n P(-z< p - P <z)= 1-
Para determinar los lmites del intervalo:
a= p+z
P(1-P) n
P(1-P) n
b= p-z
P(1-P)
n
Si se realiza el muestreo sabiendo la poblacin finita (N) se agrega el Factor de correccin de poblacin finita:
P: p+-Z
p(1-p)
n
N-n N-1
16
Tamao de muestra para P: Al determinar el tamao de muestra que se requiere para estimar la proporcin poblacional, se desconoce el verdadero valor de esa proporcin. Para resolver esto hay dos opciones: - Trabajar con un valor aproximado de la proporcin de xitos proveniente de trabajos anteriores (cuando lo consigna indica algn P) n = z2 p (1-p) - Trabajar con una proporcin del 0.50 (P=0.50) e2 PRUEBA DE HIPTESIS: Procedimiento de inferencia. Pretende facilitar la toma de decisiones respecto a caractersticas poblacionales, utilizando evidencias muestrales. Examina un supuesto relacionado con el valor de uno o ms parmetros poblacionales, como tambin supuestos respecto del comportamiento de la o las variables en la poblacin. Es demostrar que una aseveracin realizada respecto de la media, de la proporcin o de la varianza poblacional, es refutada o no mediante los resultados provenientes de la muestra de dicha poblacin. El procedimiento de prueba de hiptesis es un caso de eleccin entre dos cursos de accin a seguir o dos alternativas establecidas implcitamente en la hiptesis nula y alternativa. Se necesitan los 4 elementos bsicos de la prueba de hiptesis: 1. Hiptesis conjeturas o supuestos realizados respecto de la poblacin, que pueden estar referidas al parmetro o a la distribucin poblacional. Por ahora se tratar nicamente como el valor que supongo para el parmetro de una poblacin. Aqu se establecen los cursos de Hay dos tipos: H SIMPLE (cuando se determina para un solo valor del parmetro) accin, contrastando los valores H COMPUESTA (cuando se especifica para un conjunto de valores del parmetro) posibles del parmetro. Segn se refiera a H NULA (Ho: lo tradicional, lo histrico. No se han producido en la poblacin los cambios que se especifican un solo valor o a en la H1. Es decir, anula el efecto de la accin propuesta en la H1). un conjunto de valores posibles H ALTERNATIVA (H1: surge como lo opuesto a la HO. Corresponde a una innovacin, muestra un cambio de del parmetro. accin que conduce a modificar lo vigente). Entonces: probamos cuando nos referimos a Ho y verificamos cuando nos referimos a H1 Segn como se especifique la hiptesis alternativa la prueba ser: *Bilateral Ho Mu = Muo H1 Mu Muo
Rechazo Acep -Z* Z* Rechazo
*Lateral Derecha
Ho Mu Muo H1 Mu >Muo
Acep Z* Rechazo
*Lateral Izquierda
Ho Mu Muo H1 Mu < Muo

Rechazo Acep - Z*
17
2. Estadstico de prueba Es una variable aleatoria que surge del muestreo, determinada en funcin de las observaciones de la muestra, que adems tiene una distribucin de probabilidad conocida y definida bajo el supuesto de hiptesis nula cierta. z crtico. Generalmente se establece a partir del estimador puntual del parmetro al que se refiere en la hiptesis nula. Por qu es importante la distribucin de probabilidad del estadstico? Porque sobre esa distribucin se marcan las regiones de rechazo y no rechazo a partir de la probabilidad utilizando el valor terico (de tabla) del estadstico que se corresponde con . La probabilidades llamada nivel de significacin (complemento de 1-). Indica la significancia del resultado muestral para rechazar la hiptesis nula, es decir, a partir de qu punto la muestra es significativamente importante para rechazar la Ho. Me sirve para ver la zona de rechazo o no sobre la prueba. Pero adems de ser la medida probabilstica de la regin de rechazo, es una probabilidad de cometer un error tipo uno, es decir, la probabilidad de rechazar una hiptesis nula que sea cierta. 3. Errores y riesgos de prueba Cuando se realiza la prueba se pueden cometer dos tipos de errores provenientes de la posibilidad de aceptar o rechazar la hiptesis nula con la informacin contenida en una muestra aleatoria, es decir en el campo de lo incierto. Las probabilidades de cometer estos errores son y ERROR TIPO I: P (rechazar la Ho/Ho cierta) = ERROR TIPO II: P (aceptar la Ho/Ho falsa= Decisin HIPOTESIS NULA CIERTA (Ho) HIPOTESIS NULA FALSA (H1) RECHAZAR ERROR TIPO I ACCIN CORRECTA P(ETI) = P(AC/Ho falsa) = 1- ACEPTAR ACCIN CORRECTA ERROR TIPO II P(AC/Ho cierta) = 1- P(ETII) = 4. Criterios de decisin Marcar las regiones de rechazo y no rechazo a partir de las cuales surge el criterio por el cual se va a decidir. Se establece que la Ho no ser rechazada si el valor que proviene de la muestra pertenece a la regin de no rechazo. El valor que acta como elemento de decisin es el resultado muestral, que puede ser el estimador puntual o el estadstico. Procedimiento para realizar una prueba o test de hiptesis considerando el estimador puntual: a) Se fijan las hiptesis nula y alternativa. b) Se define el estimador puntual o el estadstico del parmetro indicado en las hiptesis. c) Se indica el estadstico de prueba = z d) Sealo el nivel de significacin= . Es una regla de decisin. e) Se marcan las regiones de rechazo y aceptacin bajo el supuesto de que la Ho es cierta, lo cual significa que prevalece el valor especificado para el parmetro en la Ho. f) Evidencia muestral: valor observado que ser cotejado con el valor terico del estadstico. Indico el Zobs en los datos muestrales. g) Luego decido, teniendo en cuenta la regla de decisin y comparando Z* (z crtico) y Zobs, donde cae este ltimo: en la zona de rechazo o en la de aceptacin de la Ho. h) Se seala si hay evidencias muestrales suficientes para rechazar una hiptesis nula. Procedimiento para realizar una prueba o test de hiptesis considerando el estimador puntual: idem solo que uso el estadstico Procedimiento para realizar una prueba o test de hiptesis considerando el valor de probabilidad: VP en comparacin con Calculo el rea correspondiente al valor observado a partir de los datos muestrales y decido comparando el VP con el nivel de significacin deseado. Debe establecerse el sentido de la prueba dado que es el factor determinante del rea de probabilidad que debe calcularse para obtener el valor de probabilidad. 18
El VP se determina: En una prueba bilateral calculando la probabilidad del rea a la derecha o izquierda del valor observado y multiplicado por 2. P(z < zobs) . 2 o P(z > zobs) . 2 En una prueba lateral derecha calculando la probabilidad del rea a la derecha del valor observado. P(z >zobs) = 1 P(z < zobs) En una prueba lateral izquierda calculando la probabilidad del rea a la izquierda del valor observado. P(z < zobs) Prueba de hiptesis para la Media: Ej: 1) Parmetro: Mu= La media de gastos operacionales por mes 2) Estadstico: media muestral = $6540 por mes 3) Muestra= 36 meses 4) Varianza= $780 por mes 5) = 0.05 6) Ho: Mo=$7000 A) Sealo las hiptesis Ho Mu 7000 H1 Mu <7000 B) Indico Z* (z crtico) Busco en la tabla de distribucin normal cual es el z correspondiente a una probabilidad acumulada de 0.05.
Rechazo = 0.05 Acep
Lateral Izquierdo
En este caso es Z*= 1.645
C) Obtengo Zobs Z* Zobs= x- Mu = -460/ 130= -3.53
* n
D) Sito a Zobs en la zona de aceptacin o de rechazo. En este caso el Zobs cae en la zona de rechazo de la hiptesis nula ya que -3.53 < 1.645 E) Concluyo que hay suficientes evidencias muestrales para decir que la media poblacional es menor a $7000; en promedio se gasta por mes menos de $7000 en gastos operacionales. Prueba de hiptesis para la Proporcin: En el caso que se trabaje sobre una poblacin dicotmica (solo dos posibilidades. Ej: fumadores/no fumadores; pago en efectivo/pago con tarjeta; clientes/no clientes) el procedimiento se repetir.
E(xitos) x (xitos muestrales)
N (Poblacin total) N-E(Fracasos)
n (Poblacin muestral)
n-x (Fracasos muestrales)
19
P= e/N Proporcin poblacional de xitos p= x/n Proporcin muestral de xitos Procedimiento: A) Sealo hiptesis Ho P Po H1 P < Po B) Nivel de significacin= C) Sealo el estadstico de prueba. En este caso: Lateral Izquierdo
Rechazo
Acep
Z*
D) Calculo el Zobs
Z=
p - P
P(1-P) n
E) Sito a Zobs en la zona de aceptacin o de rechazo Tanto cuando se trata de una prueba de hiptesis para la Media como para la Proporcin Muestral, podemos calcular P y compararlo con . P= Probabilidad de aceptar = Probabilidad de rechazar P (Z <o > Zobs) ? El resultado de esto es P Comparo P con : Si es mayor P entonces acepto. Si es mayor rechazo. *En el caso del ejemplo de prueba de hiptesis de la Media esto sera: P(Z< Zobs)= P(Z< -3.54)= 0.002 0.002 sale de buscar en la tabla de la distribucin normal lo que le corresponde a -3.54. En este ejemplo era igual a 0.05. Comparo con P 0.002<0.05 Rechazo Ho *Si se tratara de un problema con lateral derecho, teniendo en cuenta que la tabla de la normal muestra probabilidades acumuladas desde la izquierda la formula sera: P(Z< (1-Zobs)) *En el caso que la Zobs supere el valor mximo de la tabla, corresponder asignarle la probabilidad de 1. Esto es as teniendo en cuenta que el valor mximo es 3.59 y le corresponde una probabilidad de 0.9998. Por tanto los valores que le siguen tienen una probabilidad mayor. 20
Mtodos/Diseos de muestreo El propsito de la estadstica inferencial consiste en determinar algo sobre una poblacin a partir de una muestra. Una muestra es una parte o porcin de la poblacin de inters. En muchos casos, el muestreo resulta ms accesible que el estudio de toda la poblacin. Razones para muestrear: 1. Establecer contacto con toda la poblacin requerira mucho tiempo 2. El costo de estudiar todos los elementos de una poblacin resultara prohibitivo 3. Es imposible verificar de manera fsica todos los elementos de la poblacin, algunas poblaciones son infinitas 4. Algunas pruebas son de naturaleza destructiva 5. Los resultados de una muestra son adecuados Tipos de muestreo: 1) No Probabilstico 2) Probabilstico: 2a) ALEATORIO SIMPLE: es el ms comn. Consiste en una muestra seleccionada de manera que cada elemento o individuo de la poblacin tenga las mismas posibilidades de que se incluya. Un mtodo para seleccionar una muestra aleatoria consiste en usar un N de identificacin de cada elemento de la poblacin y una tabla de nmeros aleatorios. Estos nmeros se generan mediante un proceso aleatorio (por ej.: computadora). Al emplear nmeros aleatorios se elimina el sesgo del proceso de seleccin. 2b) ALEATORIO SISTEMTICO: se selecciona un punto aleatorio de inicio y posteriormente se elige cada K-simo miembro de la poblacin. K dividir el tamao de la poblacin entre el tamao de la muestra. Al hacerlo se evita el proceso de numeracin. Si k no es un nmero entero, se redondea. La seleccin del primer elemento requiere del muestreo aleatorio simple, el 1 va a ser entre 1 y K. Antes de aplicar el muestreo aleatorio sistemtico hay que observar el orden fsico de la poblacin. Cuando el orden fsico se relaciona con la caracterstica de la poblacin, no se debe aplicar este tipo de muestreo ya que no se garantiza una muestra aleatoria. 2c) ALEATORIO ESTRATIFICADO: cuando una poblacin se divide en grupos a partir de ciertas caractersticas, se aplica el muestreo estratificado con el fin de garantizar el hecho de que cada grupo se encuentre representado en la muestra. A los grupos se los denomina estratos. Una vez definidos los estratos, se aplica el muestreo aleatorio simple en cada estrato con el fin de armar la muestra. Ofrece la ventaja de reflejar con mayor fidelidad las caractersticas de la poblacin. 2d) POR CONGLOMERADO: se emplea a menudo para reducir el costo de muestrear una poblacin dispersa en cierta rea geogrfica. Consiste: una poblacin se divide en conglomerados a partir de los lmites geogrficos o de otra clase. A continuacin se seleccionan los conglomerados al azar y se toma una muestra de forma aleatoria con elementos de cada grupo.
21

Resumen E.. (1) Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen E.. (1) Estadistica

Cargado por

Copyright:

Formatos disponibles

UNIDAD I

CONTINUAS: Asumen cualquier valor en el eje real o surgen de un

DISCRETAS: Asumen valores enteros que se obtienen por un proceso

Distribucin Hipergeomtrica Distribucin Poisson

Funcin de probabilidad normal

5. 1-=nivel de confianza 6. A partir de z y z: P (z<z<z)= 1- 7. Establezco los lmites del intervalo

P(1-P) n P(-z< p - P <z)= 1-

Para determinar los lmites del intervalo:

Ho Mu Muo H1 Mu < Muo

En este caso es Z*= 1.645

C) Obtengo Zobs Z* Zobs= x- Mu = -460/ 130= -3.53

N (Poblacin total) N-E(Fracasos)

n-x (Fracasos muestrales)

También podría gustarte