Está en la página 1de 47

Bioestadstica Universo o Poblacin en estudio. Yo defino mi universo, personas, objetivos, depende de mi marco de referencia.

Generalmente se usa una muestra, con el representante de la poblacin, hago una inferencia estadstica, que es lo que vale para la muestra. x (equis) es mi unidad de anlisis. Es, cada informacin que me entrega un dato o informacin. X, la unidad de anlisis, tiene caractersticas cualitativas o no numricas y cuantitativas. Ejemplos de Clasificacin de las variables Estado Civil: Cualitativo. Nominal. Nombra sin jerarqua. Sexo: Variable binaria H = 0 y M = 1 Se categorizan o codifican, para meterlas al computador Variables indicadoras o Dummy: Van en sistema binario A 1, B 2, C 3o sino: 0 - 0 o 0 -1 o 1-0 Es como que una ampolleta est prendida, o est apagada, no hay un valor numrico. De Captulo 1 de apuntes de Bioestadstica Objetivo principal de la estadstica: Poder extraer conclusiones sobre una poblacin, basndonos en la informacin obtenida de la muestra. : Letra mu Da la media poblacional o promedio. Es un parmetro. Valor medio de la variable aleatoria sobre toda la poblacin. Su valor es desconocido y no puede hallarse a travs de la muestra. Media muestral: Promedio aritmtico de las observaciones. x (variable x) es un dato observado. Se representa por X barra. Promedio X = X Se expresa con un decimal ms de lo que estn los datos en la columna n No hay que redondear hasta el final del clculo, para evitar errores de redondeo. Para presentar y ordenar la informacin se hacen tablas y grficos estadsticos. Si definimos y analizamos una sola variable, se usa la Estadstica Univariada Las tablas y grficos se llaman de Distribucin de Frecuencia Tablas Estadsticas: Es lo ms conveniente para resumir y presentar datos. Ejemplo: estudio de una poblacin por edad. El tipo de grfico, depender de la naturaleza de la variable Si es Cualitativa usar Grfico de Barra, Sectorial o Torta o Pictogramas Si la variable es Cuantitativa: Usar Polgonos de frecuencia, Histogramas o Grficos de Caja. Ordena la informacin y da una visin de conjunto. Hace anlisis exploratorios de datos (analiza la informacin) Es el 1 enfrentamiento con los datos. Estadstico: Tiene el Arte de torturar los datos, para que canten y saquemos conclusiones. Grficos: Representan distribuciones de frecuencias. Estadstica Univariada Con tablas de distribucin de frecuencia, donde las unidades de observacin se clasifican segn un solo criterio. Un ejemplo para variables cualitativas: Se expresan ms en porcentaje Variable Ai es esta ni hi = ni/n Clasificacin por un solo Frecuencia absoluta Frecuencia relativa criterio Va de 0 a 1 P (X = x) Categora A1 n1 h1 A2 n2 h2 Ak nk hk n 1 Es el total o 100% Resultado de la suma Se expresan ms en % ni: Frecuencia absoluta. Es el nmero de veces que se repita cada categora. No se compara con nada Es un nmero entero o del campo de los nmeros naturales, que sirve para contar, incluido el cero. Ni, da origen a una variable cuantitativa discreta sin decimales, cero o mayor que cero hasta uno o menos. n = Es el tamao de la muestra (en general casi nunca vamos a usar a toda la poblacin) La sumatoria de ni se escribe desde n1 hasta k = n1+n2+nk = n En salud, otra forma de decir los nmeros es con frecuencia relativa hi = ni/n

o categora/con respecto al total. Aqu las variables cualitativas en general se dan en % hi = fi va de 0 -1 (de 0 a 100%, si es en %) La frecuencia relativa da la probabilidad secuencial a variables cuantitativas en escala discreta o numrica (sin decimales) = que va con Grfico de Barras. Tabla de Distribucin de Frecuencia Variable ni Ni hi Hi numrica Sin decimales en De aqu se Frecuencia Ni/n Xi un N y de aqu saca relativa Frecuencia se saca mediana ni/n relativa Unidad de promedio. acumulada anlisis Frecuencia absoluta X1 n1 N1 h1 H1 X2 n2 N2 h2 H2 X3 n3 N3 h3 H3 Xk nk Nk hk Hk n 1 El total o Resultado de la 100% suma Slo se requiere una mquina con un modo que meta los datos N1 = Frecuencia absoluta acumulada N1 = n1, N2 = n1+n2 Nk = Sumatoria de n1 hasta nk = n X barra, es el promedio de la variable. Para calcularlo se usa la columna n Mediana: Es una medida de ubicacin central. Primero ordenar y 2 buscar ubicacin central usando columna N Hi = Ni/n Frecuencia relativa acumulada H1 = h1 H2 = h1+h2 Hk = Sumatoria de h1 hasta hk, o de los hi = 1 Escala Continua X1 Xi = ni Ni hi Hi va igual 2 Ej: T, edad En Xi no va un solo valor Va variable Es difcil individualizar una variable continua Es mejor trabajar en rangos o intervalos. Se trabaja en intervalos de confianza. Por convencin la edad se considera: 0 a 5 y abajo se repite el 5 en intervalo 5 a 10 y se contar abajo. Se pone en realidad 0 a 4, pero la marca de clase es entre 0 y 5 (0+5)/2= 2,5 (y no 2) Yi= yi + yi-1 yi-1 - yi ni 2 de aqu se saca Marca de clase promedio Mitad de la semisuma Frecuencia absoluta Representa a todo el intervalo y1 = yi + yi-1 y0 yi n1 2 Es un intervalo de clase y2 y1 - y2 n2 y3 y2 - y3 n3 yk yk-1 - yk nk penltimo - ltimo La 1 Medida de dispersin de una variable es L = poner el valor mayor valor menor Ej: 100 47 kilos = 53 kilos. Medida de dispersin o Recorrido de la variable: Qu tan dispersos estn los datos? L = yk - yo Ci Es amplitud del intervalo L = yi yi-1 k Ci= L k K= N de intervalos de la tabla, que es arbitrario. O sino usar

K = Log natural de n Para construir tablas con intervalos de igual amplitud Ejemplo Ac K = 5 L = 100 47 = 53:5 = 10,6 Si se sacan los decimales es mejor aproximarlos hacia arriba siempre: 10,1 = 11 10,6 = 11 Mejor no eliminar decimales en cada proceso, porque se pierde informacin Yi Peso ni N1 Marca de clase +10,6 Frecuencia Mitad de la semisuma absoluta Representa a todo el intervalo 52,3 = (47+57,6)/2 47 - 57,6 15 15 62,9 57,6 - 68,2 10 25 73,5 68,2 - 78,8 9 34 84,1 78,8 - 89,4 5 39 94,7 89,4 - 100 3 42 Al final el que pesa 100 queda adentro Total 42 Tamao de la muestra Y cmo se distribuye la variable peso en el curso de MSP 2009? Se distribuye en forma normal o Gaussiana? Un grfico que representa a una variable continua es un histograma (conjunto de barras unidas, continuas, No hay que dejar espacios con intervalos), o un polgono de frecuencia. Abajo en eje de las abscisa, va la variable peso. Ac la variable peso no se comporta de forma normal, tiene asimetra (+) la mayora es ms livianito. Histogramas asimtricos ya no son normales ni Gaussianos Histograma: Muestra de una distribucin de frecuencia de una variable continua, levantados sobre los intervalos de clase. Caractersticas de un histograma El rea de las distintas barras representa a toda la informacin, a todos los datos, representa la distribucin de la variable. La marca de clase se ubica al medio abajo, en cada barra. Se proyecta arriba, para que se una con una raya y da, el polgono de frecuencia (que suaviza la imagen) Al final es frecuente borrar el histograma y slo dejar la lnea del polgono de frecuencia. Permite comparar 2 o ms distribuciones de frecuencias. El histograma simtrico, es el que contiene la curva normal. Esto es lo deseable en estadstica, de donde se saca el mayor provecho posible. Al representar 2 o ms histogramas, comparamos distribuciones de frecuencia TABLA Al ver 1 tabla, veo por ejemplo cual es el Universo del MSP 2009. Puede ser con Variable continua (que se hace con histograma) u otra, con variable cuantitativa discreta o numrica (que se hace con Grfico de Barras) Tabla de Distribucin de Frecuencia Variable ni Ni hi Hi cuantitativa N de Frecuencia Frecuencia Frecuencia discreta observaciones simple relativa relativa Xi (N Hnos) Frec simple acumulada ni/n = % acumulada n de alumnos P (X = x) Categora: X1 = 0 7 7 7/43 7/43 X2 = 1 12 19 12/43 19/43 X3 = 2 n3 = 14 N3 = 33 14/43 = 32,5% 33/43 = 76,7% 3 7 40 7/43 40/43 4 0 40 0/43 40/43 5y+ 3 43 3/43 43/43 Ojal no poner n=43 43/43=1 y+ hi 360 = Grfico sectorial o de torta X3= N de hermanos o variable discreta = 2 Hermanos n= N de observaciones = En 43 alumnos

Cuntos hermanos hay? Total = 0x7+1x12+2x14+3x7+4x0+5x3 = 76 X de Hermanos = Total 76 = 1,8 N de alumnos Moda o Modo N que ms se repite 14 en 2 hermanos n3 = 14 alumnos tienen 2 hermanos exactamente. Moda es 2 hnos, la categora N3= 33 alumnos tiene a lo ms 2 hermanos. h3 = 14/43 = 32,5% de los alumnos tiene exactamente 2 hermanos. Esta da una idea ms exacta H3 = 33/43 = 76,7% de los alumnos tienen a lo ms 2 hnos. 0,76 en decimales Una chance de sacar un alumno que a lo ms tendr 2 hermanos Graficar sirve para encontrar otra medida: La Mediana Cmo pasarlo a grfico sectorial o de torta? Multiplicar hi x 360 cada una de las frecuencias relativas 7/43 x 360 = 583 seg. con cero hnos. El computador hace esto en colores! Para presentar y ordenar la informacin, se hacen tablas y grficos estadsticos Estadstica Bivariada Si definimos y analizamos 2 variables en estudio (ya sea del campo cualitativo o cuantitativo) buscaremos una asociacin o causalidad. x, y y = f(x) Ejemplo: Tiempo: medir la t de esta sala, cada 5 minutos. x = Variable independiente, puede ser aleatorio, o algo que uno controla (generalmente), Ejemplo: Tiempo: mediciones cada 5 minutos. y = Variable dependiente o variable respuesta. Es una sola. y = Yo no se que t va a dar o va a salir. y = Puede ser cuantitativa o cualitativa. Si y es cualitativa, debo meterla en un modelo como variable Dummy (0 0, 0 1, 1 0) Otra clasificacin es binaria: 0 o 1. Otra es logstico (modelo de regresin): Ej de respuesta: 0: vive y 1: muere Para ordenar la informacin uso tablas y grficos de asociacin. Tambin existe la Estadsticas multivariadas o modelos de regresin mltiple. (que no veremos) y= Variable dependiente o variable respuesta es una sola. x= Hay muchas variable independiente. Tablas y grficos con 2 o ms variables: Tablas y grficos de asociacin. Muestra la relacin entre 2 o ms variables. Grficos: Visualiza si hay o no asociacin entre 2 o ms variables. y = f(x) x va en la abscisa Grfico de correlacin: Computador da saca nube de puntos, que vienen en una tabla de asociacin. Ej Tabla de asociacin simple. Asociacin entre 2 variables Esto es lo ms sencillo Hay una respuesta a cada variable cualitativa. Cada valor da una respuesta, un solo valor. De aqu salen todos los modelos matemticos. Monitos varios En realidad no es una recta, no es puro, nosotros tenemos muchos datos, un conjunto de valores. Al modelar, el computador saca una lnea que se parece a y ve si sigue o no una tendencia. Otro grfico de asociacin es el de Caja (Box Plot) que sirve para conocer la dispersin de una variable. Se usa en cualquier variable: cuantitativa o numrica discreta o continua. La variable se mide slo en las y. Ah salen en Quartiles Si es en Percentiles, el total lo divide en cien partes. Percentil 75 corresponde al Cuartil 3 = Q3 Mediana o percentil 50 o Cuartil 2 = Lnea horizonte. Medida de posicin. Si se ubica justo al centro de la caja, la distribucin sera normal. Los extremos representan los percentiles 25 y 75 Recorrido Intercuartlico (RI) o Dispersin, es una distancia: Q3 Q1. Tambin se llama recorrido interpercentlico RI: P 75- P25 Estrellita o valores atpicos: Est fuera del rango normal. Sobrepas un margen que llamamos normal, se sale de los cuartiles. Si hay muchos valores atpicos en mis datos, el promedio y la varianza no me sirven. Mejor hay que usar 1 medida de posicin: Mediana. Adems puedo inventar una referencia Percentil 25 o Cuartil 1 Q1- 1,5 RI = REF 1. Si me apoyo arriba Q3+ 1,5 RI = REF 2 REF 1 y REF2 No van en el grfico (Estn virtuales) Q Cuartil Medida de dispersin que no se toma en cuenta: ni el 25% menor, ni el 75% mayor

Cmo se hace una asociacin entre 1 variable continua (Como el peso) y una variable cualitativa? Se representan 2 o ms cajas, Compara dispersin de 2 o ms distribuciones de frecuencias. Cuando tengo 2 variables continuas, se hace un grfico de correlacin. La fase descriptiva de la Investigacin, usa Indicadores de posicin y de Tendencia Central. 3 Medidas de Resumen 1. Medidas de posicin: Se divide el total en las medidas que yo quiera: Cuartiles, Deciles, Percentiles, Quintiles: No intentan representar el centro. 2. Medidas de Tendencia Central (Media, Mediana, Moda): Resumir los datos en un solo N Por ejemplo el promedio: O Media aritmtica, es lo que ms usamos. Suma de todos los n o valores o nmero de observaciones / n de valores Cuando N es de toda la poblacin, es nico, el parmetro no vara (). Si es de n, o de una muestra, es el promedio muestral (X): Ah pueden existir muchos datos, y el valor cambia de una muestra a otra. (Tiene varianza y su variabilidad es normal) El X barra es el representante de todo un grupo, pero no todos estn ah. El promedio general es referencial, no representativo. El promedio para ser validado debe estar acompaado de la Desviacin Standard (DS) respectiva. Se usa en variables de escala ordinal o cuantitativas (Discreta o continua) o para variables cualitativas que se les dio un puntaje (Ordinal o en Porcentaje de 0 a 100%) Cuando hay muchas observaciones, lo agrupo en frecuencias simples. Xi 0 1 2 Total ni 4 8 3 15 personas Hermanos Xi 0 8 6 14 Hnos

X = 14/15 = 0,93. Puede ser distinto de un Natural, Puede ser un decimal Cuando es ponderado, el X va al valor mayor. La moda es la categora de 1 hermano Cuando hay Intervalos (Variable Continua) hay que hacer + simple el mensaje, al que lo recibe: Xi 2,0 6,0 Sale de: (4+8)/2 = 6 10,0 14,0 18,0 Xi-1 Xi 0-4 4-8 8-12 12-16 16-20 Frec. N de Unidades 10 20 40 20 10 100 personas X por n 20,0 Es el promedio del estrato 120 Es el promedio del estrato, que es ms representativo 400 280 180 X: 1000 Total Slo es referencial, no representativo

Propiedades del promedio o Media Aritmtica Cualquier desplazamiento que existe, lo asume bien. Cuando existe una Constante que se agrega o quita, a cada valor, se le suma o resta igual, al promedio. Ej: Si la balanza estaba mala y quitaba 3 kilos, al promedio le agrego los 3 kilos y listo. Lo mismo pasa con la multiplicacin. Ej: Se lo cobr sin IVA del 19% = 1,19. Fallas en el promedio son debido a la variabilidad: Por varianzas muy grandes. Entones hay que estratificar para que los estudios sean vlidos Ej: Encuesta de variaciones de precio de TV de $50.000, no es lo mismo que vare $50.000 en precio de autos. Mediana: Valor que se posiciona justo en la mitad del conjunto de datos ordenados. Es un Indicador de acumulacin. Deja 50% arriba y 50% abajo. No se mueve, es estable. As que 1 hay que ordenar informacin. En datos impares se toma el n del medio ((n+1)/2) Cuando son pares se saca el Promedio de los 2 de la posicin del centro, entre n/2 y (n+1)/2 +1 Se usa cuando hay valores extremos, que no son representados por el promedio, o cuando la distribucin es asimtrica. Se usa en variables de escala

ordinal (Discreta o continua) No es afectada por los valores extremos. Con datos individuales, no hay problema para calcular la mediana. Mediana en una tabla: Se encuentra en el N, se saca el N acumulado de menor a mayor, tomando hasta el n/2 si es exacto, o sino, a penas pase el n/2. Moda o Valor Modal. La mayora, Lo ms frecuente. En datos sueltos, el dato que ms se repite Ej: 14 alumnos con exactamente 2 hermanos. La mayora tiene exactamente 2 hermanos. No es el N, es la categora. Polimodal: Varias modas: Distintos valores modales en el ao. Moda en datos agrupados: Edad, gnero, regiones. Cuando la distribucin es simtrica, coinciden los valores de media aritmtica, mediana (Me) y la Moda (Mo) Se usa el promedio, porque es el ms conocido. 3 Medida de Dispersin: Alrededor de ese nmero se ubican todos Qu tan dispersos estamos? Si un dato se repite Ej: 8,8,8,8,8, la Dispersin es = 0 La varianza = 0. Dispersin Absoluta: Tienen unidad de medida. - Varianza - Desviacin estndar (DS) Mide que tan variable es la distribucin DS Mide la variabilidad. Si la DS es muy grande respecto del promedio, es mejor cambiarse a la mediana. - Recorrido Intercuartlico - Recorrido de la variable: Valor Mayor menos Valor menor, pero depende de los datos extremos. Medidas de Dispersin Relativa: No tienen unidad de medida Coeficiente de variacin (CV): Mide % de variacin Ej: 80% de variacin. Al comparar 2 medidas con unidades distintas Puntaje Estndar y Puntaje Tpico Percentil: Es un Indicador de acumulacin, ms especfico que la mediana. P20 = Calculo el 20% Ej. Asignamos un bono a las personas que estn bajo el P20 de esa Comuna, del 20% para abajo que gana menos del $ Decil: Divide de 10 en 10 Quintil: 5 Quintiles Cuartil: 25, 50, 75% Edad ni N de observaciones Frec simple 10 20 40 20 10 n=100 Ni Frec simple acumulada 10 30 70 90 100

1-5 5-9 9-13 Aqu Me o P50 13-17 17-21

Mediana (Me) es n/2 = 50 La Mediana en valores en rango se saca as: El valor inmediatamente superior a 50 es el intervalo 9-13 adems 13-9 = 4 de ancho. Me = Lm Inf del intervalo + Me o (n/2) Ni-1 por Ci (o ancho del intervalo) n del valor al que me pas (n/2) P50 o Me = 9 + 50-30 por 4 = 11K 40 O sea 50% de los nios pesan 11 kilos o menos o bien 50% de los nios pesan 11 kilos o ms. En percentil: Pp = Lm Inf del intervalo + n por p/100 Ni-1 por Ci (o ancho del intervalo) n del valor al que me pas

P25 = 5 + 25-10 por 4 = 8K 20 25% de mi total En este ej. 25% de 100 25% de los nios pesa 8 K o menos, 75% de los nios pesa 8 K o ms. Deciles Calcula de 10 en 10 Cuartiles Qq Calcula de 20 en 20 = 20, 40, 60, 80 Cuartiles Qq De 25% 4 de 4 (Q1 a Q4 1 cuartil n/4 Marca de clase 3 Que sale de: 1+5 2 7 11 15 19 yi-1 yi 1-5 Se repite el 5 abajo 5-9 9 - 13 13 - 17 17 - 21 n 10 20 40 20 10 Total n =100 N 10 30 70 90 100 X por n X del estrato 3 por 10 = 30 Usar marca de clase y el n 7x20 11x40 15x20 19x10 1.100 = 11 K 100

Promedio de y = Sumatoria de yi por ni n Y = 3x10+7x20+11x40+15x20+19x10 Esto da 1.100 = 11 Kilos 100 casos en ejemplo de arriba 100 Si promedio de y es = Mo = Me , entonces la distribucin es simtrica. Continuar 3. Medidas de Dispersin Bioestadstica 2 Apuntes Profesor Enrique Hernndez Induccin a la Bioestadstica. Medidas de Dispersin absoluta Varianza Si x es la variable en estudio V(x) = Sx2 = (x1-X)2 + (x2-X)2 +(xi-X)2 n Varianza es el Promedio o media aritmtica, de las diferencias al cuadrado. O es la suma, de los cuadrados de las diferencias, entre los datos puntuales y el promedio. Se usa al cuadrado, para que las diferencias negativas no anulen a las positiva. Es la variabilidad con respecto a lo que estamos midiendo. Para los datos no agrupados saco el promedio, y la variabilidad es una medida de dispersin con respecto a ese promedio. Varianza. Por ejemplo si digo niveles de LDL de 18449,1 mg/dl La varianza de la variable es (49,1)2 O sea 2411mg2/dl2 Para los datos agrupados en tablas, calculo 1 la marca de clase, despus la varianza. V(y) = (y1-Y)2. n1 + (y2-Y)2. n2+(yn-y)2.ni n V(y) = Sumatoria de 1 hasta n de (yi-Y)2.ni n Usualmente las varianzas muestrales se escriben hasta con 2 cifras ms, que lo que traen los datos. Marca Xi-1 Xi Frec. X por n

de clase 15 25 35 45 55

N de Unidades 10-20 20-30 30-40 40-50 50-60 12 27 15 7 3 64 personas 15x12 Es el promedio del estrato Es el promedio del estrato, que es ms representativo

X: 29,06 Total Slo es referencial, no representativo

En el primer rango de edad (y muestra de clase), veo cuanto se desva 15 de 29,06, pero adems al cuadrado, y por doce veces: La calculadora cientfica entrega 10,56 Para llegar a la Varianza se eleva al cuadrado y da 111,62, Un n grande Si la varianza da un n grande, los datos estn distribuidos de manera amplia, muchos de ellos alejados del promedio. Kurtosis como platicrtica (Como plato o con poco apuntamiento) Si saliera un n pequeo = los datos no estn muy dispersos. Los datos puntuales estaran agrupados cerca de la media (o cerca del promedio) Leptokurtica, lo ms apuntada. Esperamos que las caractersticas de nuestra muestra, reflejen bien las caractersticas de la poblacin correspondiente. La variabilidad detecta ms all de las medidas de posicin central (media, mediana, moda) Medimos la variabilidad en la muestra, para comprender el grado de variacin que existe en la poblacin. Hay 4 medidas de variacin o de variabilidad. Rango muestral se usan para aproximar el rango de la poblacin Varianza muestral S2 Desviacin Standard muestral S o DS Rango intercuartlico iqr Rango de la poblacin Varianza de la poblacin 2 DS de la poblacin Rango Intercuartlico de la Poblacin IRQ

4 Propiedades de la Varianza (Para no trabajar de ms) 1- Siempre es un N positivo V(X) Mayor o igual a cero. V(X) 0 2- La Variabilidad de una constante da cero. Si los datos son: 6,6,6,6, El promedio es 6 El mismo dato V(k) = 0 No hay variabilidad, porque todo es igual. 3- Si a 1 variable le agregamos algo (por ej. Le sumo 10 aos), la variable no se altera: V (x+k) = V(x) Que le ocurre a una varianza en 10 aos ms: El Promedio ahora ser igual, se corre no ms, porque todos los valores se corren en 10 aos ms. Cuando 2 poblaciones tienen igual varianza = Homogedasticidad puedo pedirla prestada al otro estudio, para no trabajar de ms. 4- Cuando multiplico 1 varianza por una constante, la varianza cambia al cuadrado V (k) = K2 (Vx) Se reajusta 15 % el sueldo: Implica que el ingreso promedio ser 1,15x Si sube una nota 5, un 15% = 5,75 O sea X+15% de x = x+0,15 As 1,28 = Significa que aument 28% Si baja 15% = 100-15 = 85 o sea x . 0,85 Ej: Si mi Ingreso Promedio de 492,3 Miles de pesos, aumentara un 15% quedara: 492,3 x 1,15 = 566,145 Miles de peso Y cmo se altera la varianza aqu?= V(1,15x) = (VX) 1,152 Sale afuera al cuadrado . As que cuando se da un reajuste de x%, el sueldo menor se va distanciando ms del mayor, y ms encima al cuadrado! Y cuando el sueldo pasa de miles de pesos a dlares, qu pasa con el promedio? Y qu pasa con la Varianza? La 2 herramienta es la Desviacin Standard (DS) DS medida de dispersin absoluta que representa a la raz cuadrada de la varianza. Va con la misma unidad de la variable, se registra con un decimal ms que los datos. Varianza y DS prcticamente son lo mismo una est al cuadrado y la otra no. Interpretacin de la DS

Todas las propiedades que tiene la varianza las tiene la DS. Siempre ser positiva Si x es la variable de la Varianza = V(x) F2x DS Raz cuadrada de Varianza, por lo que DS no es negativa. La gran propiedad de la DS sern los estndares Si la distribucin de nuestra variable en estudio, es aproximadamente normal, entonces se cumple que si el promedio se le resta 1 DS y se le suma 1 DS, podemos esperar que la poblacin o la cantidad de datos sea 68% de la informacin (X - DS, X + DS) = 68% y cualquier valor que se arranque de una DS lo considerar anormal Ej: X=70 Kilos, con DS: 5 K As que 2 DS sern 10 Kilos: Ir de (65 , 75) (y 68% es estndar) Qu pasa si al X le resto y le sumo 2 DS? Quedar (60, 80) = 95% A dos DS se encontrar el 95% de la poblacin y si se arranca ms all de 2DS lo considerar anormal. Si estn a 3DS o 3 sigmas 3 (15 kilos: 55, 85) se encontrar el 99,7% de todas las observaciones = De mil, se salen 3. Para mi Universo, o lugar donde tendrn validez mis resultados= Para que esto tenga validez, la variable tiene que tener cierto comportamiento normal. El eje donde mido DS y % es abajo, en la abscisa. Cuando uso 2DS el 95% de los datos caern al medioMide probabilidad. De cien veces, 95 caer al medio, y quedarn 2 zonas de 2,5% y 2,5% Zona de rechazo o de error alfa (Bilateralidad), a las cuales es difcil llegar por azar. Caer ah no es por azar, (porque si fuera lo normal, caera al medio) Varianza y DS prcticamente son lo mismo, una est al cuadrado y la otra no. No hay que usar la Varianza cuando hay muchos valores atpicos Cmo se tratan los datos atpicos? Hay un error del instrumento? Hay un error de la persona? Hay herramientas para meterlo, sin que lo afecte: La Mediana (Me) Si meto la cabeza al horno y los pies en la nevera, el promedio va a decir que la T es normal Otra medida de Dispersin Absoluta es el Recorrido Intercuartlico (RI o IQ) = se usa cuando existen valores atpicos. RI es la diferencia entre Q3 y Q1 (Q3-Q1) Longitud del intervalo que contiene aproximadamente el 50% de los datos situados en el medio. No toma en cuenta el 25% inferior ni el 75% superior. Cuartil: Es una medida de posicin Q1 = percentil 25 = P 25, y Q3 = P75 As que es igual a: P75 - P25 Si este RI, o esta diferencia es pequea, entonces la mayora de los datos, se encuentran cerca del centro de la distribucin. P50 = Q2 Me: Siempre la mediana, va asociada al Recorrido Intercuartlico (RI) Cuando la distribucin es simtrica, como medida de posicin se usa el promedio (O tambin llamado, media) y asociado, como medida de dispersin se usa la varianza. Pero cuando la distribucin es asimtrica, como medida de posicin se usa la mediana (Me) y asociado, como medida de dispersin al Recorrido Intercuartlico (RI) Cmo se calcula en datos el RI? Lim inf Intervalo Frec acum. de intervalo ant Qq = Y i-1 + nq/4 (si es quarti) - Ni1 . Ci (amplitud del intervalo) ni Anlisis exploratorio de datos. Ejemplo Marca de Edad Frecuencia o Frecuencia absoluta clase Xi-1 Xi N de Unidades acumulada 0+5 = 2,5 0-4 (5) 15 15 2 Amplitud de intervalo es 5 (5+10)/2=7,5 5-9 27 42 12,5 10-14 31 73 17,5 15-19 9 82 22,5 20-24 5 87 87 es mi n Nmero de intervalos que hay que hacer = k. Siendo K el logaritmo natural de n.

Ojal que los intervalos no sean muy grandes, porque en la marca de clase, los datos sern ms aproximados. Cuando los intervalos son iguales (como en este caso de 5 en 5) se pueden sacar todas las medidas de posicin y de dispersin. Anlisis de Chapiro: Ve si los datos se distribuyen o no, en forma normal Una forma de verlo es con grficos para variables cuantitativas: el Histograma u otra con el Grafico de Caja. Q1 = Ubicado en n/4 Ej. 87/4 = 21,75 Ese n se busca en N mayscula. El intervalo de edad al que corresponde, est entre 5 y 9 aos Q1 = 5 + 21,75 - 15 . 5 = 6,25 aos 27 Q3 : Ubicacin en n3/4 de 87 = 65,25 que estara en el intervalo de edad de 10 a 14 aos. Q3 = 10 + 65,25 - 42 . 5 = 13,75 aos 31 Q2 = Mediana = 10,24 RI = Q3 Q1 RI = 13,75 6,25 = 7,5 que est alrededor de la mediana. Es una distancia Es normal la distribucin de estos datos? Se vera con Histograma hecho con el n de personas, que es n (o mi frecuencia: 15, 27, 31, 9 , 5) Medida de dispersin Relativa Para comparar datos se usa el Coeficiente de Variacin CV = DS . 100 X Compara la variabilidad en un conjunto de datos con la de otro conjunto. Cuociente entre la DS y el Promedio de la variable. Se mide en porcentaje de variacin, en trminos porcentuales, as que es adimensional. Permite comparar distribuciones con distintas unidades de medida. Si CVx es mayor que CVy, es que x es ms heterognea, tiene ms variacin. X tiene mayor dispersin (Sea x medido en cm. o sea medido en kilmetros) Ej: x y 112,7 0,8 121.7 0,9 136,6 1,4 133,9 2,1 141,7 3,9 Para x = X: 128,46 DS: 10,25 CV 10,25/ 128,46X100= 0,797 o sea 797% Para y = Y 1,82 DS 1,137 CV = 62,47 Todo lo anterior son medidas de resumen Ve como est la ubicacin de algo o de una persona, con respecto al grupo o el total Si se toma otra unidad de anlisis, por ejemplo el n 132,4, cmo estar en relacin a 0,797 de mi tabla anterior? Lo comparo con el puntaje tpico o Puntaje Estndar = Z Si un alumno se saca un 5,9 en Bioestadstica y un 4,8 en Epidemiologa, yo digo que le fue mejor en Bioestadstica. Pero comparado con el curso: Promedio de Bio: 6,5 DS Curso Bio= 1,3 Curso X Epi = 4,3 DS 1,15 Ubico al alumno en relacin al curso con Z, que coloca una unidad, en relacin al total. Como medida de dispersin relativa, no tiene unidad de medida, es un coeficiente entre una observacin y su promedio en trminos de 1 DS Z = Xi X Lo de arriba es una variable, con unidad de medida, que no se va al restar DS Xi Esta variable numrica se transformar en Zi; sufre una transformacin lineal.

Caractersticas: Toda variable, no importa cual sea, se puede transformar en Puntaje Estndar. Para compararse con otra dispersin. Puede ser positiva (+) o negativa (-) Propiedades de Z Al sacar el promedio de todos los puntajes estndares siempre ser cero Promedio de Z = 0 y la Varianza de Z es 1 V(Z) = 1 Z: Su nmero puede ser positivo o negativo Si la varianza es uno V(Z)= 1 Cunto es la DS de Z? = Raz cuadrada de V(Z) = Z Si se asocia la 1 puntaje y sale mayor en (+) es mejor que el grupo, y se corre ms a la derecha de la lnea. Si sale (-) o ms a la izquierda estar en relacin, ms bajo. Xi X Neg X Curso Bio: 6,5 DS Curso Bio= 1,3 Alumno 5,9-6,5 = - 4,6 Le fue peor que al curso 1,3 Curso XEpi = 4,3 DS 1,15 Alumno: Epi 4,8 As que Z de Epi= 4,8-4,3 = 0,45 1,1 Al alumno con un 4,8 en Epi (Que es menor que su 6,5 de Bioestadstica), le fue mejor que al curso por que est positivo 0,45. Otra medida de Dispersin es el Recorrido de la Variable = L L = Valor mayor Valor menor Pero se usa poco, porque se influencia mucho por los valores extremos. Frmulas en Estadstica : Da la media poblacional o promedio. Es un parmetro. Valor medio de la variable aleatoria sobre toda la poblacin. Su valor es desconocido y no puede hallarse a travs de la muestra. Media muestral: Promedio aritmtico de las observaciones. x (variable x) es un dato observado. Se representa por X barra. Promedio X = X Se expresa con un decimal ms de lo que estn los datos en la columna n n = Es el tamao de la muestra La sumatoria de ni se escribe desde n1 hasta k = n1+n2+nk = n En salud, otra forma de decir los nmeros es con frecuencia relativa hi = ni/n Tabla de Distribucin de Frecuencia Variable ni Ni hi Hi numrica Sin decimales en De aqu se Frecuencia Ni/n Xi un N y de aqu saca relativa Frecuencia Unidad de se saca mediana ni/n relativa anlisis promedio. Va de 0 a 1 acumulada Frecuencia P (X = x) absoluta X1 n1 N1 h1 H1 X2 n2 N2 h2 H2 X3 n3 N3 h3 H3 Xk nk Nk hk Hk n 1 El total o Resultado de la 100% suma Se expresan ms en % Escala Continua X1 Ej: T, edad En Xi no va un solo valor Va variable Es difcil individualizar una variable continua Es mejor trabajar en rangos o intervalos. Se trabaja en intervalos de confianza. Por convencin la edad se considera: 0 a 5 y abajo se repite el 5 en intervalo 5 a 10 y se contar abajo. Se pone en realidad 0 a 4, pero la marca de clase es entre 0 y 5 (0+5/2= 2,5 y no 2) Yi= yi + yi-1 yi-1 - yi ni 2 de aqu se saca

Marca de clase Mitad de la semisuma Representa a todo el intervalo y1 = yi + yi-1 y0 yi 2 Es un intervalo de clase y2 y1 - y2 y3 y2 - y3 yk yk-1 - yk

promedio Frecuencia absoluta n1 n2 n3 nk

La 1 Medida de dispersin de una variable es L = poner el valor mayor valor menor Ej: 100 47 kilos = 53 kilos. Medida de dispersin o Recorrido de la variable: Qu tan dispersos estn los datos? L = yk - yo Ci Es amplitud del intervalo L = yi yi-1 k Ci= L k K= N de intervalos de la tabla, que es arbitrario. O sino usar K = Log natural de n Para construir tablas con intervalos de igual amplitud Ejemplo Ac K = 5 L = 100 47 = 53:5 = 10,6 Si se sacan los decimales es mejor aproximarlos hacia arriba siempre: 10,1 = 11 10,6 = 11 Mejor no eliminar decimales en cada proceso, porque se pierde informacin. Yi Marca de clase Mitad de la semisuma Representa a todo intervalo 52,3 = (47+57,6)/2 62,9 73,5 84,1 94,7 Peso +10,6 el ni Frecuencia absoluta N1

47 - 57,6 15 15 57,6 - 68,2 10 25 68,2 - 78,8 9 34 78,8 - 89,4 5 39 89,4 - 100 3 42 Al final el que pesa 100 queda adentro Total 42 Tamao de la muestra Y cmo se distribuye la variable peso en el curso de MSP 2009? TABLA Al ver 1 tabla, veo por ejemplo cual es el Universo del MSP 2009. Puede ser con Variable continua (que se hace con histograma) u otra, con variable cuantitativa discreta o numrica (que se hace con Grfico de Barras) Tabla de Distribucin de Frecuencia Variable ni Ni hi Hi cuantitativa N de Frecuencia Frecuencia Frecuencia discreta observaciones simple relativa relativa Xi (N Hnos) Frec simple acumulada ni/n = % acumulada n de alumnos P (X = x) X1 = 0 7 7 7/43 7/43 X2 = 1 12 19 12/43 19/43 X3 = 2 n3 = 14 N3 = 33 14/43 = 32,5% 33/43 = 76,7% 3 7 40 7/43 40/43 4 0 40 0/43 40/43 5y+ 3 43 3/43 43/43 Ojal no poner n=43 43/43=1

y+ hi 360 = Grfico sectorial o de torta Cuntos hermanos hay? Total = 0x7+1x12+2x14+3x7+4x0+5x3 = 76 X de Hermanos = Total 76 = 1,8 n de alumnos (43) Moda o Modo N que ms se repite 14 en 2 hermanos n3 = 14 alumnos tienen 2 hermanos exactamente. Moda es 2 hnos, la categora N3= 33 alumnos tiene a lo ms 2 hermanos. h3 = 14/43 = 32,5% de los alumnos tiene exactamente 2 hermanos. Esta da una idea ms exacta H3 = 33/43 = 76,7% de los alumnos tienen a lo ms 2 hnos. 0,76 en decimales Una chance de sacar un alumno que a lo ms tendr 2 hermanos Para presentar y ordenar la informacin, se hacen tablas y grficos estadsticos Estadstica Bivariada Para ordenar la informacin uso tablas y grficos de asociacin. Tambin existe la Estadsticas multivariadas o modelos de regresin mltiple. y= Variable dependiente o variable respuesta es una sola. x= Hay muchas variable independiente. Tablas y grficos con 2 o ms variables: Tablas y grficos de asociacin. Muestra la relacin entre 2 o ms variables. Grficos: Visualiza si hay o no asociacin entre 2 o ms variables. y = f(x) x va en la abscisa Grfico de correlacin: Computador da saca nube de puntos, que vienen en una Tabla de asociacin simple. Asociacin entre 2 variables Esto es lo ms sencillo Hay una respuesta a cada variable cualitativa. Otro grfico de asociacin es el de Caja (Box Plot) que sirve para conocer la dispersin de una variable. Se usa en cualquier variable: cuantitativa o numrica discreta o continua. La variable se mide slo en las y. Ah salen en Quartiles Si es en Percentiles, el total lo divide en cien partes. Percentil 75 corresponde al Cuartil 3 = Q3 Mediana o percentil 50 o Cuartil 2 = Lnea horizonte. Medida de posicin. Si se ubica justo al centro de la caja, la distribucin sera normal. Los extremos representan los percentiles 25 y 75 Recorrido Intercuartlico (RI) o Dispersin, es una distancia: Q3 Q1. Tambin se llama recorrido interpercentlico RI: P 75- P25 Estrellita o valores atpicos: Est fuera del rango normal. Sobrepas un margen que llamamos normal, se sale de los cuartiles. Mediana: Si hay muchos valores atpicos en mis datos, el promedio y la varianza no me sirven. Mejor hay que usar 1 medida de posicin: Mediana. Q Cuartil Medida de dispersin que no se toma en cuenta: ni el 25% menor, ni el 75% mayor Cmo se hace una asociacin entre 1 variable continua (Como el peso) y una variable cualitativa? Se representan 2 o ms cajas, Compara dispersin de 2 o ms distribuciones de frecuencias. Cuando tengo 2 variables continuas, se hace un grfico de correlacin. La fase descriptiva de la Investigacin, usa Indicadores de posicin y de Tendencia Central. Medidas de Resumen 1. Medidas de posicin: Se divide el total en las medidas que yo quiera: Cuartiles, Deciles, Percentiles, Quintiles: No intentan representar el centro. 2 Medidas de Tendencia Central (Media, Mediana, Moda): Resumir los datos en un solo N El promedio para ser validado debe estar acompaado de la Desviacin Standard (DS) respectiva. Se usa en variables de escala ordinal o cuantitativas (Discreta o continua) o para variables cualitativas que se les dio un puntaje (Ordinal o en Porcentaje de 0 a 100%) Cuando hay muchas observaciones, lo agrupo en frecuencias simples. Xi ni Se saca promedio por cada categora

0 1 2 Total

4 8 3 15 personas

X de Hermanos Xi, por cada estrato 0 8 6 14 Hnos

X = 14/15 = 0,93. Puede ser distinto de un Natural, Puede ser un decimal Cuando es ponderado, el X va al valor mayor. La moda es la categora de 1 hermano Xi Xi-1 Xi Frec. X por n N de Unidades 2,0 0-4 10 20,0 Es el promedio del estrato 6,0 Sale de: 4-8 20 120 Es el promedio del estrato, que (4+8)/2 = 6 es ms representativo 10,0 8-12 40 400 14,0 12-16 20 280 18,0 16-20 10 180 100 personas X: 1000 Total Slo es referencial, no representativo Mediana: Valor que se posiciona justo en la mitad del conjunto de datos ordenados. Es un Indicador de acumulacin. Deja 50% arriba y 50% abajo. No se mueve, es estable. As que 1 Ordenar informacin. En datos impares se toma el n del medio ((n+1)/2) Cuando son pares se saca el Promedio de los 2 de la posicin del centro, entre n/2 y (n/2) +1 Mediana. Se usa cuando hay valores extremos, que no son representados por el promedio, o cuando la distribucin es asimtrica. Se usa en variables de escala ordinal (Discreta o continua) No es afectada por los valores extremos. Me Con datos individuales, no hay problema para calcular la mediana en una tabla: Se encuentra en el N, se saca el N acumulado de menor a mayor, tomando hasta el n/2 si es exacto, o sino, a penas pase el n/2. Moda o Valor Modal. La mayora, Lo ms frecuente. En datos sueltos, el dato que ms se repite Ej: 14 alumnos con exactamente 2 hermanos. La mayora tiene exactamente 2 hermanos. No es el N, es la categora. Cuando la distribucin es simtrica, coinciden los valores de media aritmtica, mediana (Me) y la Moda (Mo) Se usa el promedio, porque es el ms conocido. Percentil: Es un Indicador de acumulacin Decil: Divide de 10 en 10 Quintil: 5 Quintiles Cuartil: 25, 50, 75% Edad ni N de observaciones Frec simple 10 20 40 20 10 n=100 Ni Frec simple acumulada 10 30 70 90 100

1-5 5-9 9-13 Aqu Me o P50 13-17 17-21

Mediana (Me) es n/2 = 50 El valor inmediatamente superior a 50 es el intervalo 9-13 adems 13-9 = 4 de ancho. Me = Lm Inf del intervalo + Me o (n/2) Ni-1 por Ci (o ancho del intervalo) n del valor al que me pas

(n/2) P50 o Me = 9 + 50-30 por 4 = 11K 40 O sea 50% de los nios pesan 11 kilos o menos o bien 50% de los nios pesan 11 kilos o ms. En percentil: Pp = Lm Inf del intervalo + n por p/100 Ni-1 por Ci (o ancho del intervalo) n del valor al que me pas P25 = 5 + 25-10 por 4 = 8K 20 25% de mi total En este ej. 25% de 100 25% de los nios pesa 8 K o menos, 75% de los nios pesa 8 K o ms. Deciles Calcula de 10 en 10 Cuartiles Qq Calcula de 20 en 20 = 20, 40, 60, 80 Cuartiles Qq De 25% 4 de 4 (Q1 a Q4 1 cuartil n/4

Marca de clase 3 Que sale de: 1+5 2 7 11 15 19

yi-1 yi 1-5 Se repite el 5 abajo 5-9 9 - 13 13 - 17 17 - 21

n 10 20 40 20 10 Total n =100

N 10 30 70 90 100

X por n X del estrato 3 por 10 = 30 Usar marca de clase y el n 7x20 11x40 15x20 19x10 1.100 = 11 K 100

Promedio de y = Sumatoria de yi por ni n Y = 3x10+7x20+11x40+15x20+19x10 Esto da 1.100/100 = 11 Kilos 100 casos en ejemplo de arriba Si promedio de y es = Mo = Me , entonces la distribucin es simtrica. Medida de Dispersin: Alrededor de ese nmero se ubican todos Esperamos que las caractersticas de nuestra muestra, reflejen bien las caractersticas de la poblacin correspondiente. La variabilidad detecta ms all de las medidas de posicin central (media, mediana, moda) Medimos la variabilidad en la muestra, para comprender el grado de variacin que existe en la poblacin. Si un dato se repite Ej: 8,8,8,8,8, la Dispersin es = 0 La varianza = 0. Dispersin Absoluta: Tienen unidad de medida. Hay 4 medidas de variacin o de variabilidad. Rango muestral se usan para aproximar Rango de la poblacin el rango de la poblacin Recorrido de la variable: Valor Mayor - Valor menor, pero depende de los datos extremos Varianza muestral S2 Varianza de la poblacin 2 Desviacin Standard muestral S o DS DS de la poblacin Rango intercuartlico iqr Rango Intercuartlico de la Poblacin IRQ Medidas de Dispersin Relativa: No tienen unidad de medida

Coeficiente de variacin (CV): Mide % de variacin Ej: 80% de variacin. Al comparar 2 medidas con unidades distintas Puntaje Estndar y Puntaje Tpico Medidas de Dispersin absoluta Varianza Si x es la variable en estudio V(x) = Sx2 = (x1-X)2 + (x2-X)2 +(xi-X)2 n Para los datos no agrupados saco el promedio, y la variabilidad es una medida de dispersin con respecto a ese promedio. Para los datos agrupados en tablas, calculo 1 la marca de clase, despus la varianza. V(y) = (y1-Y)2. n1 + (y2-Y)2. n2+(yn-y)2.ni n V(y) = Sumatoria de 1 hasta n de (yi-Y)2.ni n Las varianzas muestrales se escriben hasta con 2 cifras ms, que lo que traen los datos. Marca Xi-1 Xi de clase 15 10-20 25 20-30 35 45 55 30-40 40-50 50-60 Frec. N de Unidades 12 27 15 7 3 64 personas X por n 15x12 Es el promedio del estrato Es el promedio del estrato, que es ms representativo

X: 29,06 Total Slo es referencial, no representativo

Si la varianza da un n grande, los datos estn distribuidos de manera amplia, muchos de ellos alejados del promedio. Kurtosis como platicrtica (Como plato o con poco apuntamiento) Si saliera un n pequeo = los datos no estn muy dispersos. Los datos puntuales estaran agrupados cerca de la media (o cerca del promedio) Leptokurtica, lo ms apuntada. 4 Propiedades de la Varianza (Para no trabajar de ms) 1- Siempre es un N positivo V(X) 0 2- La Variabilidad de una constante da cero. V(k) = 0 3- Si a 1 variable le agregamos algo, la variable no se altera: V (x+k) = V(x) Cuando 2 poblaciones tienen igual varianza = Homogedasticidad puedo pedirla prestada al otro estudio. 4- Cuando multiplico 1 varianza por una constante, la varianza cambia al cuadrado V (k) = K2 (Vx) Ej: Si mi Ingreso Promedio de 492,3 Miles de pesos, aumentara un 15% quedara: 492,3 x 1,15 = 566,145 Miles de peso Y cmo se altera la varianza aqu?= V(1,15x) = (VX) 1,152 Sale afuera al cuadrado. Desviacin Standard (DS) DS medida de dispersin absoluta que representa a la raz cuadrada de la varianza. Va con la misma unidad de la variable, se registra con un decimal ms que los datos. Siempre ser positiva Si x es la variable de la Varianza = V(x) F2x DS Raz cuadrada de Varianza, por lo que DS no es negativa. La gran propiedad de la DS sern los estndares Si la distribucin de nuestra variable en estudio, es aproximadamente normal, entonces se cumple que si el promedio se le resta 1 DS y se le suma 1 DS, podemos esperar que la poblacin o la cantidad de datos sea 68% de la informacin (X - DS, X + DS) = 68% y cualquier valor que se arranque de una DS lo considerar anormal Ej: X=70 Kilos, con DS: 5 K As que 2 DS sern 10 Kilos: Ir de (65,75) = 68% es Standard. Qu pasa si al X le resto y le sumo 2 DS? Quedar (60,80) = 95% A dos DS se encontrar el 95% de la poblacin y si se arranca ms all de 2DS lo considerar anormal. Si estn a 3DS o 3 sigmas (15 kilos: 55,85) se encontrar el 99,7% de todas las observaciones = De mil, se salen 3.

Para mi Universo, o lugar donde tendrn validez mis resultados= Para que esto tenga validez, la variable tiene que tener cierto comportamiento normal. El eje donde mido DS y % es abajo, en la abscisa. Cuando uso 2DS el 95% de los datos caern al medioMide probabilidad. De cien veces, 95 caer al medio, y quedarn 2 zonas de 2,5% y 2,5% Zona de rechazo o de error alfa (Bilateralidad), a las cuales es difcil llegar por azar. Caer ah no es por azar, (porque si fuera lo normal, caera al medio) Varianza y DS prcticamente son lo mismo, una est al cuadrado y la otra no. No hay que usar la Varianza cuando hay muchos valores atpicos Cmo se tratan los datos atpicos? Hay un error del instrumento? Hay un error de la persona? Hay herramientas para meterlo, sin que lo afecte: La Mediana (Me) Si meto la cabeza al horno y los pies en la nevera, el promedio va a decir que la T es normal Otra medida de Dispersin Absoluta es el Recorrido Intercuartlico (RI o IQ) = se usa cuando existen valores atpicos. RI es la diferencia entre Q3 y Q1 (Q3-Q1) Longitud del intervalo que contiene aproximadamente el 50% de los datos situados en el medio. No toma en cuenta el 25% inferior ni el 75% superior. Cuartil: Es una medida de posicin Q1 = percentil 25 = P 25 y Q3 = P75 As que es igual a: P75 - P25 Si este RI, o esta diferencia es pequea, entonces la mayora de los datos, se encuentran cerca del centro de la distribucin. P50 = Q2 Me: Siempre la mediana, va asociada al Recorrido Intercuartlico (RI) Cuando la distribucin es simtrica, como medida de posicin se usa el promedio (O tambin llamado, media) y asociado, como medida de dispersin se usa la varianza. Pero cuando la distribucin es asimtrica, como medida de posicin se usa la mediana (Me) y asociado, como medida de dispersin al Recorrido Intercuartlico (RI) Cmo se calcula en datos el RI? Qq = Y i-1 + nq/4 (si es quarti) -Ni1 . Ci (amplitud del intervalo) ni Anlisis exploratorio de datos. Ejemplo Marca de Edad Frecuencia o Frecuencia absoluta clase Xi-1 Xi N de Unidades acumulada 0+5 = 2,5 0-4 (5) 15 15 2 (5+10)/2=7,5 5-9 27 42 12,5 10-14 31 73 17,5 15-19 9 82 22,5 20-24 5 87 87 es mi n Nmero de intervalos que hay que hacer = k. Siendo K el logaritmo natural de n. Ojal que los intervalos no sean muy grandes, porque en la marca de clase, los datos sern ms aproximados. Cuando los intervalos son iguales (como en este caso de 5 en 5) se pueden sacar todas las medidas de posicin y de dispersin. Anlisis de Chapiro: Ve si los datos se distribuyen o no, en forma normal Una forma de verlo es con el Histograma y otra con el Grafico de Caja. Q1 = Ubicado en n/4 Ej. 87/4 = 21,75 Ese n se busca en N mayscula. El intervalo de edad al que corresponde, est entre 5 y 9 aos Q1 = 5 + 21,75 - 15 . 5 = 6,25 aos 27 Q3 : Ubicacin en n3/4 de 87 = 65,25 que estara en el intervalo de edad de 10 a 14 aos. Q3 = 10 + 65,25 - 42 . 5 = 13,75 aos 31

Q2 = Mediana = 10,24 RI = Q3 Q1 RI = 13,75 6,25 = 7,5 que est alrededor de la mediana. Es una distancia Es normal la distribucin de estos datos? Se vera con Histograma hecho con el n de personas, que es n (o mi frecuencia: 15, 27, 31, 9 , 5) Medida de dispersin Relativa Para comparar datos se usa el Coeficiente de Variacin CV = DS . 100 X Compara la variabilidad en un conjunto de datos con la de otro conjunto. Cuociente entre la DS y el Promedio de la variable. Se mide en porcentaje de variacin, en trminos porcentuales, as que es adimensional. Permite comparar distribuciones con distintas unidades de medida. Si CVx es mayor que CVy, es que x es ms heterognea, tiene ms variacin. X tiene mayor dispersin (Sea x medido en cm. o sea medido en kilmetros) Ej: x y 112,7 0,8 121.7 0,9 136,6 1,4 133,9 2,1 141,7 3,9 Para x = X: 128,46 DS: 10,25 CV 10,25/ 128,46X100= 0,797 o sea 797% Para y = Y 1,82 DS 1,137 CV = 62,47 Todo lo anterior son medidas de resumen Ve como est la ubicacin de algo o de una persona, con respecto al grupo o el total Si se toma otra unidad de anlisis, por ejemplo el n 132,4, cmo estar en relacin a 0,797 de mi tabla anterior? Lo comparo con el puntaje tpico o Puntaje Estndar = Z Si un alumno se saca un 5,9 en Bioestadstica y un 4,8 en Epidemiologa, yo digo que le fue mejor en Bioestadstica. Pero comparado con el curso: Promedio de Bio: 6,5 DS Curso Bio= 1,3 Curso X Epi = 4,3 DS 1,15 Ubico al alumno en relacin al curso con Z, que coloca una unidad, en relacin al total. Como medida de dispersin relativa, no tiene unidad de medida, es un coeficiente entre una observacin y su promedio en trminos de 1 DS Z = Xi X Lo de arriba es una variable, con unidad de medida, que no se va al restar DS Xi Esta variable numrica se transformar en Zi; sufre una transformacin lineal. Caractersticas: Toda variable, no importa cual sea, se puede transformar en Puntaje Estndar. Para compararse con otra dispersin. Puede ser positiva (+) o negativa (-) Propiedades de Z Al sacar el promedio de todos los puntajes estndares siempre ser cero Promedio de Z = 0 y la Varianza de Z es 1 V(Z) = 1 Z: Su nmero puede ser positivo o negativo Si la varianza es uno V(Z)= 1 Cunto es la DS de Z? = Raz cuadrada de V(Z) = Z Si se asocia la 1 puntaje y sale mayor en (+) es mejor que el grupo, y se corre ms a la derecha de la lnea. Si sale (-) o ms a la izquierda estar en relacin, ms bajo. Xi X Neg

X Curso Bio: 6,5 DS Curso Bio= 1,3 Alumno 5,9-6,5 = - 4,6 Le fue peor que al curso 1,3 Curso XEpi = 4,3 DS 1,15 Alumno: Epi 4,8 As que Z de Epi= 4,8-4,3 = 0,45 1,1 Al alumno con un 4,8 en Epi (Que es menor que su 6,5 de Bioestadstica), le fue mejor que al curso por que est positivo 0,45. Otra medida de Dispersin es el Recorrido de la Variable = L L = Valor mayor Valor menor Pero se usa poco, porque se influencia mucho por los valores extremos.

Probabilidades Apuntes Profesor Enrique Hernndez. Junio 2009 Los Fenmenos Determinsticos producen un resultado esperado. Estocstico: significa al azar, aleatorio Cuantificar fenmenos aleatorios Experimento aleatorio: Cuando un fenmeno puede ocurrir de distintas formas Smbolo:___ Un experimento aleatorio se puede replicar en forma sucesiva Ej: Tirar una moneda al aire, o lanzar 2 dados y observar la suma de sus caras. En Estadstica Descriptiva, hago una Tabla de Asociacin (Siempre tratar de hacerla, para visualizar). Como me interesa la suma, se forma una matriz. Dado 1 2 3 4 5 6 2 Dado1 1 2 3 4 5 6 7 2 3 7 8 3 4 7 9 4 5 7 10 5 6 7 11 6 7 8 9 10 11 12 Espacio Muestral () o nuestro Universo: Nos muestra todos los posibles resultados del experimento. Generalmente no existe un solo universo, hay varios. Generalmente se trabaja con una parte del espacio muestral, llamado suceso. Aunque no trabaje con todos los datos del experimento, debo conocerlos. Cada uno hace su propia muestra. Los sucesos son eventos o conjuntos. Ejemplo: Conjunto Letra mayscula A: Suceso que salga suma 7 B: Evento B = que salga suma 12 Un Suceso es un subconjunto del espacio muestral. Dentro del espacio muestral se van a mover los sucesos. Si los sucesos o conjuntos no tienen elementos en comn, son mutuamente excluyentes A Interseccin B = Vaco () se escribe AB= AB. Significa que o pasa en A o pasa en B, pero no pasa en ambos. En la tabla de 2x2, estarn en cuadrados distintos. Si hay un conjunto vaco: Es un conjunto sin elementos. Lo que est fuera de A (No es de A): Ser complemento de A (no importa si est en B o no) AComplemento de A = AUA = Sean A, B y C sucesos en Deben estar siempre en alguna parte. Del lenguaje coloquial se pasa a lenguaje de conjuntos (lgebra de Bull) para llegar a Probabilidades. Ocurren todos los sucesos A y B y C, es la interseccin: ABC y se escribe = ABC Ocurre slo Un suceso: A BC A B C A B C (Deja los complementos afuera, sin ocurrir) Ocurren slo 2 sucesos AB C A B C A BC (Deja el complemento afuera, sin ocurrir) Ocurre al menos un suceso = AUBUC Ocurre al menos uno, usa U de Unin. No ocurre ningn suceso ABC = AUBUC con raya arriba de todos

Probabilidad Clsica o a Priori, antes de No se requiere ningn experimento Es algo terico, se ve y se usa una proporcin. Si un fenmeno puede ocurrir, de n formas (Y mutuamente excluyente) y si de esa forma (N A) posee un atributo A (Ej Ser Mujer), entonces, la probabilidad de A se define como P(A) = NA (Caso favorable) Siempre es una Fraccin N (Caso Posible, de los totales posibles) Poner que suceso sea A = Suma 7 al lanzar 2 dados (7 est en la diagonal y son 6) P(A) = 6 (6 veces el caso favorable) = 1 = 0,027 = 2,7% 36 (36 veces distintas posibles) 6 Un suceso equiprobable es el que tiene la misma probabilidad, pero no son iguales. Probabilidad Secuencial o a Posteriori Probabilidad que resulta una vez realizado un experimento. En estadstica descriptiva, se usa tabla de distribucin relativa (h = hi/n) Se usa en variables cualitativas en % Ejemplo. Binario: cara y sello en una moneda Moneda Cara Sello Total hi P Clsica 0,20 0,5 0,80 0,5 1 1 Suma La unidad es el todo Cara y sello son excluyentes, estn en cuadrados distintos, la interseccin es Hiptesis H0 = P (Cara) = P (Sello) Compara lo real con lo terico. Mientras ms lejos est lo real de lo terico, ms probabilidad tengo de rechazarlo y decido, por ejemplo si salen 10 caras y 90 sellos, se rechazar la teora. Cuando el tamao de la muestra va aumentando, los resultados son ms verosmiles. Esperanza: Lo terico se acerca a lo real. Teora Axiomtica de Probabilidades Axioma es una verdad evidente Axiomtica: conjunto de verdades, que dan una teora axiomtica de probabilidades. 1) Todo suceso tendr una probabilidad positiva(+) P(A) 0 2) La probabilidad de P() = 1 Si me compro todos los n de la lotera, me la gano 3) AUB (Si ocurre al menos 1 suceso) P(AUB) = P(A) + P(B) Para calcularlas se suman, slo cuando A y B sean excluyentes, o sea AB= El Sistema exhaustivo: es el que ocupa todo el espacio muestral. A y B son los estratos de particin. Si AB= , son excluyentes y adems AUB = Teorema Verdad evidente, pero que requiere demostracin. 1) La probabilidad del vaco es Cero P = 0 2) Una probabilidad cualquiera va entre 0 y 1 (en % 0 a 100%) Coeficiente de determinacin 0 P(A) 1 3) P(A)+ P(A) es 1. Ej: P AUB+ P AUB = 1 4) P(AUB) = P(A) + P(B) P (AB) Probabilidad Condicional Sean A y B sucesos que estn en alguna parte en A la expresin Probabilidad de A slach B = P A/B se entender como la Probabilidad que ocurra el suceso A, habiendo ocurrido el suceso B (condicionado a B) Se define como la probabilidad A entonces B o sino, A dado B. y P (A/B) = P (AB) (que ocurran los 2) P(B) Habiendo ocurrido B y B no debe ser vaco La probabilidad de un suceso es un N, porque el suceso no es algo. ni 20 80 100

Al despejar P (AB) = P (A/B) . P(B) Probabilidad de A y B Y al revs Dado si A P (BA) = P (B/A) . P(A) Probabilidad de B entre A Aqu es Probable, No es lo mismo, pero tienen la misma probabilidad. Probabilidad estocstica o aleatoria. Sucesos estocsticamente independientes. Se dice A, un suceso es independiente de B si: P (A/B) = P(A) Probabilidad de A dado B En tal caso P(AB) = P(A) . P(B) (Independiente no es igual que excluyente) Cuando los sucesos son independientes, la interseccin se transforma en producto. Ejemplo En una tabla de asociacin 2 X2,1 se suman los totales marginales: Efecto Enfermo No Enfermo Total Causa Expuesto a b a+b No Expuesto c d c+d Total a+c b+d N Probabilidad de E, Probabilidad de todos los Enfermos P(E) = a+c N Probabilidad de Enfermos y Expuestos P(EEx) = a N Enfermo o Expuesto es con el signo Unin (U) Usaremos el teorema Parte de esta base P(E) + P(Ex) - P(EEx) P(E) + P(Ex) Sera esto expuesto, si esto es cero P(EEx), pero ac existe interseccin Probabilidad de enfermo y expuesto: Probabilidad de Enfermo + P de expuesto P de enf y expuestos = a+c + a+b - a No son excluyente = a+b+c N N N N Efecto Enfermo No Enfermo Total Causa Expuesto a b a+b No Expuesto c d c+d Total a+c b+d N Probabilidad que est enfermo, dado que est expuesto P(E/Ex) Al preguntarle a la tabla = a (enfermo) (dado que = usa totales parciales) Dado que est expuesto a+b Probabilidad que est enfermo, dado que no est expuesto P(E/NoEx) Al preguntarle a la tabla = c (enfermo) Dado que no est expuesto c+d Y sacan un cuociente para obtener un Riesgo Relativo (RR) entre enfermos expuestos y no expuestos = a (enfermo) Dado que est expuesto a+b = c (enfermo) Dado que no est expuesto c+d RR No es una probabilidad (Es una razn o divisin entre incidencias acumuladas, en estudios de cohortes o ECE de seguimiento) RR = 1 El numerador es igual al denominador, pero es una muestra, por lo tanto, es precisa, pero no es confiable. Tiene el mismo riesgo de enfermar entre expuesto y no expuesto. RR > 1 El numerador es mayor que el denominador as que la exposicin es un factor de riesgo RR < 1 El numerador es menor que el denominador as que la exposicin es un factor de proteccin. Ahora tomando la Probabilidad de No Enfermo dado Expuesto (El denominador es igual: Al preguntarle a la tabla PE/Exp= b (No enfermo) Dado que est expuesto a+b En lo anterior: Probabilidad que est enfermo, dado que est expuesto P(E/Ex) Al preguntarle a la tabla = a (enfermo)

Dado que est expuesto a+b = a (Enfermos de entre los expuestos) b (No enfermo) b (No enfermos entre los expuestos) Dado que est expuesto a+b ODDS de los expuestos Es un cuociente de probabilidad. Los denominadores son siempre los expuestos. Por otra parte: Probabilidad que est enfermo, dado que no est expuesto P(E/Ex) Al preguntarle a la tabla = c (enfermo) Dado que no est expuesto c+d = c d (No enfermo) d Dado que no est expuesto c+d ODDS de los no expuestos Es un cuociente de probabilidad a Entones, al asociar ambos Odds sale OR: b = ad = Odds Ratio. En la tabla, productos cruzados OR c bc d Se usa en estudios de casos y controles o de prevalencia. Un Suceso es un subconjunto del espacio muestral. Dentro del espacio muestral se van a mover los sucesos. Si los sucesos o conjuntos no tienen elementos en comn, son mutuamente excluyentes A Interseccin B = Vaco () se escribe AB= AB. Significa que o pasa en A o pasa en B, pero no pasa en ambos. En la tabla de 2x2, estn en cuadrados distintos. Ocurre al menos un suceso = AUBUC Ocurre al menos uno, usa U de Unin. Probabilidad es Siempre una Fraccin, se ve y se usa una proporcin Si un fenmeno puede ocurrir, de n formas (Y mutuamente excluyente) y si de esa forma (N A) posee un atributo A (Ej Ser Mujer), entonces, la probabilidad de A se define como P(A) = NA (Caso favorable) N (Caso Posible, de los totales posibles) Un suceso equiprobable es el que tiene la misma probabilidad, pero no son iguales. Probabilidad Secuencial o a posteriori Probabilidad que resulta una vez realizado un experimento. En estadstica descriptiva, se usa tabla de distribucin relativa (h = hi/n) Se usa en variables cualitativas en % Ejemplo. Binario: cara y sello en una moneda Moneda ni hi P Clsica Cara 20 0,20 0,5 Sello 80 0,80 0,5 Total 100 1 1 Suma La unidad es el todo Cara y sello son excluyentes, estn en cuadrados distintos de la tabla de 2 x 2 y la interseccin es AUB (U = Si ocurre al menos 1 suceso) P(AUB) = P(A) + P(B) P (AB) P(AUB) = P(A) + P(B) Para calcularlas se suman, slo cuando A y B sean excluyentes, o sea AB= Concepto de dependencia de donde vieneProbabilidad Condicional Sean A y B sucesos que estn en alguna parte en A la expresin Probabilidad de A slach B = P A/B se entender como la Probabilidad que ocurra el suceso A, habiendo ocurrido el suceso B (condicionado a B) Se define como la probabilidad A dado B o como: A si es que ocurri B. y P (A/B) = P (AB) (que ocurran los 2) P(B) Habiendo ocurrido B (y B no debe ser vaco) Al despejar P (AB) = P (A/B) . P(B) Probabilidad de A y B Probabilidad estocstica o aleatoria. Sucesos estocsticamente independientes.

Se dice A, un suceso es independiente de B si: P (A/B) = P(A) Probabilidad de A dado B = P (A), porque no depende de que ocurriera B. En tal caso P(AB) = P(A) . P(B) (Independiente no es igual que excluyente) Cuando los sucesos son independientes, (no hay situaciones con dado que), entonces la interseccin se transforma en producto. (Es ms simple) Ejemplo En una tabla de asociacin 2 X2,1 se suman los totales marginales: Efecto Enfermo No Enfermo Total Causa Expuesto a b a+b No Expuesto c d c+d Total a+c b+d N Probabilidad de E, es la Probabilidad de todos los Enfermos P(E) = a+c N Probabilidad de Enfermos y Expuestos P(EEx) = a N Enfermo o Expuesto es con el signo Unin (U) Usaremos el teorema Parte de esta base P(E) + P(Ex) - P(EEx) P(E) + P(Ex) Sera esto expuesto, si esto es cero P(EEx), pero ac existe interseccin Probabilidad de enfermo y expuesto: Probabilidad de Enfermo + P de expuesto P de enf y expuestos = a+c + a+b - a = a+b+c N N N N Efecto Enfermo No Enfermo Total Causa Expuesto a b a+b No Expuesto c d c+d Total a+c b+d N Probabilidad que est enfermo, dado que est expuesto P(E/Ex) Al preguntarle a la tabla = a (enfermo) Dado que est expuesto a+b Probabilidad que est enfermo, dado que no est expuesto P(E/NoEx) Al preguntarle a la tabla = c (enfermo) Dado que no est expuesto c+d Y sacan un cuociente para obtener un Riesgo Relativo (RR) entre enfermos expuestos y no expuestos = a (enfermo) Dado que est expuesto a+b = c (enfermo) Dado que no est expuesto c+d RR No es una probabilidad (Es una razn o divisin entre incidencias acumuladas, en estudios de cohortes o ECE de seguimiento) RR = 1. El numerador es igual al denominador, pero recuerde que es una muestra. Ac tiene el mismo riesgo de enfermar entre expuesto y no expuesto. RR > 1 El numerador es mayor que el denominador as que la exposicin es un factor de riesgo RR < 1 El numerador es menor que el denominador as que la exposicin es un factor de proteccin. Ahora tomando la Probabilidad de No Enfermo dado Expuesto (El denominador es igual: Al preguntarle a la tabla PE/Exp= b (No enfermo) Dado que est expuesto a+b En lo anterior: Probabilidad que est enfermo, dado que est expuesto P(E/Ex) Al preguntarle a la tabla = a (enfermo) Dado que est expuesto a+b = a (Enfermos de entre los expuestos) b (No enfermo) b (No enfermos entre los expuestos) Dado que est expuesto a+b ODDS de los expuestos Es un cuociente de probabilidad. Los denominadores son siempre los expuestos.

Por otra parte: Probabilidad que est enfermo, dado que no est expuesto P(E/Ex) Al preguntarle a la tabla = c (enfermo) Dado que no est expuesto c+d = c d (No enfermo) d Dado que no est expuesto c+d ODDS de los no expuestos Es un cuociente de probabilidad a Entones, al asociar ambos Odds sale OR: b = ad = Odds Ratio. En la tabla, productos cruzados OR c bc d OR Se usa en estudios de casos y controles o de prevalencia. Concepto Independiente: Cuando dice Dado que, se usa el total parcial y no el total N de la tabla. Efecto Hombre Mujer Total marginal Causa H M Fuma 47 32 79 No Fuma 124 91mal c+d = 215 o Total marginal 171 123 294 personas N Cmo se prueba que los sucesos son independientes? Son independientes, fumar y ser hombre? Esto manda: P (A/B) = P(A) Si son absolutamente iguales seran independientes Fumar dado Hombre 47 Interseccin de F con H Dado: Usa total parcial 171 (total de hombres) Fumar dado H 47 = 0,27 No es igual a P(F) Probabilidad de fumar 79 = 0,26 171 294 Muy probable se acerca al nmero 1 Poco probable se acerca al cero P de fumar y ser H sea P (FH) = P(F) x P(H) Cuando no dice dado que, se usa el total, total. U e se relacionan a ese Total N 47 = 79 x 171 294 294 294 Resultado no es exactamente igual 0,1598 0,1562 Ac si dependen, porque son diferentes. Si son absolutamente iguales seran independientes. Ejemplos 2 Profesionales A y B hacen diagnsticos Hacer tablas de asociacin cuando se puede poner siempre excluyentes Son excluyentes cuando estn en distinto cuadrado, en 1 tabla de asociacin. Diag. Profesional Profesional Total A B Correcto 5 7 12 Inespecfico 25 14 39 Incorrecto 50 20 70 80 41 121 Si se selecciona al azar uno de ellos, Cul es la Probabilidad que: El paciente haya sido atendido por profesional A = 80 121 Que el diagnstico no sea correcto (Es Complementario de correcto) C` = 121 -12 = 109 = 0,90 121 121 Que el paciente haya sido atendido por el profesional A, y () su diagnstico no haya sido correcto: U e se relacionan con el total de totales N. Cuando no dice dado que, se usa el total total = 75 121

Que el paciente haya sido atendido por el profesional A, o (U) su diagnstico no haya sido correcto P(AU C)= P(A) + P(C) P(A C) 80 +109 - 75 121 121 121 Que el paciente haya tenido un diagnstico inespecfico o (U) haya sido atendido por el profesional B. P(I U B)= P(I) + P(B) P(I B) Que el paciente no haya tenido un diagnstico correcto si fue atendido por el profesional A. Es una condicionalidad (dado que), (no es y fue atendido) O sea es Probabilidad del Complemento de CorrectoC Dado A = P (C/A) = 75 Cuando dice Dado que, se usa el total parcial y no el total N de la tabla. 80 Qu tipo de suceso son Diagnstico correcto, con profesional B? Si P(C/B) = P(C) Si son distintos () Son Dependientes 7 12 41 121 0,17 0,09 Si fueran absolutamente iguales, seran independientes. ltima pregunta: Que el paciente haya tenido un diagnstico equivocado o inespecfico, Qu tipo de sucesos son? Son excluyentes. Estn en distinto cuadrado en 1 tabla de asociacin. Distribucin de Probabilidades Ene Factorial: n! = 1 . 2 . 3 . 4 ..n 0! = 1 1! = 1 2! = 2 (1 X 2) 3! = 6 (1x2x3) 4! = 24 (1x2x3x4) 5! = 120 (1x2x3x4x5) 6! = 720 (1x2x3x4x5x6) Crece ms que exponencial Permutacin es un orden Filas ABC Cuntos rdenes distintos da? = 3! = 6 formas distintas de ordenar: ABC, ACB, BAC, BCA, CAB, CBA. Si agrego otro dato ser 4! = 24 maneras distintas. Si se sientan en una mesa redonda ser n! 1 Combinatoria. Si tengo 5 letritas y elijo 3 al azar: Tengo un muestreo Cuntas ordenaciones se podran hacer en este ej? P de Permutacin P de k hasta n = n! (n-k)! El nmero de ordenaciones (permute) de k elementos tomados de n (Obviamente todos diferentes) 5 personas ABCDE Permutacin = P de k hasta n = n! = 5! = 120 = 60 (n-k)! (5-3)! 2! Si tengo 5 tomos de una enciclopedia, al ponerlos en el estante, cul es la probabilidad de que queden ordenados? = 1 1 Caso posible = Ordenado La probabilidad siempre es una fraccin 5! Total de posibilidades Combinacin no incluye orden De 5 no puedo tomar las 5 ya que est ordenado. Si entra otra persona y slo quiere tomar 3 letras de 5 C de k hasta n, entre parntesis, de n sobre k = n! k! (n-k)! As que existen menos combinaciones que permutaciones, porque se considera igual, sin importar el orden De 5 elementos distintos se toman 3, O sea 5 de 3 Manda el de abajo (k) n sobre k = n! Reemplazando = 5! = 5X4X3 = 10 k! (n-k)! 3! . 2! 1x2x3 Teorema del producto Lo opuesto de los Fenmenos Determinsticos, dice que la mayora de los sucesos son aleatorios. 2 tipos de ejemplos:

1. Sean A, B y C sucesos en , entonces se quiere calcular la probabilidad de que los 3 ocurran simultneamente P(ABC) = Si es Dependiente o condicional = P(A).P(B/A).P(C/AB) La interseccin de los 3. Significa: Debe ocurrir el 1, debe ocurrir el 2, dado que ocurri el 1, y debe ocurrir el 3, dado que ocurri A y B. 2. Si son independientes, la Probabilidad condicional no corre y todo es ms fcil. P(ABC) = P(A) . P(B) . P(C). Tipos de muestras diferentes. En una caja con 10 fichas del mismo porte, hay 4 azules y 6 blancas. Se extraen 3 fichas en forma aleatoria. Cul s la probabilidad que las 3 fichas sean azules si la extraccin se realiza 1 tras otra, con reposicin? 3 azules es 1y (y es lo mismo que signo interseccin) P(A1A2A3) Si no cambia el espacio muestral, el ejemplo es independiente, no depende de a que saqu antes y se expresa P(A1) . P(A2) . P(A3) Es la Frmula Clsica, ya que hay 4 fichas azules En 10 fichas en total. Despus de sacar a 1 ficha y reponerla quedan: 4 fichas azules En 10 fichas en total de totales Con cada reposicin, o al sacar la 3 ficha, queda igual. Probabilidad independiente: La interseccin se transforma en producto: 4 X4 X4 = Parntesis grande (4 dividido 10)3 10 10 10 (Independientes usa el total de todos los totales) Cul s la probabilidad que las 3 fichas sean azules si la extraccin se realiza 1 tras otra, sin reposicin? Ac dejan de ser independientes. P(A1) . P(A2/A1) . P(A3/A1A2) = 4 x 3 x 2 = 10 9 8 Cul s la probabilidad que las 3 fichas sean azules si la extraccin se realiza de las 3 simultneamente? Probabilidad de PA Azul, Azul y Azul. No hay 1 ni 2 ni 3, no interesa el orden. Sin reposicin es lo mismo que sacar simultneamente. Ac se calcula con combinatoria, no interesa el orden. Los casos favorables deben ser 3 fichas azules. P de k hasta n = n! (n-k)! En el Numerador: Casos favorables (Deben salir 3 fichas azules) Hay 4 fichas azules y yo quiero sacar 3 (Sin reposicin es lo mismo que si se sacan simultneamente) Entre parntesis grande (4) = 4X3x2 = 4 3 1x2x3 En el denominador que en este caso no cambia, van los casos posibles, o todos los tros posibles que puedo sacar. Existen 10 fichas, sobre 3 que yo quiero sacar. Entre parntesis grande va 10 sobre 3 (10) = 10x9x8 3 1x2x3 Y si quiero sacar 2 azules y 1 blanca? Si algo puede ocurrir de n formas y adems de m formas, se multiplica. Si hay 2 caminos para llegar a mi casa y adems 3 caminos para llegar a mi casa, puedo llegar a mi casa de 2x3 = 6 diferentes. Uf Por qu no 5 o suma? digo yo Cuando no se da una tabla, hay que tener ms cuidado. Ejemplo: El 45% de los alumnos se informan por el diario X El 32% de los alumnos lee el diario Y El 10% de los alumnos lee ambos diarios. Cuntos sucesos tenemos? 2 Leer el diario X o el Y. Cuando hay valores excluyentes los puedo sumar (67% = 35X+10(x+y)+ 22Y) o sea faltan 33 para llegar a 100. Si se elige un alumno al azar Cul s la Probabilidad que lea: 1. Al menos un diario (Al menos es = a la Unin) P(XUY) = PX + PY - P(XY) = 45% + 32% - 10% = 67% Si se elige un alumno al azar Cul s la Probabilidad que lea slo un diario? 2. (Slo uno es Unin = a la suma) P(XY) + P(XY)

Lee X y no Y + No lee X y s Y 35% + 22% = 57% 3.Si se elige un alumno al azar Cul s la Probabilidad que no lea ninguno de los 2 diarios? No lee X y no lee Y. P(XY) = 33% 4. Si se elige un alumno al azar Cul s la probabilidad de que lea slo el diario X? X s, pero no Y O sea: P(XY) = 35% Lee X y no Y = 35% Es Suceso A = AB U = Unin es suma cuando los sucesos son excluyentes AB es la zona de AB Entonces: A = AB U AB P (A) = P (AB) + P (AB) B = AB U AB P (B) = P (AB) + P (AB) AUB = AB U AB P (AUB) = P (AB) + P (AB) + P (AB) Interseccin (AB) Concepto Independiente: Cuando dice Dado que, se usa el total parcial y no el total N de la tabla. Efecto Hombre Mujer Total marginal Causa H M Fuma 47 32 79 No Fuma 124 91mal c+d = 215 o Total marginal 171 123 294 personas N Cmo se prueba que los sucesos son independientes? Son independientes, fumar y ser hombre? Esto manda P (A/B) = P(A) Si son absolutamente iguales seran independientes Fumar dado Hombre 47 No es igual a P(F) Probabilidad de fumar 171 Fumar dado H 47 = 0,27 No es igual a 79 = 0,26 171 294 Muy probable se acerca al nmero 1 Poco probable se acerca al cero P de fumar y ser H sea P (FH) = P(F) x P(H) Cuando no dice dado que, se usa el total total. U e se relacionan a ese Total N 47 = 79 x 171 294 294 294 0,1598 0,1562 Si son absolutamente iguales seran independientes. Chi cuadrado: X2 Independencia de dos variables. En una distribucin normal, el 100% de los datos estn bajo la campana de Gauss. El 95% al medio y el 2,5+2,5%= 5% en la zona Si los fenmenos caen en esa zona, no ser por el azar, porque es < 0,05. O sea la culpa ser de la hiptesis nula. Es la Regin de rechazo de la hiptesis nula. Ejemplos 2 Profesionales A y B hacen diagnsticos Hacer tablas de asociacin cuando se puede poner siempre excluyentes Son excluyentes cuando estn en distinto cuadrado, en 1 tabla de asociacin. Diag. Profesional Profesional Total A B Correcto 5 7 12 Inespecfico 25 14 39 Incorrecto 50 20 70 80 41 121 Si se selecciona al azar uno de ellos, Cul es la Probabilidad que: El paciente haya sido atendido por profesional A = 80 121 Que el diagnstico no sea correcto (Es Complementario de correcto) C` = 121 -12 = 109 = 0,90

122

121

Que el paciente haya sido atendido por el profesional A, y () su diagnstico no haya sido correcto: U e se relacionan con el total de totales N. Cuando no dice dado que, se usa el total total = 75 121 Que el paciente haya sido atendido por el profesional A, o (U) su diagnstico no haya sido correcto P(AU C)= P(A) + P(C) P(A C) 80 +109 - 75 121 121 121 Que el paciente haya tenido un diagnstico inespecfico o (U) haya sido atendido por el profesional B. P(I U B)= P(I) + P(B) P(I B) Que el paciente no haya tenido un diagnstico correcto si fue atendido por el profesional A. Es una condicionalidad (dado que), (no es y) O sea es Probabilidad del Complemento de CorrectoC Dado A = P (C/A) = 75 Cuando dice Dado que, se usa el total parcial y no el total N de la tabla. 80 Qu tipo de suceso son Diagnstico correcto, con profesional B? Si P(C/B) = P(C) Si son distintos () Son Dependientes 8 12 42 121 0,17 0,09 Si fueran absolutamente iguales, seran independientes. Que el paciente haya tenido un diagnstico equivocado o inespecfico, Qu tipo de sucesos son? Son excluyentes. Estn en distinto cuadrado en 1 tabla de asociacin. Apuntes clases Profesor E Hernndez Julio 2009 Teorema de la Probabilidad Total Definicin: Sean B1, B2,Bk Sucesos o eventos en , formando una particin y sea A un suceso tambin en , entonces la probabilidad del proceso A, en trminos de B1, B2,Bk est dada por: P(A) = P(A/B1) P(B1) + P(A/B2) P(B2) + P(A/Bk) P(Bk) P(A) = P(A/Bi) P(Bi) Sume todos los subndices i = y cmbielo de sub1 hasta sub k Ponerse en todos los casos para calcular una probabilidad. Por ejemplo en un espacio muestral, que debe ser o estar en un sistema exhaustivo. A priori Ocurrieron 3 eventos y estn en una particin B1 U B2 U B3 = Todo el espacio muestral Distinto a algebra de base 10 quedara: Bi Bj = Bi Bj = = Excluyente. Si pasa un suceso de algo Ej: A El suceso A slo se puede expresar en trminos de otro suceso Lo comn de A y B1 Ej AB1 Para Copar todo A = AB1 U AB2 U AB3 Como son mutuamente excluyentes (la interseccin es vaca) Recordemos que P (AUB) = P(A) + P(B) Probabilidad es un nmero, no se habla Unin (U), ni de A, Por lo tanto la U se transforma en suma A = AB1 U AB2 U AB3 P(A) = P(AB1) + P(AB2 ) + P(AB3) Interseccin de 2 sucesos cuando eran independientes: P (AB) = P(A) P(B) Lo usual es que no sean independientes, entonces se usa P (AB) = P(A/B) P(B) Estos sucesos que estn ac, se sacan de antes, a priori Probabilidad condicional P(A) = P(A/B1) P(B1)+ P(A/B2) P(B2)+ P(A/B3) P(B3) Y eso se llama probabilidad total, y eso se llama probabilidad total. El suceso A no lo vamos a saber. Teorema de Tomas Bayes Un ingls presbiteriano de 1750 P(A/B) y P(B/A) no son complementarias Todo hay que simplificarlo y usarlo.

1 ver un rbol de decisiones con probabilidad Total, otra forma de visualizar esto mismo Meta: Llegar a suceso A, por eso va siempre Recordemos en probabilidad P(B1) + P(B2) + P(B3) = 1 (Por el axioma 2 El 100%) B1 U B2 U B3 = Todo el espacio muestral Diagrama de rbol Los sucesos a priori son los primeros elementos de la rama del rbol, y eso debe dar la unidad siempre B1 P(B1) B2 As que ocurre la probabilidad de P(B2) B3 P(B3) Esos caminos quiero que me lleven al suceso A Siempre las ramitas entre ellas son complementarias Que ocurra A dado que viene por B1 Esta rama paralela es Complementaria (C`) Obs P(A/B)+P(/B) = 1 El C` de una Condicional es negar lo de arriba, Lo de abajo (en este caso la letra B) se mantiene siempre fijo. Nunca se debe negar lo de abajo. Este llega a A. Y este vale 0,3 Este, su C` no llega a A. Y vale 0,7 Las ramas en serie se multiplican As que para llegar a A se multiplica P(A) = P(A/B1) P(B1) + P(A/B2) P(B2) + P(A/B3) P(B3) Siempre se parte de los sucesos que estn en particin: la suma da la unidad. Resistencias en paralelo Siglo XX A y B son sucesos o eventos Ej. Resistencias elctricas Si prende la luz si A o B estn buenos En lgebra de Bull 1700= AUB En lgica de los griegos pUq En circuito en serie Siglo XX Deben cumplirse los 2 para que se prenda = A y B AB pq Ser verdad si voy al cine y tambin voy al estadio.

Teorema de Bayes consiste en dar vuelta 1 de las Probabilidades. Definicin: Sean B1, B2,Bk Sucesos o eventos en , formando una particin y sea A un suceso tambin en , entonces la probabilidad que ocurra algn Bi, dado que ocurri A, es igual a la probabilidad que ocurra A/Bi P(Bi/A) = P(A/Bi) P(Bi) Lo que es equivalente = P(A/Bi) P(Bi) P(A) 1 P(A/Bi) P(Bi) Saqu una tableta y sali mala, Cul s la probabilidad que la produzca la mquina B1, B2,Bk El 4% de la produccin de Mquina M1 resulta defectuosa El 5,3% de la produccin de la mquina M2 resulta defectuosa Esto no se suma, porque esto no es la participacin. Si se elige un producto al azar, Cul s la probabilidad que resulte defectuoso, sabiendo que la produccin de M1 es 3 veces la produccin de M2? Lo 1 que hay que hacer es ver el problema a priori 1 Poner los datos y ver que se puede hacer con ellos Si estamos en estadstica descriptiva se hace un anlisis exploratorio de datos. Pero ac los datos son probabilidades condicionales y otros son de probabilidad simple. Probabilidades a priori: Sea D Producto defectuoso P(D/M1) = 0,04 Probabilidad que el artculo resulte defectuoso, si lo produjo M1 = 4% = 0,04 P(D/M2) = 0,053 Lo que no est es cual es la probabilidad que lo haga M1 o que lo haga M2 P(M1) = La Mquina que produce menos es M2 = 1k ( de la produccin)

Mquina 1 produce 3 veces ms Se suma As que K =

M1 = 3K ( partes) 1+3 =4K 1 =K 4 An con 10 Mquinas se puede hacer, porque la suma de todas debe dar 10. Probabilidad de ser defectuoso, debo calcularlo por Probabilidad Total Probabilidad total de ser defectuosos = P(D) P(D)= P(D/M1) P(M1) + P(D/M2) P(M2) P(D) = 0,04 x + 0,053 x = 0,043 = 4,3% 0,043 = 4,3% En estadstica descriptiva esto es Promedio Ponderado. Transformarlo en rbol, a partir de las 2 mquinas: P(M1) PD/M1 Va a D = 0,04 Artculo defectuoso lleg por este camino Su rama C` ser P D/M1 = 0,96 O por este camino lleg P M2 era PD/M2 0,053 Su rama C` ser P D/M2 = 0,94 Todo esto es a priori El rbol entrega ms datos que la frmula, porque da la probabilidad de lo no defectuoso Cmo transformar esto en teorema de Bayes? Si el producto result defectuoso (D) Cul es la probabilidad que la haya producido la mquina M1. Lo 1 es que el producto result D P(M1/D) no es complemento de P(D/M1) por lo tanto aplico T de Bayes P(M1/D) = P (M1D) P (D) Y el denominador es Probabilidad total En el Numerador la interseccin es conmutativa P(M1/D) = P (M1D) = P (DM1) = P (D/M1) P(M1) P (D) P (D) P (D) Teorema de Bayes P(M1/D) = 0,04 (o 0,75) = 0,69 0,043 Es la probabilidad que lo haya producido M1 si me sali defectuosos Teorema de Bayes = P (D/M2) P(M2) = 0,053 x (o sino 0,25) = 0,31 P (D) 0,043 www.google Test de diagnstico = Artculo de la tuberculosis Aplicaciones del teorema de Bayes. Hay un test para pesquisar que es binario: + P(+) P(-) Si la persona est enferma: Esperamos que el test salga (+) La Probabilidad de algo, es medible (Lo Posible no se puede medir) Fenmeno Vernulli que se da en 2 estados. Otra cosa es saber cul s la probabilidad P(+)? Otra probabilidad es que salga Negativo. P(+) + P (-) =1 El suceso es estar enfermo Cul es la probabilidad? = prevalencia. P (E) + P(S) = 1 Suceso: Ser (+) Hay un concepto probabilstico de error en todos los test Existen sanos con test que salen (+) Tambin hay enfermos, que el test, no los pesquisa. Hacer rama de rbol con: Estar enfermo E o Estar sano S P(+) Hacerlo con probabilidades a priori Probabilidad de ser positivo La Sensibilidad S Falso (+)

Probabilidad Total o a Priori que todo test tiene P(+) = P(+/E) P(E) + Por Complemento sale la probabilidad de ser negativo.

P(+/S)

P(S)

Sensibilidad del test: Todo test que est positivo, dado que la persona est enferma P(+/E) (Es la situacin ideal) Falso (+): Es un positivo, pero la persona est sana. La probabilidad de positivo, dado que la persona est enferma, tiene un complemento (C) = P(+/E) + P(-/E) =1 Son complementarios Sensibilidad Test Neg. dado Enfermo Falso negativo Son complementarios No se cambia denominador Falso (+): Es un positivo, pero la persona est sana. P(+/S) + P(-/S) = 1 Son complementarios No se cambia denominador Especificidad Son complementarios Test Neg. dado Sano Todo sali de los complementos, o dado a priori. Luego calcular a posteriori por Bayes Probabilidad de que la persona est realmente enferma, dado que el test sale positivo. VPPP Valor Predictivo Positivo de la Prueba. P (E/+) = P(+/E) P(E) por Bayes P(+) El Complemento sera Probabilidad que est sano dado (-). VPNP = P (S/-) = P(-/S) P(S) por Bayes P(-) Con una tabla de asociacin o de 2x2 olvidamos lo anterior + Total E a c a+c S b d b+d Total a+b c+d

Probabilidad de que la persona est realmente enferma, dado que el test sale positivo. VPPP Valor Predictivo Positivo de la Prueba. P (E/+) = P(+/E) P(E) = por Bayes a P(+) a+b El Complemento sera Probabilidad que est sano dado (-). VPNP = P (S/-) = P(-/S) P(S) por Bayes P(-) Por la tabla 2X2 sacar Sensibilidad = Especificidad = Falsos (+) = Falsos (-) = Poner siempre condicional. Taller 7 N 2 Una persona desarrolla una prueba exploratoria para un cncer. Al aplicarla a las personas con cncer se observa 20% de resultado Negativo P(-/E) = 0,20 Falso (-) El complementario P(+/E) = 0,80 Sensibilidad Al aplicarse a personas no cancerosas se observa 5% de resultado (+) P(+/E) = 0,05 Falso (+) El complementario P(-/E) = 0,95 Especificidad. El investigador aplicar la prueba en un 2% de cnceres no detectados: P(E) = 0,02 Complemento: P (E) = 0,98

Probabilidad de tener cncer o estar enfermo, dado de haber salido (+) = VPPP P (E/+) = P(+/E) P(E) = por Bayes P(+) 1 Calcular ser (+) P(+) Hacerlo con probabilidades a priori Probabilidad de ser positivo La Sensibilidad S Falso (+) Probabilidad Total o a Priori que todo test tiene P(+) = P(+/E) P(E) + P(+/S) P(S) Por Complemento sale la probabilidad de ser negativo. P(+) = 0,8 x 0,02 + 0,05 + 0,98 = 0,065 6,5% si aplico el test me sale (+) En el VPPP = P (E/+) = P(+/E) P(E) = 0,8 x 0,02 = 0,25 (Correcto >0 y <1) P(+) 0,065 O sea 25% que estando realmente enfermo, sale test (+) Hay un grfico = Curva de Roc de estudios de electrnica. Se hace a partir de la Sensibilidad, Para estudiar donde poner el corte entre la S y la E Si se altera la prevalencia, lo que vara son los valores predictivos. Ejercicio 2b) Determinar la probabilidad de no tener cncer (Sano o no estar Enfermo = E) dado el examen (-) P(-/S) = 0,95 Esto no es complemento de P(S/-) VPNP = P (S/-) = P(-/S) P(S) por Bayes = 0,95 0,98 = 0,99 P(-) 0,935 VPNP hay que calcularlo, a posteriori P(+) + P (-) = 1 As que P (-) = 1 - P(+) = 0,9935 = 1 0,0065 2c) Probabilidad de tener un examen negativo y no tener cncer. P(-/E) = P(-/E) x P (E) Porque podra ser dependiente P (-E) = 0,95 x 0,98 = 0,93 Taller 5 2) Estudio Suicidio Pregunta: Haban intentado suicidarse antes? Se estudiaron 580 adolescentes entre 15 y 19 aos Hubo 59 adolescentes que contestaron a lo menos 3 veces el ltimo mes. 31 de ellos con padre biolgico igual en todos los hijos de la casa 250 adolescentes respondieron que nunca intentaron. De ellos 50 resp padre biolgico de algunos o ninguno de los hijos (o sea, no de todos) 129 adolescentes respondieron que el padre que viva en la casa era el padre biolgico de algunos o ninguno (no todos) Lo 1 es hacer una tabla: I Suicidas S vive con padre No vive con padre biolgico biolgico 0 200 50 250 1-2 220 51 271 3 y ms 31 28 59 451 129 580 2.1 Probabilidad de seleccionar 1 adolescente que haya intentado suicidarse alguna vez en su vida: 271+59 = 330 580 P (BUC) = 1 P(A) P(B) + P(C) = 271 + 59 = 330 580 580 580

2.2 Cul s la Probabilidad al seleccionar 1 adolescente al azar, que este no hay tenido un IS si se tiene el antecedente (dado que), que todos los hijos tienen el mismo padre biolgico? 200 451 2.3 Si es independiente tener deseos de suicidarse, con el hecho de tener el mismo padre biolgico Independiente = P(x/y) = P(x) o tambin P(xy) = P(x) P(y) Sin suicidio = A = 200 El Resto, o Complemento de A = A = 200 +31 = 251 P(A/ s padre) = P( A) 0,5565 = 251 330 = 0,56896 Siendo distintos son dependientes 451 580 Interseccin Otra forma de probar independencia P(AS) = P(A) P(S) 250 330 451 580 580 580 0,56896 0,77758 0,43275 0,442415 Taller 5 N 3 Probabilidad secuencial Marca de clase 42 47 52 57 62 67 gr. Prot nmero de personas= n 2 6 12 13 5 2 40 hi Frec Relativa 2/40 6/40 12/40 13/40 5/40 2/40 1 hi Frec Relativa 0,05 0,15 0,3 0,325 0,1250 0,05 Hi Al menos, no menos de 2/40 8/40 20/40 33/40 36/40 1 Hi O a lo ms= de ah para arriba en tabla 0,05 A lo ms de 0,2 0,5 0,825 0,95 1

39,5; 44,5 44,5; 49,5 49,5, 54,5 54,5; 59,5 59,5, 64,5 64,5; 69,5 Total

Letra o = Excluye. Por lo tanto es una suma, cuando son excluyentes. P (xUy) = P (x) + P (y) = 25 18 + 7 40 40 Cuando es y, es intervalo siempre ms chico Probabilidad Variable x continua = gramos P 49,5 < x < 59,5/ x<54,5 = P P (A/B) = Probabilidad de Interseccin Es lo comn 12 P ( (49,5 < x < 59,5) x<54,5)) = 40 = 12 = 0,6 P(x<54,5 ) 20 20 40 3.3. 31 32 Son dependientes 40 40 A lo menos 32 40 Variable Aleatoria (VA) Apuntes clase profesor Hernndez. Julio 2009 Las personas tienen caractersticas distintas = Variables. Otras variables vienen de experimentos aleatorios. Para ver el verdadero valor de esa variable, aplico:

Una variable aleatoria equis VA x es una funcin, cuyo dominio es un espacio muestral de donde se sacan los valores (Tiene que existir un experimento) y cuyo recorrido (es el resultado que saldr) son los nmeros reales (R), o subconjuntos de los reales (los n Naturales) Ver Mono: Funcin = Dominio en Recorrido en R X1 f(x1) Ejemplo: En funciones analticas: y (variable respuesta) = x2 (variable independiente) porque yo le doy los valores Cul s el dominio? De donde se sacan los valores, es el resultado que puede tomar x, si los nmeros son los reales. Cero en el denominador no se usa, porque la variable y queda indeterminada. x, que son observaciones, tiene un dominio y este tiene un recorrido R (que son valores de esa observacin) x r R Ejemplo: Se lanzan dos monedas y se define la variable VA, como el nmero de caras que resultan. (VA la defino yo arbitrariamente; Tambin podran ser 2 sellos, que son variables discretas) Si fuera la distancia a la que caen las monedas sera ms difcil, porque sera una medida continua. El experimento y la definicin de variables, me permitirn encontrar el recorrido. = {(s,s) (s,c) (c,s) (c,c)} Asociado a esto hay un recorrido que lo defin como el n de caras que van a salir. Recorrido: 0 1 2 0 sera (s,s) No hay ni una cara) 1 sera (c,s) y (s,c) 2 veces una cara Y una vez 2 sera (c,c) o 2 caras juntas. Para definir las probabilidades se usa la Notacin o lenguaje P(x=xi) Se lee: La probabilidad que la VA x tome un valor particular xi, perteneciente al recorrido. Si no est en el recorrido, le asociaremos el valor cero. P(x= 0) = 1; P(x= 1) = 2; P(x= 2) = 1 4 4 4 Como se lee y Cuanto vale La probabilidad de que salga fuera del recorrido es cero, no puede salir 3 caras P(x= 3) = 0 o menos de una cara. P(x= -1) = 0 La suma de + 2/4 + = 1 Funcin de Cuanta (f de c) Se dice que P(x=xi) es una funcin de cuanta si cumple: a) x VA discreta b) P(x=xi) 0 O sea, debe ser una probabilidad c) de 1 a n de P(x=xi) = 1 Qu s una variable discreta? Una VA x se dice discreta si su recorrido es finito o infinito numerable. (Se puede contar con nmeros naturales, agregndole el cero) La pregunta de lanzar dos monedas al aire y dado que definimos las variables como el n de caras es una funcin de cuanta? P(x= 0) = 1; P(x= 1) = 2; P(x= 2) = 1 4 4 4 El recorrido es discreto? S: 0, 1 y 2 Para pintar hay que poner el recorrido en la abscisa. 2/4 0 1 2 Tambin es simtrico Esto se llama grfico de f de c Es un grfico probabilstica. Si es una variable, se le puede sacar el promedio y la varianza Cmo se saca el promedio? Se le saca el promedio a la variable, no a la frecuencia sola. Promedio = 0x1/4 + 1x2/4 + 1x1/4 n Todo quiero resumirlo en una frmula. Por ejemplo si escribo 2,4,6,8 la frmula es: 2n (o Trmino generador)

Otra forma. Ac tiene que existir una variable x 2 (2 sobre x combinatoria) Se que no pueden salir ms de 2 caras P(x=xi) = x 22 Si x = 0, 1, 2 (2) Cuando la variable vale 1 = 0 = 1 (2) 1= (2) 2= 1 2 sobre 1 = 2 N de combinaciones de un elemento de 2 2 sobre 2 = 1

2 (2 sobre x combinatoria) P(x=xi) = x (x N de casos favorables, cuando x toma el valor que corresponde 22 (o 2 monedas) Base casos posible P (cara) = P (sello) = 2 de base, sistema binario equilibrado Si lanzramos 5 monedas, el Modelo o frmula de f de c, quedara: 5 (5 sobre x combinatoria) P(x=xi) = x (x N de casos favorables, cuando x toma el valor que corresponde 25 (o 5 monedas) Base casos posible (Cara o sello) Cules son los valores que puede tomar x, o el recorrido? X= {0, 1, 2, 3, 4, 5} Al lanzar 5 monedas Cul s la probabilidad que salga cero caras? 5 5 sobre 0 P(x= 0) = 0 = 1 = 0,0312 o 3,12% 25 32 La probabilidad es muy baja, no es por azar La moneda est cargada? Hay que aplicar la frmula que nos dan, lo importante es interpretarlo. Al lanzar 5 monedas Cul s la probabilidad que x tome el valor 3? 5 5 sobre 3... P(x= 3) = 3 = 10 = 0,3125 o 31,25% 25 32 Mquina shift alfa en rojo, abajo dice nCr En blanco se calcula directamente Si est en amarillo apretar 1 shift 5nCr y sale en display 1c Pone 3 y aprieta signo = 10 Estadstica no paramtrica trabaja con esos rangos (de combinatoria) n (n sobre x combinatoria) P(x=xi) = x (x N de casos favorables, cuando x toma el valor que corresponde 2n (n monedas) Base casos posible

n x =1 2n

Y se puede pintar Ahora buscamos un experimento. Que salga una cara es . Si la vuelvo a lanzar es

La probabilidad de que salga un evento, quiero que se mantenga. Lanzar las monedas deben ser estocsticamente independiente Las variables deben ser discretas Hacer arriba campana de Gauss 0 1 2 3 4 Cero y 5 son equiprobables 5

Empieza a parecerse una distribucin normal, porque la distribucin es simtrica. Esto viene porque P(Cara) = P(Sello) Ejemplo en 5 monedas P (x < 2) = P (x = 0) + P (x = 1) esto no ms, porque es discreta y menor de 2 P (x 2) = P (x = 0) + P (x = 1) + P (x = 2) (5) 0 + 25 Qu significa x >1? Cundo se cumple? Cuando x sea 2 y ms P (x > 1) = P (x = 2) + P (x = 3) + P (x = 4) + P (x = 5) 1 - Este es el complemento Esto equivale a P (x > 1) = 1 - P (x 1) 1 - [P (x = 0) + P (x = 1)] Otro ejemplo en 5 monedas P (x > 2) U P (x < 4) 1 2 4 5 Ver en la recta del recorrido, si los dos sucesos son excluyentes P (x > 2) = P (x = 3) + P (x = 4) + P (x = 5) P (x < 4) = P (x = 0) + P (x = 1) + P (x = 2) + P (x = 3) La Unin toma todos los valores menos la interseccin P (x > 2) U P (x < 4) - P (x > 2) P (x < 4) Cuando tengo una funcin de cuanta, f de c Lo importante es que con 2 monedas llegu a un modelo y tengo una frmula si la distribucin es discreta y otra si es continua. La Distribucin Discreta: Jacob Bernoulli (Entre aos 1700 y 1800) 1 La distribucin Bernoulli. Se dice que una variable aleatoria de equis, VA x se distribuye en forma Bernoulli si su f de c (o su frmula) est dada por: P(x=xi) = px q 1-x Con distribucin muy restringida Bernoulli se comporta de manera binaria Px = xi Probabilidad que tiene x que tome un valor muy particular. En Bernoulli slo binario. Frmula Donde p es probabilidad de xito xito Probabilidad que salga algo que a m me interesa Ej. Que salga una cara, o pesquisar un infectado q Probabilidad de fracaso. p+q=1 Si p = 0,2 + q = 1 As que q sera = 0,8 x n de xitos que yo defino P(x= 0) = px = 1 Porque donde dice x pongo cero p0 = 1 P(x=0) = px q 1-x = q Si no hay xito Entonces existe un Fracaso P(x=1) = p1 q 1-1 P(x=1) = p1 q 0 = p xito Si al azar respondo una preguntas y 1 sola es correcta entre A, B, C, D o E

xito P = 1/5 y fracaso q = 4/5

2 La Distribucin Binomial Se dice que una VA x discreta se distribuye en forma binomial si su funcin de cuanta est dada por: ( n) P(x=xi) = x px q n-x Donde p es la Probabilidad de xito Binomial es un Bernoulli (que es de una vez) pero repetida. n puede ser el tamao de la muestra (tengo 10 monedas y las lanzo 1 vez o tambin puede ser n de repeticiones de un fenmeno Bernoulli Cules son las restricciones para usar esta frmula? N debe ser un valor fijo, conocido P debe ser constante para cada repeticin del fenmeno, o ser independientes La sumatoria de cero hasta n = 1, porque son f de c n (n) 0 = x px q n-x = 1 (p + q)n Binomio se Newton = 1 No olvide (p + q)2 = p2 + 2pq + q2 Si es elevado a n es el binomio de Newton (n, p) Se lee: La VA x se distribuye (~) en forma binomial, con parmetros n y p Si se conoce n y p, se conoce toda la funcin. x ~ b (n, p) x ~ b (10, 0,2) P(x=xi) = (n) x px q n-x

x ~ b

(10) P(x=xi) = x . 0,2x . 0,8 10-8 Recorrido o valores que puede tomar x Rec = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Cul s la probabilidad que salga cero xito o 1 xito? Hay que preguntarle a la frmula. Si se tiene un test de 10 preguntas de seleccin mltiple 1) A B C D E 2) A B. y una persona responde al azar las 10 preguntas Cul s la probabilidad que:_? Primero hay que ver si es binomial Tamao de la muestra n = 10 (Una cantidad fija) La Probabilidad de xito da una respuesta A B C D E de una es 1/5 = 0,20 De achuntarle es 0,2 y de no achuntarle es de 0,8. As entre la pregunta 1 y la 10. Sea x el nmero de respuestas correctas x ~ b (10, 0,2) 1) Cul s la probabilidad que conteste todas correctas, las 10 (n) P(x=xi) = x px q n-x (10) P(x=10) = 10 0,210 0,8 10-10 P(x=10) = 1 . 0,210 0,8 10-10 0 (Casi cero) Elevado en la mquina est en sombrerito: 0,210 7 ceros antes del dgito, contando el de la coma tambin. 10.000.000

2) Cul s la probabilidad que conteste todas erradas, no achuntarle a ninguna de las 10 (n) P(x=xi) = x px q n-x (10) P(x=0) = 0 0,20 0,8 10-0 P(x=0) = 0,10 O sea 10% 2) Cul s la probabilidad que conteste slo una correcta (n) P(x=xi) = x px . q n-x (10) P(x=1) = 1 0,21 0,8 10-1 Quiero un xito Me quedan 9 fracasos, no olvidar esta parte P(x=1) = 10 0,2 0,8 9 P(x=1) = 0,26 Cul s el valor esperado de respuestas correctas, ( Moda) Es el Promedio de las VA. El valor esperado de una VA o la esperanza Se define la esperanza de una VA x discreta por
n

E [x] = 0 xi P (x=xi) Ej: x 0 1 2 3 n 1 2 3 4 10 hi 0,1 0,2 0,3 0,4 1

Si la distribucin es Bernoulli

Promedio = 0x0,1 + 1x0,2 + 2x0,3 + 3x0,4 Multiplicar Variable por el porcentaje P = xito = Es el valor esperado de x El valor esperado para la distribucin binomial = Cambio la frmula a la binomial Binomial es np np es el valor esperado de la binomial
n

E [x] = 0 xi P (x=xi) E [x] = 10 1= 2 5 3 Distribucin Simn de Poisson (1.700 a 1.800) Arregl la Distribucin binomial, (viene de la binomial) Definicin: Se dice que una VA x discreta se distribuye en forma de Poisson si su funcin de cuanta est dada por: P(x=xi) = - x x! e = 2,71 Es una constante, un valor racional (No es una fraccin) = El parmetro, tambin es una constante, tiene que haber xito. No depende del tamao de la muestra X = Nmero de xitos. Puede tomar valores = 0, 1, 2, 3 Se cumple que la sumatoria entre cero e infinito de
n

= e- x!

x = 1

La esperanza de la Poisson es E[x] = Ejemplo, si hay una varianza Para la Varianza Binomial npq Bernoulli pq Poisson El valor esperado es igual a la varianza Qu s Lambda ()? Es un proceso de Poisson. Notacin usual de esto x ~ P () La Variable aleatoria x se distribuye (~) en forma de Poisson, con Probabilidad de Lambda () Sea x distribuida Poisson (se puede hacer un grfico) x ~ P (3 entonces P(x= xi) = e-3 3x = 1 x! Se cumple que la sumatoria entre cero y 3
n

= e-3 x!

3x = 1

Cunto vale que x tome un valor cero? P(x= 0) = e-3 3x = 1 X! 0! = 1 P(x= 0) = e-3 30 = 1 1 P(x= 0) = 2,71 -3 En la mquina en la columna derecha X3 ln ms en amarillo 1 shift aparece ex Columna izquierda signo - y 3 = 0,04978 P(x= 2) = e-3 32 = 0,147 2! Grfico P(x=xi) 1 2 3 4 5 Valor esperado = = 3 Varianza = 3 Cmo calcular Lambda , sin tener n? Cul s la probabilidad que suene el celular en una clase? No sabemos n Supongamos que todas las clases duran lo mismo, son de perodos iguales De 4 clases Que es una muestra En la 1 suena 1, en la 2 suenan 3, en la 3 suenan 2 y en la 4 suena 1. Promedio de eventos raros Qu ocurri en los 4 eventos anteriores? = 1 + 3 + 2 + 1 = 7 = 1,75 4 4 Poisson: tengo intervalos, y los elementos son escasos. P(x=xi) = e-1.75 1,75x X! Estoy calculando la incertidumbre Cul s la probabilidad de que suene 4 veces? P(x=4) = e-1,75 1,75 4 = 0,067 4! = 24 Si la muestra es muy uniforme, bastan 1 o 2 o 3 personas. Aproximacin a la Binomial por la Poisson (Poisson sali de la Binomial) E [x] = np (Esperanza de la Binomial) E [x] = (Esperanza de la Poisson) Se podra asumir que np =

As todo x se hace que es ms fcil Cuando n es muy grande, se asimilan Ejemplo. Ver aplicaciones de la Poisson x~ b (30 0,1) Donde 0,1 es el 10% Si x se distribuye binomial (n) P(x=xi) = x px q n-x (30) P(x=xi) = x 0,1x 0,9 30-x Si lo quiero calcular x la Poisson multiplico np y eso sera mi 30 0,1 = 3 x~ P(3) Equivale a una Poisson con parmetro 3 P(x=xi) = e-3 3x X! Ejemplo X= 2 Cul s la probabilidad de x = 2 mediante las dos distribuciones? (30) P(x=2) = 2 0,12 0,9 30-2 = 0,22 Por Poisson x ~P(3) P (x=2) = e-3 32 = 0,22 2! Bioestadstica intermedia Ao 2010 Profesores Hernndez, W Aranda y Jorge Rodrguez 9 Crditos Resumen Anlisis exploratorio de datos: De Estadstica descriptiva, lo que ms se ver. x= La variable aleatoria (VA): Discreta o Continua VA Discreta: dan origen a funciones de cuanta o de probabilidad P(X= X) VA continua = dan origen a Funciones de Densidad. El valor de una variable estar dentro de una funcin, con un valor especfico F(x) Algunos Modelos Discretos VA Discreta: dan origen a funciones de cuanta o de probabilidad P(X= X) Bernoulli: La variable slo puede tomar 2 valores: 0 y 1 Sistema Binario, y dar origen a la funcin P(X= X) = Px (1-P)1-x Donde X = 0,1 Cada uno tiene un valor esperado y una esperanza. p = Probabilidad de xito q = Probabilidad de fracaso Y donde p + q = 1 (El total o 100%) Distribucin Binomial = Sirve cuando x va de 0 hasta un valor n (donde n es el tamao de la muestra) P(X= X) = n sobre x Px (1-P)n-x X = 0,1n Funcin de cuanta est dada por: (n) P(x=xi) = x px q n-x Poisson: Su funcin de cuanta est dada por: P(x=xi) = e- x x! e = 2,71 Es una constante, un valor racional (No es una fraccin) = El parmetro del modelo es desconocido, tambin es una constante, tiene que haber xito. Nos acercamos al parmetro por medio de una muestra. No depende del tamao de la muestra X = Nmero de xitos. Puede tomar valores = 0, 1, 2, 3 y llegar al Se cumple que la sumatoria entre cero e infinito es de 1
n

= e-

x = 1

x! La esperanza de la Poisson es E[x] = Ejemplo Qu s Lambda ()? Es un proceso de Poisson. Notacin usual de esto x ~ P () La Variable aleatoria x se distribuye (~) en forma de Poisson, con Probabilidad de Lambda () Sea x distribuida Poisson (se puede hacer un grfico) x ~ P (3 entonces P(x= xi) = e-3 3x = 1 x! Se cumple que la sumatoria entre cero y 3
n

= e-3 x!

3x = 1

Para la Binomial Bernoulli Poisson

Varianza npq pq El valor esperado es igual a la varianza

Distribucin Hipergeomtrica = funcin de cuanta est dada por: (m) M-N P(x=xi) = x n-x N n Se usa al sacar muestras sin reposicin o en forma simultnea. X va de 0, 1,2, hasta el menor valor entre n que es el tamao de la muestra y M que son los elementos con algn atributo. Distribucin geomtrica = funcin de cuanta est dada por: P(x=xi) = p q n-x Van a constituir fracasos, hasta que no ocurra el 1 xito.

Funciones Continuas VA continua = Dan origen a Funciones de Densidad. El valor de una variable estar dentro de una funcin, con un valor especfico F(x) 1 La Distribucin Uniforme (que tambin puede ser discreta) es f(x) = 1 Con x variando entre y - El rea bajo la curva, dar la unidad, siempre. 2 La Distribucin Exponencial se usa en Sobrevida f(x) = e -x Con x>0 Ejemplo en Modelos de estudio de sobrevida. El rea bajo la curva ser la unidad. A medida que va aumentando, va disminuyendo el y. 3 Distribucin Weibul en curvas de sobrevida, vista en continuidad, no en nmero de casos f(x) = e - Hay Parmetros y r r = Factor de posicin Donde + = 7 ) r = xr tr (7 ) r = xr rtr-1 4 Distribucin X2 5 t student, totalmente simtrica 6 La F de Fisher que va de cero para adelante 6 La Distribucin Normal

f(x) = f(x, , 2 ) = 1 Donde Funcin de x va de - a + Al tener una distribucin y al sacarle el promedio, ese promedio se distribuir en forma normal Tomar una muestra aleatoria y a partir de ah, inferir cul era el parmetro o valor de la m. Estadstica es una funcin que depende slo de variables aleatorias y no de parmetros. Estadstica se refiere a una variable, pero a una funcin variable X~ N (, 2 ) X = X1, X2, Xn Ej: X1+ X2 valores conocidos, sacados de la muestra. Estadstica = Slo funciones conocidas que vienen de las muestras, Modelo de Regresin Mltiple. No es Estadstica = x + Ni = X1+ X2 Porque contienen parmetros desconocidos Un Estimador = Estadstica que es un posible valor del parmetro (1 Funcin) De = X El promedio muestral pareciera un buen estimador de , No es un buen estimador la sumatoria de las x (x) (aunque como no contiene parmetros s es una estadstica) Una muestra aleatoria es un conjunto de variables aleatorias. Muestra aleatoria m a de tamao n = m a (n) X1, X2, Xn Ni Un conjunto de VA obtenidas de una poblacin con distribucin f(x) Para que X1, X2, Xn sean de una m a (n) se debe cumplir: 1 Que exista independencia en las variables aleatorias (No es asociada a otra) 2 Que tenga cada una la misma funcin de densidad de la poblacin de donde se obtuvieron. 3 Que se pueda definir una funcin de densidad conjunta que cumpla: g (X1, X2, Xn) = f (X1) f ( X2) f(Xn) Productoria no es la sumatoria = 1n f(Xi) Ejemplo Sea X1, X2, Xn Una Px (1-P)1-x X1 se distribuir = Px1 (1-P)1-x1 X2 se distribuir = Px2 (1-P)1-x2 Xn se distribuir = Pxn (1-P)1-xn m a (n) de una Bernoulli

Funcin de Densidad Conjunta g (X1, X2, Xn) = P 1n Xi (1-P) 1 - 1n Xi P es un parmetro (Las letras de las funciones son parmetros) 0 < P < 1 Esto es el espacio paramtrico, donde se mueven los P = Entre 0 y 1 A partir de aqu, nace un estimador Tcnica = Estimacin Mxima Verosmil. Es una tcnica matemtica que permite encontrar una funcin de la ma que sea el estimador. Mtodo matemtico que consiste el punto mximo de la funcin de densidad (De una derivada de la funcin recta tangente con pendiente cero.

Bernoulli Binario Solo 0 o 1 Ej: Muestra aleatoria de tamao 3 X1 = 1 X2 = 0 X3 = 0 La funcin que se generar g (X1, X2, X3) = Px (1-P)1-xi L (Xi , p) Habra 3 Funciones multiplicadas Px1x2x3 p sombrerito = 1n X = Promedio o X raya n El mejor estimador para P (parmetro), es el promedio = Estimador mximo verosmil p sombrerito = 1 Probabilidad del Promedio 1+0+0 = O sea 1 3 3 3 Estimador de verosimilitud. Obtener un estimador con ma Otra cosa son las propiedades de los estimadores 1Error cuadrtico medio ECM = Varianza del estimador + Sesgo (Valor esperado

de todos los estimadores) El estimador es insesgado Cuando la esperanza o el promedio de todos los estimadores es igual al parmetro

La esperanza de una suma, es la suma de las esperanzas. Si es una normal: la esperanza de una normal es Mu = Y la varianza de x raya es 2

e (X) = V (X) = 2

E (1n X) = 1 E ( X1+X2+Xn) 1 (E ( X1) + E X2+E (Xn)) n n n Estimador tiene que ser insesgado y tambin tiene que ser eficiente. Eficiencia entre 2 estimadores. Cuando tengo estimadores insesgados Con cul me quedo? Un estimador gama^ 1 es ms eficiente que otro estimador Gama^ 2, me quedo con el que tiene menor varianza.

Qu deca teorema central del lmite? Sea (X1, X2, Xn) = Una ma (n) de una poblacin con distribucin f(x) (Pude ser discreta o continua) con media y varianza 2 (No necesariamente normal) Si es Poisson Esperanza E(X) = Lambda y V(X) = Como se llega a este , con el promedio de la muestra. Sea Xraya, la media de la ma (n), entonces la VA y n de la forma: Yn = X - n Tiene lmite normal (0,1) Lmite Yn N (0,1) n Si la muestra es grande o tiende al infinito, por ejemplo 20, se acerca a la normal. No importa la distribucin donde se tome la muestra, lo que importa es que el promedio de esas muestras se distribuye normal

Todas sus distribuciones tienen esperanza y varianza. Esperanza Varianza Poisson Binomial np npq X2 Chi2 Independencia de dos variables Chi 2 con n grado libertad n 2n Chi 2 con n 1 grado libertad n-1 2n-1 Poblacin es dividida en n Si 2 es desconocido 2 Insesgado E (2) = 2 Xu

t student

Sigma n

t n-1

En estadstica Bivariada Modelo de Regresin Lineal Simple, para variables numricas. Epidemiologa busca asociaciones. Queremos establecer un modelo y = f(x) Cualquier funcin: Ahora Modelo de Regresin Lineal Simple. X ser una variable independiente, no aleatoria, yo la controlar, como por ejemplo el tiempo en que mido algo. Y, es la Variable Respuesta, o dependiente, como la t que resulta. Se asocia como una funcin lineal. Modelo lineal: Yi = 0 + 1 Xi + ei Determinstica Error aleatorio Se determina por una forma ei se le pide que se distribuya normal y con esperanza cero. 0 + 1 Son parmetros Como obtendremos estimadores para ellos?

Puede haber varios puntos x1: Por ej. Una familia gana $300.000, cuales son los gastos que tiene? El supuesto de este modelo es que esta respuesta se distribuya en forma normal. Cada una tiene su curva normal, con promedio y varianza. Se le pide a las varianzas que sean iguales (homogedasticidad), as cada promedio estar en el punto central. Supone un modelo lineal terico, sin error Yi = 0 + 1 Xi La E [Yi] Los puntos son representantes de muchos puntitos, son una muestra Yi = 0 + 1 Xi + e i Estimadores EMV, son sesgados, verosmiles ^0 = 0 Siendo 0 el valor basal o intercepto de la lnea recta (donde corta el eje y) ^1 = 1 + 1 es la pendiente Pendiente o inclinacin m = Y2 Y1 X2 X1 Ejemplo Y = 3x + 2 Es una funcin de una lnea recta Qu es 3: Es cada cambio que se produce en la variable dependiente, por unidad de cambio de la variable independiente. Este nmero 2, es donde corta el eje y Se trabaja con estimadores Y^i = ^0 + ^1 Xi Yi = Y^i + ei Error est dado por una diferencia ei = Yi Y^i ei = Yi Y^i Error = Observado - Terico Real medido Por ah es por donde pasar la recta Grfico Ordenada y

Blot o real

Abscisa X Hace un mono Mono es un conjunto o nube de puntos Un grfico de correlacin o asociacin entre 2 variables de tipo numrica.

Terico es sin error, lo estoy proponiendo Y^i = ^0 + ^1 Xi , los puntos los cambiar por un modelo. Dibujar una recta que pase lo ms cerca de todos los puntos (la idea es disminuir el error) Cada punto tiene un error, algunos son positivos, (de la lnea hacia arriba) y otros son negativos. As que el error se distribuye en forma normal, con un promedio cero y una varianza Sigma 2 Los errores hacia arriba compensan a los errores de abajo. Al sumar todos los errores 1n ei = 0 1n (Yi Y^i) = 0 Esto tiene sentido, cuando la nube de puntos me muestra una cierta tendencia. (Ac lineal) Y para disminuir el error, lo llevo al cuadrado. 1n ei2 1n (Yi Y^i) 2 Si da cero, es colineal. Todos los puntos pasan por la misma recta. Y^ Recta terica = 1n (Yi - ^0 - ^1 ) 2 ^0 = 0 Siendo 0 el valor basal o intercepto de la lnea recta (donde corta el eje y) ^1 = 1 + 1 es la pendiente 3 es tangente 1 da el ngulo de inclinacin. Tag = m Buscamos una asociacin de un x con un y^ Si es una lnea recta Y^i = ^0 + ^1 Xi Cunto vale la pendiente y el intercepto, para tener un modelo de una recta, espero La variacin de los errores es Yi Y. Con eso se calcula la variacin de los residuos Varianza residual = Resta N Busco un modelo, que haga lo menor posible esta diferencia (relacionado con los datos originales) Minimizar el error o la diferencia, o minimizar la ecuacin. Se deriva la frmula. Matriz: Ordenamiento de nmeros, en filas y columnas Derivar parcialmente, con respecto a 0 Se llama mtodo de los nmeros cuadrados. Busca por medio de la densidad el valor que va a minimizar la ecuacin. Llega a establecer n = 2 Y esto es = 0 = 0 Matriz de la 1 ecuacin 1n Yi = n ^0 + ^1 1n Xi 2 incgnitas Partir com um conjunto de datos De una tabla de asociacin X2 X Y X 12 X1 Y1 X 22 X2 Y2 ... ... ... 2 Xn Xn Yn X 2 X Y Sigma w = 2 1n (Yi - ^0 - ^1 Xi) (-x) = 0 Sigma 1n XiYi = ^0 1n Xi + ^1 1n Xi2 XY X1 Y1 X2 Y2 ... Xn Yn Xi Yi

Resolviendo el sistema de ecuaciones (Ec 1 y Ec2) se tienen las frmulas para ^2 - ^0 ^1 = XY X Y Covarianza Pendiente Covarianza (X,Y) Xi2 - X2 Covarianza Sigma 2 X En la mquina sale 1 automtico Covarianza cero = hay independencia de X con Y Si ^1 = 0 El modelo es malo Cmo se relaciona con la pendiente Covarianza Asociacin entre Si es + Cov (x, y) > 0 (positivo) Al aumentar la variable x aumentar la variable y en el mismo sentido. Si es Cov (x, y) < 0 Pendiente negativa Con inclinacin mayor de 90C A partir de la ecuacin 1 Se deduce que ^0 = Y - ^1 X

Intercepto o valor basal 0 es cero, pasa por el origen. El que tiene mquina, no ocupa frmula El que tiene Stata pone datos y sale 1 y 2 Modo Re Lin = 1 Ejemplo sean valores de 10 datos Con hartos errores x Y 1 12,8 2 16, 3 25,4 4 22,7 5 28,9 6 23,1 7 29, 8 25,4 9 32,5 10 24,7 X X Lo 1 es que el grfico de correlacin muestra o no una tendencia. Se mide con coeficiente de correlacin lineal de Bil Estadstica paramtrica libre de distribucin Hay que obtener el modelo por el mtodo de los mnimos 2 Y^ = ^0 + ^1 Xi Sin error, porque es el terico En la calculadora 1 borrar todo Modo Re 3 Una lineal. Aparece cero Poner 1 variable independiente, el 1 dgito Es 1 y coma blanca 12,8 Ese par ordenado est en M+ Poner el dato donde dice dato. Luego todos los datos Mquina dar 0 , 1 Y Encuentre el modelo lineal, a partir de los datos Encuentre Y^ Valor terico cuando al modelo se le pone x Con la diferencia se calcular varianza residual Y Y^ = Error al cuadrado Abajo (Y Y^ ) 2 1n (Yi Y^ ) 2 Variacin Residual Se definir Variacin Residual a la Sumatoria de la diferencia de errores al 2 Dividido por n 2 Para que este estimador sea insesgado S2 y/x = (Yi Y^ ) 2 n -2 Es igual a la Varianza Poblacional Residual, porque es insesgado ( 2) E [S2 y/x] = 2 y/x Sale Promedio X raya, DS Poblacional y una flecha. Siga la flecha, salen 2 letras A, B y R R coeficiente correlacin A = 16,4 Intercepto valor basal ^0 B = 1,4 Pendiente ^1 Cul s el modelo? Con la mquina, sin usar frmula 1 este es el modelo lineal Y^= 1,4x + 16,49 En base a una muestra, hay una asociacin lineal Este modelo asocia a x con y Yo busco y^ si le doy un valor de x Qu valor de y^ obtengo si x toma el valor 1 = Y^= 1,4x + 16,49 = 17,9 Por cada valor de cambio de x, y subir 1,4 De los errores al cuadrado se sacan los residuos Control de calidad en inferencia se pasa por 1 Prueba de hiptesis Cmo se que s un modelo lineal? Esto pronosticar y estimar valores para y, se puede interpolar valores ac, ms all del 10 es ms difcil extrapolar. La recta no llega al infinito. La recta ac valdr entre 1 y 10

Extrapolar es llevarla ms all. Puede variar con control de calidad Stata.

También podría gustarte