Está en la página 1de 9

Bioestadstica intermedia Ao 2010 Profesores Hernndez, W Aranda y Jorge Rodrguez 9 Crditos Resumen Anlisis exploratorio de datos: De Estadstica descriptiva,

lo que ms se ver. x= La variable aleatoria (VA): Discreta o Continua VA Discreta: dan origen a funciones de cuanta o de probabilidad P(X= X) VA continua = dan origen a Funciones de Densidad. El valor de una variable estar dentro de una funcin, con un valor especfico F(x) Algunos Modelos Discretos VA Discreta: dan origen a funciones de cuanta o de probabilidad P(X= X) Bernoulli: La variable slo puede tomar 2 valores: 0 y 1 Sistema Binario, y dar origen a la funcin P(X= X) = Px (1-P)1-x Donde X = 0,1 Cada uno tiene un valor esperado y una esperanza. p = Probabilidad de xito q = Probabilidad de fracaso Y donde p + q = 1 (El total o 100%) Distribucin Binomial = Sirve cuando x va de 0 hasta un valor n (donde n es el tamao de la muestra) P(X= X) = n sobre x Px (1-P)n-x X = 0,1n Funcin de cuanta est dada por: (n) P(x=xi) = x px q n-x Poisson: Su funcin de cuanta est dada por: P(x=xi) = e- x x! e = 2,71 Es una constante, un valor racional (No es una fraccin) = El parmetro del modelo es desconocido, tambin es una constante, tiene que haber xito. Nos acercamos al parmetro por medio de una muestra. No depende del tamao de la muestra X = Nmero de xitos. Puede tomar valores = 0, 1, 2, 3 y llegar al Se cumple que la sumatoria entre cero e infinito es de 1
n

= e-

x = 1

x! La esperanza de la Poisson es E[x] = Ejemplo Qu s Lambda ()? Es un proceso de Poisson. Notacin usual de esto x ~ P () La Variable aleatoria x se distribuye (~) en forma de Poisson, con Probabilidad de Lambda () Sea x distribuida Poisson (se puede hacer un grfico) x ~ P (3 entonces P(x= xi) = e-3 3x = 1 x!

Se cumple que la sumatoria entre cero y 3


n

= e-3 x!

3x = 1

Para la Binomial Bernoulli Poisson

Varianza npq pq El valor esperado es igual a la varianza

Distribucin Hipergeomtrica = funcin de cuanta est dada por: (m) M-N P(x=xi) = x n-x N N Se usa al sacar muestras sin reposicin o en forma simultnea. X va de 0, 1,2, hasta el menor valor entre n que es el tamao de la muestra y M que son los elementos con algn atributo. Distribucin geomtrica = funcin de cuanta est dada por: P(x=xi) = p q n-x Van a constituir fracasos, hasta que no ocurra el 1 xito.

Funciones Continuas VA continua = Dan origen a Funciones de Densidad. El valor de una variable estar dentro de una funcin, con un valor especfico F(x) 1 La Distribucin Uniforme (que tambin puede ser discreta) es f(x) = 1 Con x variando entre y - El rea bajo la curva, dar la unidad, siempre. 2 La Distribucin Exponencial se usa en Sobrevida f(x) = e -x Con x>0 Ejemplo en Modelos de estudio de sobrevida. El rea bajo la curva ser la unidad. A medida que va aumentando, va disminuyendo el y. 3 Distribucin Weibul en curvas de sobrevida, vista en continuidad, no en nmero de casos f(x) = e - Hay Parmetros y r r = Factor de posicin Donde + = 7 ) r = xr tr (7 ) r = xr rtr-1

4 Distribucin X2 5 t student, totalmente simtrica 6 La F de Fisher que va de cero para adelante 6 La Distribucin Normal f(x) = f(x, , 2 ) = 1 Donde Funcin de x va de - a + Al tener una distribucin y al sacarle el promedio, ese promedio se distribuir en forma normal Tomar una muestra aleatoria y a partir de ah, inferir cul era el parmetro o valor de la m. Estadstica es una funcin que depende slo de variables aleatorias y no de parmetros. Estadstica se refiere a una variable, pero a una funcin variable X~ N (, 2 ) X = X1, X2, Xn Ej: X1+ X2 valores conocidos, sacados de la muestra. Estadstica = Slo funciones conocidas que vienen de las muestras, Modelo de Regresin Mltiple. No es Estadstica = x + Ni = X1+ X2 Porque contienen parmetros desconocidos Un Estimador = Estadstica que es un posible valor del parmetro (1 Funcin) De = X El promedio muestral pareciera un buen estimador de , No es un buen estimador la sumatoria de las x (x) (aunque como no contiene parmetros s es una estadstica) Una muestra aleatoria es un conjunto de variables aleatorias. Muestra aleatoria m a de tamao n = m a (n) X1, X2, Xn Ni Un conjunto de VA obtenidas de una poblacin con distribucin f(x) Para que X1, X2, Xn sean de una m a (n) se debe cumplir: 1 Que exista independencia en las variables aleatorias (No es asociada a otra) 2 Que tenga cada una la misma funcin de densidad de la poblacin de donde se obtuvieron. 3 Que se pueda definir una funcin de densidad conjunta que cumpla: g (X1, X2, Xn) = f (X1) f ( X2) f(Xn) Productoria no es la sumatoria = 1n f(Xi) Ejemplo Sea X1, X2, Xn Una x 1-x P (1-P) X1 se distribuir = Px1 (1-P)1-x1 X2 se distribuir = Px2 (1-P)1-x2 Xn se distribuir = Pxn (1-P)1-xn m a (n) de una Bernoulli

Funcin de Densidad Conjunta g (X1, X2, Xn) = P 1n Xi (1-P) 1 - 1n Xi P es un parmetro (Las letras de las funciones son parmetros) 0 < P < 1 Esto es el espacio paramtrico, donde se mueven los P = Entre 0 y 1 A partir de aqu, nace un estimador Tcnica = Estimacin Mxima Verosmil. Es una tcnica matemtica que permite encontrar una funcin de la ma que sea el estimador. Mtodo matemtico que consiste el punto mximo de la funcin de densidad (De una derivada de la funcin recta tangente con pendiente cero.

Bernoulli Binario Solo 0 o 1 Ej: Muestra aleatoria de tamao 3 X1 = 1 X2 = 0 X3 = 0 La funcin que se generar g (X1, X2, X3) = Px (1-P)1-xi L (Xi , p) Habra 3 Funciones multiplicadas Px1x2x3 p sombrerito = 1n X = Promedio o X raya n El mejor estimador para P (parmetro), es el promedio = Estimador mximo verosmil p sombrerito = 1 Probabilidad del Promedio 1+0+0 = O sea 1 3 3 3 Estimador de verosimilitud. Obtener un estimador con ma Otra cosa son las propiedades de los estimadores 1Error cuadrtico medio ECM = Varianza del estimador + Sesgo
(Valor esperado de todos los estimadores)

El estimador es insesgado Cuando la esperanza o el promedio de todos los estimadores es igual al parmetro

La esperanza de una suma, es la suma de las esperanzas. Si es una normal: la esperanza de una normal es Mu = Y la varianza de x raya es 2

e (X) = V (X) = 2

E (1n X) = 1 E ( X1+X2+Xn) 1 (E ( X1) + E X2+E (Xn)) n n n Estimador tiene que ser insesgado y tambin tiene que ser eficiente. Eficiencia entre 2 estimadores. Cuando tengo estimadores insesgados Con cul me quedo? Un estimador gama^ 1 es ms eficiente que otro estimador Gama^ 2, me quedo con el que tiene menor varianza.

Qu deca teorema central del lmite? Sea (X1, X2, Xn) = Una ma (n) de una poblacin con distribucin f(x) (Pude ser discreta o continua) con media y varianza 2 (No necesariamente normal) Si es Poisson Esperanza E(X) = Lambda y V(X) = Como se llega a este , con el promedio de la muestra. Sea Xraya, la media de la ma (n), entonces la VA y n de la forma: Yn = X - n Tiene lmite normal (0,1) Lmite Yn N (0,1) n Si la muestra es grande o tiende al infinito, por ejemplo 20, se acerca a la normal. No importa la distribucin donde se tome la muestra, lo que importa es que el promedio de esas muestras se distribuye normal

Todas sus distribuciones tienen esperanza y varianza. Esperanza Varianza Poisson Binomial np npq 2 2 X Chi Independencia de dos variables Chi 2 con n grado libertad n 2n Chi 2 con n 1 grado libertad n-1 2n-1 Poblacin es dividida en n Si 2 es desconocido 2 Insesgado E (2) = 2 Xu t student = Sigma t n-1 n En estadstica Bivariada Modelo de Regresin Lineal Simple, para variables numricas. Epidemiologa busca asociaciones. Queremos establecer un modelo y = f(x) Cualquier funcin: Ahora Modelo de Regresin Lineal Simple. X ser una variable independiente, no aleatoria, yo la controlar, como por ejemplo el tiempo en que mido algo. Y, es la Variable Respuesta, o dependiente, como la t que resulta. Se asocia como una funcin lineal. Modelo lineal: Yi = 0 + 1 Xi + ei Determinstica Error aleatorio Se determina por una forma ei se le pide que se distribuya normal y con esperanza cero.

0 + 1 Son parmetros Como obtendremos estimadores para ellos?

Puede haber varios puntos x1: Por ej. Una familia gana $300.000, cuales son los gastos que tiene? El supuesto de este modelo es que esta respuesta se distribuya en forma normal. Cada una tiene su curva normal, con promedio y varianza. Se le pide a las varianzas que sean iguales (homogedasticidad), as cada promedio estar en el punto central. Supone un modelo lineal terico, sin error Yi = 0 + 1 Xi La E [Yi] Los puntos son representantes de muchos puntitos, son una muestra Yi = 0 + 1 Xi + e i Estimadores EMV, son sesgados, verosmiles ^0 = 0 Siendo 0 el valor basal o intercepto de la lnea recta (donde corta el eje y) ^1 = 1 + 1 es la pendiente Pendiente o inclinacin m = Y2 Y1 X2 X1 Ejemplo Y = 3x + 2 Es una funcin de una lnea recta Qu es 3: Es cada cambio que se produce en la variable dependiente, por unidad de cambio de la variable independiente. Este nmero 2, es donde corta el eje y Se trabaja con estimadores Y^i = ^0 + ^1 Xi Yi = Y^i + ei Error est dado por una diferencia ei = Yi Y^i ei = Yi Y^i Error = Observado - Terico Real medido Por ah es por donde pasar la recta Grfico Ordenada y Blot o real Abscisa X Hace un mono Mono es un conjunto o nube de puntos Un grfico de correlacin o asociacin entre 2 variables de tipo numrica. Terico es sin error, lo estoy proponiendo Y^i = ^0 + ^1 Xi , los puntos los cambiar por un modelo. Dibujar una recta que pase lo ms cerca de todos los puntos (la idea es disminuir el error) Cada punto tiene un error, algunos son positivos, (de la lnea hacia arriba) y otros son negativos. As que el error se distribuye en forma normal, con un promedio cero y una varianza Sigma 2 Los errores hacia arriba compensan a los errores de abajo. Al sumar todos los errores 1n ei = 0 1n (Yi Y^i) = 0

Esto tiene sentido, cuando la nube de puntos me muestra una cierta tendencia. (Ac lineal) Y para disminuir el error, lo llevo al cuadrado. 1n ei2 1n (Yi Y^i) 2 Si da cero, es colineal. Todos los puntos pasan por la misma recta. Y^ Recta terica = 1n (Yi - ^0 - ^1 ) 2 ^0 = 0 Siendo 0 el valor basal o intercepto de la lnea recta (donde corta el eje y) ^1 = 1 + 1 es la pendiente 3 es tangente 1 da el ngulo de inclinacin. Tag = m Buscamos una asociacin de un x con un y^ Si es una lnea recta Y^i = ^0 + ^1 Xi Cunto vale la pendiente y el intercepto, para tener un modelo de una recta, espero La variacin de los errores es Yi Y. Con eso se calcula la variacin de los residuos Varianza residual = Resta N Busco un modelo, que haga lo menor posible esta diferencia (relacionado con los datos originales) Minimizar el error o la diferencia, o minimizar la ecuacin. Se deriva la frmula. Matriz: Ordenamiento de nmeros, en filas y columnas Derivar parcialmente, con respecto a 0 Se llama mtodo de los nmeros cuadrados. Busca por medio de la densidad el valor que va a minimizar la ecuacin. Llega a establecer n = 2 Y esto es = 0 = 0 Matriz de la 1 ecuacin 1n Yi = n ^0 + ^1 1n Xi 2 incgnitas Partir com um conjunto de datos De una tabla de asociacin X2 X Y X 12 X1 Y1 2 X2 X2 Y2 ... ... ... 2 Xn Xn Yn X 2 X Y n Sigma w = 2 1 (Yi - ^0 - ^1 Xi) (-x) = 0 Sigma 1n XiYi = ^0 1n Xi + ^1 1n Xi2 XY X1 Y1 X2 Y2 ... Xn Yn Xi Yi

Resolviendo el sistema de ecuaciones (Ec 1 y Ec2) se tienen las frmulas para ^2 - ^0 ^1 = XY X Y Covarianza Pendiente Covarianza (X,Y) 2 2 Xi X Covarianza Sigma 2 X En la mquina sale 1 automtico Covarianza cero = hay independencia de X con Y

Si ^1 = 0 El modelo es malo Cmo se relaciona con la pendiente Covarianza Asociacin entre Si es + Cov (x, y) > 0 (positivo) Al aumentar la variable x aumentar la variable y en el mismo sentido. Si es Cov (x, y) < 0 Pendiente negativa Con inclinacin mayor de 90C A partir de la ecuacin 1 Se deduce que ^0 = Y - ^1 X Intercepto o valor basal 0 es cero, pasa por el origen. El que tiene mquina, no ocupa frmula El que tiene Stata pone datos y sale 1 y 2 Modo Re Lin = 1 Ejemplo sean valores de 10 datos Con hartos errores x Y 1 12,8 2 16, 3 25,4 4 22,7 5 28,9 6 23,1 7 29, 8 25,4 9 32,5 10 24,7 X X Lo 1 es que el grfico de correlacin muestra o no una tendencia. Se mide con coeficiente de correlacin lineal de Bil Estadstica paramtrica libre de distribucin Hay que obtener el modelo por el mtodo de los mnimos 2 Y^ = ^0 + ^1 Xi Sin error, porque es el terico En la calculadora 1 borrar todo Modo Re 3 Una lineal. Aparece cero Poner 1 variable independiente, el 1 dgito Es 1 y coma blanca 12,8 Ese par ordenado est en M+ Poner el dato donde dice dato. Luego todos los datos Mquina dar 0 , 1 Y Encuentre el modelo lineal, a partir de los datos Encuentre Y^ Valor terico cuando al modelo se le pone x Con la diferencia se calcular varianza residual Y Y^ = Error al cuadrado Abajo (Y Y^ ) 2 1n (Yi Y^ ) 2 Variacin Residual Se definir Variacin Residual a la Sumatoria de la diferencia de errores al 2 Dividido por n 2 Para que este estimador sea insesgado S2 y/x =1n (Yi Y^ ) 2 n -2 Es igual a la Varianza Poblacional Residual, porque es insesgado ( 2)

E [S2 y/x] = 2 y/x Sale Promedio X raya, DS Poblacional y una flecha. Siga la flecha, salen 2 letras A, B y R R coeficiente correlacin A = 16,4 Intercepto valor basal ^0 B = 1,4 Pendiente ^1 Cul s el modelo? Con la mquina, sin usar frmula 1 este es el modelo lineal Y^= 1,4x + 16,49 En base a una muestra, hay una asociacin lineal Este modelo asocia a x con y Yo busco y^ si le doy un valor de x Qu valor de y^ obtengo si x toma el valor 1 = Y^= 1,4x + 16,49 = 17,9 Por cada valor de cambio de x, y subir 1,4 De los errores al cuadrado se sacan los residuos Control de calidad en inferencia se pasa por 1 Prueba de hiptesis Cmo se que s un modelo lineal? Esto pronosticar y estimar valores para y, se puede interpolar valores ac, ms all del 10 es ms difcil extrapolar. La recta no llega al infinito. La recta ac valdr entre 1 y 10 Extrapolar es llevarla ms all. Puede variar con control de calidad Stata.