Está en la página 1de 10

Apndice B Tabla de medidas estadsticas

Captulo 1 Comenzando con R

Los datos pueden ser: ATRIBUTO VARIABLE - V. ALEATORIAS CONTINUAS INTERVALOS - V. A. DISCRETAS NO INTERVALO CLASIFICACIN DE LOS DATOS: o TIPO I: POCAS OBSERVACIONES Y CASI TODAS DISTINTAS. o TIPO II: MUCHAS OBSERV. Y POCAS DISTINTAS.

o TIPO III: MUCHAS OBSERVACIONES Y CASI TODAS DISTINTAS

REPRESENTACIONES GRFICAS

1. DIAGRAMA DE TARTAS ATRIBUTOS 2. DIAGRAMA DE SECTORES ATRIBUTOS 3. DIAGRAMA DE PUNTOS, DIAGRAMA DE DISPERSIN PARA DISTRIBUCIONES BIDIMENSIONALES. PUEDO VER CUAL ES LA MODA. 4. DIAGRAMA DE BARRAS PARA DISTRIB. DE TIPO II (MUCHAS OBSERV. Y POCAS DISTINTAS) 5. HISTOGRAMA PARA DISTRIB. DE TIPO III (MUCHAS OBSERVACIONES Y CASI TODAS DISTINTAS) 6. DIAGRAMA DE CAJAS: LO QUE SE ENCUENTRA FUERA DE LA CAJA SON VALORES ANMALOS. LA RAYA NEGRA MS GRUESA ES LA MEDIANA. SI NO SE PUEDE HACER DIAGRAMA DE BARRAS PORQUE EL PROGRAMA NO ME DEJE, HAGO EL HISTOGRAMA. Para describir una v.a.c descriptivamente: MEDIDAS CENTRALES: o MEDIA Propiedades de la media (que yo considero importantes): 1. Traslacin: si dan una distribucin y a cada valor de la distribucin le sumo la misma cte, la media de esta distribucin ser la misma que la anterior pero incrementada el valor de la cte 2. Homotecia: si multiplicamos por una cte, la media ser la misma que la de antes pero multiplicada por esa cte. (no confundir con las propiedades de la varianza)

o MEDIANA: distribuye a la distribucin en 2 partes iguales, sabiendo el percentil 50, s la mediana. o MODA: es el valor que ms se repite. Lo puedo ver con el histograma, es el valor ms alto. Puede haber ms de una. MEDIDAS DE POSICIN CUANTILES. El R me da los cuartiles P25= Q1, P50= Q2 Y P75=Q3. MEDIDAS DE DISPERSIN: o VARIANZA/ DESVIACIN TPICA El R me da Sd (cuasidesviacin tpica) = ^s ^S(al cuadrado) = Sd (al cuadrado) = (n*S (al cuadrado))/n-1 S(al cuadrado) = ((n-1)(Sd(al cuadrado))) / n Desviacin tpica S = + S(cuadrado) Propiedades de la varianza: 1. Si se le suma una cte a una variable, la varianza no cambia. 2. Si se le multiplica una cte a una variable, la varianza de la nueva variable es igual a la de la antigua variable multiplicada por la cte al cuadrado. Y= ax + b S^2(y) = a^2*S^2 (x) DEMOSTRACIN DE LAS PROPIEDADES ANTERIORES: Dada la variable x con una media de x = 12 y S de x = 9, la variable y = 3x - 4 tendr media y desviacin tpica: S^2=81 Y=3x-4 y=3^2*S^2 (x) S^2 de y = 3^2*81 = 729 S de y = 729 = 27 Media de y = 3 * media de x 4 = 3*12 4 = 32 o RANGO Diferencia entre el valor menor y el valor mayor. El 0% cuando le das a resmenes numricos, solo indica que es el primer valor (el menor), y el 100% solo indica que es el ltimo valor (el mayor). El rango se calcula restndole al ltimo el 1. o RECORRIDO Aquel intervalo formado por el valor menor y el valor mayor. o COEF. DE VARIACIN Cv = S/media de x en valor absoluto. Permite comparar la dispersin de varias distribuciones. Es invariante respecto a la homotecia (multiplicacin) y sensible a la traslacin (suma). En base al Cv que me de, puedo decir: Cuanto ms cercano a 0 est, menos dispersos estarn los datos (ms homognea ser la distrib.) Tb nos da el nivel de representatividad de la media: una media es representativa cuanto ms cercano a 0 est el Cv. Se admite como mximo un valor de Cv = 0,5 para admitir que la media representa aceptablemente al conjunto de la distribucin.

MEDIDAS DE FORMA: hay que cargar el paquete fBasic (herramientas cargar paquete) o SIMETRA: Coef. De simetra g3= m3/S^3 Con R: una vez cargado el paquete pongo: skewness(nombre) Si As > 0 asimtrica positiva o tendida a la izq. Si As < 0 asimtrica negativa o tendida a la derch. Si As = 0 simtrica o CURTOSIS: Coef. De curtosis g2 = m4/S^4 Con R: pongo: kurtosis(nombre) La curtosis sirve para medir el aplastamiento o apuntamiento de la distribucin. Se compara con la distrib. Normal (0,1) (la campana de Gauss) Si g2 > 3 leptocurtica (mas apuntada que la normal). Si g2 < 3 platicrtica (menos apuntada que la normal) Si g2 = 3 mesocurtica (igual de apuntada que la normal) TRANSFORMACIONES. NORMALIZACIN O TIPIFICACIN. Sirve para comparar individuos que pertenezcan a distintas distribuciones, aunque estn en distintas unidades. Consiste en realizar la siguiente transformacin: Z = (x media de x) / S , donde x es mi variable en estudio, Z la variable tipificada y S la desviacin tpica. IMPORTANTE: cualquier variable tipificada tiene media=0 y S=1. DESIGUALDAD DE ICHEBYCHEV Me relaciona la media con la varianza: f(lxi la media de xl < o = aS) > o = 1 (1/a2) a>1 2 1-(1/a ) % de observaciones. [media de x aS, media de x+aS] Me proporciona una cota inferior para el porcentaje de observaciones en un determinado intervalo, este intervalo tendr siempre como centro la media de la distribucin. Cuando me pregunte al tipo: en qu intervalo de centro la media se encuentra, al menos, el 75% de la distribucin? 1 saco a usando: 1-(1/a2) = 0,75 saco que a = 2. [media de x 2*S, media de x+2*S] Ejemplos de percentiles: QU TEMPERATURA HAR COMO MNIMO EN EL 90% DE LOS DIAS MAS CALUROSOS? CLAVE: COMO MINIMO HAY QUE CALCULAR EL PERCENTIL 10 12,48 QUE TEMP HARA COMO MAX EN EL 20% DE LOS DIAS MENOS CALUROSOS?

CLAVE: COMO MAX HAY QUE CALCULAR EL PERCENTIL 20 13,92

Captulo 2 Anlisis Exploratorio de Datos Unidimensional


Anlisis conjunto de variables Independencia: Tanto la dependencia como la independencia vienen a medir la informacin de una de las variables a partir del conocimiento de la otra. - Si tenemos informacin total, hablaremos de dependencia total o funcional. - Si la informacin es parcial hablaremos de dependencia estadstica. - Si la informacin es nula, hablaremos de independencia. X e y son independientes si fi*fj = fij para todo i, j. MEDIDAD DE DEPENDENCIA V.A.C COEFICIENTE DE CORRELACION DE PEARSON (r): Para ver si son dependientes o no, se usa el coeficiente de correlacin de Pearson o coeficiente de relacin lineal (r). Mide el grado de relacin lineal entre 2 variables cuantitativas indicando el sentido directo o inverso r= Sxy / Sx* Sy ES ADIMENSIONAL! r est dentro de [-1, 1] SIEMPRE!! Sxy=covarianza ; Sx= desv. Tpica de x ; Sy=desviacin tpica de y. - Si r >0 la relacin entre ambas variables es directa - Si r<0 la relacin entre ambas variables es inversa Y ser ms exacta cuanto ms cercana a 1 -1 est. - Si r=0 no hay relacin lineal entre ambas. Las variables estn INCORRELADAS Si las variables son independientes son incorreladas. Si las variables son incorreladas pueden ser o no independientes. CMO HALLAR r EN EL R: estadsticos ------> resmenes ------> test de correlacin. PARA SACAR LA RECTA DE AJUSTE: estadsticos-----> ajuste de modelos-----> regresin lineal. Estimate Std. (Intercept) -5.3195

anchura 1.7782 COEFICIENTE DE CONTINGENCIA: mide la relacin entre atributos, el grado de asociacin. C= (X2/(X2 + n)) X2 con el R: escribir x-Squared 0<=C<=1 X2 > = 0 Cuanto ms cercano al 1 est, mayor asociacin habr entre los atributos.

Captulo 3 Anlisis Exploratorio de Datos multidimensional

BONDAD O FIABILIDAD DEL AJUSTE (R2): coef. De determinacin. R2= (Sy2 *) / (Sy2) Como el ajuste suele ser lineal mi coeficiente de determinacin coincide con el de Pearson. R2 = r2 (caso lineal) La R2 se expresa en %. La variabilidad de y se explica en dicho porcentaje por la variable x, el resto se explicar por otra funcin. El modelo adecuado es el que tenga mayor R2. - AJUSTE PARABLICO Y = ax2 + bx + c Estadsticos -----ajuste de modelos -----modelo lineal Dependiente (explicada) = independiente + I (independiente^2) - AJUSTE EXPONENCIAL Igual que el anterior y poner: Log(y)= x Lny=ln(abx) Lny=lna+lnbx Lny=lna+xlnb x=x ; y=lny =me la da R --------> a=e ^b=me la da R -------->b=^be AJUSTE POTENCIAL: Y=axb Lny=lnaxb lny=lna + blnx

X=lnx Y=lny

^b

lo que me da el R

Para pasar de y ^b a a y b: a=e y b=e^b log(y) =log(x) - AJUSTE HIPERBLICO Y=a+(b/x) X=1/x Y=y Y=I(1/x) Contrastes: Tipo: c del examen de junio de 2010. Suponiendo que se trata de una muestra aleatoria simple, contraste si para el conjunto de la poblacin el nivel medio de protenas est por encima de 20 gramos. Considere valores de alfa = 0,01 y 0,05. - Tengo que hacer un contraste paramtrico unilateral para mu con gamma desconocida. H0: mu > o = 20 H 0 ---> hiptesis nula H1: mu< 20 H1 ---> hiptesis alternativa Alfa=0,01 Alfa=0,05 Nivel de significacin Nivel de confianza =a ^b=b

1 alfa =0,99 1 alfa =0,95 ^P = p-value

^P > alfa ---> No existen evidencias para rechazar H0 ^P< alfa ---> Rechazo H0. ^P>>> alfa o ^P<<<alfa --->decisin bien tomada. ^P aprox a alfa ---> prudencia en la decisin tomada. Con R: estadsticos ---medias ---- test t para una muestra. Palabra clave: contraste - Como me dice por encima de 20 gramos, marco media poblacional > mu - Pongo en hiptesis nula (H0), mu = 20 - En nivel de confianza .95 y .99 (primero lo hago para uno y luego para el otro). - Si el p-valor me da mayor que alfa no existen evidencias para rechazar la hiptesis nula. Ahora hago el contraste bilateral, es decir, marco =, para ver en cual se incluye el 20. Vemos que en el alfa = 0,01 si se incluye (por poco) y en el alfa = 0,05 no se incluye, asi que la rechazo.

A. Dadas las rectas de regresin y=-0,6+2,4x ; x=- 6,9 + 1,5y (media de x, media de y) --------------> punto de interseccin Resolviendo el sist. Me da la media de x=3 y la media de y=6,6 B. Cuando n tiende a infinito se verifica que: tn convergea una N(0, 1) C. Si P(A)=0,4 y P(A/B) =0,1, entonces P(AnB) es: No se puede calcular porque P(A/B)=(P(AnB))/P(B) y no me dan P(B) D. La distribucin de la media muestral de una muestra extraida de una N(mu, gamma) es: N(mu, gamma/n) E. Si la recta de ajuste de y en funcin de x es y=0,5+0, x , cual podra ser la otra recta? Hay que saber: y=bx+a ; x=by + a B y b tienen el mismo signo! b*b= r F. Sabiendo que 2 de cada 5 espaoles no leen libros, la prob de que un espaol al azar lea libros es: 0,6 por que? A --> no leer libros (2/5) ; ---> leer libros, P()=3/5 =0,6 Si A y B son independientes, sus complementarios tb lo son. G. Si A y B son sucesos independientes: y B(con rayita) son independientes. Dos sucesos independientes si: P(AnB)= P(A)*P(B) Dos sucesos son incompatibles si: P(AnB)= fi (o nulo) P(A/B)=P(AnB)/P(B) = (P(A)*P(B)) / P(B) = P(A) P(AUB)= P(A)+P(B) P(AnB)