Analisis Estadistico

Gmez Rivera Sal Alberto Biomecnica
ANLISIS ESTADSTICO
Las leyes fsicas, al ser sta una ciencia experimental, se formulan en base a los resultados obtenidos durante observaciones. As pues, una ley representa una aproximacin estadstica a los resultados que cabe esperar de un experiencia concreta. Si definimos poblacin como el conjunto de elementos sobre el cual debera actuar una cierta ley, en general el nmero de los mismos es tan elevado que debemos recurrir al muestreo y seleccionar una muestra de la misma que ms o menos contenga todas los posibles resultados. Una vez analizada una muestra, un posterior tratamiento estadstico nos permitir estudiar si es posible generalizar algunas caractersticas para toda la poblacin o no. Tipos de Variables: Cuando el fenmeno que vamos a estudiar toma valores muy concretos, hablamos de una variable discreta. Cuando el fenmeno toma una cantidad de valores infinita y no numerable, hablamos de una variable continua. Al proceso mediante el cual aproximamos una variable continua a una discreta se le denomina discretizacin de la variable. En caso de que el posible nmero de valores de una variable discreta sea muy amplio, lo aconsejable es discretizarla an ms, en un nmero de clases prximo a la raz cuadrada del nmero de valores . Tabla de frecuencias:
Una vez que tenemos nuestras variables discretizadas, es aconsejable escribir sus tablas de frecuencia, que pueden tener una infinidad de componentes, de los cuales 3 suelen aparecer siempre:
La columna de las clases "xi", en la que se indicar el nombre de todas las clases que aparecen en el experimento. La columna de frecuencias absolutas "ni", que, junto a la columna de clases, indicar el nmero de veces que aparece cada una. La columna de frecuencias relativas "fi", que indica lo mismo que la anterior, pero dividido entre el nmero total de resultados "N". Medidas de Centralizacin: Una vez que hemos obtenido una muestra y hemos escrito la correspondiente tablas de frecuencias, es interesante empezar a estudiar en torno a qu clases hay mayor acumulacin de elementos. Hay varias formas de estudiar esto. Moda: es la clase o el conjunto de clases que ms veces aparecen. En general es nica, multiplicndose con cuantas ms clases tengan el mayor nmero de frecuencia absoluta. Se representa por "Md". Mediana: si consideramos el nmero "N" de elementos analizados y los ordenamos por orden segn el valor de sus clases, denominamos mediana a la clase del elemento "N / 2". Se representa por "Me". Primer Cuartil: igual que en el caso anterior. En esta ocasin ser el elemento "N / 4". Tercer Cuartil: igual que en los casos anteriores. En esta ocasin ser el elemento "3 N / 4". De entre todas las medidas de centralizacin, sin duda, las ms importantes son las medias, por la complejidad de su clculo. Fundamentalmente hay cuatro tipos de medias, a saber: Arimtica: se suman todos los elementos y el resultado se divide entre el nmero total de elementos. Se representa por "x", y analticamente se expresa: x = (xi) desde "1" hasta "N" / N. Si "K" es el nmero de clases, podremos simplificar la expresin sumando cada clase un nmero de veces igual a su frecuencia absoluta: x = (xi ni) desde "1" hasta "K" / N = (fi xi) desde "1" hasta "K". Geomtrica: se multiplican todos los elementos y al resultado se le aplica la raz N-sima. xg = ((xi) desde "1" hasta "N")^1/N. Sin embargo, la forma ms comn de expresarla es como 10 elevado a la media de los logaritmos de los elementos:
xg = 10^(log(x)). Cuadrtica: se suman todos los elementos elevados al cuadrado, y al resultado se le aplica la raz cuadrada: xq = ((xi^2) desde "1" hasta "N")^1/2. Sin embargo, es ms usual verla expresado como la raz de la media de los cuadrados de los elementos: xq = (x^2)^1/2. Armnica: se define su inversa como la media de la suma de las inversas de los elementos, de modo que: xa = 1 / ((1 / x)). Suele acontecer la siguiente relacion: xa xg x xq. Medidas de Dispersin:
Este nuevo tipo de medidas es til para saber ms o menos el nivel de concentracin de los datos. As pues, se puede interpretar como una forma de valorar la fiabilidad de decir que la mayora se agrupan en torno a un valor. Cuanta mayor sea la dispersin mayor ser la aleatoriedad del experimento. Rango: es la diferencia entre el elemento de mayor valor y el el de menor valor. Rango Intercuartlico: es la diferencia entre el primer y el tercer cuartiles. Varianza: se define como la suma de las distancias al cuadrado entre cada elemento y la media aritmtica, dividida cada una de ellas entre el nmero de elementos: s^2 = ([xi - x]^2) desde 1 hasta N / N.
Desviacin Tpica: se define como la raz cuadrada de la varianza. Posee las mismas unidades que los elementos y por tanto es la que se les puede sumar. Se define como: s = [s^2]^1/2. En general, en distribuciones de datos normales o gaussianas, el intervalo (x 2 s, x + 2 s) contiene el 95% de los elementos. Conociendo todo esto, es interesante introducir el llamado Coeficiente de Pearson para dispersiones, que se define como: cp = s / x. Factor k: k = (xi x) / s(x). Bsicamente es una medida que da una idea de lo alejado que est un elemento de la media aritmtica, es por eso que al valor del elemento xi se le resta el de la media de los elementos x, y despus se divide entre la desviacin tpica de los xi. Si la distancia de un elemento a la media es menor que la desviacin tpica, diramos que est poco disperso, en caso contrario diremos que est bastante disperso. La Desigualdad de Tchebychev: f(xi//|xi x| > k s) < 1 / k^2. , es otro dato importante en las medidas de dispersin, pues implica que cuando un elemento est alejado k s veces de la media su frecuencia ser menor que la inversa del cuadrado de k. Momentos Caractersticos de la Distribucin de Datos: Se define como el momento de orden r-simo respecto a un valor c en una distribucin de datos a la expresin: mr(c) = (x c)^r. , es decir, la media de las distancias de los elementos a c elevadas a r. As pues, el momento de primer orden respecto a 0 es la media, y el momento de segundo orden respecto a la media es la varianza. Medidas de Asimetra:
La asimetra, como su propio nombre nos indica, nos da una idea de hacia qu lado de la media estn ms agrupados los datos, y en general usaremos dos coeficientes, siendo uno de ellos mucho ms fiable que el otro. Coeficiente de Pearson: se define como el cociente de la distancia de la media a la moda, dividido entre la desviacin tpica. Si es positivo hablamos de asimetra positiva, y anlogamente trataremos los valores negativos: Ap = (x Md) / s. Tiene el fallo de que no considerar la posibilidad de que haya ms de una moda. Coeficiente de Fisher: se define como el momento de tercer orden respecto a la media dividido entre el cubo de la desviacin tpica: Af = m3(x) / s^3. , que en ltima instancia es: (fi(xi x)^3) desde 1 hasta K / s^3. Medidas de Apuntamiento:
En ltima instancia, el apuntamiento nos da una idea de lo importante que es la media en una distribucin (si los datos se amontonan ciertamente en torno a ella o no). El factor curtosis, que es el que nos ayudar a determinar esta caracterstica, se define como: g = m4(x) / s^4. Si g es igual a 3, la distribucin ser normal o gaussiana. Si g es menor que 3, la distribucin ser leptocrtica, y si g es mayor que 3 la distribucin ser platicrtica. Distribuciones Bivariantes:
Son otro tipo de distribuciones en las que, para un mismo elemento, analizamos dos caractersticas x e y en vez de una, y posteriormente analizamos si estn relacionadas en toda la muestra. Un ejemplo de este tipo de distribuciones pueden ser: la altura y el peso (sin relacin), las notas en dos asignaturas (ms o menos relacionadas), o la masa y el peso (completamente relacionadas) Medidas interesantes de este tipo de distribuciones son: Distribucin de Frecuencia Marginal: Hablamos de Frecuencia Absoluta Marginal para referirnos al nmero de veces que una de las variables toma cierto valor. As, la frecuencia absoluta marginal del valor xi de la variable x es el nmero de veces que aparece, independientemente del valor de y. As pues, matemticamente la expresaremos como la suma de las veces que que aparece xi junto a todos los valores de y que comparte, que sern j: nxi = (nij) desde j=1 hasta l. Anlogamente: nyj = (nij) desde i=1 hasta k. , siendo k el nmero de valores de x ue pueden aparecer con yj. La Frecuencia Relativa Marginal la podemos obtener sustituyendo nij por fij: fxi = (fij) desde j=1 hasta l. fyj = (fij) desde i=1 hasta k. Frecuencias Coordinadas: Definimos la frecuencia coordinada f respecto a un valor xi como el cociente de la frecuencia relativa de algn elemento que tome el valor xi y la frecuencia relativa marginal de xi: f(yj // x = xi ) = fij / fxi. (La frecuencia coordinada para cualquier valor de y siempre y cuando x = xi). Anlogamente: f(xi // y = yj) = fij / fyj. Momentos bivariantes: Definimos el momento de una distribucin bivariante de datos de orden r, s respecto a los puntos c, d como:
mr,s(c,d) = ((fij (xi c)^r (yj d)^s) desde j = 1 hasta l) desde i = 1 hasta k. Se cumplen las siguientes propiedades: m0,0(c,d) = 1. El momento 0,0 respecto a (c,d) es siempre la unidad. m1,0(0,d) = x. El momento 1,0 respecto a (0,d) es siempre la media de la variable x. m0,1(c,0) = y. El momento 0,1 respecto a (c,0) es siempre la media de la variable y. m2,0(x,d) = s(x)^2. El momento 2,0 respecto a (x,d) es siempre la varianza de la variable x. m0,2(c,y) = s(y)^2. El momento 0,2 respecto a (c,y) es siempre la varianza de la variable y. Covarianza: Se define la covarianza de una distribucin bivariante como el momento 1,1 respecto a (x,y). Cov(x,y) = m1,1(x,y) = ((fij (xi x) (yj y)) desde j = 1 hasta l) desde i = 1 hasta k. Desarrollando el producto nos resulta: Cov(x,y) = ((fij (xi yi - x yi xi y + x y)) desde j = 1 hasta l) desde i = 1 hasta k = (x y) x y x y + x y = (x y) x y. La covarianza es igual a la media del producto xi yi menos el producto de la media de la variable x por la media de la variable y. La covarianza de una variable consigo misma es siempre igual a la varianza de la misma: Cov(x,x) = (x^2) (x)^2 = s(x)^2. Coeficiente de Correlacin: Para ver la relacin entre las dos variables se establecen varios coeficientes de correlacin, que indican el tipo de relacin entre las mismas. Veremos ahora el Coeficiente de Correlacin Lineal r, que tan solo nos da una idea de si las variables son directa o inversamente proporcionales, y cuanto. Este coeficiente es igual a la covarianza dividida entre el producto de las varianzas de cada una de las dos variables a analizar: r = Cov(x,y) / (s(x) s(y). Se puede comprobar que r es adimensional, y que toma valores entre -1 y 1. Cuanto ms cerca est del 1 mayor ser la relacin directa entre las variables, siendo perfecta en el 1. Cuando ms cerca est del -1 mayor ser la relacin inversa entre las variables,
siendo perfecta en el -1. Finalmente, cuanto ms cerca est del 0 menor ser la relacin entre las variables, siendo completamente independientes en el 0. Rectas de Regresin de una Variable sobre Otra:
Una vez obtenido un coeficiente de correlacin entre dos variables de una distribucin multivariante, y comprobado que existe una dependencia entre las mismas, es posible calcular la ecuacin de una recta que se aproxime bastante a todos los elementos obtenidos. En dos dimensiones, podremos considerar a esta recta por su ecuacin explcita: y = m x + n, siendo x e y las componentes de los puntos contenidos en ella, m la pendiente, y n una constante. Si y representa la variable y de la distribucin, hablaremos de la recta de regresin de y sobre x. Si y representa la variable x de la distribucin, hablaremos de la recta de regresin de x sobre y. Nosotros veremos como ejemplo el primer caso, pero el otro sera idntico. La distancia sobre y de la recta r a un punto Pi(xi, yi) es: d(r,Pi) = (xi, m xi + n) (xi, yi) = (0, m xi + n yi). Lo expresaremos siempre elevado al cuadrado para que sea positivo: d = (m xi + n yi)^2. As pues, la suma de todas las distancias es: dt = (0, ((m xi + n yi)^2) desde i = 1 hasta N). Como queremos que dt sea mnima, es decir, que la distancia total de los puntos a la recta sea lo ms pequea posible, recurrimos a la primera derivada. Como es la derivada de un vector (tiene dos componentes), tenemos que aplicar la funcin gradiente para derivar, y consecuentemente el operador nabla , que como ya expliqu en su ocasin represento por este smbolo porque wordpress.com no dispone del de verdad. dt = (2 (m xi + n yi) desde i = 1 hasta N, 2 (xi (m xi + n yi)) desde i = 1 hasta N).
El primer trmino es la derivada respecto a n, y el segundo es la derivada respecto a m. Como ambas derivadas tienen que ser 0 para que encontremos el mnimo, obtenemos: 2 (m xi + n yi) desde i = 1 hasta N = 0. 2 (xi (m xi + n yi)) desde i = 1 hasta N = 0. equivalentes a: (yi) desde i=1 hasta N = n (1) desde i=1 hasta N + m (xi) desde i=1 hasta N. (yi) desde i=1 hasta N = n (xi) desde i=1 hasta N + m (xi^2) desde i=1 hasta N. Operando, obtenemos que: m = Cov(x,y) / s(x)^2. Asimismo, como el punto P(x, y) va a ser el Centro de Gravedad del Ajuste, pues siempre ser el punto de corte de las dos posibles rectas de regresin, sabemos que, al ser una recta, se cumple: y = m x + n, de donde: n = y m x. El origen de la Estadstica se remonta a dos tipos de actividades humanas: los juegos de azar y las necesidades de los Estados: necesidades de describir numricamente ciudades, provincias, etc. Los juegos de azar llevaron al estudio de la probabilidad, y ste condujo al tratamiento matemtico de los errores de las mediciones y a la teora que hoy constituye la base de la estadstica, mientras que la segunda actividad condujo a la estadstica descriptiva: presentacin de datos en tablas y grficos, aunque en nuestros das incluye tambin la sntesis de ellos mediante descripciones numricas. El mtodo estadstico moderno se refiere a la Inferencia estadstica: sta se relaciona con el desarrollo de mtodos y tcnicas para obtener, analizar e interpretar datos cuantitativos de tal manera que la confiabilidad de las conclusiones basadas en los datos pueda ser evaluada objetivamente por medio del uso de la probabilidad. La teora de la probabilidad permite pasar de datos especficos a conclusiones generales, por eso desempea un papel fundamental en la teora y aplicacin de la estadstica. En pocas recientes la inferencia estadstica ha adquirido la importancia que antes tena la estadstica descriptiva. La inferencia estadstica trata de generalizaciones basadas
en muestras de datos: se aplica a problemas como estimar, mediante pruebas, la emisin promedio de contaminantes en una turbina, verificar las especificaciones de un fabricante a partir de mediciones efectuadas sobre muestras de un producto, etc. Cuando se hace una inferencia estadstica, debe procederse con cautela: debe decidirse hasta qu punto pueden hacerse generalizaciones a partir de un conjunto de datos disponibles, si las generalizaciones son razonables, o si sera preferible disponer de otro conjunto de datos... Algunos de los problemas importantes de la inferencia estadstica se refieren precisamente a la evaluacin de los riesgos y las consecuencias a las que uno se expone al hacer generalizaciones. Esto incluye una estimacin de la probabilidad de tomar decisiones errneas, las posibilidades de hacer decisiones incorrectas y de obtener estimaciones no comprendidas dentro de los lmites permitidos. Todos estos problemas los aborda en los ltimos aos la teora de la decisin. Podemos sintetizar lo anterior, mediante las siguientes definiciones: El contenido de la estadstica moderna incluye la recopilacin, presentacin y caracterizacin de la informacin a fin de que auxilie tanto en el anlisis de datos como en el proceso de toma de decisiones. Se puede definir la estadstica descriptiva como los mtodos que implican recopilacin, presentacin y caracterizacin de un conjunto de datos con el objeto de describir en forma apropiada las diversas caractersticas de dicho conjunto Puede considerarse la inferencia estadstica como los mtodos que hacen posible la estimacin de una caracterstica de una poblacin, o la toma de una decisin con respecto a una poblacin, con base nicamente en resultados mues- trales. Para clarificar esta definicin, se requieren algunas definiciones: Poblacin: es la totalidad de elementos que se consideran. Muestra: es un subconjunto de una poblacin que se selecciona para su estudio. Parmetro: es una medida que se calcula para describir una caracterstica poblacional. Estadstica: es una medida utilizada para describir una caracterstica muestral. La Bioestadstica se define como "la aplicacin de mtodos estadsticos a la solucin de problemas biolgicos". Tambin se la denomina biometra.
Para el especialista, la informacin necesaria para toda investigacin est constituida por datos. A fin de que un anlisis estadstico resulte til en la toma de decisiones, los datos deben ser apropiados. Hay, por lo menos, tres maneras de obtener datos: i) utilizar los datos publicados por fuentes gubernamentales, industriales o particulares; ii) a travs de la experimentacin; iii) realizando encuestas. En una investigacin estadstica, se manejan diversas caractersticas, a las que se denomina variables. Los datos son los resultados que se observan para estas variables. Bsicamente existen dos tipos de variables, que producen dos tipos de datos: cualitativos y cuantitativos. Las primeras variables producen respuestas categricas, en tanto que las segundas producen respuestas numricas. Por otra parte, los datos cuantitativos pueden ser discretos o continuos. Los datos cuantitativos discretos son respuestas numricas que surgen de un proceso de conteo, mientras que los continuos son los que surgen de un proceso de medicin. Todos los datos son en ltima instancia resultado de un proceso de medicin (hasta los datos discretos pueden considerarse resultado de una medicin mediante conteo). Podemos distinguir cuatro niveles de medicin: escala nominal, escala ordinal, escala de intervalo, escala de razn. Escala nominal: corresponde a los datos cualitativos, cuando se clasifican en categoras que no implican orden. Escala ordinal: cuando los datos cualitativos se clasifican en categoras distintas en las que existe algn orden. Escala de intervalo: es una escala ordenada en la cual la diferencia entre las mediciones es una cantidad que tiene significado preciso. Escala de razn: En este caso, adems de que las diferencias son significativas e iguales en todos los puntos de la escala, existe un cero real, de modo que se pueden considerar cocientes de mediciones. La Estadstica trabaja con datos. En bioestadstica, los datos se basan en observaciones individuales, es decir en medidas tomadas de la mnima unidad de muestreo. La propiedad medida por las observaciones individuales es el carcter o variable. En estadstica se usa frecuentemente el trmino variable, pero en bioestadstica es ms comn carcter.
Aunque la mayora de las veces las poblaciones son finitas, son tan superiores a las muestras extradas de ellas que de hecho pueden ser consideradas infinitas. Variables medibles: son aquellas cuyos diferentes valores pueden expresar de forma numricamente ordenada. Pueden ser continuas: las que al menos en teora pueden tomar infinitos valores entre dos determinados, o discontinuas -tambin llamadas discretas o mersticas-: son las que tienen valores numricos fijos, sin posibles valores intermedios. Variables clasificables por rangos: son las que no pueden medirse, pero si pueden ordenarse por su magnitud. Medidas de tendencia central Con este nombre nos referimos a valores promedios que describen todo un conjunto de datos. Se utilizan cuatro promedios, frecuentemente, como medidas de tendencia central o de posicin: la media aritmtica, la mediana, la moda y el rango medio. Media aritmtica: es la medida de posicin utilizada con ms frecuencia. Mediana: Es el valor que ocupa la posicin central en un conjunto de datos, ordenados en forma creciente o decreciente. As definida, la mitad de las observaciones es menor que la mediana, mientras que la otra mitad es mayor que la mediana. Resulta apropiada cuando el conjunto de datos posee observaciones extremas. Moda: es el valor de un conjunto de datos que aparece con mayor frecuencia. Tampoco depende de los valores extremos, pero es ms variable que las otras medidas de posicin para las distintas muestras. Cuando no hay ningn valor con frecuencia mayor, la distribucin carece de moda. Tambin se puede dar el caso de una distribucin con ms de una moda. Rango medio: Es la media de las observaciones mayor y menor. Como intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como medida de posicin, pero frecuentemente ofrece una valor adecuado rpido y sencillo para resumir un conjunto de datos Las medidas de dispersin permiten conocer la variabilidad de un conjunto de datos. Estudiaremos las siguientes: rango, varianza, desviacin estndar y coeficiente de variacin.
Rango: Es la diferencia entre las observaciones mayor y menor. Si bien es una medida de dispersin simple, posee el inconveniente de que no toma en consideracin la forma en que se distribuyen los datos entre los valores ms pequeos y ms grandes. Varianza y desviacin estndar: Una medida de variabilidad podra obtenerse a partir de la dispersin de cada una de las observaciones con respecto a algn valor particular, El desvo estndar muestral es la raz cuadrada de la varianza: S =S 2 A partir de la frmula puede observarse que ni la varianza ni el desvo estndar, pueden ser negativos, y hay un nico caso en que pueden ser nulos: cuando todos los valores de la muestra son iguales. La varianza y el desvo estndar miden la dispersin "promedio" en torno a la media, es decir cmo fluctan las observaciones mayores por encima de la media y cmo se distribuyen las observaciones menores por debajo de ella. A pesar de que la varianza posee ciertas propiedades matemticas tiles, est expresada en unidades cuadradas (dlares cuadrados, etc.) lo que le hace perder significado. El desvo estndar no posee este inconveniente, y est expresado en las unidades originales. Coeficiente de variacin: Es una cantidad que mide la dispersin de los datos con respecto a la media El coeficiente de variacin es una medida relativa. No se expresa en trmino de las unidades utilizadas, sino como porcentaje. Es til cuando se compara la variabilidad de dos conjuntos de datos, o ms, expresados en diferentes unidades. Tambin es til cuando se comparan dos o ms distribuciones de datos expresados en la misma unidad, pero que difieren en tal forma que una comparacin directa de los desvos estndar no resulta til Las medidas de forma describen la manera en que se distribuyen los datos. Una distribucin de datos puede ser simtrica o no. Cuando no lo es, se denomina asimtrica o sesgada. Para indicar la forma se comparan la media y la mediana de la distribucin. Si las medidas son iguales se considera que los datos son simtricos, o que la distribucin tiene sesgo cero. Cuando la media es mayor que la mediana, el sesgo es positivo o la asimetra es a la derecha, en cambio cuando la media es menor que la mediana, se dice que la distribucin tiene sesgo negativo o asimetra a la izquierda.
El sesgo positivo ocurre cuando la media se ve aumentada por algunos valores extraordinariamente grandes; el sesgo negativo se da cuando la media se ve afectada por algunos valores extremadamente pequeos.
REFERENCIAS
http://es.wikipedia.org/wiki/Estad%C3%ADstica http://e-stadistica.bio.ucm.es/web_spss/analisis_estadisticos.html http://www.scielo.org.mx

Analisis Estadistico

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Estadistico

Cargado por

Copyright:

Formatos disponibles

Gmez Rivera Sal Alberto Biomecnica

También podría gustarte