Está en la página 1de 42

Variable estadstica

De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda Una variable es una caracterstica que al ser medida en diferentes individuos es susceptible de adoptar diferentes valores. Existen diferentes tipos de variables:

Contenido
[ocultar] 1 Segn la medicin 3 Otras 3.1 Variable interviniente 3.2 Variable moderadora 1.1 Variables cualitativas 1.2 Variables cuantitativas 2.1 Variables independientes 2.2 Variables dependientes

2 Segn la influencia

4 Vase tambin

[editar] Segn la medicin


[editar] Variables cualitativas Son las variables que expresan distintas cualidades, caractersticas o modalidad. Cada modalidad que se presenta se denomina atributo o categora y la medicin consiste en una clasificacin de dichos atributos. Las variables cualitativas pueden ser dicotmicas cuando slo pueden tomar dos valores posibles como s y no, hombre y mujer o son politmicas cuando pueden adquirir tres o ms valores. Dentro de ellas podemos distinguir: Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, grave. Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia.

[editar] Variables cuantitativas Son las variables que se expresan mediante cantidades numricas. Las variables cuantitativas adems pueden ser: Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores especficos que la variable pueda asumir. Ejemplo: El nmero de hijos (1, 2, 3, 4, 5). Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo la masa (2,3 kg, 2,4 kg, 2,5 kg, ...) o la altura (1,64 m, 1,65 m, 1,66 m, ...), que solamente est limitado por la precisin del aparato medidor, en teora permiten que siempre exista un valor entre dos variables, tambin puede ser el dinero o un salario dado.

[editar] Segn la influencia

Segn la influencia que asignemos a unas variables sobre otras, podrn ser: [editar] Variables independientes Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrnsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo. Es aquella caracterstica o propiedad que se supone ser la causa del fenmeno estudiado. En investigacin experimental se llama as a la variable que el investigador manipula. [editar] Variables dependientes Son las variables de respuesta que se observan en el estudio y que podran estar influenciadas por los valores de las variables independientes. Hayman (1974 : 69) la define como propiedad o caracterstica que se trata de cambiar mediante la manipulacin de la variable independiente. La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente.

[editar] Otras
[editar] Variable interviniente Son aquellas caractersticas o propiedades que de una manera u otra afectan el resultado que se espera y estn vinculadas con las variables independientes y dependientes. [editar] Variable moderadora Segn Tuckman: representan un tipo especial de variable independiente, que es secundaria, y se selecciona con la finalidad de determinar si afecta la relacin entre la variable independiente primaria y las variables dependientes.

Sesgo estadstico
De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda En estadstica se llama sesgo de un estimador a la diferencia entre su esperanza matemtica y el valor del parmetro que estima. Un estimador cuyo sesgo es nulo se llama insesgado o centrado. En notacin matemtica, dada una muestra parmetro muestral , el sesgo es: y un estimador del

El no tener sesgo es una propiedad deseable de los estimadores. Una propiedad relacionada con sta es la de la consistencia: un estimador puede tener un sesgo pero el tamao de ste converger a cero conforme crece el tamao muestral. Dada la importancia de la falta de sesgo, en ocasiones, en lugar de estimadores naturales se utilizan otros corregidos para eliminar el sesgo. As ocurre, por ejemplo, con la varianza muestral.

[editar] Fuentes del sesgo en las ciencias experimentales

En el diseo y elaboracin de un estudio de investigacin en clnica, puede haber distintos tipos de sesgos: de seleccin: debido a que los grupos no comparables a causa de cmo se eligieron los pacientes o sujetos. de informacin: debido a que los grupos no comparables a causa de cmo se obtuvieron los datos. de confusin: debido a una mezcla de efectos debido a una tercera variable (variable de confusin).

Estimador
De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda

En estadstica, un estimador es un estadstico (esto es, una funcin de la muestra) usado para estimar un parmetro desconocido de la poblacin. Por ejemplo, si se desea conocer el precio medio de un artculo (el parmetro desconocido) se recogern observaciones del precio de dicho artculo en diversos establecimientos (la muestra) y la media aritmtica de las observaciones puede utilizarse como estimador del precio medio. Para cada parmetro pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia, convergencia y robustez (consistencia). El valor de un estimador proporciona lo que se denomina en estadstica una estimacin puntual del valor del parmetro en estudio. En general, se suele preferir realizar una estimacin mediante un intervalo, esto es, obtener un intervalo [a,b] dentro del cual se espera est el valor real del parmetro con un cierto nivel de confianza. Utilizar un intervalo resulta ms informativo, al proporcionar informacin sobre el posible error de estimacin, asociado con la amplitud de dicho intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor del parmetro quede contenido en el intervalo. En la prctica, los intervalos suelen indicarse dando el valor del estimador puntual utilizado como centro del intervalo y un valor que debe sumarse y restarse para obtener el lmite superior e inferior; por ejemplo:
equivale a

[editar] Propiedades de los estimadores


[editar] Sesgo Artculo principal: Sesgo estadstico

Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del parmetro a estimar. Es deseable que un estimador sea

insesgado o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parmetro que se desea estimar. Por ejemplo, si se desea estimar la media de una poblacin, la media aritmtica de la muestra es un estimador insesgado de la misma, ya que su esperanza (valor esperado) es igual a la media de la poblacin. En efecto, si una muestra X=(X1,X2,...,Xn)t procede de una poblacin de media , quiere decir que:
E[Xi] = para cualquier i=1...n

La media aritmtica o media muestral,

, con lo que, al aplicar las propiedades de linealidad de la esperanza matemtica se tiene que:

[editar] Eficiencia Artculo principal: eficiencia (estadstica)

Diremos que un estimador es ms eficiente o ms preciso que otro estimador, si la varianza del primero es menor que la del segundo. Por ejemplo, si y son ambos estimadores de y

diremos que es ms eficiente que cuanto menor es su varianza.

. Un estimador es ms eficiente (ms preciso), por tanto,

La eficiencia de los estimadores est limitada por las caractersticas de la distribucin de probabilidad de la muestra de la que proceden. El teorema de Cramr-Rao determina que la varianza de un estimador insesgado de un parmetro es, como mnimo,

donde f(X;) es la funcin de densidad de probabilidad de la muestra en funcin del parmetro , (denominada funcin de verosimilitud). Si un estimador alcanza esta cota mnima, entonces se dice que el estimador es de mnima varianza.
[editar] Consistencia Artculo principal: Consistencia (estadstica)

Si no es posible emplear estimadores de mnima varianza, el requisito mnimo deseable para un estimador es que a medida que el tamao de la muestra crece, el valor del estimador tienda a ser el valor del parmetro, propiedad que se denomina consistencia. Existen diversas definiciones de consistencia, ms o menos restrictivas, pero la ms utilizada es la denominada consistencia en media cuadrtica que exige que: 1. 2.
[editar] Robustez cuando cuando

El estimador ser un estimador robusto del parmetro si la violacin de los supuestos de partida en los que se basa la estimacin (normalmente, atribuir a la poblacin un determinado tipo de funcin de distribucin que, en realidad, no es la correcta), no altera de manera significativa los resultados que ste proporciona.
[editar] Suficiencia

Se dice que un estimador es suficiente cuando resume toda la informacin relevante contenida en la muestra, de forma que ningn otro estimador pueda proporcionar informacin adicional sobre el parmetro desconocido de la poblacin.
[editar] Invarianza

Se dice que un estimador es invariante cuando el estimador de la funcin del parmetro coincide con la funcin del estimador del parmetro, Ejemplo.- Si para estimar la varianza poblacional utilizamos la varianza muestral, entonces para estimar la desviacin tpica poblacional ser razonable utilizar la desviacin tpica muestral.

Media aritmtica
De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda Para otros usos de este trmino, vase media.

Construccin geomtrica para hallar las medias aritmtica, geomtrica y armnica de dos nmeros a y b. En matemticas y estadstica, la media aritmtica (tambin llamada promedio o simplemente media) de un conjunto finito de nmeros es igual a la suma de todos sus valores dividida entre el nmero de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno de los principales estadsticos muestrales. Expresada de forma ms intuitiva, podemos decir que la media (aritmtica) es la cantidad total de la variable distribuida a partes iguales entre cada observacin. Por ejemplo, si en una habitacin hay tres personas, la media de dinero que tienen en sus bolsillos sera el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la informacin de una distribucin (dinero en el bolsillo) suponiendo que cada observacin (persona) tuviera la misma cantidad de la variable. Tambin la media aritmtica puede ser denominada como centro de gravedad de una distribucin, el cual no est necesariamente en la mitad. Una de las limitaciones de la media aritmtica es que se trata de una medida muy sensible a los valores extremos; valores muy altos tienden a aumentarla mientras que valores muy bajos tienden a reducirla, lo que implica que puede dejar de ser representativa de la poblacin.

Definicin
Dados los n nmeros , la media aritmtica se define simplemente como:

Por ejemplo, la media aritmtica de 8, 5 y -1 es igual a:

Se utiliza la letra X con una barra horizontal sobre el smbolo para representar la media de una muestra ( ), mientras que la letra (mu) se usa para la media aritmtica de una poblacin, es decir, el valor esperado de una variable. En otras palabras, es la suma de n valores de la variable y luego dividido por n : donde n es el nmero de sumandos, o en el caso de estadsticas el nmero de datos.

[editar] Propiedades
La media aritmtica de un conjunto de nmeros positivos siempre es igual o superior a la media geomtrica:

La media aritmtica est comprendida entre el valor mximo y el valor mnimo del conjunto de datos:

[editar] Vase tambin


Medidas de tendencia central Curtosis Desviacin estndar Esperanza matemtica o Valor esperado Estadstica descriptiva Ley de promedios Media, que es una medida de tendencia central. Media esfrica Medianas Moda (estadstica) Parmetro estadstico

Medidas de tendencia central


De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda

Al describir grupos de observaciones, con frecuencia es conveniente resumir la informacin con un solo nmero . Este nmero que, para tal fin, suele situarse hacia el centro de la distribucin de datos se denomina medida o parmetro de tendencia central o de centralizacin. Cuando se hace referencia nicamente a la posicin de estos parmetros dentro de la distribucin, independientemente de que sta est ms o menos centrada, se habla de estas medidas como medidas de posicin.[1] En este caso se incluyen tambin los cuantiles entre estas medidas. Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posicin o medidas de tendencia se usan de acuerdo al tipo de variable que se esta observando, en este caso se observan variables cuantitativas Entre las medidas de tendencia central tenemos:
Media . Media ponderada. Media geomtrica. Media armnica. Mediana. Moda.

[editar] La media aritmtica (o simplemente media)


Artculo principal: Media aritmtica

La media aritmtica es el valor obtenido por la suma de todos sus valores dividida entre el nmero de sumandos. Por ejemplo, las notas de 5 alumnos en una prueba:
nio 1 2 3 4 5 nota 6,0 5,4 3,1 7,0 6,1 Primero, se suman las notas: 6,0+5,4+3,1+7,0+6,1 = 27,6 Luego el total se divide entre la cantidad de alumnos: 27,6/5=5,52 La media aritmtica en este ejemplo es 5,52

La media aritmtica es, probablemente, uno de los parmetros estadsticos ms extendidos.[2] Se le llama tambin promedio o, simplemente, media.
[editar] Definicin formal

Dado un conjunto numrico de datos, x1, x2, ..., xn, se define su media aritmtica como

Esta definicin vara, aunque no sustancialmente, cuando se trata de variables continuas, esto es, tambin puede calcularse para variables agrupadas en intervalos.
[editar] PROPIEDADES

Las principales propiedades de la media aritmtica son:[3]

Su clculo es muy sencillo y en l intervienen todos los datos. Su valor es nico para una serie de datos dada. Se usa con frecuencia para comparar poblaciones, aunque es ms apropiado acompaarla de una medida de dispersin. Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:

Minimiza las desviaciones cuadrticas de los datos respecto de cualquier

valor prefijado, esto es, el valor de

es mnimo cuando

. Este resultado se conoce como Teorema de Knig. Esta propiedad permite interpretar uno de los parmetros de dispersin ms importantes: la varianza.

Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si xi' = axi + b entonces , donde xi', para i = 1, ..., n y a y b nmeros reales. es la media aritmtica de los

Es poco sensible a fluctuaciones muestrales, por lo que es un parmetro muy til en inferencia estadstica.

[editar] Inconvenientes de su uso

Este parmetro, an teniendo mltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene tambin algunos inconvenientes, como son:
Para datos agrupados en intervalos (variables continuas) su valor oscila en funcin de la cantidad y amplitud de los intervalos que se consideren.

La estatura media como resumen de una poblacin homognea (abajo) o heterognea (arriba).

Es una medida a cuyo significado afecta sobremanera la dispersin, de modo que cuanto menos homogneos sean los datos, menos informacin proporciona. Dicho de otro modo, poblaciones muy distintas en su composicin pueden tener la misma media.[4] Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendra una estatura media de 1,95 m, valor que representa fielmente a esta poblacin homognea. Sin embargo, un equipo de jugadores de estaturas ms heterogneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendra tambin, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes. En el clculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen ms peso que los valores cercanos a cero. Por ejemplo, en el clculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de tiene tanto peso como el de diez empleados "normales" que ganen 1.000 . En otras palabras, se ve muy afectada por valores extremos. No se puede determinar si en una distribucin de frecuencias hay intervalos de clase abiertos.

[editar] Media aritmtica ponderada

A veces puede ser til otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada. Si x1,x2,...,xn son nuestros datos y w1,w2,...,wn son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:

[editar] Media muestral

Esencialmente, la media muestral es el mismo parmetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmtica se calcula para un subconjunto de la poblacin objeto de estudio. La media muestral es un parmetro de extrema importancia en la inferencia estadstica, siendo de gran utilidad para la estimacin de la media poblacional, entre otros usos.

[editar] Moda
Artculo principal: Moda (estadstica)

La moda es el dato ms repetido, el valor de la variable con mayor frecuencia absoluta.[5] En cierto sentido la definicin matemtica corresponde con la locucin "estar de moda", esto es, ser lo que ms se lleva. Su clculo es extremadamente sencillo, pues slo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolacin. Por ejemplo, el nmero de personas en distintos vehculos en una carretera: 5-7-4-6-9-5-6-1-53-7. El nmero que ms se repite es 5, entonces la moda es 5. Hablaremos de una distribucin bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Cuando en una distribucin de datos se encuentran tres o ms modas, entonces es multimodal. Por ltimo, si todas las variables tienen la misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta. La moda, cuando los datos estn agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo ni la frecuencia absoluta del intervalo modal y ni 1 y ni + 1 las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al Las calificaciones en la asignatura de Matemticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones 1 2 3 4 5 6 7 8 9 Nmero de 2 2 4 5 8 9 3 4 2 alumnos [editar] Propiedades

Sus principales propiedades son:


Clculo sencillo. Interpretacin muy clara. Al depender slo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parmetro ms utilizado cuando al resumir una poblacin no es posible realizar otros clculos, por ejemplo, cuando se enumeran en medios periodsticos las caractersticas ms frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".[6]

[editar] Inconvenientes

Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del nmero de intervalos y de su amplitud. Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor. No siempre se sita hacia el centro de la distribucin. Puede haber ms de una moda en el caso en que dos o ms valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

[editar] Mediana
Artculo principal: Mediana (estadstica)

La mediana es un valor de la variable que deja por debajo de s a la mitad de los datos, una vez que stos estn ordenados de menor a mayor.[7] Por ejemplo, la mediana del nmero de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posicin central es 2:

En caso de un nmero par de datos, la mediana no correspondera a ningn valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los anteriores:

Se toma como mediana Existen mtodos de clculo ms rpidos para datos ms nmerosos (vase el artculo principal dedicado a este parmetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de ste, se obtiene un valor concreto por interpolacin.
[editar] Clculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho). As, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basndonos en la frmula que hace referencia a las frecuencias absolutas: Ni-1< n/2 < Ni = N19 < 19.5 < N20 Por tanto la mediana ser el valor de la variable que ocupe el vigsimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, sern puntos) La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o ms.
Ejemplo (N par) xi fi 1 2 2 2 3 4 4 5 5 6 6 9 7 4 8 4 9 2 Fi 2 4 8 13 19 = 19 28 32 36 38

Las calificaciones en la asignatura de Matemticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones 1 2 3 4 5 6 7 8 9 Nmero de 2 2 4 5 6 9 4 4 2 alumnos

Calculemos la Mediana: Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho). Si volvemos a utilizar la frmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basndonos en la frmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19 Con lo cual la mediana ser la media aritmtica de los valores de la variable que ocupen el decimonoveno y el vigsimo lugar. En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigsimo el 6, (desde el vigsimo hasta el vigsimo octavo) con lo que Me = (5+6)/2 = 5,5 puntos.

[editar] Propiedades e inconvenientes

Las principales propiedades de la mediana son:[8]


Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripcin en la serie del ejemplo anterior en, pongamos por caso, el ltimo nmero, deja a la mediana inalterada. Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no est acotado. No se ve afectada por la dispersin. De hecho, es ms representativa que la media aritmtica cuando la poblacin es bastante heterognea. Suele darse esta circunstancia cuando se resume la informacin sobre los salarios de un pas o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmtica haciendo que pierda representatividad respecto al grueso de la poblacin. Sin embargo, alguien con el salario "mediano" sabra que hay tanta gente que gana ms dinero que l, como que gana menos.

Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor vara en funcin de la amplitud de estos. Por otra parte, no se presta a clculos algebraicos tan bien como la media aritmtica.

[editar] Vase tambin



Media aritmtica Mediana (estadstica) Moda (estadstica) Parmetro estadstico.

Desviacin estndar

De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda La desviacin estndar o desviacin tpica (denotada con el smbolo ) es una medida de centralizacin o dispersin para variables de razn (ratio o cociente) y de intervalo, de gran utilidad en la estadstica descriptiva. Se define como la raz cuadrada de la varianza. Junto con este valor, la desviacin tpica es una medida (cuadrtica) que informa de la media de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades que la variable. Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer tambin la desviacin que presentan los datos en su distribucin respecto de la media aritmtica de dicha distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.

[editar] Formulacin Muestral


La varianza representa la media aritmtica de las desviaciones con respecto a la media que son elevadas al cuadrado. Si atendemos a la coleccin completa de datos (la poblacin en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atencin slo a una muestra de la poblacin, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuacin. Expresin de la varianza muestral:

Segunda forma de calcular la varianza muestral:

demostracin:

podemos observar que como

(sumamos n veces 1 y luego dividimos por n) y como

obtenemos

Expresin de la cuasivarianza muestral (estimador insesgado de la varianza poblacional):

Expresin de la varianza poblacional:

donde

es el valor medio de

Expresin de la desviacin estndar poblacional:

El trmino desviacin estndar fue incorporado a la estadstica por Karl Pearson en 1894. Por la formulacin de la varianza podemos pasar a obtener la desviacin estndar, tomando la raz cuadrada positiva de la varianza. As, si efectuamos la raz de la varianza muestral, obtenemos la desviacin tpica muestral; y si por el contrario, efectuamos la raz sobre la varianza poblacional, obtendremos la desviacin tpica poblacional.

Desviaciones estndar en una distribucin normal. Expresin de la desviacin estndar muestral:

Tambin puede ser tomada como

con a como

y s como

Adems se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda.

[editar] Interpretacin y aplicacin


La desviacin estndar es una medida del grado de dispersin de los datos con respecto al valor promedio. Dicho de otra manera, la desviacin estndar es simplemente el "promedio" o variacin esperada con respecto a la media aritmtica. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estndar muestrales son 8,08; 5,77 y 1,15 respectivamente. La tercera muestra tiene una desviacin mucho menor que las otras dos porque sus valores estn ms cerca de 7. La desviacin estndar puede ser interpretada como una medida de incertidumbre. La desviacin estndar de un grupo repetido de medidas nos da la precisin de stas. Cuando se va a determinar si un grupo de medidas est de acuerdo con el modelo terico, la desviacin estndar de esas medidas es de vital importancia: si la media de las medidas est demasiado alejada de la prediccin (con la distancia medida en desviaciones estndar), entonces consideramos que las medidas contradicen la teora. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sera razonable esperar que ocurrieran si el modelo terico fuera correcto. La desviacin estndar es uno de tres parmetros de ubicacin central; muestra la agrupacin de los datos alrededor de un valor central (la media o promedio).

[editar] Desglose
La desviacin estndar (DS/DE), tambin llamada desviacin tpica, es una medida de dispersin usada en estadstica que nos dice cunto tienden a alejarse los valores concretos del promedio en una distribucin. De hecho, especficamente, la desviacin estndar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, . La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el valor de cada dato. [editar] Distribucin de probabilidad continua Es posible calcular la desviacin estndar de una variable aleatoria continua como la raz cuadrada de la integral

donde

[editar] Distribucin de probabilidad discreta La DS es la raz cuadrada de la varianza de la distribucin de probabilidad discreta

As la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin. Aunque esta frmula es correcta, en la prctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Correccin de Bessel)

Tambin hay otra funcin ms sencilla de realizar y con menos riesgo de tener equivocaciones :

[editar] Ejemplo
Aqu se muestra cmo calcular la desviacin estndar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de nios: { 4, 1, 11, 13, 2, 7 } 1. Calcular el promedio o media aritmtica .

. En este caso, N = 6 porque hay seis datos:

i = nmero de datos para sacar desviacin estndar

Sustituyendo N por 6

Este es el promedio.

2. Calcular la desviacin estndar

Sustituyendo N - 1 por 5; ( 6 - 1 )

Sustituyendo

por 6,33

ste es el valor de la desviacin estndar

Coeficiente de variacin
De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda En estadstica el coeficiente de variacin (a distintas escalas pero que estn correlacionadas estadsticamente y sustantivamente con un factor en comn. Es decir, ambas variables tienen una relacin causal con ese factor. Su frmula expresa la desviacin estndar como porcentaje de la media aritmtica, mostrando una mejor interpretacin porcentual del grado de variabilidad que la desviacin tpica o estndar. Por otro lado presenta problemas ya que a diferencia de la desviacin tpica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media d, por tanto, un valor positivo. A mayor valor de C.V. mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V.. Exigimos que: Se calcula:

Donde es la desviacin tpica. Se puede dar en tanto por ciento calculando:

[editar] Propiedades y aplicaciones


El coeficiente de variacin es tpicamente menor que uno.

Para su mejor interpretacin se expresa como porcentaje. Depende de la desviacin tpica y en mayor medida de la media aritmtica, dado que cuando sta es 0 o muy prxima a este valor C.V. pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersin de datos. El coeficiente de variacin es comn en varios campos de la probabilidad aplicada, como teora de renovacin y teora de colas. En estos campos la distribucin exponencial es a menudo ms importante que la distribucin normal. La desviacin tpica de una distribucin exponencial es igual a su media, por lo que su coeficiente de variacin es 1. La distribuciones con un C.V. menor que uno, como la distribucin de Erlang se consideran de "baja varianza", mientras que aquellas con un C.V. mayor que uno, como la distribucin hiperexponencial se consideran de "alta varianza". Algunas frmulas en estos campos se expresan usando el cuadrado del coeficiente de variacin, abreviado como S.C.V. (por su siglas en ingls)

Distribucin normal
De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda

Distribucin normal

La lnea verde corresponde a la distribucin normal estndar Funcin de densidad de probabilidad

Funcin de distribucin de probabilidad

Parmetros >0 Dominio

Funcin de densidad (pdf)

Funcin de distribucin (cdf)

Media

Mediana

Moda

Varianza

Coeficiente de simetra Curtosis

Entropa

Funcin generadora de momentos (mgf) Funcin caracterstica

En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece aproximada en fenmenos reales. La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto de un determinado parmetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribucin radica en que permite modelar numerosos fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observacin se obtiene como la suma de unas pocas causas independientes. De hecho, la estadstica es un modelo matemtico que slo permite describir un fenmeno, sin explicacin alguna. Para la explicacin causal es preciso el diseo experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido como mtodo correlacional. La distribucin normal tambin es importante por su relacin con la estimacin por mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son:
caracteres morfolgicos de individuos como la estatura; caracteres fisiolgicos como el efecto de un frmaco; caracteres sociolgicos como el consumo de cierto producto por un mismo grupo de individuos; caracteres psicolgicos como el cociente intelectual; nivel de ruido en telecomunicaciones; errores cometidos al medir ciertas magnitudes; etc.

La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por ejemplo, la distribucin muestral de las medias muestrales es aproximadamente normal, cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal.[1] Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin subyacente a una lista de datos resumidos en trminos de media muestral y varianza. La distribucin normal es la ms extendida en estadstica y muchos tests estadsticos estn basados en una supuesta "normalidad". En probabilidad, la distribucin normal aparece como el lmite de varias distribuciones de probabilidad continuas y discretas.

[editar] Historia

Abraham de Moivre, descubridor de la distribucin normal

La distribucin normal fue presentada por primera vez por Abraham de Moivre en un artculo del ao 1733,[2] que fue reimpreso en la segunda edicin de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximacin de la distribucin binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teora analtica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace. Laplace us la distribucin normal en el anlisis de errores de experimentos. El importante mtodo de mnimos cuadrados fue introducido por Legendre en 1805. Gauss, que afirmaba haber usado el mtodo desde 1794, lo justific rigurosamente en 1809 asumiendo una distribucin normal de los errores. El nombre de Gauss se ha asociado a esta distribucin porque la us con profusin cuando analizaba datos astronmicos[3] y algunos autores le atribuyen un descubrimiento independiente del de De Moivre.[4] Esta atribucin del nombre de la distribucin a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stigler. El nombre de "campana" viene de Esprit Jouffret que us el trmino "bell surface" (superficie campana) por primera vez en 1872 para una distribucin normal bivariante de componentes independientes. El nombre de "distribucin normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[cita requerida] A pesar de esta terminologa, otras distribuciones de probabilidad podran ser ms apropiadas en determinados contextos; vase la discusin sobre ocurrencia, ms abajo.

[editar] Definicin formal


Hay varios modos de definir formalmente una distribucin de probabilidad. La forma ms visual es mediante su funcin de densidad. De forma equivalente, tambin pueden darse para su definicin la funcin de distribucin, los momentos, la funcin caracterstica y la funcin generatriz de momentos, entre otros.

[editar] Funcin de densidad

Se dice que una variable aleatoria continua X sigue una distribucin normal de parmetros y y se denota X~N(, ) si su funcin de densidad est dada por:

donde (mu) es la media y (sigma) es la desviacin estndar (2 es la varianza).[5] Se llama distribucin normal "estndar" a aqulla en la que sus parmetros toman los valores = 0 y = 1. En este caso la funcin de densidad tiene la siguiente expresin:

Su grfica se muestra a la derecha y con frecuencia se usan ...tablas para el clculo de los valores de su distribucin.
[editar] Funcin de distribucin

La funcin de distribucin de la distribucin normal est definida como sigue:

Por tanto, la funcin de distribucin de la normal estndar es:

Esta funcin de distribucin puede expresarse en trminos de una funcin especial llamada funcin error de la siguiente forma:

y la propia funcin de distribucin puede, por consiguiente, expresarse as:

El complemento de la funcin de distribucin de la normal estndar, 1 (x), se denota con frecuencia Q(x), y es referida, a veces, como simplemente funcin Q, especialmente en textos de ingeniera.[6] [7] Esto representa la cola de probabilidad de la distribucin gaussiana. Tambin se usan ocasionalmente otras definiciones de la funcin Q, las cuales son todas ellas transformaciones simples de .[8] La inversa de la funcin de distribucin de la normal estndar (funcin cuantil) puede expresarse en trminos de la inversa de la funcin de error:

y la inversa de la funcin de distribucin puede, por consiguiente, expresarse como:

Esta funcin cuantil se llama a veces la funcin probit. No hay una primitiva elemental para la funcin probit. Esto no quiere decir meramente que no se conoce, sino que se ha probado la inexistencia de tal funcin. Existen varios mtodos exactos para aproximar la funcin cuantil mediante la distribucin normal (vase funcin cuantil). Los valores (x) pueden aproximarse con mucha precisin por distintos mtodos, tales como integracin numrica, series de Taylor, series asintticas y fracciones continuas. [editar] Lmite inferior y superior estrictos para la funcin de distribucin Para grandes valores de x la funcin de distribucin de la normal estndar a1y est muy cerca de 0. Los lmites elementales es muy prxima

en trminos de la densidad son tiles. Usando el cambio de variable v = u/2, el lmite superior se obtiene como sigue:

De forma similar, usando

y la regla del cociente,

Resolviendo para

proporciona el lmite inferior.

[editar] Funciones generadoras

[editar] Funcin generadora de momentos La funcin generadora de momentos se define como la esperanza de e(tX). Para una distribucin normal, la funcin generadora de momentos es:

como puede comprobarse completando el cuadrado en el exponente. [editar] Funcin caracterstica La funcin caracterstica se define como la esperanza de eitX, donde i es la unidad imaginaria. De este modo, la funcin caracterstica se obtiene reemplazando t por it en la funcin generadora de momentos. Para una distribucin normal, la funcin caracterstica es[9]

[editar] Propiedades
Algunas propiedades de la distribucin normal son: 1. Es simtrica respecto de su media, ;

Distribucin de probabilidad alrededor de la media en una distribucin N(, ).

2. La moda y la mediana son ambas iguales a la media, ; 3. Los puntos de inflexin de la curva se dan para x = y x = + .
4. Distribucin de probabilidad en un entorno de la media:

1. en el intervalo [ - , + ] se encuentra comprendida,


aproximadamente, el 68,26% de la distribucin;

2. en el intervalo [ - 2, + 2] se encuentra, aproximadamente, el


95,44% de la distribucin;

3. por su parte, en el intervalo [ -3, + 3] se encuentra


comprendida, aproximadamente, el 99,74% de la distribucin. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prcticamente la totalidad de la distribucin se encuentre a tres desviaciones tpicas de la media justifica los lmites de las tablas empleadas habitualmente en la normal estndar.

5. Si X ~ N(, 2) y a y b son nmeros reales, entonces (aX + b) ~ N(a+b,


a22).

6. Si X ~ N(x, x2) e Y ~ N(y, y2) son variables aleatorias normales


independientes, entonces:

Su suma est normalmente distribuida con U = X + Y ~ N(x + y, x2 + y2) (demostracin). Recprocamente, si dos variables aleatorias independientes tienen una suma normalmente distribuida, deben ser normales (Teorema de Crmer).

Su diferencia est normalmente distribuida con .

Si las varianzas de X e Y son iguales, entonces U y V son independientes entre s. La divergencia de Kullback-Leibler,

2. Si

e son variables aleatorias independientes normalmente distribuidas, entonces:

Su producto XY sigue una distribucin con densidad

dada por

donde modificada de segundo tipo.

es una funcin de Bessel

Su cociente sigue una distribucin de Cauchy con . De este modo la distribucin de Cauchy es un tipo especial de distribucin cociente.

3. Si

son variables normales estndar independientes, entonces sigue una distribucin con n grados de libertad.

4. Si

son variables normales estndar independientes, entonces y la varianza muestral

la media muestral

son independientes. Esta propiedad caracteriza a las distribuciones normales y contribuye a explicar por qu el test-F no es robusto respecto a la no-normalidad). [editar] Estandarizacin de variables aleatorias normales

Como consecuencia de la Propiedad 1; es posible relacionar todas las variables aleatorias normales con la distribucin normal estndar. Si ~ , entonces

es una variable aleatoria normal estndar:

La transformacin de una distribucin X ~ N(, ) en una N(0, 1) se llama normalizacin, estandarizacin o tipificacin de la variable X. Una consecuencia importante de esto es que la funcin de distribucin de una distribucin normal es, por consiguiente,

A la inversa, si Z es una distribucin normal estndar, Z ~ N(0,1), entonces

es una variable aleatoria normal tipificada de media

y varianza

La distribucin normal estndar est tabulada (habitualmente en la forma de el valor de la funcin de distribucin ) y las otras distribuciones normales pueden obtenerse como transformaciones simples, como se describe ms arriba, de la distribucin estndar. De este modo se pueden usar los valores tabulados de la funcin de distribucin normal estndar para encontrar valores de la funcin de distribucin de cualquier otra distribucin normal.
[editar] Momentos

Los primeros momentos de la distribucin normal son:


Nme ro 0 1 2 3 4 5 6 7 8 1 2 + 2 3 + 32 4 + 622 + 34 5 + 1032 + 154 6 + 1542 + 4524 + 156 Momento 1 0 2 0 34 0 156 2 0 0 0 0 0 0 Momento central Cumula nte

7 + 2152 + 10534 + 1056 0 8 + 2862 + 21044 + 42026 + 1058 1058

Todos los cumulantes de la distribucin normal, ms all del segundo, son cero. Los momentos centrales de orden superior (2k con = 0) vienen dados por la frmula

[editar] El Teorema del Lmite Central Artculo principal: Teorema del lmite central

Grfica de la funcin de distribucin de una normal con = 12 y = 3, aproximando la funcin de distribucin de una binomial con n = 48 y p = 1/4

El Teorema del lmite central establece que bajo ciertas condiciones (como pueden ser independientes e idnticamente distribuidas con varianza finita), la suma de un gran nmero de variables aleatorias se distribuye aproximadamente como una normal. La importancia prctica del Teorema del lmite central es que la funcin de distribucin de la normal puede usarse como aproximacin de algunas otras funciones de distribucin. Por ejemplo:
Una distribucin binomial de parmetros n y p es aproximadamente normal para grandes valores de n, y p no demasiado cercano a 1 0 (algunos libros recomiendan usar esta aproximacin slo si np y n(1 p) son ambos, al menos, 5; en este caso se debera aplicar una correccin de continuidad). La normal aproximada tiene parmetros = np, 2 = np(1 p). Una distribucin de Poisson con parmetro es aproximadamente normal para grandes valores de . La distribucin normal aproximada tiene parmetros = 2 = .

La exactitud de estas aproximaciones depende del propsito para el que se necesiten y de la tasa de convergencia a la distribucin normal. Se da el caso tpico de que tales aproximaciones son menos precisas en las colas de la distribucin. El Teorema de Berry-Essen proporciona un lmite superior general del error de aproximacin de la funcin de distribucin.
[editar] Divisibilidad infinita Artculo principal: Divisibilidad infinita (probabilidad)

Las normales tienen una distribucin de probabilidad infinitamente divisible: Para una distribucin normal X de media y varianza 2 0, es posible encontrar n variables aleatorias independientes {X1,...,Xn} cada una con distribucin normal de media /n y varianza 2/n dado que la suma X1 + . . . + Xn de estas n variables aleatorias

tenga esta especfica distribucin normal (para verificarlo, sese la funcin caracterstica de convolucin y la induccin matemtica).

[editar] Estabilidad

Las distribuciones normales son estrictamente estables.

[editar] Desviacin tpica e intervalos de confianza


Alrededor del 68% de los valores de una distribucin normal estn a una distancia < 1 (desviacin tpica) de la media, ; alrededor del 95% de los valores estn a dos desviaciones tpicas de la media y alrededor del 99,7% estn a tres desviaciones tpicas de la media. Esto se conoce como la "regla 68-95-99,7" o la "regla emprica". Para ser ms precisos, el rea bajo la curva campana entre n y + n en trminos de la funcin de distribucin normal viene dada por

donde erf es la funcin error. Con 12 decimales, los valores para los puntos 1-, 2-, hasta 6- son:

1 2 3 4 5 6

0,682689492 137 0,954499736 104 0,997300203 937 0,999936657 516 0,999999426 697 0,999999998 027

La siguiente tabla proporciona la relacin inversa de mltiples correspondientes a unos pocos valores usados con frecuencia para el rea bajo la campana de Gauss. Estos valores son tiles para determinar intervalos de confianza para los niveles especificados basados en una curva normalmente distribuida (o estimadores asintticamente normales):

0,80 0,90 0,95

1,2815 5 1,6448 5 1,9599 6

0,98 0,99 0,995 0,998 0,999 0,9999 0,99999

2,3263 5 2,5758 3 2,8070 3 3,0902 3 3,2905 2 3,8906 4,4172

donde el valor a la izquierda de la tabla es la proporcin de valores que caern en el intervalo dado y n es un mltiplo de la desviacin tpica que determina la anchura de el intervalo.
[editar] Forma familia exponencial

La distribucin normal tiene forma de familia exponencial biparamtrica con dos parmetros naturales, y 1/2, y estadsticos naturales X y X2. La forma cannica tiene como parmetros

y estadsticos suficientes

[editar] Distribucin normal compleja


Considrese la variable aleatoria compleja gaussiana

donde X e Y son variables gaussianas reales e independientes con igual varianza de distribucin de la variable conjunta es entonces

. La funcin

Como Z es

, la funcin de distribucin resultante para la variable gaussiana compleja

[editar] Distribuciones relacionadas


donde independientes.

es una distribucin de Rayleigh si y son dos distribuciones normales

donde

es una distribucin con para

grados de libertad si y son independientes.

para normales independientes.

es una distribucin de Cauchy si y son dos distribuciones

es una distribucin log-normal si

Relacin con una distribucin estable: si entonces .

Distribucin normal truncada. si entonces truncando X por debajo de A y por encima de B dar lugar a una variable aleatoria de media

donde

es la funcin de densidad de una variable normal estndar. es una variable aleatoria normalmente distribuida e tiene una distribucin normal doblada. ,

Si

entonces

[editar] Estadstica descriptiva e inferencial


[editar] Resultados

De la distribucin normal se derivan muchos resultados, incluyendo rangos de percentiles ("percentiles" o "cuantiles"), curvas normales equivalentes, stanines, z-scores, y T-scores. Adems, un nmero de procedimientos de estadsticos de comportamiento estn basados en la asuncin de que esos resultados estn normalmente distribuidos. Por ejemplo, el test de Student y el anlisis de varianza (ANOVA) (vase ms abajo). La gradacin de la curva campana asigna grados relativos basados en una distribucin normal de resultados.

[editar] Tests de normalidad Artculo principal: Test de normalidad

Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con una distribucin normal. La hiptesis nula es, en estos casos, si el conjunto de datos es similar a una distribucin normal, por lo que un P-valor suficientemente pequeo indica datos no normales.
Prueba de Kolmogrov-Smirnov Test de Lilliefors Test de AndersonDarling Test de RyanJoiner Test de ShapiroWilk Normal probability plot (rankit plot) Test de JarqueBera Test omnibs de Spiegelhalter

[editar] Estimacin de parmetros

[editar] Estimacin de parmetros de mxima verosimilitud


Vase tambin: Mxima verosimilitud

Supngase que

son independientes y cada una est normalmente distribuida con media y varianza 2 > 0. En trminos estadsticos los valores observados de estas n variables aleatorias constituyen una "muestra de tamao n de una poblacin normalmente distribuida. Se desea estimar la media poblacional y la desviacin tpica poblacional , basndose en las valores observados de esta muestra. La funcin de densidad conjunta de estas n variables aleatorias independientes es

Como funcin de y , la funcin de verosimilitud basada en las observaciones X1, ..., Xn es

con alguna constante C > 0 (de la cual, en general, se permitira incluso que dependiera de X1, ..., Xn, aunque desapareciera con las derivadas parciales de la funcin de log-verosimilitud respecto a los parmetros tenidos en cuenta, vase ms abajo). En el mtodo de mxima verosimilitud, los valores de y que maximizan la funcin de verosimilitud se toman como estimadores de los parmetros poblacionales y . Habitualmente en la maximizacin de una funcin de dos variables, se podran considerar derivadas parciales. Pero aqu se explota el hecho de que el valor de que maximiza la funcin de verosimilitud con fijo no depende de . No obstante, encontramos que ese valor de ,

entonces se sustituye por en la funcin de verosimilitud y finalmente encontramos el valor de que maximiza la expresin resultante. Es evidente que la funcin de verosimilitud es una funcin decreciente de la suma

As que se desea el valor de que minimiza esta suma. Sea

la media muestral basada en las n observaciones. Ntese que

Slo el ltimo trmino depende de y se minimiza por

Esta es la estimacin de mxima verosimilitud de basada en las n observaciones X1, ..., Xn. Cuando sustituimos esta estimacin por en la funcin de verosimilitud, obtenemos

Se conviene en denotar la "log-funcin de verosimilitud", esto es, el logaritmo de la funcin de verosimilitud, con una minscula , y tenemos

entonces

Esta derivada es positiva, cero o negativa segn 2 est entre 0 y

o sea igual a esa cantidad, o mayor que esa cantidad. (Si hay solamente una observacin, lo que significa que n = 1, o si X1 = ... = Xn, lo cual slo ocurre con probabilidad cero, entonces por esta frmula, refleja el hecho de que en estos casos la funcin de verosimilitud es ilimitada cuando decrece hasta cero.) Consecuentemente esta media de cuadrados de residuos es el estimador de mxima verosimilitud de 2, y su raz cuadrada es el estimador de mxima verosimilitud de basado en las n observaciones. Este estimador es sesgado, pero tiene un menor error medio al cuadrado que el habitual estimador insesgado, que es n/(n 1) veces este estimador.
[editar] Sorprendente generalizacin

La derivada del estimador de mxima verosimilitud de la matriz de covarianza de una distribucin normal multivariante es despreciable. Involucra el teorema espectral y la razn por la que puede ser mejor para ver un escalar como la traza de una matriz 11 que como un mero escalar. Vase estimacin de la covarianza de matrices. [editar] Estimacin insesgada de parmetros El estimador de mxima verosimilitud de la media poblacional , es un estimador insesgado de la media poblacional. El estimador de mxima verosimilitud de la varianza es insesgado si asumimos que la media de la poblacin es conocida a priori, pero en la prctica esto no ocurre. Cuando disponemos de una muestra y no sabemos nada de la media o la varianza de la poblacin de la que se ha extrado, como se asuma en la derivada de mxima verosimilitud de arriba, entonces el estimador de mxima verosimilitud de la varianza es sesgado. Un estimador insesgado de la varianza 2 es la cuasi varianza muestral:

que sigue una distribucin Gamma cuando las Xi son normales independientes e idnticamente distribuidas:

con media

y varianza

La estimacin de mxima verosimilitud de la desviacin tpica es la raz cuadrada de la estimacin de mxima verosimilitud de la varianza. No obstante, ni sta, ni la raz cuadrada de la cuasivarianza muestral proporcionan un estimador insesgado para la desviacin tpica (vase estimacin insesgada de la desviacin tpica para una frmula particular para la distribucin normal.

[editar] Incidencia

Las distribuciones aproximadamente normales aparecen por doquier, como queda explicado por el teorema central del lmite. Cuando en un fenmeno se sospecha la presencia de un gran nmero de pequeas causas actuando de forma aditiva e independiente es razonable pensar que las observaciones sern "normales". Hay mtodos estadsticos para probar empricamente esta asuncin, por ejemplo, el test de Kolmogorov-Smirnov. Hay causas que pueden actuar de forma multiplicativa (ms que aditiva). En este caso, la asuncin de normalidad no est justificada y es el logaritmo de la variable en cuestin el que estara normalmente distribuido. La distribucin de las variables directamente observadas en este caso se denomina log-normal. Finalmente, si hay una simple influencia externa que tiene un gran efecto en la variable en consideracin, la asuncin de normalidad no est tampoco justificada. Esto es cierto incluso si, cuando la variable externa se mantiene constante, las distribuciones marginales resultantes son, en efecto, normales. La distribucin completa ser una superposicin de variables normales, que no es en general normal. Ello est relacionado con la teora de errores (vase ms abajo). A continuacin se muestran una lista de situaciones que estaran, aproximadamente, normalmente distribuidas. Ms abajo puede encontrarse una discusin detallada de cada una de ellas:
En problemas de recuento, donde el teorema central del lmite incluye una aproximacin de discreta a continua y donde las distribuciones infinitamente divisibles y descomponibles estn involucradas, tales como:

variables aleatorias binomiales, asociadas con preguntas s/no; variables aleatorias de Poisson, asociadas con eventos raros; El logaritmo de las medidas del tamao de tejidos vivos (longitud, altura, superficie de piel, peso); La longitud de apndices inertes (pelo, garras, rabos, dientes) de especmenes biolgicos en la direccin del crecimento; Otras medidas fisiolgicas podran estar normalmente distribuidas, aunque no hay razn para esperarlo a priori;

En medidas fisiolgicas de especmenes biolgicos:

Se asume con frecuencia que los errores de medida estn normalmente distribuidos y cualquier desviacin de la normalidad se considera una cuestin que debera explicarse; Variables financieras, en el modelo Black-Scholes:

Cambios en el logaritmo de

Cambios en el logaritmo de tasas de cambio, ndices de precios, ndices de existencias de mercado; estas variables se comportan como el inters compuesto, no como el inters simple, por tanto, son multiplicativas;

Mientras que el modelo Black-Scholes presupone normalidad, en realidad estas variables exhiben colas pesadas, como puede verse en crash de las existencias de mercado; Otras variables financieras podran estar normalmente distribuidas, pero no hay razn para esperarlo a priori; Intensidad de la luz: La intensidad de la luz lser est normalmente distribuida; La luz trmica tiene una distribucin de Bose-Einstein en escalas de tiempo muy breves y una distribucin normal en grandes escalas de tiempo debido al teorema central del lmite.

Es relevante para la biolga y la economa el hecho de que los sistemas complejos tienden a mostrar la ley de potencias ms que normal.
[editar] Recuento de fotones

La intensidad de la luz de una sola fuente vara con el tiempo, as como las fluctuaciones trmicas que pueden observarse si la luz se analiza a una resolucin suficientemente alta. La mecnica cuntica interpreta las medidas de la intensidad de la luz como un recuento de fotones, donde la asuncin natural es usar la distribucin de Poisson. Cuando la intensidad de la luz se integra a lo largo de grandes periodos de tiempo mayores que el tiempo de coherencia, la aproximacin Poisson - Normal es apropiada.
[editar] Medida de errores

La normalidad es la asuncin central de la teora matemtica de errores. De forma similar en el ajuste de modelos estadstico, un indicador de la bondad del ajuste es que el error residual (as es como se llaman los errores en esta circunstancia) sea independiente y normalmente distribuido. La asuncin es que cualquier desviacin de la normalidad necesita ser explicada. En ese sentido, en ambos, ajuste de modelos y teora de errores, la normalidad es la nica observacin que no necesita ser explicada, sino que es esperada. No obstante, si los datos originales no estn normalmente distribuidos (por ejemplo, si siguen una distribucin de Cauchy, entonces los residuos tampoco estarn normalmente distribuidos. Este hecho es ignorado habitualmente en la prctica. Las medidas repetidas de la misma cantidad se espera que cedan el paso a resultados que estn agrupados entorno a un valor particular. Si todas las fuentes principales de errores se han tomado en cuenta, se asume que el error que queda debe ser el resultado de un gran nmero de muy pequeos y aditivos efectos y, por consiguiente, normal. Las desviaciones de la normalidad se interpretan como indicaciones de errores sistemticos que no han sido tomados en cuenta. Puede debatirse si esta asuncin es vlida. Una famosa observacin atribuida a Gabriel Lippmann dice:[cita requerida]
Todo el mundo cree en la ley normal de los errores: los matemticos, porque piensan que es un hecho experimental; y los experimentadores, porque suponen que es un teorema matemtico

Otra fuente podra ser Henri Poincar.


[editar] Caractersticas fsicas de especmenes biolgicos

Los tamaos de los animales adultos siguen aproximadamente una distribucin log-normal. La evidencia y explicacin basada en modelos de crecimiento fue publicada por primera vez en el libro Problemas de crecimiento relativo, de 1932, por Julian Huxley. Las diferencias de tamao debido a dimorfismos sexuales u otros polimorfismos de insectos, como la divisin social de las abejas en obreras, znganos y reinas, por ejemplo, hace que la distribucin de tamaos se desve hacia la lognormalidad. La asuncin de que el tamao lineal de los especmenes biolgicos es normal (ms que lognormal) nos lleva a una distribucin no normal del peso (puesto que el peso o el volumen es proporcional al cuadrado o el cubo de la longitud y las distribuciones gaussianas slo mantienen las transformaciones lineales). A la inversa, asumir que el peso sigue una distribucin normal implica longitudes no normales. Esto es un problema porque, a priori, no hay razn por la que cualquiera de ellas (longitud, masa corporal u otras) debera estar normalmente distribuida. Las distribuciones lognormales, por otro lado, se mantienen entre potencias, as que el "problema" se desvanece si se asume la lognormalidad. Por otra parte, hay algunas medidas biolgicas donde se asume normalidad, tales como la presin sangunea en humanos adultos. Esta asuncin slo es posible tras separar a hombres y mujeres en distintas poblaciones, cada una de las cuales est normalmente distribuida.

[editar] Variables financieras

El modelo normal de movimiento de activos no incluye movimientos extremos tales como quiebras financieras.

Ya en 1900 Louis Bachelier propuso representar los precios de cambio usando la distribucin normal. Esta aproximacin se ha modificado desde entonces ligeramente. A causa de la naturaleza multiplicativa del inters compuesto, los indicadores financieros como valores de mercado y precios de las materias primas exhiben un "comportamiento multiplicativo". Como tales, sus cambios peridicos (por ejemplo, cambios anuales) no son normales, sino lognormales. Esta es todava la hiptesis ms comnmente aceptada en economa. No obstante, en realidad las variables financieras exhiben colas pesadas y as, la asuncin de normalidad infravalora la probabilidad de eventos extremos como quiebras financieras. Se han sugerido correcciones a este modelo por parte de matemticos como Benot Mandelbrot, quien observ que los cambios en el logaritmo durante breves periodos de tiempo (como un da) se aproximan bien por distribuciones que no tienen una varianza finita y, por consiguiente, el teorema central del lmite no puede aplicarse. Ms an, la suma de muchos de tales cambios sigue una distribucin de log-Levy.
[editar] Distribuciones en tests de inteligencia

A veces, la dificultad y nmero de preguntas en un test de inteligencia se selecciona de modo que proporcionen resultados normalmente distribuidos. Ms an, las puntuaciones "en crudo" se convierten a valores que marcan el cociente intelectual ajustndolas a la distribucin normal. En cualquier caso se trata de un resultado causado deliberadamente por la construccin del test o de una interpretacin de las puntuaciones que sugiere normalidad para la mayora de la poblacin. Sin embargo, la cuestin acerca de si la inteligencia en s est normalmente distribuida es ms complicada porque se trata de una variable latente y, por consiguiente, no puede observarse directamente.
[editar] Ecuacin de difusin

La funcin de densidad de la distribucin normal est estrechamente relacionada con la ecuacin de difusin (homognea e istropa) y, por tanto, tambin con la ecuacin de calor. Esta ecuacin diferencial parcial describe el tiempo de evolucin de una funcin de densidad bajo difusin. En particular, la funcin de densidad de masa

para la distribucin normal con esperanza 0 y varianza t satisface la ecuacin de difusin:

Si la densidad de masa para un tiempo t = 0 viene dada por la delta de Dirac, lo cual significa, esencialemente que toda la masa est inicialmente concentrada en un punto, entonces la funcin de densidad de masa en el tiempo t tendr la forma de la funcin de densidad de la normal, con varianza creciendo linealmente con t. Esta conexin no es coincidencia: la difusin se debe a un movimiento Browniano que queda descrito matemticamente por un proceso de Wiener, y tal proceso en un tiempo t tambin resultar normal con varianza creciendo linealmente con t'. Ms generalmente, si la densidad de masa inicial viene dada por una funcin (x), entonces la densidad de masa en un tiempo t vendr dada por la convolucin de y una funcin de densidad normal.

[editar] Uso en estadstica computacional


[editar] Generacin de valores para una variable aleatoria normal

Para simulaciones por ordenador es til, en ocasiones, generar valores que podran seguir una distribucin normal. Hay varios mtodos y el ms bsico de ellos es invertir la funcin de distribucin de la normal estndar. Se conocen otros mtodos ms eficientes, uno de los cuales es la transformacin de Box-Muller. Un algoritmo incluso ms rpido es el algoritmo zigurat. Ambos se discuten ms abajo. Una aproximacin simple a estos mtodos es programarlos como sigue: simplemente smense 12 desviaciones uniformes (0,1) y rstense 6 (la mitad de 12). Esto es bastante til en muchas aplicaciones. La suma de esos 12 valores sigue la distribucin de Irwin-Hall; son elegidos 12 para dar a la suma una varianza de uno, exactamente. Las desviaciones aleatorias resultantes estn limitadas al rango (6, 6) y tienen una densidad que es una doceava seccin de una aproximacin polinomial de undcimo orden a la distribucin normal .[10] El mtodo de Box-Muller dice que, si tienes dos nmeros aleatorios U y V uniformemente distribuidos en (0, 1], (por ejemplo, la salida de un generador de nmeros aleatorios), entonces X e Y son dos variables aleatorias estndar normalmente distribuidas, donde:

Esta formulacin aparece porque la distribucin con dos grados de libertad (vase la propiedad 4, ms arriba) es una variable aleatoria exponencial fcilmente generada (la cual corresponde a la cantidad lnU en estas ecuaciones). As, un ngulo elegido uniformemente alrededor de un crculo va la variable aleatoria V y un radio elegido para ser exponencial se transforman entonces en coordenadas x e y normalmente distribuidas. Un mtodo mucho ms rpido que la transformacin de Box-Muller, pero que sigue siendo exacto es el llamado algoritmo Zigurat, desarrollado por George Marsaglia. En alrededor del 97% de los casos usa slo dos nmeros aleatorios, un entero aleatorio y un uniforme aleatorio, una multiplicacin y un test-si . Slo un 3% de los casos donde la combinacin de estos dos cae fuera del "corazn del zigurat", un tipo de rechazo muestral usando logaritmos, exponenciales y nmeros aleatorios ms uniformes deberan ser empleados. Hay tambin alguna investigacin sobre la conexin entre la rpida transformacin de Hadamard y la distribucin normal, en virtud de que la transformacin emplea slo adicin y sustraccin y por el teorema central del lmite los nmeros aleatorios de casi cualquier

distribucin sern transformados en la distribucin normal. En esta visin se pueden combinar una serie de transformaciones de Hadamard con permutaciones aleatorias para devolver conjuntos de datos aleatorios normalmente distribuidos.
[editar] Aproximaciones numricas de la distribucin normal y su funcin de distribucin

La funcin de distribucin normal se usa extensamente en computacin cientfica y estadstica. Por consiguiente, ha sido implementada de varias formas. Abramowitz y Stegun (1964) dan la conocida como "mejor aproximacin de Hastings" para (x) con x > 0 con un error absoluto |(x)| < 7.5108 (algoritmo 26.2.17):

donde (x) es la funcin de densidad de la distribucin normal estndar,

y las constantes son b0 = 0.2316419, b1 = 0.319381530, b2 = 0.356563782, b3 = 1.781477937, b4 = 1.821255978, b5 = 1.330274429. La Biblioteca Cientfica GNU calcula valores de la funcin de distribucin normal estndar usando aproximaciones por funciones racionales a trozos. Otro mtodo de aproximacin usa polinomios de tercer grado en intervalos.[11] El artculo sobre el lenguaje de programacin bc proporciona un ejemplo de cmo computar la funcin de distribucin en GNU bc. Para una discusin ms detallada sobre cmo calcular la distribucin normal, vase la seccin 3.4.1C. de The Art of Computer Programming (El arte de la programacin por ordenador), de Knuth.

[editar] Vase tambin



Carl Friedrich Gauss. Cociente intelectual. Desenfoque gaussiano y convolucin usando la distribucin normal como ncleo. Distribucin . Distribucin de Pearson Familia general de distribuciones de probabilidad que extienden la distribucin gaussiana para incluir diferentes valores de asimetras y curtosis. Distribucin gaussiana inversa Distribucin logstica Distribucin log-normal Distribucin Normal-gamma Distribucin normal matriz Distribucin normal multivariante Distribucin normal torcida Distribucin normal truncada Distribucin t de Student Distribuciones Tweedie Funcin gaussiana (campana de Gauss).

Funcin logit. Funcin probit Gradacin de la curva campana Iannis Xenakis, distribucin gaussiana en msica. Integral del Gauss Normalmente distribuidas e incorreladas no implica independencia (un ejemplo de dos variables aleatorias normalmente distribuidas e incorreladas que no son independientes; esto no ocurrira en presencia de una distribucin conjunta). Problema de BehrensFisher Proceso de Gauss

Puente Browniano Proceso de Ornstein-Uhlenbeck Proceso de Wiener

Prueba de Mann-Whitney. Mtodo no paramtrico que aproxima a una normal. Suma de variables aleatorias normalmente distribuidas Tabla distribucin normal tipificada Tamao de la muestra Teorema Central del Lmite. Transformacin de datos (Estadstica). Tcnicas simples de transformacin de datos en una distribucin normal. Teorema de Erds-Kac, sobre la ocurrencia de la distribucin normal en teora de nmeros.

También podría gustarte