Está en la página 1de 58

INTRODUCCION

El primer punto que vamos a tratar es el concepto de esperanza matemtica, o simplemente valor el cual se define como la suma de la probabilidad de cada suceso multiplicada por el resultado del mismo. En el lenguaje de la probabilidad y la estadstica, el total que lanzamos con un par de dados es una variable aleatoria, el tamao de la familia de una pareja escogida aleatoriamente y su ingreso de un foco incandescente escogido aleatoriamente para inspeccin; en fin se trataran temas relacionados incluyendo la funcion generadora y algunas importantes distribuciones probabilisticas de muestra:

ESPERANZA MATEMTICA La esperanza matemtica (o simplemente esperanza) o valor esperado de una v.a. es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Si todos los sucesos son de igual probabilidad la esperanza es la media aritmtica. Para una variable aleatoria discreta con valores posibles y sus

probabilidades representadas por la funcin de probabilidad p(xi) la esperanza se calcula como:

Para una variable aleatoria continua la esperanza se calcula mediante la integral de todos los valores y la funcin de densidad :

o La esperanza tambin se suele simbolizar con El concepto de esperanza se asocia comnmente en los juegos de azar al de beneficio medio o beneficio esperado a largo plazo.

1. VARIABLE ALEATORIA Dado un experimento aleatorio cualquiera cuyos sucesos elementales posibles pueden identificarse fcilmente mediante un nmero real, se denomina Variable Aleatoria, X, al conjunto de estos nmeros.

Tambin se le llama variable de azar o variable estocstica, y significa cantidad que puede tomar varios valores imprevistos. Ejemplo 1.- Sea el experimento aleatorio de lanzar un dado al aire. Los posibles resultados del experimento (sucesos elementales) son los siguientes: <<que salga 1>>, <<que salga 2>>, <<que salga 3>>, <<que salga 4>>, <<que salga 5>> y <<que salga 6>>. Resulta sencillo asociar a cada suceso elemental el nmero correspondiente a la cara del dado que haya salido. Por tanto, la variable aleatoria, X, ser: X= 1,2,3,4,5,6 Por el contrario, si dado un experimento aleatorio cualquiera no resulta inmediata la asociacin de un nmero para cada uno de los posibles sucesos elementales, se establece una correspondencia entre el conjunto de los posibles sucesos elementales y el conjunto de los nmeros reales, de manera que a cada suceso elemental le corresponda un nmero real arbitrario y que a sucesos elementales distintos les correspondan nmeros distintos. Se denomina variable aleatoria al conjunto imagen de esta correspondencia, es decir, al conjunto de los nmeros reales que se hayan hecho corresponder a cada uno de los sucesos elementales. Ejemplo 2.- Sea el experimento aleatorio de averiguar la marca de tabaco que preferir un individuo entre las posibles marcas: <<X>>, <<Y>>, <<Z>>. En este caso la asociacin de un nmero para cada suceso elemental posible del experimento no es inmediata. En consecuencia, se establece una correspondencia entre el conjunto de los sucesos elementales posibles y el conjunto de los nmeros reales, del modo siguiente: Al suceso elemental <<preferir la marca X>> se le hace corresponder el nmero 1; al suceso elemental <<preferir la marca Y>> se le hace corresponder el nmero 2; al suceso elemental <<preferir la marca Z>> se le hace corresponder el nmero 3. La variable aleatoria X ser: X = (1,2,3).

El nmero asociado a cada suceso elemental puede ser cualquiera dentro del conjunto de los nmeros reales, con la condicin nica de que a sucesos elementales distintos le correspondan nmeros tambin distintos. Se comprueba fcilmente que la correspondencia as definida entre el conjunto de los posibles sucesos elementales de un experimento aleatorio y el conjunto de los nmeros reales es una aplicacin inyectiva.

CLASIFICACIN DE LAS VARIABLES ALEATORIAS Las variables aleatorias pueden ser continuas o discontinuas. En este ltimo caso se denomina tambin discretas. VARIABLES ALEATORIAS DISCRETAS

Funcin de probabilidad Una variable aleatoria discreta toma cada uno de sus valores con una determinada probabilidad. La relacin entre valores y probabilidades en una variable X se puede expresar de forma tabular de la siguiente manera:

Valores de X P(X = x)

x1 P(x1)

x2 P(x2)

...

xi P(xi)

Este mtodo puede ser complicado, e incluso imposible, si los valores de la variable son muchos o infinitos. En algunos casos, existe una forma sistemtica de aplicacin de los valores de la probabilidad a los valores de la variable, de modo tal que se puede establecer una ecuacin que ligue ambos. A esta ecuacin se le llama funcin de probabilidad. Por tanto, la funcin de probabilidad de una variable aleatoria discreta X es una funcin tal que, al sustituir x por un valor de la variable, el valor que toma la funcin es la probabilidad de que la variable X asuma el valor x. Habitualmente, la funcin de probabilidad se representa como f(x). f(x) = P(X = x) Las funciones de probabilidad slo se definen para los valores de la variable aleatoria y deben cumplir tres propiedades: 1. 2. Como consecuencia del primer axioma. Como consecuencia del segundo axioma.

3.

P(X = x) = f(x) Por definicin.

Funcin de distribucin

La funcin de distribucin F(x) de una variable aleatoria discreta X, con funcin de probabilidad f(x), es una funcin de la variable en la que al sustituir x por un valor, el valor de la funcin es la probabilidad de que la variable tome valores menores o iguales que dicho valor x.

La funcin de distribucin se define para todos los nmeros reales, no slo para los valores de la variable. Su mximo es siempre 1 pues cuando el valor que se sustituye es mayor o igual que el valor mximo de la variable, la probabilidad de que sta tome valores menores o iguales que el sustituido es la probabilidad del espacio muestral. Normalmente, sus valores se dan de forma tabular. Supongamos, por ejemplo que los valores de la variable X sean x1, x2, x3,... , xn

VARIABLES ALEATORIAS CONTINUAS

Funcin de densidad

Una variable aleatoria continua tiene la caracterstica de tomar cada uno de sus valores con probabilidad infinitesimal, a efectos prcticos, 0. Por tanto, no se pueden expresar en forma tabular. Sin embargo, aunque no se pueden considerar probabilidades de valores concretos, puede calcularse la probabilidad de que la variable tome valores en determinados intervalos (los intervalos en cuestin pueden ser abiertos o cerrados, sin que se modifique la probabilidad total). P(a X b) = P(X = a) + P(a < X < b) + P(X = b) = P(a < X < b) Tal como ocurra en el caso de las variables discretas, cuando existe una asignacin regular de probabilidad se puede definir una funcin que nos permita calcular probabilidades para cualquier intervalo de valores, a esta funcin se le llama funcin de densidad, f(x) La funcin de densidad de una variable aleatoria continua X es una funcin continua tal que su integral entre los extremos de un intervalo nos da el valor de la probabilidad de que X tome valores en ese intervalo.

La representacin grfica de la funcin de densidad en un sistema de ejes cartesianos es la de una curva continua, construida de forma tal que la altura de la curva, sobre el eje de las X, en cada punto es el cociente entre el diferencial de la probabilidad en dicho punto y el diferencial de x. Esta construccin es una extensin por diferenciacin del concepto de histograma. Como consecuencia, la integral de f(x) sobre todo el campo de variacin de X es igual a 1. Es evidente que f(x) es siempre positiva pues si no lo fuera cabra la posibilidad de encontrar intervalos para los cuales la integral sera negativa y eso significara probabilidad negativa, en abierta contradiccin con la definicin de probabilidad. La funcin de densidad siempre se define para todos los valores en el intervalo (-,) Esto no ofrece problemas si el campo de variacin de X se extiende por todo el intervalo; si no

fuera as, la funcin se define como igual a cero para todos los valores no incluidos en el campo de variacin de X. La funcin de densidad debe cumplir tres condiciones anlogas a las de la funcin de probabilidad: como consecuencia del primer axioma

como consecuencia del segundo axioma

por definicin

Funcin de distribucin Para variables continuas tambin se define la funcin de distribucin, de la siguiente manera:

Las caractersticas de F(x) son iguales a las expuestas para el caso de las variables discretas, salvo que, obviamente, nunca se expresan en forma tabular. En general, cualquiera que sea el tipo de variable, las funciones de distribucin nos pueden servir para calcular probabilidades. Por ejemplo, en el caso de las variables continuas:

Dada su definicin, resulta que, para variables continuas, la funcin de densidad es la derivada respecto a X de la funcin de distribucin. Las funciones de distribucin de las variables continuas ms interesantes estn tabuladas.

2. MOMENTOS DE UNA VARIABLE MOMENTOS RESPECTO DEL ORIGEN

Dada una variable aleatoria X con funcin de probabilidad o densidad f(x) podemos definir una funcin de X que sea igual a la variable elevada a un exponente entero no negativo.

El valor esperado de z(x) es el k-simo momento de la variable X respecto a su origen y se llama

k=0

k=1

a este primer momento respecto al origen que es igual al valor esperado se le llama tambin media aritmtica de la variable y se le denomina X, simplemente . En la mayora de los casos, la media expresa la tendencia central de la variable o el orden de magnitud de sus valores. El resto de los momentos respecto al origen tienen escaso inters en la mayora de los casos. MOMENTOS RESPECTO A LA MEDIA

Dada una variable aleatoria X con funcin de probabilidad o densidad f(x) podemos definir una funcin de X que sea igual a la diferencia entre la variable y su media aritmtica elevada a un exponente entero no negativo.

El valor esperado de z(x) es el k-simo momento de la variable X respecto a la media y se llama k.

k=0

k=1

es decir, en cualquier variable aleatoria su primer momento respecto de la media es igual a 0. Esta propiedad se utilizar reiteradamente en las demostraciones estadsticas.

k=2

este segundo momento respecto de la media se le llama tambin varianza.

La varianza de una variable mide la dispersin de sus valores respecto al valor central . Para calcular la varianza por un mtodo ms sencillo se utiliza la expresin:

Es decir, la varianza de una variable es igual a la media de los cuadrados menos el cuadrado de la media.

El principal problema de la varianza es que se expresa en unidades cuadrticas que no siempre tienen una interpretacin clara. Para obviar este problema se define otra medida de la dispersin que es la desviacin tpica, X, o simplemente , que se calcula como la raz cuadrada positiva de la varianza; evidentemente, la desviacin tpica se mide en las mismas unidades que la variable

No obstante, la desviacin tpica no resuelve todos los problemas que se pueden plantear, como por ejemplo la comparacin de situaciones en las que la unidad de medida o el orden de magnitud de esta sea diferente. Para resolver esta cuestin se define una medida adimensional de la variabilidad que es el coeficiente de variacin, C V, que se calcula como el cociente entre la desviacin tpica y la media (a veces este cociente se expresa en tanto por ciento multiplicndolo por 100).

En este contexto de la medida de la variacin se plantea el problema de medir la variacin conjunta de variables de variables asociadas. Supongamos que tenemos dos variables aleatorias X e Y, discretas o continuas, con funcin de probabilidad o densidad conjunta f(x,y) y definimos una funcin z(x,y) igual al producto

de las desviaciones de cada valor a su media respectiva (es decir, z(x,y) tiene la misma estructura que (X - )2 = (X - ) (X - ) si sustituimos una vez a X por Y).

Al valor esperado de z(x,y) se le llama covarianza de las variables X e Y y se representa como xy o cov(x,y).

La covarianza es una medida de la variacin comn a dos variables y, por tanto, una medida del grado y tipo de su relacin. xy es positiva si los valores altos de X estn asociados a los valores altos de Y y viceversa. xy es negativa si los valores altos de X estn asociados a los valores bajos de Y y viceversa. Si X e Y son variables aleatorias independientes cov(x,y) = 0 . La independencia es condicin suficiente pero no necesaria para que la cov(x,y) sea nula.

cov(x,y) = 0

cov(x,y) > 0

cov(x,y) < 0

Se puede deducir, algebraicamente, un medio ms sencillo para calcular la covarianza de dos variables.

En el caso de la covarianza tenemos el mismo problema que se nos present con la varianza, es decir, la covarianza se expresa en trminos del producto de las unidades de medida de ambas variables, lo cual no siempre es fcilmente interpretable. Por otra parte tambin es difcil comparar situaciones diferentes entre s. En este caso, ambos problemas se solucionan de una vez mediante la definicin del coeficiente de correlacin, , que se define como el cociente entre la covarianza y el producto de las desviaciones tpicas de las dos variables.

La correlacin toma valores entre -1 y 1, siendo su signo igual al de la covarianza. Correlaciones con valor absoluto 1 implican que existe una asociacin matemtica lineal perfecta, positiva o negativa, entre las dos variables y correlaciones iguales a 0 implican ausencia de asociacin. Obviamente, las variables independientes tienen correlacin 0, pero nuevamente, la independencia es condicin suficiente pero no necesaria. Correlaciones con valores absolutos intermedios indican cierto grado de asociacin entre los valores de las variables.

3. FUNCIN GENERADORA DE MOMENTOS En probabilidad y estadstica, la funcin generadora de momentos o funcin generatriz de momentos de una variable aleatoria X es:

siempre que esta esperanza exista. La funcin generadora de momentos se llama as porque, si existe en un entorno de t = 0, permite generar los momentos de la distribucin de probabilidad:

Si la funcin generadora de momentos est definida en tal intervalo, entonces determina unvocamente a la distribucin de probabilidad.[cita requerida] Un problema clave con las funciones generadoras de momentos es que los momentos y la propia funcin generadora no siempre existen, porque las integrales que los definen no son siempre convergentes. Por el contrario, la funcin caracterstica siempre existe y puede usarse en su lugar. De forma general, donde usa en lugar de tX: es un vector aleatorio n-dimensional, se

CALCULO Si X tiene una funcin de densidad continua, f(x), entonces la funcin generadora de momentos viene dada por

donde mi es el i-simo momento. MX( t) es, precisamente, la transformada bilateral de Laplace de f(x). Independientemente de que la distribucin de probabilidad sea continua o no, la funcin generadora de momentos viene dada por la integral de Riemann-Stieltjes

donde F es la funcin de distribucin. Si X1, X2, ..., Xn es una secuencia de variables aleatorias independientes (y no necesariamente idnticamente distribuidas) y

donde las ai son constantes, entonces la funcin de densidad de Sn es la convolucin de la funcin de densidad de cada una de las Xi y la funcin generadora de momentos para Sn viene dada por

Para variables aleatorias multidimensionales X con componentes reales, la funcin generadora de momentos viene dada por

donde t es un vector y

es el producto punto.

OTRAS FUNCIONES GENERADORAS a. Funcin generadora exponencial

La funcin generadora exponencial de una sucesin an es

b. Funcin generadora de Poisson La funcin generadora de Poisson de una sucesin an es

c. Serie de Lambert La serie de Lambert de una sucesin an es

Ntese que en una serie de Lambert, el ndice n comienza en el 1, no en 0. d. Serie de Bell La serie de Bell de una funcin aritmtica f(n) y un nmero primo p es

e. Funcin generadora de la serie de Dirichlet Las series de Dirichlet a menudo se clasifican como funciones generadoras, aunque no son estrictamente series formales de potencias. La funcin generadora de la serie de Dirichlet de una sucesin an es

La funcin generadora de la serie de Dirichlet es especialmente til cuando an es una funcin multiplicativa, cuando tiene una expresin de producto de Euler en trminos de la serie de Bell de la funcin

Si an es un carcter de Dirichlet, entonces su funcin generadora de la serie de Dirichlet se llama serie L de Dirichlet. f. Funciones generadoras de sucesiones polinmicas El concepto de funciones generadoras puede extenderse a sucesiones de otros objetos. As, por ejemplo, las sucesiones polinmicas de tipo binomial se generan por

donde pn(x) es una sucesin de polinomios y f(t) es una funcin de cierta forma. Las sucesiones de Sheffer se generan de modo similar. Vase el artculo principal polinomio generalizado de Appell para ms informacin. 4. TEOREMA DE CHEBYSHEV Si una variable aleatoria tiene una varianza o desviacin estndar pequea, esperaramos que la mayora de los valores se agrupan alrededor de la media. Por lo tanto, la probabilidad de que una variable aleatoria tome un valor dentro de cierto intervalo alrededor de la media es mayor que para una variable aleatoria similar con una desviacin estndar mayor si pensamos en la probabilidad en trminos de una rea, esperaramos una distribucin continua con un valor grande de que indique una variabilidad mayor y, por lo tanto,

esperaramos que el rea este extendida. Sin embargo, una desviacin estndar pequea debera tener la mayor parte de su rea cercana a . Podemos argumentar lo mismo para una distribucin discreta. En el histograma de probabilidad. El rea se extiende mucho ms que. Lo cual indica una distribucin mas variable de mediciones o resultados el matemtico ruso P. L. Chebyschev (18211894) descubri que la fraccin de rea entre cualesquiera dos valores simtricos alrededor de la media esta relacionada con la desviacin estndar. Como el rea bajo una curva de distribucin de probabilidad, o de un histograma de probabilidad, suma 1, el rea entre cualesquiera dos nmeros es la probabilidad de que la variable aleatoria tome un valor entre estos nmeros. El siguiente teorema, debido a Chebyshev da una estimacin conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de desviaciones estndar de su media para cualquier numero real proporcionaremos la demostracin solo para el caso continuo y se deja el caso discreto como ejercicio. Teorema de Chebyshev: La probabilidad de que cualquier variable aleatoria X, tome un valor dentro de la desviaciones estndar de la media es al menos 1 1 / 2. Es decir P ( - < X < + ) 1 12. Prueba: por nuestra definicin anterior de la varianza de X escribimos 2 = E [ (X - )2] = - (x + )2 (x) dx = - - k (x + )2 (x) dx + - k + k (x + )2 (x) dx + + k (x + )2 (x) dx - - k (x + )2 (x) dx + + k (x + )2 (x) dx Ya que la segunda de las tres integrales es no negativa as como | x - | k , para cualquier x + k o x - k tenemos que (x - )2 k2 2 en ambas integrales restantes se sigue que 2 - - k k2 2 (x) dx + + k k2 2 (x) dx

Y que - - k (x) dx + + k (x) dx 1_2. De aqu P ( - < X < + ) = - k + k (x) dx 1 1_2. Por lo cual queda establecido el teorema. Para k = 2 el teorema establece que la variable aleatoria x tiene una probabilidad de al menos 1 1 /22 = 3/4 de caer dentro de dos desviaciones estndar de la media, es decir tres cuartos o mas de las observaciones de cualquier distribucin yacen en el intervalo una 2 . De manera similar, el teorema que al menos ocho novenos de las observaciones de cualquier distribucin caen en el intervalo 3 . El teorema de Chebyshev tiene una valides para cualquier distribucin de observaciones y, por esta razn los resultados son generalmente dbiles el valor que el teorema proporciona es solo un limite inferior. Es decir, sabemos que la probabilidad de una variable aleatoria que cae dentro de dos desviaciones estndar de la media no puede ser menor que 3/4, pero nunca sabemos cuanto podra ser en realidad nicamente cuando se conoce la distribucin de probabilidad podemos determinar probabilidades exactas. Por esta razn llmanos al teorema resultado de distribucin libre cuando se supongan distribuciones especficas. El uso del teorema de Chebyshev se restringe a situaciones donde se desconoce la forma de la distribucin. EJERCICIO Una variable aleatoria X tiene una media = 8 una varianza 2 = 9, y distribucin de probabilidad desconocida. Encuentre a) P (4 < X < 20). b) P (| X - 8 | 6).

Solucin a) P (4 < X < 20) = P[ 8 (4) (3) < X < 8 + (4) (3) ] 15/14 b) P (| X - 8 | 6) = 1 P (| X - 8 | < 6) = 1 P (- 6 < X - 8 < 6) = 1 P [8 (2) (3) < X < 8 + (2) (3)] 8 < 6) .

5. POBLACIN Y MUESTRA

Las estadsticas de por s no tienen sentido si no se consideran o se relacionan dentro del contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de poblacin y de muestra para lograr comprender mejor su significado en la investigacin educativa o social que se lleva a cabo.

POBLACIN

Es el conjunto total de individuos, objetos o medidas que poseen algunas caractersticas comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a

cabo alguna investigacin debe de tenerse en cuenta algunas caractersticas esenciales al seleccionarse la poblacin bajo estudio.

Desde luego, es de fundamental importancia comenzar el estudio definiendo la poblacin a estudiar. Las poblaciones suelen ser muy numerosas, por lo que es difcil estudiar a todos sus miembros; adems de que esto no es posible, no es necesario. Es como si se quisiera estudiar la composicin qumica del agua de un ro y para ello se intentar analizar toda el agua que corre por su cauce, cuando solamente se puede tomar unas muestras para realizar ese estudio y llegar a conclusiones generalizables con respecto a la composicin qumica del agua a todo el ro.

Cuando se seleccionan algunos elementos con la intencin de averiguar algo sobre una poblacin determinada, este grupo es definido como muestra. Cuando no es posible medir cada uno de los individuos de una poblacin, se toma una muestra representativa de la misma. Por supuesto, se espera a travs del estudio que lo que se averige en la muestra sea cierto para la poblacin en su conjunto. La exactitud de la informacin recolectada depende en gran medida de la forma en que sea seleccionada la muestra.

Entre stas tenemos: a. Homogeneidad - que todos los miembros de la poblacin tengan las mismas caractersticas segn las variables que se vayan a considerar en el estudio o investigacin.

b. Tiempo - se refiere al perodo de tiempo donde se ubicara la poblacin de inters. Determinar si el estudio es del momento presente o si se va a estudiar a una poblacin de cinco aos atrs o si se van a entrevistar personas de diferentes generaciones. c. Espacio - se refiere al lugar donde se ubica la poblacin de inters. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un rea o comunidad en especfico. d. Cantidad - se refiere al tamao de la poblacin. El tamao de la poblacin es sumamente importante porque ello determina o afecta al tamao de la muestra que se vaya a seleccionar, adems que la falta de recursos y tiempo tambin nos limita la extensin de la poblacin que se vaya a investigar.

La

MUESTRA muestra es un subconjunto fielmente representativo de la poblacin.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione depender de la calidad y cun representativo se quiera sea el estudio de la poblacin.

Tipos de muestras: a. Muestras por conglomerados: Esta tcnica tiene utilidad cuando el universo o la poblacin que se requiere estudiar se encuentra subdividido en universos o poblaciones menores de caractersticas similares al del universo o poblacin total. Se procede a subdividir la poblacin en un nmero finito de conglomerados y, entre ellos, se pasa a elegir algunos que sern los nicos que se investigarn; esta eleccin puede realizarse por el mtodo del azar simple o por el del azar sistemtico. Una vez cumplida esta etapa, puede efectuarse una, dentro de cada uno de los conglomerados elegidos, para llegar a un nmero an ms reducido de unidades muestrales.

Ventaja: obvia la tarea de confeccionar el listado de todas las unidades del universo. Desventaja: al efectuarse el muestreo en dos etapas, los errores muestrales de cada una se van acumulando, lo que da un error mayor.

La tcnica de conglomerados suele utilizarse cuando se quiere extraer muestras de los habitantes de un conjunto geogrfico amplio, por ejemplo, una gran ciudad o un conjunto de pueblos, por lo que se procede a tomar cada pueblo o grupo de manzanas como un conglomerado independiente. Igual se utiliza para conocer las reservas forestales y marinas, para estudiar las estrellas y otros casos semejantes.

b. Muestras estratificadas: Este mtodo supone que el universo puede desagregarse en sub conjuntos menores, homogneos internamente pero heterogneos entre s. Cada uno de estos estratos se toma luego como un universo particular, de tamao ms reducido, y sobre l se seleccionan muestras segn cualquiera de los procedimientos anteriores.

Por ejemplo, si se quisiera estudiar las actitudes polticas de los estudiantes de una universidad, se podra subdividir en estratos de acuerdo con el tipo de estudios que cursen,

suponiendo que estas actitudes van a ser diferentes entre quienes siguen Ingeniera, Letras, Medicina u otras carreras. Luego, se efectuara un muestreo dentro de cada sub universo as definido para, finalmente, realizar un anlisis integrando los resultados de todas las sub muestras.

Tanto en el muestreo estratificado como en el de conglomerados, la poblacin se divide en grupos bien definidos. Se usa el muestreo estratificado cuando hay una amplia variacin entre los grupos; el de conglomerados en el caso opuesto: cuando hay una variacin considerable dentro de cada grupo, pero los grupos son esencialmente similares entre s. El tamao de la muestra tambin es importante ya que de esta va a depender si los resultados del estudio podrn generalizarse o no.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros de una poblacin debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un subconjunto de la

poblacin, pero que la misma sea lo suficientemente representativa de sta para que luego pueda generalizarse con seguridad de ellas a la poblacin.

El tamao de la muestra depende de la precisin con que el investigador desea llevar a cabo su estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos que haya disponibles. Entre ms grande la muestra mayor posibilidad de ser ms representativa de la poblacin.

En la investigacin experimental, por su naturaleza y por la necesidad de tener control sobre las variables, se recomienda muestras pequeas que suelen ser de por lo menos 30 sujetos.

En la investigacin descriptiva se emplean muestras grandes y algunas veces se recomienda seleccionar de un 10 a un 20 por ciento de la poblacin accesible.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos sealar a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos

tiempo. b. c. Como consecuencia del punto anterior ahorraremos costes. Estudiar la totalidad de los pacientes o personas con una caracterstica

determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar. d. Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las

observaciones y mediciones realizadas a un reducido nmero de individuos pueden ser ms exactas y plurales que si las tuvisemos que realizar a una poblacin. e. La seleccin de muestras especficas nos permitir reducir la heterogeneidad

de una poblacin al indicar los criterios de inclusin y/o exclusin.

6. DISTRIBUCINES PROBABILISTICAS

La distribucin Normal suele conocerse como la "campana de Gauss". En teora de la probabilidad y estadstica, la distribucin de probabilidad de una variable aleatoria es una funcin que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribucin de probabilidad est definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los nmeros reales, la distribucin de probabilidad est completamente especificada por la funcin de distribucin, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x. PROPIEDADES Como consecuencia casi inmediata de la definicin, la funcin de distribucin:

Es una funcin continua por la derecha. Es una funcin montona no decreciente.

Adems, cumple

Para dos nmeros reales cualesquiera a y b tal que (a < b), los sucesos son mutuamente excluyentes y su unin es el suceso tenemos entonces que:

y , por lo que

y finalmente

Por lo tanto una vez conocida la funcin de distribucin F(x) para todos los valores de la variable aleatoria x conoceremos completamente la distribucin de probabilidad de la variable. Para realizar clculos es ms cmodo conocer la distribucin de probabilidad, y sin embargo para ver una representacin grfica de la probabilidad es ms prctico el uso de la funcin de densidad. DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES DISCRETAS

Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un fenmeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribucin de probabilidad, la cual es la distribucin de las probabilidades asociadas a cada uno de los valores de la variable aleatoria.

Las distribuciones de probabilidad pueden representarse a travs de una tabla, una grfica o una frmula, en cuyo caso tal regla de correspondencia se le denomina funcin de probabilidad. Consideraremos primero las distribuciones de probabilidad para variables discretas. Por ejemplo: Consideremos a la variable aleatoria X como la cantidad de guilas observadas cuando se lanzan dos volados. El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la variable X puede tomar como valores 0, 1 y 2. Calculando las probabilidades tenemos: P(de no observar guilas) P(de observar una guila) P(de observar dos guilas) = P(SS) = P(SA AS) = P(AA) = P(X=0) = = P(X=1) =
2

/4

= P(X=2) =

Si ahora se organizan estos resultados con el siguiente formato X 0 1 2 P(X=x)


2

/4

se podr explicar por qu se usa el nombre "distribucin de probabilidad". E, incluso, con esta informacin se puede construir una grfica de barras o un histograma como el que sigue:

Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las distribuciones de variables continuas, se repetirn de manera muy similar: 1. 0 P(X=x) 1. 2. SP(X=x) = 1, o que es lo mismo: la suma de todas las probabilidades de los eventos posibles de una variable aleatoria es igual a la unidad. Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la probabilidad, pero en la realidad sto no ocurre, es decir que no sabemos la probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos tericos que estiman los resultados, los principales son los que a continuacin se presentan. a. Modelos de distribuciones de probabilidad de variables discretas

Uniforme. Es la distribucin donde todos los eventos elementales tienen la misma probabilidad. Por ejemplo: tirar un dado, donde la funcin P(X=x)=1/6 para valores de x=1,2,3,4,5,6.

Binomial. Es la que maneja la distribucin de la probabilidad de obtener cierta cantidad de xitos al realizar una cantidad de experimentos con probabilidad de xito constante y con ensayos independientes.

Geomtrica. Es la distribucin de la probabilidad de realizar cierto nmero de experimentos antes de obtener un xito.

Hipergeomtrica. Es similar a la binomial, pero con un tamao de muestra grande en relacin al tamao de la poblacin. La funcin de Excel que proporciona sus valores es DISTR.HIPERGEOM

De Poisson. Es la distribucin de la probabilidad de que ocurra un evento raro en un periodo de tiempo, un espacio o un lugar. La funcin de Excel que da los valores de la distribucin es POISSON

La que ms nos interesar de estas ser la distribucin binomial que comentaremos un poco ms adelante. b. Media y desviacin estndar de una distribucin de probabilidad para variables discretas En una *a href*distribucin de frecuencias para datos agrupados se calculaba la media utilizando la frmula , la cual puede expresarse como

Considerando la definicin de probabilidad de un evento, P(X) es el cociente de la frecuencia entre el nmero total de eventos (probabilidad frecuencial de ocurrencia), por lo que la media de una distribucin de probabilidad de una variable discreta es:

Por ejemplo: Consideremos la variable X del ejemplo de guilas observadas en dos lanzamientos de monedas. Es decir, X tal que su distribucin de probabilidad sea: X 0 1 P(X=x)

2 Entonces, para calcular su media m se realiza:

Similarmente, la *a href*varianza se defini como tratamiento anlogo anterior tenemos que

, y haciendo un

para que, finalmente, la varianza de una distribucin de probabilidad de una variable discreta sea:

Consecuentemente, la desviacin estndar de una distribucin de probabilidad de una variable discreta es:

Por ejemplo: Considerando la misma distribucin de probabilidad que en el ejemplo anterior, su desviacin estndar se calcula:

LA DISTRIBUCIN BINOMIAL

Consideremos los llamados ensayos Bernoulli, stos son aquellos experimentos cuyo resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarn xito y fracaso. Por ejemplo: Los siguientes son ensayos Bernoulli.

Un tornillo, puede estar defectuoso o no defectuoso. El sexo de un beb al nacer: nio o nia. La respuesta correcta o incorrecta en un examen.

Si consideramos una serie de ensayos Bernoulli que tiene como caractersticas: 1. la probabilidad de xito permanece constante, ensayo tras ensayo; y 2. los ensayos son independientes entre s; Entonces se tiene lo que se denomina experimento binomial, donde el nmero de ensayos se denota con n, la probabilidad de xito con p y la de fracaso con q. Hay que notar que las probabilidades de xito y de fracaso estn relacionadas de la siguiente manera: p+q=1. Por ejemplo: Consideremos un examen con tres preguntas de opcin mltiple, con cuatro opciones, y que ser contestado al azar. Podemos utilizar el siguiente ejemplo < Lydia Lic. la por proporcionadas fueron preguntas>: 1.a) 2.a) 3.El Don Las rojas Luis 1518 flores b) Inocuo b) de azules descubri 1635 de la c) el c) la carrastrana amarillas trideralto 1457 palabra d) de d) ^Xkz frislea son: naranjas magnesio en: 1706 es

significado

a) lpiz

b) rbol

c) miedo

d) fiera

Con esto contamos con un experimento binomial, ya que la probabilidad de xito permanece constante en las tres preguntas (p=) y las respuestas de una a otra pregunta son independientes entre s. Se cuenta con una cantidad n=3 de ensayos y q=1-p=3/4. Hay que decir que n y p son los llamados parmetros de la distribucin. Tenemos ahora la variable aleatoria X que representar el nmero de respuestas correctas, siendo sus posibles valores: 0, 1, 2, y 3. Para calcular la distribucin de probabilidad correspondiente, consideraremos como E los xitos y como F los fracasos (el subndice indica el nmero de pregunta). As pues, tenemos que: P(X=0) P(X=1) = P(F1F2F3) = P[(E1F2F3)(F1E2F3) (F1F2E3)] P(X=2) = P[(E1E2F3)(E1F2E3) (F1E2E3)] P(X=3) = P(E1E2E3) = P(E1)P(E2)P(E3) = (1/4)3 = 1/64 = 1(3/4)0(1/4)3 =
9

= P(F1)P(F2)P(F3) =

= (3/4)3 = 27/64
81

= 1(3/4)3(1/4)0 = 3(3/4)2(1/4)1

/256

/64

= 3(3/4)1(1/4)2

Al presentar esta informacin como tabla y su respectivo histograma se obtiene:

X 0 1 2 3

P(X=x) 0.422 0.422 0.141 0.016

En general, si se tienen n ensayos Bernoulli con probabilidad de xito p y de fracaso q, entonces la distribucin de probabilidad que la modela es la distribucin de probabilidad binomial y su regla de correspondencia es:

, para x=0,1,2,,n. Utilizando la funcin DISTR.BINOM de Excel, o bien las tablas, se pueden obtener los valores que toma esta distribucin. La media y la desviacin estndar de la distribucin binomial La media de una distribucin probabilstica binomial con parmetros n y p es: m = np Por otro lado, la desviacin estndar de una distribucin probabilstica binomial con parmetros n y p es:

Por ejemplo: Consideremos la distribucin resultante de aplicar los exmenes del ejemplo anterior. Sus parmetros son n=3 y p=0.25, entonces la media de la distribucin es: m = (3)(0.25) = 0.75 Y la desviacin estndar es:

Esto quiere decir que si se aplicara este examen, en teora, el promedio de aciertos sera de 0.75 (casi de un acierto) con una dispersin de 0.75.

DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES CONTINUAS

Hasta el momento se han considerado las distribuciones de probabilidad para variables discretas, donde se poda asignar el valor que toma la funcin de probabilidad cuando la variable aleatoria tomaba un valor en concreto. Sin embargo, al considerar las variables continuas se encuentra uno el problema de que, lo ms probable, los datos que se puedan recabar no sean completamente exactos, o dos o ms de ellos no coincidan, por lo que se tienen que trabajar en intervalos y, en ese momento, modelar una funcin se convierte en un problema serio. Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a travs de modelos tericos de probabilidad cuya grfica es una lnea continua, a diferencia de las variables discretas que le corresponde un histograma. Para clarificar cmo se realiza esta aproximacin al modelo terico consideremos el siguiente caso: Se han registrado los tiempos que le tom a una empresa de mensajera entregar 190 paquetes con destinatarios diferentes dentro de una misma ciudad. Los datos se han agrupado en una distribucin de frecuencias considerando intervalos de cinco das como sigue: Tiempo de entrega (das) [0,5) [5,10) [10,15) [15,20) [20,25) 115 31 17 12 10 No. de

paquetes

[25,30)

Supongamos que un posible cliente, conociendo esta informacin, quisiera saber qu probabilidad tiene de que su paquete sea entregado en dos das. El problema es que al manejar intervalos de cinco das estamos suponiendo que dentro de cada intervalo los datos se distribuyen uniformemente, cosa que no es real. Podramos aumentar la muestra y seguir recogiendo informacin para hacer una distribucin de frecuencias similar a la anterior, pero se tendra el mismo problema: dentro de cada intervalo se est presuponiendo que los datos se distribuyen uniformemente. Otra posible solucin es reducir la amplitud de los intervalos, de tal suerte que podramos tomar una amplitud de tres das por intervalo y hacer la siguiente distribucin de frecuencias:

Tiempo de entrega (das) [0,3) [3,6) [6,9) [9,12) [12,15) [15,18) [18,21) [21,24) [24,27)

No.

de

paquetes (frec.)

93 30 18 13 9 8 6 6 4

[27,30)

Al seguir reduciendo la amplitud a dos das se obtiene la distribucin: Tiempo de entrega (das) [0,2) [2,4) [4,6) [6,8) [8,10) [10,12) [12,14) [14,16) [16,18) [18,20) [20,22) [22,24) [24,26) [26,28) [28,30) 76 29 18 13 10 8 6 6 5 4 4 4 3 2 2 No. de

paquetes (frec.)

Y al reducirla a intervalos de un da se tiene la distribucin: Tiempo de entrega (das) [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15) [15,16) [16,17) [17,18) [18,19) [19,20) 51 25 17 12 10 8 7 6 5 5 4 4 3 3 3 3 3 2 2 2 No. de

paquetes (frec.)

[20,21) [21,22) [22,23) [23,24) [24,25) [25,26) [26,27) [27,28) [28,29) [29,30)

2 2 2 2 2 1 1 1 1 1

Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad de que se haga una entrega en un cierto tiempo, por lo que habra que considerar las frecuencias relativas y, como antes, reducir la amplitud de los intervalos. Con esto se obtendran las siguientes distribuciones de frecuencias:

Intervalos de cinco das Intervalos de tres das Intervalo frec. frec. rel. [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) 115 0.605 31 17 12 10 5 0.163 0.089 0.063 0.053 0.026 [0,3) [3,6) [6,9) [9,12) [12,15) [15,18) 93 30 18 13 9 8 Intervalo frec. frec. rel. 0.489 0.158 0.095 0.068 0.047 0.042

[18,21) [21,24) [24,27) [27,30) Intervalos de dos das Intervalo frec. frec. rel. [0,2) [2,4) [4,6) [6,8) [8,10) [10,12) [12,14) [14,16) 76 29 18 13 10 8 6 6 0.400 [16,18) 0.153 [18,20) 0.095 [20,22) 0.068 [22,24) 0.053 [24,26) 0.042 [26,28) 0.032 [28,30) 0.032

6 6 4 3

0.032 0.032 0.021 0.016

Intervalo frec. frec. rel. 5 4 4 4 3 2 2 0.026 0.021 0.021 0.021 0.016 0.011 0.011

Intervalos de un da Intervalo frec. frec. rel. [0,1) [1,2) 51 25 0.268 0.132 [10,11) [11,12) 4 4 Intervalo frec. frec. rel. 0.021 0.021 [20,21) [21,22) 2 2 Intervalo frec. frec. rel. 0.011 0.011

[2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10)

17 12 10 8 7 6 5 5

0.089 0.063 0.053 0.042 0.037 0.032 0.026 0.026

[12,13) [13,14) [14,15) [15,16) [16,17) [17,18) [18,19) [19,20)

3 3 3 3 3 2 2 2

0.016 0.016 0.016 0.016 0.016 0.011 0.011 0.011

[22,23) [23,24) [24,25) [25,26) [26,27) [27,28) [28,29) [29,30)

2 2 2 1 1 1 1 1

0.011 0.011 0.011 0.005 0.005 0.005 0.005 0.005

Y podramos graficar tal informacin en histogramas para poder ver cmo se aproximan, si es que ocurre, los valores a una curva continua:

donde las barras rosas (y la lnea roja) corresponden a los intervalos de cinco das; las barras y lnea azules, a los intervalos de tres das; las barras y lnea amarillas, a los intervalos de dos das; y las barras y lneas verdes, a los intervalos de un da. (Para ver una graficacin animada de los histogramas haz un click aqu.) Se han incluido de una vez las lneas que unen los puntos medios de las barras del histograma porque se puede ver que las barras de las frecuencias relativas se "achaparran"

y las lneas graficadas estn tan separadas del lado izquierdo (en este caso) que no se puede hablar de una aproximacin continua a una sla lnea. Una posible solucin es utilizando la densidad del intervalo, que se va a definir como el cociente de la frecuencia relativa entre la amplitud del intervalo:

(De hecho, existe la funcin de densidad de una distribucin de probabilidad, de donde se deriva esta definicin de densidad del intervalo.) De esta manera, a las distribuciones de frecuencias anteriores se les puede aadir la columna correspondiente a la densidad: Intervalos de tres das Intervalo frec. frec. densidad Intervalos de cinco das Intervalo frec. frec. densidad rel. [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) 115 0.605 0.121 31 17 12 10 5 0.163 0.033 0.089 0.018 0.063 0.013 0.053 0.011 0.026 0.005 [0,3) [3,6) [6,9) [9,12) [12,15) [15,18) [18,21) [21,24) [24,27) [27,30) 93 30 18 13 9 8 6 6 4 3 rel. 0.489 0.163 0.158 0.053 0.095 0.032 0.068 0.023 0.047 0.016 0.042 0.014 0.032 0.011 0.032 0.011 0.021 0.007 0.016 0.005

Intervalos de dos das

Intervalo frec. frec. densidad rel. [0,2) [2,4) [4,6) [6,8) [8,10) [10,12) [12,14) [14,16) 76 29 18 13 10 8 6 6 0.400 0.200 [16,18) 0.153 0.076 [18,20) 0.095 0.047 [20,22) 0.068 0.034 [22,24) 0.053 0.026 [24,26) 0.042 0.021 [26,28) 0.032 0.016 [28,30) 0.032 0.016 2 0.011 0.005 2 0.011 0.005 3 0.016 0.008 4 0.021 0.011 4 0.021 0.011 4 0.021 0.011 5 0.026 0.013 Intervalo frec. frec. densidad rel.

Intervalos de un da Interva fre frec. densida Interva fre frec. densida Interva fre frec. densida lo [0,1) c. 51 rel. d 0.26 0.268 8 [1,2) 25 0.13 0.132 2 [2,3) 17 0.08 0.089 9 [3,4) 12 0.06 0.063 3 [4,5) 10 0.05 0.053 3 [5,6) 8 0.04 0.042 2 [15,16) 3 [14,15) 3 [13,14) 3 [12,13) 3 [11,12) 4 lo c. rel. d 0.02 0.021 1 0.02 0.021 1 0.01 0.016 6 0.01 0.016 6 0.01 0.016 6 0.01 0.016 6 [25,26) 1 [24,25) 2 [23,24) 2 [22,23) 2 [21,22) 2 lo c. rel. d 0.01 0.011 1 0.01 0.011 1 0.01 0.011 1 0.01 0.011 1 0.01 0.011 1 0.00 0.005 5

[10,11) 4

[20,21) 2

[6,7)

0.03 0.037 7

[16,17) 3

0.01 0.016 6

[26,27) 1

0.00 0.005 5

[7,8)

0.03 0.032 2

[17,18) 2

0.01 0.011 1

[27,28) 1

0.00 0.005 5

[8,9)

0.02 0.026 6

[18,19) 2

0.01 0.011 1

[28,29) 1

0.00 0.005 5

[9,10)

0.02 0.026 6

[19,20) 2

0.01 0.011 1

[29,30) 1

0.00 0.005 5

y realizar los histogramas correspondientes, que quedan como sigue:

donde las barras rosas, y la lnea roja, corresponden a los intervalos de cinco das; las barras y lnea verdes, a los intervalos de tres das; las barra y lnea amarillas, a los intervalos de dos das; y las barras y lnea azules, a los intervalos de un da. (Para ver una graficacin animada de los histogramas haz un click aqu.) Igual que en el caso anterior, se han graficado simultneamente las barras y las lneas que unen los puntos medios de stas para observar que con la densidad s se aproximan los histogramas a una lnea continua (que la mejor aproximacin presentada es la lnea azul) cuando los intervalos se reducen continuamente.

El resultado es una lnea continua que es la grfica de una cierta funcin denominada funcin de densidad de la distribucin probabilstica. Ahora, considerando la manera en que se defini la densidad de un intervalo como:

y recordando que la frecuencia relativa es la probabilidad de un evento (en el ejemplo de la mensajera sera la probabilidad de entregar un paquete dentro de un intervalo dado de tiempo):

Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta segunda expresin obtenemos que probabilidad del evento = (densidad del intervalo) (amplitud del intervalo) Es decir, que la probabilidad de que ocurra un evento corresponde al rea de las barras del histograma hecho tomando en cuenta la densidad de los intervalos; y que cuando tales intervalos tienen una amplitud que tiende a cero, y la grfica se convierte en la curva continua de la funcin de densidad, entonces la probabillidad de que un evento ocurra en un intervalo (a,b) es el rea bajo la curva de la funcin en ese intervalo:

y, por tanto, el clculo de tal probabilidad se realiza utilizando clculo integral:

donde f(x) es la funcin de densidad de la distribucin probabilstica correspondiente. Hay que estar conscientes de que en el caso de las variables continuas slo se puede calcular la probabilidad de que un evento caiga dentro de un intervalo, debido a que la exactitud de los instrumentos de medicin siempre es relativa y muy lejana a la "exactitud" de los clculos matemticos. Por esto, la probabilidad de que la variable aleatoria tome un valor exacto es nula:

Esto se puede explicar de la siguiente manera: si, como ya dijimos, la probabilidad (frecuencia relativa) es igual a la densidad del intervalo por la amplitud del intervalo, entonces no importa qu tan grande sea la densidad de tal intervalo porque, como ya tambin se dijo, por ser variable continua la amplitud del intervalo tiende a cero y, por tanto, la probabilidad es igual a cero. Modelos de distribucin de probabilidad de variables continuas Al igual que en el caso de las distribuciones de probabilidad de variables discreta, en el caso de las distribuciones de probabilidad de variables continuas se tienen varios modelos tericos que en seguida presentamos. A la derecha de cada modelo aparece la funcin de densidad correspondiente a cada modelo.

Uniforme. Es la distribucin en donde todos los eventos tienen la misma probabilidad.

Exponencial. Se utiliza para estudiar el tiempo entre dos sucesos. La funcin de Excel que le corresponde es DISTR.EXP.

Beta. Sirve para el estudio de variaciones, a travs de varias muestras, de un porcentaje que representa algn fenmeno. La funcin

DISTR.BETA del Excel sirve para obtener sus valores; y la funcin DISTR.BETA.INV

proporciona los valores inversos de la funcin, es decir, se utiliza como parmetro la imagen de la funcin y regresa la variabla

independiente.

Gamma. Se utiliza para estudiar variables cuya distribucin puede ser asimtrica. La funcin de Excel que le corresponde es DISTR.GAMMA; y la funcin DISTR.GAMMA.INV es la inversa de la anterior.

ji cuadrada (c). Es una distribucin asociada a la prueba c, y se usa para comparar los valores observados con los esperados. La funcin DISTR.CHI de Excel sirve para este caso.

Normal. Es la distribucin ms utilizada porque la mayora de las variables utilizadas en fenmenos sociales se distribuyen

aproximadamente siguiendo este modelo. Es la que tocaremos a continuacin y se le llama comnmente distribucin normal.

LA DISTRIBUCIN NORMAL

La curva de la distribucin normal puede ser modelada utilizando la funcin

donde m y s son los parmetros y corresponden a la media y a la desviacin estndar, respectivamente, cuyos valores permitidos m son todos los reales, para s son los reales positivos y el dominio de f es el conjunto de los nmeros reales. Dado que para variables continuas la probabilidad de que x tome un valor en el intervalo (a,b) es el rea bajo la curva limitado por rectas verticales que pasan por a y b, entonces se puede encontrar la probabilidad en un intervalo integrando:

aunque resulta ms cmodo el uso de las tablas que casi todos los libros y formularios proveen. Sin embargo, las tablas de los libros corresponden a la distribucin normal con m=0 y s=1, por lo que en casos en que los parmetros sean diferentes, entonces hay que realizar una transformacin.

7. DISTRIBUCIN DE FRECUENCIAS En estadstica, se denomina distribucin de frecuencias a la agrupacin de datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada categora. Esto proporciona un valor aadido a la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas. TABLA DE FRECUENCIAS Una distribucin de frecuencias es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que describen una caracterstica de los datos y muestra el nmero de observaciones del conjunto de datos que caen en cada una de las clases. La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numrico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el nmero de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada. La tabla de frecuencias puede representarse grficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores. Ejemplo: Las calificaciones de 50 alumnos en Matemticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7. Construir la tabla de distribucin de frecuencias y dibuja el diagrama de barras.

xi 0 1 2 3 4 5 6 7 8 9 10

fi 1 1 2 3 6 11 12 7 4 2 1 50

Fi 1 2 4 7 13 24 36 43 47 49 50

ni 0.02 0.02 0.04 0.06 0.12 0.22 0.24 0.14 0.08 0.04 0.02 1.00

Ni 0.02 0.04 0.08 0.14 0.26 0.48 0.72 0.86 0.94 0.98 1.00

Diagrama de barras

8. CHI-CUADRADO En estadstica, la distribucin (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribucin de probabilidad continua con un parmetro k que representa los grados de libertad de la variable aleatoria

donde Zi son variables aleatorias normales independientes de media cero y varianza uno. El que la variable aleatoria X tenga esta distribucin se representa habitualmente as: . Es conveniente tener en cuenta que la letra griega se transcribe al latn como chi1 y se pronuncia en castellano como ji.2 3 PROPIEDADES

Funcin de densidad Su funcin de densidad es:

donde es la funcin gamma. Demostracin Funcin de distribucin acumulada Su funcin de distribucin es

donde

es la funcin gamma incompleta.

El valor esperado y la varianza de una variable aleatoria X con distribucin son, respectivamente, k y 2k. RELACIN CON OTRAS DISTRIBUCIONES

La distribucin es un caso especial de la distribucin gamma. De hecho, Como consecuencia, cuando k = 2, la distribucin es una distribucin exponencial de media k = 2. Cuando k es suficientemente grande, como consecuencia del teorema central del lmite, puede aproximarse por una distribucin normal:

APLICACIONES

La distribucin tiene muchas aplicaciones en inferencia estadstica. La ms conocida es la de la denominada prueba utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimacin de varianzas. Pero tambin est involucrada en el problema de estimar la media de una poblacin normalmente distribuida y en el problema de estimar la pendiente de una recta de regresin lineal, a travs de su papel en la distribucin t de Student. Aparece tambin en todos los problemas de anlisis de varianza por su relacin con la distribucin F de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes con distribucin . EJERCICIO

Digamos que 900 estudiantes expresan su voluntad por celebrar el aniversario de la institucin organizando uno de dos eventos: una acto solemne en el templo universitario o una actividad deportiva en el estadio de ftbol. Una vez hecha la encuesta se tiene que 495 alumnos prefieren la actividad deportiva y 405 se inclinan por el acto solemne. Existe una diferencia significativa entre los estudiantes en su preferencia por la actividad deportiva? La prueba estadstica para determinar la significatividad de la diferencia en las frecuencias observadas es la prueba llamada Chi Cuadrada. Para el caso que nos ocupa, se supone que si no hay diferencia en la preferencia de los alumnos de una manera perfecta, tendramos 450 alumnos eligiendo el acto solemne y otros 450 eligiendo las actividades deportivas. Esa es la frecuencia de respuestas esperadas en el caso de una igualdad absoluta. Pero tenemos frecuencias observadas un poco diferentes en un caso son 495 y en el otro 405, lo que deseamos saber es si esa diferencia observada es significativa. Lo que se hace al aplicar la frmula de chi cuadrada es restar al nmero de frecuencias observadas, el nmero de frecuencias esperadas; elevar esta diferencia al cuadrado, lo que hace que todos los valores asuman un valor positivo, y luego se divide el cuadrado obtenido entre el las frecuencias esperadas. Esto se hace de manera independiente para cada una de las categoras. Una vez terminado este paso, se suman los resultados obtenidos en cada categora y ese valor resultante de la suma es el valor Chi cuadrada observado, el cual deber ser comparado con

el valor Chi cuadrada crtico segn el nivel alpha de significatividad escogido y los grados de libertad correspondientes.

En el caso de nuestro ejemplo se trata de dos categoras, lo que conduce a un grado de libertad. A continuacin el proceso para calcular el valor Chi cuadrada

1. A favor del acto solemne:

Frecuencias observadas = 405 Frecuencias esperadas = 450 Frecuencias observadas - frecuencias esperadas)2 / frecuencias esperadas (405 - 450) / 450 = (-45)2 / 450 = 2025/450 = 4.5

2. A favor del acto deportivo:

Frecuencias observadas = 495

Frecuencias esperadas = 450 (Frecuencias observadas - frecuencias esperadas)2 / frecuencias esperadas 3. Se suman los valores obtenidos en cada grupo para obtener el valor de chi cuadrada. 4.5 + 4.5 = 9.00

4. Se compara este valor con el valor correspondiente a un grado de libertan en la tabla de Chi cuadrado y se encuentra que

3.8941

co, se desacredita la hiptesis nula que afirma que no existe diferencia significativa entre las frecuencias observadas y se concluye que la diferencia es significativa. Esto quiere decir que en menos de 5 casos de cada cien, una diferencia como la del valor igual o mayor al observado de Chi seleccin de la muestra (azar).

CONCLUSIN

En teoria se pudo conocer mas sobre las distribuciones probabilisticas de una variable aleatoria, diciendo que esta es una funcin que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra; muy bien relacionado todo este tema con la esperanza matematica de una v.a. la cual es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Sabiendo asi que estas variables aleatorias pueden ser continuas o discontinuas; por otra parte viendo que la funcion generadoar de momento se aplica para encontrar relaciones de recurrencia para sucesiones:

BIBLIOGRAFIA

www.google.com Ronald L. Graham, Donald E. Knuth, y Oren Patashnik, Concrete Mathematics. A foundation for computer science (Second Edition) Addison-Wesley. ISBN 0-20155802-5. Chapter 7: Generating Functions, pp. 320380.

http://www.hrc.es/bioest/estadis_21.html Definicin de variable aleatoria.

También podría gustarte