Está en la página 1de 47

DAEZEGO

Estadstica
La ESTADSTICA es la ciencia de los datos. Implica la recoleccin, clasificacin, sntesis,
organizacin, anlisis e interpretacin de dichos datos. Acta como nexo entre los modelos
matemticos y los fenmenos reales.

Tipos de Estadstica
1-Estadstica Descriptiva: es la que se dedica a la organizacin, sntesis y descripcin de
un conjunto de datos.

2-Estadstica Inferencial: es la que usa datos de una muestra para inferir algo acerca de
una poblacin

Poblacin y Muestra
La poblacin representa la coleccin completa de elementos, resultados o individuos de los
que queremos analizar una similar caracterstica. Puede ser finita o infinita.

La muestra es un subconjunto tomado de la poblacin que contiene elementos o resultados


que realmente se observan. A su vez, tenemos dos tipos de muestras:

-Muestra Aleatoria Simple: conjunto de tamao n extrado de una poblacin en la que


cada elemento que se elige no puede estar influenciado por ninguna condicin del
entorno. No garantiza que refleja exactamente a la poblacin de la cual se extrajo

-Muestra de Conveniencia: conjunto de tamao n extrado de una poblacin en el cada


elemento se elige bajo algn criterio de seleccin y no de manera aleatoria.

Dos muestras diferentes de la misma poblacin son diferentes entre s, fenmeno se


conoce como variacin del muestreo.

Datos, Variables y Escalas de Medicin


-Unidad Experimental: es aquella sobre la que se realiza mediciones o se intenta clasificar
en categoras.

-Dato: es alguna caracterstica que se observa de una unidad experimental.

-Variable: es cualquier caracterstica que vara de una unidad experimental a otra. Una
variable aleatoria es aquella que toma valores de observaciones hechas sobre un conjunto
aleatorio de objetos o individuos.

ESTADSTICA
DAEZEGO

Tipos de variables

1~Variables Categricas: como su nombre lo indica, la variable representa alguna


categora. Hay dos tipos de variables categricas:

-Nominales: sus valores no se pueden ordenar.

-Ordinales: sus valores pueden ordenarse.

2~Variables Dicotmicas: surgen en forma de ausencia o presencia de una categora.

3~Variables Numricas: toman valores numricos. Hoy dos tipos de variables numricas:

-Discretas: surgen por conteo y toman valores enteros

-Continuas: surgen de mediciones efectuadas sobre cada unidad experimental.

Una medicin consiste en darle un nmero o cdigo a las observaciones hechas mediante
alguna escala adecuada, donde una escala es un instrumento de medicin.

Dependiendo del tipo de variable se emplean diferentes escalas de medicin:

Variables Categricas Variables Numricas

Escala Nominal Escala de Intervalo (DyC)

Escala Ordinal Escala de Razn (DyC)

ESTADSTICA
DAEZEGO

Distribucin de frecuencias
Una tabla de distribucin de frecuencia nos sirve para organizar los datos y presentarlos de
manera ms til, y as poder obtener cierta informacin que no se vera tan fcilmente si los
datos no estuviesen ordenados.

Segn con el tipo de dato que estemos trabajando podremos realizar distintos tipos de tabla
distribuciones de frecuencia. En esta tabla aparecern distintos tipos de frecuencias, entre
las cuales tenemos:

-Frecuencia Absoluta f: nmero de veces que se repite un dato. Se verifica f = n

-Frecuencia Relativa fr: proporcin de veces que ocurre un dato. Se verifica fr = 1

-Distribucin de frecuencias para datos categricos

Es una tabla que asocia a cada categora de la variable con el nmero de veces que se repite
dicha categora. Entonces en esta tabla tenemos la frecuencia absoluta y la frecuencia
relativa. En la primera columna se coloca la identificacin, en la segunda columna las
categoras, en la tercera las frecuencias absolutas y en la cuarta las frecuencias relativas:

Id Categora f fr
1 Categora 1 5 5/12
2 Categora 2 2 2/12
3 Categora 3 3 3/12
4 Categora 4 2 2/12

Para representar estas distribuciones de frecuencia de manera grfica se usan grficos de


barras, donde la base de cada barra representa una categora y la altura de la barra
representa la frecuencia absoluta en la escala adoptada de medida.

6
5
4
3
f

2
1
0
Categora 1 Categora 2 Categora 3 Categora 4

En la grfica observamos que tenemos 4 categoras diferentes. La primera tiene una


frecuencia de 5, la segunda y la cuarta categora tienen una frecuencia de 2 y la tercera
categora tiene una frecuencia de 3.

ESTADSTICA
DAEZEGO

-Distribucin de frecuencias para datos numricos

Es una tabla que asocia cada valor que toma la variable numrica con la cantidad de veces
que se repite dicho valor. As en esta tabla obviamente aparecen nuevamente las
frecuencias absolutas y relativas. Para los datos numricos podemos agregar dos tipos de
frecuencias mas que son las frecuencias acumuladas:

-Frecuencia Absoluta Acumuladas F: es la suma de las frecuencias absolutas de los valores


menores o iguales al valor que se est considerando. Por supuesto que en al ultimo valor de
la tabla le corresponde un valor de F = n.

-Frecuencia Relativa Acumulada Fr: es la suma de las frecuencias relativas de los valores
menores o iguales al valor que se est considerando. Por supuesto que en al ultimo valor de
la tabla le corresponde un valor de Fr = 1.

Por lo tanto nuestra tabla de distribucin de frecuencias tendr 6 columnas ahora, ya que
debemos agregar estas 2 frecuencias.

Id Valor f fr F Fr
1 8 2 2/16 2 2/16
2 9 3 3/16 5 5/16
3 10 6 6/16 11 11/16
4 11 4 4/16 15 15/16
5 12 1 1/16 16 1

En este caso empleamos grficos de bastones para representar los datos agrupados.
Entonces sera:

7
6
5
4
f

3
2
1
0
8 9 10 11 12
Valor

ESTADSTICA
DAEZEGO

Otra manera de agrupar los datos numricos es mediante una tabla de frecuencias en las que
se agrupan las observaciones en intervalos llamados intervalos de clase, que no es ms que
el rango de valores en que se ha decido agrupar parcialmente los datos. Se define el rango
como la diferencia entre el valor mximo y el mnimo que toma la variable. Tambin, la
cantidad de datos que quedan comprendidos dentro del intervalo representa la f del
intervalo. Para determinar la cantidad de intervalos, k, ms adecuada para nuestro conjunto
de datos podemos emplear dos ecuaciones:

Sturges Raz de n

k=
( )
( )
k=1+

Definimos la amplitud de cada intervalo, h, como el cociente entre el rango del conjunto de
datos y la cantidad de intervalos k

La marca de clase Mc es el punto medio del intervalo de clase, es decir, es la suma de los
extremos del intervalo dividida 2:

Mc =

ESTADSTICA
DAEZEGO

Medidas de Tendencia Central


Son promedios, un valor tpico de un conjunto de datos. Las tres que ms usaremos son la
media aritmtica o valor esperado , la mediana Me y el modo Mo, cuyos clculos
depende de cmo estn presentados los datos.

es la suma de todos los datos dividida entre el total de datos n.

Me es el valor que divide a la mitad la cantidad de datos presentes.

Mo es el valor que ms se repite o tiene mayor frecuencia.

-Para datos numricos sin agrupar

( ) ! ! ! !
=

( / )
! ! ! !
" #
Me =

-Para datos numricos agrupados en tabla simple de frecuencia

( ) & ! ' ! ! ! !
=

( / )
& ! ' ! ! ! !
" #
Me =

-Para datos numricos agrupados en intervalos de clases

=
('
( = + = ( = +
( ! *+ )
! ' ! (
;

a = extremo inferior de la clase Me a = extremo inferior clase modal

f1 = f anterior clase modal


f2 = f posterior clase modal

-Para datos categricos ordinales

/ 0 2 ' =
-
2 ' =
.0 3
-
Posicin Me =
2 ' = +
,

ESTADSTICA
DAEZEGO

Medidas de Dispersin
Nos dan idea de la separacin de los valores de una variable alrededor de su media
aritmtica. Las ms usuales son la varianza y el desvo estndar.

La varianza mide el grado de dispersin de los valores con respecto a su X. Si es


2
poblacional se representa con la letra y si es muestral con la letra S2.

El desvo estndar es la raz de la varianza medida en las unidades del conjunto de datos. Si
es poblacional ser y si es muestral S.

5 = 5 = 7
( * 6) ( * 6)

-Para datos sin agrupar

8 = 8 = 7
( * ) ( * )
* *

-Para datos agrupados en intervalos de clases

8 = 8 = 7
((' * ) ((' * )
* *

Notar que para el clculo de las varianzas y desvos muestrales se divide por n-1 y no por
n. Esto es porque estamos trabajando con estadsticos (S2 y S)

Coeficiente de Variacin (cv)

Se usa para comparar las dispersiones de dos ms distribuciones, cuyas observaciones


han sido medidas con escalas de razn nicamente. Se define como el cociente entre la
varianza muestral y la media aritmtica:

'9 =
8

Variables Tipificadas

Mide la desviacin respecto de la X en unidades de la S. Es adimensional y viene dada:

:=
*
8

ESTADSTICA
DAEZEGO

Medidas de Asimetra
Nos permiten apreciar la simetra o asimetra de una distribucin dada. El modo es la
referencia central. Segn estas medidas una distribucin puede ser normal, sesgada a la
derecha o sesgada a la izquierda.

Normal: = Me = Mo

Sesgada a la derecha: La se ubica a la derecha de Mo y Me entre ellos.

Sesgada a la izquierda: La se ubica a la izquierda de Mo y Me entre ellos.

Sesgada a la derecha o asimetra positiva Sesgada a la izquierda o asimetra negativa

Medidas de Apuntamiento o Curtosis


Nos permite apreciar si una distribucin es ms o menos apuntada que la distribucin
normal. Estas medidas se refieren a la diferencia de los valores centrales de la variable.

ESTADSTICA
DAEZEGO

Medidas de Orden
Aqu aparece el concepto de cuantiles que son valores que dividen al conjunto de datos en
partes iguales. Entonces podemos nombrar los siguientes:

-Cuartiles: cuando se divide el conjunto ordenado de datos en 4 partes iguales.

-Octiles: cuando se divide el conjunto ordenado de datos en 8 partes iguales.

-Deciles: cuando se divide el conjunto ordenado de datos en 10 partes iguales.

-Percentiles: cuando se divide el conjunto ordenado de datos en 100 partes iguales.

Para nuestro estudio emplearemos los Cuartiles, as que veremos como se calculan sus
posiciones y sus respectivos valores:

Las posiciones las indicaremos con letras minsculas q y los valores de los Cuartiles los
indicaremos con letras maysculas Q.

;1 =
(= >)
?
Q1 = Xq1

Q2 = Me

;3 =
A(= >)
?
Q3 = Xq3

ESTADSTICA
DAEZEGO

Probabilidad
Este trmino se usa generalmente para indicar que hay cierta incertidumbre sobre algo que
ya ocurri, que est ocurriendo o que ocurrir en el futuro.

Para realizar el estudio de la probabilidad debemos definir algunos conceptos bsicos que
son:

- Experimento: describe cualquier proceso que genere datos iniciales


- Experimento Aleatorio: se genere bajo un conjunto de reglas, puede repetirse y el
resultado de cada ejecucin depende de la casualidad
- Espacio Muestral (S o ): representa el conjunto de todos los resultados posibles
de un experimento.

S = {C, X} ; donde C= nmero de caras y X = nmero de cruces


S = {x/x es una ciudad con poblacin mayor a 1 milln}
S = {(x, y)/ x2 + 4y 10}

- Elemento o Punto Muestral: es cada resultado del espacio muestral.


- Evento: es un subconjunto o parte de un espacio muestral.
- Evento simple: es un subconjunto que tiene un solo elemento.
- Evento compuesto: es aquel que puede expresarse como la unin de eventos
simples, en otras palabras es un subconjunto del espacio muestral que tiene ms de
un elemento.

Los eventos, ya sean simples o compuestos se suelen representar con letras maysculas
distintas de S, por ejemplo:

Sea S={1,3,5,7,9,11} A={7} ; B={3, 9, 11}

Sea S={{C, X} x {C, X} x {C, X}} C={C,C,X} ; D={(C, X,C) , (X, C,C)}

ESTADSTICA
DAEZEGO

Tcnicas de Numeracin
- Principio de Multiplicacin

Supongamos que un determinado procedimiento, llamado A, puede ocurrir de nA maneras.


Ahora tenemos un segundo procedimiento, B, que puede ocurrir de nB maneras y que a su
vez cada manera de efectuar A puede ser seguida de la manera de efectuar B. Entonces el
procedimiento conjunto entre A y B puede efectuarse de (nA* nB) maneras.

- Principio de Adicin

Supongamos que un determinado procedimiento, llamado A que puede ocurrir de nA y otro


procedimiento B que puede ocurrir de nB maneras. Adems no pueden ocurrir juntos dichos
procedimientos, entonces el nmero de maneras como se puede efectuar A B es nA + nB

- Permutaciones

Pn = n!

- Combinaciones

=
!
! ( * )!
C(n, x) =

Probabilidad de un evento
A continuacin se veremos las teoras de probabilidad:

- Teora Clsica
- Teora de Frecuencias Relativas
- Teora Axiomtica
- Teora Personalista o Subjetiva

Teora Clsica

Si un experimento puede producir cualquiera de los n resultados igualmente probables y si

2(C) = 0 2(C) 1
exactamente nA de esos resultados pertenecen al evento A, entonces la probabilidad del
C
evento A ser: 0 nAn

Teora de Frecuencias Relativas

Si un suceso puede ocurrir de n maneras mutuamente excluyentes e igualmente probables y


nA es el nmero de veces que ocurre un suceso A, entonces:

2(C) =
C

ESTADSTICA
DAEZEGO

-Muestreo con reemplazo o con sustitucin

De una muestra se extrae un elemento para estudiarlo y luego se lo devuelve al total de la


muestra para as poder extraer otro.

-Muestreo sin reemplazo o sin sustitucin

De una muestra se extrae un elemento para estudiarlo y no se lo devuelve al total de la


muestra para as extraer el segundo.

Teora Axiomtica

Dado un experimento aleatorio descripto por el espacio muestral S, la probabilidad es una


funcin P( ) que asigna a cada evento un nmero real no negativo indicado como P(E) que
sera la probabilidad del evento E:

P(E) : S R+0

Las tres propiedades de la funcin de probabilidad son:

1- P(E) 0 VE
2- P(S) = 1
3- P(E U F) = P(E) + P(F) si (E F) = ; = conjunto vaco

Definicin: La probabilidad de un evento A es la suma de todos los puntos muestrales de A

Teoremas Importantes Sobre Probabilidad

1- P() = 0
2- Sea Ac el complemento de A, entonces

P(Ac) = 1 P(A)

3- Si A y B son dos sucesos cualesquiera, entonces

P(A U B) = P(A) + P(B) P(AB)

4- Sean A, B y C sucesos cualesquiera, entonces

P(AUBUC) = P(A) + P(B) + P(C) P(AB) P(AC) P(BC) + P(ABC)

5- Si A B entonces P(A) P(B)


6- Si A B entonces P(B A) = P(B) P(A)

ESTADSTICA
DAEZEGO

Probabilidades Marginal, Conjunta y Condicionada

Probabilidad Marginal

Si un evento E puede producir cualquiera de los n resultados igualmente probables y si

D
exactamente nE de estos resultados pertenecen al evento E, entonces definimos la
probabilidad marginal de E as: P(E) =

Probabilidad Conjunta

( C F )
Dados dos sucesos A y B de S, la probabilidad de ocurrencia de A y B simultneamente la
denominamos probabilidad conjunta: P(AB) =

Probabilidad Condicionada

P(CF) =
2(CF)
Dados dos sucesos A y B de S con P(B) 0, la probabilidad de ocurrencia de A dado que

2(F)
ocurri B es:

Ley Multiplicativa de Probabilidad


2(CF)
P(CF) = P(AB) = P(B) . P(CF)
2(F)

P(ABC) = P(A) . P(FC) . P( C F)

Dos sucesos A y B son independientes si y slo si la probabilidad conjunta es igual al


producto de las probabilidades marginales.

Dos sucesos A y B son independientes si y slo si la ocurrencia de A no influye en la


probabilidad de ocurrencia de B.

Regla de Bayes

= =
2(CF) 2(CF) 2(C).2(FC)
2(F) 2(CF) 2(C).2(FC)
P(A/B) =

ESTADSTICA
DAEZEGO

Variables Aleatorias y Distribucin de Probabilidades


La funcin cuyo valor es un nmero real determinado por cada elemento en el espacio
muestral se llama variable aleatoria

Si un S contiene una cantidad finita de posibilidades o una secuencia interminable con


tantos elementos como el total de nmeros enteros, dicho S se llama espacio muestral
discreto y a la variable aleatoria definida en dicho espacio se la llama variable aleatoria
discreta

Si un S contiene un nmero infinito de posibilidades igual al nmero de puntos en un


segmento de recta, dicho S se llama espacio muestral continuo y la variable aleatoria
correspondiente a dicho S variable aleatoria continua

La funcin f(xi) = P(X = xi) es una funcin de probabilidad de la variable aleatoria discreta
X si para cada xi Rx , donde Rx = resultados posibles o recorrido, si se cumple que:

2- ( ) =
1- f(x) 0 f(x) es funcin de probabilidad de la variable aleatoria X
(x, f(x)) distribucin de la variable aleatoria X
3- P(X = x) = f(x)

As decimos que f(x) es una funcin de masa o cuanta cuando X es una variable
aleatoria discreta.

La funcin f(x) es una funcin de probabilidad de la variable aleatoria continua X definida


sobre un conjunto de nmeros reales si:

I*J ( )! =
J
1- f(x) 0 f(x) es funcin de probabilidad de la variable aleatoria X
2- (x, f(x)) distribucin de la variable aleatoria X
P(a < X < b) = I ( )!
K
3-

As decimos que f(x) es una funcin de densidad cuando X es una variable aleatoria
continua.

Funcin de Probabilidad Acumulativa

La distribucin acumulativa F(x) de una variable aleatoria discreta X con funcin de


cuanta f(x) viene dada por:

+ ( ) = M ( )

ESTADSTICA
DAEZEGO

La distribucin acumulativa F(x) de una variable aleatoria continua X con funcin de


densidad f(x) est dada por:

+( ) = I*J ( )! ; Se reemplaz f(x) por f(t) para no confundir las variables

Adems se tiene que ( ) =


!+( )
!
si existe la deriva, entonces podemos escribir:

2( < O < P) = +(K) +( )

Propiedades:

+() = S +() = K +( ) +(K)

Media y Varianza Poblacionales de una Variable Aleatoria


Sea X una variable aleatoria con distribucin de probabilidad f(x), el valor esperado o
esperanza matemtica, o media de la poblacin de X es:

/ X . ( ) 9. . ! '
-
DV W = J
.
- Y . ( ) 9. . '
,*J

Sea X una variable aleatoria con distribucin de probabilidad f(x), la varianza o variancia
de X es:

/ X( DV W) ( ) = DV W (DV W) 9. . ! '
-
ZV W = J
.
- Y ( DV W) ( ) ! = DV W (DV W) 9. . '
,*J

~ (DV W, ZV W)
Entonces la variable aleatoria, discreta o continua, se distribuye con una funcin de
parmetros E[X] y V[X]:

Sean dos variables aleatorias X e Y con medias E[X] y E[Y], la covarianza vale:

' 9V , ]W = DV ]W DV W . DV]W

Si X e Y son variables independientes entonces la covarianza vale cero, lo contrario no


es cierto.

ESTADSTICA
DAEZEGO

:=
*DV W
Supongamos que tenemos una variable aleatoria X ~ g (E[X], V[X]) y queremos emplear la

^ZV W
variable z que se define como sigue:

Ahora necesitamos saber como se distribuye esta variable z, es decir, con que esperanza y
con que varianza. Entonces hacemos lo siguiente:

DV:W = E ` d = eEfX EVXWgh = (EVXW EVXW) = S


a*bVaW > >
^cVaW ^cVaW ^cVaW

X EVXW 1 1
ZV:W = V j k = VfX EVXWg = VVXW =
^VVXW VVXW VVXW

Entonces z ~ g (0, 1)

Variable Aleatoria Bidimensional


Tomemos el caso en que tenemos un espacio muestral con dos variables definidas X e Y.
La distribucin o funcin de ocurrencia conjunta es: f(x, y) = P(X = x, Y = y)

As, f(x, y) proporciona la probabilidad de que los dos resultados ocurran al mismo
tiempo.

La funcin f(x, y) es una distribucin de probabilidad conjunta de las variables aleatorias X


e Y si se cumple que:

( , l) S ( , l)
2- l ( , l) = o I Il ( , l)! !l =
1-

3- 2V( , ]) CW = C ( , l) o 2V( , ]) CW C ( , l)! !l

Para cualquier regin A del plano xy.

Sean X e Y dos variables aleatorias, discretas o continuas, con distribucin de probabilidad


conjunta f(x, y) y las distribuciones marginales g(x) y h(y). Decimos que dichas variables
son independientes si y slo si:

( , l) = ( ) (l) (r, s)

ESTADSTICA
DAEZEGO

Distribuciones Discretas
Si un S contiene una cantidad finita de posibilidades o una secuencia interminable con
tantos elementos como el total de nmeros enteros, dicho S se llama espacio muestral
discreto y a la variable aleatoria definida en dicho espacio se la llama variable aleatoria
discreta.

Distribucin Binomial

Es una de las distribuciones de probabilidad ms tiles, se la emplea por ejemplo en control


de calidad, produccin, investigacin, etc. Tiene que ver con el experimento aleatorio que
produce en cada ensayo o prueba uno de dos resultados posibles mutuamente excluyentes:
ocurrencia de un criterio o caracterstica especfico, que llamamos xito, y no ocurrencia de
ste que llamamos fracaso. Los trminos de "xito y fracaso" son solo etiquetas y su
interpretacin puede no corresponder con el resultado positivo o negativo de un
experimento en la realidad.

El experimento aleatorio consiste en n ensayos repetidos e idnticos. Son ensayos con


reposicin. Cada uno de los n ensayos arroja slo uno de los dos resultados posibles, es
decir xito fracaso. La probabilidad de xito u ocurrencia, denominada p, permanece
constante para cada ensayo. La probabilidad de fracaso se denota q= 1-p Cada ensayo se
repite en idnticas condiciones y es independiente de los dems.

As no interesa encontrar la probabilidad de obtener x nmero de xitos al realizar n


ensayos. Entonces la funcin de probabilidad de X ser:

" # t *
= S, , , . ,
( ) = 2( = ) = K( , , ) = 3
S

con n entero y 0 p 1

Veamos como se distribuye una variable X binomial

DV W =
~ K( , , ) v
ZV W = t

ESTADSTICA
DAEZEGO

Distribucin Geomtrica

Consideramos un experimento donde tiramos una moneda las veces que sea necesario hasta
obtener la primera cruz, donde la probabilidad de obtener una cruz es p. Entonces, cuntos
tiros debemos realizar.

Sea X el nmero de tiros, as

P (X = 1) = p

P (X = 2) = (1 p)p

P (X = 3) = (1 p)2 p

Entonces de manera general es

P (X = x) = (1 p)x1p

La distribucin de X es la que llamamos distribucin geomtrica. Ahora podemos dar una


definicin mas copada:

Si la probabilidad de xito en cada ensayo es p, entonces la probabilidad de que


x ensayos sean necesarios para obtener un xito es:

2( = ) = ( ) *
= t *

zVwW = {y
w ~ x(r, y) }
|VwW = {
y

Distribucin Hipergeomtrica

Esta distribucin la vamos a emplear cuando tenemos muchos datos. El experimento


hipergeomtrico es la probabilidad de seleccionar x xitos entre los k artculos
denominados xitos y los n-x fracasos entre los N-k artculos llamados fracasos, cuando se
selecciona una muestra de tamao n entre los N artculos. La muestra se toma sin
reposicin, es decir que es dependiente.

erhe* h
*r
r = S, , , , ( , )
~(r, , , ) = e h

S x

ESTADSTICA
DAEZEGO

DV W
~ , , ,
Q Q
ZV W t Q
Q Q

donde e* h es el factor de correlacin


*

Distribucin de Poisson

Los experimentos que proporcionan valores numricos de una variable aleatoria X, el


nmero de xitos que ocurren durante un intervalo de tiempo dado se llama experimento de
Poisson.

En teora de probabilidad y estadstica, la distribucin de Poisson es una distribucin de


probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la
probabilidad que ocurra un determinado nmero de eventos durante cierto periodo de
tiempo.

La distribucin de Poisson es el caso lmite de la distribucin binomial. De hecho, si los


parmetros n y de una distribucin binomial tienden a infinito y a cero de manera
que se mantenga constante, la distribucin lmite obtenida es de Poisson.

Como consecuencia del teorema central del lmite, para valores grandes de , una variable
aleatoria de Poisson X puede aproximarse por otra normal dado que el cociente

converge a una distribucin normal de media nula y varianza 1.

*

2 , S, , , ,
!
S

Donde es el promedio de xitos que ocurre en un intervalo de tiempo o en una regin


dada.

ESTADSTICA
DAEZEGO

DISTRIBUCIONES CONTINUAS

DISTRIBUCIN RECTANGULAR o UNIFORME

En esta distribucin continua, todos los intervalos de igual longitud en la distribucin en su


rango son igualmente probables. El dominio est definido por dos parmetros, a y b, que
son sus valores mnimo y mximo. La distribucin suele escribirse en forma abreviada
como U(a,b). Su funcin de densidad es:

Los valores en los dos extremos a y b no son por lo general importantes porque no
afectan el valor de las integrales de f(x) dx sobre el intervalo, ni de x f(x) dx o
expresiones similares. Veamos como se distribuye una variable aleatoria con esta
funcin de densidad
K
K)
DV W Y !
KQ KQ

KQ
ZV W DV W Q DV W

DISTRIBUCIN EXPONENCIAL

Esta distribucin tiene un parmetro > 0 cuya funcin de densidad es:

El valor esperado y la varianza de una variable aleatoria X con distribucin exponencial


son:
DV W

ZV W

ESTADSTICA
DAEZEGO

DISTRIBUCIN NORMAL
La distribucin de una variable normal queda perfectamente definida por dos parmetros
que son su media y su desviacin estndar . Entonces se dice que una variable
aleatoria continua X sigue una distribucin normal de parmetros y si su funcin de
densidad est dada por:

Se llama distribucin normal "estndar" a aqulla en la que sus parmetros toman los
valores = 0 y = 1. En este caso la funcin de densidad tiene la siguiente expresin:

Para el clculo de los valores de su distribucin se emplean tablas.

Debido a que la curva alcanza su mayor altura en torno a la media, mientras que sus colas
se extienden asintticamente hacia los ejes, cuando una variable siga una distribucin
normal, ser mucho ms probable observar un dato cercano al valor medio que uno que se
encuentre muy alejado de ste.

Propiedades de la distribucin normal:

La distribucin normal posee ciertas propiedades importantes que conviene destacar:

1- Tiene un nico modo, el cual coincide con su media y su mediana.


2- La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre
y es tericamente posible. El rea total bajo la curva es, por tanto, igual a 1.
3- Es simtrica con respecto a su media. Entonces, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
4- La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es
igual a una desviacin tpica. Cuanto mayor sea la desviacin estndar, ms
aplanada ser la curva.
5- El rea bajo la curva comprendida entre los valores situados aproximadamente a dos
desviaciones estndar de la media es igual a 0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el
intervalo .
6- La forma de la campana de Gauss depende de los parmetros. La media indica la
posicin de la campana, de modo que para diferentes valores de media la grfica es
desplazada a lo largo del eje horizontal. Por otra parte, la desviacin estndar
determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de ,
ms se dispersarn los datos en torno a la media y la curva ser ms plana. Un valor

ESTADSTICA
DAEZEGO

pequeo de este parmetro indica, por tanto, una gran probabilidad de obtener datos
cercanos al valor medio de la distribucin.

As podemos notar que no existe una nica distribucin normal, sino una familia de
distribuciones con una forma comn, diferenciadas por los valores de su media y su
varianza. De entre todas ellas, la ms utilizada es la distribucin normal estndar, que
corresponde a una distribucin de media 0 y varianza 1, entonces resulta:

Es importante tener en cuenta que a partir de cualquier variable X que siga una
distribucin normal, se puede obtener otra caracterstica Z con una distribucin normal
estndar realizando la siguiente transformacin:

especialmente interesante en la prctica, ya que para una distribucin 0, 1 existen tablas


As, la variable z se distribuye normal, con esperanza 0 y varianza 1. Esta propiedad resulta

a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato
menor o igual a un cierto valor z, y que permitirn resolver preguntas de probabilidad
acerca del comportamiento de variables de las que se sabe o se asume que siguen una
distribucin aproximadamente normal.

Propiedad reproductiva de la distribucin normal

~ 6 , 5
] ~ 6l , 5l . Si M = X + Y entonces:
Sean dos distribuciones normales, con variables aleatorias independientes e

(~ 6 ) 6] , 5 ) 5l

Es decir que segn esta propiedad podemos sumar algebraicamente las variables aleatorias
independientes para formar otra. Cabe aclarar que en dicha suma los coeficientes que
multiplican a las variables no necesariamente deben ser 1, sino que pueden tomar otros
valores inclusive negativos.

ESTADSTICA
DAEZEGO

APROXIMACIN DE LA BINOMIAL MEDIANTE LA NORMAL

Podremos realizar esta aproximacin bajo ciertas condiciones que son:

1- n es grande y S, S,
2- n cualquiera y p = 0,5

Entonces, si se da alguna de las dos condiciones mencionadas se puede realizar la


aproximacin de la variable binomial mediante una variable normal. As podemos enunciar
el siguiente teorema:

la distribucin de = y} cuando , es la distribucin normal estndar (, S, )


w* y
Si X es una variable aleatoria binomial, con media np y varianza npq, la forma lmite de
^

Distribucin Gamma

La variable aleatoria continua X tiene una distribucin Gamma con parmetros n y si su


funcin de densidad es:

( ) =

> 0, > 0 > 0
( )

Para cuando =1 la distribucin gamma tiene esperanza E[X] = n y varianza V[X] = n2

ESTADSTICA
DAEZEGO

Distribucin CHI-CUADRADA ( 2)

La variable aleatoria X tiene una distribucin Chi-Cuadrada, con n grados de libertad, si su


funcin de densidad es:





x>0
" #

~ ( ) , y adems DV W = l ZV W =

Propiedad reproductiva de la CHI-CUADRADA

Sean X1, X2,,Xn variables aleatorias independientes con distribucin 2 se tiene que:

]= ~( ) + ~( ) + + ~( ) ] ~ ( )

Distribucin t de Student

Si ~ (S, ) e ] ~ ( ) siendo ambas variables aleatorias independientes, entonces la


=
^]
variable aleatoria tiene una distribucin t con n grados de libertad. Su

funcin de densidad es:

*
( )= " + # < <
V( )/ W
( / )

Esta distribucin tiene E[X] = 0 y ZV W = *


> 0

ESTADSTICA
DAEZEGO

Distribucin F de Fisher

Si > ~ (=

)
e ~ (=

) que son ambas variables aleatorias independientes, entonces la
]{
variable aleatoria + = ]
{
, que resulta del cociente de cada Chi-cuadrada divida por sus

grados de libertad, tiene una distribucin F con n1 y n2 grados de libertad. Su funcin de


densidad es:

( ) " #
+
(+) = ( ) ~ +( , )
e h e h +

ESTADSTICA
DAEZEGO

Teora de Muestras

La teora del muestreo es el estudio de las relaciones existente entre una poblacin y las
muestras extradas de la misma. Tiene gran inters en muchos aspectos de la estadstica.
Por ejemplo permite estimar cantidades desconocidas de la poblacin a partir del
conocimiento de las correspondientes cantidades muestrales. Las cantidades poblacionales
se conocen comnmente como parmetros, mientras que las cantidades muestrales
reciben el nombre de estadsticos.
La teora de muestreo es tambin til para determinar si las diferencias que se puedan
observar entre dos muestras son debidas a la aleatoriedad de las mismas o si por el contrario
son solamente significativas.
Entonces en esta parte de nuestro estudio nos fijaremos en los distintos tipos de muestras y
las variables aleatorias asociadas a cada una de ellas.
Para seleccionar una muestra aleatoria de tamao n de una poblacin f(x), debe definirse
una variable aleatoria Xi, con i = 1, 2, , n. Las variables Xi formarn as una muestra
aleatoria de la poblacin f(x) con valores numricos xi si dichas variables son
independientes cada una con la misma distribucin de probabilidad f(x). Entonces su

)= ( ) ( ) ( )
distribucin de probabilidad conjunta se expresa como:
, ,,
La funcin conjunta resulta ser el producto de las funciones marginales

Dijimos que una cantidad muestral se llama estadstico, as que vamos a dar una definicin
del mismo. Decimos que cualquier valor calculado a partir de una muestra se llama
estadstico, o tambin que un estadstico es una variable aleatoria que depende slo de la
muestra aleatoria observada. Algunos estadsticos importantes de una muestra de tamao
n son la media muestral y la varianza muestral S2.
As, la distribucin de probabilidad de un estadstico recibe el nombre de distribucin
muestral.
A continuacin veremos como se distribuyen los estadsticos ms empleados para nuestro
estudio.

ESTADSTICA
DAEZEGO

Distribucin de Medias


Sea X1, X2,, Xn una muestra aleatoria con media entonces veamos como se

distribuye

DV W D DV W DV W DV W Es decir que DV W DV W

ZV W | ZV W ZV W ZV W Es decir que ZV W ZV W

Teorema central del lmite


Si es la media de una muestra aleatoria de tamao n tomada de una poblacin con media

y varianza 2, entonces la forma lmite de la distribucin , es la


* 6
5
{

cuando

distribucin estandarizada (S, )

Para poder realizar esta estandarizacin de la y emplear la variable z es necesario conocer


los parmetros y 2, as como el tamao de la muestra.
Supongamos ahora el caso en que slo conocemos y n. Por dicho motivo no podremos
emplear el teorema central del lmite ya que no conocemos 2. Entonces recurrimos a la
distribucin t de Student cuando el tamao de la muestra n < 30:
Entonces recordando que la t resulta del cociente de una normal estndar y una chi sobre

sus grados de libertad, = ~


(S, )
,(9),
7(9) 9
resulta que:

6
5 6
= = ~
8
,( * )
( )8

5 ( )

Se distribuye con (n-1) grados de libertad. Esto es debido a que se trabaja con un
estadstico que es S2, si hubisemos empleado un estadstico ms seran (n-2) grados de
libertad y as sucesivamente.

Para el caso en que n > 30 se tiene que 5 8 : = 8 ~ (S, )


* 6
{

ESTADSTICA
DAEZEGO

Distribucin de Varianzas
Si S2 es la varianza de una muestra aleatoria de tamao n extrada de una poblacin con

varianza 2, entonces la variable aleatoria tiene una distribucin ,(=*>)


=*>

.

Entonces para la varianza empleamos la distribucin Chi- Cuadrada.

Si S> y S son las varianzas de dos muestras aleatoria independiente de tamao n1 y n2


Distribucin de cociente de varianzas

respectivamente extradas de poblaciones normales con varianzas > y , entonces


> > >
= = ~ ,(,
>
)

El cociente de varianzas tiene una distribucin F con v1 y v2 grados de libertad. Para


construir esta la variable aleatoria F se parte de realizar el cociente entre dos poblaciones
normales con distribucin Chi-Cuadrada dividida cada una por sus grados de libertad.

Distribucin de Diferencia de Medias


Supongamos que tenemos dos poblaciones que pueden ser normales o no, y queremos saber
como se distribuye la diferencia de medias. En esta situacin se pueden presentar diferentes
casos en los que se emplearan diferentes distribuciones.

Caso1: Varianzas poblacionales conocidas

1- Poblaciones normales

Entonces tenemos dos poblaciones normales de las cuales conocemos sus varianzas
> y , y extraemos una muestra n1 y n2 respectivamente:

X> ~N "> , # y X ~N " , # ~ (DV W, ZV W)



~ "6 6 , + #
5 5
Por lo tanto

ESTADSTICA
DAEZEGO

Entonces podemos emplear la variable aleatoria z siguiendo el teorema central del lmite:

: ~ (S, )
* * 6 *6

5 5

2- Poblaciones no normales

En el caso de que estemos tratando con poblaciones no normales pero el tamao de las


muestras es superior a 30, entonces podemos emplear la variable aleatoria z definida
anteriormente:

> 30 = ~ (S, )
( * )* (6 *6 )

5 5

Caso 2: Varianzas poblacionales desconocidas

1- Poblaciones normales.

En esta situacin suponemos que las varianzas poblacionales son iguales = > = y
deberemos emplear una variable aleatoria t cuya distribucin se compone del cociente entre
una Normal Estndar y la raz de una Chi-Cuadrada dividida entre sus grados de libertad, es

decir: = ~
(S, )
,(9),
7(9) 9

El resultado de realizar las operaciones pertinentes nos da la siguiente forma para la


diferencia de medias:

= ~ * ) donde 8' =7
( * )* (6 *6 ) ( * )8 ( * )8
,( ( * )
8' 7

2- Poblaciones no normales

Al igual como se mencion antes, para tamaos de muestras superiores a 30 podemos


emplear la variable aleatoria z segn la siguiente estandarizacin:

> 30 = ~ (S, )
( * )* (6 *6 )

8 8

ESTADSTICA
DAEZEGO

Estimacin
La teora de la Estadstica Inferencial (o inferencia estadstica) se puede definir como
aquellos mtodos que permiten hacer inferencia sobre una poblacin. Para ello se eligen
estimadores de manera que el modelo se ajuste lo mejor posible al comportamiento
observado, para luego estudiar a dichos estimadores como variables aleatorias.

As lo que tratamos de hacer es emplear un determinado estadstico para que nos estime
un determinado parmetro. Generalmente se busca el estadstico que mejor estime a dicho
parmetro. A estos estadsticos los llamamos estimadores.

Estimacin Puntual

Supongamos que tenemos un parmetro cualquiera llamado , entonces un estimador


puntual de , que llamaremos es una funcin de los valores de la muestra y se dice que es
puntual porque consiste en un solo valor. Por lo recin dicho tenemos que:

, , , , ) por lo que (
= , , , , )

.
Queda a la vista que es funcin de

A modo de ejemplo supongamos que X ~ N(, ), entonces queremos estimar el


parmetro mediante el estimador

=

(
= , , , , ) =

Aqu podemos ver que el estimador es funcin de los valores de la muestra y que tiene un
solo valor, ya que la media aritmtica tiene un solo valor.

Algunos parmetros (como ser ) poseen ms de un estimador ( , ( l ). Entonces


cmo podemos determinar cual es el mejor de todos ellos. Para saber cual es el mejor de
todos ellos, hay que ver cual cumple con las siguientes propiedades:

es un estimador insesgado del


1- Insesgamiento: Se dice que en estadstico
g =
parmetro si se verifica que: Df
2- Varianza Mnima: Un estimador puntual de tiene varianza mnima si se
g < V
verifica que |f W donde
es cualquier otro estimador de .

Si hacemos los clculos para los diferentes estimadores de veremos que el que cumple
con las dos propiedades anteriores es .

ESTADSTICA
DAEZEGO

Mtodo de Mxima Verosimilitud

Es un mtodo de estimacin que nos brinda estimadores asintticamente insesgados y de


varianza mnima cuando n es grande. Nos brinda estimadores para parmetros de cualquier
distribucin que cumplen con las propiedades de los estimadores puntuales. ESTE
MTODO SE USA SLO CUANDO CONOZCO LA POBLACIN.

Dada una muestra aleatoria X1, X2,, Xn de una poblacin con funcin de densidad (o
cuanta), f(x, ) con desconocido y adems cada una de las variables aleatorias tienen
como funcin fi(xi, ):

f x> , x , , x , ) = f> (x> , )f (x , ) f (x , )

f(x> , x , , x , ) = f(x> , )f(x , ) f(x , )

( , ,, , ) = ( , ) Funcin de probabilidad conjunta

del parmetro es aquel que


Entonces el estimador de mxima verosimilitud (E.M.V.)
maximiza la funcin de probabilidad conjunta (funcin de verosimilitud). A la funcin
de verosimilitud la denominamos con la letra L.

= ( , ) () = V ( , )W ; esto es porque L y ln(L) tienen los mismos puntos crticos

=S
!V ()W
!
Luego procedemos a encontrar los puntos crticos haciendo:

. Finalmente hallamos la derivada segunda y la evaluamos


De ah procedemos a despejar
y vemos si es un mximo.
en

ESTADSTICA
DAEZEGO

Estimacin por Intervalos de Confianza

construir un intervalo lo que hacemos es tomar un valor inferior y otro valor superior
La estimacin por intervalos nos permite conocer con que error estamos trabajando. Para

tales que la probabilidad de que dichos valores encierren al valor verdadero de sea
igual a Q , que es el nivel de confianza del intervalo y es el error que nos podemos
permitir: 2 < < Q

Variable Fundamental
Una variable aleatoria es una variable fundamental o pivotal si y slo si:

- Depende solo del parmetro al cual se le construye el intervalo.


- Depende slo del estimador de mxima verosimilitud.
- Debe tener una distribucin fija y conocida, la cual no dependa del parmetro
al cual se le construye el intervalo.

Por ejemplo: Sea X ~ N(, ) con conocida, encontrar la variable pivotal para

:=5 ~(S, )
*6
{

Intervalo de confianza para la Media

Veremos como se construye un intervalo para la media poblacional segn sea el caso
que se nos presente.

- Poblacin Normal con 2 conocida

La variable pivotal es : = 5 ~(S, )


*6
{

El mejor intervalo es el que tiene menor longitud. Para el caso de una distribucin
Normal que posee simetra, el intervalo de menor longitud se da cuando los extremos

2(: < < : ) =


son iguales en magnitud pero signos opuestos, por lo que para un nivel de confianza
dado resulta:

2 : <5 <: * =
*6
*
{

Los subndices de : indican la posicin

2 " : * < < + : * #=


5 5

ESTADSTICA
DAEZEGO

- Poblacin Normal con 2 desconocida

~ ( * )
*6
8{

La variable pivotal es

Entonces por ser una distribucin simtrica los extremos deben tener la misma posicin
pero de signo opuesto, as resulta:

2( << )=

2 <8 < * =
*6
* {

2 " * << + * #=
8 8

Intervalo de Confianza para la Varianza

Una estimacin puntual insesgada de la varianza de una poblacin normal est dada por
la varianza muestral S2, es decir que S2 es el estimador de mxima verosimilitud de 2.

La variable pivotal es = ~ (=*>)


(=*>)

En este caso la distribucin no es simtrica, por lo que las posiciones de la variable no


son iguales y de signo contrario como ocurra antes.

2 " < < * # =

2 " < < * # =


(=*>)

2 < < =
(=*>) (=*>)

Intervalo de confianza para Proporciones

La variable pivotal es : = ~ (S, ) y por distribuirse Normal presenta simetra.


*2
t

7

2 : * < < : * =
*2
t

7

2 : * 7 < < + : * 7 =
t
t

ESTADSTICA
DAEZEGO

Intervalo para dos poblaciones


Intervalo para Diferencia de Medias

Consideremos dos poblaciones normales N > , > ) y N( , )

El parmetro a estimar es 6 6 y entonces el estimador es

- Con varianzas poblacionales y conocidas

La variable pivotal es : = ~(S, )


( * )*(6 *6 )


2 : < <: =
( * )*(6 *6 )
* *


2 ( ): * 7 + <6 6 <( )+: * 7 + =


Este intervalo tambin se puede usar en el caso de que las poblaciones no sean normales y
las varianzas poblacionales sean desconocidas, siempre que el tamao de las muestras sea
mayor a 30. Lo nico que hacemos es usar las varianzas muestrales en lugar de las
poblacionales.

- Las varianzas poblacionales > y son desconocidas y supuestas iguales

= ~ * ) ; 8' = 7
( * )*(6 *6 ) ( * )8 ( * )8
( ( * )
8' 7
La variable pivotal es

2 ( ) * 8' 7 + <6 6 <( ) + * 8' 7 + =

Intervalo de Confianza para Cociente de Varianzas

Tenemos dos poblaciones normales N(> , > ) y N( , ). El estadstico que estima a


5 5 es 8 8 . Entonces la variable pivotal es: + = 8 ~ +(
8 5
5 * , * )

ESTADSTICA
DAEZEGO

Prueba de Hiptesis
Hiptesis estadstica: es una afirmacin de un conjunto de parmetros de la distribucin
poblacional. La aceptacin de una hiptesis implica tan slo que los datos no proporcionan
evidencia suficiente para refutarla. Por otro lado, el rechazo implica que la evidencia de la
muestra la refuta.

- Hiptesis Nula (H0): es la afirmacin respecto de algn parmetro que ya se conoca


por experiencias previas. Indica una situacin que ocurre normalmente. En esta
hiptesis aparece siempre el signo igual.
- Hiptesis Alternativa (H1): es aquella que contradice a la hiptesis nula. Representa
una situacin nueva.

A una hiptesis que, si es verdadera, especifica completamente a la distribucin


poblacional se la llama hiptesis simple, y a una que no la especifica se la llama
hiptesis compuesta.

Dada una muestra aleatoria X1, X2,, Xn de tamao n, definimos la regin crtica o de
rechazo C al conjunto de todos los valores del estadstico que hacen que la H0 sea
rechazada.

Entonces la prueba determinada por la regin critica o de rechazo C es:

No rechazar H0 si w , w , , w )
Rechazar H0 si (w , w , , w )
-
-

Tenemos varias alternativas a la hora de tomar la decisin de rechazar o no la H0:

2(' ) = 2( ' : S ! ! t ' )=


2(' ) = 2( ' S ! ! t )=
-
-

La regla de decisin es buena cuando el error de tipo 1 y 2 es pequeo. En general se

cometer el error tipo 2. Tener en cuenta que + . A se la suele llamar nivel de


fija la probabilidad de cometer el error tipo1 y se trata de minimizar la probabilidad de

significancia.

ESTADSTICA
DAEZEGO

Pruebas relacionadas con la media poblacional con varianza conocida

Como conocemos la varianza poblacional, la variable fundamental o pivotal que


usaremos para hacer la prueba de hiptesis es la z ya que suponemos normalidad. Dada
una H0 planteamos una H1 como sigue:

> : <

Donde k es el valor conocido de . Notar que slo en H0 se coloca el signo igual, y que
la H1 refuta a la H0.

Ahora se precede a plantear la regin crtica o de rechazo, para ello empleamos el


E.M.V. para :

! : X < | X < | ; | indica que el se usa el del

Notar que siempre esta en la regin de rechazo.

Ahora se procede a estandarizar y despejar el valor de C:

Q6 Q6
2 < |
5 5

Q6
2 : < |
5

: 6 ) : .
*6 5
5

Entonces si < rechazamos la al nivel de significancia .

As podemos tener dos tipos de Test o Prueba:

Test Unilateral o de una cola: S : S y : > S : < S


Test Bilateral o de dos colas: S : S y : S
-
-

Propiedades
- Los errores tipo 1 y 2 estn relacionados entre s. La disminucin de probabilidad de
uno resulta en el aumento de la probabilidad del otro.
- Un incremente en el tamao n de la muestra reduce simultneamente los valores de
y .
- La probabilidad de cometer error de tipo 1 puede reducirse ajustando el o los
valores crticos de la regin de rechazo.

ESTADSTICA
DAEZEGO

Tamao de la muestra

Ahora veremos como determinar el tamao n de una muestra teniendo H0 y H1 as como


los valores de y que nos queremos permitir.

Primero planteamos la regin de rechazo de donde vamos a despejar el valor de C:

> : > >

! : X > | X > |

2 ": > # |S 2 ": < # | S Q 6S ) : * .


*6 *6 5
5 5

Ahora planteamos la regin de aceptacin (donde est ) y vamos a despejar el valor de


C:

! C: X < | X < |

2 ": < # | 6 ) : .
*6 5
5

Sigue restar miembro a miembro las dos ecuaciones que encontramos y as podremos
hallar el valor de n:

S 6S ) : * . Q "6 ) : . #
5 5

n: debemos tomar un valor entero

Pruebas relacionadas con la varianza poblacional

Aqu tambin supondremos normalidad, por ello y por tratarse de la varianza la variable
pivotal que usaremos ser la 2

Se procede de igual manera, planteando la regin de rechazo y hallando el valor de C,


para luego evaluar si se acepta o rechaza la H0 al nivel de significancia con el que se
esta trabajando. En este caso el E.M.V de la varianza poblacional es S2.

: <

> : >

! : S > | S > |

2 " > # |S 2 " < # | S Q


* * *
5 5 5 *,( * )

ESTADSTICA
DAEZEGO

Pruebas relacionadas con dos poblaciones normales

Vamos a analizar el caso de cociente de varianzas y el de diferencia de medias.

- Cociente de varianzas

En este caso tenemos dos poblaciones normales N > , > ) y N( , ) de las que se toman
dos muestras aleatorias independientes de tamao n1 y n2 respectivamente. Por lo tanto la
variable pivotal a emplear en este caso es la F, dado que estamos trabajando con cociente
de varianzas.

Las hiptesis a plantear son:

: > = 1

> : > 1

! : S> S < C> o S> S > C | P(S> S < C> )| + P(S> S > C )| =

P(S> S < C> )| = ; P(S> S > C )| =



P(F < C> )| = ; P(F > C )| = P(F < C )| = 1



1
C> = F (n> 1, n 1) =
F>* (n 1, n> 1)

C = F>* (n> 1, n 1)

No rechazamos la H0 si el 1 cae dentro de la regin de aceptacin.

Rechazamos la H0 si no ocurre lo anterior.

- Diferencia de Medias

En este caso tenemos dos poblaciones normales N(> , > ) y N( , ) de las que se toman
dos muestras aleatorias independientes de tamao n1 y n2 respectivamente. Supondremos
que las varianzas poblacionales son desconocidas pero que son iguales, entonces la variable
pivotal es una t.

: > = 0

> : > < 0

! : X> X < | (X> X < )| =

ESTADSTICA
DAEZEGO

P t <

| C Qt>* S 7 )
7

No rechazamos la H0 si el cero cae en la regin de aceptacin.

Potencia de la Prueba o Test

Es una funcin que se define as:

1 (> ) >
> v
> =

Lo primero que hacemos es plantear la regin de rechazo y encontrar el valor de C que


corresponda. Luego procedemos a encontrar el valor de planteando la regin de

de > . Una vez obtenido el valor de procedemos a usar la ecuacin para calcular la
aceptacin, tomando el valor de C calculado anteriormente y usando tambin el valor dado

potencia del test.

ESTADSTICA
DAEZEGO

Regresin y Correlacin Lineal


La regresin lineal es una herramienta que estudia la dependencia existente entre una
variable dependiente, llamada variable respuesta, y una o ms variables independientes
llamadas variables predictores. Nosotros veremos el caso de la regresin lineal simple as
que trabajaremos con una variable predictor y una variable respuesta. Es decir que el
anlisis de regresin consiste en encontrar una relacin que ligue los predictores con
la respuesta.

Un primer mtodo para saber si existe relacin entre las variables es emplear un

valores x , y ) con i |>


dispersograma que no es mas que un sistema coordenado en el cual graficamos los pares de

Ahora veremos un mtodo para elegir la recta de regresin que se llama mtodo de
mnimos cuadrados.

Este mtodo implica la suma de los cuadrados de las distancias verticales de los puntos yi a
la recta sea lo mas pequea posible.

La recta poblacional ser ] = + y la recta muestral l = +K

Planteamos la ecuacin de distancia D y luego debemos encontrar los valores de a y b de


manera tal que D sea mnima:

0( , K) = XVl ( + K )W

Para que D sea mnima debemos encontrar sus derivadas parciales y luego las igualaremos
a cero para encontrar los valores de a y b respectivamente. De todo el trabajo algebraico se
obtiene que:

= X K X =]K
l

( )(l ]) 8
K= =
l
( ) 8

As hemos obtenido los coeficientes a y b de la recta l = + K que se denomina


regresin de Y sobre X o recta de regresin muestral.

ESTADSTICA
DAEZEGO

Para poder inferir sobre ] ) a partir de l ) K debemos considerar los


siguientes supuestos:

- La variable X es una variable matemtica, es decir no esta sujeta a errores.


- La variable Y es una variable aleatoria que si est sujeta a errores.

Para cada xi, tenemos que ] ~( + , 5 ).


- Las variables Y1, Y2,, Yn se consideran variables aleatorias independientes.
-
- La varianza 2 es constante.

Estimadores para , y +x

Pendiente de la recta de regresin muestral: b

K=
8 l
8
depende linealmente de las variables yi que se distribuyen normalmente, por lo
tanto b tambin se distribuye normal. Ahora veamos como se distribuye, tener en cuenta
que slo colocamos los resultados pasando por alto los desarrollos algebraicos.

EVbW = y VVbW = ( *a)



Podemos realizar la siguiente estandarizacin:

K
: = 5 ~ (S, )
{
^ ( )

Con esta variable podemos construir intervalos de confianza y pruebas de hiptesis para la
pendiente de la recta de regresin conociendo la varianza.

Ordenada al origen de la recta de regresin muestral: a


Recordemos que = ] K , entonces por ser la combinacin lineal de variables
aleatorias normales, a tambin se distribuye normal. Veamos sus parmetros:

EVaW = y VVaW = +
> a
( *a)

Podemos realizar la siguiente estandarizacin:



: = ~ (S, )
5 +
( )

ESTADSTICA
DAEZEGO

Recta de regresin muestral: a+bx

de la a+bx. Se demuestra que ) P ) y adems para un valor dado de x: x0


De la misma forma que hicimos con a y b, podemos trabajar para encontrar los parmetros

V ) P W ) y VV ) P W )
> *a
*a

Podemos realizar la estandarizacin:

) rS Q ) rS
: ~ (S, )
Q
5 ) S
SQ

Supongamos que queremos estimar ] = + , estaramos estimando una variable


aleatoria: el valor de y0 para un valor x0 dado. Podemos llamar

= Y ( + X )

Donde es una variable aleatoria con EV W = 0 y VV W = . Su estimador puntual ser


entonces e = Y (a + bX ), su esperanza es:

EVe W = 0 = EVY W EV + X W

1 (x X)
VVe W = VVY W + VV + X W = + j + k
n > (x X)

Dicho estimador depende linealmente de Yi. Realizamos la estandarizacin:

] ( +K S)
: = ~ (S, )
( S )
5 + +
( S )

Esta variable nos permite hallar los lmites de confianza para el valor Y verdadero llamados
lmites de prediccin. Dichos lmites comparados con los obtenidos para + P son ms
amplios debido a las fluctuaciones por ser una variable aleatoria. Graficando los lmites en
funcin de x0 tenemos que:

a y b son los lmites para +

c y d son los lmites para Y0

LS lmite superior

LI lmite inferior

ESTADSTICA
DAEZEGO

Estimacin de la Varianza

En general se da el caso en que no conocemos la varianza 2 por lo que debemos estimarla.


Entonces se estima mediante la varianza de los errores e , es decir:

=>V ( + PO )W
= =
2
Se demuestra que EV W = entonces es un estimador insesgado de . Luego
(=*)
~(=*)


podemos emplear la variable para calcular las variables adecuadas para
cuando desconocemos

La frmula prctica para calcular es: 8 = V] ( + K )W = f8] K 8 g


*
*


( * )
(a *a)
S = = y Sa = =
*> *> *> *>
Donde

Intervalos de Confianza
- Para con 2 desconocida

Como no conocemos la varianza, y por los conocimientos ya adquiridos, la variable pivotal


para el intervalo es una t. Recientemente vimos tambin que

~ (S, ) y que
* ( * )
: = ~ ( * )
5
5
( )

Entonces podemos construir la variable pivotal como ya sabemos:




5
(S, ) *
= = = ~
( )
( * )
7(9) 9 ( )
8
( )5 ( )

Dada una confianza y recordando que t tiene una distribucin simtrica, podemos plantear
el intervalo: 2 " * << * # =

Luego hacemos los reemplazos y despejes que corresponden para obtener el intervalo de .

ESTADSTICA
DAEZEGO

- Para con 2 desconocida

~ (S, )
K*
Procediendo de igual manera y recordando que : = 5
7 ( * )

Vamos a emplear nuevamente la variable pivotal t y a realizar los mismos pasos para
obtener el intervalo para para un nivel de significancia dado.

- Para la recta ] = + dado un valor x0

Nuevamente emplearemos una variable pivotal t porque no conocemos la varianza


~ (S, ).
rS * ( rS )
poblacional y recordemos que : =
e S h
5
( S )

Dado un nivel de confianza procedemos a construir el intervalo de manera similar a como


venimos haciendo en los casos anteriores.

- Para la ordenada Y (lmite de prediccin) dado un valor x0

~ (S, )
] *( K S)
Todo lo mismo, la variable pivotal sigue siendo una t y : =
e S h
5
( S )

Procedemos a construir la variable t y para un nivel de significancia dado construimos el


intervalo para Y.

Prueba de Hiptesis
Debemos probar si algn parmetro es igual a algn valor hipottico.

- Prueba para

: =

> :
K*
La variable pivotal es la bendita t: = ~ ( * )
8 {7 ( * )

|K S | >
8
con la siguiente regin de rechazo: ( *)
7 ( * )

ESTADSTICA
DAEZEGO

- Prueba para

: =

> :
*
La variable pivotal es la bendita t: = ~ ( * )
8
( )

| S | > e *h 8 7 +
( * )
con la siguiente regin de rechazo:

Regresin Curvilnea
- Funcin Polinmica

De manera general tenemos que ] = + + +


+ +

=
la cual debemos ajustar a l = ] S + + +

++

- Funcin Potencial

Debemos ajustar una curva ] = =


a l=] K

Aplicando logaritmo natural para valores positivos de a y b tendremos:

l ) K ; haciendo las sustituciones

] C ) K

l .
Vemos que tenemos una funcin lineal, por lo que podemos aplicar la regresin lineal
teniendo en cuenta que la tabla de datos va a ser con

- Otras funciones

] ) ] )

donde

]
] ) donde ] l

] ] ) donde ]
l

ESTADSTICA
DAEZEGO

Correlacin Simple
Al realizar una prediccin del valor de Y usando la ecuacin de mnimos cuadrados, la
misma est sujeta a errores. El grado de exactitud en la prediccin depende de la
correlacin que existe entre las dos variables. La medida usual es el coeficiente de
correlacin (si es poblacional) o r (si es muestral).

Entonces como es de esperar si r es pequeo se obtiene poca precisin al realizar


predicciones sobre el valor de Y usando la recta de mnimos cuadrados. Por otro lado si r es
aproximadamente 1 o -1 la correlacin es fuerte lo que se traduce en que la recta de
mnimos cuadrados es cercana a todos los puntos del dispersograma y se logran gran
exactitud al efectuar la prediccin.

En base a r se estima si si tiene un determinado valor, esto es porque r es un E.M.V de .



e he h
( a, )
= =
= 1 1
^
Recordemos que:

e h e h

8 l
=
^8 8ll
Su estimador se define como:

Cuando r = -1 o r = 1, significa que existe un ajuste perfecto. Por otro lado cuando r = 0
significa que no existe correlacin lineal (podra ser una relacin curvilnea).

La diferencia entre el anlisis de regresin y el de correlacin es que en este ltimo


tanto X como Y son variables aleatorias.

Una hiptesis til es = 0 es decir que no hay relacin entre X e Y porque seran
independientes. Entonces: S : = S

: S

= 0 se usa slo para test de hiptesis y no para intervalos de confianza

La relacin de r que usamos es: r = b7 ; b = y se demuestra que


= = ~ ( * )
^
K

Con esta variable se hace la prueba con la siguiente regin de rechazo dado un nivel de
significancia : | K | > *,( * )

ESTADSTICA
DAEZEGO

Otra hiptesis es si la muestra proviene de una poblacin con 0, es decir

S : = S

: S

e

h ~ " " S
S
#, # entonces resulta
*
Partiendo de que:

1 1
2 lne>>* h 2 ln ">>* SS #
z = ~N(0,1)
7 1
n3

Y empleamos la siguiente regin de rechazo para probar H0

|z | > >*

ESTADSTICA