Está en la página 1de 88

ESTADSTICA II

PROGRAMA ADMINISTRACIN PBLICA


TERRITORIAL

RAFAEL VARGAS BARRERA

ESCUELA SUPERIOR DE ADMINISTRACIN PBLICA

ESCUELA SUPERIOR DE ADMINISTRACIN PBLICA

Director
HONORIO MIGUEL HENRIQUEZ PINEDO
Subdirector acadmico
CARLOS ROBERTO CUBIDES OLARTE
Decano de pregrado
JAIME ANTONIO QUICENO GUERRERO
Coordinador Nacional de A.P.T
JOSE PLACIDO SILVA RUIZ

ESCUELA SUPERIOR DE ADMINISTRACIN PBLICA


RAFAEL VARGAS BARRERA
Bogot D.C., Noviembre de 2008

INDICE DE CONTENIDOS

DE LOS NUCLEOS TEMTICOS Y PROBLEMTICOS


UNIDAD 1. REPASO DE CONCEPTOS DE LA ESTADSTICA DESCRIPTIVA.
1.1
Tablas de frecuencia en Excel
1.2
Grafica en Excel
1.3
Medidas tendencia central en Excel
1.3.1 Media aritmtica.
1.4
Medidas de dispersin en Excel.
1.4.1 Varianza, Desviacin estndar
1.5
Taller en Excel
UNIDAD 2. TEORA DE PROBABILIDADES.
2.1
Aspectos generales.
2.2
Experimento aleatorio
2.4
Regla bsicas de probabilidad.
2.5
Reglas de conteo
2.5.1 Permutaciones
2.5.2 Combinaciones
Unidad 3. Distribuciones de probabilidad en Excel
3.1
Tipos de variables.
3.2
Distribuciones de Probabilidad
3.2.1 Valor esperado
3.2.2 Varianza esperada
3.3
Distribucin de probabilidad variables discretas
3.3.1 Distribucin Binomial
3.3.2 Distribucin Hipergeomtrica.
3.3.3 Distribucin de Poisson
3.4
Taller en Excel.
UNIDAD 4. DISTRIBUCIN DE PROBABILIDAD NORMAL
4.1
Variable aleatoria continua
4.2
Distribucin de probabilidad uniforme
4.3
Distribucin Normal
4.4
Distribucin normal estandarizada.
UNIDAD 5. MUESTREO Y DISTRIBUCIONES MUESTRALES
5.1
Muestreo
5.2
Distribuciones de medias muestrales.
5.3
Teorema del lmite central
5.4
Determinacin del tamao de la muestra
UNIDAD 6. ESTIMACIN POR INTERVALO.

6.1
6.2
6.3
6.4
6.5
6.6

Intervalos de confianza.
Estimacin para la media poblacional. Muestras grandes.
Estimacin para la media poblacional. Muestras pequeas.
Estimacin de una proporcin de poblacional. Muestras grandes.
Estimacin de una proporcin de la poblacin Muestras pequeas.
Anlisis de sensibilidad en Excel para la estimacin del intervalo.

UNIDAD 7. PRUEBA DE HIPTESIS


7.1
Definicin de hiptesis nula y alterna.
7.2
Tipos de errores.
7.3
Nivel de significancia
7.4
Pruebas de hiptesis unilaterales y bilaterales sobre la media
7.4.1 Muestras grandes
7.4.2 Muestras pequeas
7.5
Prueba de hiptesis sobre la proporcin de una poblacin.
7.5.1 Muestras grandes
7.5.2 Muestras pequeas
7.6
Calculo de la probabilidad para el error tipo II
UNIDAD 8. REGRESIN SIMPLE Y MLTIPLE.
8.1
Diagramas de dispersin.
8.2
Estimacin del modelos de regresin lineal por el mtodo de los mnimos
cuadrados.
8.3
Coeficiente de correlacin y de determinacin.
8.4
Pronsticos por el modelo de regresin lineal.
8.5
Modelos de regresin no lineal.
8.6
Modelos de regresin mltiples.
8.7
Pronsticos

DE LOS NUCLEOS TEMTICOS Y PROBLEMTICOS

Espacio

Problemtica
Pblica

Tiempo y
Territorio
ADMINISTRACIN

Gestin del
Desarrollo

PBLICA
TERRITORIAL

Problemtica
del Estado y
del Poder
Organizaciones
Pblicas

Economa de
lo Pblico
Formacin
General

El plan de estudios del Programa de Administracin Pblica Territorial,


modalidad a distancia, se encuentra estructurado en siete ncleos temticos.
stos, a su vez, se constituyen en los contenidos nucleares del plan de
formacin que, en la exposicin didctica del conocimiento, se acompaan de
contenidos complementarios especficos.
Cada uno de los siete ncleos temticos que componen el programa tiene una
valoracin relativa en nmero de crditos y, en consecuencia, vara tambin en
el nmero de asignaturas que lo conjugan. El primer momento en cualquier
proceso de formacin ha de establecer las particularidades del programa, de
ah que sea necesario dar a conocer los ncleos temticos con su respectiva
valoracin en nmero de crditos: Problemtica pblica, once (11) crditos;
Problemtica del estado y del poder, 23 crditos; Organizaciones pblicas, 24
crditos; Espaciotiempo y territorio, 22 crditos; Gestin del desarrollo, 16
crditos; Economa de lo pblico, 18 crditos; y Formacin general, 21 crditos.
De igual manera, se debe reconocer que el plan de estudios se cimienta en el
principio de la problematizacin. En otras palabras, la formacin en
Administracin Pblica Territorial parte del hecho de que la disciplina se
encuentra en constante cambio terico y prctico; lo cual genera, a su vez,
problemas multifacticos que implican la formacin de profesionales con
capacidad de comprender, explicar y resolver los distintos textos y contextos
que conforman la administracin pblica.

EL TRABAJO DEL TUTOR


El tutor tendr libertad de ctedra en cuanto a su posicin terica o ideolgica
frente a los contenidos del mdulo, pero el desarrollo de los contenidos de los
mdulos son de obligatorio cumplimiento por parte de los tutores. Los Tutores
podrn complementar los mdulos con lecturas adicionales, pero lo obligatorio
para el estudiante frente a la evaluacin del aprendizaje son los contenidos de
los mdulos; es decir, la evaluacin del aprendizaje deber contemplar
nicamente los contenidos de los mdulos. As mismo, la evaluacin del Tutor
deber disearse para dar cuenta del cubrimiento de los contenidos del
mdulo.
El Tutor debe disear, planear y programar con suficiente anticipacin las
actividades de aprendizaje y los contenidos a desarrollar en cada sesin de
tutora (incluyendo la primera), y disear las actividades para todas las
sesiones (una sesin es de cuatro horas tutoriales). Tambin debe disear las
estrategias de evaluacin del trabajo estudiante que le permita hacer
seguimiento del proceso de autoaprendizaje del estudiante. Los mdulos
(asignaturas) de APT son de dos crditos (16 horas de tutora grupal presencial
por crdito para un total de 32 horas), tres crditos (48 horas de tutora grupal
presencial) y de 4 crditos (64 horas de tutora grupal presencial, distribuidas
as:
No.
Crditos
2
3
4

MDULO DE ESTADSTICA II (3 crditos)


Horas por
No.
Total
crdito
No. de
Horas por mnimo de
horas
sesiones
sesin
encuentros
Tutora
tutoriales*
Grupal
16
32
8
4
2
16
48
12
4
3
16
64
16
4
4

No. max.
sesiones
por
encuentro
8
12
16

* El nmero de encuentros se programara de acuerdo con las distancias y costos de transporte de la Sede Territorial al
CETAP, por ejemplo para los casos de los CETAP de Leticia, San Andrs, Mit, Puerto Inrida y Puerto Carreo, se
podrn programar un mnimo de dos encuentros para un mdulo de 2 Crditos (16 horas por encuentro), tres
encuentros para un mdulo de 3 crditos y cuatro encuentros para un mdulo de 4 crditos.
Encuentro: nmero de veces que se desplaza un Tutor a un CETAP para desarrollar un mdulo.
Sesin: nmero de horas por cada actividad tutorial, por ejemplo: 8-12 a.m., 2-6 p.m., 6-10 p.m.

STADSTICA II

INTRODUCCION:
En el mdulo anterior de estadstica se vieron los conceptos y herramientas
para recopilar datos, procesarlos, analizarlos y analizar los resultados.
Generalmente estos datos corresponden a hechos cumplidos, pero a partir de
ellos se debe mirar los que vendra hacia el futuro con el comportamiento de
las mismas variables. Las organizaciones pblicas y privadas toman decisiones
permanentemente basndose en los resultados histricos; pero los resultados
se vern en el futuro por lo que la toma de decisiones se vuelve incierta y llena
de incertidumbre.
En este mdulo ordenaremos nuestro conocimiento para darle valores a la
posibilidad que ocurran esos hechos futuros y con otras herramientas
estadsticas le daremos valor a la incertidumbre y la certeza que ocurran esos
eventos.
La probabilidad y otros parmetros de medicin hacia el futuro son elementos
fundamentales en los ejecutivos privados y funcionarios pblicos que tienen su
hombro la responsabilidad de planear, dirigir y programar la ejecucin de las
actividades de su entorno, en beneficio de una sociedad, familia o empresa.
Objetivos
Formar el participante en la utilizacin de medias que analizan hacia el futuro
los resultados de hechos. El asistente adquirir los conceptos y herramientas
que le permitirn ser un usuario casi permanente de las probabilidades, el
muestreo, las estimaciones, las pruebas de hiptesis, los modelos de
regresin lineal o lineal.
Objetivos especficos.
Conceptualizar los principios tericos bsicos de la inferencia estadstica.
Aplicar las fases metodolgicas de una investigacin por muestreo.
Estimar promedios poblacionales, totales, proporciones y varianzas
Determinar tamaos de muestra.
Revisar la fundamentacin de los procedimientos de prueba de hiptesis.
Estudiar la correlacin de Pearson entre parejas de variables.
Estudiar la fundamentacin de los modelos de regresin como tcnica de
anlisis economtrico.
Analizar el comportamiento de series cronolgicas econmicas y sociales.
Proyectar variables econmicas utilizando los modelos de regresin lineal y
no lineal.
Competencias que el alumno debe desarrollar
Comprender y aplicar la teora de probabilidad como introduccin a las tcnicas
estadsticas de inferencia y pronsticos.
Aplicar conceptos, mtodos y tcnicas para el manejo de la informacin
numrica y no numrica relacionada con la administracin de las
organizaciones y el manejo de cifras econmicas.
Utilizar hojas de clculo para el procesamiento, anlisis y presentacin de
grandes volmenes de datos.

Inferir comportamiento de poblaciones (datos reales de un problema) a partir de


muestras aleatorias.
Identificar la distribucin de probabilidades, en las situaciones que se viven a
diario en las empresas.
Utilizar correctamente un software estadstico, e interpretar acertadamente los
resultados para la toma de decisin ante una situacin real del mercadeo y la
logstica.
Mapa conceptual.
Metodologa.
Evaluacin

UNIDAD 1. ESTADSTICA DESCRIPTIVA.


Si uno ve el ftbol por televisin o escucha un noticiero por la radio o televisin,
o lea algn peridico o revistas de negocios, se ver sometido a una gran
cantidad de cifras a las que comnmente se denomina estadsticas. Estas
cifras pueden referirse a deportes, mercado de valores, desempleo, produccin
industrial o esperanza de vida.
A un dato numrico o valor aislado se le denomina dato, o valor, estadstico. El
precio al cierre de acciones comunes de Ecopetrol es un dato estadstico. La
utilidad de un negocio tambin es un valor estadstico. Las ventas totales al
menudeo en un cierto mes, es asimismo un dato estadstico. A un conjunto de
datos numricos se le denomina estadstica.
El estudio de las estadsticas tiene un significado mucho ms amplio que la
simple recopilacin y publicacin de hechos y datos numricos. El estudio
general de las estadsticas se define como la ciencia estadstica o Estadstica.
Estadstica Ciencia que trata de la recopilacin, organizacin, presentacin,
anlisis e interpretacin de datos numricos (estadstica) con el fin de realizar
una toma de decisiones ms efectiva.
As como los abogados tienen "reglas de evidencia" y los contadores "prcticas
de uso comn", las personas que trabajan con datos numricos siguen ciertos
lineamientos estndares.
Las tcnicas estadsticas se aplican de manera amplia en produccin, en el
almacn, en un estudio de mercados, en control de calidad, en la Bolsa de
Valores Colombia, mercadotecnia, contabilidad, control de calidad, gestin
pblica y en otras actividades.
La estadstica se divide en estadstica descriptiva y estadstica inferencial.
La estadstica descriptiva se refiere a la organizacin, presentacin y anlisis
de datos numricos. Es un procedimientos empleados para organizar y resumir
conjuntos de datos numricos. Se dispone de tcnicas estadsticas para
organizar este tipo de datos en forma significativa. Algunos datos pueden
organizarse en una distribucin de frecuencias. Pueden utilizarse diversos tipos
de grficas para describir datos. Los promedios especializados, como la
mediana, pueden calcularse para describir el valor central de un grupo de datos
numricos.
Estadstica inferencial o tambin denominada inferencia Estadstica y
Estadstica inductiva. Lo ms importante con respecto a la Estadstica
inferencial es determinar algo acerca de una poblacin. Una poblacin puede
estar formada por personas como todos los estudiantes inscritos en una
universidad, todos los alumnos de una clase de contabilidad, o todos los
reclusos de una prisin. Una poblacin tambin puede estar formada por

10

objetos, como las llantas producidas durante una semana en una fbrica, o
todas las truchas que habitan en una presa. Una poblacin tambin puede
estar formada por un grupo de medidas, como podran ser los salarios de los
empleados, o las estaturas de los alumnos de un curso.
1.1
Tablas de frecuencia en Excel
Es la tcnica para la presentar en forma organizada los datos. Agrupamiento de
datos en categoras que muestren el nmero de observaciones de cada
categora.
Para preparar una tabla de frecuencias se debe establecer un conjunto de
agrupamientos que se denominan clases. Una clase puede ser el valor de una
cualidad o un valor numrico o un intervalo.
Las variables pueden ser cualitativas, cuantitativas, discretas o continuas
En las variables continuas, cada categora (clase) tiene dos lmites, un lmite
inferior declarado y un lmite superior declarado. En prctica es comn hacer
que el lmite inferior de la primera clase sea igual a la ms baja observacin, y
hacer que todas las clases tengan el mismo ancho o amplitud.
En lo posible los intervalos o clases de frecuencias deben ser iguales. Los
intervalos de clase desiguales ofrecen problemas al representarse en forma
grfica. Sin embargo, en algunos casos pueden ser necesarios intervalos
desiguales de clase para evitar un gran nmero de clases vacas, o casi vacas.
Intervalo de clase =

X MAX X MIN
m

donde m es el nmero de clases

Simbologa Bsica:
ni Frecuencia absoluta
hi Frecuencia relativa
Ni Frecuencia absoluta acumulada
Hi Frecuencia relativa acumulada
Ejemplo 1

Fuente: archivo Frecuencias.xls;

hoja: Ejemplo 1

11

Ejemplo 2

Fuente: archivo Frecuencias.xls;


Xi-1
Xi
Xi
ni
hi
Ni
Hi

hoja: Ejemplo 2

Lmite inferior del intervalo


Lmite superior del Intervalo
Marca de clase o valor medio del intervalo
Frecuencia absoluta
Frecuencia relativa
Frecuencia absoluta acumulada
Frecuencia relativa acumulada

1.2
Grficas en Excel
Las frecuencias pueden mostrarse utilizando diagramas o grficas. Tres
diagramas que representan de manera adecuada, una distribucin de
frecuencias son el histograma, el polgono de frecuencias y diagrama de
sectores.

12

Fuente: archivo Frecuencias.xls;

hoja: Ejemplo 1

Fuente: archivo Frecuencias.xls;

hoja: Ejemplo 2

1.3

Medidas tendencia central en Excel

Media aritmtica. Es un valor tal que la suma de las desviaciones es igual a


cero.
MEDIA ARITMETICA ;

X =

Xi
n

X =

* ni

= M[X ]

Ejemplo 3

Fuente: archivo Medidas de posicin.xls;

Hoja: Ejemplo 1

13

1.4

Medidas de dispersin en Excel.

Al aplicar una medida de dispersin es posible evaluar la confiabilidad del


promedio que se est utilizando. Una dispersin pequea indica que los datos
se encuentran acumulados cercanamente, por ejemplo, alrededor de la media
aritmtica. Por tanto, la media se considera bastante representativa de los
datos. Esto es, la media es un promedio confiable. Por el contrario, una
dispersin grande indica que la media no es muy confiable, es decir, que no es
muy representativa de los datos.
1.4.1 Varianza poblacional.
Media aritmtica de las desviaciones cuadrticas con respecto a la media.
VARIANZA POBLACIONAL = n =
2

VARIANZA MUESTRAL : n21 = S 2 =

(X

X)

; =

(X

X)

n 1

(X

X ) * ni
2

; n21 = S 2 =

(X

;n =
2

2
i

X ) * ni

n 1

DESVIACION POBLACIONAL : n = S = n ; DESVIACION MUESTRAL ; n1 = S = n 1


2

Xi

Ejemplo 5:

Fuente: archivo Medidas de posicin.xls;

Hoja: Ejemplo 3

1.4 Taller en Excel.

14

Fuente: Archivo: Medidas de posicin y dispersion.xls; Hoja: ejemplo 4


Taller.
Analice cada una de las variables de la encuesta que est en el
archivo TALLER CAPITULO 1

15

UNIDAD 2. TEORA DE PROBABILIDADES.


2.1
Aspectos generales.
La probabilidad es una medida numrica entre cero y uno que mide la opcin
que en un futuro ocurra un evento especfico como resultado de un
experimento. Mide el grado de incertidumbre de la ocurrencia de un eventos o
suceso.
Los encargados de tomar decisiones no saben con certeza lo que puede ocurrir
en un futuro cercano o lejano. Sin embargo la decisin la tiene que tomar. Por
ejemplo un fabricante ha desarrollado un nuevo producto basado en la
determinacin de las necesidades del mercado. Se desea saber si el mercado
comprar o no el producto. Una forma de minimizar el riesgo de tomar una
decisin incorrecta sera contratar a una empresa de encuestas para que tome
una muestra de 100 o 1200 o 2000 elementos de la poblacin y preguntarle a
cada persona cmo reaccionara ante el nuevo producto. Otro ejemplo podra
darse cuando el director de un departamento de Planeacin de una entidad
oficial no sabe cunto presupuestar para la reparacin de vas. Debe tomar
datos de las reparaciones anteriores y predecir aproximadamente el valor a
presupuestar.
Debido a que existe una incertidumbre considerable al tomar decisiones,
resulta importante que todos los riesgos implcitos conocidos se evalen en
forma cientfica minimizando el riesgo y la incertidumbre de la toma de
decisiones.
La probabilidad es la posibilidad que ocurra un evento futuro cuyo valor est
entre 0 y 1. La probabilidad que el ao termine el 31 de diciembre es 1.0, pero
la probabilidad que el ao inicie en febrero es 0. En estos casos hay certeza de
los que puede ocurrir con respecto a esos dos eventos.
Pero, la probabilidad que el ao termine bien es una medida cuyo valor
depender de varios factores. Una persona que se acaba de ganar el Baloto
dir que es muy cercana a uno, pero una vctima de una pirmide financiera
dir que est cercana a 0.
2.2
Experimento aleatorio
Es definido como un proceso o actividad que la ejecutarse puede uno o varios
posibles resultados. Si el azar es el que define el resultado, se dice que el
experimento es aleatorio. En cada una de las repeticiones del experimento,
habr uno y slo uno de los posibles resultados experimentales.
Todos los posibles resultados se conocen como espacio muestral.
Ejemplo:
Experimento Aleatorio
Posibles resultados
Espacio Muestral
Jugar un partido de Ganar,
empatar, S=
{ganar,
empatar,
futbol
perder
perder}

16

Lanzar un Dado

1, 2, 3, 4, 5, 6

S= {1, 2, 3, 4, 5, 6}

Lanzar una moneda

Cara, Sello

S= {cara, sello}

Otros ejemplos de experimentos. Preguntar a un grupo de estudiantes


universitarios que probaron tres computadoras personales, cul prefieren.
Medir el niel del agua de un ro. Contar el nmero de empleados de una
empresa que tienen ms de 60 aos de edad. Hacer girar la llave de un
mecanismo de encendido de una mquina para determinar si el motor
arrancar o no.
Un experimento puede tener uno o ms resultados posibles, a los que se
denomina eventos.
Si una empresa tiene slo cinco regiones de ventas y el nombre o nmero de
cada zona se escribe en un trozo de papel y stos se colocan en una urna, la
probabilidad de seleccionar una de las cinco regiones es 1/5.
Si todos los papeles tienen el mismo nombre, ACEROS LTDA, la probabilidad
que al seleccionar un papel alzar diga ACEROS LTDA es 1. De esta forma, la
probabilidad 1, representa algo que seguramente va a suceder, y la
probabilidad 0 corresponde a algo que no puede suceder.
Cuanto ms se acerca una probabilidad a 1, es ms improbable que suceda el
evento al que se asocia, mientras que cuanto ms se acerca la probabilidad a
0, ms seguros estamos de que no suceder.
Las probabilidades se analizan desde dos puntos de vista. Probabilidad clsica
y probabilidad emprica.
El enfoque clsico o a priori de la probabilidad se basa en la consideracin de
que los resultados de un experimento son igualmente posibles. Empleando el
punto de vista clsico, la probabilidad de que suceda un evento se calcula
dividiendo el nmero de resultados favorables, entre el nmero total de
posibles, como por ejemplo, la probabilidad que la lanzar una moneda salga
cara, la probabilidad que al lanzar un dado salga un nmero mayor de 4, la
probabilidad que al lanzar dos dados salga pares, la probabilidad que al lanzar
una moneda tres veces, ganen los sellos.
En la probabilidad emprica, la probabilidad de que un evento ocurra a largo
plazo se determina observando en que fraccin de tiempo sucedieron eventos
semejantes en el pasado.
2.4

Regla bsicas de probabilidad.

Existe una marcada relacin entre la Teora de Conjuntos y la Teora de las


Probabilidades, derivndose algunas expresiones que representan las
operaciones entre conjuntos.

17

Eventos disjuntos o excluyentes Eventos no disjuntos


Complemento.
A se conoce como el complemento de un evento, donde el
complemento donde A = {x / x A}

Interseccin

A B=

A B

Si A ocurre y B ocurre, se representa por A B. Esta probabilidad se simboliza


como P(A B) = P(A y B).
Unin de eventos.

AUB

AUB

Si A ocurre o B ocurre, se representa por A U B y significa que A o B ocurre, o


al menos uno de los dos eventos ocurren. Esta probabilidad se simboliza como
P(A U B) = P(A o B).
P(AUB)=P(A) + P(B). Eventos excluyentes.
P(AUB)=P(A) + P(B) P(AB). Eventos no excluyentes.
P(AUBUC)=P(A) + P(B) + P(C). Eventos excluyentes.
P(AUBUC)=P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC).
Eventos no excluyentes.
2.5 Reglas de conteo.

18

2.5.1 Se denomina permutacin a las diferentes ordenaciones que se


pueden hacer con un conjunto de eventos. (a1, a2, a3, , an). El nmero de
permutaciones que se pueden hace con n elementos es n!, donde
n ! = 1 x 2 x 3 x . x n
El nmero de permutaciones de r elementos que se pueden tomar de un
conjunto de n elementos es
n!
n Pr = n x (n - 1) x (n - 2) x......x (n - r + 1) =
(n - r )!
Ejemplo. Una junta est compuesta por 5 vocales de los cuales se debe elegir
el presidente, el secretario y el fiscal. El nmero de forma como se puede
formar esa junta es
5P3

= 5 x 4 x 3 = 60 =

5!
120
=
= 60
(5 3) ! 2

En Excel =PERMUTACIONES(5;3)

2.5.2 Se denomina combinacin a los subconjuntos no ordenados de un


conjunto, es decir, sin tener en cuenta el orden en la colocacin de los objetos.
El nmero de combinaciones de r elementos tomados de un conjunto de n
elemento es:
n!
n
= n Cr =
(n r )!*r !
r

Ejemplo. De junta compuesta por 10 miembros se va a sacar la comisin de


empalme compuesta por 4 personas. De cuntas formas se puede sacar esa
comisin?
n!
n
= n Cr =
(n r )!*r !
r

19

10!
10
= 5040
=10 C 4 =
(10 4)!*4!
4

En Excel =PERMUTACIONES(10;4)

20

UNIDAD 3. DISTRIBUCIONES DE PROBABILIDAD EN EXCEL


3.1
La variable aleatoria est asociada con los resultados de los
experimentos aleatorios.
Ejemplo:
Experimento:
Lanzar tres monedas.
Variable aleatoria: Nmero de caras que resulten
X: Nmero de caras obtenidas en el lanzamiento.
S = { ccc, ccs, csc, css, scc, scs, ssc, sss }
X = { 0, 1, 2 ,3}
La variable aleatoria toma diferente valores dependiendo del resultado del
experimento aleatorio.
Segn el tipo de valor que toma la variable discretas, reales y continuas. Las
variables discretas son aquellas cuyos valores son nmeros enteros. Las
variables reales son las que toman valores decimales. La variables continuas
son las que toman valores en un intervalo.
3.2 Distribucin de probabilidades
En el experimento de lanzar tres monedas la distribucin para el valor de la
variable es :

Otro ejemplo de distribucin de probabilidades emprica es el caso con la


variable numero de accidentes.

21

En ella observamos que esas considerados todos los posibles valores de la


variable y que las suma de estas probabilidad es 1.
Esta tabla de probabilidades se le conoce como Distribucin de
probabilidades. La distribucin de probabilidades es un modelo terico que
describe la forma en que varan los resultados de un experimento aleatorio.
La funcin de probabilidad
La distribucin de probabilidad acumulada es la que acumula las
probabilidades:
i =1

P(X Xi) = P(X1) + P(X2) + P(X3) + .. P(Xm) = P( X X i ) = [P( X i )]


m

3.2.1 Valor esperado o esperanza matemtica


Es el valor promedio probabilstico asociado con el valor de una variable.
i =1

= E ( X ) = P( X i ) * X i ; con
m

i =1

P( X ) = 1
i

Ejemplo. Valor esperado del lanzamiento de monedas.

Ejemplo. Valor esperado de accidentes en cada fin de semana.

22

3.2.2 Varianza esperada


La varianza esperada es el promedio esperado de los cuadrados de las
dispersiones con respecto al valor esperado.

2 = (X i ) 2 * P ( X i ) )
i =1
m

Ejemplo. Varianza para el lanzamiento de las monedas

Ejemplo. Varianza para los accidentes de los fines de semana

3.5
Distribucin de probabilidad variables discretas
3.3.1 Distribucin Binomial. Es una distribucin de probabilidad discreta,
mide el nmero de xitos en una secuencia de n ensayos independientes de
Bernoulli , con una probabilidad fija p de ocurrencia del xito entre los ensayos.
La variable binomial es una variable aleatoria discreta, slo puede tomar los
valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como
hay que considerar todas las maneras posibles de obtener x-xitos y (n-x)
fracasos debemos calcular stas por combinaciones (nmero combinatorio n
sobre x).

23

La funcin de probabilidad binomial est dada por


n
P ( X = x) = p x + q n x ; con x = 1,2,3,.....
x
Cada experimento tiene dos resultados posibles: XITO y FRACASO
La probabilidad de xito es p
La probabilidad de fracaso es q = 1 p
El resultado obtenido en cada prueba es independiente de los resultados
obtenidos anteriormente.
La probabilidad de xito permanece contante entre un experimento y otro.
(Poblacin infinita o ensayos con reemplazamiento).
n es el nmero de ensayos o el nmero de veces que se aplica el experimento
Todo experimento que tenga esas caractersticas se le puede aplicar el modelo
de la distribucin Binomial. A la variable x que expresa el nmero de xitos
obtenidos en cada prueba del experimento se llamar variable aleatoria
binomial.
Ejemplo:
En una universidad el 20% de los alumnos son empleados oficiales. Se
selecciona una muestra de 20 alumnos. Cul es la probabilidad que en la
muestra haya 0, 1, 2, 3, etc., empleados oficiales.
La distribucin de probabilidades es:

Repita el ejercicio con una probabilidad de p = 0.8

24

Repita el ejercicio con una probabilidad de p = 0.5

3.3.2 Distribucin Hipergeomtrica.


El curso de estadstica est conformado por 25 mujeres y 15 hombres. Para
formar parte del comit de acreditacin se tom una muestra de 10 alumnos.
Construya la distribucin de probabilidad hipergeomtrica

25

Repetir el ejercicio suponiendo que el nmero de empleados oficiales es 20 y


no oficiales, es 20

Repetir el ejercicio suponiendo que el nmero de empleados oficiales es 15 y


no oficiales es 25

26

3.3.3 Distribucin de Poisson


La llamada distribucin de probabilidad de Poisson describe la cantidad de
veces que ocurre un evento en un intervalo de tiempo determinado o de
espacio o de volumen. El valor de la probabilidad est dada por la siguiente
funcin.

P(X = x) =

e - * x
;
x!

para x = 0,1,2,3,.........

La variable a la cual se le aplicar es distribucin de probabilidad debe cumplir


los siguientes aspectos.
x es el nmero de xitos en el intervalo.
es el promedio de xitos en el intervalo.
La ocurrencia del evento en un intervalo no puede afectar la ocurrencia
en otro intervalo, es decir la ocurrencia el evento en cada intervalo es
independiente de los otros intervalos.
Se utiliza para medir la gestin de servicio al cliente o para analizar la
calidad del servicio o de cumplimiento de los agentes productivos.
Ejemplo. El director de un Empresa de Servicio Pblico domiciliario que est
interesado en mejorar la atencin a los clientes, coloc un encuestador en la
puerta de ingreso y le pidi que en intervalos de 15 minutos contara los clientes
que llegaban. El encuestador entreg los siguientes datos, (clientes que
llegaron en intervalos de 15 minutos.
12
11
14

15
15
18

10
16
12

12
14
14

15
13
16

18
16
15

15
17
14

12
13
12

Segn esos datos la media de ellos es 14.125 clientes. Es decir en promedio


cada 15 minutos llegan 14.125 clientes, es decir = 14.125 clientes cada 15
minutos.

27

Con estos datos se pueden resolver preguntas como: Cul es la probabilidad


que en un intervalo de 15 minutos lleguen exactamente 10 clientes?
e -14.125 *14.12510
P(X = 10) =
= 0.06393107
10!
En Excel =POISSON(10;14.125;0)
La distribucin de probabilidad, en Excel, para esta variable sera.

28

3.4

Taller en Excel.

29

UNIDAD 4. DISTRIBUCIN DE PROBABILIDAD NORMAL


4.1 Variable aleatoria continua.
Se ha dicho que una variable es discreta cuando los resultados del
experimento son valores enteros. Cuando los resultados toman valores con
decimales, se dir que la variable es real. Esos valores podra estar en un
intervalo, como en el caso que los salarios de una empresa oscilan entre 1
SMLM y 8 SMLM , entendindose que una persona puede tener como salario
5.75 SMLM .E
En el caso de la variable nmero de personas que van a pagar a una oficina de
recaudos, es un valor enero, sin embargo, es comn afirma que el valor de la
variable toma valores en un rango. Por ejemplo en el da van entre 100 y 200
personas a pagar a EPS. En estos casos la variable la asociaremos como
continua.
En el caso de variable continua la distribucin de probabilidad es la integral de
la funcin de densidad, por lo que tenemos entonces que:
El valor esperado y la varianza esperada se calcular de la misma forma como
se calcul para la variable discreta.

4.2 Distribucin de probabilidad Uniforme.


Una variable es uniforme cuando cualquier resultado de la variable tiene el
mismo valor de probabilidad.

4.3 Distribucin normal.

30

Para entender el comportamiento de la distribucin normal, tomemos la


siguiente distribucin de Probabilidad.

La distribucin de probabilidad es simtrica y la grafica tiende a tener una


forma de campana simtrica.
Distribuciones con estas caractersticas se le conocer como distribuciones de
probabilidad normal o tambin llamada distribucin de Gauss o distribucin
gaussiana.
De las distribuciones de probabilidad para variable contnua es la mas
importante pues describe en forma aproximada muchos fenmenos que La
funcin de densidad est dada por:
x

1
P ( X x) =
e
2

( x )2
2 2

dx

Si f(x) =Esta funcin cumple con

1
si f ( x ) =
e
2

( x )2
2 2

1
; entonces
e
2

( x )2
2 2

1
dx = 1;
e
2

( x )2
2 2

1
dx = 0.5;
e
0 2

( x )2
2 2

dx = 0.5

31

Donde es la media y es la desviacin estndar y 2 es la varianza.

Como la gran dificultad est el clculo de las integrales en funcin de la media


, y la desviacin estndar , se puede medir las dispersiones en desviaciones
estndar de la siguiente forma:
Xi X es la dispersin de la variable Xi con
respecto a la media aritmtica.
Xi X

=Z

Es el nmero de dispersiones de la

variable medida en desviaciones estndar. Esta medida se conoce como Z y el


procedimiento se le conoce como estandarizacin.
El valor de Z puede ir desde - a +
1

si f ( z ) =

Z2
1
e 2 ; entonces
2

1 2Z2
e
dx = 1;
2

Z2
1
2
e
dx = 0.5;

Z2
1
e
0 2 2 dx = 0.5

Esto permite que se hayan construido tablas que permitan rpidamente


aproximar el valor de la probabilidad en funcin dl valor de Z.

Tabla N 1

32

Tabla N 2

Tabla N 3
Aplicaciones de la distribucin normal
Ejemplo N 1. Las ventas diarias de una empresa tiene media igual a 3.5
millones con una desviacin estndar de 1.1 millones.
Cul es la probabilidad que en un da se vendan 4 o menos millones de
pesos?

X = 3.5; = 1.1 X i = 4; Z =

4 3.5
= 0.45
1.1

El valor de Z se busca en la tabla N 1 Ubicando la fila


0.4 y la columna 0.05.
La probabilidad que la venta sea menor o igual a 4 millones es 0.67364, es
decir
P( X 4 ) = P( Z 0.45 )= 0.67364

33

Cul es la probabilidad que en un da se vendan 2.8 o menos millones de


pesos?

X = 3.5; = 1.1 X i = 2.8; Z =

2.8 3.5
= 0.67
1.1

En la tabla N 2 se encuentra el valor de Z


El valor de Z se busca en la tabla N 2 Ubicando la fila -0.6 y la columna -0.07.
La probabilidad que la venta sea menor o igual a 2.8 millones es 0.2514289, es

decir, P( X 2.8 ) = P( Z -0.67 )= 0.2514289


Cul es la probabilidad que en un da se vendan 3.8 o ms millones de
pesos?
Hay que entender que P(X x) = 1 - P( X x )

X = 3.5; = 1.1 X i = 3.8; Z =

3.8 3.5
= 0.27
1.1

El valor de Z se busca en la tabla N 1.

34

P(Xi3.8)=1-P(X3.8) = P(Z 0.27) =1P(Z < 0.27) = 0.6064199 = 0.3935801


Cul es la probabilidad que en un da se vendan entre 3 y 4 millones de
pesos?
P(a X b) = P(X b) - P(X a)

X = 3.5; = 1.1 X i = 30; Z =

X = 3.5; = 1.1 X i = 4; Z =

3.0 3.5
= 0.45
1.1

4.0 3.5
= 0.45
1.1

P(3 X 4) = P(X 4) - P( X 3) = P(X 0.45) - P( X 0.45) = = 0.6736448


- 0.3263552 = 0.3472896
P(X 0.45) - P( X 0.45) = = 0.6736448 - 0.3263552 = 0.3472896
Estas mismas funciones e pueden aplicar en Excel utilizando las siguientes
funciones estadsticas.

=DISTR.NORM(4;3.5;1.1;1) = 0.675281858
=DISTR.NORM(3.5;3.5;1.1;1) = 0.262269718
Realizar el siguiente taller en Excel utilizando las funciones para distribucin
normal

35

36

UNIDAD 5. MUESTREO Y DISTRIBUCIONES MUESTRALES.


5.1 Muestreo
El anlisis de la informacin que resultan de los procesos de las organizaciones
es importante para la toma de decisiones y controlar la gestin.
En la mayora de los casos resulta casi imposible tomar toda la informacin de
esos procesos, o bien por incapacidad fsica o por falta de tiempo o por
aspectos econmicos, etc.
Cuando no se puede hacer un censo para el anlisis global de la poblacin,
se recurre al proceso estadstico por medio del cual se toma una parte de la
poblacin, bajo ciertos parmetros, se toma la informacin requerida y a partir
de ah se sacan conclusiones del comportamiento del universo o poblacin.
Esta tcnica se conoce como muestreo.
El muestreo lo aplican en la investigacin cientfica, en los estudios de
mercados en los anlisis sociales. Se puede decir que la funcin bsica es
determinar que parte de una realidad en estudio (poblacin o universo) debe
examinarse con la finalidad de hacer inferencias sobre dicha poblacin.
Cuando se aplica esta tcnica se est expuesto a que los valores de la muestra
no correspondan con los parmetros de poblacin, es decir se est expuesto a
lo que se conoce como el error del muestreo. Con la muestra adecuada SE
trata de conocer los rasgos de la los parmetros poblacionales.
5.1.1 Metodologa para hacer muestreo.
Para realizar un muestreo se debe realizar un proceso que va desde la
planeacin y termina con la inferencia de los resultados. En eso proceso
metodolgico para realizar el muestreo se debe tener en cuenta ls siguientes
caractersticas.
Tamao de la Poblacin: Finita o infinita.
Objetivos de la investigacin
Preguntas a realizar
Tipos de de preguntas y respuestas
Tipos de muestreo
Forma de recolectar la informacin
Recurso humano.
Recursos econmicos
Recursos fsicos.
Recursos tecnolgicos.
Cronograma.
5.1.2 Tipos de muestreo
Segn la forma como se seleccione los elementos a encuestas el muestreo se
puede clasificar en:
- Muestreo No probabilstico
- Muestreo Probabilstico o aleatorio.
o Muestreo aleatorio simple.

37

o Muestreo aleatorio sistemtico


o Muestreo aleatorio estratificado
o Muestreo aleatorio por conglomerados
En el Mtodo de Muestreo no probabilsticos, se seleccionan a los sujetos
siguiendo determinados criterios personales procurando que la muestra sea
representativa.
Los mtodos de muestreo probabilsticos son aquellos que se basan en el
principio del azar, es decir todo los elementos tienen la misma probabilidad de
ser elegidos para formar parte de una muestra. Los mtodos de muestreo
probabilsticos nos aseguran la representatividad de la muestra extrada y son,
por tanto, los ms recomendables.
En el Muestreo Aleatorio Simple se asigna un nmero a cada elemento de la
poblacin y a travs de algn medio mecnico (papeletas, nmeros aleatorios
generados por la calculadora o e l Excel, etc) se eligen tantos sujetos como sea
necesario para completar el tamao de muestra requerido.
En el Muestreo Aleatorio Sistemtico todos los elementos de la poblacin,
deben estar ordenados en una lista en la cual se toman grupos para
seleccionarlos elementos al azar haciendo desplazamientos sistemticos. La
manera de la seleccin depende del nmero de elementos incluidos en la
poblacin y el tamao de la muestra. El nmero de elementos en la poblacin
es, primero, dividido por el nmero deseado en la muestra. El cociente indicar
si cada dcimo, cada onceavo, o cada centsimo elemento en la poblacin va a
ser seleccionado. El primer elemento de la muestra es seleccionado al azar.
La muestra sistemtica puede dar la misma precisin de estimacin acerca de
la poblacin, que una muestra aleatoria simple cuando los elementos en la
poblacin estn ordenados al azar.
En el muestreo aleatorio estratificado se divide la poblacin en grupos
homogneos al interior, de donde se extraen al azar de cada grupo un cierto
nmero de elementos. Lo que se pretende con este tipo de muestreo es
asegurarse de que todos los estratos de inters estarn representados
adecuadamente en la muestra. Cada estrato funciona independientemente,
pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el
estratificado para elegir los elementos concretos que formarn parte de la
muestra.
Las estimaciones de la poblacin, basadas en la muestra
estratificada, usualmente tienen mayor precisin (o menor error muestral) que
si la poblacin entera muestreada mediante muestreo aleatorio simple. El
nmero de elementos seleccionado de cada estrato puede ser proporcional o
desproporcional al tamao del estrato en relacin con la poblacin.
En el
Muestreo Aleatorio por Conglomerados el universo se divide en
grupos que son muy heterogneos al interior y homogneos al exterior. Luego
se selecciona y luego se toman todos los elementos del grupo o parte de ellos.

38

Una muestra de conglomerados, usualmente produce un mayor error muestral


que una muestra aleatoria simple del mismo tamao. En una localidad pueden
vivir gente pobre como tambin pueden vivir puede vivir gente acomodada.
Muestreo con reposicin y sin reposicin.
Cuando un elemento se toma para ser parte de la muestra, con el se puede
tomar la decisin de no regresarlo a la poblacin y tener la opcin de volverlo a
seleccionar o excluirlo definitivamente de la poblacin. En el primer caso se
habla de muestreo con reposicin y en el segundo muestreo con reposicin. En
el primer caso la probabilidad entre u ensayo y otro se mantiene constante, es
decir equivale a trabajar con una poblacin infinita.
5.2
Distribuciones de medias muestrales.
Una distribucin de medias muestrales consiste en tomar todas las posibles
muestra de cierto tamao de una poblacin y con ellas hacer el clculo de las
medias para encontrar la distribucin de probabilidad.
Como ejemplo podemos suponer que una poblacin est compuesta por cinco
elementos cuyos valores son S = {1,2,3,4,5}.
La media de esa poblacin es = 3.0 con una varianza de 2 = 2.0
Se van a tomar todas las muestras de tamao 2 con reemplazamiento lo que
equivale a trabajar con una de tamao infinito, pues la probabilidad entre un
ensayo y otro no cambia.
Los clculos se encuentran en el archivo de Distri muestal-xls

39

Se observa que la media Poblacional () es igual a la media de todas la media


de tamao 2 ( ( X = 3.0) = 3.0).
No ocurre lo mismo con la varianza, pues la varianza poblacional es 2.0; 2 =
2.0, mientras que la varianza de las medias muestrales es 1.0
2 2
= =1
2 =
n 2
2

Si 2 =
entonces =
,
n
n

donde
L es el error es tan dar del muestreo para poblaciones inf initas.
n
X

Si ahora tomamos todas las muestras posibles de tamao 2 pero con


reemplazamiento, loo que equivale a decir que se tiene una poblacin finita,
pues la probabilidad entre un ensayo y otro cambia.
Los resultados se pueden ver en el archivo XXXXX

40

Se observa que la media muestral es igual a la media poblacional X =


Pero la relacin entre la varianza de las medias muestrales y la varianza
poblacional es
N-n
2 N-n
*
; donde
; se le conoce como factor de correcin para poblacin finita
X2 =
n N -1
N -1

41

El mismo procedimiento se puede aplicar la misma poblacin pero tomando


muestras de tamao 3.

Un resultado importante de este anlisis es que a pesar que la distribucin de


probabilidades de la poblacin original es uniforme, las distribuciones de
probabilidad de las medias muestrales tienen forma normal y entre mayor sea
el tamao de la muestras, mayor es la aproximacin.
5.2
Teorema del Lmite central
De los anteriores resultados se obtiene una conclusin importante para
determinar el tamao de la muestra.
E! teorema de lmite central establece que para muestras aleatorias grandes, la
distribucin de probabilidad para las medias mustrales, se acerca a una
distribucin del tipo normal. La aproximacin es ms exacta en la media que la
muestra es ms grande que para pequeas. Esta es una de las conclusiones
ms tiles en Estadstica. Se puede razonar acerca de la distribucin de las
medias mustrales sin contar con alguna informacin respecto de la forma de

42

la distribucin original de la cual se toma la muestra. En otras palabras, el


teorema de lmite central es cierto para todas las distribuciones.
El teorema del lmite central dice que al seleccionar muestras aleatorias
simples de tamao n de una poblacin, la distribucin muestral de la media
muestral X se puede aproximar a una distribucin de probabilidad normal,
cuando el tamao de la muestra es grande.
Si la poblacin est distribuida normalmente, entonces, para cualquier tamao
de muestra, la distribucin de la media muestral tambin ser normal. Si la no
es normal, es posible que se necesiten muestras de al menos 30 elementos
para observar el aspecto de normalidad. La mayor parte de los estadsticos
consideran que una muestra de 30 o mayor, es suficiente para que se emplee
el teorema de lmite central.
5.4
Determinacin del tamao de la muestra
Partiendo que el muestreo es la forma cientfica para que a partir de los
resultados obtenidos en una muestra se infiera valores para la poblacin, la
muestra debe ser representativa de la poblacin en lo que se refiere a la
caracterstica en estudio, o sea, la distribucin de la caracterstica en la
muestra debe ser aproximadamente igual a la distribucin de la caracterstica
en la poblacin. Cualquier informacin obtenida de una muestra se le conoce
como estadstico y a partir de l se puede estimar los valores equivalentes
poblacionales o parmetro.
La Inferencia estadstica se trata de estimar los parmetros poblacionales a
partir de las estadsticas obtenidas en la muestra. Para que los resultados
obtenidos de los datos muestrales se puedan extender a la poblacin, la
muestra debe ser representativa de la poblacin en lo que se refiere a la
caracterstica en estudio, o sea, la distribucin de la caracterstica en la
muestra debe ser aproximadamente igual a la distribucin de la caracterstica
en la poblacin.
La diferencia entre el estadstico y el parmetro poblacional se le conoce como
el error muestral o de estimacin. Midiendo la variabilidad de las estimaciones
de muestras repetidas en torno al valor de la poblacin, nos da una nocin
clara de hasta dnde y con qu probabilidad una estimacin basada en una
muestra se aleja del valor que se hubiera obtenido por medio de un censo
completo. Siempre se habr un error, pero as podemos saber hasta qu
medida podemos cometerlo (los resultados se someten a error muestral e
intervalos de confianza que varan muestra a muestra). El estadstico ser ms
preciso en cuanto y tanto su error es ms pequeo.
La representatividad en estadstica se logra con el tipo de muestreo adecuado
que siempre incluye la aleatoriedad en la seleccin de los elementos de la
poblacin que formaran la muestra. Sin embargo, tales mtodos solo nos
garantizan una representatividad muy probable pero no completamente segura.

43

Ahora trataremos de resolver a pregunta Cul es el nmero adecuado de


elemento que se debe analizar u menor error?
Si con el muestreo se trata de estimar la media poblacional de la variable
caracterstica de poblacin, se debe tener en cuenta la varianza, bien sea que
se conozca de antemano no. El error estndar del muestreo est asociado con
la varianza de la poblacin.
Esto nos lleva a que en la determinacin del tamao d e la muestra de debe
tener en cuenta los siguientes aspectos
Nivel de Confianza. Es la probabilidad de que el parmetro poblacional est
en el error estimado Cualquier informacin que queremos recoger est
distribuida segn una ley de probabilidad (Gauss o Student), as llamamos nivel
de confianza a la probabilidad de que el intervalo construido en torno a un
estadstico capte el verdadero valor del parmetro.
Varianza Poblacional. Cuando una poblacin es ms homognea la varianza
es menor y el nmero de entrevistas necesarias para construir un modelo
reducido del universo, o de la poblacin, ser ms pequeo. Generalmente es
un valor desconocido y hay que estimarlo a partir de datos de estudios previos.
La representatividad en estadstica se logra con el tipo de muestreo adecuado
que siempre incluye la aleatoriedad en la seleccin de los elementos de la
poblacin que formaran la muestra. No obstante, tales mtodos solo nos
garantizan una representatividad muy probable pero no completamente segura.
Despus de estos preliminares imprescindibles es posible pasa a tratar algunas
de las formas que desde el punto de vista cientfico se puede extraer una
muestra.
En la determinacin del tamao de la muestra se busca que con un nivel de
confianza y un cierto error asociado con el tipo de
poblacin
El primer factor se llama nivel de confianza (1-) ,
que en la probabilidad que la media poblacional est
en un cierto intervalo asociado con el error que se
puede permitir.
Tamao de la muestra para estimar la media poblacional para poblaciones
infinitas est dada por
n=

Z12 / 2 * 2
E2

Donde Z es el nivel de confianza y E es el error estndar

permitido.

44

Tamao de la muestra para estimar la media poblacional para poblaciones


finitas est dada por
N 2 * Z12 / 2 * 2
n= 2
E *( N 1) + Z12 / 2 * 2 Donde Z es el nivel de confianza y E es el error
estndar permitido y N es el tamao de la poblacin
Tamao de la muestra para estimar la proporcin poblacional para poblacin
infinitas est dada por.
n=

Z12 / 2 * P * Q

Donde Z es el nivel de confianza, P es la probabilidad de

xito, Q=1-P, la probabilidad de fracaso. y es el error estndar permitido.


Tamao de la muestra para estimar la proporcin poblacional para poblacin
infinitas est dada por.
N 2 * Z12 / 2 * P * Q
n= 2
*( N 1) + Z12 / 2 * P * Q Donde Z es el nivel de confianza, P es la

probabilidad de xito, Q=1-P, la probabilidad de fracaso, es el error estndar


permitido y N es el tamao de la poblacin
Ejemplo 1. Encuestas pasadas indican que los clientes de una empresa pedan
en promedio 2500 unidades con una desviacin de 600 unidades. Para
actualizar la opinin de los clientes hacia la empresa se va a aplicar una
encuesta a una parte de los elementos de la poblacin. De qu tamao debe
ser la muestra si se quiere un nivel de confianza del 90% y un error de 100.
En este caso.

= 600, 1-a = 0.90; E = 100; 1-/2 = 0.95; Z = 1.64

1.642 * 6002
n=
= 96.82; Se deben aplicar 97 encuestas.
1002
Cuando no se conoce el valor de la varianza 2, poblacional inicial, se puede
encontrar a travs de una prueba piloto.
Ejemplo 2. En una reciente encuesta realizada a los consumidores de un
producto se obtuvo que el 80% estaban satisfechos con la calidad. El gerente
del producto quiere actualizar esta informacin, por lo que le ha pedido a usted

45

que realice una encuesta que tenga un nivel de confianza del 0.95 y un error
del 5%. De qu tamao deber de ser la muestra?
En este caso.

n=

P = 0.8, 1- = 0.95; E = 100; 1-/2 = 0.975; Z = 1.64

1.962 * 0.8 * 0.2


= 245.8624 . Se deben hacer 246 encuestas.
(0.05) 2

Cuando no se conoce el valor de la proporcin poblacional inicial, se puede


encontrar a travs de una prueba piloto o simplemente tomando a P = 0.5 y Q =
0.5
Las respuestas de los ejercicios anteriores se encontraron utilizando el Excel.

El siguiente figura se muestra un anlisis de sensibilidad en Excel para


determinar el tamao de la muestra cuando se quiera estimar la media
poblacional.

El siguiente figura se muestra un anlisis de sensibilidad en Excel para


determinar el tamao de la muestra cuando se quiera estimar el promedio
poblacional.

46

Unidad 6. Estimacin por intervalo.


6.1 Intervalos de confianza.
En la determinacin del tamao de la muestra se tuvieron en cuenta el nivel de
confianza y el error buscando que al estimar los parmetros poblacionales
fueran lo ms confiables posibles.
Una vez aplicada la encuesta a la muestra se debe hacer las estimaciones de
los parmetros poblacionales.
Para hacer esas estimaciones se puede utilizar cualquiera de los estadsticos
de la muestra. El estadstico que se usa para hacer la estimacin del
parmetro poblacional se le denomina estimador puntal. Usualmente se usan
como estimadores puntales la muestra. La media de la muestra es una
estimacin puntual de la media poblacin. La media muestral no es el nico
valor que se podra usar para estimar la media poblacional. Tambin se podra
usar la mediana muestral, aunque no es tan eficiente, lo que significa que hay
ms dispersin en la distribucin de las dispersiones.
Los estimadores puntuales usados son:
Estadstico muestral
Parmetro poblacional
X

p
P
S
2
La media muestral es una estimacin puntual de la media poblacional. p es
una puntual de la proporcin poblacional y s, la desviacin estndar muestral,
es una estimacin puntual de , la desviacin estndar poblacional.
Pero como la estimacin puntual no da mucha informacin acerca del
parmetro poblacional, se necesita mayor informacin por lo que el intervalo de
confianza cumple este propsito.

47

El intervalo de confianza Es el conjunto de valores obtenido a partir de los


datos muestrales en el que hay una determinada probabilidad de que se
encuentre el parmetro poblacional. Esta probabilidad se le conoce como el
nivel de confianza.
Por ejemplo, en una encuesta se encontr que en una determinada regin el
ingreso mensual promedio de los trabajadores de la construccin es 2.5 SMLM.
Un intervalo podr ser que el salario promedio global este entre 2 y 3 SMLM. Y
cul es la seguridad que eso sea as? Se podr indicar que se tiene una
seguridad del 90% que eso es as.
La informacin que se tiene acerca de la forma de la distribucin muestral de la
media muestral, es decir de la distribucin muestral de X, permite localizar un
intervalo que tenca una determinada probabilidad de contener a la media
poblacional.
Si el tamao de la muestra es razonablemente grande, el teorema del lmite
central permite establecer lo siguiente:
1. El noventa y cinco por ciento de las medias mustrales obtenidas de
una. poblacin se e encuentran a no ms de 1.96 desviaciones
estndar de la media poblacional.
2. El noventa y nueve por ciento de las medias poblacionales se
encuentran a no ms de 2.58 desviaciones estndar de la media
poblacional
La probabilidad de que el verdadero valor del parmetro se encuentre en el
intervalo construido se denomina nivel de confianza, y se denota 1-. La
probabilidad de equivocarnos se llama nivel de significancia y se simboliza con
. Generalmente se construyen intervalos con confianza 1- = 95% (o
significancia =5%). Menos frecuentes son los intervalos con = 10% o = 1%.
En la distribucin normal P(-1.96 < z < 1.96) = 0.95, lo que indica que si una
variable tiene distribucin normal N(; ), entonces el 95% de las muestras
cumplen que

1.96

1.96 , donde X =

, error estndar del

muestreo
Despejando se tiene que X 1.96 *

X + 1.96 *

con una probabilidad

de 1-
Esto quiere decir que de 100 muestras de tamao n, 95 contienen la media
poblacional , cuando la variable X es normal y se conoce .

48

6.2
Estimacin para la media poblacional. Muestras grandes.
Cuando el tamao de la muestra es grande o la variable tiene distribucin
normal, el intervalo de confianza est dado por
X Z / 2 *

X + Z / 2 *

P X Z / 2 *
X + Z / 2 *
= 1
n
n

Como el error estndar est afectado por el tamao de la muestra, este a su


vez afecta el intervalo de confianza. Conforme aumenta el tamao de la
muestra, el error estndar disminuye, indicando esto que hay menos
variabilidad en la distribucin muestral de a media muestral. La estimacin
obtenida de una muestra grande ser ms precisa que una estimacin obtenida
de una muestra pequea.
Cuando el tamao de la muestra n es mayor o igual a 30, se aplica el teorema
de lmite central asegura que la media muestral sigue la distribucin normal. Si
la media muestral tiene una distribucin normal, se puede usar la distribucin
normal estndar, es decir, z, para los clculos.
Ejemplo. En una encuesta aplicada a 1600 colombiano se encontr que en
promedio ven 14.6 horas de televisin a la semana con una desviacin
estndar de 5 horas. Realice una estimacin de la variable con para un nivel
de confianza del 80%.
n = 1600; X = 14.6 horas; = 5 horas; 1 - = 0.80; Z0.80 = 1.28

5
5
P 14.6 1.28 *
14.6 + 1.28 *
= 0.80
1600
1600

P[14.44 14.76] = 0.80

Los colombiano ven televisin en promedio entre 14.4 y 14.76 horas con un
nivel de confianza del 80%

49

6.3
Estimacin para la media poblacional. Muestras pequeas.
Cuando el nmero de observaciones es menor de 30, la estimacin del
intervalo se basa en las suposiciones que si la poblacin es normal o que si se
conoce ls desviacin estndar de la poblacin.
En caso que la muestra sea pequea, menor de 30, y se conozca la varianza
de la poblacin 2, el intervalo de confianza es.
X Z / 2 *

X + Z / 2 *

Cauno el tamao de la muestra sea pequeo y no se conozca la varianza


poblacional 2 , se utiliza la desviacin estndar de la muestra s, y la
distribucin de probabilidad t.
La distribucin de probabilidad t o distribucin t de Student es una distribucin
de probabilidad que surge del problema de estimar la media de una poblacin
normalmente distribuida cuando el tamao de la muestra es pequeo. sta es
la base del popular test de la t de Student para la determinacin de las
diferencias entre dos medias muestrales y para la construccin del intervalo de
confianza para la diferencia entre las medias de dos poblaciones.
La distribucin t surge, en la mayora de los estudios estadsticos prcticos,
cuando la desviacin tpica de una poblacin se desconoce y debe ser
estimada a partir de los datos de una muestra.
La distribucin te tiene las siguientes caractersticas.

Al igual que la distribucin Z, es una distribucin continua

La distribucin t tiene una media de cero, es simtrica respecto de la


v
para v > 2.
media y se extiende de - a + la varianza de t es
v+2
Cuando los grados de libertad son suficientemente grandes la varianza de
la distribucin t tiende a 1.

Tiene forma acampanada y simtrica.

No hay una distribucin t, sino una "familia" de distribuciones t. todas con


la misma media cero, pero con su respectiva desviacin estndar
diferente de acuerdo con el tamao de la muestra n. Existe una
distribucin t para una muestra de 20, otra para una muestra de 22, y as
sucesivamente.

La distribucin t es ms ancha y ms plana en el centro que la distribucin


normal estndar como resultado de ello se tiene una mayor variabilidad
en las medias de muestra calculadas a partir de muestras ms pequeas.
Sin embargo, a medida que aumenta el tamao de la muestra, la
distribucin t se aproxima a la distribucin normal estndar.

50

Para la estimacin del intervalo de confianza, el valor de t depende de los


grados de libertad, n-1, (fila) y del nivel de confianza.
Por ejemplo para un niel de confianza de 90% y 5 grados de libertad, t =
2.01505

6.4 Intervalo de confianza para muestras pequeas donde no se conoce


la varianza poblacional.
X t*

s
n

X +t*

s
n

s
s

; P X t *
X +t*
= 1
n
n

Ejemplo. En una encuesta aplicada a 10 personas de la calle se encontr que


en promedio ven 2.5 horas de televisin al da con una desviacin estndar de
0.8 horas. Con un nivel de confianza del 95% estime el intervalo d confianza

51

para la media poblacional.


En ese caso

n = 10; X = 2.5; s = 0.8 horas;1 = 0.95, por lo tan to; t 9;0.95 = 2.262
0 .8
0. 8

P 2.5 2.262 *
2.5 + 2.262 *
= 0.95
10
10

P[1.92775 3.0722] = 0.95

Se estima que la poblacin debe ver en promedio entre 1.93 horas y 3.07 horas
de televisin al da, con un nivel de confianza del 95%

6.4

Estimacin para la proporcin poblacional. Muestras grandes

Todo el anlisis para la estimacin de la media poblacional para muestras


grandes se aplica para determinar la proporcin poblacional
pZ*

p * (1 p )
p+Z*
n

p * (1 p )
n

P p Z *

p * (1 p )
X +Z*
n

p * (1 p )
= 1
n

nmero de xitos
n
Ejemplo. La cadena de televisin TVK est considerando la posibilidad de
sustituir una de sus series policiales por una serie de comedia con orientacin
familiar. Antes de tomar una decisin, los directores de la red toman una
muestra de 400 televidentes. Despus de ver la nueva serie, 250 indican que s
la veran y sugieren que reemplace a la serie policaca. Estime el valor de la
proporcin poblacional con un nivel de 99%
n = 400; X = 250; p = 400/250 = 0.625; q = 1-0.625 = 0.375; 1- = 0.99; Z
0.995 = 2.58
Recuerde que p =

0.625 * 0.375
0.625 * 0.375
0.625 + 2.58 *
P 0.625 2.58 *
= 0.99
400
400

P[0.6008 0.6492] = 0.99

52

Entre el 60.08% y el 64.92% de los televidentes aceptna el cambio de


programa

6.5 Estimacin para la proporcin poblacional. Muestras pequeas


Todo el anlisis para la estimacin de la proporcin poblacional para muestras
grandes se aplica para determinar la proporcin poblacional par muestras
pequeas.
p t*

p * (1 p )
p+t*
n

p * (1 p )
n

P p t *

p * (1 p )
p+t*
n

p * (1 p )
= 1
n

Ejemplo. Un periodista estaba preguntando en la calle sobre la opinin que


tienen los transentes sobre la pena de muerte. De las 25 persona a las que
se les pregunt, 20 estuvieron de acuerdo. Encontrar el intervalo de confianza
con un nivel de confianza del 95%.
n = 425; X = 20; p = 20/25 = 0.80; q = 1-0.8 = 0.20; 1- = 0.95; t24;0.95 = 2.0639

0 .8 * 0 .2
0 .8 * 0 .2
P 0.80 2.0639 *
0.80 + 2.0639 *
= 0.95
25
25

P[0.634888 .965112] = 0.95

Segn los transentes, entre el 63.49% y el 96.51% de los transentes estn


de acuerdo con la pena de muerte.

53

6.7

Anlisis de sensibilidad en Excel para la estimacin del intervalo.

54

UNIDAD 7. PRUEBA DE HIPTESIS


7.1 Definicin de Hiptesis Nula y Alterna
La estadstica inferencial es el proceso de usar la informacin de una muestra
para describir el estado de una poblacin. Sin embargo es frecuente que
usemos la informacin de una muestra para probar un reclamo o conjetura
sobre la poblacin. El reclamo o conjetura se refiere a una hiptesis. El
proceso que corrobora si la informacin de una muestra sostiene o refuta el
reclamo se llama prueba de hiptesis.
En la prueba de hiptesis se pone a prueba un reclamo hecho sobra la
naturaleza de una poblacin a base de la informacin de una muestra. El
reclamo se llama hiptesis estadstica.
Hiptesis es una aseveracin acerca de una poblacin.
Hiptesis Estadstica: Una hiptesis estadstica es una afirmacin acerca de
un parmetro poblacional, hecho con el propsito de ponerlo a prueba.
Por ejemplo, la premisa formulada por un productor de bateras para autos de
que su batera dura en promedio 48 meses, es una hiptesis estadstica porque
el manufacturero no inspecciona la vida de cada batera que l produce. Si
surgieran quejas de parte de los clientes, entonces se pone a prueba el
reclamo del manufacturero.
El procedimiento para mostrar si la afirmacin es vlida o no, se conoce como
prueba de hiptesis. Ese procedimiento esta basado sobre los resultados de un
muestra realizada para tal fin.
La hiptesis estadstica sometida a prueba se llama la hiptesis nula, y se
denota como H0.
La hiptesis Nula (H0) es la afirmacin o conjetura que se hace sobre el
parmetro poblacional.
En caso que no se logre tomar como vlida la hiptesis nula se debe tener una
afirmacin alterna que se debe dar como vlidas y conocida cono la hiptesis
alterna que se denota como H1
Hiptesis Alterna: Una premisa que es cierta cuando la hiptesis nula es
falsa.
Por ejemplo, para el productor de bateras
Por ejemplo, para probar o desaprobar el reclamo pronunciado por el productor
de bateras debemos probar la hiptesis estadstica de que 48. Por lo
tanto, la hiptesis nula es:

55

H0 : 48

H1 : < 48

Luego de tener H0 y H1 se procede a tomar una muestra aleatoria de bateras y


medir su vida media.
Para probar si la hiptesis nula es cierta, se toma una muestra aleatoria y se
calcula la informacin, como el promedio, la proporcin, etc. Esta informacin
muestral se llama estadstica de prueba.
7.2 Tipos de Errores
A base de la informacin de una muestra nosotros podemos cometer dos tipos
de errores en nuestra decisin.

Rechazar H0 siendo que es cierta. Error tipo 1


Aceptar H0 siendo que es falsa. Error tipo 2
El error Tipo 1 se da cuando se rechaza la Hiptesis Nula siendo que es
vlida.
El error Tipo 2 se da cuando aceptamos la Hiptesis Nula siendo que es falsa.
7.3 Nivel de Significancia ()
Para ser muy cuidadosos en no cometer el error tipo 1, debemos especificar la
probabilidad de rechazar H0, denotada por .
El nivel de significancia es la probabilidad de cometer el error tipo I. Este valor
debe ser pequeo.
Los valores ms usados para hacer prueba de hiptesis es 1%, 5% y 10%.
Usando un valor preasignado de se construye una regin de rechazo o regin
crtica en la curva normal estndar o en la curva t que indica si debemos
rechazar H0 o aceptarla.

Regin Crtica o de Rechazo. Una regin crtica o de rechazo es una parte


de la curva de z o de la curva t donde se rechaza H0. La regin puede ser de
una cola o de dos dependiendo de la Hiptesis Alterna. Si la hiptesis alterna
es H1: > k, la cola es hacia la derecha, si H1: < k, la cola es hacia la
derecha, o si H1: = k, son dos coas.

56

7.4 Prueba de Hiptesis Unilaterales y Bilaterales sobre la Media


Si queremos decidir entre dos hiptesis que afectan a un cierto parmetro de la
poblacin, a partir de la informacin de la muestra usaremos el contraste de
hiptesis, cuando optemos por una de estas dos hiptesis, hemos de conocer
una medida del error cometido, es decir, cuantas veces de cada cien nos
equivocamos.
En primer lugar, veremos cmo se escribiran las hiptesis que queremos
contrastar:
H0 se llama hiptesis nula y es lo contrario de lo que sospechamos que va a
ocurrir (suele llevar los signos igual, mayor o igual y menor o igual)
H1 se llama hiptesis alternativa y es lo que sospechamos que va a ser cierto
(suele llevar los signos distinto, mayor y menor). Los contrastes de hiptesis
pueden ser de dos tipos:
Bilateral: En la hiptesis alternativa aparece el signo =.
Unilateral: En la hiptesis alternativa aparece o el signo > o el signo <.
Nivel de significancia . Es la probabilidad de cometer un error de tipo I. es
la probabilidad de cometer un error de tipo II. De los dos, el ms importante es

Debido a que los dos errores anteriores a la vez son imposibles de controlar,
vamos a fijarnos solamente en el nivel de significacin, este es el que nos
interesa ya que la hiptesis alternativa que estamos interesados en probar y no
queremos aceptarla si en realidad no es cierta, es decir, si aceptamos la
hiptesis alternativa queremos equivocarnos con un margen de error muy
pequeo.
El nivel de significacin lo marcamos nosotros. Si es grande es ms fcil
aceptar la hiptesis alternativa cuando en realidad es falsa. El valor del nivel de
significacin suele ser un 5%, lo que significa que 5 de cada 100 veces
aceptamos la hiptesis alternativa cuando la cierta es la nula.
Ejemplos

Para H1: > valor aceptado, la regin de rechazo est dada


por:
(cola derecha, z* t*)

Para H1 : < valor aceptado, la regin de rechazo est dada por


(cola izquierda, z* t*)

Para H1 : k valor aceptado, la regin de rechazo es de dos colas y est


dada por

/2

/2
57

(2-colas, Z* t*)
Ejemplo 1: Determine si la regin de rechazo es de la cola derecha, de la cola
izquierda o de dos colas.

Solucin:
a.

a. H0 : = 15,

H1 : 15, =.05

b. H0 : p 0.7,

H1 : p > 0.7, =.02

La forma de la regin de rechazo est determinada por la hiptesis


alterna.
H1 : 15 significa que la regin est en ambas colas.
.05/2

b.

.05/2

H1 : p > 7 significa que la regin est en la cola derecha.

.02
Ejemplo 2:

En el Ejemplo 1a, presumamos que la regin de rechazo es parte de


la curva normal estndar. Complete el dibujo de la regin crtica
para los valores siguientes:
a. = .05

Solucin:
a.

Del ejemplo 1(a), tenemos:

.05/2=0.025
-1.96
Ejemplo 3:

.05/2=0.025
1.96

De la tabla de la distribucin
normal, la
P(Z<z) =.025 corresponde a un
valor Z= -1.96. Por simetra la

En el ejemplo 1a, presumamos que la regin de rechazo es parte de la


curva t. Complete el dibujo de la regin de rechazo para:
a. = .05 y = 14

Solucin:
a.

Del ejemplo 1(a), = .05, y = 14, tenemos:

58

.05/2=0.025
-2.086

Ejemplo 4:

Solucin:
a.

d.

.05/2=0.025
2.086

De la tabla de la distribucin t, la
P(T<t) =.025 corresponde a un
valor t= -2.086. Por simetra la
P(T>t)=.025 corresponde a t=

Establezca las hiptesis nula y alterna.


a. Las millas por galn (mpg) promedio de un nuevo modelo
de automvil es 32.
b. Ms del 65% de los empleados de un colegio aportan a
Fondos Unidos.
c. En promedio, los empleados de cierta compaa viven a no
ms de 15 millas de la misma.
d. Al menos un 60% de la poblacin adulta de una comunidad
votar en las prximas elecciones Presidenciales.
e. El peso promedio de un pollo para asar es de al menos
cuatro libras.

H0 : = 32
H1 : 32

b.

H0 : p .65
H1 : p < .65

H0 : p .6
H1 : p < .6

e.

H0 : 4
H1 : < 4

c.

H0 : 15
H1 : > 15

EJERCICIOS
En los ejercicios (1-6) determine si la regin de rechazo para la hiptesis nula
est en la cola izquierda, en la cola derecha, o ambas colas. Para el nivel de
significancia dibuje la regin de rechazo.
1. H0 : 11; H1 : > 11 2. H0 : 5.8; H1 : < 5.8

3. H0 : p = 0.4; H1 : p 0.4 4. H0 : = 110; H1 : 110


5. H0 : p 0.3; H1 : p < 0.3 6. H0 : p 0.8; H1 : p < 0.8

En los ejercicios (7 - 18) complete la regin de rechazo (encuentre el valor de z y t).

7.
a) z, si = .05
b) t, si = .025 y = 9

8.

9.

a) z, si = .01

b) t, si = .05 y = 13

a) z, si = .02

b) t, si = .01 y = 5

59

a) z, si = .025

10.

11.

/2

/2

12.

/2

/2

b) t, si = .01 y = 9

a) z, si = .05

b) t, si =.05 y = 10

a) z, si = .01

b) t, si =0.1 y = 7

En los ejercicios (13 - 18) establezca las hiptesis nula y alterna.


13.

Los automviles estacionados en el estacionamiento de periodo


prolongado del aeropuerto internacional de Baltimore permanecen
un promedio de 2.5 das.

14.

Una nueva marca de llantas radiales dura en promedio ms de


48,000 millas.

15.

El balance promedio de una cuenta de cheques en el First State


Bank es de al menos $150.

16.

Se reclama que al menos el 60% de las compras realizadas en


cierta tienda por departamentos son artculos de especiales.

17.

Se reclama que el 20% de los graduados de cierto colegio privado


solicitan admisin a escuelas de medicina.

18.

Un dentista reclama que el


enfermedades en las encas.

5% de sus pacientes sufren

7.4.1 Muestras Grandes


En las pruebas de hiptesis para la media (), cuando se conoce la desviacin
estndar () poblacional, o cuando el valor de la muestra es grande (30 o ms),
el valor estadstico de prueba es z y se determina a partir de:

El valor estadstico z, para muestra grande y desviacin estndar poblacional


desconocida se determina por la ecuacin:

60

7.4.2 Muestras Pequeas


En la prueba para una media poblacional con muestra pequea y desviacin
estndar poblacional desconocida se utiliza el valor estadstico t.

Procedimiento para una prueba de hiptesis


Los pasos a seguir son:
1. Formular la hiptesis nula H0 y la alternativa H1, de acuerdo al problema.
2. Escoger un nivel de significacin o riesgos .
3. Elegir la estadstica de prueba apropiada, cuya distribucin por muestreo
sea conocida en el supuesto de que Ho es cierta.
4. En base a y H1, determinar el valor (o los valores) crticos y con ello se
establecen las regiones de aceptacin o rechazo.
5. Calcular los valores de la prueba estadstica a partir de una muestra
aleatoria de tamao n, Ho y reemplazarlos en la estadstica de prueba
elegida en el paso 3, para hallar el valor experimental.
6. Tomar la decisin de aceptar Ho si el valor experimental cae en la regin
de aceptacin y rechazarla si dicho valor cae en la regin crtica o de
rechazo.
7. Opcional: Si se rechaza H0, se puede hallar un intervalo de confianza
para el parmetro de inters.
Prueba de hiptesis sobre la media poblacional

Caso A: Cuando la varianza poblacional es conocida.


Deseamos contrastar la hiptesis de que el parmetro poblacional = X toma
un determinado valor K Conocemos que la poblacin se distribuye
normalmente y conocemos tambin su varianza , o bien si nos es desconocida,
el tamao muestral es lo suficientemente grande cmo para poder utilizar la
muestral cmo poblacional.
Hemos determinado un nivel de significacin para la realizacin del
contraste y vamos a plantearlo en el supuesto de realizar una muestra
aleatoria de tamao n.

61

As:

conocemos

xu

que

x N u ,

de

lo

que

deducimos

que

N [0,1] de forma que la hiptesis nula es: H0: = .

El estadstico est dado por: Z =

xu

Ejemplo N 1. De 100 observaciones de una poblacin normal se obtiene


que x = 5 y que =2.Contrastar con un nivel de significacin del 5% la
hiptesis de que la media de la poblacin sea 7.
Aplicando el procedimiento para probar una hiptesis tenemos:
1. H0: =7
H1: 7
2. El nivel de significancia es del 5%. (=5%)
xu
3. Z =

n
4. Establecemos la regin de aceptacin y de rechazo:

5.

57
= 10
2
100
7. Dado que Z=-10 y no pertenece a la regin de aceptacin estamos en
condiciones de rechazar la hiptesis nula, luego aceptar la alternativa :
0 7.
6. Realizamos la prueba estadstica: Z =

Ejemplo N 2. Un empresario est considerando la posibilidad de ampliar su


negocio mediante la adquisicin de un pequeo bar. El dueo actual del bar
afirma que el ingreso diario del establecimiento sigue una distribucin
normal de media $675 y una desviacin estndar de $75 s. Para comprobar
si deca la verdad, tom una muestra de treinta das y sta revel un
ingreso diario promedio de $625. Utilizando un nivel de significacin del 10

62

%. Hay evidencia de que el ingreso diario promedio sea menor del que
afirma el presente dueo?.
Aplicando el procedimiento para probar una hiptesis tenemos:
1. H0: 675
H1: <675

2. El nivel de significancia es del 10%. (=10%)


xu
3. Z =

n
4. Establecemos la regin de aceptacin y de rechazo:

5.

625 675
= 3.65
75
30
7. Dado que Z=-3.65 y no pertenece a la regin de aceptacin estamos en
condiciones de rechazar la hiptesis nula, luego aceptar la alternativa:
6. Realizamos la prueba estadstica: Z =

< 7.

Caso B: Cuando no se conoce la varianza poblacional y para una muestra


pequea.
Deseamos contrastar la hiptesis de que el parmetro poblacional toma un
determinado valor . Desconocemos la varianza de la poblacin y, dado que el
tamao muestral es pequeo (menor o igual a 30), podemos utilizar varianza
en su lugar.
Hemos determinado un nivel de significacin para la realizacin del contraste y
vamos a plantearlo en el supuesto de realizar una muestra aleatoria de tamao
n menor o igual a 30.
En este caso el estadstico de prueba ser t =

X
s
n

63

Ejemplo . Se escoge a 17 individuos al azar y se les mide, resultando que su

estatura media es de 1,71 metros con desviacin tpica de 0,02 .Contrastar


la hiptesis de que la estatura media nacional sea de 1.75 metros si
utilizamos un nivel del significacin del 5%. Se supone normalidad
Aplicando el procedimiento para probar una hiptesis tenemos:
1. H0: = 1.75
H1: 1.75

2. El nivel de significancia es del 5%. (=5%).


3. Como n es meor de 30 se busca en la tabla para un nivel de caso t* = +/2.11991.

4. Establecemos la regin de aceptacin y de rechazo Utilizando la tabla T.

1.71 1.75
= 8.25
0.02
17
6. Dado que t=-8.25 y no pertenece a la regin de aceptacin estamos en
condiciones de rechazar la hiptesis nula, luego aceptar la alternativa:

5. Se calcula el estadstico de prueba. t =

1.75.

7.5 Prueba de Hiptesis sobre la Proporcin de una Poblacin p


Se trata de efectuar una prueba de hiptesis acerca de la proporcin
elementos con cierto atributo en una poblacin, hiptesis de la forma:

de

H0: P = p0.
H1: p p0.
H0: p p0.
H1: p > p0.
H0: p p0.
H1: p < p0.

Cuando el tamao de la muestra es mayor o igual a 30 el estadstico de prueba


es Z.

64

P p0
p 0 (1 p0 )
n
x
Donde P = (proporcin muestral)
n
Z=

Ejemplo 1. Una empresa de publicidad desea comprobar si un determinado


programa de televisin es visto por el 30% de la audiencia potencial .Para ello
se escoge al azar una muestra de 200 familias resultando que de ellas 50 lo
ven asiduamente. Contrastar la hiptesis con un nivel de significacin del 5%.
Aplicando el procedimiento para probar una hiptesis tenemos
1.

H0: p = 0.3
H1: p 0.30

2.

El nivel de significancia es del 5%. (=5%).

3.

Z* = +/- 1.96

4.

Establecemos la regin de aceptacin y de rechazo

5. Realizamos la prueba estadstica:


50
P=
= 0.25
200
P p0
0.25 0.30
=
= 1.54
Z=
0.3(1 0.3)
p0 (1 p0 )
200
n
6. Dado que Z=-1.54 y pertenece a la regin de aceptacin estamos en
condiciones de acepta la hiptesis nula, es decir: p=0,3
Un fabricante de refrescos sin burbujas desea sacar al mercado
una variedad de su producto que tenga burbujas. Su director comercial opina

Ejemplo.

65

que al menos el 50 % de los consumidores ver con buenos ojos la innovacin.


Se realiza un sondeo de mercado y resulta que de 100 consumidores
encuestados 40 son favorables a la innovacin.
a) Contrastar la hiptesis del director comercial frente a la alternativa de que el
% de aceptacin es inferior, con un nivel de significacin del 1%.
b) Si el aceptable la hiptesis de que el % de aceptacin del nuevo producto
es inferior o igual al 30 % el fabricante decidir no fabricarlo. Si es aceptable
el criterio del director comercial entonces s fabricarn el refresco con
burbujas. Y si ninguna de las 2 hiptesis es aceptable procedern a hacer
otro sondeo. Para tomar esta decisin trabajarn con un nivel de
significacin del 5 %. Por qu optarn?.
Para el punto a)
Aplicando el procedimiento para probar una hiptesis tenemos:
1.
H0: p 0.5
H1: p > 0.5

2.

El nivel de significancia es del 1%. (=1%).

3.

Z = 2.33

4.

Establecemos la regin de aceptacin y de rechazo:

5.

Realizamos la prueba estadstica: P =

Z=

P p0
=
p0 (1 p0 )
n

40
= 0.4
100

0.4 0.5
= 2
0.5(1 0.5)
100

6.
Dado que Z=-2 y pertenece a la regin de aceptacin estamos en
condiciones de aceptar la hiptesis nula, es decir: p 0,5.
Para el punto b)

66

Aplicando el procedimiento para probar una hiptesis tenemos:


1.
H0: p 0.3
H1: p > 0.3

2.

El nivel de significancia es del 1%. (=1%).

3.

Z = 2.33

4.

Establecemos la regin de aceptacin y de rechazo:

5. Realizamos la prueba estadstica:


40
P=
= 0.4
100
P p0
0.4 0.3
=
= 2.18
Z=
0.3(1 0.3)
p0 (1 p0 )
100
n
6. Dado que Z=2.18 y pertenece a la regin de aceptacin estamos en
condiciones de aceptar la hiptesis nula, es decir: p 0,3. Por lo tanto se
recomiendo no fabricar el refresco.
Clculo de la Probabilidad para el error tipo II
Analizaremos en forma completa los errores Tipo I y Tipo II, con respecto a las
prueba de una media hipottica. Sin embargo los conceptos que se ilustran
aqu son aplicables tambin a otros modelos de pruebas de hiptesis.
La probabilidad del error Tipo I es siempre igual al nivel de significancia que se
utiliza al probar las hiptesis nulas. Dicho de otra manera, hay todava una
probabilidad (valor de ) de que se pudiera elegir una muestra al azar que
diera una media comprendida dentro de la regin de rechazo las regiones de
rechazo. Ello hara que al rechazar la hiptesis nula siendo verdadera
cometiramos el error Tipo I.

67

La nica forma en que se puede determinar la probabilidad del error Tipo II


( ) es con respecto a un valor especfico incluido dentro del rango de la
hiptesis alternativa.
News & World Report public un artculo sobre la carrera de xitos de WalMart. Actualmente es la mayor cadena de ventas al por menor de la nacin.
Empez con una sola tienda de descuento en la pequea localidad de Rogers,
Arkansas, y a crecido hasta poseer 1300 tiendas en 25 estados. Este xito le
ha valido a Sam Walton, fundador y mayor accionista, el ttulo del hombre ms
rico de Amrica. Las ventas anuales se cifran en 15 millones de dlares por
tienda.
a) Si se elige al azar una muestra de 120 tiendas y se hallan unas ventas
medias de 15.39 millones de dlares, con una desviacin estndar de
2.9 millones de dlares. Pruebe la hiptesis = 15 millones con un nivel
de significancia del 10%
b) Si la es en realidad 14.8 millones de dlares, Cul es la probabilidad
de cometer el error Tipo II.
Datos
n = 120
X = 15.39 millones
= 2.9 millones
= .10

1.Establecer la hiptesis
Ho: = 15
H1: 15
2. Establecer la estadstica de prueba
X
Z=

2. Definir el nivel de significancia y la zona de rechazo

3.Nivel de significancia = 0.10


Zona de rechazo = { Z/ Z < -1.64 o Z/Z > 1.64 }

68

4. Calcular la estadstica de prueba Z =

el valor de la media poblacional

n
es el que esta a prueba en la hiptesis por lo tanto Z =

15.39 15
= 1.47
2.9
120

Como 1.47 < 1.64, No se rechaza Ho

5. Conclusin. Existe evidencia para decir que las ganancias anuales por
tienda son de 15 millones de dlares por tienda con un nivel de significancia
de 0.10.
Pasos para calcular el error Tipo II
1.
Plantear la hiptesis nula y alternativa para la prueba
Ho: = 15
H1: 15
2.
Determinar el valor crtico de la media muestral que debe utilizarse para
probar la hiptesis nula con un nivel de significancia dado.

Xc = Z / n
X = 15 (1.64) 2.9 / 120 = 14.5659
X = 15 (1.64) 2.9 / 120 = 15.4341

Identificar la probabilidad del error Tipo I correspondiente al valor crtico que se


calcul antes, como base para la regla de decisin. = 0 .10
Identificar la probabilidad del error Tipo II correspondiente a la regla de
decisin, dada una media alternativa especificada.

P (error Tipo II) = P (14.56 < X < 15.44)


Z=

15.4341 14.8
15.5659 14.8
= 2.40 ; Z =
= 0.88
2.9
2.9
120
10

P (error Tipo II) = P (-0.88 < Z < 2.40) = 0..8024

69

70

UNIDAD 8. REGRESIN Y CORRELACIN SIMPLES.


En la Estadstica descriptiva se analiz el comportamiento de una variable
aleatoria. En cada variable se hace un anlisis y luego se busc hacer un
estimado a cerca de un parmetro poblacional utilizando las tcnicas de
Estimacin por intervalo o un aprueba de hiptesis utilizando las distribuciones
de probabilidad.
Ahora se buscar analizar dos variables que de alguna forma podran tener un
relacin donde el resultado de una esta ligado al resultado de la otra variable.
El espacio muestral de un experimento con dos variables consiste en cierto
conjunto de pares ordenados de medidas. Es decir, se hacen dos
observaciones en cada prueba. Por ejemplo, en un almacn se puede observar
los descuentos y el volumen de ventas. Otro ejemplo podra ser que a cada
estudiante se observara su estatura y el peso. La tabulacin de los datos
podra tener las siguientes tablas de resultados.
Ejemplo 1:

Ejemplo 2:

El problema principal de la inferencia estadstica en una distribucin de dos


variables es el de determinar la verdadera relacin entre X y Y; es decir, cmo
se comportan las dos variables, una con respecto a la otra. Los almacenes con
alto descuento tendran mayores ventas. Estudiantes altos deberan tener
mayores pesos corporales.
El problema que se plantea es como se establece un tipo de relacin en forma
de ecuacin, de tal manera que basados en el valor de una X, se pueda hallar
una estimacin de la otra variable.
Una ecuacin de este tipo se conoce como una relacin de estimacin. El
procedimiento de estimacin es tambin una tcnica de prediccin, lo cual es
funcin fundamental de la ciencia, natural o social. En las ciencias naturales, la
prediccin se hace posible porque existe la relacin de causa y efecto entre
dos o ms variables.
Si existe una relacin funcional entre dos variables nos lleva a un tema
importante de la estadstica, el anlisis de regresin.
Si son dos variables las que se relacionan, la variable independiente se
designa por X; en tanto que la variable cuyo valor se va a estimar se llama la
variable dependiente y se designa por Y. Cuando se formula una ecuacin para
estimar Y a partir de X, sta se denomina una regresin de Y respecto de X.
La tcnica del anlisis de la regresin no es otra cosa que un procedimiento de
estimacin o prediccin. El trmino "regresin" es un trmino estadstico. Fue
introducido por primera vez en 1877 por Sir Francis Galton, quien encontr en
sus estudios sobre la herencia que los padres altos tendan a engendrar hijos

71

altos y que los padres bajos mostraban tendencia a tener hijos bajos. Pero con
todo, la estatura promedio de los hijos de padres muy altos era menor que la
estatura promedio de sus padres, en tanto que los hijos de padres muy bajos,
en promedio, eran ms altos que sus padres. Galton llam esta tendencia hacia
la estatura promedio de todos los hombres con el nombre de regresin.
Asociaciones parecidas en otros varios fenmenos fueron observadas por
Galton, quien entonces las generaliz como una ley universal de
comportamiento entre dos o ms variables asociadas.
El anlisis de la regresin se clasifica generalmente en dos tipos, simple y
mltiple. La regresin simple es aquella en que entran solamente dos variables,
tales como la regresin de Y respecto a X antes mencionada. La regresin
mltiple es aquella en la que intervienen tres o ms variables, una de las cuales
es la variable dependiente, la que se va a asociar con los valores de todas las
dems.
Por dems, el estudio se restringir a la regresin simple solamente o sea
aquella en que la ecuacin que describe la relacin entre X y Y es lineal y se
representa grficamente por una recta. A veces ocurre que una ecuacin de
regresin que describe de la mejor manera posible la relacin entre variables
resulta curvilnea; su representacin geomtrica es entonces una curva en vez
de una recta.
Cuando se encuentra que unas variables estn relacionadas entre s, suele ser
til averiguar cuan estrecha es la relacin. El grado de relacin entre stas se
denomina tambin correlacin entre las variables. El problema de correlacin
est ntimamente asociado al de la regresin y es parte integrante del anlisis
de dos variables.
El anlisis de correlacin es el conjunto de tcnicas estadsticas empleados
para medir la intensidad de la asociacin entre dos variables. El objetivo es
determinar que tan intensa es la relacin entre las dos variables.
Diagramas de dispersin. Es la grfica que representa la relacin entre las
dos variables.
La siguiente grfica muestra en una como estn relacionados la variable
descuento con el volumen de ventas. Es claro que entre mayor descuento se
ofrezca a los clientes mayor ser el volumen de venta. Hay una tendencia
creciente.

72

35

Ventas

30
25
20
15
10
1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Descuentos (%)

La siguiente grfica muestra en una como estn relacionados la variable


estatura con el volumen de peso. Se observa que a mayor estatura mayor
pesos. Hay una tendencia creciente.

100

Peso (Kgs)

90
80
70
60
50
40
155

160

165

170

175

180

185

Estatura (cm s)

Para hacer una estimacin se parte de la propuesta de un modelo. En el


anlisis de dos variables interesa un modelo particular, la recta de regresin
de la poblacin. sta, la cual se refiere a la poblacin, no puede ser conocida y
por tanto, debe ser estimada con base en los datos mustrales y se obtiene la
recta de regresin estimada. Como es de esperarse, para dar validez a las
conclusiones acerca de la citada recta, hay que fijar ciertos supuestos. Entre
los de mayor relevancia estn los siguientes:
1. Los valores de la variable dependiente X y Y se toman previamente. Se
consideran variables determinsticas. si su valor est prefijado de antemano en
el experimento.

73

2. Se supone que la relacin entre X y Y. est dada por la ecuacin: Yi = +


Xi + i, donde , son los parmetros poblacionales y i es el error por la
diferencia entre Yi y el valor esperado de Y como variable aleatoria
determinada por el valor de X en particular. La variable dependiente es la que
se predice o calcula mientras que la independiente es la base del clculo.

es la interseccin de la recta con el eje Y y es la pendiente de la recta de


regresin. Cuando es negativo, la recta es decreciente y si es positivo, la
recta de regresin es creciente. Otros autores se refieren al modelo de
regresin lineal con la ecuacin Y = A + B*X
35
30

Ventas

25
20
15

y = 10,201 + 5,2122x

10
5
0
0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Descuentos (%)

100

Peso (Kgs)

90

y = 1,4779x - 180,4

80
70
60
50
40
155

160

165

170

175

180

185

Estatura (cm s)

La representacin de los datos muestra lo que se conoce como nube de puntos


y el ubicar una lnea describe con la tcnica de mano alzada el modelo de
regresin, lineal o no lineal. Al analizar la grfica de una serie de datos se
puede observar que la tendencia tiene una de los siguientes formas.
1. Tendencia lineal creciente

74

2. Tendencia lineal creciente


3. Tendencia no-lineal creciente
4. Tendencia lineal decreciente.
8.2 Ecuacin del modelo de regresin lineal simple
Y = + * X ; donde Y se conoce comoY estimado y X , se conoce como estimado
Y = A + B * X
La tcnica para estimar los valores de y se conoce como anlisis de
regresin lineal. La ecuacin de regresin define la relacin entre dos variables.
Utilizando el mtodo de los mnimos cuadrados se puede llegar a determinar el
valor del coeficiente y el trmino independiente
El mtodo de los mnimos cuadrados consiste en minimizar la suma de los
cuadrados de las distancias verticales entre los valores verdaderos de Y y los
valores estimados de Y .
Las frmulas de y
Donde
n ( X i Yi ) ( X i )( Yi )
=
; =
2
n( X i2 ) ( X i )

X
n

= Y X

Ejemplo 1: Descuentos comparados con las ventas

10 * 675,6630 26.5 * 240.13


= 5.21119947
10 * 5981,9733 77,770

240.13
26,5
5,21119947 *
= 10.2033214
10
10

Modelo de regresin lineal Y = 10,2033214 + 5,21119947 * X

75

Trazado de la lnea de regresin


35
30

Ventas

25
20
15

y = 10,201 + 5,2122x

10
5
0
0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Descuentos (%)

Obsrvese en el grfico de dispersin anterior no todos los puntos quedan con


exactitud en la recta de regresin. Si todos hubieran quedado en la lnea y si el
nmero de observaciones hubiera sido suficientemente grande, no existira
error en el clculo del nmero de unidades vendidas. Dicho de otra forma, si
todos los puntos estuvieran en recta de regresin, las ventas podran
pronosticarse con una precisin de 100% Entonces no habra error al
pronosticar la variable Y con base en la variable X. Podemos tomar como
ejemplo los siguientes datos histricos de ventas.

Debido a que no hay diferencia entre los valores observados y los valores
pronosticados, no existe error en esta estimacin.
Obtener una prediccin perfecta en los aspectos de economa y administracin
es prcticamente imposible. Por ejemplo, los ingresos anuales provenientes de
ventas de gasolina (Y) con base en los registros de automviles (X) hasta cierta
fecha, sin duda podran aproximarse con gran exactitud, pero el pronstico no
sera preciso con redondeo a unidades monetarias enteras, o tal vez hasta el
millar de unidades monetarias. Aun los pronsticos de resistencia a la tensin
mecnica de los alambres de acero, con base en el dimetro externo de los
mismos, no siempre son exactos, debido a ligeras diferencias en la
composicin del acero.

76

Entonces, lo que se necesita es una medida que indique qu tan preciso es el


pronstico de Y con base en X o, por el contrario, cuan inexacta podra ser la
prediccin. A esta medida se le denomina error estndar de estimacin, el
cual se representa por sx,y (es el mismo concepto que el de la desviacin
estndar). La desviacin estndar mide la dispersin respecto a la lnea de
regresin.
Error estndar de estimacin. Es la medida de la dispersin de los valores
observados, con respecto a la lnea de regresin.
El error estndar de estimacin se determina aplicando la siguiente ecuacin.
Obsrvese que sta es muy semejante a la de la desviacin estndar de una
muestra.

(Y Y )

ERROR ESTANDAR DE LA ESTIMACION : S Y , X =

n2

10,83506
= 1.163779599
8
Las desviaciones
son las desviaciones verticales con respecto a la

Y
Y

i
recta de regresin. Deben sumar cero. Uno puntos estarn por encima de la
recta y los otros por debajo.
ERROR ESTANDAR DE LA ESTIMACION : S Y , X =

ERROR ESTANDAR DE LA ESTIMACION : S Y , X =

( Yi ) ( X i * Yi )
n2

77

8.3 Coeficiente de correlacin.


Es el valor que mide de laguna manera la intensidad de la relacin entre dos
conjuntos de variables.
Originado por el investigador KarI Pearson, aproximadamente en el ao 1900,
el coeficiente de correlacin describe la intensidad de la relacin entre dos
conjuntos de variables.
Como se le denota con r, con frecuencia se menciona tambin como r de
Pearson, o como coeficiente de correlacin. Puede tomar cualquier valor de 1.00 a +1.00, inclusive. Un coeficiente de correlacin de -1.00 o de +1.00 indica
una correlacin perfecta. Un valor de -1.00 indicara que las variables estn
perfectamente relacionadas en un sentido lineal negativo.

Si no existe en absoluto alguna relacin entre los dos conjuntos de variables, la


r de ser cero. Un coeficiente de correlacin r cercano a 0 (por ejemplo, 0.08)
indica que relacin es muy dbil. Se llega a la misma conclusin si r = -0.08.
Coeficientes de -0.91 +0.91 tienen igual fuerza; ambos indican una correlacin
muy intensa entre los dos conjuntos de variables. De modo que la fuerza de la
correlacin no depende de la direccin (ya sea /+).
En el diagrama se muestran diagramas de dispersin para r = 0, una r dbil
(por ejemplo, -0.23) y una r fuerte (por ejemplo, +0.87). Obsrvese que si la
correlacin es dbil, existe una dispersin considerable con respecto a una
recta trazada a travs del espacio central de los datos. Para que el diagrama
de dispersin represente una relacin fuerte, debe existir poca dispersin con
respecto a la citada lnea.

r=

[n( X

n( X iYi ) ( X i )(Yi )
2
i

) ( X ) ] [n( Y ) ( Y ) ]
2

78

r=

10 * 675,6630 26,5 * 240,13

(10 * 77,770 26,5 )* (10 * 5981.9733 240,13


2

= 0.974564139

Coeficiente de determinacin r2. La proporcin de la variacin total en la


variable dependiente Y, que se explica por la variacin de la variable
independiente X
Existen calculadoras que vienen con el modelo de regresin para hacer los
clculos directos, solamente con entrar los datos histricos. Esto nos permite
encontrar en forma rpida los parmetros del modelo de regresin lineal y el
coeficiente de correlacin.
Tambin podemos utilizar las hojas electrnicas como el Excel para encontrar
los parmetros del modelo y hacer los pronsticos. Dentro del grupo de las
funciones estadsticas estn las que nos pueden servir para hacer el
pronstico.

79

Ventas ( millones $ )
36,00

31,00

26,00

21,00

16,00

11,00
0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

80

8.5 Modelos de regresin no lineal


Modelos de regresin Logartmica
Y = +*LN(X)

Modelos de regresin Exponencial


Y = *eX

Modelo lineal equivalente: LN(Y) = Ln() + X

Y = + *X

Modelos de regresin Potencial


Y = *X

Modelo lineal equivalente: LN(Y) = Ln() + *ln(X)

Y = + *X

81

EJERCICIO
1. Utilizando las calculadora o Excel, complete el siguiente cuadro y realice el
pronstico para los aos 6, 7, 8, 9, 10

2. Utilizando las frmulas estadsticas del Excel complete el siguiente cuadro

82

3. Taller. Realice el pronstico para los aos 6, 7, 8, 9 y 10.para los siguientes


datos

83

84

85

86

87

RAFAEL VARGAS BARRERA


Profesor ESAP
Matemtico
Especialista en Costos y Control de Gestin
Master en finanzas
rvargas@etb.net.co

88

También podría gustarte