Está en la página 1de 123

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep.

2006
Pgina 1

















CURSO TALLER DE
ESTADSTICA Y PROBABILIDAD








Elabor: Dr. Primitivo Reyes Aguilar
Septiembre de 2006

Mail: primitivo_reyes@yahoo.com
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 2
CONTENIDO



MDULO 1. ESTADSTICA DESCRIPTIVA 2



MDULO 2. HERRAMIENTAS ESTADSTICAS Y ADMINISTRATIVAS 21
PARA SOLUCIN DE PROBLEMAS


MDULO 3. PROBABILIDAD Y DISTRIBUCIONES 42
DE PROBABILIDAD


MDULO 4. DISTRIBUCIN NORMAL 67



MDULO 5. ESTADSTICA INFERENCIAL 74
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPTESIS



MDULO 6. TABLAS DE CONTINGENCIA Y ANOVA 107



MDULO 7. REGRESIN Y CORRELACIN LINEAL 117
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 3
MDULO 1. ESTADSTICA DESCRIPTIVA

La Estadstica descriptiva es la rama de las matemticas que comprende la recopilacin,
tabulacin, anlisis e interpretacin de datos cuantitativos y cualitativos, para tomar decisiones que
se requieran a fin de que el comportamiento de los datos se mantenga dentro de los parmetros de
control establecidos.

- Poblacin (N) Es el conjunto de todos los elementos de inters para determinado estudio

- Parmetro Es una caracterstica numrica de la poblacin, se identifica con letras griegas
(Media = , Desviacin estndar = , Proporcin = , Coeficiente de correlacin = )

- Muestra (n) Es una parte de la poblacin, debe ser representativa de la misma.

- Estadstico Es una caracterstica numrica de una muestra, se identifica con letras latinas
(Media = X, Desviacin estndar = s, Proporcin = p, Coeficiente de correlacin = r)

La Estadstica descriptiva proporciona un criterio para lograr mejoras, debido a que sus tcnicas
se pueden usar para describir y comprender la variabilidad. Por ejemplo, consideremos en una
caldera de vapor la presin del combustible alimentado y la eficiencia de la caldera, si utilizamos
instrumentos de medicin con la resolucin suficiente, encontraremos que existe variabilidad en esos
parmetros, y mediante el uso de tcnicas estadsticas podemos realizar mejoras para reducir la
variacin en rendimiento de la caldera.

Para poder obtener consecuencias y deducciones vlidas de los datos de un estadstico, es muy til
contar con informacin sobre los valores que se agrupan hacia el centro y sobre que tan
distanciados o dispersos estn unos respecto a otros. Comenzaremos por definir estas medidas:

La estadstica inferencial se refiere a la estimacin de parmetros y pruebas de hiptesis acerca
de las caractersticas de la poblacin en base a los datos obtenidos con una muestra.


1.1 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIN PARA DATOS SIMPLES.

Medidas de tendencia central

- Media: ( x ) Es el promedio aritmtico de todos los valores que componen el conjunto de datos.
Se calcula mediante la siguiente frmula:

Para una muestra y para una poblacin se tiene respectivamente:

=
n
xi
x
=
n
xi

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006


Pgina 4
Ejemplo 1: En un equipo de ftbol, una muestra de estaturas de sus integrantes son las
siguientes:

1.70,1.79,1.73,1.67,1.60,1.65,1.79,1.84,1.67,1.82, 1.74. Calcule la media.

73 . 1
11
19
= = =
n
xi
x

- Mediana: ( x
~
) Los datos de "n" observaciones son ordenados del ms pequeo al ms grande,
Si el tamao de la muestra es "non" la mediana es el valor ordenado en la posicin (n+1)/2,
Cuando el tamao de la muestra es "par" la mediana es el promedio de los dos valores que se
encuentran al centro del conjunto de valores. Se puede calcular mediante:

( ) | | ( )
2
1 2 2 + + n n


Ejemplo 2: Para el ejemplo anterior cul es la mediana?

Ordenando los datos de mayor a menor se obtiene:

1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;

Como tenemos 11 datos el nmero es non por lo que (n+1)/2 = 12/2 = 6, buscando el nmero
que ocupa la sexta posicin en los datos ordenados encontramos el valor de la mediana
73 . 1
~
= x

- Media acotada (Truncated Mean): Determinado porcentaje de los valores ms altos y bajos de
un conjunto dado de datos son eliminados (tomando nmeros enteros), para los valores
restantes se calcula la media.

Ejemplo 3: Para la siguiente serie de datos calcule la media acotada al 20%:

68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,

Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el ms bajo y el
ms alto, ordenado los datos obtenemos:

8.4,31.1,33.2,34.3,42.5,54.2,68.7,71.6,72.3,73.4,80.6,82.2,87.9,97.7,97.9, los valores a eliminar
son: 8.4 y 97.9; calculando la media de los datos restantes obtenemos
( ) 82 . 63 20 ,.
~
= x


Medidas de dispersin

Para comprender el concepto de varianza, supngase que tenemos los datos siguientes de los
cuales queremos saber que tan dispersos estn respecto a su media:

2, 3, 4, 5, 6 con media = 20/5 = 4
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 5

Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:

(-2) + (-1) + (0) + (1) +(2) = 0

Por lo que tomando diferencias simples no es posible determinar la dispersin de los datos.

Si ahora tomamos esas mismas diferencias al cuadrado y las sumamos se tiene:

4 + 1 + 0 + 1 + 4 = 10

Varianza de los datos

Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados estn
de la media

- Poblacional (
2
) Se obtiene dividiendo el valor anterior entre n = 5, o sea el promedio de la
suma de las diferencias al cuadrado, tomando n datos.


=
n
x xi
2
2
) (
o

- Poblacional (s
2
) Se obtiene dividiendo el valor anterior entre n - 1 = 4, o sea el promedio de
la suma de las diferencias al cuadrado, tomando n -1 datos.

=
1
) (
2
2
n
x xi
s

- Desviacin estndar: Es la raz cuadrada de la varianza:

Para el caso de una poblacin


=
n
x xi
2
) (
o

Para el caso de una muestra

=
1
) (
2
n
x xi
s

- Rango ( R ): es la diferencia positiva entre el valor mayor y el valor menor de un conjunto
de datos. Por ejemplo para el conjunto de datos siguiente:
2.0,2.1,2.4,2.5,2.6,2.8,2.9,2.9,3.0,3.1,3.6,3.8,4.0,4.0

Su rango es R = 4.0 2.0 = 2.0

- Coeficiente de Variacin (CV): Se utiliza para comparar la dispersin de dos conjuntos de
datos que tienen unidades diferentes, ya que representa una medida relativa de dispersin.
) 100 ( var . .
X
s
CV iacin de e Coeficient = =
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 6

Por ejemplo si la media de tiempos de respuesta es de 78.7 y su desviacin estndar es 12.14, el
CVt:

% 05 . 12 ) 100 (
7 . 78
14 . 12
= =
t
CV
Por otra parte si la media de temperaturas es de 10 y su desviacin estndar de 2, el CVs de las
temperaturas es:

% 20 ) 100 (
10
2
= =
s
CV

Por tanto la dispersin de las temperaturas es mayor que la de los tiempos de de respuesta, es
posible comparar estas dispersiones con el CV aunque los dos conjuntos de datos sean
completamente dismbolos.


Ejemplo 4: La resistencia al rompimiento de dos muestras de botellas es la siguiente:

Muestra 1: 230 250 245 258 265 240
Muestra 2: 190 228 305 240 265 260

Calcule la desviacin estndar para ambas muestras.

Muestra 1: Muestra 2

248 = x

248 = x



Suma(Xi - x )
2
= 790 Suma( Xi - x )
2
= 7510

n - 1 = 5 n-1 = 5

s =
5
790
= 12.56 s =
5
7510
= 38.75

Rango = 265 230 = 35 Rango = 305 190 = 115

CV = 12.56/248*100= 5.06% CV = 38.75/248*100 = 15.625

Aunque la media en ambas muestras es la misma, la desviacin estndar (s), rango y coeficiente de
variacin, son menores en la muestra 1, por lo cual deducimos que es presenta menor variabilidad.

Ejemplo 5:

Se desea hacer un estudio estadstico de la temperatura del agua, para esto es necesario tomar una
muestra y calcular la media, mediana, media acotada al 15%, desviacin estndar, rango y
coeficiente de variacin. Se realizan 14 observaciones arrojando los siguientes resultados en C:
2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6,2.9, 3.0.
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 7

1) Calcular la media, mediana, desviacin estndar, media acotada al 5%, desviacin estndar,
rango y coeficiente de variacin.


1.2 OTRAS MEDIDAS DE DISPERSIN: PERCENTILES, DECILES Y QUARTILES

Cada conjunto de datos ordenado tiene tres cuartiles que lo dividen en cuatro partes iguales. El
primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones y sobre el cual se
encuentra el 75% restante. El segundo cuartil divide a los datos a la mitad similar a la mediana.

Los deciles separan un conjunto de datos ordenado en 10 subconjuntos iguales y los percentiles en
100 partes, la ubicacin de un percentil se encuentra en:

100
) 1 (
P
n L
p
+ =
Donde:

Lp es el sitio del percentil deseado en una serie ordenada
n es el nmero de observaciones
P es el percentil deseado

Por ejemplo para el conjunto de datos siguiente:

3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80

La localizacin del percentil 35 se halla en:

85 . 17
100
35
) 1 50 (
35
= + = L

O sea que el percentil 35 est al 85% del trayecto comprendido entre la observacin 17 que es 29 y
la observacin 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las
observaciones estn por debajo de 30.7 y el 65% restante por encima de 30.7.

De la misma forma los percentiles 25, 50 y 75 proporcionan la localizacin de los cuartiles Q1, Q2 y
Q3 respectivamente.

- Q1: es el nmero que representa al percentil 25 (hay 25% de los datos por debajo de este).

- Q2 o Mediana: es el nmero que representa al percentil 50 (hay 50% de los datos por
debajo de este).

- Q3: es el nmero que representa al percentil 75 (hay 75% de los datos por debajo de este).
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 8

- Rango o Recorrido intercuartlico: es la diferencia entre Q1 y Q3.


DIAGRAMA DE CAJA

Es la representacin grfica de los datos en forma de caja:

1 10 4





Q3 + 1.5 RIC


Q3


Q2 Mediana



Q1



Q1 1.5RIC





Rango
Intercuartlico =
RIC = Q3 Q1

Valores atpicos Bigotes


Figura 1. Diagrama de caja con sus cuarteles y bigotes


1.3 DISTRIBUCIN DE FRECUENCIAS E HISTOGRAMAS

Cuando tenemos una cantidad grande de datos es difcil poder analizarlos, a menos que hagamos
uso de herramientas que nos permitan hacerlo con mayor facilidad y claridad. El histograma es una
de ellas, consiste en un diagrama de barras donde las bases corresponden a los intervalos y las
alturas a las frecuencias. Para construir un histograma es necesario tener un mnimo de 50 a 100
datos. Se tienen las siguientes definiciones:

- Distribucin de frecuencias: es un resumen tabular de un conjunto de datos que muestra
el nmero o frecuencia de artculos en cada una de varias clases que no se traslapan.

- Frecuencia relativa (f): Es la frecuencia de la clase dividida entre el total n de datos. Se
puede representar en porcentaje.

- Distribucin de frecuencias porcentuales: es la representacin de las frecuencias
relativas porcentuales.

- Frecuencia acumulada (F): es la acumulacin secuencial de las frecuencias de cada clase.
850
950
1050
W
e
i
g
h
t
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 9


Ejemplo 6

Construir un histograma con la siguiente serie de datos:

2.41 17.87 33.51 38.65 45.70 49.36 55.08 62.53 70.37 81.21
3.34 18.03 33.76 39.02 45.91 49.95 55.23 62.78 71.05 82.37
4.04 18.69 34.58 39.64 46.50 50.02 55.56 62.98 71.14 82.79
4.46 19.94 35.58 40.41 47.09 50.10 55.87 63.03 72.46 83.31
8.46 20.20 35.93 40.58 47.21 50.10 56.04 64.12 72.77 85.83
9.15 20.31 36.08 40.64 47.56 50.72 56.29 64.29 74.03 88.67
11.59 24.19 36.14 43.61 47.93 51.40 58.18 65.44 74.10 89.28
12.73 28.75 36.80 44.06 48.02 51.41 59.03 66.18 76.26 89.58
13.18 30.36 36.92 44.52 48.31 51.77 59.37 66.56 76.69 94.07
15.47 30.63 37.23 45.01 48.55 52.43 59.61 67.45 77.91 94.47
16.20 31.21 37.31 45.08 48.62 53.22 59.81 67.87 78.24 94.60
16.49 32.44 37.64 45.10 48.98 54.28 60.27 69.09 79.35 94.74
17.11 32.89 38.29 45.37 49.33 54.71 61.30 69.86 80.32 96.78

Paso 1: Contar el nmero de datos n = 130

Paso 2: Calcular el rango R = Valor mayor Valor menor, R = 96.78-2.41 = 94.37.
Generalmente los datos no estn ordenados por lo cual resulta conveniente ordenarlos de menor a
mayor para tener una mejor visualizacin. En el ejemplo los datos ya han sido previamente
ordenados.

Paso 3: Seleccionar el nmero de columnas, mediante n = 11 4 . 11 130 ~ = . Por lo cual el
histograma se compone de 11 columnas

Paso 4: Calcular el tamao del intervalo de clase ( C ), dividiendo el rango entre el nmero de
columnas: C = 9 58 . 8
11
37 . 94
~ = , resultando el tamao del intervalo 9.

Otra manera de calcular el tamao del intervalo es el siguiente:
Dividir el valor del rango entre un cierto nmero de clases (K). La tabla de abajo es una gua que nos
muestra para diferentes cantidades de datos el nmero recomendado de clases a utilizar.

Nmero de datos (N) Nmero de clases (K)
Menos de 50 5 7
50 a 100 6 10
100 a 250 7 12
Ms de 250 10 20


Paso 5: Calcular los limites de clase de cada intervalo: [0-8], [ 9-17], etc., considerando que el
tamao del intervalo representa la diferencia entre dos lmites de clase adyacentes ya sean
inferiores o superiores.
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 10


Paso 6: Contar el nmero de valores que caen en cada intervalo utilizando una hoja de registro, de
esta manera se obtiene la frecuencia para cada intervalo.

Tabla 1.
Columna Intervalo Registro de frecuencias
1 0 -8 IIIII 5
2 9-17 IIIII IIII 9
3 18-26 IIIII I 6
4 27-35 IIIII IIIII I 11
5 36-44 IIIII IIIII II 17
6 45-53 IIIII IIIII IIIII IIIII IIIII III 28
7 54-62 IIIII IIIII IIIII III 18
8 63-71 IIIII IIIII III 13
9 72-80 IIIII IIIII 10
10 81-89 IIIII III 8
11 90-98 IIIII 5


Paso 7: Basndose en los datos anteriores construya el histograma.


Diagrama de tallo y hojas

Es otra representacin de la informacin, primero se ordenan los dgitos principales a la izquierda de
una lnea vertical. A la derecha de esta lnea se registra el ltimo dgito para cada dato conforme se
revisan las observaciones en el orden en que se registraron. Por ejemplo:

Con Minitab: Stat > EDA > Steam and leaf Indicar columna de datos, increment = 10

Stem-and-leaf of Respuest N = 50
Leaf Unit = 1.0

Histograma
0
5
10
15
20
25
30
9 18 27 36 45 54 63 72 81 90 99
Clase
F
r
e
c
u
e
n
c
i
a
Frecuencia
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 11
2 6 89
8 7 233566
16 8 01123456
(11) 9 12224556788
23 10 002466678
14 11 2355899
7 12 4678
3 13 24
1 14 1

1.4 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIN PARA DATOS
AGRUPADOS.

- La media con datos agrupados: se calcula as:


n
fM
X
g

=

Donde

f es la frecuencia o nmero de observaciones en cada clase
M es el punto medio de cada clase, se determina como el valor medio entre los lmites de clase.
n es el tamao de la muestra o la suma de todas las frecuencias de las clases

Ejemplo:

Clase Frecuencia de clase Frecuencia acumulada
(Presin) (das) M fM F

50-59 3 54.5 163.5 3
60-69 7 64.5 451.5 10
70-79 18 74.5 1341.0 28
80-89 12 84.5 1014.0 40
90-99 8 94.5 756.0 48
100-109 2 104.5 209.0 50
50 3935.0


7 . 78
50
3935
= =
g
X

- Mediana de datos agrupados:


Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este caso la
clase de 70 a 79 con punto central de clase = 74.5.

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 12
pasajeros C
f
F n
L X Mediana
md
md
33 . 78 10
18
10 2 / 50
70 ) (
2 / ~
=
(


+ =
(


+ = =
Donde:

Lmd es el lmite inferior de la clase de la mediana cuya F es >= n / 2 o sean (70)
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (10)
Fmd es la frecuencia de la clase de la mediana (18)
C es el intervalo de clase de la mediana que es la diferencia entre dos lmites de clase (10)

- Moda de datos agrupados:

Primero se halla la clase que tenga la frecuencia ms alta, en este caso la clase 70 a 79.

47 . 76 10
) 7 18 ( ) 12 18 (
7 18
70 ) ( =
(

+

+ =
(

+
+ = C
D D
D
L Moda
a b
a
mo


Donde:

Lmo es el lmite inferior de la clase modal con la frecuencia ms alta (70).
Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 7 = 11)
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 12 = 6)
C es el intervalo de la clase modal ( 80 70 = 10 )

- Varianza y desviacin estndar de datos agrupados:

2
2 2
2
1
s s
n
X n f M
s
=

=



Para los datos anteriores se tiene:

Clase Frecuencia de clase
(Presin) (das) M fM M
2
fM
2


50-59 3 54.5 163.5 2790.25 8910.75
60-69 7 64.5 451.5 4160.25 29121.75
70-79 18 74.5 1341.0 5550.25 99904.50
80-89 12 84.5 1014.0 7140.25 85683.00
90-99 8 94.5 756.0 8930.25 71442.00
100-109 2 104.5 209.0 10920.25 21840.50
3935.0 316902.50

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 13
pasajeros s
pasajeros s
X
g
14 . 12
31 . 147
49
) 7 . 78 ( 50 50 . 316902
7 . 78
50
3935
2
2
=
=

=
= =


Con esta informacin el personal puede tomar sus decisiones


1.5 USOS FRECUENTES DE LA DESVIACIN ESTNDAR

- EL TEOREMA DE TCHEBYSHEV

Establece que para todo conjunto de datos por lo menos )%
1
1 (
2
K
de las observaciones se
encuentran dentro de K desviaciones estndar de la media, con K >= 1.


Por ejemplo si K = 3 desviaciones estndar respecto a la media, se tiene que por lo menos el:

% 89 . 88 %
3
1
1 )%
1
1 (
2 2
= |
.
|

\
|
=
K


De las observaciones estarn dentro de dicho intervalo.

CASO DE LA DISTRIBUCIN NORMAL

68.3% de las observaciones se encuentran dentro de 1 desviacin estndar de la media
95.5% de las observaciones se encuentran dentro de 2 desviaciones estndar de la media
99.7% de las observaciones se encuentran dentro de 3 desviaciones estndar de la media

- SESGO

En la distribucin normal si no es simtrica y tiene una cola ms amplia del lado derecho, se dice
que existe un sesgo a la derecha y viceversa.








El coeficiente de sesgo o asimetra P se determina como sigue:


CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 14
s
Mediana X
P
) ( 3
=

Si P < 0 los datos estn sesgados a la izquierda, si P > 0 estn sesgados a la derecha; si P = 0
estn distribuidos normalmente.

Para el caso de los datos del ejemplo anterior se tiene:

03 . 0
14 . 12
) 33 . 78 7 . 78 ( 3
=

= P Los datos estn un poco sesgados hacia la derecha.


Coeficiente de asimetra de Fisher

Otra estimacin del sesgo o coeficiente de asimetra se hace a travs de momentos estadsticos
(diferencias contra la media) como lo sugiere Fisher:

1
( )
1, 2, 3, 4
n
j
i
i
j
X X
M j
n
=

= =


2 / 3
2
3
1

M
M
Sesgo = = | o
2 / 3
1
2
1
3
1
) (
1
) (
1
|
.
|

\
|

=
=
n
i
n
i
X Xi
n
X Xi
n
Para la distribucin normal debe ser 0.
Se puede considerar que una distribucin es simtrica si 0 1= , asimtrica hacia la izquierda con
0 1< o hacia la derecha 0 1> .

Por ejemplo:

Ejemplo de una distribucin con sesgo negativo o sesgada hacia la izquierda con Sesgo = -1.01




CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 15
Ejemplo de una distribucin con sesgo positivo o sesgada hacia la derecha con Sesgo = 1.08




- CURTOSIS

En la distribucin normal si no es acampanada y es ms picuda o aplanada de lo normal se dice que
tiene una Curtosis diferente de cero que es lo normal, si es mayor es ms picuda o ms plana al
revs.

Coeficiente de Curtosis de Fisher

4
2 2
2
M
Kurtosis
M
| = = - 3 o 3
) (
1
) (
1
2
1
2
1
4
2

|
.
|

\
|

=
=
n
i
n
i
X Xi
n
X Xi
n
Para la distribucin normal debe ser 0.

La distribucin es mesocrtica (plana normal) si 0 2 = , leptocrtica si 0 2 > ms puntiaguda
que la normal o platicrtica (ms plana que la normal ) con 0 2 < .


Ejemplo de curva ms plana que la normal Curtosis = -1.03





CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 16

Ejemplo de curva ms picuda que la normal Curtosis = 0.76




1.6 USO DE MINITAB y EXCEL

Para la obtencin de las estadsticas descriptivas con Minitab las instrucciones son:
Stat > Basic statistics > Display descriptive statistics

Indicar las variables de las cuales se quieren obtener las estadsticas bsicas y la variable categrica
si se desean varios grupos.



Seleccionar las grficas opcionales para los datos: Histograma, diagrama de caja y de puntos.

Seleccionar los estadsticos especficos que se desean obtener:
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 17


Los resultados son los siguientes:

Descriptive Statistics: Peso en gr

Variable Lnea N N* Mean SE Mean StDev Minimum Q1 Median
Peso en gr 1 250 0 3999.6 3.14 49.6 3877.0 3967.8 3999.5
2 250 0 4085.6 3.32 52.5 3954.0 4048.8 4087.0

Variable Lnea Q3 Maximum
Peso en gr 1 4040.0 4113.0
2 4121.5 4202.0

Diagramas de caja en Minitab:

1. Capture datos en la hoja de trabajo: 7 8 9 9 11 12 12 13 14 15 16 17 18 19 20 22
2. Seleccione la opcin: Graph> Boxplot
3. Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
4. A continuacin se muestra el diagrama de caja:


C
a
j
a
22.5
20.0
17.5
15.0
12.5
10.0
7.5
5.0
Boxplot of Caja




CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 18
Histograma en Minitab:

1. Capture los datos del ejemplo 6 en la hoja de trabajo:
2. Seleccione la opcin: Graph> Histogram (simple)
3. Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
4. En Options se puede cambiar el nmero de celdas con Number of intervals (6 8)
5. A continuacin se muestra el Histograma:

DATOS
F
r
e
q
u
e
n
c
y
110 80 50 20 -10
40
30
20
10
0
Histogram of DATOS


Prueba de normalidad en Minitab:

1. Capture los datos del ejemplo 6 en la hoja de trabajo:
2. Seleccione la opcin: Stat > Basic statistics
3. Seleccione la variable C1 como se muestra en la pantalla y presione clic en ok
4. Seleccione la prueba de Anderson Darling
5. A continuacin se muestra la grafica normal, si P value > 0.05 los datos son normales.

DATOS
P
e
r
c
e
n
t
120 90 60 30 0
99.9
99
95
90
80
70
60
50
40
30
20
10
5
1
0.1
Mean
0.399
50.05
StDev 22.50
N 130
AD 0.380
P-Value
Probability Plot of DATOS
Normal


CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 19

USO DE EXCEL

1. En el men Herramientas seleccione la opcin Anlisis de datos. Datos de ejemplo 6.
2. Seleccione la opcin Estadstica descriptiva.
3. Seleccione el rango de entrada, estos corresponden a los datos numricos de la tabla.
4. Seleccione Resumen de estadsticas.
5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo
que este en blanco (a partir de est celda sern insertados los resultados).

La hoja mostrar las siguientes medidas estadsticas de los datos presentados:

Columna1

Media 50.0537692
Error tpico 1.9738137
Mediana 49.345
Moda 50.1
Desviacin
estndar 22.5049388
Varianza de la
muestra 506.47227
Curtosis -0.4466339
Coeficiente de
asimetra -0.0352296
Rango 94.37
Mnimo 2.41
Mximo 96.78
Suma 6506.99
Cuenta 130

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 20
EJERCICIOS:

1. Las empresas de generacin de energa elctrica estn interesadas en los hbitos de consumo de
los clientes para obtener pronsticos exactos de las demandas de energa. Una muestra de
consumidores de 90 hogares con calefaccin de gas arroj lo siguiente (FURNACE.MTW):

BTU.In_1
2.97 7.73 9.60 11.12 13.47
4.00 7.87 9.76 11.21 13.60
5.20 7.93 9.82 11.29 13.96
5.56 8.00 9.83 11.43 14.24
5.94 8.26 9.83 11.62 14.35
5.98 8.29 9.84 11.70 15.12
6.35 8.37 9.96 11.70 15.24
6.62 8.47 10.04 12.16 16.06
6.72 8.54 10.21 12.19 16.90
6.78 8.58 10.28 12.28 18.26
6.80 8.61 10.28 12.31
6.85 8.67 10.30 12.62
6.94 8.69 10.35 12.69
7.15 8.81 10.36 12.71
7.16 9.07 10.40 12.91
7.23 9.27 10.49 12.92
7.29 9.37 10.50 13.11
7.62 9.43 10.64 13.38
7.62 9.52 10.95 13.42
7.69 9.58 11.09 13.43

a) Determinar los estadsticos de tendencia y dispersin

b) Construir un diagrama de caja e histograma

c) Realizar una prueba de normalidad de los datos

d) Establecer conclusiones

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 21
MDULO 2. HERRAMIENTAS ESTADSTICAS ESTADSTICAS Y
ADMINISTRATIVAS PARA SOLUCIN DE PROBLEMAS

HERRAMIENTAS ESTADSTICAS

2.1 HOJA DE REGISTRO O VERIFICACIN


2.2 DIAGRAMA DE PARETO


2.3 LLUVIA DE IDEAS


2.4 DIAGRAMA DE ISHIKAWA


2.5 CARTA DE TENDENCIAS


2.6 DIAGRAMA DE FLUJO


2.7 DIAGRAMA DE DISPERSIN






CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 22
2.1 HOJA DE REGISTRO O VERIFICACIN

Bsicamente es un formato que facilita que una persona pueda tomar datos en una forma ordenada
y de acuerdo al estndar requerido en el anlisis que se est realizando.

Pasos para la elaboracin de una hoja de verificacin:

1. Determinar claramente el proceso sujeto a observacin.
2. Definir el perodo de tiempo durante el cul sern recolectados los datos (horas a semanas).
3. Disear una forma que sea clara y fcil de usar.
4. Obtener los datos de una manera consistente y honesta. Dedicar el tiempo necesario.

Ejemplo de hoja de verificacin













Consejos para la elaboracin e interpretacin de las hojas de verificacin

1. Asegrese de que las observaciones sean representativas.
2. Asegrese de que el proceso de observacin es eficiente de manera que las personas tengan
tiempo suficiente para hacerlo.
3. La poblacin (universo) muestreada debe ser homognea, en caso contrario, el primer paso es
utilizar la estratificacin (agrupacin) para el anlisis de las muestras/observaciones las cuales
se llevarn a cabo en forma individual.

EJERCICIO: Colectar el intervalo de tiempo en que ingresan personas a un departamento.
DEFECTO 1 2 3 4 TOTAL
Tamao errneo IIIII I IIIII IIIII III IIIII II 26
Forma errnea I III III II 9
Depto. Equivocado IIIII I I I 8
Peso errneo IIIII IIIII I IIIII III IIIII III IIIII IIIII 37
Mal Acabado II III I I 7
TOTAL 25 20 21 21 87
DIA
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 23
2.2 DIAGRAMA DE PARETO

Herramienta utilizada para el mejoramiento de la calidad para identificar y separar en forma crtica
las pocas causas que provocan la mayor parte de los problemas de calidad. El principio enuncia que
aproximadamente el 80% de los efectos de un problema se debe a solamente 20% de las causas
involucradas.

El diagrama de Pareto es una grfica de dos dimensiones que se construye listando las causas de
un problema en el eje horizontal, empezando por la izquierda para colocar a aquellas que tienen un
mayor efecto sobre el problema, de manera que vayan disminuyendo en orden de magnitud. El eje
vertical se dibuja en ambos lados del diagrama: el lado izquierdo representa la magnitud del efecto
provocado por las causas, mientras que el lado derecho refleja el porcentaje acumulado de efecto de
las causas, empezando por la de mayor magnitud.

Pasos para desarrollar el diagrama de Pareto:

1. Seleccione qu clase de problemas se van a analizar.
2. Decida qu datos va a necesitar y cmo clasificarlos. Ejemplo: Por tipo de defecto, localizacin,
proceso, mquina, trabajador, mtodo.
3. Defina el mtodo de recoleccin de los datos y el perodo de duracin de la recoleccin.
4. Disee una tabla para el conteo de datos con espacio suficiente para registrarlos.
5. Elabore una tabla de datos para el diagrama de Pareto con la lista de categoras , los totales
individuales, los totales acumulados, la composicin porcentual y los porcentajes acumulados
6. Organice las categoras por orden de magnitud decreciente, de izquierda a derecha en un eje
horizontal construyendo un diagrama de barras. El concepto de otros debe ubicarse en el
ltimo lugar independientemente de su magnitud.
7. Dibuje dos ejes verticales y uno horizontal.

Ejes verticales:
- Eje izquierdo: Marque este eje con una escala desde 0 hasta el total general
- Eje derecho: Marque este eje con una escala desde 0 hasta 100%

Eje horizontal:
- Divida este eje en un nmero de intervalos igual al nmero de categoras clasificadas.
8. Dibuje la curva acumulada (curva de Pareto), Marque los valores acumulados (porcentaje
acumulado) en la parte superior, al lado derecho de los intervalos de cada categora, y conecte
los puntos con una lnea continua.
9. Escriba en el diagrama cualquier informacin que considere necesaria para el mejor
entendimiento del diagrama de Pareto.

Ejemplo de diagrama de Pareto:

El departamento de ventas de un fabricante de materiales de empaque tiene registrada una lista de
las quejas que se han recibido durante el ltimo mes.
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 24

Tipo de queja No.
de
quejas
Total
Acumulado
Composicin
Porcentual
Porcentaje
Acumulado

A) Entregas fuera de tiempo

25

25

35.71

35.71

B) Calibre fuera de especificaciones


23

48

32.85

68.56

C) Material sucio y maltratado
7

55

10

78.56

D) Material mal embalado
6

61

8.57


87.13

E) Dimensiones fuera de especificaciones

3

64

4.28

91.41
F) Inexactitud en cantidades 2

66

2..85

94.26

G) Mala atencin del personal

1

67

1.42

95.68

H) Maltrato del material por transportistas

1

68

1.42


97.7
I) Fallas en documentacin

1

69


1.42

98.52

J) Producto con cdigos equivocados

1

70

1.4

99.94




























Las quejas A,B y C representan el 78.56%, siendo en estas en las que debemos de enfocarnos primero a resolver.

1
2
3
6
7
23
25
78.56
87.13
95.68
97.7
99.94
35.71
68.56
91.41
A B C D E F G H I J
94.26
98.52
%
A
C
U
M
U
L
A
D
O
N
O
D
E
Q
U
E
J
A
S
50
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 25
Diagrama de Pareto en Minitab

1. Capture los datos en la columna C1 (tipo de defecto), en la columna C2 (frecuencias)
2. Stat>Quality Tools>Pareto Chart
3. Seleccionar la opcin Chart defects table , en el campo labels in seleccione: C1 y en
Frequencies in seleccione: C2. Combine defects after the first 80%. OK

El sistema despliega la grfica de Pareto:

























En la grfica se observa que aprox. el 80% de los efectos es debido a los defectos A, B y C.

A continuacin se muestra un diagrama de Pareto considerando una variable categrica.
Flaws
C
o
u
n
t
Smudge Other Scratch Peel
20
15
10
5
0
Smudge Other Scratch Peel
20
15
10
5
0
Period = Day Period = Evening
Period = Night Period = Weekend
Flaws
Peel
Scratch
Other
Smudge
Pareto Chart of Flaws by Period


EJERCICIO: Realizar un diagrama de Pareto con las fallas de un equipo.
O
th
e
r
s
G F E D C B A
3 1 2 3 6 7 23 25
4.3 1.4 2.9 4.3 8.6 10.0 32.9 35.7
100.0 95.7 94.3 91.4 87.1 78.6 68.6 35.7
70
60
50
40
30
20
10
0
100
80
60
40
20
0
Defect
Count
Percent
Cum %
P
e
r
c
e
n
t
C
o
u
n
t
PARETO CHART
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 26
2.3 LLUVIA DE IDEAS DE IDEAS (BRAINSTORMING)

En las sesiones de lluvia de ideas se generan nuevas ideas mediante la participacin de todo
el equipo.

Para comenzar con el proceso de tormenta de ideas, en el cual se genera informacin la gente se
rene en una sala en la cual se recomienda la disposicin de las mesas en forma de U para facilitar
el debate. La gente que participa en la sesin deber de pertenecer a diferentes reas o tener
puntos de vista diferentes, esto con el objeto de enriquecer la sesin.

El facilitador debe de contar con experiencia en la conduccin de sesiones de tormentas de ideas, o
al menos haber tenido experiencias previas.

Para conducir un grupo se lleva a cabo la siguiente metodologa:

1. Seleccionar el problema a tratar.
2. Pedir a todos los miembros del equipo generen ideas para la solucin del problema, las cuales
se anotan en el pizarrn sin importar que tan buenas o malas sean estas.
3. Ninguna idea es evaluada o criticada antes de considerar todos los pensamientos concernientes
al problema.
4. Aliente todo tipo de ideas, ya que al hacerlo pueden surgir cosas muy interesantes, que motivan
a los participantes a generar ms ideas.
5. Apruebe la naturalidad y el buen humor con informalidad, en este punto el objetivo es tener
mayor cantidad de ideas as existirn mayores posibilidades de conseguir mejores ideas.
6. Se les otorga a los participantes la facultad de modificar o mejorar las sugerencias de otros.
7. Una vez que se tengan un gran nmero de ideas el facilitador procede a agrupar y seleccionar
las mejores ideas por medio del consenso del grupo de trabajo.
8. Las mejores ideas son discutidas y analizadas con el fin del proponer una solucin.

La tcnica tormenta de ideas puede ser aplicada con gran frecuencia al llevar a cabo otras
herramientas, como por ejemplo, diagramas causa-efecto (Ishikawa), Diagrama de relaciones,
Diagrama de rbol, planes con 5W-1H, Diseo de experimentos, pruebas de confiabilidad, etc.


EJERCICIO: Realizar una lluvia de ideas para solucionar el problema de llegar a tiempo a algn
lugar.


CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 27
2.4 DIAGRAMA CAUSA-EFECTO (ISHIKAWA)

El diagrama causa-efecto, tambin llamado espina de pescado por la semejanza de su forma,
tambin es conocido por diagrama de Ishikawa.

Es utilizado para explorar e identificar todas las causas posibles y relaciones de un problema (efecto)
o de una condicin especfica en las caractersticas de un proceso.

Los pasos para elaborar el diagrama de causa- efecto son los siguientes:

1. Seleccione el efecto (problema) a analizar. Se puede seleccionar a travs de un consenso, un
diagrama de Pareto, otro diagrama o tcnica.
2. Realice una lluvia de ideas para identificar las causas posibles que originan el problema.
3. Dibuje el diagrama:

- Coloque en un cuadro a la derecha la frase que identifique el efecto (caracterstica de
calidad)
- Trace una lnea horizontal hacia la izquierda del cuadro que contiene la frase. A esta lnea
se le conoce como columna vertebral.
- Coloque lneas inclinadas que incidan en la columna vertebral (causas principales).
- Dibuje lneas horizontales con flechas que incidan en las lneas inclinadas conforme a la
clasificacin de las causas (causas secundarias)
- Dibuje lneas inclinadas que incidan en las lneas de las causas secundarias (causas
terciarias)
4. Clasifique las causas derivadas de la lluvia de ideas, de la siguiente manera:
Causas principales.
Preguntando despus por que suceden obtener Causas secundarias
Volviendo a preguntar de nuevo las razones obtener Causas terciarias,
Se continua este proceso de preguntas de por qu?, por qu? hasta agotar las
respuestas.
5. El equipo analiza cada causa estratificada (secundaria o terciaria) y por medio de eliminacin y
consenso determina cuales son las causas potenciales relevantes que pueden estar
ocasionando el problema.
6. Elabore y ejecute un programa de verificacin de las causas relevantes por medio de un
diagrama 5W-1H para identificar las causas reales o causas raz.

Ejemplo
1


Se detectaron fallas en la soldadura de partes, por lo cual se procedi a realizar una investigacin
utilizando el diagrama causa-efecto.

El problema es soldadura defectuosa, siendo el efecto que se va a analizar.

Primero se determinan las causas principales Ms:
- Mquinas
- Mano de obra
- Mtodos

1
Tomado de: Alberto Galgano, Los siete instrumentos de la Calidad Total, ediciones Daz de Santos,1995
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 28
- Materiales
- Mediciones
- Medio ambiente

Estas constituyen las causas primarias del problema y es necesario desafiarlas para encontrar
causas ms especficas secundarias y terciarias.

Se construye el diagrama espina de pescado con las causas primarias (Ms), a partir de estas
causas se agrupan las causas secundarias y terciarias derivadas de la lluvia de ideas.

































En el ejemplo anterior las causas primarias fueron agrupadas en (Ms): mediciones, mquinas,
mano de obra,medio ambiente, mtodos y materiales. Es posible realizar este diagrama con causas
primarias diferentes a las Ms, por ejemplo:

Problema: Por que el servicio ABC, no satisface los requerimientos del cliente. Las causas
primarias en las que se puede organizar este problema son las siguientes:

- Proceso 1
- Proceso 2
- Proceso 3
- Proceso 4
SOLDADURA DEFECTUOSA
MATERIALES MTODOS
MAQUINAS MANO DE OBRA
UNION
SOLDADURA
DESOXIDANTE
LACA DE
PROTECCION
TERMINALES
CORTOS OXIDADOS
ANGULO
INCORRECTO DE
LA FLAMA
TIEMPOS DE
ESPERA
SECUENCIA
SOLDADURA
VELOCIDAD DE
AVANCE
DIMENSIONES
INADECUADAS
TEMPERATURA
PUNTA OXIDADA
FORMA
PUNTA
HABILIDAD
FORMACION
LIMITES
ERGONOMICOS
MEDIO AMBIENTE
MEDICIONES
FUERA DE
DIMENSIONES
ESPECIFICADS
SUPERFICIE
S CON
POLVO E
IMPUREZAS
C
a
u
s
a
s

p
r
in
c
ip
a
le
s
C
a
u
s
a
s

s
e
c
u
n
d
a
r
i
a
s
c
a
u
s
a
s

t
e
r
c
i
a
r
i
a
s
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 29
Diagrama de Causa Efecto en Minitab

1. Llenar las columnas C1 a C5 con las diferentes causas correspondientes a los conceptos de
Personal, Mquinas, Materiales, Mtodos, Mediciones y Medio ambiente.
2. Stat>Quality Tools>Cause and Effect Diagram
3. Introducir los datos en la pantalla de entrada, indicando el problema en Effect y aceptar con
OK.

AMBIENTE MATLS. PERSONAL MTODO MAQUINAS
Polvo Forma Salud Ajuste Mantto.
Vibraciones Dureza Habilidad Velocidad Deformacin
Humedad Almacn Humor Abrasin
Temperatura Herramental

FORMA ALMACN HABILIDAD HUMOR
Dimetro Tiempo Seleccin Horas
Curvatura Ambiente Formacin Moral
Experiencia Cansancio

Problema de
soldadura
Measurements
Methods
Material
Machines
Personnel
Humor
Habilidad
Salud
Herramental
Abrasin
Deformacin
Mantto.
Almacn
Dureza
Forma
Velocidad
Ajuste
Temperatura
Humedad
Vibraciones
Polv o
Cause-and-Effect Diagram


EJERCICIO: Realizar un Diagrama de Causa Efecto para el problema de llegara tiempo al trabajo.
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 30
2.5 CARTA DE TENDENCIAS

Definicin:
Es una ayuda grfica para el control de las variaciones de los procesos administrativos y de
manufactura.

Usos:
Saber el comportamiento de un sistema o proceso durante el tiempo.
Tomar las acciones correctivas a tiempo si la tendencia afectar en forma negativa.

Ejemplo: Se tienen los datos siguientes de errores de planeacin de la produccin durante 15
semanas:

Semana % Errores Semana % Errores
1 0.15 8 0.03
2 0.04 9 0.04
3 0.08 10 0.05
4 0.07 11 0.07
5 0.04 12 0.04
6 0.05 13 0.02
7 0.01 14 0.03
15 0.01

USO DE MINITAB
1. Stat> Time Series > Trend Anlisis Variable: % de errores
2. Time > Stamp Semana OK

La grfica se muestra a continuacin:

Semana
%

E
r
r
o
r
e
s
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
AccuracyMeasures
MAPE 62.6253
MAD 0.0193
MSD 0.0007
Variable
Actual
Fits
Trend Analysis Plot for % Errores
LinearTrendModel
Yt = 0.0869524 - 0.00478571*t


Comportamiento de los datos durante un periodo de tiempo determinado.

EJERCICIO: Hacer una carta de tendencias con datos reales de alguna situacin particular.
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 31
2.6 MAPA DE PROCESOS / DIAGRAMA DE FLUJO

Ventajas de los diagramas de flujo

- Proveen una secuencia grfica de cada uno de los pasos que componen una operacin desde el inicio hasta el
final. Permitiendo una mejor visualizacin y comprensin del proceso.
- Los diagramas de flujo pueden minimizar grandes volmenes de documentacin, como la del ISO 9000.
- Facilitan el desarrollo de Procedimientos Estndar de Operacin.
- Al tener un procedimiento de operacin estndar se reduce en gran medida la variacin y el tiempo de ciclo.
- Los diagramas de flujo permiten detectar reas de mejora en los procesos.

Descripcin de smbolos
En la construccin de diagramas de flujo de procesos se utilizan los smbolos descritos a continuacin:



Operacin de transformacin: de la cual resulta un cambio fsico o
qumico del producto.

Inspeccin: Verificacin de alguna caracterstica mediante un estandar de calidad
prestablecido.


Transporte: Movimiento fsico del producto o un componente.


Demora: Indica la necesidad de un periodo de inactividad en espera de operacin
inspeccin o transporte.

Almacenamiento: Mantener un producto en almacenamiento hasta
que contine su procesamiento o sea vendido.


Pasos para la elaboracin de un diagrama de flujo

1. Describir el proceso a evaluar: Es importante seleccionar un proceso relevante.

2. Definir todos los pasos que componen el proceso: el equipo de trabajo anota en tarjetas los diferentes
pasos que conforman el proceso, con este mtodo el equipo puede arreglar y ordenar los pasos del proceso.

3. Conectar las actividades: Cuando los pasos que componen el proceso han sido descritos se construye el
diagrama de flujo, conectando las actividades mediante flechas, cada smbolo debe describir la actividad que
se realiza con pocas palabras.

4. Comparar el proceso actual con el proceso considerado como ideal las siguientes preguntas pueden
servir de gua:
Existen pasos demasiado complejos? Existe duplicidad o redundancia? Existen puntos de control para
prevenir errores? deberan de existir? El proceso funciona en la manera en la cual debera de hacerse? Se
puede realizar el proceso de diferente manera?

5. Mejoras del proceso: Una vez que se contestan las preguntas mediante tormenta de ideas se realizan
mejoras. Definiendo los pasos que agregan valor y los que no agregan se puede llevar a cabo una
simplificacin sustancial del proceso. Las mejoras son priorizadas y se llevan a cabo planes de accin.

6. Implementar el nuevo procedimiento: Una vez realizadas las mejoras se dan a conocer a las personas
involucradas en el proceso y se verifica su efectividad.

CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 32
Diagrama de flujo: Una visita a la farmacia
2


Operacin: despacho de una frmula.

EVENTO SMBOLO TIEMPO
(min.)
DISTANCIA
(pies)
Abrir la puerta, caminar hacia el rea de la farmacia del almacn. 0.8

50
Esperar para ser atendido.

1
Sacar la frmula de la billetera o del bolsillo y entregarla al
dependiente.
0.4
Esperar hasta cuando el dependiente despache la frmula y
calcule el valor.
10
Sacar la tarjeta de crdito de la billetera y entregarla al
dependiente.
0.4
Esperar que el dependiente diligencie el desprendible de la
tarjeta de crdito.
1
Verificar el desprendible 0.2
Firmar el desprendible 0.1
Esperar el desprendible y el medicamento

0.3
Colocar la tarjeta y el desprendible dentro de la billetera

0.2
Recoger el medicamento y caminar de regreso hasta la puerta 0.8 50

Diagrama de Flujo Fsico

Pasos para realizarlo:
Dibuje el esquema fsico de su rea de trabajo, incluyendo estaciones de trabajo, reas de espera,
reas de mquinas, etc.
Use flechas para delinear el flujo de la parte dentro del rea. Cada flecha debe delinear un paso del
proceso.

Ventajas
Muestra el nmero de movimientos para completar el proceso.
Muestra la complejidad del flujo y las curvas.
Puede aadir tiempo a cada paso, para mostrar cuellos de botella y tiempo sin valor agregado Vs
tiempo con valor agregado.




EJERCICIO: Realizar un diagrama de flujo de un proceso


2
Adaptado de Hamid Noori/Russell Radford, Administracin de Operaciones y produccin, Ed. Mc.Graw
Hill Pp.282

Edificio A
Edificio B
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 33
2.7 DIAGRAMAS DE DISPERSIN

El diagrama de dispersin es una tcnica estadstica utilizada para estudiar la relacin entre dos
variables. Por ejemplo, entre una caracterstica de calidad y un factor que le afecta.
La ventaja de utilizar este tipo de diagramas es que al hacerlo se tiene una comprensin ms
profunda del problema planteado.

La relacin entre dos variables se representa mediante una grfica de dos dimensiones en la que
cada relacin est dada por un par de puntos (uno para cada variable).
La variable del eje horizontal x normalmente es la variable causa, y la variable del eje vertical y es la
variable efecto.

La relacin entre dos variables puede ser: positiva o negativa. Si es positiva, significa que un
aumento en la variable causa x provocar una aumento en la variable efecto y y si es negativa
significa que una disminucin en la variable x provocar una disminucin en la variable y.

Por otro lado se puede observar que los puntos en un diagrama de dispersin pueden estar muy
cerca de la lnea recta que los atraviesa, o muy dispersos o alejados con respecto a la misma. El
ndice que se utiliza para medir ese grado de cercana de los puntos con respecto a la lnea recta es
el ndice de correlacin r. En total existen cinco grados de correlacin: positiva evidente (r = 1),
positiva, negativa evidente (r = -1), negativa y nula (r = 0).




















Correlacin Positiva
Evidente
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
Correlacin Negativa
Evidente
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
Correlacin
Positiva
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
Correlacin
Negativa
0
5
10
15
20
25
0 5 10 15 20 25
X
Y
Sin Correlacin
10
15
20
25
5 10 15 20 25
X
Y
0
5
0
CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 34
LAS SIETE NUEVAS HERRAMIENTAS PARA LA MEJORA CONTINUA

- Diagrama de afinidad:
o Organiza grandes cantidades de informacin
- Grfica doble de interrelaciones:
o Muestra los enlaces de causas y efectos entre aspectos relacionados
- Diagrama de rbol:
o Diagrama los niveles de destalle para alcanzar un objetivo principal y los objetivos
secundarios relacionados
- Diagrama Matricial:
o Muestra las relaciones y correlaciones entre ideas
- Matrices de prioridad:
o Asigna prioridades a asuntos, tareas o posibles opciones con base en criterios
conocidos
- Grficas de Programa de Decisin de Procesos (GPDP):
o Revela cadenas de eventos y planes de contingencia
- Diagrama de redes y actividades:
o Desarrolla u programa para tareas complejas



APLICACIONES

Las herramientas para la mejora continua se emplean de manera ideal en los casos siguientes:

Dividir un requerimiento general de detalles especficos
Identificar y eliminar las causas raz de un problema
Programar actividades complejas
Planeacin de contingencia
Ayudar a una organizacin a pasar de la manera antigua de pensar a otras formas ms
novedosas de hacerlo
Realizar una seleccin final de una lista de opciones
Evaluar opciones de diseo de producto



Es posible emplear las nuevas herramientas para la mejora continua en varias fases del diagrama de
mejora es posible emplear ms de una en cada paso y se deber elegir la herramienta correcta para
el trabajo.






CFE - CURSO TALLER DE ESTADISTICA Y PROBABILIDAD P. Reyes / Sep. 2006
Pgina 35
2.8 DIAGRAMA DE AFINIDAD

Es una herramienta que se emplea para organizar grandes cantidades de informacin agrupando los
aspectos de la misma con base en relaciones clave entre ellos; tambin se conoce como mtodo KJ.
Cuando se emplea este diagrama, se organizan las ideas o reas generales de problemas para
adquirir la comprensin de un problema o asunto complejo, as como para identificar las causas
potenciales de un problema. La herramienta ayuda a mejorar el compromiso y el apoyo del equipo.


- Usar cuando existe un caos, el equipo aporta ideas, se requiere un pensamiento
trascendental o el tema es un aspecto amplio.

PASOS
1. Reunir el equipo y elegir un lder.
a. El equipo deber consistir en 5 o 6 personas que estn relacionados con el
problema.
2. Establecer el asunto o problema en forma de pregunta.
3. Realizar una tormenta de ideas respecto al problema o aspecto y registrarla en fichas de
trabajo.
a. Slo una idea por tarjeta
b. Mximo siete palabras por tarjeta
c. Cada tarjeta deber contener un sustantivo y un verbo
4. Desplegar las tarjetas en una mesa grande o muro.
5. Acomodar las tarjetas en pilas similares o por familias.
6. Crear tarjetas de encabezado
7. Dibujar el diagrama de afinidad
a. Trazar un crculo en torno a cada agrupamiento y conectar este con la tarjeta de
encabezado
b. El diagrama queda completo cuando el equipo alcanza el consenso y etiqueta el
diagrama con el nombre del equipo y la fecha
8. Discutir el diagrama de afinidad
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 36 de 123
2.9 GRFICA DOBLE DE INTERRELACIONES



Una grfica doble de interrelaciones es una herramienta grfica que se emplea para organizar
problemas o aspectos complejos y que implican muchas variables, se emplea para estudiar las
relaciones entre los elementos de un problema e identificar las causas raz o las soluciones, es
similar al diagrama de afinidad en la medida que el proceso de construccin de una grfica doble
interrelaciones es creativo.

Ayuda a identificar las causas potenciales de un problema. A diferencia del diagrama de causa y
efecto, la grfica permite que el equipo de solucin de problemas observe al mismo tiempo muchos
efectos y trace la relacin entre dichos efectos y varias causas.

PASOS
1. Reunir el equipo y elegir un lder.
2. Poner el asunto o problema en forma de pregunta.
a. Es posible elegir dicho asunto o problema de las siguientes fuentes:
- El aspecto clave o la tarjeta de encabezado ms crtica de un diagrama de
afinidad.
- La declaracin de efecto de un diagrama de causa y efecto
- El aspecto clave de un diagrama de rbol
- Un aspecto clave identificado por el equipo
3. Realizar una tormenta de ideas respecto al problema o aspecto y registrarla en fichas de
trabajo.
- Si la declaracin del problema se origin en un diagrama de afinidad, usar las
tarjetas de encabezado de ste y realizar una tormenta de ideas para buscar
ideas adicionales
- Si la declaracin del problema se tom del efecto en un diagrama de causa y
efecto, copiar las causas ms bsicas de cada uno de los huesos del
diagrama en fichas de trabajo
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 37 de 123
- Si la declaracin del problema se origin en un diagrama de rbol, usar el nivel
ms bajo de detalle de ste
- Si la declaracin del problema fue un aspecto clave identificado por el equipo,
es preciso hacer una tormenta de ideas y colocar estas en tarjetas de ndice
4. Analizar las relaciones.
5. Revisar la grfica doble de interrelaciones.
6. Identificar causas y efectos raz.
a. Una causa raz es una categora de la que sale la gran cantidad de flechas.
b. Un efecto raz es una categora a la que llega una gran cantidad de flechas.
7. Estudiar la grfica doble de interrelaciones.

2.10 DIAGRAMA DE RBOL




Un diagrama de rbol (diagrama sistemtico) es una tcnica que se emplea para buscar la forma
ms apropiada y eficaz de alcanzar un objetivo especfico. Esta herramienta grfica de diagrama los
diversos niveles de detalle, estos representan acciones (o tareas) que siguen rutas lgicas para
implantar un objetivo amplio. Al implantar los puntos detallados de accin, se crea un efecto de
dominio que lleva al logro del objetivo principal.

Cuando se trabaja sobre un objetivo amplio, un diagrama de rbol ayuda a orientar tareas
especficas, es posible emplearlo para planear la implantacin de una solucin detallada en forma
ordenada. El diagrama de rbol funciones para dividir un aspecto u objetivo ms complejo.

PASOS
1. Reunir un equipo apropiado.
2. Elegir la declaracin de objetivo.
c. Es posible elegir dicho asunto o problema de las siguientes fuentes:
- El aspecto clave o la tarjeta de encabezado ms crtica de un diagrama de
afinidad.
- La declaracin de efecto de un diagrama de causa y efecto
- El aspecto clave de un diagrama de rbol
- Un aspecto clave identificado por el equipo
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 38 de 123
3. Generar los encabezados de primer nivel del rbol.
a. Como punto de inicio, usar los siguientes tres encabezados de primer nivel del rbol
- Si el objetivo es un aspecto clave de un diagrama de afinidad, usar las tarjetas
de encabezado. Si el objetivo es la tarjeta crtica de encabezado, usar las
tarjetas bajo tal encabezado
- Si el objetivo es una causa o efecto raz de una grfica doble de interrelaciones,
usar las tarjetas que llevan a ella
- Si el objetivo es un aspecto clave identificado por el equipo, realizar una
tormenta de ideas cuyo enfoque sea la implantacin
4. Completar el diagrama de rbol bajo cada encabezado principal.
5. Revisar el diagrama de rbol terminado.


2.11 DIAGRAMA MATRICIAL

PERSONAL

CURSO Direccin Supervisin Ingenieros
Trab. De
Produc.
Trab. De
Mant.
Trab. De
Oficina
Control Estadstico del
proceso

Diseo de productos


Despliegue de funciones
de Calidad


Mejora de Procesos

Eficacia de equipos

Benchmarking


Ingeniera concurrente

Medicin







Visin Global Taller de trabajo




Los diagramas matriciales son herramientas que se emplean para revelar las correlaciones entre
ideas, tares y responsabilidad y que aparecen en diversas formas matriciales, es posible emplear
estas herramientas para organizar y comparar dos o ms conjuntos de artculos para mostrar cuales
de ellos estn relacionados, asimismo pueden mostrar la fortaleza estadstica y la direccin de
influencia de cada relacin.


Los diagramas matriciales se emplean para mostrar la relacin entre las tareas de un diagrama de
rbol y otras caractersticas o funciones, son herramientas de extrema flexibilidad, pueden manejar
cualquier tipo de contenido de informacin y comparar cualquier nmero de variables.

Pueden tener cualquiera de las siguientes formas:

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 39 de 123
- Forma de L
- Forma de T
- Forma de Y
- Forma de X
- Forma de C

Es posible crear diagramas matriciales para mostrar diversos tipos de relaciones, una forma de
usarlos es desarrollar las nuevas actividades contra lo que en ese momento hace una organizacin,
para desplegar una solucin genrica.

PASOS
1. Reunir a un equipo apropiado.
2. Elegir las consideraciones clave.
a. Qu tipo de informacin se desea mostrar en la matriz?
3. Elegir la forma apropiada de la matriz.
a. Decidir el tipo de forma que permitir obtener la mejor informacin:
- Forma de L: 2 consideraciones clave
- Forma de T: 3 consideraciones clave con relaciones directas e indirectas
- Forma de Y: 3 consideraciones clave con relaciones directas
- Forma de X: 4 consideraciones clave con relaciones directas e indirectas
- Forma de C: 3 consideraciones clave con relaciones simultneas
4. Definir los smbolos de relacin a emplear y crear una leyenda.
5. Concluir la matriz.

2.12 MATRICES DE PRIORIDADES

Las matrices de prioridades son herramientas para tomas decisiones. Utilizando criterios ponderados
y acordados, se emplean tales herramientas para asignar prioridades a aspectos, tareas u opciones
posibles. Se basan en la combinacin de un diagrama de rbol y uno matricial.

Pueden ayudar a reducir el nmero de opciones; de modo que sea posible tomar decisiones con
mayor facilidad, debido a que las matrices de prioridades proporcionan un enfoque lgico a la
eleccin de un conjunto de opciones, son ideales para elegir un problema para que lo ataque el
equipo y estrechar una lista de soluciones potenciales para un problema.

PASOS

1. Reunir un equipo apropiado.
2. Establecer el objetivo principal a alcanzar y las opciones que ayuden a lograrlo.
3. Generar los criterios por los que se juzgarn las opciones.
4. Juzgar cada criterio contra todos los dems.
a. Comparar la importancia de cada uno de ellos contra los dems por medio de la
siguiente escala:
- 10 = Mucho ms importante
- 5 = Ms importante
- 1 = Ms importante
- 1 / 5 = Ms importante
- 1 / 10 = Ms importante
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 40 de 123
5. Comparar entre s las opciones para todos los criterios retenidos.
6. Compara cada opcin con base en todos los criterios combinados.

2.13 GRFICAS DE PROGRAMAS DE DECISIN DE PROCESOS
(GPDP)





















Una grfica de programa de decisin del proceso (GPDP) es una herramienta dinmica de
planeacin que se emplea para diagramar en forma sistemtica todas las posibles cadenas de
eventos para alcanzar un objetivo amplio o para implantar una solucin compleja.

Se enumeran todos los eventos concebibles y una contramedida apropiada en este flujo cronolgico,
se emplea este mtodo cuando existe incertidumbre en un proceso de implantacin, cuando el
problema u objetivo es nico o desconocido.

Las grficas de programa de decisin del proceso se clasifican por las herramientas que se emplea:
- GPDP planeado por adelantado: anticipan lo inesperado antes de la implantacin
verdadera. Se efecta una tormenta de ideas de todas las distintas posibilidades y se
elaboran planes de contingencia con anticipacin.
- GPDP en tiempo real: se desarrollan alternativas durante la implantacin.

La GPDP se clasifican por el formato grfico:
- Grfico: combinacin de diagrama de rbol y diagrama de flujo.
- Descripcin: lista numerada de eventos y contramedidas.

Se emplea una GPDP para describir de manera sistemtica una solucin u objetivo complejos, otro
propsito es probar teoras durante la implantacin de una solucin compleja.


Planeacin de una
reunin
Reservar sala de
reuniones
Verificar equipo
audiovisual
Efectuar los
arreglos de
alimentacin
Sala de reuniones no
disponible
Equipo audiovisual no
disponible
Banquete no
disponible
Men no
disponible
Cambiar fecha de
reunin

Reservar otro sitio

Rentar equipo
audiovisual

Reservar otro sitio

Ordenar a otro
proveedor

Solicitar un men
distinto

Ordenar otro
proveedor de
banquetes

= Seleccionado
= No factible
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 41 de 123
PASOS
1. Reunir el equipo apropiado.
2. Elegir el flujo bsico de implantacin.
3. Elegir el formato de la grfica.
4. Establecer el objetivo principal.
5. Enumerar los pasos del proceso.
6. Determinar contramedidas.
7. Evaluar las contramedidas.
- Evaluar las contramedidas y marcarlas en la forma siguiente
= Seleccionada
= No factible

2.14 DIAGRAMA DE REDES DE ACTIVIDADES

Un diagrama de redes de actividades (tambin conocido como diagrama de flechas) es una tcnica
de administracin de redes de uso generalizado para la planeacin e implantacin de tareas
complejas, e particular las mas comunes que cuentas con subtareas conocidas. Es una combinacin
de la Tcnica de Revisin y Evaluacin y Programas (PERT) y el Mtodo de Ruta Crtica (CPM).

Se emplea el diagrama de redes de actividades para desplegar soluciones complejas con programas
muy estrictos de tiempo. Identifica los pasos y subtareas y muestra el flujo de rutas simultneas de
implantacin











PASOS
1. Reunir el equipo apropiado.
a. Los miembros del equipo debern conocer a fondo las tareas y subtareas
2. Identificar todas las tareas que requiere el proyecto.
3. Determinar la secuencia de actividades.
4. Calcular el tiempo que se requiere cada actividad.
5. Calcular la ruta crtica del proyecto.
6. Calcular la fecha ms tarda de inicio y ms temprana de conclusin de cada subtarea.
7. Calcular la holgura total.
8. Disear el diagrama de redes de actividades.


1
da
1
da
1
da
3
da
2
da
3
da
2
da
5
da
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 42 de 123
MDULO 3. PROBABILIDAD Y DISTRIBUCIONES DE PROBABILIDAD

3.1 INTRODUCCIN

La probabilidad se refiere al estudio de la aleatoriedad y la incertidumbre en cuaqlquier situacin
donde podra ocurrir uno de varios resultados posibles. En algunos casos se utiliza de manera
informal como por ejemplo: hay un 50% de probabilidad de que llueva.
DEFINICIONES

- Probabilidad: es la posibilidad numrica de ocurra un evento. Se mide con valores
comprendidos entre 0 y 1, entre mayor sea la probabilidad, ms se acercar a uno.
- Experimento: es toda accin bien definida que conlleva a un resultado nico bien definido
como el lanzamiento de un dado. Es el proceso que produce un evento.
- Espacio muestral: es el conjunto de todos los resultados posibles de un experimento. Para
un dado es SS = (1,2,3,4,5,6)
- Evento: es cualquier coleccin de resultados contenidos en el espacio muestral. Es simple
si slo tiene un resultado y compuesto si tiene varios resultados.

Definicin Clsica de Probabilidad. Modelo de frecuencia relativa
La probabilidad de un evento (E), puede ser calculada mediante la relacin de el nmero de
respuestas en favor de E, y el numero total de resultados posibles en un experimento.

( )
resultados Total
E Favorable
E P
#
#
=
Ejemplo 1: La probabilidad de que salga 2 al lanzar un dado es: 16 .
6
1
=
Ejemplo 2: La probabilidad de lanzar una moneda y que caiga cara es: 5 .
2
1
=
Ejemplo 3: La probabilidad de sacar 1,2,3,4,5, o 6 al lanzar un dado es:

1
6
1
6
1
6
1
6
1
6
1
6
1
= + + + + +

La probabilidad de un evento est comprendida siempre entre 0 y 1. La suma de las
probabilidades de todos los eventos posibles (E) en un espacio muestral S = 1
Un espacio muestral (S): Es el conjunto Universal; conjunto de todos los n elementos
relacionados = # Total de resultados posibles.

Probabilidad Compuesta
Es la probabilidad compuesta por dos eventos simples relacionados entre s.
En la composicin existen dos posibilidades: Unin o Interseccin .

Unin de A y B
Si A y B son eventos en un espacio muestral (S), la unin de A y B ( ) B A contiene todos los
elementos de el evento A o B o ambos.

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 43 de 123
Interseccin de A y B
Si A y B son eventos en un espacio muestral S, la interseccin de A y B ( ) B A est compuesta
por todos los elementos que se encuentran en A y B.

Relaciones entre eventos
Existen tres tipos de relaciones para encontrar la probabilidad de un evento: complementarios,
condicionales y mutuamente excluyentes.

1. Eventos complementarios: El complemento de un evento A son todos los elementos en un
espacio muestral (S) que no se encuentran en A. El complemento de A es: ( ) A P A = 1

Ejemplo 4: En el evento A (da nublado), P(A) = .3, la probabilidad de tener un da despejado ser
1-P(A) = .7









2. Probabilidad condicional: Para que se lleve a cabo un evento A se debe haber realizado el
evento B. La probabilidad condicional de un evento A dado que ha ocurrido el evento B es:

( )
( )
( ) B P
B A P
B A P

= , si 0 = B

Ejemplo 5: Si el evento A (lluvia) y B(nublado) = 0.2 y el evento B (nublado) = 0.3, cual es la
probabilidad de que llueva en un da nublado? Nota: no puede llover si no hay nubes

( )
( )
( ) B P
B A P
B A P

= = 67 . 0
3 . 0
2 . 0
=





Ejemplo 6. Las razones de queja en productos se muestran a continuacin:

RAZN DE LA
QUEJA

Falla elctrica Falla mecnica Falla apariencia Total
En garanta 18% 13% 32% 63%
Fuera de garanta 12% 22% 3% 37%
Total 30% 35% 35% 100%

( ) 7 . = A P
P(A)=.3
P(A/B)=.67
A
B
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 44 de 123
Si A es el evento de que la queja es por apariencia y que B representa que la queja ocurri en el
periodo de garanta. Se puede calcular P(Z | B) = P(A y B) / P(B)

P(A | B) = 0.32 / 0.63 = 0.51

Si C es el evento fuera de garanta y D falla mecnica:

P(C|D) = P(C y D) / P(D) = 0.22 / 0.35 = 0.628

Se dice que dos eventos A y B son independientes si: P(A/B) = P(A) o P(B/A) = P(B).
La probabilidad de la ocurrencia de uno no est afectada por la ocurrencia del otro. De otra
manera los eventos son dependientes.

Un ejemplo de evento independiente es: Cul es la probabilidad de que llueva en lunes?
El ejemplo de evento dependiente es el ejemplo 5.

3. Eventos mutuamente excluyentes.

Cuando un evento A no contiene elementos en comn con un evento B, se dice que estos son
mutuamente excluyentes.










Ejemplo 7. Al lanzar un dado: a) cual es la probabilidad de que salga 2 o 3? B) Calcule ( ) B A P ?

a) ( ) = B A P 33 .
3
1
6
1
6
1
= = +

b) ( ) B A P = 0, ya que al ser conjuntos mutuamente excluyentes la interseccin no existe, es
imposible que salga 2 y 3 al mismo tiempo.

Ley aditiva:
Cuando dos eventos no son mutuamente excluyentes:
( ) ( ) ( ) ( ) B A P B P A P B A P + =

Cuando los eventos son mutuamente excluyentes:
( ) ( ) ( ) B P A P B A P + =

Ley multiplicativa:
Si los eventos A y B son dependientes:
A
B
Eventos mutuamente excluyentes.
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 45 de 123
( ) ( ) ( ) A B P A P B A P =

Si los eventos A y B son independientes:
( ) ( ) ( ) B P A P B A P =

Ejemplo 8: Se selecciona una muestra aleatoria n = 2 de un lote de 100 unidades, se sabe que 98
de los 100 artculos estn en buen estado. La muestra se selecciona de manera tal que el primer
artculo se observa y se regresa antes de seleccionar el segundo artculo (con reemplazo), a)
calcule la probabilidad de que ambos artculos estn en buen estado, b) si la muestra se toma sin
reemplazo, calcule la probabilidad de que ambos artculos estn en buen estado.

A: El primer artculo est en buen estado.
B: El segundo artculo est en buen estado.

a) Al ser eventos independientes el primero del segundo:

( ) ( ) ( ) B P A P B A P = = 9604 .
100
98
100
98
= |
.
|

\
|
|
.
|

\
|







b) Si la muestra se toma sin reemplazo de modo que el primer artculo no se regresa antes de
seleccionar el segundo entonces:

( ) ( ) ( ) A B P A P B A P = = 9602 .
99
97
100
98
= |
.
|

\
|
|
.
|

\
|


Se observa que los eventos son dependientes ya que para que para obtener el evento B, se tiene
que haber cumplido antes el evento A.













P(B) =.98 P(A) =.98
A
B
P(B/A)=.97
B
A
P(A) =.98
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 46 de 123
EJERCICIOS:

1. Tres componentes forman un sistema. Como los componentes del subsistema 2-3 estn
conectados en paralelo, trabaja si por lo menos uno de ellos funciona. Para que trabaje el sistema
debe trabajar el componente 1 y el subsistema 2-3.

a) Qu resultados contiene un evento A donde funcionan exactamente dos de los tres
componentes?

b) Qu resultados estn contenidos en el evento B en el que por lo menos funcionan dos los
componentes?

c) Qu resultados estn contenidos en el evento C donde funciona el sistema?

d) Listar los resultados de C, A o C, A y C, B o C y B y C.









2. En una planta los trabajadores trabajan 3 turnos. En los ltimos aos ocurrieron 200 accidentes.
Algunos se relacionan con condiciones inseguras y otros a condiciones de trabajo, como se muestra
a continuacin:

Turno Condiciones inseguras Condiciones de trabajo Total
Diurno 10% 35% 45%
Vespertino 8% 20% 28%
Nocturno 5% 22% 27%
Total 23% 77% 100%















1
3
2
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 47 de 123
Si se elige al azar uno de los 200 informes de accidentes de un archivo y se determina el turno y tipo
de accidente:

a) Cules son los eventos simples?

b) Cul es la probabilidad de que el accidente seleccionado se atribuya a condiciones inseguras?

c) Cul es la probabilidad de que no haya ocurrido en el turno diurno?

3. La ruta que usa un automovilista tiene dos semforos. La probabilidad de que pare en el primero
es de 0.4, la probabilidad de que pare en el segundo es de 0.5 y la probabilidad de que pare por lo
menos en uno es de 0.6. Cul es la probabilidad de que se detenga

a) En ambos semforos?

b) En el primero pero no en el segundo?

c) Exactamente en un semforo?

4. Una empresa construye tres plantas elctricas en tres lugares diferentes. Se Ai el evento en el
que se termina la planta i en la fecha del contrato. Utilizar las notaciones de unin, interseccin y
complemento para describir cada uno de los siguientes eventos, en trminos de A1, A2 y A3,
mostrar en diagramas de Venn.

a) Por lo menos una planta se termina en la fecha del contrato.

b) Todas las plantas se terminan en la fecha del contrato

c) Slo se termina la planta del sitio 1 en la fecha del contrato

d) Exactamente se termina una planta en la fecha del contrato

e) Se termina ya sea la planta del lugar 1 o las otras dos en la fecha del contrato.
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 48 de 123
3.2 TCNICAS DE CONTEO

Supngase que una persona tiene dos modos de ir de una ciudad A a otra ciudad B; y una vez
llegada a B, tiene tres maneras de llegar a otra ciudad C. De cuntos modos podr realizar el viaje
de A a C pasando por B?










Evidentemente, si empez a pie podr tomar avin, carro o trasatlntico; y si empez en bicicleta,
tambin podr tomar avin, carro o trasatlntico.
Utilizando literales (las iniciales) el viajero tuvo las siguientes oportunidades: pa, pc, pt; ba, bc, bt.

Que son 6; cada primera oportunidad cont con tres posibilidades.

Se tiene: 2 oportunidades X 3 posibilidades = 6 posibilidades.

PRINCIPIO DE CONTEO: Si un evento puede hacerse de a1 maneras diferentes, y cuando se ha
hecho, puede hacerse un segundo evento (independiente del primero) de a2 modos diferentes y
luego un tercer evento de a3 maneras tambin diferentes, y as sucesivamente, entonces el nmero
de maneras diferentes en que los eventos se pueden realizar , en el orden indicado es de:
n
a a a a ....
3 2 1



Ejemplo 9: De cuantos modos podr vestirse un joven que tiene 3 camisas diferentes, 4
pantalones y dos pares de calzado?

Solucin: Primer evento (camisas) a1 = 3
Segundo evento ( pantalones) a2 = 4
Tercer evento (zapatos) a3 = 2
24 2 4 3
3 2 1
= = a a a
modos diferentes.

PERMUTACIONES: Una permutacin es un arreglo ordenado de una parte de los elementos, o de
todos los elementos de un conjunto.

Ejemplo 10: Dado el conjunto de las letras { } i p o , , , escribir todas las permutaciones empleando las
tres letras cada vez.

Solucin: opi, oip, ipo, iop, pio, poi : son seis permutaciones posibles.

Ejemplo 11: Y tomando dos letras solamente cada vez?

CIUDAD A CIUDAD B CIUDAD C
a pie
en avin
en carro
en trasatlntico en bicicleta
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 49 de 123
Solucin: op, oi, io, ip, pi, po: son seis permutaciones.

En la mayora de los casos resulta muy complicado hacer las permutaciones manualmente
por lo cual utilizamos la siguiente frmula:
( ) !
!
r n
n
P
n
r

=

donde:
n = nmero total de elementos del conjunto
P = Permutaciones
r = nmero de elementos que se toman a la vez.
! = factorial.
Nota: 0! = 1

Ejemplo 12: Se toman 3 nmeros de lotera de un total de 50, de cuantas formas se pueden tomar
los nmeros?

( )
600 , 117 ) 48 49 50 (
! 47
! 50
! 3 50
! 50
50
3
= = =

= P

COMBINACIONES: Es el nmero de subconjuntos de r elementos que se puede formar de un
conjunto de n elementos, sin importar el orden de los elementos. Para determinar el nmero de
combinaciones posibles utilizamos:
( ) ! !
!
r r n
n
C
n
r

=


Ejemplo 13: Un entrenador de basket ball tiene 9 jugadores igualmente hbiles, cuntas quintetas
podr formar?

126
! 5 ! 4
! 9
9
5
=

= C

Ejemplo 14: Se extraen 5 cartas de una baraja de 52 cartas. Hallar la probabilidad de extraer (a) 4
ases, (b) 4 ases y un rey (c) 3 dieces y dos jotas,

a) P(4 ases) =
( )( )
( )
5 52
1 48 4 4
C
C C
=
54145
1

b) P (4 ases y 1 rey) =
( )( )
649740
1
5 52
1 4 4 4
=
C
C C

c) P (3 dieces y 2 jotas) =
( )( )
108290
1
5 52
2 4 3 4
=
C
C C

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 50 de 123
TEOREMA DE BAYES

Mediante el teorema de Bayes podemos calcular la probabilidad de que ocurra un determinado
evento, cuando no tenemos datos inmediatos del mismo mediante la informacin que tenemos de
otros eventos.

Cuando existen dos eventos posibles A y B, la probabilidad de que ocurra Z se describe mediante el
teorema de probabilidad total el cual es:

( ) ( )| | ( ) ( ) | | B Z P B P A Z P A P Z P + = ) (

Mediante el teorema anterior se deduce el teorema de Bayes:

( )
( ) ( )
( ) ( )| | ( ) ( ) | | B Z P B P A Z P A P
A Z P A P
Z A P
+

=

Ejemplo 8: En cierta universidad 20% de los hombres y 1% de las mujeres miden ms de 1.80m de
altura. Asimismo 40% de los estudiantes son mujeres. Si se selecciona un estudiante al azar y se
observa que mide ms de 1.80m Cual es la probabilidad de que sea mujer?


Z > 1.80 m
A = Hombre
B = Mujer
P (A) = .60
P (B) = .40
P (Z/A) = .20
P (Z/B) = .01




Para encontrar la probabilidad de que sea mujer dado que mide ms de 1.80,
Utilizando el teorema de Bayes:

( )
( ) ( )
( ) ( )| | ( ) ( ) | | B Z P B P A Z P A P
B Z P B P
Z B P
+

=


P(B/Z) = (.4 x .01)/ (.6 x .20 +.4 x .01) = .032.

Podemos visualizar P(B/Z) en el siguiente diagrama:

Por lo tanto la probabilidad de que sea mujer dado
que mide ms de 1.80 es .032 = 3.2 %
Z > .80
Hombre Mujer
P(B/Z) = .032
P(A/Z) Z > .80
Hombre Mujer
P(B/Z) = .032
P(A/Z)
HOMBRE MUJER
< 1.80
> 1.80
.80
.20
.99
.01
= Z
HOMBRE MUJER
< 1.80
> 1.80
.80
.20
.99
.01
= Z
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 51 de 123
EJERCICIOS:

1. Una planta emplea 20 trabajadores en el turno diurno, 15 en el segundo y 10 en la noche. Se
seleccionan 6 para hacerles entrevistas exhaustivas. Suponer que cada uno tiene la misma
probabilidad de ser seleccionado de una urna de nombres.

a) Cuntas selecciones dan como resultado seis trabajadores del turno diurno?

b) Cul es la probabilidad de que los 6 trabajadores sean seleccionados del mismo turno?

c) Cul es la probabilidad de que por lo menos dos turnos diferentes estn representados en la
seleccin?

d) Cul es la probabilidad de que por lo menos uno de los turnos no est representado en la
muestra de trabajadores?


2. Una caldera tiene 5 vlvulas de alivio idnticas. La probabilidad de que que en algn momento se
abra una de ellas es de 0.95. Si su operacin es independiente, calcular la probabilidad de que por lo
menos se abra una de ellas. Y la probabilidad de que por lo menos no se abra una de ellas.

3. Dos bombas conectadas en paralelo fallan en determinado da, sin que haya dependencia mutua.
La probabilidad de que solo falle la bomba ms vieja es de 0.10 y de que falle la bomba ms nueva
es de 0.05. Cul es la probabilidad de que fallen ambas bombas al mismo tiempo?

4. Un sistema de componentes conectados como se muestra en la figura. Los componentes 1 y 2 en
paralelo hacen que el subsistema funcione con uno uno solo, el sistema funciona solo si tambien
trabajan los componentes 3 y 4. Si los componentes son independientes y la probabilidad de que
cada componente funcione es de 0.9, calcular la probabilidad de que funcione el sistema.


1
1
4 3
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 52 de 123
3.4 DISTRIBUCIONES DE PROBABILIDAD

Variable aleatoria: Para un determinado espacio muestral SS una variable aleatoria (VA) es
cualquier regla que relaciona un nmero con cada resultado en SS.

Variable aleatoria de Bernoulli: Es cualquier variable aleatoria con valores 0 y 1.

Variable aleatoria discreta: Es una variable aleatoria cuyos posibles valores son enteros.

Variable aleatoria continua: Es una variable aleatoria cuyos valores posibles son los reales.

Distribucin de probabilidad o funcin de masa de probabilidad: Establece en una tabla,
frmula o grfica como se distribuye la probabilidad P(y) asociada a los posibles valores de la
variable aleatoria y.

Debe cumplir con las reglas siguientes:

1. 0 <= P(y) <= 1

2. Suma (P(y)) = 1









Su frmula es la siguiente:




Valor esperado:

Funcin de distribucin acumulativa:



Con propiedades:

y P(Y=y)
0 1/4
1 1/2
2 1/4
y y
y
y Y P y P ) 5 (. ) 5 (.
3
) ( ) (
3
|
|
.
|

\
|
= = =
) ( ) ( x X P x F
X
s =
0 ) (
1 ) (
1 ) ( 0
=
=
s s


x F Lim
x F Lim
x F
x
x
Funcin de distribucin acumulativa para Y=#de caras
-0.2 0.3 0.8 1.3 1.8
y
0.3
0.5
0.7
0.9
F
(
x
)
0 1 2
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 53 de 123
Valor esperado de una distribucin de probabilidad discreta

La media o valor esperado de una variable aleatoria discreta X , denotada como E(X), es




La media es el centro de la masa del rango de los valores de X.

Varianza de una distribucin de probabilidad discreta

Sea Y una variable aleatoria discreta con distribucin de probabilidades P(X=x). Entonces , la
varianza de Y es:




DISTRIBUCIONES DISCRETAS

DISTRIBUCIN UNIFORME

La variable aleatoria toma un numero finito de n valores, cada uno con igual probabilidad.



Con n = 10 se tiene:

Su media y varianza son las siguientes:









= = = =
x x
X X
x X xP x xf X E ) ( ) ( ) (

= = =
x
X X X
x X P x X E ) ( ) ( ] ) [(
2 2 2
o
n
x X P x f
1
) ( ) ( = = =
0 2 4 6 8 1e+001
x
0.05
0.07
0.09
0.11
0.13
0.15
p
r
o
b
12
1
2
) 1 (
2
2

=
+
=
n
n
X
X
o

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006


Pgina 54 de 123
DISTRIBUCIN HIPERGEOMTRICA

Se aplica cuando la muestra (n) es una proporcin relativamente grande en relacin con la poblacin
(n > 0.1N). El muestreo se hace sin reemplazo

P(x,N,n,D) es la probabilidad de exactamente x xitos en una muestra de n elementos tomados de
una poblacin de tamao N que contiene D xitos. La funcin de densidad de distribucin
hipergeomtrica:


Con

La media y la varianza de la distribucin hipergeomtrica son:





Ejemplo: De un grupo de 20 productos, 10 se seleccionan al azar para prueba. Cul es la
probabilidad de que 10 productos seleccionados contengan 5 productos buenos? Los productos
defectivos son 5 en el lote.

N = 20, n = 10, D = 5, (N-D) = 15, x = 5

P(x=5) = 0.0183 = 1.83%






USO DE EXCEL:
N = Tamao de Poblacin, n = Tamao de muestra, D= xitos en la poblacin; x = xitos en la
muestra.
En Fx Estadsticas seleccionar
=distr.hipergeom(x, n, D, N)

USO DE MINITAB:
Calc > Probability distributions > Hypergeometric
Probability (densidad) o Cumulative probability (acumulada)
N, D, n y en Input constant introducir x.

EJERCICIO:
1. Se compran 10 transformadores y se toma una muestra de 4. Si se encuentra uno o ms
defectuosos se rechaza el lote de 10.
a) Si el lote tiene un defectuoso, Cul es la probabilidad de que se acepte el lote?
b) Cul es la probabilidad de aceptar el lote si contiene 3 defectuosos.
N
n
D N
x n
D
x
C
C C
x P

= ) (
)! ( !
!
x n x
n
C
n
x

=
N
nD
= |
.
|

\
|

|
.
|

\
|

|
.
|

\
|
=
1
1
2
N
n N
N
D
N
nD
o
0183 . 0
! 10 ! 10
! 20
! 10 ! 5
! 15
! 0 ! 5
! 5
) 5 ( =
|
.
|

\
|
|
.
|

\
|
= P
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 55 de 123
DISTRIBUCIN BINOMAL

Ensayo Bernoulli. Es un experimento aleatorio que solo tiene dos resultados. xito o fracaso.
Donde la probabilidad de xito se denota por p

Suponga se realizan n experimentos Bernoulli independientes. Suponga que la variable X de inters
es el numero de xitos. X toma valores 0,1,2,...,n

La distribucin binomial se utiliza para modelar datos discretos y se aplica para poblaciones grandes
(N>50) y muestras pequeas (n<0.1N). El muestreo binomial es con reemplazamiento.

Es apropiada cuando la proporcin defectiva es mayor o igual a 0.1.
La binomial es una aproximacin de la hipergeomtrica
La distribucin normal se paroxima a la binomial cuando np > 5

La variable aleatoria x tiene una distribucin binomial como sigue:




Con media y varianza:





Ejemplo: Un equipo requiere a lo ms 10% de servicios en garanta. Para comprobarlo se compran
20 de estos equipos y se someten a pruebas aceleradas de uso para simular el uso durante el
periodo de garanta. Obtener la probabilidad para P(x<=4).

Rechazar la afirmacin de que falla menos del 10% si se encuentra que X>=5.

P(X>=5) = 1- P(X<=4) =1 - distr.binom(4,20,0.1,1) = 1 0.9568 = 0.0432 lo cual es bajo.

USO DE EXCEL:
x = xitos en la muestra, p = probabilidad de xito, n = tamao de muestra.
En Fx Estadsticas seleccionar
=distr.binom(x, n, p, 0 o 1 dependiendo si es puntual o acumulada)

USO DE MINITAB:
Calc > Probability distributions > Binomial
Probability (densidad) o Cumulative probability (acumulada)
n = number of trials, p = probability of success y en Input constant introducir x.
n x p p
x
n
x X P x f
x n x
,..., 1 , 0 ) 1 ( ) ( ) ( =
|
|
.
|

\
|
= = =

) 1 ( ) (
) (
2
p np X V
np X E
X
X
= =
= =
o

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006


Pgina 56 de 123
EJERCICIOS:

1. Un panel solar tiene una vida til de 5 aos con una probabilidad de 0.95. Se toman 20 pneles
solares y se registr la vida til.

a) Cul es la probabilidad de que exactamente 18 tengan su vida til de 5 aos?

b) Cul es la probabilidad de que cuando mucho 10 tengan esa vida til?

c) Si solo 10 paneles tienen una vida til de 5 aos, que debera pensarse sobre el valor verdadero
de P?

2. 20% de los telfonos se reparan cuando todava est vigente la garanta. De estos el 60% se
reparan mientras que el 40% se reemplazan. Si una empresa compra 10 de estos telfonos, Cul
es la probabilidad de que exactamente sean reemplazados 2 en periodo de garanta?.

3. Suponga que solo 25% de los automovilistas se detienen por completo en un alto con luz roja
intermitente cuando no est visible otro automvil. Cul es la probabilidad de que de 20
automovilistas seleccionados al azar se detengan:

a) A lo sumo 6 se detengan por completo
b) Exactamente 6 se detengan por completo?
c) Al menos 6 se detengan por completo?
d) Cuntos de los siguientes 20 automovilistas se espera que se detengan por completo?

4. De todas las plantas slo el 5% descargan residuos por sobre la norma. Si se muestrean 20
plantas Cul es la probabilidad de que estn fuera de la ley:

a) Menos que una planta?

b) Menos de dos plantas

c) Exactamente 3

d) Ms de una
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 57 de 123
DISTRIBUCIN BINOMIAL NEGATIVA

Se basa en los mismos principios de la distribucin binomial.
1. El experimento consiste de una secuencia de ensayos independientes.
2. Cada ensayo produce un xito o un fracaso.
3. La probabilidad de xito es constante de un ensayo a otro, P(xito en el ensayo i) = p
4. El experimento continua hasta completar r ensayos.

La variable de inters es X = nmero de fracasos que preceden al r-simo xito. X se llama variable
aleatoria binomial negativa, ya que en contraste con la distribucin binomial, el nmero de xitos
es fijo y el nmero de ensayos aleatorio.

Su funcin de distribucin es:

x r
p p
r
r x
p r x nb ) 1 (
1
1
) ; ; (
|
|
.
|

\
|

+
= con X = 0, 1, 2, ..

Ejemplo: Se quieren reclutar 5 personas para participar en un nuevo programa. Si p = 0.2 la
probabilidad de que las personas quieran participar. Cul es la probabilidad de que se les deba
preguntar a 15 personas antes de encontrar a 5 que estn de acuerdo en participar?. Es decir si
S=(de acuerdo en participar),

Cul es la probabilidad de que ocurran X=10 fracasos antes del r=quinto xito?.

r = 5, p = 0.2 y x = 10, se tiene:

034 . 0 8 . 0 2 . 0
4
14
) 2 . 0 ; 5 ; 10 (
10 5
=
|
|
.
|

\
|
= nb
La probabilidad de que a lo sumo ocurran 10 fracasos (F) se les pregunte a lo sumo a 10 personas
es:

164 . 0 8 . 0
4
4
2 . 0 ) 02 . 0 , 5 , ( ) 10 (
10
0
5
10
0
=
|
|
.
|

\
| +
= = s

=
=
x
X
x
x
x nb X P
Su media y varianza son las siguientes:

2
) 1 (
) (
) 1 (
) (
p
p r
x V
p
p r
x E

=


USO DE EXCEL:

=NEGBINOMDIST(10,5,0.2) y SUMA (X=0 hasta 10) =NEGBINOMDIST(X,5,0.2)
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 58 de 123
Otra forma:

Sea y el nmero de intentos hasta que el r-simo xito es observado.

2
2
1
) (
p
rq
p
r
q p
r y
y
y p
r y r
=
=
|
|
.
|

\
|

=

o


P = probabilidad de xito en un solo intento
Q = 1-p
Y = Nmero de intentos hasta que se obtienen los r xitos

P(15) = combinat(14, 10) 0.2^5*0.8^10 = 0.0343941


Ejemplo: Un fabricante utiliza fusibles en un sistema elctrico comprados en lotes grandes. Se
prueban secuecialmente hasta que se observa el primero con falla. Asumiendo que el lote contiene
10% de fusibles defectivos.

a) Cul es la probabilidad de que el primer fusible defectuoso sea uno de los primeros 5 probados?

P= 0.1 q= 0.9

P(y) = p*(q^y-1) = (.1)*(0.9^y-1)

Para y = 1 hasta 5:

P(y<=5) = p(1) + p(2) ++ p(5) = 0.41..

b) Encontrar la media, varianza y desviacin estndar para y el nmero de fusibles probados hasta
que el primer fusible con falla es observado.

Media = 1/p = 1/0.1 = 10

Varianza = q/p^2 = 0.9/(0.1^2) = 90

Sigma = 9.49
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 59 de 123
DISTRIBUCIN DE POISSON

La distribucin de Poisson se utiliza para modelar datos discretos como aproximacin a la Binomial
dada la dificultad que exista de encontrar tablas Binomiales adecuadas cuando n es grande y p
pequea. La distribucin de probabilidad de Poisson proporciona buenas aproximaciones cuando np
<= 5.

Se aproxima a la binomial cuando p es igual o menor a 0.1, y el tamao de muestra es grande (n >
16) por tanto np > 1.6.

Una Variable aleatoria X tiene distribucin Poisson si toma probabilidades con.






Con media y varianza:






Ejemplo 1. Suponga que una compaa de seguros asegura las vidas de 5000 hombres de 42 aos
de edad. Si los estudios actuariales muestran que la probabilidad de que un hombre muera en cierto
ao es 0.001, entonces la probabilidad de que la empresa pague exactamente 4 indeminizaciones
y= 4 en un cierto ao es:

4996 4
) 999 . 0 ( ) 001 . 0 (
! 4996 !* 4
! 5000
) 4 ( ) 4 ( = = = p y P

El valor de esta expresin no aparece en tablas y su clculo era difcil, no as con Excel.

Aproximando con la distribucin de Poisson, se toma la tasa media de sucesos = np =
(5000)*(0.001)= 5, teniendo:

1745 . 0
! 4
5
! 4
) 4 (
5 4 4
= = = =

e e
y P



Ejemplo 2. Una planta tiene 20 mquinas, si la probabilidad de que falla una en cierto da es 0.05.
Encuentre la probabilidad de que durante un da determinado fallen dos mquinas.

np = 20 *0.05 = 1.0
184 . 0
! 2
1
) 2 (
1 2
= = =

e
y P

Si se calcula con la distribucin Binomial se tiene:
,... 1 , 0
!
) ( = =

x
x
e
x f
x

p n
p n
= =
=
o

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006


Pgina 60 de 123

188 . 0 ) 95 . 0 ( ) 05 . 0 (
! 18 !* 2
! 20
) 2 ( ) 2 (
18 2
= = = = p y P

La aproximacin es mejor conforme se aproxima a np = 5.

La distribucin de Poisson adems de ser til como aproximacin de las probabilidades Binomiales,
constituye un buen modelo para experimentos donde Y representa el nmero de veces que ha
ocurrido un evento en una unidad dada de tiempo o de espacio. Por ejemplo:

Nmero de llamadas recibidas en un conmutador durante un da, conociendo el promedio por da.
Nmero de reclamaciones contra una empresa de seguros por semana, conociendo el prom. Sem.
Nmero de llegadas a una estacin de servicio durante un minuto dado, conociendo el prom./min.
Nmero de ventas hechas por un agente de ventas en un da, conociendo el promedio por da.

Slo se requiere que los eventos sean independientes.


USO DE EXCEL:
x = xitos en la muestra, np = media.
En Fx Estadsticas seleccionar
=Poisson(x, np, 0 o 1 dependiendo si es puntual o acumulada)

USO DE MINITAB:
Calc > Probability distributions > Poisson
Probability (densidad) o Cumulative probability (acumulada)
n*p = mean y en Input constant introducir x.
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 61 de 123
EJERCICIOS:

1. El 20% de los choferes son mujeres, si se seleccionan 20 al azar para una encuesta:
Usando la distribucin binomial y la distribucin de Poisson
a) Cul es la probabilidad de que dos choferes sean mujeres ?
b) Cul es la probabilidad de que al menos cuatro sean mujeres?

2. Se tienen 8 recepcionistas, estan ocupadas en promedio el 30% del tiempo, si 3 clientes llaman
la prob. De que estn ocupadas es mayor al 50%?

3. Un proveedor de partes de bicicleta tiene 3% de defectos. Se compran 150 partes y si la
probabilidad de que 3 o ms partes sean defectuosas excede al 50%, no se hace la compra.
Qu sucede en este caso?.

4. En una universidad las llamadas entran cada 2 minutos
a) Cul es la cantidad esperada de llamadas en una hora?
b) Cul es la probabilidad de 3 llamadas en los sig. 5 minutos?
c) Cul es la probabilidad de no llamadas en los sig. 5 minutos?
d) cul es la prob. de recibir 10 llamadas en los sig. 15 minutos?

5. Un proceso de manufactura produce 1.2 defectos por cada 100 unidades producidas,
Cul es la probabilidad de que las siguientes 500 unidades presenten X=3 defectos?

6. 40 trabajadores tienen nuevas computadoras, 26 con MMX. Si se seleccionan 10 al azar, Cul
es la prob. De que 3 tengan la tecnologa MMX?.

7. De un grupo de 20 productos, se toman 10 al azar,
Cul es la probabilidad de contengan las 5 mejores unidades?

8. De 9 empleados diurnos slo 6 estn calificados para hacer su trabajo, si se seleccionan
aleatoriamente 5 de los 9 empleados, Cul es la probabilidad de que:
a) Los 5 estn calificados
b) 4 esten calificados
c) Por lo menos 3 estn calificados
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 62 de 123
DISTRIBUCIONES CONTINUAS DE PROBABILIDAD

Se diferencian de las distribuciones de probabilidad discretas en que su funcin de distribcun
acumulativa (F(yo)) para una variable aleatoria y es igual a la probabilidad F(yo) = P(y<=y0).

Si F(y) es la funcin de distribucin acumulada para una variable aleatoria continua entonces su
funcin de densidad f(y) para y es:

f(y) = dF(y) / dy

Sus propiedades son que:

1. f(y) >= 0

2. Integral desde menos infinito a ms infinito de f(y) d(y) = F( ) = 1

f(y)








F(yo)



y
yo
Funcin de distribucin acumulativa


Entre las distribuciones continuas ms comunes se encuentran la distribucin normal y la
distribucin exponencial.
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 63 de 123
DISTRIBUCIN EXPONENCIAL

Se usa para modelar artculos con una tasa de falla constante y est relacionada con la distribucin
de Poisson. Si una variable aleatoria x se distribuye exponencialmente, entonces el recproco de x,
y = 1/x sigue una distribucin de Poisson y viceversa.

La funcin de densidad de probabilidad exponencial es: Para x >= 0




Donde Lambda es la tasa de falla y theta es la media.

La funcin de densidad de la distribucin exponencial










El modelo exponencial, con un solo parmetro, es el ms simple de todos los modelos de
distribucin del tiempo de vida. Las ecuaciones clave para la exponencial se muestran:


















Si el nmero de ocurrencias tiene Distribucin de Poisson, el lapso entre ocurrencias tiene
distribucin exponencial. Su funcin de distribucin acumulada es la siguiente:

x
x
e e x f

u

u

= =
1
) (
h

=
~
=
=
=
=

) ( : FALLA DE TASA
1
: VARIANZA
693 . 0 2 ln
: MEDIANA
1
: MEDIA
) ( : PDF
) ( : DAD CONFIABILI
1 ) ( : CDF
2
t
m
e t f
e t R
e t F
t
t
t
Funcin de Densidad de Probabilidad Exponencial
0.0000
0.0005
0.0010
0.0015
0.0020
0.0025
0.0030
0.0035
0 500 1,000 1,500 2,000
Tiempo
f
(
t
)
= 0.003, MEDIA = 333
= 0.002, MEDIA = 500
= 0.001, MEDIA = 1,000
h

=
~
=
=
=
=

) ( : FALLA DE TASA
1
: VARIANZA
693 . 0 2 ln
: MEDIANA
1
: MEDIA
) ( : PDF
) ( : DAD CONFIABILI
1 ) ( : CDF
2
t
m
e t f
e t R
e t F
t
t
t
Funcin de Densidad de Probabilidad Exponencial
0.0000
0.0005
0.0010
0.0015
0.0020
0.0025
0.0030
0.0035
0 500 1,000 1,500 2,000
Tiempo
f
(
t
)
= 0.003, MEDIA = 333
= 0.002, MEDIA = 500
= 0.001, MEDIA = 1,000
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 64 de 123
t
e x X P

= <= 1 ) (


Cuando X = 0 la distribucin de Poisson se convierte en el segundo trmino de la distribucin
exponencial.

Probabilidad de que el tiempo entre la ocurrencia de dos eventos cualquiera sea <= t
F(x)


t

Aqu se desea saber de que no transcurra ms de cierto tiempo entre dos llegadas, sabiendo que se
tiene una tasa de llegadas .

Ejemplo: El tiempo de respuesta de un departamento es de 5 minutos promedio y se distribuye
exponencialmente. La probabilidad de que el tiempo de respuesta a lo sumo de 10 minutos se
determina como sigue:

P(X<=10) = F(10; 1/5) = 1- exp(-0.2*10) = 0.865

La probabilidad entre el tiempo de respuesta de 5 y 10 minutos es:

P(5<=X<=10) = F(10;1/5) F(5; 1/5) = 0.233


USO DE EXCEL:
Lamda = 1/ media.
En Fx Estadsticas seleccionar
=distr.exp(x, lamda,1) = distr.exp(10,0.2,1) = 0.865

USO DE MINITAB:
Calc > Probability distributions > Exponential
Probability (densidad) o Cumulative probability (acumulada)
Indicar Threshold = 0 y en Scale indicar la media 5
En Input constant indicar la X del tiempo.

Exponential with mean = 5
x P( X <= x )
10 0.864665

La Distribucin Exponencial es usada como el modelo, para la parte de vida til de la curva de la
baera, i.e., la tasa de falla es constante. Los sistemas complejos con muchos componentes y
mltiples modos de falla tendrn tiempos de falla que tiendan a la distribucin exponencial
Desde una perspectiva de confiabilidad, es la distribucin ms conservadora para prediccin.

Las fallas ocurren en los sistemas con una distribucin denominada Curva de la Baera:


TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 65 de 123


Fallas diseo te cons falla de tasa tan . . . = = Senectud



Fallas infantiles Fallas aleatorias Fallas por desgaste


La zona de tasa de fallas constantes, es modelada con La Distribucin exponencial, muy aplicada a
la Confiabilidad, que es la probabilidad de que un equipo o componente sobreviva sin falla hasta un
periodo t bajo condiciones normales de operacin:


R(t) = Confiabilidad de un sistema o componente

t
e t R

= ) (


Donde es la tasa media de falla y su inverso es el tiempo medio entre fallas (MTBF), o sea:

MTBF
1
=

Ejemplo: El MTBF de un foco es de 10 semanas, por tanto = 0.1 fallas/semana y la probabilidad de
que el foco no falle o contine en operacin hasta las 15 semanas es:

223 . 0 ) 15 (
15 * 1 . 0
= =

e R

y la probabilidad de que falle dentro de las 15 semanas es:

777 . 0 1 ) 15 (
15 * 1 . 0
= =

e P

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 66 de 123
EJERCICIOS:

1. Sea X el tiempo entre dos solicitudes de servicio sucesivas a un departamento, si X tiene una
distribucin exponencial con media = 10, calcular:

a) El tiempo esperado entre dos solicitudes sucesivas.
b) La desviacin estndar de esas llegadas
c) P(X<=15)
d) P(8<=X<=14)


2. Las falla de los ventiladores de un equipo tiene un tiempo promedio de 25,000 Horas, cul es la
probabilidad de que

a) Un ventilador seleccionado al azar dure por lo menos 20,000 horas?

b) A lo sumo 30,000 horas?

c) Entre 20,000 y 30,000 horas?

3. Un fabricante de equipos electrnicos ofrece un ao de garanta. Si el equipo falla en ese periodo
por cualquier razn se reemplaza. El tiempo hasta una falla est modelado por la distribucin
exponencial:

f(x) = 0.125 exp(-0.125*x)

a) Qu porcentaje de los equipos fallarn dentro del periodo de garanta?

b) El costo de fabricacin del equipo es de $500 y la ganancia es de $250 Cul es el efecto de la
garanta por reemplazo sobre la ganancia?

4. El tiempo entre fallas de un componente de equipo es importante para proveer de equipos de
respaldo. Un generador elctrico tiene una vida promedio de 10 das.

a) Cul es la probabilidad de que falle dentro de los siguientes 14 das?

b) Cul es la probabilidad de que opere por ms de 20 das?
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 67 de 123

MDULO 3. LA DISTRIBUCIN NORMAL

La distribucin normal es una de las distribuciones ms usadas e importantes. Se ha desenvuelto
como una herramienta indispensable en cualquier rama de la ciencia, la industria y el comercio.

Muchos eventos reales y naturales tienen una distribucin de frecuencias cuya forma es muy
parecida a la distribucin normal.

La distribucin normal es llamada tambin campana de Gauss por su forma acampanada.












La Funcin de Distribucin de Probabilidad (PDF) normal tiene forma de una campana con simetra
sobre su media definida por la siguiente ecuacin:





Y
X

o
(
(

|
.
|

\
|
=
2
2
1
exp
2
1
) (
o

t o
t
t f

Funcin de Densidad de Probabilidad Normal
= 500
o = 30
o = 50
o = 70
0.0000
0.0020
0.0040
0.0060
0.0080
0.0100
0.0120
0.0140
200 400 600 800 1000
Tiempo
f
(
t
)
Funcin de Densidad de Probabilidad Normal
= 500
o = 30
o = 50
o = 70
0.0000
0.0020
0.0040
0.0060
0.0080
0.0100
0.0120
0.0140
200 400 600 800 1000
Tiempo
f
(
t
)
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 68 de 123















Propiedades de la distribucin normal estndar

- La distribucin normal o Distribucin Gaussiana tiene forma de campana y es la ms conocida.
- La distribucin normal estndar tiene media = 0 y desviacin estndar o = 1. Su Media =
Mediana = Moda
- El rea bajo la curva o la probabilidad desde menos infinito a ms infinito vale 1.
- La distribucin normal es simtrica, es decir cada mitad de curva tiene un rea de 0.5.
- La escala horizontal de la curva se mide en desviaciones estndar.
- La forma y la posicin de una distribucin normal dependen de los parmetros o , , en
consecuencia hay un nmero infinito de distribuciones normales.

Existe una relacin del porcentaje de poblacin a la desviacin estndar. En la figura observamos
por ejemplo que el rea bajo la curva para o 1 tiene un porcentaje de 68.26%, o 2 = 95.46% y
% 73 . 99 3 = o





















+1s +2s +3s -1s -2s
-3s
68.26%
95.46%
99.73%

z
0 1 2 3 -1 -2 -3
z
0 1 2 3 -1 -2 -3 0 1 2 3 -1 -2 -3
x x+o x+2o x+o3 x-o x-2o x-3o x x+o x+2o x+o3 x-o x-2o x-3o
XX
La desviacin estndar
sigma representa la
distancia de la media al
punto de inflexin de la
curva normal
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 69 de 123

La distribucin de probabilidad f (Z) es una distribucin normal estndar con media 0 y desviacin
estndar 1; esto es Z se distribuye normalmente con media cero y desviacin estndar = 1
Z~N(0,1): La grfica de densidad de probabilidad se muestra en la figura.












La distribucin f (Z) se encuentra tabulada en la tabla de distribucin normal estndar o se puede
determinar con Excel. En esta tabla podemos determinar los valores de Z o la probabilidad de
determinado valor Z.

Nota: Excel proporciona el valor del rea bajo la curva desde menos infinito hasta un valor dado de
Z.

F(z)=pr(Zs z)
1.0




0.5





.01
Z
-4 -3 -2 -1 0 1 2 3 4

Forma de la Distribucin Normal acumulada

La poblacin incluye todos los datos,
la muestra es una porcin de la poblacin.






1 = o
0
Z
F(z)
Poblacin
x x+s x+2s x+3s x - s x - 2s x - 3s x x+s x+2s x+3s x - s x - 2s x - 3s
X
3o 2o o +o +2o +3o 3o 2o o +o +2o +3o
Muestra
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 70 de 123
El valor de z

Determina el nmero de desviaciones estndar o entre algn valor X y la media de la poblacin
Para calcular el valor de Z usamos la siguiente frmula.

o

=
X
Z
Calculo de Probabilidades normales

1. Identificar la variable de inters.
2. Identificar los parmetros de la variable (su media y desv. estndar).
3. Cual es la pregunta sobre el rea bajo la curva de probabilidad normal?
4. Convertir los valores a la distribucin normal estndar (estandarizacin Z = (X-Media)/S) .
5. Encuentre la probabilidad en tabla de la normal estndar o por Excel.

Ejemplo 1: El gerente de personal de una gran compaa requiere que los solicitantes a un puesto
efecten cierta prueba y alcancen una calificacin de 500. Si las calificaciones de la prueba se
distribuyen normalmente con media = 485 y desviacin estndar = o 30 Qu porcentaje de los
solicitantes pasar la prueba?

Calculando el valor de Z obtenemos:

o

=
X
Z =
5 . 0
30
485 500
=


Buscamos el valor correspondiente Z en las tablas de distribucin normal estndar o por medio de
Excel (=distr.norm.estand(0.05). Z0.5 = 0.69146 = 69.146%. siendo esta la probabilidad de que la
calificacin sea menor a 500 P (X<500). Dado que el porcentaje pedido es ) 500 ( > X P la solucin
es 1-.69146 =0.3085 , 30.85% de los participantes pasarn la prueba.
Ejemplo 2:
Encuentre las probabilidades siguientes usando la tabla Z.

a) P(-1.23 < Z > 0)







485
Z.05
30.85%
0
Z
-1.23
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 71 de 123
Solucin: Buscamos el valor Z1..23 en las tablas siendo este =0.89065. restando 0.89065-0.5 =
0.3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la misma de 1.23 a 0 por
simetra. Por lo tanto la probabilidad es 0.3905


USO DE EXCEL

Para calcular la probabilidad dado un valor Z procedemos de la siguiente manera:

En la barra de herramientas seleccione el icono de funciones
fx>Estadsticas>Distr.Norm.Estand. OK

Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de clic en
aceptar y aparecer la probabilidad buscada f(z)= 0.903199
- Para calcular Z dada una probabilidad f(z)
En la barra de herramientas seleccione el icono de funciones
fx>Estadsticas>Distr.Norm.Estand.inv OK

De clic en aceptar. Procedemos de la misma manera que en el caso anterior, pero en esta
ocasin seleccionamos la probabilidad 0.93319

El valor Z = 1.4999

- Cuando no tenemos valores de Z ni probabilidad.

Ejemplo 3 : Suponga que una distribucin normal dada tiene una media de 20 y una desviacin
estndar de 4. Calcule la probabilidad P (X > 24).

En la barra de herramientas seleccione el icono de funciones fx>Estadsticas>Distr.Norm.Estand.
OK

El sistema muestra la siguiente ventana, en la cual llenamos los siguientes datos:



TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 72 de 123

El resultado de la frmula = 0.8413. , dado que esta es la probabilidad P(Xs24), la probabilidad
buscada es:

P (X > 24) = 1-.8413= .1587


USO DE MINITAB

Para clculos utilizando el paquete Minitab, usar:

1. Calc >Probability Distributions >Normal

DISTRIBUCIN NORMAL ESTNDAR (con Z):

2. Indicar Cumulative Distribution o inverse Cumulative Distribution (dando valores de Z se
obtienen valores de rea) o Inverse Cumulative Distribution (dando reas proporciona los
valores de Z).

3. Dejar los parmetros de Mean Mu=0 y Estndar deviation Sigma = 1.

4. En Input constant indicar el valor de Z (cumulative) para obtener el rea bajo la curva o
proporcionar el rea bajo la curva (Inverse cumulative) para obtener el valor de Z. OK

5. Si se especifica una columna Cx para almacenamiento de los resultados, estos no se
muestran automticamente, para verlos es necesario ejecutar la opcin >Manip >Display
Data

DISTRIBUCIN NORMAL (con datos reales y X):

6. Indicar Cumulative Distribution o inverse Cumulative Distribution (dando valores de X
se obtienen valores de rea) o Inverse Cumulative Distribution (dando reas proporciona los
valores de X).

7. Introducir los valores de los parmetros de la media en Mean y la sigma en Estndar
deviation.

8. En Input constant indicar el valor de X (cumulative) para obtener el rea bajo la curva o
proporcionar el rea bajo la curva (Inverse cumulative) para obtener el valor de X. OK

9. Si se especifica una columna Cx para almacenamiento de los resultados, estos no se
muestran automticamente, para verlos es necesario ejecutar la opcin >Manip o Data
>Display Data

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 73 de 123
EJERCICIOS:

1. Qu porcentaje del rea bajo la curva normal estndar est incluido dentro de los siguientes
rangos?

a) P(1.2 <= Z <= 2.2):
b) P(-2.1 <= Z <= -0.4)
c) P( -1.3 <= Z <= 2.7)
d) P( Z >= 2.4)
e) P( Z<-2.9) + P(Z>3.1)
f) P(Z>= 1.9)

2. El tiempo de vida de las bateras del conejito tiene una distribucin aproximada a la normal con
una media de 85.36 horas y una desviacin estndar de 3.77 horas.

a) Qu porcentaje de las bateras se espera que duren 80 horas o menos?
b) Cul es la probabilidad de que una batera dure entre 86.0 y 87.0 horas?
c) Cul es la probabilidad de que una batera dure ms de 88 horas?

3. Considere una media de peso de estudiantes de 75 Kgs. con una desviacin estndar de 10Kgs.

a) Cul es la probabilidad de que un estudiante pese ms de 85Kgs.?
b) Cul es la probabilidad de que un estudiante pese menos de 50Kgs.?
c) Cul es la probabilidad de que pese entre 60 y 80 Kgs.?.
d) Cul es la probabilidad de que pese entre 55 y 70 Kgs.?
e) Cul es la probabilidad de que pese entre 85 y 100Kgs.?

4. Una mquina llenadota de refresco se ajusta para servir 10 onzas de lquido por vaso, si la
desviacin estndar es de 0.12 onzas. Cul es la probabilidad o porcentaje de las veces de que la
mquina sirva:
a. 10.2 onzas o ms?
b. Entre 10.1 y 10.3 onzas?
c. Entre 9.7 y 10.3 onzas?
d. Menos de 9.8 onzas?
e. Entre 9.8 y 9.9 onzas?
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 74 de 123
MDULO 5. ESTADSTICA INFERENCIAL
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPTESIS

5.1 INTRODUCCIN

La inferencia estadstica es el proceso mediante el cual se utiliza la informacin de los datos de una
muestra para extraer conclusiones acerca de la poblacin de la que se seleccion la muestra. Las
tcnicas de inferencia estadstica se dividen en dos reas principales: Estimacin de intervalos de
confianza y Pruebas de hiptesis.

En cada prueba estadstica, se comparan algunos valores observados contra algunos esperados u
otro valor observado comparando estimaciones de parmetros (media, desviacin estndar,
varianza). Estas estimaciones de los verdaderos parmetros son obtenidos usando una muestra de
datos y calculando los estadsticos.

La capacidad para detectar una diferencia entre lo que es observado y lo que es esperado depende
del desarrollo de la muestra de datos. Incrementando el tamao de la muestra mejora la estimacin
y la confianza en las conclusiones estadsticas.

5.2 INTERVALOS DE CONFIANZA

Las medias o desviaciones estndar calculadas de una muestra se denominan estadsticos, podran
ser consideradas como un punto estimado de la media y desviacin estndar real de la poblacin o
de los parmetros.

Cuando no deseamos obtener nmeros sencillos como la media basada en una muestra, utilizamos
los intervalos de confianza, los cuales nos dan un margen con algn tipo de error.

Para obtener un intervalo de confianza usamos:

Punto estimado + error estimado

Para calcular el error estimado:

Desviacin estndar multiplicador de CI (nivel de confianza) deseado.

P(Z>= + Zexcel ) = alfa/2
P(Z<= - Zexcel ) = alfa/2
Intervalo de confianza donde
se encuentra el parmetro con
un NC =1-o
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 75 de 123
Ejemplo 1. Obtenemos una muestra donde la media x = 100, la desviacin estndar s = 10,
Encontrar el intervalo de confianza al 95% en el cual se encuentra la media para una distribucin
normal.

100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z
0.025


95% de nivel de confianza significa que slo tenemos un 5% de probabilidad de obtener un
punto fuera de ese intervalo. Esto es el 5% total, o 2.5% mayor o menor. En la tabla Z
vemos que para un rea de 0.025, corresponde a una Z de 1.960.

C.I. Multiplicador
99 2.576
95 1.960
90 1.645
85 1.439
80 1.282

Para tamaos de muestra > 30, la distribucin de referencia es la Normal, para muestras de menor
tamao, debe usarse la distribucin t. El IC que no es simtrico es el de la varianza:


















DISTRIBUCIONES MUESTRALES UTILIZADAS
T CHI CUADRADA













. 30
2
. 30
2
2 2
2
2 2
, 1 1 , 1
2 2
2
( 1) ( 1)
(1 )
para n
para n
n n
X Z
n
X t
n
n s n s
p p
p Z
n
o
o
o o
o
o

o
_ _
t
>
<

=
=

s s

=
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 76 de 123

USO DE EXCEL
Los estadsticos de prueba con alfa se determinan como sigue:

Zalfa/2 = distr.norm.estand.inv(alfa/2)

talfa/2 = distr.t.inv(alfa, gl) donde gl = grados de libertad = n-1

Chi cuadrada de alfa/2 = prueba.chi.inv(alfa/2, gl)

Falfa/2 = distr.f.inv(alfa/2, gl. Numerador, gl. Denominador)


USO DE MINITAB

Calc > Probability distributions > Normal, t , Chi-Square, F, etc.
Seleccionar Inverse Cumulative Distribution; si los pide dar los grados de libertad = n-1
En input constant poner el valor de alfa/2 o alfa

Para determinar los intervalos de confianza en Minitab se tiene: intervalo de confianza para la media

stat > basic statistics > 1-sample z o 1-sample t
variable -- indicar la columna de los datos en samples in columns o summarized data
(indicando en sample size el tamao de muestra y en mean la media). para el caso de la
prueba z adems se indica en standard deviation la desviacin estndar.
en options: indicar el confidence level -- 90, 95 o 99% (igual a 1-alfa). OK

Intervalo de confianza para una proporcin

stat > basic statistics > 1-proportion
seleccionar summarized data
number of trials = n tamao de la muestra
number of events = d xitos encontrados en la muestra
en options: indicar el confidence interval -- 90, 95 o 99%..
seleccionar use test and interval based in normal distribution

Tamao de muestra
Para determinar el tamao de muestra necesario para el intervalo de confianza o la prueba hiptesis
con base a un error mximo y un nivel de confianza deseado se utilizan las siguientes frmulas:
2
2
2 /
2
2 2
2 /
) (
) 1 )( (
) (
t
t t

o
o
o

=
p
Z
n
X
Z
n
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 77 de 123
EJERCICIOS:

Ejemplos para la media con distribucin normal z

z 1. el peso promedio de una muestra de 50 bultos de productos xmedia = 652.58 kgs., con s =
217.43 kgs. determinar el intervalo de confianza al nc del 95% y al 99% donde se encuentra la media
del proceso (poblacional). alfa = 1 - NC

2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de
laboratorio oscila entre 0.93 y 1.73 onzas. cul es el valor de z?.

3. 100 latas de 16 onzas de salsa de tomate tienen una media de xmedia = 15.2 onzas con una s =
0.96 onzas. a un nivel de confianza del 95%, las latas parecen estar llenas con 16 onzas?.

4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con s = 3.63. se rechaza la
solucin si el peso promedio de todo el lote no excede las 18 onzas. cul es la decisin a un 90%
de nivel de confianza?.

Ejemplos para la media (con distribucin t) y varianza (con distribucin chi cuadrada)

5. 20 cajas de producto pesaron 102 grs. con s = 8.5 grs. cul es el intervalo donde se encuentra la
media y varianza del lote para un 90% de nivel de confianza?. grados libertad=20 -1 =19

6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. con una s = 9.56. cul es la
estimacin del intervalo de confianza para la media y varianza a un nivel de confianza del 95 y del
98% del peso de productos del lote completo?.

7. Los pesos de 25 paquetes enviados a travs de ups tuvieron una media de 3.7 libras y una
desviacin estndar de 1.2 libras. hallar el intervalo de confianza del 95% para estimar el peso
promedio y la varianza de todos los paquetes. los pesos de los paquetes se distribuyen
normalmente.

Ejemplos para proporciones con distribucin z

8. De 814 encuestados 562 contestaron en forma afirmativa. cul es el intervalo de confianza para
un 90% de nivel de confianza?

9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados se puede
concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de confianza. ?

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 78 de 123
5.3 PRUEBAS DE HIPTESIS DE UNA POBLACIN

Una hiptesis es una afirmacin a comprobar, por ejemplo:

Un proveedor de bebidas afirma que sus botellas contienen 16 onzas; un productor de software dice
que su rechazo promedio es de 3%; etc.

La hiptesis planteada que contiene el signo de igualdad se denomina hiptesis nula ho (=, >=, <=) y
su complemento es la hiptesis alterna ha. se puede iniciar planteando cualquiera de las dos por
ejemplo si se indica probar si las ventas son mayores que $1000 o ..las ventas son menores a
$1000, se inicia planteando ha y como complemento se plantea ho (ventas<=1000 o ventas>=1000).





Las conclusiones al final siempre son contra la Ho.

Los trminos surgen de las investigaciones agrcolas quienes probaban la efectividad de fertilizantes,
lo nulo era sin efecto

Las hiptesis nulas no se rechazan o si se rechazan (aceptndose la ha) con base en datos
muestrales y un valor alfa.

Prueba estadstica: es un procedimiento para probar una afirmacin o creencia sobre el proceso.

Hiptesis nula (Ho) - usualmente es una afirmacin representando una situacin status quo.
generalmente deseamos rechazar la hiptesis nula.
puede ser por ejemplo ho: , o, t= 5
slo puede ser rechazada o no rechazada

Hiptesis alterna (Ha) - es lo que aceptamos si podemos rechazar la hiptesis nula. Ha es lo que
queremos probar es el complemento de Ho.

Por ejemplo = 5 para prueba de dos colas
< 5 para prueba de cola izquierda
> 5 para prueba de cola derecha
Esta hiptesis se acepta cuando se rechaza Ho

Estadstico de prueba: Calculado con datos de la muestra (Z, t, X
2
or F).

Regin de Rechazo: Indica los valores de la prueba estadstica para que podamos rechazar la
Hiptesis nula (Ho). Esta regin esta basada en un riesgo o deseado, normalmente 0.05 o 5%.

Las pruebas de hiptesis pueden ser de dos colas, de cola derecha o de cola izquierda,
dependiendo del signo de la hiptesis alterna, a continuacin se esquematizan cada una de ellas.
hipotesis la de parametro Ho > s = , , , , :
2
t o
hipotesis la de parametro Ha < > = , , , , :
2
t o
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 79 de 123


























PROCEDIMIENTO PARA REALIZAR PRUEBAS DE HIPTESIS

1. Definir el Problema ( Problema Prctico).
2. Sealar los Objetivos ( Problema Estadstico).
3. Determinar tipo de datos: Atributo o Variable.
4. Si son datos Variables: Prueba de Normalidad.

5. Establecer las Hiptesis: Hiptesis Nula (Ho lleva signo =, <=, >=), Hiptesis Alterna (Ha
lleva signo >, < o <>).
6. Seleccionar el nivel de significancia Alfa (normalmente 0.05 o 5%) o el nivel de
confianza 1 - alfa.

7. Establecer el tamao de la muestra, 10 > .
8. Desarrollar el Plan de Muestreo.
9. Seleccionar Muestras y Obtener Datos.
10. Decidir la prueba estadstica apropiada y calcular el estadstico de prueba (Z, t, X
2
o F)
a partir de los datos.

11. Obtener el estadstico correspondiente de tablas o Excel.
12. Determinar la probabilidad P de que el estadstico de prueba calculado ocurra al azar.
13. Comparar el estadstico calculado con el de tablas y ver si cae en la regin de rechazo o
ver si la probabilidad es menor a alfa, rechace Ho y acepte Ha. En caso contrario no
rechace Ho.
14. Con los resultados interprete una conclusin estadstica para la solucin prctica.


Pruebas de Hiptesis de dos colas:
Ho: a = b
Ha: a = b
Pruebas de Hiptesis de cola derecha:
Ho: a s b
Ha: a > b
Pruebas de Hiptesis cola izquierda:
Ho: a > b
Ha: a < b
Z
o/2 0
- Z
o/2
Regin de
Rechazo
Regin de
Rechazo
Z
o/2
0
Regin de
Rechazo
Z
o/2
0
- Z
o/2
Regin de
Rechazo
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 80 de 123
Las frmulas para calcular el estadstico de prueba en base a la muestra son las siguientes:

























Para el caso de muestras pareadas se calculan las diferencias d individuales como sigue:












Ejemplos de Prueba de hiptesis Estadstica

Paso 1. Para una muestra grande (n >30) probar la hiptesis de una media . Establecer alfa.
Ho:
o
=

Ha:
0
=

Paso 2. Calcular el estadstico de prueba
n
s
Z
calc
0

=
Paso 3. Establecer la regin de rechazo, para prueba de 2 colas:
2 2 o o
Z Z
2
1
1 2 2
2
1 2
1 2
2 2
1 1 2 2
1
1 2
; . ; 30;
/
; . ; 30;
/
; 1, 1; . . var
; . ; ' . .
1 1
/
( 1) ( 1)
;
2
p
p
X
Z Una media n conocida
n
X
t Una media n desconocida
S n
S
F DF n n prueba dos ianzas
S
X X
t dos medias s desconocidas pero
S
n n
n s n s
S DF n
n n

o
o

o
o

= >

= <
= =

= =
+
+
= =
+
2
1 2
2 2
1 2
1 2
2
; . ; ' .
.
n
X X
t dos medias s desconocidas diferentes
s s
n n
DF formula especial
o
+

=
+
=
2
2
2
2
2
; . . ; . . .
/
( 1)
; ( 1); . . ar
( )
; ( 1)( 1); .
i
d
d
t Pares de medias d para cada par
S n
n S
X DF n prueba una v ianza
O E
X DF r c bondad ajuste
E
o
=

= =

= =

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006


Pgina 81 de 123









Paso 4. Si el valor del estadstico de prueba cae en la regin de rechazo rechazaremos Ho de otra
manera no podemos rechazar Ho.

Paso 5. Calcular el intervalo de confianza IC para un nivel de confianza de 1-alfa, si la media de la
hiptesis se encuentra dentro del intervalo, no rechazar Ho y viceversa.

Paso 6. Calcular el valor de Probabilidad P para el estadstico calculado a partir de la muestra Zc o
Tc por medio de:

Para Zc: P = distr.norm.estand.inv(-Zc)
Para Tc: P = distr.t.inv(Tc, grados de libertad, 1 o 2 colas)
Para Chi2: P = Prueba.chi.inv(Chi c, grados de libertad)

Si el valor de P es menor o igual a alfa se rechaza Ho y se acepta Ha (en el caso de dos colas el
valor de P total es del doble del calculado).

USO DE MINITAB PARA PRUEBA DE HIPTESIS DE LA MEDIA

Stat > basic statistics > 1-sample z o 1-sample t
Variable -- indicar la columna de los datos en simples in columns o summarized data
(indicando en simple size el tamao de muestra y en mean la media). para el caso de la
prueba z adems se indica en standard deviation la desviacin estndar.
Indicar en test mean la media de la hiptesis a probar.
Indicar el signo de la hiptesis alterna: less than, not equal, greater than
OK


Z
o/2
0
- Z
o/2
Regin de
Rechazo
Regin de
Rechazo
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 82 de 123
Prueba de Hiptesis para muestras grandes usando Z:

Parecera ser correcta la afirmacin de que se mantiene el precio promedio de las computadoras en $2,100?
Probarlo a un 5% de nivel de significancia
Se inicia con el planteamiento de la hiptesis nula
Datos
Minoristas n 64 media mu = 2100
Precio prom. X 2251
Desv. Estndar s 812 (Alfa = 0.05
(Alfa/2 = 0.025
Paso 1. Establecimiento de hiptesis
Ho: uC = 2100
Ha: uC <> 2100 Por tanto se trata de una prueba de dos colas
Paso 2. Clculo del estadstico de prueba Zc
151 = > Zc = 1.48768473
101.5 Error estndar
Como el valor de Zc es positivo se comparar contra de Zexcel (1-alfa/2) positivo
Paso 3. Determinar la Ze de Excel o de tablas para el valor de probabilidad (Alfa / 2):

Ze ( 0.025 ) = 1.95996398 DIST.NORM.STAND.INV.( 0.025 )
Paso 4. Comparando los valores Zc calculado contra Zexcel se tiene
Zexcel ( 0.025 ) Zexcel ( 0.025 )
-1.95996398 1.959963985
Zc = 1.487684729 Valor p para Zc es igual a
P(-Zc) = 0.06841765
Como Zc es menor que Zexcel, no cae en el rea de rechazo, p > Alfa / 2
y por tanto no hay suficiente evidencia para RECHAZAR Ho
Se concluye que el precio promedio no es diferente de $2,100
Paso 5. Como el valor P = 0.068 correspondiente a la Z calculada Zc es mayor
que el valor de Alfa / 2 = 0.025, tambin nos da el criterio
para NO RECHAZAR la Ho
Paso 6. El Intervalo de confianza para la media poblacional (1-Alfa = 0.95 Porciento)
al nivel de confianza 1-Alfa
Error estndar 101.5
Z alfa/2 1.95996398
Intervalo de confianza 2251 198.936344
El intervalo de confianza incluye a la media de la hiptesis
por tanto no se rechaza la Ho. 2052.063656 <= <= 2449.936344 )
P(Z>= + Zexcel ) = alfa/2 P(Z<= - Zexcel ) = alfa/2
n
s
X
Z
NULA HIPOTESIS
c
.

=
n
s
Z X estimar para IC
2
. . .
o
=




TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 83 de 123
Ejemplo de Prueba de Hiptesis para muestras pequeas usando t:

Se piensa que las ventas promedio de $5,775 se han incrementado gracias a la campaa publicitaria
Probar esta afirmacin a un nivel de significancia alfa de 1%

Se inicia con el planteamiento de la hiptesis Alterna
Datos
Semanas n 15 media mu = 5775
Ventas prom X 6012
Desv. Estndar s 977 (Alfa = 0.01 (1-Alfa = 0.99
(Alfa/2 = 0.005 (1-Alfa/2 = 0.995
Paso 1. Establecimiento de hiptesis
Ho: uC <= 5775
Ha: uV > 5775 Se trata de una prueba de cola derecha
Paso 2. Clculo del estadstico de prueba tc
237 = > tc = 0.93950568
252.260315 Error estndar
Como el valor de tc es positivo se comparar contra de t excel (1- alfa) positivo
NOTA:En excel poner 2alfa
para obtener t de alfa
Paso 3. Determinar la te de Excel o de tablas para Alfa 0.01
te ( 0.99 2.62449406 DIST.T.INV( 0.02 , gl. 14 )
gl = 14
Paso 4. Comparando los valores tc calculado contra t excel se tiene
texcel ( 0.02 gl. 14)
2.62449406
tc = 0.93950568 Valor p para tc es igual a
P(tc) = 0.368130427
Como tc es menor que texcel, no cae en el rea de rechazo, p > Alfa
y por tanto no hay suficiente evidencia para rechazar Ho
Se concluye que la publicidad no ha tenido efecto en las ventas
Paso 5. Como el valor de P para Zc es 0.368 mayor a Alfa = 0.05 no se rechaza Ho
Paso 6. El Intervalo de confianza para la media poblacional al nivel
(1-Alfa = 99 Porciento)
Error estndar 252.260315
t alfa 2.62449406
Como el intervalo de confianza Intervalo de confianza 6012 662.0557002
contiene a la media de la Hiptesis no se rechaza Ho 5349.9443 <= <= 6674.0557 )
P(t >= + t excel ) = alfa
n
s
X
t
NULA HIPOTESIS
c
.

=
n
s
t X estimar para IC
o
= . . .


TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 84 de 123
Ejemplo de Prueba de hiptesis para una proporcin:

Prob. El gerente de mercado considera que el 50% de sus clientes gasta menos de $10 en cada visita a la tienda.
DATOS: Ests de acuerdo con esta afirmacin a un nivel de significancia del 5%?
Se inicia con el planteamiento de la hiptesis nula
18.17 Datos
7.17 Clientes n 50 Proporcin media = 0.5
2.08 30 gastaron p 0.6
4.17 menos de$10 (Alfa = 0.05 (1-Alfa = 0.95
18.02 (Alfa/2 = 0.025 (1-Alfa/2 = 0.975
8.73 Paso 1. Establecimiento de hiptesis
4.12
8.15
5.15 Se trata de una prueba de dos colas
17.15
21.12 Paso 2. Clculo del estadstico de prueba Zc
17.18
6.12 0.1 = > Zc = 1.41421356
2.12
9.99 0.07071068 Error estndar
10
5.12
5.12 Como el valor de Zc es positivo se comparar contra de Zexcel (alfa/2) positivo
12.12
18.17 Paso 3. Determinar la Ze de Excel o de tablas para (1-Alfa/2 = 0.975
4.12
27.18 Ze ( (1-Alfa/2 = 1.95996398 DIST.NORM.STAND.INV.( 0.975 )
2.17
8.15 Paso 4. Comparando los valores Zc calculado contra Zexcel se tiene
3.02
0.65
11.12
3.32
4.83
10.12
8.73
2.17
6.42
12.18
8.84 Zexcel ( 0.025 ) Zexcel ( 0.975 )
17.17 -1.95996398 1.95996398
11.17
17.89 Zc = 1.41421356 Valor p para Zc es igual a
11.12 P(-Zc) = 0.07926984
8.92 Como Zc es menor que Zexcel, no cae en el rea de rechazo, p > Alfa /2
8.42 y por tanto no hay suficiente evidencia para rechazar Ho y se concluye
7.12 que el porcentaje que compra menos de $10 no difiere del 50% de clientes
9.17
2.63 Paso 5. Como el valor P de Zc es 0.079 mayor a Alfa/2 no se rechaza Ho
21.22
18.42 Paso 6. El Intervalo de confianza para la media poblacional al nivel
4.82 (1-Alfa = 95 Porciento)
5.55
11.11 Error estndar 0.07071068
17.83 Z alfa/2 1.41421356
Intervalo de confianza 0.6 0.1
Como la media de p = 0.6 se encuentra
dentro del intervalo, no se rechaza Ho ( 0.5 <= 0.7 )
P(Z <= - Zexcel ) = alfa/2
n
p
Z
NULA HIP NULA HIP
NULA HIPOTESIS
c
) 1 (
. .
.
t t
t

=
P(Z>= Zexcel ) = alfa/2
n
p p
Z p estimar para IC
) 1 (
. . .
2

=
o
t
5 . 0 :
5 . 0 :
=
=
c
c
Ha
Ho
t
t
<= t




TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 85 de 123
USO DE MINITAB PARA LA PRUEBA DE HIPTESIS DE UNA PROPORCIN
Stat > Basic Statistics > 1-Proportion
Seleccionar Summarized Data
Number of trials = n tamao de la muestra
Number of events = D xitos encontrados en la muestra

En Options:
Indicar el Confidence Interval -- 90, 95 o 99%
Indicar la Test Proportion Proporcin de la hiptesis
Indicar el signo de la hiptesis alterna: Less Than, Not equal, Greater than

Seleccionar Use test and interval based in normal distribution
OK

EJERCICIOS

1. Se midi la temperatura de fusin de un aceite vegetal hidrogenado en n=16 muestras y se
encontr una media de 94.32. Si la temperatura de fusin sigue una distribucin normal con sigma =
1.20.

a) Probar a un 95% de nivel de confianza de que la media se ha mantenido en 95.

2. La duracin promedio de cierto foco es de 750 horas. El cliente cambiara de marca slo que se
demuestre que de manera concluyente que la vida de los focos es menor que la anunciada. Se elige
una muestra aleatoria de 20 focos, se determina su duracin y se obtiene una vida media de 738.44
con una desviacin estndar de 38.20.

a) Cul sera la conclusin a un 95% de nivel de confianza?

3. Despus de ciertas horas de trabajo se determin el desgaste de flechas en 0.0001 para cada
una de las n=8 mquinas que tienen plomo y cobre como material de soporte, y se obtuvo como
resultado que la media fue de 3.72 con desviacin estndar de 1.25.

a) Se desea probar si el desgaste es mayor a 3.5 a un 95% de nivel de confianza.

3. Las lecturas de radiacin de Radn tomadas en 12 lugares fueron como sigue:
105.6, 90.9, 91.2, 96.9, 96.5, 91.3, 100.1, 105, 99.6, 107.7, 103.3 y 92.4.

a) A un alfa de 5%, indican las lecturas que difieren de 100?.

4. Se prueban 100 bateras de Ni-H para celdas de prueba y se determina que 14 de ellas se
ampoyan en sus placas fallando. Para un 5% de nivel de significancia.

a) Proporciona lo anterior una evidencia de que ms del 10% de las bateras fallan?
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 86 de 123
5. Para un cierto servicio los tiempos de respuesta son de 3 horas, probar la afirmacin para un
98% de nivel de confianza.

Una muestra de datos arroj los resultados siguientes:

1.92
2.16
3.63
3.16
4.02
3.14
2.2
2.34
3.05
2.38



6. Las horas tomadas para mantenimiento son las siguientes. Probar a un 5% si el tiempo es > 2
Hrs.
Tiempos
1.9
1.7
2.8
2.4
2.6
2.5
2.8
3.2
1.6
2.5

7. Un estudio encontr que 40% de los usuarios de Internet recibieron ms de 10 mensajes diarios
Si de 420 usuarios 188 recibieron estos mensajes, a un nivel de 5% Cul es la conclusin?


8. Un estudio indic que el 64% de los consumidores de supermercado creen en las marcas propias.
El fabricante de una salsa de tomate pregunt a 100 compradores donde 52 prefieren marca propia,
probar si el porcentaje de preferencias es menor al 64%, para un 5% de nivel de significancia


TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 87 de 123
5.6 PRUEBAS DE HIPTESIS PARA DOS POBLACIONES

Supongamos que tenemos muestras de dos calderas que producen el mismo rendimiento. Se desea
ver si hay diferencia significativa en el rendimiento de Caldera A y Caldera B.

Caldera A Caldera B
89.7 84.7
81.4 86.1
84.5 83.2
84.8 91.9
87.3 86.3
79.7 79.3
85.1 82.6
81.7 89.1
83.7 83.7
84.5 88.5


Estadsticas Descriptivas
Variable Caldera N Media Desv.Std
Rendimiento A 10 84.24 2.90
B 10 85.54 3.65

Pregunta Prctica: Existe diferencia entre las Calderas?

Pregunta Estadstica La media de la caldera B (85.54) es significativamente diferente de la media
de la Caldera A (84.24)? o su diferencia se da por casualidad en una variacin de da a da.

Ho: Hiptesis Nula: No existe diferencia entre las Calderas.

Ha: Hiptesis Alterna: Las medias de las Calderas son diferentes.
b a
H = :
0

b a a
H = :
Se busca demostrar que los valores observados al parecer no corresponden al mismo proceso, se
trata de rechazar Ho.













Reactor A Reactor B
A AA AAAA A A
B B B B B BB B B B
A AA AAAA A A
B B B B B BB B B B
Caldera A Caldera B
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 88 de 123
Representan las Calderas dos procesos diferentes?
Representan las mismas condiciones como un solo proceso?

Lo anterior se contesta con pruebas de hiptesis para dos poblaciones como se explica a
continuacin.

PRUEBAS PARA LA IGUALDAD DE DOS VARIANZAS.

Presentaremos ahora pruebas para comparar dos varianzas. Supngase que son dos las
poblaciones de inters, por ejemplo X1 y X2, donde
2
2 2
2
1 , 1
, , o o , se desconocen. Deseamos
probar hiptesis relativas a la igualdad de las dos varianzas,
2
2
2
1 0
: o o = H . Considrese que se
disponen dos muestras aleatorias de tamao n1 de la poblacin 1 y de tamao n2 de la poblacin 2,
y sean
2
2
2
1
yS S las varianzas de muestra. Para probar la alternativa de dos lados


2
2
2
1 0
: o o = H

2
2
2
1 1
: o o = H

Utilizamos el hecho de que la estadstica

2
2
2
1
S
S
Fc =

Se distribuye como F, con n1-1 y n2 1 grados de libertad.

Rechazaramos H0 si


1 , 1 , 2 0
2 1

>
n n
F F
o o si
1 , 1 , 2 1 0
2 1

<
n n
F F
o


Donde
1 , 1 , 2
2 1
n n
F
o
y
1 , 1 , 2 1
2 1
n n
F
o
son los puntos porcentuales 2 o superior e inferior de la
distribucin F con n1-1 y n2-2 grados de libertad. La tabla F proporciona slo los puntos de la cola
superior de F, por lo que para determinar
1 , 1 , 2 1
2 1
n n
F
o
debemos emplear


1 , 1 , 2 1
2 1
n n
F
o
=
1 , 1 , 2
1 2
1
n n
F
o


La misma estadstica de prueba puede utilizarse para probar hiptesis alternativas de un lado. La
hiptesis alternativa de un lado es:

2
2
2
1 0
: o o s H
2
2
2
1 1
: o o > H

Si
1 , 1 , 0
2 1

>
n n
F F
o
, rechazaramos
2
2
2
1 0
: o o s H .

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 89 de 123
Ejemplo 1: Los siguientes son tiempos de quemado (en minutos) de seales luminosas de dos tipos
diferentes.
Tipo 1 Tipo 2
63 64
81 72
57 83
66 59
82 65
82 56
68 63
59 74
75 82
73 82

Pruebe la hiptesis de que las dos varianzas sean iguales. Use 05 . = o

2
2
2
1 0
: o o = H
2
2
2
1 1
: o o = H

44 . 100
71 . 88
70
6 . 70
2
2
2
1
2
1
=
=
=
=
S
S
X
X

2
2
2
1
0
S
S
F = = 877 .
44 . 100
71 . 88
=

1 , 1 , 2
2 1
n n
F
o
= F.025,9,9= 4.03
1 , 1 , 2 1
2 1
n n
F
o
=.248

0.877 no es mayor que 4.03, por lo cual no se rechaza la hiptesis nula
2
2
2
1 0
: o o = H .

USO DE EXCEL
Seleccionar Anlisis de datos en el men herramientas.
En funciones para anlisis elija la opcin : Prueba F para varianzas de dos muestras.
Seleccionar las columnas de datos con rtulos y el nivel Alfa/2 de 0.025.

Prueba F para varianzas de dos muestras
Tipo 1 Tipo 2
Media 70.6 70
Varianza 88.7111111 100.444444
Observaciones 10 10
Grados de libertad 9 9
F 0.88318584
P(F<=f) una cola 0.42811371
Valor crtico para F (una cola) 0.24838585
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 90 de 123
De la tabla deducimos que F1-alfa/2 = 0.248 es menor que Fc de 0.883 y el valor de P value = 0.428
es mayor a alfa/2 de 0.025 por lo cual no rechazamos H0. y las varianzas son iguales.

USO DE MINITAB
Stat > Basic statistics > 2 Variances Samples in different columns
Seleccionar las columnas de datos
En Options: Confidence level 97.5%, Test Mean = 0.0; Alternative = Not equal
OK

Test for Equal Variances: Tipo 1, Tipo 2

97.5% Bonferroni confidence intervals for standard deviations

N Lower StDev Upper
Tipo 1 10 5.89483 9.4187 20.8295
Tipo 2 10 6.27256 10.0222 22.1643


F-Test (normal distribution)
Test statistic = 0.88, p-value = 0.856

Conclusin: Como Fc de 0.88 es mayor a F1-alfa/2 de 0.248 y Pvalue de 0.856 es mayor a Alfa de
0.05, no se rechaza Ho, las varianzas son similares.


PRUEBAS DE HIPTESIS SOBRE LA IGUALDAD DE DOS MEDIAS.

a) Varianzas conocidas

Supngase que hay dos poblaciones de inters X1 y X2, Suponemos que X1 tiene media desconocida
1
y varianza conocida
2
1
o y que X2 tiene media desconocida
2
y varianza conocida
2
2
o .
Estaremos interesados en la prueba de la hiptesis de que las medias
1
y
2
sean iguales.

Considrense primero las hiptesis alternativas de dos colas:

2 1 0
: = H
2 1 1
: = H

Donde: H0 = Hiptesis nula; H1 = Hiptesis alternativa;
1
= media de la poblacin 1;
2
= media de
la poblacin 2.

El procedimiento para probar
2 1 0
: = H es calcular la estadstica de prueba Zc mediante la
siguiente frmula:

2
2
2
1
1
2
2 1
n n
X X
Z
c
o o
+

=

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 91 de 123

Donde:

1
X = media de la muestra 1;
2
X = media de la muestra 2; 1
2
o = varianza de la poblacin 1;
2
2
o = varianza de la poblacin 2;
1
n = tamao de la muestra 1;
2
n = tamao de la muestra 2

La hiptesis nula H0 se rechaza aceptndose a su vez H1 o Ha en los tres casos siguientes:

a)
2 0 o
Z Z > o
2 0 o
Z Z <
Donde: Z0 = Valor calculado del estadstico de prueba;
2 o
Z = distr.norm.estand(alfa/2).

b) Si el cero no se encuentra en el intervalo de confianza de la diferencia de las medias.

c) Si el valor P de probabilidad para el estadstico de prueba Zc es menor al valor del nivel de
significancia Alfa. P = 2*distr.norm.estand.inv(Zc)

Las hiptesis alternativas de un lado se analizan de manera similar. Para probar


2 1 0
: s H
2 1 1
: > H

Se calcula la estadstica de prueba Zc , y se rechaza
2 1 0
: s H si
o
Z Z >
0
.

Para probar las otras hiptesis alternativas de un lado

2 1 0
: > H
2 1 1
: < H

Se utiliza la estadstica de prueba Zc y se rechaza
2 1 0
: > H si
o
Z Z <
0


Ejemplo 2:

Se emplean dos mquinas para llenar botellas de plstico con un volumen neto de 16 onzas. El
proceso de llenado puede suponerse normal, con desviaciones estndar de 015 .
1
= o y
018 .
2
= o . Se cree que ambas mquinas llenan hasta el mismo volumen neto, sin importar que
este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de cada mquina.

Piensa usted que el llenado es similar? Utilizando 05 . = o . o nivel de confianza de 95%.

Mquina
1
Mquina
2
16.03 16.02
16.04 15.97
16.05 15.96
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 92 de 123
16.05 16.01
16.02 15.99
16.01 16.03
15.96 16.04
15.98 16.02
16.02 16.01
15.99 16.00

2 1 0
: = H
2 1 1
: = H

Calculando las medias de cada mquina obtenemos 005 . 16 , 015 . 16
2 1
= = X X .

2
2
2
1
1
2
2 1
n n
X X
Z
c
o o
+

= = 34 . 1
10
018 .
10
015 .
005 . 16 015 . 16
2 2
=
+



2 o
Z = Z.025 = distr.norm.estand.inv(0.975) = 1.96
El uso de la tabla es el siguiente: 1-.025 =.975 buscando el valor de Z correspondiente a .975
encontramos Z = 1.96

Utilizando el criterio de decisin
2 o
Z Zc > para rechazar la hiptesis nula H0, nos damos cuenta de
que 1.34 no es mayor que 1.96. por lo cual no rechazamos H0. No existe suficiente evidencia
estadstica para pensar que las medias son diferentes.

Cuando rechazamos la hiptesis nula se considera que la prueba es potente, si no se rechaza la
hiptesis nula el criterio de decisin es dbil, ya que generalmente se busca rechazar H0.











-Zalfa/2=-1.96
Zc = 1.34
Zalfa/2=1.96
Como Zc es menor que Z alfa/2, no cae en el rea de rechazo,
y por tanto no hay suficiente evidencia para rechazar Ho

P(z >= Z excel ) = alfa/2 P(z <= - Z excel ) = alfa/2
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 93 de 123
USO DE EXCEL
Seleccionar Anlisis de datos en el men herramientas.
En funciones para anlisis elija la opcin : Prueba z para medias de dos muestras.


Prueba z para medias de dos muestras
Mquina 1 Mquina 2
Media 16.015 16.005
Varianza (conocida) 0.000225 0.000324
Observaciones 10 10
Diferencia hipottica de las medias 0
z 1.34962722
P(Z<=z) una cola 0.08856779
Valor crtico de z (una cola) 1.95996398
Valor crtico de z (dos colas) 0.17713559
Valor crtico de z (dos colas) 2.24140273

Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.349 < Zalfa/2 de 1.96; el valor P
de 0.177 es mayor a Alfa = 0.05.

USO DE MINITAB
Stat > Basic statistics > 2 Sample t seleccionar Summarized data
Seleccionar Assume equal variantes
En Options: Confidence level 95%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 94 de 123


Two-Sample T-Test and CI

Sample N Mean StDev SE Mean
1 10 16.0150 0.0150 0.0047
2 10 16.0050 0.0180 0.0057


Difference = mu (1) - mu (2)
Estimate for difference: 0.010000
95% CI for difference: (-0.005567, 0.025567)
T-Test of difference = 0 (vs not =): T-Value = 1.35 P-Value = 0.194 DF
= 18
Both use Pooled StDev = 0.0166

Conclusiones: No se rechaza Ho (Medias iguales) ya que Zc de 1.35 < Zalfa/2 de 1.96; el valor P
de 0.194 es mayor a Alfa = 0.05 y el cero se encuentra en el IC para la diferencia de medias de
(-0.005567, 0.025567).


b) Varianzas desconocidas:

Consideraremos ahora pruebas de hiptesis respecto a la igualdad de las medias
2 1
, de dos
distribuciones normales donde no se conocen las varianzas
2
2
2
1
o o y . Tenemos dos casos en el
primero las varianzas son iguales y en el segundo las varianzas son desiguales, a continuacin
analizaremos cada uno de ellos.

Caso 1 varianzas iguales
Sean X1 y X2 dos poblaciones normales independientes con medias desconocidas
2 1
y , y
varianzas conocidas pero iguales
2 2
2
2
1
o o o = = . Deseamos probar:

2 1 0
: = H
2 1 1
: = H

Sean X1, X2,
2
2
2
1
, S S , las medias y las varianzas de las muestras, respectivamente. Puesto que tanto
2
2
2
1
S como S estiman la varianza comn
2
o , podemos combinarlas para producir una sola
estimacin, mediante la siguiente frmula:

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 95 de 123
( ) ( )
2
1 1
2 1
2
2 2
2
1 1
+
+
=
n n
S n S n
S
p


Para probar
2 1 0
: = H calclese la estadstica de prueba

2 1
2 1
0
1 1
n n
S
X X
t
p
+

=
Si
2 , 2 0
2 1
+
>
n n
t t
o
o si
2 , 2 0
2 1
+
<
n n
t t
o
, rechazamos
2 1 0
: = H

Las alternativas de un lado se tratan de modo similar. Para probar:

2 1 1
2 1 0
:
:


>
s
H
H

Calclese la estadstica de prueba t0 y rechcese
2 1 0
: s H si:


2 , 0
2 1
+
>
n n
t t
o


Para la otra alternativa de un lado,


2 1 1
2 1 0
:
:


<
>
H
H


Calclese la estadstica de prueba y rechcese
2 1 0
: > H si:

2 , 0
2 1
+
<
n n a
t t


Ejemplo 3: Se est investigando la resistencia en ohms de dos alambres, con la siguiente
informacin de muestras.

Alambre 1 Alambre 2
0.14 0.135
0.141 0.138
0.139 0.14
0.14 0.139
0.138
0.144


Suponiendo que las dos varianzas son iguales, qu conclusiones puede extraerse respecto a la
resistencia media de los alambres?

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 96 de 123

2 1 0
: = H
2 1 1
: = H

Calculando la media y la desviacin estndar de la muestra:

0022 .
0021 .
138 .
140 .
2
1
2
1
=
=
=
=
S
S
x
x


( ) ( )
2
1 1
2 1
2
2 2
2
1 1
+
+
=
n n
S n S n
S
p
= .0021

2 1
2 1
0
1 1
n n
S
X X
t
p
+

= = 1.72


Buscamos en la tabla de distribucin t el valor
2 , 2 1
, 2

+n n
t
o
= t.025,8 =2.306
Utilizando el criterio de rechazo
2 , 2 0
2 1
+
>
n n
t t
o
, 1.72 no es mayor que 2.306, por lo tanto no
rechazamos H0.

USO DE EXCEL

Seleccionar Anlisis de datos en el men herramientas.
En funciones para anlisis elija la opcin: Prueba t para dos muestras suponiendo
varianzas iguales.
Seleccionar las columnas de datos y las celdas de resultados.




TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 97 de 123
Prueba t para dos muestras
suponiendo varianzas iguales
Alambre 1 Alambre 2
Media 0.14033333 0.138
Varianza 4.2667E-06 4.6667E-06
Observaciones 6 4
Varianza agrupada 4.4167E-06
Diferencia hipottica de las
medias 0
Grados de libertad 8
Estadstico t 1.72002633
P(T<=t) una cola 0.06187033
Valor crtico de t (una cola) 2.30600413
P(T<=t) dos colas 0.12374065
Valor crtico de t (dos colas) 2.75152359

Conclusin: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que 2.306
(=distr.t.inv(0.05,8) por lo cual no rechazamos Ho. Asimismo P value de 0.123 es mayor a alfa/2 de
0.025 y no se rechaza Ho, las medias son similares.

USO DE MINITAB
Stat > Basic statistics > 2 Sample t Samples in different columns
Seleccionar Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK

Two-Sample T-Test and CI: Alambre 1, Alambre 2

Two-sample T for Alambre 1 vs Alambre 2

N Mean StDev SE Mean
Alambre 1 6 0.14033 0.00207 0.00084
Alambre 2 4 0.13800 0.00216 0.0011


Difference = mu (Alambre 1) - mu (Alambre 2)
Estimate for difference: 0.002333
97.5% CI for difference: (-0.001399, 0.006066)
T-Test of difference = 0 (vs not =): T-Value = 1.72 P-Value = 0.124 DF
= 8
Both use Pooled StDev = 0.0021

Conclusin: En la tabla de Excel encontramos los valores deseados: 1.72 no es mayor que 2.306
por lo cual no rechazamos Ho. Asimismo P value de 0.124 es mayor a alfa/2 de 0.025 y el cero se
encuentra en el intervalo de confianza por lo que no se rechaza Ho, las medias son similares.


TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 98 de 123
Caso 2 Varianzas diferentes

Cuando las varianzas
2
2
2
1
o o y son diferentes utilizamos el estadstico de prueba:

2
2
2
1
2
1
2 1
0
n
S
n
S
X X
t
+

=

Para el clculo de los grados de libertad utilizamos:

( ) ( )
2
1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1

+
+
+
|
|
.
|

\
|
+
=
n
n S
n
n S
n
S
n
S
v

El procedimiento para llevar a cabo la prueba de hiptesis es el mismo que el caso 1, varianzas
iguales excepto que se emplean t0 como estadstica de prueba y n1 + n2 -2 se sustituye por v en la
determinacin de los grados de libertad para la prueba.

Ejemplo 4: Se estn investigando dos mtodos para producir gasolina a partir de petrleo crudo. Se
supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes datos de
rendimiento se han obtenido de la planta piloto.

Proceso 1 Proceso 2
24.2 21
26.6 22.1
25.7 21.8
24.8 20.9
25.9 22.4
26.5 22


Hay alguna razn para creer que el Proceso 1 tiene un rendimiento medio mayor?

2 1 1
2 1 0
:
:


>
s
H
H


Calculamos la media y la varianza para ambos procesos:



3760 .
9017 .
70 . 21
62 . 25
2
2
2
1
2
1
=
=
=
=
S
S
x
x
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 99 de 123

2
2
2
1
2
1
2 1
0
n
S
n
S
X X
t
+

= = 48 . 8
6
376 .
6
9017 .
70 . 21 62 . 25
=
+



( ) ( )
2
1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1

+
+
+
|
|
.
|

\
|
+
=
n
n S
n
n S
n
S
n
S
v =
( ) ( )
9 32 . 9 2
7
6 376 .
7
6 9017 .
6
376 .
6
9017 .
2 2
2
~ =
+
|
.
|

\
|
+


Buscando el valor en la tabla t encontramos t.05,9 = 1,833, mediante el criterio de rechazo para una
cola t0>t.05,9 , 8.48>2.262, por lo tanto rechazamos la hiptesis nula, y aceptamos la hiptesis alterna,
el proceso 1 tiene mayor rendimiento que el proceso 2.

USO DE EXCEL
Seleccionar Anlisis de datos en el men herramientas.
En funciones para anlisis elija la opcin: Prueba t para dos muestras suponiendo
varianzas desiguales.
Seleccionar las columnas de datos y las celdas de resultados.

Prueba t para dos muestras
suponiendo varianzas desiguales
Proceso 1 Proceso 2
Media 25.6166667 21.7
Varianza 0.90166667 0.376
Observaciones 6 6
Diferencia hipottica de las
medias 0
Grados de libertad 9
Estadstico t 8.48757168
P(T<=t) una cola 6.878E-06
Valor crtico de t (una cola) 2.26215716
P(T<=t) dos colas 1.3756E-05
Valor crtico de t (dos colas) 2.68501085

Tc de 8.48 mayor que Talfa!de 2.262 (valor crtico de t de una cola), se rechaza Ho.

USO DE MINITAB
Stat > Basic statistics > 2 Sample t Samples in different columns
Quitar seleccion de Assume equal variantes
En Options: Confidence level 97.5%, Test Difference 0.0; Alternative Not equal
En Graphs: Boxplot of data OK


TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 100 de 123

Two-Sample T-Test and CI: Proceso 1, Proceso 2

Two-sample T for Proceso 1 vs Proceso 2
N Mean StDev SE Mean
Proceso 1 6 25.617 0.950 0.39
Proceso 2 6 21.700 0.613 0.25

Difference = mu (Proceso 1) - mu (Proceso 2)
Estimate for difference: 3.91667
97.5% CI for difference: (2.64695, 5.18638)
T-Test of difference = 0 (vs not =): T-Value = 8.49 P-Value = 0.000 DF
= 8

D
a
t
a
Proceso 2 Proceso 1
27
26
25
24
23
22
21
Boxplot of Proceso 1, Proceso 2


PRUEBA DE DOS MEDIAS PAREADAS CON T

Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de comparacin. En
una prueba de comparacin pareada, la reduccin en la variabilidad experimental puede permitir la
deteccin de pequeos movimientos en los datos. A pesar de que los grados de libertad sean
reducidos, porque ahora el tamao de muestra corresponde al nmero de comparaciones.

Un ejemplo de este tipo de prueba es la evaluacin de dos piezas de equipo de inspeccin para
determinar si existe alguna diferencia significativa entre los equipos.

Las hiptesis de prueba en torno a la igualdad
2 1
y pueden realizarse efectuando una prueba t de
una muestra en
D
. Especficamente, probar
2 1 0
: = H contra
2 1 1
: = H es equivalente a
probar

0 :
0
=
D
H

0 1
: =
D
H

El estadstico de prueba apropiado es


n S
D
t
D
=
0
donde
n
D
D
j
= y
( )
1
2

=
n
D D
S
j
D

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 101 de 123

Rechazaramos 0 :
0
=
D
H si
1 , 2 0
>
n
t t
o
o si
1 , 2 0
<
n
t t
o
, las alternativas de un lado se
trataran de manera similar.

Ejemplo 5:

Un fabricante desea comparar el proceso de armado comn para uno de sus productos con un
mtodo propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho
trabajadores de la planta de armado y se les pidi que armaran las unidades con ambos procesos.
Los siguientes son los tiempos observados en minutos.

Trabajador
Proceso
actual
Proceso
nuevo Di (Di-D)^2
1 38 30 8 10.5625
2 32 32 0 0
3 41 34 7 49
4 35 37 -2 4
5 42 35 7 49
6 32 26 6 36
7 45 38 7 49
8 37 32 5 25
Dpromedio 4.75 27.8203125

En 05 . = o , existe alguna razn para creer que el tiempo de armado para el proceso actual es
mayor que el del mtodo propuesto por ms de dos minutos?

2 :
0
=
D
H
2 :
1
>
D
H


n
D
D
j
= = 4.75
( )
1
2

=
n
D D
S
j
D
= 3.69

n S
D
t
D
=
0
=
8 69 . 3
2 75 . 4
= 2.107

895 . 1
7 , 05 . 1 ,
= =

t t
n o
, debido a que 2.107 > 1.895 rechazamos H0, y aceptamos la H1: el tiempo de
armado para el proceso actual es mayor en dos minutos que el mtodo propuesto.

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 102 de 123
USO DE EXCEL
Seleccionar Anlisis de datos en el men herramientas.
En funciones para Anlisis elija la opcin: Prueba t para dos muestras emparejadas
Seleccionar las columnas de datos y las celdas de resultados

Prueba t para medias de dos
muestras emparejadas

Proceso
actual
Proceso
nuevo
Media 37.75 33
Varianza 22.21428571 15.14285714
Observaciones 8 8
Coeficiente de correlacin de
Pearson 0.646487248
Diferencia hipottica de las medias 0
Grados de libertad 7
Estadstico t 3.637357075
P(T<=t) una cola 0.004158105
Valor crtico de t (una cola) 2.364624251
P(T<=t) dos colas 0.00831621
Valor crtico de t (dos colas) 2.841244247

De la tabla concluimos que Tc de 3.63 > Talfa/2 de 2.364 (valor crtico de t una cola), por lo cual
rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05 y se rechaza Ho, las
medias son diferentes.

USO DE MINITAB
Stat > Basic statistics > Paired t Samples in different columns
En Options: Confidence level 95%, Test Mean = 0.0; Alternative = Not equal
En Graphs: Boxplot of data OK

Paired T-Test and CI: Proceso actual, Proceso nuevo

Paired T for Proceso actual - Proceso nuevo

N Mean StDev SE Mean
Proceso actual 8 37.7500 4.7132 1.6664
Proceso nuevo 8 33.0000 3.8914 1.3758
Difference 8 4.75000 3.69362 1.30589


95% CI for mean difference: (1.66205, 7.83795)
T-Test of mean difference = 0 (vs not = 0): T-Value = 3.64 P-Value =
0.008


De la tabla concluimos que Tc de 3.64 > Talfa/2 de 2.364 (valor crtico de t en dos colas), por lo cual
rechazamos Ho. Por otro lado el valor P de 0.008 es menor a alfa de 0.05, el cero no se encuentra
en el intervalo de confianza IC y se rechaza Ho, las medias son diferentes.

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 103 de 123
PRUEBAS DE HIPTESIS SOBRE DOS PROPORCIONES

En las pruebas de hiptesis sobre proporciones tratamos de probar:

2 1 1
2 1 0
:
:
p p H
p p H
=
=


Considrese que se toman dos muestras aleatorias de tamao n1 y n2 de dos poblaciones, y sea X1
y X2 el nmero de observaciones que pertenecen a la clase de inters en la muestra 1 y 2
respectivamente.

Una estimacin del parmetro comn p es:


2 1
2 1

n n
X X
p
+
+
=

La estadstica de prueba para
2 1 0
: p p H = es entonces:


(

=
2 1
2 1
0
1 1
) 1 (

n n
p p
p p
Z






Si

2 0 o
Z Z > o
2 0 o
Z Z < , la hiptesis nula se rechaza.

Ejemplo 6: La fraccin de productos defectuosos producidos por dos lneas de produccin se est
analizando. Una muestra aleatoria de 1000 unidades de la lnea 1 tiene 10 defectuosas, en tanto que
una muestra aleatoria de 1200 unidades de la lnea 2 tiene 25 defectuosas. Es razonable concluir
que la lnea de produccin 2 produce una fraccin ms alta de producto defectuoso que la lnea 1?
Use 01 . = o .

2 1 1
2 1 0
:
:
p p H
p p H
<
>

2 1
2 1

n n
X X
p
+
+
= = 015909 .
1200 1000
25 10
=
+
+


= 01 .
1000
10
=

1
1
1

n
X
p =
2
2
2

n
X
p =
1
1
1

n
X
p =
2
2
2

n
X
p =
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 104 de 123
= 020833 .
1200
25
=

(

=
2 1
2 1
0
1 1
) 1 (

n n
p p
p p
Z =
(

1200
1
1000
1
) 98409 (. 015909 . .
020833 . 01 .
= -2.02

35 . 2
01 .
= = Z Z
o


Se utiliza el estadstico de prueba Z0 y no se rechaza
2 1 0
: p p H = si
o
Z Z <
0


-2.02 no es menor que 2.35 por lo cual H0 no se rechaza.

USO DE MINITAB
Stat > Basic statistics > 2-Proportions Seleccionar Summarized data
En Trials poner el tamao de las muestras y en Events lo que se busca.
En Options: Confidence level 99%, Test Difference = 0.0; Alternative = Not equal
Seleccionar Use pooled estimate for p for test
OK





Test and CI for Two Proportions
Sample X N Sample p
1 10 1000 0.010000
2 25 1200 0.020833

Difference = p (1) - p (2)
Estimate for difference: -0.0108333
99% CI for difference: (-0.0241928, 0.00252612)
Test for difference = 0 (vs not = 0): Z = -2.02 P-Value = 0.043

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 105 de 123
Conclusin: De la tabla Tc de -2.02 > Talfa de -2.35 (valor crtico de t en dos colas), por lo cual no
rechazamos Ho. Por otro lado el valor P de 0.043 es mayor a alfa de 0.01, el cero se encuentra en el
intervalo de confianza IC y no se rechaza Ho para un alfa de 0.01, las medias son similares.

RESUMEN DE LAS PRUEBAS DE HIPTESIS

Pruebas de medias:

- Prueba Z para medias (varianza conocida): Prueba si dos medias de muestras son iguales.
- Prueba t para medias (varianza desconocida): Prueba si dos medias de muestras son iguales.
Se tienen dos casos: varianzas iguales y varianzas diferentes
- Prueba t pareadas para medias: prueba si dos medias de muestras (por pares) son iguales.

Pruebas de varianza:
- Prueba F para varianzas: Prueba si dos varianzas de muestras son iguales.

Pruebas de proporciones:
- Prueba Z para proporciones: Prueba si dos proporciones de muestras son iguales.

EJERCICIOS:

1. Determinar a un nivel de confianza del 90% si hay diferencia entre las medias de tiempos de
limpieza de mquina A y mquina B. Se toman muestras para comprobar la afirmacin.

Mquina A Mquina B
25.2 18.0
17.4 22.9
22.8 26.4
21.9 24.8
19.7 26.9
23.0 17.8
19.7 24.6
23.0 21.0
19.7
16.9
21.8
23.6

2. Los tiempos de terminacin del programa para dos departamentos se muestran a continuacin:
Probar a un 90% de nivel de confianza si sus varianzas y promedios son iguales.

Depto. A Depto. B
300 276
280 222
344 310
385 338
372 200
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 106 de 123
360 302
288 317
321 260
376 320
290 312
301 334
283 265

3. Los tiempos de terminacin para la tarea con un mtodo mejorado y actual son, para el mismo
empleado son los siguientes. Probar a un 90% de nivel de confianza si los mtodos dan los mismos
resultados.

Mtodo 1 Mtodo 2 Dif.
6.0 5.4 0.6
5.0 5.2 -0.2
7.0 6.5 0.5
6.2 5.9 0.3
6.0 6.0 0.0
6.4 5.8 0.6
Ho: Dif. Prom = 0 0.3 Dprom
Ha: Dif. Prom. <> 0 0.3347 Sdif

4. Un participante es calificado antes y despus de un curso. Probar a un 8% de nivel de
significancia si el curso tuvo impacto.

Antes Despus
5 6
4 6
7 7
3 4
5 3
8 9
5 7
6 6

5. A dos grupos de personas se les pidi que indicaran el porcentaje de recortatorio de dos avisos:
Probar a un 5% si son iguales los dos grupos.

Aviso Lo vieron Lo recordaron
A 150 63
B 200 60

6. Se hizo una encuesta para determinar el porcentaje de personas que usaban Internet en el
trabajo: En Mxico se encontr que el 40% de los adultos usa Internet de una muestra de 240.
En Monterrey el 32% de los adultos usaba Internet de una muestra de 250.
Para un nivel de significancia del 10%, es mayor la proporcin que usa Internet en Mxico que en
Monterrey?
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 107 de 123
MDULO 6. TABLAS DE CONTINGENCIA Y ANOVA

6.1 TABLAS DE CONTINGENCIA
2
_


La tabla ji- cuadrada (
2
_ ) se utiliza principalmente :

- Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la
informacin.
- Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia).

Para todos los casos,
Ho: No hay diferencia o no hay dependencia entre variables
H1: Hay diferencia o si hay dependencia entre variables

Pasos para realizar la tabla de contingencias
2
_

1) Plantear las hiptesis:
k
p p p p Ho = = = = ...
3 2 1

H1: al menos dos proporciones son diferentes.
2) Construir una tabla que contenga los valores observados.
3) Sumar los totales de los renglones y columnas de los valores observados.
4) Debajo de cada valor observado poner el valor esperado utilizando la frmula:

( )
n
columna sima j de total rengln simo i de total
E
ij

=
4) Calcular el valor del estadstico de prueba
2
_ usando la frmula:
( )


=
ij
ij ij
E
E O
2
_
donde:

Oij = Valor observado de la celda i,j.
Eij = Valor esperado de la celda i,j
5)
6) Determinar los grados de libertad mediante:
( )( ) 1 1 = c r gl
donde
r = nmero de renglones
c = nmero de columnas
7) Calcular el valor crtico en la tabla
2
_
8) Criterio de decisin: si el valor crtico < valor del estadstico de prueba rechazamos Ho

Ejemplo: Al final de un semestre, las calificaciones de matemticas fueron tabuladas en la siguiente
tabla de contingencia de 2 3 para estudiar la relacin entre la asistencia a clase y la calificacin
obtenida.

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 108 de 123
Ausencias Aprobado
No
aprobado
0 - 3 135 110
4 - 6 36 4
7 - 45 9 6
Con 05 . 0 = o , indican los datos que son distintas las proporciones de estudiantes que pasaron en
las tres categoras de ausencias?

H0 : p1 = p2 = p3
H1 : al menos dos proporciones son diferentes.

Nmero de ausencias Aprobado No aprobado Total
0-3 135 110 245
( ) ( ) ( )
4-6 36 4 40
( ) ( ) ( )
7-45 9 6 15
( ) ( ) ( )
Total 180 120 300


Los valores Oij = 135, 110... corresponden a los valores observados, los valores esperados se
colocan en las celdas con parntesis, para calcular los utilizamos la frmula:

( )
n
columna sima j de total rengln simo i de total
E
ij

=

Nmero de ausencias Aprobado No aprobado Total
0-3 135 110 245
(147) (98)
4-6 36 4 40
(24) (16)
7-45 9 6 15
(9) (6)
Total 180 120 300


Calculamos el valor del estadstico de prueba
2
_ usando la frmula:

( )


=
ij
ij ij
E
E O
2
_

La tabla siguiente nos ayuda a organizar los clculos para el estadstico.

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 109 de 123
Celda Oij Eij (Oij-Eij)^2 (Oij -Eij)^2/Eij
(1,1) 135 147 144 0.98
(1,2) 110 98 144 1.47
(2,1) 36 24 144 6.00
(2,2) 4 16 144 9.00
(3,1) 9 9 0 0.00
(3,2) 6 6 0 0.00
17.45

Tabla. Clculos para el estadstico Chi cuadrada

Para determinar el valor crtico del estadstico de prueba procedemos de la siguiente manera:
Determinar los grados de libertad usando la frmula: ( )( ) 1 1 = c r gl , gl = (3-1)(2-1) = 2
El valor critico del estadstico ji-cuadrada para 05 . 0 = o y g.l. = 2 se denota ) 2 (
2
05 . 0
_ , En la
tabla ji- cuadrada encontramos que vale 5.991, el valor del estadstico de prueba es
2
_ =17.44.

Conclusin: Como este estadstico est localizado en la regin de rechazo (a la derecha del valor
crtico) , rechazamos Ho por lo cual aceptamos la hiptesis alternativa H1: al menos dos proporciones
son diferentes. La tasa de aprobacin si depende de las asistencias.

USO DE EXCEL: para determinar el valor crtico
2
_
1. Posicionarse en una celda vaca
2. Accesar el men de funciones con Fx
3. Seleccionar ESTADSTICAS, PRUEBA. CHI.INV. Dar valores de probabilidad (0.05) y grados de
libertad, (# de renglones -1) * (# de columnas - 1) para el caso de tablas de proporciones.
USO DE MINITAB
1. Stat > Tables > Chi square test
2. Indicar las columnas conteniendo la tabla (C2 Aprobado y C3 No aprobado)
3. OK

Chi-Square Test: Aprobado, No aprobado
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Aprobado No aprobado Total
1 135 110 245
147.00 98.00
0.980 1.469
2 36 4 40
24.00 16.00
6.000 9.000
3 9 6 15
9.00 6.00
0.000 0.000
Total 180 120 300

Chi-Sq = 17.449, DF = 2, P-Value = 0.000

Conclusin: Como el estadstico calculado Chi cuadrado es mayor al Chi de alfa y el valor P es
menor a Alfa, se rechaza Ho indicando que si hay dependencia de los aprobados y asistencias.

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 110 de 123
Ejercicio 1. Se trata de ver si el nmero de reclamaciones depende de la cuadrilla para un 5% de
nivel de significancia. Ho: Los rechazos son independientes de la cuadrilla.

Ha: los rechazos dependen de la cuadrilla
Cuadrilla OK Rech
1 200 35
2 150 24
3 210 40

Ejercicio 2. Los datos de 3 proveedores en relacin a partes defectuosas es como sigue:
Probar a un 5% de significancia si los defectos dependen del tipo de proveedor.

Proveedor Buenos
Con Def
menores
Con def
graves
A 90 3 7
B 170 18 7
C 135 6 9

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 111 de 123
6.2 ANALISIS DE VARIANZA DE UN FACTOR (ANOVA 1 VIA)


El anlisis de la varianza de un factor (ANOVA) es una metodologa para analizar la variacin entre
muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es llamado
de una va porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un mtodo
estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio nos permite
poner a prueba hiptesis tales como:

k
H = = = = = ....
3 2 1 0

. :
1
diferentes son les poblaciona medias dos menos Al H

Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:

1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es, .
2
2
2
1
o o =
El estadstico tiene una distribucin muestral resultando:


2
2
w
b
s
s
Fc =

El valor crtico para la prueba F es:

)) 1 ( , 1 ( n k k F
o


Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo o el nivel de significancia.

k = nmero de muestras.

Por ejemplo:

Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.

Como los empleados se seleccionan aleatoriamente para cada programa
el diseo se denomina DISEO COMPLETAMENTE ALEATORIZADO

Se observa el aprovechamiento de los empleados en los programas:
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 112 de 123

TRATAMIENTOS
I c=1 c=2

c=3 J

Programa 1
Programa
2 Programa 3
r=1 85 80 82
r=2 72 84 80
r=3 83 81 85
r=4 80 78 90
r=5 ** 82 88
Medias 80.00 81.00 85.00 Xj

Media de medias o media
total 82.14

TIPOS DE VARIACIN Y SUMAS DE CUADRADOS

1. Variacin total entre los 14 empleados, su puntuacin no fue igual con todos
VARIACIN TOTAL RESPECTO A LA MEDIA GENERAL




SCT = (85-82.14)2 + (72-82.14)2+(83-82.14)2+.....+(88-82.14)2
SCT = 251.7

2. Variacin entre los diferentes tratamientos o Variacin entre muestras o variacin entre programa
1, programa 2 y programa 3
EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA GENERAL





SCTR = 4(79.5 - 81.3333)2 + 5(81 - 81.3333)2 + 5(85 - 81.333)2
SCTR = 65.71

3. Variacin dentro de un tratamiento o muestra o programa dado que no todos los empleados
dentro de un mismo programa obtuvieron los mismos puntajes. Se denomina Variacin dentro de los
tratamientos.
VARIACIN DENTRO DEL TRATAMIENTO O VARIACIN DEL ERROR
CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO





SCE = SCT - SCTR = 186
2
1 1
) (

= =
=
c
j
r
i
X Xij SCT
2
1
) ( X X r SCTR j
r
j
j
=

=
2
1 1
) ( j
c
j
ij
r
i
X X SCE =

= =
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 113 de 123

4. GRADOS DE LIBERTAD

Grados de libertad totales = n - 1 = 14-1 = 13
Grados de libertad de los tratamientos = c - 1 = 3 - 1 = 2
Grados de libertad del error = gl. Totales - gl. Tratamientos = 13 - 2 = 11
gl SCT = gl SCTR + gl SCE
gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n -c

5. CUADRADOS MEDIOS (Suma Cuadrados/ Grados libertad)
CMT = Cuadrado medio total = SCT / (n-1) = 19.4
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) = 32.9
CME = Cuadrado medio del error = SCE/ gle.= 16.9

6. ESTADSTICO DE PRUEBA Fc Y ESTADSTICO F CRTICO DE ALFA

Fc = CMTR / CME= 1.946745562




Clculo de F con Excel
=DISTR.F.INV(ALFA, GL. TR, GL. ERR) =DISTR.F.INV(0.05, 2, 11) = 3.982297957




NO RECHAZAR
ZONA DE
RECHAZO

Distr. F

Como Fc es menor a Falfa no se rechaza Ho y las medias son iguales.

7. VALOR P DE Fc

P = distr.f(Fc, gl. SCTr, gl. SCE) = distr.f(1.946, 2, 11) = 0.18898099
Como P es mayor a alfa no se rechaza Ho

CONCLUSION: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO, LAS MEDIAS DE LOS
TRATAMIENTOS SON IGUALES

TABLA DE ANOVA

FUENTE DE VARIACIN SUMA DE GRADOS DE CUADRADO
CUADRADOS LIBERTAD MEDIO VALOR F
Entre muestras (tratam.) SCTR c-1 CMTR CMTR/CME
Dentro de muestras (err.) SCE n-c CME
Variacin total SCT n-1 CMT
c n c ador deno gl numerador gl alfa
F F

=
, 1 , min . , . , o
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 114 de 123

Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa

USO DE EXCEL:

En el men herramientas seleccione la opcin Anlisis de datos, en funciones para anlisis
seleccione Anlisis de varianza de un factor.
En Rango de entrada seleccionar la matriz de datos (todas las columnas a la vez).
Alfa = 0.05
En Rango de salida indicar la celda donde se iniciar la presentacin de resultados.

RESUMEN Anlisis de varianza de un factor
Grupos Cuenta Suma Promedio Varianza
Programa 1 4 320 80 32.666667
Programa 2 5 405 81 5
Programa 3 5 425 85 17

ANLISIS DE VARIANZA
Grados
de Promedio de
Variaciones
Suma
cuadrados libertad Cuadrados Fc Probabilidad F crtica
Entre grupos 65.71428571 2 32.85714286 1.9431644 0.18937731 3.98229796
Dentro de
grupos 186 11 16.90909091
Total 251.7142857 13

USO DE MINITAB

Stat > ANOVA > One Way (Unstacked)
en Responses in separate columns Indicar las columnas de datos
En Confidence Level 95%
Seleccionar Comparisons Tukey 5%
OK

One-way ANOVA: Programa 1, Programa 2, Programa 3

Source DF SS MS F P
Factor 2 65.7 32.9 1.94 0.189
Error 11 186.0 16.9
Total 13 251.7

S = 4.112 R-Sq = 26.11% R-Sq(adj) = 12.67%


Individual 95% CIs For Mean Based on
Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----
Programa 1 4 80.000 5.715 (------------*------------)
Programa 2 5 81.000 2.236 (----------*-----------)
Programa 3 5 85.000 4.123 (-----------*----------)
----+---------+---------+---------+-----
77.0 80.5 84.0 87.5
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 115 de 123
Pooled StDev = 4.112

NOTA: Si los Intervalos de confianza se traslapan, las medias son iguales estadsticamente

Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons

Individual confidence level = 97.94%


Programa 1 subtracted from:

Lower Center Upper --------+---------+---------+---------+-
Programa 2 -6.451 1.000 8.451 (------------*-----------)
Programa 3 -2.451 5.000 12.451 (-----------*------------)
--------+---------+---------+---------+-
-6.0 0.0 6.0 12.0


Programa 2 subtracted from:

Lower Center Upper --------+---------+---------+---------+-
Programa 3 -3.025 4.000 11.025 (-----------*----------)
--------+---------+---------+---------+-
-6.0 0.0 6.0 12.0


NOTA: Si el cero se encuentra en el intervalo de confianza de la diferencia entre medias, este par de
medias no son diferentes.
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 116 de 123
EJERCICIOS:

1. Cuatro catalizadores que pueden afectar la concentracin de un componente en una mezcla
lquida de tres componentes estn siendo investigado.

Se obtienen las siguientes concentraciones:
Catalizador
A B C D
58.2 56.3 50.1 52.9
57.2 54.5 54.2 49.9
58.4 57 55.4 50
55.8 55.3 51.7
54.9

2. Para determinar si existe diferencia significativa en el nivel de Matemticas de 4 grupos de
estudiantes de Ingeniera se realiz un examen aleatorio a 6 individuos por grupo. Determine
cuales son los grupos en los cuales existen diferencias a un 95% de nivel de confianza.

A B C D
75 78 55 64
93 91 66 72
78 97 49 68
71 82 64 77
63 85 70 56
76 77 68 95


3. Las calificaciones en el examen a 18 empleados de tres unidades de negocio
Se muestran a continuacin:
Probar si no hay diferencia entre las unidades a un 5% de nivel de significancia.

A B C
85 71 59
75 75 64
82 73 62
76 74 69
71 69 75
85 82 67

4. Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo
servicio a un nivel de significancia del 5%.

A B C D
5.4 8.7 11.1 9.9
7.8 7.4 10.3 12.8
5.3 9.4 9.7 12.1
7.4 10.1 10.3 10.8
8.4 9.2 9.2 11.3
7.3 9.8 8.8 11.5
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 117 de 123
MDULO 7. REGRESIN Y CORRELACIN LINEAL

Son dos herramientas para investigar la dependencia de una variable dependiente Y en funcin de
una variable independiente X. Y = f(X)

Y = Variable dependiente que se desea explicar o predecir, tambin se llama regresor o respuesta
X = Variable independiente, tambin se llama variable explicativa, regresor o predictor

Regresin lineal - La relacin entre X y Y se representa por medio de una lnea recta
Regresin curvilinea - La relacin entre X y Y se representa por medio de una curva.



Y * *
** * * * *
* * * *
* b1 * * * *
* * * *
* * * * * *
b0
Correlacin positiva Correlacin negativa X
Sin correlacin

La ecuacin de la recta es la siguiente:




El trmino de error es la diferencia entre los valores reales observados Yi y los valores estimados
por la ecuacin de la recta. Se trata de que estos sean mnimos, para lo cual se utiliza el mtodo de
mnimos cuadrados.



Y

*







*


X

Se trata de minimizar la suma de todos los errores o residuos:


estimada regresin de Modelo X b b Y
muestra la de datos en base Con e X b b Y
poblacin la en base Con X Y
. . . ...... ..........
. . . . . . . ..........
. . . . .........
1 0
*
1 0
1 0
+ =
+ + =
+ + = c | |
*
) ( Re Yi Yi siduo Error = =
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 118 de 123
Las frmulas resultado de la minimizacin de lo cuadrados del error se aplicarn en el siguiente
ejemplo por claridad. Se tienen los siguientes supuestos:

1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresin poblacional
2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad)
en caso contrario se tiene (Heteroscedasticidad)
3. Los errores o residuos son independientes: No se muestra algun patrn definido.

El coeficiente de Correlacin r desarrollado por Carl Pearson es un indicador de la fuerza de la
relacin entre las variables X y Y, puede asumir valores entre -1 y 1 para correlacin negativa y
positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presin tiene una
correlacin positiva con el rendimiento de una caldera, se deben buscar soluciones al problema
mediante acciones asociadas con la variable presin; de lo contrario, sera necesario buscar la
solucin por otro lado.

Se identifican tres medidas de desviacin como sigue:


Y
Yest = 4.4 + 1.08 X

Yi = 23 *
Desviacin no
explicada

Error = (Yi - Yest) =
1.32
Variacin total

(Yi-
Ymedia)=5.13 Desviaci explicada
(Yest-Ymedia) = 3.81
Ymedia =17.87






X = 16 X
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 119 de 123
Ejemplo: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo est
relacionado con su nmero. Calcular el coeficiente de correlacin y graficar. Los datos de tiempo
tomados para n = 25 servicios se muestran a continuacin:

X Servicios Y Tiempo (Xi-X)*(Yi-Y) (Xi-X)^2 (Yi-Y)^2 Yest Error
2 9.95 119.076672 38.9376 364.1533 10.9199 0.9408
8 24.45 1.099872 0.0576 21.0021 28.3362 15.1022
11 31.75 7.499472 7.6176 7.3832 37.0443 28.0292
10 35.00 10.502272 3.0976 35.6075 34.1416 0.7369
8 25.02 0.963072 0.0576 16.1026 28.3362 10.9969
4 16.86 51.612672 17.9776 148.1771 16.7253 0.0181
2 14.38 91.433472 38.9376 214.7045 10.9199 11.9721
2 9.60 121.260672 38.9376 377.6337 10.9199 1.7422
9 24.35 -3.558928 0.5776 21.9286 31.2389 47.4563
8 27.50 0.367872 0.0576 2.3495 28.3362 0.6991
4 17.08 50.679872 17.9776 142.8694 16.7253 0.1258
11 37.00 21.989472 7.6176 63.4763 37.0443 0.0020
12 41.95 48.568672 14.1376 166.8541 39.9470 4.0121
2 11.66 108.406272 38.9376 301.8142 10.9199 0.5477
4 21.65 31.303072 17.9776 54.5057 16.7253 24.2523
4 17.89 47.245472 17.9776 124.1620 16.7253 1.3564
20 69.00 470.014272 138.2976 1,597.3771 63.1686 34.0052
1 10.30 135.625472 52.4176 350.9178 8.0172 5.2111
10 34.93 10.379072 3.0976 34.7770 34.1416 0.6216
15 46.59 118.686672 45.6976 308.2553 48.6551 4.2646
15 44.88 107.127072 45.6976 251.1337 48.6551 14.2512
16 54.12 194.676672 60.2176 629.3676 51.5578 6.5649
17 56.63 241.751472 76.7376 761.6054 54.4605 4.7068
6 22.13 15.462272 5.0176 47.6486 22.5307 0.1606
5 21.15 25.540272 10.4976 62.1385 19.6280 2.3164
206 725.82 2,027.7132 698.5600 6,105.9447 220.0926
EX

EY

Sxy Sxx Syy = SST SSE
X promedio Y Promedio
E(Xi-X)*(Yi-Y)

E(Xi-X)^2

E(Yi-Y)^2


Sxy Sxx Syy

Si todos los puntos estuvieran completamente sobre la recta la ecuacin lineal sera
y = a + bx. Como la correlacin no siempre es perfecta, se calculan a y b de tal forma que se
minimice la distancia total entre puntos y la recta. Los clculos tomando las sumas de cuadrados
siguientes se muestran a continuacin:

Sxy = 2027.71
Sxx = 698.56
Syy = 6105.94

Las ecuaciones para el clculo manual son las siguientes:

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 120 de 123
XX
XY
S
S
X Xi
Y Yi X Xi
b =


= =

2
1 1
) (
) )( (

| = 2.902704421

X Y
n
X Y
b
i i
|
|
|

1
0 0
=

= =

= 5.114515575

Las sumas de cuadrados son:

= =
2
) ( Y Y SST
i
6,105.9447


= + = =
2 2
)) * 1 ( ( )

(
i i i i
X b bo Y Y Y SSE 220.0926

= = SSE SST SSR 5,885.8521

El coeficiente de determinacin r
2
y el coeficiente de correlacin r se calculan a continuacin:

SST
SSR
SST
SSE SST
SST
SSE
r =

= =
) (
1
2
= 0.9639

El coeficiente de determinacin indica el porcentaje de la variacin total que es explicada por la
regresin.

2
r r = = 0.9816

El coeficiente de correlacin proporciona el nivel de ajuste que tienen los puntos a la lnea recta
indicando el nivel de influencia de una variable en la otra. El factor de correlacin r es un nmero
entre 1 (correlacin negativa evidente) y +1 (correlacin positiva evidente), y r = 0 indicara
correlacin nula.

El coeficiente de correlacin r = 0.98 por lo cual tenemos suficiente evidencia estadstica para
afirmar que el tiempo de atencin esta relacionado con el nmero de servicios atendidos.

USO DE EXCEL

1. En el men Herramientas seleccione la opcin Anlisis de datos. Datos de ejemplo 6.
2. Seleccione la opcin Regresin.
3. Seleccione el rango de entrada, estos corresponden a los datos numricos de la tabla.
4. Seleccione Resumen de estadsticas.
5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que
este en blanco ( a partir de est celda sern insertados los resultados).

Resumen

Estadsticas de la regresin
Coeficiente de correlacin
mltiple 0.981811778
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 121 de 123
Coeficiente de
determinacin R^2 0.963954368
R^2 ajustado 0.962387167
Error tpico 3.093419627
Observaciones 25

ANLISIS DE VARIANZA Suma de Promedio de

Grados de
libertad Cuadrados cuadrados F
Valor crtico
de F
Regresin 1 5885.852069 5885.852069 615.0800898 4.24118E-18
Residuos 23 220.0926348 9.569244992
Total 24 6105.944704

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 5.114515575 1.145804127 4.463691004 0.000177215 2.744239161
XServicios 2.902704421 0.117040719 24.80080825 4.24118E-18 2.660587249

X Servicios Curva de regresin ajustada
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
0 5 10 15 20 25
X Servicios
Y

T
i
e
m
p
o
Y Tiempo
Pronstico Y Tiempo
Lineal (Pronstico Y
Tiempo)



En la grfica observamos que al aumentar el nmero de servicios el tiempo de atencin aumenta.

USO DE MINITAB

Para determinar la funcin de regresin y correlacin en Minitab se siguen los pasos siguientes
(despus de cargar los datos correspondientes a X y a Y en las columnas C1 y C2):

Stat >Regresin ... Indicar la columna de Respuestas Y y la de predictores X y aceptar con
OK. Observar el valor del coeficiente de correlacin y de determinacin.

Para obtener la lnea de mejor ajuste de la regresin, se procede como sigue en Minitab:
Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X,
seleccionar si se quiere ajustar con los datos con una lnea, una funcin cuadrtica o cbica
TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006
Pgina 122 de 123
y aceptar con OK. Observar el mayor valor del coeficiente de correlacin que indica el mejor
ajuste.
En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X.
En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals
La grfica de residuos debe apegarse a la recta y tener siempre un valor P value >0.05.
X Servicios
Y

T
i
e
m
p
o
20 15 10 5 0
70
60
50
40
30
20
10
0
S 3.09342
R-Sq 96.4%
R-Sq(adj) 96.2%
Regression
95% CI
95% PI
Fitted Line Plot
Y Tiempo = 5.115 + 2.903 X Servicios


Regression Analysis: Y Tiempo versus X Servicios

The regression equation is
Y Tiempo = 5.115 + 2.903 X Servicios
S = 3.09342 R-Sq = 96.4% R-Sq(adj) = 96.2%
Analysis of Variance
Source DF SS MS F P
Regression 1 5885.85 5885.85 615.08 0.000
Error 23 220.09 9.57
Total 24 6105.94

La regresin tiene una r^2 de 96.4% y la influencia de una variable X en Y es significativo.

Los intervalos de confianza para la media y el intervalo de prediccin para un punto especfico X
son los siguientes:







tSyi est Y Yx para IP
SCx
X Xi
n
Se Syi
=

+ + =
*
2
. .
) ( 1
1
tSy est Y para IC
SCx
X Xi
n
Se Sy
x y
=

+ =
*
!
2
. .
) ( 1

TALLER DE ESTADSTICA Y PROBABILIDAD P. REYES / SEPT. 2006


Pgina 123 de 123
EJERCICIOS:

1. La energia consumida en un proceso depende del ajuste de mquinas que se
realice, realizar una regresin cuadrtica con los datos siguientes y responder las preguntas.

Cons_energa
Ajuste
Mq.
Y X
21.6 11.15
4 15.7
1.8 18.9
1 19.4
1 21.4
0.8 21.7
3.8 25.3
7.4 26.4
4.3 26.7
36.2 29.1

a) Trazar un diagrama de dispersin
b) Obtener la ecuacin de regresin lineal y cuadrtica y comparar
c) Estimar el consumo de energa para un ajuste de mquina de 20 con regresin cuadrtica
d) Obtener los intervalos de prediccin y de confianza para
un ajuste de mquina de 20
e) Obtener el coeficiente de correlacin y de determinacin

2. En base al porcentaje de puntualidad se trata de ver si hay correlacin con las quejas en una lnea
area. Las quejas son por cada 100000 pasajeros.

%puntos Quejas
Aerolinea X Y
A 81.8 0.21
B 76.6 0.58
C 76.6 0.85
D 75.7 0.68
E 73.8 0.74
F 72.2 0.93
G 70.8 0.72
H 68.5 1.22

a) Trazar un diagrama de dispersin
b) Obtener la ecuacin de regresin lineal
c) Estimar las quejas para un porcentaje de puntualidad de 80%
d) Obtener los interalos de prediccin y de confianza para una altura de 63"
e) Obtener el coeficiente de correlacin y de detemrinacin