Está en la página 1de 131

INTRODUCCIÓN

No es difícil aceptar que todo proceso de la naturaleza está sujeto a cierta incertidumbre (o
variabilidad), por ejemplo: Es imposible predecir exactamente el crecimiento máximo de un rió
para prevenir una inundación. Esto se debe a que el crecimiento del mismo responde a diversos
(infinitos) factores, lluvias en la zona, temperatura ambiente, permeabilidad del suelo,
deforestaciones cercanas, etc. que producen lo que nosotros llamaremos variabilidad.
La estadística se ocupa de estudiar el comportamiento del fenómeno teniendo en cuenta su
variabilidad y lo hace extrayendo información de observaciones reales del fenómeno.
¿En qué área se necesita de la estadística?
 Física: Para establecer una ley física se deben realizar experimentos
 Medicina: La efectividad de una droga para tratar una cierta enfermedad varía de acuerdo a las
características físicas de cada persona, edad, peso, sexo, alimentación, actividades que realiza,
otras enfermedades, etc.
 Área social: En un hospital público es necesario predecir la cantidad de pacientes, por día, que
tendrá, para calcular la cantidad de insumos necesarios.
 Política: La cantidad de votos que un determinado candidato tendrá en la próxima elección.
 Comercial: Un comerciante puede estar interesado en saber cuál será el volumen de ventas de
alimentos perecederos para el próximo mes, para no traer de más y tampoco que le falte
mercadería.
Una de las áreas que más ha experimentado el impacto del desarrollo de la estadística es la
ingeniería y la administración industrial.
La estadística es una herramienta que nos permite realizar diversas tareas como el cálculo de
la duración promedio de las interrupciones de una computadora; prever las averías de un taller y
diseñar un equipo de mantenimiento; la evaluación de la eficacia de productos comerciales;
predicción de la confiabilidad de un producto mediante la medición de la duración de sus
componentes; para la construcción de un puente de gran longitud, nos permite estimar cuál será el
viento máximo en los próximos años, etc.
Hoy en la industria se presta una extraordinaria atención a mejoramiento de calidad. Japón
experimentó un “milagro industrial” en la segunda mitad del siglo XX y gran parte de este éxito se
debe al uso de métodos estadísticos de control de calidad.
En esta materia se trata de dar las herramientas estadísticas básicas para presentar y describir
información, obtener conclusiones acerca de las poblaciones basándose en información de
muestras, cómo mejorar procesos y obtener pronósticos confiables sobre variables de interés. Esto
nos permitirá tomar decisiones más informadas y concientes.

Se puede decir que la Estadística consta de tres etapas:

1) Recolección de datos (Diseño de experimentos y/o Técnicas de muestreo)


- Los datos que serán la base del estudio estadístico deben ser recolectados
adecuadamente, pues de ello depende la validez y el alcance de los resultados y
conclusiones. Ejemplos de formas de recolección de datos que no brindan
información confiable son las encuestas telefónicas y las encuestas callejeras, ya que
dejan grupos de la población sin ser representados.
- Debido al amplio rango de aplicación de la estadística existen extensas teorías sobre
el tema y un gran número de métodos de recolección de datos.

1
2) La Estadística Descriptiva
- Condensación o resumen de datos para ser presentados en forma óptima
- Realización de gráficos y diagramas.
3) La Inferencia Estadística
- Se ocupa de la interpretación y generalización de la información obtenida a partir de los
datos
- Permite tomar decisiones con un cierto nivel de riesgo
- Permite realizar estimaciones y predicciones.

Además para hacer inferencia estadística se necesita de teoría probabilidad.

UNIDAD 1: ESTADÍSTICA DESCRIPTIVA

Observación: En esta materia no se estudiarán las técnicas para recolectar adecuadamente los
datos, si no que se parte de un conjunto de datos dado.

MANEJO DE DATOS

Lote de datos: Es una serie de mediciones de una o más características de interés que
llamaremos variables, estas variables se dividen en dos tipos

I. Variables Cualitativas o Categóricas: Son las que describen cualidades o atributos, pero no
toman valores numéricos.

Ejemplos:

a)“Tamaño de empresas”
Categorías: {pequeñas, medianas, grandes}
b) “Causas de falla de una máquina”
Categorías: {Fluctuaciones de corriente, Error del operador, Engranajes desgastados, etc.}
c) Nacionalidad
d)”Tipos de medios de transporte según distancia que recorren”
Categorías: {corta, media, larga}

Se puede observar que en el ejemplo a) y d) las categorías tienen un orden natural, en este
caso se dice que la variable tiene Escala Ordinal

Si las categorías no tienen ningún orden, como en el ejemplo b) y c), se dice que la variable
tiene Escala Nominal

Ejemplo 1: Variables Cualitativas


- Zona del daño en accidentes en una planta,
- Sexo,
- Nacionalidad,
- Nivel de estudio.

2
II. Variables Cuantitativas: Son aquellas que toman valores numéricos.

Ejemplos:
a) “Cantidad de artículos fabricados en un día por una empresa”
Valores que puede tomar: {0, 1, 2, …, n}

b) “Longitud de un tornillo en mm.”


Valores que puede tomar: (0, ∞)

Una variable que puede tomar un número finito de valores o infinito numerable, como en el
ejemplo a), se llama variable Discreta. Por lo general las variables discretas toman valores
enteros.

Ejemplo 2: Variables Cuantitativas discretas


- Año de ingreso a la Carrera,
- Número de materias que cursan,
- Número de piezas no defectuosas producidas,
- Número de accidentes en 10 cruces céntricos.

Una variable que puede tomar valores en todo un intervalo se llama variable Continua, como
es el caso del ejemplo b)

Ejemplo 3: Variables Cuantitativas Continuas


- Peso,
- Edad,
- Resistencia a la flexión,
- Duración de un electrodoméstico.

Nota: ¿Cómo identifico una variable? Observando su recorrido, o sea los valores que puede
tomar (no los valores observados) y con esto identifico el tipo y escala.

DISTRIBUCIONES DE FRECUENCIA

La distribución de frecuencias es una tabla donde se presenta la información resumida de la


siguiente forma: en una columna están las clases (o categorías) y en otra columna la cantidad de
datos en cada clase, es decir que en lugar de conocer el valor exacto de cada dato sólo conocemos a
que clase pertenece. La tabla sacrifica parte de la información a cambio de obtener mayor
legibilidad.

Primer caso: Supongamos que se cuenta con datos de una variable Cualitativa ( nominal u ordinal)

En este caso los datos están clasificados en categorías

3
Ejemplo 4: Variable Cualitativa

Los accidentes en una planta fabril se clasifican de acuerdo a la zona del daño. Los datos
son: manos, ojos, manos, brazos, manos, ojos, ojos, ojos, piernas, pie, pie, brazos, piernas,
brazos, manos, ojos.

n = 16

Zona del daño


Cantidad de Accidentes
Manos  = 4
Ojos  = 5
Brazos  = 3
Piernas  = 2
Pie  = 2

Accidentes en el mes de Noviembre de 2000. Planta I.

Zona del daño


Cantidad de Accidentes
Manos 4 (25%)
Ojos 5 (31%)
Brazos 3 (19%)
Piernas 2 (13%)
Pie 2 (13%)
Total 16

Segundo caso: Datos provenientes de una variable Cuantitativa discreta con pocos valores

Ejemplo 5: Variable Cuantitativa Discreta

Número de accidentes automovilísticos en 10 intersecciones céntricas de una ciudad durante un

fin de semana de Diciembre.

0 2 3 0 1 4 1 0 2 3

No de Accidentes
Cantidad de intersecciones
0  = 3
1  = 2
2  = 2
3  = 2
4  = 1

4
No de Accidentes automovilísticos en 10 intersecciones céntricas de una ciudad.
Diciembre de 2000.

No de Accidentes
Cantidad de Intersecciones
0 3 ( 30%)
1 2 ( 20%)
2 2 ( 20%)
3 2 ( 20%)
4 1 ( 10%)
Total 10 (100%)

Tercer Caso: Observaciones de una variable Cuantitativa Continua o Discreta con muchos valores

En este caso existe la necesidad de construir las clases

Para construir las clases, se subdivide el rango de datos en subintervalos, según la siguiente
regla

Regla
- Selección del número de clases n de clases  1.75 n donde n es la cantidad de datos
o 3

(tamaño muestral)
max min
- Selección de la amplitud de cada clase Amp de clase  o
n de clases
- Elegir intervalos semiabiertos y disjuntos que cubran todo el rango de datos
- Elegir los limites de los intervalos, en lo posible, enteros y múltiplos de 5.
- Elegir los limites de los intervalos, de manera tal que no haya clases vacías, en lo posible

Ejemplo 6: Variable Cuantitativa Continua

Los siguientes datos son los tiempos de procesamiento por computadora, en segundos, de
ciertas solicitudes:

10.53 12.24 15.82 25.35


28.21 20.55 22.83 18.51
19.88 14.35 15.41 28.56
24.20 23.32 19.53 18.96
25.62 27.20 30.43 26.31

Tiempos en seg. Redondeados:


11 12 16 25
28 21 23 19
20 14 15 29
24 23 20 19
26 27 30 26

5
* n = 20
o
* n de clases = 175
. 3
n = 4.75  5

30  11 = 3.8  4
* amplitud de clase =
5

Clases Marcas Clases Marcas

(10,14]  = 3 [10,15)  = 3

(14,18]  = 2 [15,20)  = 4


(18,22]  = 5 [20,25)  = 6
(22,26]  = 4 [25,30)  = 6
(26,30]  = 6 [30,35) = 1

Total 20 Total 20

Distribución de frecuencias:

Tiempos de Procesamiento por PC de solicitudes. Febrero 2001.


Tiempos en seg. Cantidad de Solicitudes %

[10,15) 3 15
[15,20) 4 20
[20,25) 6 30
[25,30) 6 30
[30,35) 1 5
Total 20 100

Observación: La cantidad de clases resultantes puede diferir del número de clases calculada con la
fórmula, en una clase más o una menos

REPRESENTACIÓN GRÁFICA DE DATOS

Diagrama de Barras
- Datos de variables cualitativas
- Datos de variables cuantitativas discretas con pocos valores
- Se pueden graficar frecuencias absolutas, Frecuencias relativas o porcentajes
En un diagrama de barras en el eje horizontal se indican los valores posibles de la variable o
categorías y en el eje vertical las frecuencias absolutas, relativas o porcentajes.

6
Ejemplo 7: Diagrama de Barras

Accidentes mes de Noviembre 2000. Zonas del daño.

f 6
5
4
3
2
1
0
Manos Ojos Brazos Piernas Pie
Zona del Daño

Diagrama de Pareto

Accidentes mes de Noviembre 2000. Zonas del daño.

% 40
30

20

10

0
Ojos Manos Brazos Piernas Pie

Zona del Daño

Diagrama de puntos
- Datos de variables cuantitativas
- Se utilizan cuando tenemos menos de 20 datos
- Consiste en un eje horizontal sobre el cual se marcan las observaciones con puntos.
- Se puede utilizar para comparar dos muestras en una misma escala

Ejemplo 8: Diagrama de Puntos

Se midieron los tiempos, en segundos, de procesamientos de solicitudes de dos

computadoras diferentes, 10 para la computadora A y 10 para la B.

7
Computadora A:
11 12 16 25 28 21 23 19 20 14

         
10 15 20 25 30
s

Computadora B:

15 29 24 23 20 19 26 27 30 26


        
10 15 20 25 30
s

Histograma
- Sirve para datos de variables cuantitativas continuas o discretas con muchos valores. Es
decir para datos en clase.
Consiste en un conjunto de rectángulos cuyas bases son iguales a la amplitud de los
intervalos o clases, cuyos extremos o valores centrales se indican en el eje horizontal, las alturas de
los rectángulos, marcadas en el eje vertical son tales que el área del rectángulo es proporcional a la
frecuencia de cada clase.

Ejemplo 9: Histograma

Tiempos de procesamiento por computadora, en segundos, de solicitudes.


Computadora A y B en forma conjunta. Tipo XX. Febrero de 2001.

5
Frecuencia

0
10 15 20 25 30 35
Tiempo (seg)

- Proporciona una buena descripción a cerca de la forma de la distribución

8
Notas:
1) Cuando decimos forma hablamos de asimetría, uniformidad, bimodal, truncada, etc.

Ejemplo 10: Diferentes Histogramas

a) Asimetría positiva

14
12
10
8
6
4
2
0

b) Simetría

12
10
8
6
4
2
0

c) Uniforme

5
4
3
2
1
0

9
d) Bimodal

6
5
4
3
2
1
0

e) Truncada

8
7
6
5
4
3
2
1
0

f) Asimetría negativa

14
12
10
8
6
4
2
0

2) Los gráficos siempre deben llevar Título y Fuente, escala y unidades en que está medida la
variable.

10
MEDIDAS DE POSICIÓN Y DISPERSIÓN
(Solo para datos de variables cuantitativas)

Son valores numéricos, calculados a partir de los datos que describen ciertas características de
la muestra

Medidas de posición:

- Media, Mediana, Moda y Cuartiles.


- Proporcionan información acerca de la posición de la muestra

1 n
x   xi
Media: es el promedio de los datos
n i 1

Ejemplo 11: Media

Considere los tiempos de procesamiento por computadora, en segundo, de ciertas


solicitudes.

Computadora A:
10

x
1 1
x i  (11  12  ...  14 )  18 .9
10 i 1 10

Computadora A y B en forma conjunta. (20 lecturas) (datos en clases)

3 4 6 6 1
x  12 .5  17.5  22 .5  27.5  32 .5  22
20 20 20 20 20

k
Media para datos agrupados en clases x   x i f r (x i ) donde
i 1
- xi centro de cada intervalo
- k cantidad de clases
- fr(xi) frec. relativa de la clase con centro xi

Es una forma aproximada, por lo tanto, si se cuenta con los datos originales conviene calcular la
media a partir de ellos.
n
Nota: - Ejercicio: Verificar la propiedad de equilibrar los desvíos, es decir:

(x i  x)  0
i 1
- La media se ve afectada por asimetría y por “valores alejados”.
Ejemplo: 8 becas de $200 y una beca de $2000. Beca promedio es de $400

11
Mediana:
- Si n es impar, la mediana es el valor central de la muestra ordenada
- Si n es par, la mediana es el promedio de los dos datos centrales de la muestra ordenada

Procedimiento:
1) Ordenar de menor a mayor. (A la muestra ordenada la denotamos por x(i).)
n 1
2) pos ~x 
2
3) si n  2 k  1 pos ~x  k 1  ~ x  x (k 1)
2k  1 x ( k )  x ( k 1) No confundir
4) si n  2 k pos ~
x  ~
x mediana con
2 2 posición de la
mediana
Ejemplo 12: Mediana

Considere los tiempos de procesamiento de la computadora A, en segundo, de ciertas


solicitudes.

Computadora A: 11 12 16 25 28 21 23 19 20 14

Lote ordenado: 11 12 14 16 19 20 21 23 25 28

n 1
pos. med = = 5.5  med = ~
x = 19.5
2

Nota: No es afectada por valores alejados ni asimetría.


Observación: En cierta forma la mediana divide al lote de datos en 2 partes iguales.

Cuartiles: En cierta forma, dividen el lote de datos en cuatro partes iguales

pos Q1 
 x  1
pos ~
- Primer Cuartil donde [ ] es la función “parte entera”.
2
- Para el tercer cuartil se cuenta desde el final de la muestra ordenada

Ejemplo 13: Cuartiles

Computadora A:
Lote ordenado:
11 12 14 16 19 20 21 23 25 28

pos Q 
pos. med  1  5  1  3  Q  14
  1
2 2 Q 3  23

Moda: Es el dato más frecuente (si es que este existe)

12
Observaciones:
- La media y la mediana coinciden aproximadamente en caso de tener una muestra simétrica.
No así, necesariamente la moda.
- En caso de tener una muestra asimétrica positiva, la media será mayor que la mediana, si
tiene asimetría negativa, la media será menor que la mediana.
Ejemplo 19, pág 10.

Medidas de dispersión:
Ejemplo: Nota promedio de dos alumnos: 8
Un alumno tiene notas (6, 6 ,8 , 10, 10) y otro alumno (8, 8, 8, 8, 8)
¿Cómo los comparo? ¿Cuál es la diferencia?

Puede empezarse por la Desviación media y luego dar la varianza.

Una medida de dispersión es una medida de cuan alejados están los datos del centro de la
distribución (media o mediana).
1 n Es la media de los
Varianza: Varianza  ˆ 2
n i 1

xi  x 2
 desvíos, respecto de la
media, al cuadrado

Note que la varianza se expresa en las unidades de medida de la variable al cuadrado.

1 n
Desviación estándar: Desv. Est.  
ˆ   x i  x 2
n i 1

 x  x 2
1
Otra medida s i
n 1 i 1

Para datos agrupados la Desviación estándar se define como:

n
Desv . Est .  ˆ   fr ( x i )x i  x 2
i 1

Ejemplo 14: Desvío Estándar y Varianza

Computadora A:

10

 (x
1

ˆ2  i  x ) 2  28.52  
ˆ  5.34
n i 1

13
1 10
2
s  
n  1 i 1
( xi  x )2  31.70  s  5.63

Computadoras A y B en forma conjunta (20 lecturas) (datos en clases)

5
ˆ 2   (x
i 1
i  x ) 2 fr ( x i ) 

3 4 1
 (12 .5  22) 2  (17.5  22) 2  (32 .5  22) 2  32 . 25
20 20 20

ˆ  5.68 .
Interpretación:
- Se puede probar que en el intervalo (x  2 ˆ , x  2 ˆ ) se encuentra como mínimo el
75% de los datos.
- Si se encuentra toda la muestra en el intervalo, los datos están muy concentrados.

Ejemplo 15: Desigualdad de Chebyshev (muestral)

Computadora A:
11 12 14 16 19 20 21 23 25 28

8.22
x  2 ˆ   Están todos los datos, según Chebyshev debe haber por lo menos 1- ¼
29.58
= 0.75

- El coeficiente de variación es una medida de la magnitud de la dispersión con respecto de la



ˆ
media C. V .  Observemos que es adimensional, por lo tanto también sirve para
x
comparar datos de magnitudes diferentes.

Ejemplo 16: Coeficiente de Variación


Computadora A: x  18.9 ˆ  5.34
ˆ
CV   0.28
x
Computadora B: x  23.9 ˆ  4.48
ˆ
CV   0.19
x

14
Importante:
- Estas tres medidas toman como centro a la media, por lo tanto están asociadas a ella
- Si el lote de datos es simétrico y no tiene valores alejados, utilizaremos a la media y la
desviación estándar o s para describir el lote de datos.

Meda: Se define como la mediana de los valores absolutos de los desvíos respecto de la mediana
de los datos Meda  mediana{ x i  ~ x}

Procedimiento:
- Calcular los desvíos absolutos respecto de la mediana
- Ordenar y calcular la mediana de estos valores

Ejemplo 17: Meda

Computadora A:
11 12 14 16 19 20 21 23 25 28

n = 10 pos med = 10  1 = 5.5  ~


x 19.5
2

Desvíos absolutos:

8.5 7.5 5.5 3.5 0.5 0.5 1.5 3.5 5.5 8.5

Desvíos ordenados:
0.5 0.5 1.5 3.5 3.5 5.5 5.5 7.5 8.5 8.5

Meda = 4.5

Rango intercuartíl: RI = Q3 – Q1

Interpretación:
- En el intervalo (~
x  meda, ~ x  meda) se encuentran al menos el 50% central de los datos
- Para el RI, como ejercicio, encontrar la interpretación (entre Q1 y Q2 está el 50%)

Importante:
- Estas dos medidas de dispersión están asociadas a la mediana
- Si el lote de datos es asimétrico o tiene valores alejados utilizaremos a la mediana y
el RI o la Meda para describir el lote de datos.

¿Cómo analizo simetría?


Las observaciones pueden o no provenir de una distribución simétrica, sin embargo los datos no
tienen por que ser exactamente simétricos, generalmente tienen una cierta asimetría. Se debe
decidir si ésta es importante o no.

1) Observando el gráfico de los datos.

15
~
2) Calculo el valor x  x 100 si es > que 20 % la muestra es asimétrica
̂
Si es < que 10 % la muestra es simétrica
Si esta entre el 10 y el 20 % es un caso indefinido, debo
utilizar el gráfico
Ejemplo 18: Notas de una evaluación a 20 estudiantes

2 3 3 4 4 4 5 5 5 5 6 6 6 6 6 7 7 7 8 9

s = 1.76 med = 5.5 X = 5.4 moda = 6

Notas de una evaluación


*
* *
* * * *
* * * * *
* * * * * * * *
1 2 3 4 5 6 7 8 9 10
Notas
s1.76  0.1
 0.056  6% de   “hay simetría”
med X  0.1 1.76

Valores alejados:
Si un valor xi de la muestra es menor que Q1 – 1.5(Q3 – Q1) , entonces xi es alejado por defecto
Si un valor xi de la muestra es mayor que Q3 + 1.5(Q3 – Q1) , entonces xi es alejado por exceso

No significa que haya que descartar ese dato, significa que hay que estudiar
ese caso y usar medidas que no se vean afectadas por valores alejados

DIAGRAMA DE TIPO CAJA:

- Se deben calcular mínimo y máximo, mediana, Q1 , Q3.


- Detectar valores alejados
- Se utilizan para describir una muestra y también para comparar dos o más muestras.
- Con éste diagrama se puede visualizar claramente rango, posición, dispersión, presencia
de valores alejados y forma de la distribución de los datos.

Ejemplo 19: Diagrama Tipo Caja

Se registraron los tiempos de espera, en minutos, en un consultorio médico:


0.06 0.08 0.63 0.82 1.48 3.77 6.29 6.42 10.20 11.25 13.09 16.58 22.29 28.45 30.32 55.98

Lote redondeado y ordenado:


0 0 1 1 1 4 6 6 10 11 13 17 22 28 30 56
16
n 1 ~
pos med = = 8.5  med  x = 8
2

pos med1 = 8  1 = 4.5  Q 1


pos Q =  1
2 2 Q3 19.5

Q1 – 1.5 (Q3 – Q1) = 1 – 1.5 (19.5 – 1) = -26.75


Q3 + 1.5 (Q3 – Q1) = 19.5 + 1.5 (19.5 – 1) = 47.25
 Existe un valor alejado por exceso: 56
mínimo = 0 máximo = 30

Tiempos de Espera en un Consultorio Médico

Minutos
60

50

40

30

20

10

Ejemplo 20: Diagrama “Box Plot” para comparar dos muestras

35

26

17

17
Informe: Posición, variabilidad, asimetría, valores máximo y mínimo, y valores alejados

Ejemplo 21: Informe

Consideremos las lecturas de humedad del ejemplo 26:

29.4 44.2 12.2 53.3 21.2 33.8 38.7 24.8 47.6 22.6 16.8 24.2 26.6 31.2 33.5

Medidas de posición y de dispersión:


Media = 30.73
Mediana = 29
Primer cuartil = 23.5
Tercer cuartil = 36.5
Desvío Estándar = 11.10
Meda = 6

s11.49  1.73
 0.15
med  X  1.73 11.49

No hay valores alejados

Informe:
Se midieron los porcentajes de humedad en una cierta ciudad durante la primer quincena
de agosto de 2001. Las lecturas de humedad oscilan entre un mínimo de 12% y un máximo de
53%. Las mismas están concentradas alrededor del 29%. Se observa una mayor concentración
para valores bajos y una mayor dispersión para valores altos, es decir, se presenta una asimetría
positiva. No se observan días con porcentaje de humedad extremos.

DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA

Introducción:
Dado una unidad experimental podemos observar o medir más de una variable
simultáneamente. Por lo general se necesitan estudiar todas las variables a la vez, no analizar a
cada una por separado. A este tipo de estudio en Estadística se le llama análisis multivariado de las
variables, en caso de 2 variables se llama análisis bidimensional.
Por ejemplo: X = “peso de una persona”
Y = “altura de una persona”

Distribución de Frecuencias Conjunta: (Datos Bivariados)


Es una tabla en donde se muestran los valores posibles de cada variable en los márgenes
superior e izquierdo, y la frecuencia con que ocurre cada par en el centro.

18
Ejemplo 22:
Se clasifican los artículos de acuerdo a su lote y al número de defectos.

Distribución de frecuencias conjunta


Lote \ Nro. de def. 0 1 2 3 Total
1 7 15 5 3 30
2 5 20 15 10 50
Total 12 35 20 13 80

Lote \ Nro. de def. 0 1 2 3 Total


1 23% 50% 17% 10% 100%
2 10% 40% 30% 20% 100%

- Variables Cuantitativas  Distribución de frecuencia conjunta


- Variables Cualitativas  Distribución de frecuencia conjunta o tabla de
contingencia

Distribuciones Marginales:
Son las distribuciones de frecuencias de cada una de las variables por separado, se obtienen
calculando los totales por filas y por columnas, respectivamente.

Nota: Una vez calculadas las marginales, se pide escribirlas aparte en una distribución de
frecuencias univariada.

Distribuciones de frecuencias marginales:

Lote f Nro. de def. f


1 30 0 12
2 50 1 35
Total 80 2 20
3 13
Total 80

Asociación entre las variables:


Para estudiar si hay o no asociación entre las variables se pueden calcular porcentajes sobre Total
de filas o Total de columnas. Según que influencia se quiera estudiar, de la variable fila o columna
sobre la otra.

Ejemplo 23: Tabla de contingencia

A un grupo de 180 adultos se los clasifica de acuerdo al Hábito de fumar y a si padecen


problemas de hipertensión.

19
Distribución de frecuencias conjunta

Fuma\ Hipertensión Sí No Total


No 21 48 69
Moderadamente 36 26 62
En exceso 30 19 49
Total 87 93 180

Fuma\ Hipertensión Sí No Total


No 30% 70% 100%
Moderadamente 58% 42% 100%
En exceso 61% 39% 100%

Explicación
En el ejemplo 22 observamos que las variables son:
X = “condición de fumador”
Y = “condición de hipertenso”
Para saber en que sentido tenemos que calcular los porcentajes tenemos que preguntarnos que
variable influye sobre cual
¿fumar influye en tener o no hipertensión, o tener o no hipertensión, influye en la decisión de
fumar?
Una vez resuelto este problema calculamos los porcentajes sobre los totales de las categorías de la
posible variable influyente.
No siempre es fácil identificar cuál es la variable influyente, incluso a veces es útil calcular los
porcentajes en los dos sentidos.

20
UNIDAD 2: Concepto de probabilidad
Al comenzar con el estudio de la probabilidad hay tres cuestiones a resolver:
 Qué es la probabilidad?
 Cuáles son sus reglas?
 Y cómo se calculan las probabilidades?
Con respecto a qué es, es un concepto muy difícil de definir y hay varias interpretaciones
filosóficas al respecto. La corriente clásica, la frecuencialista y la subjetiva.
Interpretaciones:
– Clásica: sucesos igualmente verosímiles.
– Frecuencialista: la probabilidad es la frecuencia relativa
– Subjetiva: depende del sujeto.

Sin embargo, como no han llegado a un acuerdo entre ellas, en numerosas bibliografías se encuentra
la definición axiomática de probabilidad que es la que adoptaremos en este curso.

Antes daremos algunos conceptos previos:

Experimento aleatorio: Es un proceso cuyo resultado no se puede predecir con exactitud, pero se
puede proporcionar un conjunto de todos los resultados posibles.

Ejemplo 1: Experimentos Aleatorios


 = Se lanza una moneda
 = Se observa el número de accidentes en una planta industrial durante un año
 = Se mide el tiempo de duración de un componente electrónico
 = Se arroja un dado

Espacio Muestral: Es el conjunto de todos los resultados posibles de un experimento dado, se


denota por S.

Ejemplo 2: Espacios Muestrales

S1 = {cara, sello}

S2 = {0, 1, 2, . . . } = N U {0}

S3 = {t   / t  0} = [0, )

S4 = {1, 2, 3, 4, 5, 6}

Se clasifican en:
- Discreto, si contiene un número finito o infinito numerable de elementos
- Continuo, si es un intervalo continuo de IR

Ejercicio
En el ejemplo anterior indicar espacios muestrales Discretos y Continuos

12
Sucesos: Un suceso es un subconjunto del espacio muestral. Se denotan con letras mayúsculas,
A,B, M, N

Ejemplo 4: Sucesos

 = Se arroja un dado

S = {1, 2, 3, 4, 5, 6}

A = “Se obtiene un número par” = {2, 4, 6}

B = “Se obtiene un número impar “ = {1, 3, 5}

Idea intuitiva de la probabilidad:

Relacionemos con frecuencia relativa: Ejemplo Tirar una moneda muchas veces.
Ejemplo:
 = “se arroja un dado equilibrado”
S = {1, 2, 3, 4, 5, 6}
¿Cómo calcularían cuál es la probabilidad de obtener un 3? ¿y la probabilidad de obtener un número
par?

Definamos: P ( A ) = # Casos favorables a A / # Casos posibles

Nota: Siempre que los elementos de S sean igualmente probables.

No todos lo espacios muestrales se pueden expresar con elementos igualmente probables Por
ejemplo: Se desea calcular la probabilidad de que una persona se reciba de ingeniero antes de los 25
años de edad.

Ejemplo 6: Cálculo de probabilidades

Se lanza una moneda equilibrada 3 veces. ¿Cuál es la probabilidad de:


a) obtener al menos una cara?
b) no obtener caras?
c) obtener exactamente una cara?
d) obtener a lo sumo una cara?

= Se lanza una moneda 3 veces


S = {ccc, ccs, csc, scc, css, scs, ssc, sss}

a) A = {ccc, ccs, csc, scc, css, scs, ssc}


P(A) = 7/8

13
b) B = {sss}
P(B) = 1/8

c) C = {css, scs, ssc}


P(C ) = 3/8

d) D = {css, scs, ssc, sss}


P(D) = 4/8

Ejercicio: responder las preguntas anteriores si la moneda es tal que la probabilidad de obtener
una cara es 1/3 y de obtener un sello es 2/3.

DEFINICIÓN AXIOMÁTICA DE LA PROBABILIDAD

Sea E un experimento y S su espacio muestral asociado. Decimos que una función


P: F IR, donde F es una familia de subconjuntos de S, tal que a cada A  F le asigna P(A), es una
probabilidad si se satisfacen las siguientes condiciones:

1)  A  F P(A)  0
2) P(S) = 1
3) Si A1, A2, … es una sucesión de sucesos disjuntos ( i  j AiAj = ) entonces
  
P  A i    P(A i )
 
 i1  i1

Propiedades
1) P() = 0
n  n
2) Si A1, A2, …, An tales que  i  j AiAj =  entonces P  A i    P(A i )

 
 i1  i1
3)  A  S P(Ac) = 1 P(A)
4)  A  S 0  P(A)  1
5) Si A, B  S y A  B entonces P(A)  P(B)
6) Si A, B  S entonces P(AB) = P(A) + P(B) – P(AB)
Generalización: Si A, B, C  S entonces
P(ABC) = P(A) + P(B) + P(C) – P(AB) – P(AC) – P(BC) + P(ABC)

Recordemos que
A= ABC  AB
(AB) C = ACBC
(AB) C = ACBC

A, B disjuntos (o mutuamente excluyentes)  AB=. Ejemplo 5, pág 22.

14
Ejemplo 8:
En una cierta población, el 10% de la gente es rica, el 5% es famosa y un 3% es
rica y famosa. Se elige una persona de la población al azar.
a) ¿Cuál es la probabilidad de que la persona no sea rica?
b) ¿Cuál es la probabilidad de que la persona sea rica pero no famosa?
c) ¿Cuál es la probabilidad de que la persona sea rica o famosa?

R = La persona es rica P(R) = 0.10


F= La persona es famosa P(F) = 0.05
P(RF) = 0.03

a) A = La persona no es rica.
A = Rc  P(A) = 1– P(R) = 1– 0.10 = 0.90

b) B= La persona es rica y no famosa


R F B = RFc

R = (RF) U (RFc)
P(R) = P(RF) + P(RFc)  P(B) = P(R ) - P(RF) = 0.10 – 0.03= 0.07

c) C = La persona es rica o famosa


C = RUF  P(C) = P(R)+P(F) - P(RF) = 0.10 + 0.05 – 0.03 = 0.12

Ejercicio: Probar todas las propiedades enunciadas. (Las demostraciones pueden encontrarlas
en el libro de Meyer)

Demostración Propiedad 2)
Sea Si A1, A2, …, An tales que  i  j AiAj = 
Sea An+1 = An+2, = … = 
Entonces  i  j AiAj = 
  
Luego por Axioma iii) se tiene que P  Ai    P( Ai )
 i 1  i 1
Entonces:
 n     n
P  Ai   P  Ai    P( Ai )   P( Ai )
 i 1   i 1  i 1 i 1

15
PROBABILIDAD CONDICIONAL

Ejemplo
 = Se lanza un dado
S = {1, 2, 3, 4, 5, 6 }

A = “Se obtiene un no par” = { 2, 4, 6 }

B = “Se obtiene el no 2” = { 2 }  P(B) = 1/6

Si ahora, por alguna razón, sabemos que al lanzar el dado se obtuvo un n o par, la
probabilidad de que se obtenga un 2 es 1/3.

Con un diagrama de Venn:

S
A
A
B 2 4
2 6 1
6  espacio muestral reducido
4 3
5

Definición de Probabilidad condicional


P( B  A)
Sea A y B sucesos en S tales que P(A) > 0 definimos: PB / A  
P( A)
P(A  B)
Análogamente si P(B) > 0 PA / B 
P(B)
Nota: Se puede probar que para un suceso B fijo tal que P(B)>0,  A  S la función P( A B) ,
es una probabilidad o sea cumple con los axiomas de la definición.(Hacer como ejercicio)

Ejemplo: En una cierta población, el 10% de la gente es rica, el 5% es famosa y un 3%


es rica y famosa. Se elige una persona de la población al azar.

a) ¿Cuál es la probabilidad de que la persona sea famosa si se sabe que es rica?


P(F  R ) 0.03
P(F / R )    0.30
P(R ) 0.10

b) ¿Cuál es la probabilidad de que no sea famosa si se sabe que es rica?

16
C
Se pide P(F / R ) .
Como la probabilidad condicional es una probabilidad, se tiene:

P( FC / R )  1  P( F / R )  1  0.30  0.70

Otra forma: recordando que: R=(RF)(RFC) se sigue:

P(R) = P(RF)+P(RFC), luego

P(RFC) = P(R) - P(RF)= 0.10 – 0.03 = 0.07, entonces

P(Fc  R ) 0.07
P ( FC / R )    0.70
P( R ) 0.10

Regla de la multiplicación o del producto

Dados E y S
Si A y B son sucesos de S entonces P(AB) = P(A) P(BA) si P(A) >0
= P(B) P(AB) si P(B) >0

Nota:
Este teorema se puede generalizar a n sucesos, por ejemplo para n = 3:
P(ABC) = P(A) P(B/A)P(C/AB) si P(AB)>0

Ejemplo:
Consideremos un lote de 100 artículos, que consta de 20 defectuosos y 80 sin
defectos. Elegimos 2 al azar sin sustitución. ¿Cuál es la probabilidad de que ambos
artículos sean defectuosos?

D1 = “el primer artículo es defectuoso”


D2 = “el segundo artículo es defectuoso”

P(D1D2) = P(D1).P(D2/ D1) = 20 . 19  19


100 99 495

Ejemplo: Regla del producto

Suponga 2 componentes eléctricas. La probabilidad de que la primera componente


falle es 0.10. Si la primera falla, la probabilidad de que la segunda falle es 0.20. Pero si la
primera funciona la probabilidad de que la segunda falle es 0.05.
Calcular las siguientes probabilidades:
a) Al menos 1 componente funciona.
b) Exactamente 1 de las componentes funciona.

17
c) La segunda componente funciona.

1ª componente 2ª componente

0.95 Funciona

Funciona
0.90
0.05 Falla

0.80 Funciona
0.10
Falla

0.20 Falla

a) A = Al menos 1 componente funciona


Ac = Ambas fallan
P(A) = 1 – P(Ac) = 1 – 0.20 x 0.10 = 0.98

b) B = Exactamente 1 de las componentes funciona


P(B) = 0.90 x 0.05 +0.10 x 0.80 = 0.125

c) C = La segunda componente funciona


P(C) = 0.90 x 0.95 + 0.10x 0.80 = 0.935

Independencia de sucesos

 : Se lanza un dado dos veces.

S = {(1,1) ... (1,6) ... (6,1) ... (6,6) } 36 ptos = 6 x 6

Sean los sucesos:


A = “En el 1er lanzamiento se obtiene un número par”
B = “En el 2do lanzamiento se obtiene un 5 o un 6”

18 1 12 1 6 1
P( A )   P(B)   P( A  B)  
36 2 36 3 36 6

P( A  B) 1 / 6 1
P(B / A )     P(B)
P( A ) 1/ 2 3

P( A  B) 1 / 6 1
P( A / B)     P( A )
P(B) 1/ 3 2
Por lo tanto, A y B son independientes.

18
Definición de Sucesos Independientes
Existen casos en donde la ocurrencia de un suceso no afecta a la probabilidad de ocurrencia del otro
suceso, es decir que:
P(AB) = P(A), si es que P(B)>O ó
P(BA) = P(B), si es que P(A)>O

Esto podría ser una definición de independencia, pero tenemos la restricción que P(B)>O ó P(A)>O,
por lo que generalizamos el concepto con la definición.

Definición:
Dados dos sucesos A, B en S, decimos que A y B son independientes sí y sólo sí
P(AB) = P(A) P(B)

Ejemplo: De un lote de 100 artículos que contiene 20 defectuosos y 80 no defectuosos,


se extraen 2 artículos con reposición. ¿Cuál es la probabilidad de que ambos sean
defectuosos?
D1 = “el primer artículo es defectuoso”
D2 = “el segundo artículo es defectuoso”

P(D1  D2) = P(D1)P(D2 / D1 )=P(D1)P(D2) = 20 20



4

1
100 100 100 25

Generalización de Independencia de sucesos:


La definición se extiende a n sucesos de la siguiente forma:
solo lo hacemos para n = 3. Decimos que A, B y C son mutuamente independientes sí y sólo sí:
1) P(AB) = P(A) P(B)
2) P(AC) = P(A) P(C)
3) P(BC) = P(B) P(C)
4) P(ABC) = P(A) P(B)P(C)

Ejemplo: Sea el experimento 


S = { s1, s2, s3, s4 }, donde cada punto tiene probabilidad 1/4
Sean los sucesos
A = { s1, s2 } B = { s1, s3 } C = { s1, s4 }
P(A) = P(B) = P(C) = 2/4 = 1/2

AB = AC = BC = { s1 }
P(AB) = 1/4 = P(A) P(B)
P(AC) = 1/4 = P(A) P(C)
P(BC) = 1/4 = P(B) P(C)

ABC = { s1 } P(ABC) = 1/4


P(A) P(B) P(C) = 1/8

Luego A, B y C no son mutuamente independientes.

Nota: No confundir el concepto de independencia con mutuamente excluyente.


A y B son independientes  P(AB) = P(A)P(B) * concepto estadístico*
A y B son mutuamente excluyentes  AB =  * propiedad de los conjuntos*

19
UNIDAD III: DISTRIBUCIONES DE PROBABILIDAD – 1ra Parte

Hasta este momento definimos  y S su espacio muestral asociado. El espacio muestral


puede ser numérico o no numérico.

Ejemplo 1:  = Arrojo 2 monedas → S = {cc, cs, sc, ss }

Ejemplo 2:  = Arrojo un dado → S = {1, 2, 3, 4, 5, 6}.

Vamos a transformar el espacio S a un conjunto de números reales mediante lo que


llamamos variable aleatoria.

Definición:
Sea  un experimento aleatorio y S su espacio muestral. Una variable aleatoria es una
función que asigna a cada elemento s de S un número real X(s).
Es decir: X: S  R
s  X(s)

Ejemplo 1:  = Arrojo 2 monedas → S = {cc, cs, sc, ss}


Definimos la v .a
X = nº de caras que aparecen

X (cc) = 2 X (sc) = 1 X (cs) = 1 X (ss) = 0

Rx = {0, 1, 2}

Ejemplo 2:  = Arrojo un dado → S = {1, 2, 3, 4, 5, 6}.


Definimos la v. a.
X=nº obtenido

X (i) = i; i= 1, 2,…, 6. Rx = {1, 2, 3, 4, 5, 6}


lR
S

Nota:
- En muchos casos el resultados del espacio muestral ya es un número, en este caso
X(s)=s
- El conjunto de todos los valores posibles de X se llama recorrido de la variable X, se
denota con RX
Ejemplo 3: Se lanzan 3 monedas → S = {ccc, ccs, csc, scc, css, scs, ssc, sss}
X = Se cuenta el número de caras. RX = {0, 1, 2, 3}
P (X = 0) = P({sss})=1/8
P (X = 1) = P({css, scs, ssc })=3/8
P (X = 2) = P({ccs, csc, scc })3/8
P (X = 3) = P({ccc})=1/8

Idea de Probabilidad inducida:


𝑃𝑋 (𝐵) = 𝑃(𝑋 −1 (𝐵) = 𝑃(𝐴)

S lR
A
B

Clasificación de Variables Aleatorias


a) Discretas: Cuando su recorrido es finito o infinito numerable, es decir,
RX = {x1, x2, …, xn} o RX = {x1, x2, …}
Donde a cada valor xi está asociada una probabilidad pX(xi) = P(X = xi) para i = 1, 2, …
y el conjunto de valores pX(xi) cumple con las siguientes propiedades:
i) pX(xi)  0
ii)  pX ( x i )  1
xi
Esta función se llama función de masa de probabilidad (fmp)

Ejemplo 4: Variable aleatoria discreta.


Un embarque de 8 computadoras similares, que se envía a un distribuidor, tiene 3 aparatos
defectuosos. Si un colegio realiza una compra al azar de dos de estas computadoras,
encuentre la distribución de probabilidad para la variable aleatoria número de computadoras
defectuosas que adquiere el colegio.

 = “Se compran dos computadoras” → S = {NN, ND, DN, DD}

X= Número de computadoras defectuosas Rx = {0, 1, 2}

5 4 20 10
𝑝𝑋 (0) = 𝑃(𝑋 = 0) = 𝑃{𝑁𝑁} = = =
8 7 56 28

5 3 3 5 30
𝑝𝑋 (1) = 𝑃(𝑋 = 1) = 𝑃{𝑁𝐷, 𝐷𝑁} = + =
8 7 8 7 56
32 6
𝑝𝑋 (2) = 𝑃(𝑋 = 2) = 𝑃{𝐷𝐷} = =
8 7 56
La función de masa es:

x pX(x)
10
0
28
15
1
28
3
2
28
1

b) Continua: Se dice que un variable aleatoria X es continua, si es que existe una función
fX no negativa, definida sobre la recta real, tal que para cualquier intervalo A.

P(X  A)   f X ( x )dx
A
donde fX se denomina función de densidad de probabilidad (fdp) y cumple con las
siguientes condiciones:
i) fX(x)  0

ii)  f X (x )dx  1

Ejemplo 5: Variable aleatoria continua.

Sea X = “Un número elegido en el intervalo [0, 2]” Rx = [0,2]

 1/ 2 0  x  2
f X (x)  
0 en otro caso
área = 1

1/2

0 1 2

a) Verificar que fX es una función de densidad


i. fx(x)  0 para todo x  
 2
1
ii. f

X ( x ) dx   2 dx  1
0
b) ¿Qué probabilidad tengo de elegir un nº perteneciente al intervalo [1.5, 2]?
2
1
P(1.5  X  2)   2 dx  0.25
1.5

Observaciones:
a) La función de densidad no es una probabilidad.
b) En el caso de una variable aleatoria continua, la probabilidad en un punto es cero.

Función de Distribución Acumulada


La función de masa (en el caso discreto) y la función de densidad (en el caso continuo)
especifican la distribución de probabilidad de una variable aleatoria discreta y continua
respectivamente.
Otra forma de especificar la distribución de probabilidad de una variable aleatoria en
general, es mediante la Función de Distribución Acumulada (Fda)
 x  FX (x)  PX  x
Es la probabilidad acumulada desde -  hasta el punto x.

Observación: x R, 0  FX(x)  1


Teorema
a) Sea X v.a. discreta, pX su función de masa

FX ( x )   p X (x j )
x j x

Ejemplo 6: Función de Distribución Acumulada, para v.a. Discreta

X = Número de computadoras defectuosas

x pX(x)
10
0
28
15
1
28
3
2
28
1

Si x < 0 F X (x) = 0
10
Si 0  x <1 F X (x) = P (X  x) = p X (0) =
28
10 15 25
Si 1  x < 2 F X (x) = P (X  x) = p X (0) + p X (1) =  
28 28 28

10 15 3 28
Si x  2 F X (x) = P (X  x) = p X (0) + p X (1) + p X (2) =    1
28 28 28 28

Es decir:
0 x0
 10
 0  x 1 FX(x)
 28
Fx ( x )   1
 25 1 x  2 25
 28 28
1 x2

10
28

0 1 2 x
b) Sea X v.a. continua, fX su función de densidad
x
FX ( x )   f X (t )dt


Ejemplo 7: Función de Distribución Acumulada

X = Número elegido en el intervalo [0, 2]

1 / 2 0x2
f X (x)  
0 en otro caso fX (x)

1/2
x
x0 FX ( x )  f

X ( t )dt 0

x x
1 2 x
1 x
0x2 FX ( x )  f

X ( t )dt   2 dt  2
0
x 2
1
x2 FX ( x )  

f X ( t )dt  
0
2
dt  1
FX(x)

0 x0 1
x

FX ( x )   0x2
2

1 x2
1 2
x
Observaciones:
1) Para el caso discreto, la Función de Distribución Acumulada tiene un salto en cada punto
del recorrido, igual a la probabilidad en dicho punto.
x
'
2) En el caso continuo FX ( x )   f X (t )dt  bajo ciertas hipótesis FX ( x )  f X ( x )


Propiedades

1) La función F es no decreciente, es decir: si x1  x2  FX(x1)  FX(x2) (Ejercicio:


demostrar)
2) lim FX ( x )  1
x 
lim FX ( x )  0
x  

3) Para todo a, b  R, a < b  P(a < X  b) = FX(b) – FX(a)


En caso continuo
P(a<Xb) = P(aX<b) = P(a<X<b) = P(aXb) = F X (b) – F X (a)
(Ejercicio: demostrar)

Ejemplo 8: Cálculo de probabilidades usando F.d.a

X = Número elegido en el intervalo [0, 2]


0 x0
x

FX ( x )   0x2
2

1 x2

a) Calcular P(0.5<X<1.5)
P(0.5<X<1.5) = FX(1.5) –FX(0.5)= 1.5/2- 0.5/2= 0.5
b) Calcular P(X<1)
P(X<1)= FX(1)=1/2=0.5

TRANSFORMACIÓN DE VARIABLES ALEATORIAS

Sea X una variable aleatoria con distribución de probabilidad conocida, entonces Y = g(X)
es también una variable aleatoria

¿Cuál es la distribución de probabilidades de Y?

Caso Discreto
Si X es discreta, entonces Y = g(X) también es discreta

Sea RX = {x1, x2, … } el recorrido de X y sea RY = {y1, y2, … } el recorrido de Y

La función de masa de probabilidad de la v. a. X es conocida. Se desea encontrar la


función de masa de probabilidad de la v. a. Y

pY(yi) = P[Y = yi] = P{x  RX : g(x) = yi}= p


x: g ( x )  y i
X ( x)
Ejemplo 9: Transformación de variables aleatorias, caso discreto-discreto.

Sea X v.a. con recorrido RX = {-1, 0, 1, 2} tal que px (x) =1/4 para todo xRx. Sea Y = X2.
Encuentre la función de masa de Y.
RY = {0, 1, 4}
pY (0) = P (Y = 0) = P (X2 = 0) = P(X = 0) = 1/4
Y pY(y)
pY (1) = P (Y = 1) = P (X2 = 1) = P(X = 1) =1/2 0 1/4
pY (4) = P (Y = 4) = P (X2 = 4) = P(X = 2) = ¼ 1 1/2
4 1/4
1

Caso Continuo
Sea X una v. a. continua, entonces Y = g(X) puede ser  discreta
 continua

Si Y es discreta se procede como antes.

Ejemplo 10: Transformación de variables aleatorias, caso continuo-discreto

1 / 4 0x4  1 si x  1
f X (x)   Y( x)  
0 en otro caso 1 si x  1

1 1
1 1
P (Y = -1) = P ( X < 1 ) =  f (x)dx  
 0
4
dx 
4
 4
1 3

P (Y = 1) = P( X  1)  f ( x)dx 
1
 4 dx  4
1

Si Y es continua se desea determinar la función de densidad de probabilidad de Y


utilizando la densidad de probabilidad de X que es conocida

Procedimiento (válido para g monótona creciente)


i) Representar gráficamente Y = g(X)
ii) Obtenga el recorrido de la v. a. Y
iii) Obtenga FY, la función de distribución acumulada de Y
y

FY ( y )  P( Y  y )  P(g( X)  y )  P( X  g 1 ( y ))  FX g 1 ( y )
0 y <…
FY ( y ) = FX g 1
( y)   y  ...
1 y …

iv) Derive FY respecto de y a fin de obtener fY

Ejemplo 11: Transformación de variables leatorias, caso continuo-continuo.


Sea V la velocidad del viento, en km/h. Supongamos que V es una variable aleatoria
con función de densidad de probabilidad dada por:
1/ 10 0  v  10
f V ( v)  
 0 en otro caso
La presión W sobre la superficie de un avión (dada en Km/m2) está dada por W = 0.003V2.
Encuentre la función de densidad de W.

0.3

0  v  10  0  w  0.3

– Sea w: w < 0 ; FW ( w )  PW  w  0 por el RW entonces FW


' ( w )  0 = f (w)
W

– Sea w : 0  w  0.3
 
FW ( w )  PW  w   P 0.003V 2  w  P  V   w 

0.003 

 w   w 
 P V    FV  

 0.003   0.003 
1
 w 1 w 2
1 1  12 10 1 10  1 2
f W (w )  f V    w 10  w
 0.003 2 10 2 2 3
  0.003 3

– Sea w: w > 0.3 ; FW ( w)  PW  w  1 por el RW entonces FW


' ( w )  0 =f (w)
W

Por lo tanto la función de densidad es de la siguiente manera:

 1 10  1
 w 2 0  w  0.3
f W (w)   2 3
0
 en otro caso
UNIDAD III: DISTRIBUCIONES DE PROBABILIDAD – 2da Parte
CARACTERÍSTICAS DE VARIABLES ALEATORIAS

Esperanza Matemática o Valor Esperado de una v. a.

Si una empresa de seguros nos informa que se espera que una mujer de 40 años viva
38 años más, no significa que toda mujer de 40 años hoy vivirá hasta cumplir 78 años
solamente. Habrá mujeres de 40 años hoy que vivirán 10 años más otras 50 años más otras
20, etc. La expectativa debe ser interpretada como que en promedio todas las mujeres de 40
años hoy vivirán 38 años más.

Caso Discreto
Sea X un v. a. discreta, RX = {x1, x2, …} su recorrido y pX(xi) i = 1, 2, … su función de
masa de probabilidad.
El valor esperado de X se define como:

E ( X)   X   x i p X ( x i ) siempre que exista  x i pX (x i )


i 1 i 1

Ejemplo 12: Esperanza Matemática, caso discreto (mostrar gráficamente ubicación de


la media)

Usando la f.m.p del Ejemplo 4:

x pX(x)
10
0
28
15
1
28
3
2
28

10 15 3 21 3
EX  0   1  2    0.75
28 28 28 28 4

Caso continuo:
Sea X una v. a. continua con función de densidad fX, el valor esperado de X se define
como:
 
EX   X   x f X (x)dx siempre que exista  x f X ( x )dx
 
Ejemplo 13: Esperanza Matemática caso continuo (mostrar gráficamente ubicación de
la media)
Suponga que el error en la temperatura de reacción, en oC, para un experimento es una
variable aleatoria continua con función de densidad de probabilidad dada por:

1 2
 x 1  x  2
f X (x)   3
 0 en otro caso
Determine el valor esperado del error en la temperatura de reacción.

2 2
1 2 x4 16  1 15 5
EX 
1

3
x xdx 
12 1

12
 
12 4

Observaciones:
1) La esperanza matemática no tiene porque ser un valor del recorrido de la variable
2) Es una medida de posición de la distribución de probabilidad. Es el centro de gravedad
de la distribución de probabilidad.
3) Cuando el número de observaciones es muy grande la media muestral tiende a la
esperanza matemática.

Propiedades:
Se puede demostrar que:
- Sea X v.a. tal que existe EX, sean a, b  , entonces
E(aX + b) = a EX + b

- Sean X, Y vs. as. tales que existen EX y EY. Entonces


E(X + Y) = EX + EY

Ejemplo 14: Propiedades de la esperanza.


El valor esperado de las calificaciones de cierto examen fue 65 y el desvío estándar
20. ¿Cómo deberán corregirse las calificaciones de manera tal que el valor esperado sea
75 y el desvío estándar sea 10? Considere la transformación Y=aX+b, a > 0.

E(X)  65 V(X)  20
Y=aX+b  EY = a EX + b y y = a x
a EX  b  75 a  65  b  75
  
 a X  10  a  20  10
a = 1/2 = 0.5
1 65
 65  b  75  b  75   75  32.5  42.5
2 2
Por lo tanto la transformación a realizar es:
Y = 0.5 X + 42.5
Esperanza de una función de una v. a.

TEOREMA:

Sea X una v. a. y sea Y = g(X), entonces:

a) Si X es discreta con función de masa pX



EY  Eg( X)    g( x j ) p X ( x j )
j1

b) Si X es continua con densidad fX



EY  Eg( X)    g( x ) f X ( x) dx


Nota:
Este resultado nos permite calcular la esperanza de una v. a. Y que es función de
otra variable aleatoria X con distribución conocida, sin necesidad de obtener la función de
densidad o de masa de Y.

Ejemplo 15: Tomar esperanza de W en Ejemplo 10


W = 0.003V2
Por definición:
 0.3 0.3
0.3
1 10  1 2 1 10 10 1 3 2
E( W )   wf W ( w )dw   w w dw  w dw   0.1
1
2
w
 0
2 3 0
2 3 3 3
0
Por teorema:
10
10
1 0.003 v 3
E( W )   0.003v 2
dv   0.1
0
10 10 3
0

Varianza de una v.a.

Sea X una v. a. la varianza de X se define como:


V(X) = E(X  EX)2 = X2 siempre que E(X2) < .
La raíz cuadrada positiva de la varianza de X se denomina desviación estándar y se
denota por X.


V( X)   2X   (x  )
2
Caso continuo f X ( x)dx siempre que exista E(X2)


Caso discreto V( X)   2X   ( x i   ) 2 p X ( x i ) siempre que exista E(X2)
i 1
Propiedades:
1) Sea X v.a. tal que existe V(X), entonces V(X)  EX 2  ( EX) 2
 
Demostración: V(X)  EX   2  E X 2  2X   2  EX 2  2EX   2  EX 2   2

2) Sea X v.a. tal que existe V(X)y sean a,b  , entonces


V(a X + b) = a2 V(X)

Ejemplo 16: Varianza, caso discreto.


En el ejemplo 4 recordemos que E(X) = 3/4
2 2 2
 3  10  3  15  3 3
V(X) = E( X – EX ) =  
2
 1    2    0.4
 4  28  4  28  4  28

Ejemplo 17: Varianza, caso continuo.


En el ejemplo 12 recordemos que
 1 2
f X (x)   3 x  1  x  2 y E(X) = 5/4
0 en otro caso

Utilizando la propiedad: V(X)=E(X2) – (E(X))2


Calculemos V(X)
2 2 2
1 2 1 x5 11 11  5 
E( X )  x  x dx    V(X)      0.6375
2 2
3 3 5 5 5  4
1 1

Desigualdad de Chebyshev o Tchebychev

Sea X una v. a. con EX =  y Var(X) = 2 entonces:

P X    k   
1
donde k es un número real positivo.
k2

Ejemplo 18: Interpretación de la Desigualdad de Chebyshev o Tchebychev:


P  X    k  
1
k2
P  0.25

P  0.11

P  0.06

También se puede escribir de la forma:


P X    k    1 
1
k2

Observaciones:
1. La cota proporcionada puede ser muy precisa o muy alejada.
2. Me proporciona información acerca de las probabilidades sin conocer nada de las
distribuciones de probabilidad
3. Sirve para acotar las probabilidades de ciertos intervalos sólo conociendo  y .
Ejemplo 19: Desigualdad de Chebyshev o Tchebychev.

k = 3/2
 3  4
P X        0.44
 2  9

Supongamos que X tiene función de densidad:


1
 0x2

f X (x)   2
 1/2

0 en otro caso

1 2
2
2 4 1 1
EX = 1 y V(X)     
12 12 3 3
 3 1   3   
P X  1    P X  1   1  P  3  X 1 3 
 2   2 2 
 2 3  
3
1
 3 3  2
1 3
 1  P1 
 2
 X 1
2 
1  2
dx  1 
2
 0.13
3
1
2
Conclusión: el resultado no es exacto pero si consistente y se obtuvo sin saber nada acerca
de la forma de la distribución de la variable aleatoria.

Esperanza y Varianza aproximada de la transformada de una v. a.

Sea X una v. a. y sea Y = g(X) la transformada. Si la función g es muy complicada


la evaluación de la esperanza y de la varianza puede conducir a integrales o sumas muy
difíciles. En estos casos la esperanza y la varianza de Y pueden ser calculadas de manera
aproximada a partir de la media y varianza de X.

Supongamos que g tiene derivadas continuas en el recorrido de X, el desarrollo en serie de


Taylor de g alrededor de x = X hasta el término de orden 2 será:

1
y  g( x )  g( X )  g ( X )(x   X ) 
g ( X )(x   X ) 2
2!
despreciando los demás términos. Tomando esperanza en ambos miembros
g ( X )
Ey  g ( X )   2X
2
Despreciando el segundo término y tomando varianza
V(Y)  g ( X )2  2X
Ejemplo 20: Esperanza y Varianza aproximada de una transformada.

Sea X una variable aleatoria con función de densidad:


1
 0x2

fX (x)   2


0 enotro caso
1
con EX = 1 y V(X)  .
3
Sea Y = e –X una transformada.

g(x) = e-x g’(x) = -e-x g’’(x) = e-x


x  x  x e x
e  e  e (X   x )  (X   x ) 2
2
1 1 e 1
y  g(x) + x g’’(x)/2 =
2 e   0.429
3 2
1 1 2 1 2
y2  x2 (g’ (x))2 = [e ]  e  0.045
3 3
La Esperanza y Varianza Exactas serían:

x
2
 e 2  1 1  e 2
2
1 e

x
EY  e dx      0.432
0
2 2 2 2
0
2
 e 2x  e 4  1 1  e 4
2
1

 2x
EY  e 2
dx   
2 4 4 4
0 0
2
1  e 4  1  e 2 
V(Y)  EY  (EY )  2
  2
  0.058

4  2 

En resumen: para obtener la esperanza de una transformada de una variable aleatoria


podemos hacerlo:
De manera exacta
1) Por definición, encontrando primero la función de densidad de la transformada y luego
por definición la esperanza
2) Por el teorema.
De manera aproximada
3) Por Taylor, con lo que encontramos la esperanza y varianza aproximadas sólo a partir
de la esperanza y la varianza de la variable aleatoria original.
UNIDAD 4: Variables aleatorias con nombres propios
Saco un artículo y veo si es defectuoso. Luego defino una variable aleatoria X=1 si ES
DEFECTUOSO y X=0 si NO ES DEFECTUOSO. Esta situación se modela con una
distribución:

Distribución de Bernoulli
Sea X v.a. tal que Rx= {0,1} p x(1) = p ; p x(0) = 1 – p con 0  p  1
Lo que es lo mismo p x(x) = px(1-p)1-x con x =0 , 1

Ejercicios: 1) Probar que es función de masa


2) Probar que EX=p y V(X)=p(1-p)

Proceso de Bernoulli
El proceso de Bernoulli es un experimento en el que se cumplen las siguientes hipótesis:

1) El proceso consiste en un número fijo (n) de repeticiones de un experimento


(ensayos),
2) En cada repetición, hay solo dos resultados posibles. Éxito (E) y Fracaso (F).
3) La probabilidad de éxito se mantiene constante de repetición en repetición. p = P(E)
y P(F) = 1 – p.
4) Los ensayos son independientes entre sí. Es decir, la probabilidad de Éxito es siempre
la misma y no se modifica por cualquier combinación de Fracasos o Éxitos observados
hasta esa repetición.

Distribución Binomial
En un proceso de Bernoulli la v. a. Binomial se define como:

X = “Número de éxitos obtenidos al realizar los n ensayos de Bernoulli”

Recorrido de X, RX = {0, 1, 2, …, n}
n
Nota: X   X i , donde Xi son ensayos Bernoulli.
i 1

¿Cuál es su distribución de probabilidades?

P(E…EF…F) = pr(1 – p)n-r

Los sucesos favorables al suceso X = r son todas combinaciones de r de ellos tomados de n (o


n
permutaciones de r Éxitos y n-r Fracasos), es decir   , cada una con la probabilidad
r
anterior, entonces:
n n n!
P(X = r) =  p r (1  p) n  r r = 0, 1, 2, 3, ..., n donde    0! = 1
r  r  r!(n  r )!
(Explicar cálculo de números combinatorios con calculadora)

Notación: X  b(n, p)
Nota: Se puede demostrar que

21
n
1) p
r 0
X (r )  1

2) EX = np
3) V(X) = np(1 – p)

Ejemplo 1: Distribución Binomial

La probabilidad de que un artículo sea defectuoso en un lote es ¼. Si se eligen 4


artículos al azar de dicho lote:
1) Revise las hipótesis del proceso de Bernoulli.
2) Encuentre la función de masa de la variable
X= ”Número de artículos defectuosos de los 4 extraídos”.
3) ¿Cuál es la probabilidad de que exactamente un componente sea
defectuoso?.
4) ¿Cuál es la probabilidad de que a lo sumo 2 componentes sean
defectuosos?

Sea X =“Número de artículos defectuosos de los 4 extraídos”

2) Función de masa:
n
p x ( x )   p x (1  p) n x x  0, 1, 2, , n
x

para n=4 y p=1/4 se obtiene

x 4 x
 4  1   1 
p x ( x )     1   x  0, 1, 2, , n
 x  4   4 
0 4
 4  1   3 
p x (0)        0.316
 0  4   4 
1 3
 4  1   3 
p x (1)        0.422
 1  4   4 
2 2
 4  1   3 
p x (2)        0.211
 2  4   4 
3 1
 4  1   3 
p x (3)        0.047
 3  4   4 
4 0
 4  1   3 
p x ( 4)        0.004
 4  4   4 

22
pX(x) p < 0.5
x px(x)
0.422
0 0.316
1 0.422 0.316
2 0.211
3 0.047 0.211
4 0.004
0.004

0 1 2 3 4 x

3) P(X = 1) = 0.422

4) P(X  2) = pX (0) + pX (1) + pX (2) = 0.316 + 0.422 + 0.211 = 0.949

Otra forma más complicada de preguntar lo mismo:


3) ¿Cuál es la probabilidad de que exactamente 3 componentes pasen la prueba? (o
1 defectuoso)
4) ¿Cuál es la probabilidad de que al menos 2 componentes pasen la prueba? (o
que a lo sumo 2 sean defectuosos)

Esta distribución está tabulada para algunos valores de n y p.

Ejemplo 2:

La probabilidad de que un paciente se recupere de una enfermedad es 0.4.


Si se sabe que 15 personas han contraído esa enfermedad.
¿Cuál es la probabilidad de que:
a) al menos 13 se recuperen?
b) a lo sumo 2 se recuperen?
c) Se recuperen 5 personas?
d) ¿Cuál es el valor esperado y la desviación estándar de pacientes que se
recuperan?
Considere X=”Nro. De personas que se recuperan”.
Primero se revisan las hipótesis del Proceso de Bernoulli  X  b(15, 0.4)

a) P(X  13) = px(13) + p x(14) + px(15), por tabla.


= 0.0003 + 0 + 0 = 0.0003.

b) P(X  2) = px(0) + px(1) + px(2) , por tabla.


= 0.0005 + 0.0047 + 0.0219 = 0.0271

c) P (X = 5) = 0.1859, por tabla.

d) EX= 15 x 0.4 = 6
V(X) = 15 x 0.4 x 0.6 = 3.60  x = 1.90

Observaciones:

23
Xb(n,p)
X="Número de éxitos en n ensayos de Bernoulli"
P(X=k)

Si ahora consideramos
Y="Numero de fracasos en n ensayos de Bernoulli"
Yb(n, 1-p)
P(X=k)=P(Y=n-k)

Ejercicio: Probar X~b(n,p)⇒ Y=n-X ~ b(n, 1-p)

Distribución Geométrica

X = “Número de ensayos Bernoulli hasta obtener el primer éxito”

RX = {1, 2, 3, …}

P(X = r) = (1-p)r-1p

Notación: X  Geom(p)

Nota: Se puede probar que:


1) EX = 1/p
2) V(X) = (1-p) / p2

Ejemplo 3: Distribución Geométrica.

En cierta región, la probabilidad de que ocurra una tormenta eléctrica en un


día cualquiera de verano es 0.1. Suponiendo independencia de un día a otro ¿Cuál
es la probabilidad de que la primera tormenta ocurra el décimo día de verano?

X = Nro. de días hasta que ocurre la primera tormenta


X ~ Geom (0.1)

P(X=10) = 0.99 x 0.1 = 0.038

¿ Por qué X no tiene distribución Binomial?

El proceso de Bernoulli es un proceso experimental, en el sentido que yo realizo el


experimento. Tiene su paralelo observacional: en el sentido de que observo en un tiempo fijo
la cantidad de éxitos y esto se conoce como el proceso de Poisson. Veamos la definición
formal del Proceso de Poisson.

Proceso de Poisson o Caos Homogéneo

Supongamos un proceso en donde se observan sucesos puntuales sobre soporte continuo.


Ejemplos
- Nro. de llamadas telefónicas recibidas en una central: suceso puntual llamada
soporte continuo  tiempo

24
- Nro. de errores de tipeo por página: suceso puntual error
soporte continuo  página
- Cantidad de defectos en una plancha metálica: suceso puntual  defecto
soporte continuo  área de metal

Consideremos el siguiente ejemplo:


Se observa el número de partículas emitidas por un material radioactivo durante un
intervalo de tiempo [0, t)
Se deben verificar las siguientes hipótesis:
1) Independencia: El número de partículas emitidas en un intervalo de tiempo es
independiente del número de partículas emitidas en otro intervalo de tiempo disjunto
del primero.
2) Homogeneidad y Proporcionalidad: La probabilidad de que sea emitida una
partícula en un intervalo de tiempo [t, t+h) es h+o(h) donde  es constante
independiente de t y o(h)/h  0 cuando h  0. Es decir que cuando h es pequeño la
probabilidad es proporcional a la longitud del intervalo y es independiente de t.
3) Regularidad: La probabilidad de que en el intervalo [t, t+h) sean emitidas 2 o más
partículas es despreciable cuando h es pequeña.

Este proceso da origen a una variable aleatoria con Distribución de Poisson.

Distribución de Poisson XP()

X = “Número de sucesos en un intervalo [0,t) de longitud fija, en un Proceso de Poisson”

RX = {0, 1, 2, …}

Su función de masa de probabilidad es:

(t ) x
PX(x) = P[X = x] = e t x = 0, 1, 2, …
x!
donde >0, es el número promedio de partículas emitidas por unidad de tiempo.

Notación: X  P(t)

Nota: Se puede probar que:



(  t ) x  t
1)  e 1
x 0 x !
2) EX = t
3) V(X) = t

Ejemplo 4: Distribución de Poisson.

En promedio, en una cierta intersección ocurren 3 accidentes viales por mes.


a) ¿Cuál es la probabilidad de que en un determinado mes ocurran menos de 3
accidentes?
b) ¿Cuál es la probabilidad de que en 2 meses haya 5 accidentes?
c) ¿Cuál es la probabilidad de que en una semana no haya accidentes?
d) ¿Cuál es la probabilidad de que en dos meses seguidos, ocurran menos de

25
tres accidentes en cada uno?

Primero se revisan las hipótesis del Proceso de Poisson.


a) X = “Número de accidentes por mes”
X  P(3)
P(X < 3) = P(X  2) = px(0) + px(1) + px(2)
3 30 31 32
= e  e 3  e 3 , por tabla
0! 1! 2!
= 0.0498 + 0.1494 + 0.2240 = 0.4232

b) Y = "Número de accidentes en 2 meses"


Y  P(6)

P (Y = 5) = 0.1606 (por tabla)

c) S = " Número de accidentes por semana"


S  P(0.75)
 0.75 0.75 0
P(S  0)  e  e  0.75  0.472
0!

d) Por la probabilidad calculada en a), usando la hipótesis de independencia se tiene


que:

P(menos de tres en el 1er. mes y menos de tres en el 2do. mes)


= P(menos de tres en el 1er mes) x P(menos de tres en el 2do mes)
= 0.42322

Distribución Exponencial XE()

Nota: El tiempo entre dos sucesos de Poisson se modela con la distribución Exponencial.
Una variable aleatoria X se dice que tiene distribución Exponencial, XE(), si su función de
densidad es:

e x x0


f (x)   donde >0.
0 en otro caso

Nota:
Se puede probar que:( hacerlo como ejercicio)

1) f

x ( x )dx 1

2) EX = 1/ 

3) V(X) = 1 / 2

26
Ejemplo 5: Distribución Exponencial.

La duración en años de cierto tipo de batería de respaldo de emergencia


es una variable aleatoria con distribución exponencial de parámetro =0.1.

a) ¿Cuál es la vida media de la batería?


b) ¿Cuál es la probabilidad de que una batería dure por lo menos 8 años?
c) Si 5 de estas baterías son instaladas, ¿cuál es la probabilidad que al menos 2
funcionen por lo menos 8 años?

X ~ E(0.1)

a) EX = 1/  = 10 años

b) P(X  8) = 1 - P(X < 8)

 1 
8

0
0.1e 0.1x dx  1  e 0.1x
8

0
 
 1  e 0.8  e 0  e 0.8  0.4490

c) Y= “Número de baterías de las 5 instaladas que funcionan por lo menos 8 años”


Y~ b(5, 0.45)

P(Y  2) = 1 - P(Y < 2) = 1 - (P(Y = 0) + P(Y = 1))


 5   5 
 1   0.45 0  0.55 5   0.451  0.55 4   1  0.05  0.206   0.744
 0  1 

El tiempo entre dos sucesos de Poisson se modela con la distribución Exponencial

Relación entre la distribución Exponencial y el Proceso de Poisson

Sea X “Cantidad de sucesos en un tiempo t”, tiene distribución de Poisson de parámetro ;


es decir XP().
Definamos a T como “Tiempo que transcurre hasta la primera ocurrencia”
¿Qué distribución de probabilidades tiene la variable aleatoria T?
Primero observemos que T es continua y RT = [0, )
Sea t  [0, )
FT(t) = P(T  t) = 1 – P(T > t) = 1 – P(“no hay ocurrencias en el intervalo [0, t)”)
= 1 – P(X = 0) = 1 – e -  t (t)0 / 0 = 1 – e -  t

Entonces FT’(t) = e -  t para t >0 y cero en otro caso, que es la función de densidad de
probabilidad de la v. a. Exponencial.

Ejemplo 6: Distribución Exponencial y de Poisson.

Suponga que llegan 3 camiones por hora, en promedio, para ser descargados en
una bodega, ¿cuál es la probabilidad de que el tiempo entre el arribo de sucesivos
camiones sea a lo sumo 5 minutos?

X = “Número de camiones que llegan por hora”

27
X ~ P(3)
T= “Tiempo entre el arribo de dos camiones sucesivos en horas”
T~ E(3)
P (T  5 min) = P (T  1/12)
1 / 12
  0
3e 3x dx  1  e 1/ 4  0.221

Utilizando la distribución de Poisson:

P(T  5 min) = 1- P (T > 5 min)


=1 – P(no lleguen camiones durante 5 min)

1 e

1
4
1 4  0

1 e

1
4  0.221
0!

5  3 15 1
Observación:  t    .
60 60 4

Nota: En un proceso de Poisson, la variable “ tiempo hasta la primera ocurrencia” es igual a


la variable “tiempo transcurrido entre dos ocurrencias sucesivas”

Distribución Uniforme

La v. a. X tiene distribución Uniforme en el intervalo [a, b], si su función de densidad de


 1
 axb
probabilidad es f X ( x )   b  a
 0
 en otro caso

Se puede probar que:


1) fX(x)  0 a  x  b
b

2) f
a
X ( x )dx 1 (Demostrar como ejercicio)

ab (b  a ) 2
3) EX  y V(X)  (Demostrar como ejercicio)
2 12
4) Notación: X  U[a, b]

La Distribución Normal

La v. a. X tiene distribución Normal si su función de densidad es:


1
1  ( x  ) 2
f X (x)  e 2 x
2

2 
28
donde  ,  son constantes tales que  <  <  y  > 0.
Nota: Se puede demostrar que
1) fX(x) > 0  < x < 

2) f

X ( x )dx 1

3) EX =  y Var(X) = 2
4) Notación: XN( , )
5) XN( , ) es simétrica alrededor de .

Distribución Normal Estándar (Z)

 Cuando  = 0 y  = 1 XN(0, 1) y se denota por Z.


 Su función de distribución acumulada se denota por , es decir, (z) = P(Z  z)
 Esta tabulada
 Cualquier distribución Normal puede ser transformada a una Distribución Normal
Estándar:
X 
Resultado: Si X  N(, )entonces la v. a. Z   N(0, 1) (Probar como ejercicio)

Se utiliza para el cálculo de probabilidades, por ejemplo


a  X  b 
P(a  X  b)  P(a    X    b  )  P   
    
b a 
     de tabla o usando aplicación del celular)
     

Observaciones:
1) (-z) = 1 – (z)
2) Ejemplos:
Si (z) = 0.8  z = 0.84
Si (z) = 0.3  1 – (–z) = 0.3  (–z) = 0.7  – z = 0.52  z =–0.52

Ejemplo 7: Distribución Normal.

La cantidad de radiación cósmica a la que se expone una persona al volar en


avión por EEUU es una variable aleatoria con distribución Normal con media =4.35
mrem. y desviación estándar =0.59 mrem.
Determine la probabilidad de que la cantidad de radiación esté entre 4.00 y 5.00
mrem.

X= “Cantidad de radiación a la que se expone”


X~ N(4.35, 0.59)
 4  4.35 X  4.35 5  4.35 
P(4  X  5)  P     P(0.59  Z  1.10 )
 0.59 0.59 0.59 
= (1.10) -  (-0.59)= (1.10) – [1 -  (0.59)]

29
=0.8643- (1 - 0.7224) =0.5867 (por tabla)

Ejemplo 8:

Una compañía fabrica focos cuya duración es una variable aleatoria con
distribución Normal con media igual a 800 hs. y desviación estándar igual a 40 hs.
Encuentre la probabilidad de que un foco dure entre 778 y 834 hs.

X = “Duración del foco” X ~ N(800, 40)

 778  800 834  800 


P(778  X  834 )  P Z  = P(– 0.55 < Z < 0.85)
 40 40 

=  (0.85) - (- 0.55) = (0.85) - (1 - (0.55))

= 0.8023 – (1-0.7088) = 0.8023 - 0.2912 = 0.5111

Ejemplo 9:

Se usan medidores para rechazar componentes cuyas dimensiones no se


encuentran dentro de la especificación 1.50  d. Se sabe que esta dimensión tiene
distribución N(1.50, 0.2).
Determine d para que la especificación cubra el 90% de las mediciones.

X = “Dimensión que se mide” XN(1.50, 0.2)

¿d tal que X  1.50  d?

P(1.50 – d < X < 1.50+d) = P(-d < X-1.50 <d)


  d X  1.50 d   d   d 
 P          
 0.2 0.2 0.2   0.2   0.2 
 d    d 
    1     0.90
 0.2    0.2 

Entonces:

 d   d  1  0.90 d
2   1  0.90     0.95   1.65
 0 .2   0.2  2 0.2

 d 1.65  0.2  0.33

30
UNIDAD 5: Distribuciones de funciones de variables aleatorias –1ra Parte
DISTRIBUCIONES CONJUNTAS

Definición de V. A. Bidimensional:
Sea  un experimento aleatorio y S su espacio muestral. Sean X e Y vs. as. tal que a cada s
de S le asignan los números reales X(s) e Y(s) respectivamente. Entonces se dice que el par
(X, Y) es una variable aleatoria bidimensional.

lR2
S
(X(s), Y(s))

Distribuciones Bidimensionales
a) Caso discreto
(X, Y) es una v. a. Bidimensional Discreta si el conjunto de valores posibles (recorrido)
es finito o infinito numerable, es decir:
RXY = {(xi, yj): i = 1, 2, …n, … j = 1, 2, …, m, …}

Su función de masa conjunta se define como:


pXY(x, y) = P(X = x, Y = y) para todo (x, y)  RXY

Se debe cumplir que:


i) pXY(x, y)  0 para todo (x,y)Rxy
ii)  p
x y
XY ( x , y)  1

Las funciones de masa marginales son:


Para todo x  RX pX (x)  py
XY ( x , y)

Para todo y  RY p Y ( y)  p
x
XY ( x , y)

Ejemplo 1:
En una planta automotriz dos tareas estarán a cargo de robots. La primera consiste
en soldar dos bisagras y la segunda en apretar dos tornillos. Sea X el número de soldaduras
defectuosas, e Y el número de tornillos apretados incorrectamente. La siguiente tabla
muestra la distribución de probabilidad conjunta.

Y
0 1 2
X
0 0 0.15 0.10 0.25
1 0.15 0.20 0.05 0.40
2 0.10 0.15 0.10 0.35
0.25 0.50 0.25 1

26
P (X = 2, Y = 2) = 0.10

P (X = 2) = 0.35

P (Y = 1) = 0.50

b) Caso Continuo
(X, Y) es una v. a. Bidimensional Continua si existe una función fXY llamada función de
densidad de probabilidad Conjunta que satisface las siguientes condiciones:
i) fXY(x, y)  0 para todo (x, y)  2
 

ii)  f
 
XY ( x, y)dxdy  1

Además, para todo A  2 P(A)   fA


XY ( x, y)dxdy

Las funciones de densidad marginales son:


Para todo x  RX f X (x)  f



XY ( x , y)dy

Para todo y  RY f y ( y)  f

XY ( x , y)dx

Observaciones:
1) En el caso bidimensional el recorrido es una región de 2, y se recomienda graficar
en el plano dicha región.
2) La probabilidad en este caso es el volumen debajo de la superficie.
3) La probabilidad (el volumen) sobre un punto o una curva es cero.

Ejemplo 2:
Sea (X, Y) una v.a. bidimensional continua cuya f.d.p. conjunta está dada por:
6 0  x  1 x2  y  x
f XY ( x, y)
0 en otro caso

27
y y = x2
y=x

1/2

1/2 1 x

a) Pruebe que efectivamente es una función de densidad.


b) Calcule las funciones de densidad marginales.
c) Calcule la probabilidad de que X e Y no sean mayores que ½.

a) La función es no negativa por definición.

1 x 1 x 1


Volumen  ( 6dy )dx  6 y
0 x2

0
x 2 
dx  6( x  x 2 )dx
0

1
 x2 x3 
  6    1
1 1
 6  
 2 3   2 3
0
b) Sea x : 0  x 1
6( x  x 2 ) 0  x  1
 
x


f X ( x )  6dy  6 x  x  f X (x)  
2

x 2 0 en otro caso

Sea y: 0y1

6( y  y) 0  y  1
 
y
 f Y ( y)  

f Y ( y)  6dx  6
y
y y

0 en otro caso

1 1 1
2 x
 1 2 2
1 x
c) P X  , Y   
 2 2   6 dy dx   6 y| x2 
dx  6( x  x 2 )dx
0 x2 0 0

28
1/ 2
 x2 x3  1 1  1
 6     6   
 2 3   8 24  2
0

Definición: Independencia de Variables Aleatorias


1) Caso discreto: Sean X e Y dos v. a. discretas, decimos que X e Y son independientes
si: pXY(x, y) = pX(x)pY(y) para todo (x, y)  RXY

2) Caso continuo: Sean X e Y v. a. continuas, decimos que X e Y son independientes


si: fXY(x, y) = fX(x)fY(y) para todo (x, y)  RXY

Ejemplo 3:
Con los datos del ejemplo 1:
Y
0 1 2
X
0 0 0.15 0.10 0.25
1 0.15 0.20 0.05 0.40
2 0.10 0.15 0.10 0.35

0.25 0.50 0.25 1

pXY(0,0) = 0 pX (0) = 0.25 pY(0) = 0.25


pX(0).pY(0) = 0.0625

Luego X e Y no son independientes.

Ejemplo 4:
Con los datos del ejemplo 2:

6 0  x  1 x2  y  x
f XY ( x, y)

0 en otro caso
Se sigue que:
6( x  x 2 ) 0  x  1
f X (x)  
0 en otro caso

6( y  y) 0  y  1
f Y ( y)  
0 en otro caso

Para (1,1) se tiene que: fX(1).fY(1)  fXY(1,1),


Entonces existe al menos un punto del recorrido, tal que: fX(x).fY(y)  fXY(x,y),
Luego X e Y no son independientes.

29
Ejemplo 5:

Se lanza un dado y una moneda. La función de masa conjunta está dada por:
1
 x  0,1; y  1, 2, ..., 6
p XY ( x, y)12

0 en otro caso
6
 p XY (x, y)  12
6 1
p X (x)   x  0, 1
y 1
2
1
 pXY (x, y)  12  6
2 1
p Y ( y)  y  1, 2, ..., 6
x 0

Luego X e Y son independientes.

Ejemplo 6:

Se eligen dos números al azar del intervalo [0, 1].


La función de densidad conjunta está dada por:
y
1 0  x  1, 0  y  1
f XY ( x,y)  1
0 en otrocaso

1 x
1 0  x  1
1


f X ( x )  1 dy  1, 0  x  1
0
 f X ( x)  
0 en otro caso

Análogamente,

1 0  y 1
f Y ( y)  
0 en otro caso
Luego X e Y son independientes.

Nota: Distribución conjunta conocida  distribuciones marginales conocidas


Distribuciones marginales conocidas  Distribución conjunta conocida
(salvo independencia)

30
Teorema: Esperanza de una función de varias variables aleatorias
Se puede demostrar que:
 

1) Caso continuo Eh ( x, y)    h ( x , y)f XY ( x, y)dxdy


  

2) Caso discreto Eh ( x , y)   h ( x , y)p XY ( x , y)


x y

Ejemplo: Esto sirve para calcular cosas como la siguiente:


 
X
E(XY) =   xyf XY (x, y)dxdy , E(X+Y); E  .
Y
 

Propiedades de la esperanza
1) Sean X1, …, Xn vs. as. cuyas esperanzas existen a1, …, an constantes, entonces:
E(a1X1 + … +anXn) = a1EX1 + … +anEXn
2) Si X e Y son v. a. independientes cuyas esperanzas existen, entonces: E(XY) =
EXEY
Generalización:
Sean X1, …, Xn v. a. independientes, tales que EXi <  i = 1, 2, …, n, entonces:
n
E(X1...X n )   EX
i 1
i

Observación: El recíproco de la propiedad 2) no es cierto, es decir que:


E(XY) = EXEY  X, Y independientes

Ejemplo 7: Contraejemplo. ( E(XY) = E(X) E(Y) no implica independencia)


Sea X tal que RX = { -1, 0, 1} con pX(x) = 1/3  x  RX.
Defino Y = X2. La función de masa conjunta está dada por:

X –1 0 1
Y
0 0 1/3 0
1 1/3 0 1/3

EX = 0
EY = 1x1/3 + 0x1/3 + 1x1/3 = 2/3
E(XY) = E(X3)= -1x1/3 + 0x1/3 + 1x1/3 = 0
Por lo tanto E(XY) = EX.EY
Pero X e Y no son independientes ya que, por ejemplo,
pXY(0, 1) = 0 y pX(0) . pY(1) = 1/3 . 2/3 = 2/9

31
Covarianza

La Covarianza es una medida de Asociación Lineal entre dos variables. Se define como:
Cov(X, Y) =E(X – X ) (Y – Y) siempre que X   y  Y   .
2 2

Se puede probar que:


Cov(X, Y) =E(XY) – EX EY (Demostración como ejercicio)

Interpretación: gráfico

Propiedades de la covarianza
Sean X e Y vs. as. tales que existen 2X y 2Y
1) Cov 2 (X, Y)   2 X  2 Y
2) Cov(aX+b, cY+d) = acCov(X, Y) para todo a, b, c, d  ℝ (como ejercicio)
3) Cov(X+Y, Z)=Cov(X,Z)+Cov(Y,Z) (como ejercicio)
4) X e Y independientes  Cov(X, Y)=0 (como ejercicio)

Ejemplo 8:
Suponga que X e Y son variables aleatorias tales que la. Cov(X,Y) =1. Calcule la
Cov(2X,3Y+1)
.
Cov(2X,3Y+1) = 2.3.Cov(X,Y)= 6

Observación:
Cov(X, Y)=0  X e Y independientes

Ejemplo 11: Contraejemplo. (Cov(X,Y)=0 no implica independencia)


En el ejemplo 7

Cov(X,Y) = E(XY) – EX EY = 0, pero X e Y no son independientes pues Y = X2.

Coeficiente de correlación
La covarianza es una medida de asociación lineal entre dos variables aleatorias. Tiene el
inconveniente de que no está acotada y depende de las particulares unidades de medidas de

32
las variables X e Y, por ello no podemos saber cuándo esta asociación es fuerte o débil. Por
eso definimos el coeficiente de asociación lineal:
Cov(X, Y)
(X, Y) 
XY

Propiedades
1) (X,Y)1
 (X,Y)  1 Existe una fuerte asociación lineal (positiva o negativa) entre
las variables
 (X,Y)  0 No hay asociación lineal entre las variable.
(no indica independencia)
2) X e Y independientes  (X, Y)=0

 1 si a  0
3) Y=aX+b, a0  (X, Y)   (  como
 1 si a  0
ejercicio)

Propiedades de la Varianza
1) Sea X una v. a. tal que  2 X < y sean a y b   entonces V(aX+b)=a 2 V(X)
2) Sean X e Y vs. as. tales que  2 X < y  2 Y < entonces
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
Consecuencia: Si X e Y son independientes, entonces V(X+Y)=V(X)+V(Y)
Generalización: Si X1, …, Xn vs. as. independientes, tales que, para todo i  2 i <

 n  n
V  X i    V(X i )
 i 1  i 1
Ejemplo 10:
Suponga que X e Y están correlacionadas negativamente. ¿V(X+Y) es mayor o menor
que V(X-Y)?

Ejemplo 11:
Suponga que X, Y y Z son variables aleatorias tales que:
V(X) = 1 V(Y) = 4 V(Z) = 8 Cov(X, Y) = 1 Cov(X, Z) = -1 Cov(Y, Z) = 2.
Calcule:
a) V(X+Y+Z)
b) V(3X-Y-2Z+1)
33
UNIDAD 5: Distribuciones de funciones de variables aleatorias –2da Parte

Combinación lineal de variables aleatorias con distribución Normal independientes


Teorema de la Combinación lineal de variables aleatorias con distribución Normal
independientes
Sean X1, X2, …, Xn vs. as. independientes, tales que  i = 1,…,n Xi  N(i, i), i <
,
y sean a1, …, an constantes reales, entonces:

n  n n 

la variable aleatoria  a i X i  N  a i  i ,  i a 2 2


i 1  i 1 i 1 

2
 n   n 
Ejercicio: Calcular E  a i X i  y V  a i X i 
 i 1   i 1 

Caso Particular: (IMPORTANTE)


Sean X1, …, Xn vs. as. i i d (independientes e idénticamente distribuidas) con
distribución N(, ). Entonces:

E  X i    E( X i )     n
n n n

 i1  i1 i 1

V  X i    V( X i )    2  n 2
n n n

 i1  i1 i 1

Y por lo tanto, según el Teorema de las combinaciones lineales de las v.a. Normales
independientes para este caso particular:

X i
 N(n , n) ,

Además
1 n  1  n  1 n 1 n 1
E(X)  E  X i   E  X i    E(X i )     n  
 n i 1  n  i 1  n i 1 n i 1 n

1 n  1 n  1 n 1 n 2 1 2
V( X )  V  X i   2 V  X i   2  V( X i )  2    2 n 
2

 n i 1  n  i 1  n i 1 n i1 n n
26
Y por lo tanto, según el Teorema de las combinaciones lineales de las v.a. Normales
independientes para este caso particular:

1 n   
X   X i  N , 
n i1  n

Ejemplo 13: Combinación lineal de vs. as. con distribución Normal.


Supongamos que el peso de un paquete lleno de yerba es una v.a. con distribución
Normal con media 1000 gr. y varianza 120 gr2. y que el peso del envase (paquete vacío)
es una v.a. con distribución Normal N(10,1). ¿Cuál es la probabilidad de que el peso neto
de yerba este entre 990 y 1000 gr.? Suponga T y E independientes.
T = peso del paquete lleno ~ N(1000 , 120 )
E = peso del envase ~N(10, 1)
Y = peso neto Y=T–E

E(Y) = E(T-E) = E(T) - E(E) = 1000 – 10 = 990

V(Y) = V(T-E) = V(T) + V(E) = 120 +1 =121

Por el Teorema de Combinaciones Lineales de las variables aleatorias normales


independientes

Y ~ N(990, 121 ) = N(990, 11)

 990 - 990 Y  990 1000  990 


P(990  Y  1000)  P   
 121 121 121 
= (0.91) - (0) = 0.8186 - 0.5 = 0.3186

Ejemplo 14: Combinación lineal de vs. as. con distribución Normal.


Suponga que el peso de ciertas piezas de acero sigue una distribución N(800, 20)
en gr. Se eligen 4 piezas al azar. ¿Cuál es probabilidad de que el peso promedio sea
menor que 810 gr.?

Xi = Peso de cada pieza i = 1, 2, 3, 4.

Xi ~ N(800, 20)
4
 Xi Pesopromedio
1
X
4 i 1

Por el Teorema de Combinaciones Lineales

27
 
X ~ N 800 , 20 
 4

 X  800 810  800  ~


P( X  810)  P    P(Z  1)  (1)0.8413.
 20 / 4 10 

Suma de Variables aleatorias independientes:


Teorema Central del Límite
Sean X1, …, Xn vs. as. iid. como X tal que EX =  y V(X) = 2. Luego  = EXi y
2 = V(Xi), i = 1, 2, …, n y supongamos que 0 < 2 < . Entonces cuando n tiende a
n
infinito se tiene que X
i 1
i  N(n , n )

Formas equivalentes al Teorema Central del Límite:


n 
  Xi  n 
 Para todo x  R lim P  i 1  x   ( x )
n   n 
 
 
donde  es la función de distribución acumulada de la distribución Normal estándar.

 X i  n  N(0 , 1) cuando n tiene a infinito



n

X
 Xi   
X  N ,  pero, si estandarizamos
 Dado que entonces
n  n 
X 
 N(0,1) cuando n tiene a infinito
/ n

Ejemplo 15: Teorema Central del Límite.


Un nuevo ascensor está diseñado para cargar como máximo un peso total de
hasta 1900 kg. Superado este valor el ascensor no funciona. El peso de las personas
alojadas en un hotel es una variable aleatoria con media 68 kg y desviación estándar de
25 kg. Suponga que 25 huéspedes toman un ascensor de este tipo y que los pesos de los
28
mismos son variables aleatorias independientes. ¿Cuál es la probabilidad de que el
ascensor no funcione?

Xi = Peso del i-ésimo huésped, i = 1, …, 25


E(Xi)=68 X i  25
Xi v. a. independientes.

X = Peso total
25
X  Xi ~ N (1700, 125) Por Teorema Central del Límite
i 1
 X  1700 1900  1700 
P(X  1900 )  1  P(X  1900 )  1  P  
 125 125 
 1   (1.6)  1  0.9452  0.055

Comparación entre TCL y Teorema de las Combinaciones Lineales:


T.C.L. Teorema de las Combinaciones
Lineales
m.a. Medias y varianzas pueden ser
diferentes
X1,X2,…,Xn cualquier distribución X1,X2,…,Xn Normales
Hipótesis

n n2

X i ó X n

a X i i
i 1
Tesis

Normal Aproximada Normal Exacta

Independencia
SIMILITUDES

Llevan a la normal
 Xi
X

29
Corolario 1: Aproximación de la distribución Binomial por una distribución Normal
Sea X  b(n, p) entonces

para n X  N(np, np(1  p) ), por el Teorema Central del Límite.

X  np
Estandarizando Z  N(0, 1)
np(1  p)
n
Justificación: X ~ b(n, p), sea Yi ~ B(p) con i = 01,2, ..., n , luego X =  Yi
i 1

Nota:
1) En la práctica si np (1 – p ) > 5 la aproximación es aceptable.

Corrección por Continuidad:


Siempre que se realiza esta aproximación (de discreta a continua) se debe corregir por
continuidad. Por ejemplo:
– P(a  X  b)  P(a – 0.5  X  b + 0.5)
– P(a  X < b)  P(a – 0.5  X < b – 0.5)
– P(a < X  b)  P(a + 0.5 < X  b + 0.5)
– P(a < X < b)  P(a + 0.5 < X < b – 0.5)

Ejemplo 16: Aproximación de la distribución Binomial a la distribución Normal.


El 20% de los chips de memoria fabricados en cierta planta son defectuosos. Se
eligen 100 chips al azar.
a) ¿Cuál es la probabilidad de que a lo sumo 15 sean defectuosos?
b) ¿Cuál es la probabilidad de que exactamente 15 sean defectuosos?

X ~ b(100, 0.2) como np (1-p) = 16 > 5


X  N(20, 4) (por Teorema Central del Límite)

30
a) P( X  15 ) = P ( X  15.5)

 X  20 15 .5  20 
 P     1.13 1 1.13  1  0.8708  0.1292
 4 4 

b) P ( X = 15 ) = P (14.5  X  15.5)
 14 .5  20 X  20 15 .5  20 
 P      1.13    1.38 
 4 4 4 
 1  1.13   1  1.38   1.38   1.13   0.9162  0.8708  0.0454

Corolario 2: Aproximación de la distribución Poisson por una distribución Normal


Sea X  P() entonces, para  suficientemente grande

X  N(,  ), por el T. C. L.
X
Estandarizando Z  N(0, 1)


Justificación: X ~ P(λ), sea Yi ~ P(1) con i = 1, 2, ...,  (  ℕ grande) , luego X=  Yi .
i 1

Nota:
1) En la práctica si  > 5 la aproximación es aceptable.
2) También estamos aproximando una v. a. discreta por una continua, por lo tanto debe
aplicarse corrección por continuidad.

Ejemplo 17: Aproximación de la Distribución Poisson a la Distribución Normal.


El número de rayos Gamma emitidos, por segundos, por cierta sustancia radiactiva
es una variable aleatoria con distribución de Poisson con  = 5.8. Si un instrumento queda
fuera de registro cuando se emiten 12 o más rayos por segundo, ¿cuál es la probabilidad
de que este instrumento quede fuera de operación, en cualquier segundo dado?

X  P(5.8)
 > 5  X  N(5.8, 5.8 ) por Teorema Central del Límite

P(X  12) = 1 - P (X < 12) = 1- P(X < 11.5)


 X  5.8 11 .5  5.8 
 1  P    1  2.37   1  0.9911  0.0009
 5 .8 5.8 

31
Resumen de las Aproximaciones
b(n, p) P()

np(1-p) > 5 >5


 = np 

 = np(1  p)  

N (, )

32
UNIDAD 6: Introducción a la Inferencia Estadística

Inferencia Estadística:

Población:
Es una variable aleatoria con una cierta distribución de probabilidad con sus
correspondientes parámetros.

Ejemplo: Se desea estudiar la población de todos los pesos de los recién nacidos en
Tucumán durante el mes de Setiembre de 2019.

En muchos casos es imposible acceder a todos los valores de una población, por las
siguientes razones:
i) Costo económico
ii) Costo en tiempo
iii) Muestreo destructivo

Por esta razón se debe tomar una muestra:


Definición: Muestra aleatoria (m.a.):
Sea X una v. a. una m.a. de X es un conjunto de vs. as. X1, X2,...,Xn. independientes e
idénticamente distribuidas, iid, como X

IMPORTANTE:
Dada una m.a, esto es: X1, X2,...,Xn. iid con media  y varianza 2, se tiene que:

1 n  1  n  1 n 1 n 1
E( X )  E  X i   E  X i    E(X i )     n  
 n i 1  n  i 1  n i 1 n i 1 n
1 n  1 n  1 n 1 n 2 1 2
V( X )  V  X i   2 V  X i   2  V( X i )  2    2 n 
2

 n i1  n  i1  n i 1 n i1 n n

E  X i    E( X i )     n
n n n

 i1  i1 i 1

V  X i    V( X i )    2  n 2 aleatoria X1, X2,...,Xn de X, para obtener información


n n n

 i1  i1 i 1
acerca de esta población..
Observar que X1, X2,...,Xn iid como X.

42
Ejemplo 1:
Suponga que se quiere hacer un estudio sobre la edad de los ingresantes a
una cierta facultad en el año 1997. La siguiente tabla muestra la composición de
las edades de los ingresantes:

Edad 17 18 19 20 21 22
% 12 30 30 15 10 3

La población es el conjunto de todas las edades o sea {17, 18, 19, 20, 21, 22} con
sus respectivas probabilidades 0.12, 0.30, 0.30, 0.15, 0.10, 0.03.
Se tiene:
X = edad de los ingresantes

X PX(X)
17 0.12
18 0.30
19 0.30
20 0.15
21 0.10
22 0.03

Si se desea tomar una muestra de n estudiantes con reposición se tiene:


X1= edad del primer estudiante
X2= edad del segundo estudiante
.
.
.
Xn= edad de n-ésimo estudiante

P(X1=17)=0.12, P(X1=18)=0.30, ... ,P(X1=22)=0.03


P(X2=17)=0.12, P(X2=18)=0.30, ... ,P(X2=22)=0.03
.
.
.
P(Xn=17)=0.12, P(Xn=18)=0.30, ... ,P(Xn=22)=0.03

Entonces X1, X2, ... ,Xn son réplicas independientes de un experimento


aleatorio y al llevarlo a cabo producen la muestra aleatoria X 1, X2, ... ,Xn
(son variables aleatorias iid como X).

Dada una v. a. de interés, digamos X, y dada una muestra observada de la misma:


 Se desea conocer de qué distribución proviene la muestra
 Cuales son sus parámetros

43
que es lo que estudiaremos en esta Unidad.
Si disponemos de la posibilidad de tomar muestras, utilizamos esa muestra, Sino podemos
hacerlo existe una herramienta estadística para generar una muestra llamada simulación.

El método de Montecarlo

Simulación de m.a.
El método de Montecarlo es un procedimiento para simular una muestra de cualquier
distribución de probabilidad. y se basa en el siguiente teorema:

Teorema de la transformación integral


Sea X v. a. continua X con función de distribución acumulada FX , x[a, b] fX(x)>0.
Si definimos a la variable aleatoria U como: U = FX(X) entonces
U tiene distribución Uniforme en [0, 1].

U = FX(X) se llama la Transformada Integral de X.


Demostración: Ejercicio

Aplicación
U = FX(X) ⇒ X= FX-1 (U).

Objetivo: Generar una m.a. de una población

Procedimiento: (caso continuo)

1) Tomar n números aleatorios u1, …, un con distribución Uniforme en [0, 1]


de la tabla, con tantos dígitos como precisión se desee.
2) Obtener los números aleatorios mediante la fórmula xi = FX-1(ui), donde FX es la función
de distribución acumulada de la v. a. en cuestión, X.

Ejemplo 2:

La duración de ciertos artefactos electrónicos es una variable aleatoria Exponencial


con media 2 años. Se desea simular la duración de 3 artefactos de este tipo.

 1
1 1  e  2 x x0
X ~ E  FX ( x )  
2 
 0 en otro caso

Se eligen 3 números al azar:


u1 = 0.8133 u2 = 0.0423 u3 =0.8811

44
1 1
 x  x
u  FX (x)  u  1 e 2  e 2  1 u

1
  x  ln (1  u )  x  2 ln (1  u)
2

Luego las duraciones de los tres artefactos son:

x1 = 3.357 x2 = 0.0864 x3 = 4.259

Ejemplo 3:

La resistencia a la compresión de ciertas vigas de cemento es una


variable aleatoria con distribución N(300, 20). Se desea simular el comportamiento
de 3 de estas vigas.

Se eligen 3 números al azar:


u1 = 0.2793 u2 = 0.4701 u3 =0.9466

Entonces
 x  xi  
 i   ui   1 (u i ) 
   

Luego:
x1   x2   x3  
 0.59  0.08  1.61
  

Entonces, el comportamiento de las 3 vigas es:

x1 =  (–0.59) +  = 288.2
x2 = 298.4
x3 = 332.2

Procedimiento: (caso discreto)

1) Tomar n números aleatorios u1, …, un con distribución Uniforme en [0, 1] de la


tabla, con tantos dígitos como precisión se desee
2) Considerar a ui como un valor de la distribución acumulada F X (tabulada) y tomar
el menor xi que verifique: FX(xi) > ui.

45
Ejemplo 4:

El número de llamadas que llegan por minuto a una central es una variable
aleatoria con distribución P(1). Se desea generar el comportamiento de la central
en tres períodos de 1 minuto.

Función de distribución acumulada

x FX(x)
x<0 0
0  x <1 0.3679
1x<2 0.7358
2x<3 0.9197
3x<4 0.9810
: :
. .
Los números al azar son:
u1 = 0.0032 u2 = 0.9367 u3 =0.5369

El primer xi es 0 pues FX(0) > 0.0032


El segundo xi es 3 pues FX(3) > 0.9367
El tercer xi es 1 pues FX(1) > 0.5369

Identificación del Modelo

Chequeo de la distribución

Supongamos que se observa una m. a. simple X1, X2, …, Xn de una v. a. X que tiene
una cierta distribución de probabilidad. Existen muchos casos en los que dicha distribución
es desconocida, por ello, en base al razonamiento o a la experiencia suponemos una cierta

46
distribución para los datos, y luego debemos verificar si los datos realmente responden a la
distribución postulada (identificación del modelo).

Teorema para verificar distribuciones


Sea X una v. a. continua con función de distribución acumulada F X, sea X1, …, Xn una
muestra aleatoria de X y sea X(1), X(2), …, X(n) la muestra ordenada, entonces:

E FX (X ( j) )   j
n 1
Aplicación: Sea x(1), x(2), …, x(n) una muestra observada y ordenada, suficientemente
grande, luego


E FX (X ( j) )   j
n 1
 FX x ( j)   
j
n 1

Interpretación: Los valores observados, se espera, que dividan el área debajo de la curva
en n+1 partes iguales, cada una de área 1/ (n+1)

Caso particular 1: (chequeo de la distribución Exponencial)


Si los datos provienen de una distribución E (), entonces, se debe cumplir que, para un n
grande:

FX x ( j)  
j j
 x ( j ) 1  j 
 1 e 
 x ( j)   ln 1  
n 1 n 1   n 1
Es decir que la relación entre los valores observados ordenados y los números
 j 
 ln 1   debe ser aproximadamente lineal, si esto no ocurre se concluye que los datos
 n 1
no provienen de una distribución Exponencial.

Nota: No debe esperarse una relación lineal exacta

Ejemplo 5:

Se desea verificar a partir de los datos:


0.53 0.03 1.12 0.53 0.23 0.16 1.39 3.71 1.61
que el tiempo en horas que se demora en reparar una bomba, sigue una
distribución Exponencial.

j  x j
FX ( x ( j) )   1  e ( j) 
n 1 n 1
 j  1  j 
  λ x (j)  ln 1    x (j)   ln 1  
 n  1 λ  n  1

47
j x(j) j/(n+1) - ln (1- j/(n+1))
1 0.03 0.1 0.11
2 0.16 0.2 0.22
3 0.23 0.3 0.36
4 0.53 0.4 0.51
5 0.53 0.5 0.69
6 1.12 0.6 0.92
7 1.39 0.7 1.20
8 1.61 0.8 1.61
9 3.71 0.9 2.30

Gráfico 1: Chequeo de distribución Exponencial

x (j) 4

0
0 0,5 1 1,5 2 2,5
- ln (1 - j/(n+1))

Conclusión:
 j 
Como x(j) vs  ln 1   ajusta a una recta, se concluye que los datos provienen
 n  1
de una distribución Exponencial.

(RECORDAR que hay que ordenar los datos, que la ordenada al origen es cero y que la
1
pendiente es )

Caso particular 2: (chequeo de la distribución Normal)


Si los datos provienen de una distribución N(, ), entonces, aplicando el teorema anterior,
para n grande:

48
 x ( j)    j  j 
 
  x ( j)    1  
   n 1  n  1

1  j 
Es decir que la relación entre los valores observados ordenados y los números   
 n  1
debe ser aproximadamente lineal, si esto no ocurre se concluye que los datos no provienen
de una distribución Normal.

Ejemplo 6:

Los siguientes datos son las calificaciones obtenidas en una evaluación de niños de
escuela primaria:
7.2 6.2 7.7 8.8 8.7 9.2 5.3
Se quiere verificar que los datos siguen efectivamente una distribución Normal.

 x (i)  μ  i x (i)  μ 1  i  1  i 
 
 n 1       x (i)  σ   μ
 σ  σ  n  1   n  1 

i x(i) i/(n+1) -1(i/(n+1))


1 5.3 0.125 -1.15
2 6.2 0.250 -0.67
3 7.2 0.375 -0.32
4 7.7 0.500 0
5 8.7 0.625 0.32
6 8.8 0.750 0.67
7 9.2 0.875 1.15

Gráfico 2: Chequeo de distribución Normal

49
12
x(i)
9

0
-1,5 -1 -0,5 0 0,5 1 1,5

-1 (i/(n+1))

Conclusión:
 i 
Como x(i) vs  1   ajusta a una recta, se concluye que los datos provienen de
 n  1
una distribución Normal.

(remarcar que hay que ordenar, que la ordenada al origen es  y la pendiente es  )

Caso discreto: se puede aplicar con cualquier distribución discreta


(hacemos el Chequeo de una distribución de Poisson)
Supongamos que los datos provienen de una distribución P().
Se sabe que la frecuencia relativa de un cierto valor se aproxima a la probabilidad de
ocurrencia de este, es decir
 
x
f obs (x)
 P( X  x )  e por tratarse de una variable Poisson,
n x!
luego aplicando logaritmo natural, para n grande
ln f obs (x)  ln(n)    x ln   ln( x!)
ln f obs (x)  ln( x!)  x ln   ln(n)  

Entonces si graficamos x vs ln f obs (x)  ln( x!) debemos obtener aproximadamente una
recta. Si esto no ocurre se concluye que los datos no tienen distribución Poisson.

Ejemplo 7:

La cantidad de errores de tipeo que comete una secretaria por página son:
2 2 0 4 2 3 4 3 1 0.
Verificar que estos datos siguen efectivamente una distribución de Poisson.

50
f obs (x) λx
 P(X  x)  e  λ
n x!

ln f obs (x)  ln n  λ  x ln λ  ln x!

ln f obs (x)  ln x!  x ln λ  ( ln n  λ)

x
1
ln f obs (x)  ln x!   1 ln n  λ 
ln λ ln λ

x fobs(x) ln fobs(x) + ln x!
0 2 0.69
1 1 0
2 3 1.79
3 2 2.48
4 2 3.87
10

Gráfico 3: Chequeo de distribución de Poisson

4,5
x(i)

1,5

0
0 1 2 3 4 5
ln fobs(x) + ln x!

Conclusión:
Como x(i) vs ln fobs(x) + ln x! ajusta a una recta, se concluye que los datos
provienen de una distribución Poisson.
1
(Observar que la pendiente es ).
ln 

51
UNIDAD 7: Estimación

Estimación Puntual

Supongamos que X1, X2, …, Xn es una m. a. de X con distribución conocida (Normal,


Exponencial, Binomial, etc.), pero de parámetros desconocidos.
Entonces necesitamos estimar los valores de estos parámetros utilizando los valores
muestrales

Por ejemplo:
Si nos interesa conocer el valor esperado de X, parece razonable pensar que un
1 n
“estimador” de X será X =  X i . Es decir que, al no conocer el verdadero valor de
n i =1
X lo mejor que tenemos es X .

Observación:
▪ X = EX es un número fijo, pero desconocido (parámetro poblacional)
▪ X es una v. a. (cuando la muestra esté tomada, tomará un valor particular para esa
muestra, x )
▪ No siempre es fácil encontrar el estimador adecuado para un determinado parámetro,
para ello existen Métodos de Estimación.

Método de los Momentos:

Definición:
▪ El momento de orden i, de X, con respecto del origen es m i = E(Xi)
n

X
j=1
i
j

▪ El momento muestral de orden i con respecto del origen es m̂i =


n
El Método de los Momentos consiste en estimar los momentos poblacionales con los
momentos muestrales.

X v.a. → X1, X2, …, Xn es una m. a.


EX → X
1
EX2 → ∑ni=1 Xi 2 (saco promedio de los cuadrados)
n
y así

Supongamos X1, X2, …, Xn es una m. a. de X con XFX(x, 1, 2, …, k ) donde i son
los parámetros de la distribución de probabilidad.

52
Escribimos los parámetros de la distribución como funciones de los momentos
poblacionales:
θ1 = g1 (m1 , m2 , . . . , mk )
θ = g 2 (m1 , m2 , . . . , mk )
{ 2
⋮ ⋮
θk = g k (m1 , m2 , . . . , mk )

la estimación de los parámetros resulta:

θ̂1 = g1 (m ̂ 1, m
̂ 2, . . . , m
̂ k)
̂θ2 = g 2 (m̂ 1, m
̂ 2, . . . , m
̂ k)
⋮ ⋮
{θ̂ k = g k (m
̂ 1, m
̂ 2, . . . , m
̂ k)

Procedimiento:
• Identifique los parámetros a estimar.
• Considere tantas ecuaciones como parámetros a estimar.
• Escriba los parámetros en términos de esperanzas.
• Estime las esperanzas y reemplace.

Ejemplo 1: Método de los Momentos.

La cantidad de errores de tipeo que comete una secretaria por página, variable
que siguen una distribución de Poisson, son: 2 2 0 4 2 3 4 3 1 0.
Encuentre el estimador del parámetro de la distribución.
Observamos que 𝑋1 , … , 𝑋𝑛 vs.as. iid como X, con X  P(λ).

El parámetro  en término de los momentos se escribe:


 = E(X)
El momento muestral de orden 1 es:
̂ 1 = 𝑋̄
𝑚

Por el Método de los Momentos:

̂(X) = X
E entonces ˆ = X = 2.1

53
Ejemplo 2: Estimación por el Método de los Momentos.

Los siguientes datos provienen de una distribución Exponencial:


0.53 0.03 1.12 0.53 0.23 0.16 1.39 3.71 1.61
Encuentre un estimador del parámetro .

Observamos que X1 ,, X n vs.as. iid como X, con X  E(λ).

El parámetro  en término de los momentos se escribe:


1
𝜆 = 𝐸𝑋

El momento muestral de orden 1 es:


m ̅
̂1 = X
Por el Método de los Momentos:
1 1
̂X = ̅
E X⇒ X ⇒ λ̂ = = 0.97

λ̂ ̅
X

Ejemplo 3:

Los siguientes datos provienen de una muestra aleatoria de la v.a. X con


media  y desviación estándar : 9.3 8.3 9.8 10.9 10.8 11.3 7.4. Estime
por el método de los Momentos  y .

Los parámetros en términos de los momentos se escriben:

μ= EX(1)
{
σ2 = EX − (EX)2 (2)
2

Los momentos muestrales son:

m ̅
̂1 = X
{ 1
̂ 2 = ∑ X2i
m
n

54
Por el Método de los Momentos:

De (1)  ˆ = X

X  (X
1 1
De (2)  ˆ 2 = 2
i − X2 = i − X) 2
n n
Luego ˆ = 9.69 y ˆ 2 = 1.80  ˆ = 1.34

Ejemplo 4:
Sea X  U (-, +). Encontrar ̂ y ̂ por el método de los momentos:
1
α−β< x<α+β
Recuerden que fX (x) = { 2β
0 en otro caso

EX=
EX2=2 + 2/3 (Hacerlo como ejercicio)
Entonces reemplazo por los momentos muestrales:
ˆ = x
n n
2 1 ̂2 1 1 ̂2 1
α + β
̂ = ∑ xi 2 entonces x̄ 2 + β = ∑ xi 2 ⇒
3 n 3 n
i=1 i=1

2 ∑ni=1 xi 2
̂
β = 3( − x̄ 2 )
n

n 2
̂ = √3 (∑i=1 xi − x̄ 2 )
entonces β ∴ ̂ = √3σ
β ̂
n

̅
Distribución de 𝐗

Sea X una v. a. con EX =  y V(X) = 2


Sea X1, …, Xn una muestra aleatoria de X.
Por el Método de los Momentos obtenemos como estimador de  a μ̂ = X
̅

55
Se sabe que:
2
▪ E( X ) =  y V( X ) =
n
▪ Si X1, …, Xn iid con distribución Normal  ̅ XNormal, por T. de Combinaciones
Lineales
▪ Si X1, …, Xn iid con otra distribución y n suficientemente grande  X
̅  Aprox
Normal, por T. Central del Límite

X como estimador de .
Estas son buenas propiedades de ̅

Ejemplo 1 (continuación):
Para los datos del ejemplo 1 de esta sección, encuentre el desvío estándar del
estimador propuesto y estime dicho desvío.

σ λ 2 ̂ ̂
V(λ̂ ) = V(X̄) = n = n ̂(λ̂ ) = λ ⇒ σ
⇒V
λ
̂ λ̂ = √ = 0.46
n n

Ejemplo 2 (continuación):
Para los datos del ejemplo 2 de esta sección, encuentre el desvío estándar del
estimador propuesto.

ˆ ) = V 1 
V ( f (x) =
1
f ' (x) = −
1
X x x2

1 1 1 1 1 1
≅ 1 + (− X̄2 ) |1⁄λ (X̄ − λ) = λ + (−λ2 ) (X̄ − λ) ya que E(X̄) = EX = λ
X̄ ⁄λ

σ2 4 1 λ2 λ
V(λ̂ ) ≅ (−λ2 )2 V(X̄) = λ4 =λ 2 = ⇒ σλ̂ ≅
n λ n n √n
2
λ̂ λ̂
̂(λ̂ ) ≅
V ⇒σ
̂ λ̂ ≅
n √n

56
̂𝟐
Distribución muestral de 𝝈

Por el Método de los Momentos obtenemos como estimador de 2 a:


n
1 1
σ̂ 2 = ∑(Xi − X̄)2 = ∑ X2i − X̄ 2
n n
i=1

1
Se puede probar que E(σ̂ 2 ) = (1 − n) σ2 entonces, si definimos el estimador s2 como:
nˆ 2 1 n
2
s = = 
n − 1 n − 1 i =1
(X i − X ) 2 se tiene que: E(s 2 ) =  2

Finalmente observemos que un estimador para la desviación estándar  será:

1 n
s= s = 2

n − 1 i=1
(X i − X) 2 .

Aunque no conserva la propiedad anterior, es decir E (s)  

Estimación por Intervalos


Dado que no se puede esperar que una estimación puntual coincida exactamente con
el verdadero valor del parámetro a estimar, en muchos casos es conveniente dar un par
de valores entre los cuales se encuentra el parámetro con un cierto grado de certeza.

Definición:
Sea X1, X2, …, Xn una m. a. de X donde X tiene una función de distribución
acumulada FX(x, ), y sea  el parámetro que deseo estimar.
Un intervalo del (1–)100 % de confianza para  es un par de vs. as. ˆ 1 y ˆ 2 ,
funciones de la muestra tales que:

(ˆ 
P1
ˆ =1− 
2 )

x1,…,xn

x1,…,xn

57
Interpretación:
Que un intervalo tenga, por ejemplo, un 95 % de confianza, significa que: Si
tomáramos 100 muestras y construyéramos sus respectivos intervalos de confianza,
aproximadamente 95 de ellos contendrían el verdadero valor del parámetro.

Intervalo de (1–)100 % de confianza para  con  conocida

Sea X1, X2, …, Xn i i d como X  N (, )  conocido

X −
Estadístico pivote  N (0, 1)

n
Observaciones
 
 X −  1) en el 2o paso al multiplicar por –1 la
P − z1−    z1−   = 1 −  expresión queda igual
 2  2

 n  2) el intervalo se construye para , y no
para X
3) no reemplazar los valores en la
   
P − z 1−   X −   z 1−   =1− 

probabilidad (reemplazarlos en el
 n 2 n 2
 intervalo)

   
P − z 1−    − X  z 1−   =1− 

 n 2 n 2

   
P X − z 1−     X + z 1−   =1− 

 n 2 n 2


Entonces el intervalo del 100(1–) % de confianza para  será: X  z1− 2
n

Ejemplo 5: Intervalo de confianza para  con  conocido.

Una máquina de refrescos está ajustada, de manera que la cantidad de líquido


envasada, en litros, es una variable aleatoria con distribución aprox. N (, 0.15)
Una muestra de 36 envases tiene un contenido promedio de 2.25 l. Se quiere
estimar  con un intervalo del 95% de confianza.

Sean X1, …, x36 iid  N(, ),  conocido.

X−
~ N(0, 1) por Teorema de Combinaciones Lineales.
 n

58
X−μ
P(−z1−α⁄2 < < z1−α⁄2 ) = 1 − α
σ⁄√n

X−μ
P(−z1−0.025 < < z1−0.025 ) = 0.95
σ⁄√n

σ σ
P(− z0.975   < X̄ − μ <    z0.975) = 0.95
√n √n

σ σ
P(X̄ − z0.975    <  μ  <    X̄   +  z0.975) = 0.95
√n √n

0.15
 2.25  ±    1.96
6

 (2.201, 2.299) es un intervalo del 95% de confianza para .

Nota: Si el tamaño de la muestra es suficientemente grande, no hace falta suponer que la


población sea una variable aleatoria con distribución Normal, el intervalo resultante será
de la misma forma del obtenido, pero será aproximado ya que X̄ ≈ N (μ, σ⁄ ).
√n

Intervalo de (1–)100 % de confianza para  con  desconocida

Sea X1, X2, …, Xn i.i.d. como X  N (, )  desconocido.


X̄−μ
No podemos usar σ  N (0, 1) porque no conocemos .
⁄ n

1
Se puede tomar un estimador para , s = √n−1 ∑(Xi − X̄)2 entonces:
X̄−μ
s  t (n – 1) llamada distribución T de Student con n–1 grados de libertad.
⁄ n

• La distribución t es simétrica alrededor de cero y tiene forma similar a la de la


distribución Normal.
• Tiene mayor varianza que la N (0, 1).
• A medida que n crece la distribución t se aproxima a la N (0, 1).
• Para n > 120 son prácticamente iguales (Mostrar tabla distribución T)

59
Para el intervalo de confianza:
X̄ − μ
P (−t1−α(n−1) < s < t1−α(n−1) ) = 1 − α
2 ⁄ n 2


s
Entonces el intervalo del 100(1–) % de confianza para  será: X̄ ± t α
√n 1−2(n−1)

Ejemplo 6: Intervalo de confianza para  con  desconocido.

Una máquina produce piezas metálicas de forma cilíndrica. Los diámetros de


dichas piezas se distribuyen con una distribución N (, ).
Se toma una muestra de piezas cuyos diámetros, en centímetros, son:

1.01 0.97 1.03 1.04 0.99 0.98 0.99 1.01 1.00

Sean X1, …, xn iid  N (, ),  desconocido.

X = 1.002 s = 0.023 n=9

Se busca un intervalo del 95% para .


X̄ − μ
~t (n−1)
s⁄√n

X̄ − μ
P(−t1−α(n−1) < s   <   t1−α(n−1)  ) = 1 − α
2 ⁄ n 2

s s
P(−t1−α(n−1) < X̄ − μ  <   t1−α(n−1)  ) = 1 − α
2 √n 2 √n

s s
P(X̄ − t1−α(n−1) < μ  <   X̄ + t1−α(n−1)  ) = 1 − α
2 √n 2 √n

s 0.023
 X̄ ± t1−α(n−1) = 1.002  ± 2.31 
2 √n √9

 (0.98, 1.02) es un intervalo de 95% de confianza para .

60
Intervalo para la diferencia de dos medias de poblaciones Normales con igual
varianza y  desconocido

Sean

X1, X2, …, Xn m. a. de X  N (X, )


Independientes,  común
Y1, Y2, …, Ym m. a. de Y  N (Y, )

(Solo tengo s12 y s22 y por lo general s12 s22 por que las muestras son diferentes, pero se
supone que, por información adicional que los  son iguales.)
Se debe buscar un estimador para , para aprovechar toda la información se usa un
estimador combinado (pool) de 2 de la siguiente forma:

(n − 1)sX2 + (m − 1)sY2
sp2 =
n+m−2

X̄−Ȳ−(μX −μY )
Entonces:
1 1
 t (n + m – 2)
sp √ +
n m

Entonces:

X̄ − Ȳ − (μX − μY )
P −t1−α(n+m−2) < < t1−α(n+m−2) =1−α
2 1 1 2
( sp √n + m )

Trabajando como antes se llega a:

1 1
X̄ − Ȳ ± t1−α(n+m−2) sp √n + m intervalo del (1–)100 % de confianza para
2
X – Y

61
Ejemplo 7: Intervalo de confianza para la diferencia de medias con σ
desconocido.
Suponga que el número de piezas fabricadas, por día, por las máquinas A y B
siguen una distribución N(A,) y N(B,) respectivamente. El valor de σ es
desconocido.
El número diario de piezas fabricadas por la máquina A en 5 días ha sido:
50 48 53 60 37
y por la máquina B en los mismos 5 días ha sido:
40 51 62 55 64

X A = 49 .6 S A = 8.38 X B = 54 .4 S B = 9.61

4 x 8.38 2 + 4 x 9.612
s 2p = = 81 .29  sp = 9.02
5+5−2

X A − X B − ( A −  B )
P(− t1− 2   t1− 2 ) = 1 − 
1 1
sp +
n m

Algebraicamente llegamos a:

1 1
XA − XB  sp + t 
5 5 1− 2 (8)

 49.6 – 54.4  9.02 (2/5)1/2 2.31  (–17.98, 8.38)

ii) Como 0 pertenece al intervalo, tienen la misma media.

Observación: En un intervalo:
1) Si se requiere mayor confiabilidad, se pierde precisión (intervalo más
grande)
2) Si se requiere mayor precisión, se pierde confiabilidad
3) Para tener mayor precisión sin perder confiabilidad se necesita mayor
información, por ejemplo, aumentando el tamaño muestral.

62
Intervalo de confianza para la proporción p en muestras grandes

Sean X1, …, Xn m. a. de X  B(p), n suficientemente grande


1
∑n
i=1 Xi −p por Teo. Central del Límite
Estadístico pivote n ≈ N(0,1)
p(1−p)

n

X̄ − p
P −z1−α < =1−α < z1−α
p(1 − p) 2 2
√ ⁄n
( )
Trabajando como antes se llega a que el intervalo para p sería:

p(1 − p)
X̄ ± z1−α √
2 n
Pero depende de p, que es desconocido. Entonces reemplazamos p por su estimador por
el Método de los Momentos p̂ = X̄, es decir:

̄
X(1−X) ̄
X̄ ± z1−α √ n es un intervalo aproximado del 100(1–) % para p.
2

Ejemplo 8: Intervalo de confianza para la proporción.


Se han observado 4 elementos defectuosos entre 200 examinados en un
proceso de fabricación.
Construir un intervalo de 90% de confianza para la proporción de defectuosos.

Sean X1, …, X200 iid  B(p) p parámetro desconocido.

 Xi − p
n  N(0, 1) donde q = 1 - p
pq
n
 Xi − p
P(− z  n z ) =1- 
 
1− pq 1−
2 2
n
 Xi
−p
P(− z  n z ) = 0.90
 
1− pq 1−
2 2
n
63
P (−z 
pq

 Xi − p  z 
pq
) = 0.90
1− n n 1− n
2 2

P(
 Xi − z 
pq
p
 Xi + z 
pq
) = 0.90
n 1− n n 1− n
2 2

4 4 196 1
  1.65  0.02  0.01  (0.01, 0.03)
200 200 200 200

64
UNIDAD 8: Test de Hipótesis

Introducción:
Existe otra forma de hacer inferencia además de la estimación, se llama test de
hipótesis. A menudo el científico o el ingeniero se enfrentan al problema no tanto de estimar,
sino a la necesidad de tomar decisiones en base a los datos observados. La herramienta
estadística que resuelve este problema se denomina Test de Hipótesis.
Ejemplo 1:
a) Decidir si tomar café aumenta el riesgo de cáncer entre los hombres.
b) Decidir si hay diferencia de precisión entre dos tipos de medidores, etc.

La decisión a tomar se la debe expresar en términos de los parámetros de la población


bajo estudio, por ejemplo: la proporción de hombres que consumen café que padecen cáncer o
el peso medio de los alumnos de primaria en zona rural o en zona urbana, etc. Se define
entonces una Hipótesis Estadística.
Definición:
Hipótesis Estadística: es una aseveración o suposición acerca de uno ó más parámetros de
una o más poblaciones.
Ejemplo 2:
a) La proporción de artículos defectuosos es 0.10, es decir p = 0.10.
b) Las notas de los parciales de las mujeres son más altas que la de los varones, es
decir M > V.
Tipos de Hipótesis:
En todo test hay:
1. Hipótesis Nula: Es la hipótesis que mantendremos como válida hasta que los datos
indiquen su falsedad y se denota con H0. (A la hipótesis nula se la rechaza o no
hay evidencia suficiente para rechazarla de acuerdo a los datos, nunca puede ser
probada)
2. Hipótesis alternativa: es la hipótesis que se toma como cierta si H0 se rechaza. Se
denota con H1.
El procedimiento de test de hipótesis es semejante al de un juicio donde el acusado es
inocente hasta que las evidencias demuestran lo contrario, es decir:
H0: El acusado es inocente.

1
Se presentan pruebas y, si son suficientes, se lo declara culpable, de lo contrario se declara
inocente, aunque no se pruebe que lo es.
Pueden ser:
1. Referidas a 1 población: Se refieren al valor de 1 parámetro en 1 población
2. Referidas a 2 poblaciones: Comparan cierto parámetro en 2 poblaciones.
De acuerdo a cómo se definan pueden ser:
1. Simples: quedan definidas con una igualdad
2. Compuestas: quedan definidas con un intervalo o unión de intervalos.

Ejemplo 3: Tipos de hipótesis


Referidas a una población
H0:  = 0 Simple
H1:   0 ó  > 0 ó  < 0. Compuestas

Referidas a 2 poblaciones
H0:  1= 2 Simple
H1:  1 2 ó  1> 2 ó  1< 2. Compuestas

Nota: en este curso se toma


La hipótesis nula se toma siempre como una hipótesis simple (expresada con una igualdad),
mientras que la alternativa puede ser simple o compuesta. Ambas pueden referirse a una o dos
poblaciones.

Definición de Test:
Un test o prueba de hipótesis es una regla que especifica
a) Para qué valores de cierto estadístico calculado a partir de la muestra se decide
aceptar H0 como cierta, y
b) Para qué valores del estadístico, calculado a partir de la muestra se decide
rechazar H0 y aceptar H1 como cierta.
El subconjunto del espacio muestral para el cual H0 es rechazada se denomina región de
rechazo ó región crítica. El complemento de la región de rechazo se denomina región de
aceptación. La región de rechazo depende del nivel del nivel de significancia del test:  y
cambia de acuerdo a la hipótesis alternativa. Se pueden presentar los siguientes casos:
a) Test de 2 colas (hacer gráfico y explicar lo de valor del estadístico poco frecuente,
introducir )
b) Test de una cola (hacer gráfico y explicar lo de valor del estadístico poco frecuente)

2
Notas:
Cuánto más chico es  más significativo es el test
En general se recomienda hacer un test de 2 colas.
Metodología para un test:
La metodología comprende los siguientes pasos:
1- Definir H0 y H1.
Ejemplo:
H0:  = 0
H1:  ≠ 0 o  > 0 o  < 0
2- Definir el estadístico a utilizar y su distribución de probabilidad bajo H 0. la forma
general de este estadístico será:
estimador  parámetro bajo H 0
Estadístico =
desviación estándar del estimador
Ejemplo:
H0:  = 0
H1:  ≠ 0 o  > 0 o  < 0
x  o
 t (n 1) (aclarar: exacta o aproximada, respectivamente)
s
n

3- Dado el nivel de significación , determinar la región crítica y con los datos tomar la
decisión, (explicar haciendo gráficas correspondientes en cada caso)
 Alternativa de dos colas: H1:  ≠ 0
Dado , se tiene t crítico = t1-/2, la región de rechazo es: │t observado │> t crítico,
 Alternativa cola derecha: H1:  > 0
Dado , se tiene t crítico = t1-, la región de rechazo es: t observado > t crítico,
 Alternativa cola izquierda: H1:  < 0
Dado , se tiene t crítico = tα, la región de rechazo es: t observado < t crítico.

3’- O bien determinar valor p con los datos y tomar la decisión.


El valor p queda determinado por:
 Valor p = P(│t│> │t observado| ) si H1:  ≠ 0
 Valor p = P(t > t observado) si H1:  >  0
 Valor p = P(t < t observado) si H1:  <  0
3
En general, cuando:
Valor p < 0.01 ó 0.05 (pequeño)  se rechaza H0.
Valor p > 0.01 ó 0.05 (grande)  no hay evidencia suficiente para rechazar H0.
Nota: La tabla de la Distribución t de Student no está completa por lo tanto no siempre se
pueden calcular los valores p de los estadísticos.

Ejemplo 4: Test para la media de una población


La empresa de Energía Eléctrica afirma que una aspiradora gasta 46 Kw/h. al año. Si
una muestra aleatoria de 12 hogares indica que las aspiradoras gastan en promedio 42
Kw/h. al año con una desviación estándar dada por s = 11.9 Kw/h.
Pruebe con un nivel de significación de 0.05 que el gasto de energía eléctrica de las
aspiradoras es distinto de 46 Kw/h. por año.

H0:  = 46
H1:  ≠ 46
x  o 42  46
 t ( n 1)  t o   1.16
s 11 .9
n 12

Dado =0.05, se tiene tcrítico = t 11,1-/2 = 2.20, entonces:


│tobservado│< tcrítico. No hay evidencia para rechazar H0.

Otra forma: utilizando el valor p:


Valor p = P(│t11│> │tobservado│) = 0.2706 > 0.05. (No hay Tabla, valor sacado por PC).
No hay evidencia para rechazar H0.

Observaciones
 Cuando los datos no dan suficiente evidencia para rechazar H0, ésta no se puede rechazar.
Los datos no dan suficiente evidencia cuando el valor observado del estadístico tobservado es
un valor de alta probabilidad (valor p grande) o equivalentemente cuando el valor
observado del estadístico tobservado no cae en la región de rechazo.

 Todos los procedimientos de test son similares, sólo cambian los estadísticos a utilizar:

4
 Para la media :
X1,X2,… Xn iid como X  N(, ),  desconocido ó
X1,X2,… Xn iid como X  FX, con EX =  y Var (X) = 2 (desconocido), y n grande para
aplicar el T.C.L.
x  o
 t (n 1) (aclarar: exacta o aproximada, respectivamente)
s
n
 Para la proporción p:
X1,X2,… Xn iid como X  B(p), con n grande para aplicar el T.C.L.
p̂  x

H0: p=p0
H1:pp0
p̂  p o
 N(0,1)
p 0 (1  p 0 )
n

Ejemplo 5: Test para una proporción


El fabricante afirma que el 10% de los artículos son defectuosos. Los clientes afirman
que p > 0.1. Se toma una muestra aleatoria de 100 artículos y se obtienen 12 defectuosos.
¿Qué se puede concluir?
X1, …, X100 iid  B(p)
H0: p = 0.10
H1: p  0.10
p̂  p o
 N(0,1)
p o (1  p o )
Bajo H0, n Por TCL
0.12  0.10
 0.67
0.10  0.90
a) Zobservado = 100

Valor p = P(|Z| > |Zobservado|) = 1 – P(|Z|  |Zobservado|) = 2 - 2 (0.67) =2- 2 x 0.7486


= 0.5028
Como valor p es grande no hay suficiente evidencia para rechazar H0.

b) Dado  = 0.05  Z1– /2 = 1.96  la región crítica es |Z|>1.96.


Como |Zobservado|=0.67 < 1.96 no hay evidencia suficiente para rechazar H0.

5
Prueba de Hipótesis para 2 poblaciones:
Frecuentemente se presentan situaciones en la que es necesario comparar 2 poblaciones o 2
subpoblaciones de una población.
En general se desea comparar las medias, las varianzas de dos poblaciones o bien las
proporciones de cierto atributo. Vamos a comenzar con:

Comparación de medias de dos poblaciones:


Dentro de la comparación de medias de 2 poblaciones pueden presentarse diferentes casos:
Comparación de medias de dos poblaciones:
1) Varianzas conocidas
2) Varianzas desconocidas:
a) Varianzas iguales
b) Varianzas diferentes
En este curso vamos sólo a estudiar el caso de comparación de 2 medias de poblaciones
con varianza desconocidas e iguales.
Para realizar esta prueba se necesitan las siguientes hipótesis:
X1,X2,… Xn iid como X, X N(X, )
Y1,Y2,… Ym iid como Y, Y  N(Y, ), Independientes entre sí y  común.

Nota: Si X e Y no tienen distribución Normal se necesita n y m suficientemente grandes para


aplicar el T.C.L.

La hipótesis nula es:


H0: X = Y o X - Y = 0.

Las posibles hipótesis alternativas son:


H1: X ≠ Y, H1: X < Y, H1: X > Y,

El estadístico a utilizar es:


X  Y  ( X   Y )
t  t ( n  m  2)
1 1
sp 
n m

s 2 (n  1)  s Y 2 (m  1)
donde s p 2  X
nm2
6
Ejemplo 6: Comparación de dos medias
Se lleva a cabo un experimento para comparar el desgaste por abrasivo de dos diferentes
materiales laminados.
Se prueban 12 piezas del material X obteniéndose X= 85 y sX = 4 y 10 piezas del
material Y resultando Y= 81 y sY = 5.
a) ¿Se puede concluir que tienen el mismo desgaste abrasivo ambos materiales?
Considere =0.05
X1, …, X12 iid  N(μX, )
Y1, …, Y10 iid  N(μY, ) muestras independientes,  común y desconocido.

Hipótesis:
H0: X = Y
H1: X ≠ Y
X Y 0
t ~ t (n  m2) bajo H 0  t observdo  2.085
1 1
sp 
n m

t crítico = t0.975(20) = 2.09, como tobservado< t1-/2(20)  No hay evidencia suficiente para
rechazar H0.

b) Si se sabe que el material X no puede tener menor desgaste que el material Y. ¿Se
puede concluir que el desgaste del material X es mayor que el del material Y? Considere
=0.05.
Hipótesis:
H0: X = Y
H1: X > Y
tobservado= 2.085 > t1–(20) = 1.72  Hay evidencia suficiente para rechazar H0.

Observaciones:
En este caso se puede utilizar el test de una cola por tener información adicional.
Note que el test de una cola es más potente pues detecta la diferencia que el test de dos
colas no pudo.

Nota: Las hipótesis son análogas a las del intervalo de confianza para la diferencia de medias.
7
Observación: Para realizar este tipo de pruebas se necesitan 2 muestras independientes y no
resuelve el caso, por ejemplo, antes y después de un tratamiento. Es decir, cuando se tiene una
misma población observada en 2 momentos o situaciones diferentes. En este caso se utiliza
comparación de Medias Apareadas

Comparación de Medias Apareadas o Pareadas:


La muestra aleatoria ahora es una muestra aleatoria de diferencias d1, d2, …,dn iid como D. D
D  N( D, D), con di = X1i - X2i.
o bien n suficientemente grande para aplicar el Teorema Central del Límite, en cuyo caso el
estadístico tendrá distribución aproximada.
El estadístico a utilizar es:
d  D
 t ( n 1)
sD
n

La hipótesis nula es H0: D = o.


Las posibles hipótesis alternativas son:
H1: D ≠ o, H1: D >o, H1: D < o.
El valor p y la región de rechazo se determinan en forma análoga al caso de comparación de
una media.

Ejemplo 7: Comparación de medias apareadas


Se desea comparar la efectividad de cierta dieta para adelgazar en jóvenes. Para ello se
considera una muestra de 10 jóvenes y se los pesa antes y después de un mes de dieta.
Los pesos en kg. son (suponga distribución Normal para los datos y = 0.05 y que la
dieta no permite subir de peso):
Antes: 85, 83, 82, 81, 79, 90, 88, 85, 89, 91
Después: 80, 78, 78, 81, 75, 87, 83, 80, 85, 92
Diferencias: di: 5, 5, 4, 0, 5, 3, 5, 5, 4, -1
d = 3.5 y sd = 2.22
D1, …, D10 iid  N(μD, D)
Hipótesis:
H0: D = 0, antes = después
H1: D > 0, antes > después

8
Estadístico:
d
t ~ t ( n 1)  t (9) bajo H 0
sD
10

3 .5
t observado   4.99
2.22
10

t crítico  t 0.95(9)  1.833

Como t observado > t0.95(9)  Se rechaza H0.

Comparación de dos proporciones:


Supongamos que se desean comparar 2 proporciones de un cierto atributo de 2 poblaciones
diferentes.
Sean:
X1,X2,… Xn iid como X, X B(pX)
Y1,Y2,… Ym iid como Y, Y  B(pY) Independientes entre sí
Los tamaños n y m son tales que se puede usar el T.C.L.
La hipótesis nula es:
H0: pX = pY ( pX – pY = 0 )
y las alternativas posibles son:
H1: pX ≠ pY, H1: pX > pY, H1: pX < pY,
El estadístico a utilizar es

Z
p̂ X  p̂ Y
 N(0,1), p
 X i   Yi óp
np̂ X  mp̂ Y
1 1  nm nm
pq  
n m

Ejemplo 9: Comparación de dos proporciones


Se desea comparar la proporción de votantes a favor de la instalación de una planta
química de dos ciudades que se verían afectadas por su construcción.
Se recogen los siguientes datos:
Ciudad A: Total de encuestados 200, a favor: 120
Ciudad B: Total de encuestados 500, a favor: 240

9
¿Se podría concluir que la proporción de votantes a favor es mayor en la ciudad A que
en la B?
X1, …, X200 iid  B(pA)
Y1, …, Y500 iid  B(pB) muestras independientes.
H 0 : pA = p B
H1 : p A  p B

p̂ A  p̂ B n A p̂ A  n B p̂ B 120  240
Z  N(0,1), por TCL p̂    0.514
 1 1  nA  nB 700
p̂(1  p̂)  
 A
n n B 

 1 1   1 1 
  0.514 (1  0.514 )
1 1 
p̂(1  p̂)     0.00175  p̂(1  p̂)    0.042
 nA nB   200 500   nA nB 

0.6  0.48
z observado   2.86
0.042

Valor p = P(| Z |> | Zobservado |) = P(| Z| > 2.86 ) = 1– P(| Z| ≤ 2.86 ) = 2 – 2 (2,86)=0.004
Como valor p es pequeño, se rechaza H0.

Nota: Otra manera, utilice =0.05


Zcrítico = Z0.975 = 1.96, como |Zobservado| > |Z 1- /2 |  Se rechaza H0.

Relación entre Intervalo de Confianza y Test de Hipótesis:


La prueba de hipótesis o test de hipótesis está muy relacionada con la estimación por
intervalo de confianza.
Supongamos el caso de una media de una sola población con  desconocido, tanto el
test como el intervalo de confianza se basan en el mismo estadístico y las mismas hipótesis.
X1,X2,… Xn iid como X, X N(, )
X  0
Z t(n-1)
s
n
El test H0:  = 0 vs. H1:  ≠ 0, a un nivel  es equivalente a calcular el intervalo de
confianza (1-)100% para  con  desconocido. Si 0  IC1- hay suficiente evidencia para
rechazar H0.

10
Ejemplo 10:
Un ingeniero desea estudiar el sesgo en una medición de ph. Se reúnen datos de una
sustancia neutra, ph = 7, se toma una muestra de 10 mediciones. Los datos son:
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
Las hipótesis a probar son:
H0:  = 7.00
H1:  ≠ 7.00,
El estadístico del test es:
X7
~ t n 1
s
n

Si consideramos  = 0.05, t 0.975 (9) = 2.262.


7.025  7
t 0bservado   1.795  t 0.975 (9)
0.044
10
Por lo tanto no hay suficiente evidencia para rechazar H0.

Si calculo un IC0.95 obtengo:


 
 X  
P  t 0.975 (9 )   t 0.975 ( 9 )   0.95
 s 
 n 

Trabajando algebraicamente,
s 0.044
x  t 0.975(9)  7.025  2.262 
n 10
 (6.995, 7.055)

Como 7  IC0.95  No hay evidencia suficiente para pensar que el Medidor está
sesgado, pues  puede ser igual a 7.
Análogamente se analizan y relacionan las pruebas de hipótesis estudiadas con los
correspondientes IC1-.

11
Ejemplo 11:
Se lanza 20 veces una moneda obteniéndose 5 caras. ¿Hay suficiente evidencia
para rechazar que la moneda está balanceada? Suponga  = 0.10.
Si considero un test de hipótesis tengo
H0: p = 0.5
H1: p ≠ 0.5
pˆ  05
z  N (0,1) por TCL
po (1  po )
n
Como  = 0.10  Z 0.95 = 1.64

0.25  0.5
z0    2.24  z 0.95
0.11
 Hay evidencia suficiente para rechazar H0.
Si considero IC0.90
 
 p̂  p 
P  z 0.95   z 0.95   0.90
 p̂(1  p̂) 
 n 
Trabajando algebraicamente:

p̂(1  p̂) 0.25  0.75


p̂  z0.95  0.25  1.64
n 20
 (0.095, 0.409)

Como 0.5  IC1-  Hay suficiente evidencia para afirmar que la moneda no está
balanceada.

Luego, en general, se puede escribir la región de aceptación para p = p0:


p̂(1  p̂) p̂(1  p̂)
p̂  z   p  p̂  z 
1 n 1 n
2 2

Ejercicio:
Escribir la región de aceptación y rechazo para la diferencia de medias.
Región de aceptación:

x1  x2  t  s  1   2  x1  x2  t
p  s p
1  ( n1  n2 2) 1  ( n1  n2 2)
2 2
12
Errores al realizar un test:
Al realizar un test se pueden cometer 2 tipos de errores:
H0
Decisión Verdadera Falsa
Aceptar Decisión correcta Error Tipo II
Rechazar Error Tipo I Decisión correcta

Error de Tipo I = P (Rechazar H0/H0) =  = nivel de significación del test


Este error lo controlo con el nivel del test.
Error de Tipo II = P (Aceptar H0/H1) = 
Para calcular  se necesita conocer H1.

Observaciones:
1) Cuando  
2) La potencia del test = 1- = 1- P (Aceptar H0/H1) =
P (Rechazar H0/H1) = P (Aceptar H1/H1)
3) Es mejor informar el valor p, que fijar un nivel  de significación, pues así estamos
concientes de cuan lejos o cerca estamos de rechazar H0.

13
UNIDAD 9: Regresión Lineal Simple
Vamos a estudiar la relación entre dos variables, a fin de observar una y predecir la otra. La
variable dependiente será predicha por la variable independiente.
Nosotros estudiamos el caso en que la variable independiente es no aleatoria, por lo tanto
esta se considera como variable controlada, fija y observada y ajustamos sólo relaciones lineales.

Ejemplo 1:
Se quiere medir la mejora en el rendimiento de un determinado fertilizante.
El experimento consiste en evaluar el rendimiento a diferentes dosis del fertilizante. Se
puede controlar las dosis de los fertilizantes perfectamente, no así el crecimiento de la planta.

DIAGRAMA DE DISPERSIÓN
El primer paso en el análisis de regresión es graficar los datos, que son pares de valores
(xi,yi), mediante un diagrama de dispersión.
Del gráfico observamos si es razonable, o no, la suposición de que la relación entre X e Y es
lineal. Si es razonable proponemos el modelo

MODELO DE REGRESIÓN LINEAL SIMPLE

Yi    x i   i i  1, 2, ..., n
x fijos
 i
 i , ...,  n vs . as. con E( i )  0

 V ( i )   2 M.R.L.S.
 Cov( i ,  j )  0 i  j

,  y  2 son los parámetros a estimar

Observaciones:
1) E(Y i )=E(+ x i + i )= + x i +E( i )= + x i
2) V(Y i )=V(+ x i + i )=V( i )= 2

Ejemplo 2:
Las cantidades de un compuesto químico Y que se disuelven en 100 gr. de agua a
diferentes temperaturas X que se registran como sigue:
x(oc) y(gr.)
0 8
15 12
30 25
45 31
60 44
75 48

Con los valores observados (xi, yi) construimos un gráfico llamado Diagrama de
Dispersión

62
Cantidad Disuelta vs Temperatura

C ant.D isuelta
(gr)

50

40

30

20

10

0
0 10 20 30 40 50 60 70 80
Tem peratura

Del gráfico observamos que es razonable suponer que la relación entre X e Y es lineal,
luego proponemos el modelo de regresión lineal simple:

MÉTODO DE MÍNIMOS CUADRADOS


Se desea predecir Yi por medio de la ecuación Ŷi  ˆ  ˆ x i
El residuo o error estimado es ei  y i  ŷ i
Queremos encontrar ˆ y ˆ de manera que estos errores sean lo más pequeños posibles, en
algún sentido.
El Método de Mínimos Cuadrados consiste en encontrar ˆ y ˆ de tal modo que

 y 
n n
h(ˆ , ˆ )  
i 1
e i2 
i 1
i  (ˆ  ˆ x i ) 2
sea mínima.

Derivemos e igualemos a cero:


 h
 
n

 ˆ

 2 i 1
y i  ˆ  ˆ x i  0
 Ecuaciones Normales
 h  2 y  ˆ  ˆ x x  0  
n

 ˆ i 1
i i i

y i  nˆ  ˆ  x i  y  ˆ  ˆ x  ˆ  y  ˆ x

y x i i  ˆ  x i  ˆ  x i2

 y x  y  ˆ x n x  ˆ  x  n x y  n x ˆ  ˆ  x  n x y  ˆ   x  nx 
2 2 2 2
i i i i
 i

 ˆ 
 y x  nx y i i

 x  nx 2 2
i

63
Luego los estimadores son:

ˆ  y  ˆ x
 ˆ 
 y x  n x y   (x  x)(y  y)
i i i i

 (x  x)
y
 x  nx 2 2 2
i i

Para confirmar que se trata de un mínimo sacamos las derivadas segundas:


 2h 2h
 2(n )  2n  0  2 x i  2n x
ˆ 2 ˆ ˆ

2h  2h
 2 x i  2n x  2 x i2
ˆ ˆ ˆ 2

2n
2nx
2n x
2 x i2

 4n  x i2  4n 2 x  4n  x i2  n x  4n  ( x i  x ) 2  0
2 2
  
Por lo tanto es un mínimo.

Estimación de 2
n

e
1
Se puede demostrar que ˆ  con e i  y i  ŷ i es un estimador insesgado para 2.
2 2
n2
i
i 1
n
Ayuda para sacarlo con la calculadora: 
ˆ2  (1  R 2 ) ˆ 2y
n2

Ejemplo 2
Para este caso:
ˆ  6.429  6.4 ˆ  0.575  0.6
ŷ i  6.4  0.6x i
ˆ 2  6.771  ˆ  2.602
r2 = 0.98 (coef. de determinación) r = 0.99 (coef. de correlación)

INTERPRETACIÓN DE LOS COEFICIENTES:

 representa el valor promedio de y cuando x vale 0, (sujeto a que esta interpretación tenga
sentido, muchas veces no la tiene).
 representa cuanto cambia Y en promedio cuando X cambia en una unidad. Es decir la tasa de
cambio de Y por unidad de cambio de X

PROPIEDADES DE ˆ y ˆ (estimadores por mínimos cuadrados)

 E( ̂ ) =  V(ˆ ) 
x 2
i
2
n (x  x) i
2

 2
 E( ̂ ) =  V(ˆ ) 
 (x i  x) 2

64
Ejercicio: Demostrar las Esperanzas.
Suponiendo además que los errores tienen distribución i N(0,σ2)
Como ̂ y ̂ son variables aleatorias, tienen su distribución de probabilidades:
Se puede probar que
ˆ   t(n-2) Donde SE()= V(ˆ )
SE ()
ˆ   t(n-2) Donde SE()= V(ˆ )
SE ()
Y se pueden realizar sobre estos test de hipótesis y calcular estimación por intervalos como se
vió en las unidades anteriores.

PREDICCIÓN MEDIANTE LA RECTA ESTIMADA


La ecuación ŷ  ˆ  ˆ x 0 se usa para predecir el valor de y en un valor fijo x0, dentro del
rango de las observaciones.

Nota
 Las predicciones son válidas sólo dentro del rango de los datos (no se puede extrapolar).

Ejemplo 3:

Sean los siguientes pares de valores:


xi 0 1 2 3 4 5
yi 0 1 5 8 17 27

Gráfico de valores

y 30
25
20
15
10
5
0
0 1 2 3 4 5 6
x

Proponemos el modelo
yi =  +  xi2 + i

Si hacemos la transformación zi = xi2 tendremos:

65
yi     z i  i
z1 , z 2 , ... , z n vs. observadas

 i v. a
E (  )  0 V (  )   2
 i i

Cov ( i ,  j )  0 i  j

 , ,  parámetros a estimar
2

xi zi yi yizi zi2 ŷi êi yi2

0 0 0 0 0 -0.15 0.15 0
1 1 1 1 1 0.92 0.08 1
2 4 5 20 16 4.14 0.86 25
3 9 8 72 81 9.49 -1.49 64
4 16 17 272 256 16.98 0.02 289
5 25 27 675 625 26.62 0.38 729
1040 979 1108


ˆ  0.15 ˆ  1.07
n
 ei23.13
ˆ 2  i 1   0.78
n2 4
n
 ei2 3.13
R 2zy  1  i 1 1  0.994
n 547.33
 ( y i  y) 2
i 1

VALIDACIÓN DEL MODELO


Se trata de verificar si las hipótesis del modelo (M.R.L.S.) se cumplen, esta validación se
realiza mediante el Análisis de residuos.

Yi    X i   i Linealidad



Las hipótesis a chequear son: E( i )  0 media cero

V( i )  
2
var ianza const.
Cov( i ,  j )  0 i  j no correlación

Se construye el gráfico de e i vs Ŷi (ó ei vs xi) (xi sirve solo para el caso de regresión lineal
simple)

66
Gráfico de residuos vs y_estimado
0,3

0,2

0,1

0
0 1 2 3 4 5 6
-0,1

-0,2

-0,3
Gráfico correcto

Gráfico de residuos vs y_estimado


0,2

0,15

0,1

0,05

0
0 1 2 3 4 5 6
-0,05

-0,1

-0,15

-0,2

-0,25
Varianza no constante

Gráfico de residuos vs y_estimado


0,2

0,15

0,1

0,05

0
0 1 2 3 4 5 6
-0,05

-0,1

-0,15

-0,2
Correlación entre los residuos

67
Bondad del Modelo (o del ajuste)

Se puede probar que:


 (Yi  Y) 2   (Yi  Ŷi ) 2   (Ŷ i  Y) 2

Variabilidad Variabilidad “no Variabilidad


total de Y explicada” por la “explicada” por
recta la recta

Dividiendo por la varianza total  (Y  Y)i


2
obtenemos:

 (Y  Ŷ )
i i
2


 (Ŷ i  Y) 2
 1
 (Y  Y ) i
2
 (Y i  Y) 2
Proporción de la Proporción de la
variabilidad total variabilidad total
no explicada por explicada por la
la recta recta

Se define el coeficiente de determinación R2 como:

R 2

 (ŷ  y )i i
2


 (x i  x )( y i  y) 
2

 1
e 2
i

 ( y  y) i
2
 (x i  x) 2  (y i  y) 2  (y i  y) 2

R  1
2 e 2
i

 (y i  y) 2

Conclusión
 R2 indica la proporción de variabilidad de y explicada por el modelo (x).
 Cuanto más próximo a 1 es R2 mejor es el ajuste
 Cuanto más próximo a cero es R2 peor es el ajuste

NOTA:
 No confundir la Bondad del ajuste con la validez del modelo. Ambas, la validez y
la bondad deben reunirse al ajustar un modelo (idealmente)

Ejemplo 4
En un estudio sobre los efectos de pesticidas sobre especies que están expuestas a
ellos, se llevó a cabo un experimento en el cual se suministraron dosis de un pesticida a 25
ratones hembras con características similares.
La respuesta “Y” fue una medición de la actividad cerebral.

Animal 1 2 3 4 5 6 7 8 9 10 11 12 13
Dosis 0.0 0.0 0.0 0.0 0.0 2.3 2.3 2.3 2.3 2.3 4.6 4.6 4.6
Actividad 10.9 10.6 10.8 9.8 9.0 11.0 11.3 9.9 9.2 10.1 10.6 10.4 8.8
Cerebral

Animal 14 15 16 17 18 19 20 21 22 23 24 25
Dosis 4.6 4.6 9.2 9.2 9.2 9.2 9.2 18.4 18.4 18.4 18.4 18.4
Actividad 11.1 8.4 9.7 7.8 9.0 8.2 2.3 2.9 2.2 3.4 5.4 8.2
Cerebral

68
Respuesta de los ratones a la acción de los pesticidas

Actividad
Cerebral
12

10

0 Dosis
0 5 10 15 20
Se propone el modelo

 yi     x i  i i 1, ..., n

i variable aleatoria
E (  i )  0
 2
V (  i )  
Cov (i ,  j )  0 i  j i, j  1,..., n

x i v. observada
, ,  2 parámetros a estimar

Se pueden cargar los datos en la planilla de cálculo Excel y se obtiene las estimaciones:

ˆ 
 x y  nxy  1092 .27  25  6.9  8.4  0.3437
i i

 x  nx 2
i 2248 .25  25  6.9
2 2

ˆ  y  ˆ x  8.4  0.3437  6.9  10 .812

e i 1
2
i
73 .782
ˆ 2    3.208
n2 23

r  1
2  ê 2
i
 1
73 .782
 0.6288
 (y i  y) 2
198 .760

69
Si se grafica los datos en Excel se puede obtener, haciendo doble clic sobre los puntos del

Diagrama de Dispersión, la ecuación de la recta ajustada

Diagrama de dispersión con la recta de regresión ajustada

Actividad
Cerebral y = -0,3437x + 10,812
12 R2 = 0,6288

10

0 Dosis
0 5 10 15 20 25

Si utiliza la herramienta de Excel, de Análisis de Datos: Regresión se obtiene la siguiente

salida:

Resumen

Estadísticas de la regresión
Coef. de correlación 0.792962004
múltiple
Coef. de determinación R^2 0.62878874
R^2 ajustado 0.61264912
Error típico 1.791064172
Observaciones 25

ANÁLISIS DE VARIANZA
Grados de libertad Suma de Promedio de los F Valor crítico de
cuadrados cuadrados F
Regresión 1 124.97805 124.97805 38.9593275 2.28032E-06
Residuos 23 73.78195 3.20791087
Total 24 198.76

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior


95%
Intercesión 10.8115 0.522180451 20.70452842 2.2705E-16 9.731288906 11.89171
Dosis -0.343695652 0.055064071 -6.241740739 2.2803E-06 -0.457604206 -0.22978

Se puede guardar las predicciones y residuos y luego graficarlos, para analizar la bondad.

70
Observación Pronóstico Actividad Cerebral Residuos
( ŷi )
1 10.8115 0.0885
2 10.8115 -0.2115
3 10.8115 -0.0115
4 10.8115 -1.0115
5 10.8115 -1.8115
6 10.021 0.979
7 10.021 1.279
8 10.021 -0.121
9 10.021 -0.821
10 10.021 0.079
11 9.2305 1.3695
12 9.2305 1.1695
13 9.2305 -0.4305
14 9.2305 1.8695
15 9.2305 -0.8305
16 7.6495 2.0505
17 7.6495 0.1505
18 7.6495 1.3505
19 7.6495 0.5505
20 7.6495 -5.3495
21 4.4875 -1.5875
22 4.4875 -2.2875
23 4.4875 -1.0875
24 4.4875 0.9125
25 4.4875 3.7125

Chequeo del Modelo


6

2
Residuos

-2

-4

-6
0 2 4 6 8 10 12
Pronóstico Actividad Cerebral
Los residuos no tienen varianza constante.

71
OTROS MODELOS

Existen otras relaciones entre variables que se pueden evaluar utilizando el Modelo Lineal,
por ejemplo:

1. Y    x 2 , realizo la transformación z = x2 y ajusto el modelo Y     z i   i

1
2. Y     x realizo la transformación Y*  y ajusto el modelo Y *    x i   i
1
Y

3. Y   realizo la transformación Y*  ln Y y ajusto el modelo Y *   *   * x i   i


X

72
UNIDAD 10: Control de calidad

Técnicas del control estadístico de Calidad

El control de calidad es una herramienta en la cual las características más sobresalientes de


un producto son observadas, evaluadas y comparadas con algún tipo estándar, las técnicas de
control de calidad involucran el uso considerable de procedimientos de muestreo y principios
estadísticos, estas técnicas tienen su aplicación más antigua y más frecuente en procesos
industriales, pero son válidas en cualquier tipo de procesos, administrativos, comerciales, y otros.
Las técnicas de control de calidad se clasifican en:
1. Control en curso de fabricación
2. Control de recepción y de producto acabado.

Control en curso de fabricación


Este se realiza durante el proceso de fabricación a intervalos de tiempo fijos y tiene por
objetivo vigilar el funcionamiento del sistema y recoger información para mejorarlo.
Observación:
El control se refiere a inspección (detectar fallas) y corrección (tomar medidas preventivas)

El control de calidad se realiza:


1. Sobre alguna característica de calidad medible (longitud, resistencia, contenido de
impurezas, etc.)
Ejemplo:
Se producen recipientes en un proceso, en el cual el volumen de los mismos está sujeto a un
control.
2. Por atributo o característica cualitativa del producto o servicio.
Ejemplo:
a) Una tubería tiene o no fugas.
b) Un engranaje encaja o no en otro.
3. Por número de defectos en cada unidad fabricada.
Ejemplo:
a) Número de defectos en una placa fotográfica.
b) Cantidad de burbujas en un cristal.
c) Número de rayones en la pintura en la puerta de un auto.

Nosotros estudiaremos el caso 1: Control de calidad sobre una característica medible.

Procesos bajo control


Un proceso es una serie repetible de pasos que conducen a una meta o resultado específico
Todo proceso tiene una cierta variabilidad que no puede atribuirse a una sola causa, sino que
se debe a la combinación de muchas causas donde cada una contribuye poco a la variabilidad de
la característica que se mide, estas se llaman “causas no asignables”.
Ejemplo: variación en la calidad de la materia prima, habilidad del operario, condiciones
climáticas, etc.
Existen otras causas de variación que producen efectos sistemáticos, por ejemplo un
desajuste en la máquina, estas se llaman “causas asignables” y surgen en un determinado
momento y producen defectos que se mantienen hasta que se elimina la causa.
Es importante identificarlas porque la corrección de las causas asignables no cambia el
proceso, mientras que la disminución de variabilidad por causas no asignables generalmente
implica un cambio en el proceso. Por ejemplo, clasificar la materia prima antes de iniciar el
proceso de producción.

59
Definición:
Se dice que un proceso está bajo control cuando hayamos eliminado todas las causas
asignables de variabilidad, de modo que la variabilidad sea debida sólo a causas no asignables.
Bajo esta condición, la característica a estudiar X, se puede suponer que es una variable
aleatoria. Suponemos X~N(µ, s).

Intervalos de tolerancia
El intervalo de tolerancia se define como el conjunto de valores de X que se consideran
admisibles: (LT1, LT2). Lo fija la empresa, la gerencia.
Este intervalo es simétrico respecto de µ, donde µ es la media o valor esperado que en
control de calidad se llama Valor Nominal.

Capacidad del proceso


La capacidad del proceso (cuando este está bajo control) se define como
CP = 6s.
La falta de calidad del producto depende de la variabilidad del proceso, el 99.7% de las
unidades fabricadas están en el intervalo centrado en µ de amplitud 6 s, a este se le llama
intervalo de tolerancia natural del proceso.

Índice de Capacidad
Dado el intervalo de tolerancia (LT1 , LT2) se define el Índice de Capacidad como
LT2 - LT1
IC =
6s

1) IC < 1 La proporción de productos fuera de los limites de tolerancia es muy elevada


(>0.3%) y es mayor cuanto menor sea el IC . El proceso no es adecuado.
2) IC @ 1 La proporción de defectuosos es aprox. del 0.3%. Antes se decía que en este caso
el proceso es adecuado, pero hoy en día esta proporción de defectuosos puede
considerarse muy grande.
3) IC > 1 La proporción de defectuosos es pequeña (< 0.3%) por lo tanto el proceso es
adecuado

60
¨ El índice de capacidad sirve para decidir si mejoramos el proceso de fabricación, es decir
resolver costos, réditos, etc.
¨ También sirve para determinar cómo muestrear, la frecuencia de muestreo, tamaño de la
muestra, etc.

Determinación de la Capacidad del Proceso (CP = 6 s)

• La capacidad del proceso se determina a partir de datos recogidos cuando el proceso está
supuestamente bajo control.
• Determinar la capacidad del proceso es equivalente estimar s

Se toman varias muestras tratando de eliminar todas las causas asignables de variabilidad,
estas muestras deben estar igualmente espaciadas a lo largo del proceso

61
Supongamos que se toman k muestras de tamaño n. Es decir:
media Desv. est.
X11 X12 … X1n X1 ŝ 1

X21 X22 … X2n X2 ŝ 2


Xk1 Xk2 … Xkn Xk ŝ k

X ŝ

Homogeneidad para las medias


Procedimiento:

1. Calcular x i y sˆ i para i = 1, ... , k


2. Calcular la media y la desviación estándar global
k k n

å xi å å x ij
i =1 j=1 N = kn
i =1
x= =
k N
1 k
sˆ = å sˆ i
k i =1
3. Contrastar si las medias son homogéneas

( x - µ) » N(0, 1) si N es grande
sˆ / c 2 n

é sˆ sˆ ù
Luego x i Îê x - 3 , x +3 ú con probabilidad 0.997.
ë c 2 n c 2 n û
Se verifica que cada xi pertenezca al intervalo.
Si alguna media sale de los límites, significa que la media de esa muestra no es homogénea
con las demás (es decir que el proceso está fuera de control), luego se elimina esta muestra y se
realiza todos los cálculos nuevamente. Recordemos que el estado de control es un logro y no el
estado natural del proceso. En consecuencia es posible que el proceso pueda haber pasado a una
situación de falta de control durante el muestreo y producir la muestra no homogénea.

62
Observación: el coeficiente c2 es una corrección para que ŝ sea un estimador insesgado de
s , y está tabulada en función de n, tamaño de cada una de las muestras.

Homogeneidad para las desviaciones

La variabilidad de cada muestra se estima por ŝi . entonces el intervalo del 99% de

confianza para las desviaciones estándar es (B 3 sˆ , B 4 sˆ ) , donde los coeficientes B3 y B4 están


tabulados en función de n.

Se controla que cada ŝi pertenezca

Si algún punto sale de los límites, se dice que no es homogéneo con los demás. Luego se lo
descarta y se realiza todos los cálculos de nuevo.

Estimación de la capacidad del Proceso


Si alguna de las muestras aparece fuera de la banda de control esta se descarta y se vuelve a
hacer el cálculo con las restantes, y se construye nuevamente los gráficos de control, esto se
repite hasta que todas las muestras caen dentro de las bandas de control, tanto de la media como
de la desviación estándar.
Luego se chequea la normalidad de los datos y si se puede considerar que siguen una

distribución normal se estima la capacidad del proceso mediante ĈP = 6 .
c2
Ejemplo 1:

A partir de las siguientes 5 muestras de tamaño 6:


a) Determine la capacidad del sistema
b) Calcule el IC si conoce que el intervalo de tolerancia es (37, 62)
c) ¿Qué proporción de defectuosos se está fabricando?

No de muestra 1 2 3 4 5
xi 53 51 58 48 49
ŝ i 9 3 2 1 4

Entonces:

X = 51.8 sˆ = 3.8

3.8 1
X ± 3´ = X ± 5.36 Þ (46.44, 57.16)
0.8686 6

La muestra no 3 sale de banda, luego la saco.


Nuevamente:

X = 50,25 sˆ = 4.25

63
4.25 1
X ± 3´ =X±6 Þ (44.25, 56.25)
0.8686 6

Todas las muestras están dentro de la banda.

Calculo el intervalo o banda para s:


(B3 sˆ , B4 sˆ ) Þ (0.03 x 4.25 , 1.970 x 4.25) Þ (0.13, 8.37)
o
Luego, la muestra n 1 sale de la banda. La saco.

X = 49.33 sˆ = 2.67

2.67 1
X ± 3´ = X ± 3.76 Þ (45.57, 53.09)
0.8686 6

(B3 sˆ , B4 sˆ ) Þ (0.03 x 2.67, 1.97 x 2.67) Þ (0.08, 5.26)

Ù sˆ 2.67
Capacidad = 6 =6 = 18.44
c2 0.8686

Ù 25
IC = = 1.36 Þ p < 0.3%
18.44

Control de fabricación

Una vez estimada la capacidad del proceso, con los límites de tolerancia se puede estimar el
LT - LT1 LT2 - LT1
índice de capacidad IĈ = 2 = , y con este dato determinar la frecuencia de
6 sˆ 6 s
ˆ
C2
muestreo.
Se construyen los gráficos de control para la media y la desviación estándar, se toma una
muestra cada cierto periodo de tiempo y se comprueba que el proceso esté bajo control.

Gráfico de Control para la media


X+3
c2 n

X

X-3
c2 n

64
Gráfico de Control para las desviaciones

B 4 ŝ

B 3 ŝ

El control de procesos se realiza con las medias de las muestras por que son más eficaces
que las observaciones para detectar cambios en la media.

Ejemplo 2:

Suponga que se desea estudiar la resistencia de ruptura de cierto material. Se toman


muestras de tamaño 6 que producen los siguientes resultados (en Kg. por cm2)

Muestra 1 2 3 4 5 6 7
Media 1511 1508 1522 1488 1524 1519 1504
Desv. Estándar 220 140 113 182 107 132 76

a) Construya los gráficos de control


b) Un mes más tarde se observan las siguientes muestras:
Muestra 1 2 3 4 5 6 7 8
Media 1316 1520 1535 1621 1680 1690 1700 1700
Desv. Estándar 100 120 125 127 110 115 120 126
¿El proceso está bajo control?

a) Para las medias

sˆ 138.57
X ±3 = 1510.86 ± 3 = 1510.85 ± 195.39 Þ(1315.47, 1706.23)
c2 n 0.8686 6
Todas las medias están dentro de la banda.

Para las desviaciones:

B3 = 0.030, B4 = 1.970
(B 3 138.57, B 4 138.57) = (4.157, 272.98)

Todos están dentro de la banda.

b)

65
1706,23

1315,47

1 2 3 4 5 6 7 8

Las medias están en la banda, pero hay tendencia, por lo tanto el proceso no está bajo control.

Ejemplo 3:

Un proceso con media 100 mm. y desviación estándar 5 mm. Calcular la probabilidad de
detectar un cambio de 10 mm. en la media sí:
a) Considera 4 observaciones individuales.
b) Considera una media con 4 observaciones.

a) El intervalo de control es: (85, 115)


X ~ N (100, 5) bajo control
X ~ N (110, 5) fuera de control
æ 85 - 110 115 - 110 ö
1 – P (85 < X < 115) = 1 - P ç <Z< ÷
è 5 5 ø
= 1 – P (-5 < Z < 1) = 1 – [F(1) - F(- 5)]
= 1 – [F(1) – (1 - F(5))] = F(5) - F(1)= 1 – 0.8413 = 0.16

Sea Y: Nro. de observaciones fuera de control


Y ~ b (4, 0.16)
æ 4ö
P(Y ³ 1) = 1 - P(Y = 0) = 1 - çç ÷÷ 0.16 0 × 0.84 4 = 0.502
è0ø

Luego la probabilidad de detectar un cambio de 10 mm. si se considera 4 observaciones es


0.502.

b) El intervalo de control es: (92.5, 107.5)


`X ~ N (100, 5/2) bajo control
`X ~ N (110, 5/2) fuera de control
92.5 - 110 107.5 - 110
1 – P (92.5 < X < 107.5) = 1 - P ( <Z< )
2.5 2.5

= 1 – [F(-1) – F(-7)] = 1 – [ 1 - F(1) – ( 1 - F(7))]

= F(1) – 1 + F(7) = 0.84

Luego la probabilidad de detectar un cambio de 10 mm. si se considera la media de 4


observaciones es: 0.84. Es decir, la probabilidad de detectar un cambio con la media muestral
es mayor que con las observaciones individuales.

66
Interpretación de los gráficos de control

Los cambios en el funcionamiento del proceso se manifiestan por:


a) Cambios bruscos en la media y o la variabilidad: cambios en la media del proceso produce
valores extremos en el gráfico de las medias pero no afecta al gráfico de las desviaciones
estándar, pero un cambio en la varianza puede producir valores extremos en ambos gráficos.

b) Tendencias o rachas: si el desplazamiento de la media o de sigma es paulatino, esté se


detectará por un alineamiento de los puntos. Por ejemplo 7 puntos consecutivos por encima
de la media, o en orden decreciente indican anormalidad.

c) Inestabilidad: Se denomina inestabilidad a la presencia de grandes fluctuaciones, este


comportamiento puede deberse a diferentes materias primas mezcladas, a falta de
entrenamiento del operario, etc.
d) Periodicidad: Las diferencias entre turnos o en la calidad de materia prima pueden
ocasionar gráficos con periodicidad.

Periodicidad Inestabilidad

e) Sobreestabilidad: Ocurre cuando la variabilidad de las muestras es menor que la esperada.


Esto puede deberse a razones negativas –por ejemplo: los límites de control están mal calculados
o los datos se han tomado de forma incorrecta– o razones positivas –por ejemplo: se ha
producido una disminución de la variabilidad del proceso–. Cualquiera sea el caso se deben
investigar las causas.
Para identificar este estado se observa el gráfico de las medias considerando dos líneas a cada
lado de la línea central que dividan el intervalo de control en 6 partes iguales. En condiciones
normales, el 68% de los puntos deberían estar entre las dos centrales y el 34% entre las

67
siguientes.

68
UNIDAD 11: Introducción al Diseño de Experimentos

Análisis de la varianza (ANOVA):

Hasta este momento el material presentado acerca de test o prueba de hipótesis se refirió a 1 o 2
poblaciones a lo sumo. El caso de la comparación de 1 parámetro en 2 poblaciones se denomina
también problema de un solo factor, muchas veces llamado tratamiento y con dos niveles:
tratamiento y control, o bien tratamiento A y B. Por ejemplo, se desea comparar el tiempo
promedio que tarda en curar una gripe con una droga 1 y con una droga 2. La hipótesis nula es:
H0: 1=2.

Cuando en el experimento involucramos más de dos niveles, supongamos k niveles con k>2
necesitaremos k muestras y el procedimiento estadístico se denomina Análisis de la Varianza
(ANOVA).

En general se desea probar:


H0: 1=2=…= k.
H1: Al menos una media es diferente.

Las hipótesis para llevar a cabo el ANOVA son: k muestras aleatorias independientes con
distribución Normal con medias 1, 2, 3,…k. y  común, todos desconocidos.

Los datos se obtienen a partir de tantas muestras como tratamientos se tengan. Para determinar si
las medias son iguales o no, se compara la variabilidad presente en cada muestra (variabilidad
dentro de cada tratamiento) contra la variabilidad de muestra en muestra (variabilidad entre
tratamientos).
Esquemáticamente:

   
 
  ...  
 

Muestra 1 Muestra 2 Muestra k


de cada tratamiento
variabilidad dentro

y11 y21 yk1


y12 y22 yk2
. . .
. . .
. . .
y1n y2n ykn

Y1. Y2 . ... Yk .

variabilidad entre tratamientos

65
El estadístico utilizado es:
SSA /(k  1)
F= Fk-1,(n-1)k
SSE /(n  1)k

donde
SSA es la variabilidad entre los tratamientos
SSE es la variabilidad dentro de cada tratamiento
k n y
SSA  n  ( y i.  y.. ) 2 y i.  
ij

11 j 1
n
k n k n y
SSE    ( y ij  y i. ) 2 y  
ij

11 j 1 i 1 j 1
kn

La región de rechazo es, dado : F observado > F k-1, (n-1)k; (1-)


Y el valor p=P(F k-1, (n-1)k> F observado)

Nota: La distribución F no es simétrica y depende de la cantidad de tratamientos y de los


tamaños muestrales.

Resumen de la idea del ANOVA:


Si la variabilidad “DENTRO” es chica y la variabilidad “ENTRE” es grande entonces F es
grande  son distintas las medias  RECHAZO
Si la variabilidad “DENTRO” es grande y la variabilidad “ENTRE” es chica son iguales
ACEPTO

En este curso no vamos a calcular el estadístico en cada ejercicio, en cambio si vamos a


interpretar una salida de computadora del ANOVA

La correspondiente tabla de ANOVA es:


Fuente de Grado de Suma de Cuadrados F Valor p
Variación libertad Cuadrados medios
Tratamiento k-1 SSA SSA/(k-1) SSA /(k  1)
SSE /((n  1)k)
Error (n-1)k SSE SSE/((n-1)k)
Total Nk-1 SST

Interpretación:
Si el valor p es pequeño  se rechaza H0.
Al rechazar H0 puedo estar interesado en saber cual de las medias es la diferente. En este caso se
realizan las comparaciones múltiples.

Comparaciones múltiples o de a pares

Existen varios métodos para realizar las comparaciones de a pares que mantienen el nivel .
Ellas son:
- Pruebas de Tuckey

66
- Pruebas de Duncan
- Pruebas de Dunnett

Las dos primeras comparan de a pares todas las medias, mientras que la de Dunnett compara
todas las medias con un control.

Generan intervalos de confianza para la diferencia de medias i - j. Luego, para probar las
hipótesis:
H0: i - j = 0 (o equivalentemente i = j ) para i  j
H1: i - j  0 (o equivalentemente i  j )

Se observa si 0  IC.

Ejemplo 1:

Un ingeniero desea estudiar cómo varía la absorción de humedad en concreto, en 5


mezclas diferentes. Se consideran 6 muestras de cada tipo y se las expone a humedad
durante 48 hs.

Datos: Absorción de humedad en mezclas de concreto


Mezcla 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 676
Total 3320 3416 3663 2791 3664
Media 553.33 569.33 610.50 465.17 610.67

Gráfico: Diagramas de caja de absorción de humedad por mezclas.


Boxplots of Respuest by Mezcla
(means are indicated by solid circles)

700
Respuesta

600

500

400
1

Mezcla

Las hipótesis a probar son:

67
H0: 1 = 2 = ... = 5
H1: Al menos una es diferente.

One-way Analysis of Variance

Analysis of Variance for Respuest


Source DF SS MS F P
Mezcla 4 85356 21339 4,30 0,009 Se rech. H0
Error 25 124020 4961
Total 29 209377

Tukey's pairwise comparisons

Family error rate = 0,0500


Individual error rate = 0,00706
Critical value = 4,15

Intervals for (column level mean) - (row level mean)

1 2 3 4

2 -135,3
103,3

3 -176,5 -160,5
62,2 78,2

4 -31,2 -15,2 26,0


207,5 223,5 264,7

5 -176,7 -160,7 -119,5 -264,8


62,0 78,0 119,2 -26,2

Las Medias 3 y 4 son diferentes y las Medias 4 y 5 son diferentes.

Chequeo de hipótesis de Normalidad para los datos:

68
Normal Probability Plot of the Residuals
(response is Respuest)

Normal Score 1

-1

-2

-100 0 100 200

Residual

Disposición de datos para realizar el análisis

Mezcla Respuesta
1 551
1 457
1 450
1 731
1 499
1 632
2 595
… …
5 563
5 631
5 522
5 613
5 656
5 679

Observación:
Para que el ANOVA sea válido deben cumplirse las hipótesis de:
- Normalidad de los datos.
- Varianza común.
- Independencia.

En este curso hemos aprendido a chequear normalidad de los datos. La comparación de varianzas
se realiza con un test F pero escapa a los conocimientos del curso.

69

También podría gustarte