Está en la página 1de 313

Estadística para Ingenieros

Autor: Nel Quezada Lucio


© Derecho de autor reservado
Empresa Editora Macro E.I.R.L.

© Derecho de edición, arte gráfico y diagramación reservados


Empresa Editora Macro E.I.R.L.

Edición a cargo de:


Empresa Editora Macro E.I.R.L.
Av. Paseo de la República 5613 – Miraflores
Lima - Perú
 (511) 719-9700
 ventas@editorialmacro.com
http://www.editorialmacro.com

Primera edición: Mayo 2010 - 1000 ejemplares

Impreso en los Talleres Gráficos de


Empresa Editora Macro E.I.R.L.
Lima - Perú

ISBN Nº 978 - 612 - 4034 - 55 - 8


Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2010 - 06197

Prohibida la reproducción parcial o total, por cualquier medio o método de este libro sin
previa autorización de la Empresa Editora Macro E.I.R.L.
Nel Quezada Lucio
Licenciado en Estadística de la Universidad Nacional de Ingeniería, con Maestria en Ciencias y con
mención en Ingeniería de Sistemas-UNI. Catedrático de la Escuela Profesional de Ingeniería Económica
de la Universidad Nacional de Ingeniería e Ingenieria Estadistica, asesor y consultor de empresas.

Trabajos realizados en: Diseño y desarrollo de productos con estudios de panel de consumidores, tamaño
de mercado y segmentación de mercado; así como en Sistema de Información Estadística, Elaboración,
Crítica, Codificación, Procesamiento, Control de Calidad y Análisis; igualmente, en el desarrollo y gestión
de estudios e investigaciones en diferentes campos; en Teoría de Muestreo aplicado en encuestas
Psicológicas y Socio Económicas, para efectos de evaluar el comportamiento de la población.
Dedicatoria
A mi madre Francisca Lucio Azaña.
Introducción
La estadística es una ciencia utilizada para la toma de decisiones en situaciones de incertidumbre. Se
encarga de diseñar, recolectar, describir, analizar e interpretar la información y, por ello, constituye la
metodología científica principal que permite transformar datos en información. Esto la hace especialmente
atractiva, ya que en cualquier sociedad desarrollada existe una inmensa variedad de problemas cuya
solución sólo es posible mediante la utilización de técnicas estadísticas. Así, por ejemplo, la estadística
es imprescindible para modelar y predecir diversas variables como económicas, sociológicas, médicas,
psicológicas, ambientales o para detectar factores de riesgo asociados a una determinada variable,
establecer la eficacia de una variable en desarrollo de productos, series económicas, tráfico telefónico
etc.

El presente libro permite una orientación metodológica para el curso de estadística, desarrollando la teoría
con demostraciones simples, ejercicios prácticos y ejercicios de laboratorio en un centro de cómputo que
permitirán interactuar entre la teoría y la práctica aprendida. Asimismo, implantar en cualquier institución
pública o privada un modelo estadístico que se sustente en las múltiples herramientas estadísticas.
Índice
Capítulo 1
ETAPAS DE UNA INVESTIGACIÓN ....................................................................................... 17
1.1 Diseño ........................................................................................................................................17
1.2 Descriptiva .................................................................................................................................17
1.3 Inferencia ...................................................................................................................................18
Diseño .............................................................................................................................. 18
Población ......................................................................................................................... 18
Muestra ............................................................................................................................ 18
Individuo (Observación, Caso, Sujeto) ............................................................................... 18
Variables .......................................................................................................................... 19
Ejercicios de Población y muestra ..................................................................................... 19
Tamaño de muestra ........................................................................................................... 21
1.1 El estudio de proporciones ........................................................................................................21
1.2 Error muestral (E) o Error de Estimación....................................................................................21
1.3 El nivel de confianza ...................................................................................................................22
1.4 Ejemplos de nivel de confianza ..................................................................................................22
Ejercicios de tamaño de muestra ....................................................................................... 22
Tipos de Muestreo............................................................................................................. 24
Muestreo de conveniencia................................................................................................. 25
Muestreo aleatorio............................................................................................................ 25
1.1 Muestreo aleatorio simple .........................................................................................................25
1.2 Muestreo estratificado ...............................................................................................................25
1.2.1 Asignación proporcional.................................................................................................26
1.2.2 Asignación óptima..........................................................................................................26
1.3 Muestreo sistemático.................................................................................................................26
1.4 Muestreo por conglomerados....................................................................................................26
1.5 Muestreo mixto..........................................................................................................................27
1.6 Muestreo por estadios múltiples ...............................................................................................27
1.7 Muestreo por cuotas ..................................................................................................................27
1.8 Muestreo de “bola de nieve” .....................................................................................................27
Ejercicios de tipos de muestreo (elegir la muestra) ............................................................ 28
Ejercicios propuestos ......................................................................................................... 34
Piloto ................................................................................................................................ 34

Capítulo 2
ESTADÍSTICAS DESCRIPTIVAS ............................................................................................ 35
Distribución de Frecuencias............................................................................................... 35
Distribuciones de frecuencia agrupada ............................................................................. 40
2.1 El número intervalos de clase y el tamaño del intervalo ...........................................................41
Números de Intervalos de clase : ....................................................................................... 41
Tamaño del intervalo (Amplitud de clase) ......................................................................... 42
Medidas de posición ......................................................................................................... 41
Medidas de posición central ............................................................................................. 43
2.1 Media .........................................................................................................................................43
2.1.1 Media aritmética ............................................................................................................43
2.1.2 Media geométrica ...........................................................................................................45
2.1.3 Media armónica ..............................................................................................................46
2.2 Mediana .....................................................................................................................................47
2.3 Moda .........................................................................................................................................48
Medidas de posición central ............................................................................................. 50
2.1 Cuartiles ....................................................................................................................................50
2.2 Deciles ........................................................................................................................................50
2.3 Percentiles ..................................................................................................................................50
Medidas de dispersión ...................................................................................................... 52
2.1 Rango ........................................................................................................................................52
2.2 Varianza ......................................................................................................................................52
2.3 Desviación típica (estándar) .......................................................................................................53
2.4 Coeficiente de variación de Pearson ..........................................................................................53
Medidas de forma ............................................................................................................ 55
2.1 Concentración ............................................................................................................................55
2.2 Asimetría ....................................................................................................................................57
2.3 Curtosis ......................................................................................................................................58
Ejercicios resueltos ........................................................................................................... 61
Ejercicios de laboratorio ................................................................................................... 64
Ejercicios propuestos ........................................................................................................ 69

Capítulo 3
GRÁFICOS DESCRIPTIVOS .................................................................................................. 75
Gráfico de Barras ...............................................................................................................75
Gráficos Circulares (Pie Charts)...........................................................................................76
Histograma.........................................................................................................................77
Tallo y Hoja: Tukey (1977)...................................................................................................80
Boxplot o Caja de Tukey......................................................................................................83
Boxplots Paralelos..............................................................................................................85
Ejercicio de laboratorio.......................................................................................................87
Ejercicios Propuestos..........................................................................................................93

Capítulo 4
DISTRIBUCIONES BIDIMENSIONALES ................................................................................ 95
Tabla de distribuciones bidimensionales ............................................................................ 95
4.1 Frecuencia absoluta de par (xi,yj) ..............................................................................................95
4.2 Frecuencia relativas de par (xi,yj)...............................................................................................96
Distribuciones marginales ................................................................................................. 99
4.1 Distribución marginal de X .........................................................................................................99
4.2 Distribución marginal de Y .........................................................................................................100
Distribución condicional .................................................................................................... 102
4.1 Distribución condicional fila ......................................................................................................102
4.2 Distribución condicional columna .............................................................................................102
Características de una tabla estadística.............................................................................. 104
4.1 Tablas Cruzadas ..........................................................................................................................104
4.2 Dimensiones de una Tabla .........................................................................................................105
4.3 Tablas Bidimensionales ..............................................................................................................105
4.4 Tablas Tridimensionales .............................................................................................................106
Ejercicios de laboratorio .................................................................................................... 107
Medias y varianzas marginales .......................................................................................... 110
Independencia de variables ............................................................................................... 111
4.1 Método de las frecuencias: ........................................................................................................111
4.2 Método de la Prueba χ²: ............................................................................................................111
Ejercicios de laboratoriosChi-Cudrado ................................................................................... 114

Capítulo 5
COEFICIENTE DE CORRELACIÓN LINEAL .............................................................................. 117
Propiedades de ‘rxy’.......................................................................................................... 118
Matriz de correlación ........................................................................................................ 120
Ejercicios de laboratorio .................................................................................................... 121
Gráficos de correlación ...................................................................................................... 124

Capítulo 6
REGRESIÓN LINEAL SIMPLE ............................................................................................. 127
6.1 El método de mínimos cuadrados..............................................................................................128
6.2 Ecuaciones normales..................................................................................................................128
Varianzas de los estimadores ............................................................................................. 130
Inferencia para los coeficientes de regresión ..................................................................... 131
Tabla ANOVA ..................................................................................................................... 132
Coeficiente de determinación ........................................................................................... 133
Validación de los supuestos del modelo............................................................................. 133
Ejercicios resueltos ........................................................................................................... 134
Ejercicios de laboratorio ................................................................................................... 137
Ejercicios propuestos ........................................................................................................ 146

Capítulo 7
NÚMEROS ÍNDICES ............................................................................................................ 151
Clasificación de los números índices ..................................................................................152
Número índice simple .......................................................................................................152
7.1 Índices en cadena.......................................................................................................................154
Números índices utilizados en economía ........................................................................... 154
7.1 Índice Precios .............................................................................................................................154
7.2 Incremento de Precio .................................................................................................................155
7.3 Índice de Cantidad .....................................................................................................................155
7.4 Incremento de Cantidad ............................................................................................................155
7.5 Índice de Valor ...........................................................................................................................156
7.6 Incremento de Valor..................................................................................................................156
Ejemplos de Indicadores simples ....................................................................................... 156
Índices complejos (compuestos) ........................................................................................ 159
7.1 Índice compuestos no ponderados ............................................................................................159
7.1.1 Media aritmética ............................................................................................................159
7.1.3 Media geométrica ...........................................................................................................159
7.1.4 Media armónica ..............................................................................................................160
7.1.5 Media agregativa.............................................................................................................160
7.2 Índice compuestos ponderados .................................................................................................163
7.3 Índices de precios complejos ponderados (Laspeyres, Paasche) ...............................................163
7.4 Índices cuánticos o de producción (Laspeyres, Paasche) ...........................................................163
Deflactar ........................................................................................................................... 164
Cambio de Base ................................................................................................................. 164
Índice de precios de consumo (I P C) ................................................................................. 165
Otros números índices ...................................................................................................... 166
Ejercicios propuestos ......................................................................................................... 167

Capítulo 8
ANÁLISIS COMBINATORIO ................................................................................................. 169
Principios fundamentales del análisis combinatorio .......................................................... 169
Diagrama del árbol ............................................................................................................170
Principios básicos del proceso de contar ............................................................................171
8.1 Principio de Multiplicación.........................................................................................................171
8.2 Agrupamientos Múltiples...........................................................................................................172
8.3 Principio de Adición ...................................................................................................................173
Arreglos (Variaciones)........................................................................................................ 173
8.1 Arreglos Simples.........................................................................................................................173
8.2 Arreglos con Repetición .............................................................................................................174
Permutaciones .................................................................................................................. 174
8.1 Factorial .....................................................................................................................................174
8.2 Permutaciones Simples ..............................................................................................................174
8.3 Permutaciones Circulares...........................................................................................................175
8.4 Permutaciones con Repetición...................................................................................................176
Combinaciones .................................................................................................................. 177
8.1 Combinaciones sin repetición ....................................................................................................177
8.2 Combinaciones con repetición ...................................................................................................178
Números combinatorios .................................................................................................... 179
Propiedades de los números combinatorios....................................................................................179
Triángulo de Tartaglia ........................................................................................................ 180
Ejercicios de análisis combinatorio .................................................................................... 181

Capítulo 9
PROBABILIDADES .............................................................................................................. 183
Introducción ...................................................................................................................... 183
Probabilidad ...................................................................................................................... 183
Experimento...................................................................................................................... 184
Espacio muestral ............................................................................................................... 184
9.1 Espacio muestral asociado a un experimento ............................................................................184
Sucesos o eventos ............................................................................................................. 185
9.1 Evento elemental o simple .........................................................................................................185
9.2 Evento compuesto .....................................................................................................................185
Relación con teoría de conjuntos ....................................................................................... 185
9.1 Suceso seguro ............................................................................................................................185
9.2 Suceso imposible........................................................................................................................185
9.3 Unión de dos o más sucesos ......................................................................................................185
9.4 Intersección de sucesos ............................................................................................................186
9.5 Un suceso puede estar contenido en otro .................................................................................186
9.6 Incremento de Valor..................................................................................................................186
9.7 Dos sucesos pueden ser iguales .................................................................................................186
9.8 Sucesos incompatibles o disjuntos .............................................................................................186
9.9 Suceso diferencia .......................................................................................................................186
Propiedades ...................................................................................................................... 187
9.1 Asociativa ...................................................................................................................................187
9.2 Conmutativa ...............................................................................................................................187
9.3 Distributiva .................................................................................................................................187
9.4 Leyes de Morgan ........................................................................................................................187
Cálculo de probabilidades ................................................................................................. 187
9.1 Regla de Laplace.........................................................................................................................187
Axiomas de Probabilidad ................................................................................................... 188
Propiedades de Probabilidad ............................................................................................. 189
Asiganción de probabilidades ........................................................................................... 190
Ejemplos resueltos ............................................................................................................ 190
Ejemplos de probabilidad de sucesos ................................................................................ 191
Probabilidad condicional ................................................................................................... 193
9.1 Propiedades de la Probabilidad condicional ..............................................................................194
9.2 Probabilidad Compuesta (Regla del producto) ..........................................................................194
Partición del espacio muestral Ω........................................................................................ 196
Teorema de la probabilidad total ....................................................................................... 196
Teorema de Bayes ............................................................................................................. 197
Independencia sucesos ...................................................................................................... 198
Propiedades de independencia.......................................................................................... 199
Ejercicios Propuestos ......................................................................................................... 200
Sugerencia para los ejercicios de laboratorio ..................................................................... 204

Capítulo 10
VARIABLES ALEATORIAS DISCRETAS ................................................................................... 205
Variable aleatoria discreta solo toma valores enteros.........................................................207
Función de probabilidad puntual o de masa de la v.a. discreta X.........................................208
10.1 Propiedades de la función de probabilidad puntual ................................................................208
Función de distribución acumulada de una v.a. discreta X...................................................210
10.1 Propiedades de la función de distribución acumulada ............................................................211
10.2 Proposición de la función de distribución acumulada .............................................................211
Esperanza o valor esperado de una v.a. discreta ................................................................ 212
10.1 Interpretación de la esperanza ................................................................................................213
Esperanza de una función .................................................................................................. 213
Propiedades de la esperanza discreta ................................................................................ 214
Varianza de una v.a. discreta.............................................................................................. 214
Propiedades de la varianza y del desvío estándar .............................................................. 215
Variables aleatorias continuas ........................................................................................... 216
Función de densidad de la v.a. continua X.......................................................................... 216
10.1 Propiedad función de densidad continua ................................................................................217
La función de distribución acumulada continua ................................................................. 218
10.1 Propiedades de la función de distribución acumulada ............................................................219
10.2 Proposición de la función de distribución acumulada .............................................................219
Esperanza o valor esperado de una v.a. continua ............................................................... 220
Propiedades de la esperanza continua ............................................................................... 220
Varianza de una v.a. continua ............................................................................................ 220
10.1 Propiedades de la varianza y del desvío estándar ....................................................................220
Esperanza de Xk ................................................................................................................ 221
Función generadora de momentos (fgm) ........................................................................... 222
Propiedades fgm ............................................................................................................... 223
Teorema de Unicidad ......................................................................................................... 224
Ejercicios propuestos ......................................................................................................... 225

Capítulo 11
DISTRIBUCIONES DE PROBABILIDAD ................................................................................. 227
Distribuciones Discretas .................................................................................................... 227
Las principales distribuciones discretas son ...................................................................... 228
11.1 Distribución de Bernouilli.........................................................................................................228
11.2 Distribuciones Binomial ...........................................................................................................228
11.3 Distribución de Poisson ............................................................................................................231
11.4 Distribución Hipergeométrica ..................................................................................................233
11.5 Distribución Binomial Negativa ................................................................................................235
11.6 Distribución Geométrica ..........................................................................................................235
11.7 Distribución Multinomial .........................................................................................................236
11.8 Distribución Multihipergeométrica ..........................................................................................237
Distribuciones continuas....................................................................................................238
11.1 Distribución Uniforme ..............................................................................................................239
11.2 Distribución Normal .................................................................................................................240
11.3 Distribución Normal Estándar o Tipificada N (0, 1) ..................................................................241
Teorema central del límite ................................................................................................. 246
11.4 Distribución Exponencial..........................................................................................................249
11.5 Distribución Gamma ................................................................................................................250
11.6 Distribución Beta ......................................................................................................................252
11.7 Distribución Ji2 de Pearson ......................................................................................................252
11.8 Distribución t de Student ........................................................................................................253
11.9 Distribución F de Snedecor ......................................................................................................253
Ejercicios resueltos ........................................................................................................... 254
Ejercicios propuestos ........................................................................................................ 259

Capítulo 12
INFERENCIA ESTADÍSTICA .................................................................................................. 261
Estimación puntual ........................................................................................................... 261
Métodos de estimación puntual ....................................................................................... 262
Método de momentos (MO) ............................................................................................. 262
Método de máxima verosimilitud (MV): ........................................................................... 265
Sesgo ................................................................................................................................ 268
Eficiencia .......................................................................................................................... 269
Intervalos de confianza ..................................................................................................... 270
Intervalos de confianza para los parámetros de una distribución normal .......................... 272
Intervalo de confianza para la media de la distribución normal con varianza conocida....... 272
Intervalo de confianza para la media de la distribución normal con varianza desconocida . 272
Intervalo de confianza para la varianza de la distribución normal con media conocida....... 273
Intervalo de confianza para la varianza de la distribución normal con media desconocida . 274
Ejercicios resueltos ........................................................................................................... 274
Test de hipótesis (Prueba de hipótesis) ............................................................................. 276
12.1 Test (Prueba) ............................................................................................................................277
12.2 Elegir la zona de rechazo ..........................................................................................................227
La función de potencia ...................................................................................................... 277
Tipos de hipótesis a probar................................................................................................ 278
Prueba de hipótesis de nivel α para los parámetros de la distribución normal .................. 278
Prueba para la media cuando la varianza es conocida ........................................................ 278
Prueba para la media cuando la varianza es desconocida .................................................. 279
Prueba para la varianza cuando la media es desconocida .................................................. 280
Prueba de hipótesis de nivel aproximado (o asintótico) α para la media de una
distribución cualquiera ..................................................................................................... 281
Test de hipótesis de nivel aproximado (o asintótico) α para una proporción
(parámetro p de la distribución binomial) .......................................................................... 282
Ejercicios de resueltos ...................................................................................................... 283
Ejercicios de laboratorio ................................................................................................... 284
Ejercicios propuestos ......................................................................................................... 298
Apéndice: .......................................................................................................................... 301
Tabla distribución normal estándar.......................................................................................... 301
Tabla distribución ji-cuadrada ................................................................................................. 302
Tabla distribución t Student ..................................................................................................... 303
Tabla distribución F – Fisher Snedecor .................................................................................... 304
CAPÍTULO

1 Etapas de una investigación

Estadística es una ciencia utilizada para la toma de decisiones en situaciones de incertidumbre. Se encarga
de diseñar, recolectar, describir, analizar e interpretar la información y, por ello, constituye la metodología
científica principal que permite transformar datos en información. Esto la hace especialmente atractiva,
ya que en cualquier sociedad desarrollada existe una inmensa variedad de problemas cuya solución sólo
es posible mediante la utilización de técnicas estadísticas. La palabra estadística se deriva del vocablo
“estado”.

La estadística nos permite realizar inferencias y sacar conclusiones a partir de los datos. Extrayendo la
información contenida en los datos podremos comprender mejor las situaciones que ellos representan.
Los métodos estadísticos abarcan todas las etapas de la investigación, desde el diseño hasta el análisis
final de los datos.

Podemos distinguir tres grandes etapas:

Diseño: Planeamiento y desarrollo de las investigaciones.


Descripción: Resumen y exploración de los datos.
Inferencia: Predicciones y toma de decisiones sobre las características de una población en base a la
información recogida en una muestra de la población.

1. Diseño
En esta etapa se define cómo se desarrollará la investigación con el fin de responder las preguntas
que le dieron origen. Un diseño bien realizado puede ahorrar esfuerzos en etapas posteriores y
redundar en un análisis más sencillo. Esta etapa es crucial, pues un estudio pobremente diseñado o
con datos incorrectamente recolectados o registrados puede ser incapaz de responder las preguntas
que originaron el estudio.

Una vez formulado el problema, en la etapa de Diseño se definirá, entre otras cosas, la población
objetivo, los tamaños de muestra, los mecanismos de selección de individuos, los criterios de
inclusión y exclusión de sujetos, los métodos de asignación de tratamientos, las variables que se
medirán y cómo se entrenará al equipo de trabajo para el cumplimiento del protocolo.

2. Descriptiva
Los métodos de Análisis Exploratorio o Estadística Descriptiva ayudan a comprender la estructura de los datos,
a manera de detectar tanto un patrón de comportamiento general como apartamientos del mismo. Una
forma de realizar esto es mediante gráficos de sencilla realización e interpretación. Otra forma de describir
los datos es resumiéndolos en uno, dos o más números que caractericen al conjunto de datos con fidelidad.
Explorar los datos permitirá detectar los erróneos o inesperados y nos ayudará a decidir qué métodos
estadísticos pueden ser empleados en etapas posteriores del análisis para obtener conclusiones válidas.
18 ESTADÍSTICA PARA INGENIEROS

3. Inferencia
Finalmente, la Inferencia Estadística nos permite hacer predicciones y estimaciones como decidir
entre dos hipótesis opuestas relativas a la población de la cual provienen los datos (test de hipótesis).
La calidad de las estimaciones puede ser muy variada y está afectada por errores. La ventaja de
los métodos estadísticos es que, aplicados sobre datos obtenidos a partir de muestras aleatorias,
permiten cuantificar el error que podemos cometer en una estimación o calcular la probabilidad de
cometer un error al tomar una decisión en un test de hipótesis.
En este capítulo solo se abordará el diseño; la descripción e inferencia se desarrollarán en los
capítulos posteriores.

DISEÑO
Consiste en definir y calcular los valores de la población, muestra, unidad de estudio (individuo), las
variables, tamaño de muestra y tipo de muestreo del problema o experimento.
Comúnmente, los experimentos científicos producen observaciones o hallazgos que se expresan como
datos numéricos. Las mediciones que se obtienen de los sujetos bajo estudio constituyen los datos.
Generalmente, los datos son medidas de la variable. Los datos crudos u originales son aquellos datos
obtenidos directamente del experimento, es decir, no han sido sometidos a tratamiento estadístico.

POBLACIÓN
Conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el
fenómeno que se estudia. Representa una colección completa de elementos (sujetos, objetos, fenómenos
o datos) que poseen algunas características comunes. Es el conjunto de elementos más grande del cual
se puede tomar una muestra representativa para el experimento científico.
La población constituye el conjunto de elementos que forma parte del grupo de estudio, por tanto,
se refiere a todos los elementos que en forma individual podrían ser cobijados en la investigación. La
población la define el objetivo o propósito central del estudio y no estrictamente su ubicación o límites
geográficos, u otras características particulares al interior de ella.

MUESTRA
Constituye una selección al azar de una porción de la población, es decir, un subconjunto que
seleccionamos de la población.
La muestra, por otro lado, consiste también en un grupo reducido de elementos de dicha población, al cual
se le evalúan características particulares, generalmente, con el propósito de inferir tales características
a toda la población.

INDIVIDUO (Observación, Caso, Sujeto)


Cualquier elemento que aporte información sobre el fenómeno que se estudia. El elemento o individuo
muestral se refiere a la unidad más pequeña en que se puede descomponer una muestra.
Capítulo 1 : Etapas de una Investigación 19

VARIABLE
Es una característica de la población que le interesa al investigador y que puede tomar diferentes valores.
La variable es toda aquella propiedad de algún objeto, persona o evento que posee diferentes valores. El
término variable implica una característica que cambia.

Variable independiente: es la que habrá de ser manipulada en el experimento, es decir, aquella que
cambia y posee el potencial de afectar la variable dependiente. Por lo tanto, este tipo de variable es
controlada sistemáticamente por el investigador. Durante el experimento científico se busca hallar el
efecto que tienen una o más variables (independientes) sobre otras variables (dependientes).

Variable dependiente: se determina antes o después de haber tratado la variable independiente.


Representa la medida que se emplea para determinar el efecto de la variable independiente.

Variables cualitativas: son aquellas que se refieren a cualidades o atributos no medibles en números.
Por ejemplo, la variable ‘estado civil’ puede ser: casado, viudo, soltero.
Se subdivide a su vez en:

• Cualitativa Nominal: Surge cuando se definen categorías y se cuenta el número de observaciones


sin considerar el orden.
Por ejemplo, la variable ‘color de ojos’ puede ser: castaños, marrón, azul, etc.

• Cualitativa Ordinal: se tiene en cuenta el orden de acuerdo al grado que posee una determinada
característica.
Por ejemplo, la variable ‘estudio’ puede ser: 1º grado, 2º grado, 3º grado, etc.

Variables cuantitativa: son las susceptibles de medirse en términos numéricos. Se subdividen a su vez
en:

• Cuantitativas continuas. Pueden asumir cualquier valor (números reales).


Por ejemplo: estatura, peso, cantidad de colesterol, etc.

• Cuantitativas discretas. Asumen solo valores enteros (números enteros).


Por ejemplo: número de hijos, número de trabajadores, etc.

EJERCICIOS DE POBLACIÓN Y MUESTRA


EJERCICIO 1
Objetivo: Evaluar el precio de la vivienda en la ciudad de Lima.

Población: La población será el total de las viviendas de ciudad de Lima. Así, si se estudia el precio de
la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad
(sería una labor muy compleja).

Muestra: subgrupo o subconjunto de las viviendas de la ciudad de Lima seleccionadas aleatoriamente,


que se entienda que es suficientemente representativo.
20 ESTADÍSTICA PARA INGENIEROS

Individuo (Observación, Caso, Sujeto): una vivienda de dicha ciudad de Lima.

Variable: precio de la vivienda, tamaño, cantidad de habitaciones, ubicación, antigüedad, etc.


Variable independiente: tamaño de la vivienda, cantidad de habitaciones, ubicación, antigüedad.

Variable dependiente: precio de la vivienda (porque el precio depende de la ubicación, antigüedad,


tamaño, etc.)

Variables cualitativas: tamaño (grande, mediano, pequeño), ubicación (norte, centro, sur).

• Cualitativa Nominal: ubicación (norte, centro, sur).


• Cualitativa Ordinal: tamaño (grande, mediano, pequeño).

Variables cuantitativas:

• Cuantitativas continuas: precio (soles).


• Cuantitativas discretas: antigüedad (años), cantidad de habitaciones (Nº entero).

Una variable independiente se puede convertir en dependiente o viceversa; del mismo modo una
variable cualitativa se puede convertir en cuantitativa o viceversa.

EJERCICIO 2
Objetivo: evaluar la percepción de los estudiantes de un colegio en torno a los niveles de ruido que
existen en el plantel.

Población: está conformada por todos los estudiantes del colegio, incluidos aquellos de programas
diurnos y nocturnos.

Muestra: La muestra puede tomarse eligiendo al azar un puñado de alumnos con base en un archivo o
listado que contenga todos los códigos o nombres de los estudiantes.

Individuo (Observación, Caso, Sujeto): un alumno del colegio con base en un archivo o listado que
contenga todos los códigos o nombres de los estudiantes.

Variable: edad del alumno, género (masculino, femenino), peso del alumno, niveles de ruido, tipo de
ambiente, distancia del ambiente etc.

Variable independiente: edad del alumno, género (masculino, femenino), peso del alumno, tipo de
ambiente, distancia del ambiente.

Variable dependiente: niveles de ruido.

Variables cualitativas: género (masculino, femenino), tipo de ambiente (cerrado, despegado), niveles de
ruido.
Capítulo 1 : Etapas de una Investigación 21

Variables cuantitativas: edad y peso del alumno, distancia del ambiente (metros).

• Cuantitativas continuas: edad y peso del alumno, distancia del ambiente.


• Cuantitativas discretas: ninguna variable se ajusta a este tipo.

TAMAÑO DE MUESTRA (MUESTREO ALEATORIO SIMPLE)


En una investigación el tamaño de muestra es muy importante. Teniendo en cuenta que la calidad y
validez de los resultados de una investigación dependen del tamaño de muestra. Una demasiado grande
implica un desperdicio de recursos y una muestra demasiado pequeña disminuye la utilidad de los
resultados.

En nuestra investigación utilizaremos el Muestreo Aleatorio Simple (Raj, D): Teoría del Muestreo
El tamaño de muestra en el Muestreo Aleatorio Simple se calcula con la fórmula siguiente (Spigel. 1978:
161):

Donde:
n : Tamaño de muestra.
n₀ : Tamaño de muestra aproximado.
N : Tamaño de la población bajo Estudio.
Z : Valores correspondiente al nivel de Significancia.
E : Error de tolerancia de la estimación.
 : Nivel de significancia.
² : varianza de la variable.

1. El estudio de proporciones: la varianza es igual a PQ(²) donde P denota la proporción estimada o


esperada de la variable; si no se conoce tal valor, se reemplaza por 0.5 (P=1/2 y Q=1-P); la fórmula
quedaría de la siguiente manera:

2. Error muestral (E) o Error de Estimación: es el error a causa de observar una muestra en lugar de la
población completa. Este valor depende del investigador y se encuentra entre 0% y 10%; en algunas
ocasiones es mayor a 10%.
22 ESTADÍSTICA PARA INGENIEROS

3. El nivel de confianza: es la probabilidad a priori de que el intervalo de confianza a calcular contenga


al verdadero valor del parámetro. Se indica por 1-α y habitualmente se da en porcentaje (1-α)%. Los
valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%

4. Ejemplos de nivel de confianza ( Ver tabla en ápendice)


Para un nivel de confianza del 88%:
1-α=0.88, α=0.12 y α/2=0.06. Ver tabla de distribución normal: el valor 0.94 (1-α/2). Se observa
que para 0.9406 el valor en la fila es 1.5 y el valor en la columna es 0.06 que representa el segundo
decimal, entonces Z6%=1.56

Para un nivel de confianza del 98%:


1-α=0.98, α=0.02 y α/2=0.01. Ver tabla de distribución normal: el valor 0.99 (1-α/2). Se observa
que para 0.9906 el valor en la fila es 2.3 y el valor en la columna es 0.05 que representa el segundo
decimal, entonces Z(1%)=2.35

Para un nivel de confianza del 95%:


1-α=0.95, α=0.05 y α/2=0.025. Ver tabla de distribución normal: el valor 0.975 (1-α/2). Se observa
que para 0.975 el valor en la fila es 1.9 y el valor en la columna es 0.06 que representa el segundo
decimal, entonces Z(2.5%)=1.96

EJERCICIOS DE TAMAÑO DE MUESTRA

EJERCICIO 1
Problema: Se intenta estudiar el precio de la vivienda de la ciudad de Lima.

Solución:
Recoger información sobre todas las viviendas de la ciudad sería una labor muy compleja. Por tanto se
halla un tamaño muestra:

Datos:
Población (N): Desconocida entonces, N=∞.
P: Desconocido entonces, P=0.5 y Q=0.5
E: Este valor depende del investigador (recomendable=5%).
: Desconocido entonces,  = 5%; 1- = 95%; /2 = 2.5%, por tanto
Z5%= 1.96 (Tabla Normal).

n=?
Remplazando valores en la fórmula se tiene:
n₀= [(1.96)2 (0.5) 2 ]/[(0.05) 2]= 384.16

Luego:
n=(384.16)/(1+384.16/∞)=(384.16)/(1+0) = 384.16
Capítulo 1 : Etapas de una Investigación 23

Como nuestra unidad (sujeto, elemento) es una vivienda, se tomarán 384 viviendas de la ciudad de Lima
para realizar el estudio.

Observaciones:
• Cuando N=∞ se demuestra que n=n₀
• Muchos autores consideran el valor de Z5%= 2, donde α = 5%;

Entonces no= [(2)2 (0.5)2 ]/[(0.05)2 ]= 400


Como N=∞ se tiene que n₀= n= 400,

Este motivo origina que muchos estudios sencillos se realicen con tamaño de muestra igual 400.

EJERCICIO 2
Problema: Evaluar la percepción de los estudiantes de un colegio en torno a los niveles de ruido que
existen en el plantel conformado por 1,000 estudiantes, incluidos aquellos de programas diurnos y
nocturnos.

Solución:
Hallando el tamaño muestra:

Datos:
Población (N): N= 1000.
P: Desconocido entonces, P=0.5 y Q=0.5
E: Este valor depende del investigador (recomendable=5%)
: Desconocido entonces,  = 5%; 1- = 95%; /2 = 2.5%, por tanto
Z5%= 1.96 (Tabla Normal).

n=?

Remplazando valores en la fórmula se tiene:


n₀= [(1.96)2 (0.5) 2 ]/[(0.05)2 ]= 384.16

Luego:
n=(384.16)/(1+384.16/1000)=(384.16)/(1.38416) = 277.54

Como nuestra unidad (sujeto, elemento) es un alumno, se tomarán 288 alumnos del colegio para realizar
el estudio.

EJERCICIO 3
Problema: Se pretende determinar la prevalencia de una enfermedad en una población de 250 ovejas:
se supone una prevalencia del 30% y se desea una precisión del 10% para un nivel de confianza del 95%.

Solución:
Datos:
Población: N = 250 ovejas
24 ESTADÍSTICA PARA INGENIEROS

Unidad de estudio: una oveja


P=30% entonces Q=70%
E = 10%
 = 95%; = 5% ; /2 = 2.5% entonces;
Z₅% = 1.96 (Tabla Normal)
n= ?

Remplazando valores en la fórmula:


no = (1.96)2(0.30) (0.70) /(0.10) 2 = 80.67
Luego:
n = (80.67)/(1+80.67/250) =60.99

El tamaño de muestra será 61 ovejas.

EJERCICIO 4
Problema: Se pretende determinar el tiempo que demora un proceso penal en la Corte Superior de Lima
Norte, sabiendo que existen 7470 expedientes con proceso penal en la sede de la Corte Superior.

Solución:
Datos:
Población: N = 7470 expedientes
P=50% entonces Q=50%
E = 5%
 = 95%; = 5% ; /2 = 2.5% entonces;
Z₅% = 1.96 (Tabla Normal)
n= ?

Remplazando valores en la fórmula:


no = [(1.96)2(0.5)2]/[(0.5)2 ]= 384.16

Luego:
n =(384.16)/(1+384.16/7470) =365.37

El tamaño de muestra será 365 expedientes con proceso penal, para realizar el estudio.

n: cantidad de expedientes penales donde se realizará el estudio.


N: cantidad total de expedientes penales existentes en la sede de la Corte Superior.

TIPOS DE MUESTREO
Existen dos tipos: el muestreo por selección intencionada o muestreo de conveniencia y el muestro
aleatorio (probabilístico).
Capítulo 1 : Etapas de una Investigación 25

EL MUESTREO DE CONVENIENCIA
Consiste en la elección por métodos no aleatorios de una muestra cuyas características sean similares a
las de la población objetivo. En este tipo de muestreos la “representatividad” la determina el investiga-
dor de modo subjetivo, siendo este el mayor inconveniente del método ya que no podemos cuantificar
la representatividad de la muestra.

Casi siempre presenta sesgos y, por tanto, debe aplicarse únicamente cuando no existe alternativa. En
algunos casos, especialmente cuando se requiere una estrecha colaboración por parte de los ganaderos
o veterinarios de campo, es la única opción para que el estudio sea viable. Supongamos que queremos
realizar un estudio longitudinal consistente en tomar muestras de los animales de la explotación cada
mes o llevar diariamente registros determinados de la granja, para lo cual, la mejor opción será realizar el
estudio en granjas de confianza que permitan las manipulaciones y tengamos garantías de que el trabajo
se llevará a cabo correctamente.

También puede ser útil cuando se pretende realizar una primera prospección de la población o cuando
no existe un marco de la encuesta definido. Este tipo de muestreos puede incluir individuos próximos a
la media o no, pero casi nunca representará la variabilidad de la población, que normalmente quedará
subestimada.

MUESTREO ALEATORIO
En el muestreo aleatorio todos los elementos tienen la misma probabilidad de ser elegidos. Los indivi-
duos que formarán parte de la muestra se elegirán al azar mediante números aleatorios. Existen varios
métodos para obtenerlos, siendo los más frecuentes la utilización de tablas de números aleatorios o
generarlos por ordenador.

El muestreo aleatorio puede realizarse de distintas maneras, las más frecuentes son el muestreo simple,
el sistemático, el estratificado y el muestreo por conglomerados.

1. Muestreo aleatorio simple


Es el método conceptualmente más simple. Consiste en extraer todos los individuos al azar de una
lista (marco de la encuesta). En la práctica, a menos que se trate de poblaciones pequeñas o de
estructura muy simple, es difícil de llevarlo a cabo de forma eficaz.

2 . Muestreo estratificado
Consiste en la división previa de la población de estudio en grupos o clases que se suponen
homogéneos respecto a característica a estudiar. A cada uno de estos estratos se le asignaría una
cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro
de cada estrato se suele usar la técnica de muestreo sistemático, que es una de las más usadas en
la práctica. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los
estratos, existen dos técnicas de muestreo estratificado:
26 ESTADÍSTICA PARA INGENIEROS

2.1 Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a su tamaño


en la población.

Donde: Ni: Tamaño de Población del estrato ‘i’.


ni: Tamaño de muestra del estrato ‘i’.

2.2 Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más
variabilidad. Para ello es necesario un conocimiento previo de la población.

3. Muestreo sistemático
Se utiliza cuando el universo o población es de gran tamaño o ha de extenderse en el tiempo. En
este caso se elige el primer individuo al azar y el resto viene condicionado por aquél. Luego hay que
calcular una constante, que se denomina coeficiente de elevación K= N/n, donde N es el tamaño del
universo y n el tamaño de la muestra.

Para determinar la primera unidad muestral se debe producir la primera extracción, para ello hay
que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos
regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Esto quiere decir que si tenemos un determinado número de personas que es la población y
queremos escoger de esa población un número más pequeño, el cual es la muestra, dividimos el
número de la población por el número de la muestra que queremos tomar y el resultado de esta
operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del
intervalo, y a partir de este número escogemos los demás siguiendo el orden del intervalo.

4. Muestreo por conglomerados


Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan
completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe
una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra
más grande, pero suele simplificar la recogida de muestras. Frecuentemente los conglomerados se
aplican a zonas geográficas.

Técnica similar al muestreo por estadios múltiples. Se utiliza cuando la población se encuentra
dividida, de manera natural, en grupos que se supone contienen toda la variabilidad de la población,
es decir, la representan fielmente respecto a la característica a elegir. Pueden seleccionarse sólo
algunos de estos grupos o conglomerados para la realización del estudio. Cuando, dentro de cada
conglomerado, se extraen los individuos que formarán parte de la muestra por muestreo aleatorio
simple, el muestreo se llama bietápico.
Capítulo 1 : Etapas de una Investigación 27

Las ideas de estratificación y conglomerados son opuestas. El primer método funciona mejor cuanto
más homogénea es la población respecto del estrato, aunque más diferentes son estos entre sí. En el
segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben
ser muy parecidos entre sí. Recolección y organización de datos: una vez identificada la población
se procede a recoger los datos; en muchas ocasiones la población es muy grande y no sería posible
realizar la investigación totalmente con el fin de obtener todos los datos asignados a cada uno.

5. Muestreo mixto
Cuando la población es compleja, cualquiera de los métodos descritos pueden ser difíciles de aplicar;
en estos casos se aplica un muestreo mixto que combina dos o más de los anteriores sobre distintas
unidades de la encuesta.

6. Muestreo por estadios múltiples


Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia
o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra
con unidades distribuidas de tal forma que resultan de difícil acceso.
En el muestreo a estadios múltiples se subdivide la población en varios niveles ordenados que se
extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en
varias fases o extracciones sucesivas para cada nivel.

Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un país determinado,
éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y
unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de
las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo
lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias
seleccionadas en la primera extracción.

7. Muestreo por cuotas


Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar
es necesario dividir la población de referencia en varios estratos definidos por algunas variables de
distribución conocida (como el género o la edad). Posteriormente, se calcula el peso proporcional de
cada estrato, es decir,la parte proporcional de población que representan. Finalmente se multiplica
cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se
diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre
de elegir a los sujetos de la muestra dentro de cada estrato.

8. Muestreo de “bola de nieve”


Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto
entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios
entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos
necesarios estos sirven como localizadores de otros con características análogas.
28 ESTADÍSTICA PARA INGENIEROS

• Es diferente hallar el tamaño de muestra con elegir las muestras.


• Existes diferentes técnicas de muestro, por tanto el tamaño de muestra se puede hallar de
diferentes maneras teniendo presente el tipo de muestreo.
La muestra se puede elegir de diferentes maneras teniendo presente el tipo de muestreo. El
muestreo aleatorio puede realizarse de diversas formas, las más frecuentes son el muestreo
simple, el sistemático, el estratificado y el muestreo por conglomerados; de la combinación de las
mencionadas anteriormente nacen un sin número de muestreos.

EJERCICIOS DE TIPOS DE MUESTREO (ELEGIR LA MUESTRA)


EJERCICIO 1
Problema: Se pretende determinar la prevalencia de una enfermedad en una población de 250 ovejas:
se supone una prevalencia del 30% y se desea una precisión del 10% para un nivel de confianza del 95%.

El tamaño de muestra es 61 ovejas: Población(N)=250 ovejas, P=30%, E=10%, 1-=95%, Z₅%=1.96,


no=(1.96)²(0.3) (0.70)/(0.10)² =80.67. n=(80.67)/(1+80.67/250) =60.99.

Calculado el tamaño de muestra, esta se puede elegir utilizando los siguientes tipos de muestreo:

1. Muestreo Aleatorio Simple


Tamaño de muestra (n) = 61 ovejas
Población (N)=250 ovejas
La elección de la muestra se realiza de la siguiente manera:

A cada oveja se le asigna un número (del 1 al 250), luego se seleccionan al azar 61 ovejas entre la
oveja número 1 y la oveja 250 utilizando una tabla de números aleatorios o una computadora.

Representación gráfica del muestreo aleatorio simple: de las 250 ovejas se seleccionan al azar
(aleatorio) las 61 ovejas para realizar el estudio.

2. Muestreo Aleatorio Sistemático


Tamaño de muestra (n) = 61 ovejas
Población (N)=250 ovejas
Coeficiente de elevación K= N/n =250/61=4.09
Capítulo 1 : Etapas de una Investigación 29

A cada oveja se le asigna un número (del 1 al 250).


El valor de K=4.

Entonces elegimos en forma aleatoria un número entre 1 y 4; supongamos que resultó el número
3 (1,2,3,4) de modo que tomaremos la oveja número 3, y a continuación cada cuarto oveja de la
siguiente manera: 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15..., y así sucesivamente hasta completa la
muestra de 61 ovejas (oveja número ovejas).

Representación gráfica del muestreo sistemático: de las 250 ovejas se seleccionan sistemáticamente
las 61 ovejas (a las ovejas seleccionadas se les ha cambiado de color).

3. Muestreo Aleatorio Estratificado

La probabilidad de que una oveja esté enferma está directamente relacionada con la edad. En el
ejemplo anterior, se tiene que el 44% de las ovejas son de menos de 2 años, el 28% de las ovejas son
de 3 a 4 años, el 18% de las ovejas son de 5 a 6 años y el 10% son ovejas de más de seis años:
Solución:
Población (N)=250 ovejas.
Tamaño de muestra (n) = 61 ovejas (Muestra es igual a Tamaño de Muestra).

Existen 4 estratos y son los siguientes:

E₁: Ovejas de menos de 2 años, con Población = N₁ y Muestra = n₁


E₂: Ovejas de 3 a 4 años, con Población = N₂ y Muestra = n₂
E₃: Ovejas de 5 a 6 años, con Población = N₃ y Muestra = n₃
E₄: Ovejas de más de seis años, con Población = N₄ y Muestra = n₄

Aplicando asignación proporcional: El tamaño de la muestra en cada estrato es proporcional a su


tamaño en la población y la fórmula es la siguiente:

... (1)
30 ESTADÍSTICA PARA INGENIEROS

Donde:
Ni: Población del estrato ‘i’,
ni: Tamaño de muestra del estrato ‘i’

De la información se tiene que:


44% = N₁ /N ;
28% = N₂ /N ;
18% = N₃ /N ;
10% = N₄ /N

Remplazando los valores el tamaño de muestra en cada estrato según ecuación ( L )


n₁= 61(44%)= 27
n₂= 61(28%)= 17
n₃= 61(18%)= 11
n₄= 61(10%)= 6

Esto es, 27 ovejas del estrato 1, 17 ovejas de estrato 2, 11 ovejas de estrato 3 y 6 ovejas del estrato 4.

Este método evita que se tomen más individuos de un grupo que de los demás y esto pueda
condicionar el resultado.

Representación gráfica del muestreo estratificado con asignación proporcional al tamaño, es decir,
a población grande le corresponde tamaño de MUESTRA y a población pequeña le corresponde
tamaño de muestra pequeña.

Muestreo aleatorio por conglomerados


Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan
completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe
una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra más
grande, pero suele simplificar la recogida de muestras.
Capítulo 1 : Etapas de una Investigación 31

Representación gráfica del muestreo por conglomerados.

Muestreo mixto
Cuando se desea realiza un estudio más preciso, se pueden combinar los muestreos anteriormente
descritos. También puede suceder que la población bajo estudio sea compleja, entonces se puede
aplicar un muestreo mixto que combine dos o más muestreos anteriores.

EJERCICIO 2
Problema: se pretende determinar el tiempo que demora un proceso penal en la Corte Superior de Lima
Norte, sabiendo que existen 7470 expedientes con proceso penal en la sede de la Corte Superior.
Por el tema anterior se sabe que: el tamaño de muestras es: n =365 (N=7470; =5%; E=5%; p=0.5; q=0.5,
no=384)

Solución:
Tamaño de muestra (n) = 365 expedientes
Población (N)= 7470 expedientes

Además, realizando trabajo de campo se obtuvo la siguiente información de la cantidad de expedientes


en cada dependencia (Población de cada dependencia).

Dependencia Estratos Población


1º JUZGADO PENAL (Reos Libres) N₁ 914
2º JUZGADO PENAL (Reos Libres) N₂ 912
3º JUZGADO PENAL (Reos Libres) N₃ 696
4º JUZGADO PENAL (Reos Libres) N₄ 789
5º JUZGADO PENAL (Reos Libres) N₅ 814
6º JUZGADO PENAL (Reos Libres) N₆ 1395
7º JUZGADO PENAL (Reos Libres) N₇ 380
8º JUZGADO PENAL (Reos Libres) N₈ 127
9º JUZGADO PENAL (Reos Libres) N₉ 601
32 ESTADÍSTICA PARA INGENIEROS

10º JUZGADO PENAL (Reos Libres) N₁₀ 275


11º JUZGADO PENAL (Reos Libres) N₁₁ 71
12º JUZGADO PENAL (Reos Libres) N₁₂ 195
13º JUZGADO PENAL (Reos Libres) N₁₃ 301
Total N 7470

La selección de la muestra se realizará utilizando el muestreo estratificado porque se requiere una muestra
representativa para poder determinar el objetivo de estudio (tiempo de duración de un proceso).

• No se utiliza el muestreo aleatorio simple porque no es representativa, ya que en la muestra podrían


seleccionarse más expedientes de determinado juzgado.

• No se utiliza el muestreo por conglomerado porque no es representativa, ya que al seleccionarse


solo algunos juzgados perderíamos información relevante de los otros no seleccionados.

Muestreo estratificado
Existen 13 estratos desde el primer Juzgado al 13 Juzgado.

La elección de la muestra en cada estrato se realizará aplicando un reparto proporcional, porque se


puede observar algunos juzgados con elevado número de expedientes y otros con cantidades pequeñas
de expedientes. Para la proporcionalidad se aplica la fórmula siguiente:

Donde
Ni: Cantidad de expedientes de juzgado ‘i’ (Población ‘i’).
ni : Tamaño de muestra del juzgado ‘i’

Aplicando la fórmula para hallar la muestra del primer Juzgado Penal se tiene: n1=365(914/7470)=44.65=45

Aplicando la fórmula sucesivamente para hallar la muestra de los demás juzgados se tiene el cuadro
siguiente:
Capítulo 1 : Etapas de una Investigación 33

Dependencia Estrato Muestra


1º JUZGADO PENAL (Reos Libres) n₁ 45
2º JUZGADO PENAL (Reos Libres) n₂ 45
3º JUZGADO PENAL (Reos Libres) n₃ 34
4º JUZGADO PENAL (Reos Libres) n₄ 39
5º JUZGADO PENAL (Reos Libres) n₅ 40
6º JUZGADO PENAL (Reos Libres) n₆ 68
7º JUZGADO PENAL (Reos Libres) n₇ 19
8º JUZGADO PENAL (Reos Libres) n₈ 6
9º JUZGADO PENAL (Reos Libres) n₉ 29
10º JUZGADO PENAL (Reos Libres) n₁₀ 13
11º JUZGADO PENAL (Reos Libres) n₁₁ 3
12º JUZGADO PENAL (Reos Libres) n₁₂ 9
13º JUZGADO PENAL (Reos Libres) n₁₃ 15
Total N 365

Encontrado el tamaño de muestra para cada estrato, el siguiente paso es elegir las muestras que
participarán en el estudio.

Casi siempre se eligen las muestras en forma aleatoria, por ejemplo de los 914 expedientes del primer
Juzgado Penal se eligen al azar 45 expedientes. Para hacer el ejercicio más interesante utilizaremos la
elección sistemática.

Elección de la muestra en forma Sistemática


La selección de la muestra en forma sistemática se realizará en cada juzgado (estrato), por ejemplo:

El 12° Juzgado Penal tiene 195 expedientes, a cada expediente se le asigna un número: 1,2,3...195. Luego
se calcula el ccoeficiente K=N/n=195/10=19.5 (K=20), entonces elegimos en forma aleatoria un número
del 1 al 20, supongamos que resultó 9 (primera muestra elegida; 1,2,3,...8,9,10...20).

Ahora para las demás muestras, a la primera muestra seleccionada (9) se le suma K=20, y así hasta
completar el tamaño de muestra de 10 expedientes. Del modo siguiente: 1,2,...9,...,27,28,29,30,...,48,
49,50,...188,189,190,...195.

La muestra son los expedientes representados por los siguientes números 9, 29 , 49 , 69 , 89 , 109 , 129,
149 , 169 , 189 .

De esta forma se hace la elección de la muestra para los demás juzgados.


34 ESTADÍSTICA PARA INGENIEROS

EJERCICIOS PROPUESTOS
1).- Se quiere estimar la incidencia de la hipertensión arterial en el embarazo. Cuántas embarazadas
tenemos que observar para una confianza del 95%; estimar dicha incidencia con un error del 2% en
los siguientes casos:

• Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.


• Sin ninguna información previa.

2).- Un productor de semillas desea saber, con un error de estimación del 5%, el porcentaje de semillas
que germinan en la granja de su competidor. ¿Qué tamaño de muestra debe tomarse para obtener
un nivel de confianza del 95%? Con la muestra hallada realice una selección sistemática si se sabe
que M1, M2, M3 y M4, son los estratos de población (M1 es el doble de M4, M3 es el triple de M4,
mientras que M1 es la mitad de M2). Suponga usted el número ideal de los conglomerados en cada
estrato.

PILOTO
En lo posible debe realizar un piloto en campo de estudio, el mismo que consiste en realizar un
premuestreo que le permita familiarizarse con el lugar, las condiciones, el equipo, las personas, etc.
La función del premuestreo no es tomar datos útiles para la investigación, sino validar las condiciones
de muestreo frente a los objetivos propuestos: ¿qué variables incidentes hay? ¿qué población se debe
evaluar? ¿cuántas muestras deberían tomarse? ¿cuántos sujetos se deben entrevistar? ¿a qué condición
social o cultural pertenecen? etc.
CAPÍTULO

2 Estadística Descriptiva

La Estadística Descriptiva ayuda a comprender la estructura de los datos, pues detectan tanto un patrón
de comportamiento general como apartamientos del mismo. Una forma de realizar esto es mediante
gráficos de sencilla realización e interpretación. Otra forma de describir los datos es resumiéndolos
en uno, dos o más números que caractericen al conjunto de datos con fidelidad. Explorarlos permitirá
detectar datos erróneos o inesperados y nos ayudará a decidir qué métodos estadísticos pueden ser
empleados en etapas posteriores del análisis para obtener conclusiones válidas.

DISTRIBUCIÓN DE FRECUENCIA
Distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información
que se ha recogido sobre la variable que se estudia.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple (fi) Acumulada (Fi) Simple(hi) Acumulada (Hi)
X1 f1 F1=f1 h1 = f1/n H1=h1
X2 f2 F2=f1+ f2 h2 = f2/n H2=h1+ h2
. . . . .
. . . . .
X-1 fk-1 Fk-1=f1+ f2 +..+ fk-1 hk-1=fk-1/n Hk-1=h1+ h2 +..+ hk-1
Xk fK Fk =  fi=f1+f2+..+fk hk =fk /n Hk=hi=h1+h2+..+hK

Donde:
Xi : los distintos valores que puede tomar la variable. (i=1,2,3...k).
fi : el número de veces que se repite cada valor.
hi : el porcentaje que la repetición de cada valor supone sobre el total.
n : el número de observaciones realizadas.

Propiedades

i)

ii ) n = Fk
iii) hi = fi
n
iv)Hi = Fi /n
v )Hk=hi= h₁+h₂+..+hk = 1 = 100%
36 ESTADÍSTICA PARA INGENIEROS

Además:
fi : frecuencia absoluta simple.
Fi : frecuencia absoluta acumulado.
hi : frecuencia relativa simple.
Hi : frecuencia relativa acumulada.

EJEMPLO 1
Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm):

Alumno Estatura Alumno Estatura Alumno Estatura


Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21
Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29
Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26
Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22
Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28
Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27
Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26
Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23
Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22
Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21

a.- Construir una tabla de frecuencias para la información del cuadro anterior.

Solución:
Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia:

Donde:
n: el número de alumnos de la clase y su valor es de:

n=30
f₁ = 1, f2= 4, f3= 4, .....
  
ଵ ସ ସ
݄ଵ = =3.3% , ݄ଶ = =13.3% , ݄ଷ = =13.3%
ଷ଴ ଷ଴ ଷ଴

F₁ = 1 , F2= 5 , F3= 9 , ...


H₁= 3.3% , H2= 16.6% , H3= 30.0%
Capítulo 2 : Estadística Descriptiva 37

Tabla de frecuencias de los alumnos de una clase:

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

• Los valores más representativos son: 13.3% de alumnos de la clase tiene como talla 1.21 , 1.22 , 1.28
y un solo alumno tiene un talla de 1.20 que representa el 3.3% de todos los alumnos de la clase.

• En Laboratorio con el software PASW (Analizar – Estadísticas Descriptivas – frecuencias) se obtiene


el resultado siguiente:

• Frecuencia (Frecuencia Absoluta)


• Porcentaje (Frecuencia relativa)
• Porcentaje acumulado ( Frecuencia relativa acumulada)

Ejemplo 2
Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de petróleo:
229, 232, 239, 232, 259, 361, 220, 260, 231, 229, 249, 254, 257, 214, 237, 253, 274, 230, 223, 253, 195,
269, 231, 268, 189, 290, 218, 313, 220, 270, 277, 375, 222, 290, 231, 258, 227, 269, 220, 224.
38 ESTADÍSTICA PARA INGENIEROS

a.- Construir una tabla de frecuencias.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
189 1 1 2.50% 2.50%
195 1 2 2.50% 5.00%
214 1 3 2.50% 7.50%
218 1 4 2.50% 10.00%
220 3 7 7.50% 17.50%
222 1 8 2.50% 20.00%
223 1 9 2.50% 22.50%
224 1 10 2.50% 25.00%
227 1 11 2.50% 27.50%
229 2 13 5.00% 32.50%
230 1 14 2.50% 35.00%
231 3 17 7.50% 42.50%
232 2 19 5.00% 47.50%
237 1 20 2.50% 50.00%
239 1 21 2.50% 52.50%
249 1 22 2.50% 55.00%
253 2 24 5.00% 60.00%
254 1 25 2.50% 62.50%
257 1 26 2.50% 65.00%
258 1 27 2.50% 67.50%
259 1 28 2.50% 70.00%
260 1 29 2.50% 72.50%
268 1 30 2.50% 75.00%
269 2 32 5.00% 80.00%
270 1 33 2.50% 82.50%
274 1 34 2.50% 85.00%
277 1 35 2.50% 87.50%
290 2 37 5.00% 92.50%
313 1 38 2.50% 95.00%
361 1 39 2.50% 97.50%
375 1 40 2.50% 100.00%
Total 40 100.00%

La frecuencia absoluta más representativa es 3, es decir que tres tanques de petroleo pesan 220. La
frecuencia relativa es 7.5%
Capítulo 2 : Estadística Descriptiva 39

Las tablas de frecuencia nos permiten tomar decisiones respecto de un grupo de datos . Es decir el
porcentaje será quien decida que grupos de datos es más o menos representativo.

Con el software PASW (Analizar/Estadísticas Descriptivas/frecuencias) se obtiene el resultado siguiente:


Peso de tanques de petróleo.

Frecuencia Percent Valid Percent Cumulative Percent


Valid 189 1 2,5 2,5 2,5
195 1 2,5 2,5 5,0
214 1 2,5 2,5 7,5
218 1 2,5 2,5 10,0
220 3 7,5 7,5 17,5
222 1 2,5 2,5 20,0
223 1 2,5 2,5 22,5
224 1 2,5 2,5 25,0
227 1 2,5 2,5 27,5
229 2 5,0 5,0 32,5
230 1 2,5 2,5 35,0
231 3 7,5 7,5 42,5
232 2 5,0 5,0 47,5
237 1 2,5 2,5 50,0
239 1 2,5 2,5 52,5
249 1 2,5 2,5 55,0
253 2 5,0 5,0 60,0
254 1 2,5 2,5 62,5
257 1 2,5 2,5 65,0
258 1 2,5 2,5 67,5
259 1 2,5 2,5 70,0
260 1 2,5 2,5 72,5
268 1 2,5 2,5 75,0
269 2 5,0 5,0 80,0
270 1 2,5 2,5 82,5
274 1 2,5 2,5 85,0
277 1 2,5 2,5 87,5
290 2 5,0 5,0 92,5
313 1 2,5 2,5 95,0
361 1 2,5 2,5 97,5
375 1 2,5 2,5 100,0
Total 40 100,0 100,0
40 ESTADÍSTICA PARA INGENIEROS

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces
conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy
extensa que aportaría muy poco valor a efectos de síntesis (tal como se verá en la siguiente lección).

DISTRIBUCIONES DE FRECUENCIA AGRUPADA


Es una tabla donde los valores originales se clasifican en intervalos de clase.

Ejemplo 1
Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes
resultados (cm):

Habitante Estatura Habitante Estatura Habitante Estatura


Habitante 1 1,15 Habitante 11 1,53 Habitante 21 1,21
Habitante 2 1,48 Habitante 12 1,16 Habitante 22 1,59
Habitante 3 1,57 Habitante 13 1,60 Habitante 23 1,86
Habitante 4 1,71 Habitante 14 1,81 Habitante 24 1,52
Habitante 5 1,92 Habitante 15 1,98 Habitante 25 1,48
Habitante 6 1,39 Habitante 16 1,20 Habitante 26 1,37
Habitante 7 1,40 Habitante 17 1,42 Habitante 27 1,16
Habitante 8 1,64 Habitante 18 1,45 Habitante 28 1,73
Habitante 9 1,77 Habitante 19 1,20 Habitante 29 1,62
Habitante 10 1,49 Habitante 20 1,98 Habitante 30 1,01

Solución:
Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una
para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del
3,3%.

Esta tabla nos aportaría escasa información. En lugar de ello, preferimos agrupar los datos por intervalos,
con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más
manejable e informativa.
Capítulo 2 : Estadística Descriptiva 41

Tabla de distribución de frecuencias agrupadas.

Estatura (cm) Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
1,01 - 1,10 1 1 3,3% 3,3%
1,11 - 1,20 3 4 10,0% 13,3%
1,21 - 1,30 3 7 10,0% 23,3%
1,31 - 1,40 2 9 6,6% 30,0%
1,41 - 1,50 6 15 20,0% 50,0%
1,51 - 1,60 4 19 13,3% 63,3%
1,61 - 1,70 3 22 10,0% 73,3%
1,71 - 1,80 3 25 10,0% 83,3%
1,81 - 1,90 2 27 6,6% 90,0%
1,91 - 2,00 3 30 10,0% 100,0%

Límite inferior 1 (LI₁) =1.01; límite superior 1 (LS₁) =1.10

Límite inferior 2 (LI₂) =1.11; límite superior 2 (LS₂) =1.20


…..
Límite inferior 10 (LI₁₀) =1.91; límite superior 10 (LS10) =2

El número intervalos de clase y el tamaño del intervalo (amplitud de clase) ,


En los que se agrupa la información, es una decisión que debe tomar el analista: la regla es que mientras
más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa
sea la tabla. Una distribución agrupada es responsabilidad exclusiva del investigador o analista.

NÚMEROS DE INTERVALOS DE CLASE:

Un método utilizado antiguamente para hallar el número de intervalos, que solo sirve para cuestiones
de practicas, es el siguiente:


‫ ܭ‬ൌ ξ݊ ǡ ‫ ݊݅ݏ‬൒ ʹͷ

Donde:neseltamañodemuestra.

TambiénpuedeutilizarlafórmuladeSturgen:

‫ ܭ‬ൌ ͳ െ ͵Ǥʹʹ݈‫݃݋‬ଵ଴ ሺ݊ሻ
42 ESTADÍSTICA PARA INGENIEROS

TAMAÑO DEL INTERVALO ( AMPLITUD DE CLASE) :



Ahora,paracalculareltamañodelintervalo(amplituddeclase):

ܴ
‫ܥ‬ൌ 
݇

Donde:
K: intervalo de clase.
R: rango = valor máximo – valor mínimo.
C: amplitud de clase.

Ejemplo 2
Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de petróleo:
229, 232, 239, 232, 259, 361, 220, 260, 231, 229, 249, 254, 257, 214, 237, 253, 274, 230, 223, 253, 195,
269, 231, 268, 189, 290, 218, 313, 220, 270, 277, 375, 222, 290, 231, 258, 227, 269, 220, 224.

Solución:
K: intervalo de clase.
R: rango = valor máximo – valor mínimo.
C: amplitud de clase.

N=40

‫ ܭ‬ൌ ξͶͲ ൌ ͸Ǥ͵ʹ ‫ ؠ‬͸

R=375Ͳ189=186

Ahora,paracalculareltamañodelintervalo(amplituddeclase):

ܴ ͳͺ͸
‫ܥ‬ൌ ൌ ൌ ͵ͳ
݇ ͸

Tabla de distribución de frecuencias agrupadas:

Estatura (cm) Frecuencias absolutas Frecuencias relativas


Intervalos Simple Acumulada Simple Acumulada
[189 - 220> 4 4 10.00% 10.00%
[220 - 251> 18 22 45.00% 55.00%
[251 - 282> 13 35 32.50% 87.50%
[282 - 313> 2 37 5.00% 92.50%
[313 - 344> 1 38 2.50% 95.00%
[344 – 375] 2 40 5.00% 100.00%
Capítulo 2 : Estadística Descriptiva 43

Donde:
Límite inferior 1 (LI₁) =189; límite superior 1 (LS₁) =220
Límite inferior 2 (LI₂) =220; límite superior 2 (LS₂) =251
…..
Límite inferior 6 (LI₆) =344; límite superior 6 (LS₆) =375
La amplitud también se puede calcular: Ci=LSiͲLIi

MEDIDAS DE POSICIÓN
Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando y nos
permiten conocer sus diversas características.

Las medidas de posición son de dos tipos:

Medidas de posición central: informan sobre los valores medios de la serie de datos.
Medidas de posición no centrales: informan de cómo se distribuye el resto de los valores de la serie.

MEDIDAS DE POSICIÓN CENTRAL


Las principales medidas de posición central son las siguientes:

1.- Media
Es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo
las más utilizadas:

1.1 Media aritmética

Media aritmética datos no agrupados:


Supongamos que tenemos un conjunto de n datos que genéricamente representaremos por: X₁,
X₂,….., Xn. La media aritmética es la suma de todas las observaciones divididas por el número
total de datos.
σ௡௜ୀଵ ܺ௜
ܺത ൌ 
݊
Ejemplo:
Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de
petróleo.
229, 232, 239, 232, 259, 361, 220, 260, 231, 229, 249, 254, 257, 214, 237, 253, 274, 230, 223,
253, 195, 269, 231, 268, 189, 290, 218, 313, 220, 270, 277, 375, 222, 290, 231, 258, 227, 269,
220, 224.

Remplazando valores en la fórmula se tiene:


ʹʹͻ ൅ ʹ͵ʹ ൅ ‫ ڮ‬൅ ʹʹͶ
ܺത ൌ ൌ ʹͶͻǤͺ
ͶͲ
44 ESTADÍSTICA PARA INGENIEROS

Media aritmética datos agrupados:


se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos
estos productos se divide por el total de datos de la muestra:

σ௡௜ୀଵ ݂௜ ܺ௜
ܺത ൌ ൌ ෍ ݄௜ ܺ௜ 
݊
௜ୀଵ

Ejemplo:
Vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los alumnos.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Solución:
Remplazando valores en la fórmula se tiene:

ሺͳǤʹͲሻሺͳሻ ൅ ሺͳǤʹͳሻሺͶሻ ൅ ‫ ڮ‬൅ ሺͳǤ͵Ͳሻሺ͵ሻ


ܺത ൌ ൌ ͳǤʹͷ͵
͵Ͳ

MARCA DE CLASE :
La marca de clase se calcula con la siguiente formula :
LSiͲLIi

Donde:
LSi =Límite Superior "i"
LIi = Límite Inferior "i"

Ejemplo :
Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de
petróleo.
Capítulo 2 : Estadística Descriptiva 45

Tabla de distribución de frecuencias agrupadas:

Estatura (cm) Marca de clase Frecuencias absolutas Frecuencias relativas


Intervalos X´i Simple Acumulada Simple Acumulada
[189 - 220> 204.5 4 4 10.00% 10.00%
[220 - 251> 235.5 18 22 45.00% 55.00%
[251 - 282> 266.5 13 35 32.50% 87.50%
[282 - 313> 297.5 2 37 5.00% 92.50%
[313 - 344> 328.5 1 38 2.50% 95.00%
[344 – 375] 359.5 2 40 5.00% 100.00%

Solución:

Cuandolosdatossonintervalossedebecalcularlamarcadeclaseconlasiguientefórmula:

2

Setieneque

X`1=204.5
X`2=235.5;…
X`6=259.5

Luego:
ሺʹͲͶǤͷሻሺͶሻ ൅ ሺʹ͵ͷǤͷሻሺͳͺሻ ൅ ‫ ڮ‬൅ ሺ͵ͷͻǤͷሻሺʹሻ
ܺത ൌ ൌ ʹͷͶǤͳ
ͶͲ

1.2 Media geométrica:

Media geométrica datos no agrupados:


Supongamos que tenemos un conjunto de n datos que genéricamente representaremos por: X1,
X2,….., Xn. La media geométrica es producto de todas las observaciones; al resultado final se le
calcula la raíz ‘n’.

ഥ ൌ ౤ඥଵ ‫ כ‬ଶ ‫ כ‬ǥ ‫ כ‬୬ 




Ejemplo:
Se tiene la siguiente información 1, 4, 8, 10, 15. Se pide calcular la media geométrica.

Solución:

ഥ ఱ
 ൌ ξͳ ‫ כ‬Ͷ ‫ כ‬ͺ ‫ͳ כ Ͳͳ כ‬ͷ =5.45
46 ESTADÍSTICA PARA INGENIEROS

Media geométrica datos agrupados:


Se eleva cada valor al número de veces que se ha repetido. Se multiplican todos estos resultados
y al producto final se le calcula la raíz ‘n’ (siendo ‘n’ el total de datos de la muestra).


୤ ୤ ୤

 ൌ ටଵభ ‫ כ‬ଶమ ‫ כ‬ǥ ‫ כ‬୩ౡ 

Ejemplo:
Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de
petróleo.

Tabla de distribución de frecuencias agrupadas.

Estatura (cm) Marca de clase Frecuencias absolutas Frecuencias relativas


Intervalos X´i Simple Acumulada Simple Acumulada
[189 - 220> 204.5 4 4 10.00% 10.00%
[220 - 251> 235.5 18 22 45.00% 55.00%
[251 - 282> 266.5 13 35 32.50% 87.50%
[282 - 313> 297.5 2 37 5.00% 92.50%
[313 - 344> 328.5 1 38 2.50% 95.00%
[344 – 375] 359.5 2 40 5.00% 100.00%

Solución:

రబ

 ൌ ටʹͲͶǤͷସ ‫͵ʹ כ‬ͷǤͷଵ଼ ‫ כ‬ǥ ‫͵ כ‬ͷͻǤͷଶ =251.88

1.3 Media armónica


Supongamos que tenemos un conjunto de n datos que genéricamente representaremos por: X1,
X2,….., Xk, asociadas a las frecuencias absolutas f1, f2,….., fk, respectivamente. La media armónica
está dado por:

 

Š ൌ ൌ 
ˆଵ ˆଶ ˆ୩ ˆ
൅ ൅ ‫ڮ‬൅ σ୩୧ୀଵ ୧
ଵ  ଶ ୩ ୧

Ejemplo:
Hallar la media armónica de la siguiente información 3, 6,9.

Solución:
͵
ഥŠ ൌ
 ൌ ͶǤͻ
ͳ ͳ ͳ
൅ ൅
͵ ͸ ͻ
Capítulo 2 : Estadística Descriptiva 47

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media
geométrica o la media armónica.
La media geométrica se suele utilizar en series de datos como tipos de interés anual, inflación,
etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores.
En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más positivo
de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde
ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética,
geométrica y armónica), se puede ver muy influido por valores extremos que se aparten en
exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor
de la media, perdiendo ésta representatividad.

2.- Mediana

Es el valor de la serie de datos ordenados ascendente o descendente que se sitúa justamente en el


centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).

Mediana datos simples:


Supongamos que tenemos un conjunto de n datos que genéricamente representaremos por: X₁,
X₂,….., Xn. La mediana se calcula:

Si ‘n’ es impar:
La mediana será el valor de la variable que ocupa la posición (n+1)/2, esto es:
‫ ݁ܯ‬ൌ ܺ೙శభ 

Ejemplo:
Supongamos que los datos son: 3, 5, 2, 4, 6 , 8, 7, 7, 6

Solución:
Ordenamoslamuestra:2345 6 6778
Ademásn=9

Lamedianaes:

‫ ݁ܯ‬ൌ ܺ೙శభ ൌ ܺవశభ ൌ ܺହ =6


మ మ

Si ‘n’ es par:
La mediana será la media aritmética de los valores de las variables que ocupan las posiciones n/2 y
n/2+1, esto es:
௑೙ ௑೙
శ మ శభ

‫ ݁ܯ‬ൌ 

48 ESTADÍSTICA PARA INGENIEROS

Ejemplo:
Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7

Solución:
Ordenamoslamuestra:234 5  6 778;n=8

Lamedianaes:
௑೙ ௑೙ ௑ఴ ௑ఴ
శ శభ శ శభ X4+X5 = 5+6 = 5.5
‫ ݁ܯ‬ൌ మ మ
ൌ మ మ

ଶ ଶ 2 2

Mediana datos con intervalos:
Es el valor que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y
otro 50% son superiores).

‫ ݁ܯ‬ൌ ܳଶ ൌ ܲହ଴ 
Q₂: Cuartil dos.
P₅₀: Percentil cincuenta.

Los cuartiles y percentiles se verán más adelante, cuando definamos las medidas de tendencia no
central.

3.- Moda

Moda datos simples:


Es el valor que más se repite en la muestra.
Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los
alumnos.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Capítulo 2 : Estadística Descriptiva 49

Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta serie cuenta
con 3 modas y se llama Trimodal.

Moda datos con intervalos:


Se encuentra en el intervalo que tiene mayor frecuencia absoluta.
οభ
‫ ݋ܯ‬ൌ  ୑୭ ൅ ୑୭ ቂο ቃ
భ ାοమ

Donde:
LIMo:Límiteinferiordelaclasemodal.
CMo:amplituddelaclasemodal.
οଵ ൌ ݂ெ௢ െ ݂ெ௢ିଵ 
fMo:frecuenciadelaclasemodal.
fMoͲ1:frecuenciadelaclase,anterioralaclasemodal.

οଶ ൌ ݂ெ௢ െ ݂ெ௢ାଵ 
fMo:frecuenciadelaclasemodal.
fMoͲ1:frecuenciadelaclase,posterioralaclasemodal.

Ejemplo:
Determinar la moda de la siguiente información:

Intervalos de clase fi
[0,1 > 3
[1,2 > 10
[2,3 > 17 ←fMO
[3,4 > 8
[4,5 > 5
Total 4
3

La moda se encuentra en el intervalo [2,3>, porque es el que tiene mayor frecuencia (17). Calculando
el valor de la moda:

LIMo=2;CMo=3Ͳ2=1
οଵ ൌ ݂ெ௢ െ ݂ெ௢ିଵ ൌ ͳ͹ െ ͳͲ ൌ ͹
οଶ ൌ ݂ெ௢ െ ݂ெ௢ାଵ ൌ ͳ͹ െ ͺ ൌ ͻ

οభ ͹
‫ ݋ܯ‬ൌ  ୑୭ ൅ ୑୭ ቂο ቃ ൌ ʹ൅ͳ൤ ൨ ൌ ʹǤͶͶ
భ ାοమ ͹൅ͻ
OBSERVACIÓN:
Si la información tiene dos modas recibe el nombre de bimodal y si tiene más de dos se les llama
multimodal.
50 ESTADÍSTICA PARA INGENIEROS

MEDIDAS DE POSICIÓN NO CENTRAL


Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución
que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que
dividen la muestra en tramos iguales:

1. Cuartiles (Q)
Son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
cuatro tramos iguales en los que cada uno de ellos concentra el 25% de los datos.

0%25%50%75%  100%
Q1Q2 Q3 

Donde:
Q₁: 1º Cuartil
Q₂: 2º Cuartil
Q₃: 3º Cuartil

2. Deciles (D):
Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez
tramos iguales en los que cada uno de ellos concentra el 10% de los resultados.
0% 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 %

D1 D2 D3 D4 D5 D6 D7 D8 D9

3. Percentiles (P):
Son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien
tramos iguales en los que cada uno de ellos concentra el 1% de los resultados.

Datos agrupados:

0% 1% 2% 3% 4% 97 % 98 % 99 % 100 %

P1 P2 P3 P4 P97 P98 P99

Para datos con intervalos de clase se utiliza la siguiente fórmula:

࢏Τ૚૙૙ െ ࡴ࢑ି૚
ࡼ࢏ ൌ ࡸࡵࡼ࢏ ൅ ࡯ࡼ࢏ ቈ ቉ ǥ Ǥ ሺ૚ሻ
ࡴ࢑ െ ࡴ࢑ି૚

LIpi= límite inferior de la clase que contiene a Pi (i=1,2,3,4……99).


Cpi = amplitud de clase que contienen a Pi
Hk= frecuencia relativa acumulada de la clase que contiene a Pi
Hk-1= frecuencia relativa acumulada de la clase anterior a la clase que contiene a Pi
Capítulo 2 : Estadística Descriptiva 51

Importante: La fórmula anterior (1) se utiliza para calcular la mediana, cuartiles, deciles, percentiles
y cualquier otra medida que usted pueda crear, como por ejemplo los pentiles son cuatro valores que
distribuyen la serie de datos en cinco tramos iguales, en los que cada uno de ellos concentra el 20%
de los resultados.

Tener presente las siguientes equivalencias:

P1…...P10……….P20.…P25……………………………..P50………….……………………P75
D1D2Q1 Q2   Q3
 Me
 D5

P₁₀=D1
P20=D2
P₂₅ =Q1
P₅₀=Q2= Me (Mediana) = D 5
P₇₅ =Q3

Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

1º cuartil: es el valor 1,22 cm, ya que por debajo se sitúa el 25% de la frecuencia (tal como se puede
ver en la columna de la frecuencia relativa acumulada).

2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa otro 25% de la frecuencia.

3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro 25% de la frecuencia.
Además, por encima suyo queda el restante 25% de la frecuencia.
52 ESTADÍSTICA PARA INGENIEROS

Atención: Cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre
en el ejemplo en los tres cuartiles), la medida de posición no central sería realmente una de las
repeticiones.

Ver ejercicios resueltos 1 y 2

MEDIDAS DE DISPERSIÓN
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos
concentrados o más o menos dispersos.

Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:

1.- Rango:
Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado
y el valor más bajo.
Rango = valor máximo – valor mínimo

ܴ ൌ ܺ௠á௫ െ ܺ௠í௡ 

2.- Varianza:
Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de
las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que
se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra. La varianza
siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores
de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos
están.

i) En una muestra:

En una tabla de distribución de frecuencias:


σೖ ത మ
೔సభ ௙೔ ሾ௑೔ ି௑ሿ
ܵ ଶ ൌ 
௡ିଵ

Datos simples:

σ௡௜ୀଵሾܺ௜ െ ܺതሿଶ
ܵଶ ൌ 
݊െͳ
Capítulo 2 : Estadística Descriptiva 53

ii) En la población:
En una tabla de distribución de freceuncias:

σೖ ത ሿమ
೔సభ ௙೔ ሾ௑೔ ିμ
ߪ ଶ ൌ 

Datos simples:

iii)Fórmula utilizada
Pero normalmente una muestra se puede convertir en una población, debido a esto siempre se
utiliza la siguiente fórmula de la varianza en una muestra:

En una tabla de distribución de frecuencias:

σೖ ത మ
೔సభ ௙೔ ሾ௑೔ ି௑ሿ
ܵ ଶ ൌ ൌ σ௞௜ୀଵ ݄௜ ሾܺ௜ െ ܺതሿଶ 

Datos simples:

σ೙ ത మ
೔సభሾ௑೔ ି௑ሿ
ܵଶ ൌ 

3.- Desviación típica o Desviación Estándar:


Se calcula como raíz cuadrada de la varianza en cualquiera de los casos anteriores.

4.- Coeficiente de variación de Pearson:


Se calcula como cociente entre la desviación típica y la media.
ܵ
‫ܥ‬Ǥ ܸǤ ൌ 
ܺത
Ejemplo:
Vamos a utilizar la serie de datos de la estatura de los alumnos de una clase, y vamos a calcular sus
medidas de dispersión.
54 ESTADÍSTICA PARA INGENIEROS

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Rango: diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango
de esta muestra es 10 cm.

Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula:
Por lo tanto, la varianza es 0,0010

σ೑೔ሾ௑೔ ି௑തሿమ
ܵଶ ൌ 

Desviación típica: es la raíz cuadrada de la varianza.

Luego: 0.0320

Coeficiente de variación de Pearson: Se calcula como cociente entre la desviación típica y la media
de la muestra.
Luego,
Cv = 0,0255

El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de
dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene expresada en las
mismas unidades que los datos de la serie.

Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos
de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas
(una viene expresada en cm. y la otra en kg). En cambio, sus coeficientes de variación son porcentajes,
por lo que sí se pueden comparar.
Capítulo 2 : Estadística Descriptiva 55

Ver ejercicios resuelto 1 y 2

MEDIDAS DE FORMA
Las medidas de forma permiten conocer qué forma tiene la curva que representa la serie de datos de la
muestra. En concreto, podemos estudiar las siguientes características de la curva:

Concentración: mide si los valores de la variable están más o menos uniformemente repartidos a lo largo
de la muestra.

Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro
de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.

Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los valores
medios de la muestra.

1. Concentración
Para medir el nivel de concentración de una distribución de frecuencia se pueden utilizar distintos
indicadores, entre ellos el Índice de Gini.

Este índice se calcula aplicando la siguiente fórmula:



σ௞ିଵ
௜ୀଵ ሾ‫݌‬௜ െ ‫ݍ‬௜ ሿ
‫ ܩܫ‬ൌ 
σ௞ିଵ
௜ୀଵ ‫݌‬௜

En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior
al de xi.

pi =Hi*100

Mientras que qi se calcula aplicando la siguiente fórmula:

ܺଵ ‫݂ כ‬ଵ ൅ ܺଶ ‫݂ כ‬ଶ ൅ ‫ ڮ‬൅ ܺ௜ ‫݂ כ‬௜


‫ݍ‬௜ ൌ ൤ ൨ ‫ͲͲͳ כ‬
ܺଵ ‫݂ כ‬ଵ ൅ ܺଶ ‫݂ כ‬ଶ ൅ ‫ ڮ‬൅ ܺ௡ ‫݂ כ‬௡

El Índice Gini (IG) puede tomar valores entre 0 y 1:

IG = 0: concentración mínima. La muestra está uniformemente repartida a lo largo de todo su rango.


IG = 1: concentración máxima. Un sólo valor de la muestra acumula el 100% de los resultados.
56 ESTADÍSTICA PARA INGENIEROS

Ejemplo:
Vamos a calcular el Índice Gini de una serie de datos con los sueldos de los empleados de una
empresa (millones pesetas).

Sueldos Empleados (Frecuencias absolutas) Frecuencias relativas


(Millones) Simple Acumulada Simple Acumulada
3,5 10 10 25,0% 25,0%
4,5 12 22 30,0% 55,0%
6,0 8 30 20,0% 75,0%
8,0 5 35 12,5% 87,5%
10,0 3 38 7,5% 95,0%
15,0 1 39 2,5% 97,5%
20,0 1 40 2,5% 100,0%

Calculamos los valores que necesitamos para aplicar la fórmula del Índice de Gini:

Xi fi Fi pi Xi * fi Σ( Xi * fi) qi pi - qi
3,5 10 10 25,0 35,0 35,0 13,6 10,83
4,5 12 22 55,0 54,0 89,0 34,6 18,97
6,0 8 30 75,0 48,0 147,0 57,2 19,53
8,0 5 35 87,5 40,0 187,0 72,8 15,84
10,0 3 38 95,0 30,0 217,0 84,4 11,19
15,0 1 39 97,5 15,0 232,0 90,3 7,62
25,0 1 40 100,0 25,0 257,0 100,0 0

Por lo tanto:

Σpi=435 y Σ(pi- qi) = 83.68


IG = 83,68 / 435 = 0,19

Un Índice Gini de 0,19 indica que la muestra está bastante uniformemente repartida, es decir, su nivel de
concentración no es excesivamente alto.

Ejemplo:
Ahora vamos a analizar nuevamente la muestra anterior, pero considerando que hay más personal de
la empresa que cobra el sueldo máximo, lo que conlleva mayor concentración de renta en unas pocas
personas.
Capítulo 2 : Estadística Descriptiva 57

Sueldos Empleados (Frecuencias absolutas) Frecuencias relativas


(Millones) Simple Acumulada Simple Acumulada
3,5 10 10 25,0% 25,0%
4,5 10 20 25,0% 50,0%
6,0 8 28 20,0% 70,0%
8,0 5 33 12,5% 82,5%
10,0 3 36 7,5% 90,0%
15,0 0 36 0,0% 90,0%
20,0 4 40 10,0% 100,0%

En este caso obtendríamos los siguientes datos:

Xi fi SFi pi Xi * fi S Xi * fi qi pi - qi
3,5 10 10 25,0 35 35 11,7 13,26
4,5 10 20 50,0 45 80 26,8 23,15
6,0 8 28 70,0 48 128 43,0 27,05
8,0 5 33 82,5 40 168 56,4 26,12
10,0 3 36 90,0 30 198 66,4 23,56
15,0 0 36 90,0 0 198 66,4 23,56
25,0 4 40 100,0 100 298 100,0 0,00

Σpi=407.5 y Σ(pi- qi) =139.69

El Índice Gini sería: IG = 136,69 / 407,5 = 0,34

El Índice Gini se ha elevado considerablemente, reflejando la mayor concentración de rentas que


hemos comentado.

2. Asimetría
El concepto de asimetría se refiere a la curva que forman los valores de la serie de datos; presenta la
misma forma a izquierda y derecha de un valor central (media aritmética) y se calcula de la siguiente
manera:

ܺത െ ‫͵ ݋ܯ‬ሺܺത െ ‫݁ܯ‬ሻ
‫ܣ‬௦ ൌ ൌ 
ܵ ܵ

Donde

ܺത:mediaaritmética.
Mo:moda.
Me:mediana.
S:desviaciónestándaródesviacióntípica.
58 ESTADÍSTICA PARA INGENIEROS

Simétrica si: As=0

Existe la misma concentración de valores a la derecha y a la izquierda de la media como se observa


en grafico. La media, la mediana y la moda tienen el mismo valor.

Simétrica a la derecha o positiva si: As>0

Existe mayor concentración de valores a la derecha de la media que a su izquierda. La media es


mayor que la mediana y la mediana mayor que la moda.

Simétrica a la derecha o positiva si: As<0

Existe mayor concentración de valores a la izquierda de la media que a su derecha. La media es


menor que la mediana y la mediana es menor que la moda.

3. Curtosis
El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de
la zona central de la distribución.

ܴ‫ܫ‬
‫ܥ‬௨ ൌ 
ʹ‫ܲڿ‬ଽ଴ െ ܲଵ଴ ‫ۀ‬

Donde:
RI, es el rango intercuartílico y se calcula: RI=Q₃-Q₁
Capítulo 2 : Estadística Descriptiva 59

Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica si Cu=0.263:


Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el
mismo que presenta una distribución normal).

Distribución leptocúrtica Cu < 0.263:


Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

Distribución platicúrtica Cu > 0.263:


Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Ejemplo de laboratorio:

Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de
petróleo:
229, 232, 239, 232, 259, 361, 220, 260, 231, 229, 249, 254, 257, 214, 237, 253, 274, 230, 223, 253,
195, 269, 231, 268, 189, 290, 218, 313, 220, 270, 277, 375, 222, 290, 231, 258, 227, 269, 220, 224.

Solución:
En el menú Analizar-Estadísticas descriptivas – frecuencias, pulsar en el botón Estadísticas.
60 ESTADÍSTICA PARA INGENIEROS

En el cuadro anterior puede apreciar las medidas de tendencia central y no central, las medidas de
variación y las de forma.
Capítulo 2 : Estadística Descriptiva 61

EJERCICIOS RESUELTOS:

1. Una compañía internacional ha perfeccionado un producto de consumo especialmente destinado


para países en desarrollo, a la luz de las consideraciones jurídicas, económicas y sociales. La
compañía tiene por política fabricar su producto en los países donde el consumo promedio es de
250 toneladas. Si se tiene la siguiente información:

Perú: 250, 252, 248, 253. 247 Toneladas


Colombia: 258, 252, 247, 248. 245 Toneladas

En qué país sugerirá usted se fabrique el producto.

Solución:
Perú = 250+252+248+253+247 = 250
5
Colombia = 258+252+247+248+245 = 250
5

Calculando:

Media Varianza
Perú: 250 6.5
Colombia: 250 26.5

S2 = Var ( Perú) = (250-250)2 + ... + (247-250)2 =6.5


5

S2 = Var ( Colombia) = (258-250)2 + ... + (245-250)2 =26.5


5

Primero se evalúa la media y luego se elige el que tiene menor varianza. En el ejemplo, como las
medias son iguales el que tiene menor varianza es Perú, por tanto se sugerirá que se fabrique el
producto en dicho país.

2. Se clasifica el indicador económico de inversión de 50 empresas petroleras con la finalidad de


estudiar la distribución de la inversión a partir de la información estadística siguiente:
62 ESTADÍSTICA PARA INGENIEROS

Clases fi hi hi
[,> 0.08
[,> 0.12
[,> 7
[,> 0.52
[,>
[,> 0.10
[,> 0
[, > 0.06
[,> 9

Además: LS₅ =0.4, Q₃ = 0.49. Calcular el Rango Intercuartílico, Coeficiente de Curtosis, Coeficiente
de Asimetría, y Coeficiente de Variabilidad. Interprete los resultados.

Solución:
Hallando la tabla de frecuencias:

Clases X` fi Fi hi Hi
[-0.1,0.0 > -0.5 4 4 0.08 0.08
[ 0.0,0.1 > 0.5 6 10 0.12 0.20 P₁₀
[ 0.1,0.2 > 0.15 7 17 0.14 0.34 P₂₅
[ 0.2,0.3 > 0.25 9 26 0.18 0.52 P₅₀
[ 0.3,0.4 > 0.35 7 33 0.14 0.66
[ 0.4,0.5 > 0.45 5 38 0.10 0.76 P₇₅
[ 0.5,0.6 > 0.55 0 38 0.00 0.76
[ 0.6,0.7 > 0.65 3 41 0.06 0.82
[ 0.7,0.8 > 0.75 9 50 0.18 1.00 P₉₀

i) Completandoelcuadroutilizando:
f i=hixn

Hi=Fi
n

n=ɇfi

ii) Pordaton=50
  
ૠ૞Τ૚૙૙ିࡴ૞ ଴Ǥ଻ହି଴Ǥ଺଺
Q3=0.49ൌ ࡼૠ૞ ൌ ࡸࡵࡼૠ૞ ൅ ࡯ࡼૠ૞ ቂ ቃ=0.4൅ ቂ ቃ
ࡴ૟ ିࡴ૞ ଴Ǥ଻଺ି଴Ǥ଺଺

EntoncesC=0.1

Capítulo 2 : Estadística Descriptiva 63


଴Ǥଶହି଴Ǥଶ଴
ࡽ૚ ൌ ࡼ૛૞ ൌ0.1൅ͲǤͳ ቂ ቃ= 0.1357
଴Ǥଷସି଴Ǥଶ଴

a) RI=Q3ͲQ1=P75ͲP25=0.49Ͳ0.1357=0.3543

b) Coeficientedecurtosis

ோூ ଴Ǥଷହସଷ
‫ܥ‬௨ ൌ ‫ۀ‬
= =0.245
ଶ‫ڿ‬௉వబ ି௉భబ ଶ‫ڿ‬଴Ǥ଻ସି଴Ǥ଴ଵ଻‫ۀ‬


଴Ǥଵ଴ି଴Ǥ଴଼
P10=ͲǤͲ ൅ ͲǤͳ ቂ ቃ=0.017
଴Ǥଶ଴ି଴Ǥ଴଼


଴Ǥଽ଴ି଴Ǥ଼ଶ
P90=ͲǤ͹ ൅ ͲǤͳ ቂ ቃ=0.74
ଵି଴Ǥ଼ଶ

௑തିெ௢ ଷሺ௑തିெ௘ሻ ଷǤሺ଴Ǥଷଷ଺ି଴Ǥଶ଼ଽሻ
c) ‫ܣ‬௦ ൌ ൌ ൌ ൌ ͲǤ͵͵
ௌ ௌ ଴Ǥସଶ

Calculando

Parahallarlamediautilizamoslamarcadeclase ܺƮ
‫ܫܮ‬௜ି ‫ܵܮ‬௜
ܺƮ௜ ൌ 
ʹ
ͲǤͳ ൅ ͲǤͲ
ܺƮଵ ൌ ൌ െͲǤͷ
ʹ

ͲǤͲ ൅ ͲǤͳ
ܺƮଶ ൌ ൌ ͲǤͷ
ʹ
ͲǤ͹ ൅ ͲǤͺ
ܺƮ9௤ൌ ൌ ͲǤ͹ͷ
ʹ

σ f ௑೔
ܺത ൌ ೔సభ ೔ =0.336
n
0.50 0.34
Me = P50 = 0.2 + 0.1 = 0.289
0.52 0.34

σ೙ ത మf
೔సభሾ௑೔ ି௑ሿ
ܵଶ ൌ ೔ ൌ ͲǤͳ͹ͺͻǢ • ൌ ͲǤͶʹ

ୗ ଴Ǥସଶ
d) Coeficientedevariabilidadൌ ൌ ൌ ͳǤʹͷ
௑ത ଴Ǥଷଷ଺
64 ESTADÍSTICA PARA INGENIEROS

EJERCICIOS DE LABORATORIO:
En la actualidad lo más importante es saber cómo utilizar y qué problema soluciona una determinada
herramienta estadística. Porque para el calculo de estas herramientas existen un sin número de software
que permiten hallar los valores fácilmente y tener más tiempo para el análisis y conclusiones en nuestros
ejercicios utilizaremos el PASW.

Ejercicio 1:
La tabla representa las encuestas realizadas en un supermercado, donde las columnas indican las
variables y las filas los casos.

.ni X1 X2 X3 X4 X5 X6 X7 X8 X9
1 0 0 3 2 0 2,0 17,0 34,5 6,0
2 2 0 4 1 2 3,0 20,0 40,0 6,0
3 2 0 2 3 2 0,3 10,0 31,6 6,0
4 1 0 2 4 1 3,3 9,0 35,4 6,0
5 2 0 3 4 2 1,3 23,0 30,0 6,0
6 2 0 4 4 2 0,4 13,0 32,9 6,0
7 1 0 2 2 0 1,5 12,0 33,2 6,0
8 0 0 3 2 0 4,5 19,0 33,1 6,0
9 2 1 4 3 2 2,5 18,0 35,6 6,0
10 1 1 2 2 1 0,3 24,0 33,0 6,0
11 2 1 4 1 2 1,0 7,0 34,5 6,0
12 2 0 3 2 2 6,0 10,0 33,2 6,0
13 2 0 4 4 2 5,6 5,0 31,5 6,0
14 2 1 4 4 2 6,0 14,0 36,2 1,0
15 1 0 1 1 1 1,2 15,0 36,8 1,0
16 2 0 1 2 2 0,2 12,0 35,4 2,0
17 2 0 1 3 2 6,0 14,0 33,2 2,0
18 2 0 2 2 2 5,5 6,0 35,9 2,0
19 2 0 4 4 2 6,5 9,0 36,5 3,0
20 2 0 1 4 2 0,2 13,0 38,2 3,0
21 2 0 3 1 2 2,3 6,0 34,5 3,0
22 2 0 2 2 2 0,2 7,0 36,2 3,0
23 1 0 1 1 1 2,3 10,0 36,8 3,0
24 2 0 2 4 2 1,5 13,0 30,1 3,0
25 2 0 3 4 2 5,0 7,0 36,0 3,0
26 2 0 2 2 2 4,5 18,0 35,4 3,0
27 0 0 3 2 0 0,3 24,0 31,5 3,0
28 2 0 2 3 2 5,5 7,0 36,2 4,0
29 2 0 2 2 2 0,5 10,0 33,9 4,0
30 2 0 2 2 2 0,2 4,0 34,9 4,0
Capítulo 2 : Estadística Descriptiva 65

Donde:
X1: Edad (0: Adolescente; 1: Joven; 2: Adulto).
X2: Sexo (0: Mujer; 1: Varón).
X3: Grado de Instrucción (1: No tiene; 2: Primaria; 3: Secundaria 4: Superior).
X4: Estado Civil (1: Soltero; 2: Casado; 3: Divorciado 4: Viudo).
X5: Turno (0: Mañana; 1: Tarde; 2: Noche).
X6: Venta de Artículos de Aseo Personal (Nuevo Soles).
X7: Venta de Verduras (Nuevo Soles).
X8: Venta de Abarrotes (Nuevo Soles).
X9: Venta de Bebidas (Nuevo Soles).

Trabajemos con la variable ‘Edad’, en el menú Analizar-Estadísticas descriptivas – frecuencias. Los


resultados obtenidos aparecen en el Visor de resultados.

En la primera columna aparecen los valores de la variable (Adolescente, Joven y Adulto); en la segunda
sus frecuencias absolutas en sentido ascendente (o descendente); en la tercera (Porcentaje) las
frecuencias relativas en porcentaje; y en la última columna (porcentaje acumulado) las frecuencias
relativas acumuladas en porcentaje.

Medidas de tendencia Central: media, mediana, moda y suma


En el cuadro de diálogo ‘Frecuencias’ pulsar en el botón ‘Estadísticas’, para la variable venta de artículos
de aseo personal.
66 ESTADÍSTICA PARA INGENIEROS

Luego se presiona el botón continuar y después aceptar (OK). El PASW calcula estos cuatro valores
estadísticos para el listado de variables seleccionadas.

Para conocer las estadísticas descriptivas de las variables también puede seleccionarse el procedimiento
‘Descriptivas’.

Se aprecia que las 30 personas gastaron en total S/.79.60 en artículos de aseo personal; en el
supermercado la media de los gastos es S/. 2.6533. En forma similar, en la venta de verduras se aprecia
que las 30 personas gastaron S/. 356.00 en total con una media o promedio de gastos de S/. 12.533.

Medidas de posición no centrales: los percentiles (Centiles), los deciles y los cuartiles pueden obtenerse
desde el procedimiento Frecuencias presionando el botón ‘Estadísticos’.
Desde aquí puede indicarse que se obtengan diferentes tipos de cuantiles o los percentiles. Se puede
indicar el número exacto del percentil que se desee obtener e ir añadiendo a la lista inferior. Los resultados
son para la variable artículos de aseo personal.
Capítulo 2 : Estadística Descriptiva 67

Como se observa, hay un 75% de sujetos que gastan S/. 5.1250 como máximo en las compras del
supermercado y el 10% gasta S/. 0.20 como máximo en la compra de artículos de aseo personal.

Medidas de variación (dispersión)


Las medidas o estadísticas de variación se obtienen de forma muy similar y desde los mismos menús
y los cuadros de diálogo que las de posición y tendencia central. Las más empleadas son: la varianza y
la desviación típica, que aparecen por defecto en muchos menús del PASW, por ejemplo, para la venta
de aseo personal. Desde cualquiera de los cuadros de diálogo señalados se obtienen los siguientes
resultados:

Asimetría y Curtosis
La asimetría (Skewness) y la curtosis (Kurtosis) pueden obtenerse a partir del menú Analizar -> Frecuencias
pulsando el botón ‘Estadísticas’, luego marcando las respectivas distribuciones. También se obtiene el
mismo resultado desde el menú Analizar -> Estadísticas descriptivos -> Descriptivas. Veamos un ejemplo
para algunas variables de la encuesta en el supermercado.

Ejercicio 2:
Los datos aparecen recopilados en las variables Día1, Día2, Día3, que indican el número de horas
trabajadas en los tres días. Además se han recopilado la variables Sexo que toma valores 0 para mujeres
y 1 para hombres; así como Edad, 1 para Adolescentes, 2 para Jóvenes y 3 para Adultos. Finalmente,
se incluyen tres datos relacionados con las terapias que ha recibido el sujeto. Todas ellas toman 1, si el
sujeto ha recibido la terapia y 0 en caso contrario. Las variables de terapia son Estrés, Ansiedad y Fobia.

Los datos representan a 10 sujetos que participaron en el estudio cuyos resultados obtenidos se muestran
en la tabla siguiente:
68 ESTADÍSTICA PARA INGENIEROS

Sujeto Día1 Día2 Día3 Sexo Edad Estrés Ansiedad Fobia


1 5.7 6.3 6.8 0 1 0 1 0
2 4.8 5.4 4.3 1 3 0 0 0
3 7.6 7.9 8.6 0 2 0 0 0
4 5.7 6.0 6.7 1 1 0 0 1
5 3.8 4.6 4.9 1 3 0 0 0
6 7.5 8.0 8.5 1 2 0 1 0
7 6.4 7.0 7.3 1 1 1 1 0
8 7.7 8.1 8.5 0 2 0 0 0
9 4.0 4.5 5.0 0 3 1 0 0
10 5.7 6.1 6.8 1 2 1 0 1

Para seleccionar el procedimiento descriptivo se debe escoger las opciones del menú: Analizar>Estadísticas
>Descriptivos. El PASW muestra los cálculos solicitados en la ventana visor de resultados.
Capítulo 2 : Estadística Descriptiva 69

EJERCICIOS PROPUESTOS:
n
§ _ 2
· _ ¦n x i i
1. Dado S ¦
i 1
n i ¨
©
x i  a ¸ , demostrar que S es mínimo cuando a
¹
x i 1

N
 y

n
N ¦n
i 1
i ,

n
§ _
· _ ¦n x i i
2.Calcularelvalorde S ¦
i 1
n i ¨
©
x i  x ¸
¹
,donde x i 1

N


3.Sea S X2 lavarianzamuestralcorrespondientealamuestrax1,….,xn:demostrarque:

1 n
1
S X2 ¦
n 1 i 1
x i2 
n 1
x2
a) .

b)Siyi=xi+c,concconstante,entonces S Y2 = S X2 

c)Siyi=cxi,concconstante,entonces S y2 = S X2 .

~ .
4.Seax1,….,xnunamuestradeunapoblaciónconmedia P ymediana u

n
a)¿Paraquévaloresdecseminimizam ¦ ( x i  c ) 2 ?
i 1

b) Usando (a) decidir cuál de estas dos cantidades es más pequeña: 1
n

n
¦ (x
i 1
i  x ) 2  ò

1 n

n
¦ (x
i 1
i  P ) 2 .

5. A partir de una muestra x1, …., xn se calculan la media y el desviación estándar muestrales, x y S X y

respectivamente. Si definimos y i ( xi  x ) ,¿cuántovalen y y S y ?Interpretareste


sx
resultado.
~
6.Consideremosx1,….,xnunamuestradeunapoblacióncualquiera.Sean X Y X lamediayla
fffmedianamuestral,respectivamente.

a) Sisesumaunaconstantecacadaunodelosxidelamuestra,obteniéndoseyi=xi+c,¿cómo
~ ~
serelacionan X con Y y X con Y ?

b) Sicadaxiesmultiplicadoporunaconstantec,obteniéndoseyi=cxi,responderalapregunta
planteadaen(a).
70 ESTADÍSTICA PARA INGENIEROS


7.Demostrarqueparatresnúmerosenterosydiferentestalesquea>b>c,secumplequela
mediaaritméticaesmayorquelamediaarmónica.

8. Si X1, X2 y X3, son tres valores numéricos mayores que cero tal que X1>X2>X3, entonces se cumple que
la media aritmética es mayor que la media geométrica. Demostrar.

9. Se tiene la información del índice de productividad de 50 empresas pesqueras clasificadas en


dnueve intervalos de clase. A partir de los datos siguientes: LI1 = 0.05, LS8 = 0.85, h2 = LI2 - 0.05, dXmin
=0.0515, H1= LI1 + 0.03, f7 =2, f9=1, CV= 0.2758, P45=0.37, Me = 0.40, amplitud intervalo de dclase k=
Ck = C, h8 = 0.06, h6 = 0.12.

Calcular:
El cuadro de distribución de frecuencias. Justifique.
El rango intercuartílico.
Coeficiente de asimetría.
Coeficiente de curtosis.
Coeficiente de variabilidad.

10. Un emprendedor necesita comprar una máquina que realice la operación de llenado de jugos en
botellas de 250 ml. Se dispone de tres propuestas económicamente factibles para lo cual se pide
al departamento de Control de Calidad que realice un estudio cuyo resultado permitirá tomar una
decisión. Se realiza la prueba obteniéndose los resultados siguientes:

Maquina A : 250, 252, 248, 253, 247


Maquina B : 258, 252, 247, 248, 245
Maquina C : 251, 254, 249, 253, 244

Qué máquina sugerirá el departamento de Control de Calidad? Por que?

11. El Departamento de Personal establece el siguiente sistema de calificación de puestos de trabajo


para los empleados de su empresa luego de haber sido evaluados:

PUNTUACIÓN 0 a 30 30 a 50 50 a 70 70 a 90 90 a 100
Nº de Empleados 94 140 160 98 8

Se estable que el 65% sean administrativos, el 20% jefes de sección, el 10% jefes de departamento
y 5% Inspectores, según sea la puntuación obtenida. Calcular la puntuación máxima para ser
administrativo, jefe de sección y jefe de departamento.

12. La distribución de frecuencias adjunta resume los dividendos pagados durante el año 2000 por 20
empresas escogidas aleatoriamente de la base de datos de la Bolsa de Valores de Lima.
Capítulo 2 : Estadística Descriptiva 71

a. Completar la información de la Distribución de Frecuencias.


b. ¿Cuántas empresas han repartido dividendos que fluctúen entre 0.37 y 0.52 miles de soles?
c. Calcular la media, mediana, moda, desviación intercuartílica, varianza, curtosis.

13. La distribución de frecuencias adjunta resume los dividendos pagados durante el año 2002 por
empresas escogidas aleatoriamente de la base de datos de la Bolsa de Valores de Lima. Se sabe que
fi =20, la amplitud intervalo de clase k = Ck = C

a. Completar la información de la distribución de frecuencias.


b. ¿Cuántas empresas han repartido dividendos que fluctúen entre 0.37 y 0.52 miles de soles?
c. Calcular la media, mediana, moda, varianza.
d. Calcular Coeficiente de Asimetría, Coeficiente de Curtosis. Explicar.

14. Se tiene 7 números X₁, X₂ ... X₉ordenados en un vector.

a. SilaMediaesigualalaMe,entonces,X5esmayor,menorocoincideconlamedia.
b. SiXizXj,i=j,ademásX1<X9y6Xi=13X6yentonces¿esmayorlaMedianaolaMedia?
c. SiVar(X)>0yX1<X9,X3=X4=X5=X6=X7=X8=X9.EntoncessecumplequeX>Me.
72 ESTADÍSTICA PARA INGENIEROS

15. Las remuneraciones semanales de los trabajadores de una empresa se distribuyen simétricamente
0.02 h₇ = h₁+0.04, P₇₇=112. Calcular el cuadro de distribución de frecuencias, media, mediana, moda,
variancia, coeficiente de variabilidad, rango intercuartílico, coeficiente de asimetría, coeficiente de
curtosis, gráfica el polígono de frecuencias. Explicar.

16. El coeficiente de variabilidad de los trabajadores de una empresa es 57%. Si la empresa decide
aumentar 1100 nuevos soles a todos los trabajadores, el coeficiente de variabilidad sería 50%. Antes
del reajuste 35 personas que no ganaban más de 6000 nuevos soles tenían un sueldo promedio de
4000 nuevos soles. La empresa fija un sueldo mínimo de 7100 nuevos soles. Determinar la cantidad
de dinero adicional que necesita la empresa para cubrir el pago de planilla después del ajuste si ésta
posee 200 empleados.

17. El costo c (en soles) por operación en una clínica depende del tiempo x (en horas) que esta dure, así
C= 200 + 100 x + 50 x2 . Calcular el costo medio de dichas operaciones, si la duración de estas tuvo
una media de 5 horas y una desviación estándar de 2 horas.

18. En una oficina hay dos impresoras: A y B. La impresora A imprime cuatro páginas por minutos; la
impresora B cinco páginas por minuto. En cada uno de los siguientes casos determine el promedio
del número de páginas impresas por minuto de las dos impresoras:

a. Cada una de las impresoras imprimirá un documento de 100 páginas.


b. Cada una de las impresoras imprimirá durante una hora.

19. Los datos de las variables Día1, Día2, Día3, indican el número de horas trabajada. Además las
variables Sexo (0: mujeres, 1: hombres), Edad (1: Adolescentes, 2: Jóvenes y 3: Adultos). Finalmente,
se incluyen tres datos relacionados con las terapias que ha recibido el sujeto. Todas ellas toman 1, si
el sujeto ha recibido la terapia y 0 en caso contrario. Las variables de terapia son Estrés, Ansiedad y
Fobia.

Sujeto Día1 Día2 Día3 Sexo Edad Estrés Ansiedad Fobia


1 5.7 6.3 6.8 0 1 0 1 0
2 4.8 5.4 4.3 1 3 0 0 0
3 7.6 7.9 8.6 0 2 0 0 0
4 5.7 6.0 6.7 1 1 0 0 1
5 3.8 4.6 4.9 1 3 0 0 0
6 7.5 8.0 8.5 1 2 0 1 0
7 6.4 7.0 7.3 1 1 1 1 0
8 7.7 8.1 8.5 0 2 0 0 0
9 4.0 4.5 5.0 0 3 1 0 0
10 5.7 6.1 6.8 1 2 1 0 1
11 4.0 4.5 5.0 0 3 1 0 0
12 5.7 6.1 6.8 1 2 1 0 1
13 5.7 6.1 6.8 1 2 1 0 1
14 4.0 4.5 5.0 0 3 1 0 0
15 5.7 6.1 6.8 1 2 1 0 1
Capítulo 2 : Estadística Descriptiva 73

Trabajando con datos de 15 sujetos que participaron en el estudio, responda las siguientes
preguntas:

a. Calcular las medidas de dispersión y los tipos de distribución para cada uno de las variables.
b. Si agrupa a los trabajadores en cuatro categorías de acuerdo a las horas trabajadas en Malos,
Regular, Buenos y Excelentes trabajadores. Además, se sabe que el 70% son Malos, el 15%
son Regulares y el 10% son buenos trabajadores. Calcular la cantidad de horas máximo que
se deben trabajar para pertenecer a cada una de las categoría.
c. ¿Cuántas horas trabajan como máximo el 70% de los sujetos?
d. ¿Cuál sería el día que sugerirá usted se trabaje? ¿Por qué?
e. ¿Qué porcentaje de sujetos trabaja más de 5 horas al día?
f. ¿Qué porcentaje de sujetos ha recibido la terapia (para cada variable posible)?
g. ¿Hallar el tipo de moda para cada variable?
h. ¿Cuál es el valor central de cada variable?

20. La base de datos representa una muestra de 60 personas que realizaron sus compras en un
supermercado de Lima Metropolitana. Seleccionar una muestra aleatoria de tamaño 30, elaborar
un reporte estadístico (resumen, introducción, los datos, metodología, estadística, análisis de datos,
conclusión).

ni X1 X2 X3 X4 X5 X6 X7 X8 X9 ni X1 X2 X3 X4 X5 X6 X7 X8 X9
1 2,0 17,0 34,5 6,0 2,0 3,0 0,0 0,0 0,0 31 1,5 16,0 36,9 4,0 3,0 3,0 0,0 0,0 0,0
2 3,0 20,0 40,0 6,0 1,0 4,0 2,0 2,0 0,0 32 4,0 18,0 31,5 4,0 2,0 3,0 1,0 0,0 0,0
3 0,3 10,0 31,6 6,0 3,0 2,0 2,0 2,0 0,0 33 5,9 8,0 31,5 4,0 3,0 2,0 2,0 2,0 0,0
4 3,3 9,0 35,4 6,0 4,0 2,0 1,0 1,0 0,0 34 1,8 13,0 33,8 4,0 2,0 2,0 0,0 0,0 0,0
5 1,3 23,0 30,0 6,0 4,0 3,0 2,0 2,0 0,0 35 4,7 3,0 34,5 4,0 2,0 3,0 0,0 0,0 0,0
6 0,4 13,0 32,9 6,0 4,0 4,0 2,0 2,0 0,0 36 0,7 32,0 34,6 4,0 1,0 4,0 2,0 2,0 0,0
7 1,5 12,0 33,2 6,0 2,0 2,0 1,0 0,0 0,0 37 4,0 9,0 33,9 4,0 2,0 2,0 2,0 2,0 0,0
8 4,5 19,0 33,1 6,0 2,0 3,0 0,0 0,0 0,0 38 2,0 7,0 34,9 4,0 1,0 3,0 1,0 1,0 1,0
9 2,5 18,0 35,6 6,0 3,0 4,0 2,0 2,0 1,0 39 0,7 10,0 34,0 4,0 2,0 2,0 2,0 2,0 0,0
10 0,3 24,0 33,0 6,0 2,0 2,0 1,0 1,0 1,0 40 4,0 11,0 36,7 4,0 3,0 2,0 2,0 2,0 0,0
11 1,0 7,0 34,5 6,0 1,0 4,0 2,0 2,0 1,0 41 0,2 10,0 36,8 4,0 4,0 2,0 2,0 2,0 0,0
12 6,0 10,0 33,2 6,0 2,0 3,0 2,0 2,0 0,0 42 2,0 9,0 30,1 4,0 2,0 2,0 1,0 0,0 0,0
13 5,6 5,0 31,5 6,0 4,0 4,0 2,0 2,0 0,0 43 4,5 6,0 34,5 4,0 2,0 1,0 2,0 2,0 0,0
14 6,0 14,0 36,2 1,0 4,0 4,0 2,0 2,0 1,0 44 4,0 7,0 34,6 4,0 3,0 2,0 2,0 2,0 0,0
15 1,2 15,0 36,8 1,0 1,0 1,0 1,0 1,0 0,0 45 2,0 15,0 35,9 4,0 2,0 3,0 2,0 2,0 1,0
16 0,2 12,0 35,4 2,0 2,0 1,0 2,0 2,0 0,0 46 4,6 13,0 33,2 4,0 4,0 4,0 1,0 1,0 0,0
17 6,0 14,0 33,2 2,0 3,0 1,0 2,0 2,0 0,0 47 0,3 7,0 35,9 5,0 3,0 2,0 1,0 1,0 0,0
18 5,5 6,0 35,9 2,0 2,0 2,0 2,0 2,0 0,0 48 1,5 18,0 36,2 5,0 1,0 4,0 0,0 1,0 0,0
19 6,5 9,0 36,5 3,0 4,0 4,0 2,0 2,0 0,0 49 0,5 7,0 37,1 5,0 2,0 3,0 2,0 2,0 0,0
20 0,2 13,0 38,2 3,0 4,0 1,0 2,0 2,0 0,0 50 2,5 10,0 36,8 5,0 2,0 4,0 1,0 1,0 0,0
21 2,3 6,0 34,5 3,0 1,0 3,0 2,0 2,0 0,0 51 5,0 4,0 37,8 5,0 1,0 2,0 2,0 2,0 0,0
74 ESTADÍSTICA PARA INGENIEROS

22 0,2 7,0 36,2 3,0 2,0 2,0 2,0 2,0 0,0 52 0,5 27,0 38,2 5,0 2,0 3,0 2,0 2,0 0,0
23 2,3 10,0 36,8 3,0 1,0 1,0 1,0 1,0 0,0 53 3,3 19,0 38,1 5,0 4,0 1,0 2,0 2,0 1,0
24 1,5 13,0 30,1 3,0 4,0 2,0 2,0 2,0 0,0 54 3,0 16,0 34,6 5,0 4,0 4,0 2,0 2,0 1,0
25 5,0 7,0 36,0 3,0 4,0 3,0 2,0 2,0 0,0 55 2,5 8,0 33,9 5,0 3,0 2,0 1,0 1,0 0,0
26 4,5 18,0 35,4 3,0 2,0 2,0 2,0 2,0 0,0 56 1,0 27,0 34,9 5,0 4,0 2,0 1,0 1,0 1,0
27 0,3 24,0 31,5 3,0 2,0 3,0 0,0 0,0 0,0 57 0,2 14,0 34,0 5,0 2,0 4,0 2,0 2,0 0,0
28 5,5 7,0 36,2 4,0 3,0 2,0 2,0 2,0 0,0 58 2,8 15,0 36,8 5,0 1,0 2,0 2,0 2,0 0,0
29 0,5 10,0 33,9 4,0 2,0 2,0 2,0 2,0 0,0 59 5,6 3,0 37,8 5,0 2,0 2,0 2,0 2,0 0,0
30 0,2 4,0 34,9 4,0 2,0 2,0 2,0 2,0 0,0 60 6,0 13,0 31,5 5,0 4,0 1,0 1,0 1,0 0,0

Donde:
X1: Venta de artículos de aseo personal (nuevos soles).
X2: Venta de verduras (nuevos soles).
X3: Venta de abarrotes (nuevoa soles).
X4: Venta de bebidas (nuevo soles).
X5: Estado civil (1: Soltero; 2: Casado; 3: Divorciado 4: Viudo).
X6: Grado de instrucción (1: No tiene; 2: Primaria; 3: Secundaria 4: Superior).
X7: Edad (0: Adolescente; 1: Joven; 3: Adulto).
X8: Turno (0: Mañana; 1: Tarde; 2: Noche).
X9: Sexo (0: Mujer; 1: Varón).

21. Trabajando los datos de la encuesta del supermercado (laboratorio) resuelva las siguientes preguntas:

a. ¿La moda de cada una de las variables es unimodal, bimodal ó multimodal?


b. Calcular las medidas de posición Central y No Central.
c. Calcular las medidas de dispersión y los tipos de distribución para cada una de las variables.
d. Si agrupa a los clientes en cuatro categorías de acuerdo al dinero gastado, en Malos, Regular,
Buenos y Excelentes; además, se sabe que el 65% son Malos, el 15% son Regulares y el 12% son
buenos clientes. Calcular la cantidad de dinero máximo que se debe gastar para pertenecer a
cada una de las categorías en cada variable posible.
e. ¿Qué porcentaje gasta menos de S/. 5.00 en cada una de las variables?
f. ¿Cuál es el valor central de cada variable?
g. Obtenga el valor de la venta de artículos de aseo que es superado por el 30% de los sujetos de
la muestra.
h. En las variables cualitativas calcular las frecuencias máximas y mínimas.
CAPÍTULO

3 Gráficos Descriptivos

Es una representación visual de datos estadísticos. Muchas veces, un gráfico vale más que mil palabras
porque nos permiten comprender el comportamiento de los datos, ahorrando tiempo en el análisis de
la información, permitiendo abreviar lo tedioso y lo complejo. Todo gráfico debe ser entendible, claro,
consistente, eficiente y confiable.

GRÁFICO DE BARRAS
Se elabora colocando en el eje de las abscisas (eje X) los distintos valores de la variable; sobre cada una
de ellas se levanta una línea perpendicular, cuya altura es la frecuencia absoluta o frecuencia absoluta
de dicho valor.
Ejemplo: la tabla de frecuencias representa las edades de un grupo de alumnos.

Edad de los alumnos fi hi


4 años 4 10%
5 años 18 45%
6 años 13 33%
7 años 2 5%
8 años 1 3%
9 años 2 5%
Total 40 100%

Graficando se tiene:
76 ESTADÍSTICA PARA INGENIEROS

GRÁFICOS CIRCULARES (PIE CHARTS)


El uso de gráficos circulares o pasteles es bastante común, los datos se representan en un círculo donde
cada sector circular representa una porción del total.
Ejemplo: la tabla de frecuencias representa el nivel socio económico de un grupo de alumnos.

Nivel social fi hi
Alta 4 10%
Media 23 58%
Baja 13 33%
Total 40 100%

Graficando se tiene:
Capítulo 3 : Gráficos Descriptivos 77

HISTOGRAMA
El histograma de un conjunto de datos es un gráfico de barras que representan las frecuencias con que
aparecen las mediciones agrupadas en ciertos rangos o intervalos.
Para construir un histograma se siguen los siguientes pasos.

Dividimos el rango de los datos en intervalos o clases, que no se superpongan. Las clases deben ser
excluyentes y exhaustivas.

Contamos la cantidad de datos en cada intervalo o clase, es decir la frecuencia absoluta; también
podemos usar la frecuencia relativa.

Graficamos el histograma en un par de ejes coordenados representando en las abscisas los intervalos
y sobre cada uno de ellos un rectángulo cuya área sea proporcional a la frecuencia relativa de dicho
intervalo.

Es recomendable tomar:

De esta manera, el área es 1 y dos histogramas son fáciles de comparar independientemente de la


cantidad de observaciones en las que se basa cada uno.

Observaciones:
Los pasos a y b se reducen a hallar la tabla de frecuencias. No existen criterios óptimos para elegir
la cantidad de intervalos, depende del investigador. Utilizar muchos o muy pocos intervalos puede ser
poco informativo. Se debe buscar un equilibrio entre un histograma muy irregular y uno demasiado
suavizado. No es necesario que todos los intervalos tengan la misma longitud. El histograma representa
la frecuencia o la frecuencia relativa a través del área y no a través de la altura.

Ejemplo 1: los siguientes datos corresponden a Porcentajes de Octanos en Naftas:

85.3 87.5 87.8 88.5 89.9 90.4 91.8 92.7


86.7 87.8 88.2 88.6 90.3 91.0 91.8 93.2
88.3 88.3 89.0 89.2 90.4 91.0 92.3 93.3
89.9 90.1 90.1 90.8 90.9 91.1 92.7 93.4
91.2 91.5 92.6 92.7 93.3 94.2 94.7 94.2
95.6 96.1

Hallando la tabla de distribución de frecuencia y la altura de rectángulo utilizando la fórmula siguiente:


78 ESTADÍSTICA PARA INGENIEROS

Intervalos Frecuencia Frecuencia relativa Altura del rectángulo


[84, 86] 1 0.02380952 0.01
(86, 88] 4 0.09523810 0.05
(88, 90] 9 0.21428571 0.11
(90,92] 14 0.33333333 0.17
(92,94] 9 0.21428571 0.11
(94,96] 4 0.09523810 0.05
(96,98] 1 0.02380952 0.01
Total 42 1

Graficando se tiene:

Ejemplo 2: histograma con intervalos de distinta longitud. Los datos de la siguiente tabla presentan las
edades de un grupo de personas. Notemos que los intervalos de edad tienen diferente longitud. La tabla
de distribución siguiente muestra los intervalos de amplitud diferente. Hallar el histograma.

Intervalos Frecuencia
[ 0, 10) 5
[ 10, 30) 13
[ 30, 55) 17
[ 55,70) 8
[ 70, 105) 7
Total 50

Solución:
Calculando la amplitud y la altura de rectángulo para cada intervalo se tiene la tabla siguiente:
Capítulo 3 : Gráficos Descriptivos 79

Intervalos Amplitud Frecuencia Frecuencia relativa Altura del rectángulo


[ 0, 10) 10 5 10% 0.010
[ 10, 30) 20 13 26% 0.013
[ 30, 55) 25 17 34% 0.014
[ 55,70) 15 8 16% 0.011
[ 70, 105) 35 7 14% 0.004
Total 50 100%

Graficando se obtiene:
80 ESTADÍSTICA PARA INGENIEROS

TALLO Y HOJA: TUKEY (1977)


A pesar de no ser un gráfico para presentación definitiva, se utiliza a la vez que el analista recoge la
información y puede ver la distribución de los mismos. Este gráfico es fácil de realizar a mano y se usa
para dar una primera aproximación rápida a la distribución de los datos.

Muestra:
• Posición del centro de la distribución y concentración de los datos.
• Rango de las observaciones, valores máximo y mínimo.
• Forma de la distribución: simetría, asimetría a derecha, asimetría a izquierda y cuántos picos
tiene la distribución.
• Desviaciones marcadas de la forma global de la distribución, respecto al comportamiento
general: outliers o valores atípicos (observaciones individuales que caen muy por fuera del
patrón general de los datos).

EJEMPLO 1 :
La tabla muestra los datos de la fuerza de compresión de 45 muestras de aleación de Aluminio-Litio.
Realizar el esquema de Tallo y Hoja.

96 93 88 117 127 95 113 96


108 94 148 156 139 142 94 107
125 155 155 103 112 127 117 120
112 135 132 111 125 104 106 139
134 119 97 89 118 136 125 143
120 103 113 124 138

Solución:

Paso 1: ordenar los datos

88 89 93 94 94 95 96 96
97 103 103 104 106 107 108 111
112 112 113 113 117 117 118 119
120 120 124 125 125 125 127 127
132 134 135 136 138 139 139 142
143 148 155 156

Paso 2: separamos a cada observación (valor) en dos partes: A la primera se le llama tallo y a la segunda
hoja. Por ejemplo:

La primera observación (88): el tallo es primer dígito (8) y el segundo dígito es la hoja (8).

8
Capítulo 3 : Gráficos Descriptivos 81

La segunda observación (89): el tallo es primer dígito (8) y el segundo dígito es la hoja (9).

Así sucesivamente hasta la última observación (156): el tallo son los dos primeros dígitos (15) y el tercer
dígito es la hoja (6).

Paso 3: trazamos una línea vertical para separar los tallos de las hojas. Listamos en forma vertical y
creciente los tallos y agregamos las hojas a la derecha del tallo correspondiente.

Los tallos se ubican al lado izquierdo de la línea y las hojas al lado derecho, como se muestra en el
ejemplo:

EJEMPLO 2:
Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de petróleo.
Construir un gráfico de tallo y hoja.

229, 232, 239, 232, 259, 361, 220, 260, 231, 229, 249, 254, 257, 214, 237, 253, 274, 230, 223, 253, 195,
269, 231, 268, 189, 290, 218, 313, 220, 270, 277, 375, 222, 290, 231, 258, 227, 269, 220, 224.

Solución:

Paso 1: ordenar los datos

189 195 214 218 220 220 220 222


223 224 227 229 229 230 231 231
231 232 232 237 239 249 253 253
254 257 258 259 260 268 269 269
270 274 277 290 290 313 361 375
82 ESTADÍSTICA PARA INGENIEROS

Paso 2: separamos a cada observación (valor) en dos partes: a la primera se le llama tallo y a la segunda
hoja. Por ejemplo:

La primera observación (189): el tallo son los dos primeros dígitos (18) y el tercer dígito es la hoja (9).

La segunda observación (195): el tallo son los dos primeros dígitos (19) y el tercer dígito es la hoja (5).

Así sucesivamente hasta la última observación (375): el tallo son los dos primeros dígitos (37) y el tercer
dígito es la hoja (5).

Paso 3: Trazamos una línea vertical para separar los tallos de las hojas. Listamos en forma vertical y
creciente los tallos y agregamos las hojas a la derecha del tallo correspondiente.

Los tallos se ubican al lado izquierdo de la línea y las hojas al lado derecho, como se muestra en el
ejemplo:

Gráfico de tallo-hojas espalda con espalda (comparación de grupos):


Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos condiciones
o grupos. El gráfico se denomina tallo-hojas espalda con espalda porque ambos grupos comparten los
tallos.
Capítulo 3 : Gráficos Descriptivos 83

Ejemplo: comparación de dos grupos.

BOXPLOT O CAJA DE TUKEY


Permite observar de una forma clara la distribución de los datos y sus principales características. Además,
compara diversos conjuntos de datos simultáneamente. Como herramienta visual se puede utilizar para
ilustrar datos, estudiar simetría, estudiar las colas y supuestos sobre la distribución; también se puede
usar para comparar diferentes poblaciones. Se construye de la siguiente manera:

a. Un rectángulo, usualmente orientado con el sistema de coordenadas tal que el eje vertical tiene
la misma escala del conjunto de datos.
b. La parte superior y la inferior del rectángulo coinciden con el tercer cuartil y el primer cuartil de
los datos.
c. Esta caja se divide con una línea horizontal a nivel de la mediana.
d. Se define un ‘paso (di=1.5*RI)’ como 1.5 veces el rango intercuartil, y una línea vertical (un bigote)
se extiende desde la mitad de la parte superior de la caja hasta la mayor observación de los datos
si se encuentran dentro de un paso. Igual se hace en la parte inferior de la caja.
e. Las observaciones (“outliers”) que caigan más allá de estas líneas son dibujadas individualmente
con “*” aquellos datos que están entre 1.5 di y 3 di de cada extremo y con ‘o’ a aquellos que están
a más de 3 di de cada extremo. Algunos paquetes indican a todos los “outliers” de la misma forma
‘o’.
84 ESTADÍSTICA PARA INGENIEROS

La gráfica proporciona información acerca de:


• Posición: está representada en la línea que corta la caja y representa la mediana.
• Dispersión: está dada por la altura de la caja, como por la distancia entre los extremos de los
bigotes.
• Sesgo: se observa en la desviación que existe entre la línea de la mediana con relación al centro
de la caja y también la relación entre las longitudes de los bigotes.
• Las colas: se pueden apreciar por la longitud de los bigotes con relación a la altura de la caja y
también por las observaciones que se marcan explícitamente.
La asimetría y los “outliers”.

EJEMPLO:
Los siguientes datos corresponden a tiempos de 25 trabajos enviados a un servidor tomados al azar.
Graficar un “Boxplot” o Cajas y bigotes.

1.17, 1.23, 0.15, 0.19, 0.92, 1.61, 3.76, 2.41, 0.82, 0.75, 1.16, 1.94, 0.71, 0.47, 2.59, 1.38, 0.96, 0.02,
2.16, 3.07, 3.53, 4.75, 1.59, 2.01, 1.40

Solución:
Hallar los valores de
Valor mínimo = 0.02
Primer cuartil (Q₁=P₂₅) = 0.82
Mediana (Me=Q₂=P₅₀) = 1.38
Media =1.63
Tercer cuartil (Q₃=P₇₅) = 2.16
Valor máximo =4.75
RI= Q₃ – Q₁ =2.16-0.82= 1.34

Luego:
• Representamos una escala vertical u horizontal.
• Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento que
corresponde a la mediana.
• A partir de cada extremo dibujamos un segmento hasta el dato más alejado que está a lo sumo
1.5 di del extremo de la caja. Estos segmentos se llaman bigotes.
• Marcamos con ‘o’ a aquellos datos que están más de 1.5 di de cada extremo.

Se obtiene la siguiente gráfica:


Capítulo 3 : Gráficos Descriptivos 85

BOXPLOTS PARALELOS
Es la comparación de la distribución de dos o más conjuntos de datos graficando en una escala común y
en forma paralela los “boxplots” de cada una de las muestras. Como por ejemplo:

EJEMPLO 1: los datos representan las distribuciones del número de pasajeros por viaje durante los años
de 1997, 1998 y 1999, comparados en un gráfico de Boxplots Paralelos.

EJEMPLO 2: se muestra la información de dos grupos de datos en un gráfico de Boxplots Paralelos.

Boxplots normal (‘simétrica’):


86 ESTADÍSTICA PARA INGENIEROS

Boxplots asimétrica a izquierda:

Boxplots asimétrica a derecha:

Boxplots colas livianas:

Boxplots colas pesadas:


Capítulo 3 : Gráficos Descriptivos 87

EJERCICIO DE LABORATORIO
Trabajamos con la información de la encuesta supermercado.

También es posible pedir al PASW que realice tres tipos de gráficos para observar las frecuencias de los
datos. Desde el cuadro de diálogo anterior presionar Gráficos (Charts...); obtenemos el siguiente cuadro
de diálogo:

Sólo puede seleccionarse


uno, luego pulsar en
continuar.

Permite confeccionar el gráfico con


las frecuencias absolutas o con las
relativas.

Como se observa, se puede obtener un histograma (con el ajuste a la curva normal), un diagrama de
barras (Bar charts) y un diagrama de sectores o pictograma (Pie chats).

El siguiente gráfico muestra el histograma para la variable edad.

Para ir de un resultado
a otro (por ejemplo a la
tabla de frecuencias o al
histograma), nos situamos
con el ratón en el título
correspondiente (en el
ejemplo, Histograma).
88 ESTADÍSTICA PARA INGENIEROS

Se puede pedir al PASW graficar el diagrama de barras para la variable ‘Edad’.

También es posible graficar el gráfico de sectores para la variable ‘Edad’. El resultado obtenido es el
siguiente: También es posible graficar el gráfico de sectores para la variable ‘Edad’. El resultado obtenido
es el siguiente:

En el gráfico se observa que los adultos son los que más compran en el supermercado, seguido por los
jóvenes.

Diagrama de tallo y hoja


Otra de las representaciones que sirven para reflejar distribuciones de frecuencias es el diagrama de
tallo y hojas. Para confeccionarlo se utiliza el menú Analizar -> Estadístico descriptivos -> Explorar, cuyo
cuadro de diálogo es el siguiente:
Trasladar aquí la variable
o variables para las que se
desee obtener un análisis

Pulsar aquí para solicitar


un diagrama de tallo y
hojas.
Capítulo 3 : Gráficos Descriptivos 89

El cuadro de diálogo ofrece diferentes posibilidades de análisis de datos. Por el momento nos centraremos
tan sólo en las que nos interesan. En este caso, en elaborar un diagrama de tallo y hojas. Para ello, en
primer lugar se seleccionan las variables para las que se desee este tipo de diagrama y se trasladan al
cuadro ‘Dependientes’.

Se selecciona el botón de la opción ‘gráficos’ y aparece el siguiente cuadro de diálogo:

Para diagramas de tallo y hojas,


seleccionar esta opción.

Veamos un ejemplo con la variable ‘Venta de artículos de aseo personal’. Los resultados obtenidos son
los siguientes:

Venta de artículos de aseo personal Stem-and-Leaf Plot

Frequency Stem & Leaf


9.00 0 . 222233345
5.00 1 . 02355
4.00 2 . 0335
2.00 3 . 03
2.00 4 . 55
4.00 5 . 0556
4.00 6 . 0005

Stem width: 1.00


Each leaf: 1 case(s)

Gráficos de cajas y bigotes (Boxplots)


El PASW también ofrece la posibilidad de elaborar los gráficos que expresan la dispersión de los datos en
una variable. En concreto, desde el menú Analizar -> Explorar (Gráficos). Puede definirse un diagrama de
cajas y bigotes para una variable en estudio. Este tipo de diagramas ofrece información sobre el rango de
la variable y los cuarteles, por ejemplo para la variable ‘artículos de aseo personal’ se obtiene el gráfico
siguiente:
90 ESTADÍSTICA PARA INGENIEROS

En la gráfica se observa que los gastos oscilan entre 0,20 y 6,50 nuevos soles, estando la mediana en 2,15
nuevos soles.

Existen otros tipos de gráficos que son más fáciles de realizar con un software estadístico, como
veremos a continuación, donde utilizaremos para todos los ejemplos la base de datos de la encuesta del
supermercado.

P-P Plots
Una vez elegido el gráfico en cuestión, pasamos al cuadro de diálogo usual que aparece cuando realizamos
un análisis.

Crea un gráfico de las proporciones acumuladas de una variable respecto a las de una distribución
cualquiera de prueba. Es decir, por cada variable especificada proporciona dos gráficos: en el primero
se representan los valores de la función de distribución acumulativa esperada bajo el supuesto de
normalidad (por defecto) frente a los observados; en el segundo se representan los residuos. Los gráficos
de probabilidad suelen emplearse para determinar si la distribución de una variable coincide con una
distribución dada. Si la variable seleccionada coincide con la distribución de prueba, los puntos se
concentran en torno a una línea recta. Entre las distribuciones de prueba disponibles se encuentran la
beta, chi-cuadrado, exponencial, gamma, semi-normal, Laplace, logístico, Lognormal, normal, Pareto, T
de Student, Weibull y uniforme. Según la distribución elegida, pueden especificarse distintos grados de
libertad y otros parámetros.

Ejemplo: para la variable venta de verduras se puede decir que sí tiene una distribución normal.
Capítulo 3 : Gráficos Descriptivos 91

Q-Q Plots
Crea un gráfico con los cuantiles de distribución de una variable respecto a los cuantiles de una
distribución cualquiera de prueba.

Es decir, por cada variable especificada proporciona dos gráficos: en el primero se representan los
valores de los cuantiles esperados bajo el supuesto de distribución normal (por defecto) de media cero y
varianza uno frente a los observados. En el segundo, en lugar de los cuantiles esperados se representan
los residuos. Las distribuciones de prueba disponibles son las mismas que en P-P.

Ejemplo: para la variable Venta de verduras se puede decir que sí tiene una distribución normal.
92 ESTADÍSTICA PARA INGENIEROS

Secuencia
Para la creación de un gráfico de secuencias se nos muestra el cuadro de diálogo inicial de selección del
gráfico deseado.

Una vez elegido el gráfico en cuestión, pasamos al cuadro de diálogo usual que aparece cuando realizamos
un análisis.

Crea un gráfico de casos en secuencia. Este procedimiento requiere datos de serie temporal u otros en
los que se ordenen los casos con un criterio significativo. Representa, en dos dimensiones, los valores de
cada una de las variables especificadas frente al número de secuencia en el archivo de datos.

Como hemos dicho, si la variable es una serie temporal a cuyos valores se han asignado fechas (opción
Definir fechas), la representación se realiza frente al instante de tiempo correspondiente.

Ejemplo: para el cuadro de diálogo anterior el gráfico es el siguiente:


Capítulo 3 : Gráficos Descriptivos 93

EJERCICIOS PROPUESTOS:

1 Los siguientes valores son mediciones del peso (en miles de toneladas) de grandes tanques de
petróleo.

229, 232, 239, 232, 259, 361, 220, 260, 231, 229, 249, 254, 257, 214, 237, 253, 274, 230, 223, 253,
195, 269, 231, 268, 189, 290, 218, 313, 220, 270, 277, 375, 222, 290, 231, 258, 227, 269, 220, 224.

a) Construir una tabla de frecuencias que conste de 9 intervalos de igual longitud, siendo el primero
[175; 200).
b) Graficar el histograma correspondiente a la tabla hallada.
c) ¿El conjunto de datos se distribuye en forma de campana o uniformemente?
d) Construir un esquema de tallo-hoja.

2. Los siguientes valores representan las ganancias, expresadas como porcentajes de ventas, de 22
firmas:

5.3,4.0, 12.5, 3.0, 3.9, 6.4, 5.2, 2.6, 12.8, 7.1, 3.7, 4.4, 3.5, 3.4, 3.2, 5.6, 3.2, 3.4, 6.2, 4.0, 2.5, 3.4

a) Hallar la mediana muestral y los cuartiles inferior y superior de estos datos.


b) Construir un “boxplot” e identificar los puntos extremos. ¿Cuáles son las características más
sobresalientes? ¿Hay “outliers”?
c) Graficar el histograma correspondiente a la tabla hallada.
d) ¿El conjunto de datos se distribuye en forma de campana o uniformemente?
e) Interprete las medidas de dispersión.

3. La siguiente tabla contiene valores de población, en cientos de miles, de las 10 ciudades más
pobladas de 4 países en el año 1967.
94 ESTADÍSTICA PARA INGENIEROS

a) Construir un “boxplot” e identificar los puntos extremos. ¿Cuáles son las características más
sobresalientes? ¿Hay “outliers”?
b) Comparar los centros de cada población, sus dispersiones y su simetría. ¿Cuál es el país más
homogéneamente habitado? ¿Cuáles son las características más sobresalientes? ¿Hay “outliers”?

4. Para determinar la temperatura de fusión del hielo se usaron dos métodos (Natrella, 1963). Los
investigadores querían saber si los dos métodos diferían o no. Los datos siguientes dan el cambio en
calor total (en calorías por gramo de masa) al pasar de hielo a -72 ªC a agua a 0 ªC.

Método A: 79.98, 80.04, 80.02, 80.04, 80.03, 80.03, 80.04, 79.97, 80.05, 80.03, 80.02, 80.00
Método B: 80.02, 79.94, 79.98, 79.97, 79.97, 80.03, 79.95, 79.97

A partir de los “boxplots” obtenidos, ¿qué diría a los investigadores?

a) Construir un “boxplot” e identificar los puntos extremos. ¿Cuáles son las características más
sobresalientes? ¿Hay “outliers”?
b) Graficar el histograma correspondiente a la tabla hallada.

c) ¿El conjunto de datos se distribuye en forma de campana o uniformemente?

d) Interprete las medidas de dispersión.

5. Los siguientes datos corresponden a tiempos de CPU (en segundos) de 25 trabajos enviados a un
servidor tomados al azar.

1.17, 1.23, 0.15, 0.19, 0.92, 1.61, 3.76, 2.41, 0.82, 0.75, 1.16, 1.94, 0.71, 0.47, 2.59, 1.38, 0.96, 0.02,
2.16, 3.07, 3.53, 4.75, 1.59, 2.01, 1.40.

Para este conjunto de datos:

(a) Calcular la media muestral, la mediana, desviación estándar, la distancia intercuartil.


(b) Realizar un histograma y un “boxplot”. ¿Cuáles son las características más sobresalientes? ¿”Hay
outliers”?
(c) ¿Qué medida de posición cree que es más apropiada para estos datos?
(d) ¿Qué distribución cree que tienen estos datos?
(e) ¿Cómo haría para verificar si su conjetura es razonable? (Sugerencia: deje volar su imaginación).
CAPÍTULO

4 Distribuciones
Bidimensionales

Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables
de cada elemento de la población, por ejemplo: peso y altura de un grupo de estudiantes, superficie y
precio de las viviendas de una ciudad, potencia y velocidad de una gama de coches deportivos.

TABLA DE DISTRIBUCIONES BIDIMENSIONALES:


Para representar los datos obtenidos se utiliza una tabla de correlación. Sea (X,Y) una variable estadística
bidimensional tal que los distintos valores que toma X e Y son:

Frecuencia absoluta de par (xi,yj)

X: x₁, x₂, … , xn
Y: y₁, y₂, … ,ym

Donde:

: Número total de pares observados.

: Frecuencia absoluta marginal de xi

: Frecuencia absoluta marginal de yi

fij : frecuencia absoluta del par (xi,yj)


96 ESTADÍSTICA PARA INGENIEROS

Frecuencia relativas de par (xi,yj)

Donde:

: Frecuencia marginal de xi

: Frecuencia marginal de yi

=: Frecuencia del par (xi,yj)


Las ‘x’ representan una de las variables y las ‘y’ la otra variable. En cada intersección de un valor de ‘x’ y
un valor de ‘y’ se recoge el número de veces que dicho par de valores se ha presentado conjuntamente.

Ejemplo 1: la tabla representa el estado civil y el grado de instrucción de un grupo de 20 personas.

Grado de Grado de
Personas Estado civil Personas Estado civil
instrucción instrucción
Persona 1 Casado Secundaria Persona 11 Soltero Superior
Persona 2 Soltero Superior Persona 12 Casado Secundaria
Persona 3 Divorciado Primaria Persona 13 Viudo Superior
Persona 4 Viudo Primaria Persona 14 Viudo Superior
Persona 5 Viudo Secundaria Persona 15 Soltero No Tiene
Persona 6 Viudo Superior Persona 16 Casado No Tiene
Persona 7 Casado Primaria Persona 17 Divorciado No Tiene
Persona 8 Casado Secundaria Persona 18 Casado Primaria
Persona 9 Divorciado Superior Persona 19 Viudo Superior
Persona 10 Casado Primaria Persona 20 Viudo No Tiene
Capítulo 4 : Distribuciones Bidimensionales 97

Esta información la podemos presentar en una tabla de distribución bidimensional de las frecuencias.

El cuadro muestra frecuencias absolutas:

Estado Grado de Instrucción


Total
Civil No Tiene Primaria Secundaria Superior
Soltero 1 0 0 2 3
Casado 1 3 3 0 7
Divorciado 1 1 0 1 3
Viudo 1 1 1 4 7
Total 4 5 4 7 20

Del cuadro se tiene:


20

: Frecuencia absoluta marginal de x1

: Frecuencia absoluta marginal de x2

: Frecuencia absoluta marginal de y1

: Frecuencia absoluta marginal de y3

El cuadro muestra Frecuencias relativas:

Estado Grado de Instrucción


Total
Civil No Tiene Primaria Secundaria Superior
Soltero 0.05 0 0 0.1 0.15
Casado 0.05 0.15 0.15 0 0.35
Divorciado 0.05 0.05 0 0.05 0.15
Viudo 0.05 0.05 0.05 0.2 0.35
Total 0.2 0.25 0.2 0.35 1

: Frecuencia marginal de x1

: Frecuencia marginal de y1
98 ESTADÍSTICA PARA INGENIEROS

Ejemplo 2: Medimos el peso y la estatura de los alumnos de una clase y obtenemos los siguientes
resultados:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso


Alumno 1 1,25 32 Alumno 11 1,25 31 Alumno 21 1,25 33
Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 32
Alumno 3 1,27 31 Alumno 13 1,27 34 Alumno 23 1,27 34
Alumno 4 1,21 34 Alumno 14 1,21 33 Alumno 24 1,21 34
Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 35
Alumno 6 1,29 31 Alumno 16 1,29 31 Alumno 26 1,29 31
Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34
Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 33
Alumno 9 1,27 32 Alumno 19 1,27 31 Alumno 29 1,27 35
Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

Esta información se puede representar de un modo más organizado en la siguiente tabla de correlación:

El cuadro muestra frecuencia absoluta:

Estatura / Peso 31 kg 32 kg 33 kg 34 kg 35 kg Total


1,21 cm 0 0 1 2 0 3
1,22 cm 0 1 1 0 1 3
1,23 cm 0 0 0 0 0 0
1,24 cm 0 2 1 0 0 3
1,25 cm 1 1 1 0 0 3
1,26 cm 0 0 0 0 0 0
1,27 cm 2 1 0 2 1 6
1,28 cm 0 1 1 0 1 3
1,29 cm 3 0 1 1 1 6
1,30 cm 0 0 0 2 1 3
Total 6 6 6 7 5 30

Tal como vimos en las distribuciones unidimensionales si una de las variables (o las dos) presentan gran
número de valores diferentes, y cada uno de ellos se repite en muy pocas ocasiones, puede convenir
agrupar los valores de dicha variable (o de las dos) en tramos.
Capítulo 4 : Distribuciones Bidimensionales 99

DISTRIBUCIONES MARGINALES

Al analizar una distribución bidimensional, uno puede centrar su estudio en el comportamiento de una
de las variables, con independencia de cómo se comporta la otra.

Estaríamos así en el análisis de una distribución marginal. De cada distribución bidimensional se pueden
deducir dos distribuciones marginales: una correspondiente a la variable x, y otra correspondiente a la
variable y.

Distribución marginal de X

Marginal absoluta:

X fxi
x1 fx1
x2 fx2
... ...
xi fxi
... ...
xn-1 fx(n-1)
xn fxn
Total T

Marginal relativa:

X hxi
x1 hx1
x2 hx2
... ...
xi hxi
... ...
xn-1 hx(n-1)
xn hxn
Total 1=100%

Donde:

: Frecuencia marginal absoluta de xi

: Frecuencia marginal de xi
100 ESTADÍSTICA PARA INGENIEROS

Distribución marginal de Y

Marginal absoluta:

Y f yj
y1 fy1
y2 fy2
... ...
yj fyj
... ...
Ym-1 fy(m-1)
ym fym
Total T

Marginal relativa:

Y hyj
y1 hy1
y2 hy2
... ...
yj hyj
... ...
Ym-1 hy(m-1)
ym hym
Total 1=100%

Donde:

: Frecuencia marginal absoluta de yj

: Frecuencia marginal de yj
La frecuencia marginal es simplemente la frecuencia unidimensional de cada variable.

Ejemplo 1:

En la tabla que representa el estado civil y el grado de instrucción de un grupo de 20 personas, se tiene:

a) La frecuencia marginal de la variable X (estado civil) está representado en el cuadro siguiente:


Capítulo 4 : Distribuciones Bidimensionales 101

Estado frecuencia absoluta frecuencia relativa


Civil simple Acumulada simple Acumulada
Soltero 3 3 15,0 15,0
Casado 7 10 35,0 50,0
Divorciado 3 13 15,0 65,0
Viudo 7 20 35,0 100,0
Total 20 100,0

b) La frecuencia marginal de la variable Y (grado de instrucción) está representado en el cuadro


siguiente:

Grado de frecuencia absoluta frecuencia relativa


Instrucción simple Acumulada simple Acumulada
No Tiene 4 4 20,0 20,0
Primaria 5 9 25,0 45,0
Secundaria 4 13 20,0 65,0
Superior 7 20 35,0 100,0
Total 20 100,0

Ejemplo 2:
A partir del ejemplo serie de datos con los pesos y medidas de los alumnos de una clase, vamos a estudiar
sus distribuciones marginales.
Las variables marginales se comportan como variables unidimensionales, por lo que pueden ser
representadas en tablas de frecuencias.

a) Distribución marginal de la variable X (estatura). Obtenemos la siguiente tabla de frecuencia:

Variable Frecuencias absolutas Frecuencias relativas


(Estatura) Simple Acumulada Simple Acumulada
1,21 3 3 10,0% 10,0%
1,22 3 6 10,0% 20,0%
1,23 0 6 0,0% 20,0%
1,24 3 9 10,0% 30,0%
1,25 3 12 10,0% 40,0%
1,26 0 12 0,0% 40,0%
1,27 6 18 20,0% 60,0%
1,28 3 21 10,0% 70,0%
1,29 6 27 20,0% 90,0%
1,30 3 30 10,0% 100,0%
Total 30 100%
102 ESTADÍSTICA PARA INGENIEROS

b) Distribución marginal de la variable Y (peso). Obtenemos la siguiente tabla de frecuencia:

Variable Frecuencias absolutas Frecuencias relativas


(Peso) Simple Acumulada Simple Acumulada
31 6 6 20,0% 20,0%
32 6 12 20,0% 40,0%
33 6 18 20,0% 60,0%
34 7 25 23,3% 83,3%
35 5 30 16,6% 100,0%
Total 30 100%

DISTRIBUCION CONDICIONAL
Existen dos distribuciones condicionales: la distribución condicional fila y distribución condición columna.

Distribución condicional fila

Consiste en dividir cada frecuencia absoluta total entre su frecuencia absoluta marginal fila
correspondiente utilizando la fórmula siguiente: donde: i = 1,…n ; j = 1…m

También puede utilizar la frecuencia relativa; la fórmula es: donde: i = 1,…n; j = 1…m

Distribución condicional columna

Consiste en dividir cada frecuencia absoluta total entre su frecuencia absoluta marginal fila
correspondiente utilizando la fórmula siguiente: donde: i = 1,…n ; j = 1…m
Capítulo 4 : Distribuciones Bidimensionales 103

También puede utilizar la frecuencia relativa; la fórmula es: donde: i = 1,…n; j = 1…m

Ejemplo: en la tabla que representa el estado civil y el grado de instrucción de un grupo de 20 personas,
se tiene:

a) Distribución condicional fila:

Estado Grado de Instrucción Total


Civil No Tiene Primaria Secundaria Superior
Soltero 33.33% 0.00% 0.00% 66.67% 100.00%
Casado 14.29% 42.86% 42.86% 0.00% 100.00%
Divorciado 33.33% 33.33% 0.00% 33.33% 100.00%
Viudo 14.29% 14.29% 14.29% 57.14% 100.00%

b) Distribución condicional columna:

Estado Grado de Instrucción


Civil No Tiene Primaria Secundaria Superior
Soltero 25.00% 0.00% 0.00% 28.57%
Casado 25.00% 60.00% 75.00% 0.00%
Divorciado 25.00% 20.00% 0.00% 14.29%
Viudo 25.00% 20.00% 25.00% 57.14%
Total 100.00% 100.00% 100.00% 100.00%

Para realizar las distribuciones bidimensionales se necesita mucha paciencia y concentración, pero si
utilizamos el software PASW los resultados se realizarán fácilmente, es más, se pueden realizar tablas
tridimensionales o multidimensionales.
104 ESTADÍSTICA PARA INGENIEROS

CARACTERISTICAS DE UNA TABLA ESTADÍSTICA


El gráfico muestra un cuadro típico que reúne un conjunto de características que son:

Gráfico 1.- Partes de un Cuadro Estadístico.

A. Número de Cuadro y Título (A). Todo cuadro estadístico debe ser numerado.
B. Las unidades (B) en que están medidas las cantidades presentadas.
C. Los nombres colocados en la parte superior de las columnas se llaman cabeceras (C).
D. También se ponen líneas continuas y de mayor intensidad para separar las cabeceras de columnas
(D).
E. Para cuadros muy extensos es conveniente poner líneas indicadoras (E) que permitan una lectura
fácil.
F. Constituyen los niveles de la variable respuesta (F).
G. Los nombres colocados al lado izquierdo de las columnas se les llamará marcas de categorías (G).
H. Los datos se pueden ordenar descendentemente o ascendentemente (H).
I. Las notas al pie del cuadro proveen explicaciones adicionales que deberían estar incorporadas
en el cuadro y que permiten esclarecer aún más la información (I).
J. La fuente (J) es una nota importante que forma parte del cuadro.

Tablas Cruzadas:

Siempre es importante saber la relación que existe entre dos o más variables. Por ejemplo, en el ámbito
de la investigación de mercados estaremos interesados en saber:

• ¿Cuántos compradores de determinado producto son hombres?


• ¿El nuevo producto se ajusta a la edad y nivel educativo?
• ¿Está relacionada la propiedad del producto con los gastos realizados?

Estas preguntas se pueden resolver mediante el estudio de las tablas cruzadas, porque permite analizar
varias variables simultáneamente, mostrando la distribución conjunta de dos o más variables con un
número limitado de categorías o distintos valores.
Capítulo 4 : Distribuciones Bidimensionales 105

Dimensiones de una Tabla:

Los cuadros pueden ser bidimensionales, una variable en las columnas, y la otra variable en las filas.
Una tercera variable definirá una distribución conjunta para cada uno de los valores que tome. Así, en
esta tercera dimensión se definirán segmentos. Como muestra el gráfico 2, las tres dimensiones de una
tabulación cruzada se asemeja a las tres dimensiones físicas: ancho, profundidad y altura.

Gráfico 2.- Tres dimensiones para una Tabulación Cruzada.

Tablas Bidimensionales:

La tabulación cruzada bivariada conocida como tabla bidimensional. Dos variables han sido clasificadas
de manera cruzada, los porcentajes pueden calcularse tanto por filas como por columnas. La manera
correcta de calcular los porcentajes depende de cuál sea la variable independiente y cuál la dependiente.

Tiempo de Residencia
Familiaridad Menor de 13 años De 13 a 30 años Más de 30 años
No familiar 45 34 55
Familiar 52 53 27
Total 97 87 82

Gráfico 3. Tiempo de residencia y familiaridad con el Departamento de Almacén.

En el gráfico 3, la variable independiente puede ser el tiempo de residencia y la familiaridad la variable


dependiente porque estamos interesados en conocer el grado de familiaridad que los residentes de una
zona tienen con respecto a un nuevo almacén de ventas.

Al ser el tiempo de residencia la variable independiente, la manera correcta de calcular los porcentajes
sería como se muestra en el gráfico:

Tiempo de Residencia
Familiaridad Menor de 13 años De 13 a 30 años Más de 30 años
No familiar 46.40% 39.10% 67.10%
Familiar 53.60% 69.8% 32.90%
Total 100.00% 100.00% 100.00%

Gráfico 4. Familiaridad con el Departamento de Almacén por tiempo de residencia.


106 ESTADÍSTICA PARA INGENIEROS

Analizando el cuadro vemos que las personas que viven en la zona entre 13 y 30 años son los que están
más familiarizados con el nuevo almacén. Sin embargo, se nota que la proporción de personas que viven
en la zona por más de 30 años es menor que el grupo de gente que vive menos de 13 años.

Tablas Tridimensionales:
Frecuentemente la introducción de una tercera variable clarifica la asociación inicial observada entre
dos variables. Al ingresar una tercera variable en el análisis puede suceder cualquiera de las cuatro
posibilidades:

• Clarifica la asociación observada entre las dos variables originales.


• Puede indicar falta de asociación entre las dos variables, aunque la asociación fue inicialmente
observada.
• Puede indicar una asociación entre las dos variables iniciales, aunque la asociación inicialmente
no fue observada.
• Puede indicar estabilidad en la asociación inicial.

Ingreso
Compran Bajos Altos
Automóovil Educación Educación
Carros Superior Secundario Superior Secundario
Si 21% 19% 41% 40%
No 79% 81% 59% 60%
Total 100% 100% 100% 100%
Encuestados 100 700 50% 50

Gráfico 5. Propietarios de automóviles caros por grado de instrucción y nivel de ingresos.


Capítulo 4 : Distribuciones Bidimensionales 107

EJERCICIOS DE LABORATORIO
EJERCICIO 1:
Los datos utilizados son de la encuesta del supermercado. La forma de proceder en el PASW es desde el
menú Analizar -> Estadísticas descriptivas -> Tablas de contingencia (Crosstabs).

Dos variables cualitativas: para describirlas dos variables cualitativas primero debemos elaborar una
Tabla de contingencia ((Crosstabs).

Supongamos que deseamos conocer la distribución conjunta de frecuencias de las variables ‘Edad’ y
‘Estado civil’. Para indicar al PASW esta instrucción, primero se seleccionan las variables. Por ejemplo, la
variable edad puede ser la fila (Row[s]) y la variable estado civil la columna (Colum[s]), como se muestra
en la figura anterior. Este cuadro de diálogo también permite obtener una representación gráfica para
las dos variables.

Si se pulsa en el botón Aceptar el resultado obtenido es el siguiente:

En la tabla de resultados se observa las distribuciones conjuntas y marginales de las variables y la


representación gráfica del diagrama de barras conjunto. Como se observa, de los 30 sujetos de la muestra
3 son adolescentes, 5 son jóvenes y 22 son adultos. De los adultos la mayoría son viudos (8 son viudos)
etc.

Las distribuciones conjuntas también pueden obtenerse en frecuencias relativas o porcentajes para
ambas variables (filas y columnas). Para ello, se selecciona el botón Celdas (Cells) del cuadro de diálogo
anterior, cuyo aspecto es el siguiente:
108 ESTADÍSTICA PARA INGENIEROS

Señalar si se desea
obtener las frecuencias
conjuntas relativas para
las filas y las columnas.

Seleccionando las opciones marcadas se obtienen los mismos resultados que antes pero expresados en
porcentajes.

Veamos un ejemplo de interpretación para los solteros. Del 100% de los solteros se observa, que el 0%
son adolescentes, el 40% son jóvenes y el 60% son adultos (la lectura fue en columna).

Veamos un ejemplo de interpretación para los adultos. Del 100% de adultos se observa, que el 13.6% son
solteros, el 31.8% son casados, el 18.2% son divorciados y 36.4% son viudos (lectura fue en Fila).

Las tablas de contingencia sólo tienen sentido para variables de tipo cualitativo (nominal u ordinal). Si se
desea representar la distribución conjunta de dos variables cuantitativas es necesario agrupar los valores
de cada una de dichas variables en intervalos de la misma amplitud (para ello puede utilizarse el menú
Transformar -> Recodificar). Una vez obtenidos los intervalos para dichas variables pueden elaborarse la
tabla de contingencia siguiendo el mismo procedimiento que si las variables fueran cualitativas.

La gráfica más adecuada para dos variables cuantitativas es el diagrama de dispersión.


Capítulo 4 : Distribuciones Bidimensionales 109

Una variable cualitativa y otra cuantitativa: Si queremos cruzar una variable cualitativa con una
cuantitativa, se procede igual que para variables cualitativas, excepto que para resumir los datos de
la cuantitativa hay que emplear estadísticos (sumas, medias, etc.). También se puede representar
gráficamente la relación entre estas dos variables. La presentación gráfica es más recomendable por que
podemos análisis con mayor claridad las variables en estudio.

Una variable cuantitativa y dos cualitativas: Es frecuente la representación de una variable dependiente
cuantitativa en función de dos independientes de tipo cualitativo. En estos casos también se puede
representar gráficamente la relación entre estas tres variables. En forma similar a la anterior la
presentación gráfica es más recomendable por que podemos análisis con mayor claridad las variables
en estudio.

EJERCICIO 2
También se puede utilizar el menú Analizar -> Tablas ( Tables). Por ejemplo, trasladamos las variables al
cuadro de la derecha del modo siguiente: la variable edad a la fila y variable sexo a la columna. Luego
pulsar en el botón Aceptar (OK) para que se ejecute la orden. Los resultados obtenidos aparecen en la
ventana Visor de resultados:

Podemos excluimos del análisis la variable joven y el resultado será el siguiente:

Layers (Capas)
Si hacemos clic en “layers” cuando estamos en el cuadro de diálogo de tablas generales (custom table),
en el cuadro izquierdo aparecerá el listado de variables del archivo de datos que está abierto. El primer
cuadro de la derecha presenta dos botones: uno para las filas y el otro para las columnas; el siguiente
cuadro presenta el botón “layers”, estos cuadros están esperando a que le indiquemos qué variables
queremos analizar; las variables se trasladan de un cuadro a otro arrastrando.

Por ejemplo, trasladando las variables al cuadro de la derecha es decir, la variable edad a la fila, la variable
sexo a la columna y la variable estado civil a layers, se obtiene el siguiente resultado:

En la misma tabla se pueden analizar los subgrupos de variable estado civil (soltero, casado, divorciado y
viudo). Basta con hacer doble clic en estado civil soltero.
 
 
 
110    ESTADÍSTICA  PARA INGENIEROS
 
 
                     
 
MEDIAS       MARGINALES
Y  VARIANZAS          
 
i) La Media se calcula asi: 
 
∑���� ��� ��
�� �  

   
                                        
∑� ��� ��� ��
�� �  

 
ii) La Variancia se calcula asi: 
 
∑���� ��� ��� � ����
��� �  

 
∑� ��� ��� ��� � � �
� �

�� �  

 
Donde: 
 
 � � ∑���� ∑� �
��� ��� � ∑��� ��� � ∑��� ���  

 
 
   
iii) La Covariancia Cov(X,Y) se define como: 
  
  ∑���� ∑� � �
��� ��� ��� � � ���� � � �
��� � ������ �� �  
  �
 
� �

��� � ������ �� � �
� ���� 
� � ��� ��� �� �
127  ��� ���
 
 Donde:      
 
  �� � ∑���� ∑� � �
��� ��� � ∑��� ��� � ∑��� ���  
 

En  resumen, tanto
  las
  medias
  como
  las  variancias
  de cada
    una de
  las  variables
    X é Y se   calculan
        como si
fueran unidimensionales.
         
 
 
     
 
                         
                           
     
 
       
                                   
��� ����
  ��� �             

 
                       
��� ��� �� ��� �� ��� ��
 

                                   
          Capítulo 4 : Distribuciones Bidimensionales 111
 
 
INDEPENDENCIA     DE  VARIABLES
 
Uno  de  los  principales  objetivos  de  estudiar  una distribución
  bidimensional
  es
  describir
  la  asociación
 
existente entre
  las variables
    en  estudio, es
  decir
  el grado   de dependencia
      que
  existe entre  ellos.
 
     
 a) Método de las frecuencias
       
  Se  dice  que  las variables    X  é  Y son
  independientes
   si en
  la
  tabla  de  contingencia  se  cumple que
��� ����
e  � �
��     para i=1…n
  y  j=1…m
   

 
 
Caso     las variables
contrario,      X  é Y son
  dependientes
    o están
  asociadas.
 
 
             
  Ejemplo: se tiene el cuadro de contingencia
      
Estado Grado de Instrucción
           Total
Civil Masculino Femenino
       
Estadística f₁₁=4 f₁₂=8 Fx₁=12
       
Economía f₂₁=7 f₂₂=6 Fx₂=13
       
Total fy₁=11 fy₂=14 T=24
128 
 
 
 
 

24

24

24
Estos resultados parecen indicar que no hay independencia entre las dos variables. Este método es
un poco ambiguo porque si analizamos a profundidad las distribuciones condicionales puede que
exista una tendencia a la independencia entre las dos variables.

b)Método de la Prueba χ²
La prueba χ² (pronunciado como "ji-cuadrado" y a veces incorrectamente como "chi-cuadrado")
es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución
observada y otra teórica (bondad de ajuste), indicando en qué medida las diferencias existentes
entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. También se utiliza para
probar la independencia de dos variables entre sí, mediante la presentación de los datos en tablas
de contingencia.
La fórmula que da el estadístico es la siguiente:
112 ESTADÍSTICA PARA INGENIEROS

Donde:
oij: valor observado

eij : valor esperado o teórico

Contraste de Hipótesis
Ho: las variables son independientes (Ho: hipótesis Nula)
H1: las variables son dependientes (H1: hipótesis alternativa)

Criterio de decisión teórico

Se acepta H0 cuando . En caso contrario se rechaza H0 y se acepta H1.

El valor de se encuentra en la tabla de Ji-cuadrada.

Donde:
Los grados de libertad (gl) vienen dados por: gl= (n-1)(m-1). Donde n es el número de filas y m el de
columnas.

Y α representa el valor proporcionado por las tablas, según el nivel de significación estadística elegido.

Cuanto mayor sea el valor de χ², menos verosímil es que la hipótesis sea correcta. De la misma forma,
cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones.

Ejemplo: se tiene la información del nivel de ingresos y los tipos de preferencia. Son independientes las
variables nivel de ingreso y la preferencia.

Preferencia
Ingresos Total
A B C
BAJO 25 40 70 135
MEDIO 30 30 30 90
ALTO 45 20 10 75
TOTAL 100 90 110 300
Capítulo 4 : Distribuciones Bidimensionales 113

Solución:

Para reemplazar los valores en la fórmula

Se tiene que calcular (valor esperado o teórico) ya que (valor observado) setiene como dato en
el cuadro anterior.
Calculando los valores esperados con la fórmula se obtiene la tabla siguiente:

Preferencia
Ingresos Total
A B C
BAJO 45 40.5 49.5 135
MEDIO 30 27 33 90
ALTO 25 22.5 27.5 75
TOTAL 100 90 110 300

Remplazando en la fórmula se tiene que X² = 45.40

a) Hipótesis:
Ho: el nivel de ingresos es independiente de la preferencia.
H1: el nivel de ingresos es dependiente de la preferencia.
b) Grados: Grados de Libertad = (3-1)(3-1) = 4
c) α=5%
d) Buscado el valor X²(0.5)(4) en tablas la ji-cuadrada y comparando con el calculado
(45,40). El valor calculado es mayor, por tanto rechazamos la hipótesis nula.
e) Si rechazamos la hipótesis nula entonces existe relación entre dichas variables.
114 ESTADÍSTICA PARA INGENIEROS

EJERCICIOS DE LABORATORIO CHI - CUADRADO


Criterio de decisión en PASW. Para contrastar estas hipótesis se utilizó la prueba de independencia del
Chi-cuadrado. El objetivo de esta prueba es contrastar la hipótesis mediante el nivel de significación, por
lo que si el valor de la significación es mayor o igual que el Alfa, se acepta la hipótesis; pero si es menor,
se rechaza.

Tablas de contingencia: este tipo de contrastes también se pueden realizar mediante la prueba X2 de
las tablas de contingencia.

Las tablas de contingencia contienen la distribución conjunta de dos o más variables y se han estudiado
en relación con los contrastes sobre independencia e igualdad de proporciones. En el PASW se lleva a
cabo mediante el procedimiento Analizar >Estadísticos descriptivos> Tablas de contingencia.

Vamos a obtener la tabla de contingencia de las variables Estrés y Edad. Esto se indica:

La salida de resultados del PASW muestra la tabla:

Cada casilla contiene el número observado de sujetos que obtienen un determinado par de valores en
Estrés y Edad. Por ejemplo, hay 2 sujetos el grupo adolescentes y que no recibe terapia de Estrés, el
número total de sujetos en la categoría Adulto es 3, etc.
Capítulo 4 : Distribuciones Bidimensionales 115

Para calcular el valor de X² (y contrastar la hipótesis H₀: X e Y son independientes), se pulsa en el botón
Estadísticos del cuadro de diálogo del procedimiento tablas de contingencia, cuyo aspecto es el siguiente:

Este ejemplo se puede interpretar también como un contraste de igualdad de proporciones, en el que
se compara la distribución de la variable Estrés (variable dicotómica) en cada grupo de Edad. El valor del
estadístico aparece del siguiente modo:

El valor de X² está en la primera línea del cuadro, junto con los grados de libertad y el nivel crítico (P(X²
=0,79) =0,961). Los índices de asociación basados en chi-cuadrado aparecen en otra tabla diferente. En
este caso puesto que las variables son independientes, estos índices adoptan valores muy pequeños.
116 ESTADÍSTICA PARA INGENIEROS

Es posible obtener tablas de contingencia con más de dos variables utilizando la casilla inferior del cuadro
de diálogo. Por ejemplo, del siguiente modo se especifica una tabla de contingencia con las variables
Edad, Estrés y Sexo. La salida de resultados muestra la tabla de contingencia de las tres variables:

Lo que no permite el procedimiento Tablas de contingencia es realizar el análisis estadístico de más de


dos variables cualitativas. Dicho análisis se lleva a cabo mediante los modelos loglineales y modelos logit.
CAPÍTULO

5 Coeficiente de Correlación
Lineal

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación
entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que
exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso.

El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables.
Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si
representamos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría
a una recta).
REGRESIÓN LINEAL REGRESIÓN EXPONENCIAL SIN RELACIÓN
100 100
90 90
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos
casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación de las variables, por lo
que convendría utilizar otro tipo de coeficiente más apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los
pares de valores en un gráfico y ver qué forma describe.

Sea, X: x₁, x₂, … , xn y Y: y₁, y₂, … ,yn los valores de dos variables (X,Y). El coeficiente de correlación lineal
se calcula aplicando la siguiente fórmula:

Donde:

: Covarianza de (x,y)

S x : Varianza de x

S y : Varianza de y
118 ESTADÍSTICA PARA INGENIEROS

Es decir: el numerador se denomina covarianza y el denominador es la raíz cuadrada del producto de la


varianza de ‘x’ multiplicado por la varianza de ‘y’.

PROPIEDADES DE ‘rXY’:
Los valores que puede tomar el coeficiente de correlación ‘r’ está comprendido en el intervalo: -1 ≤ rxy
≤1

Si ‘rxy’ > 0: la correlación lineal es positiva. Valores positivos indican que las dos variables aumentan o
disminuyen al mismo tiempo (si sube el valor de una variable sube el de la otra). La correlación es tanto
más fuerte cuanto más se aproxime a 1.
Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.

Si ‘rxy’ < 0: la correlación lineal es negativa. Valores negativos significan que cuando una variable aumenta
la otra disminuye o viceversa (si sube el valor de una variable disminuye el de la otra). La correlación
negativa es tanto más fuerte cuanto más se aproxime a -1.

Ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.

Si ‘rxy’= 0: no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación
(parabólica, exponencial, etc.).

Si ‘rxy’ igual a -1 ó +1: quiere decir que hay una perfecta asociación entre las dos variables, en el sentido
de que por cada unidad que aumenta o disminuye una variable, la otra cambia siempre igual número de
unidades. Los puntos de la gráfica formarían una línea recta. De todos modos, aunque el valor de ‘rxy’
fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-
efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar.

EJERCICIO 1
Vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los
alumnos de una clase:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso


Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33
Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34
Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34
Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31
Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32
Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34
Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34
Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31
Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35
Alumno10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34
Capítulo 5 : Coeficiente de Correlación Lineal 119

Aplicamos la fórmula:

0.826

0.02568 51.366

Luego, rxy=0.828. Por lo tanto, la correlación existente entre estas dos variables es elevada (0,828) y de
signo positivo. Podríamos decir que la correlación del peso y la estatura es significativa.

Resultados con el software PASW (Correlación de Pearson):

El cuadro representa la matriz de correlación de la variable estatura y peso. Como son dos variables (x é
y) la matriz de correlación (R) será de dos por dos como se muestra a continuación:

EJERCICIO 2
Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia (x) y
el salario mensual, en soles, (y) entre los informáticos de una región del Perú. Para ello, se tomó una
muestra aleatoria de 17 informáticos y se obtuvieron los siguientes datos. Calcular el coeficiente de
correlación.

Exper. Salario Exper. Salario Exper. Salario


13 26100 31 36400 27 36000
16 33200 19 33800 25 36500
30 36100 20 36500 7 21400
2 16500 1 16900 15 31000
8 26400 4 19800 13 31400
6 19100 10 24600
120 ESTADÍSTICA PARA INGENIEROS

Calculando la covarianza y varianzas y luego remplazando en la fórmula se tiene:

Luego, rxy=0.929. Por lo tanto, la correlación existente entre estas dos variables es elevada (0,929) y de
signo positivo. Podríamos decir que la correlación es significativa.

Resultados con el software PASW:

El cuadro representa la matriz de correlación de la variable experiencia y salario mensual.

MATRIZ DE CORRELACIÓN
Como son dos variables (x é y) la matriz de correlación (R) será de dos por dos como se muestra a
continuación:

Supongamos que en un determinado estudio se tiene más de dos variables. Para calcular las correlaciones
entre las variables usaremos la matriz de correlaciones de n variables.

Donde:
P ara: i=1,2,…., n y j= 1,2,…., n

Si i=j el coeficiente de correlación es igual a uno (rii=1).


Capítulo 5 : Coeficiente de Correlación Lineal 121

EJERCICIOS DE LABORATORIO

EJERCICIO 1:
Para obtener los índices de asociación lineal con variables (la covarianza, SXY y el coeficiente de
correlación de Pearson, rXY), se utiliza el procedimiento bivariadas, se selecciona el menú Analizar ->
Correlaciones -> Bivariadas.

Para la covarianza pulsaremos el botón ‘Opciones’. Desde aquí puede indicarse que se muestren los
estadísticos descriptivos (media y desviación típica) para cada una de las variables seleccionadas y
también la matriz de varianzas-covarianzas (cross-product deviations and cavariances). Por ejemplo, en
la encuesta supermercado aparecen los datos de 30 sujetos para dos variables; X: Venta de verduras e Y:
Venta de abarrotes. Finalmente se pulsa en el botón Aceptar. Los resultados obtenidos son los siguientes:

El cuadro representa la matriz de correlación (R₂x₂). Se ha señalado el coeficiente de Pearson con un


círculo. Como se observa, se obtienen rxy = -0.187. La Media y la Desviación estándar se muestra en la
tabla siguiente:
122 ESTADÍSTICA PARA INGENIEROS

Veamos un ejemplo a partir de los datos de la encuesta. Tomemos las variables ‘Venta de aseo personal’,
‘Venta de verduras’ y ‘Venta de Bebidas’, y obtengamos sus coeficientes de correlación. Los resultados
obtenidos son los siguientes:

El cuadro representa la matriz de correlación (R₃x₃).Se ha sombreado los tres coeficientes de Pearson.
Como se observa, no se ha obtenido un valor razonable de correlación lineal. Es decir las correlaciones
son muy bajas.

EJERCICIO 2:
Los datos para este ejercicio aparecen recopilados en las variables Día1, Día2, Día3, que indican el
número de horas trabajadas en los tres días. Además se han recopilado las variables Sexo que toma
valores 0 para mujeres y 1 para hombres, así como Edad, 1 para Adolescentes, 2 para Jóvenes y 3 para
Adultos.

Finalmente, se incluyen tres datos relacionados con las terapias que ha recibido el sujeto. Todas ellas
toman 1 si el sujeto ha recibido la terapia y 0 en caso contrario; las variables son Estrés, Ansiedad y
Fobia.
Capítulo 5 : Coeficiente de Correlación Lineal 123

Sujeto Día1 Día2 Día3 Sexo Edad Estrés Ansiedad Fobia


1 5.7 6.3 6.8 0 1 0 1 0
2 4.8 5.4 4.3 1 3 0 0 0
3 7.6 7.9 8.6 0 2 0 0 0
4 5.7 6.0 6.7 1 1 0 0 1
5 3.8 4.6 4.9 1 3 0 0 0
6 7.5 8.0 8.5 1 2 0 1 0
7 6.4 7.0 7.3 1 1 1 1 0
8 7.7 8.1 8.5 0 2 0 0 0
9 4.0 4.5 5.0 0 3 1 0 0
10 5.7 6.1 6.8 1 2 1 0 1

El PASW también permite calcular la correlación de tau de Kendall y la de Spearman, que utilizan
únicamente las propiedades ordinales de los datos.
124 ESTADÍSTICA PARA INGENIEROS

Además de los coeficientes de correlación de Pearson (rij) para cada combinación de las variables
incluidas, la tabla incluye el nivel crítico que permite tomar una decisión respecto a cada hipótesis nula :
H₀ : pij = 0.000. La última fila de la tabla contiene el número de casos (10).

GRÁFICOS DE CORRELACIÓN
La primera aproximación a la relación entre dos variables (X e Y) puede hacerse a partir de un diagrama
de dispersión. La correlación permite evaluar la existencia de relaciones lineales entre variables. Sin
necesidad de calcular ningún estadístico, es posible elaborar un gráfico de dispersión que informe sobre
la posibilidad de que se dé este tipo de relación.

EJERCICIO 1
Por ejemplo, supongamos que tenemos los siguientes datos:

Sujeto Edad Peso


1 39 58
2 30 55
3 50 65
4 52 70
5 62 69

Los datos corresponden a 5 sujetos medidos en dos variables: edad y peso. Como en otros ejemplos
previos, tendremos que introducir los datos correspondientes. Para realizar el diagrama de dispersión
se selecciona el menú Gráficos de la barra de menús del Editor de datos y se elige el procedimiento
‘Dispersión’ (Scatter).

Luego pulsar definir para definir los ejes del diagrama de las variables.

Con esta definición se obtiene el siguiente diagrama de dispersión simple en el visor de resultados:

Como se observa, la forma de este diagrama indica que los puntos no están perfectamente alineados
pero se acercan a una hipotética línea recta.
Capítulo 5 : Coeficiente de Correlación Lineal 125

EJERCICIOS 2
Los datos para este ejercicio aparecen recopilados en las variables Día1, Día2, Día3, que indican el número
de horas trabajadas en los tres días. Además se han recopilado las variables Sexo que toma valores 0 para
mujeres y 1 para hombres, así como Edad, 1 para Adolescentes, 2 para Jóvenes y 3 para Adultos.

Finalmente, se incluyen tres datos relacionados con las terapias que ha recibido el sujeto. Todas ellas
toman 1 si el sujeto ha recibido la terapia y 0 en caso contrario; las variables son Estrés, Ansiedad y Fobia.

Sujeto Día1 Día2 Día3 Sexo Edad Estrés Ansiedad Fobia


1 5.7 6.3 6.8 0 1 0 1 0
2 4.8 5.4 4.3 1 3 0 0 0
3 7.6 7.9 8.6 0 2 0 0 0
4 5.7 6.0 6.7 1 1 0 0 1
5 3.8 4.6 4.9 1 3 0 0 0
6 7.5 8.0 8.5 1 2 0 1 0
7 6.4 7.0 7.3 1 1 1 1 0
8 7.7 8.1 8.5 0 2 0 0 0
9 4.0 4.5 5.0 0 3 1 0 0
10 5.7 6.1 6.8 1 2 1 0 1

Por ejemplo, mediante el procedimiento Gráficos > Dispersión > Simples es posible elaborar el siguiente
gráfico de dispersión de las variables Día 2 y Día 3:

Cada punto del gráfico se corresponde con las puntuaciones de un sujeto en ambas variables. El gráfico
sugiere que existe una relación lineal directa (o positiva) entre ambas, de modo que los sujetos que
trabajan más el segundo día también lo hacen el tercer día.

Otro ejemplo es que mediante el procedimiento Gráficos > Dispersión > Simples es posible elaborar el
siguiente gráfico de dispersión de las variables número de horas trabajadas durante los Día1 y Día2.
126 ESTADÍSTICA PARA INGENIEROS

Cada punto del gráfico se corresponde con las puntuaciones de un sujeto en ambas variables. El
gráfico sugiere que existe una relación lineal directa (o positiva) entre ambas, de modo que los sujetos
que trabajan más el primer día también lo hacen el segundo día. Para comprobar si esta relación es
estadísticamente significativa se utilizan los procedimientos Correlaciones.
CAPÍTULO

6 Regresión Lineal Simple

Representamos en un gráfico los pares de valores de una distribución bidimensional: la variable ‘x’ en el
eje horizontal o eje de abscisas, y la variable ‘y’ en el eje vertical o eje de ordenada. Vemos que la nube
de puntos sigue una tendencia lineal:

100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5

El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las
dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que
mejor se ajusta a esta nube de puntos.
REGRESIÓN LINEAL
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5

El modelo de regresión lineal, que se va a estudiar, considera que la relación entre la variable dependiente
Y (Y: y1, y2, … ,yn) y la independiente X (X: x1, x2, … , xn) se puede formular a partir de la siguiente expresión
lineal:

Sea ei la distancia (error o residuo) entre el valor observado yi y su valor estimado y i. ̂


Para calcular los valores de los parámetros β₀ y β₁ utilizaremos el método de mínimos cuadrados.
128 ESTADÍSTICA PARA INGENIEROS

El método de mínimos cuadrados

Consiste en tomar la distancia al cuadro para que no se puedan contrarrestar los signos (+ y -) y hacer
mínimo su suma, esto es:

ܵ‫ ܧܥ‬ൌ σ௡௜ୀଵ ݁௜ ൌ σ௡௜ୀଵሺ‫ݕ‬௜ െ ‫ݕ‬ො௜ ሻଶ ൌ σ௡௜ୀଵሺ‫ݕ‬௜ െ ߚ଴ െ ߚଵ ‫ݔ‬௜ ሻଶ 

DerivandoestafunciónSCEconrespectoalosparámetrosɴ0yɴ1eigualandoacerosetiene:

i) డௌ஼ா
ൌ ʹ σ௡௜ୀଵሺ‫ݕ‬௜ െ ߚ଴ െ ߚଵ ‫ݔ‬௜ ሻሺെͳሻ ൌ Ͳ
డఉబ

ii) ߲ܵ‫ ܧܥ‬ൌ ʹ ෍ ሺ‫ ݕ‬െ ߚ െ ߚ ‫ ݔ‬ሻሺെ‫ ݔ‬ሻ ൌ Ͳ



௜ ଴ ଵ ௜ ௜
߲ߚଵ ௜ୀଵ

Usando las propiedades de sumatoria nos quedan las:

Ecuaciones Normales:
n n
nE 0  E1 ¦ xi ¦y i 
i 1 i 1 ....................................... (1)

n n n
E 0 ¦ xi  E1 ¦ xi2 ¦y x  i i
....................................... (2)
i 1 i 1 i 1

Resolviendo las ecuaciones se tiene:

Elparámetro‘ɴ1’vienedeterminadoporlasiguientefórmula:
n
( xi  X )( yi  Y )
¦ n S xy
E1 i 1

n
( xi  X ) 2 S x2
¦i 1 n

Es la covarianza de las dos variables ‘x’ e ‘y’, dividida por la varianza de la variable ‘x’.

El parámetro ‘β₀’ viene determinado por:

Es la media de la variable ‘Y’, menos la media de la variable ‘X’ multiplicada por el parámetro ‘β₁’ que
hemos calculado.

El parámetro ‘β₀’ es el valor que toma la variable dependiente ‘y’, cuando la variable independiente ‘x’
vale 0, y es el punto donde la recta cruza el eje vertical.

El parámetro ‘β₁’ determina la pendiente de la recta, su grado de inclinación.


Capítulo 6 : Regresión Lineal Simple 129

La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor
se ajusta a esta nube de puntos.

Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de los
alumnos de una clase. Vamos a considerar que la altura es la variable independiente ‘X’ y que el peso es
la variable dependiente ‘Y’ (podríamos hacerlo también al contrario):

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso


Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33
Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34
Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34
Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31
Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32
Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34
Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34
Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31
Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35
Alumno10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

El parámetro ‘β1’ viene determinado por:


β₁ = (1/30) * 1,034/((1/30) * 0,00856) = 40,265

Y el parámetro ‘β₀’ por:


β₀ = 33,1 - (40,265 * 1,262) = -17,714

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
yi = -17,714 + 40,265xi

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente
(estatura):
Edad Peso
xi yi
1,20 30,6
1,21 31,0
1,22 31,4
1,23 31,8
1,24 32,2
1,25 32,6
1,26 33,0
1,27 33,4
1,28 33,8
1,29 34,2
1,30 34,6
130 ESTADÍSTICA PARA INGENIEROS

Resultados con PASW:

VARIANZAS DE LOS ESTIMADORES


La varianza de los estimadores de mínimos cuadrados de los parámetros β₀ y β₁, es:

¦X i
2

Var ( Eˆ0 ) n
i 1
V e2 
n¦ ( X i  X ) 2
i 1

V e2
Var ( Eˆ1 ) n

¦(X
i 1
i  X )2
Capítulo 6 : Regresión Lineal Simple 131

Como la varianza de los residuos es desconocida, debemos estimarla. El estimador de

¦ (Yi  Yˆi )
n
2

mínimos cuadrados de V e  es Vˆ e


2 2 i 1
CME , donde  Yˆi  es el valor
n2
estimadode Y i porelmodelo Yˆi Eˆ 0  Eˆ1 X i .Entonceslasvarianzasestimadasde
Eˆ0 y Eˆ1 son:
n

¦X i
2

Vaˆr ( Eˆ0 ) n
i 1
CME y
n¦ ( X i  X ) 2

i 1

CME

Vaˆ r ( Eˆ1 ) n 
¦(X
i 1
i  X) 2

INFERENCIA PARA LOS COEFICIENTES DE REGRESIÓN


Suponga que se quiere probar la hipótesis:

 H0 :E 0 0 vs
H 1 : E 0 z 0 ,
Eˆ0  E 0
Laestadísticadepruebaes T ~ T( n  2 ) 
Vaˆ r ( Eˆ0 )

BajoH0,serechazalahipótesisnulasi:

|T|>T(nͲ2;1ͲD/2).

Ahora,sisequiereprobarlahipótesis:
H 0 : E1 0 vs
 H 1 : E1 z 0 ,
Eˆ1  E1
Laestadísticadepruebaes T ~ T( n  2 ) 
Vaˆr ( Eˆ1 )

BajoH0,serechazalahipótesisnulasi:
132 ESTADÍSTICA PARA INGENIEROS


|T|>T(nͲ2;1ͲD/2).Ademássepuedenconstruirintervalosdeconfianza.

TABLA ANOVA
Para construir la tabla anova analizaremos la descomposición de la variación total. La variación total se
define como:
n
SCT ¦ (Y  Y )
i 1
i
2


Ahora,estaexpresiónsedescomponecomo:
n n n

¦ (Yi  Y ) 2
i 1
¦ (Yˆi  Y ) 2  ¦ (Yi  Yˆi ) 2
i 1 i 1
.

Llamaremos:
n
SCR ¦ (Yˆ  Y )
i 1
i
2


n
SCE ¦ (Y i  Yˆi ) 2 .
i 1
Asínosquedalaigualdad:

  SCT=SCR+SCE
Donde:

SCT:sumadecuadradosdeltotaloglobal
n
SCT ¦y
i 1
2
i  nY 2 

SCR:sumadecuadradosexplicadaodelaregresión
n n
SCR E 0 ¦ y i  E 1 ¦ y i x i  nY 2
i 1 i 1

SCE:sumadecuadradosdelerrororesidual
n
SCE ¦e
i 1
2
i


Con todo lo anterior la tabla anova queda :

GRADOS DE SUMA DE CUADRADO CUADRADO MEDIO


FUENTE F
LIBERTAD GL SC CM
CMR
REGRESIÓN 1 SCR CMR=SCR/1
CME
ERROR n2 SCE CME=SCE/ n 2
TOTAL n1 SCT
Capítulo 6 : Regresión Lineal Simple 133

La estadística CMR/CME en la columna F de la tabla es una estadística para probar las hipótesis:

H0 : β 1 = 0 VS
H1 : β 1 ≠ 0 ,

En la cual se rechaza la hipótesis nula si CMR/CME > F(1, n-2, 1-).

COEFICIENTE DE DETERMINACIÓN

Una medida de que nos indica cuán bueno es el ajuste del modelo es el coeficiente de determinación ó
R² el que se define como:
R²=SCR/SCT

El que nos indica cuánto explica el modelo a la variación total. Esta cantidad suele expresarse en
porcentaje (R², 100%) y mientras más cercano al 100% está mejor es el ajuste del modelo.

VALIDACIÓN DE LOS SUPUESTOS DEL MODELO


Para la validación de los supuestos se debe realizar el análisis de residuos. Los residuos se definen como:

ei Yi  Yˆi ,

Donde:

Yˆi Eˆ0  Eˆ1 X i CorrespondealvalorestimadodeYi.



La validación del modelo se puede realizar a través de los siguientes gráficos:

i) Primero graficar los residuos vs. los valores estimados. Teóricamente los residuos y los valores
estimados se encuentran en espacios completamente ortogonales, lo que nos indica que
el gráfico no debe presentar ningún comportamiento. La verificación de este hecho es muy
importante, ya que es un fuerte indicio de que el modelo propuesto es correcto.

ii) Segundo, realizar un gráfico de normalidad conocido como qplot o qqnorm, dependiendo del
software que se use. Este gráfico consiste en lo siguiente:
Ordenamos los residuos de menor a mayor digamos e (1) , e ( 2 ) ,..., e ( n ) , donde se cumple que

e (1)  e ( 2 )  ...  e ( n ) . Consideremos las posiciones de los residuos ordenados y calculemos

las siguientes probabilidades:  i  .  que correspondería a la probabilidad acumulada hasta


n
r(i). Calculemos los cuantiles asociados a las probabilidades i  .  de la distribución normal
n
media 0 y varianza 1.
134 ESTADÍSTICA PARA INGENIEROS

Ahora graficamos los residuos ordenados vs los cuantiles calculados anteriormente. Si


observamos que estos puntos tienen un comportamiento lineal, es decir están sobre una línea
recta, podemos concluir que los residuos tienen distribución normal. Es decir la distribución
teórica asumida a los errores aleatorios se cumple.

iii) Debemos graficar los residuos vs a la posición que les corresponde (no son los residuos
ordenados). Este gráfico muestra el comportamiento de los residuos si no se observan patrones
de comportamiento, es decir si cada cierto número de puntos describe una tendencia es indicio
que los residuos tienen alguna asociación, lo que no ratificaría el supuesto de que los errores
aleatorios son independientes. Si no observamos este comportamiento, podemos afirmar que se
cumple el supuesto de independencia. En el caso de observar comportamientos en este gráfico
puede ser indicio de que exista multicolinealidad entre las variables explicatorias (regresión
múltiple), o tal vez que no exista normalidad en los residuos o simplemente que el modelo
propuesto no es adecuado para explicar el fenómeno de interés (Y).

iv) Por
, último, debemos graficar los valores de la respuesta observados (Yi ) vs los valores estimados
( Yˆ ) Si el comportamiento de esta nube de puntos es una línea recta quiere decir que el modelo
i
puede predecir correctamente el valor de Yi.

Para saber si el modelo explica correctamente el fenómeno de interés (Yi), se deben cumplir en forma
favorable al modelo los puntos a), b), c) y d) en forma simultánea. Si falla cualquiera de los gráficos
anteriores esto indica que existen problemas de especificación del modelo, como por ejemplo que
realmente la variable Yi no tiene un comportamiento lineal con la variable explicatoria X , sino que tiene
un comportamiento lineal con g(Xi), entonces debemos reformular el modelo. Otra causa puede ser la no
inclusión de variables explicatorias, etc.

EJERCICIOS RESUELTOS:

1. El conjunto de datos representa grupos de trabajadoras de Inglaterra y Gales en el período de


1970-72. Cada grupo está formado por trabajadores de la misma profesión (médicos, trabajadores
textiles, decoradores, etc.) y en cada uno de los veinticinco grupos muestrales se han observado dos
variables: el índice estandarizado de consumo de cigarrillos (x) y el índice de muertes por cáncer de
pulmón (y).

x y x y x y X y x Y
77 84 102 101 91 104 110 139 87 79
137 116 111 118 104 129 125 113 91 85
117 123 93 113 107 86 133 146 100 120
94 128 88 104 112 96 115 128 76 60
116 155 102 88 113 144 105 115 66 51

Estudiar el modelo de regresión lineal:


a) Estudiar el modelo de regresión lineal.
b) Calcular el coeficiente de determinación. Explique.
c) Calcular la tabla ANOVA. Conclusiones.
d) ¿El Modelo no es influyente? ¿Por qué?
Capítulo 6 : Regresión Lineal Simple 135

Solución:
a). Calculado β0 y β1

El modelo será: Y = -2.885+1.088X

b) Coeficiente de determinación: R²=SCR/SCT=0.513

Una medida de que nos indica cuán bueno es el ajuste del modelo es el coeficiente de
determinación ó R2 =51.3% el ajuste del modelo no es tan bueno porque 51.3% está alejado del
100%.

c)ANOVA:

n
SCT ¦y
i 1
2
i  nY 2 =16366
n n
SCR E 0 ¦ yi  E1 ¦ yi xi  nY 2 8395.749 
i 1 i 1
n
SCE ¦e
i 1
2
i
=16366Ͳ8395.749=7970.251
136 ESTADÍSTICA PARA INGENIEROS

Con todo lo anterior la tabla anova es:

FUENTE GRADOS DE LIBERTAD GL SC CM F


REGRESIÓN 1 8395.749 8395.749 24.228
ERROR 23 7970.251 346.533
TOTAL 24 16366

d) La estadística CMR/CME en la columna F de la tabla es una estadística para probar las hipótesis:
H0 : β 1 = 0 VS
H1 : β 1 ≠ 0 ,

ComoCMR/CME=24.228ybuscandoestablasestadísticasF(1,24,95).=4.25

RechazamoslahipótesisnulaporserCMR/CME>F(1,nͲ2,1ͲD)entoncesɴ1diferentedecero.
Capítulo 6 : Regresión Lineal Simple 137

EJERCICIOS DE LABORATORIO
Diagrama de dispersión: Si bien es cierto no tocamos capítulo de gráficos, es necesario hacer uso de esta
herramienta para explicar con claridad este modelo. La primera aproximación a la relación entre dos
variables (X e Y) puede hacerse a partir de un diagrama de dispersión.

Por ejemplo, supongamos que tenemos los siguientes datos:

Sujeto Edad Peso


1 39 58
2 30 55
3 50 65
4 52 70
5 62 69

Los datos corresponden a 5 sujetos medidos en dos variables: Edad y Peso.


Como en otros ejemplos previos, tendremos que introducir los datos correspondientes a los 5 sujetos
en las dos variables en un archivo nuevo del editor de datos. Una vez introducidos los datos guardar
como regresion.sav. Para realizar el diagrama de dispersión se selecciona el menú Gráficos de la barra
de menús del Editor de datos y se elige el procedimiento ‘Dispersión’ (Scatter).

Luego pulsar definir para definir los ejes del diagrama de las variables. Con esta definición se obtiene el
siguiente diagrama de dispersión simple en el visor de resultados:

Como se observa, la forma de este diagrama indica que los puntos no están perfectamente alineados
pero se acercan a una hipotética línea recta.

Se selecciona el menú Analizar -> Regresión -> Lineal. Como en otros cuadros de diálogo del PASW, lo
primero es seleccionar las variables. En este caso hay que distinguir entre ‘Dependiente’ e ‘Independiente’
(o independientes si se trata de una regresión múltiple).
138 ESTADÍSTICA PARA INGENIEROS

Dentro de este menú hay otras opciones. Por el momento, nos interesa la que se encuentra en el botón
‘Estadísticos’. Desde aquí podemos solicitar que se ofrezcan las estimaciones de la pendiente y el origen
de la recta de regresión (según el criterio de mínimos cuadrados), la matriz de covarianzas para las
variables, el ajuste del modelo (coeficiente de Pearson al cuadrado o coeficiente de determinación) y
los estadísticos descriptivos (media y varianza). Otra opción relevante del menú regresión lineal es la
de ‘Guardar’. Desde su correspondiente cuadro de diálogo es posible indicar que se guarden los valores
pronosticados por el modelo (las Yi) y los residuos (las Yi - Y’i) en el editor de datos.

Veamos cuál es el resultado para el ejemplo. Si indicamos todas estas instrucciones, el resultado que
ofrece el PASW es el siguiente (nótese que se ofrecen muchas tablas de resultados. Aquí explicaremos
sólo las más importantes:

Esto es el coeficiente de
determinación, r2XY o la
proporción de varianza en
común entre X e Y.
Capítulo 6 : Regresión Lineal Simple 139

Al modelo también se le define de la siguiente manera: Y= a +bX

En la columna B se ven los coeficientes a y b del modelo pronosticado en directas, siendo a = 39,932 y b
= 0,504. Luego: Y’ = 39.932 + 0,504 X

En la columna Beta aparece el modelo en típicas: ZY’ = rXY ZX (en el ejemplo: ZY = 0.504 ZX).

Como se observa, el PASW ofrece muchas tablas de datos como resultado de la regresión. Por el momento
solamente nos fijaremos en dos: la primera se refiere a los coeficientes del modelo y la segunda a su
bondad. En cuanto a la primera, se toman los coeficientes no estandarizados. En este caso el mejor
modelo para pronosticar Yi a partir de Xi es Y’i = 39.932 + 0,504 Xi

Bondad de ajuste del modelo


Además de la fórmula de la recta de regresión, resulta necesario disponer de información sobre el grado
en que el modelo se ajusta a los datos observados (nube de puntos).

Una primera aproximación es la interpretación gráfica del problema. Para elaborar la gráfica del ajuste
de la recta a los datos observados se pulsa el menú Gráficos -> Interactivos -> Diagramas de dispersión.

El gráfico obtenido es el siguiente:


140 ESTADÍSTICA PARA INGENIEROS

Como se observa, los puntos no se alejan bastante de la recta, luego el ajuste es aceptable. Además
de la interpretación gráfica del problema, la forma de cuantificar la bondad del modelo es mediante el
coeficiente de determinación, r²XY.

Se trata de una medida estandarizada que toma valores entre 0 y 1 y cuya interpretación es muy sencilla:
representa la proporción de varianza explicada de la variable del criterio a partir de la predictora. En
nuestro ejemplo, r²XY = 0,875 por lo que el modelo SI es adecuado para hacer pronósticos de Y a partir
de X.

La bondad del modelo también puede valorarse a partir del análisis de los errores en los pronósticos,
frecuentemente llamados residuos (Yi - Y’i). Teniendo los datos para Yi, Y’i e (Yi - Y’i), podemos evaluar
la bondad del modelo a partir de la descomposición de la varianza del criterio (S²Y = S²Y’ + S²Y-Y’). Para
ello entramos en el menú Analizar -> Estadísticos descriptivos -> Descriptivos: Opciones e indicamos en
el cuadro de diálogo que se calcule la varianza para estas tres variables (Y, pre_1 y res_1). Los resultados
obtenidos en el visor son los siguientes:

Como se comprueba, la varianza del criterio (S²Y = 44.3) se descompone en la varianza de los pronósticos
(S²Y’ = 38.752) y la de los errores (S²Y-Y’= 5.548).

Veamos ahora un ejemplo a partir de los datos de la encuesta. Supóngase que queremos predecir la
variable ‘Venta de verduras (V)’ a partir de la variable ‘Venta de abarrotes (A)’. Para ello, construimos la
recta de regresión Vi = a + b Ai. La definición del modelo en el PASW es la siguiente:
Capítulo 6 : Regresión Lineal Simple 141

El modelo resultante es: Vi = 28.599 – 0.465Ai. Como se observa, el coeficiente de determinación (R al


cuadrado) es 0,035 por lo que el modelo no es adecuado para explicar la relación entre la variable ‘Venta
de verduras’ y la variable ‘Venta de abarrotes’. Es decir, la variable ‘Venta de Abarrotes’ no tiene una
capacidad predictiva para explicar la variable del criterio (Venta de Verduras).

El gráfico obtenido definiendo las opciones del diagrama de dispersión interactivo de la figura es el
siguiente:
142 ESTADÍSTICA PARA INGENIEROS

Análisis de Regresión Lineal Múltiple


Una alternativa a esta situación de poco ajuste es incluir una variable predictora adicional (o más de
una) y observar si su inclusión produce algún cambio en R cuadrado. Si consideramos dos variables
predictoras estamos planteando el siguiente modelo:

Y’i = a + b₁Xi₁ + b₂Xi₂.

Retomemos el ejemplo de la ‘Venta de abarrotes’ y ‘Venta de Verduras’, considerando ahora la ‘Venta de


bebidas (B)’ como segunda variable predictora. El modelo planteado es:

Vi = a + b₁ Ai. + b₂ Bi .

La primera aproximación al problema puede hacerse a partir del gráfico de dispersión. En este caso
puede elaborarse el gráfico simple para observar la relación entre la edad y el peso y también un gráfico
3-D para observar la relación entre las dos predictoras y el criterio. El resultado obtenido es:
Capítulo 6 : Regresión Lineal Simple 143

Para obtener los coeficientes del modelo y valorar el ajuste del modelo se selecciona el menú Analizar
-> Regresión -> Lineal. Lo primero es trasladar las variables ‘Venta de abarrotes’ y la ‘Venta de bebidas’
a la casilla Independientes y la variable ‘Venta de verduras’, a la casilla Dependiente. Los resultados
encontrados son muy similares a los de la regresión simple, aunque ahora hay un coeficiente más que
interpretar:

Como se observa, el modelo resultante Vi = 22.926 – 0.354 Ai. + 0.439 Bi no aporta casi nada a la
explicación de la variable del criterio. El modelo simple explicaba un 3,5 % de varianza de la variable del
criterio y el modelo múltiple también explica el 5,1 %.
144 ESTADÍSTICA PARA INGENIEROS

EJERCICIO 2:
Los datos aparecen recopilados en las variables Día1, Día2, Día3, que indican el número de horas
trabajadas en los tres días. Además se han recopilado las variables Sexo que toma valores 0 para mujeres
y 1 para hombres, así como , 1 para Adolescentes, 2 para Jóvenes y 3 para Adultos.

Finalmente, se incluyen tres datos relacionados con las terapias que ha recibido el sujeto. Todas ellas
toman 1 si el sujeto ha recibido la terapia y 0 en caso contrario; las variables son Estrés, Ansiedad y
Fobia.

Sujeto Día1 Día2 Día3 Sexo Edad Estrés Ansiedad Fobia


1 5.7 6.3 6.8 0 1 0 1 0
2 4.8 5.4 4.3 1 3 0 0 0
3 7.6 7.9 8.6 0 2 0 0 0
4 5.7 6.0 6.7 1 1 0 0 1
5 3.8 4.6 4.9 1 3 0 0 0
6 7.5 8.0 8.5 1 2 0 1 0
7 6.4 7.0 7.3 1 1 1 1 0
8 7.7 8.1 8.5 0 2 0 0 0
9 4.0 4.5 5.0 0 3 1 0 0
10 5.7 6.1 6.8 1 2 1 0 1

Regresión
El procedimiento Analizar > Regresión lineal permite obtener la regresión lineal simple y múltiple. Por
ejemplo, para estimar los parámetros del modelo:

Día2i = a + b Día3i +Ei


Se indica:
Los resultados muestran el coeficiente de determinación (R cuadrado) en la tabla Resumen del modelo.
Se observa que el modelo estimado para día 2 explica el 89.50% de la varianza. La tabla de regresión
en formato ANOVA muestra la descomposición de la suma de cuadrados total en la parte debida a la
regresión y el error:
Capítulo 6 : Regresión Lineal Simple 145

En el ejemplo, el nivel crítico asociado a la F del ANOVA permite rechazar la hipótesis nula de que no
existe relación lineal entre las variables (H₀ :  = 0).

A continuación aparecen los valores estimados para los parámetros:

Estadístico de contraste T y nivel crítico para H0 : β = 0

La tabla de coeficientes muestra los términos de la ecuación de regresión. El término denominado


Constante es el origen A de la ecuación (estimador de ). La pendiente B (estimador de ) aparece en la
fila de la tabla indicada por día 3.

Los valores de a y b se muestran en la primera columna (Día2 = 0.965 + 0.805 Día3), a continuación
el error típico de estimación y los valores de a y b en caso de que se utilicen puntuaciones típicas. Por
último, aparece el valor del estadístico ‘t’ de contraste de las hipótesis nulas  = 0 y  = 0. La última
columna contiene el nivel crítico.
146 ESTADÍSTICA PARA INGENIEROS

EJERCICIOS PROPUESTOS

1.- El cuadro 3 muestra los datos básicos de un estudio de la demanda de carros nuevos en los Estados
Unidos. Las variables consideradas para el análisis fueron las siguientes:

X1 = Índice del precio real de automóviles nuevos.


X2 = Ingreso disponible real (en miles de millones de dólares).
X3 = Automóviles en circulación al principio de cada año (millones de unidades).
Y = Ventas de automóviles nuevos (millones de unidades).

Cuadro 3: demanda de automóviles nuevos y variables relacionadas, 1932-56.

X1 X2 X3 Y
1932 126.5 83.4 18.7 1.10
1933 128.5 82.6 17.9 1.53
1934 128.5 90.9 18.9 1.93
1935 120.5 99.3 19.4 2.87
1936 117.0 111.6 20.1 3.51
1937 121.0 115.6 21.5 3.51
1938 133.8 109.0 22.3 1.96
1939 131.0 118.5 22.7 2.72
1940 134.3 127.0 23.2 3.46
1941 144.9 147.9 24.5 3.76
1949 186.6 184.9 30.6 4.87
1950 186.6 200.5 33.1 6.37
1951 181.5 203.7 35.7 5.09
1952 195.7 209.2 37.6 4.19
1953 188.2 218.7 39.3 5.78
1954 190.2 221.6 41.6 5.47
1955 196.6 236.3 43.0 7.20
1956 193.4 247.2 47.0 5.90

Hallar un modelo lineal ( ) para cada una de las variables. Luego:

a) Calcular el coeficiente de correlación lineal y el coeficiente de determinación.


b) ¿Se observa alguna anomalía en el gráfico de los residuos frente a la variable regresora?
c) ¿El Modelo es significativo?
d) Hallar la Matriz de Correlación y Matriz de Covarianza.
e) Calcular la tabla ANOVA. Conclusiones.
f) Pruebe las hipótesis: Ho: b1=b2=….= bk= 0. Explique.
Capítulo 6 : Regresión Lineal Simple 147

Halle un modelo de regresión múltiple Luego :

a) Hallar la Matriz de Correlación, Matriz de Covarianza y el coeficiente de determinación.


b) Calcular la tabla ANOVA. Conclusiones.

Pruebe las hipótesis: Ho: b₁=b₂=….= bk= 0. Explique.

2 .Los datos de la tabla adjunta muestran el tiempo de impresión  de trabajos realizado en impresoras
de la marca PR. Se está interesado en estudiar la relación existente entre la variable de interés ‘tiempo
de impresión de un trabajo’ y la variable explicativa  ‘número de páginas del trabajo’. Hacer el
estudio en base a los datos obtenidos en el muestreo y que son los de la tabla adjunta:

3. Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia (x) y el
salario mensual, en miles de soles, (y) entre los informáticos de una región del Perú. Para ello, se tomó
una muestra aleatoria de 17 informáticos y se obtuvieron los siguientes datos:

EXPER SALARIO EXPER SALARIO EXPER SALARIO


13 26'1 31 36'4 27 36'0
16 33'2 19 33'8 25 36'5
30 36'1 20 36'5 7 21'4
2 16'5 1 16'9 15 31'0
8 26'4 4 19'8 13 31'4
6 19'1 10 24'6

c) Calcular la regresión lineal de la variable salario frente a años de experiencia.


d) Calcular el coeficiente de correlación lineal y el coeficiente de determinación.
e) ¿Se observa alguna anomalía en el gráfico de los residuos frente a la variable regresora?
f) El modelo es significativo.
148 ESTADÍSTICA PARA INGENIEROS

4.- La función de beneficios de los operadores de telefonía móvil en nuestro país podría corresponder a
una función del siguiente tipo:

Yˆi 0.276  2.091X i  0.63Z i i=1,2,...,5


Donde:
Yi:Beneficiosobtenidosenelúltimotrimestreporlacompañíai
Xi:Tiposdecontratosqueofreceasusclienteslacompañíai
Zi:Preciomediodelcostedellamadaenlacompañíai

En relación con el modelo anterior se conoce la siguiente información:

§ 5 11 12 · § 14 ·
¨ ¸ ¨ ¸
X'X ¨ ¿? 29 ¸   X 'Y ¨ 35 ¸   ¦ y2 8. 8 
¨ 32 ¸¹ ¨ 37 ¸
© © ¹
¦Y 2 48 

Con los datos, analice lo siguiente:

a) Estudiar el modelo de regresión lineal.


b) Calcular el coeficiente de correlación lineal y el coeficiente de determinación.
c) Calcular la tabla ANOVA. Conclusiones.

5.- El cuadro muestra las operaciones mensuales en una empresa de transporte de Pasajeros, donde la
variable dependiente está representada por los costos totales (miles) y la variable independiente por
millas vehículo (miles). Encontrar el modelo y el coeficiente de determinación.

g) Calcular la regresión lineal de variable salario frente a años de experiencia.


h) Calcular el coeficiente de correlación lineal y el coeficiente de determinación.
i) ¿Se observa alguna anomalía en el gráfico de los residuos frente a la variable regresora?
j) El modelo es significativo.

6.- La dirección de una empresa quiere estudiar la rentabilidad de su inversión en publicidad. Para ello,
ha recogido datos de volumen de ventas y del gasto en publicidad referidos a los años noventa y
expresados en millones de soles.
Capítulo 6 : Regresión Lineal Simple 149

AÑO: VENTAS: GASTO PUBLICIDAD:


1990 50 10
1991 100 15
1992 150 18
1993 200 20
1994 200 25
1995 300 35
1996 400 50
1997 500 55
1998 650 60
1999 700 65

a) Especifica y estima el modelo lineal que explique las ventas de la empresa en función de la
inversión publicitaria. Interpreta los parámetros estimados.
b) En el año 2004 la empresa invirtió 550.000 soles en publicidad. Calcula el volumen de ventas
esperado.
c) Se plantea el modelo Yi = βXi + Εi i = 1, .....n. Halla el estimador mínimo cuadrático de β.
d) Aplica el resultado del apartado anterior para explicar el volumen de ventas en función de los
gastos en publicidad. Comprueba que la media de los residuos no es nula.
e) Calcular la tabla ANOVA. ¿El modelo no es influyente? ¿Por qué?
7
CAPÍTULO

NÚMEROS ÍNDICES

Un índice es una medida estadís ca que ene la propiedad de informar de los cambios de valor que
experimenta una variable o magnitud en dos situaciones, una de las cuales se toma como referencia. La
comparación suele hacerse por cociente.

Es decir, un número índice es aquella medida estadís ca que permite estudiar las fluctuaciones o
variaciones de una sola magnitud o de más de una en relación al empo o al espacio. Los índices más
habituales son los que realizan las comparaciones en el empo, por lo que, como veremos más adelante,
los números índices son en realidad series temporales.

Ejemplo:
Supongamos que deseamos estudiar la evolución del precio del galón de gasolina de dos años
consecu vos (2005 y 2006). En el año 2005 el precio del galón de gasolina era de 7.5 soles; en el año
siguiente el precio fue de 9.7 soles.

Una medida más sencilla de la variación en el precio sería hallar la diferencia entre los dos datos, con lo
que se obtendría que el precio ha subido: 9.7 – 7.5 = 2.2

Pero un dato de este po nos proporcionaría muy poca información. Porque lo importante es comparar
la subida con el valor inicial.

Lo lógico es, entonces, examinar la variación en proporción al valor inicial, y por ello, la forma usual de
elaborar un índice consiste en realizar un cociente (división), donde el valor de la magnitud en el período
inicial es el denominador y el valor(s) a cada período sucesivo, como numerador.

En el ejemplo anterior, 9.7 = 1.293 = 129.3%


7.5
Es decir, que lo que valía 100 en el año 2005, vale 129,3 en 2006. De esta manera, se consigue plasmar la
idea de que la variación ha sido más importante en forma de cociente.

Un segundo po de casos en los que los números índices son ú les es cuando se quiere comparar variables
o magnitudes que están medidas en unidades dis ntas. Por ejemplo, supongamos que deseamos analizar
la evolución de las ventas de dos productos dis ntos, como los automóviles y la gasolina. En el primer
caso, las ventas se miden en número de automóviles; en el segundo, en litros. Los datos concretos son:
152 ESTADÍSTICA PARA INGENIEROS

VENTAS ANUALES
AÑOS
AUTOMÓVILES GASOLINA
1985 500.000 2.000.000
1986 550.000 2.050.000

La variación por simple diferencia es la misma en ambos casos (50.000), pero, al ser unidades diferentes,
no podría decirse que ambas han experimentado el mismo po de evolución.

A par r del procedimiento anteriormente planteado, la variación resulta:

Ia = 550.000 = 1.10 =110%


500.000

Donde Ia es el índice de evolución de las ventas de automóviles, y:

Ig = 2.050.000 = 1.025= 102.5%


2.000.000

Donde Ig es el índice de evolución de las ventas de gasolina.

Comparando ambos índices, podemos decir que las ventas de automóviles han aumentado más en
términos proporcionales que las ventas de gasolina.

CLASIFICACIÓN DE LOS NÚMEROS ÍNDICES


Una clasificación sencilla es la siguiente:

NÚMERO INDICE SIMPLE


La comparación se realiza para los valores de una sola magnitud; vamos a comparar siempre dos
situaciones, una de las cuales se considera de referencia. A la situación inicial, cuando las comparaciones
son temporales, se le conoce como periodo base o referencia, frente al periodo corriente o actual con el
que se realiza la comparación.

En resumen, los números índices no son otra cosa que porcentajes. Se trata de los porcentajes de cada
valor de la magnitud con respecto al valor de referencia o base. Al ser los números índices porcentajes
definidos sobre los propios valores de la variable hace que sean adimensionales, lo que permite
la comparación de las variaciones de dis ntas variables que pueden venir expresadas en unidades
diferentes.
Capítulo 7 : Números índices 153

Índice simple, para una variable concreta, se define de la forma:


Si X i es una magnitud simple, representamos por Xi o el valor de la magnitud en el periodo base y por X
i t el valor de la magnitud en el periodo que queremos estudiar (periodo actual o corriente).

xit
Iiot () I ot ………. (1)
xio
Mide la variación en tanto por uno que ha sufrido la magnitud Xi entre los dos periodos considerados.

EJERCICIO:
Deseamos conocer cuál ha sido la evolución del precio de un galón de gasolina. Para ello, disponemos de
la siguiente información:
Años Precio: un galón de gasolina
2005 7.5
2006 8.0
2007 8.5
2008 8.3
2009 9.0

Fijamos como año base el 2005. Y luego aplicamos la fórmula (1) para cada año:

Los resultados se pueden observar en el cuadro siguiente:

Años Precio por galón de gasolina Índice simple (año base 2005)
2005 7.5 100,00%
2006 8.0 106,67%
2007 8.5 113,33%
2008 8.3 110,67%
2009 9.0 120,00%

Se observa que el precio de un galón de gasolina en 2006 es 1,06 veces de 2005; el de 2007 es 1,13 veces
el de 2005; y así sucesivamente.

Estos índices se han calculado tomando una base fija. El inconveniente es que si el periodo de referencia
tomado como base es un valor anómalo, esta incidencia repercu rá de forma nega va en todos los
valores del índice calculado. Por lo que es de suma importancia que el valor que se tome como referencia
sea “normal”. Una forma de evitar este problema de selección del periodo base es hacer que el mismo
sea variable (índices en cadena).
154 ESTADÍSTICA PARA INGENIEROS

Índices en cadena
Esta modalidad de números índices permite obtener las variaciones porcentuales de una magnitud en un
periodo con respecto, siempre, al anterior.

EJERCICIO:
Del ejercicio anterior calcular los índices en cadena:

El cuadro muestra los índices simples y los índices en cadena:

Años Precio por galón de gasolina Índice simple (año base 2005) Índices en cadena
2005 7.5 100,00%
2006 8.0 106,67% 106,67%
2007 8.5 113,33% 106,25%
2008 8.3 110,67% 97,65%
2009 9.0 120,00% 108,43%

NÚMEROS ÍNDICES UTILIZADOS EN ECONOMÍA


Sin embargo, los números índices más habituales u lizados en Economía son los que hacen referencia
a precios (medidos en unidades monetarias por unidad sica), can dades (medios en unidades sicas)
y valor (medidos en unidades monetarias). De acuerdo con la definición general de número índice dada
con anterioridad, estas tres modalidades de índices se expresan en la forma siguiente:

1. Índice Precios
Se define, para un bien i, como el cociente entre el precio de ese bien en el periodo t (pit) y el precio
de dicho bien en el periodo base (pi0):
Capítulo 7 : Números índices 155

Por ejemplo, para calcular el índice de precios simple de un libro cuyo precio en 1997 es de 60 pesos
y en 1998 es de 98 pesos, considerando el año 1997 como el periodo base, se tendría:

1997
P1997 = 60/60 X 100 = 100

1998
P1997 = 98/60 X 100 = 163.33

Los anteriores resultados reflejan que el índice de precios del libro aumentó de 100 a 163.33, por
lo que es fac ble hacer la inferencia de que el precio del libro se incrementó un 63.33 % de un año
a otro.

Incremento del precio (IP)

El incremento del precio se calcula con la siguiente fórmula:

Para calcular el incremento del precio del libro se procede a obtener la diferencia entre ambos
números índice divido por el periodo base.

Al aplicar la ecuación del anterior ejemplo se ene:

En este po de índices, el índice de precios del año base ene invariablemente un valor de 100.

2. Índice de cantidad
Se define, para un bien i, como el cociente entre la can dad de ese bien en el periodo t (qit) y la
can dad de dicho bien en el periodo base (qi0):

Incremento de cantidad (IQ)


El incremento del precio se calcula con la fórmula siguiente:
156 ESTADÍSTICA PARA INGENIEROS

3. Índice de Valor
Si se define el valor de un bien i en un periodo cualquiera como el producto del precio de ese bien
por la can dad del mismo (producida, vendida o comprada), entonces el índice de valor será el
cociente entre el valor de ese bien (pitqit)

En el periodo actual t y el valor del mismo en el periodo base (pi0 qi0):

Incremento de Valor (IV)


El incremento del precio se calcula con la fórmula siguiente:

EJEMPLOS DE INDICADORES SIMPLES: INDICADORES JUDICIALES

Estándares de producción
Para poder definir e implementar los dis ntos estándares es necesario desarrollarlos con la par cipación
de todos aquellos que de alguna manera forman parte del proceso; es decir, es conveniente la
par cipación de jueces, personal judicial, conformando un mismo equipo.

Juzgado Civil:
El estándar de producción en los juzgados civiles debe ser 38 procesos resueltos cada mes de acuerdo con
datos estadís cos históricos (ver cuadro). Pero si somos más op mistas podemos fijar nuestro estándar
en 54 procesos resueltos mensualmente similares al promedio del año 2005.

Congestión
Conges ón es un indicador que mide el incremento de la carga procesal respecto a la can dad de
escritos ingresados, si el indicador de Conges ón es cercano al 100% significa que el especialista legal
está resolviendo una can dad de escritos poco significa va. En consecuencia, esta conges onándose al
aumentar su carga procesal. Lo contrario sucede si el indicador es cercano al 0%. La conges ón puede ser
nega va, esto implicaría que el especialista está resolviendo sus escritos pendientes (Desconges onando).
Capítulo 7 : Números índices 157

La conges ón ideal debe ser 0%, es decir todo escrito que ingresa debe ser atendido en el plazo legal.

Donde:
EA = número total de escritos atendidos.
EI = número total de escritos ingresados.

Productividad (P)
Es un indicador que mide la produc vidad de cada especialista legal respecto a la can dad de escritos
ingresados. Si el indicador de produc vidad es menor a 100% significa que el especialista legal está
resolviendo una can dad de escritos poco significa vos. En consecuencia, se está conges onando de
escritos por resolver. Lo contrario sucede si el indicador es mayor a 100%.
La produc vidad ideal debe ser el 100%, es decir todo escrito que ingresa debe ser atendido en el plazo
legal.

Donde:
EA = Número total de escritos Atendidos
EI = Número total de escritos Ingresados

Eficiencia (E)
Es un indicador que mide la eficiencia de cada no ficador respecto a la can dad de cédulas trabajadas
(impresas). Si el indicador de eficiencia es menor a 100% significa que el no ficador no está no ficando
oportunamente. En consecuencia, no se cumplirá con el plazo legal. Lo contrario sucede si el indicador
es mayor a 100%.

La eficiencia real debe ser el 100%, es decir toda no ficación impresa debe ser entregada para su
no ficación en el plazo legal.

Donde:
NE = número total de no ficaciones entregadas para ser no ficadas.
NI = número total de no ficaciones impresas.
158 ESTADÍSTICA PARA INGENIEROS

Oportunidad (O)
Es un indicador que mide la oportunidad de cada asistente de archivo respecto al movimiento de
expedientes en el archivo. Si el indicador de eficiencia es menor a 100% significa que el asistente no está
no ficando oportunamente. En consecuencia, no se cumplirá con el plazo legal. Lo contrario sucede si el
indicador es mayor a 100%.
La eficiencia real debe ser el 100%, es decir toda no ficación impresa debe ser entregada para su
no ficación en el plazo legal.

Donde:
NE = número total de no ficaciones entregadas para ser no ficadas.
NI = número total de no ficaciones impresas.

Producción (P):
Es un indicador que mide la produc vidad de cada Secretario respecto a la can dad de escritos
ingresados. Si el indicador de produc vidad es menor a 100% significa que el Secretario está resolviendo
una can dad de escritos poco significa vos. En consecuencia, se está conges onando de escritos por
resolver. Lo contrario sucede si el indicador es mayor a 100%.
La produc vidad ideal debe ser el 100%, es decir todo escrito que ingresa debe ser atendido en el plazo
legal.

Donde:
EA = número total de escritos atendidos.
EI = número total de escritos ingresados.

Utilidad (U)
Es un indicador que mide la eficiencia de cada Técnico Judicial respecto a la can dad de cédulas
trabajadas (impresas). Si el indicador de eficiencia es menor a 100% significa que el Técnico Judicial no
está no ficando oportunamente. En consecuencia, no se cumplirá con el plazo legal. Lo contrario sucede
si el indicador es mayor a 100%.
La eficiencia real debe ser el 100%, es decir toda no ficación impresa debe ser entregada para su
no ficación en el plazo legal.

Donde:
NE = número total de no ficaciones entregadas para ser no ficadas.
NI = número total de no ficaciones impresas.
Capítulo 7 : Números índices 159

ÍNDICES COMPLEJOS (COMPUESTOS)


Estudian la variación de un conjunto de k variables temporales. Son indicadores que se elaboran a par r
de varias series de datos con la finalidad de estudiar su variación conjunta.

Por ejemplo, en el precio de las frutas no se podrá u lizar un índice simple, ya que tendríamos diferentes
precios para cada una de las variedades que presenta este po de alimentos (naranjas, manzanas, peras,
etc.).

En estos casos, hemos de acudir a otro po de índices denominados en la literatura índices compuestos,
que se ob enen por combinación de los índices simples de cada una de las magnitudes que estamos
analizando.

La combinación puede realizarse según dis ntos métodos o procedimientos. Ahora bien, el que se elija
ha de reunir algunas propiedades, tales como que el resultado sea un número índice sencillo y que en el
mismo se reúna gran can dad de información. En función de cuál de esos criterios prevalezca nos llevará
a dos categorías de índices compuestos dis ntas, los que podríamos definir como índices compuestos
no ponderados, en los que prevalece el criterio de la sencillez frente al de la información; el segundo
grupo sería el de índices compuestos ponderados, donde prima especialmente la información frente a
la sencillez.

Índice compuestos no ponderados


Son los que resumen la información suministrada por un conjunto de números índices simples en un
único número índice llamado complejo, y se calculan como medias aritmé cas, armónicas, geométricas,
etc., de números índices simples.

1.- Media aritméƟca:

a) Índice de Sauerbeck:

Para precios:

Para can dad:

2.- Media geométrica:


160 ESTADÍSTICA PARA INGENIEROS

3.- Media armónica:

4.- Media agregaƟva:

a) Bradstreet-Dutot.

Para Precios:

Para can dad:

EJERCICIO
Los registros de una empresa dedicada a la producción de acero, rela vos al precio en nuevos soles y la
can dad en toneladas, son los que se recogen en la tabla siguiente.

Hierro Carbón Electricidad


Años
Precio Can dad Precio Can dad Precio Can dad
2005 80 300 25 500 10 300000
2006 84 285 26 485 10.5 295000
2007 87 315 26 550 11 305000
2008 89 320 28 600 12 320000

A par r de esa información obtenga los índices de precios y de can dades compuestos.
Capítulo 7 : Números índices 161

Solución:
Aplicando las formulas descritas anteriormente se ene:

Calculando los índices simples:

Índice de precios simple Índice de canƟdad simple


Años (Año base 2005) (Año base 2005)
Hierro Carbón Electricidad Hierro Carbón Electricidad
2005 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
2006 105.0% 104.0% 105.0% 95.0% 97.0% 98.3%
2007 108.8% 104.0% 110.0% 105.0% 110.0% 101.7%
2008 111.3% 112.0% 120.0% 106.7% 120.0% 106.7%

Los índices compuestos no ponderados:

Índice compuesto no Índice compuesto no


ponderado de precios ponderado de canƟdad
Años
(Año base 2005) (Año base 2005)
Aritmé ca Geométrica Armónica Aritmé ca Geométrica Armónica
2005 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
2006 104.7% 101.3% 104.7% 96.8% 99.0% 96.8%
2007 107.6% 101.3% 107.5% 105.6% 103.2% 105.4%
2008 114.4% 103.8% 114.3% 111.1% 106.3% 110.8%

Índice agregado Bradstreet-Dutot

Índice agregado
Años (Año base 2005)
PBD qBD
2005 100.0% 100.0%
2006 104.8% 98.3%
2007 107.8% 101.7%
2008 112.2% 106.7%

El índice es un instrumento de medición por medio del cual se asignan medidas a las unidades de análisis
en función de la posesión de algún indicador social o económico. Esto implica que con un índice no se
puede realizar es maciones, pero con una serie de indicadores sí es posible realizar es maciones. Por
ejemplo: grafiquemos las serie de indicadores y podremos analizar el comportamiento de la serie de
indicadores.
162 ESTADÍSTICA PARA INGENIEROS

Gráfica de Índice de precios simple (año base 2005).

Gráfica de Índice compuesto no ponderado de precios (año base 2005).


Capítulo 7 : Números índices 163

Índice compuestos ponderados

Cada variable ene dentro del conjunto un peso específico que viene determinado por un coeficiente o
peso Wi por lo que:

Índices de precios complejos ponderados

Laspeyres:

Paasche:

Fisher:

Índices cuánticos o de producción

Laspeyres:

Paasche:

Fisher:
164 ESTADÍSTICA PARA INGENIEROS

DEFLACTAR
Operación que convierte las series monetarias en valores reales. Los valores monetarios de conjuntos

de bienes son agregados donde intervienen precios y can dades. Son del po y para poder

transformarla en valores reales hemos de obtener otra serie valorada a precios constantes que será

en la que hemos eliminado las variaciones de los precios y obtenemos una serie deflactada:

El índice elegido para efectuar dicha transformación recibe el nombre de Deflactor.

La elección de un deflactor adecuado es importante. El índice que debe u lizarse es un índice de precios
Paasche, pero si no se dispone se emplea otro índice, que generalmente es el I P C.

CAMBIO DE BASE
Para cambiar de base se divide cada índice por el correspondiente al del año que se quiere establecer
como base en tantos por unos. Sirve para enlazar o empalmar series de números índices con base
diferente. Con los datos siguientes elaborar una nueva serie con base 1990.

Años Índices base 1980 Índice base 1990 Índices Base 1992
1984 215,9
1985 184,8
1986 238,3
1987 289,5
1988 255,8
1989 239,1
1990 270,6 100
1991 269,8 99,7
1992 257,07 95 100
1993 251,92 93,1 98

Años: 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
Índice 79,8 68,3 88,1 107 94,5 88,4 100 99,7 95 93,1
Capítulo 7 : Números índices 165

ÍNDICE DE PRECIOS DE CONSUMO (I P C)


Es el más importante de los índices de precios. Se calcula con la finalidad de encontrar un indicador del
‘costo de vida’ entendido como la evolución de los precios de los bienes y servicios que configuran la
estructura básica de gasto de una familia. Es elaborado por el INE siguiendo la siguiente metodología:

Se parte de la denominada Encuesta de Presupuestos Familiares (E P F ) que recoge todos los gastos
efectuados en un país por las familias en un año; no se inves gan todas las familias sino que se selecciona
una muestra representa va.

Por ejemplo: en España, para obtener el índice con base 1983 se entrevistaron 24000 familias en el
periodo abril de 1980 y marzo de 1981. De los resultados obtenidos se seleccionó un estrato de referencia,
que fue lo más representa vo de las familias. La selección se realizó teniendo en cuenta las siguientes
caracterís cas:

a) Tamaño del hogar.


b) Ac vidad del sustentador principal.
c) Nivel de ingresos del hogar.

La etapa siguiente consis ó en determinar qué bienes y servicios fueron los consumidos por el estrato de
referencia, así como su ponderación o peso en el valor del gasto total. Este conjunto de bienes recibe el
nombre de ‘cesta de la compra’ que en el periodo de referencia estaba compuesta por:

Cesta de la compra Ponderaciones


(Composición) Base 1983 Base 1992
1-Alimentación 0,330 0.293
2-Ves do 0,087 0,115
3-Vivienda 0,186 0,103
4-Menaje 0,074 0,067
5-Medicina 0,024 0,031
6-Transporte 0,154 0,165
7-Cultura 0.070 0,073
8-Resto 0,085 0,153

No se incluyeron los gastos de inversión realizados por los hogares sino solamente los gastos de consumo.
Según el INE, se en ende por gastos de consumo “el flujo monetario que des na el hogar y cada uno
de sus miembros al pago de determinados bienes y servicios, considerados habitualmente de consumo
añadiendo el valor del auto-consumo de los hogares”.

Es un número índice de Laspeyres, pero en su cálculo los precios de los ar culos no actúan con la
misma intensidad, u lizándose una estructura de ponderaciones dis nta para cada uno de los conjuntos
primarios que son diferentes así mismos en las dis ntas capitales o autonomías.
166 ESTADÍSTICA PARA INGENIEROS

Actualmente, se calculan con base 1992 y son 471 los ar culos que componen la cesta de la compra. La
úl ma renovación de 1993 se ha hecho de acuerdo con las normas de la Unión Europea.

Deflactor implícito del PIB. Recoge la variación de los precios de todos los bienes y servicios, tanto los
des nados al consumo final como los bienes intermedios.

Su valor se ob ene de manera implícita al es mar el valor del PIB en términos monetarios y en términos
reales. Así:

Para concluir este apartado, debemos señalar que los índices definidos debieran sa sfacer algunas
propiedades, entre las que se van indicar solo dos: la de compa bilidad y la de proporcionalidad. La
primera consistente en que si un precio por una can dad da un valor, también debiera ocurrir con los
índices. La propiedad de proporcionalidad establece que si en el periodo corriente todos los precios
sufren una variación proporcional, el índice debe quedar afectado por esa variación.

OTROS NÚMEROS ÍNDICES

Índice de Producción Industrial (IPRI): su obje vo es informar sobre el cambio en el volumen de


producción sica de los dis ntos sectores industriales. Se u liza como indicador de coyuntura económica.
Tiene periodicidad mensual. Para su elaboración se recogen datos de 563 productos industriales
significa vos. Las ponderaciones se basan en el Valor añadido bruto calculados a par r de los valores
de producción en el año base (1972). Se publica trimestralmente, aunque se realizan publicaciones
mensuales provisionales.

Índices de precios industriales: informa sobre la evolución de los precios de producción que el Sistema
de Cuentas Económicas Integradas (S E C) define como el precio de salida de fábrica, sin incluir los
impuestos indirectos.

Relación de paridad: informa sobre la evolución del poder de compra del sector agrícola frente al resto
de los sectores. Se cuan fica como cociente de dos índices de precios agrícolas: el índice de precios
percibidos refleja los precios que los agricultores perciben por los productos que venden y el índice
de precios pagados refleja el precio que pagan por los productos y servicios que necesitan u lizar para
obtener el producto.

Índices de cotización en BOLSA: este índice se elabora sobre los datos diarios de co zación de acciones
que publica la Bolsa.
Capítulo 7 : Números índices 167

EJERCICIOS

1.- El índice de precios de Laspeyres pondera por:


a) Los precios del año base.
b) La media de los precios del periodo base y el actual.
c) Las can dades del año base.

2.- Diferencias y semejanzas entre un índice de precios de Laspeyres y Paasche.

3.- ¿Significa lo mismo empalmar dos series de números índices que cambiar de base?

4.- Definir Deflactor.

5.- Demostrar que si mul plica un índice de precios de Laspeyres por un índice de can dades de Paasche
se ob ene un índice valor.

6.- Para estudiar fenómenos en los que influyen con la misma fuerza variables dis ntas se u lizan:
a) Índices simples.
b) Índices compuestos sin ponderar.
c) Índices compuestos ponderados.

7.- Un índice de precios viene medido en:


a) Pesetas corrientes.
b) Pesetas constantes.
c) No ene unidades de dimensión.

8.- Cuando estamos en un periodo inflacionista, una peseta de un año vale:


a) Más de una peseta corriente del año anterior.
b) Menos que una peseta corriente del año anterior.
c) Más de una peseta corriente del año posterior.

9.- Definir número índice simple, complejo simple y ponderado.

10.-Diferencia entre deflactar y deflactor.


CAPÍTULO

8 Análisis Combinatorio

Son técnicas estadísticas que estudian los diversos arreglos o selecciones que podemos formar con
los elementos de un conjunto dado, los cuales nos permite resolver muchos problemas. Por ejemplo,
podemos averiguar cuántos números diferentes de teléfonos, placas de autos o loterías, se pueden
formar utilizando un conjunto dado de letras y dígitos.

Además, el estudio y comprensión del análisis combinatorio no va a servir de andamiaje para poder
resolver y comprender problemas sobre probabilidades.

PRINCIPIOS FUNDAMENTALES DEL ANÁLISIS COMBINATORIO:

En los problemas de análisis combinatorio se observa que una operación o actividad aparece en forma
repetitiva y es necesario conocer las formas o maneras en que se puede realizar dicha operación. Para
dichos casos es útil conocer determinadas técnicas o estrategias de conteo que facilitarán el cálculo
señalado.

El análisis combinatorio también se define como una manera práctica y abreviada de contar; las
operaciones o actividades que se presentan son designadas como eventos o sucesos. Por ejemplo:
señalar las maneras diferentes de vestir de una persona utilizando un número determinado de prendas
de vestir. Ordenar 6 artículos en 9 casilleros. Designar 4 personas de un total 60 para integrar una
comisión, etc.

El análisis combinatorio es una herramienta muy útil para la resolución de problemas en Probabilidad.

Por ejemplo: 5 matrimonios se sientan aleatoriamente a cenar y queremos calcular la probabilidad de


que al menos los miembros de un matrimonio se sienten juntos. En este caso, determinar el número de
casos favorables y de casos posibles es complejo. Las reglas estadísticas que nos pueden ayudar son el
cálculo de combinaciones, el cálculo de variaciones y el cálculo de permutaciones.

Antes de presentar los principios básicos de contar, definir las nociones de arreglos, permutación y de
combinación, es importante definir el diagrama del árbol.
170 ESTADÍSTICA PARA INGENIEROS

DIAGRAMA DEL ÁRBOL


Un diagrama de árbol es una representación gráfica de un experimento que consta de ‘n’ pasos, donde
cada uno de los pasos tiene un número finito de maneras de ser llevado a cabo.
Ejemplo: un equipo de baloncesto tiene que elegir un nuevo uniforme. Para ello debe escoger entre 4
camisetas y 5 pantalones con diferentes colores. ¿Cuántos uniformes distintos se pueden componer con
las camisetas y pantalones disponibles? Si llamamos C₁,C₂,C₃ y C₄ a las diferentes camisetas y P₁,P₂,P₃,P₄
y P₅ a los distintos pantalones, obtendríamos el diagrama de árbol que se muestra:

Si contamos los resultados en el diagrama de árbol obtenemos las 20 posibles respuestas.

En los diagramas de árbol se emplea una nomenclatura propia, que describimos a continuación:

Árbol: es el diagrama completo.

Raíz: es el punto en el cual se origina el árbol. En la figura 1, la raíz sería el punto desde donde parten las
cuatro flechas que llegan hasta las cuatro opciones de camiseta.

Ramas: son las distintas bifurcaciones. En la figura 1 se corresponden con las flechas del gráfico.

Nodos o nudos: son los puntos desde los que surgen nuevas bifurcaciones. En la figura 1, los nodos
serían los puntos en los que tenemos las 4 opciones de camiseta: C₁,C₂,C₃ y C₄.

Hojas: son los puntos finales desde los cuales no surgen nuevas bifurcaciones. En la figura 1, las hojas
son los puntos correspondientes a las 5 opciones de pantalón (todos los nombrados como P₁,P₂,P₃,P₄ y
P₅, 20 puntos en total).
Capítulo 8 : Análisis Combinatorio 171

Nivel: es el número de ramas que separa a un nodo u hoja de la raíz. La raíz corresponde al nivel 0 y, en
la figura 1, las opciones de camiseta estarán en el nivel 1 y las de pantalón en el nivel 2.

Camino: es cualquier recorrido por las ramas del árbol, desde la raíz hasta alguna de sus hojas. En la
figura 1 tenemos 20 caminos diferentes.

PRINCIPIOS BÁSICOS DEL PROCESO DE CONTAR

a.- Principio de Multiplicación

Suponemos que una primera operación puede realizarse de m maneras (S={a1,………am}). Una vez
realizada la primera operación cualquiera sea la manera. Una segunda operación se puede realizar
de n maneras (T = {b1, ………bn}).

Entonces el número de pares (aj,bk) que pueden ser formados tomando un elemento de S y un
elemento de T es:
m*n
Ejemplo 1:
Tres empresas desean contratar un empleado para cada una de las cuatro áreas de trabajo. ¿Cuántas
oportunidades de empleo hay disponible?

Solución:
Si llamamos E₁, E₂, E₃ a las tres empresas y T₁, T₂, T₃, T₄ a las cuatro aéreas de trabajo.

Aplicando el teorema del árbol:


T1
T2
T3
T4

T1
T2
T3
T4
T1
T2
T3
T4

Del diagrama de árbol se observa 12 números de pares ordenados (E₁T₁, E₁T₂,….,E₃T₄). Es lo mismo a
3*4 = 12 (m*n=12)
172 ESTADÍSTICA PARA INGENIEROS

Ejemplo 2:
Un matrimonio decide comprar una radio y una cocina. Si en el lugar donde harán la compra hay 4
tipos de radio y 2 tipos de cocina. ¿De cuántas maneras distintas pueden realizar la compra de ambos
objetos a la vez?

Respuesta: N = 4*2 = 8

Solución : R1
C1 R2
R3
R4

R1
C2 R2
R3
R4

Del diagrama de árbol se observa 8 números de pares ordenados (C1R1, C1R2, C1R3, C1R4, C2R1, C2R2,
C2R3, C2R4).

b.- Agrupamientos Múltiples

Sean S1 = {a₁, …an₁} y S₂ = {b₁, …bn₂} … Sr = {b₂,………bnr}, entonces es posible formar


n = n1.n2…..nr grupos ordenados, con r elementos cada grupo {aj₁, …ajn}.

Ejemplo 1:
Una persona puede tomar cualquiera de las 5 rutas para ir de A a B, para ir de B a C puede tomar
cualquiera de las 4 rutas y para ir de C a D tiene 6 rutas posibles. Si para ir de A a D, debe ir de A a B,
de B a C y de C a D. ¿Cuántas rutas posibles existen para ir de A a D?

Aplicando el principio de la multiplicación, se obtiene que hay 5*4* 6 = 120 rutas posibles.

Ejemplo 2:
¿Cuántos números de tres cifras se pueden formar con los dígitos 0, 1, 2, 3 y 4, sin que se repita
ninguna cifra?

Solución:
Las opciones para escoger la primera cifra son cuatro, pues esta no puede tomar el valor 0, ya que
ningún número de tres cifras comienza por 0. Para la segunda cifra tendremos también cuatro
opciones, aunque en este caso sí puede tomar el valor 0 tendremos que descartar el valor que haya
tomado la primera cifra, por no poderse repetir ninguna. Por último, para la tercera cifra tendremos
tres opciones, resultado de descartar los valores empleados en las dos primeras cifras, para evitar
repeticiones.
Capítulo 8 : Análisis Combinatorio 173

Aplicando el principio de la multiplicación, se obtiene que hay 4*4*3 = 48 números de tres cifras
distintos con los dígitos indicados en el enunciado.

c.- Principio de Adición


Si dos decisiones son mutuamente excluyentes y la primera se puede tomar de m maneras y la
segunda de n maneras, entonces una o la otra se puede tomar de m +n maneras.

Ejemplo:
Una pareja quiere ir al sur. Para ir en avión hay 2 compañías y para ir en bus 3 compañías. Entonces,
tienen 2 + 3 = 5 maneras de ir al sur.

ARREGLOS (VARIACIONES)

a.- Arreglos Simples


El número de todos los arreglos a formarse con ‘n’ objetos tomados de ‘k’ en ‘k’. De manera que
estos grupos de ‘k’ elementos difieran en algún elemento o en el orden de colocación:

Ejemplo 1:
¿De cuantas maneras se pueden sentar 8 personas en una banca, con capacidad para 5 personas?

Solución:
El valor de n=8 y valor de k=5 entonces

Ejemplo 2:
En una carrera de natación participan 8 nadadores. ¿De cuántas formas posibles pueden ocuparse
los tres primeros puestos?

Solución:
Veamos las posibles opciones: cualquiera de los nadadores participantes podría ser el primero, por
lo que el número de opciones para escoger al primero es 8. El segundo puesto lo podría ocupar
cualquiera de los nadadores restantes; por tanto, el número de opciones en este caso será 7. Por
último, el tercer puesto lo podría ocupar cualquiera de los nadadores que no haya sido primero ni
segundo; en este caso las opciones serán 6. Aplicando el principio de la multiplicación habría 8 • 7 •
6 = 336 posibilidades distintas.

A cada grupo de 3 nadadores, de los 336 posibles, lo llamaremos variación de 8 elementos tomados
de 3 en 3.
174 ESTADÍSTICA PARA INGENIEROS

b.- Arreglos con Repetición


El número de todos los arreglos a formarse con ‘n’ objetos tomados de ‘k’ en ‘k’. De manera que un
elemento cualquiera, puede repetirse en el mismo grupo, el número de veces que se indique:

( AR) nk nk 

Ejemplo 1:
¿Seis personas de cuantas maneras pueden realizar sus compras en 8 supermercados?

Solución:
El valor de n=8 y el valor de K=6 entonces ( AR)86 86 

Ejemplo 2:
¿cuántos números de tres cifras se pueden formar con los dígitos 1, 2, 3, 4 y 5?

Solución:
La primera cifra podrá ser una cualquiera de las 5. La segunda cifra también podrá ser una cualquiera
de las cinco ya que puede repetirse, y lo mismo ocurre para la tercera cifra. Aplicando el principio de
multiplicación hay 5 • 5 • 5 = 125 números de tres cifras.

Vemos que en este caso importa el orden, pues aún teniendo las mismas cifras, 123 y 231 son números
diferentes. Además se han tomado 3 elementos de entre los 5 posibles, luego son variaciones, pero
en este caso se puede elegir un elemento de los 5 más de una vez. A este tipo de variaciones se las
llama variaciones con repetición.

PERMUTACIONES

a. Factorial:
sea el número natural n mayor que 1. Se conoce como factorial de n y se representa por n! al
producto de los ‘n’ primeros números naturales:

n!=nx(n-1)….3x2x1

b. Permutaciones Simples
El número de permutaciones distintas que pueden formarse con ‘n’ objetos. De modo que intervengan
todos los elementos en cada grupo y cuya diferencia esté dada en el orden de colocación: pn n! 

Ejemplo 1: En el bombo de un juego de lotería quedan 5 bolas. ¿De cuántas formas podrán salir las
cinco bolas?
Capítulo 8 : Análisis Combinatorio 175

Solución:
La primera bola en salir podrá ser cualquiera de las 5. La segunda bola tendrá que ser una cualquiera
de las 4 restantes, etc. S obtiene que las formas posibles de salir las bolas son:
5! =120

Ejemplo 2:
Si tienen 6 libros de Estadística y 4 libros de Economía, los que se quieren colocar en un estante.
¿De cuantas maneras diferentes pueden colocarse si los libros de cada materia deben estar juntos?

Solución :
6librosdeEstadísticay4librosdeEconomía,comoloslibrosdebenestarjuntos:
ParaloslibrosdeEstadísticalasmanerasdiferentesson= p6 6! 
ParaloslibrosdeEconomíalasmanerasdiferentesson= p4 4! 
Lasmanerasdiferentesparatodosloslibros p6, 4 (6!)(4!) 

c. Permutaciones Circulares
El número de permutaciones circulares distintas que pueden formarse con ‘n’ objetos. De modo que
no hay ni primero ni último objeto: p nc (n  1)! 

Ejemplo 1:
¿De cuántas formas pueden colocarse 7 niños formando un círculo?
Hay que tener cuidado, ya que no se trata de ordenar simplemente a los 7 niños, pues hay que tener
en cuenta que si desplazamos a todos los niños un lugar hacia la derecha, se obtiene una ordenación
idéntica a la anterior. En este caso no nos interesa la posición exacta de los niños dentro del círculo,
sino la posición relativa entre ellos (no existe un primer niño, ni un último). Cuando el único orden
que interesa es el orden relativo entre los n elementos, se dejará fijo a uno de los elementos y se
permutará el resto de elementos de todas las formas posibles.

Operando se obtiene que el número de formas de posicionarse es:

p nc (n  1)!  =6!=6x5x4x3x2x1=720

Ejemplo 2:
¿De cuantas maneras diferentes pueden sentarse 10 personas en una mesa redonda?

Solución:
El valor de n es igual a 10 por tanto.

p10c (10  1)! 9! 


176 ESTADÍSTICA PARA INGENIEROS

d. Permutaciones con Repetición

Sean k₁, k₂………km números enteros positivos tal que k₁+k₂+….km = n. El número de maneras que ‘n’
elementos pueden ser dividido en m partes ordenadas, de los cuales el primero contiene

n!
n
k₁ elementos, el segundo k₂, etc : p k1 , k 2 ...k m 
k1! k 2 ! k 3 !......k m !

Ejemplo 1:
¿Cuántas palabras de 5 letras, con sentido o sin él, se pueden formar con tres A y dos B?

Solución:
En este caso se trata de obtener las distintas ordenaciones posibles de AAABB. Si las A fuesen
distinguibles entre sí, y lo mismo ocurriera con las B, se trataría de ordenar 5 elementos distintos y
estaríamos ante el caso de las permutaciones sin repetición visto anteriormente.

Al ser indistinguibles, muchas de las permutaciones consideradas serán idénticas. Veamos, por
ejemplo, el caso en que las 3 A aparezcan al principio de la palabra; la diferencia entre los casos en
que las letras sean distinguibles e indistinguibles se recogen en la tabla siguiente (las hemos hecho
distinguibles dotándolas de un subíndice).

Indistinguibles Distinguibles
AAABB A1A2A3B1B2
A1A3A2B1B2
A2A1A3B1B2
A2A3A1B1B2
A3A2A₁B₁B2
A₃A₁A₂B₁B₂
A₁A₂A3B2B₁
A₁A₃A₂B₂B₁
A₂A₁A₃B2B₁
A₂A₃A₁B2B₁
A₃A₂A₁B2B₁
A₃A₁A₂B₂B₁

Vemos que para el caso de las letras distinguibles, el número de palabras resulta de multiplicar
las permutaciones de A₁A₂A₃ por las de B₁B₂, obteniéndose que el número de permutaciones sea
3! • 2! = 12, de las cuales sólo tenemos que considerar 1. Hemos considerado el caso en que las
3 A aparezcan al principio de la palabra; considerando todos los demás casos obtendremos que el
número de palabras es:

Número de palabras

Capítulo 8 : Análisis Combinatorio 177

Ejemplo 2:
¿Cuántas permutaciones distintas se pueden formar usando las letras CARAPAR?

Solución:
Primero contamos el número de letras total n=7. Luego contamos el número de letra igual y tenemos:
Número de letras ‘C’ =1
Número de letras ‘A’ =3
Número de letras ‘R’ =2
Número de letras ‘P’ =1

7!
Remplazando en la fórmula: p17,3, 2,1 
(1!)(3!)(2!)(1!)

COMBINACIONES

Una combinación de ‘n’ objetos tomando de ‘k’ en ‘k’, es una selección de ‘k’ objetos de los ‘n’ dados sin
tener en cuenta la ordenación de los mismos.

a.- Combinaciones sin repetición


n!
El número de combinaciones de n objetos tomando k cada vez: C kn 
k!(n  k )!
Ejemplo 1: ¿cuántas grupos de 3 hombres y 2 mujeres se pueden formar con 7 hombres y 5 mujeres?

Solución:
El número de combinaciones de 7 hombres tomados 3 cada vez:
7! 7!
C37 
3!(7  3)! (3!)(4!)
El número de combinaciones de 5 mujeres tomados 2 cada vez:

5! 5!
C25 
2!(5  2)! (2!)(3!)
Número total de grupos es igual C 7C 5 
3 2

Ejemplo 2:
A un concursante en un programa de televisión le dejan elegir 3 regalos entre los siguientes:
lavadora, frigorífico, lavavajillas, motocicleta, televisor y viaje. ¿Cuántas posibilidades de elección
tiene el concursante?
178 ESTADÍSTICA PARA INGENIEROS

Solución:
Se podría pensar en un principio, que se trata de las variaciones de 6 elementos tomados de 3 en
3, pero hay que tener en cuenta que hay distintas variaciones que dan lugar a la misma elección del
concursante.

Considérese el caso en que el concursante elige la motocicleta, el televisor y el viaje. Den¬tro del
conjunto de todas las variaciones, dicha elección estaría repetida 3! = 6 veces, que son las distintas
formas de ordenar dichos regalos. Por tanto, tendríamos que dividir el número de variaciones, entre
el número de ordenaciones posibles de los regalos elegidos. En este caso:

6! 6! 6 x5 x 4 x3!
C36 20 
3!(6  3)! (3!)(3!) 3! x3!

b.- Combinaciones con repetición:

El número de combinaciones con repetición a formarse con n objetos tomando k en k:

(n  k  1)!
(CR ) nk 
k!(n  1)!

Ejemplo 1:
Cada pieza de un dominó es marcado por dos números. Las piezas son simétricos de modo que el
par de números no es ordenado. ¿Cuántas piezas diferentes de dominó pueden construirse usando
los números 1,2,3…n?

Solución:
El número de combinaciones con repetición a formarse con n objetos tomando 2 en 2:
(n  2  1)! (n  1)! (n  1)n
(CR) n2 
2!(n  1)! 2(n  1)! 2
Que es la suma de la n primeros números naturales.

Ejemplo 2:
A un concursante en un programa de televisión, le dejan elegir 3 regalos entre los siguientes:
lavadora, frigorífico, lavavajillas, motocicleta, televisor y viaje. ¿Cuántas posibilidades de elección
tiene el concursante?

Solución:
Se podría pensar en un principio, que se trata de las variaciones de 6 elementos tomados de 3 en
3, pero hay que tener en cuenta que hay distintas variaciones que dan lugar a la misma elección del
concursante.
Capítulo 8 : Análisis Combinatorio 179

Considérese el caso en que el concursante elige la motocicleta, el televisor y el viaje. Dentro del
conjunto de todas las variaciones, dicha elección estaría repetida 3! = 6 veces, que son las distintas
formas de ordenar dichos regalos. Por tanto, tendríamos que dividir el número de variaciones, entre
el número de ordenaciones posibles de los regalos elegidos. En este caso:

(6  3  1)! (8)! 8 x7 x6
(CR )36 42 
3!(6  1)! 3!(5)! 3!

NÚMEROS COMBINATORIOS

ElnúmeroCm,nseconocetambiéncomonúmerocombinatorio .

Propiedadesdelosnúmeroscombinatorios

1. 

Demostración:





2. 

Demostración:




3. 

Demostración:





180 ESTADÍSTICA PARA INGENIEROS

TRIÁNGULO DE TARTAGLIA
A partir de las propiedades de los números combinatorios, se puede construir el llamado triángulo de
Tartaglia o de Pascal, que permite obtener los valores de los números combinatorios sin necesidad de
realizar las operaciones de la fórmula. Para obtener el triángulo se interpretan las propiedades de los
números combinatorios de la siguiente forma:

1. Los extremos de las filas del triángulo toman el valor 1 (propiedad 1).
2. Todas las filas del triángulo son simétricas (propiedad 2).
3. Cada número se obtiene mediante la suma de los dos que tiene encima en el triángulo, excepto
los extremos, cuyo valor es 1, según se indicó en el punto 1 (propiedad 3).

Con esto es muy sencillo construir el triángulo para las primeras filas. En la figura 2 se muestra el triángulo
para las 10 primeras filas.

Triángulo de Tartaglia.

El valor correspondiente al número combinatorio será el que se encuentre en la fila n y columna p


del triángulo.

Así estaría en la fila n = 7 y p = 4, luego sería igual a 35.


Capítulo 8 : Análisis Combinatorio 181

EJERCICIOS DE ANÁLISIS COMBINATORIO

1. ¿Cuántas parejas diferentes compuestas por una mujer y un hombre se podrían formar a partir de 6
hombres y 5 mujeres?
R: 30

2. ¿Cuántos tríos diferentes compuestos por un hombre, una mujer y un niño, se pueden formar a
partir de 4 hombres, 5 mujeres y 3 niños?
R: 60

3. En una canasta hay 5 frutas diferentes y en otra canasta hay 3 verduras distintas. ¿De cuántas
maneras se puede elegir una fruta y una verdura?
R: 15

4. ¿Cuántas palabras diferentes, con o sin significado, se pueden formar con las letras: A, L, E y C, sin
que ninguna letra se repita ni falte?
R: 24

5. ¿Cuántas permutaciones simples pueden hacerse con las letras de la palabra LEGAR?
R: 120

6. ¿Cuántas de esas permutaciones comenzarán con una consonante?


R: 72

7. ¿Cuántas comenzarán con una vocal?


R: 48

8. ¿Cuántas comenzarán con la letra A?


R: 24

9. Se tienen 10 bolitas de igual tamaño, 3 son de color rojo, 2 de color azul y 5 de color verde. ¿De
cuántas maneras diferentes se pueden ordenar en fila esas 10 bolitas?
R: 2520

10. ¿Cuántas de esas permutaciones comenzarán con una bolita verde?


R: 1260

11. ¿Cuántas terminarán con una bolita roja?


R: 756

12. ¿Cuántas comenzarán con una bolita azul y terminarán con una bolita verde?
R: 280
13. ¿Cuántos números de 3 cifras diferentes pueden formarse con los dígitos: 1, 2, 3,4 y 5?
R: 60

14. ¿Cuántas palabras de 3 letras, con o sin significado, pueden formarse con las letras de
la palabra COMA?
R: 24

15. Una empresa ferroviaria tiene 6 estaciones. ¿Cuántos tipos diferentes de boletos,
donde se indique la estación de salida y de llegada, deben imprimirse?
R: 30

16. ¿Cuántos números de 3 cifras pueden formarse con los dígitos: 5, 6, 7, 8 y 9?


R: 125

17. ¿Cuántos números de dos cifras pueden formarse con los diez dígitos?
R: 90

18. ¿De cuántas maneras diferentes se puede elegir una comisión de 5 miembros a partir
de 8 personas?
R: 56

19. ¿Si una persona determinada debe estar siempre incluida?


R: 35

20. ¿Si una persona determinada debe estar siempre excluida?


R: 21

21. ¿Si una persona determinada debe estar siempre incluida y otra siempre excluida?
R: 15

22. ¿Si dos personas determinadas nunca deben estar juntas en esa comisión?
R: 36

23. ¿Cuántas diagonales pueden trazarse en un polígono convexo de n lados?


R: n (n – 3 ) / 2

24. ¿Cuántas comisiones diferentes, compuestas por 2 hombres y 3 mujeres, pueden formarse a partir
de 10 hombres y 12 mujeres?
R: 9900

25. ¿Cuántas palabras de 7 letras distintas (4 consonantes y 3 vocales), con o sin significado,
pueden formarse a partir de 6 consonantes y 5 vocales, todas diferentes?
CAPÍTULO

9 Probabilidades

INTRODUCCIÓN:
La teoría de Probabilidades comienza a partir de una disputa entre jugadores en 1654. Los dos matemáticos
que participaron de tales discusiones fueron Blaise Pascal y Pierre de Fermat, y su intercambio de
correspondencia sentó las bases de la teoría de Probabilidades. Un matemático holandés, Christian
Huygens tomó contacto con esa correspondencia y escribió el primer libro sobre Probabilidades en 1657,
el cual trataba fundamentalmente sobre problemas relacionados con los juegos de azar.

Durante el siglo XVIII la teoría se desarrolló y se enriqueció con los aportes de Jacob
Bernoulli y Abraham de Moivre. En 1812 Pierre de Laplace introdujo una serie de nuevas ideas y técnicas
matemáticas en su libro Theorie Analytique des Probabilités y fundamentalmente sacó a la teoría del
marco exclusivo de los juegos de azar y aplicó las ideas a muchos problemas científicos y prácticos.
Algunas de las importantes aplicaciones desarrolladas en el siglo XIX fueron: teoría de errores, matemática
actuarial y mecánica estadística. Una de las dificultades para el desarrollo de la teoría matemática de las
probabilidades fue llegar a una definición de probabilidad matemáticamente rigurosa, pero al mismo
tiempo amplia para permitir su aplicación a un amplio rango de fenómenos. En el siglo XX se llegó a una
definición axiomática de las Probabilidades (Kolmogorov, 1933).

PROBABILIDAD
El término Probabilidad se refiere al estudio del azar y la incertidumbre. En aquellas situaciones en las
cuáles se puede producir uno de varios resultados posibles, la Teoría de la Probabilidad provee métodos
para cuantificar la chance de ocurrencia de cada uno de ellos.

La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un
experimento.

Ejemplos:
Tiramos un dado al aire y queremos saber cuál es la probabilidad de que salga un 2, o que salga un
número par, o que salga un número menor que 4.

Se arroja un dado dos veces y se registra la suma de puntos. ¿Cuál es la probabilidad de que se obtenga
una suma mayor que 10?

En un juego de ruleta, ¿cuál es la probabilidad de ganar apostando a primera columna?


¿Cuál es la probabilidad de que un servidor que atiende a 20 terminales se sature en un determinado
momento?
Dada la información disponible, ¿cuál es la probabilidad de que llueva el próximo fin de semana?
184 ESTADÍSTICA PARA INGENIEROS

EXPERIMENTO:
Es cualquier proceso o acción que genera observaciones y que puede ser repetible.

Por ejemplo, arrojar una moneda, seleccionar un individuo y registrar su peso y su altura, seleccionar
una muestra de productos elaborados por una empresa para hacer un control de calidad, seleccionar un
día al azar.

El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados dentro de
un conjunto posible de soluciones, y esto aún realizando el experimento en las mismas condiciones. Por
lo tanto, a priori no se conoce cuál de los resultados se va a presentar.

Ejemplo: lanzamos una moneda al aire: el resultado puede ser cara o sello, pero no sabemos de antemano
cuál de ellos va a salir. En la lotería la ‘Tinka’ el resultado puede ser cualquier número, pero no sabemos
a priori cuál va a ser (si lo supiéramos imagínese).

Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la probabilidad.

Ejemplo: en lugar de tirar la moneda al aire, directamente seleccionamos la cara. Aquí no podemos
hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo. Antes de calcular
las probabilidades de un experimento aleatorio hay que definir una serie de conceptos:

ESPACIO MUESTRAL ( Ω)
Conjunto de todos los posibles sucesos elementales. Cada experimento aleatorio tiene definido su
espacio muestral (conjunto con todas las soluciones posibles).

Ejemplo: si tiramos una moneda al aire una sola vez, el espacio muestral será cara o sello. Si el experimento
consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estaría formado por
(cara - cara), (cara - sello), (sello - cara) y (sello - sello).

Espacio muestral asociado a un experimento:


Es el conjunto de todos los resultados posibles del experimento. Lo notaremos Ω.

Ejemplos:

1) Se arroja una moneda una vez:


Ω ={cara, sello} ó Ω ={1,0} ó Ω ={éxito, fracaso}.

2) Se arroja una moneda dos veces:


Ω ={(1,1),(1,0),(0,1),(0,0)}.

3) Se arroja una moneda hasta que aparece por primera vez una cara
Ω ={(1),(0,1),(0,0,1),(0,0,0,1),....} = {(x1,x2,...xn) / n€N, xi=0 si i < n , xn=1}.
Capítulo 9 : Probabilidades 185

4) Se registra el tiempo transcurrido desde que se intenta la conexión a un servidor hasta que la conexión
se efectiviza:
Ω = (0,∞) =Reales positivos (R+).

Como se observa, un espacio muestral puede ser finito, como en los ejemplos 1 y 2, infinito numerable,
como en el ejemplo 3 o infinito no numerable, como en el ejemplo 4.

SUCESOS O EVENTOS
No sólo estamos interesados en resultados individuales de un experimento sino que pueden interesarnos
colecciones o conjuntos de ellos. Se denomina suceso o evento a cualquier subconjunto del espacio
muestral. Si Ω es finito o infinito numerable, cualquier subconjunto es un evento. Si Ω es infinito “casi
todo” subconjunto de Ω es un evento. Los eventos los designaremos en general con las primeras letras
del abecedario en mayúscula: A, B, C,...

Evento elemental o simple:


Consiste de un único resultado individual. Hace referencia a cada una de las posibles soluciones que se
pueden presentar.

Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y el sello. Al lanzar un dado,
los sucesos elementales son el 1, el 2, .., hasta el 6.

Evento compuesto:
Consiste de más de un evento elemental. Es un subconjunto de sucesos elementales.
Ejemplo: lanzamos un dado y queremos que salga un número par. El suceso "numero par" es un suceso
compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6. O, por ej., jugamos a la ruleta y queremos
que salga "menor o igual que 18". Este es un suceso compuesto formado por 18 sucesos elementales
(todos los números que van del 1 al 18).

RELACIÓN CON TEORÍA DE CONJUNTOS:


Como un evento o suceso es un conjunto, valen las mismas relaciones que en teoría de conjuntos.

a) Suceso Seguro: Ω es un subconjunto de Ω denominado suceso cierto o seguro.

b) Suceso imposible: φ es un subconjunto de Ω denominado suceso imposible.

c) Unión de dos o más sucesos: la unión será otro suceso formado por todos los elementos de los
sucesos que se unen.

A B es el suceso unión. Ocurre cuando A ocurre ó B ocurre.

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par y b) que el
resultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4,
el 5 y el 6.
186 ESTADÍSTICA PARA INGENIEROS

d) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de dos o más
sucesos que se interceptan.

A  B es el suceso intersección .Ocurre cuando ocurre A y ocurre B.


Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que sea
mayor que 4. La intersección de estos dos sucesos tiene un sólo elemento, el número 6 (es el único
resultado común a ambos sucesos: es mayor que 4 y es número par).

e) Sucesos complementarios: son aquellos que si no se da uno, obligatoriamente se tiene que dar el
otro.

Ac es el opuesto o complemento de A. Ocurre cuando no ocurre A


Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número par, y b) que
salga un número impar. Vemos que si no se da a) se tiene que dar b) (y viceversa).

f) Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso también lo son
del segundo, pero este segundo suceso tiene además otras soluciones suyas propias.
Se dice que A está contenido en B o que A implica B y se denota A  B si la realización de A conduce
a la realización de B, es decir si todo elemento de A pertenece a B.

Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un
número par. Vemos que el suceso a) está contenido en el suceso b). Siempre que se da el suceso a)
se da el suceso b), pero no al contrario. Por ejemplo, si el resultado fuera el 2, se cumpliría el suceso
b), pero no el a).

g) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se cumple
obligatoriamente el otro y viceversa.

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salga
múltiplo de 2. Vemos que las soluciones coinciden en ambos casos.

h) Sucesos incompatibles o disjuntos: son aquellos que no se pueden dar al mismo tiempo ya que no
tienen elementos comunes (su intersección es el conjunto vacío).

Dos sucesos A y B se dicen mutuamente excluyentes o disjuntos si A  B = φ.

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y
b) que salga el número 6. Es evidente que ambos no se pueden dar al mismo tiempo.

i) Suceso diferencia: A − B = A Bc es el suceso diferencia. Ocurre cuando ocurre A y no ocurre B.


Capítulo 9 : Probabilidades 187

PROPIEDADES:
a) Asociativa:

A  B  C = (A  B)  C = A  (B C)
A B C = (A  B)  C = A  (B  C)

b) Conmutativa:

A  B = B A
AB=BA
c) Distributiva:

(AB)C = (A  C)  (B  C)
(A  B)  C = (A  C)  (B  C)

d) Leyes de Morgan:

c c
§f · f
§f · f
¨¨  Ai ¸¸ A i
c
 y ¨¨  Ai ¸¸ A i
c

©i 1 ¹ i 1 ©i 1 ¹ i 1

CÁLCULO DE PROBABILIDADES
Probabilidad: la probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado
(suceso) cuando se realiza un experimento aleatorio. La probabilidad toma valores entre 0 y 1 (o
expresados en tanto por ciento, entre 0% y 100%):

El valor cero corresponde al suceso imposible: lanzamos un dado al aire y la probabilidad de que salga
el número 7 es cero.

El valor uno corresponde al suceso seguro: lanzamos un dado al aire y la probabilidad de que salga
cualquier número del 1 al 6 es igual a uno (100%).

El resto de sucesos tendrá probabilidades entre cero y uno: que será tanto mayor cuanto más probable
sea que dicho suceso tenga lugar.

REGLA DE LAPLACE:
Es una forma de medir la probabilidad que define la probabilidad de un suceso como el cociente entre
casos favorables y casos posibles.

Casos favorables nA
P ( A) 
Casos Posibles n:
188 ESTADÍSTICA PARA INGENIEROS

Para aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos: el número
de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos resultados, al aplicar la regla
"casos favorables/casos posibles" el cociente siempre sería cero. Todos los sucesos tienen que tener la
misma probabilidad. Si al lanzar un dado, algunas caras tuvieran mayor probabilidad de salir que otras,
no podríamos aplicar esta regla.

A la regla de Laplace también se le denomina "probabilidad a priori", ya que para aplicarla hay que
conocer antes de realizar el experimento cuáles son los posibles resultados y saber que todos tienen las
mismas probabilidades.

Si el experimento aleatorio no cumple los dos requisitos indicados, acudimos a otro modelo de cálculo
de probabilidades que se basa en la experiencia (modelo frecuentista).

Cuando se realiza un experimento aleatorio un número muy elevado de veces, las probabilidades de los
diversos posibles sucesos empiezan a converger hacia valores determinados, que son sus respectivas
probabilidades.

Ejemplo 1:
Si lanzo una vez una moneda al aire y sale ‘cara’, quiere decir que el suceso ‘cara’ ha aparecido el 100%
de las veces y el suceso ‘Sello’ el 0%. Si lanzo diez veces la moneda al aire, es posible que el suceso ‘cara’
salga 7 veces y el suceso ‘sello’ las 3 restantes. En este caso, la probabilidad del suceso ‘cara’ ya no sería
del 100%, sino que se habría reducido al 70%.

Si repito este experimento un número elevado de veces, lo normal es que las probabilidades de los
sucesos ‘cara’ y ‘sello’ se vayan aproximando al 50% cada una. Este 50% será la probabilidad de estos
sucesos según el modelo frecuentista. En este modelo ya no será necesario que el número de soluciones
sea finito, ni que todos los sucesos tengan la misma probabilidad.

Ejemplo 2:
Si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (trucada), es posible que al repetir
dicho experimento un número elevado de veces, ‘cara’ saliera con una frecuencia, por ejemplo, del 65% y
‘sello’ del 35%. Estos valores serían las probabilidades de estos dos sucesos según el modelo frecuentista.
A esta definición de la probabilidad se le denomina probabilidad a posteriori, ya que tan sólo repitiendo
un experimento un número elevado de veces podremos saber cuál es la probabilidad de cada suceso.

AXIOMAS DE PROBABILIDAD:
Dado un experimento aleatorio y un espacio muestral asociado Ω, a cada evento A se le asociará un
número que notaremos P(A) y que llamaremos probabilidad del evento A. Esta asignación debe satisfacer
los siguientes axiomas:
Capítulo 9 : Probabilidades 189

1.P(A)ш0paratodoeventoA.

2.P(ɏ)=1

3.SiA1, A2,...,An es unacolección finita de sucesos mutuamente excluyentes, esdecir que
AiŀAj=ʔීiтj,entonces:

§ n · n
P¨¨  Ai ¸¸  P( A ) 
i
©i 1 ¹ i 1

PROPIEDADES DE PROBABILIDAD:

1)P(Ac)=1оP(A)paratodosucesoA

Demostración:

1=P(ɏ)=P(A෽Ac)=P(A)+P(Ac).Entonces,P(A)=1оP(A)

Enlaterceraigualdadusamoselaxioma3puesAŀAc=‫׎‬.

2)P(ʔ)=0

Demostración:

P(ʔ)=1ͲP(ʔ…)=1ͲP(ɏ)=1–1=0

3)SiA๙BයP(A)чP(B)yP(BоA)=P(B)оP(A)

Demostración:

SiA๙BයB=A෽(BоA)yéstosdoseventossonexcluyentes.Porelaxioma3ª.
P(B)=P(A)+P(BоA).

Dadoque,porelaxioma1,P(BͲA)ш0,resultaP(B)шP(A)y,despejando,seobtienela
Segundaafirmación

4)DadosdossucesoscualesquieraAyB,P(A෽B)=P(A)+P(B)оP(AŀB).

Demostración:

A෽B=A෽(BŀAc)yestosdoseventossonexcluyentes,entonces,porelaxioma3a,

P(A෽B)=P(A෽(BŀAc))=P(A)+P(BŀAc)……..(1)

Porotraparte,B=(BŀA)෽(BŀAc)yestosdoseventossondisjuntos,entonces:

190 ESTADÍSTICA PARA INGENIEROS


P(B)=P(BŀA)+P(BŀAc)යP(BŀAc)=P(B)оP(BŀA)………..(2)

De(1)y(2)resultaqueP(A෽B)=P(A)+P(B)оP(BŀA)comoqueríamosdemostrar.

5)DadosdossucesoscualesquieraAyB,P(A෽B)чP(A)+P(B).

Demostración:
Estapropiedadsededuceinmediatamentedelapropiedadanteriorydelaxioma1.

ASIGNACIÓN DE PROBABILIDADES:
Supongamos que el espacio muestral Ω asociado con cierto experimento es finito o infinito numerable.
En este caso, una manera simple de trabajar es asignar probabilidades a los sucesos elementales, ya que
cualquier suceso A será unión de sucesos elementales y estos son obviamente mutuamente excluyentes.

f n
Designando Ei a los sucesos elementales de ɏ, :  Ei  ( :  E ). conocemos P =P(E )ш0V‹,
i i i
i 1 i 1
f
de manera que ¦P
i 1
i 1 , entonces dado cualquier suceso A, su probabilidad se puede obtener

sumando las probabilidades de los elementales que lo componen, es decir P( A) ¦P


Ei  A
i

EJEMPLOS RESUELTOS:
EJERCICIO 1:
Se arroja un dado equilibrado. En este caso, Ω ={1,2,3,4,5,6} y, los sucesos elementales Ei = {i} para i=1,..,6
tienen probabilidad Pi = 1/6. Si deseamos calcular la probabilidad del suceso A = “el resultado es par”.

Solución:
Entonces A= E2E4E6
Se obtiene P(A) = P(E2)+ P(E4)+ P(E6)= 1/6+1/6+1/6 = ½

EJERCICIOS 2:
Arrojamos una moneda equilibrada hasta obtener cara. ¿Cuál es la probabilidad de obtener cara en el
k-ésimo lanzamiento?

Solución:
El espacio muestral: A ={(cara), (sello, cara), (sello, sello, cara), (sello, sello, sello, cara)…………..}.

P(obtener cara en el k-ésimo lanzamiento) 1 1 1 §1·


k

=    .... ¨ ¸ 
2 4 8 ©2¹
EJERCICIO 3:
Probabilidad de que al lanzar un dado salga el número 2: el caso favorable es tan sólo uno (que salga el
dos), mientras que los casos posibles son seis (puede salir cualquier número del uno al seis).
Capítulo 9 : Probabilidades 191

Solución:
Por lo tanto: P(A) = 1 / 6 = 0.166 (o lo que es lo mismo, 16.6%).

EJERCICIO 4:
Probabilidad de que al lanzar un dado salga un número par: aquí los casos favorables son tres (que salga
el dos, el cuatro o el seis), mientras que los casos posibles siguen siendo seis.

Solución:
Por lo tanto: P(A) = 3 / 6 = 0.50 (o lo que es lo mismo, 50%).

EJERCICIO 5:
Probabilidad de que al lanzar un dado salga un número menor que 5: ahora tenemos cuatro casos
favorables (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos posibles.

Solución:
Por lo tanto: P(A) = 4 / 6 = 0.666 (o lo que es lo mismo, 66,6%).

EJEMPLOS DE PROBABILIDAD DE SUCESOS:


Al definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre sí, así
como de las posibles relaciones que se pueden establecer entre los mismos. Vamos a ver ahora cómo se
refleja esto en el cálculo de probabilidades.

a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso será menor
que la del suceso que lo contiene.

Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un
número par. Dijimos que el suceso a) está contenido en el suceso b).

Solución:
P(A) = 1/6 = 0.166, P(B) = 3 / 6 = 0.50. Por lo tanto, podemos ver que la probabilidad del suceso
contenido, suceso a), es menor que la probabilidad del suceso que lo contiene, suceso b).

b) Dos sucesos pueden ser iguales: en este caso, las probabilidades de ambos sucesos son las mismas.

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salga
múltiplo de 2. Las soluciones coinciden en ambos casos.

Solución:
P(A) = 3 / 6 = 0.50 , P(B) = 3 / 6 = 0.50

c) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o más
sucesos que se interceptan. La probabilidad será igual a la probabilidad de los elementos comunes.
192 ESTADÍSTICA PARA INGENIEROS

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que sea
mayor que 3.

Solución:
La intersección de estos dos sucesos tiene dos elementos: el 4 y el 6. Su probabilidad será por tanto:
P(A B) = 2 / 6 = 0.33

d) Unión de dos o más sucesos: la probabilidad de la unión de dos sucesos es igual a la suma de
las probabilidades individuales de los dos sucesos que se unen, menos la probabilidad del suceso
intersección

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que el
resultado sea mayor que 3.

Solución:
El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5 y el 6. P(A) = 3 / 6 =
0.50 P(B) = 3 / 6 = 0.50 P(A B) = 2 / 6 = 0.33 Por lo tanto, P (A  B) = (0.50 + 0.50) - 0,33 = 0,666

e) Sucesos incompatibles: la probabilidad de la unión de dos sucesos incompatibles será igual a la


suma de las probabilidades de cada uno de los sucesos (ya que su intersección es el conjunto vacio y
por lo tanto no hay que restarle nada).

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3,
y b) que salga el número 6.

Solución:
La probabilidad del suceso unión de estos dos sucesos será igual a: P(A) = 2 / 6 = 0.333 P(B) = 1 / 6 =
0.166 Por lo tanto, P(AB) = 0.33 + 0.166 = 0.50

f) Sucesos complementarios: la probabilidad de un suceso complementario a un suceso (A) es igual a


1 - P(A).

Ejemplo: lanzamos un dado al aire. el suceso (A) es que salga un número par, luego su complementario,
suceso (B), es que salga un número impar.

Solución:
La probabilidad del suceso (A) es igual a: P(A) = 3 / 6 = 0.50; luego, la probabilidad del suceso (B) es
igual a: P(B) = 1 - P(A) = 1 – 0.50 = 0.50 Se puede comprobar aplicando la regla de "casos favorables
/ casos posibles": P(B) = 3 / 6 = 0.50
Capítulo 9 : Probabilidades 193

g) Unión de sucesos complementarios: la probabilidad de la unión de dos sucesos complementarios es


igual a 1.

Ejemplo: seguimos con el ejemplo anterior: a) que salga un número par, y b) que salga un número
impar.

Solución:
La probabilidad del suceso unión de estos dos sucesos será igual a: P(A) = 3 / 6 = 0.50 P(B) = 3 / 6 =
0.50 Por lo tanto, P(AB) = 0.50 + 0.50 = 1

PROBABILIDAD CONDICIONAL:

Sean A y B eventos tales que P(B) > 0, la probabilidad del evento A condicional a la ocurrencia del evento
B es:

P( A ˆ B)
P( A )  
B P( B)

P( B ˆ A)
P( B ) 
A P( A)
Ejemplo 1:
Se tira un dado y sabemos que la probabilidad de que salga un 2 es 1/6 (probabilidad a priori). Si sabemos
que el resultado ha sido un número par.

Solución:
P (B/A) es la probabilidad de que salga el número 2 condicionada a que haya salido un número par.

P(BA) es la probabilidad de que salga el dos y número par. P (A) es la probabilidad a priori de que salga
un número par. Por lo tanto:

P (BA) = 1/6 y P (A) = 1/2, entonces : P (B/A)=(1/6)/(1/2) = 1/3.

Ejemplo 2:
En un estudio sanitario se ha llegado a la conclusión de que la probabilidad de que una persona sufra
problemas coronarios (suceso B) es el 0,10 (probabilidad a priori). Además, la probabilidad de que
una persona sufra problemas de obesidad (suceso A) es el 0,25 y la probabilidad de que una persona
sufra a la vez problemas de obesidad y coronarios (suceso intersección de A y B) es del 0,05. Calcular la
probabilidad de que una persona sufra problemas coronarios si está obesa (probabilidad condicionada
P(B/A)).

Solución:
P (BA) = 0.05 y P (A) = 0.25 entonces P(B/A)=0.05/0.25 = 0.20.
194 ESTADÍSTICA PARA INGENIEROS

Consideremos una población en la que cada individuo es clasificado según dos criterios: es o no portador
de HIV y pertenece o no a cierto grupo de riesgo que denominaremos R. La correspondiente tabla de
probabilidades es:

Portador (A) No portador (Ac)


Pertenece a R (B) 0.003 0.017 0.020
No pertenece a R (Bc) 0.003 0.977 0.980
0.006 0.994 1.000

En esta población, la probabilidad de que un individuo sea portador es P(A)=0.006 y la probabilidad de


que sea portador y pertenezca al grupo de riesgo R es P(AB)=0.003. Dado que una persona seleccionada
al azar pertenece al grupo de riesgo R, ¿cuál es la probabilidad de que sea portador?

Solución:

P( A ˆ B) 0.003
P( A ) 0.150 
B P( B) 0.020
Es decir que 150 de cada 1000 individuos del grupo de riesgo R, son “probablemente” portadores de HIV.
Calculemos ahora la probabilidad de que una persona sea portadora de HIV, dado que no pertenece al
grupo de riesgo R.

P( A ˆ B c ) 0.003
P( A ) 0.00306 
P( B c ) 0.980
c
B
Es decir que sólo 3 de cada 1000 individuos no pertenecientes al grupo de riesgo R, son “posibles”
portadores de HIV.

Propiedades de la Probabilidad condicional:

1. P(A|B) ≥ 0 para todo suceso A.


2. P(Ω|B) = 1.

Demostración:
P (: ˆ B ) P( B)
P (: ) 1
B P( B) P( B)
Probabilidad Compuesta (Regla del producto):

Dados dos sucesos A y B, tales que P(B) > 0,

P(AB) = P(B) P(A|B)


Además, si P(A) > 0,
P(AB) = P(A)P(B|A)
Capítulo 9 : Probabilidades 195

Ejemplo 1:
Consideremos una urna que contiene 4 bolillas rojas y 5 blancas. De las 4 bolillas rojas, 2 son lisas y 2
rayadas; y de las 5 bolillas blancas, 4 son lisas y una sola es rayada. Supongamos que se extrae una bolilla
y, sin que la hayamos mirado, alguien nos dice que la bolilla es roja, ¿cuál es la probabilidad de que la
bolilla sea rayada?, supongamos ahora que se extraen dos bolillas sin reposición. ¿Cuál es la probabilidad
de extraer una bolilla roja y una blanca, en ese orden?

Solución:
Sean C: ‘la primera bolilla es roja’ y D: ‘la segunda bolilla es blanca’. Debemos calcular P(C  D). Aplicando
la regla del producto:

P(C  D)= P(C)P(D/C)=(4/9)(5/8)=20/72=5/18

Ejemplo 2:
Estudiamos el suceso A (porcentaje de varones mayores de 40 años casados) y el suceso B (varones
mayores de 40 años con más de 2 hijos) y obtenemos la siguiente información: un 35% de los varones
mayores de 40 años están casados. De los varones mayores de 40 años y casados, un 30% tienen más de
2 hijos (suceso B condicionado al suceso A). Calcular la probabilidad de que un varón mayor de 40 años
esté casado y tenga más de 2 hijos (suceso intersección de A y B).

Solución:
Por lo tanto: P (A) = 0,35 P (B/A) = 0,30 P (AB) = 0,35 * 0,30 = 0,105; es decir, un 10,5% de los varones
mayores de 40 años están casados y tienen más de 2 hijos.

Ejemplo 3:
Estudiamos el suceso A (alumnos que hablan inglés) y el suceso B (alumnos que hablan alemán) y
obtenemos la siguiente información: un 50% de los alumnos hablan inglés. De los alumnos que hablan
inglés, un 20% hablan también alemán (suceso B condicionado al suceso A). Calcular la probabilidad de
que un alumno hable inglés y alemán (suceso intersección de A y B).

Solución:
Por lo tanto: P (A) = 0,50 P (B/A) = 0,20 P (A L B) = 0,50 * 0,20 = 0,10
Es decir, un 10% de los alumnos hablan inglés y alemán.

La regla del producto es especialmente útil cuando el experimento consta de varias etapas ya que se
pueden generalizar. Así por ejemplo, si y, se tiene P(A₁)>0 y P(A₁A₂)>0 se tiene:

P(A₁A₂A₃)= P(A₁) P(A₂/A₁) P(A₃/(A₂A₃))


196 ESTADÍSTICA PARA INGENIEROS

PARTICIÓN DEL ESPACIO MUESTRAL Ω


Definición:
Una colección de eventos A₁, A₂,……,Ak constituye una partición del espacio muestral Ω si
 
1.AiŀAj=Ӆ Viтj

2.P(Ai)>0 Vi

k
3. A i :
i 1

TEOREMA DE LA PROBABILIDAD TOTAL:


Sea A₁, A₂,……,Ak una partición del espacio muestral Ω y sea B un suceso cualquiera.
k
P( B) ¦ P( A ) P( B A ) 
i 1
i
i


Demostración:
§ k · k
B Bˆ: B ˆ ¨¨  Ai ¸¸  (B ˆ A )  i
©i 1 ¹ i 1

Como(BŀAi)(BŀAj=Ӆ V ij

§ k · k k
Entonces P ( B ) P¨¨  ( B ˆ Ai ) ¸¸ ¦ P( B ˆ Ai ) ¦ P( A ) P( B A ) 
i
©i 1 ¹ i 1 i 1 i

EJERCICIO 1:
En un saquito hay papeletas de tres colores con las siguientes probabilidades de ser elegidas: amarilla,
probabilidad del 50%; verde, probabilidad del 30%; roja, probabilidad del 20%. Según el color de
la papeleta elegida, podrás participar en diferentes sorteos. Así, si la papeleta elegida es: amarilla,
participas en un sorteo con una probabilidad de ganar del 40%; verde, participas en otro sorteo con una
probabilidad de ganar del 60%; roja, participas en un tercer sorteo con una probabilidad de ganar del
80%. Con esta información, ¿qué probabilidad tienes de ganar el sorteo en el que participes?:

Solución:
Aplicamos la fórmula: P(B) = (0,50 * 0,40) + (0,30 * 0,60) + (0,20 * 0,80) = 0,54
Por tanto, la probabilidad de que ganes el sorteo es del 54%.

EJERCICIO 2:
Van a cambiar a tu jefe y se barajan diversos candidatos: Carlos, con una probabilidad del 60%; Juan, con
una probabilidad del 30%; Luis, con una probabilidad del 10%. En función de quien sea tu próximo jefe, la
probabilidad de que te suban el sueldo es la siguiente: Si sale Carlos, la probabilidad de que te suban el
sueldo es del 5%; si es Juan, la probabilidad de que te suban el sueldo es del 20%; si sale Luis, la probabilidad
de que te suban el sueldo es del 60%. En definitiva, ¿cual es la probabilidad de que te suban el sueldo?
Capítulo 9 : Probabilidades 197

Solución:
Aplicamos la fórmula: P (B) = (0,60 * 0,05) + (0,30 * 0,20) + (0,10 * 0,60) = 0,15
Por tanto, la probabilidad de que te suban el sueldo es del 15%.

TEOREMA DE BAYES:
Sea A₁, A₂,……,Ak como partición de universo muestral Ω y sea B un suceso cualquiera tal que P(B)>0

P( Aj ) P( B )
Aj Aj
P( ) 
B k

¦ P( A ) P( B
i 1
i Ai
)

En el numerador se aplicó la regla del producto y en el denominador el Teorema de la probabilidad total.


El Teorema de Bayes describe cómo es posible “revisar” la probabilidad inicial de un evento o
probabilidad a priori (P(Ai)) para reflejar la información adicional que nos provee la ocurrencia de un
evento relacionado. La probabilidad revisada se denomina probabilidad a posteriori.

EJERCICIO 1:
El parte meteorológico ha anunciado tres posibilidades para el fin de semana: que llueva, probabilidad
del 50%; que nieve, probabilidad del 30%; que haya niebla, probabilidad del 20%. Según estos posibles
estados meteorológicos, la posibilidad de que ocurra un accidente es la siguiente: si llueve, probabilidad
de accidente del 20%; si nieva, probabilidad de accidente del 10%; si hay niebla, probabilidad de accidente
del 5%. Resulta que efectivamente ocurre un accidente y como no estábamos en la ciudad no sabemos
qué tiempo hizo (nevó, llovió o hubo niebla).

Solución:
Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se denominan
"probabilidades a priori" (lluvia con el 60%, nieve con el 30% y niebla con el 10%). Una vez que
incorporamos la información de que ha ocurrido un accidente, las probabilidades del suceso A cambian:
son probabilidades condicionadas P(A/B), que se denominan "probabilidades a posteriori".

a) Probabilidad de que estuviera lloviendo:


P( Aj ) P( B )
Aj Aj 0.50 * 0.20
P( ) 0.714 
B k
0.50 * 0.20  0.30 * 0.10  0.20 * 0.05
¦ P( Ai ) P( B
i 1
Ai
)

La probabilidad de que efectivamente estuviera lloviendo el día del accidente (probabilidad a


posteriori) es del 71,4%.

b) Probabilidad de que estuviera nevando:

P( A j ) P( B )
Aj Aj 0.30 * 0.10
P( ) 0.214 
B k
0.50 * 0.20  0.30 * 0.10  0.20 * 0.05
¦ P( A ) P( B
i 1
i Ai
)

La probabilidad de que estuviera nevando es del 21,4%.


198 ESTADÍSTICA PARA INGENIEROS

c) Probabilidad de que hubiera niebla:


P( A j ) P( B )
Aj Aj 0.20 * 0.05
P( ) 0.071 
B k
0.50 * 0.20  0.30 * 0.10  0.20 * 0.05
¦ P( A ) P( B A )
i 1
i
i

La probabilidad de que hubiera niebla es del 7,1%.

INDEPENDENCIA SUCESOS:

Dos sucesos son independientes entre sí, si la ocurrencia de uno de ellos no afecta para nada a la
ocurrencia del otro. Por ejemplo el suceso estatura de los alumnos de una clase y el color del pelo son
independientes, el que un alumno sea más o menos alto no va a influir en el color de su cabello, ni
viceversa.

Definición: Los eventos A y B son independientes si, P(AB)= P(A)P(B).

Si la igualdad no se cumple, decimos que A y B son dependientes.

Para que dos sucesos sean independientes tienen que verificar al menos una de las siguientes condiciones.

Ejemplo:
La probabilidad de que haga buen tiempo (suceso A) y salga cara al tirar una moneda (suceso B), es igual
a la probabilidad del suceso A multiplicada por la probabilidad del suceso B.

Proposición 1:
Supongamos P(A)>0, A y B son independientes si y sólo si P(B/A)=P(B), es decir, que la probabilidad de
que se dé el suceso B, condicionada a que previamente se haya dado el suceso A, es exactamente igual
a la probabilidad de B.

Ejemplo:
La probabilidad de que al tirar una moneda salga cara (suceso B), condicionada a que haga buen tiempo
(suceso A), es igual a la propia probabilidad del suceso B.

Proposición 2:
Supongamos P(B) > 0, A y B son independientes si y sólo si P(A|B)=P(A), es decir, que la probabilidad de
que se dé el suceso A, condicionada a que previamente se haya dado el suceso B, es exactamente igual
a la probabilidad de A.

Ejemplo:
La probabilidad de que haga buen tiempo (suceso A), condicionada a que al tirar una moneda salga cara
(suceso B), es igual a la propia probabilidad del suceso A.
Capítulo 9 : Probabilidades 199

PROPIEDADES DE INDEPENDENCIA:

1) Si los sucesos A y B son excluyentes, es decir si A  B = y si P(A)>0, P(B) > 0, entonces A y B no son
independientes.

Demostración:
En efecto, en este caso, 0 = P(AB) ≠ P(A)P(B)

2) Si P(B)= 0, entonces B es independiente de cualquier suceso A tal que P(A) > 0.

Demostración:
Como AB B, P(AB) = 0 y por lo tanto P(AB) = P(A)P(B), es decir que A y B son independientes.

3) Si AB , P(A)>0 y P(B)<1, A y B no son independientes.

Demostración:
Como AB AB=A  P(AB)=P(A) ≠ P(A)P(B). Luego, A y B no son independientes.

4) Si A y B son sucesos independientes, A y Bc también lo son.

Demostración:

P(A)=P(AŀB)+P(AŀBcሻ

֜P(AŀBcሻൌP(A)ͲP(AŀB)=P(A)–P(A)P(B)=P(A)(1ͲP(B)=P(A)P(Bc)

E
200 ESTADÍSTICA PARA INGENIEROS

EJERCICIOS PROPUESTOS:
1).- Probar que si A y B son independientes, entonces, Ac y Bc también son independientes.

2).- Probar que: P(B/A) = 1- P(Bc /A).

3).- Supongamos que A₁,A₂,..... son eventos. Probar la desigualdad de Bonferroni:

    P(A1ˆA2ˆ.....)t1Ͳ{P(Ac1)+P(Ac2)+....}

4). Se enumera los vértices de un tetraedro regular con los números 1, 2, 3, 4. Se lanzan 5 tetraedros,
¿cuál es la probabilidad de que la suma de los vértices superiores sea 12?

5).- En una urna hay 3 fichas rojas y X negras. De la urna se sacan al azar dos fichas de una en una y sin
reposición. Si la probabilidad de sacar una ficha roja en la segunda extracción es 6/10, hallar el
número de fichas negras que existen en la urna al empezar el experimento.

6).- Si se echan 'n' bolas en 'k' cajas de modo que cada bola tenga igual probabilidad de caer en cualquiera
de las cajas, ¿cuál es la probabilidad de que una caja determinada contenga 'm' bolas?

7).-. Se tiene dos monedas: una homogénea y otra no. Con esta última se obtiene frecuentemente tres
veces más caras que sellos. Se le pide a una persona que elija una de las dos monedas al azar. Luego,
al lanzarla `n' veces se obtiene sólo sellos. La Probabilidad de que se haya seleccionado la moneda
no homogénea es 128/129. ¿Cuántas veces se lanzó la moneda?

8). El cuadro presenta información acerca del número de empleados de 150 empresas. Si se dispone de
un listado de las 150 empresas y se selecciona una de ellas al azar, ¿cuál es la probabilidad de que
esta empresa posea un número mayor a 12 y menor a 23 empleados?. Se dice que una empresa
con menos de 25 empleados es pequeña. ¿Cuál es la probabilidad de seleccionar una empresa de
calzado pequeña si se sabe que el 9% de las empresas son de calzado?

Número de
Número de Empleados
Empresas
 0 . 10  5
 10 . 20  20
 20 . 30  35
 30 . 40  40
 40 . 60  50

9). Simular el lanzamiento de 2 dados 1500 veces y obtener una muestra de tamaño 10, 50, 100 y 500
(asistido con SPSS). Para la muestra de tamaño 100:
¿Cuál es la probabilidad de que el resultado de los 2 dados sea igual?
¿Cuál es la probabilidad de que la suma de dichos resultados sea mayor a?
Capítulo 9 : Probabilidades 201

Estudie, a partir de las muestras obtenidas, las probabilidades a posteriori de todos los posibles
resultados del experimento y compárelo con la probabilidad apriorística o teórica.
Finalmente, pruebe si los dados estaban cargados.

Sugerencia:
Para generar los lanzamientos de los dados utilice la composición RND(RV.UNIFORM(0.5, 6.5)), del
SPSS.

10). Cruzar las variables Venta de bebidas, Edad, Sexo Estado Civil, Grado de Instrucción y Turno. Luego
interprete las probabilidades simples, condicionales e independencia. Ejemplo de Crosstabulation
(Venta de bebidas con Edad).

11). Demostrar:

a).- Sí P(A/B) = 1 entonces P(ABC)=P(BC) para todo evento C

b).- Supongamos que A1,A2,..... son eventos. Probar la desigualdad de Boole.

P(A1A2.....)  P(A1) + P(A2 ) + ....

12). Se enumera los vértices de un tetraedro regular con los números 1, 2, 3, 4. Se lanzan 5 tetraedros.
¿Cuál es la probabilidad de que la suma de los vértices superiores sea un número no mayor a 17?

13). Se lanzan 6 bolas en 3 cajas de modo que cada bola tenga igual probabilidad de caer en cualquiera
de las cajas. ¿Cuál es la probabilidad de que las tres cajas queden ocupadas?

14). En la tabla de frecuencias de bebidas los valores de venta representan la marca de clase. Si se dispone
de un listado de los 60 compradores y se selecciona uno de ellos al azar, ¿cuál es la probabilidad de
que este comprador gaste más de 2.20 y menos de 3.60 soles? Se dice que un comprador con
menos de 3.5 soles en gasto es un comprador pequeño. ¿Cuál es la probabilidad de seleccionar un
comprador de Gaseosas pequeño si se sabe que el 9% de las empresas son de Gaseosas?
202 ESTADÍSTICA PARA INGENIEROS

15). Demostrar: Sí P(A/B) = 1 entonces P(ABC)=P(BC) para todo evento C.

16). Se sabe que de 12 partidas de ajedrez jugadas por A y B, A ganó 6, B ganó 4 y 2 empataron. Acuerdan
jugar un torneo consistente en 3 partidas. Hallar la probabilidad de que: A gane las tres partidas, dos
partidas terminen empates, A y B ganen alternativamente, B gane al menos una partida.

17). Se enumera los vértices de un tetraedro regular con los números 1, 2, 3, 4. Se lanzan 5 tetraedros,
¿Cuál es la probabilidad de que la suma de los vértices superiores sea un número no mayor a 17?

18). Si se echan 'n' bolas en 'k' cajas de modo que cada bola tenga igual probabilidad de caer en cualquiera
de las cajas, ¿cuál es la probabilidad de que una caja determinada contenga 'm' bolas?

19). Un usuario de cierta base de datos puede ser de la empresa A con probabilidad 0.7 ó bien de la
empresa B. Además un usuario puede acceder al grupo de datos numéricos con probabilidad 0.4.
También se sabe que la probabilidad de que un usuario sea de la empresa A y acceda al grupo de
datos numéricos es 0.2. ¿Cuál es la probabilidad de que un usuario sea de la empresa B y no acceda
al grupo de datos numéricos?

20). Un ensamblador de computadoras usa partes de 3 proveedores A, B, y C; de 1000 partes recibidas


500 provienen de A, 300 de B y el resto de C. De experiencias pasadas el ensamblador sabe que las
partes defectuosas que provienen de A, B y C, son respectivamente 6%, 8% y 10%. Si se elige un
componente al azar:
¿Cuál es la probabilidad de que resulten defectuosas?
Si resultan defectuosas, ¿de que proveedor es más probable que provengan?

21). El siguiente cuadro muestra la distribución del personal de cierta empresa.

Si se selecciona al azar un trabajador de esta empresa, ¿cuál es la probabilidad de que sea hombre?
¿Cuál es la probabilidad de que sea hombre dado que es un trabajador profesional? ¿Es independiente
el tiempo de servicio y el sexo de los trabajadores? ¿Por qué?

Persona Personal no
Profesional profesional
Menores de 5 años en la empresa
Hombres 10 2
Mujeres 20 18
5 años o más en la empresa
Hombres 32 8
Mujeres 138 12
Capítulo 9 : Probabilidades 203

22). Un inversionista en valores ha clasificado sus existencias de valores financieros de la siguiente


manera:

Valores Empresas
Industriales Públicas
Grandes Empresas

Precio Incrementado
4 1
Precio Disminuido
8 7

Pequeñas Empresas

17 3
Precio Incrementado
55 5
Precio Disminuido

En esta cartera de valores:

Si un valor financiero fuera seleccionado al azar, ¿cuál es la probabilidad de que sea uno de los
que han incrementado su precio? ¿Qué tipo de probabilidad es ésta (simple, conjunta, marginal o
condicional)?

¿Cuál es la probabilidad de que sea un valor financiero cuyo precio se ha incrementado dado que es
una gran empresa industrial? ¿Qué tipo de probabilidad es ésta?

¿Es independiente el tamaño de la empresa del comportamiento de los precios? ¿Por qué?

23). Un niño seleccionado al azar en una escuela del sistema comunitario viene de una familia con bajos
ingresos el 30% de las veces. De los niños de una comunidad de familias con bajos ingresos se gradúan
en una universidad sólo el 10%. Los niños que no vienen de comunidades con bajos ingresos tienen
una probabilidad de 40% de graduarse en una universidad. Se están revisando solicitudes de empleo
y la primera solicitud tiene título universitario. ¿Cuál es la probabilidad de esa persona provenga de
una familia con bajos ingresos?

24). En la figura, la probabilidad que la i-ésima llave del circuito esté cerrada (dejando pasar la corriente)
es Pi =1/6 para i = 1,2,3,4,5. Si todas las llaves se cierran o abren independientemente, ¿cuál es la
probabilidad de que la corriente pase de M a N para el respectivo circuito?
204 ESTADÍSTICA PARA INGENIEROS

25). En la UNI existen tres libros de Estadística: A, B, y C. Si el 30% de los alumnos lee A, el 20% lee B y el
15% lee C, el 12% lee A y B, el 9% A y C, el 6% B y C y finalmente 3% leen A, B y C. Hallar:

a) El % de alumnos que leen al menos uno de los 3 libros.


b) El % de alumnos que leen B ó C pero no A.
c) El % de alumnos que leen A o bien, no leen B ni C.

26). En la figura, la probabilidad que la i-ésima llave del circuito esté cerrada (dejando pasar la corriente)
es Pi =1/6 para i = 1,2,3,4,5. Si todas las llaves se cierran o abren independientemente, ¿cuál es la
probabilidad de que la corriente pase de M a N para el respectivo circuito?

SUGERENCIA PARA LOS EJERCICIOS DE LABORATORIO:


(1) Generar una serie de 1 a 1500 en EXCEL e importarlo a SPSS. (2) Generar el lanzamiento de los
dados. Como el resultado obtenido en un dado es independiente del otro, podemos generar el resultado
de cada dado independientemente haciendo uso de la sugerencia. (3) Seleccionar las muestras, para
ello utilizar Data...Select Cases...Random Sample of Cases. (4) Para calcular las probabilidades es
fundamental organizar los resultados en una tabla de doble entrada con todos los posibles resultados,
para ello, hacer Statistics...Summarize...Crosstabs. Para probar si los dados están cargados, habrá que
tomar una muestra lo suficientemente grande 500 o, en todo caso, las 1500 realizaciones y obtener una
distribución de frecuencias y/o un histrograma de los resultados obtenidos al lanzar un dado, es decir,
mediante Statistics...Summarize...Frecuencies. El histograma mostrará barras de similar tamaño, lo que
no ocurrirá en muestras pequeñas como es el caso de la muestra de tamaño 10 y 50.
CAPÍTULO

10 Variables Aleatorias
Discretas

Una función de valores reales definida sobre el espacio muestral se denomina variable aleatoria. Variable
porque toma distintos valores y aleatoria porque el valor observado no puede ser predicho antes de la
realización del experimento, aunque sí se sabe cuáles son sus posibles valores.

Ejemplo, al arrojar un dado dos veces podríamos estar interesados sólo en la suma de los puntos
obtenidos y no en el par de valores que dio origen a ese valor de la suma. Al realizar un experimento
generalmente estamos interesados en alguna función del resultado más que en el resultado en sí mismo.

Dado que el valor de una variable aleatoria (v.a.) es determinado por el resultado del experimento,
podremos asignar probabilidades a los posibles valores o conjuntos de valores de la variable.

Definición: sea Ω un espacio muestral asociado con un experimento aleatorio, una variable aleatoria X es
una función que asocia a cada elemento w € Ω un número real X(w)=x, es decir. X: Ω → R

Como se observa, en general representaremos a las v.a. con letras mayúsculas: X, Y, Z, etc., y sus valores
con letras minúsculas; es decir X(w)=x significa que x es el número real asociado al resultado w € Ω a
través de X.

Ejemplos 1:
Se arroja dos veces un dado equilibrado. Un espacio muestral asociado es:

Ω ={ ( x1, x2 ) / xi €{1,2,3,4,5,6}}

Posibles v.a. asociadas con este experimento pueden ser:

X: número de caras impares de los dados.


Y: puntaje máximo de uno de los dados.
Z: suma de puntos de los dados.

Entonces, X(w)=x (función asociada al experimento) resultante es:

X((2,5)) = 1
X((1,3)) = 2
X((2,2)) = 0

Y((2,6)) = 6
Y((1,5)) = 5
Y((3,3)) = 3
206 ESTADÍSTICA PARA INGENIEROS

Z((3,5)) = 8
Z((2,3)) = 5
Z((2,1)) = 3

Ejemplo 2:
Se lanza una moneda 5 veces.
Entonces, X(w)=x (función asociada al experimento) resultante es:

Ejemplo 3:
Se arroja una moneda hasta que se obtiene el primer sello.

Entonces, X(w)=x (función asociada al experimento) resultante es:


X: número de lanzamientos de la moneda

Ejemplo 4:
A partir del instante en que se intenta la conexión a un servidor, se registra el tiempo que demora en
concretarse la misma.
X: tiempo requerido para la conexión.

Los ejemplos 1, 2 y 3 las v.a. toman un número finito o infinito numerable, mientras que en el ejemplo
4 la v.a. X toma valores en un conjunto infinito no numerable, el intervalo (0, ∞) o un intervalo (0, t) si
existe un tiempo máximo.

Notación: el conjunto de valores posibles de la v.a. X, se denomina rango de la v.a. X, y se denota con RX.

En los ejemplos anteriores:

Ejemplo 1:

RX = {0,1,2}
RY = {1,2,3,4,5,6}
RZ = {2,3,4,5,6,7,8,9,10,11,12}

Ejemplo 2:
RX = {0,1}

Ejemplo 3:
RX = {1,2,3,...}

Ejemplo 4:
RX = (0,∞) ó (0,t)
Capítulo 10 : Variables Aleatorias Discretas 207

VARIABLE ALEATORIA DISCRETA SOLO TOMA VALORES ENTEROS


Definición:
Una v.a. es discreta si toma un número finito o infinito numerable de valores (sólo pueden tomar valores
enteros).

Ejemplo: en el caso del ejemplo 1, ¿cómo calcularíamos la probabilidad de que la v.a. suma de las
puntuaciones tome el valor 7, suponiendo que los lanzamientos son independientes?

Solución:
Z: suma de las puntuaciones tome el valor 7

P(Z 7) P^(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)` 6


36
1
6


El espacio muestral (Ω) del lanzamiento de dos dados está representado en el cuadro siguiente:

DADO2
DADO1
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

La tabla siguiente representa las frecuencias bidimensionales del lanzamiento de dos dados:

DADO2
DADO1 Total
1 2 3 4 5 6
1 1 1 1 1 1 1 6
2 1 1 1 1 1 1 6
3 1 1 1 1 1 1 6
4 1 1 1 1 1 1 6
5 1 1 1 1 1 1 6
6 1 1 1 1 1 1 6
Total 6 6 6 6 6 6 36
208 ESTADÍSTICA PARA INGENIEROS

FUNCIÓN DE PROBABILIDAD PUNTUAL O DE MASA DE LA V.A. DISCRETA X

Definición: la función de probabilidad puntual o de masa de la v.a. discreta X, se define para todo x como:

Px (x)= P( X= x)= P({w € Ω / X(w)=x})

Propiedades de la función de probabilidad puntual

Se cumplen las siguientes propiedades:



1.px(x)>0Vx

2. ¦ p ( x)
xHR x
x 1

La función de probabilidad puntual de una v.a. X nos dice cómo se distribuye la probabilidad total entre
los distintos valores de X, y se determina a partir de la probabilidad de los sucesos asociados a cada valor
de X.

Ejemplo 1:
Hallar la función de probabilidad puntual de la v.a. X: número de caras pares al arrojar dos veces un dado
equilibrado.

Hallando el rango de X: RX = {0,1,2}.

Para, x=0:

Los pares sombreados de la tabla muestran los valores cuando el número de caras pares es ‘cero’ (ocurre
cuando los resultados de los dados son impares).

DADO2
DADO1
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Para,x=1:
px(1)=P(X=1)=18/36=1/2=0.5

Los resultados obtenidos para el valor de x podemos resumirlo en una tabla de la forma:
Capítulo 10 : Variables Aleatorias Discretas 209

Los pares sombreados de la tabla muestra los valores, cuando el número de caras pares es ‘uno’ (ocurre
cuando un resultado es par y el otro impar).

DADO2
DADO1
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)


Para, x=2:
p x(2)= P( X=2)=9/36=1/4 =0.25

Los pares sombreados de la tabla muestra los valores cuando el número de caras pares es ‘dos’ (los
resultados en ambos casos son números pares).

DADO2
DADO1
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Los resultados obtenidos para el valor de x podemos resumirlo en una tabla de la forma:

X 0 1 2
PX X 0.25 0.5 0.25

Mediante un gráfico en el cual para cada valor de x se construye una barra o un rectángulo centrado en
x, cuya altura es proporcional a pX(x).
210 ESTADÍSTICA PARA INGENIEROS

FUNCIÓN DE DISTRIBUCIÓN ACUMULADA DE UNA V.A. DISCRETA X


Definición: la función de distribución acumulada de una v.a. discreta X con función de probabilidad
puntual pX(x) se define para todo x € R, como:

Fx ( x) P ( X d x) ¦ P ( y) 
y d x , yHR x
x

Es decir que Fx(x) es la probabilidad de que la v.a. X tome valores menores o iguales que x.

Ejemplo: volviendo al ejemplo 1, hallemos la función de distribución acumulada de la v.a. X, cuya función
de probabilidad puntual es:

X 0 1 2
PX X 0.25 0.5 0.25

Si x < 0 Fx(x)=P(X≤x)= 0
x=0 Fx(0)=P(X≤0)= px(0) = 1/4 = 0.25
0<x<1 Fx(x)=P(X≤x)= px(0) = 1/4 = 0.25
x=1 Fx(1)=P(X≤1)= px(0) + px(1) = 1/4+1/2 = 3/4 = 0.75
0<x<2 Fx(x)=P(X≤x)= px(0) + px(1) = 1/4+1/2 = 3/4 = 0.75
x=2 Fx(2)=P(X≤2)= px(0) + px(1) + px(2) = 1/4+1/2+1/4 = 1
x>2 Fx(2)=P(X≤2)= px(0) + px(1) + px(2) = 1/4+1/2+1/4 = 1
Capítulo 10 : Variables Aleatorias Discretas 211


­0 si x  0
°
°1 / 4 si 0 d x  1
Fx ( x) ® 
°3 / 4 si 0 d x  2
°1 si x t 2
¯

¿Cómo es FX (x)?
Observamos que se trata de una función escalera, no decreciente que toma valores entre 0 y 1.

Propiedades de la función de distribución acumulada:



Vx€R,Fx(x)€[0,1].

Fx(x)esmonótonanodecreciente,esdecirquesix1<x2entoncesFx(x1)<Fx(x2)
Fx(x)escontinuaaderecha,esdecir lim h o 0  F x( x  h) F x( x ) 

lim x o f F x( x) 1 y lim x o f F x( x) 0
Encadapuntox, p x ( x) F x( x)  F ( x ) 


Donde:x lim h o 0  ( x  h)) eslímiteporlaizquierda.


Ͳ


EnparticularsiXtomavaloresx1<x2<…..,entonces p x ( x ) F x( xi )  F ( x i 1) paratodoi
ш2 px ( x ) F x( x1 ) 

Proposición de la función de distribución acumulada::

Sean a y b tales que a ≤ b, entonces:

P(a< x ≤b) = Fx(b) – Fx(a)


P(a≤ x ≤b) = Fx(b) – Fx(a-)
P(a< x <b) = Fx(b-) – Fx(a)
P(a≤ x <b) = Fx(b-) – Fx(a-)
212 ESTADÍSTICA PARA INGENIEROS

ESPERANZA O VALOR ESPERADO DE UNA V.A. DISCRETA

Sea X una v.a. discreta que toma valores en RX con función de probabilidad puntual pX(x), la esperanza o
valor esperado de X se define como:

E ( x) Px ¦ xP ( x) 
xHR x
x

Siempre que
¦
H
x P ( x)  f . Si la serie de los valores absolutos diverge, la esperanza no puede
x Rx
x

definirse y decimos que no existe.

Ejemplos 1:
Sea X ‘número de caras pares al arrojar dos veces un dado equilibrado’,
como:
X 0 1 2
PX X 0.25 0.5 0.25

Solución:

E ( x) Px ¦ xP ( x)
xHR x
x 0(0.25)  1(0.5)  2(0.25) 1 

Ejemplo 2:
Sea X una v.a. que toma sólo dos valores que designaremos 1 (éxito) y 0 (fracaso) con la siguiente función
de probabilidad puntual:

X 0 1
PX X P 1P

Solución:
Siendo 0 < p < 1. Entonces E(X) =0(p) + 1 (1−p) =1-p

Ejemplo 3:
Veamos un ejemplo en que no existe E(X). Sea X una v.a. con la siguiente función de probabilidad puntual:

­ 6
° 2 2 si xHN
Fx ( x) ®– x 
°0 otro caso
¯
Capítulo 10 : Variables Aleatorias Discretas 213

Solución:
En primer lugar, observemos que pX(x) es una función de probabilidad puntual, ya que

6 6 1 6 § –2 ·
¦ Px ( x)
xHR x
¦H –
x N
2
x2
( ¦ ) ¨ ¸ 1
– 2 xHN x 2 – 2 ¨© 6 ¸¹

Por lo tanto, la suma de las probabilidades es 1.

Calculando la esperanza de X:
f
§ 6 ·
E ( x) ¦ x¨© –
i 1
2 ¸
x ¹ 2
f

Interpretación de la esperanza:
E(X) es el centro de gravedad de la función de probabilidad puntual. Es decir, si imaginamos que sobre
cada valor posible de X, xi, colocamos una masa pX(xi), el punto de equilibrio del sistema es E(X). En este
sentido, podemos decir que E(X) es una medida del “centro” de la distribución.

ESPERANZA DE UNA FUNCIÓN

Proposición: Si X es discreta y toma valores x₁, x₂, ....., entonces h(X) es discreta con valores y₁, y₂, ....,
siendo yj = h(xi) para al menos un valor de i.

Proposición: Si la v.a. X tiene función de probabilidad puntual pX(x) para todo xRX, entonces la esperanza
de cualquier función real h(X), está dada por:

E (h( x)) ¦ h( x ) P ( x ) 
xHR x
x

Siempre que ¦ h( x) P ( x)  f . Si la serie de los valores absolutos diverge, la esperanza no puede


xHR x
x

definirse y decimos que no existe.

Ejemplo:
Sea la v.a. X: número de paquetes de programas contratado por un cliente seleccionado al azar,
consideremos su función de probabilidad puntual:

X 1 2 3 4 5
PX X 0.375 0.275 0.175 0.100 0.075

Supongamos que el costo del servicio (Y) es función del número de paquetes contratado, según la
siguiente fórmula:

Y = 30 (X +1)
214 ESTADÍSTICA PARA INGENIEROS

¿Cuál es el valor esperado del costo pagado por cliente? Es decir, ¿cuál es E(Y)?

A partir de la función de probabilidad puntual de X, podemos obtener la función de probabilidad de Y ya


que, por un lado RY = {60,90,120,150,180} y, por ejemplo, P(Y=120)=P(X=3)=0.175. Entonces:

Y 60 90 120 150 180


PY Y 0.375 0.275 0.175 0.100 0.075

E(Y) = 60(0.375) + 90(0.275) +120(0.175) +150(0.109 +180(0.075) = 96.75.

PROPIEDADES DE LA ESPERANZA

SiaesconstanteE(a)=a
SiaesconstanteE(aX)=aE(X)

E(XrY)=E(X)rE(Y)
E(g(X))=¦g(x)p(x)

SiXyYsonindependientesentoncesE(XY)=E(X)E(Y)=PXPY

Linealidad:Siaybsonconstantesreales,E(aX+b)=aE(X)+b.

SiXesunav.a.talqueP(X=c)=1,entoncesE(X)=c.


VARIANZA DE UNA V.A. DISCRETA


Definición: sea X una v.a. discreta con función de probabilidad puntual pX(x) y esperanza μX, la varianza
de X, que se denotará V(X), σ² X ó σ², es:

V ( x)) V x2 ¦ (x  P ) x
2
Px ( x) >
E ( x  P x )2 @ 
H
x Rx

E ( x 2 )  E ( x ) 
2
V ( x))

La desviación estándar de X es la raíz cuadrada de la varianza V(X).

Ejemplo:
Consideremos las siguientes funciones de probabilidad:

X 2 3 4
PX X 1/3 1/3 1/3

Solución:

V(X)=(2-3)2(1/3)+(3-3)2(1/3)+ (4-3)2(1/3)=2/3
Capítulo 10 : Variables Aleatorias Discretas 215

PROPIEDADES DE LA VARIANZA Y DEL DESVÍO ESTÁNDAR


Si a y b son constantes:

a. V(a)=0
b. V(aX)=a2V(X)
c. V(XrY)=V(X)+V(Y)siXyYsonindependientes
d. V(aX+bY)=a2V(X)+b2V(Y)+2abCov(XY)
DondeCov(XY)=E((XͲPX)(YͲPY))=E(XY)ͲPXPY
e. V(aX+b)=a2V(X)

La desviación estándar de la variable aleatoria X es la raíz cuadrada positiva de la varianza, es decir,

ʍ= V X .
Ejercicio: :
:
Experimento aleatorio: se lanza una moneda 3 veces = {ccc, ccs, csc, css, scc, scs, ssc, sss }

Sea X: número de caras observadas

X 0123
p(x) 1 3 3 1
8 8 8 8
La distribución anterior es una distribución de probabilidades para la variable aleatoria X, en efecto
0  p(x)  1 para todo x (x = 0, 1, 2 y 3) y además ¦ p x 1 . Para determinar la distribución
acumulada de probabilidad observe que: x

P(X d 0)=P(X=0)= 1 
8
P(X d 1)=P(X=0)+P(X=1)= 1 + 3 = 1 
8 8 2
P(X d 2)=P(X=0)+P(X=1)+P(X=2)= 1 + 3 + 3 = 7 
8 8 8 8
P(X d 3)=P(X=0)+P(X=1)+P(X=2)+P(X=3)= 1 3 3 1
8 + 8 + 8 + 8 =1


Se tiene entonces:

X 0123
F(x) 1 1 7 1
8 2 8

Si X es una variable aleatoria y el experimento aleatorio que determina el valor de X se repite muchas
veces, entonces se obtiene una secuencia de valores para X.

A partir de esta secuencia de valores se puede identificar el valor promedio o valor esperado de la
variable aleatoria X, que denotamos E X ,, y se define en la forma siguiente:
216 ESTADÍSTICA PARA INGENIEROS

Para el ejemplo dado,

E X = 0 p 0  1p 1  2 p 2  3 p 3 
1 3 3
=  0 .  1.  2 .  3.
1 12 3

8 8 8 8 8 2

Aveces, el interés es determinar la variabilidad de la variable aleatoria. Definimos entonces la varianza


de la variable aleatoria X, denotada V X ,óʍ2

Paraelejemplodado,
= 0 p 0  1 p 1  2 p 2  3 p 3 
 E X

2 2 2 2 2

1 3 3 1 24
= 0 .  1.  4 .  9 . 3
 8 8 8 8 8
Entonces,
2
§3· 12  9 3
 V X = 3  ¨ ¸ 
©2¹ 4 4

VARIABLES ALEATORIAS CONTINUAS


Definición: una v.a. X es continua si existe una función
f:ԸїԸ+=[0,ь).

FUNCIÓN DE DENSIDAD DE LA V.A. CONTINUA X


Llamada función de densidad de la v.a. X, tal que:

P ( xHA) ³ f ( x)dx
A
A Ž R 


Ademássecumple:

³ f ( x)dx
Rango
1     


Enparticular,siA=[a,b],entonces:
b
 P ( a d x d b) ³ f ( x)dx 
a

Y P ( x a) P (a d x d a ) 0 aHR 
Capítulo 10 : Variables Aleatorias Discretas 217

Ejemplo: Con el fin de realizar un control de calidad en una fábrica de baterías, se mide el tiempo de
duración de baterías elegidas al azar y se define la v.a.
X: tiempo de duración de una batería.

La v.a. X es esencialmente continua, siendo su rango el intervalo real [0,∞). Pero supongamos que
medimos la duración de la batería en días, es decir ‘discretizamos’ el rango de la v.a. y se convierte en
N₀ = N {0}. Por tratarse de una v.a. discreta, su función de probabilidad puntual puede representarse
mediante un histograma con área total igual a 1. Si medimos la duración en horas, obtenemos un
histograma con mayor número de intervalos de menor longitud cada uno, pero que sigue teniendo área
total igual a 1.

Si continuamos aumentando la precisión de la medición (minutos, segundos, décimas de segundo, etc.),


obtenemos como límite de los histogramas una curva suave, y la probabilidad de que la duración de la
batería se encuentre entre dos valores a y b (a<b) estará dada por el área bajo la curva entre a y b.

Propiedad función de densidad continua:


Para que una función f(x) sea una función de densidad, debe satisfacer:

f(x)>0‫׊‬x‫א‬R
f

³ f ( x)dx
f
1

Observación: Nota que f(x) no es una probabilidad, de hecho puede ser mayor que 1. Es simplemente el
valor de una función en un punto.

Ejemplo:
Sea f(x) una función de densidad:

­°ax 2 si 1 d x d 3
f ( x) ® 
°̄0 otro caso
Encontrar otra forma de definir f(x), calcular el valor de a y hallar la P(x≥2)
218 ESTADÍSTICA PARA INGENIEROS

Solución:

a) Otra forma de expresar la densidad es f ( x) ax 2 I >1,3@( x) 

Donde la función Ia se define como:

­°1 si x  A
I A ( x) ® 
°̄0 si x  A

b) Calcular el valor de la constante:



f 3
x3 3 26 3
³
f
f ( x)dx 1 œ ³ ax 2 dx 1 œ a
1
3 1
1œ a
3
1œ a
26


c) Calcular P(X ≥ 2):


3
3 2 3 x3 3 27  8 19
P( x t 2) ³2 26 x dx 26 3 1
26 26


LA FUNCIÓN DE DISTRIBUCIÓN ACUMULADA CONTINUA


Definición: La función de distribución acumulada de una v.a. continua X con función de densidad f(x) se
define para todo x € R, como:

Ejemplo: En el ejemplo anterior, obtengamos la función de distribución acumulada de la v.a. X.


x x
SiX<1  F ( x) P ( X t x) ³ f (t )dt ³ 0dt
f f
0

3 2 3 t3 x3  1
x x
 F ( x) P( X t x) ³ f (t )dt ³1 26 t dt
x
Si1чXч3 
f
26 3 1
26
3
3
x

³ ³ 26 t dt
2
SiX>3  F ( x) P( X t x) f (t )dt 1
f 1

Entonces la función de distribución acumulada es:



­0 si x  1
° 3
° x 1
F ( x) ® si 1 d x d 3 
° 26
°1 si x ! 3
¯
Capítulo 10 : Variables Aleatorias Discretas 219

Graficando la función se tiene:

Observamos que se trata de una función continua, no decreciente, que toma valores entre 0 y 1.

Propiedades de la función de distribución acumulada


Sea X una v.a. continua:

x Vx€R,Fx(x)€[0,1].
x Fx(x)esmonótonanodecreciente,esdecirquesix1<x2entoncesFx(x1)<Fx(x2).
x Fx(x)escontinuaentodopunto.
x lim x o f F x( x) 1 y lim x o f F x( x) 0

Proposición de la función de distribución acumulada

Sean a y b tales que a ≤ b, entonces:



P(a<xчb)=P(aчxчb)=P(a<x<b)=P(aчx<b)=Fx(b)–Fx(a)

Demostración: Resulta inmediatamente del hecho que, si X es continua, P(X= x) = 0

Proposición: Si X es una v.a. continua con función de densidad f(x) y función de distribución acumulada
F(x), entonces en todo punto donde F(x) es derivable:

dF ( x)
F ´' ( x) f ( x) 
dx
Demostrar utilizando el Teorema Fundamental del Cálculo Integral y de la definición de F(X).
220 ESTADÍSTICA PARA INGENIEROS

ESPERANZA O VALOR ESPERADO DE UNA V.A. CONTINUA


Si X es una v.a. continua con función de densidad f(x). La esperanza de una función se calcula de la forma
siguiente:

E ( x) ³ xf ( x)dx 
PROPIEDADES DE LA ESPERANZA CONTINUA
SiaesconstanteE(a)=a
SiaesconstanteE(aX)=aE(X)
E(XrY)=E(X)rE(Y)
E(g(X))=¦g(x)p(x)
SiXyYsonindependientesentoncesE(XY)=E(X)E(Y)=PXPY
Linealidad:Siaybsonconstantesreales,E(aX+b)=aE(X)+b.
SiXesunav.a.talqueP(X=c)=1,entoncesE(X)=c.


VARIANZA DE UNA V.A. CONTINUA


Definición: Sea X una v.a. continua con función de probabilidad puntual pX(x) y esperanza μX, la varianza
de X, que se denotará V(X), σ²X ó σ², es:

V ( x)) V x2 ¦ (x  P ) x
2
Px ( x) >
E ( x  P x )2 @ 
H
x Rx

E ( x 2 )  E ( x ) 
2
V ( x))

La desviación estándar de X es la raíz cuadrada de la varianza V(X).

Propiedades de la varianza y del desvío estándar

Si a y b son constantes:

a. V(a)=0
b. V(aX)=a2V(X)
c. V(XrY)=V(X)+V(Y)siXyYsonindependientes
d. V(aX+bY)=a2V(X)+b2V(Y)+2abCov(XY)
DondeCov(XY)=E((XͲPX)(YͲPY))=E(XY)ͲPXPY
e. V(aX+b)=a2V(X)

La desviación estándar de la variable aleatoria X es la raíz cuadrada positiva de la varianza, es decir,

ʍ= V X .
Capítulo 10 : Variables Aleatorias Discretas 221

ESPERANZA DE XK
EsperanzadiscretaXK


E(xk ) Px ¦
H
x P ( x) 
x Rx
k
x


EsperanzacontinuaXK


E( xk ) ³x f ( x)dx 
k

EJERCICIO 1:
Para la siguiente función de probabilidad:

­6 x(1  x) ,0  x  1
°
f ( x) ®
°0 otro caso
¯
Calcular: P(- x +)

Solución:
 1 1 1
  ª 3 3 4º 1
P E ( x) ³ ³ 6( x
2 3
x6 x(1  x)dx  x )dx «2 x  2 x »

0 0 ¬ ¼0 2


E ( x 2 )  E ( x)
2
V
2

 
 1 1
 ª3 4 6 5º 3 1

Ÿ E( x2 ) ³
0
x 2 6 x(1  x)dx «¬ 2 x  5 x »¼ 10
ŸV2
20
0

Se pide:
 0.7236

P(PͲVxP+V)=P(0.2763x0.7236)

³ 6 x((1  x)dx
0.2763
0.6262

EJERCICIO 2:
Sea la variable aleatoria continua X, con fdp f(X) simétrica respecto a `c`. Si el valor medio existe mostrar
que E(x)=c

Solución :
222 ESTADÍSTICA PARA INGENIEROS

 f c f
E ( x  c )
 ³ ( x  c ) f ( x ) dx
f
³ ( x  c ) f ( x ) dx  ³ ( x  c ) f ( x ) dx
f c


Si z xc
 0 f f f

 Ÿ E (z) ³ zf ( z  c ) dz  ³0 zf ( z  c ) dz  ³ zf (  z  c ) dz  ³ zf ( z  c ) dz
 f
0
0

 Simétrica
f f

 ³ zf ( z  c ) dz  ³ zf ( z  c ) dz M

0 0

Ÿ E ( x  c) 0 

? E ( x) c 


FUNCIÓN GENERADORA DE MOMENTOS (FGM)


Definición: Si X es una variable aleatoria, el momento de orden k de X se define como E(X k) siempre que
la esperanza exista.

Notemos que:

E(X ) = μ 1er. momento: posición.


E(X 2) =σ2 + μ2 2do. momento: dispersión.
E(X 3) 3er. momento: relacionado con una medida de asimetría.
E(X 4) 4to. momento: relacionado con la kurtosis.

Definición (fgm): sea x una v.a. con densidad f(X), se llama fgm de x al valor esperado de si este valor
existe para todo valor de ‘t’ en <-h²,h² >. La fgm se representa por:
f
E( e tx ) ³e
tx
mx ( t ) f ( x )dx v.a. continua  
f

mx ( t ) E( e tx ) ¦e x
tx
f ( x ) v.a. discreta 

Si fgm existe, m(t) es indefinidamente derivable. Si m(t) es derivada ‘r’ veces respecto a ‘t’ se obtiene:

f
dr
m x (t ) ³x e tx f ( x ) dx 
r

dt r f

y haciendo t=0, hallamos:


Capítulo 10 : Variables Aleatorias Discretas 223

PROPIEDADES FGM

a) Sicesunaconstanteentonces:
fgmdec+xes: e
ct
m x (t ) 

b) Sicesunaconstanteentonces:
fgmdecxes: m x (ct ), c z0

c) Sea x 2 ax1  b dondex1esunav.a.confgm m x1 (t ) .
Entonces, mx2 (t ) max1 b (t ) e bt mx1 (t ) 

Ejercicio 1:
Sea X una v. a. con función de densidad f(x), hallar su fgm tal que:

1  1 xP
2

f ( x) e 2 V 
2S V
Solución:
Variable aleatoria contínua.

mx (t ) E (etx ) 

1  1 xP
2

E (etx ) ³e
tx
e 2 V 
IR
2S V
§¨ x ( P V 2t ·¸
V 2t 2 1 © ¹

³IR 2S V
 Pt
E (e ) tx
e 2
e 2V 2



1
V 2t 2  Pt
E (e ) tx
e 2


Ejercicio 2:
Sea X una v. a. con función de densidad f(x), hallar su fgm tal que:
 
e  O Ox
f ( x) ;x 0,1,2... 
x!
Solución:
Variable aleatoria discreta.
224 ESTADÍSTICA PARA INGENIEROS

mx (t ) E (etx ) 

f
e  O Ox f
(e t O ) x
E (etx ) ¦ etx
X 0 x!
e O ¦
X 0 x!


O et O
E (e )
tx
e e 

E (etx ) ee O  O 
t

TEOREMA DE UNICIDAD
Si existe la función generadora de momentos de una variable aleatoria, es única. Además la función
generadora de momentos determina a la función de densidad o probabilidad de la v.a. salvo a lo sumo
en un conjunto de probabilidad 0.

A continuación, presentamos una tabla con la función generadora de momentos de algunas de las
familias de distribución que estudiaremos en siguiente capítulo:
Capítulo 10 : Variables Aleatorias Discretas 225

EJERCICIOS PROPUESTOS:
1. Sea X una v. a. con distribución de media  y desviación estándar . Calcular E(x³) y E(x⁴).

2. Una empresa saca al mercado cada sábado un nuevo producto, cuya demanda semanal en miles de
unidades es una variable aleatoria X con función de probabilidad:

X 1 2 3
P X=X 6/16 6/16 4/16

El costo de producción semanal tiene un costo base fijo de $5000 y un costo variable de $1 por
unidad producida. La empresa recibe $8 por unidad vendida. Lo que no se vende durante la semana
se descarta sin pérdida alguna. Calcular la ganancia esperada de la empresa si cada semana produce
2000 unidades nuevas.

3. Sea X una variable aleatoria con Distribución Beta, hallar la media y varianza:

(D  E  1)! D
f ( x) x (1  x) E
D! E !

4. Una empresa saca al mercado cada sábado un nuevo producto, cuya demanda semanal en miles de
unidades es una variable aleatoria X con función de probabilidad.

X 1 2 3
P X=X 6/16 6/16 4/16

El costo de producción semanal tiene un costo base fijo de $5000 y un costo variable de $1 por
unidad producida. La empresa recibe $8 por unidad vendida. Lo que no se vende durante la semana
se descarta sin pérdida alguna. Calcular la ganancia esperada de la empresa si cada semana produce
2000 unidades nuevas.

5. Para las siguientes funciones hallar la esperanza:



1 f ( x)
1
a) f ( x)  b)
 4 X2 1 X 2

6. Sea X una variable aleatoria con función de densidad:

­ k
° 2 si x k
2
f ( x) ® k x
°0 si x tk
¯
226 ESTADÍSTICA PARA INGENIEROS

7. Sea X una variable aleatoria con función de densidad f(x), hallar su fgm tal que:

e O Ox
f ( x) ;x 0,1,2..... 
x!

8 Sea X una variable aleatoria con función de densidad f(x), hallar su fgm tal que:

2
1 ª X P º
1  «
V »¼
f ( x) e 2¬
2SV
9 Sea X una v. a. con función de densidad f(x) y fgm mx(t)

d) Sicesunaconstantepruébesequelafgmdec+xes: e
ct
m x (t ) 
e) Sicesunaconstantepruébesequelafgmdecxes: m x (ct ), c z0
f) Sea x 2 ax1  b dondex1esunav.a.confgm m x1 (t ) ;entonces,
mx2 (t ) max1 b (t ) e bt mx1 (t ) 
CAPÍTULO

11 Distribuciones de
Probabilidad

Una distribución de probabilidad es un modelo matemático que asocia valores de una variable aleatoria
con sus respectivas probabilidades, es decir: Probabilidad de x = Función de x.

Las distribuciones se caracterizan por una fórmula que determina el tipo de distribución y por un conjunto
de parámetros, que son propios de cada espacio muestral. Existen dos tipos de distribuciones: discretas
y continuas.

DISTRIBUCIONES DISCRETAS
Son aquellas en las que la variable puede puede tomar un número determinado de valores. La distribución
puede describirse mediante una:

Función de probabilidad, que para cada valor de x de la variable X determina la probabilidad de ser
asumido: P( X= x) = p (x) ó bien por medio de una función de distribución de probabilidad acumulada o
simplemente.

Función de distribución, la que, para cada valor provee la probabilidad de no ser superado

P ( X d x) F ( x) ¦ p( x) 
Rango

Ademássecumple:

1).Ͳ ¦ p ( x) 1    

2).Ͳ E ( x ) ¦ xp( x, )  



E ( x 2 )  E ( x)
2
3).Ͳ Var ( x ) V2

Ejemplo:
Si se lanza una moneda al aire puede salir cara o cruz; si se tira un dado puede salir un número de 1 al 6;
en una ruleta el número puede tomar un valor del 1 al 32.
228 ESTADÍSTICA PARA INGENIEROS

LAS PRINCIPALES DISTRIBUCIONES DISCRETAS SON:

1.- Distribución de Bernouilli


Es aquel modelo que sigue un experimento que se realiza una sola vez y que puede tener dos
soluciones: éxito o fracaso:

­1 ,siocurreéxitoconprobabilidadp
x ® ,siocurrefracasoconprobabilidad1Ͳp=q
¯0

Función de Probabilidad:
­ p x q 1 x , si x 0,1
°
P ( x) P( X x) ®
°0 , en otro caso
¯
Bernouilli con Parámetro ‘p’, entonces:

E ( x) p
Var ( x) pq
Ejemplo 1:
Probabilidad de salir cara al lanzar una moneda al aire.

Solución:
Probabilidad de que salga cara: p = 0,5. Probabilidad de que no salga cara: q = 0,5. Entonces:
p + q = 0,5 + 0,5 = 1

Ejemplo 2:
Probabilidad de ser admitido en la universidad.

Solución:
Probabilidad de ser admitido: p = 0,25. Probabilidad de no ser admitido: q = 0,75. Entonces:
p + q = 0,25 + 0,75 = 1

2.- Distribuciones Binomial

La distribución binomial parte de la distribución de Bernouilli. Se aplica cuando se realiza ‘n’ veces el
experimento de Bernouiili, siendo cada ensayo independiente del anterior.

Donde:
x: número de éxitos en n ensayos.
n-x: fracasos.
Capítulo 11 : Distribuciones de probabilidad 229

p : probabilidad de éxito.
q = 1- p: probabilidad de fracaso.

La v.a. X tiene distribución binomial con parámetros n y p [x~ b (n, p)]. Si:

Su sunción de probabilidad es dado por:



­( ) p q , si x 0,1..n
n x n x 
° x

P ( x) P( X x) ® 
°0 , en otro caso
¯ 

Six~b(n,p)

E ( x) np
Var ( x) npq
Ejemplo 1:
Se tira una moneda 10 veces: ¿cuantas caras salen?

Solución:
Si no ha salido ninguna la variable toma el valor 0; si han salido dos caras la variable toma el valor 2;
si todas han sido cara la variable toma el valor 10.

Ejemplo 2:
¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces?

Solución :
X: es el número de aciertos.
Entonces x = 6
‘n’ es el número de ensayos.n=10.
‘p’ es la probabilidad de éxito, es decir, que salga ‘cara’ al lanzar la moneda. Por lo tanto p = 0,5




Luego, P (x = 6) = 0,205, es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10
veces una moneda.

Ejemplo 3: ¿cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado ocho
veces?

Solución:
X: (número de aciertos) toma el valor 4.
‘n’ toma el valor 8 y ‘p’ (probabilidad de que salga un 3 al tirar el dado) es 1 / 6 (= 0,1666). La fórmula
queda:
230 ESTADÍSTICA PARA INGENIEROS

Luego, P (x = 4) = 0,026; es decir, se tiene una probabilidad del 2,6% de obtener cuatro veces el
números 3 al tirar un dado 8 veces.

En el siguiente gráfico se muestra la función de probabilidad puntual correspondiente a la distribución


Binomial para distintos valores de p y n=10. Puede observarse cómo la distribución se simetriza a
medida que p tiende a 0.5. ¿Cómo serían los gráficos para valores de p>0.5?

En el siguiente gráfico se muestra la función de probabilidad puntual correspondiente a la distribución


Binomial para distintos valores de p y n.
Capítulo 11 : Distribuciones de probabilidad 231

3.- Distribución de Poisson

La distribución de Poisson parte de la distribución binomial: cuando en una distribución binomial se


realiza el experimento un número ‘n’ muy elevado de veces y la probabilidad de éxito ‘p’ en cada
ensayo es reducida, entonces se aplica el modelo de distribución de Poisson. Se tiene que cumplir
que: " p " < 0,10 y " p * n " < 10

Su función de probabilidad es dado por:



O
­e O x 
° , si x 0,1,2..... 
P ( x) P( X x) ® x! 
°0 , en otro caso 
¯
232 ESTADÍSTICA PARA INGENIEROS

SielparámetroO>0

E ( x) O
Var ( x) O
O
""=n *p (el número de veces ‘n’ que se realiza el experimento multiplicado por la probabilidad ‘p’
de éxito en cada ensayo), ‘x’ es el número de éxito cuya probabilidad se está calculando.
O
O
Ejemplo 1:
La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300
viajes, ¿cual es la probabilidad de tener 3 accidentes?

Solución:
Como ‘p’ es menor que 0,1, y el producto np <10, entonces aplicamos el modelo de distribución de
Poisson:




Luego, P (x = 3) = 0,0892. Por lo tanto, la probabilidad de tener 3 accidentes de tráfico en 300 viajes
es del 8,9%.

Ejemplo 2:
La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre 800
recién nacidos haya 5 pelirrojos?

Soluciòn:




Luego, P (x = 5) = 4,602. Por lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recién
nacidos es del 4,6%.

En el siguiente gráfico se muestra la función de probabilidad puntual correspondiente a la distribución


de Poisson para distintos valores de λ. Puede observarse cómo la distribución se simetriza alrededor
de λ a medida que este parámetro crece.
Capítulo 11 : Distribuciones de probabilidad 233

4.- Distribución Hipergeométrica

La distribución hipergeométrica es el modelo que se aplica en experimentos del siguiente tipo:

• La población a ser muestreada consiste de N elementos o individuos (población finita).


• Cada elemento o individuo puede ser clasificado como éxito o fracaso y hay ‘r’ éxitos en la
población.
• Se extrae de la población una muestra de n elementos o individuos, de forma tal que cualquier
subconjunto de tamaño n tiene la misma probabilidad de ser elegido.
• x es el la cantidad de éxitos en la muestra y (n-x) fracasos.

Sea X: número de éxitos en la muestra de tamaño n. Se dice que X tiene distribución Hipergeométrica
de parámetros n, N y r y se denotaX ~ H (n,N,r).

La distribución hipergeométrica tiene la siguiente.

Función De Probalidad:
­ ( rx )( nNxr )
P ( x) P( X x) ® N
¯ (n )

Sixv.a.~H(N,n, r )

r
E ( x) n
N
r N r N n
Var ( x) n
N N N 1
234 ESTADÍSTICA PARA INGENIEROS

Ejemplo:
En una urna hay bolas de dos colores (blancas y negras), ¿cuál es la probabilidad de que al sacar 2
bolas las dos sean blancas? Son experimentos donde, al igual que en la distribución binomial, en
cada ensayo hay tan sólo dos posibles resultados: o sale blanca o no sale. Pero se diferencia de la
distribución binomial en que los distintos ensayos son dependientes entre sí: si en una urna con 5
bolas blancas y 3 negras en un primer ensayo saco una bola blanca, en el segundo ensayo hay una
bola blanca menos por lo que las probabilidades son diferentes (hay dependencia entre los distintos
ensayos).

Donde:
N: es el número total de bolas en la urna.
r: es el número total de bolas blancas.
N- r: es el número total de bolas negras.
x: es el número de bolas blancas cuya probabilidad se está calculando.
n: es el número de ensayos que se realiza.

Ejemplo 1:
En una urna hay 7 bolas blancas y 5 negras. Se sacan 4 bolas, ¿cuál es la probabilidad de que 3 sean
blancas?

Solución:
Entonces: N = 12; r = 7; N-r = 5; x = 3; n = 4, si aplicamos el modelo:

­ ( )( ) 
7 5
P ( x 3) ® 3 12 1 
¯ (4 ) 
Por lo tanto, P (x= 3) = 0,3535. Es decir, la probabilidad de sacar 3 bolas blancas es del 35,3%.

Pero este modelo no sólo se utiliza con experimentos con bolas, sino que también se aplica con
experimentos similares:

Ejemplo 2:
En una fiesta hay 20 personas: 14 casadas y 6 solteras. Se eligen 3 personas al azar, ¿cuál es la
probabilidad de que las 3 sean solteras?

Solución:

­ ( 36 )(14
0 ) 
P( x 3) ® 20 
¯ (3 )
Por lo tanto, P (x = 3) = 0,0175. Es decir, la probabilidad de que las 3 personas sean solteras es tan
sólo del 1,75%
Capítulo 11 : Distribuciones de probabilidad 235

5.- Distribución Binomial Negativa


Una v.a. x que denota el número de fracasos que ocurren en una sucesión infinitas de ensayos
de bernouilli con parámetros p antes que exactamente r éxitos sean obtenidos tiene distribución
binomial negativa con parámetros r y p si:
Su función de probabilidad es dado por:

­( r xx 1 ) p r q x , si x 0,1,2.... y r 1,2..


°
P ( x) P( X x) ®
°0 , en otro caso
¯
Six~BN(r,p)

E ( x) rq
p
Var ( x) rq
p2

6.- Distribución Geométrica

Una distribución binomial negativa con parámetros r =1 y p se denomina distribución geométrica,


esto es, se dice que una v.a. x tiene distribución geométrica con parámetros p si:

Su función de probabilidad es dado por: 


­ pq , si x 0,1,2...
x 
° 
P ( x) P( X x) ® 
°0 , en otro caso
¯ 

Six~BN(,p)



E ( x) q
p
Var ( x) q
p2

En el siguiente gráfico se muestra la función de probabilidad puntual correspondiente a ladistribución


Geométrica para distintos valores de p.
236 ESTADÍSTICA PARA INGENIEROS

7.- Distribución Multinomial

La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar de


dos posibles resultados en cada ensayo puede haber múltiples resultados.

Ejemplo de distribución binomial:


A unas elecciones se presentaron 2 partidos políticos: el POPO obtuvo un 70% de los votos y el JEJE el
30% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 4 de ellos hayan votado
por el JEJE?
Capítulo 11 : Distribuciones de probabilidad 237

Ejemplo de distribución multinomial:


A esas elecciones se presentaron 4 partidos políticos: el POPO obtuvo un 40% de los votos, el JEJE
el 30%, el MUMU el 20% y el LALA el 10% restante. ¿Cuál es la probabilidad de que al elegir 5
ciudadanos al azar, 3 hayan votado por el POPO, 1 por el MUMU y 1 por el LALA?

La distribución multinomial sigue el siguiente modelo:

Donde: X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo
hayan votado 3 personas).

n: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces).


n!: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1).
p1: es la probabilidad del suceso X1 (en el ejemplo, el 40%).

Ejemplo 1:
Luego: P = 0,0256. Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta
manera es tan sólo del 2,56% (0! = 1, y cualquier número elevado a 0 es igual a 1).

Ejemplo 2: el 20% de los asistentes a una fiesta son españoles, el 30% franceses, el 40% italianos y el
10% portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que
2 sean españoles y 2 italianos?
Aplicamos el modelo:

Luego P = 0,0384. Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos
países es tan sólo del 3,84%.

8.- Distribución Multihipergeométrica

La distribución multihipergeométrica es similar a la distribución hipergeométrica, con la diferencia


de que en la urna, en lugar de haber únicamente bolas de dos colores, hay bolas de diferentes
colores.

Ejemplo 1:
En una urna hay 7 bolas blancas, 3 verdes y 4 amarillas: ¿cuál es la probabilidad de que al extraer
3 bolas sea cada una de un color distinto? La distribución multihipergeométrica sigue el siguiente
modelo:
238 ESTADÍSTICA PARA INGENIEROS


( Nx11 )( Nx22 )( Nx33 )...... 
P( X 1 x1 , X 2 x2 , X 3 x3 .....) 
( nN )
Donde:

X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que una de las bolas sea blanca).
N1: indica el número de bolas blancas que hay en la urna (en el ejemplo, 7 bolas).
N: es el número total de bolas en la urna (en el ejemplo, 14 bolas).
n: es el número total de bolas que se extraen (en el ejemplo, 3 bolas).

Ejemplo 2:
En una caja de lápices hay 10 de color amarillo, 3 de color azul y 4 de color rojo. Se extraen 7 lápices,
¿cual es la probabilidad de que 5 sean amarillos y 2 rojos?

Aplicamos el modelo:

(10 3 4 
5 )( 0 )( 2 )
P( X 1 5, X 2 0, X 3 2) 
(17
7 ) 

Luego P = 0,0777. Por lo tanto, la probabilidad de que los 5 lápices sean de los colores indicados
es del 7,77%.

DISTRIBUCIONES CONTINUAS

Son aquellas que presentan un número infinito de posibles soluciones:

Ejemplo:
El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo
(42,37 kg, 42,3764 kg, 42, 376541kg, etc); la esperanza media de vida de una población (72,5 años, 7,513
años, 72, 51234 años).

Funcióndedistribución: P ( X d x ) ³ f ( x)dx 
Rango
Ademássecumple:

1).Ͳ ³ f ( x)dx 1     

2).Ͳ E ( x) ³ xf ( x)dx   

E ( x 2 )  E ( x)
2
3).Ͳ Var ( x ) V2
Capítulo 11 : Distribuciones de probabilidad 239

Las principales distribuciones continuas son:

1.- Distribución Uniforme

Una v.a. continua tiene distribución uniforme con parámetros  y  (<) que pueden tomar
cualquier valor dentro de un intervalo, todos ellos con la misma probabilidad.

Su función de densidad es aquella que nos permite conocer la probabilidad que tiene cada punto del
intervalo, viene definida por:

Su función de densidad es dado por:



­ 1 
° E  D , Si D d x d E 
f ( x) ® 
°0 , en otro caso 
¯ 

F(X ) P( X d X ) ³ f ( x)dx 

Six~BN(r,p)

DE
E ( x)
2
(E  D ) 2
Var ( x)
12

Ejemplo 1:
El precio medio del litro de gasolina durante el próximo año se estima que puede oscilar entre 140 y
160 ptas. Podría ser, por tanto, de 143 ptas., o de 143,4 ptas., o de 143,45 ptas., o de 143,455 ptas,
etc. Hay infinitas posibilidades, todas ellas con la misma probabilidad.

Por lo tanto, la función de distribución del ejemplo sería:





Es decir, que el valor final esté entre 140 ptas. y 141 ptas. tiene un 5% de probabilidad, que esté entre
141 y 142, otro 5%, etc.

Por lo tanto, el precio medio esperado de la gasolina para el próximo año es de 150 ptas. E(X) =
(140+160) / 2 =150.
240 ESTADÍSTICA PARA INGENIEROS

Ejemplo 2:
El volumen de precipitaciones estimado para el próximo año en la ciudad de Lima va a oscilar entre
400 y 500 litros por metro cuadrado. Calcular la función de distribución y la precipitación media
esperada:



Es decir, que el volumen de precipitaciones esté entre 400 y 401 litros tiene un 1% de probabilidades;
que esté entre 401 y 402 litros, otro 1%, etc.
El valor medio esperado es: E(X) = (400 + 500) / 2 = 450. Es decir, la precipitación media estimada en
Sevilla para el próximo año es de 450 litros.

2.- Distribución Normal

Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se comportan


según una distribución normal. Esta distribución se caracteriza porque los valores se distribuyen
formando una campana de Gauss, en torno a un valor central que coincide con el valor medio de la
distribución.

Un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda. Esta
P , σ²)
distribución viene definida por dos parámetros: X: N (μ V su función de densidad es:

­° 1
2
( x u )

f ( x)
2
® e 2V  x  IR
°̄ 2S V
El gráfico de la función de densidad normal tiene forma de campana con eje de simetría en x = μ y
puntos de inflexión en x = μ + σ y x = μ - σ.

E(x) = μ (-∞<u<∞):
Es el valor medio de la distribución y es precisamente donde se sitúa el centro de la curva (de la
campana de Gauss).

Var(x) = σ² (0< σ²<σ):


Es la varianza. Indica si los valores están más o menos alejados del valor central: si la varianza es baja
Plos valores están próximos a la media; si es alta, entonces los valores están muy dispersos.

V
Capítulo 11 : Distribuciones de probabilidad 241

En esta distribución, μ indica la posición de la curva y σ es el parámetro de dispersión. En el siguiente


gráfico se muestran densidades N(0, σ2) para distintos valores de σ.

3.- Distribución Normal Estándar o Tipificada N (0, 1)

Cuando la media de la distribución es 0 y la varianza es 1. Con función de densidad:

­ 1 12 Z 2
f ( z) ® e  z  IR 
¯ 2S

Su ventaja reside en que hay tablas donde se recoge la probabilidad acumulada para cada punto de
la curva de esta distribución.

Ejemplo:
Z ~ N (0,1), el percentil 99 de la distribución es 2.33 ya que Φ(2.33) = 0.99 .

Toda distribución normal se puede transformar en una normal Estándar:


Para lograrlo se crea una nueva variable (Z) que será igual a la anterior (X) menos su media y dividida
por su desviación típica (que es la raíz cuadrada de la varianza).
xP
Z
V
242 ESTADÍSTICA PARA INGENIEROS

Ejemplo 1: una variable aleatoria sigue el modelo de una distribución normal con media 10 y varianza
4. Transformarla en una normal tipificada X: N (10, 4).
x  10
Z
2
Esta nueva variable se distribuye como una normal tipificada, permitiéndonos, por tanto, conocer la
probabilidad acumulada en cada valor. Z: N (0, 1).

Tabla de una Distribuciones Normal Estanadr N (0, 1)

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
Capítulo 11 : Distribuciones de probabilidad 243

¿Cómo se lee esta tabla?


La columna de la izquierda indica el valor cuya probabilidad acumulada queremos conocer. La
primera fila nos indica el segundo decimal del valor que estamos consultando.

Ejemplo 1:
Queremos conocer la probabilidad acumulada en el valor 2,75. Entonces buscamos en la columna
de la izquierda el valor 2,7 y en la primera fila el valor 0,05. La casilla en la que se intersectan es su
probabilidad acumulada (0,99702, es decir 99.7%).

Atención:
La tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de la curva por la
izquierda hasta dicho valor. No nos da la probabilidad concreta en ese punto. En una distribución
continua en el que la variable puede tomar infinitos valores, la probabilidad en un punto concreto es
prácticamente despreciable.

Ejemplo 2:
Imaginemos que una variable continua puede tomar valores entre 0 y 5. La probabilidad de que
tome exactamente el valor 2 es despreciable, ya que podría tomar infinitos valores: por ejemplo:
1,99, 1,994, 1,9967, 1,9998, 1999791, etc.

Ejemplo 3:
Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486.
Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115.

EJERCICIOS RESUELTOS:
EJERCICIO 1:
El salario medio de los empleados de una empresa se distribuye según una distribución normal, con
media 5 mil nuevos soles y desviación típica S/. 1 mil nuevos soles. Calcular el porcentaje de empleados
con un sueldo inferior a 7 mil nuevos soles.

Primero: transformar esa distribución en una normal estándar; para ello se crea una nueva variable
Z que será igual a la anterior X menos su media y dividida por la desviación típica. La variable Z que
corresponde a una variable X=7 es: (Z se distribuye como una normal estándar):

xP 75 
Z 2 
V 1
El valor de Z equivalente a 7 mil nuevos soles es 2. P (X<7) = P (Z < 2).

Segundo: consultar la tabla la probabilidad acumulada para el valor Z =2 (equivalente a la probabilidad


de sueldos inferiores a 7 mil nuevos soles). Esta probabilidad es 0,97725. Por lo tanto, el porcentaje de
empleados con salarios inferiores a 7 mil nuevos soles es del 97,725%.

EJERCICIO 2:
La renta media de los habitantes de un país es de 4 mil nuevos soles/año, con una varianza de 1,5. Se
supone que se distribuye según una distribución normal. Calcular:
244 ESTADÍSTICA PARA INGENIEROS

a) Porcentaje de la población con una renta inferior a 3 mil nuevos soles.


b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos.
c) Ingresos mínimo y máximo que engloba al 60% de la población con renta media.

a) Calcular la normal estándar:


xP 34
Z 0.816
V 1.22
El valor de Z equivalente a 3 mil nuevos soles es -0,816. P (X<3)=P (Z< -0,816). Ahora tenemos que
ver cuál es la probabilidad acumulada hasta ese valor. Existe un problema: la tabla de probabilidades
sólo abarca valores positivos, no obstante, este problema tiene fácil solución, ya que la distribución
normal es simétrica respecto al valor medio. Por lo tanto: P(Y<-0,816) = P (Y>0,816). Por otra parte, la
probabilidad que hay a partir de un valor es igual a 1 (100%) menos la probabilidad acumulada hasta
dicho valor: P(Y>0,816) = 1 - P(Y < 0,816) = 1 - 0,7925 = 0,2075. Luego, el 20,75% de la población
tiene una renta inferior a 3 mil nuevos soles.

b) Vemos en la tabla el valor de la variable estándar cuya probabilidad acumulada es el 0,9 (90%), lo
que quiere decir que por encima se sitúa el 10% superior. Ese valor corresponde a Z =1,282. Ahora
calculamos la variable normal X equivalente a ese valor de la normal estándar:
x4 
1.282 
1.22

Despejando X su valor es 5,57. Por lo tanto, aquellas personas con ingresos superiores a 5,57 mil
nuevos soles constituyen el 10% de la población con renta más elevada.

c) Vemos en la tabla el valor de la variable normalizada Z cuya probabilidad acumulada es el 0,8 (80%).
Como sabemos que hasta la media la probabilidad acumulada es del 50%, quiere decir que entre
la media y este valor de Z hay un 30% de probabilidad. Por otra parte, al ser la distribución normal
simétrica, entre -Z y la media hay otro 30% de probabilidad. En definitiva, el segmento (-Z, Z) engloba
al 60% de población con renta media. El valor de Z que acumula el 80% de la probabilidad es 0,842,
por lo que el segmento viene definido por (-0,842, +0,842). Ahora calculamos los valores de la
variable X correspondientes a estos valores de Z.
Los valores de X son 2,97 y 5,03. Por lo tanto, las personas con ingresos superiores a 2,97 mil nuevos
soles e inferiores a 5,03 mil nuevos soles constituyen el 60% de la población con un nivel medio de
renta.

EJERCICIO 3:
La vida media de los habitantes de un país es de 68 años, con una varianza de 25. Se hace un estudio en
una pequeña ciudad de 10.000 habitantes:

a) ¿Cuántas personas superarán previsiblemente los 75 años?


b) ¿Cuántos vivirán menos de 60 años?
Capítulo 11 : Distribuciones de probabilidad 245

a) Hallamos el valor de la normal estándar equivalente a 75 años:


xP 75  68
Z 1.4 
V 5 

Porlotanto,P(X>75)=(Z>1,4)=1ͲP(Z<1,4)=1Ͳ0,9192=0,0808.

b) Hallamos el valor de la normal estándar equivalente a 60 años.

Por lo tanto, P (X < 60) = (Z < -1,6) = P (Z > 1,6) = 1 - P (Z < 1,6) = 0,0548. Luego, el 5,48% de la
población (548 habitantes) no llegará probablemente a esta edad.

xP 60  68 
Z 1.6
V 5 

EJERCICIO 4:
El consumo medio anual de cerveza de los habitantes de un país es de 59 litros, con una varianza de 36.
Se supone que se distribuye según una distribución normal.

a) Si usted presume de buen bebedor, ¿cuántos litros de cerveza tendría que beber al año para
pertenecer al 5% de la población que más bebe?
b) Si usted bebe 45 litros de cerveza al año y su mujer le califica de borracho ¿qué podría argumentar
en su defensa?

a) En la tabla el valor de la variable estándar cuya probabilidad acumulada es el 0,95 (95%), por o que
por arriba estaría el 5% restante. Ese valor corresponde a Z=1,645. Ahora calculamos la variable
normal X equivalente a ese valor de la normal estándar:

x  58
1.645
6
Despejando X, su valor es 67,87. Por lo tanto, tendría usted que beber más de 67,87 litros al año para
pertenecer a ese "selecto" club de grandes bebedores de cerveza

b) Cal culamos el valor de la normal tipificada correspondiente a 45 litros:


xP 45  58
Z 2.2 
V 6 
P (X < 45) = (Z < -2,2) = P (Z > 2,2) = 1 - P (Y < 2,2) = 0,0139. Luego, el 1,39% de la población bebe
menos que usted.
246 ESTADÍSTICA PARA INGENIEROS

EJERCICIO 5:
A un examen se han presentado 2.000 aspirantes. La nota media ha sido un 5,5, con una varianza de 1,5.

a) Tan sólo hay 100 plazas. Usted ha obtenido un 7,7. ¿Sería oportuno ir organizando una fiesta para
celebrar su éxito?
b) Va a haber una 2ª oportunidad para el 20% de notas más altas que no se hayan clasificados. ¿A partir
de que nota se podrá participar en esta?

a) Vamos a ver con ese 7,7 en qué nivel porcentual se ha situado usted, para ello vamos a comenzar por
calcular el valor de la normal estándar equivalente:
xP 7.7  5.5
Z 2.1
V 1.049
A este valor de Z le corresponde una probabilidad acumulada (ver tablas) de 0,98214 (98,214%), lo
que quiere decir que por encima de usted tan sólo se encuentra un 1,786%. Si se han presentado
2.000 aspirantes, ese 1,786% equivale a unos 36 aspirantes. Por lo que si hay 100 plazas disponibles,
tiene usted suficientes probabilidades como para ir organizando la ‘mejor de las fiestas’.

b) En la tabla el valor de la normal estándar acumula el 80% de la probabilidad, ya que por arriba
sólo quedaría el 20% restante. Este valor de Z corresponde a 0,842. Ahora calculamos el valor de la
normal X equivalente:

x  5.5
0.842
1.049
Despejamos la X y su valor es 6,38. Por lo tanto, esta es la nota a partir de la cual se podrá acudir.

TEOREMA CENTRAL DEL LÍMITE

Teorema1Silasv.a.X1,X2,X3,......XksonindependientesysicadaXitienedistribuciónnormal
con media Pi y varianza V2i (i=1,2,3,.......k), entonces la suma X1+ X2+ X3+...... Xk tiene
distribuciónnormalconmediaP1+P2+P3+.....+PkyvarianzaV21+V22+V23+.....+V2k

El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes
y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se
distribuye según una distribución normal.

Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

Teorema: Si X₁,X₂,X₃,....Xn es una sucesión de v.a. independientes idénticamente distribuidas, cada una
con media  y varianza ², entonces: X ~ N ( P , V 2 n)
Capítulo 11 : Distribuciones de probabilidad 247

X P
Estandarizando se tiene: Z
V n

Ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada
lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli, con media
0,5 (p) y varianza 0,25 (pq). Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60
caras.

La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución
normal. Con Media: n*Me (media de la variable individual multiplicada por el número de variables
independientes) y Varianza: n*s2 (varianza de la variable individual multiplicada por el número de
variables individuales).

En el ejemplo: la Media = 100*0,5= 50 y la Varianza = 100*0,25 = 25. Para ver la probabilidad de que
salgan más de 60 caras calculamos la variable normal estándar equivalente:

60  50
Z 2 
5 

Por lo tanto: P (X > 60) = P (Z > 2,0) = 1- P (Z < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras es tan sólo del 2,28%.

EJERCICIO 1:
La renta media de los habitantes de un país se distribuye uniformemente entre 4 mil nuevos soles y 10
mil nuevos soles. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus
rentas supere los 725 mil nuevos soles.

Cada renta personal es una variable independiente que se distribuye según una función uniforme con
media = (4+10)/2 = 7 y varianza = (10 - 4)²/12 = 3.

Por tanto, la suma de las 100 variables se distribuye según una normal de media =n*Me=100*7 =700 y
varianza n*s² = 100*3 = 300.

Para calcular la probabilidad de que la suma de las rentas sea superior a 725 mil nuevos soles, calculamos
el valor equivalente de la variable normal estándar:

725  700 
Z 1.44 
17.3

Luego: P(X>725) = P (Z >1,44) = 1 - P (Z < 1,44) = 1 - 0,9251 = 0,0749.


248 ESTADÍSTICA PARA INGENIEROS

Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar supere los
725 mil nuevos soles es de 7,49%.

EJERCICIO 2:
En una asignatura del colegio la probabilidad de que te saquen a la pizarra en cada clase es del 10%. A lo
largo del año tienes 100 clases de esa asignatura. ¿Cuál es la probabilidad de tener que salir a la pizarra
más de 15 veces?

Salir la pizarra es una variable independiente que sigue el modelo de distribución de Bernouilli: ‘salir a
la pizarra’, le damos el valor 1 y tiene una probabilidad del 0,10 ‘no salir a la pizarra’, le damos el valor
0 y tiene una probabilidad del 0,9. La media es 0,10y la varianza es 0,10 * 0,90 = 0,09 de cada variable
independiente.

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media es n*Me =100 *0,10
= 10 y varianza n*s2 = 100*0,09 = 9. Para calcular la probabilidad de salir a la pizarra más de 15 veces,
calculamos el valor equivalente de la variable normal estándar:

15  10
Z 1.67
3
Luego: P (X > 15) = P (Z > 1,67) = 1 - P (Z < 1,67) = 1 - 0,9525 = 0,0475

Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo del curso es tan sólo
del 4,75%.

EJERCICIO 3:
Un día visitamos el Casino y decidimos jugar en la ruleta. Nuestra apuesta va a ser siempre al negro y
cada apuesta de 500 ptas. Llevamos 10.000 ptas. y queremos calcular que probabilidad tenemos de que
tras jugar 80 veces consigamos doblar nuestro dinero.

Cada jugada es una variable independiente que sigue el modelo de distribución de Bernouilli.

‘Salir negro’, le damos el valor 1 y tiene una probabilidad del 0,485 ‘no salir negro’, le damos el valor 0
y tiene una probabilidad del 0,515. La media = 0,485 y varianza = 0,485 * 0,515 = 0,25 de cada variable
individual. A la suma de las 80 apuestas se le aplica el Teorema Central del Límite, por lo que se distribuye
según una normal cuya media es n*Me =80* 0,485 = 38,8 y varianza n*s2 = 80 * 0,25 = 20.

Para doblar nuestro dinero el negro tiene que salir al menos 20 veces más que el rojo (20*500 =10.000),
por lo que tendrá que salir como mínimo 50 veces (implica que el rojo ‘cero’ salgan como máximo 30
veces). Calculando el valor equivalente de la variable normal estándar:

50  38.8 
Z 2.50 
4.5 
Luego: P (X > 50) = P (Z> 2,50) = 1 - P (Z < 2,50) = 1 - 0,9938 = 0,0062

Es decir, la probabilidad de doblar el dinero es 0,62%.


Capítulo 11 : Distribuciones de probabilidad 249

EJERCICIO 4:
El precio de una acción en bolsa se mueve aleatoriamente entre 10 y 20 nuevos soles, con la misma
probabilidad en todo el tramo. Hemos dado la orden a nuestro broker de que nos compre paquetes de
1.000 acciones cada día durante las próximas 40 sesiones.
Una vez ejecutada la orden tenemos un total de 40.000 acciones. A final de año vendemos todas las
acciones al precio de 13 soles/acción, recibiendo 520.000 soles. Calcular la probabilidad de que ganemos
dinero en esta operación.

El precio de cada paquete comprado es una variable aleatoria independiente que se distribuye
uniformemente entre 10.000 y 20.000 nuevos soles. Su media es (10.000+20.000)/2 =15.000 y varianza
es (20.000-10.000)2/12 =833,3. El precio total de los 40 paquetes comprados se distribuye según una
distribución normal cuya media =n*Me =40*15.000=600.000 y varianza n*s2 = 40 * 833,3 = 33.333,3.

Para estimar la probabilidad de que ganemos dinero, calculamos el valor equivalente de la variable
normal estándar:

520,000  600,000 
Z 2.40
33,333.3 

Luego: P (X > 520.000) = P (Y > 2,40) = 1 - P (Y < 2,40) = 1 - 0,9918 = 0,0082


Por tanto, la probabilidad de que ganemos dinero con la operación es del 0,82%.

4.- Distribución Exponencial


O
O si su función de densidad
Una variable aleatoria X tiene distribución exponencial de parámetro > 0
es:

­Oe Ox 
, Si xt0
° 
f ( x) ® 
°0 , Si x0 
¯

E ( x) 1
O
Var ( x) 1
O2

Integrando, su función de distribución o de probabilidad acumulada es:


F(X ) P( X d x) ³ f ( x)dx 1  e  Ox 

Notación: X ~ ε(λ).
250 ESTADÍSTICA PARA INGENIEROS

Análisis de Supervivencia
Cuando X se interpreta como el tiempo necesario para que se produzca el fallo de un componente
de una máquina, o el tiempo que transcurre hasta la muerte de un organismo biológico, la función:

 S ( x) P( X ! x) 1  F ( x) e  Ox , x t 0

Es la probabilidad de que el individuo no fallezca antes del instante x.

Ejemplo: el tiempo medio de supervivencia de un paciente tras haber recibido cierto


tratamiento es de E[X]=5 años; sabiendo que la variable X tiene distribución exponencial, interesa
saber cuál es la probabilidad de que el paciente supere los 10 años de vida tras haberle suministrado
el tratamiento.

O
Puesto que la variable tiene distribución exponencial de media 5, el parámetro  es igual a 1/5=0.2,
por lo que la probabilidad de superar los 10 años de vida es S(10)=0.1353. O

5.- Distribución Gamma D E D E


D E D E
Una variable aleatoria X tiene distribución gamma de parámetros  y  (>0 y > 0), si su función
de densidad es:
 
­ E D X D 1  EX 
°° *(D ) e , Si x t 0
f ( x) 
® 
° 0 , Si x  0
°¯ 
f

*(D ) ³0
X D 1e  x dx 


E ( x) D
E
Var ( x) D
E2

Capítulo 11 : Distribuciones de probabilidad 251

Su función de distribución o de probabilidad acumulada es:



F(X ) P ( X d x) ³ f ( x)dx 

Notación:X~ȳ(ɲ,ʄ)obienX~G(ɲ,ʄ).

En el siguiente gráfico se muestra la densidad correspondiente a X ~ G (α, λ) para distintos valores
de los parámetros.

Esta función de densidad es estríctamente decreciente si α ≤ 1, y si α > 1 alcanza un máximo y


después decrece.
252 ESTADÍSTICA PARA INGENIEROS
D E
D E
6.- Distribución Beta
D E
Una variable aleatoria X tiene distribución Beta de parámetro y > 0 si su función de densidad es:
 
­ (D  E  1)! D 
° D! E ! x (1  x) E , Si 0  x 1 
f ( x) ® 
°0 , Otro caso 
¯ 

(D  1)
E ( x)
(D  E  2)
(D  1)( E  1)
Var ( x)
(D  E  2) 2 (D  E  3)


La función de distribución o de probabilidad acumulada es:

F(X ) P ( X d x) ³ f ( x)dx

7.- Distribución Ji2 de Pearson


Si (X₁, X₂,..., Xn) son n variables aleatorias normales independientes de media 0 y varianza 1, la
variable definida como:




Se dice que tiene una distribución X2 con n grados de libertad.

Su función de densidad es con x > 0,






Siendo la función gamma de Euler, con p > 0.
g p



La función de distribución viene dada por:




VV
V
Capítulo 11 : Distribuciones de probabilidad 253

8.- Distribución t de Student

Si (X, X₁, X₂,..., Xn) son n+1 variables aleatorias normales independientes de media 0 y varianza ², la
variable:V
V





Tiene una distribución tn de Student con n grados de libertad.

Su función de densidad es con x > 0,

Siendo la función gamma de Euler, con p > 0.





Finalmente, la función de distribución viene dada por:







9.- Distribución F de Snedecor


P V
La distribución F de Snedecor aparece en los P contrastes asociados
V a comparaciones entre las
varianzas de dos poblaciones normales. Si (X₁, X₂,..., Xm) y (Z₁, Z₂,..., Zn) son m+n variables aleatorias
normales independientes de media  = 0 y varianza
P ², la variable:
V
 P V




Tiene una distribución Fm,n de Snedecor de m y n grados de libertad.







Su función de densidad es con x > 0,


Siendo la función gamma de Euler, con p > 0
254 ESTADÍSTICA PARA INGENIEROS




La función de distribución viene dada por:




EJERCICIOS RESUELTOS:
1). Sea X una variable aleatoria con Distribución Beta, calcular 'r = E(xr).

(D  E  1)! D
f ( x) x (1  x) E
D! E !

Solución 1:

XesBeta,entonces:

1 1
 (D  E  1)! D (D  E  1)! D r
³0 x D !E ! x (1  x) dx ³
E
E(x ) r r
x (1  x) E dx
 0
D!E !
 1
^(D  1)(D  2)...(D  r )`(D  E  1)!>(D  E  2)(D  E  3)...(D  E  r  1)@ xD r (1  x) E dx

³
0
D !^(D  1)(D  2)...(D  r )`E !>(D  E  2)(D  E  3)...(D  E  r  1)@
1
 (D  1)(D  2)...(D  r ) (D  r  E  1)! D r
 (D  E  2 )(D  E  3)...(D  E  r  1) ³
0
(D  r )! E !
x (1  x) E dx


 1
 (D  E  1)!(D  r )!
 D !(D  E  r  1)!
          

2). Para la siguiente función de probabilidad:

­6 x(1  x) ,0  x  1
°
f ( x) ®
°0 otro caso
¯
Calcular:P(PͲVxP+V)     
Capítulo 11 : Distribuciones de probabilidad 255

Solución2:
1 1 1
 ª 3 º 1
 P  E ( x) ³
x6 x(1  x)dx 6( x 2  x 3 )dx «2 x 3
¬
³  x4 »
2 ¼0 2
 0 0

 1 1
 V 2 E ( x 2 )  E ( x ) 2 Ÿ E ( x 2 ) ª3 4 6 5 º 3 1
 0
x 2 6 x(1  x)dx ³ «2 x  5 x »
¬ ¼0 10
ŸV2
20

 SePideP(PͲVxP+V)=P(0.2763x0.7236) 

 0.7236

 ³ 6 x((1  x)dx
0.2763
0.6262

3). Sea la variable aleatoria continua X, con fdp f(X) simétrica respecto a `c`. Si el valor medio existe
mostrar que E(x)=c

Solución 3:
f f
 c

 E ( x  c) ³ ( x  c ) f ( x ) dx
f
³ ( x  c ) f ( x ) dx  ³ ( x  c ) f ( x ) dx
f
Si z xc
 0 f f
c
f


Ÿ E (z)
. ³ zf ( z  c ) dz  ³ zf ( z  c ) dz
0
 ³ zf (  z  c ) dz  ³ zf ( z  c ) dz

f
0
0
Simétrica
 f f
  ³ zf ( z  c ) dz  ³ zf ( z  c ) dz M Ÿ E ( x  c) 0 ? E ( x) c
 0 0

4). El examen final de estadística y probabilidades consistió en 10 preguntas objetivas de 1 punto


cada una (sin puntos en contra por pregunta mal contestada). La puntuación media fue 6.7 y la
desviación típica 1.2. Suponiendo que las puntuaciones se distribuyen normalmente, calcular;

a) El porcentaje de estudiantes que obtienen 6 puntos.


b) La puntuación máxima del 10% más bajo de la clase.
c) La puntuación mínima del 10% superior de la clase.

Solución 4 :

a) Hay que tratar los datos como si fuesen centésimos. Ejm. 6 puntos se considera de 5.5 a
6.5puntos

5.5 5.56.7 1.0


Estandarizando,
1.2

Estandarizando 6.5 6.5  6.7


1.2 0.17
Proporción pedida =Area Entre Z=-1 y Z=-0.17 = 0.3413 - 0.0675 = 0.2738 = 27%
256 ESTADÍSTICA PARA INGENIEROS

b) Sea X1 la puntuación máxima : X 1  6.7


Z1 1.28 1.2 Ÿ X1 # 5

c) Sea X₂ la puntuación mínima: X 2  6.7


Z2 1.28 1.2 Ÿ X2 # 8

5) Suponga que el volumen de cerveza contenido en una botella de cierta marca del mercado está
normalmente distribuida con media 0.5 litros y desviación estándar 0.38 litros.

a) Encontrar la probabilidad que la botella contenga al menos 0.42 litros.

b) Encontrar el volumen correspondiente al percentil 95.

c) Calcular la probabilidad de que el volumen de cerveza total contenido en 5 botellas sea de al


menos 2.45 litros.

Solución 5:

a) P( X ! 0.42) P( Z ! 0.420.5
0.38 )
1  P(Z d 0.21) 1  0.4168 0.5832

b) P( Z d Z 0 ) 0.95 Ÿ Z 0 1.64
X 0 P
Luego 1.64 V o X0 1.64(0.38)  0.5 1.1232

c) P(Y>2.45)=?DondeY=X1+X2+..+X5
 5
E (Y ) ¦ E( X )
i 1
i 5(0.5) 2.5 ,
5
V (Y ) ¦V ( X )
i 1
i 5(0.38) 2

Ÿ Y ~ N (2.5,5(0.38) 2 )

P(Y ! 2.45) P( Z ! 2.452.5


5 ( 0.38)
) 1  P(Z d 0.058)
1  0.4761 0.5239
Capítulo 11 : Distribuciones de probabilidad 257

6). El tiempo que tarda una persona en ser atendida en una cafetería es una variable aleatoria con
distribución normal de media 4 (minutos) y desviación estándar 0.96 (minutos). ¿Cuál es la
probabilidad que una persona sea atendida en menos de tres minutos, al menos en 4 días en una
semana cualquiera?

Solución 6

X: Tiempo que tardan en atender a una persona XaN(4,(0.96)2),XHIR

: La persona es atendida en menos de 3 minutos Ry {0,1}

P(Y 0) P( X t 3) P(Z t 03.964 ) 1  P(Z d 1.041)


1  0.1492 0.8508Ÿ P(Y 1) 0.1492

P(4Q 5Q 6) C47 (0.149)4 (0.850)3  C57 (0.149)5 (0.850)2  C67 (0.149)6 (0.
0.01187

7). SiXi~N(P,V2)yZ~N(0,1)EncontrarlasdistribucionesdeY:

¦
¦Z
1 n n n n

¦ x  P
2
P
¦X
2 xi  2 2
a) Y V (1) X n2 
V 2 i i
i 1 i 1 i 1 i 1
z

1 n

¦ x  P  Z 2
2
b) Y X (2n )  Z 2 X (2n )  X (21) X (2n 1) 
V 2 i
i 1


n
x i  P 2 X (2n ) X (2n )

c) Y ¦
i 1 nZ 2V 2 Z
n
2
n
X (21)
~ F( n ,1) 
1

1 §V 2Z 2
n
2· xP
d) Y ¦ ¨  x  P ¸¸ Z2 ( ) 2 ~ X (22 ) 
V 2 i 1 ¨© n ¹ V n

 
n
x i  x 2 n
xi  P 2 n
x  P 2
e) Y ¦
i 1 V 2 ¦ i 1 V 2

i 1 V n
2
X (2n )  X (21) X (2n 1) 
258 ESTADÍSTICA PARA INGENIEROS

8). Si X₁,X₂,...,Xn es una muestra aleatoria de una población normal. Demostrar que:

xP
u ~ W n 1 
¦ x  x
2
i

n(n  1)

Solución 6:

 Z

x P
(V n ) Z
u ~ t ( n 1)
 
X (2n 1)
X (2n 1)

¦ xi  x V
2
(n !)
(n  1)

9). Si Z₁,Z₂,...,Z₈ una muestra aleatoria extraída de una población con distribución normal estándar. Si
definimos:

n n
Zi Zi
Zm ¦
i 1 m
 Z nm
i
¦
m 1 n  m
 

Hallar la distribución de:



a) V mZ m2  (n  m) Z n2m 

1
b) U
2

Z m  Z nm  


Solución:

a) Z m ~ N (0, 1m) Ÿ m Z m ~ N (0,1) o mZ m2 ~ X (21)

Similar(n  m) Z n2m ~ X (21) ?V ~ X (22)

b) E(U ) 1
2 E(Zm )  12 E(Znm ) 0 o V (U ) 1
4 V (Zm )  14 V (Znm )

n
4m( nm) ?U ~ N (0, 4m(nnm) )
Capítulo 11 : Distribuciones de probabilidad 259

EJERCICIOS PROPUESTOS
1. El diámetro de cierto tipo de tuercas en una línea de producción presenta una distribución normal
con media 1.95 mm y desviación estándar 0.12 mm. ¿cuántas tuercas de un grupo de 100 tendrán
de diámetro entre 1.80 mm y 2.10 mm ?

2. Calcular:
f
3
³x
0
2
e  x 2 dx

3. Se sabe que el 5% de artículos de un lote son defectuosos, se eligen al azar 5 artículos. Hallar la
probabilidad de encontrar exactamente 2 defectuosos y la probabilidad de al menos un defectuoso.

4. Un lote de 30 chips contiene 10 de tipo A y 20 del tipo B. Si se selecciona 5 al azar. Calcular la


probabilidad de seleccionar más de tres del tipo A. El número esperado de chips del tipo A.

5. Como parte de un estudio de contaminación del aire, un inspector decide examinar la emisión de
gases de seis de los 24 camiones de carga de una compañía. Si cuatro de los camiones de la compañía
emiten cantidades excesivas de contaminantes, ¿cuál es la probabilidad de que ninguno de ellos sea
incluido en la muestra del inspector?

6. El tiempo que tarda una persona en ser atendida en una cafetería es una variable aleatoria con
distribución exponencial de media 4 (minutos). ¿Cuál es la probabilidad que una persona sea
atendida en menos de tres minutos, al menos en cuatro de los seis días?

7. El número promedio de llamadas en una oficina es de 2 por minuto, entre las 8 y 9 a.m. Hallar la
probabilidad de no recibir llamadas entre las 8:45 y 8:46, recibir exactamente tres llamadas entre
8:12 y 8:14 y al menos una llamada entre 8:32 y 8:35 a.m.

8. El número promedio de autos que llegan a una garita de peaje es de 120 por hora. Si tal garita puede
atender a un máximo de 3 autos en 30 segundos, calcular la probabilidad de que en medio minuto
lleguen más autos de lo que pueda atender.

9. Suponga que los diámetros de una pieza tienen distribución normal con media 2 cm. y desviación
estándar 0.01 cm.

a) Hallar el porcentaje de piezas cuyo diámetro es de por lo menos 2.03cms.


b) Una pieza es considerada defectuosa y por lo tanto rechazada si su diámetro es mayor que 2.02
cm. o menor de 1.98 cm. Si de la producción se toman al azar 10 piezas ¿cuál es la probabilidad
de que 8 de ellas sean aceptables?
c) Se toma una muestra de 16 piezas, hallar la probabilidad de que el diámetro promedio este
entre 1,995 y 2,001 cms.
260 ESTADÍSTICA PARA INGENIEROS

10. El examen final de estadística y probabilidades consistió en 10 preguntas objetivas de 1 punto cada
una (sin puntos en contra por pregunta mal contestada). La puntuación media fue 6.8 y la desviación
típica 1.3. Suponiendo que las puntuaciones se distribuyen normalmente, calcular;

a) El porcentaje de estudiantes que obtienen 6 puntos.


b) La puntuación máxima del 10% más bajo de la clase.
c) La puntuación mínima del 10% más alto de la clase.

11. Se toman dos muestras aleatorias de tamaño 16 de una población normal con media μ y variancia
25. Calcular el valor de ‘k’ de modo que P(S₁² + S₂² ≤ k ) = 0.95 (S₁² y S₂²son las varianzas muestrales
de las respectivas poblaciones)

12. Utilizar el SPSS.


Suponga que los diámetros de 3 mil piezas de computadora tienen distribución normal con media
2.1 cm. y desviación estándar 0.011 cm.

Luego, obtener una muestra aleatoria de tamaño 500 (escribir los pasos de la solución).

(a) Probar qué tipo de distribución tiene la muestra.


(b) Hallar su distribución.y la distribución de su media.
(c) Hallar la probabilidad de que el diámetro promedio este entre 1,995 y 2,001 cm.
(d) Escribir los pasos de la solución.

Luego obtener una muestra donde las piezas sean mayor e igual a 1.95 cm. ó menor e igual a 1.89 cm.
Limitarse a escribir los pasos y escribrir un ejemplo.

a) Hallar su distribución.y la distribución de su media.


b) Hallar la distribución normal estándar.
c) Hallar la probabilidad para las cinco primeras muestras.
CAPÍTULO

12 Inferencia Estadística

Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información de
una parte de la población. La inferencia estadística es una parte de la Estadística que permite generar
modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que
van a ser analizadas se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a
partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas
con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha
planteado.

La estadística provee técnicas que permiten obtener conclusiones generales a partir de un conjunto
limitado, pero representativo, de datos. Cuando inferimos no tenemos garantía de que la conclusión que
obtenemos sea exactamente correcta. Sin embargo, la estadística permite cuantificar el error asociado
a la estimación.

ESTIMACIÓN PUNTUAL
El objetivo de la estimación puntual es usar una muestra para obtener números que, en algún sentido,
sean los que mejor representan a los verdaderos valores de los parámetros de interés.

Supongamos que se selecciona una muestra de tamaño n de una población. Antes de obtener la muestra
no sabemos cuál será el valor de cada observación. Así, la primera observación puede ser considerada
una v.a. X₁, la segunda una v.a. X₂, etc. Por lo tanto, antes de obtener la muestra denotaremos X₁, X₂,...., Xn
a las observaciones y, una vez obtenida la muestra los valores observados los denotaremos x₁, x₂,...., xn.

Definición: un estimador puntual de un parámetro θ es un valor que puede ser considerado representativo
de θ y se indicará θ (teta estimado o calculado). Se obtiene a partir de alguna función de la muestra.

Ejemplo:
Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces en forma independiente,
obteniéndose 21 veces el número dos. ¿Qué valor podría utilizarse, en base a esa información, como
estimación de la probabilidad de valor dos? Parece razonable utilizar la frecuencia relativa.

21
En este caso, si llamamos p a la probabilidad que queremos estimar, pˆ 0.21 
100
Entonces el p estimado es 0.21.

DE ESTIMACIÓN PUNTUAL
262 ESTADÍSTICA PARA INGENIEROS

MÉTODOS DE ESTIMACIÓN PUNTUAL


Para obtener estimadores para un problema dado estudiaremos dos métodos que proporcionan
estimadores puntuales: el método de momentos y el método de máxima verosimilitud.

MÉTODO DE MOMENTOS (MO)


La idea básica consiste en igualar ciertas características muestrales con las correspondientes características
poblacionales. Recordemos la siguiente definición:

Sea x una v.a. de una población determinada. Si {xi} i =1,n es una v.a. de ‘x’ los primeros 'k' momentos
muestrales alrededor del origen se definen como:

1 n r
¦ xi
'
Mr r 1, k …………(1)
ni1
Discreto
Sea X una v.a. con función de probabilidad puntual px(x) en el caso discreto. El momento K-ésimo (k N)
poblacional centrada en el origen es:


¦x
'
Ur E( xr ) r
p X ( x) x discreta ………(2)

Continuo
Sea X una v.a. con función de densidad fx(x) en el caso continuo. El momento K-ésimo (k  N) poblacional
centrada en el origen es:


³x
'
Ur E( xr ) r
f x ( x)dx x continua …………(3)

El método consiste en igualar los resultados muéstrales y poblacionales obteniendo k ecuaciones
simultaneas con k parámetros desconocidos.


1, k …………………(4)
' '
Ur Mr r

EJERCICIO 1:
Si X1, X2,......Xn una muestra aleatoria de una población con distribución gamma:
x
1 
f ( x, D , E ) D 1
e E
x D , x ! 0. 
E D!
Hallar el estimador de momentos de  y .

Solución: Método de momentos.


Capítulo 12 : Inferencia Estadística 263

Paso 1:
Como existen dos Parámetros, el valor de K=2. Remplazando en la ecuación (4):
' '
Entonces; U 1 M 1 
' '
U2 M2 

Paso 2:
Sabemos que los momentos muestrales son (por ecuación (1)):

M1
' ¦ xi y
n

M2
' ¦ x i2 
n

Paso 3:
Hallando los momentos poblacionales discretos (por ecuación (2)):
x

D 1 E
f x e
U1' E ( x) ³0 E D 1
D!
E (D  1). y
x

D 2 E
f x e
U 2' E(x2 ) ³0 E D 1
D!
(D  1)(D  2) E 2 . 

Paso 4:
Remplazando los valores calculados en el ‘Paso 1’, se obtienen las ecuaciones:

¦ xi E (D  1)  ………..(a)
n

¦ xi2 (D  1)(D  2 ) E 2 ………(b)
n

Resolviendo las ecuaciones (a), (b) tenemos los estimadores de alfa (α) y beta (β):

2
¦x n  x2
 Eˆ MO ;
x

2x 2  ¦ x2 n
 Dˆ MO 
2 2
¦x nx
264 ESTADÍSTICA PARA INGENIEROS

EJERCICIO 2:
Sea una m.a. de una distribución exponencial de parámetro λ. Hallar el estimador de momentos de  y
.

Solución: Método de momentos.

Paso 1:
Como hay un solo parámetro a estimar, basta plantear una ecuación basada en el primer momento. El
valor de K=1. Remplazando en la ecuación (4):

' '
Entonces; U 1 M 1 

Paso 2:
Sabemos que los momentos muestrales son (por ecuación (1)):

M1
' ¦ xi 
n

Paso 3:
Hallando los momentos poblacionales discretos (por ecuación (2)):
1
U1' E ( x) . 
O
Paso 4:
Remplazando los valores calculados en el ‘Paso 1’, se obtienen las ecuaciones:

¦ xi 1
 
n
O
Resolviendo las ecuaciones tenemos el estimador de landa (λ)
1
OˆMO ;
x

EJEMPLO 3:
Sea una m.a. de una distribución Γ(α, λ). Donde E(x) = α/λ y Var(x)= α/λ2

Hallar el estimador de momentos de  y λ.

Solución: Método de momentos.

Paso 1:
Como existen dos parámetros, el valor de K=2. Remplazando en la ecuación (4):
' '
Entonces; U 1 M 1 
' '
U2 M2 
Capítulo 12 : Inferencia Estadística 265

Paso 2:
Sabemos que los momentos muestrales son (por ecuación (1)):

M1
' ¦ xi y
n
n

M2
' ¦ x i2 
n

Paso 3:
Hallando los momentos poblacionales discretos (por ecuación (2)):

D
U1' E ( x) 
O

U 2' E( x2 ) ? 
2
D §D ·
Pero: Var ( x ) E ( x )  E ( x ) Ÿ 2
2 2 2
E(x )  ¨ ¸ 
O ©O¹
D D 2
Ÿ E(x2 ) 
O2
Paso 4:
Remplazando los valores calculados en el ‘Paso 1’, se obtienen las ecuaciones:

¦ xi D  ………..(a)
n
O
¦ x i2 D  D  ………(b)
n
O2
Resolviendo las ecuaciones (a), (b) tenemos los estimadores de alfa () y lambda (λ)

 Dˆ MO
x2 
22
¦x nx

x
OˆMO 2 2

¦x nx

MÉTODO DE MAXIMA VEROSIMILITUD (MV)


Este método fue introducido por Fisher en la década de 1920. Se basa en la idea de, dada una muestra,
hallar los valores de los parámetros que hacen que la probabilidad de obtener dicha muestra sea máxima.

Sea, x una v.a. con fdp f(x,θ) y {xi} i =1,n una muestra aleatoria de x. La función de verosimilitud se define
como: n
L(T ) f ( x1 , x 2 ,..., xn ;T ) f x ( x1 ) f x ( x 2 )... f x ( xn ) – f (x ) 
i 1
x i
266 ESTADÍSTICA PARA INGENIEROS

El método de MV consiste en tomar como valor estimado de  el valor que maximice L.

Si θ hace máximo L también lo hará a Ln (L)

Definimos:
n n
L LnL(T ) Lnf ( x1 , x 2 ,..., xn ;T ) Ln– f x ( xi ) – Lnf x ( xi ) ;
i 1 i 1

Luego maximizamos L:

w
L=0
wT

EJERCICIO 1:
Si {X₁, X₂,......Xn } es una muestra aleatoria proveniente de una distribución gamma con parámetro
conocido  y parámetro de escala desconocido (>0). Calcular el estimador MV de .

Solución:

Paso1:
La función de verosimilitud es la densidad conjunta de las xi.
x
n n
1 
– f ( x ;D , E ) – E D
D
L(E / x) E
e xi 
i 1
i
i 1
1
D!
 
D 1
1 ª n º  E ¦ xi
L(E / x) – xi e 
(E )n(D 1) (D!)n «¬ i 1 »¼

Paso2:
Aplicando Log a la función de verosimilitud.
n
1 n
L LnL( E / x) nLnD!n(D  1) LnE  DLn– xi 
i 1 E
¦x i 1
i 

Paso 3:
Maximizando (hallando la derivada):

dL

n(D  1)

¦x i
0
dE E E 2


x
Ÿ EˆMV eselvalorestimadodebeta(ɴ).
D 1
Capítulo 12 : Inferencia Estadística 267

EJERCICIO 2:
Sea X₁, X₂,......Xn una muestra aleatoria de una distribución exponencial de parámetro λ.

Solución:

Paso1:
La función de verosimilitud es la densidad conjunta de las xi.
n n
L(O / x) – f ( xi ; O)
i 1
–Oe O
i 1
 Xi

n
O ¦ xi
L(O / x) One i 1


Paso2:
Aplicando Log a la función de verosimilitud:
n
L LnL(O / x) nLnO  O ¦ xi  
i 1

Paso 3:
Maximizando (hallando la derivada):

dL n
 ¦ xi 0
dO O

1
Ÿ OˆMV eselvalorestimadodebeta(ʄ).
x

Verificar que el punto crítico obtenido es en efecto un máximo. Observemos que en este caso el EMV
coincide con el de momentos.

EJERCICIO 3:
Sea X₁, X₂,......Xn una muestra aleatoria de una distribución normal N(μ,σ2).

Solución:

Paso1:
La función de verosimilitud es la densidad conjunta de las xi.
( xi P )2
n n
1 
L(P , V / x) – f ( x ; P,V ) –
i 1
i
i 1 2S V
e 2V 2
 

2 ( xi P )2
§ 1 · 1 
L(P ,V / x) ¨ ¸ ne 2V 2

© 2S ¹ V
268 ESTADÍSTICA PARA INGENIEROS

Paso2:
Aplicando Log a la función de verosimilitud:

1 n
L LnL(P ,V / x) nLn( 2S )  nLn(V ) 
2V
¦(x  P)
i 1
i
2
 

Paso 3:
Maximizando (hallando la derivada):

dL 1
dP V2
¦(x  P)i 0

dL n 1
¦(x  P)
2
  0
dV V V 3 i

¦x i
Ÿ P̂ MV x i 1

n
n

¦ ( x P ) i
2

Ÿ Vˆ MV i 1

n

SESGO
Es la diferencia entre el valor esperado del estimador y el parámetro que estima. Si el sesgo es cero, se
dice que el estimador es insesgado (valor cercano al parámetro) y ésta es una característica buena para
un estimador.
Definición: un estimador puntual Tˆ  del parámetro θ es insesgado si:

 Eɽ( Tˆ )=ɽ Vɽ

Si Tˆ noesinsesgado,sedenominasesgo Tˆ dea:€ Tˆ =E( Tˆ )Ͳɽ
Por lo tanto, un estimador es insesgado si su distribución tiene como valor esperado al
parámetroquesedeseaestimar.

Definición: un estimador puntual del parámetro θ basado en una muestra X₁, X₂,......Xn, es
asintóticamente insesgado si:

ET (Tˆ) n
EFICIENCIA o T T 
of


Definición:sea Tˆ unestimadordeɽ,suerrorcuadráticomedioes:

Capítulo 12 : Inferencia Estadística 269

ECM T (Tˆ) >


ET (Tˆ  T ) 2  @

Sielestimador Tˆ esinsesgadoelerrorcuadráticomedioesigualalavarianzadelestimador.


EFICIENCIA

Sea Tˆ 1 y Tˆ 2 dos estimadores, ambos insesgados, además la varianza de Tˆ 1 es menor que la de Tˆ 2,
entonces los valores de Tˆ 1 son más probables que los de Tˆ 2. "Cuando un estimador tiene una varianza
menorqueotrodecimosqueelestimadoresmáseficiente."

Ejercicios:
Sea X1,X2,...Xn una muestra aleatoria de una población con media  y varianza ², considere los siguientes
estimadores:

x1 x 2
Pˆ 1  ;
2 2
x1 x 2  ...x n 1 x n
Pˆ 2   ;
4 2(n  2) 4
 P̂ 3 x 

¿Cuál es más eficiente?

Solución:

Paso 1:
Veamos si son insesgados.
1
E ( Pˆ 1 ) E ( x1 )  E ( x2 ) P ;
2
§x x  ...x n 1 x n ·
E ( Pˆ 2 ) E ¨¨ 1  2  ¸¸ P 
©4 2(n  2) 4¹

E ( Pˆ 3 ) E( x) P SI


Se observa que las tres ecuaciones son insesgados.


270 ESTADÍSTICA PARA INGENIEROS

Paso 2:
Verificar la eficiencia:

1 2 V2
Var ( Pˆ 1 )
4
V V 2
2
;

nV 2
Var ( Pˆ 2 ) 
8(n  2)
V2
Var ( Pˆ 3 ) 
n

¿Sera más eficiente el que tiene menor varianza?

Paso 3
Eficiencia Relativa:

Var ( Pˆ 1 ) 4( n  2)
J1 Sin>3, P̂ 2 
Var ( Pˆ 2 ) n

Var ( Pˆ 2 ) n2
J2 Sin>4 P̂ 32 ,sin=4 Pˆ 2 yPˆ 3 
Var ( Pˆ 3 ) 8(n  2)


INTERVALOS DE CONFIANZA
Cuando se obtiene una estimación puntual de un parámetro, es conveniente acompañar dicha estimación
por una ‘medida’ de la precisión de la estimación. Un modo de hacerlo es informar el estimador y su
error estándar. Otro modo es reemplazar la estimación puntual por un intervalo de valores posibles para
el parámetro.

Ejercicios:
Sea X₁, X₂,...Xn una muestra aleatoria de una población con una distribución N(,²) con varianza
²conocida por ser los datos normales sabemos que:

( X P )
X ~ N (P , V n ) œ ~ N (0,1) 
2
V
n

( X P )
Pontanto,sesabequelapobabilidadde V seencuentraentreͲ1.96(ͲZɲ/2)y1.96(Zɲ/2)es
n
de0.95(1Ͳɲ),esdecir:
§ ·
P¨  1.96 d ( VX  P ) d 1.96 ¸ 0.95 
© n ¹
Capítulo 12 : Inferencia Estadística 271

Gráficamente:

A partir de esta expresión obtenemos:

§ V V ·
P¨  1.96 d ( X  P ) d 1.96 ¸ 0.95 
© n n¹

Entonces:

§ V V ·
P¨ X  1.96 d P d X  1.96 ¸ 0.95 
© n n¹
Es decir, que la probabilidad de que el intervalo:

ª V V º
« X  1.96 n , X  1.96 n » 
¬ ¼
Contenga al verdadero valor del parámetro μ es 0.95. Este intervalo se denomina intervalo de confianza
para μ de nivel de confianza 0.95 (1–α) donde el Zα/2 se encuetra en una tabla de distribución normal.

Observación:
• Debemos decir la probabilidad de que el intervalo (a,b) contenga al parámetro θ es 1-α
• Una vez construído el intervalo a partir de una muestra dada, ya no tiene sentido hablar de
probabilidad. En todo caso, tenemos ‘confianza’ de que el intervalo contenga a θ. La confianza
está puesta en el método de construcción de los intervalos, que nos asegura que (1 - α) 100%
de las muestras producirán intervalos que contienen a θ.
272 ESTADÍSTICA PARA INGENIEROS

INTERVALOS DE CONFIANZA PARA LOS PARÁMETROS


DE UNA DISTRIBUCIÓN NORMAL
Revicemos algunas propiedades importantes:

Propiedades: sea X₁, X₂,...Xn una muestra aleatoria de una distribución N(μ, σ2), entonces:

( X P )
~ N (P , V n ) œ ~ N (0,1) 
2
a). X V
n

n

(n  1) S 2
2 2
¦ (x  X )
i
b). ~X n 1 donde< S i 1

V2 n 1


c). X yS2sonindependientes


d). n ( X S P ) ~ t( n 1),D 2 

INTERVALO DE CONFIANZA PARA LA MEDIA DE LA


DITRIBUCIÓN NORMAL CON VARIANZA CONOCIDA:

Sea sea X1, X2,...Xn una muestra aleatoria de una distribución N(μ, σ2), con varianza σ2 conocida, entonces:

( X P )
V
~ N (0,1) 
n

§ ·
P¨  ZD d ( VX  P ) d ZD ¸ 1  D 
© 2 n 2¹

De donde se deduce el siguiente intervalo de confianza de nivel 1 - α para μ:

ª V V º
« X  ZD 2 n , X  ZD 2 n » 
¬ ¼

INTERVALO DE CONFIANZA PARA LA MEDIA DE LA


DISTRIBUCION NORMAL CON VARIANZA DESCONOCIDA
Sea X₁, X₂,...Xn una muestra aleatoria de una distribución N(μ,σ2), entonces:

n ( X S P ) ~ t( n 1),D 2 

P§¨  t( n 1),D d n ( X S P ) d t( n 1),D ·¸ 1  D 


© 2 2¹
Capítulo 12 : Inferencia Estadística 273

De donde se deduce el siguiente intervalo de confianza de nivel 1-α para μ:

ª S S º
« X  t( n 1),D 2 n , X  t( n 1),D 2 n » 
¬ ¼

INTERVALO DE CONFIANZA PARA LA VARIANZA DE LA


DISTRIBUCIÓN NORMAL CON MEDIA CONOCIDA:
Sea X₁, X₂,...Xn una muestra aleatoria de una distribución N(μ,σ₂), con media μ conocida, entonces:
2
n
§ xi  P ·
¦ ¨
i 1© V ¹
2
¸ ~ Xn 

Cómo elegimos los percentiles de la distribución χ2 que encierran un área igual a 1 – α

Los elegimos de manera tal que quede un área igual a α/2 en cada extremo. Entonces,

§ 2 n
§ x  P ·
2
·
P¨ X n,(1D 2 ) d ¦ ¨ i
¸ d X 2 n,(D 2 ) ¸ 1  D 
¨ i 1© V ¹ ¸
© ¹
De donde se deduce el siguiente intervalo de confianza de nivel 1α para σ2:

ª n 2 n 2
º
«¦ i x  P ¦ xi  P »
«i 1 , i 1 »
« X 2 n,(D 2 ) X 2 n,(1D 2 ) »
« »
¬ ¼
274 ESTADÍSTICA PARA INGENIEROS

INTERVALO DE CONFIANZA PARA LA VARIANZA DE LA


DISTRIBUCIÓN NORMAL CON MEDIA DESCONOCIDA:
Sea X₁, X₂,...Xn una muestra aleatoria de una distribución N(μ,σ₂) con media μ desconocida, entonces:

(n  1) S 2
~ X n21 
V2

Porlotanto,

§ 2 (n  1) S 2 ·
¨
P¨ X ( n 1),(1 2 ) d
D d X 2( n 1),(D 2 ) ¸¸ 1  D 
© V 2
¹

Seobtieneelsiguienteintervalodeconfianzadenivel1Ͳɲparaʍ2

ª (n  1) S 2 (n  1) S 2 º
« 2 , 2 »
¬« X ( n 1),(D 2 ) X ( n 1),(1D 2 ) ¼»

EJERCICIOS RESUELTOS :
Ejercicio 1:
Sea X₁, X₂,...X₄₉ una muestra aleatoria de una distribución N(μ,σ2)

a) Supongamos que el verdadero valor del desvío estándar es σ = 35 y se observa que la media es 160,
construya un intervalo de confianza para la media de nivel 0.95.

Solución:
Como las v.a. son normales y la varianza es conocida, el intervalo para μ será de la forma:

ª V V º
« X  ZD 2 n , X  ZD 2 n » 
¬ ¼

ConZɲ/2=Z0.025=1.96,ʍ=35,n=49yelvalorobservadodelamediaiguala160.

Obtenemos:

ª 35 35 º
«160  19.6 49 ,160  19.6 49 » =(150.2,169.8)
¬ ¼
Capítulo 12 : Inferencia Estadística 275

b) Supongamos ahora que la varianza es desconocida pero que el valor observado de S es =35.

Solución:
El correspondiente intervalo de confianza para μ será de la forma:

ª S S º
« X  t( n 1),D 2 n , X  t( n 1),D 2 n » 
¬ ¼

ContnͲ1,ɲ/2=t48,0.025=2.01

Obtenemos:

ª 35 35 º
«160  2.01 49 ,160  2.01 49 » =(149.95,170.05)
¬ ¼

c) Suponiendo como antes que observamos que la media es 160 y S = 35 , hallemos un intervalo de
confianza para σ2 de nivel 0.95.

Solución:

Por tratarse de una muestra normal con media desconocida, el intervalo para σ2 será de la forma:
forma:
ª (n  1) S 2 (n  1) S 2 º
« 2 , 2 »
¬« X ( n 1),(D 2 ) X ( n 1),(1D 2 ) ¼»

ConX2nͲ1,ɲ/2=X248,0.025=69.02yX2nͲ1,1Ͳɲ/2=X248,0.975=30.75

Obtenemos:

ª 48(35)2 48(35)2 º
« , » =(851.93,1912.20)
¬ 69.02 30.75 ¼

Unintervalodeconfianzaparaʍdenivel0.95será:

ª 48(35)2 48(35)2 º
« , » =(29.19,43.73)
¬« 69.02 30.75 ¼»
276 ESTADÍSTICA PARA INGENIEROS

Ejercicio 2:
Se lanza una moneda 400 veces y se obtienen 175 caras y 225 sellos. Hállese un intervalo confidencial
del 90% para la probabilidad de obtener cara. Hallase un intervalo del 99% de confianza. ¿Está bien
construida la moneda?

Solución:
A: Obtener cara en 400 lanzamientos
Si n 
Por aproximación
p a la Normal

pˆ nA n: 175 400 

Ÿ E ( pˆ ) p


Var ( pˆ ) p(1  p) n o pˆ ~ N p, p(1  p) n 



Sidefinimoselintervalocomo[L(x),U(x)]

IntervalodeConfianza99%:

Entonces =0.01 /2=0.005



L( x) pˆ  Z D 2 pˆ (1  pˆ ) n 0.4375  2.81(0.0248) 0.397  

U ( x) pˆ  Z D 2 pˆ (1  pˆ ) n 0.4375  2.81(0.0248) 0.478  

Intervalo de Confianza 95%

Entonces =0.5 /2=0.025

L(x)=0.374
U(x)=0.374

TESTS DE HIPÓTESIS (PRUEBA DE HIPÓTESIS)


Frecuentemente el objetivo del estudio es decidir, en base a la información que provee la muestra, entre
dos hipótesis relativas a un parámetro.

A la primera hipótesis se la denomina hipótesis nula y se designa H₀. Esta hipótesis implica que no hay
efecto, es la hipótesis del “status quo”, o sea del no cambio respecto a la situación inicial.

La segunda hipótesis se denomina hipótesis alternativa y se designa H₁. Se la suele llamar la hipótesis
del investigador.
Capítulo 12 : Inferencia Estadística 277

Test (Prueba)
Es una regla de decisión basada en un estadístico o función de la muestra, en este caso X , y en una zona
de rechazo, es decir un conjunto de valores para los cuáles se rechaza la hipótesis nula H₀.

Eligir la zona de rechazo


Observemos que al tomar una decisión en base a una muestra, podemos cometer dos tipos de error:

No se rechaza Ho Se rechaza Ho
Ho es cierta No hay error Error tipo I
Ho no es cierta Error tipo II No hay error

Si no hay error, tambien se puede decir decisión correcta.


Debido a la variabilidad muestral, es imposible construir tests en los cuales estemos absolutamente
seguros de tomar la decisión correcta. Lo que podemos hacer es tratar de minimizar las probabilidades
de error.

Llamaremos nivel de significación del test y lo designaremos α, a la probabilidad de error tipo I (en
realidad a la máxima probabilidad de error tipo I) y designaremos β a la probabilidad de error tipo II.

No se rechaza Ho Se rechaza Ho
Ho es cierta No hay error α
Ho no es cierta β No hay error

Como el estadístico se construye bajo la condición de que Ho es verdadera, lo que podemos controlar es
la probabilidad de error tipo I. Elegiremos la zona de rechazo del test de manera que la probabilidad de
error tipo I sea un valor α predeterminado.

LA FUNCIÓN DE POTENCIA

Definición: la función de potencia de un test π(μ) es la probabilidad de rechazar la hipótesis nula cuando
el valor verdadero del parámetro es μ.

Utilizando la función de potencia es posible obtener una expresión general para los dos tipos de errores,
pues:

­°D ( P ) si P  H 0
S (P ) ® 
°̄1  E ( P ) si P  H1
Donde α(μ) y β(μ) denota las probabilidades de error tipo I y tipo II, respectivamente, cuando el verdadero
valor del parámetro es μ.
278 ESTADÍSTICA PARA INGENIEROS

TIPOS DE HIPÓTESIS A PROBAR :

Hipótesisunilaterales:

Ho:ɽчɽo vs
H1:ɽ>ɽo

Ho:ɽшɽo vs
H1:ɽ<ɽo

Hipótesisbilaterales:

Ho:ɽ=ɽo vs
H1:ɽтɽo
La forma de la región de rechazo dependerá de la hipótesis alternativa a probar.

PRUEBA DE HIPÓTESIS DE NIVEL  PARA LOS PARÁMETROS


DE LA DISTRIBUCIÓN NORMAL
Sea X1, X2,...Xn una muestra aleatoria de una distribución N(μ,σ2).

PRUEBA PARA LA MEDIA CUANDO LA VARIANZA ES CONOCIDA


Supongamos que σ² = σ²₀es conocida y consideremos las siguientes hipótesis:

Ho:ɽчɽo vs H1:ɽ>ɽo
Ho:ɽшɽo vs H1:ɽ<ɽo
Ho:ɽ=ɽo vs H1:ɽтɽo

( X  P0 )
Estadísticodelaprueba: ZCalculado 
V0
n
Bajo:

a)Ho:ɽчɽo, Z Calculado ~ N (0,1) 
b)Ho:ɽшɽo, Z Calculado ~ N (0,1) 
c)Ho:ɽ=ɽo, ZCalculado ~ N (0,1) 
Capítulo 12 : Inferencia Estadística 279

Región de rechazo: la zona de rechazo depende de la hipótesis alternativa.

a) ZCalculado t ZD 

 Ho Se Acepta


 Ho Se Rechaza

 D
 0 ZD

b) Z Calculado d  ZD 
 Ho Se Acepta


Ho Se Rechaza

 D
  ZD 0



c) ZCalculado t Z D 
2

Ho Se Acepta 


Ho Se Rechaza Ho Se Rechaza

D/2 D/2 

PRUEBA P -Z D/2 0 Z D/2


PRUEBA PARA LA MEDIA CUANDO LA VARIANZA ES DESCONOCIDA


Supongamos ahora que la varianza es desconocida y consideremos las mismas hipótesis sobre μ. En este
caso el Z calculado tiende a una t-student con (n-1) grados de libertad:

Ho:ɽчɽo vs H1:ɽ>ɽo
Ho:ɽшɽo vs H1:ɽ<ɽo
Ho:ɽ=ɽo vs H1:ɽтɽo

Estadísticodelaprueba:

( X  P0 )
ZCalculado S

n
280 ESTADÍSTICA PARA INGENIEROS

Bajo:

a)Ho:ɽчɽo, ZCalculado ~ tn 1 
b)Ho:ɽшɽo, ZCalculado ~ tn 1 
c)Ho:ɽ=ɽo, ZCalculado ~ tn 1 

Regiónderechazo:lazonaderechazodependedelahipótesisalternativa.

a) ZCalculado t t( n 1),D 
b) Z Calculado d t( n 1),D 

c) ZCalculado t t( n 1), D 


2

PRUEBA PARA LA VARIANZA CUANDO LA MEDIA ES DESCONOCIDA



Lashipótesisaprobarson:

Ho:ʍ2чʍ2o vs H1:ʍ2>ʍ2o
2 2
Ho:ʍ шʍ o vs H1:ʍ2<ʍ2o
2 2
Ho:ʍ =ʍ o vs H1:ʍ2тʍ2o

( n 1) S 2
Estadísticodelaprueba: U 
V o2
Bajo:
a)Ho:ʍ2чʍ2o, U ~ X n21 
b)Ho:ʍ2шʍ2o, U ~ X n21 
c)Ho:ʍ2=ʍ2o, U ~ X n21 

Regiónderechazo:lazonaderechazodependedelahipótesisalternativa.

a) U t X (2n 1),D 
b) U d  X (2n 1),D 
c) U t X (2n 1), D ó U d X (2n 1),1 D 
2 2

El tamaño de la zona de rechazo depende del nivel.


Capítulo 12 : Inferencia Estadística 281

PRUEBA DE HIPÓTESIS DE NIVEL APROXIMADO (O ASINTÓTICO)  PARA


LA MEDIA DE UNA DISTRIBUCIÓN CUALQUIERA
Sea X₁, X₂,...X₄₉ una muestra aleatoria de una distribución con media μ y varianza σ2<∞. Aplicando el
Teorema Central del Límite, sabemos que:

( X P )
V

o
d
Z ~ N (0,1) 
n

Además (propiedad para construir intervalos de confianza de nivel asintótico (1- α) para la media de una
distribución cualquiera).

( X P )

o
d
Z ~ N (0,1)½
V ° ( X P ) d
n
¾Ÿ S  o Z ~ N (0,1) 
V
S

op
1 °¿ n


Porlotanto,sinessuficientementegrande:

( X P )
S
~ N (0,1) 
n

Supongamosquesedeseaprobaranivelaproximadoɲalgunadelashipótesissiguientes:

Ho:μчμo vs H1:μ>μo
Ho:μшμo vs H1:μ<μo
Ho:μ=μo vs H1:μтμo

Cuando n es suficientemente grande, utilizando como estadístico ( X  P0 ) las siguientes regiones de
T S
n

rechazo proveen la prueba del nivel requerido para cada una de las hipótesis:

a) T t ZD 
b) T d  ZD 
c) T t ZD 
2
282 ESTADÍSTICA PARA INGENIEROS

TEST DE HIPÓTESIS DE NIVEL APROXIMADO (O ASINTÓTICO)  PARA


UNA PROPORCIÓN (PARÁMETRO P DE LA DISTRIBUCIÓN BINOMIAL)
n
Sea X₁, X₂,...X₄₉una muestra aleatoria de una distribución Bi(1,p). Entonces, X ¦ x ~ Bi(n, p) .
i 1
i

Aplicando el Teorema Central del Límite, si n es suficientemente grande:


( X  p)
p (1 p )

o
d
Z ~ N (0,1) 
n

Siendo X ,la proporción muestral o frecuencia relativa de éxitos.

Una prueba de nivel aproximado α para las hipótesis:



Ho:pчpo vs H1:p>μo
Ho:pшpo vs H1:p<μo
Ho:p=po vs H1:pтμo

( X  p0 )
Se basa en el estadístico , el cual si Ho es cierta, tiene distribución aproximada N(0,1). Las
p0 (1 p0 )
n

regiones de rechazo estarán dadas por:



( X  p0 )
a) p0 (1 p 0 )
t ZD 
n
( X  p0 )
b) p 0 (1 p 0 )
d  ZD 
n

( X  p0 )
c) p 0 (1 p0 )
t ZD 
2
n

EJERCICIOS RESUELTOS :
Ejercicio 1:
Suponga que {L(x), U(x)} es un intervalo del (1-)% de confianza para el parámetro C. Mostrar que la
siguiente regla de decisión tiene un nivel de significación de % para la hipótesis Ho : C=C₀ Vs H₁ : CC₀
Rechazar H₀ , si y sólo si, C₀ <L(x) o C₀>U(x).

Solución:

a.ͲHo:C=Co 
 H1:CzCo

b.ͲD%

Capítulo 12 : Inferencia Estadística 283

c.ͲEstadístico:supongamosnpequeñoyV2desconocido:
   
 t C ( x )  C 0
|t , D 2 n 1
Var (C ( x))
calc

d.ͲRegladedecisión: 

tcalc<ͲtD/2,nͲ1ótcalc>tD/2,nͲ1serechazalahipótesisHo   
ͲtD/2,nͲ1<tcalc>tD/2,nͲ1  seaceptalahipótesisHo


SerechazaH0si:


C ( x)  C 0
t
 calc  tD 2 , n 1 Ÿ C ( x)  tD 2 , n 1 Var (C ( x))  C 0 Ÿ U ( x)  C 0 
Var (C ( x))


SerechazaH0:



C ( x)  C 0
t calc ! tD 2 , n 1 Ÿ C ( x)  tD 2 , n 1 Var (C ( x)) ! C 0 Ÿ L( x) ! C 0 
Var (C ( x))


Ejercicio 2:
Se lanza una moneda 400 veces y se obtienen 175 caras y 225 sellos. Hállese un intervalo confidencial
del 90% para la probabilidad de obtener cara. Hallase un intervalo del 99% de confianza. ¿Está bien
construida la moneda?

Solución :

Como n  

A: Obtener cara en 400 lanzamientos por aproximación a la Normal.


p p
pˆ nA n: 175 400 

E ( pˆ ) p 

Var ( pˆ ) p (1  p ) n o pˆ ~ N p, p (1  p ) n 

¿Estábienhechalamoneda?
284 ESTADÍSTICA PARA INGENIEROS

a.Ͳ Ho:p=0.5 
H1:pz0.5

b.Ͳ D=5%  

c.ͲComonofentoncesutilizamosZ(NormalEstándar).
 
d.ͲRegladedecisión:

RechazamosHo:Zcalc<ͲZD/2óZcalc>ZD/2 
AceptamosHo:ͲZD/2<Zcalc>ZD/2 

pˆ  E ( pˆ ) 0.4375  0.5
e.Ͳ t calc 2.5 Ÿ t calc  Z D / 2 1.96  
Var ( pˆ ) 0.5(0.5) / 400

RechazamosH0

EJERCICIOS DE LABORATORIO
Ejercicio Práctico N° 1
Permitirá utilizar los principales procedimientos del menú comparación de medias. Los datos utilizados
serán los recopilados en la encuesta del supermercado.

En el menú Analizar se encuentra el procedimiento Comparar medias que permite realizar diferentes
tipos de contrastes sobre una, dos y hasta ‘n’ medias. El aspecto de dicho menú es el siguiente: Analizar
-> Comparación de Medias (Compare Means).

Para realizar análisis con los procedimientos de Tablas Personalizadas (Medias, Prueba T para una
muestra, Prueba T para muestras independientes, Prueba T para muestras relacionadas, ANOVA de un
factor), se deben seguir los cuadros de diálogo que se nos presenta .
Capítulo 12 : Inferencia Estadística 285

A continuación, se presenta una explicación detallada del cuadro de diálogo correspondiente a los
principales procedimientos.

Medias
Utilizando el procedimiento Medias del PASW, se pueden calcular medias y variancias. Veamos un
ejemplo con las variables de la encuesta del supermercado. Para ello primero debemos trasladar las
variables a quienes se desea analizar a los cuadros de la derecha del modo siguiente (en nuestro caso las
variables son: venta de artículos de aseo y edad):

Luego, pulsar en el botón Aceptar (OK) para que se ejecute la orden. Los resultados obtenidos aparecen
en la tabla siguiente:

La tabla muestra una comparación de las medias de la venta de artículos de aseo personal, en cada
subgrupo de la variable edad. Como es el caso que la media de los adolescentes en la compra de artículos
de aseo personal es 2.2667; la media de los jóvenes en la compra de artículos de aseo personal es 1.7200.

Además, si pulsamos en el botón ‘Opciones’, obtenemos como resultado el cuadro de diálogo siguiente.

Veamos un ejemplo. Para ello hay que trasladar al cuadro de la derecha las estadísticas (mínimo, máximo)
que deseamos analizar del modo siguiente (puede trasladarse una o más estadísticas).

Obteniendo la tabla de resultados siguiente:


286 ESTADÍSTICA PARA INGENIEROS

Se observa en la tabla de resultados los valores de la media, desviación estándar, el valor mínimo, el valor
máximo de los grupos de edades en las ventas de artículos de aseo personal.

También se pueden comparar medias como son: media aritmética, media armónica y media geométrica.
Como se observa en el cuadro de resultados siguiente:

Se observa en la tabla de resultados la comparación de medias de los grupos de edades en las ventas
de abarrotes.

Prueba T
Para comparar medias utilizando la prueba T hay tres opciones diferentes que permiten realizar
contrastes de hipótesis sobre una media, dos medias con muestras independientes y dos medias con
muestras relacionadas.

Prueba T para una muestra


Contraste obre una media: al seleccionar la opción menú Analizar ->Comparar medias -> Prueba T para
una muestra (one-sample T Test).

Para realizar el contraste hay que trasladar al cuadro Contrastar variables (Test Variable(s)) a la variable
cuya media se desea contrastar, indicar en Valor de prueba (Test Value.) el valor de la media poblacional
en la hipótesis nula y luego pulsar el botón Aceptar (OK).

Por ejemplo, si se quiere comprobar si la media poblacional de la venta de verduras es igual a ‘6’
( H₀: =6 y = 0,05), se seleccionan las opciones mostradas en cuadro de diálogo de la Prueba T para una
muestra (One Sample T Test) .
Capítulo 12 : Inferencia Estadística 287

Además, si pulsamos sobre el botón Opciones puede modificarse el nivel de confianza que por defecto
es 0,95. El cuadro de diálogo de Opciones es el siguiente:

El resultado del análisis se muestra en el visor de resultados: El PASW proporciona dos tablas de
resultados.

En la primera aparecen el número de casos, la media, la desviación típica y el error típico de la media.

En la segunda tabla aparecen los resultados de la prueba T. En primer lugar el valor de la estadística de
contraste. Los grados de libertad (df), el nivel crítico bilateral, la diferencia entre la media muestral y la
media poblacional () de la hipótesis nula y, por último, los límites inferior y superior del intervalo de
confianza para la diferencia (Media Muestral – ).
288 ESTADÍSTICA PARA INGENIEROS

Cuando se realizan contrastes de hipótesis con el PASW, la decisión sobre H0 debe tomarse a partir del
nivel crítico, que es la probabilidad asociada al estadístico de contraste.

El PASW suele ofrecer el nivel crítico bilateral. En el ejemplo, el valor de T ha resultado ser 6,254 y
nivel crítico bilateral 0,000. Esto significa que P (T -6.254 ) + P ( T 6.254) = 0,000, lo que nos permite
rechazar H₀ con  = 0,05 ( = 0,05 > 0.000). Esta decisión también puede tomarse a partir del intervalo
de confianza para la diferencia de medias, el cual no incluye el valor 0.

Para poder visualizar mejor se presenta el gráfico de la distribución T Bilateral (dos Colas).

HipótesisPlanteada:  Ho:P=Po 
    H1:PzPo


NiveldeSignificancia:  D%

Tˆ  E( Tˆ )
EstadísticodePrueba:  t calc | tD 2 ,n 1 
Var( Tˆ )

Regladedecisión:

Ho Se Acepta

Ho Se Rechaza Ho Se Rechaza

D/2 D/2
-TD/2 TD/2
Z Z

T<ͲTD/2yT>TD/2 serechazalahipótesisHo

ͲTD/2<T<TD/2 seaceptalahipótesisHo

En caso de haber deseado realizar un contraste unilateral, es necesario dividir por dos el nivel crítico
bilateral. Continuando con el ejemplo, para contrastar la hipótesis:

H₀:   6
H₁:  > 6
Capítulo 12 : Inferencia Estadística 289

Hay que dividir por dos el nivel crítico bilateral: 0,000 / 2 = 0,00, que es la probabilidad correspondiente
al suceso: T  6.264. En este caso también se rechazaría H₀ con = 0,05.

Prueba T para muestras independientes


Contraste sobre dos medias independientes. Al seleccionar la opción menú Analizar->Comparar
medias-> Prueba T para muestras independientes (Idependent–Samples T Test) aparece el cuadro de
diálogo siguiente:

Trasladar aquí la variable


sobre la que se desea realizar
el contraste.

Para realizar el contraste es


necesario indicar cómo están
definidos los dos grupos en el
editor de datos.

En el cuadro de diálogo se ha indicado un contraste de las medias de las variables venta de verduras, en
los dos grupos de la variable Sexo: Además, es necesario indicar cuál es valor de la variable Sexo en cada
grupo, para lo cual se pulsa el botón Definir grupos (Define Groups), con lo que aparece un subcuadro
de diálogo:

De este modo se indica que se van a comparar los dos grupos, en los que Sexo toma los valores 0 (mujer)
y 1 (varón).

La prueba T sobre dos medias independientes tiene dos versiones, dependiendo de si se asumen varianza
iguales o distintas.

El PASW ejecuta en primer lugar la prueba de Levene para contrastar la hipótesis nula de que las varianzas
poblacionales de los dos grupos son iguales. En la siguiente línea presenta la prueba de contrastar la
hipótesis nula de que las varianzas poblacionales de los dos grupos son diferentes.
290 ESTADÍSTICA PARA INGENIEROS

A continuación, proporciona el resultado de las dos versiones de la prueba T:

Es responsabilidad del usuario escoger el resultado de una versión de la prueba T, en función del resultado
del contraste sobre varianzas. El nivel crítico de cada contraste aparece en la columna Sig.

La hipótesis nula de la prueba de Levene es H₀: 21 = 22, es decir, que la varianza poblacional es igual
en ambos grupos. En este ejemplo, el estadístico de contraste (con valor F = 0,262) no ha resultado
significativo, según indica el nivel crítico igual a 0,613. Por tanto, al mantenerse H0 puede asumirse que
las varianzas son iguales.

Se puede observarse que en la tabla de resultados aparecen dos valores de T. En este caso se utiliza el
primero de ellos, correspondiente al supuesto de igualdad de varianzas (T = -1.218).

De nuevo, la decisión sobre la hipótesis nula debe tomarse a partir del nivel crítico (Igual a 0,233), que en
este caso indica que el valor de T no es significativo y por tanto, que las medias de las venta de verduras
son iguales en varones y mujeres.

Además, si pulsamos sobre el botón Opciones puede modificarse el nivel de confianza que por defecto es
0,95. El cuadro de diálogo de Opciones es el siguiente:

Prueba T para muestras relacionadas


Contraste sobre dos medias relacionadas: al seleccionar la opción menú Analizar->Comparar medias
-> Prueba T para muestras relacionadas (Paired Samples T Test) aparece el cuadro de diálogo siguiente:
Capítulo 12 : Inferencia Estadística 291

Ingrese aquí la primera variable Ingrese aquí la segunda variable

Para comparar las medias con dos muestras relacionadas es necesario seleccionar dos variables de la
lista, tal y como se observa en el cuadro de diálogo.

Luego, para contrastar la hipótesis nula de que la diferencias de medias de Venta de Verduras (Variable
1) y Venta de Abarrotes (Variable 2) es significativamente diferente de cero, se pulsa sobre el botón
flecha para trasladar las variables al cuadro de variables seleccionadas. Así como se muestra en la
figura siguiente:

Luego pulsar en el botón Aceptar (OK) para que se ejecute la orden contraste. Los resultados obtenidos
aparecen en la ventana Visor de resultados. Los resultados obtenidos son los siguientes:
292 ESTADÍSTICA PARA INGENIEROS

Para realizar este contraste se calcula una nueva variable que es la diferencia entre las originales D =
Venta de verduras – Venta de abarrotes. La salida de resultados muestra la media de la variable D, así
como su desviación típica, el error típico de la media y el intervalo de confianza. También puede verse el
estadístico de contraste T, los grados de libertad (df) y el nivel crítico bilateral.

Puesto que el nivel crítico vale p =0,000 se rechaza H0 con un nivel de confianza de 0,95 y se concluye que
la media en la población de diferencia es significativamente distinta de cero. Es decir, existen diferencias
significativas entre el promedio de ventas tanto verduras como de abarrotes.

Además si pulsamos sobre el botón Opciones puede modificarse el nivel de confianza que por defecto es
0,95. El cuadro de diálogo de Opciones es el siguiente:

ANOVA de un factor

Análisis de varianza de un factor en un diseño completamente aleatorizado


ANOVA A – EF – CA

Existen distintos procedimientos en PASW para realizar un análisis de varianza de un factor en un diseño
completamente aleatorizado.
Capítulo 12 : Inferencia Estadística 293

Uno de los más directos y sencillos se encuentra dentro del menú: Analizar ->Comparar medias ->
ANOVA de un factor (One-Way ANOVA). Se obtiene el siguiente cuadro de diálogo:

Por ejemplo, para contrastar la hipótesis de igualdad de medias en la variable venta de bebidas en los
tres grupos de Edad (Adolescente, Joven y Adulto), se ingresa al menú Analizar ->Comparar medias ->
ANOVA de un factor y se procede llenar el cuadro de dialogo de la manera siguiente:

Dentro del cuadro de diálogo ANOVA de un factor hay varios sub-menús. Por ejemplo, si pulsando el
botón Opciones… puede indicarse que PASW calcule estadísticos descriptivos para las variables en los
‘n’ grupos y también que compruebe el supuesto de homocedasticidad (homogeneidad de varianzas).

Si se pulsa Aceptar (OK), el resultado obtenido es el siguiente:


294 ESTADÍSTICA PARA INGENIEROS

Lo primero que aparece en el visor de resultados son los estadísticos descriptivos para los ‘n’ (3) grupos.
Como se observa, el grupo que más gasta en bebidas son los adolescentes y el que menos gasta en
bebidas son los adultos.

A continuación, se muestra el resultado del test de Levene sobre homogeneidad de varianzas, cuya
hipótesis nula es H₀: ²₁ = ²₂ = ²₃:

Puesto que el nivel crítico (p = 0, 460) es mayor que  se mantiene la hipótesis nula sobre igualdad de
varianzas. Por tanto, podemos asumir que se cumple el supuesto de homocedasticidad (homogeneidad
de varianzas).

A continuación PASW muestra la tabla resumen el ANOVA:

En la tabla aparecen las sumas de cuadrados inter grupos, intra grupos (error) y total. La tabla también
contiene los grados de libertad, medias cuadráticas, estadísticos de contraste F y su nivel crítico (Sig.). En
este ejemplo, puesto que el nivel crítico (0.6379) es mayor de 0,05 se acepta la hipótesis nula del ANOVA
(H₀: ₁= ₂= ₃) y puede concluirse que no existen diferencias significativas en el gasto medio de bebidas
por los sujetos de cada edad (Adolescente, Joven y Adulto).

Comparaciones múltiples entre medias

Comparaciones de tendencia y F planeadas


Es necesario pulsar el botón Contrastes, que se encuentra situado en el cuadro de diálogo del
procedimiento ANOVA de un factor.

En este ejemplo, como el número de media es n = 3 se podría realizar el contraste de tendencia lineal o
cuadrática etc.

Si se quiere realizar la comparación de tendencia sobre el componente cuadrático se indicaría del


siguiente modo:
Capítulo 12 : Inferencia Estadística 295

El SPS proporciona los resultados del componente indicado y también de los de orden inferior, en este
ejemplo, puesto que n = 3, son el cuadrático y el lineal.

La tabla de resultados proporciona la F del ANOVA. Puede verse que su valor es 0.459 en este ejemplo
(el mismo que en la salida de resultados comentada anteriormente). Además proporciona la F del
componente lineal en la fila denominada no ponderado, que se toma el valor 0.817 y la del componente
cuadrático, que ha resultado ser 0.011. La columna Sig se refiere a la hipótesis sobre cada tendencia,
que se acepta en ambos casos con p< 0.05 en la tendencia lineal y p < 0.01 en la cuadrática; por tanto, la
relación entre ambas variables es lineal.

Para llevar a cabo comparaciones planeadas es necesario introducir los coeficientes directamente. Por
ejemplo, para comparar la media en venta de bebidas del grupo 3 (Adulto) de Edad con la media de los
grupos 1 (Adolescente) y 2 (Joven) tomados juntos, hipótesis planteada sería:
296 ESTADÍSTICA PARA INGENIEROS

Y en PASW se indicaría mediante:

La salida de los resultados incluye los coeficientes que se han utilizado en la comparación, lo cual
permite comprobar si han sido asignados correctamente a los grupos. También incluye el estadístico T
del contraste de medias en sus dos versiones: asumiendo varianzas iguales y distintas.
Puesto que la prueba de Levene indicó igualdad de varianzas, el estadístico de prueba T vale - 0.921 y su
nivel crítico 0,365 por lo que se mantiene H0 y no puede concluirse que existan diferencias significativas
entre los sujetos del grupo Adolescentes Jóvenes de frente a los Adultos.

Como se aprecia en los siguientes cuadros:


Capítulo 12 : Inferencia Estadística 297

Comparaciones a posteriori

Al pulsar el botón Post Hoc aparece el cuadro de diálogo correspondiente a las comparaciones a posteriori:

Puede verse que permite seleccionar distintas pruebas: Tukey, Dunnett, Scheffé, etc. Continuando con
el ejemplo, al seleccionar la prueba de Tukey, la salida PASW muestra la tabla de resultados de dicha
prueba.

En la tabla puede verse la diferencia entre las medias de la venta de Bebidas en cada uno de los pares
de grupos definidos por la variable Edad. También se incluye el error típico de la diferencia de medias, el
nivel crítico asociado a dicha diferencia (Sig.) y los límites del intervalo de confianza. Como se observa, los
resultados indican que No existen diferencias significativas entre el grupo Adolescentes y Joven (p<0,05)
y Adolescentes y Adulto (p<0,05), el grupo Joven y Adolescente (p<0,05) y Joven y Adulto (p<0,05).
298 ESTADÍSTICA PARA INGENIEROS

EJERCICIOS PROPUESTOS:
1. Si {X₁, X₂,......Xn } es una muestra aleatoria proveniente de una distribución gamma con parámetro
conocido  y parámetro de escala desconocido (>0). Calcular el estimador MV de .

2. Sea X₁, X₂,......Xn una muestra aleatoria de una variable aleatoria X que se distribuye con función de
densidad dada por: p
­ 1 Tx
° 2 xe x!0
f ( x) ®T 
°0 o.c.
¯
3. Obtenga el estimador Máximo Verosímil de . Suponga que se tiene una muestra de tamaño 2 de
una variable aleatoria con distribución exponencial de parámetro . Se dispone de los siguientes
estimadores:

1 4
Eˆ1 (X1  X 2 )  y Eˆ 2 X1X 2 
2 S

Determinar la eficiencia de dichos estimadores.

4. Sea X₁, X₂,...Xn una muestra aleatoria de una población con media  y varianza ². Cuál de los
estimadores es más eficiente Pˆ 1 X 1 , Pˆ 2 X 
a) P̂1   b) P̂ 2   c) P̂1 y P̂ 2  d)N.A.

5. Sea X1, X2,...Xn una muestra aleatoria de una población con media  y varianza ². Cuál de los
estimadores es más eficiente. P̂1 , P
ˆ 2 X .SiE( P̂1 )<E( P̂ 2 ).

a) P̂1 y P̂ 2  b) P̂1   c) P̂ 2   d)N.A.

6. Suponga que {L(x), U(x)} es un intervalo del (1-)% de confianza para el parámetro C. Entonces si
L(x) < C₀ <U(x).

a) Se rechaza H₀ b) Se acepta H₀ c) N .A.

7. Si Z calc = -1.76, además -Z= =-1.56 y -Z/2 = 1.96 entonces:

a) Se rechaza H₀ b) Se acepta H₀ c) N .A.

8. Sea X₁, X₂,......Xn una muestra aleatoria de una variable aleatoria X que se distribuye con función de
densidad dada por:
Capítulo 12 : Inferencia Estadística 299
p
 ­ 1 T x
 °D e x!0
 f(x) ® T
 °0 o.c.
 ¯
a).- Hallar el estimador de momentos de  y .
b).- Si  es conocido, obtenga el estimador máximo verosímil de .

9. Para estimar el rendimiento anual de ciertos valores, un grupo de investigadores toma una muestra
aleatoria de 50 de esa clase de valores. La media y la desviación estándar del rendimiento anual
resultaron 8.71% y 2.1% respectivamente.

a) Estime el verdadero rendimiento anual promedio para esa clase de valores usando un intervalo
de confianza del 90%.
b) Utilizando el resultado que se obtiene en (a), se puede aceptar que el verdadero rendimiento
anual promedio es 8%.
c) Utilizando el resultado que se obtiene en (a), hallar un intervalo de confianza del 95%.

10. La Compañía N&Q entrena al personal de su laboratorio mediante 2 programas de capacitación A


y B, y se aplica un examen común al final. Como parte de un estudio existente sobre el programa
de entrenamiento, se comparan las calificaciones finales de las pruebas. Si dichas calificaciones se
distribuyen normalmente, ¿existe alguna diferencia entre los resultados finales de los 2 programas?
Utilice =0.1. Considere la siguiente información:

A B
Tamaño de muestra 21 31
Calificación media 114.6 117.9
Desviación Estándar 9.1 10.4

11. Con la finalidad de estudiar el tiempo que necesita una cajera para atender a los clientes de una
tienda de autoservicio, se generaron (números aleatorios) tiempo de servicio de 3000 clientes con
distribución normal de tiempo promedio de servicios de 4.2 minutos y desviación estándar de 1.2
minutos. Luego se selecciono una muestra 400 clientes. Para la muestra de tamaño 400:

a) Estime el verdadero tiempo promedio de servicio usando un intervalo de confianza del 90%.
b) Se puede aceptar que el verdadero tiempo promedio es 4.
c) Hallar un intervalo de confianza del 98%.
d) Hallar un intervalo de confianza del 99%.
e) Cuál de los estimadores es más eficiente. Pˆ 1 ( X 1  X 2 .... X 100 ) / 100 ,
Pˆ 2 X .
f) Cuál de los estimadores es más eficiente. Pˆ 1 ( X 1  X 2 .... X 150 ) / 150 ,
Pˆ 2 ( X 151  X 152 .... X 400 ) / 250 
300 ESTADÍSTICA PARA INGENIEROS

12. Con la finalidad de estudiar el tiempo que necesita una cajera para atender a los clientes de una
tienda de autoservicio, se generaron (números aleatorios) tiempo de servicio de 1500 clientes con
distribución normal de tiempo promedio de servicios de 4.8 minutos y desviación estándar de 1.3
minutos. Luego se seleccionó una muestra 250 clientes. Para la muestra de tamaño 250:

a) Estime el verdadero tiempo promedio de servicio usando un intervalo de confianza del 90%.
b) Se puede aceptar que el verdadero tiempo promedio es 4.
c) Se puede aceptar que el verdadero tiempo promedio es 3.9 con un intervalo de confianza del
99%. Luego, hallar un intervalo de confianza para la diferencia de medias.
d) Hallar un intervalo de confianza del 90%.
e) Hallar un intervalo de confianza del 99%.
APÉNDICE
302 ESTADÍSTICA PARA INGENIEROS
Apéndice 303
304 ESTADÍSTICA PARA INGENIEROS
Apéndice 305
306 ESTADÍSTICA PARA INGENIEROS
Apéndice 307
308 ESTADÍSTICA PARA INGENIEROS
Apéndice 309

NÚMEROS ALEATORIOS

Es una tabla de números entre 0 y 9 cuyo orden no obedece ninguna regla de formación; se pueden leer
individualmente o en grupos y en cualquier orden, en columna vertical hacia abajo o hacia arriba, en fila,
diagonalmente a la derecha o la izquierda. Si se desea formar números aleatorios en un determinado
rango basta con calcular la proporción; otra forma de usarlo es sumando dos números tomados de
alguna posición o multiplicarlos.

Una tabla de números aleatorios es útil para seleccionar al azar los individuos de una población conocida
que deben formar parte de una muestra.

Por ejemplo: para ser presentadas estas cifras se agrupan en números de 4 dígitos, formando bloques
de 5 filas y 10 columnas, facilitando de esta forma su lectura que puede iniciarse desde cualquier parte
de la tabla.
________________________________________
4251 5149 4751 4847 4249 4648 5047 4847 5156 8789
4849 5051 5046 4756 4738 5350 4746 4847 4846 2346
5692 9870 3583 8997 1533 6466 8830 7271 3809 4256
2080 3828 7880 0586 8482 7811 6807 3309 2729 2235
1039 3382 7600 1077 4455 8806 1822 1669 7501 8330

6477 5289 4092 4223 6454 7632 7577 2816 9002 2365
4554 6146 4846 4647 5034 4646 5139 5355 5249 2224
0772 2160 7236 0812 4195 5589 0830 8261 9232 0902
0092 1629 0377 3590 2209 4839 6332 1490 3092 2390
7315 3365 7203 1231 0546 6612 1038 1425 2709 3092

5775 7517 8974 3961 2183 5295 3096 8536 9442 2392
5500 2276 6307 2346 1285 7000 5306 0414 3383 2303
3251 8902 8843 2112 8567 8131 8116 5270 5994 9092
4675 1435 2192 0874 2897 0262 5092 5541 4014 2113
3543 6130 4247 4859 2660 7852 9096 0578 0097 1324

3521 8772 6612 0721 3899 2999 1263 7017 8057 3443
5573 9396 3464 1702 9204 3389 5678 2589 0288 6343
7478 7569 7551 3380 2152 5411 2647 7242 2800 3432
3339 2854 9691 9562 3252 9848 6030 8472 2266 3255
5505 8474 3167 8552 5409 1556 4247 4652 2953 9854
310 ESTADÍSTICA PARA INGENIEROS

6381 2086 5457 7703 2758 2963 8167 6712 9820 5324
0935 5565 2315 8030 7651 5189 0075 9353 1921 0222
2605 3973 8204 4143 2677 0034 8601 3340 8383 3243
7277 9889 0390 5579 4620 5650 0210 2082 4664 5643
5484 3900 3485 0741 9069 5920 4326 7704 6525 1249

7227 0104 4141 1521 9104 5563 1392 8238 4882 2324
8506 6348 4612 8252 1062 1757 0964 2983 2244 7654
5086 0303 7423 3298 3979 2831 2257 1508 7642 1245
3690 2492 7171 7720 6509 7549 2330 5733 4730 4534
0813 6790 6858 1489 2669 3743 1901 4971 8280 0835

6905 7127 5933 1137 7583 6450 5658 7678 3444 3754
8387 5323 3753 1859 6043 0294 5110 6340 9137 6323
4094 4957 0163 9717 4118 4276 9465 8820 4127 0202
4951 3781 5101 1815 7068 6379 7252 1086 8919 2093
9047 0199 5068 7447 1664 9278 1708 3625 2864 0204

7274 9512 0074 6677 8676 0222 3335 1976 1645 3203
9192 4011 0255 5458 6942 8043 6201 1587 0972 0243
0554 1690 6333 1931 9433 2661 8690 2313 6999 3094
9231 5627 1815 7171 8036 1832 2031 6298 6073 9044
3995 9677 7765 3194 3222 4191 2734 4469 8617 3233

2402 6250 9362 7373 4757 1716 1942 0417 5921 5345
5295 7385 5474 2123 7035 9983 5192 1840 6176 5756
5177 1191 2106 3351 5057 0967 4538 1246 3374 0304
4344 4044 4549 4443 4249 4948 4151 5152 4240 4737
7343 4706 4440 4646 4548 4742 4746 5253 4749 4689
Impreso en los Talleres Gráficos de

Surquillo