Está en la página 1de 230

UNIVERSIDAD DE MAGALLANES

DEPARTAMENTO DE MATEMÁTICAS Y FÍSICA


ÁREA ESTADÍSTICA

TUTORIAL

DE

MINITAB

JULIO HERNANDEZ VALENZUELA


GABRIEL SOTO MEDEL
FACULTAD DE CIENCIAS

D E P A R T A M E N T O D E M A T E M A T I CA S Y F I S I C A

AREA ESTADISTICA

PUNTA ARENAS, OTOÑO 2004.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L ii
INDICE
Página
I INTRODUCCIÓN 1
1.1 Conceptos Estadísticos Básicos 1
1.2 División de la Estadística 3
1.3 Tipos de Datos 4

II INGRESO DE DATOS 5
2.1 Presentación y Uso de Ventanas de MINITAB 5
2.2 Barras de Menú 6
2.2.1 Menú Archivos 7
2.2.2 Menú de Edición 8
2.2.3 Menú de Administración 9
2.2.4 Menú de Cálculo 10
2.2.5 Menú de Estadística 11
2.2.6 Menú de Gráficos 12
2.2.7 Menú Editor 13
2.2.8 Menú de Ventanas 14
2.2.9 Menú de Ayuda 15
2.3 Entrada y Manipulación de Datos 16
2.3.1 Trabajo con Estadísticas Básicas 20
2.4 Administración de Proyecto en MINITAB 26

III USO DE HERRAMIENTAS ESTADÍSTICAS 27


3.1 Organización de Datos Cuantitativos Discretos 27
3.2 Organización de Datos Cuantitativos Continuos 32
3.3 Organización de Datos Cualitativos 37
3.4 Gráficos Stem-and-Leaf 40
3.5 Cálculo de las Estadísticas de Posición y Dispersión 44
3.6 Organización y Presentación de Datos Bivariados 47
3.7 Laboratorio Estadística Descriptiva 54

IV USO DE DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 59


4.1 Función de Probabilidad Discreta fx(x) 59
4.2 Distribución de Bernoulli 65
4.3 Distribución Binomial y Muestreo Con Reemplazo 68
4.4 Distribución Hipergeométrica y Muestreo Sin Reemplazo 72
4.5 Distribución de Poisson 75
4.6 Distribución Binomial Negativa 81
4.7 Distribución Geométrica 83
4.8 Distribución Entera Uniforme 84
4.9 Laboratorio “Distribuciones Discretas” 85

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L iii
V USO DE DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 87
5.1 Funciones de Distribución Continuas 87
5.2 Distribución Uniforme 92
5.3 Distribución Exponencial 96
5.4 Distribución Gamma 101
5.5 Distribución Normal 104
5.6 Distribución Chi Cuadrado de Pearson 112
5.7 Distribución t de Student 116
5.8 Distribución F de Fisher 120
5.9 Laboratorio “Distribuciones Continuas” 124

VI DATOS CATEGÓRICOS 126


6.1 Coeficiente de Correlación Por Rangos de Spearman “ rS ” 126
6.2 Coeficiente de Correlación Biserial Puntual de Pearson: “ rbp ” 131
6.3 Coeficiente phi: “ Ψ ” 134
6.4 Coeficiente de Contingencia “C” 135
6.5 Test de Independencia 136
6.6 Laboratorio de Datos Categóricos 142

VII REGRESIÓN 145


7.1 Correlación Lineal 145
7.2 Regresión Lineal Simple 147
7.3 Regresión Lineal Múltiple 149
7.4 Regresión Stepwise 151
7.4.1 Backward Elimination: Eliminación hacia atrás 152
7.4.2 Forward Selection: Selección hacia delante 152
7.4.3 Stepwise: Selección Paso a Paso 152
7.5 Regresión no lineal 155
7.6 Laboratorio Regresión 158

VIII DISEÑO DE EXPERIMENTOS 163


8.1 ANOVA Una Vía 163
8.2 Algunas Pruebas Paramétricas 171
8.2.1 Prueba t de Student para una muestra 171
8.2.2 Pruebas t de Student para dos muestras pequeñas
(n1 + n2 £ 30) 175
8.3 Laboratorio de ANOVA y Pruebas T 179

IX ESTADÍSTICAS NO PARAMÉTRICA 182


9.1 Prueba del Signo de la Mediana ”m” de una Muestra 182
9.2 Prueba del Rango con Signo de Wilcoxon 185
9.3 Test U de Mann-Whitney 188
9.4 Prueba de Rachas o Runs Test 190
9.5 Test de Kruskal-Wallis 192
9.6 Test Chi Cuadrado – Bondad de Ajuste 195
9.7 Laboratorio de No Paramétrica 198

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L iv
X ELABORACIÓN DE INFORMES 201
10.1 Introducción 201
10.2 Ejemplo 201
10.3 Generando Informes 202
10.4 Imprimiendo Informe 209

XI GLOSARIO COMANDOS MINITAB 210


11.1 Gráficos Para Variables Categóricas: Bar Charts y Pie Charts 210
11.2 Descripción Numérica de una Variable Categórica 210
11.3 Gráficos de Variables Cuantitativas 210
11.4 Descripción Cuantitativa de Variables Numéricas 211
11.5 Transformación de Datos 211
11.6 Para Graficar la Relación Entre Dos Variables Cuantitativas 212
11.7 Correlación 212
11.8 Para Determinar la Recta de Regresión Lineal 212
11.9 Para Seleccionar una Muestra Aleatoria Simple 213
11.10 Para Calcular Probabilidades Binomiales 213
11.11 Para Calcular las Probabilidades Acumuladas y Percentiles de
213
la Distribución Normal
11.12 Descripción Numérica de dos Variables Categóricas 213
11.13 Test Chi – Cuadrado Para Tablas de Doble Entrada 214
11.14 Test “t” Para Una Muestra 214
11.15 Para Datos Pareados 214

Anexo A: Relación entre las Distribuciones Especiales 215


Anexo B: Reporte MINITAB 217
Anexo C: Formulario Distribuciones Discretas y Continuas 221

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L v
I INTRODUCCIÓN

El tutorial que se elaboró en el marco de un proyecto


presentado para optimizar la docencia en materias
estadísticas en la Universidad de Magallanes, pretende
facilitar el uso del programa MINITAB en el ámbito de
los estudiantes que cursan asignaturas de estadísticas
en las distintas carreras.

Andrei N. Kolmogorov
La idea es presentar un trabajo que permita
familiarizar rápidamente a un estudiante que posea 1903-1987.
conocimientos básicos de Windows con la interfaz del Rusia.
programa MINITAB, para usar este software como
apoyo para desarrollar sus ejercicios y a la vez se pueda ir comprobando las
teorías aprendidas en las clases de cátedra.

Este esfuerzo se enmarca dentro del objetivo de ir entregando al


estudiante de la UMAG. herramientas actualizadas que le permitan
desempeñarse eficientemente en el campo laboral, en donde sin duda deberá
aplicar técnicas actuales con apoyo computacional.

El tutorial se enmarca en una primera parte en la presentación del


software, posteriormente se entregan las herramientas que permiten ingresar
los datos para el análisis y se termina con el desarrollo de aquellos tópicos
estadísticos; presentes en los programas de estudios que tiene el
departamento, con ejemplos orientados a las asignaturas de las áreas de
ingeniería y humanidades.

1.1 Conceptos Estadísticos Básicos

La estadística es una ciencia no exacta, que estudia el comportamiento


de la naturaleza, usando como base el método científico y el método estadístico
en la resolución de problemas.

Es importante señalar que en estadística se trabaja con los conceptos de


Universo, Población y Muestra, los que vistos desde la teoría de conjuntos son
la base para entender el enfoque que se da a cada problema puntual.

En esta presentación se considera el universo como el conjunto que


contiene a todos los conjuntos, es decir: que contiene un grupo de elementos
sin ninguna característica en común, luego una población debe ser definida
sobre un universo mediante el uso de una o más características que definirán la
población en estudio. Ésta característica se conoce como variable (son las
variables las que definen poblaciones), de este modo por lo regular se
identifican las variables que definirán la población y luego, a esa población se le
puede asociar algún determinado universo.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 1
Ejemplo 1: Sea la variable X= “Desocupados en Punta Arenas”
Los posibles Universos pueden ser: Desocupados en Magallanes,
en Chile o el Mundo
Ejemplo 2: Sea la variable X= “Árboles Lenga en Magallanes”
Los posibles Universos pueden ser: Todos los árboles en
Magallanes, en Chile o el Mundo
Ejemplo 3: Sea la variable X= “Enfermos de gripe en Magallanes”
Los posibles Universos pueden ser: Enfermos de gripe en
Magallanes, en Chile o el Mundo

En general, como los universos en sí no tienen dimensión, tomará


importancia que las poblaciones estén bien definidas, debido a que será el
método estadístico quien intentará describir o explicar el comportamiento que
éstas tienen.

En una etapa posterior se estudia la forma en que se tomará la


información a analizar; así se tendrán las siguientes alternativas:

Censo: Por ley de la


Republica
Se estudia toda la
población

Catastro: Por voluntad o


consenso

Probabilística: Aleatoria
Conglomerados
Estratificada
Etc.
Se estudia una Muestra

No Probabilística: Por cuotas


Dirigido

La decisión de estudiar en forma exhaustiva una población, se realiza


cuando se trabaja con poblaciones finitas y por otra parte se dispone de los
recursos (tiempo y dinero) para llevar a la práctica el estudio. Se debe señalar
que no siempre un censo o catastro será más exacto que una muestra, debido
a que depende de una serie de elementos que pueden inducir a error como la
duplicación de información, omisiones o datos mal tomados, etc.. En cambio
una muestra en determinados casos puede ser mejor, en especial cuando se
conoce el grado de error que hay en la información.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 2
1.2 División de la Estadística

La estadística como ciencia puede ser analizada desde dos objetivos.


Por una parte se puede intentar sólo describir un fenómeno y por otro lado se
puede intentar explicar su comportamiento.

Se entenderá como estadística descriptiva a aquellos análisis que


permiten establecer los elementos esenciales de algún fenómeno, es decir, que
permite dimensionar la magnitud o estado en que se encuentra el problema que
se desea solucionar.

La estadística inferencial intentará explicar el comportamiento usando


técnicas generalmente basadas en probabilidades y que por ende tendrá
regularmente un grado de incertidumbre, que puede ser manejado con una
aplicación apropiada de la teoría existente y con buenos programas que
faciliten los cálculos.

En relación con los temas divididos por tipo de estadística se tiene:

ESTADÍSTICA

DESCRIPTIVA: INFERENCIA:

- Cálculo de Estadígrafos - Distribuciones de


de Posición. Probabilidad.

- Cálculo de Estadígrafos - Análisis de Varianzas y


de Dispersión. Covarianzas.

- Histogramas. - Análisis de Regresión.

- Análisis de Datos - Análisis Factorial.


Categóricos.
- Procesos Estocásticos.
- Componentes
Principales. - Series de Tiempo.

- Cluster (conglomerados). - No Paramétrica.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 3
1.3 Tipos de Datos

Como se señaló en el punto 1.1 las variables definen poblaciones, por


ello es importante detenerse en como se clasifican y que básicamente
corresponde a dos criterios no excluyentes.

Por el tamaño de su recorrido se pueden identificar:

- Dicotómicas : Dos estados (Binarias). (Ej. sexo, presente o


ausente, defectuoso o no defectuoso)

- Discretas : Con recorrido finito o infinito numerable. (Ej.


número de hijos, edad en años cumplidos, número
de casas)

- Continuas : Con recorrido infinito. (Ej. temperatura, altura,


peso)

Según escala de medición, propuesta por Steven (1950):

- Nominal : Asignación de símbolos que permiten distinguir


entre categorías. (Ej. colores, religión, partido
político, nacionalidad)

- Ordinal : Asigna categorías que son posibles de ordenar,


sin conocer las distancias que entre ellas existen.
(Ej. clase social, altura en alto medio o bajo, grados
de uniformados)

- Intervalar : Existe una unidad constante de medida y un cero


(ambos arbitrarios). (Ej. temperatura en grados
Celsius, Fahrenheit)

- Razón : Existe una unidad constante de medida y un cero


absoluto. (Ej. temperatura en grados Kelvin, peso
en kilos, distancia en metros)

De acuerdo a la clasificación de Steven las variables serán cualitativas o


categóricas si están en escala nominal u ordinal y serán cuantitativas si
están en escala de intervalo o de razón.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 4
II INGRESO DE DATOS

2.1 Presentación y Uso de Ventanas de MINITAB

El programa MINITAB es un software que permite


el estudio de la estadística en forma aplicada, ya sea
resolviendo problemas puntuales o usando simulación
para comprender mejor la naturaleza de la teoría que se
aprende en las clases regulares. Andrei A. Markov,
1856-1922 Rusia
Su pantalla principal es:

Hoja de
trabajo
Ventana de
sesiones

Está compuesta por dos ventanas:

- Superior llamada de sesiones donde se entregan los resultados.

- Inferior llamada hoja de trabajo donde se tienen los datos a analizar.

La Ventana de sesiones permite visualizar los resultados, los que


posteriormente pueden ser exportados a otro software como Word, usando los
procedimientos usuales de Windows en tareas de copiar y pegar desde dos
ventanas.

La ventana de trabajo, es similar a una planilla electrónica, pero en ésta


se debe considerar que cada fila es un caso y que cada columna es una
variable como en base de datos.

Existe otra ventana llamada “ventana de proyectos” que permite el


trabajo con archivos que consiste en hojas usadas como un bloque y que está
ideada para unir el proyecto, el que deberá tener un nombre; así un proyecto
consistirá de un conjunto de hojas de trabajo y gráficos guardados de un
estudio determinado.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 5
2.2 Barras de Menú

El menú de MINITAB, ofrece una gran cantidad de tareas que se pueden


ejecutar, para ello se desarrolló una guía para que el alumno pueda
orientarse al elegir de las distintas opciones, la que más se acomode a lo
que quiera realizar, a continuación se muestra un resumen con las
principales tareas:

Archivos: Edición: Administrador: Cálculos:

Abre o Guarda: - Borra. - Hoja de Trabajo. - Calculadora.


- Proyecto. - Copia. - Variables - Funciones.
- Hojas de Trabajo. - Pega Bloques de (Columnas). - Distribuciones de
- Archivos. Celdas o - Casos (Filas). Probabilidad.
Gráficos. Selecciones.
- Imprime.

Ayuda

Estadísticas: Gráficos: Editor: Ventanas:

- Descriptivas. - Gráficos - Editor de - Sesión.


- Otros Análisis. (Histogramas, Comandos - Hoja de Trabajo.
Líneas, (Macros). - Gráficos.
Circulares).
- Caracteres.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 6
2.2.1 Menú Archivos:

El menú de archivo se presenta como:

Abre Nueva Hoja o Proyecto

Abre Un Proyecto
Guarda Un Proyecto
Guarda Proyecto Bajo Otro Nombre
Describe Un Proyecto

Abre Hoja de Trabajo


Abre Bases de Datos
Guarda la Hoja de Trabajo Actual
Guarda Hoja de Trabajo (Otro Nombre)
Cierra la Hoja de Trabajo Activa

Abre Un Gráfico (Existente)


Guarda la Ventana de Sesiones
Importa o Exporta Archivos

Imprime la Ventana de Sesiones


Configura la Impresora

Salida de MINITAB

Ultimos Archivos Trabajados

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 7
2.2.2 Menú de Edición:

El menú de edición se presenta como:

Borra la Última Tarea


Elimina Celdas Seleccionadas
Borra Celdas Seleccionadas
Copias Celdas Seleccionadas
Copia y Borra Celdas
Pega Celdas Copiadas

Pega Enlaces
Genera Enlaces
Selecciona Todas las Celdas

Edita el Último Sub Menú


Llama al Editor de Comandos

Guarda Trabajo (Opcional)

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 8
2.2.3 Menú de Administración

El menú de edición se presenta como:

Crea Nueva Hoja Según Opciones


Segmenta la Hoja Activa Según Opciones
Crea Una Hoja Uniendo Columnas Según Opciones

Copia Columnas
Separa Datos Según Opciones
Une Datos Por Columnas
Transpone Columnas

Ordena Columnas
Crea Una Columna Con Rangos

Borra Filas
Elimina Variables (Columnas)
Concatena (unir variables de carácter)
Codifica
Transforma los Tipos de Datos

Traslada los Datos de la Hoja de Trabajo a la


Ventana de Sesión.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 9
2.2.4 Menú de Cálculo

El menú de cálculo se presenta como:

Calculadora
Estadísticas Básicas de Columna
Estadísticas Básicas de Filas
Estandariza Columna Según Opción
Transforma Datos Cronológicos a Numérico
Transforma Datos Cronológicos a Texto

Genera Datos Según Opción


Genera Datos Bivariados
Crea Variables Dicotómicas Según Opción

Establece el Punto de Partida Para


Generar Números Aleatorios
Generador de Números Aleatorios
Generador de Distribuciones de
Probabilidad Según Opciones
Trabajo Con Matrices

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 10
2.2.5 Menú de Estadística

El menú de estadística se presenta como:

Estadísticas Básicas
Análisis de Regresión
Análisis de Varianza
Diseño de Experimento
Cartas de Control de Calidad
Herramientas de Control de Calidad
Análisis de Confiabilidad y Sobrevida
Análisis Multivariado
Series de Tiempo
Tablas
Estadísticas No Paramétricas
Análisis Exploratorio de Datos
Potencia y Tamaño de Muestra

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 11
2.2.6 Menú de Gráficos

El menú de gráficos se presenta como:

Aspectos del Gráfico

Gráfico de Puntos Según Opción


Gráfico de Series de Tiempo
Cartas
Histograma
Gráfico de Caja
Gráfico de Puntos Matriciales Según Variables
Gráfico de Puntos Matriciales Según Opción
Gráfico de Niveles

Nube de Puntos Tridimensional


Gráfico de Malla Tridimensional
Gráfico de Superficie Tridimensional

Gráfico de Distribución de Frecuencia Por Puntos


Gráfico Circular
Gráfico de Distribuciones Marginales
Gráfico de Probabilidad

Gráfico de Tallo y Hoja

Gráfico de Caracteres

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 12
2.2.7 Menú Editor

El menú de edición se presenta según la ventana en que esté


posesionado el cursor, así para la ventana de sesión se despliega el siguiente
menú:

Comando Siguiente
Comando Anterior

Habilita Comando
Editor de Salida

Busca
Reemplaza

Selecciona Fuentes

Aplica Opciones de Fuentes


Tamaño, Tipo de Letra, Notas.

Para la ventana de la hoja de trabajo, el menú que se despliega es:

Busca
Reemplaza
Va a Una Celda Específica
Va a Una Columna Específica

Tipo de Dato Para Columnas


Características de Columnas
Características de la Hoja de Trabajo
Inserta Celdas
Inserta Filas
Inserta Columnas
Mueve Columnas
Lista de Datos Predefinidos
Símbolo Para Representar Datos Omitidos

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 13
2.2.8 Menú de Ventanas

El menú de ventanas se presenta como:

Cascada
Titulo
Minimiza Todo
Abre las Ventanas Minimizadas
Despliega las Ventanas Minimizadas
Actualiza Todos los Gráficos Abiertos
Barra de Herramientas Estándar
Barra del Administrador de Proyectos
Barra de Estatus

Cierra Todos los Gráficos


Conjunto de Gráficos Tamaño / Ubicación

Va a Ventana de Sesiones
Va a Ventana Administración del Proyecto
Va a Ventana de Hoja de Trabajo

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 14
2.2.9 Menú de Ayuda

El menú de Ayuda se presenta como:

Ayuda
Busca Ayuda
Como Usar la Ayuda

Guía Estadística
Busca la Guía Estadística

Como Usar la Guía Estadística

Tutorial
Búsqueda de Tutorial

Ayuda Para Comandos de Sesiones

Busca Ayuda Para Comandos de Sesiones

MINITAB en la Web (Internet)

Características MINITAB y Sistema


Operativo Usado.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 15
2.3 Entrada y Manipulación de Datos

Para ingresar los datos directamente al programa se debe hacer un Click


en la hoja de trabajo, la que está compuesta por filas (casos) y columnas que
son las variables. En primer lugar se aconseja dar un nombre a cada variable,
para ello se dispone de la primera fila (sobre el caso 1) en donde se puede
poner el nombre de la variable, posteriormente se puede ingresar las variables
que pueden ser numéricas o alfanuméricas.

Ejemplo 1: Se ha obtenido la siguiente información sobre el número de


transacciones mensuales de carteras gestionadas por una
importante compañía de crédito:

17 25 32 41 43
31 28 27 39 36
25 19 21 28 26
30 32 26 27 34
21 24 20 25 31

Se pide al alumno:

a) Ingrese la información en la hoja de trabajo de MINITAB, con el nombre de


la variable “cartera”

b) Confeccione un diagrama de tallo y hoja (“Graph”- “Stem and leaf”)

c) Construya una tabla de distribución de frecuencias con seis intervalos de


amplitud. Considere el límite inferior del primer intervalo igual a 15
transacciones y amplitud Intervalar de 5 transacciones.

Solución

a) Para ingresar la información el alumno deberá ingresar el nombre de la


variable y luego ingresar los datos en una columna, como se muestra en la
siguiente pantalla.
Nombre de
Variable

Datos

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 16
b) Para confeccionar un diagrama de tallo y hoja, se accede al menú y se usan
los comandos “Graph” - “Steam and leaf”, se completan las instrucciones
como en la siguiente pantalla y se marca O.K.

Se posiciona el
cursor con un
“Click” en:

Marcar con doble


“Click”:

Click “OK”

El resultado se presenta a continuación:

Stem-and-Leaf Display: carteras

Stem-and-leaf of carteras N = 25
Leaf Unit = 1.0

1 1 7
2 1 9
5 2 011
5 2
9 2 4555
(4) 2 6677
12 2 88
10 3 011
7 3 22
5 3 4
4 3 6
3 3 9
2 4 1
1 4 3

La información se encuentra desplegada en la ventana de sesiones:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 17
c) Para construir la tabla de distribución de frecuencias se deben codificar los
intervalos de clase usando la secuencia de instrucciones “Manip” – “Code” –
“Numeric to Text” y se procede de acuerdo a la siguiente pantalla:

Variable a
codificar

Variable
codificada

Intervalos a
considerar

Etiquetas

Al completar la
pantalla presione
“OK”

La variable “Intervalo” se crea previamente. Los resultados desplegados


se muestran a continuación en la hoja de trabajo:

Variable de Variable
entrada codificada

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 18
Posteriormente se usan las instrucciones “Stat” – “Tables” – “Tally” y se
completa la siguiente pantalla:

Variable de
entrada
“Intervalo”

Frecuencia
Absoluta ni

Frecuencia
Relativa fi

Frecuencia
Absoluta
Acumulada Ni

Frecuencia
Relativa
Acumulada Fi

Click “OK”

Los resultados se despliegan en la pantalla de sesiones que se muestra


a continuación:

Tally for Discrete Variables: Intervalo

Intervalo Count CumCnt Percent CumPct

15 - 20 2 2 8,00 8,00
20 - 25 4 6 16,00 24,00
25 - 30 9 15 36,00 60,00
30 - 35 6 21 24,00 84,00
35 - 40 2 23 8,00 92,00
40 - 45 2 25 8,00 100,00
N= 25

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 19
2.3.1 Trabajo con Estadísticas Básicas

En las cátedras de estadísticas se inicia el aprendizaje con el estudio de


las variables, en esencia la clasificación en MINITAB es cualitativa o
cuantitativa dependiendo de su escala de medida; en todo caso es importante
tener en cuenta este hecho para no realizar un análisis sin sentido o que
definitivamente sea desechado por el programa. Para iniciar al alumno en el
trabajo con el software MINITAB, se han dispuesto una serie de ejercicios con
cálculos sencillos, que le permitan adquirir destreza en el ingreso de datos y
obtener análisis básicos en base a estadísticas descriptivas y gráficos

Ejemplo Nº1: Las calificaciones de 80 aspirantes a un empleo en una prueba de


aptitud, se muestran en la siguiente tabla.

CALIFICACIONES

21 33 26 37 43 55 64 42 47 58

23 37 32 44 47 60 69 47 52 65

25 41 38 51 51 65 74 52 57 72

27 45 44 58 55 70 79 57 62 79

29 49 50 65 59 75 84 62 67 86

31 53 56 72 63 80 89 67 72 93

33 57 62 79 67 85 94 72 77 88

35 61 68 86 71 90 99 77 82 90

Obtener las estadísticas descriptivas básicas con los gráficos respectivos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 20
Solución: Para iniciar el trabajo se deben ingresar los datos en una
columna, dando el nombre “calificación” a la columna
respectiva, como se muestra en la siguiente pantalla:

“Calificación”

Para el cálculo de las estadísticas descriptivas se realiza la secuencia de


comandos “Stat” – “Basic Statistics” – “Display Descriptive Statistics”; se
desplegará el menú correspondiente, en el que se debe ingresar la variable
“calificación” y para obtener en forma inmediata el resumen gráfico se debe
presionar el botón “Graphs” que aparece en la siguiente pantalla:

Variable en Alternativa
estudio “Graphs”

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 21
Al presionar el botón “Graphs”, se despliega otro submenú, en donde se
selecciona la alternativa “Graphical Summary” como se muestra en la
siguiente pantalla:

Click “OK”

Una vez marcada la opción, se presiona “OK” y se regresa al menú


anterior, en donde nuevamente se debe presionar “OK” para dar inicio a los
cálculos. Los resultados de las estadísticas descriptivas se despliegan en la
ventana de sesión, como se muestra a continuación:

Welcome to Minitab, press F1 for help.

Descriptive Statistics: calificación

Variable N Mean Median TrMean StDev SE Mean


califica 80 59,74 60,50 59,83 19,28 2,16

Variable Minimum Maximum Q1 Q3


califica 21,00 99,00 45,50 73,50

Executing from file: C:\ARCHIVOS DE PROGRAMA\MTBWIN\MACROS\Describe.MAC

Descriptive Statistics Graph: calificación

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 22
La indicación “Descriptive Statistics Graph: calificación”, MINITAB la entrega
para dar inicio al gráfico respectivo, que se muestra en la siguiente pantalla:

Descriptive Statistics
Variable: calificación

Anderson-Darling Normality Test


A-Squared: 0,250
P-Value: 0,736

Mean 59,7375
StDev 19,2773
Variance 371,614
Skewness -8,3E-02
Kurtosis -7,6E-01
N 80
25 40 55 70 85 100
Minimum 21,0000
1st Quartile 45,5000
Median 60,5000
3rd Quartile 73,5000
95% Confidence Interval for Mu Maximum 99,0000
95% Confidence Interval for Mu
55,4476 64,0274
55 60 65 95% Confidence Interval for Sigma
16,6836 22,8334
95% Confidence Interval for Median
95% Confidence Interval for Median
55,0000 65,4427

El alumno puede apreciar un conjunto de estadísticas descriptivas, las


cuales resumen las características de la distribución de los datos.

Se debe recordar que el “1st Quartile”, corresponde al cuartil 1 “Q1” que


se define como el percentil 25 e indica que el 25% de los datos ordenados,
se encuentran bajo 45.500 y que 3st Quartile, corresponde al cuartil 3 “Q3”
que se define como el percentil 75 e indica que el 75% de los datos
ordenados, se encuentran bajo 73.500 o en forma equivalente, el 25% de
los datos se encuentran sobre 73.500.

Respecto a los gráficos, inmediatamente bajo el histograma, se


encuentra en color azul el gráfico de caja, en donde se debe observar si
existen puntos extraños en la muestra, en este caso no los hay.

Los gráficos en rojo, representan los intervalos de confianza para la


media y la mediana respectivamente. El intervalo para la desviación típica,
sólo se puede apreciar numéricamente al lado derecho de los gráficos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 23
Ejemplo Nº2: El costo estimado en unidades monetarias u.m. por kilómetro
para la operación de un automóvil Ferrari modelo 2004
durante 10 años ó 200.000 kilómetros, se muestra en la
siguiente tabla:

Depreciación 472
Mantenimiento 424
Gasolina 364
Seguros 294
Estacionamiento 392
Impuesto 184

Construya un diagrama circular para representar estos costos de operación.

Solución: Se ingresan los datos en columna y se inicia la secuencia de


comandos “Graph” – “Pie_Chart”, se desplegará un menú que
debe ser completado con los datos que se indican en la siguiente
pantalla:

Selección de “Chart table” luego se ingresa la variable “ítem” y “costos”

Paso 1: Paso 2:
Click “Chart Table” Ingresar “ítem”

Paso 3:
Ingresar “costos”

Paso 4:
Para separar un
ítem en el gráfico se
indica el número de
la categoría elegida
en “Explode slice
number(s):”

Paso 5:
El título del gráfico
se ingresa en “Title:”

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 24
El gráfico que proporciona MINITAB se puede apreciar a continuación:

En este gráfico se ha separado del “pie chart” la categoría Depreciación,


que corresponde a la categoría 1 y que representa el 22,2 % del costo en
pesos por kilómetro, estimado para la operación de un automóvil Ferrari
modelo 2004 durante 10 años, ó 200.000 kilómetros.

En este ejemplo las categorías de la variable en estudio son los ítems


que corresponden a una variable medida en escala nominal. Las frecuencias
son los costos en pesos del vehículo, en donde la suma representa el costo
total de operación para un deportivo de este nivel.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 25
2.4 Administración de Proyectos en MINITAB

En MINITAB al igual que en otros softwares se trabaja con el concepto


Proyecto, que corresponde a toda la información ingresada en distintas hojas
de trabajo, salidas de ventanas de sesiones, archivos de gráficos, etc..

En el menú Archivos se puede dar nombre a un proyecto, con ello todas


las hojas usadas en un trabajo particular pasan a ser parte del proyecto
nombrado. La idea es desarrollar un trabajo que concentre toda la información
utilizada y esté dispuesta en el momento que se requiera, así se pueden llamar
todas las ventanas invocando sólo el nombre del proyecto, optimizando así el
acceso a la información.

En MINITAB se puede manejar el concepto proyecto, usando la ventana


respectiva como se indica a continuación:

Ventana de Ventana de
Sesión Proyecto

Ventanas
- Sesión
Barra de
- Historial
Ventanas
- Gráficos
- Reportes
- Documentos
relacionados

Hoja de
Trabajo

En el lado izquierdo se indican los tipos de pantalla que pueden ser


utilizadas en la realización de un proyecto, accediendo directamente a cada una
de ellas desde la ventana principal con la barra de menú respectiva que se
ubica en lado superior derecho de la ventana principal.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 26
III USO DE HERRAMIENTAS ESTADÍSTICAS

3.1 Organización de Datos Cuantitativos Discretos

Para trabajar con datos cuantitativos discretos se debe


ingresar la información a trabajar, de manera que sea posible
acceder al potencial de MINITAB para este tipo de
información.

Ejercicio N°1: Se disponen de los datos que corresponden al John F. Nash Jr.
número de personas que atienden en bibliotecas 1928
Estados Unidos
de distintas Universidades del país:

4 7 5 2 4 5 6 4 7 3
7 4 3 4 4 3 4 3 2 4
4 1 10 2 5 3 2 2 5 3
3 8 12 3 2 2 5 4 1 5
8 6 6 1 3 15 16 6 7 12

a) Confeccionar una tabla de frecuencias:

Para realizar este procedimiento, se debe ingresar la información


por columna, en el caso desarrollado en el presente tutorial se designó a
la variable “personas que trabajan en biblioteca” con el nombre
“bibliotecarias” (En el casillero por sobre el caso 1 y en la primera
columna), posteriormente se ingresan los datos en forma vertical.

Luego se realiza la secuencia de comandos:“Stat” – “Tables” – “Tally”,

Paso 2: Paso 1:
Doble Click “Click”

Paso 3: Se marcan
- Frecuencia
Absoluta
- Frecuencia
Relativa
Porcentuada
- Frecuencia
Absoluta
Acumulada
- Frecuencia
Relativa
Porcentuada
Acumulada
Click “OK”

En esta imagen se muestran las opciones marcadas para realizar


el análisis del ejercicio, en el caso de la variable es suficiente
posicionarse en casillero de variable y luego marcar la variable C1 del
lado izquierdo con el Mouse dos veces, posteriormente se marcan las
alternativas en la sección Display (todas) y luego se presiona el botón
O.K.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 27
El resultado se muestra en la siguiente salida:

————— 28-02-2004 04:16:10 ——————

Welcome to Minitab, press F1 for help.

Tally for Discrete Variables: C1

C1 Count CumCnt Percent CumPct


1 3 3 6,00 6,00
2 7 10 14,00 20,00
3 9 19 18,00 38,00
4 10 29 20,00 58,00
5 6 35 12,00 70,00
6 4 39 8,00 78,00
7 4 43 8,00 86,00
8 2 45 4,00 90,00
10 1 46 2,00 92,00
12 2 48 4,00 96,00
15 1 49 2,00 98,00
16 1 50 2,00 100,00
N= 50

Los resultados se despliegan en la ventana de sesiones y se


componen de las columnas con Datos de la variable (Bibliotecarias),
Frecuencia Absoluta (ni), Frecuencia Absoluta acumulada (Ni),
Frecuencia Relativa Porcentuada (fi%) y Frecuencia Relativa
Porcentuada Acumulada (Fi%).

b) Representar la frecuencia absoluta en un histograma (Para datos Discretos).

En este caso se deben elegir el menú de “graph” – “character graph” –


“Histogram”, la ventana se debe llenar de la siguiente forma:

Paso 2: Paso 1:
Doble “Click” “Click”

Paso 3:
Valor Mínimo

Paso 4:
Valor Máximo

Paso 5:
Amplitud del
intervalo

Click “OK”

En la imagen se aprecia que para realizar un histograma de datos


discretos es necesario usar la alternativa de caracteres, en donde se
recomienda iniciar con el primer valor de la variable (1 en este caso) y luego
el último punto se marca con el valor máximo (16 para este ejemplo).

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 28
Los resultados se presentan a continuación:

Histogram
Histogram of bibliote N = 50

Midpoint Count
1.00 3 ***
2.00 7 *******
3.00 9 *********
4.00 10 **********
5.00 6 ******
6.00 4 ****
7.00 4 ****
8.00 2 **
9.00 0
10.00 1 *
11.00 0
12.00 2 **
13.00 0
14.00 0
15.00 1 *
16.00 1 *

c) Calcule los estadígrafos de posición y dispersión e interprete.

Para realizar este procedimiento, se debe acceder al menú “Stat”-“Basic


Statistic”-“Display Descriptive Statistics” y se completa el nombre de la variable:

Nombre de
variable

Click “OK”

En este paso se pueden agregar los gráficos respectivos, pero sólo se


obtendrá para la pregunta del ejercicio las estadísticas básicas.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 29
Los resultados se muestran a continuación.

Descriptive Statistics: bibliotecarias

Variable N Mean Median TrMean StDev SE Mean


bibliote 50 4.940 4.000 4.568 3.316 0.469

Variable Minimum Maximum Q1 Q3


bibliote 1.000 16.000 3.000 6.000

En este caso:

N : Total de datos ingresados

Mean : Media (Promedio)

Median : Mediana

TrMean : Media recortada

StDev : Desviación Típica de la cuasi-varianza

SE Mean : Desviación Típica de la Media Muestral = StDev/ n

Minimum : Mínimo

Maximum : Máximo

Q1 : Cuartil 1 (25%)

Q3 : Cuartil 3 (75%)

Los datos de mayor relevancia son el promedio de 4,9 personas por


biblioteca, el 50% de las bibliotecas que están por debajo de 4 personas y
observando el histograma, se advierte una leve asimetría positiva (considere
que la media recortada es 4,6, es decir, muy cercana a la mediana). Luego se
concluye que en las bibliotecas existe una tendencia a tener un número
reducido de personal trabajando en ellas.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 30
d) ¿Existen puntos extraños en la muestra?

Para responder a esta pregunta se debe estudiar la distribución de los


datos en torno a la mediana, para ello sé graficará el diagrama de caja. Primero
se debe seleccionar “graph”-“boxplot” y se completa la ventana de datos que a
continuación se muestra:

Paso 2: Paso 1:
Doble “Click” “Click”

Paso 5:
- “Click”
Paso 4: “Click”
- Click “Range
Box”

Paso 3:
- “Click” Paso 7:
- “Data - “Click”
Labels” - “Graph”
- “Show data
labels”
- Click “OK” Paso 6: “Click”
Click “OK”

En la ventana anterior se accede a la opción “annotation”-“Data labels”,


marcando el botón “Show data labels” y click “OK”. También es importante
marcar toda la distribución para ello se posiciona el cursor en “Ítem 3” y se
accede a “Display” para seleccionar la opción Range-Box, a continuación se
selecciona “For each”-“Graph”. Los resultados se muestran a continuación.

16
15 15

12
bibliotecarias

10 10

8
7
6
5 5
4
3
2
1
0

En el gráfico se puede apreciar que las observaciones extrañas son tres,


correspondientes a las bibliotecas que tienen 12,15 y 16 bibliotecarias.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 31
3.2 Organización de Datos Cuantitativos Continuos.

Para trabajar con datos cuantitativos continuos, se debe considerar que


el ingreso de la información generalmente implica el uso de decimales, los que
deben ser con punto, de esta manera es posible el tratamiento de los
caracteres como numéricos..

Ejercicio N°1: Se dispone de los datos que corresponden a la estatura en


metros de las personas que atienden en bibliotecas de las
distintas Universidades del país:

1,56 1,59 1,63 1,62 1,65 1,61 1,59 1,51 1,62 1,62
1,53 1,49 1,57 1,54 1,53 1,59 1,58 1,57 1,47 1,64
1,55 1,59 1,53 1,56 1,53 1,47 1,57 1,60 1,54 1,56
1,50 1,62 1,59 1,62 1,54 1,68 1,52 1,62 1,59 1,49
1,65 1,53 1,59 1,56 1,54 1,58 1,52 1,63 1,56 1,62

a) Confeccionar una tabla de frecuencias:

Para realizar este procedimiento, se debe ingresar la información por


columna, ingresando los decimales con punto, el nombre de la variable será
“estatura” (En el casillero por sobre el caso 1), posteriormente se ingresan
los datos en forma vertical.

Se accesa “Stat” – “Tables” – “Tally”,

Paso 2: Paso 1: “Click”


Doble “Click”

Paso 3:
Marcar todas las
opciones

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 32
La imagen muestra las opciones marcadas para realizar la secuencia
de pasos del ejercicio. En el caso de la variable es suficiente posicionarse en
casillero de variable, marcar la variable C1 del lado izquierdo con el Mouse
dos veces, posteriormente se marcan las alternativas en la sección Display
(todas) y presionar el botón “OK”.

El resultado se muestra a continuación:

————— 28-02-2004 20:13:19 —————

Welcome to Minitab, press F1 for help.

Tally for Discrete Variables: estatura

estatura Count CumCnt Percent CumPct

1,47 2 2 4,00 4,00


1,49 2 4 4,00 8,00
1,50 1 5 2,00 10,00
1,51 1 6 2,00 12,00
1,52 2 8 4,00 16,00
1,53 5 13 10,00 26,00
1,54 4 17 8,00 34,00
1,55 1 18 2,00 36,00
1,56 5 23 10,00 46,00
1,57 3 26 6,00 52,00
1,58 2 28 4,00 56,00
1,59 7 35 14,00 70,00
1,60 1 36 2,00 72,00
1,61 1 37 2,00 74,00
1,62 7 44 14,00 88,00
1,63 2 46 4,00 92,00
1,64 1 47 2,00 94,00
1,65 2 49 4,00 98,00
1,68 1 50 2,00 100,00

N= 50

Los resultados se despliegan en la ventana de sesiones y se


componen de las columnas con Datos de la variable (estatura), Frecuencia
Absoluta (ni), Frecuencia Absoluta acumulada (Ni), Frecuencia Relativa
Porcentuada (fi%) y Frecuencia Relativa Porcentuada Acumulada (Fi%).

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 33
b) Representar la frecuencia absoluta en un histograma (Para datos Discretos).

En este caso se debe seguir la secuencia de menú “graph” –“Histogram”,


posteriormente se asigna la variable estatura a graph y se presiona el botón
“option”, aparecerá un nuevo menú que se debe completar marcando los
botones: “Frequency” de “Type of Histogram”, “CutPoint” de “Type of
Intervals” y “Number of intervals” de “Definition of Intervals”. Luego se
ingresa el número de intervalos, que en este caso es “5”, se cierra la ventana
con “OK” y se inicia la salida del Histograma con “OK” de la ventana
“Histogram”.

Paso 2: Doble Paso 1: “Click”


“Click”

Paso 4:
“Click”

Paso 3: “Click” Paso 5:


“Click”

Paso 6:
“Click”

Click “OK”
Paso 7:
Ingresar “5”

Paso 8:”Click”

El gráfico obtenido es:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 34
c) Calcule los estadígrafos de posición y dispersión.

Para realizar este procedimiento, se debe acceder el menú “Stat”-“Basic


Statistic”-“Display Descriptive Statistics”, se ingresa el nombre de la variable
“estatura” y Click “OK”:

Paso 1: Click “OK”


Paso 2:
Doble “Click”

Click “OK”

Los resultados se muestran a continuación.

————— 28-02-2004 20:13:19 —————

Descriptive Statistics: estatura

Variable N Mean Median TrMean StDev SE Mean


estatura 50 1,5712 1,5700 1,5716 0,0492 0,0070

Variable Minimum Maximum Q1 Q3


estatura 1,4700 1,6800 1,5300 1,6200

Se observa que los datos de mayor relevancia son: el promedio de 1,6


metros por persona, 50% de las personas miden menos de 1,6 metros y si se
aprecia el histograma se puede advertir una leve asimetría positiva
(considere que la media recortada es 1,5716, es decir casi idéntica a la
mediana y coincide con el intervalo modal del histograma). Luego, se puede
concluir que las estaturas se concentran en torno a la media en forma casi
simétrica, teniendo una pequeña tendencia a estaturas bajas.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 35
d) ¿Existen puntos extraños en la muestra?

Para responder a esta pregunta se debe estudiar la distribución de los


datos en torno a la mediana, para ello se graficará el diagrama de caja.
Primero se debe seleccionar “graph”-“boxplot” y se completa la ventana de
datos que a continuación se muestra:

Paso 2: Paso 1:
Doble “Click” “Click”

Paso 4:
- “Click”
Paso 3: “Click”
- Click “Range
Box”
Paso 7:
- “Click”
Paso 6:
- “Median
Labels” - “Click”
- “Show - “Graph”
median
labels” Paso 5: “Click”
- Click “OK”
Click “OK”

El gráfico obtenido es:

En la salida del “Diagrama de caja”, se aprecia que no hay


observaciones extrañas.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 36
3.3 Organización de Datos Cualitativos

Los datos cualitativos están medidos en escala nominal u ordinal, por lo


tanto el tratamiento de esta información es de tipo alfabético y tendrá
sentido básicamente observar frecuencias y establecer las estadísticas
apropiadas para este tipo de información.

Ejercicio N°1: Se observó el color de automóvil de una cierta marca y


modelo, registrando los colores como R=Rojo, V=Verde,
A=Amarillo, C=Café.

R R V R A A C C R R
C V A V C V A V R R
V A V A C A C V R R
V R V R R V A R C C
A R R V A V R R V R

a) Confeccionar una tabla de frecuencias:

Solución: Para realizar este procedimiento, se debe ingresar la


información por columna. La variable será “color” (se debe
observar que al Ingresar el primer dato en la primera celda, la
variable color que tiene indicado el nombre en MINITAB como
C1, cambia a C1-T, indicando que es una variable de tipo
cualitativo o alfanumérico).

Ingresada la columna de datos, se accede a “Stat” – “Tables” – “Tally”,

Paso 2: Doble “Click” Paso 1: “Click”

Paso 3:
- “Count”
- “Percent”

Datos Ingresados
Click “OK”

En la pantalla anterior, se debe observar que no se marcaron las


opciones de acumulación para las frecuencias absolutas y relativas, debido
a que para datos de tipo nominal, no tiene mayor importancia estas cifras
por carecer de significado.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 37
De la pantalla anterior se tienen los siguientes resultados.

————— dd/mm/aa h:mm:ss PM/AM ——

Tally for Discrete Variables: color

color Count Percent


A 10 20.00
C 8 16.00
R 18 36.00
V 14 28.00
N= 50

b) Representar la frecuencia absoluta en un gráfico (Adecuado para datos


Nominales).

En este caso se debe elegir el menú de “graph” – “Pie Chart”,


posteriormente se posiciona el cursor al costado de “Chart data in:” y
aparecerán las variables, la que se marca será en este caso color.
Posteriormente se dio el nombre al gráfico como “Preferencia de colores” y
se presiona “OK”.

Paso 2: Doble “Click” Paso 1: “Clik”

Paso 3: “worksheet”

Paso 4: Título
Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 38
Los resultados se muestran en la siguiente figura:

En los resultados se ingresó al grafico y se marcó cada categoría


accediendo posteriormente el menú de atributos y eligiendo el color
respectivo para cada categoría, en la siguiente figura se muestran las barras
para el manejo de las características del gráfico.

Barra de
Atributos

Barra de
Herramientas

En esta ventana en el menú Atributos, los tres primeros botones están


dispuestos para cambiar las características literales (tipo de letra, Color y
tamaño respectivamente), los cuatro botones de mas abajo son para trabajar
con líneas, los dos botones frente al rodillo, son para reticulado y color, los
tres botones al final de este menú, son para el trabajo con símbolos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 39
En el menú de Herramientas, se puede agregar texto, trabajar con
figuras geométricas y líneas.

c) Calcule los estadígrafos de posición y dispersión e interprete.

En relación con los estadígrafos de posición y dispersión, se puede


identificar la moda que corresponde a los vehículos de color rojo y también
las frecuencias de los vehículos según color.

3.4 Gráficos Stem-and-leaf.

Estos gráficos se conocen con el nombre de tallo y hojas. Para su uso y


confección se presentan dos ejemplos.

Ejemplo Nº1: En la siguiente tabla se muestra la esperanza de vida en años


de los habitantes de ambos sexos en países
Latinoamericanos, México y Centro América, datos
publicados el año 2002 por la Organización Panamericana
de la Salud:

Argentina 74
Bolivia 64
Brasil 68
Chile 76
Colombia 72
Ecuador 71
México 73
Paraguay 71
Perú 70
Uruguay 75
Venezuela 73
Belice 74
Costa Rica 77
El Salvador 70
Guatemala 66
Honduras 66
Nicaragua 69
Panamá 75

Para construir el gráfico de Tallo y Hojas, Stem and Leaf se debe


tener en cuenta el tipo de dato numérico que sé de, es decir; si es en
unidad, decena, centena etc. El tipo de dato se separa, por ejemplo el caso
de Chile, que tiene una esperanza de vida en ambos sexos de 76 años. El
último dígito de la derecha, la unidad es 6, que corresponde a la hoja y el
número 7, la decena pasa a ser el tallo.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 40
En MINITAB, una vez entrados los datos y aplicando la secuencia de
comandos Graph-Stem and Leaf, se obtiene:

Paso 2: Doble “Click” Paso 1: “Click”

Gráfico de
Tallo y Hoja

Click “OK”

Se observa que el espacio correspondiente a “Increment” está en blanco,


por defecto MINITAB separa las hojas en 01, 23, 45, 67, 89.

Si en Increment se pone 5, MINITAB separa las hojas en 01234 y 56789.


Se recomienda al alumno ver este efecto, a modo de ejercicio.

Es importante tener presente la información que entrega este gráfico


acerca de los siguientes aspectos:

- Dispersión de los datos en torno a algún valor.

- Simetría en la distribución de valores.

- Identificación de algún valor típico.

- Presencia de vacíos o gaps en la distribución de datos.

- Localización de modas.

- Presencia de valores extremos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 41
Ejemplo Nº2: Suponga que se da un conjunto de datos de una variable
determinada, por ejemplo: la variable ESP.M (esperanza de vida
de las mujeres) de los siguientes países.

PAIS ESP.M
Mozambique 45
Etiopía 50
Tanzania 52
Sierra Leona 45
Nepal 53
Uganda 44
Bután 49
Burundi 50
Malawi 45
Bangla Desh 56
Chad 49
Guinea-Bissau 39
Madagascar 53
Laos 53
Ruanda 48
India 62
Kenia 61
Nicaragua 69
China 71
Tayikistán 72
Jordania 72
Rumania 73
Grecia 80
España 81
Hong Kong 81

1. El diagrama se divide en dos partes: tallo y hoja.

• Para poder construir el diagrama, se tiene que tener en


cuenta el tipo de dato numérico que sé de, es decir; si
tiene decimales, por ejemplo si son decenas, centenas,
millares etc.
• El dato se separa. El último dígito de la derecha será la
hoja y los restantes, el tallo.

Ejemplo: El caso de Mozambique. La cifra


correspondiente sería 45. El último dígito de la derecha
que es el 5(la unidad), será la hoja y el número 4( la
decena), corresponderá al tallo.

4 5

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 42
2. Esta tarea de separación se realizará con todos los datos que se faciliten
y se ordenarán tanto en el tallo como en la hoja de menor a mayor.

De esta manera:

a) Los datos extraídos de la tabla se ordenan en grupos según la decena de


menor a mayor:

39 (1 dato)
45,45,44,49,45,49,48 (7 datos)
50,52,53,50,56,53,53 (7 datos)
62,61,69 (3 datos)
71,72,72,73 (4 datos)
80,81,81 (3 datos)

b) Colocados todos los datos en el diagrama. Las hojas están formadas (en
este ejemplo) por todas las unidades de las cifras dadas, y se ordenan
de menor a mayor. Deberán aparecer la totalidad de los datos(en este
caso los 25 datos dados).

El tallo está formado por la decena (en este ejemplo).

3 9
4 4555899
5 0023336
6 129
7 1223
8 011

Tallo Hojas

Elipse

Se puede ver en la elipse, como aparecen los tres datos dados;


80(Grecia), 81( España) y 81(Hong Kong) y ordenados de menor a
mayor.

3. Después de su construcción se procede a la interpretación del diagrama.

La variable que en estudio es la esperanza de vida en mujeres. Los


datos con mayor frecuencia se encuentran entre los 44 y 60 años. Se
observa que los datos dominantes de la tabla, corresponden a los países
menos desarrollados.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 43
3.5 Cálculo de las Estadísticas de Posición y Dispersión

Se ilustrará el cálculo de las estadísticas de posición y dispersión,


mediante el ejemplo que se muestra a continuación.

Ejemplo: La siguiente tabla, muestra los diámetros medidos en


centímetros, a la altura del pecho de ejemplares de Sauce Llorón
cuyo nombre científico es “Salix Humboldtiana” medidos en el
delta del río Paraná:

a) Se pide Calcular el resumen gráfico “Graphical Summary”

b) Gráfico de puntos “Dotplot”

Diámetro de ejemplares “Salix Humboldtiana”

4,54 5,45 6,36 6,81 7,72 8,57 29,51 29,96 30,87

12,72 12,72 12,79 13,17 13,17 13,62 11,35 9,08 9,99

14,98 14,98 14,98 14,98 15,44 15,44 14,07 14,07 13,62

16,34 16,80 16,80 16,80 16,80 17,25 15,98 15,44 15,96

18,16 18,16 18,16 18,61 18,61 18,61 18,72 17,25 17,25

19,07 19,52 19,52 19,52 19,52 19,89 19,07 18,61 18,61

20,88 20,88 21,34 21,34 21,34 21,79 20,43 19,98 19,98

22,70 22,70 23,15 23,15 23,15 23,61 22,25 21,79 61,79

27,24 28,15 28,60 24,97 23,61 24,62 25,88 26,33 24,62

11,80 12,26 10,44 16,34 16,34 15,98 19,07 19,07 18,61

14,54 14,54 14,00 17,71 17,78 17,71 20,43 20,88 20,43

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 44
Solución:

a) Se ingresan los datos en la columna C1, con el nombre de la variable


“Diámetro”. A continuación se realizan la secuencia de comandos “Stat”
– “Basic Statistics” – “Display Descriptive Statistics”, se elige la opción
“graphical summary” como se muestra en la siguiente figura.

Paso 2: Paso 1: “Click”


Doble “Click”

Paso 3: “Click”

Paso 4: “Click”

Paso 5:
Optativo

Paso 6: “Click”

Click “OK”

Efectuados los pasos anteriores, se despliega la siguiente pantalla:

Estadígrafos de
Posición y
Dispersión

Graphical
Summary

- Prueba de
Anderson.
- Estadísticas de
Posición y
Dispersión.
- Asimetría y
Kurtosis.
- Percentiles.
- Intervalos de
confianza para
la media y
mediana.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 45
En “Graphical Summary” se aprecian cuatro gráficos:

- El primer gráfico muestra el histograma de la variable con la


curva más cercana a la normal.
- El segundo gráfico muestra el diagrama de caja de la
distribución de la variable.
- En el tercer gráfico se muestra el intervalo de confianza para
la media poblacional.
- En el cuarto gráfico se muestra el intervalo de confianza para
la mediana.

b) Para graficar el Dotplot, se realiza la secuencia de comandos “Graph” –


“Dotplot” y se siguen los pasos que se muestran a continuación.

Pasos 2: Paso 1: “Click”


Doble “Click”

Paso 3: “Click”
“No grouping”

Click “OK”

Una vez realizados los pasos indicados anteriormente, se obtiene el


gráfico:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 46
3.6 Organización y Presentación de Datos Bivariados.

En la presentación de datos bivariados se usará un generador de


número aleatorios bajo ciertos supuestos.

Se simulará el costo del arriendo y los metros cuadrados de construcción


de las casas de una población virtual de tamaño 50, bajo el supuesto que
ambas variables distribuyen Normal en donde la variable costo tiene media
de $220.000 y desviación típica de $40.000 y la variable metros cuadrados
tiene media 78,5 con desviación típica de 18,5.

Para ello se usa la secuencia de comandos “Calc” – “Random data” –


“Normal” y se completa el siguiente menú:

Paso 1:
- “Click”
- Ingresar 50

Paso 2:
- “Click”
- Ingresar C4

Paso 3:
- “Click”
- Ingresar Media

Paso 4:
- “Click”
- Ingresar
Click “OK” Desviación Típica

En el menú de la parte superior se indica la cantidad de números


aleatorios que se quiere generar, que en este caso son 50, en la ventana de
más abajo se indica la variable que se desea llenar (la columna), que en
este caso se le asignó la columna C4 y en los dos casilleros de más abajo
se ingresa la media y desviación típica deseada (220.000 y 40.000)
respectivamente (sin punto).

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 47
Esta operación se repite cambiando la variable C4 por C5 y la media de
220.000 y desviación típica de 40.000 por 78,5 y 18,5 respectivamente, los
resultados obtenidos se muestran en la siguiente tabla (se han elegido las
variables C4 y C5 para que el alumno use variables distintas a las típicas C1 y
C2, dejando de manifiesto que cualquier columna puede ser ocupada sin
importar su orden).

Valor Mt2 Valor Mt2 Valor Mt2 Valor Mt2 Valor Mt2
219976 76,546 233509 91,2999 223009 68,7016 266500 64,713 246405 89,878
235138 33,591 220332 99,6577 226132 40,5705 202307 64,988 155413 48,147
259212 77,062 288615 95,0912 208088 59,0868 254312 75,098 168624 112,608
157839 67,400 220567 98,5261 255339 91,2617 240111 73,577 191211 78,461
238466 93,410 173380 57,4518 158526 80,9711 218331 110,356 242068 92,511
204611 75,394 197251 89,2503 280899 73,4230 191959 99,131 223522 102,192
284533 66,726 181109 73,0887 210949 42,1491 269565 57,221 235281 106,361
203904 64,293 158871 88,1232 232646 89,2998 209728 85,511 236482 78,184
225100 73,775 208689 52,4544 245415 49,3621 283136 82,588 249792 70,245
194132 58,876 291024 82,3059 171864 47,4255 229190 58,406 246974 88,483

Se debe advertir que al repetir esta secuencia de comandos con los


mismos parámetros anteriores, los resultados serán diferentes debido a que
siempre se generarán nuevos números aleatorios.

En el estudio de este tipo de distribución, es necesario conocer las


estadísticas básicas de cada variable, las que se obtienen usando el menú
“Stat” – “Basic statistics” – “Display Statistics Descriptive” y se asignan las dos
variables a estudiar, en este caso “valor” y “mt2”, como se muestra en la
siguiente pantalla:

Paso 1:
- “Click”
- Ingresar C4
- Ingresar C5

Click “OK”

Resultados de la
aleatorización

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 48
A continuación se observan los resultados:

Descriptive Statistics: Valor; Mt2

Variable N Mean Median TrMean StDev SE Mean


Valor 50 223401 224311 223502 35947 5084
Mt2 50 75,90 75,97 76,13 18,90 2,67

Variable Minimum Maximum Q1 Q3


Valor 155413 291024 201043 246547
Mt2 33,59 112,61 62,99 90,22

En este primer análisis se debe considerar el mínimo y máximo para


cada variable, datos que se usan para calcular el rango de las variables a
tabular (se consideró 5 intervalos para ambas variables), este cálculo se debe
hacer de la siguiente forma.

Amplitud Valor = (291.024,0-155.413,0)/5 = 27.122,2


Amplitud Mt2 = (112,61-33,59)/5 = 15,804

Ambas variables pueden ser discretizadas “Valor” y “Mt2” (se creó la


variable “ValorT” en C6 y “Mt2T” en C7 para guardar las nuevas variables
codificadas) en la confección de la tabla de doble entrada, se usó la secuencia
de comandos “Manip” – “Code” – “Numeric to Numeric” y se completaron los
intervalos deseados, asignando los límites y las marcas de clases en las cuales
se agruparán los datos originales.

Paso 4:
Ingresar
Paso 1: Códigos
Ingresar variable a
codificar, “Valor”

Paso 2:
Ingresar variable
codificada, “ValorT”

Paso 3:
Ingresar Intervalos
a codificar

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 49
Para la variable mt2 se realizó el mismo procedimiento que se muestra a
continuación:

Paso 4:
Ingresar
Paso 1: Códigos
Ingresar variable a
codificar, “Mt2”

Paso 2:
Ingresar variable
codificada, “Mt2T”

Paso 3:
Ingresar Intervalos
a codificar

Con las nuevas variables, se crea la tabla de doble entrada usando la


secuencia de comandos “Stat” – “tables” – “Cross Tabulation” y se completa la
pantalla que se muestra en la figura siguiente, en donde se seleccionó la
alternativa “Count” para desplegar la tabla de frecuencias absolutas nij:

Paso 1:
- “Click”
- Ingresar “ValorT”
- Ingresar “Mt2T”

Paso 3:
Click “Count”

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 50
La tabla de distribución de frecuencias absolutas bivariadas resultante
es:

Tabulated Statistics: ValorT; Mt2T

Rows: ValorT Columns: Mt2T

41,492 57,296 73,100 88,904 104,708 All

155413 1 0 0 0 0 1
168974 1 1 3 1 1 7
196096 0 5 2 1 1 9
223218 3 1 4 3 5 16
250341 1 0 4 5 0 10
277463 0 2 2 2 0 6
291024 0 0 0 1 0 1
All 6 9 15 13 7 50

Cell Contents --
Count

El procedimiento se puede repetir pero esta vez usando la alternativa en


“Total percent” en “Display” para obtener la tabla de frecuencias relativas fij, que
se muestra a continuación:

Tabulated Statistics: ValorT; Mt2T

Rows: ValorT Columns: Mt2T

41,492 57,296 73,100 88,904 104,708 All

155413 2,00 -- -- -- -- 2,00


168974 2,00 2,00 6,00 2,00 2,00 14,00
196096 -- 10,00 4,00 2,00 2,00 18,00
223218 6,00 2,00 8,00 6,00 10,00 32,00
250341 2,00 -- 8,00 10,00 -- 20,00
277463 -- 4,00 4,00 4,00 -- 12,00
291024 -- -- -- 2,00 -- 2,00
All 12,00 18,00 30,00 26,00 14,00 100,00

Cell Contents --
% of Tbl

Una manera de obtener una visión más clara de la información bivariada,


es graficar la respectiva distribución mediante el uso de un gráfico
tridimensional, para ello se deben digitar los datos de la tabla bivariada
respectiva, considerando en cada fila las dos clasificaciones y sus respectivas
frecuencias, en el ejemplo las variables se asignaron con el nombre “espacio”
“precio” y frecuencia”. Luego se puede graficar usando el menú “Graph” – “3D
Wireframe Plot” y se ingresan los datos como en la figura siguiente:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 51
Paso 1: Paso 2:
- “Click” - “Click”
- Ingresar - Ingresar
“frecuencia” “espacio”
Paso 3:
- “Click”
Paso 4:
- Ingresar
“Click”
“precio”
“Wireframe”

Paso 5:
“Click”
“Project”

Paso 6:
“Click”
“Symbol”

Click “OK”

Para graficar se asigna al eje vertical “Z” la variable “frecuencia”, luego


en los dos ejes “X” e “Y” se asignaron las variables “precio” y “espacio”, el
gráfico se muestra en la siguiente imagen:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 52
Otra forma de estudiar la distribución gráficamente es usando el
histograma al que se puede acceder en MINITAB mediante la secuencia de
comandos “graph” – “Marginal Plot” y se completa la siguiente pantalla:

Paso 1:
- “Click”
Paso 3:
- Ingresar “valor”
“Click”
“Histogram”
Paso 2:
- “Click”
Paso 5: - Ingresar “mt2”
- “Click” Ingresar
titulo eje X, Paso 4:
opcional “Click” “X and Y”
- “Click” Ingresar
titulo eje Y,
opcional
- “Click” Ingresar
titulo del gráfico,
opcional

Click “OK”

Nota: En “X axis label”, “Y axis label” y “Title”, los nombres se dejan a elección
del alumno.

El gráfico resultante es el siguiente:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 53
3.7 Laboratorio Estadística Descriptiva

1. Los gastos en miles de pesos en fotocopias realizados por estudiantes


universitarios en la fotocopiadora “La Tía”, son:

Estudiante Marzo Abril Mayo Junio Julio


Mariana 12 8 9 12 31
Sebastián 6 7 5 9 8
Ana 6 5 7 9 4
Julia 17 13 12 10 21
Irma 10 12 17 13 17

a) Introduzca los datos. Guarde la hoja de trabajo en el archivo “La Tía”.

b) Inserte el estudiante Raúl con los gastos: 10, 9, 5, 8, 7.

c) Borre los datos correspondientes al mes de Mayo.

d) Borre al estudiante Sebastián.

e) Consulte la ventana “History”. ¿Ha cambiado respecto a la anterior?

f) Salir de MINITAB.

g) Entrar en MINITAB y recuperar la hoja anterior.

2. Se desea codificar a los estudiantes del problema anterior según el gasto


en fotocopias durante los meses de Marzo, Abril, Mayo y Junio en dos
categorías: los que han gastado más de 40 mil pesos, Categoría 1 y los
que han gastado menos de 40 mil pesos, Categoría 2. En una nueva
hoja de trabajo ingrese a los estudiantes según estas categorías con sus
nombres y gastos en estos meses. ¿A cuánto asciende el total para el
estudiante que más ha gastado? ¿Y el total del estudiante que menos ha
gastado? ¿Cuál es el rango entre el gasto mayor y el menor?.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 54
3. Al abrir el archivo “RESTRNT”, “RESTAURANTE”, se encuentra la
siguiente información por columna:

CJ NAME NOMBRE COUNT MISSING


C1 ID Identificación 279 00
Apariencia:1 a
C2 OUTLOOK 279 01
7
C3 SALE Ventas 279 25
Capital
C4 NEWCAP 279 55
invertido
Valor de
C5 VALUE 279 39
Mercado
Costo en % de
C6 COSTGOOD 279 42
ventas
Salarios en %
C7 WAGES 279 44
de ventas
Propaganda
C8 ADS en % de 279 44
Ventas
C9 TYPE FOOD 1, 2, 3 279 12
Número de
C10 SEATS asientos 279 11
disponibles
Tipo de
C11 OWNER propietarios:1, 279 10
2, 3
Número de
C12 FT.EMPL 279 14
empleados/8h
Número de
C13 PT.EMPL 279 13
empleados/4h
Tamaño 1, 2,3
C14 SIZE de menor a 279 16
mayor

Para la distribución de datos de las variables de este archivo se pide:

a) Graficar un diagrama de torta según categorías de la variable “Owner”


b) Estratificar los Restaurantes según categorías de la variable “Outlook” y
graficar los histogramas de la variable “CostGood” para cada una de las
categorías anteriores.
c) Estratificar los Restaurantes según las categorías de la variable
“TypeFood” para posteriormente determinar las medidas descriptivas de
cada categoría para la variable “Sales”
d) Para cada una de las categorías anteriores grafique los Diagramas de
Caja correspondientes a la variable “Sales”.
e) Ordene de menor a mayor los Restaurantes según la variable “ADS”,
propaganda en % de ventas.
f) Confeccionar una tabla de distribución de frecuencias para el número de
Restaurantes según la variable “Seats”. Considerar una amplitud de 110
asientos a partir de cero.
g) Confeccionar una tabla de distribución de frecuencias conjuntas para los
Restaurantes según las variables “TypeFood” y Size”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 55
4. El archivo “CARTOON” consiste en un estudio para evaluar la eficacia
relativa de diseños animados y fotos reales usados en películas
educativas. La descripción de las variables por columnas es la siguiente:

CJ NAME NOMBRE COUNT MISSING


C1 ID Identificación 179 0
Presentación
C2 COLOR Blanco y Negro = 0 ; 179 0
Color = 1
Asistente
amateur=0;Asistente
C3 ED 179 0
Profesional=1;Asistente
Alumno=3
A=1 ; B=2 ; C=3;
C4 LOCATION 179 0
Escuela=4
Puntaje de Habilidad
C5 OTIS 179 0
Mental
Puntaje de Aciertos en
C6 CARTOON1 179 0
Diseño
Puntaje de aciertos en
C7 REAL1 179 0
Fotos
Idem C6 después de 4
C8 CARTOON2 179 75
semanas
Idem C7 después de 4
C9 REAL2 179 75
semanas

Para la distribución de datos de las variables de este archivo se pide:

a) Graficar un Dotplot de la distribución de películas según la variable


“LOCATION”.

b) Confeccionar un Histograma de la variable “OTIS” que tenga las


siguientes marcas de clases: 82,5; 97,5; 112,5; 127,5.

c) Determinar la distribución de frecuencias de las películas según la


variable “COLOR”.

d) Determinar la frecuencia conjunta entre las variables “ED” y “COLOR”.

e) Determinar las medidas estadísticas descriptivas de la variable “OTIS”.

f) Graficar e interpretar el Diagrama de Caja de la distribución de puntajes


de habilidad mental que describe la variable “OTIS”.

g) Confeccionar una tabla de distribución de frecuencias de la variable


“OTIS” que tenga las siguientes marca de clase: 82,5 ; 97,5 ; 112,5 ;
127,5.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 56
5. En un estudio realizado por un grupo de antropólogos con el objeto de
determinar el efecto que puede provocar un cambio de medio ambiente
en la presión sanguínea, se consideraron 39 personas nacidas en el
hermano País del Perú, las cuáles pasaron de un ambiente original
selvático de alta altitud a los valles montañosos urbanos de la Cordillera
de Los Andes de baja altitud en busca de mejores condiciones de vida.

Los antropólogos sostenían que una migración desde una


sociedad primitiva a una moderna puede, al principio, ocasionar un
aumento de presión sanguínea, que tiende a decrecer y volver a la
normalidad después de un largo tiempo.

En cada una de las personas estudiadas se midieron 10 variables,


cuyos valores se encuentran en el archivo “PERU” de MINITAB. Todos
los datos se refieren a personas de sexo masculino nacidos en zonas de
alta altitud y cuyos padres también nacieron en este tipo de zonas.

En este ejercicio se van a considerar algunas de estas variables:

a. AGE : edad en años.

b. YEARS : número de años desde la migración.

c. WEIGHT : peso en kilos

d. SYSTOL : presión sanguínea, en milímetros de Hg.

Estas variables se encuentran en las columnas C1, C2, C3 y C9,


respectivamente, del archivo “PERU”.

Para atender el objetivo de los antropólogos, se va a considerar


dos grupos de personas en consideración a la variable “YEARS”,
creando una nueva variable representada por dos valores:

“1”, para las personas entre 0 y 6 años desde la migración.

“2”, para las personas entre 7 y 43 años desde la migración.

Para ayudar a estos antropólogos, nativos de Europa, se pide:

a) Confeccionar e interpretar el gráfico de Tallo y Hojas para la


variable “YEARS”.

b) Construir los dos grupos utilizando el comando “CODE” de


MINITAB. Designe un nombre para esta nueva variable y
ubíquela en la columna C12.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 57
c) A continuación realice un completo análisis descriptivo para
ambos grupos de personas, teniendo presente:

i. Sus edades.

ii. Sus pesos.

iii. Sus presiones sistólicas.

d) Interpretar los resultados obtenidos en: i, ii y iii de (c).

Nota: Para una mejor visualización del análisis de los resultados debe
usar los comandos “BOXPLOT”, “DOTPLOT”, “DISPLAY
DESCRIPTIVE STATISTIC”.

6. En el presente ejercicio, el alumno debe investigar en este Tutorial de


MINITAB la definición de cada una de las variables involucradas en el
experimento que da lugar al archivo “PULSE”, una vez hecho esto, se le
pide :

a) Detectar una anomalía que se efectuó al introducir los datos.


Sustituir el valor existente por el valor “1”.
b) Comparar el incremento de pulso producido al correr en los
hombres y en las mujeres. ¿Existen diferencias?.
c) Realizar un gráfico en el que se muestre la relación entre el pulso
inicial y el pulso final de los que han corrido, separando los casos
según el sexo. Comentar los resultados.
d) Realizar un Dotplot para le segunda medición del pulso,
diferenciando entre los estudiantes que han corrido y los que no lo
han hecho, manteniendo la misma escala.
e) Hallar cuántos de los alumnos tienen un número de pulsaciones
inicial entre 60 y 69, diferenciando según la actividad que realizan
normalmente.
f) Mediante la construcción de Box-Plots, identifique la existencia de
alguna anomalía entre los pulsos de las personas que realizan
una actividad física de tipo medio, tanto antes como después de
correr. De qué tipo son y cuántas hay.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 58
IV USO DE DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

4.1 Función de Probabilidad Discreta fx(x)

Se considera una variable aleatoria “X”, con


recorrido { x i }i∈I⊆ ¥ ⊆ ¡, en donde I es un subconjunto

finito o infinito. Se supone conocida la probabilidad de


que la variable aleatoria “X” asuma estos valores, es
decir, se conoce que P[X=xi], ∀i ∈ I ⊆ ¥ . Siméon Denise
Poisson, 1781-
1840. Francia.

Definición: Se define la función de probabilidad de la variable aleatoria


discreta “X”, a la función:

f x: ¡ → ¡

tal que xi → f x ( x i ) = P[X = x i ]

verifica 1. fx(xi) ≥ 0, ∀ x i ∈ ¡
2. ∑ f (x ) = 1
x i ∈¡
x i

En ciertas ocasiones interesa que la variable aleatoria “X” tome valores


menores o iguales que un valor determinado de xi. En tales casos es necesario
acumular los distintos valores de la función de probabilidad hasta el valor
deseado. Se trata de una nueva aplicación que se define a continuación.

Definición: Sea “X” una variable aleatoria discreta, cuyos valores se


suponen ordenados de menor a mayor. Se llama función de
distribución de la variable Aleatoria “X”, y se designa con FX,
a la función:

FX : ¡ → ¡
x → FX(x) = P[X ≤ x]

Es decir, asigna a cada valor de la variable aleatoria discreta la


probabilidad acumulada hasta ese valor.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 59
De la definición anterior se tienen las siguientes propiedades:

Propiedades

1. 0 ≤ FX (x) ≤ 1

2. F X (x) = 0, ∀x < x1

3. F X (x) = 1,∀ x ≥ x n

4. F X (x) es constante en cada intervalo [x i , x i +1 )

5. Si x1 ≤ x 2 ⇒ FX (x1 ) ≤ FX (x 2 )

6. La función de distribución es continua por la derecha en


cada punto.

7. P[a<X ≤ b] = FX (b) − FX (a)

Percentil de una variable aleatoria discreta “X”.

Sea p un número en el intervalo (0,1), 0<p<1.Se dice que xp es un


percentil 100p de la variable aleatoria discreta X si y sólo: F X (x −p ) ≤ p ≤ FX (x p ) .

Como la función de distribución es escalonada se pueden presentar dos


casos:

i. Que exista un elemento xk en el recorrido de “X”, tal que FX(xk)=p, en


este caso cualquier valor en el intervalo [xk , xk+1] sirve como xp.

ii. Que no exista un elemento en el recorrido de “X” en donde la función


de distribución sea igual a p. En este caso xp es el menor valor en el
recorrido de “X” en donde FX(xp) = p

Definición de Esperanza de “X”

Definición: Sea “X” una variable aleatoria discreta, que tiene


una función de probabilidad fx(x), es decir X~ f X (x) ,
entonces se define la Esperanza de “X” como:

E[X]= ∑x f
xi
i Xi (x i )

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 60
Definición de Varianza de “X”

Definición: Sea “X” una variable aleatoria discreta, que tiene


una función de cuantía fx(x), es decir X : f X (x) ,
entonces se define la Varianza de “X”, como

∑(x − E[X]) ⋅ f Xi (x i )
2
Var[X]= i
xi

Definición de Moda de “X”

Definición: Sea “X” una variable aleatoria discreta, que tiene


una función de probabilidad fx(x), es decir
X~ f X (x) , entonces se define la Moda de “X”, y
se denota Mo, a aquel valor del recorrido de “X”
que maximiza a la función de probabilidad fx(x).

Ejemplo :

En ocasiones algunas líneas aéreas venden más pasajes que los


disponibles en un vuelo. Una compañía ha vendido 205 pasajes que
corresponden a un avión con capacidad de 200 pasajeros. Sea “X” la
variable aleatoria que indica el número de pasajeros que se presentan en
el aeropuerto para viajar en el avión. La distribución de “X” es:

xi 198 199 200 201 202 203 204 205


P(X=xi) 0,05 0,09 0,15 0,20 0,23 0,17 0,09 0,02

a.- Hallar la probabilidad de que todos los pasajeros que llegan a tomar el
vuelo puedan realizar su viaje.

b.- Obtener la probabilidad de que alguno de los pasajeros no pueda viajar.

c.- Calcular el número esperado de pasajeros que aparecen en el aeropuerto.

d.- ¿Cuál es la probabilidad de que la primera persona que esta en lista de


espera pueda viajar?

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 61
Solución:

Teniendo presente que “X” = “el número de pasajeros que se


presentan en el aeropuerto para viajar en el avión”, se puede calcular la
función de distribución asociada a la función de cuantía, obteniendo los
siguientes resultados a calcular posteriormente en MINITAB, a objeto
además de introducir al alumno en el uso de la calculadora integrada en
MINITAB.

xi 198 199 200 201 202 203 204 205


P(X=xi) 0,05 0,09 0,15 0,20 0,23 0,17 0,09 0,02
FX(xi) 0,05 0,14 0,29 0,49 0,72 0,89 0,98 1,00

Se inicia el cálculo digitando en la columna C1 los datos de la


variable a la que se llamó “x”, luego se digita en la segunda columna C2
los valores da la probabilidad en cada punto. En las columnas C4 y C5
se les da el nombre de F(x) y E[X] respectivamente.

El alumno deberá usar los comandos “Calc” – “Calculator” y


completar la pantalla de la calculadora según los pasos indicados en la
siguiente figura:
Paso 1:
- Se posiciona el
Paso 2:
cursor.
- Se posiciona el cursor. - Se marca en la
- Se marca en la ventana ventana contigua
contigua izquierda C1. izquierda C3.
- Luego se marca la tecla *
- Se marca en la ventana
contigua izquierda C2.

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 62
El alumno deberá usar nuevamente los comandos “Calc” – “Calculator” y
completar la pantalla de la calculadora como se indica en los pasos de la
siguiente figura:

Paso 3: Paso 1:
Se marca en la - Se posiciona el
ventana contigua cursor
izquierda C2 con - Se marca en la
doble click ventana contigua
izquierda C4

Paso 2:
- Se busca
Partial sums.
- Se selecciona
con doble click.

Click “OK”

Para obtener el valor esperado E[X], el alumno deberá usar los


comandos “Calc” – “Calculator” y completar la pantalla de la calculadora como
se indica en los pasos de la siguiente figura:

Paso 3: Paso 1:
Se marca en la - Se marca en la
ventana contigua ventana contigua
izquierda C3 con izquierda C5
doble click

Paso 2:
- Se busca
Sum.
- Se
selecciona
con doble
click.

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 63
El alumno deberá llegar finalmente a la siguiente pantalla:

d.- P(X ≤ 199)=F(199)=0,14

c.- E[X]=201,44

a.- P(X ≤ 200)=F(200)=0,29


b- P(X>200)=1-F(200)=1-0,29=0,71

donde se obtiene:

Resultados

a.- P(X ≤ 200)=F(200)=0,29

b.- P(X>200)=1-F(200)=1-0,29=0,71

c.- E[X]=201,44

d.- P(X ≤ 199)=F(199)=0,14

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 64
4.2 Distribución de Bernoulli

Los ensayos de Bernoulli fueron investigados por primera vez en la obra


Ars conjectandi de Jacques Bernoulli (1654-1705), publicada en Basilea, Suiza
en 1713, y por eso se llaman ensayos de Bernoulli.

Un ensayo Bernoulli debe verificar las siguientes propiedades:

Propiedades

1.- El experimento consta de un sólo ensayo.

2.- Interesan sólo dos resultados éxito o fracaso

3.- La probabilidad de éxito se denota por p y la de fracaso


q=1-p, elección que es relativa.

Si “X” sigue una distribución de Bernoulli de parámetro p, se denotará


X : B[p] . La función de cuantía dada para esta distribución depende de p y
está definida como:

Definición: Si X : B[p] , su función de cuantía está dada por

p x q 1-x ; x=0,1

P[X=x] =
0 ; E.T.O.C.

En la práctica, las situaciones de dicotomía se refieren a que un espacio


muestral asociado a este experimento consta de un evento A y un evento AC. Al
evento A que se considera como éxito se le asigna la probabilidad p.

Como ejemplo de un experimento Bernoulli se pueden mencionar:

i. Nace un niño de sexo femenino o masculino.

ii. Un artículo sometido a un control de calidad es defectuoso o no


defectuoso.

iii. Se pierde o gana una apuesta.

iv. Presencia o ausencia de virus en un computador.

Se debe observar que el término éxito o fracaso son relativos, ya que


corresponden al interés de la situación en estudio. Así, si se define que el
nacimiento de una mujer es un éxito, entonces el nacimiento de un hombre
será un fracaso.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 65
La Función de Distribución, está dada por:

Función de Distribución

0 ; x<0

FX(x) = q=1-p ; 0 x<1

1 ; x 1

El valor esperado y varianza de una variable aleatoria X~Bernoulli son,


E[X]=p y Var[X]=pq respectivamente. Con coeficiente de variación dado por:

q
CV[X]=
p

Los coeficientes de Asimetría AF y de Kurtosis KF de Fisher, son:

AF =
µ µ
KF = −3
3 4

σ σ
3 4

válidos para cualquier distribución.

En particular, para la distribución de Bernoulli, es conveniente que el


alumno compruebe que

1− 2 p 1− 6 pq
AF = KF =
pq pq

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 66
Gráficos de la Distribución Bernoulli.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 67
4.3 Distribución Binomial y Muestreo Con Reemplazo

Esta distribución corresponde a una serie de n ensayos independientes


en que cada uno de ellos es una prueba Bernoulli, en donde las
condiciones sobre p deben permanecer constantes en cada experimento,
lo que obliga a un muestreo con reposición. Las condiciones generales
para su aplicación están dadas por:

Propiedades

1.- El experimento consta de n ensayos independientes de Bernoulli.

2.- La probabilidad de éxito p permanece constante en cada una de


las n pruebas, ya que la unidad en estudio en cada prueba se
repone.

3.- La variable aleatoria “X” que cuenta el número de éxitos, toma


valores 0,1, 2,3,..., n, donde n es un número finito.

4.- Las probabilidades asociadas en cada ensayo satisfacen p+q=1.

Si “X” sigue una distribución de Binomial de parámetros n y p, se denota


X : B[n;p] . La función de cuantía dada para esta distribución depende de n
y p, se define como:

Definición: Si X : B[n;p] , su función de cuantía está dada


por

 n  p x q n-x ; x=0,1,2,...,n
 
x
P[X=x] =

0 ; E.T.O.C.

Como ejemplo de un experimento Binomial se pueden mencionar:

i. Número resultados positivos en 10 exámenes de glicemia.

ii. Número de artículos defectuosos en un lote de 20.

iii. Número de ases obtenidos en el lanzamiento de 9 dados.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 68
La función de Distribución FX(x), está dada por:

Función de Distribución

0 ; x<0

k=x
n ; 0 ≤ x <n
P[X ≤ x]=FX[x]= ∑ k  ⋅ p k
⋅ qn−k
k =0  

1 ; x ≥ n

El valor esperado y varianza de una variable aleatoria X~B[n;p] son,


E[X]=np y Var[X]=npq respectivamente. Con coeficiente de variación dado
por:

q
CV[X]=
np

Los coeficientes de Asimetría AF y de Kurtosis KF de Fisher, para la


distribución Binomial son respectivamente:

q− p 1− 6 pq
AF = KF =
npq npq

La moda M0 satisface la desigualdad np–q ≤ M0 ≤ np+q, como la moda


M0 ∈ {0,1, 2,..., n}, se pueden presentar dos casos:

1.- Que los términos de la desigualdad no sean enteros, aunque siempre se


van a diferenciar en una unidad. En este caso, en el intervalo
determinado hay sólo un valor entero que será la moda. Esta situación
indica que la distribución es unimodal.

2.- Que los dos términos sean enteros. En este caso ambos valores son
modas y la distribución es bimodal.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 69
Gráficos de la Distribución Binomial.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 70
Ejemplo:

La probabilidad de que el comprador de un osciloscopio haga uso del


servicio de garantía dentro del plazo correspondiente es 0,2. Para los 5
osciloscopios que un local comercial ha vendido a 5 clientes este mes, se pide:

a.- La probabilidad de que 3 de los clientes hagan uso de la garantía

b.- La probabilidad de que 3 o más clientes hagan uso de la garantía.

Solución:

a.-Sea X=”Número de clientes que hacen uso de la garantía”, luego “X” tiene
distribución Binomial con parámetros n=5 y p=0,2. Con la secuencia de
comandos “Calc”- “Probability Distribution”-“Binomial”, se ingresan los datos
que aparecen en pantalla:

Paso 1:
“Click” Paso 2:
“Probability” - “Click”
- Ingresar 5

Paso 3:
Paso 4: - “Click”
“Click” - Ingresar 0,2
“Probability”

Paso 5:
- “Click”
- Ingresar “x”

Paso 6:
Click “OK” - “Click”
- Ingresar
P(X=x)

Una vez entrados los datos y observando los resultados que


aparecen en la hoja de trabajo vemos que P(X=3)=0,05120

b.- P(X ≥ 3 )= P(X=3) + P(X=4) + P(X=5) = 0,05120 + 0,00640 + 0,00032


= 0,05792

NOTA: Es importante que el alumno aprecie en pantalla que la moda M0=1 y


compruebe este resultado según la desigualdad que debe verificar.
Como también calcular los coeficientes de asimetría y de sesgo para
luego interpretarlos en un gráfico de barras de la función de cuantía
correspondiente al ejemplo.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 71
4.4 Distribución Hipergeométrica y Muestreo Sin Reemplazo

Esta distribución a diferencia de la distribución Binomial, se realiza sin


reemplazo, lo que determina que los ensayos no sean independientes. Las
condiciones generales para su aplicación están dadas por:

Propiedades

1.- El experimento consta de n ensayos.

2.- En cada ensayo se pueden observar sólo éxitos o fracasos, es


decir, sólo dos tipos de eventos.

3.- Los ensayos no son independientes.

4.- La probabilidad p del éxito no es constante, por lo tanto p es la


probabilidad de éxito en el primer ensayo.

5.- La probabilidad p+q=1, se mantiene constante en todos los


ensayos.

6.- La población está constituida por N elementos, divididos en dos


grupos de tamaños Np y N-Np, donde Np es la cantidad de
unidades que se considerarán como éxitos.

7.- El tamaño de la muestra en estudio es n.

Si “X” sigue una distribución Hipergeométrica con parámetros N, n y p,


se denotará X : H[N;n;p] . La función de cuantía dada para esta distribución
depende de N, n y p, se define como:

Definición: Si X : H[N;n;p] , su función de cuantía está dada


por

 Np   N − Np 
 ⋅ 
 x   n−x  ; x = 0,1,2,...,n.
N
n
P[X=x]=  

0 ; E.T.O.C.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 72
La función de Distribución FX(x), está dada por:

Función de Distribución

0 ; x<0

 Np   N − Np 
 ⋅ 
P[X ≤ x]=FX[x]=  k   n−k  ; 0 ≤ x <n
k=x


k =0  N
 
n

1 ; x ≥ n

El valor esperado y varianza de una variable aleatoria X~H(N;n;p) son:

E[X]=np y Var[X]= npq 


N−n.

 N −1

Con coeficiente de variación dado por:

CV[X]=  q  ⋅  N − n 
 np   N − 1 

La moda M0 debe verificar la desigualdad:

npN - qN + n - 1 npN + pN + n + 1
£ M0 £
N+2 N+2

La distribución puede ser unimodal o bimodal, característica que


depende de los términos de la desigualdad, cuando éstos sean fraccionarios
o enteros.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 73
Ejemplo:

Una caja contiene lámparas, una docena son transparentes y media


docena son opacas. Se eligen cinco lámparas al azar, necesitando sólo tres
lámparas transparentes.

¿Cuál es la probabilidad de este evento?

Solución:

Sea X=”número de lámparas transparentes”, luego “X” tiene distribución


2
Hipergeométrica con parámetros N=18, n=5, p = 2 y N ⋅ p = 18 ⋅ = 12 .
3 3

Completando los datos según la siguiente pantalla:

Paso 1: Paso 2:
“Click” - “Click”
“Probability” - Ingresar 18

Paso 3:
- “Click”
- Ingresar 12

Paso 4:
Paso 5: - “Click”
“Click” “Input - Ingresar 5
column”

Paso 6:
- “Click”
- Ingresar x

Click “OK”
Paso 7:
- “Click”
- Ingresar
P(X=x)

Se obtiene que P(X=3) = 0,385154.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 74
4.5 Distribución de Poisson

Esta distribución fue estudiada por el matemático francés Siméon Denis


Poisson (1781-1840). Se publicó por primera vez bajo el título Recherches sur
la probabilité des jugements en matière criminelle et en matière civile en 1837.

Una de las aplicaciones más importantes de la variable aleatoria de Poisson


se conoce como flujo de sucesos de Poisson. Un suceso de Poisson tiene una
probabilidad que tiende a cero en un intervalo pequeño de tiempo, área o
volumen.

Algunos ejemplos en los que se aplica la distribución de Poisson son:

i) Número de clientes que llegan a un Banco por periodo de tiempo.

ii) Número de llamados por periodo de tiempo que se recepcionan en


una central telefónica

iii) Número de defectos en un alambre por centímetro cuadrado

iv) Número de errores de imprenta por página de un libro.

v) Número de Barcos que llegan a un puerto, aviones a un aeropuerto,


etc.

Si “X” sigue una distribución Poisson con parámetro l , se denotará


X : P[l ] . La función de cuantía para esta distribución depende de l y se
define como:

Definición: Si X : P[l ] , su función de Cuantía está dada por

e-l × l x
; x = 0,1,2,....
x!

P[X=x]=

0 ; E.T.O.C.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 75
La función de Distribución FX(x), está dada por:

Función de Distribución

0 ; x<0

P[X ≤ x]=FX[x]=

k =x
e-l l k
∑ k =0 k!
; x ∈ {0,1,2,......}

El valor esperado y varianza de una variable aleatoria X~P( l ) son:

E[X]= l y Var[X]= l

Con coeficiente de variación dado por:

1
CV[X]=
l

Los coeficientes de Asimetría AF y de Kurtosis KF de Fisher, para la


distribución Poisson son respectivamente:

1 1
AF = KF =
l l

La moda M0 debe verificar la desigualdad l –1 ≤ M0 ≤ l .

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 76
Ejemplos:

1. Se dejan caer 5.000 volantes sobre una ciudad de 2.000 manzanas,


homogeneizando en lo posible la distribución de los mismos, sobre un
predio de 2 manzanas. Se pide:

a.- ¿Cuál es la probabilidad de que caigan al menos 4 volantes?

b.- ¿Cuál es la probabilidad de que caigan entre 4 y 6 volantes?

Solución: Se supone que X=”cantidad de volantes que caen en 2 manzanas”,


luego “X” tiene distribución Poisson con parámetro ë=5. Mediante una
regla de tres simple se obtiene que en promedio caen 5 volantes
cada 2 manzanas.

Con la secuencia de comandos “Calc” – “Probability Distributions “-


“Poisson” se completan los datos que aparecen en pantalla

Paso 1:
“Click”
“Probability”

Paso 2:
- “Click”
- Ingresar 18

Paso 3:
“Click” “Input Paso 4:
column” - “Click”
- Ingresar x

Paso 5:
- “Click”
Click “OK”
- Ingresar
P(X=x)

a.- P(X ≥ 4) = 1 – P(X<4) = 1- P(X ≤ 3)


= 1- {P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3)}
= 1- {0,006738 + 0,033690 + 0,084224 + 0,140374} = 1-0,265026
= 0,734974

Se recomienda al alumno crear en C3 la variable FX(x) con la opción


“Cumulative probability”, calcular posteriormente P(X ≥ 4) = 1 – F(3)

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 77
b.- P(4 ≤ X ≤ 6)= FX(6)-FX(3)=0,762183-0,265026=0,497157

2. El número de colonias bacteriológicas en un determinado cultivo por 1mm2


tiene la siguiente distribución:

Colonia ni Colonia ni Colonia ni


0 10 5 180 10 8
1 50 6 120 11 7
2 100 7 80 12 2
3 168 8 45 13 1
4 190 9 20 14 0

Se pide:

1. Ajuste una distribución de Poisson a la distribución de frecuencias.

2. Un gráfico de distribución de frecuencias relativas entre colonias vs fi


observadas.

3. Un gráfico de distribución de frecuencias relativas entre colonias vs fi


esperadas.

Solución:

1) Sea X=”Número de colonias Bacteriológicas por 1mm2”, luego “X” tiene


distribución Poisson con parámetro l . Se calcula el parámetro l estimado
como el siguiente promedio:

xi ⋅ ni
l = ∑ n
= (4428/981) ≈ 4,5138

luego se construye la distribución de Poisson con el l estimado, usando la


secuencia de comandos “Calc” – “Probability Distribution” – “Poisson”, como
se aprecia en pantalla:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 78
Paso 1: Paso 2:
“Click” - “Click”
“Probability” - Ingresar
4,51376

Paso 3:
“Click” “Input Paso 4:
column” - “Click”
- Ingresar “xi”

Paso 5:
- “Click”
- Ingresar
Click “OK” “poisson”

En esta pantalla, los valores de C6 corresponden a la estimación de


colonias esperadas que se obtienen de C5*981.

2) Con los comandos “Graph” – “Plot”, completando como se aprecia en


pantalla:

Paso 2:
- “Click”
- Ingresar”xi”

Paso 1:
- “Click”
- Ingresar”fi” Paso 4:
- “Click”
- seleccionar
“Proyect”
Paso 3:“Click”

Pasos 6 y 10:
- “Click”
- seleccionar
“Graph”
Paso 5:“Click”

Paso 7:“Click” Paso 8:


- “Click”
Paso 9:“Click” - seleccionar
“Symbol”
Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 79
se obtiene el gráfico pedido:

Gráfico de frecuencias relativas de la colonia xi vs fi

0,2

0,1
fi

0,0

0 5 10 15
xi

3) De igual forma el alumno debe obtener el siguiente gráfico:

Gráfico de las colonias xi vs las frecuencias esperadas según Poisson

0,2

X~P( l =4,5138)
poisson

0,1

0,0

0 5 10 15
xi

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 80
4.6 Distribución Binomial Negativa

La distribución binomial negativa representa el número de fracasos


que ocurren hasta obtener el n-ésimo éxito en la realización de ensayos de
Bernoulli con probabilidad p de éxito. En otras palabras, el resultado de cada
prueba se clasifica en éxito ó fracaso, la probabilidad p es constante en
cada prueba, cada prueba es independiente de las demás y se realiza un
número variable de pruebas hasta obtener k éxitos.En estas condiciones, si
se define la variable “X” como “el número de pruebas realizadas hasta la
aparición del k-ésimo éxito “, entonces la variable aleatoria discreta “X” se
distribuye binomial negativa y se denota X : BN[k;p]. La variable binomial
negativa se considera también como una variable de tiempo de espera
discreto en virtud de que el tiempo representa que tanto debemos esperar,
en términos de fracasos, hasta que aparece el k-ésimo éxito.

Si “X” sigue una distribución Binomial Negativa con parámetro k y p, se


denota X : BN[k;p] . La función de cuantía dada para esta distribución, se
define como:

Definición: Si X : BN[k;p] , su función de cuantía está dada por

 x − 1 k x −k
 p ⋅ q ; si x ∈ {k,k + 1,k + 2,...}
 k − 1
fx(x)=
0 ; ETOC

La función de Distribución FX(x), está dada por:

Función de Distribución

0 ; x<k

P[X ≤ x]=FX[x]=
j= x
 j − 1 ; k≤ x
∑  k − 1 ⋅ p k
⋅ q j−k
j=k  

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 81
El valor esperado y varianza de una variable aleatoria X~BN[k;p] son,
k kq
E[X]= y Var[X] = 2 respectivamente. Con coeficiente de variación dado
p p
por:

q
CV[X]=
k

La función generatriz de momentos está dada por:

k
M x (t) =  pe 
t

 1 − qe 
t

Ejemplo: Un cazador debe cazar su presa de un disparo. Si no lo logra, su


presa escapará. Busca cazar 5 piezas. Si la probabilidad de dar en el
blanco es 0,75, ¿cuál es la probabilidad de necesitar 10 disparos para
cazar las 5 piezas?

Solución: Sea X=”Número de disparos necesarios hasta dar en el blanco”,


luego “X” tiene distribución Binomial Negativa, con parámetro k=5 y
p=0,75.

9
P(X = 10) =   * 0,755 * 0,25 5
4

9!
= * 0,755 * 0,25 5
5!4!

362.880
= * 0,755 * 0,25 5
120 * 24

= 0,0291996

El cálculo anterior se realiza con la calculadora, pues la


distribución binomial negativa no está contemplada dentro de las
opciones de MINITAB.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 82
4.7 Distribución Geométrica

La distribución geométrica se usa en aquéllas situaciones que se


caracterizan por la realización de una serie de pruebas que tienen las
siguientes propiedades, el resultado de cada prueba se clasifica como éxito
ó fracaso, la probabilidad p de un éxito es constante en cada prueba, cada
una de las pruebas es independiente de las otras y se realiza un número
desconocido de pruebas hasta que aparece el primer éxito.

Definición: Se define la variable “X” como “el número de pruebas


necesarias hasta la aparición del primer éxito”, entonces “X”
sigue una distribución geométrica y se denota X : g(p) si y
sólo si, su función de probabilidad es de la forma:

p ⋅ q x − 1 si x=1,2,3,.....
f x (x) =

0 ETOC

La función de Distribución FX(x), está dada por:

Función de Distribución

0 ; x<1

P[X ≤ x]=FX[x]=
j= x

∑ p ⋅ q j−1 ; x≥1
j=1

1
El valor esperado y varianza de una variable aleatoria X~BN[k;p] son, E[X]=
p
q
y Var[X] = respectivamente.
p2

La función generatriz de momentos está dada por:

M x (t) =  pe 
t

 t 
 1 − qe 

Ejemplo: Una compañía aeroespacial ha construido 5 misiles. La probabilidad


de un disparo exitoso es, en cualquier prueba 0,95. Suponiendo
lanzamientos independientes, ¿cuál es la probabilidad de que la
primera falla ocurra en el quinto disparo?

Solución: Sea X=”Lanzamiento del misil i-ésimo” i=1,2,3,4,5; luego “X” tiene
distribución Geométrica con parámetro p=0,05

P(X=5)= 0,054*0,95=0,0000059375

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 83
4.8 Distribución Entera Uniforme

La principal aplicación del modelo entero uniforme se presenta en


situaciones que requieran de selección aleatoria de un elemento dentro de un
conjunto finito cuando todos los elementos del conjunto tienen la misma
probabilidad de ser seleccionados. O en casos donde los resultados de una
determinada experiencia aleatoria tengan como espacio muestral un conjunto
finito equiprobable.

Definición: Sea A= {x1, x 2 ,....., xn } un conjunto finito. Se dice que la


variable aleatoria “X” tiene una distribución entera uniforme
en el conjunto A, y se denota X : UD(A), si y sólo si, su
función de probabilidad tiene la forma:
1
, sí x Î A
n
f x (x) =
0 , sí x Ï A

La función de Distribución FX(x), está dada por:

Función de Distribución

0 ; x < x1

i
P[X ≤ x]=FX[x]= ; xi ≤ x < xi+1
n

1 ; x ≥ xn

El valor esperado y varianza de una variable aleatoria X~UD[A] son,


n +1 n2 - 1
E[X]= y V[X]= Var[X] = respectivamente.
2 12

La función generatriz de momentos está dada por:

i=n

∑i=1
e t ⋅x i

M x (t) =
n

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 84
4.9 Laboratorio “Distribuciones Discretas”

1. Graficar la distribución Binomial en los siguientes casos:

a) Dejar p constante y variar n: B(5; 0,2), B(10; 0,2), B(20; 0,2).

Analizar las diferencias al aumentar n.

b) Dejar n constante y variar p: B(100; 0,1), B(100; 0,5), B(100; 0,8).

Analizar las diferencias al variar p.

2. Generar 120 números aleatorios B(100; 0,1) y verificar las propiedades


de la media y la varianza. Es decir,

E[X] = n ⋅ p = 10

Var[X] = n ⋅ p ⋅ q = 9

3. Sea “X” una variable aleatoria con distribución Binomial de parámetros 20


y 0,2, es decir, X : B(20;0,2)

a) Calcular P(X = 5),P(X £ 8),P(X > 3),P(2 < X £ 6) .

b) Calcular los cuartiles de la variable X.

c) ¿Cuánto valen realmente P(X £ Qi ) para i= 1, 2, 3?

4. Sea “X” una variable aleatoria con distribución Hipergeométrica de


parámetros 20, 8 y 0,6; es decir X : H(20;8;0,6)

b) Calcular P(X= j) para j = 0, 1, 2, 3, 4, 5, 6, 7, 8.

c) Calcular la media, la varianza, coeficientes de sesgo y de


kurtosis.

5. En cierto hospital, se sabe que el 70% de recetas analgésicas prescriben


aspirina y el otro 30% prescriben dipirona. El servicio de enfermería del
hospital tiene un stock de 17 comprimidos de aspirina y 5 de dipirona. Sí
en cierto período se reciben 15 recetas, ¿cuál es la probabilidad de
satisfacer todas las recetas?

6. Se sabe que el 20% de una población son daltónicos. Se escogen


aleatoriamente 10 personas de dicha población, determine:

a) El número esperado de daltónicos.

b) La probabilidad de tener exactamente 3 daltónicos.

c) La probabilidad de tener a lo más 3 daltónicos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 85
7. Sea “X” una distribución Poisson de parámetro l = 4

a) Calcular P(X=0), P(X<3), P(X ³ 4), P(X<5).

b) Graficar la función de probabilidad.

8. Sea “X” una distribución de Poisson de parámetro l = 0,4.

a) Calcular P(X=0), P(X<3), P(X ³ 4), P(X<5).

b) Graficar la función de probabilidad.

9. A un establecimiento de estética de determinada ciudad acuden 4


personas por hora.

a) Calcular la probabilidad de que en alguna ocasión acudan 8 o


más personas en un hora.

b) ¿Qué probabilidad hay de que acudan entre 6 y 10 personas en


una hora y media?

c) ¿Qué probabilidad hay de que acudan a lo más 3 personas en


media hora?

10. La probabilidad de que un remache particular en la superficie del ala de


un avión nuevo esté defectuoso es 0,001. Hay 4.000 remaches en el ala.
¿Cuál es la probabilidad de que se instalen no más de 6 remaches
defectuosos?.

11. Se va a realizar cierto experimento hasta obtener un resultado exitoso.


Los experimentos son independientes y el costo de efectuar el
experimento es de 25.000 u.m.; sin embargo, si se produce una falla,
cuesta 5.000 u.m. “iniciar” el siguiente experimento. Al investigador le
gustaría determinar el costo esperado del proyecto. Si “X” es el número
de experimentos que se requieren para obtener un experimento exitoso,
calcule el valor esperado de la función de costo asociada al proyecto del
experimento.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 86
V USO DE DISTRIBUCIONES CONTINUAS DE PROBABILIDAD

5.1 Funciones de Distribución Continuas

Se considera una variable aleatoria “X”, con


recorrido en los números reales ¡ . Se supone
conocida la función de densidad, es decir X : f x (x) .

Definición:

Sea “X” una variable aleatoria continua, se dice Ronald A. Fisher,


que la función: 1890-1962.
Australia.

fx : R → R

es función de densidad de la variable aleatoria


continua “X”, y se denota X : f x (x) ,si verifica:

1. fx(x) ≥ 0 , ∀x ∈ R

2. ∫ f (x)dx = 1
R

Cuando se trabaja con variables aleatorias continuas la probabilidad


en un punto aislado es cero, si “a” es el punto en cuestión se tiene que
P[X=a]=fx(a)=0, en consecuencia para medir probabilidad de un intervalo
real, en donde la variable aleatoria continua X : f x (x) , no es necesario
incluir el extremo inicial o final del intervalo, es decir:

P[X ≥ a] = P[X>a]

P[a<X<b] = P[ a ≤ X ≤ b] = P[a<X ≤ b] = P[a ≤ X < b]

Nota: fx(x)=P[X=x], representa la ordenada de la función, en MINITAB


corresponde a “Probability density” de la opción “Probability
distribution” del comando “Calc”.

Definición: La definición de probabilidad para un intervalo real [a,b] se


define como
b
P[a<X<b] = ∫ f (x)dx
a

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 87
En las distribuciones continuas, interesa que la variable aleatoria “X”
tome valores menores o iguales que un valor determinado de “x”. En tales
casos es necesario acumular el área de probabilidad de los valores de la
función de densidad hasta el valor deseado. Se trata de una nueva
aplicación que se define a continuación.

Definición: Sea “X” una variable aleatoria continua, que sigue un


modelo fx(x), es decir X : fx(x), se define la Función de
Distribución de “X”, como la función Fx

FX : R → R
Donde
x
Fx(x) = P[X ≤ x] = ∫f x (t)dt, ∀x ∈ ¡
−∞

Nota: Como se señaló anteriormente, cuando se calcula una probabilidad de


una variable aleatoria continua “X” no importa que se incluya o no el
punto inicial o final del intervalo, por lo tanto para efecto de calcular
probabilidades se tienen las siguientes igualdades:

a
P[X ≤ a] = P[X<a]= ∫f
−∞
x (t)dt, ∀x ∈ ¡

+∞
P[X ≥ a] = P[X>a]= ∫f
a
x (t)dt, ∀x ∈ ¡
b
P[a<X<b] = P[a ≤ X < b] = P[a<X ≤ b] = P[a ≤ X ≤ b] = ∫ f x (t)dt, ∀x ∈ ¡
a

Propiedades

1. Fx(- ∞) = 0

2. Fx(+ ∞) = 1

3. Sí x1 ≤ x2 ⇒ Fx(x1) ≤ Fx(x2)

4. Fx es continua

dy
5. Para Y=Fx(x), se tiene que = f x (x)
dx
b
6. P[a ≤ X ≤ b] = ∫f
a
x (x)dx = Fx(b) – Fx(a)

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 88
Características de las variables aleatorias continuas

Se trata de resumir la información de una variable aleatoria en un


conjunto de medidas numéricas, como son:

Esperanza de “X”

Definición: Sea “X” una variable aleatoria continua “X”, que tiene
una función de densidad fx(x), es decir X~ f X (x) ,
entonces se define la Esperanza de “X” como:

E[X] = ∫ x ⋅f
R
x (x)dx

La Esperanza de “X”, E[X] no es una función de “x”, es un valor fijo que


depende de la función de probabilidad de la variable aleatoria continua “X”. Está
medida en las mismas unidades de “X”. Si “X” es una v.a. con función de
densidad simétrica con respecto a un punto x=a, entonces E[X]=a.

Propiedades del Valor Esperado de “X”, E[X]:

Propiedades

1. Si K es una constante, entonces E[K]=K

2. E[ax ± b] = aE[X] ± b , ∀a, b ∈ R

3. Si g(X) es una transformación de “X” ⇒ E[g(X )] = ∫ g(x) ⋅ fx ( x )dx


R

Varianza de “X”

Definición: Sea “X” una variable aleatoria continua, que tiene una
función de densidad fX(x), es decir X ∼ fX(x), entonces
se define la Varianza de “X”, como

Var[X] = E[ X - E[X] ]2

La raíz cuadrada positiva de la varianza se llama desviación típica y se


denota por σ X. Tanto la varianza como la desviación típica miden la dispersión
de la variable aleatoria respecto de su media, la desviación típica tiene la
ventaja de recuperar la medida usada en la v.a. Siendo siempre ambas
medidas positivas o cero.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 89
Propiedades

1. Si K es una constante, entonces se tiene que Var[K]=0

2. Var[X] = E[ X 2 ] - [ E[X]]2

3. Var[aX ± b] = a2 Var[X], ∀a, b ∈ R

Ejemplo

Sea “X” una variable aleatoria continua, con función de distribución

0 ; x ≤ -2
x 1
FX(x) = + ; -2 < x ≤ 2
4 2
1 ; x>2

Se pide calcular la varianza de “X”.

Solución:

Se encuentra la función de densidad

0 ; x ≤ -2
1
fX(x) = F’X(x) = ; -2 < x ≤ 2
4
0 ; x>2

Se calcula el valor esperado de “X”

1
E [ X] = ∫ x ⋅ fX (x)dx = ∫ x ⋅ dx = 0
2 2

-2 -2 4

Se encuentra la varianza pedida, teniendo en cuenta que E[X]=0

1 2 2 4
Var [ X] = ∫  x - E [ X]  ⋅ fX ( x ) dx = ∫ x 2 ⋅ dx = ∫ x 2 dx =
2 2 2

-2 −2 4 4 0 3

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 90
Los gráficos de la distribución de probabilidades son:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 91
5.2 Distribución Uniforme

Sea “X” una variable aleatoria continua, que toma un valor constante
“k” en el intervalo real [a;b] y el valor cero fuera de este intervalo.
Entonces, se tiene:

k ;a ≤ x ≤ b
fX ( x ) =
0 ; E.T.O.C.

Se debe determinar el valor de k, según la definición de función de


densidad de “X”, es decir:

∫ f ( x ) dx = 1
¡
X

por lo tanto

∫ f ( x ) dx = ∫ k ⋅ dx = k ⋅ ( b - a ) = 1
b
X
a
¡

1
de donde k= .
b-a

Si “X” sigue una distribución Uniforme en el intervalo [a;b], se denotará


X : U[a;b] . La función de densidad dada para esta distribución está definida
como:

Definición: Si X : U[a;b] , su función de densidad está dada


por
1
;a ≤ x ≤ b
b-a
fX(x) =
0 ; E.T.O.C.

La Función de Distribución, está dada por:

Función de Distribución

0 ; x< a

x-a
FX(x) = ; a ≤ x ≤ b
b-a

1 ; x>b

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 92
El valor esperado y varianza de una variable aleatoria X : U[a;b] son
(b - a )
2
a+b
E[X]= y Var[X]= respectivamente.
2 12

La función generadora de momentos está dada por

eb⋅t − e a⋅t
MX ( t ) = ; t≠0
t ⋅ (b − a )
Ejemplo 1

Una variable aleatoria “X” se distribuye uniformemente con media 6 y


varianza 0,75.Calcular la probabilidad de que x2 – 9x + 20 sea negativo.

Solución:
(b - a )
2
Como X~ U[a,b], se tiene que E[X]= a + b y Var[X]=
2 12
de donde
a+b =6
2
(b - a )
2
= 0,75
12

Resolviendo el sistema: a=4,5 y b=7,5. Por lo tanto X ~ U[4,5 ; 7,5]

Como los ceros de la ecuación x2 -9x +20 = 0 son 4 y 5, se tiene que:

P[ x2 – 9x + 20 < 0] = P[4<X<5] = Fx(5) – Fx(4)

Se calculará la última expresión con MINITAB, para lo cual se denota x a


la columna C1 y se introducen los valores 4 y 5, se designa con Fx(x) a la
columna C2, posteriormente se efectúa la secuencia de comandos: “Calc”-
“Probability Distribution”-“Uniform” y se marca la burbuja Cumulative Probability
para obtener:

a = 4,5

Función de b = 7,5
densidad

Variable que
contiene los
datos

Click “OK” Donde se


guardan los
resultados

Luego : Fx(5) – Fx(4) = 0,166667 – 0,00000 = 0,166667

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 93
Ejemplo 2

Una máquina automática debe cortar barras pequeñas de chocolate de


250 gramos a partir de barras grandes de chocolate, cada una de las cuales va
pasando por el molde de salida de la máquina. Se supone que las barras
grandes tienen distribución uniforme y en el caso que una barra pequeña tenga
una longitud exacta de 8,50 cms. entonces esta tiene un peso exacto de 250
grs., también se supone que la longitud real “X” de cada barra pequeña tiene la
misma probabilidad de estar comprendida entre 8,47 y 8,55 cms., además los
cortes de las barras pequeñas, realizados en la máquina son independientes.
Para probar la precisión de la máquina se toma una muestra de cuatro barras
pequeñas. Se pide calcular la probabilidad de que en esta muestra dos de las
barras pequeñas pesen menos de 250 grs., y las otras dos pesen más de 250
grs.

Solución:

La variable aleatoria continua “X” = “longitud de cada barra pequeña


medida en cms.” tiene una distribución uniforme en el intervalo real [8,47; 8,55],
luego su función de densidad es:

Función de densidad de X

12,5 ; 8,47 ≤ x ≤ 8,55


fX(x) =
0 ; E.T.O.C

fX(x)

12,5

8,47 8,50 8,55


a b x

Función de Distribución de X

0 ; x < 8,47

FX(x) = x − 8,47 ; 8,47 ≤ x ≤ 8,55


0,08

1 ; x > 8,55

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 94
Sean A y B los eventos:

A = “la barra pequeña de chocolate pesa menos de 250 grs.”

B = “la barra pequeña de chocolate mide menos de 8,50 cms.”

Se debe observar que dentro del contexto del problema, A y B son


eventos equivalentes, por lo cual, ambos eventos tienen igual probabilidad, es
decir

P(A) = P(B).
Por lo tanto:

P(A) = P(B) = P(X<8,50) = FX(8,50) = 0,375 = p

P(Ac) = P(Bc) = 1- FX(x) = 1-0,375 = 0,625 = q

Ahora se define la variable aleatoria discreta Binomial Y = “número de


barras pequeñas en la muestra que pesan menos de 250 grs.”, se debe
observar que los parámetros de esta distribución son “n = 4” y “p = 0,375”, por
lo tanto la función de cuantía correspondiente a esta variable es:

4 4 − y ; y=0,1,2,3,4
  0,375 ⋅ 0,625
y

y
P[Y=y] =

0 ; E.T.O.C.

Luego P(Y=2) = fY(2) =  4  0,375 2 0,625 2 = 0,329590


 
 2

Se le recomienda al alumno realizar los cálculos con la distribución


Uniforme y Binomial respectivamente con el uso de MINITAB.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 95
5.3 Distribución Exponencial

La distribución exponencial es el equivalente continuo de la distribución


discreta geométrica y está muy relacionada con la distribución discreta de
Poisson. Este modelo de distribución describe procesos en los que interesa
saber el tiempo que pasa hasta que ocurre un evento, sabiendo que el tiempo
que pueda ocurrir desde cualquier instante dado to, hasta que ocurra dicho
evento en un instante t1, no depende del tiempo transcurrido anteriormente en el
que no ha pasado nada.

Como ejemplo de un experimento Exponencial se pueden mencionar:

i. El tiempo que tarda una partícula radiactiva en desintegrarse. El


conocimiento del modelo que sigue este evento se utiliza para, por
ejemplo, la datación de fósiles o cualquier materia orgánica mediante
la técnica del carbono 14, C14

ii. El tiempo que puede transcurrir entre dos llamadas consecutivas a


una central telefónica.

iii. La duración de vida útil de instrumentos electrónicos, ..etc.

Si “X” sigue una distribución Exponencial de Parámetro α , con α >0 se


denota X : Exp[α] . La función de densidad dada para esta distribución
depende de á y se define como:

Definición: Si X : Exp[a ] , su función de densidad está dada


por

−α x
α e ; x ≥0
fX(x) =

0 ; E.T.O.C.

La Función de Distribución, está dada por:

Función de Distribución

−α x
1-e ; x ≥ 0
FX(x) =
0 ; x<0

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 96
El valor esperado y varianza de una variable aleatoria X : U[a;b] son,
1 1
E[X]= y Var[X]= 2 respectivamente.
α α
La función generadora de momentos está dada por

α
MX ( t ) = ; t<α
α−t
Ejemplo 1

Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue


un modelo exponencial con media de 16 años. Se pide:

a. ¿Cuál es la probabilidad de que a una persona que se le ha implantado


el marcapasos se le deba reimplantar otro antes de 20 años?

b. Si el marcapasos lleva funcionando correctamente 5 años en un


paciente, ¿cuál es la probabilidad de que haya que cambiarlo antes de
25 años?

Solución:

Se define X = “la variable aleatoria que mide la duración en años de un


1
marcapasos en una persona”, entonces X~Exp[ ] .Antes de responder
16
las preguntas anteriores se calcula en MINITAB, FX(20), FX(25) y FX(5), para
lo cual se designa con “X” la columna C1 y se designa con FX(x) la columna
C2 en la cual se guardaran los resultados. Se hace a continuación la
secuencia de comandos “Calc” - “Probability distribution” - “Exponential”, se
marca la burbuja “Cumulative probability”, en la sub-ventana “Mean” se
ingresa el valor 16. En “Imput column” se ingresan los valores de “X”, en
“Optional storage” se ingresa FX(x), para finalmente pulsar en OK,
resultando la siguiente pantalla:

Media = 16
Función de
distribución

Entrada de
datos

Almacena
resultados

Click “OK”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 97
En la hoja de trabajo anterior, en la columna C2, se aprecian los resultados
FX(20)=0,713495 ; FX(25)=0,790389; FX(5)=0,268384. Resultados que se
ocupan a continuación:

a. P[X ≤ 20] = 0,713495

P[5 ≤ X ≤ 25] F(25) − F(5) 0, 790389 − 0, 268384


b. P[X ≤ 25/X ≥ 5]= = = 0,7135
P[X ≥ 5] 1 − F(5) 1 − 0, 268384

Resultado que era de esperar, por ser propio de un modelo exponencial,


P[X ≤ 25 / X ≥ 5] = P[X ≤ 20], o sea en la duración que se espera del objeto, no
influye para nada el tiempo que lleva funcionando en la actualidad. Es por ello
que se dice que “la distribución exponencial no tiene memoria”, conocida
también como la propiedad del olvido.

Ejemplo 2

Graficar la función de densidad de una variable aleatoria continua


1
X : Exp( ) .
2

Solución:
1
Por las características del modelo exponencial se reconoce que α = ,
2
E[X]=2,
x
1 −2
⋅e ; x≥ 0
2
fX(x)=

0 ; E.T.O.C.

Ahora se abre MINITAB, en la primera columna de trabajo C1 que se


designa con “X” se introducen los valores en progresión aritmética desde el 0
hasta el 8, con un incremento de 0,5. Esta introducción de valores de “X”, se
puede hacer con los comandos:

”Calc” - “Make Patterned Data” - “Simple set of number”

completando los requerimientos como se aprecia en pantalla para finalmente


pulsar OK. Obteniéndose:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 98
Valor inicial = 0
Almacenar
resultados

Valor Final = 8

Incremento = 0,5

Click “OK”

A continuación se designa fX(x) a la columna C2. Luego con los


comandos “Calc” - “Probability distribution” - “Exponential”, se despliega la
pantalla de la Distribución Exponencial, se ingresa el valor 2 en “Mean”,
marcando la burbuja “Probability density”, ingresando “X” en la sub-ventana
“Imput column” e ingresando fX(x) en la sub-ventana “Optional storage”, se
obtiene la siguiente pantalla:

Función de
densidad
Media = 2

Entrada de
datos

Almacena
resultados

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 99
Finalmente para graficar la función de densidad se ocupa la secuencia
de comandos:”Graph”-“Time Series Plot”, se ingresan los requerimientos
pedidos en las sub-ventanas correspondientes.

En “Graph variable” se ingresa la variable a graficar, en “Data display” se


indican los ítem para cada elemento que se desea que esté presente en el
gráfico, como el símbolo que representará el valor de la variable, si se desea
que estén unidos por un segmento rectilíneo, etc., luego se pulsa OK.
resultando el gráfico pedido:

Gráfico Exponencial

Tipo de punto

Conector
entre puntos

El gráfico resultante se muestra en la ventana del lado derecho, en


donde se puede apreciar la forma exponencial asintótica decreciente

Se sugiere al alumno realizar el mismo ejercicio considerando un


incremento de 0,25; en forma adicional es recomendable agregar el respectivo
titulo en donde se indique el parámetro correspondiente.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 100
5.4 Distribución Gamma

Esta distribución se aplica a los tiempos de vidas de sistemas eléctricos y


mecánicos, a la abundancia de especies animales, a periodos de incubación de
enfermedades infecciosas, etc.

La distribución gamma también se hace necesaria cuando se pide la


distribución del tiempo necesario para obtener un número especificado de
ocurrencias del evento en una distribución de Poisson.

Si “X” sigue una distribución Gamma de Parámetros p>0 y α >0, se


denota X : Γ (p, α ). La función de densidad dada para esta distribución
depende de p y α , se define como:

Definición: Si X : Γ (p, α ), su función de densidad está dada


por

α p p−1
x .e −α⋅ x
; x ≥ 0
Γ(p)
fX(x) =

0 ; E.T.O.C.

donde Γ representa la función gamma, definida por:

+∞
Γ (p) = ∫ 0
x p −1e −α⋅x dx

Algunas propiedades de la función Γ :

Propiedades

1. Γ (p) = (p-1) Γ (p-1)

2. Sí p∈IN, entonces Γ (p) = (p-1)!

1
3. Γ ( )= Π
2

4. Γ (1, α )=Exp( α )

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 101
La Función de Distribución, está dada por:

Función de Distribución

α p x p −1 −α⋅t
x ≥ 0
Γ(p) ∫0
t e dt ;

FX(x) =
0 ; x<0

El valor esperado y varianza de una variable aleatoria X : Γ (p, α ) son,


p p
E[X]= y Var[X]= 2 respectivamente.
α α

La función generadora de momentos está dada por

p
 α 
MX ( t ) =   ,t < α
α−t 

En general, los valores esperados de la variable aleatoria continua


Gamma de parámetros p y α , están dados por:

Γ (p + k )
E  X k  =
α k ⋅Γ ( p )

Gráficos de la Distribución Gamma.

X: Γ (1;1)
X: Γ (2;1)
X: Γ (3;1)

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 102
Ejemplo

El tiempo de duración “X” de una pieza de un cierto equipo se distribuye


según una distribución gamma de parámetros p=3 y α =0,2. Determinar:

1. La probabilidad de que el equipo funcione más de 10 horas.

2. La probabilidad de que el equipo funcione entre 10 y 15 horas.

Solución:

Se designa con x la columna C1, se introducen los valores 10 y 15 en la


primera y segunda celda respectivamente, se designa con FX(x) la columna C2,
realizamos la secuencia de comandos:“Calc” – “Probability distribution” -
“Gamma”
se completan los datos en pantalla de la siguiente forma:

Se marca la burbuja “Cumulative probability”, en la sub-ventana “first


shape parameter”se ingresa el valor de p , en este caso 3, el sub-ventana
1 1
“Second shape parameter” se ingresa el valor de = = 5, en “Imput
α 0, 2
column” se ingresa C1, en “Optional storage” se ingresa C2, se pulsa OK.,y se
tiene como resultado la pantalla:

Función de Distribución
p=3

Media = 5

Entrada
de datos

Almacena
resultados
Click “OK”

En la columna C2 se tiene que Fx(10)=0,323324 y Fx(15)=0,576810, por


lo tanto con estos valores de la distribución se que en las preguntas 1 y 2:

1. P(X>10) = 1- P(X<10) = 1-Fx(10) = 1-0,323324 = 0,676676

2. P(10<X<15) = FX(15) - FX(10) = 0,576810 - 0,323324 = 0,253486

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 103
5.5 Distribución Normal

Esta distribución fue presentada en 1733 por DeMoivre al derivarla como


una forma límite de la distribución Binomial. Laplace también tuvo conocimiento
de ella en fecha no posterior a 1775. Debido a un error en la historia, se le ha
atribuido a Gauss, cuya primera referencia publicada con respecto a la misma
apareció en 1809, de ahí que se le llame con frecuencia distribución Gaussiana.

Sin embargo, es Carl Friedrich Gauss quien realiza las primeras


aplicaciones de esta distribución como modelo estadístico para explicar la
distribución de errores de observaciones astronómicas, como ser distancia
entre dos cuerpos celestes, tiempo de rotación, intensidad luminosa, etc.

La importancia de la distribución normal se debe principalmente a que


hay muchas variables asociadas a fenómenos naturales que siguen este
modelo, como ser:

- Errores cometidos al medir ciertas magnitudes físicas.

- Caracteres morfológicos de individuos (personas, animales, plantas,...)


de una especie. Por ejemplo: estaturas, pesos, diámetros, perímetros,
etc.

- Caracteres fisiológicos, como por ejemplo: efecto de una misma dosis de


un fármaco, o de una misma cantidad de abono.

- Caracteres sociológicos, por ejemplo: consciente intelectual, grado de


adaptación a un medio.

- Valores estadísticos muestrales, por ejemplo: la media.

- Otras distribuciones como la Binomial o la Poisson son aproximaciones


normales.

- Las distribuciones de variables que miden características de interés de


productos fabricados en serie.

A continuación se describe la distribución normal, su ecuación


matemática y sus propiedades más relevantes.

Si “X” sigue una distribución Normal de Parámetros reales µ y σ 2, donde


µ ∈ ¡ y σ 2 ∈ ¡ + se denota X : N ( µ; σ2 ) . La función de densidad dada para
esta distribución depende de µ y σ 2, se define como:

Definición: Si X : N ( µ; σ2 ) , su función de densidad está


dada por

 1  x − µ  
2
1
fX(x) = ⋅ expe − ⋅    ; − ∞ < x < +∞
σ 2π  2  σ  

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 104
La Función de Distribución, está dada por:

Función de Distribución

1
x
 1  t − µ 2 
FX(x) = ∫ e - 2 ⋅  σ   dt ; − ∞ < x < + ∞
σ 2π - ∞
exp
 

El valor esperado y varianza de una variable aleatoria X : N ( µ; σ2 ) son,


E[X]= µ y Var[X]= σ 2 respectivamente.

La función generadora de momentos está dada por

 1 
M X ( t ) = expe µ ⋅ t + ⋅ σ2 ⋅ t 2 
 2 

Algunas propiedades de la Distribución Normal:

Propiedades

1. E[X] = µ
2. Var[X] = σ 2
1 2 2
3. MX(t) = expe{ µ ⋅ t + σ t }
2
4. Para k=0,1,…., se tiene que:

E  X 2⋅ k + 1  = 0
E  X 2 ⋅k  = (2k-1)(2k-3).........5.3.1. σ 2 ⋅k

5. Si Y=aX+b, X : N(µ, σ2 ) ,
entonces E[Y]=a ⋅ E[X] + b

6. Si Y=aX+b, X : N(µ, σ2 ) ,
entonces Var[Y]= a2 ⋅ Var[X] = a2 σ 2

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 105
Gráficos de la Distribución Normal.

Nota: Al mantener fija la desviación estándar y variando los valores de la media,


se mantiene la forma de la curva, cambiando sólo el eje de simetría de la
curva.

Nota: Al mantener fija la varianza y desplazar las medias, las distribuciones se


desplazan en el mismo sentido manteniendo su forma.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 106
En el siguiente gráfico se han considerado tres curvas normales con
varianzas distintas. Para ilustrar al alumno se ha elegido una curva normal con
media 0 y desviación típica 0,5 representada con azul y puede observarse en
ella, la alta concentración de la probabilidad en torno a la media que genera
una forma aguda o Leptokúrtica. En general cuando se trabaja con una normal
con desviación típica σ <1 se tienen curvas de este tipo.

En el caso de σ =1 se tienen curvas normales llamadas “Mesokúrticas”


que en la gráfica se muestra con color rojo.

En el caso de σ >1 se tienen curvas normales llamadas “Platikúrticas”,


por tener forma achatada semejante a un plato, en la gráfica se puede observar
una de estas curvas con color verde.

Nota: Al graficar tres distribuciones Normales con varianzas diferentes. Puede


observarse como cambia la agudeza de la curva, es decir el coeficiente
de kurtosis que permite establecer si los datos presentan una
concentración HOMOGÉNEA en el caso Leptokúrtico y HETEROGÉNEA
cuando el comportamiento de la distribución es Platikúrtico.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 107
Ejemplo1

Sea “X” una variable aleatoria continua con distribución Normal con
media ì y varianza σ 2, es decir X : N ( µ ; σ2 ) . Calcular: P[ X − µ < σ ].

Solución:

P[ X − µ < σ ] = P[ - σ < X − µ < σ ] = P  −1 < X − µ < 1 = P [ −1 < Ζ < 1] = FZ(1)-FZ(-1)


 σ 
,
se observa que Z ~ N(0;1). El cálculo de FZ(-1) y FZ(1) se hace en MINITAB
como se indica: se designa con x a la columna C1, se introducen –1 y 1 en esta
columna, se designa con FZ(z) a la columna C2 , posteriormente se hace la
secuencia de comandos: “Calc” - “Probability Distribution” - “Normal”, se marca
la burbuja “Cumulative Probability”, en Mean se ingresa el promedio “0”, en
“Standard deviation” se ingresa “1”,en “Imput column” se ingresa “x”, en
“Optional storage”, se ingresa “FX(x) y luego se pulsa OK., obteniéndose la
siguiente pantalla:

Función de
µ=0
Distribución

σ =1

Entrada de
datos

Almacena
resultados
Click “OK”

En la segunda columna C2 se observa que

FZ(-1)= 0,158655 y FZ(1)=0,841345 .

Por lo tanto:

FZ(1) – FZ(-1) = 0,841345 – 0,158655 = 0,68269.

Se recomienda al alumno realizar los cálculos de:

P[ X − µ <2 σ ] y P[ X − µ < 3 σ ]

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 108
Ejemplo 2

Para una variable aleatoria X : N(µ= 0;σ2 = 1) , determinar los percentiles


del 89,44% y del 22,66%

Solución:

Sean x1 y x2 los percentiles pedidos, entonces se deben resolver las


ecuaciones:

FX(x1) = 0,8944 y FX(x2) = 0,2266,

ecuaciones que se resuelven en MINITAB, para lo cual se designan con FX(x) la


primera columna, en esta columna se introducen los datos 0,8944 y 0,2266, a
continuación se designa con x la columna C2 .

Luego se realiza la secuencia de comandos:

“Calc” - “Probability Distribution” -“Normal”

y marcando la burbuja “Inverse Cumulative probability”´, además de hacer


Mean=0 y Standard deviation=1, para luego pulsar OK. , se obtiene la pantalla:

µ=0

σ =1
Valor z

Entrada de
datos

Almacena
resultados

En la columna C2 se aprecia que el percentil de orden 89,44% es


1,25027 y el percentil de orden 22,66% corresponde a – 0,75009.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 109
Ejemplo 3

A partir de un peso fijo de uvas se obtiene en forma artesanal una


cantidad variable de vino que sigue una distribución normal. Se sabe que con
probabilidad 0,1056 se obtiene una cantidad de vino superior a 1,75 litros y que
en un 22,66% de las veces se obtiene a lo más 1,51 litros. ¿Cuál es la
probabilidad de obtener a partir de una carga de uvas más de 1,66 litros?

Solución:

Sea X=”la cantidad de vino en litros”, se pide P[X>1,66], desconocemos


µ y σ , por lo tanto para calcular P[X>1,66] se debe calcular previamente el
valor de µ y de σ , para lo cual se ocupan las hipótesis:

P[X>1,75] = 0,1056 y P[X<1,51] = 0,2266


Como
P[X>1,75] =1 - P[X<1,75]=0,1056
se tiene que
P[X<1,75] = 1 - 0,1056 = 0,8944.

Pero P  X − µ ≤ 1,75 − µ  =0,8944 ⇒ 1,75 − µ = 1,25027 por el ejemplo


 σ σ  σ
anterior.

Además la otra hipótesis establece que:

P[X<1,51] = 0,2266

de donde estandarizando se tiene:

P  X − µ ≤ 1,51 − µ  = 0,2266 ⇒ 1,51 − µ = -0,75009


 σ σ  σ

también por ejemplo anterior.

Resolviendo el sistema de ecuaciones:

1,75 − µ = 1,25027
σ

1,51 − µ = - 0,75009
σ

Se obtiene que µ =1,6 y σ =0,12. Por lo que se tiene que X ~ N(1,6 ; 0,122 ).

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 110
Finalmente queda calcular:
P[X>1,66].

Pero P[X>1,66]= 1- P[X<1,66]= 1 – FX(1,66).

Se calculará FX(1,66) en MINITAB, para lo cual se designa con x la


columna C1 y se introduce 1,66 en la primera celda. Se designa FX(x) a la
columna C2, posteriormente se realiza la secuencia de comandos:

“Calc”-“Probability Distribution”-“Normal”

se ingresa “Mean”=1,6 y “Estándar deviation”=0,12

se pulsa OK. y se obtiene la siguiente pantalla:

Función de
Distribución µ = 1, 6

σ = 0,12

Entrada de
datos

Almacena
resultados

Click “OK”

Se puede observar que como se necesita FX(1,66), se marco con “ ” la


burbuja “Cumulative probability”.

En la primera celda de la columna C2 aparece 0,691462 que es el valor


de FX(1,66), por lo tanto como:

P[X>1,66]= 1- P[X<1,66]= 1 – FX(1,66).

se tiene que finalmente

P[X>1,66]= 1 – 0,691462 = 0,3085

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 111
5.6 Distribución Chi Cuadrado de Pearson

1 n
Es un caso particular de la distribución Gamma con α = y p= que
2 2
se genera mediante la suma de los cuadrados de n variables aleatorias
N(0;1) independientes entre sí, es decir, sí X1, X2 ,......, Xn son n variables
aleatorias N(0;1) independientes entre sí, entonces la variable positiva:

χ2n = X12 + X 22 + ...... + Xn2

recibe el nombre de distribución Chi Cuadrado de Pearson con n grados de


libertad, se denota por χ2n .

Si “X” sigue una distribución Chi Cuadrado con n grados de libertad, se


denota χ2n . La función de densidad dada para esta distribución depende de
los grados de libertad n y se define como:

Definición: Si X~ χ2n , su función de densidad está dada por

x n
1 − −1
e 2
⋅x 2
; x ≥ 0
n
1
2 Γ 
2

2
fX(x) =

0 ; E.T.O.C.

La Función de Distribución, está dada por:

Función de Distribución

t n
1 − −1
∫ ; x ≥ 0
x
e 2
⋅t 2
dt
n
1 0
2 Γ 
2

2
FX(x) =

0 ; E.T.O.C.

El valor esperado y varianza de una variable aleatoria X~ χ2n son, E[X]=n


y Var[X]=2n respectivamente.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 112
La función generadora de momentos está dada por:

1 1
MX ( t ) = n
; 1 ≤ n ∈ ¥,t <
2
(1 − 2 ⋅ t ) 2

Los grados de libertad, g.l, se interpretan como el número de valores de


la muestra que pueden ser fijados arbitrariamente y su cuantificación depende
del número de variables o del tamaño de muestra. Una muestra de tamaño n
tiene n grados de libertad, pues no establecemos ninguna restricción sobre los
valores que puedan tomar los valores muestrales. Si hay restricciones los
niveles de libertad se reducen.

Características de la distribución:

- La variable sólo toma valores positivos por tratarse de la suma de los


cuadrados de n variables.

- Es asintótica por la derecha respecto al eje de las abscisas.

- La distribución es asimétrica positiva.

- La distribución Chi Cuadrado se aproxima a la Normal a medida que los


grados de libertad, g.l, tienden a infinito. Para n>30 ,

2 ⋅ χn2 → N ( 2n − 1;1 )

- La suma de dos variables aleatorias Chi Cuadrado independientes, con


n1 y n2 grados de libertad respectivamente, es una nueva variable
aleatoria Chi Cuadrado con n1 + n2 grados de libertad, es decir:

χ2n + χ2n = χ2n +n


1 2 1 2

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 113
Gráficos de la Distribución Chi cuadrado.

Ejemplo

Sea “X” una variable aleatoria continua distribuida según una


distribución Chi Cuadrado con cinco grados de libertad, determine los
percentiles 95, 10 y 99 asociados a esta distribución.

Solución:

Para determinar los percentiles " xP " se deben resolver las


siguientes ecuaciones:

a) P(X ≤ x 95 ) = 0,95

b) P(X ≤ x10 ) = 0,10

c) P(X ≤ x 99 ) = 0,99

A continuación se va a la hoja de trabajo, se designa con “F( xP )” a


la columna C1 y se ingresan los valores 0,95; 0,10 y 0,99. Luego se
designa con “xp” a la columna C2, se 0realiza la secuencia de comandos:

“Calc”-“Probability-Distribution”-“Chi-Square”...,

se completan los requerimientos en la caja de diálogo, se pulsa “OK” y se


obtiene la siguiente pantalla:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 114
Percentil

g.l.=5

Entrada de
datos

Almacena
resultados

Click “OK”

En la caja de diálogo anterior se aprecia que se marcó la burbuja


“Inverse Cumulative probability”, se ingresó 5 en “Degrees of freedom”, se
ingreso F( xP ) en “Imput colum”, se ingreso xP en “Optional storage”,
finalmente después de pulsar “OK” se obtienen los resultados
correspondientes en la columna C2, que se designó con xP . Observando
esta última columna, se aprecia que los percentiles pedidos son:

Percentil 95:

x 95=11,0705

Percentil 10:

x 10=1,6103

Percentil 99:

x 99=15,0863.

Nota:

Se deja la interpretaciones de los resultados anteriores, como también el


cálculo de los quintiles que corresponden al los percentiles X20, X40, X60, X80.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 115
5.7 Distribución t de Student

La distribución de probabilidad t se publicó por primera vez en 1908 en


un artículo de W.S. Gosset. En esa época, Gosset era empleado de la Industria
de Cervezas Guinness que prohibía la publicación de investigaciones de sus
empleados. Para eludir esta situación, público su trabajo en secreto bajo el
seudónimo de “Student”, de ahí entonces el nombre de “Distribución t de
Student”.

Dadas dos variables aleatorias independientes, una Z : N(0;1) y otra Chi


Cuadrado con n grados de libertad, χ2n , se define una nueva variable llamada “t
de Student” y se denota t : t n , como:

Ζ
t=
cn2
n

Definición: Si t : t n , su función de densidad está dada por

 n +1
Γ 
ft ( x ) =  2  ⋅ 1
; − ∞ < x < +∞
n +1
n
Γ   ⋅ n ⋅ π  x2  2
2 1 + 
 n 

La Función de Distribución, está dada por:

Función de Distribución

 n +1
Γ 
 2  x 1
Ft(x)=
n ∫
−∞ n +1
dt ; − ∞ < x < + ∞
Γ ⋅ n ⋅ π  t 2 2
2 1 + 
 n

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 116
El valor esperado y varianza de una variable aleatoria t : t n son:
E[t] , ó ; si n=1

E[t]=0 ; si n>1

Var[t]= n ; n>2
n-2

La función generadora de momentos no existe.

La distribución t de Student con un grado de libertad se reduce a la llamada


distribución de Cauchy, la cual no tiene valor esperado y cuya función de
densidad de probabilidad está dada por:

1
; x≥0
(
π ⋅ 1 + x2 )
fX(x)=
0 ; E.T.O.C.

Los grados de libertad, g.l de la distribución t de Student, se interpretan


como el número de valores de la muestra que pueden ser fijados
arbitrariamente y su cuantificación depende del número de variables o del
tamaño de muestra. Una muestra de tamaño n tiene n grados de libertad, pues
no se establece ninguna restricción sobre los valores que puedan tomar los
valores muestrales. Si hay restricciones los niveles de libertad se reducen.

Características de la distribución t:

- Cada curva “t” es simétrica y tiene forma de campana con


centro en 0.

- Cada curva “t”, está más dispersa que la curva normal


estándar “Z”

- A medida que n aumenta, la dispersión de la curva “t”


correspondiente disminuye.

- A medida que n → + ∞ , la secuencia de curvas “t” se aproxima


a la curva normal estándar.

- Puede tomar valores positivos y negativos.

- Es asintótica respecto al eje de abscisas.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 117
Gráficos de la Distribución t de Student.

Ejemplo:

Sea T una variable aleatoria continua distribuida según una distribución “t


de Student”con 18 grados de libertad, determine el valor de P(-2,10<T<2,10).

Solución:

Se sabe, que : P(-2,10<T<2,10)= FT(2,10) - FT(-2,10), por lo tanto se debe ir a


MINITAB, calcular el valor de cada una de estas dos últimas expresiones y
luego restarlas. Para lo cual se va a la hoja de trabajo correspondiente, se
designa con xP a la columna C1, se ingresan los datos 2,10 y –2,10. Luego se

designa con F( xP ) a la columna C2 , se realiza la secuencia de comandos:

”Calc”-“Probability-Distribution”-“t”...,

se completan los requerimientos en la caja de diálogo, se pulsa OK. y se


obtiene la siguiente pantalla:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 118
g.l. = 18

Función de
Distribución
Entrada de
datos

Almacena
resultados

Click “OK”

En la caja de diálogo anterior se observa que se marcó la burbuja


“Cumulative probability”, se ingresó 18 en “Degrees of freedom”, se ingresó xP

en “Imput column”, se ingreso F( xP ) en “Optional storage”, para finalmente

después de pulsar OK obtener los resultados correspondientes en C2, que


designamos con F( xP ), observando esta última columna se aprecia que

FT(2,10)= 0,974955 y FT(-2,10)= 0,025045.

Por lo tanto

P(-2,10<T<2,10) = FT(2,10) – FT(-2,10)

= 0,974955 – 0,025045

= 0,9491

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 119
5.8 Distribución F de Fisher

Recibió este nombre en honor a Sir Ronald Fisher, uno de los


fundadores de la estadística moderna, pero es Snedecor quien tiene el mérito
de su descubrimiento, por eso también se la encuentra a veces en la literatura
estadística con el nombre de “Distribución F de Snedecor” Esta distribución de
probabilidad se usa como estadística de prueba en varias situaciones. Se
emplea para probar si dos muestras provienen de poblaciones que poseen
varianzas iguales. Esta prueba es útil para determinar si una población normal
tiene una mayor variación respecto a otra y también se aplica cuando se trata
de comparar varias medias poblacionales en forma simultánea. La comparación
simultánea de varias medias poblacionales se llama ANOVA, sigla que
significa Análisis de Varianza. En ambas situaciones, las poblaciones deben ser
normales y los datos deben tener al menos la escala intervalar.

Si U y V son dos variables aleatorias continuas e independientes


que tienen distribuciones Chi- Cuadradas con “m” y “n” grados de libertad,
respectivamente. Entonces la distribución de la variable aleatoria
U/m
F=
V /n

se llama distribución F de Fisher con parámetros m y n correspondiente a los


grados de libertad del numerador y del denominador respectivamente y se
denota F : Fm,n .

Definición: Si F : Fm,n , su función de densidad está dada por

 
m+n  
Γ  m m
−1
 2  ⋅  2
m  x2 
  ⋅ m+n  ; 0<x<+∞
m n n
Γ ⋅Γ     m  2 
 2  2  1 + ⋅ x  
 n  
fF ( x ) =

0 ; E.T.O.C

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 120
La Función de Distribución, está dada por:

Función de Distribución

 
m+n  
Γ  m m
−1
 2  ⋅ m 2 ⋅ x  t2 
  ∫0  m+n  dt ; 0 < x < + ∞
m n n
Γ ⋅Γ     m  2 
 2  2  1 + ⋅ t  
 n  
FF ( x ) =

0 ; E.T.O.C

El valor esperado y varianza de una variable aleatoria F : Fm,n son:

n
E[F] = ; n>2
n-2

2n2 × (m + n - 2)
Var[F] = ; n> 4
m × (n - 2) × (n - 4)
2

Características de la distribución:

- F no puede ser negativa.

- La distribución F tiene un sesgo positivo.

- La distribución F tiene una apariencia muy similar a la


distribución Chi-Cuadrado, se encuentra centrada
respecto a “1”. y los dos parámetros m y n proporcionan
una flexibilidad adicional con respecto a la forma de la
distribución.

- A medida que aumentan los valores, la curva se aproxima


al eje “X”, pero nunca lo toca.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 121
Gráficos de la Distribución F de Fisher.

Ejemplo:

Sea F una variable aleatoria continua distribuida según una distribución


de Fisher con m = 3 y n = 9, grados de libertad del numerador y grados de
libertad del denominador respectivamente. Determine el valor de abscisa “a”
que satisface la relación:

P( F3,9 > a ) = 0,95

Solución:

Se tiene que
 1 1  1
P ( F3,9 > a ) = P  ≤  = P  F9,3 ≤  = 0, 95
F 
 3,9 a   a

De la relación anterior, se observa que

 1
P  F9,3 ≤  = 0, 95
 a

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 122
Por lo tanto se debe hallar el valor del percentil 95, para lo cual se va a
MINITAB, se abre una hoja de trabajo, se designa la columna C1 con F(1/a), en
la primera celda se ingresa 0,95, se designa con 1/a la columna C2, se hace la
secuencia de comandos:

“Calc”-“Probability-distributions”-“F”...,

se completan los requerimientos en la caja de diálogo, se pulsa OK y se obtiene


la siguiente pantalla:

m=9

Percentil
n=3

Entrada de
datos

Almacena
resultados

Click “OK”

En la caja de diálogo anterior se observa que se marco la burbuja


“Inverse Cumulative probability”, se ingreso 9 en “Numerator degrees of
freedom”, se ingreso 3 en “Denominador negrees of freedom”,se ingreso F(1/a)
en “Imput columns”, se ingreso 1/a en “Optional storage”. En la columna C2 se
aprecia el valor correspondiente al percentil 95, es decir:

1
= 8,81230 ,
a

de donde se concluye que el valor de abscisa pedido es a = 0,113478

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 123
5.9 Laboratorio “Distribuciones Continuas”

1. Graficar las funciones de densidad de la distribución exponencial


1 1
variando el parámetro α . Por ejemplo, considerar α = 1; α = ; α = .
2 5
Analizar como afecta el valor del parámetro α a la forma de la función de
densidad.

2. Generar 100 números aleatorios de una distribución exponencial de


1
parámetro α = , guardarlos y estudiar los valores de la media y de la
3
varianza muestrales y poblacionales.

3. Considerar distribuciones normales con σ = 1 y variando µ = -1; 0 ;1.


Analizar cómo afectan los parámetros a la forma de la distribución y
cómo afecta a su posición en los ejes.

4. Considerar distribuciones normales con µ=0 y variando


σ = 0,3 ; 0,5 ; 1,2. Analizar cómo afecta a la forma de la distribución y
cómo afecta a su posición en los ejes.

5. Considere una distribución exponencial con α = 2. Calcule :

a) P(X £ 0)
b) P(X ³ 2)
c) P(1 < X £ 2)
d) Encuentre el valor de x tal que P(X < x) = 0.05

6. Si X : N(µ =50 ; σ =8) , calcular :

a) P(X < 56)


b) P(X ³ 52,8)
c) P(40,8 £ X £ 48,3)

7. Si X : N(µ=50; σ=8) , determinar el valor de “x” que satisface :

a) P(X<x) = 0,1736
b) P(X>x) = 0,9207
c) P(- x < X < x ) = 0,50

8. Si X : χ7g.l
2
, calcular :

a) P(X £ 8,383)
b) P(X ³ 4,255)
c) P(X > 6,346)

9. a) Si X : c10g.l
2
, calcular los cuartiles de la variable “X”. Comprobar que
P(X £ Qi ) para i = 1, 2 3 son efectivamente 0,25; 0,50; 0,75.
b) Graficar la función de densidad y la función de distribución de “X”.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 124
10. Representar, en un mismo gráfico, las funciones de densidad de tres
distribuciones t con 5, 10, y 20 grados de libertad.

11. Sean X1, X 2 , X3 variables independientes, normales, con µ=5 y σ2 =3.

Hallar el valor de la variable “a” tal que:

 i=3 
P  ∑ ( xi − 5 ) ≥ a  = 0,001
2

 i=1 

12. Para una variable de Student, t ng.l calcular:

a) P(t15 ³ 2,60)
b) P( t18 > 2,10)
c) P(-0,706 £ t 8 £ 1,86)
d) P(t10 £ -1,,81)
e) P( t 20 ³ 2,53 )

13. Hallar el valor de la abscisa “a” tal que :

a) P( t 9 ³ a) = 0,05
b) P(t13 ³ a) = 0,95
c) P(t 22 £ a) = 0,01
d) P( t11 £ a) = 0,999
e) P(t14 ³ a) = 0,10

14. En una distribución F con m = 5 y n = 10, hallar :

a) P(F10,5 £ 4,74)
b) P(F6,7 ³ 5,12)
c) P(F3,8 ³ 7,59)
d) P(F9,3 £ 14,5)

15. Sean X1, X2,..., X45, variables aleatorias normales e independientes, con
media µ = 0 y σ2 =1 , Calcule:

a) P  ∑ xi2 ≤ 51
i= 45

 i=1 
b) P  ∑ xi2 ≥ 30,6 
i= 45

 i=1 
c) P  39 ≤ ∑ x i2 ≤ 55 
i= 45

 i=1 
d) P  35 ≤ ∑ x i2 ≤ 69 
i= 45

 i=1 

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 125
VI DATOS CATEGÓRICOS

Se dice que un grupo de variables son


categóricas si los datos se pueden asignar a categorías.
Cada dato se elige de un grupo de categorías
mutuamente excluyentes. Las categorías se deben elegir
cuidadosamente porque una mala elección puede
perjudicar la investigación. En este grupo de variables se
encuentran, las nominales y ordinales

Previo al análisis de datos se debe construir una


Bill Thurston
tabla de doble entrada, para luego seleccionar algún
1946
Estados Unidos coeficiente de asociación adecuado, que pueda medir el
grado de asociación entre ellas.

A continuación se presentan algunas de las medidas de asociación más


comunes entre este tipo de variables.

6.1 Coeficiente de Correlación Por Rangos de Spearman “ rS ”

Cuando se tienen pares de datos, tales como observaciones de dos


variables “X” e “Y” para un mismo individuo, {(x i ,y i )}i=1 , se pueden usar los
i=n

{(R(xi ),R(yi ))}i=1


i=n
rangos para medir la correlación entre los pares de datos con
la ventaja de que no se hacen suposiciones sobre las distribuciones de “X” e
“Y”.

La definición del coeficiente de correlación por rangos de Spearman,


denotado por rS es:

i=n
6∑ di2
rs = 1 − i=1
, con rs ∈ [ −1;1]
n ( n2 − 1)

donde:

n = número de pares de datos

di = R ( xi ) - R ( yi )

La fórmula anterior se usa en el caso de no existir rangos repetidos


(empates).

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 126
En caso de existir series de empates (lo cual se considera que ocurre si
en alguna de las dos series de rangos hay un 20% o más del número total de
observaciones empatadas para algún rango), se emplea la corrección:

1 − 6∑ di2
rs =
(n 3
− n ) − ( TX + TY )

Siendo 1
TX =
(
2 ⋅ ∑ t 3X − t X )
1
TY =
(
2 ⋅ ∑ t 3Y − t Y )

Donde, t x ,t y son respectivamente el número de veces que se repite el


rango en “X” o en “Y”.

En caso de existir empates, a todos los rangos empatados se le asigna


un rango intermedio “saltando” al cambiar de rango al que corresponde
naturalmente.

Ejemplo 1: caso sin empate

Se realizan dos pruebas de aptitud vocacional a una muestra de ocho


alumnos, del Pre Universitario de la UMAG. Una prueba de Matemáticas con
puntaje “X” de 0 a 12 y una prueba de Computación con puntaje “Y” de 0 a 100
puntos. Los resultados son:

Alumno X Y
1 10 74
2 8 91
3 2 54
4 12 61
5 3 84
6 7 66
7 5 79
8 6 64

Calcule el coeficiente de correlación gradual de Spearman.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 127
Solución: Ordenando “X” e “Y” por rangos, calculando las diferencias di y
elevando al cuadrado estas diferencias, se tiene:

Alumno X R(xi) Y R(yi) di di2

1 10 7 74 5 2 4

2 8 6 91 8 -2 4

3 2 1 54 1 0 0

4 12 8 61 2 6 36

5 3 2 84 7 -5 25

6 7 5 66 4 1 1

7 5 3 79 6 -3 9

8 6 4 64 3 1 1

Donde:

∑d i
2
= 80 ,

sustituyendo en la fórmula:

6(80)
rS = 1-
8(64 - 1)

480
= 1-
504

= 1- 0,9524 = 0,0476

Se hace notar que la interpretación del coeficiente gradual de Spearman


es idéntica a la del coeficiente lineal de Pearson.

El resultado rS = 0,0476 , significa que las calificaciones en la prueba de


aptitud vocacional para matemáticas no están correlacionadas con las
calificaciones en la prueba de aptitud en computación.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 128
Ejemplo 2: caso con empate

Con objeto de saber si existen preferencias hacia Ciencias o hacia


Letras, se pide a 8 alumnos asignar puntaje de 1 a 4 sus preferencias respecto
a ambas, con el resultado que se expone en la siguiente tabla:

Alumno Letras Ciencias


A 2 3
B 2 4
C 4 3
D 1 2
E 3 3
F 3 4
G 2 1
H 4 4

Solución: Ordenando en “Letras” las opiniones, se tiene:

Alumnos D A B G E F C H
Letras X 1 2 2 2 3 3 4 4
Ciencias Y 2 3 4 1 3 4 3 4

Es natural que al haber menos niveles de ordenación (4) que sujetos


ordenados (8), habrá números de orden repetidos. Este caso es muy frecuente
en valoraciones de escalas, (1 →10 ) , (1 →100 ) , etc., cuando se encuesta a más
sujetos que valores tiene la escala.

Aquí además, se producen 3 empates en “X” sobre 8 casos (más del


20% de 8). Si a cada número de orden le atribuimos rangos, se tiene:

Rango de “X” en D: Será igual 1, ya que no hay números de orden


inferiores a 1.
Rango de “X” en A: Como A, B y G tienen 2 de puntuación, están
empatados en rango.

El rango medio respecto a los 3 ítems sería 3 (2, 3 y 4), y este rango se
asigna a todos los órdenes de valor 2 en “X”.

Por consiguiente, si se designa por rango de X = R(x), se tiene:

- R(x) en D = R(x) en B = R(x) en G = 3.


- R(x) en E: En el orden lógico le corresponderá el rango 5 (se saltan los
rangos 2, 3 y 4), pero al estar empatado con F (rango 6), les corresponde
el rango intermedio 5,5; por lo tanto, R(x) en E = R(x) en F = 5,5.

Análogamente con C y H, R(x) en C = R(x) en H; H = 7,5 (a C le


correspondería el rango 7, etc.)

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 129
Los correspondientes rangos de “Y” se calculan de igual forma.

Luego:

- R(y) en D = 2
- R(y) en A = R(y) en C = 4 ( ya que corresponde a los rangos 3, 4 y 5)
- R(y) en B = R(y) en H = 7 (ya que les corresponden los rangos 6, 7 y 8)
- R(y) en G = 1

Por consiguiente, la tabla de rangos ordenados quedaría:

Alumno R(x) R(y) di d i2


D 1 2 -1 1
A 3 4 -1 1
B 3 7 -4 16
G 3 1 2 4
E 5,5 4 1,5 2,25
F 5,5 7 -1,5 2,25
C 7,5 4 3,5 12,25
H 7,5 7 0,5 0,25

Los empates en “X” son:

§ 3 empates en A, B, G
§ 2 empates en E, F
§ 2 empates en C, H
Luego:

1
TX = = 0,0139
2 ⋅ ( 33 − 3 ) + ( 23 − 2 ) + ( 23 − 2 ) 

Los empates en “Y” son:

3 empates en A, E, C

3 empates en B, F, H
Luego:

1
TY = = 0,0104
2 ⋅ ( 3 − 3 ) + ( 33 − 3 ) 
3

De donde:

1- 6 × 39
rS = = -0,4623
(8 3
- 8) + (0,0139 + 0,0104)

Se hace recuerdo, que la interpretación del coeficiente de correlación por


rangos de Spearman es idéntica a la de Pearson.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 130
6.2 Coeficiente de Correlación Biserial Puntual de Pearson: “ rbp ”

En este caso la medida de una de las variables es dicotómica (sexo,


estado civil...) y la otra genera un conjunto de puntuaciones con
propiedades de intervalos o de razón.

Se trata de una variante del coeficiente de correlación lineal “r” de


Pearson, por lo que supone normalidad en la distribución continua en la
población.

Este coeficiente mide la fuerza de la asociación entre caracteres.

El coeficiente de correlación Biserial-Puntual está definido por las


siguientes expresiones equivalentes:

X1-X0 n1n0
rbp = ×
Sx n (n - 1)

X1-X n1n
rbp = ×
Sx n0 (n - 1)

X 1- X 0 n0 n
rbp = ×
Sx n1 (n - 1)

Donde:

X1 Promedio de las “X” que corresponden a Y=1

X0 Promedio de las “X” que corresponden a Y=0

X Promedio de todas las “X”

n Frecuencia de unos

no Frecuencia de ceros

n Número total de casos

Desviación típica de todas las “X” .Calculada con n-1 por ser
Sx:
muestral.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 131
Comportamiento:

a) Al ser una particularización del coeficiente de correlación lineal de


Pearson, rbp , varía entre “–1” y “+1”.

b) El valor cero se obtiene para X 1= X 0 ; es decir, el promedio para Y=1 es


igual al promedio para Y=0, lo que supone que el comportamiento de “X”
no depende de “Y”.

n1 n0
c) No se debe utilizar sí < 0,05 ó < 0,05 . La calidad mejora con n
n n
grande y n1 ≈ n0 .

d) Empieza a presentar problemas con cocientes < 0,1.

e) Se interpreta igual que el coeficiente de correlación lineal de Pearson.

Ejemplo:

A partir de los datos de la tabla muestral adjunta ¿Se puede establecer


alguna influencia de la variable sexo en la variable estatura en menores de 15
años?

Solución:

Codificación de variables:

ID = sujeto
Y = sexo
1 = hombre
0 = mujer
X = estatura en pulgadas

ID Y X
A 1 59
B 0 67
C 1 63
D 1 65
E 0 55
F 1 72
G 0 62
H 0 60
I 1 64
J 1 66
K 1 63
L 0 61
M 1 62
N 0 63
O 0 60

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 132
Donde:

n1 = 8

n0 = 7

n = 15

El promedio de las “X” que corresponden a Y=1 es:

(59 + 63 + 65 + 72 + 64 + 66 + 63 + 62)
X 1= = 64,25
8

El promedio de las “X” que corresponden a Y=0 es:

(67 + 55 + 62 + 60 + 61 + 63 + 60)
X0 = = 61,14
7

La desviación típica de todas las “X” .Calculada con n-1 por ser muestral es:

S X,(n-1) = 3,91

Luego el coeficiente de correlación Biserial-Puntual de Pearson: “ rbp ”, es


calculado en este caso con la primera fórmula dada en la definición :

X 1- X 0 n1n0
rbp = ×
Sx n (n - 1)

64,25 - 61,14 8×7


= × = 0,41
3,91 15 × 14

Los cálculos con las dos formulas posteriores, se dejan al alumno como
ejercicio.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 133
6.3 Coeficiente phi: “ Ψ ”

Es una particularización del coeficiente de correlación lineal r de Pearson


para variables dicotómicas, X = (0,1), Y = (0,1).

Los datos se presentan por la siguiente tabla de doble entrada:

Variable X
X1 X2 TOTAL
Y1 a b a+b
Variable Y
Y2 c d c+d
TOTAL a+c b+d n=a+b+c+d

ad - bc
El coeficiente se define como: Ψ=
(a + b)(c + d)(a + c )(b + d)

Este coeficiente puede verse como una correlación producto-momento


para variables que toman valores 0 y 1. Intuitivamente puede verse que ø es
igual a “1” cuando b y c son “0” mientras que a y d son mayores que “0”, por el
contrario ø es igual a “–1” cuando a y d son “0” mientras que b y c son mayores
que “0”· y Ψ es igual a “0” cuando los productos son iguales, ad=bc, esto es,
cuando la muestra se reparte de manera similar entre quienes tienen el mismo
valor y valores diferentes en la prueba y en el criterio (no correlación).

Ejemplo:

Para averiguar si existe correlación entre la variable “estado civil”, “X”, y


la variable “tendencia política”, “Y”, se hizo una encuesta a 4000 personas, los
resultados son:

Variable X=estado civil


X1=solteros X2=casados TOTAL
Variable Y1=conservadores 372 1.516 1.888
Y=tendencia Y2=socialistas 1.872 240 2.112
política
TOTAL 2.244 1.756 4.000

Calcular e interpretar el coeficiente de correlación Ψ .

Solución:

Ψ=
ad − bc
=
( 372 ⋅ 240 ) − (1.516 ⋅ 1.872) = −0,69
( a + b ) ⋅ ( c + d) ⋅ ( a + c ) ⋅ (b + d) 2.244 ⋅ 1.756 ⋅ 1.888 ⋅ 2.112

la interpretación es que la tendencia socialista es mayor entre los solteros y la


conservadora entre los casados (sólo en este ejemplo, obviamente).

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 134
6.4 Coeficiente de Contingencia “C”

Karl Pearson estableció un coeficiente de contingencia como medida


para proporcionar el grado de asociación entre las categorías de una tabla de
contingencia. Se define dicho coeficiente como:

χ2
C=
χ2 + n

Este coeficiente C es un número tal que 0 £ C £ 1; mientras más cercano


esté al “0”, el grado de independencia será mayor.

Para tablas de asociación de orden (k x k), se define un coeficiente de


contingencia Máximo dado por:

k -1
CMax =
k

La relación entre C y CMax , esta dada por : 0 £ C £ CMax £ 1 .

La relación del r de Pearson con el coeficiente de contingencia C es:

C
r≈
CMáx

Antes de calcular el coeficiente de contingencia C, hay que calcular el


estadístico χ2 , de la tabla de asociación correspondiente y también es
aconsejable, efectuar previamente el Test de Independencia de variables que
se detalla en el siguiente Test.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 135
6.5 Test de Independencia

Los elementos de un determinado universo son clasificados según dos


variables categóricas “X” e “Y”. El objetivo es establecer si dichas variables
pueden considerarse independientes o no; en otras palabras, si las variables no
guardan relación (independientes) o están relacionadas (dependientes). En
términos de las hipótesis nula y alternativa, el Test de Independencia se
enuncia de la siguiente forma:

Ho: Las variables categóricas “X” e “Y” son independientes.

Ha: Las variables categóricas “X” e “Y” no son independientes.

Sean:

r = número de categorías de la variable “X”

c = número de categorías de la variable “Y”

ni j = frecuencia observada correspondiente a la categoría i-ésima de “X”


con la categoría j-ésima de “Y”; es decir, la frecuencia observada de
la celda (i,j)

c
ni • = ∑ ni j = frecuencia observada de la categoría i-ésima de “X”.
j=1

r
n• j = ∑ ni j = frecuencia observada de la categoría j-ésima de “Y”.
i=1

r c r c
n=∑ ∑n ij = ∑n i• = ∑n •j = tamaño de muestra.
i=1 j=1 i=1 j=1

Las “r” categorías de “X” y las “c” categorías de “Y”, forman una tabla
denominada “Tabla de Contingencia” de orden r × c celdas que contienen la
información muestral.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 136
Tabla de Contingencia

n11 ........................ n1 j ..................... n1 c n1 •

...... ......................... ........ ................... ...... ......

ni 1 ........................ ni j ................... ni c ni •
X
....... ......................... ........ .................... ....... ......

nr 1 ........................ nr j .................... nr c nr •

n• 1 ........................ n• j .................... n• c n

Si la hipótesis nula es cierta, entonces la frecuencia esperada en la celda


(i,j) es :

 ni •   n• j  ni • ⋅ n• j
ei j =  ⋅ ⋅n =
 n   n  n

(n − ei j )
2
r c
χ2 = ∑ ∑
ij
El estadístico sigue una distribución
i=1 j=1 ei j

aproximadamente Chi cuadrado con (r-1)(c-1) grados de libertad, siempre y


cuando n sea grande y el tamaño mínimo de frecuencia esperada sea “5”. El
valor del estadístico χ2 será pequeño cuando no existan diferencias
significativas globales entre las frecuencias observadas y esperadas y será alto
cuando estas diferencias sean apreciables. En consecuencia, para un nivel de
significación α , se rechaza la hipótesis nula a favor de la alternativa si:

χ2 > χ(r2 -1)×(c-1)g.l ;(1-α)

en caso contrario, no se rechaza Ho.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 137
Ejemplo:

En un estudio realizado en la Región Austral del País sobre formación


profesional, una de las hipótesis que se defendía era que: “El nivel de
preparación técnica de los egresados “UMAG” es calificado de forma diferente
por los directores de personal de las empresas según sea la rama de actividad
industrial de las mismas”.

Los resultados de la investigación fueron los siguientes:

Calificación de la preparación
Técnica
Buena Regular Mala
Rama Electricidad 15 10 8
Actividad Mecánica 9 10 9
Industrial Química 5 7 20

1. ¿Puede aceptarse como válida la hipótesis inicial?

2. ¿Cuál es el valor del coeficiente de dependencia entre las dos variables


“Rama de actividad empresarial” y “calificación de la preparación técnica de
los egresados de la “UMAG”?

Solución 1: Usando la técnica χ2 :

(n i j ) (e i j )
B R M TOT B R M TOT
E. 15 10 8 33 E. 10 10 13 33
M. 9 10 9 28 M. 9 8 11 28
Q. 5 7 20 32 Q. 10 9 13 32
TOT 29 27 37 93 TOT 29 27 37 93

(n − ei j ) (n − ei j )
2 2
r c i=3 j=3
χ =∑ ∑ =∑ ∑
ij ij
2 =12,0004
i=1 j=1 ei j i=1 j=1 ei j

χ2 =12,0004 ; g.l.=(r-1)(c-1)=(3-1)(3-1)=4

Para 4 g.l. y al 99% y 95% de niveles de confianza, los


χ correspondientes en la tabla son:
2

χ24g.l;0.95 = 9,588 y χ24g.l;0.99 = 13,277

9,588<12,0004<13,277

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 138
Por tanto χ2 =12,0004 no es significativo al 99% de nivel de confianza,
pero sí al 95%. Así pues, se puede no rechazar la hipótesis “El nivel de
preparación técnica de los egresados de “UMAG” es calificado en forma
diferente por los directores de personal de las empresas según sea la rama de
actividad industrial de las mismas”como válida, con una probabilidad de
equivocarnos inferior al 5%.

Solución 2:

Esta pregunta se soluciona mediante el coeficiente de contingencia C.

χ2
C=
χ2 + n

y su posterior comparación con el r de Pearson.

k -1
r≈
C CMax =
CMáx k

12,0004 3 -1
C= = 0,3381 CMAX = = 0,8165
12,0004 + 93 3

0,3381
r≈ = 0,6435
0,8165

Luego la correlación existente entre ambas variables es,


aproximadamente 0,6435.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 139
Ejemplo en MINITAB:

Se hará uso del archivo PULSE. Al abrir este archivo con la secuencia de
comandos:

“File”-“Open Worksheet”-“Pulse”....,

aparecen ocho columnas en el siguiente orden de variables:

Cj NAME nj
C1 PULSE1 92
C2 PULSE2 92
C3 RAN 92
C4 SMOKES 92
C5 SEX 92
C6 HEIGHT 92
C7 WEIGT 92
C8 ACTIVITY 92

Variables, que se describen a continuación:

Pulse1 : primera medida de pulsaciones por minuto antes de correr.

Pulse2 : segunda medida de pulsaciones por minuto.

Ran : el sujeto corre después de Pulse1; 1 = Sí ; 2 = No.

Smokes : el sujeto fuma; 1 = Si ; 2 = No.

Sex : sexo del sujeto; 1 = Hombre ; 2 = Mujer

Height : altura del sujeto, medida en pulgadas.

Weight : peso del sujeto, medida en libras


Activity : What is this?

Este archivo, proviene de un experimento clínico, en Pulse2, se


consideran dos grupos de sujetos, un grupo que continúa en reposo después
de Pulse1 y otro grupo que corre después de Pulse1 y antes de Pulse2,
obviamente.

En este ejemplo se plantea el verificar la siguiente prueba de hipótesis,


con α = 0,05:

Ho: La variable Sex es independiente de la variable Smokes

Ha: La variable Sex no es independiente de la variable Smokes

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 140
Solución:

Como ya se está, en el archivo “Pulse”, se hace la secuencia de


comandos:

“Stat”-“Tables”-“Cross Tabulation”,

en la caja de diálogo, se ingresan las variables Smokes y Sex en la subventana


“Classification variables”, en “Display” se marcan las opciones “Counts” y “Chi-
Square analysis”, luego se pulsa “OK”, obteniendo la siguiente pantalla:

Calcula el
Frecuencia Estadístico
Absoluta Chi cuadrado y el
p-valor.

Muestra la
Frecuencia
Absoluta

Click “OK”

En la hoja de Sesión se observa el p-valor, P-Value = 0,216, como se


preestableció α = 0,05. Luego como P> α , se concluye que no se rechaza Ho,
frente a la evidencia planteada por Ha.

Nota: Se deja al alumno investigar la definición de la variable ACTIVITY, como


también la posible independencia entre las variables SMOKES y
ACTIVITY.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 141
6.6 Laboratorio de Datos Categóricos

1. La siguiente tabla da las calificaciones de 10 estudiantes en un control


de mitad de semestre “X” y las calificaciones “Y” del examen final en un
curso de Estadística:

Estudiante X Y
A 84 73
B 98 63
C 91 87
D 72 66
E 86 78
F 93 78
G 80 91
H 0 0
I 92 88
J 87 77

Calcular el coeficiente de correlación por rangos de Spearman y el


coeficiente de correlación lineal de Pearson, compare ambos resultados.

2. Un grupo de consumidores prueba la calidad general de nueve marcas


de hornos de microondas. Los rangos asignados por el grupo y los
precios de venta sugeridos son los siguientes:

Fabricante Clasificación del grupo Precio sugerido


A 6 $ 48.000
B 9 $ 39.500
C 2 $ 57.500
D 8 $ 55.000
E 5 $ 51.000
F 1 $ 54.500
G 7 $ 40.000
H 4 $ 46.500
I 3 $ 42.000

Encuentre el coeficiente de correlación por rangos de Spearman.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 142
3. Con el objetivo de estudiar la relación del número de horas a la semana
que ven TV, entre niños de los sectores A y B, de la ciudad de Punta
Arenas, se realizo una encuesta, con los siguientes resultados acerca de
la pregunta: ¿Cuántas horas a la semana ve TV?

HORAS A B
0 - 5 3 3
5 - 10 8 10
10 - 15 10 15
15 - 20 7 22
20 - 25 2 5

Mediante el coeficiente de correlación biserial puntual, determine la


posible asociación entre la cantidad de horas semanales que ven TV los
niños del sector A con la cantidad de horas que ven TV los niños del
sector B.

4. Para determinar sí el ítem no 13 de una escala de actitudes racistas es


capaz de discriminar entre los muy racistas y poco racistas se pasa esta
escala a una muestra de 40 sujetos y se seleccionan al 25% de sujetos
con puntuaciones más altas en la escala (grupo A) y al 25% con
puntuaciones más bajas (Grupo B), cuyas puntuaciones en el ítem no 13
son las siguientes:

Grupo A 1 2 2 3 1 4 1 5 4 3
Grupo B 2 2 3 1 2 1 2 3 1 2

Establezca una Dicotomía para estas puntuaciones por sobre y


debajo de la Mediana cuyo valor es 2,1; calcule e interprete el coeficiente
de correlación “ Ψ ”.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 143
5. Para la elaboración de un índice de calidad de un producto, se miden
dos características del mismo que se designan con “X” e “Y”.

Al medir la característica “X”, se califica cada artículo con un


puntaje que va de 1 a 3:

- 3 = óptimo
- 2 = normal
- 1 = malo

al medir la característica “Y” se califica con 1 ó 2:

- 2 = bueno
- 1 = malo

Se sortean 24 artículos a los que se les observan ambas


características, obteniéndose los siguientes datos:

Artículo X Y Artículo X Y
1 3 2 13 2 1
2 2 2 14 3 1
3 2 2 15 2 2
4 2 2 16 2 2
5 2 1 17 1 2
6 2 2 18 2 2
7 1 2 19 2 1
8 1 2 20 1 1
9 2 2 21 2 2
10 2 1 22 3 2
11 3 2 23 1 2
12 1 2 24 1 2

Determinar si el puntaje “X” y el puntaje “Y” son independientes


entre sí o existe una relación entre ambos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 144
VII REGRESION

7.1 Correlación Lineal

Para cuantificar la intensidad de la relación lineal


entre dos variables, se define el parámetro que nos da tal
cuantificación. Es el coeficiente de correlación de Pearson
“r”. Este coeficiente oscila entre ”–1” y “+1”:

∑ (x )( )
n
− X ⋅ yj − Y
Cov ( X, Y ) j=1
j Karl Pearson
−1 ≤ r = = ≤ +1 Smith
SX ⋅ SY 2 1857-1936
∑( ) ∑(y )
n n 2
xj − X ⋅ j −Y Inglaterra
j=1 j=1

Cuando “r” se acerca a “+1”, la correlación es directamente proporcional,


es decir a mayor valor de “X” le corresponde un mayor valor de “Y”.

Cuando “r” se acerca a “-1”, la correlación en inversamente proporcional,


es decir a mayor valor de “X” le corresponde un menor valor de “Y”.

Cuando “r” es “0”, no hay correlación lineal, pero puede haber alguna
correlación de otro tipo.

Siempre que se quiera calcular la correlación entre dos variables, es


conveniente graficar la nube de puntos de la muestra.

Ejemplo:

En la clínica “Happy Hours”, es de interés investigar seriamente, si hay o


no correlación lineal entre el peso del cuerpo medido en kilos y la concentración
de colesterol en la sangre medido en mg./100ml. Se seleccionaron antes de
media noche, en forma aleatoria 15 representantes entre la población asidua a
esta clínica, con edades comprendidas entre 18 y 27 años de edad y una
estatura entre 1,65 y 1,70 m. El Director de la clínica, obtuvo las siguientes
estadísticas:

Sujeto Peso Colesterol


1 73,0 181
2 102,5 228
3 78,5 182
4 82,5 249
5 92,0 259
6 76,5 201
7 110,0 339
8 90,5 224
9 75,5 112
10 94,0 241
11 90,5 225
12 81,5 223
13 99,0 257
14 96,5 337
15 78,5 197

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 145
Para llevar a cabo esta insigne tarea, el Director ha solicitado a un grupo
de artistas de las estadísticas de la UMAG, incondicionales a la clínica, el
realizar los cálculos respectivos.

Éstos artistas, ante la seriedad del estudio, optaron por utilizar el


Software MINITAB por la confianza que tienen en su manejo.

El análisis presentado, fue el siguiente.

Para calcular la correlación lineal, se grafica previamente la nube de


puntos o scatter-plot. Se ingresan los datos de “X” e “Y” en C1 y C2
respectivamente, luego se hace la secuencia de comandos: “Graph”-“Character
Graph”-“Scatter-Plot...”, aparece la caja de diálogo, se ingresan las variables “X”
e “Y”, se pulsa OK y se obtiene la siguiente pantalla:

Paso 1: “Graph”
“Character Graph”
“Scatter-Plot”

+ Paso 2:
Se ingresan
las variables

Paso 3:
Se ingresa
carácter “x”

Paso 4:
Click “OK”
Scatter Plot o Nube de
puntos

En el gráfico de la nube de puntos que se encuentra en la hoja de


sesión, se aprecia una tendencia lineal positiva, a continuación se procede a
calcular el coeficiente de correlación lineal respectivo. Como los datos ya están
ingresados, se hace la secuencia de comandos: “Stat”-“Basic Statistics”-
“Correlation”, aparece la caja de diálogo, se ingresan las variables “X” e “Y”, se
pulsa OK y se obtiene la siguiente pantalla, que muestra que “Pearson
correlation of X and Y” es 0,785.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 146
Variables a
correlacionar
“X” e “Y”

Click “OK”

Resultado:
“Pearson correlation of X and Y” es 0,785

El Director de la clínica, complacido de estos resultados, ha decidido


premiarlos, con una ampliación del horario de atención de la clínica “Happy
Hours”.

7.2 Regresión Lineal Simple

En los casos en que el coeficiente de correlación lineal de Pearson


sea próximo a “-1” o “+1”, tiene sentido una ecuación de recta que mejor se
“ajuste” a la nube de puntos, esta recta se obtiene por el método de Mínimos
Cuadrados.

La ecuación de la recta que pasa por dos puntos es:

æ y - y1 ö÷
y - y1 = ççç 2 ÷÷ × ( x - x1 ) = m ( x - x1 )
è x 2 - x1 ø÷

en términos estadísticos, usando Mínimos Cuadrados, toma la forma:

Cov ( X,Y )
y-y = × ( x - x)
S2x

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 147
En la ecuación anterior, con un poco de manejo algebraico se tiene que :

æ Sy ö
y = ççç y - r × ÷÷÷ + r ×
Sy
×x
çè S x ÷ø Sx

Tomando en cuenta esta última expresión, la representación de la


recta es de la forma punto pendiente:

y = mx + b

que es la forma en que MINITAB presenta la respuesta.

Ejemplo:
Hallar la recta de ajuste para los datos de colesterol versus peso, del
ejemplo para el cálculo de la correlación lineal.

Solución:

Una vez ingresados los datos de “X” e “Y”, se hace la secuencia de


comandos: “Stat”-“Regresión”-“Fitted Line Plot”, en la caja de diálogo se ingresa
“Y” en “Response [Y]” y se ingresa “X” en “Predictor [X]”. En “Type of Regresión
Model” se marca la burbuja “Linear”, finalmente se hace Click OK y aparece la
pantalla:

Ingreso de
variables “X” e
“Y”

Ingreso del
modelo lineal

Click “OK”

Resultado:
“Y = -127,567 + 4,06397X”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 148
En la hoja de sesión aparece: Y = -127,567 + 4,06397X, que es la recta
de ajuste lineal.

También en la misma hoja aparece R-Sq = 61,6%, este valor


corresponde al Coeficiente de Determinación R2, que se define como el valor
del Coeficiente de Correlación de Pearson al cuadrado, es decir:

R2 = r2

Se recuerda que el Coeficiente de Determinación indica el porcentaje


explicado por la variable predictora “X” en la variable respuesta “Y”.

7.3 Regresión Lineal Múltiple

El Modelo de Regresión Lineal Múltiple es de la forma:

yi = a0 + a1x1i + a2 x 2i + ... + a j x ji + ... + ak xki + ei

donde yi es la observación i-ésima de la variable Y, a j son los parámetros


de los coeficientes de regresión parcial, es decir el incremento de la variable
respuesta por cada unidad de incremento de la variable “Xj”, donde los “Xj”
son variables matemáticas no aleatorias y “ej” representa un error aleatorio
que, generalmente se supone proviene de una distribución normal con
media cero, varianza finita y que es independiente del valor de cada Xj :
e : NID(0; σ 2 ).

Ejemplo:

Los datos de la siguiente tabla, muestra las mediciones de nueve bebés.


Las variables en estudio corresponden a:

X1 = Edad en días

X2 = Estatura al nacer en centímetros

X3 = Peso al nacer en kilos

X4 = Talla del tórax al nacer en centímetros

Y = Estatura en centímetros

El objetivo de la investigación es llegar a una estimación adecuada de la


estatura del bebé a partir de las variables predictoras en consideración.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 149
Se procederá a ingresar los datos en MINITAB, según la tabla siguiente:

Edad Estatura Peso al Talla


Bebé X1 al nacer nacer tórax al Y
X2 X3 nacer X4
1 78,00 48,20 2,75 29,50 57,50
2 69,00 45,50 2,15 26,30 52,80
3 77,00 46,30 4,41 32,20 61,30
4 88,00 49,00 5,52 36,50 67,00
5 67,00 43,00 3,21 27,20 53,50
6 80,00 48,00 4,32 27,70 62,70
7 74,00 48,00 2,31 28,30 56,20
8 94,00 53,00 4,30 30,30 68,50
9 102,00 58,00 3,71 28,70 69,20

A continuación se ejecutan los comandos: “Stat”-“Regression”-


“Regression”, luego en la caja de diálogo se ingresa “Y” en “Response”, se
ingresan X1, X2, X3, X4 en “Predictors”, se pulsa OK y aparece la siguiente
pantalla:

Variable
respuesta
“Y”

Variables
predictoras
Xi

Click “OK”

Resultado:
“Y = 7,1 + 0,100X1 + 0,726X2 + 3,08X3 – 0,030X4”

En la hoja de sesión se observa que el modelo lineal de ajuste es:

Y = 7,1 + 0,100X1 + 0,726X2 + 3,08X3 – 0,030X4

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 150
7.4 Regresión Stepwise

La selección de variables de un subconjunto de predictoras es un


procedimiento estadístico que es importante por diversas razones, entre
éstas están:

- No todas las variables predictoras tienen igual importancia, por lo tanto


es más eficiente trabajar con un modelo donde las variables significativas
estén presentes y las que tienen poca importancia no aparezcan en el
modelo.

- Algunas variables pueden perjudicar la representatividad del modelo, en


especial aquellas que están correlacionadas con otras, luego se hace
imprescindible eliminarlas.

- Computacionalmente es más fácil trabajar con un conjunto pequeño de


variables predictoras

- Es más económico recolectar información para un modelo con pocas


variables.

- Si se reduce el número de variables entonces el modelo se torna más


parsimonioso. Se dice que un modelo es parsimonioso si logra ajustar
bien los datos pero usando la menor cantidad posible de variables
predictoras. Es más conveniente porque sus predicciones son más
confiables.

La idea del método “Stepwise” es el de elegir el mejor modelo incluyendo


o excluyendo una sola variable predictora en cada paso o iteración, de
acuerdo a ciertos criterios. Es un proceso secuencial que termina cuando un
criterio de finalización se satisface.

A continuación se describen los tres algoritmos posibles.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 151
7.4.1 Backward Elimination: Eliminación hacia atrás

En este caso se comienza con el modelo completo y en cada paso se


va eliminando una variable. Si resultara que todas las variables
predictoras son importantes, es decir tienen “p-Value” pequeños
entonces no se elimina variable alguna. En caso contrario, en cada paso
la variable que se elimina del modelo, será aquella que produce la menor
disminución en el coeficiente de determinación al ser eliminada del
modelo, también aquella que tiene la correlación parcial más pequeña
con la variable respuesta.

Toda variable que es eliminada no vuelve a entrar. El proceso termina


cuando se llega a un modelo con el número óptimo de variables
predictoras.

7.4.2 Forward Selection: Selección hacia delante

Aquí se empieza con la regresión lineal simple que considera


como variable predictora a aquella que está más altamente
correlacionada con la variable respuesta. Si esta primera variable no es
significativa, entonces el proceso se detiene y se considera el modelo
µ = Y , de lo contrario en el siguiente paso se agrega al modelo aquella
Y
variable que produce el mayor incremento en el coeficiente de
determinación al ser agregada al modelo o aquella que tiene la
correlación parcial más alta con la variable respuesta, tomando en
cuenta las variables ya incluidas en el modelo.

Toda variable que es agregada al modelo ya no puede salir. El


proceso finaliza cuando se llega a un número óptimo de variables
predictoras.

7.4.3 Stepwise: Selección Paso a Paso

Se puede considerar como una modificación del método Forward. Se


empieza con un modelo de regresión simple y en cada paso se puede
agregar una variable en forma similar al método Forward, pero se coteja
si alguna de las variables que ya están presentes en el modelo puede
ser eliminada. El proceso no finaliza hasta que ninguna de las variables
no ingresadas, tengan importancia suficiente como para ingresar al
modelo.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 152
Ejemplo:

Se consideran los datos de los bebés, en página 150.


Se pide el mejor ajuste usando regresión “Stepwise”, según el procedimiento
“Forward Selection”.

Solución:

Como los datos se ingresaron anteriormente, se hace la secuencia


de comandos:

“Stat”-“Regresión”-“Stepwise”

en la caja de diálogo se ingresa la variable “Y” en “Response”, se ingresan


todas las variables predictoras en “Predictors”, entonces en la caja de
diálogo se pulsa en “Methods”.

Variable Respuesta “Y”

Variables Predictoras “Xi”

Se selecciona con Click en


“Methods” y se pasa a otro
menú para elegir el modelo

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 153
Una vez pulsado en Methods aparece otra caja de diálogo, en la cual se
marca “Forward selection”, hecho esto, en “Alpha to enter” se ingresa 0,01 y
finalmente se pulsa OK para obtener la siguiente pantalla:

Selección
hacia
adelante

α = 0, 01

Click “OK”

Resultado:
- Término constante : 20,110
- Coeficiente “X1” : 0,414
- Coeficiente “X3” : 2,030

En la hoja de sesión se observa que en Constant-Step 2 aparece el


término constante del ajuste que es 20,11. En Step 2 para X1 aparece su
coeficiente de ajuste que es 0,414. En Step 2 para X3 aparece su coeficiente
de ajuste que es 2,03.

Por consiguiente el ajuste lineal tiene la ecuación:

Y = 20,1 + 0,414X1 + 2,03X3

que equivale a:

Estatura = 20,1 + 0,414 Edad + 2,03 Peso al nacer

Se observa que el algoritmo se dio en dos Steps (pasos), eliminando las


variables X2 y X4

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 154
7.5 Regresión No Lineal

La regresión lineal no siempre da buenos resultados, porque a veces la


relación entre “X” e “Y” es no lineal sino que exhibe algún grado de curvatura.
La estimación directa de los parámetros de las funciones no lineales es un
proceso bastante complicado. No obstante, a veces se pueden aplicar las
técnicas de regresión lineal por medio de transformaciones adecuadas de las
variables originales.

Algunos modelos no lineales:

1. Modelo de la Transformación Inversa:

1
Y = a + b× ↔ Y = a + b ⋅ X • , con X • = 1
X X

2. Modelo Semilog o Log-Lineal

Y = a × ebX ↔ lnY = lna + b × X

En esta regresión Semilog, en lugar de calcular la regresión de “Y”


sobre “X”, se calcula la regresión de lnY sobre “X”.

3. Modelo Log-Log o Doble Log

Y = a × Xb logY = loga + b × log X

En esta regresión Doble Log, en lugar de calcular la regresión de


“Y” sobre “X”, se calcula la regresión de logY sobre logX.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 155
Ejemplo:

Los siguientes datos se refieren al crecimiento de una colonia de


bacterias en un medio de cultivo:

X 3 6 9 12 15 18
Y 115.000 147.000 239.000 356.000 579.000 864.000

Siendo “X” los días desde la inoculación e “Y” el número de bacterias. Se


pide:

a.- Representar el Plot de “X” con “Y”. Hacer también un plot de “X” con lnY.

Solución: se aprecia en pantalla, que el Plot de la derecha entre “X” y lnY


sigue una tendencia lineal.

Plot Plot Lineal


Exponencial

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 156
b.- Ajustar una curva exponencial a los datos.

Solución: la curva es de la forma Y = a × ebX , de donde tomando logaritmos a


ambos lados de la ecuación queda:

lnY = lna + bX

Y• = A + bX , con, lna=A.

Recuerde que la recta de ajuste lineal de “Y” sobre “X” tiene la forma:

SY
( ) ( )

Y• − Y• = r X, Y• ⋅ ⋅ X−X
SX

Coeficiente de
Correlación de Pearson

En este caso Y• = ln Y , luego reemplazando los resultados que


aparecen en pantalla queda:

0,782
Y • -12,611 = 0,997 ⋅ (X– 10,50), de donde despejando Y • se obtiene:
5,61

Y • = 11,15 + 0,139X, aplicando exponencial en base e queda:

Y = e 11,151e0,139x = 69.633,43 e 0,139x , que es la ecuación de ajuste pedida.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 157
7.6 Laboratorio Regresión

1. Considere cada uno de los siguientes conjuntos de datos:

a)
X 4 4 -4 -4
Y -4 4 4 -4

b)
X 4 3 0 -3 -4
Y -4 -2 0 4 4

c)
X 4 2 -2 -4
Y 4 -2 2 -4

Se pide: Graficar la nube de puntos y calcular el coeficiente de


correlación lineal de Pearson. Interprete los resultados.

2. La siguiente tabla muestra datos relativos al número de horas de estudio


fuera de clase “X”, durante un período de tres semanas de alumnos de un
curso de estadística y a sus calificaciones en el examen final “Y” de ese
período.

EST 1 2 3 4 5 6 7 8
X 20 16 34 23 27 32 18 22
Y 64 61 84 70 88 92 72 77

A la vista de la información anterior se pide:

a) Graficar la nube de puntos

b) La correlación lineal entre “X” e “Y”

c) La recta de ajuste de “Y” sobre “X”

d) Predecir la calificación en el examen final para un alumno que estudia 25


horas

e) Calcule los residuales y elabore una gráfica de residuales, compare con


la nube de puntos.

f) Calcule el coeficiente de determinación. Interprete.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 158
{(xi , yi )}i=1
i=20
3. Considere la información de los siguientes pares de puntos ,en la
siguiente tabla:

Caso xi yi Caso xi yi
1 5 12 11 9 18
2 5 14 12 9 19
3 6 12 13 10 17
4 6 14 14 10 18
5 6 16 15 10 19
6 7 15 16 11 18
7 7 17 17 11 20
8 8 16 18 12 19
9 8 18 19 12 21
10 9 17 20 13 20

Se pide:

a) Ajustar por mínimos cuadrados una recta y una función potencial.

b) Comparar la bondad de los ajustes anteriores, interpretar los resultado y


efectuar las correspondientes representaciones gráficas.

c) Ajustar una recta por mínimos cuadrados con la condición de que dicha
recta pase por el origen. Estudiar la bondad de este ajuste.

d) Calcular la suma de los residuales en el caso del ajuste de una recta


ordinaria y en el caso del ajuste en que dicha recta pase por el origen.
Comente sus resultados.

4. Para hallar la curva de indiferencia de un consumidor frente a dos bienes,


“X” e “Y”, se han observado las siguientes observaciones de pares de
valores:

xi 1 1 2 2 3 4 5 6 7 8
yi 7 4 5 3 1 2 1 2 1 1

Determine por mínimos cuadrados la ecuación de la línea de indiferencia


bajo el supuesto de que ésta se ajusta al modelo de la hipérbola equilátera
referida a sus asíntotas. Comente la bondad del ajuste en los casos de que
la hipérbola este centrada y no centrada en el origen.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 159
5. Los siguientes datos se refieren al crecimiento de una colonia de bacterias
en un medio de cultivo:

X 3 6 9 12 15 18
Y 115.000 147.000 239.000 356.000 579.000 864.000

Siendo “X” los días desde la inoculación e “Y” el número de bacterias. Se


pide:

a) Graficar la nube de puntos de las variables “X” e “Y”.

b) Graficar la nube de puntos de “X” con ln(Y).

c) Determinar la curva de ajuste correspondiente.

e) De acuerdo al ajuste anterior encuentre el residuo para x = 12 días.

f) Determine la predicción de “Y” para x = 21.

6. Una empresa inmobiliaria desea desarrollar algunos lineamientos para


posibles compradores de casa que ofrece la empresa. Una de las preguntas
que más realizan los potenciales compradores es: sí comprásemos la casa,
¿cuánto tendríamos que pagar por concepto de calefacción en los meses de
invierno?. El gerente de ventas consideró cuatro variables que a su juicio,
influyen sobre los costos de calefacción: temperatura exterior mínima
promedio, número de pulgadas de aislante, número de ventanas de la casa
y antigüedad del sistema de calefacción.

Previo, a la entrega de datos al estadístico de la empresa se codificaron


las variables de la siguiente forma:

Y = Costo de calefacción en euros.

X1= Temperatura exterior mínima promedio, en grado Fahrenheit.

X2= Pulgadas de aislante.

X3= Número de ventanas.

X4= Antigüedad del sistema de calefacción en años.

El gerente de ventas, que algo sabe de estadística solicita al estadístico


que determine la regresión lineal de “Y” sobre X1, X2, X3, X4

Ayude al estadístico, ¡ Por Favor!.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 160
Para ayudar al estadístico, el le entrega a Usted los datos en la siguiente
tabla:

Casa Y X1 X2 X3 X4
1 250 35 3 10 6
2 360 29 4 1 10
3 165 36 7 9 3
4 43 60 6 8 9
5 92 65 5 8 6
6 200 30 5 9 5
7 355 10 6 14 7
8 290 7 10 9 10
9 230 21 9 11 11
10 120 55 2 9 5
11 73 54 12 11 4
12 205 48 5 10 1
13 400 20 5 12 15
14 320 39 4 10 7
15 72 60 8 8 6
16 272 20 5 10 8
17 94 58 7 10 3
18 190 40 8 11 11
19 235 27 9 14 8
20 139 30 7 9 5

7. El diseño eficiente de ciertos incineradores de desperdicios municipales


europeos requiere de información acerca de contenido energético de los
desperdicios. Los autores del artículo “Modeling the Energy Content of
Municipal Solid Waste Using Multiple Regression Analysis”, proporcionaron
amablemente los datos de las siguientes variables:

Y = contenido energético en kcal/kg.

X1= porcentaje de plástico en peso.

X2= porcentaje de papel en peso.

X3= porcentaje de basura en peso.

X4= porcentaje de humedad en peso

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 161
La tabla de datos correspondiente es la siguiente:

Observación X1 X2 X3 X4 Y
1 18,69 15,65 45,01 58,21 947
2 19,43 23,51 39,69 46,31 1.407
3 19,24 24,23 43,16 46,63 1.452
4 22,64 22,20 35,76 45,85 1.553
5 16,54 23,56 41,20 55,14 989
6 21,44 23,65 35,56 54,24 1.162
7 19,53 24,45 40,18 47,20 1.466
8 23,97 19,39 44,11 43,82 1.656
9 21,45 23,84 35,41 51,01 1.254
10 20,34 26,50 34,21 49,06 1.336
11 17,03 23,46 32,45 53,23 1.097
12 21,03 26,99 38,19 51,78 1.266
13 20,49 19,87 41,35 46,69 1.401
14 20,45 23,03 43,59 53,57 1.223
15 18,81 22,62 42,20 52,98 1.216
16 18,28 21,87 41,50 47,44 1.334
17 21,41 20,47 41,20 54,68 1.155
18 25,11 22,59 37,02 48,74 1.453
19 21,04 26,27 38,66 53,22 1.278
20 17,99 28,22 44,18 53,37 1.153
21 18,73 29,39 34,77 51,06 1.225
22 18,49 26,58 37,55 50,66 1.237
23 22,08 24,88 37,07 50,72 1.327
24 14,28 26,27 35,80 48,24 1.229
25 17,74 23,61 37,36 49,92 1.205
26 20,54 26,58 35,40 53,58 1.221
27 18,25 13,77 51,32 51,38 1.138
28 19,09 25,62 39,54 50,13 1.295
29 21,25 20,63 40,72 48,67 1.391
30 21,62 22,71 36,22 48,19 1.372

Se pide:

a) Entregue una regresión lineal múltiple de la variable respuesta “Y”


sobre las variables predictoras Xj, j=1, 2, 3, 4.

b) Entregue una regresión Stepwise por los métodos Backward


Elimination y Forward Selection

d) Analice la calidad de los modelos obtenidos. Discuta y comente.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 162
VIII DISEÑO DE EXPERIMENTO

8.1 ANOVA Una Vía

El Análisis de la Varianza es una técnica estadística


que se usa para comparar más de dos medias. Esta
comparación de medias se logra mediante un análisis de
varianzas ANOVA.

Este modelo supone que hay k poblaciones distintas


A1, A2, A3,....,Ak, distribuidas normalmente con medias
µ1, µ 2 , µ3 ,...., µk que poseen todas la misma varianza σ2 .
George W.
Se supone además que estas k poblaciones constituyen Snedecor
juntas, una gran población con media µ llamada “Gran 1882-1974
Media” (media poblacional). Estados Unidos

Se desea probar la hipótesis nula de que todas las medias de las


categorías o tratamientos son iguales, es decir:

H0: µ1 = µ 2 = µ3 = ..... = µk = µ

Ha : no todas las m j son iguales.

Si esta hipótesis nula es cierta se espera que todas las µ j = µ ; en caso


contrario se espera que los µ j se desvían de m en una cantidad τ j debida a los
tratamientos, entonces se tiene:

τj = µj - µ ó µj = µ + τj (1)

A estas desviaciones se les llaman “efectos de tratamiento”. Además por


propiedad de la media aritmética, se tiene:

∑ τ = ∑ (µ
j
j
j
j − µ) = 0

Por otra parte, sí xij es la i-ésima observación que recibe el j-ésimo


tratamiento, entonces se tiene que debido a las fluctuaciones del muestreo
aleatorio, las xij se desviarán dentro de su propio grupo de las µ j , a estas
desviaciones se les llama “error residual” y se representan por e ij , entonces:

e i j = xi j - µ j ó x i j = µ j + ei j (2)

Sustituyendo la ecuación (1) en (2) se tiene que para una observación


individual:

x i j = µ j + ei j = ( µ + τ j ) + e i j (3)

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 163
Finalmente, se sabe que cada observación x ij difiere de la población µ ,
luego se tiene que el modelo básico para el diseño completamente aleatorio de
una variable es de la forma:

x i j - µ = τ j + ei j (4)

Sustituyendo (1) y (2) en (4) se tiene:

xi j - µ = (µ j - µ ) + (x i j - µ j ) (5)

para
i = 1, 2, 3,....,nj y j= 1, 2, 3, ....,k

Observando el modelo, se ve que la desviación de una observación con


respecto a la gran media (desviación total) se descompone en efecto de
tratamiento (desviación entre tratamientos) o desviación de cada tratamiento
con respecto a la gran media y, error residual (desviación dentro de
tratamientos) o desviación de cada observación con respecto a su propio grupo.

Para facilitar los cálculos se disponen los datos en una tabla como la que
se muestra a continuación:

TRATAMIENTOS

1 2 3 ........ k
x11 x 12 x 13 ........ x 1k
x21 x 22 x 23 ........ x 2k
x31 x 32 x 33 ........ x 3k
. . . ........ .
. . . ........ .
. . . ........ .
. . . ........ .
xn 1 1
xn 2 2 xn 3 3
........ xn k k
Gran
Total
Tamaño de n1 n2 n3 ........ nk n
muestra
Sumas x •1 x •2 x •3 ........ x •k x ••
Medias x •1 x •2 x •3 ........ x •k x ••

Los símbolos usados en la tabla están definidos por:

x i j = i-ésima observación que recibe


el tratamiento j-ésimo. ∀ i=1, 2, ...., nj ; j=1, 2,....,k

nj
x • j = ∑ x i j suma del j-ésimo tratamiento (j-ésima columna)
j=1

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 164
x •j
x • j= = media del j-ésimo tratamiento
nj

k k nj
x • •= ∑ x • j = ∑ ∑x ij = suma de todas las observaciones
j =1 j =1 i =1

x ••
x • •= = Gran Media
n

Como se definió anteriormente el análisis de varianza es un proceso en


donde la variación total de un conjunto de datos se divide en componentes que
provienen de diferentes fuentes. Se debe entender en este contexto, que el
concepto de “variación” es la suma de cuadrados de las desviaciones de las
observaciones con relación a sus respectivas medias o simplemente “Sumas de
Cuadrados”.

De la ecuación (5) se observa que para las muestras el modelo asume la


forma:

x i j -x • • = (x • j- x • • ) + (x i j - x • j )

Elevando al cuadrado los términos de ambos miembros de la ecuación


anterior y luego sumando, se obtiene:

(x - x • • ) = ( x • j- x • • ) + ( x i j - x • j ) + 2 ( x • j- x • • ) × ( x i j - x • j )
2 2 2
ij

∑ ∑ (x ) ∑ (x ) ∑ (x ) ∑ (x ) (x )
k nj k nj k nj k nj
− x • • =∑ +∑ − x • j + 2∑
2 2 2
ij • j− x •• ij •j − x •• ⋅ ij − x •j
j =1 i =1 j =1 i =1 j =1 i =1 j =1 i =1

El último término se puede escribir como:

( ) ( ) ∑(x )
k nj k
2∑ x • j− x •• ⋅∑ xi j − x • j , pero •j − x •• = 0
j =1 i =1 j =1

∑(x )
nj
y ij − x •j = 0 Por propiedad de la media aritmética.
i =1

Entonces la suma de cuadrados se reduce a:

∑ ∑ (x ) ∑ (x ) ∑ (x )
k nj k nj k nj
− x • • =∑ +∑
2 2 2
ij • j− x •• ij − x •j
j =1 i =1 j =1 i =1 j =1 i =1

( ) ∑ (x )
k k nj
= ∑ nj +∑
2
x • j− x •• ij − x •j
j =1 j =1 i =1

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 165
Donde:

∑ ∑ (x )
k nj
2
ij − x •• = SS total = Suma de Cuadrados total
j =1 i =1

∑ ∑ (x )
k nj
2
•j − x •• = SS trat =Suma de Cuadrados entre tratamientos
j =1 i =1

∑ ∑ (x )
k nj
2
ij − x •j = SS error = Suma de Cuadrados dentro de los
j =1 i =1

tratamientos o debida al error residual

Usando propiedades de sumatorias se demuestra que:

x •2•
∑ (x )
k nj k nj
SS total = ∑ ∑ ∑x
2
ij − x •• = 2
ij −
j =1 i =1 j =1 i =1 n

x •2j x •2•
∑ (x ) =∑ n
k nj k
SS trat = ∑
2
•j − x •• −
j =1 i =1 j =1 j n

x •2j
∑ (x ) = ∑ ∑ x −∑ n
k nj k nj k
SS error = ∑
2
ij − x •j 2
ij
j =1 i =1 j =1 i =1 j =1 j

Se observa que estas sumas de cuadrados son los numeradores de las


varianzas respectivas, que en ANOVA se llaman cuadrados medios.

A partir de las sumas de cuadrados que se acaban de construir es


posible obtener dos estimadores insesgados de la varianza poblacional σ 2 . Se
puede demostrar que cuando las medias de los tratamientos son iguales (Ho
verdadera) tanto la suma de cuadrados de los tratamientos como la suma de
cuadrados del error divididas entre sus respectivos grados de libertad se
obtienen estimadores insesgados e independientes de σ 2 .

nj

∑ (x − x• j )
2
ij
i =1
Dentro de cada grupo proporciona un estimador insesgado
nj − 1
de la varianza de su grupo y bajo el supuesto de que las varianzas de los
grupos (tratamientos) son iguales se pueden ponderar las varianzas de los k
grupos para obtener:

∑ ∑( ) ∑ ∑ (x )
k nj k nj
2 2
xi j − x •j ij − x •j
j =1 i =1 j =1 i =1
= = S2error = MSerror
n−k
∑ (n − 1)
k

j
j =1

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 166
Que es la varianza dentro de tratamientos o varianzas del error o
Cuadrado Medio del Error.

El segundo estimador de σ2 se obtiene de la conocida varianza de


σ2
medias (Teorema Central del Límite) σ =
2
que al despejar σ 2 se tiene
x n
σ 2= nσ . Pero un estimador insesgado de σ calculado en las k muestras es:
2 2

x x

∑ (x )
k 2
•j − x ••
2 j =1
S =
x k −1

De donde

(x )
k
n⋅∑
2
• j− x ••
2 j =1
n⋅S =
x k −1

El numerador de esta última expresión es la suma de cuadrados entre


tratamientos para el caso particular en que todos los tratamientos tienen el
mismo tamaño n. Esta suma de cuadrados dividida por los correspondientes g.l.
(k-1) grados de libertad, se llama la varianza entre tratamientos o Cuadrados
medio entre tratamientos.

Si la hipótesis nula es cierta, se espera que estos dos estimadores de


σ2 sean aproximadamente iguales y el cociente

2
MS trat S
=
trat
2
MSer ror S
error

que es una variable Fisher unidad o cercana a la unidad. Por el contrario si Ho


es falsa; es decir, si los efectos de tratamientos no son nulos, esta razón será
significativamente mayor a la unidad.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 167
MStrat
Así, se rechaza Ho sí es mayor que la F teórica de tablas:
MSerror

MStrat
Es decir > F1-α ;(g.l.trat; g.l.er r o r )
MSerror

Donde g.l.trat. = k-1 y g.l.error = n-k

Todo lo anterior se resume en una tabla llamada ANOVA que se muestra


a continuación:

TABLA ANOVA

Grados Varianza ó
Fuente de
Variación

De Suma de Cuadrados Cuadrados Fcalculado Fteórico


Liberta
d
(SS) Medios
g.l. (MS)
Tratamientos

k x •2j x •2• SS trat


SS trat = ∑n −
Entre

k-1 MStrat =
n k −1
F1-á ; (g.l.trat ; g.l.error)

j =1 j
MStrat
MSerror
Tratamiento

k nj k x •2j SS error
SS error= ∑ ∑ xi2j −∑
Dentro

n-k MSerror=
nj n−k
s

j =1 i =1 j =1

nj
x •2•
Total

n-1 SS total = ∑ ∑x
j =1 i =1
2
ij −
n

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 168
Ejemplo:

Una fábrica ha comprado tres máquinas nuevas de marcas


diferentes, A, B y C, el encargado de producción desea determinar si son
diferentes en la producción de cierto producto. Los datos indican el
número de unidades producidas en una hora por cada máquina; las
observaciones se hicieron al azar y los datos se muestran en la siguiente
tabla. Use α = 0,05

Producción por hora de tres máquinas durante cinco horas

MÁQUINAS

A B C
25 31 24
30 39 30
36 38 28
38 42 25
31 35 28
Tamaño de
muestra 5 5 5 n = 15
n.j
Sumas
160 185 135 x.. = 480
x.j
Medias
32 37 27 x • • = 32
x •j

Solución:

ANOVA

Fuente Grados Suma


Cuadrados
de de de Fcalculado Fteórico
Medios
Variación libertad Cuadrados
Trat=MAQ 3-1= 2 250 125,0000 7,50 F0,95;2;12 = 3,89
Error 15-3=12 200 16,6667
Total 15-1=14 450

Es conveniente, recordar que la prueba de hipótesis es:

Ho: µ 1= µ 2= µ 3 vs. Ha: ¬ Ho

Observando la ANOVA, se observa que Fcalc > Fteórico , por lo que se


concluye que la producción de las tres máquinas es significativamente diferente
al 5%.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 169
En MINITAB, se procede de la siguiente manera:

Se designa a la columna uno “C1”, con el nombre “PROD”, se ingresan


en esta columna los datos de producción, primero los de la máquina A, luego
los de la máquina B, luego los de la máquina C. Una vez hecho esto se designa
a la columna dos “C2”, con el nombre “MAQ” y se ingresan los nombres de las
máquinas: A, A, A, A, A, B, B, B, B, B, C, C, C, C, C.

A continuación se hace la secuencia de comandos: “Stat”-“ANOVA”-


“One-way”. En la caja de diálogo en donde aparece la subventana “Response”,
se ingresa “PROD” y en la subventana “Factor”, se ingresa “MAQ”, finalmente
se pulsa el botón OK, obteniendo la siguiente pantalla:

Variable respuesta
TABLA Tratamiento
“PROD”
ANOVA “MAQ”

Click “OK”

En el recuadro de la hoja de sesión se encuentran los valores obtenidos


anteriormente en la ANOVA, es decir se rechaza Ho con p-valor=0,008; que por
ser menor que α = 0,05 ; conduce a la misma conclusión que se obtiene del
análisis de la ANOVA.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 170
8.2 Algunas Pruebas Paramétricas

8.2.1 Prueba t de Student para una muestra

Es una prueba de hipótesis referente a la media poblacional µ , los


supuestos son que la muestra aleatoria, sea pequeña, n £ 30, la
población de la cual proviene la muestra debe tener distribución normal o
ser suficientemente grande para tener las condiciones del Teorema
Central del Limite y la varianza poblacional σ2 sea desconocida.

a) Hipótesis bilateral

Hipótesis:

Ho: µ = µ0
Ha: µ ≠ µ0

x - µ0
Estadística de prueba = T = : t(n-1) g.l.
sx
n

Nivel de confianza: P(-t α ;(n-1) g.l. £ t £ t α ;(n-1) g.l. ) = 1- α


2 2

 
Región de Aceptación: t ∈ R / t ≤ t α ; n−1 g.l. 
( )
 2 

 
Región de Rechazo: t ∈ R / t > t α ; n−1 g.l. 
( )
 2 

x - µ0
Se acepta Ho sí: £ t α ;(n-1) g.l.
sx 2
n

x - µ0
Se rechaza Ho sí: > t α ;(n-1) g.l.
sx 2
n

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 171
Ejemplo: En una pastelería se envasan galletas en envases de 140 grs. Para
verificar si el promedio real contenido en cada uno de los envases es
correcto, se escogió aleatoriamente una muestra de tamaño 7,
observando los siguientes resultados:

138,7 136,9 140,0 135,2 136,1 136,2 138,1

Como la pastelería espera perder dinero cuando µ > 140 y que el


cliente pierda dinero cuando µ < 140 , decide que se debe realizar la
siguiente prueba de hipótesis con α = 0.05 :

Ho: µ = 140
Ha: µ ≠ 140

Solución: Sea X=”peso en grs.”, del contenido de cada envase

Región de aceptación de Ho:

 s s 
RA=  − t α ⋅ x ;tα ⋅ x
 2 ;(n−1)g.l. n 2 ;(n−1)g.l. n 

RA=  −2,45 ⋅ 1,69 ;2,45 ⋅ 1,69  ≈ [ −1,57;1,57 ]


 
 7 7 

Estadística de prueba T:

T = x − µ0 = 137,31 − 140 ≈ −4,2


s 0,64
n

Decisión: Como T ∉ RA , se rechaza Ho.

Definición: El intervalo de confianza al nivel de confianza 1- α , es:

 sx sx 
IC(1- α )=  x − t α ⋅ ; x + tα ⋅ 
;(n−1)g.l. ;(n−1)g.l.
 2 n 2 n

Luego, para los datos del Ejemplo, se tiene:

IC(1-0,05)= 137,31 − 2, 45 ⋅ 1,69 ;137,31 + 2,45 ⋅ 1,69 


 
 7 7 

IC(0,95) ≈ [135,75;138,87 ]

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 172
Se observa que, 140 no pertenece al intervalo de confianza
encontrado, luego a partir del intervalo de confianza respectivo, se
concluye que Ho es falsa.

En realidad el realizar una prueba de hipótesis e interpretar el


intervalo de confianza del parámetro en cuestión es exactamente lo
mismo.

Solución en MINITAB:

Se abre una hoja de trabajo, se designa con “X” a la columna C1,


en la cual se ingresan los datos, luego se hace la secuencia de
comandos “Stat”-“Basic Statistic”-“1-Sample t”, aparece la pantalla:

Variable “X”

µ 0 = 140

Options

Se observa que en “Variables” se ingresó “X” y en “Test mean” se


ingresó 140, a continuación se pulsa “Options”, apareciendo la siguiente
caja de diálogo:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 173
Nivel de
confianza
95%
Hipótesis
Bilateral

OK

er
1 “OK”

do
2 “OK”

Se observa que en “Confidence level” se ingresó el nivel de confianza


de la prueba, es decir 95,0; en “Alternative”se pulso “not equal”, por tratarse
en este caso de una prueba bilateral, luego se pulsa seguidamente “OK” y
“OK” en cada subventana y ventana respectivamente. Una vez hecho esto,
aparecen los resultados que se aprecian a continuación:

Estadístico
de Prueba T

P-valor

Intervalo de
confianza
para µ

En la hoja de sesión se observa el intervalo de confianza, el valor de la


estadística de prueba T = - 4,21 y el p-valor 0,006. Para decidir, se observa
que p-valor = 0,006 < α = 0,05 ; por lo tanto se concluye que Ho se debe
rechazar, o bien sí se quiere ser más riguroso “no se acepta Ho”.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 174
8.2.2 Pruebas t de Student para dos muestras pequeñas (n1 + n2 £ 30)

El objetivo de este tipo de pruebas es determinar si la diferencia que


presentan las medias de dos muestras es significativa de una diferencia en
las medias poblacionales, o si por el contrario, puede ser atribuida al azar,
en este último caso se dice que la diferencia no es estadísticamente
significativa.

Los supuestos de estas pruebas son: aleatoriedad de las muestras,


normalidad de las poblaciones y en el caso de muestras independientes se
exige igualdad de varianzas poblacionales.

Se distinguen dos casos:

a) Dos muestras independientes:

Para varianzas desconocidas, pero iguales con n1 + n2 £ 30 , se


(n1 - 1) × s12 - (n2 - 1) × s22
considera la varianza combinada sp2 =
n1 + n2 - 2

x 1- x 2
Y la estadística T = : tα
1 1 ;(n-1)g.l.
sp × + 2

n1 n2

Este tipo de caso, se ilustrará directamente en MINITAB, con el


siguiente ejemplo:

Ejemplo:

Se desea comparar el ingreso medio semanal de los operarios de dos


plantas industriales, A y B, para este efecto se tomó una m.a.(8) en la planta A
y una m.a.(7) en la planta B, los resultados en miles de pesos son:

Planta A 275 265 260 280 270 270 290 250

Planta B 275 285 290 270 275 285 280

Solución:

Se realizará una prueba de hipótesis bilateral con α = 0,05 , es decir se


desea docimar:

Ho: µ A = µ B
Ha: µ A ≠ µ B

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 175
En MINITAB, la secuencia de comandos es:

“Stat”-“Basic Statistic”-“2-Sample t”.

Los datos correspondientes a cada una de las muestras pueden estar


ubicados en columnas separadas (cada muestra en una columna), o bien todos
en una misma columna. En este último caso, se debe usar otra columna para
codificar los datos según la muestra a que pertenezcan.

Según sea la ubicación de los datos se seleccionará la opción


correspondiente en la caja de diálogo:

- Datos en la misma columna: “Samples in one column”. Se debe


especificar en qué columna están las muestras y en que columna se
encuentran los códigos (subscripts) que identifican a qué muestra
pertenece cada valor.

- Datos en columnas diferentes: “Samples in different columns”. Se debe


especificar cual de las dos muestras es la primera y cual la segunda. El
orden es importante si la hipótesis alternativa es “not equal”

Con las indicaciones anteriores, se sugiere al alumno, realizar este ejemplo


en MINITAB, ingresando los datos en una misma columna usando “subscripts”
A y B, se debe obtener como resultado:

Nivel de
confianza

µ=0

µ≠0

Variable
observada

P-Valor
Variable
indicadora

Click “OK”

Observando el p-valor en la hoja de sesión se tiene p=0.075> a = 0.05 ,


por lo tanto se debe aceptar Ho.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 176
b) Dos muestras dependientes (datos pareados)

En este tipo de prueba, generalmente hay una situación antes y


después de un tratamiento y tiene como objetivo estudiar el efecto del
tratamiento en cuestión.

Estudiado el efecto del tratamiento en la m.a(n), para el conjunto


de mediciones {( x i , y i )} , se define la variable D, como di=xi-yi, para
i= n

i= 1

posteriormente trabajar con esta nueva variable D.

El contraste de hipótesis bilateral a un nivel de confianza 1- α , es:

Ho: µ D = 0 ⇔ µ1 = µ2

Ha: µ D ≠ 0 ⇔ µ1 ≠ µ 2

El estadístico t de Student es:

D
tD = : t n-1
sD
n

 
La región de aceptación de Ho es: RA= t : t ≤ t α 
;(n−1)g.l.
 2 

 
La región de rechazo de Ho es : RR = t : t > t α 
;(n −1)g.l.
 2 

D
El criterio de decisión es: se acepta Ho si: £ tα
sD ;(n-1)g.l.
2
n

En MINITAB, para este tipo de prueba los datos deben ir siempre en


columnas separadas Ci y Cj y el procedimiento es el siguiente:

Crear una columna con las diferencias, haciendo: Ck = Ci-Cj, y luego


docimar la hipótesis nula de que la media poblacional de las diferencias es igual
a cero, para luego usar los comandos:

“Stat”-“Basic Statistic”-“1-Sample t”.

Es decir se transforma la prueba de diferencias a una prueba: 1-Sample t.

Se sugiere al alumno, que en una primera etapa use Ci=C1, Cj=C2 y


Ck=C3.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 177
Ejemplo:

A un grupo de profesores se les mide su “respeto hacia el alumno” antes


y después de un cursillo pedagógico. Los resultados son los siguientes:

Antes 9 13 3 2 17 4 7 10 9 5 6 11 16 17
Después 11 14 5 4 19 5 6 12 10 7 7 13 15 17

Se pregunta si el cursillo pedagógico ha influido en algo en las


puntuaciones posteriores.

Solución en MINITAB:

Se ingresan los datos “Antes” en la columna C1, designándola con “X”,


se ingresan los datos “Después” en la columna C2, designándola con “Y”, se va
a la “Calculadora” de MINITAB, para crear en la columna C3 la variable D=X-Y.
Creada esta columna, se hace la secuencia de comandos:

“Stat”-“Basic Statistics”-“1-Sample t”,

se completan los datos con “Confidence level” de 95,0 y se obtiene:

Variable “D”

Click
“Options”

D = - 1, 1 4

µ D≠ 0

Se sugiere al alumno, que con los elementos desplegados anteriormente


en la hoja de sesión, discuta la aceptación o rechazo de la hipótesis nula
correspondiente.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 178
8.3 Laboratorio de ANOVA y Pruebas T

1. Los siguientes datos representan las calificaciones finales de


Matemáticas, Inglés, Francés, Biología, que obtienen cinco Estudiantes:

MATERIAS

EST. M I F B
1 68 57 73 61
2 83 94 91 86
3 72 81 63 59
4 55 73 77 66
5 92 68 75 87

Use un nivel de significación de 0,05 para investigar la hipótesis


de que las asignaturas son de igual dificultad.

2. Se comparan dos muestras aleatorias de 10 Hombres y 10 Mujeres de


edades comprendidas entre los 18 y 22 años en un ítem que mide su
autoestima en escala de 0 a 10 puntos. Los resultados son:

H 8 7 6 8 7 5 6 4 9 9
M 8 6 5 6 5 4 4 4 6 4

a) ¿Se puede afirmar que ambas muestras difieren significativamente en


autoestima?
b) ¿Se puede afirmar que la autoestima de los hombres es
significativamente mayor que la de las mujeres?

3. Se quiere averiguar si tres fertilizantes, A, B y C presentan diferencias


significativas en cuanto a sus efectos sobre el aumento de la cosecha.
Con este propósito se eligieron al azar 15 parcelas a las que se fertilizó
aleatoriamente con cada uno de los fertilizantes en cuestión. Los
aumentos de cosecha fueron los siguientes:

Aumento de Cosecha
Fertilizante A 39 33 39 35 32
Fertilizante B 36 40 35 30 29
Fertilizante C 33 33 36 26 35

A la vista de estos datos se pide:

a) Construir la ANOVA.

b) Determinar si existen diferencias significativas entre los tres


fertilizantes a un nivel α = 0,05 .

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 179
4. En un estudio para evaluar los efectos de una infección de paludismo en
huéspedes de mosquitos, se alimentaron mosquitos en monos rhesus
infectados y no infectados. Subsecuentemente, la distancia que volaron
durante un período de 24 horas se midió utilizando un medidor de
vuelos. Los mosquitos se dividieron en cuatro grupos de ocho mosquitos
cada uno: rhesus infectados y esporozoarios presentes (IRS), rhesus
infectados y ovocito presente (IRD), rhesus infectados y sin infección
desarrollada (IRN) y no infectados (C). Un resumen de los datos son:

x 1• = 4,39 (IRS) x 2 • = 4,52 (IRD) x 3 • = 5,49 (IRN)

x 4 • = 6,36 (C) x • • = 5,19 ∑ ∑x 2


ij = 911,91

Utilice la prueba F de ANOVA al nivel 0,05 para determinar si hay


algunas diferencias entre el verdadero promedio de tiempos de vuelo
para los cuatro tratamientos.

5. Un ingeniero se interesa en probar el sesgo en un medidor de pH. Se


reúnen datos de una sustancia neutra (pH=7,0). Se toma una muestra
aleatoria de tamaño diez con los siguientes resultados:

7,07 7,00 7,10 6,97 7,00 7,03 7,01 7,01 6,98 7,08

Docimar la siguiente hipótesis:

Ho: µ = 7,0
Ha: µ ≠ 7, 0
Use α = 0,05

6. Se comparan dos muestras aleatorias de 10 hombres y de 10 mujeres de


edades comprendidas entre los 18 a 22 años en un ítem que mide su
autoestima (escala de 0 a 10 puntos).

a) ¿Se puede afirmar que ambas muestras difieren


significativamente en autoestima?. Use α = 0.05

b) ¿Se puede afirmar que la autoestima de los hombres es


significativamente mayor que la de las mujeres?. Use α = 0.05

Puntaje del ítem

HOMBRES 8 7 6 8 7 5 6 4 9 9
MUJERES 8 6 5 6 5 4 4 4 6 4

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 180
7. Se mide la capacidad lectoescritora de 10 niños disléxicos a través de un
cuestionario (escala de 0 a 100puntos) antes y después de recibir una
terapia. Sus resultados fueron:

ANTES 70 72 80 75 77 80 74 81 76 73
DESPUES 74 73 84 75 84 95 88 86 80 79

Determine si la capacidad lectoescritora de los niños ha


aumentado después del tratamiento.

8. Para comparar la efectividad de tres tipos distintos de recubrimientos


fosforescentes para indicadores del tablero de instrumentos de aviones,
ocho de estos indicadores se recubren con cada uno de los tres tipos.
Después se iluminan con una luz ultravioleta y los datos que siguen son
los tiempos en minutos que cada uno brilló después de que se
desconectó la fuente de luz:

Tipo 1 52,9 62,1 57,4 50,0 59,3 61,2 60,8 53,1


Tipo 2 58,4 55,0 59,8 62,5 64,7 59,9 54,9 58,4
Tipo 3 71,3 66,6 63,4 64,7 75,8 65,6 72,8 77,3

Pruebe que la hipótesis nula de que no hay diferencias en la efectividad


de los tres recubrimientos en el nivel de significación 0,01.

9. Las siguientes cifras representan los errores cometidos en cinco


semanas sucesivas por cuatro técnicos que trabajan en un laboratorio
químico:

Técnico 1 13 16 12 14 15
Técnico 2 14 16 11 19 15
Técnico 3 13 18 16 14 18
Técnico 4 18 10 14 15 12

Demuestre, en el nivel de significación 0,05, si las diferencias entre las


cuatro medias de la muestra pueden atribuirse al azar.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 181
IX ESTADÍSTICA NO PARAMETRICA

Cuando en el estudio paramétrico de una


población no se tiene el supuesto de normalidad, se
deben buscar técnicas que no consideren este requisito
de la distribución. Estas técnicas se conocen como sin
distribución o “no Paramétrica”.

En este tipo de pruebas se desconocen que tipo


de distribución fundamental tienen excepto que tienen
Frank Wilcoxon
1882-1965
distribución continua.
Irlanda
Los procedimientos no paramétricos o de
distribución libre se usan con mayor frecuencia en análisis de datos. Hay una
gran cantidad de aplicaciones en las ciencias y en las ingenierías donde los
datos se reportan no como valores de un continuo si no más bien en una escala
ordinal tal que es bastante natural asignar rangos a los datos.

Como norma general, si al mismo conjunto de datos es posible aplicar


una prueba Paramétrica y una no Paramétrica, se debe aplicar la técnica
Paramétrica más eficiente. Sin embargo, se debe reconocer que los supuestos
de normalidad a menudo no se pueden justificar, y que no siempre se tienen
mediciones cuantitativas.

9.1 Prueba del Signo de la Mediana ”m” de Una Muestra.

En MINITAB, esta dócima se designa con “1- Sample Sign”.

La prueba del signo de una sola muestra se aplica cuando se toman


muestras en una población simétrica continua, de modo que tanto la
probabilidad de obtener un valor de la muestra mayor que la media como la
probabilidad de obtener un valor de la muestra menor que la media sean ambas
0,50.

Se explicará la prueba según los casos unilateral o bilateral:

a) Para:
H0 : m = m0

Ha : m < m0

Para los valores, de la muestra tomada de la población de interés, se


forman las diferencias:

x i- m 0 ,i = 1,2,....,n

Ahora bien, si la hipótesis nula H0 : m = m0 es verdadera, cualquier


diferencia x i- m 0 ,i = 1,2,....,n , tiene la misma probabilidad de ser positiva o
negativa. Un estadístico de prueba apropiado es el número de estas

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 182
diferencias que son positivas, se designa R+ a este estadístico. Por
consiguiente, la prueba de la hipótesis nula es en realidad una prueba de
que el número de signos positivos es un valor de una variable aleatoria

Binomial con parámetro p = 0,50 y n = número de diferencias diferentes de
cero. Entonces se calcula un valor P para el número observado de signos
positivos r + directamente de la distribución Binomial. Al probar esta
hipótesis unilateral izquierda, se rechaza Ho a favor de Ha, sólo si la
proporción de signos positivos es suficientemente menor que 0,50; lo que
equivale a decir, cada vez que el número observado de signos r + es muy
pequeño. Por lo tanto, sí el valor calculado de:

P = P(R+ £ r + ;p = 0.50)

es menor o igual al nivel de significación α seleccionado previamente,


entonces se rechaza Ho y se concluye que Ha es verdadera.

b) Para:
H0 : m = m0

Ha : m > m0

se rechaza Ho a favor de Ha, sólo sí el número observado de signos


positivos r + , es grande o lo que equivale a decir, se rechaza Ho, cada vez
que la proporción de signos positivos es significativamente mayor que 0,50.
Por lo tanto, sí el valor calculado de:

P = P(R+ ³ r + ;p = 0,50)

es menor que el valor de a seleccionado previamente, entonces Ho se


rechaza y se concluye que Ha es verdadera.

c) Para:
H0 : m = m0

Ha : m ≠ m0

se rechaza Ho si la proporción de signos positivos difiere de manera


significativa de 0,50; ya sea inferiormente o superiormente. Esto equivale a
decir que el número observado de signos positivos sea suficientemente
grande o suficientemente pequeño. Por consiguiente, sí:

n
r+ < ® P = 2P(R+ £ r + ;p = 0,50)
2

n
r+ > ® P = 2P(R+ ³ r + ;p = 0,50)
2

Si el valor P es menor que el valor de α seleccionado previamente,


entonces Ho se rechaza y se concluye que Ha es verdadera.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 183
Ejemplo:

A una muestra aleatoria de 10 estudiantes de enfermería se les aplicó un


Test para medir su nivel de autoritarismo (escala de 0 a 10) con los siguientes
resultados:

Estudiante 1 2 3 4 5 6 7 8 9 10
Calificación 4 5 8 8 9 6 10 7 6 6

Pruebe la hipótesis de que la media de la población muestreada es de 5


puntos. Use α = 0,05

Solución:
Ho: m = 5

Ha: m ≠ 5

A continuación se muestra la tabla correspondiente:

Estudiante xi xi-5 Signo


1 4 -1 -
2 5 0 0
3 8 5 +
4 8 5 +
5 9 4 +
6 6 1 +
7 10 5 +
8 7 2 +
9 6 1 +
10 6 1 +

n
Luego n = 9 , R+ : B(9;0,50) , r + = 8 > = 5 , por lo tanto:

2

P = 2P(R+ ³ r + ;p = 0,50) = 2P(R+ ³ 8;p = 0,50) = P(R+ = 8) + P(R+ = 9)

P=2(0,017578+0,001953)=0,039062< α = 0,05 .

Por lo tanto se rechaza Ho.

Para resolver el ejercicio en MINITAB, una vez ingresados los datos en la


columna C1, se realiza la secuencia de comandos “Stat”-“Nonparametric”-“1-
Sample Sign...”, en la caja de diálogo se ingresa la columna de datos y en
“Confidence level” se ingresa el nivel de significación, que por defecto es 95,0;
en “Test median” se ingresa 5,0; luego en “alternative” se ingresa la opción “not
equal”, posteriormente se pulsa “OK”, obteniendo:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 184
P = P(R + = 8) + P(R + = 9) Columna
de datos
“x”

Nivel de
significaci
ón
deseado
“Click” para activar
el valor a ingresar Ingreso de
de mediana 5,0

Click ”OK”

Hipótesis
alternativa

En la parte inferior de la hoja de sesión se encuentra el valor de P,


obtenido anteriormente, el cual lleva a la misma conclusión.

9.2 Prueba del Rango con Signo de Wilcoxon

La prueba anterior, del signo de la mediana emplea solo los signos “+” y
“-” de las diferencias entre las observaciones x i y la mediana m0 , esta prueba
no toma en cuenta la magnitud de estas diferencias, Frank Wilcoxon diseñó un
procedimiento de prueba que utiliza tanto la dirección (signo) como la magnitud.

La prueba de Wilcoxon se aplica al caso de las distribuciones continuas


simétricas, bajo estas suposiciones, la media coincide con la mediana y el
procedimiento puede emplearse en probar la hipótesis nula Ho: m = m0 contra
las hipótesis alternativas usuales.

El interés radica en probar Ho: m = m0 contra las hipótesis alternativas


usuales. Primero se resta m0 de cada valor muestral x i y se descartan todas las
diferencias iguales a cero. Luego se clasifican estas diferencias sin tomar en
cuenta el signo, se les asigna un rango de 1 a la diferencia absoluta más
pequeña, un rango 2 a la siguiente más pequeña y así sucesivamente.

Cuando el valor absoluto de dos o más diferencias es el mismo, se saca


un promedio de este y se le asigna así el mismo rango.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 185
Se designa con W + , a la suma total de los rangos que corresponden a
las diferencias positivas y se designa con W - , a la suma total de los rangos
que corresponden a las diferencias negativas. Luego se define el estadístico de
prueba de Wilcoxon, como:

W = min { W - , W + }
El test de hipótesis:

H0 : m = m0

Ha : m < m0

Se rechaza Ho en favor de Ha : m < m0 , solo si W + es pequeña y


W - es grande.

El test de hipótesis:

H0 : m = m0

Ha : m > m0

Se puede rechazar a favor de Ha : m > m0 , solo si W + es grande y


W - es pequeña.

El test de hipótesis:

H0 : m = m0

Ha : m ≠ m0

Se puede rechazar Ho a favor de Ha sí W+ y W - son lo


suficientemente pequeñas.

Se debe recordar que en toda prueba de hipótesis existe una región de


rechazo de la hipótesis nula Ho, región llamada también “región crítica”, si el
estadístico de prueba W cae en esta región significa que se debe rechazar Ho.

Para esta prueba existe la llamada “Tabla de Valores Críticos para la


Prueba del Signo de Wilcoxon”, para hallar un valor crítico se debe entrar con el
“n” y el α preestablecido para la prueba, por ejemplo para un n=10 y un valor
α = 0,05 , tratándose de una prueba de hipótesis bilateral se hallará un valor
crítico “8”, lo cual indica que la región de rechazo de Ho corresponde a los
W<8.

Se deja al alumno esta pequeña tarea.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 186
Ejemplo:

Los siguientes datos representan el número de horas que funcionan


unos controladores antes de requerir carga:

1,5 2,2 0,9 1,3 2,0 1,6 1,5 2,0 1,2 1,7

Con un nivel de significación de α = 0,05 , decida sobre la siguiente


prueba de hipótesis:
H0 : m = 1,8
Ha : m ≠ 1,8
Solución:

Como n=10, α = 0,05 , tratándose de una prueba bilateral, se tiene que


la región de rechazo de Ho es {w : w < 8} , luego para decidir sobre la prueba
se debe averiguar el valor de la estadística de prueba W = min { W - , W + } , para
este efecto se construye la siguiente tabla:

DATOS DIFERENCIAS DIFERENCIAS RANGOS


1,5 -0,3 0,3 5,5
2,2 0,4 0,4 7,0
0,9 -0,9 0,9 10,0
1,3 -0,5 0,5 8,0
2,0 0,2 0,2 3,0
1,6 -0,2 0,2 3,0
1,5 -0,3 0,3 5,5
2,0 0,2 0,2 3,0
1,2 -0,6 0,6 9,0
1,7 -0,1 0,1 1,0

Con objeto de determinar W, primero se debe calcular W + y W - , ya


que por definición
W = min { W - , W + } .
De la tabla anterior se tiene que:
W + = 7+3+3=13

W - =5,5+10+8+3+5,5+9+1=42

Luego, W = min { W - , W + } = min {42,13} = 13 Ï {w : w < 8} , por lo tanto


se rechaza Ho, que dicho de otro modo “no se acepta Ho”.

Para resolver el ejemplo en MINITAB, se ingresan los datos en la


columna C1, se realiza la secuencia de comandos: “Stat”-“Nonparametrics”-“1-
Sample Wilcoxon” apareciendo la caja de diálogo en la cual se ingresa la
columna de datos, el nivel de significación de la prueba, 0,95 en este caso, en
“Test median” se ingresa 1,8 , en “Alternative” se pulsa la opción “not equal”
por tratarse de una prueba bilateral, luego se pulsa “OK”, obteniendo:

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 187
Columna de
P-valor=0,154 Datos

Nivel de
significación
deseado

Ingreso de
1,8

Hipótesis
alternativa

“Click” para activar


el valor a ingresar Click ”OK”
de mediana

En la parte inferior de la hoja de sesión se encuentra que el p-valor es 0,154;


que naturalmente es mayor que α = 0,05 ; no rechazando Ho, pues el p-valor
es mayor que el valor del α preestablecido desde un comienzo de la prueba de
hipótesis.

9.3 Test U de Mann-Whitney

Esta prueba trabaja con dos muestras aleatorias independientes,


cuando los datos no alcanzan a ser de tipo cuantitativo sino ordinales. Ambas
muestras deben provenir de la misma población. Se usa para la comparación
de medianas.

Se Ilustrará el uso de esta prueba directamente en MINITAB con un


ejemplo:

Ejemplo:

En los consultorios de salud A y B de la ciudad de Punta Arenas, se


tomaron sendas muestras aleatorias de tamaño 12, se consultó la edad de las
personas, con el objeto de realizar una prueba de hipótesis para comparar la
edad mediana de los pacientes que concurren a ambos consultorios. Los
resultados son:

A 16 26 23 19 45 30 23 23 29 24 35 32
B 15 25 17 40 22 27 21 20 18 16 14 31

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 188
Solución: Se resolverá la prueba bilateral

H0 : mA = mB

Ha : m A ≠ mB

se supone α = 0,05

Se ingresan los datos en columnas separadas, los de A e C1 y los de B


en C2.

Se realiza la secuencia de comandos “Stat”-“Nomparametrics”-“Mann


Whitney”, en la caja de diálogo se ingresan las dos columnas, una por cada
muestra, se ingresa el nivel de confianza 95,0; luego se selecciona la hipótesis
alternativa “not equal” y se desplegará la siguiente pantalla:

era
da
1
2 muestra muestra
“B” “A”

Nivel de
significación
deseado

Hipótesis
Alternativa

Click “OK”

Si se observa en la hoja de sesión, se tiene: “The test is significant at


0,0833”, luego el p-valor es mayor que el α = 0,05 . Por consiguiente se acepta
Ho, o expresado formalmente “no se rechaza Ho”.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 189
9.4 Prueba de Rachas o Runs Test

El Runs Test o Test de Rachas o Test de Secuencias sirve para


determinar si la muestra en estudio es o no aleatoria. Antes de explicar el
funcionamiento del Test en Minitab, se ilustrarán algunos conceptos útiles para
la mejor comprensión del mismo.

Se supone que se lanza en 10 ocasiones, una moneda legal y que los


resultados se designan con C y S para representar cara y sello
respectivamente, con la siguiente secuencia de resultados:

CC—SSSS—CC—S—C

Los guiones entre las letras agrupan letras semejantes que están
adyacentes, y de esta manera la muestra de 10 observaciones se subdivide en
cinco partes, que se llaman rachas o secuencias.

Si en una muestra hay pocas rachas, por ejemplo:

CCCCCCC—SSS (2 rachas)

o demasiadas rachas, por ejemplo:

C—S—C—S—C—S—C—S—C—S (10 rachas)

Puede ser indicio de que los valores de la muestral no se comportan en


forma aleatoria.

Si se tiene razón para creer que las observaciones que se hacen en un


intervalo de tiempo pueden no comportarse como un conjunto aleatorio, se
debe probar la aleatoriedad de la secuencia de observaciones antes de aplicar
algún método estadístico basado en la aleatoriedad.

Ahora se ilustrará la forma de definir rachas antes y después de la


media, en el caso de observaciones numéricas.

Se supone que se tiene una muestra de 26 observaciones en el siguiente


orden:
Orden Observación Orden Observación
1 97 14 33
2 89 15 25
3 25 16 54
4 81 17 74
5 11 18 82
6 83 19 17
7 16 20 49
8 96 21 33
9 44 22 22
10 32 23 62
11 98 24 20
12 19 25 92
13 68 26 80

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 190
El promedio, que se designará por K, es K = 53,9231

Ahora se marcará con un signo “+” si la observación está por sobre la


media y con un signo “-“ sí está por debajo de ella. Así, para las 26
observaciones se tiene las siguientes 17 rachas:

+ + - + - + - + - - + - + - - + + + - - - - + - + +

++ - + - + - + -- + - + -- +++ ---- + - ++
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Teniendo presente lo expuesto anteriormente, se va a MINITAB, que


resolverá sobre la prueba:

Ho: La muestra es aleatoria


Ha: La muestra no es aleatoria

NOTA: Por defecto MINITAB trabaja con α = 0,05 .

Una vez ingresados los datos en alguna columna, en este caso C1, que
se designa con “X”, se hace la secuencia de comandos:”Stat-Nonparametrics”-
Runs Test..., y en la caja de diálogo se ingresa la columna de datos “X” y en
este caso se marca la alternativa “Above and below the mean”, para que
entregue la cantidad de valores sobre y bajo la media. A continuación se pulsa
OK y se tiene:

Ingreso de
Variable
P-valor “x”

Opción para
contar
valores
sobre y bajo
la mediana

Click “OK”

En la hoja de sesión aparece el valor K que corresponde a la media, el


número de rachas 17, el número esperado de rachas 14, 13 observaciones
sobre K y 13 bajo K. El test no es significativo al nivel α = 0,05 , luego no se
puede rechazar Ho.

Por lo tanto esta muestra, efectivamente es aleatoria.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 191
9.5 Test de Kruskal-Wallis

Es una alternativa a la prueba F del análisis de varianza para diseños de


clasificación simple. En este caso se comparan varios grupos pero usando la
mediana en cada uno de ellos, en lugar de las medias. Es decir:

Ho: La mediana de las k poblaciones consideradas son iguales.

Ha: Al menos una de las poblaciones tiene mediana distinta a las


otras.

Un supuesto del test es que las muestras que provienen de las diferentes
poblaciones son muestras aleatorias independientes con distribuciones
continuas.

Los pasos a seguir son:

1. Las observaciones de las k muestras se combinan en una sola muestra


de tamaño:
k
n = ∑ nj
j=1

y se ordenan en orden de magnitud (considerando su identidad dentro


de cada muestra) desde la más pequeña a la más grande. Las
observaciones son entonces reemplazadas por sus rangos de 1 a n. Si
dos o más observaciones están empatadas se les asigna la media
aritmética de los rangos correspondientes a las observaciones
empatadas.

2. Se suman los rangos correspondientes a las observaciones de las


muestras por separado, dando origen a k sumas.

3. Se calcula el estadístico H por la fórmula:

k R 2
H = 12 ∑ j − 3(n + 1)
n(n + 1) j=1 n j

donde: k= número de muestras o tratamientos.

nj= número de observaciones en la muestra j.

n= es el número total de observaciones.

Rj=es la suma de los rangos en la muestra j.

En caso de existir empates en los datos, se calcula una H corregida por:

H
H• = g

∑t
j=1
3
j − tj
1−
n3 − n

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 192
4. Cuando hay tres muestras con 5 ó menos observaciones cada una, la
significación de H se determina usando la tabla de “Valores Críticos para
la prueba de Kruskal-Wallis”, que se puede encontrar en cualquier texto
de Estadística No Paramétrica. Cuando hay más de 5 observaciones en
cada muestra ó más de 3 muestras se sabe que H está distribuida
aproximadamente como una distribución Chi cuadrado con k-1 grados
de libertad. Luego la hipótesis nula se rechaza si H > χ2(k-1)g.l.;1-α .

Ejemplo:

Se estudiaron los efectos de dos drogas en el tiempo de reacción a cierto


estímulo en tres grupos de animales experimentales. Se usó el grupo III como
control, mientras que los grupos I y II fueron tratados con las drogas A y B
previamente a la aplicación del estímulo. La siguiente tabla muestra los tiempos
de reacción en segundos de 13 animales

Tiempo de reacción en segundos

Grupos
I II III
17 8 2
20 7 5
40 9 4
31 8 3
35

¿Se puede concluir que los tres grupos difieren respecto al tiempo de reacción?

¿Se puede concluir esto si se rechaza la hipótesis nula de que los tres grupos
no difieren en su tiempo de reacción?

La hipótesis nula será cierta si los rangos están bien distribuidos entre los tres
grupos y en consecuencia, las sumas de los rangos de los tres grupos son
proporcionales a sus tamaños de muestra; si esto no ocurre el estadístico H
será muy grande y por lo tanto se rechazará la hipótesis nula cuando el valor de
H sea mayor que el valor crítico. Los rangos de la muestra combinada son los
siguientes:

Rangos para los tiempos de reacción de 13 animales

I Rangos II Rangos III Rangos


15 9 8 6.5 2 1
20 10 7 5 5 4
40 13 9 8 4 3
31 11 8 6.5 3 2
35 12
n1=5 R1=55 n2=4 R2=26 n3=4 R3=10

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 193
12 éê 552 262 102 ùú
H= + + - 3(14) = 10,68
13(14) êë 5 4 4 úû

Este alto valor del estadístico H, además de la gran desigualdad en la


repartición de los rangos en los grupos estudiados, lleva a rechazar la hipótesis
nula, se concluye entonces, que hay una diferencia significativa entre los
tiempos de reacción promedio para los tres grupos.

Para hacer la prueba de Kruskal-Wallis en MINITAB los datos de la


variable cuantitativa deben ir en una sola columna y los niveles del factor en
otra.

En este caso se ingresan todos los datos en la columna C1 que se


designa con “T”, en la columna C2 que se designa con “G” se ingresan los
grupos I, II y III. A continuación se efectúa la secuencia de comandos: “Stat”-
“Nonparametrics”-“Kruskal-Wallis”..., en la caja de diálogo se ingresa la variable
“T”en “Response” y la variable “G” en “Factor”, luego se pulsa “OK” y se
desplegará la siguiente pantalla:

Respuesta
“T”

Factor “G”

Click “OK”

P-valor

En la hoja de sesión, se observan dos valores de H, el primero es el que


se calculó anteriormente sin ajustar y el valor inferior de H en pantalla es el
valor ajustado.

Se observa también que P=0,005< α = 0,05 , por lo tanto se concluye el


rechazo de Ho.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 194
9.6 Test Chi Cuadrado – Bondad de Ajuste

En general, los resultados de un muestreo casi nunca coinciden con los


valores predichos por la teoría o modelo con el cual se está trabajando. Esto es
así por las fluctuaciones aleatorias en las mediciones o error de medición. El
problema es determinar si esas diferencias se deben al azar, o bien no se
ajustan al modelo teórico estudiado, en cuyo caso este deberá ser modificado y
vuelto a investigar. Una de las validaciones estadísticas para decidir está
situación es el test Chi-Cuadrado para determinar si el ajuste propuesto es
bueno o no corresponde. Este modelo es apto para datos discretos, pero
también se aplica en casos de variable continua, cuando los datos se han
agrupado en intervalos de clase con sus frecuencias respectivas.

Generalmente los datos se presentan en una tabla del tipo:

Evento A1 A2 A3 ……. An
Frecuencia
E1 E2 E3 ........ En
esperada
Frecuencia
O1 O2 O3 ........ On
observada

El método clásico para estudiar las diferencias entre frecuencias


esperadas y observadas es usar el estadístico Chi Cuadrado, definido como:

( Oi − Ei )
2
n
χ =∑
2

i=1 Ei

Si en la fórmula anterior se tienen χ2 = 0 , la frecuencia esperada tiene


coincidencia exacta con la observada y entonces la distribución teórica
empleada predice perfectamente los acontecimientos. Si existe una diferencia
cualquiera entre ambas frecuencias, se tiene que χ2 > 0 , valor que irá
aumentando si no es producto del azar, hasta alcanzar valores significativos
que permitan rechazar la hipótesis nula de la igualdad entre la distribución real
de la población en estudio y la distribución teórica propuesta.

La distribución muestral del estadístico χ es del tipo Chi-Cuadrado,


2

modelo que se usa para validar hipótesis. En la determinación de los grados de


libertad se tienen dos casos posibles.

1. Condición extrínseca: Es una hipótesis externa a los datos. No se


necesita de estos para obtener los parámetros
poblacionales en el cálculo de las frecuencias
observadas. En este caso los grados de libertad
son

n = n -1 .

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 195
2. Condición intrínsica: Es una hipótesis interna a los datos. Se necesitan
los datos para sacar los parámetros poblacionales.
En este caso los grados de libertad son

n = n - r - 1.

Donde “r”, es el número de parámetros ajustados.

Ejemplo:

Se quiere realizar un estudio sobre educación autoritaria en un centro


escolar de 576 alumnos; el objetivo es averiguar si los castigos impuestos a lo
largo del año se designan entre los alumnos al azar o no. La tabla de
distribución de castigos durante el año, es la siguiente:

xi 0 1 2 3 4
ni 389 120 40 20 7

xi = número de castigos

ni = número de castigos

Solución:

Ho: Los castigos se designan al azar

Ha: Los castigos no se designan al azar

Se supone α = 0,01

Se tienen los valores observados del número de castigos, no así los


esperados. Se propone un ajuste de Poisson para la distribución de los datos,
en donde es necesario estimar el parámetro λ :

∑xn i i
288
λ= i= 0
= = 0,5
n 576

Luego

λ x e-λ 0,5 x e-0,5


P(X = x) = = , x = 0, 1, 2, 3, 4.
x! x!

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 196
Calculando en Minitab, las probabilidades anteriores se tienen:

(Oi - Ei )
2

(Oi - Ei )
2
castigos Oi P(X=x) Ei
Ei
0 389 0,6065 349 1600 4,5845
1 120 0,3033 175 3025 17,2857
2 40 0,0758 44 16 0,3636
3 20 0,0126 7 169 24,1429
4 7 0,0016 1 36 36,0000
82,3767

Por lo tanto:

( Oi − Ei )
2
4
χ =∑
2
= 82,3767
i= 0 Ei

Con: n = n - r - 1 = 5-1-1 = 3 g.l,

donde r = 1, debido al ajuste del parámetro λ .

Para 3 g.l., al 99% nivel de confianza se encuentra en una tabla de χ2 , que:

χ20,99 ;3g.l. = 11,345 < χ calculado


2
= 82,3767.

Por consiguiente la conclusión que se deduce a un nivel de confianza del


99%, es que los castigos no se designan al azar entre los alumnos. Es decir
rechazamos Ho, pues el estadístico calculado pertenece a la zona de rechazo
de Ho.

Esta prueba no esta en MINITAB, pero con muy poco esfuerzo se puede
implementar con las herramientas disponibles.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 197
9.7 Laboratorio de No Paramétrica.

1. Un artículo informa sobre un estudio en el que se modela el motor de un


cohete reuniendo el combustible y la mezcla de encendido dentro de un
contenedor metálico. Una característica importante es la resistencia al
esfuerzo cortante de la unión entre los dos tipos de sustancias. En la
siguiente tabla se muestran los resultados obtenidos al probar 20
motores seleccionados al azar. Se desea probar la hipótesis de que la
mediana de la resistencia al esfuerzo cortante es de 2000 Psi.. Use
α = 0,05.

Observación Resistencia Observación Resistencia


1 2.158,70 11 2.165,20
2 1.678,15 12 2.399,55
3 2.316,00 13 1.779,80
4 2.061,30 14 2.336,75
5 2.207,50 15 1.765,30
6 1.708,30 16 2.053,50
7 1.784,70 17 2.414,40
8 2.575,10 18 2.200,50
9 2.357,90 19 2.654,20
10 2.256,70 20 1.753,70

2. Se mide la capacidad lectoescritora de 10 niños disléxicos a través de un


cuestionario (escala de 0 a 100 puntos), antes y después de recibir una
terapia. Sus resultados fueron:

Antes 70 72 80 75 77 80 74 81 76 73
Después 74 73 84 75 84 95 88 86 80 79

Mediante una prueba adecuada, determine sí la capacidad lectoescritora


de los niños ha aumentado después del tratamiento. Use α = 0,05.

3. Determine si cada una de las siguientes muestras son aleatorias o no:

a)

87 86 85 87 86 87 86 81 77 85
86 84 83 83 82 84 83 79 82 73

b)

46 55 62 65 67 64 65 62 54 57
51 60 59 64 66 68 60 59 51 43

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 198
4. Los ingresos producidos por cuatro tipos de productos de una empresa
en los primeros 8 meses del año son los de la siguiente tabla. Al
Departamento de Promoción y Marketing le interesa saber si el nivel de
ventas es similar en los cuatro productos.

Tipo de Productos

A B C D
30 20 50 60
40 29 49 58
25 28 47 57
38 22 46 40
35 19 43 48
29 15 52 47
42 30 54 49
41 33 51 50

Mediante una prueba adecuada con α = 0,05 ; determine si el nivel


de ventas es significativamente diferente en los cuatro productos.

5. En los experimentos de Mendel con porotos se cosecharon 315 porotos


lisos y amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32
rugosos y verdes. La proporción esperada para este caso es 9: 3: 3: 1.
Decida si los datos observados se ajustan a la teoría Mendeliana.

6. Se realizan 160 observaciones de la variable aleatoria “X”, obteniéndose


los siguientes resultados:

Xi 0 1 2 3 4
ni 6 38 58 47 11

Utilice la información anterior para docimar, al nivel de


significación α = 0,05 la hipótesis de que la distribución de “X” es
1
Binomial de parámetros n=4 y p= .
2

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 199
7. Una compañía de electricidad debe elegir entre dos tecnologías para
generar electricidad a sus clientes en el futuro: carbón o energía nuclear.
A fin de conocer las actitudes de los ciudadanos locales, la compañía de
electricidad realizó un sondeo de opinión pública.

Se consideraron cuatro sectores: Medios Noticiosos, Sindicato de


Mineros del Carbón, Ecologistas y Grupos Locales. Se muestrearon
aleatoriamente 50 personas de cada uno de estos sectores y se les pidió
expresar su opinión. Los resultados de las encuestas se muestran en la
tabla:

Medios Sindicato Ecologista Local Total


Apoyan
21 42 11 25 99
carbón
Apoyan
energía 18 2 16 13 49
nuclear
Neutrales 11 6 23 12 52
Total 50 50 50 50 200

a) ¿ La opinión pública en lo referente a la elección de una tecnología futura


para generar electricidad difiere entre los cuatro grupos?. Use un nivel
de significación del 90%.

b) ¿Parece haber más apoyo global para la opción de carbón que para
opción de energía nuclear?

8. ¿La propensión a lesiones de los obreros depende del tiempo que ha


estado trabajando ese día el obrero?. Un análisis de 714 lesiones de
obreros, realizado por un fabricante, arrojó los resultados que se
muestran en la tabla para la distribución de lesiones a lo largo de los
ocho períodos de una hora de cada turno.

Hora del
1 2 3 4 5 6 7 8
turno
Numero de
93 71 79 72 98 89 102 110
accidentes

a) ¿Los datos implican que la probabilidad de que un obrero sufra un


accidente es mayor en algunos períodos que en otros?. Use un nivel
de significación del 90%.

b) ¿Los datos proporcionan pruebas suficientes que indiquen que la


probabilidad de un accidente durante las últimas cuatro horas del turno
es mayor que durante las primeras cuatro horas?

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 200
X ELABORACIÓN DE INFORMES

10.1 Introducción

El programa MINTAB ofrece una alternativa usando


la ventana de reportes para ir guardando los resultados de
los análisis y para imprimir posteriormente el informe final.
William G.
Cochran
1909-1980
Escocia
Otra alternativa es trasladar la información
generada desde la ventana de sesiones o desde la ventana de gráficos a un
procesador de textos como Word, para luego efectuar las modificaciones que
permitan mejorar la presentación de los textos con los análisis. En este capítulo
se tratará el tema con la ayuda de un ejemplo.

10.2 Ejemplo

Se obtuvieron los gastos mensuales en calefacción de 25 viviendas de


similares características. La información se muestra en la siguiente tabla:

Gastos en Calefacción

25.420 26.220 26.220 31.560 28.170

21.600 29.490 26.770 23.970 28.520

26.320 23.380 26.220 27.770 23.970

27.580 29.960 23.600 20.190 22.720

22.980 25.220 25.220 25.420 18.010

Se pide estudiar la distribución de los gastos en calefacción y realizar los


análisis que permitan establecer los parámetros básicos.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 201
10.3 Generando Informes.

La información se ingresa en una columna según se muestra en la


siguiente pantalla:

Esta información puede ser trasladada a la ventana de reportes para que


sea dispuesta a modo de presentación. Para ello se debe seleccionar la
variable digitada con un Click en C1, la información quedará con fondo negro,
luego seleccione el menú de edición y seleccione Copy.

Paso 2: “Click” en Edit

Paso 3: Click en Copy Cells

Paso 1: “Click” en C1

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 202
Luego se selecciona “Windows”- “2 Proyect Manager”-“Report Pad”, se
posiciona el cursor en la ventana de reportes y con un click en el botón derecho
del mouse, se activa la opción Copy, obteniendose la siguiente pantalla:

Ventana de reportes

En la pantalla, se desplegarán los datos en forma vertical, luego se


puede ordenar la información posicionándose al final de cada fila y borrando el
carácter final para que la información suba formando la matriz presentada.

Un informe se debe iniciar con un título adecuado, para ello en la


ventana de reportes se agregará el título “INFORME DE GASTOS EN
CALEFACCIÓN”, que se escribe directamente en el lugar elegido separando la
fila con la tecla “Intro” para su mejor presentación”, por otra parte se ha decidido
que la letra sea Arial de tamaño 12, las instrucciones se muestran en la
siguiente pantalla.

Paso 3: “Click” en Editor

Paso 4: “Click” en Font

Paso 2: Se selecciona el texto para


el nuevo formato.

Paso1: Se digita “INFORME DE


GASTOS EN CALEFACCION”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 203
Se sugiere en el “paso 2” al seleccionar el texto para dar un nuevo
formato, se posicione el cursor en el primer carácter y luego se presiona el
botón izquierdo del mouse y sin soltar el botón, se arrastra el mouse hasta el
final del texto, el procedimiento se termina cuando el texto está totalmente
marcado con fondo negro. Otra alternativa es posicionarse en el primer carácter
y luego con la tecla “Shift” presionada, avanzar con la flecha izquierda hasta el
final del texto.
Las características que deben ser seleccionadas para los cambios en la
fuente se despliegan en la siguiente pantalla.

Paso 4: “Click”

Paso 3: Se selecciona el
tamaño 12

Paso 2: Se selecciona
Normal con
“Click”

Paso 1: Se busca Arial


en la lista y se
selecciona con
un Click”

Para centrar la información se selecciona el texto y se siguen los pasos


que se detallan a continuación.

Paso 2: “Click”

Paso 3: “Click”

Paso 1: Se selecciona
el texto.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 204
La pantalla de presentación queda de la siguiente forma:

Un análisis preliminar con las estadísticas básicas, se obtiene usando el


menú “Stat”- “Basic Statistics”-“Display Descriptive Statistic”, los resultados que
se despliegan en la ventana de sesiones, se trasladan a la ventana de reportes
como se muestra a continuación:

Paso 1:
- Seleccionar texto
- Menú: “Edit”-“Copy”
- Menú: “Windows”-
“Proyect Manager”

Paso 2:
- “Click”
- Menú: “Edit”-“Paste”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 205
Para el análisis de las estadísticas obtenidas con el procedimiento
descriptivo, el alumno puede ingresar sus notas directamente en la ventana de
reportes. Para usar las herramientas gráficas, se construye el histograma con
los comandos habituales y se procede como se muestra en la siguiente
pantalla:

Paso 3:
- Menú: “Windows”-
“2Proyect Manager”

Paso 1: “Click”

Paso 2: “Click” en Copy Graph

Posteriormente se selecciona menú: “Edit”-“Paste”, según se muestra en


la siguiente pantalla:

Paso 2: “Click” en Edit

Paso 3: “Click” en Paste

Análisis ingresado
directamente

Paso 1: “Click”

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 206
En la pantalla de reportes se desplegará el histograma procesado
anteriormente como se muestra en la siguiente pantalla:

Para finalizar con la elaboración del reporte, se ha decidido incluir el


resumen gráfico con las principales estadísticas de los datos en análisis. Los
resultados se muestran a continuación.

Resumen gráfico

Comentarios
finales

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 207
Una vez elaborado el informe es prudente guardar una copia del mismo
en un archivo de reportes MINITAB. Para ello se siguen los siguientes pasos:

Paso 1: Menú “File”-“Save Report As”

Paso 1: Ingreso del nombre del archivo

Paso 1: “Click” en Guardar

El reporte se ha guardado bajo el nombre de “INFORME DEL GASTO


EN CALEFACCION”, que estará disponible en el directorio Data en formato
RTF.

Otra alternativa para generar reportes es usando en forma paralela un


procesador de textos como Word, el que permitirá copiar las salidas MINITAB
en forma directa con los comandos de copiado y pegados habituales de
Windows. En el caso del reporte usado como ejemplo, se debe marcar todo el
reporte posicionándose en el comienzo y marcando hasta el final con el mouse
o con la tecla Shift y flecha abajo, se selecciona el menú: “Edit”-“copy” y se
traslada el cursor a la ventana Word en donde se copia con la secuencia
menú:”Edición”-“Pegar”. Posteriormente se realizan los cambios bajo este
procesador, considerando que cualquier cambio en los gráficos MINITAB, se
pueden realizar sin necesidad de tener activado el software MINITAB.

Para los cambios en los gráficos en Word, basta con realizar doble Click
en el gráfico respectivo y Word llamará al editor de gráficos de MINITAB. Al
cerrar la sesión del editor Gráfico de MINITAB, el programa de Word tomará
nuevamente el control del informe.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 208
10.4 Imprimiendo Informe.

Una vez realizado el informe, se puede imprimir como se muestra en la


siguiente pantalla:

Paso 1: Menú “File”-“Print Report”

Paso 2: “Click” en Aceptar

El reporte con los resultados se muestra en Anexo B

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 209
XI GLOSARIO COMANDOS MINITAB

11.1 Gráficos para Variables Categóricas: Bar Charts y


Pie Charts

Para graficar un bar graph de una variable


categórica:

1) Usar Graph – Chart.


2) En la caja de diálogo, entrar la columna que
Aleksandr
Yakovlevich
tiene los datos de la variable categórica en
Khinchin cuestión en la variable “X”.
1894-1959 3) Click OK.
Rusia

Para graficar un pie chart de una variable categórica:

1) Usar Graph-Pie Chart.


2) Click en “Chart data in”, entrar la columna de datos correspondiente.
3) Agregar un título. Click OK.

11.2 Descripción Numérica de Una Variable Categórica

Para determinar el número de casos y el porcentaje de los datos de


cada categoría que se encuentran en la columna de datos:

1) Usar Stat – Tables – Tally.


2) En la caja de diálogo, bajo “Variables”, entrar la columna que
contiene los datos categóricos en cuestión, y click en la opción
requerida, counts y percents.

11.3 Gráficos de Variables Cuantitativas

Histograms, Time Series Plot, Dot Plots, Box Plots, Stem and leaf

Para graficar un Histograma de una variable cuantitativa:

1) Usar Graph – Histogram.


2) En la caja de diálogo, entrar bajo de “X” la columna que contiene los
datos de la variable cuantitativa.
3) Usar el botón Option si se nesecita mostrar porcentaje, número de
casos, de los intervalos de clase solicitados.

Para graficar un Time Series Plot:

1) Usar Graph – Time Series Plot.


2) En la caja de diálogo, entrar bajo Y la columna que contiene los
datos de la variable cuantitativa, y luego Click OK.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 210
Para graficar un Dotplot:

1) Usar Graph – Dotplot.


2) Entrar la columna que contiene los datos de la variable cuantitativa
“X”, luego Click OK.

Para graficar un Boxplot.

1) Usar Graph – Boxplot.


2) En la caja de diálogo, entrar bajo “Y” la columna que contiene los
datos de la variable cuantitativa. No es necesario entrar nada bajo
“X”, luego Click OK.

Para graficar un diagrama de Tallo y Hoja Stem and Leaft.

1) Usar Graph – Stem and Leaf.


2) En la caja de diálogo, entrar bajo la columna que contiene los datos
de la variable cuantitativa, luego Click OK.

11.4 Descripción Cuantitativa de Variables Numéricas

Para determinar un Summary Statistics para una variable cuantitativa:

1) Usar Stat – Basic Statistics – Display Descriptive Statistics.


2) En la caja de diálogo bajo “Variables” entrar la columna(s) que
contiene los datos de la variable(s) cuantitativa.
3) El botón Graphs de la caja de diálogo proporciona opciones para los
diferentes tipos de gráficos.

Nota: El Output de Stat – Basic Statistics – Display Descriptive Statistics


proporciona: la media, la mediana, los cuartiles, máximo, mínimo y la
desviación estándar.

11.5 Transformación de Datos

Para cambiar las unidades de los datos:

1) Usar Calc – Calculator.


2) Ingresar la transformación de la variable en cuestión en la
subventana Expression, ingresar la columna en la cual se van a
guardar los resultados en Store result in variable, click OK.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 211
Para generar n observaciones que provienen de la distribución Normal
estándar:

1) Usar Calc – Random Data – Normal.


2) En la caja de diálogo, ingresar el valor de n como el número de rows
of data y especificar la columna en la cual se desea ubicar los
resultados.
3) Click OK.

Para generar n observaciones que provienen de la distribución Uniforme:

1) Usar Calc – Random Data – Uniform.


2) En al caja de diálogo, especificar el número n en rows of data, y
especificar la columna en la cual se desea ubicar los resultados,
como también el valor inferior Lower endpoint y el valor superior
Upper endpoint.
3) Click OK.

11.6 Para Graficar la Relación Entre Dos Variables Cuantitativas

Para graficar un Scatterplot:

1) Usar Graph – Plot.


2) En la caja de diálogo, especificar la columna que contiene los datos
de la variable respuesta Y como también la columna que contiene los
datos de la variable predictora “X”.
3) Click OK.

11.7 Correlación

Para calcular el coeficiente de correlación lineal:

1) Usar Stat – Basic Statistics – Correlation.


2) Especificar las dos columnas de datos en la subventana Variables.
3) Click OK.

11.8 Para determinar la Recta de Regresión Lineal

Para determinar la ecuación de la recta de regresión por el método de los


mínimos cuadrados:

1) Usar Stat – Regression – Regression.


2) En la caja de diálogo, especificar la columna que contiene los datos
de la variable “Y” como Response, y especificar la columna que
contiene los datos de la variable “X” como Predictors.
3) Se pueden obtener los gráficos Residuals for Plots usando el botón
Graph.

Para determinar la recta de regresión sobre el Scatterplot


correspondiente, se debe usar: Stat – Regression – Fitted Line Plot,
especificando la variable Response [Y], como también la variable
Predictor [X] en la caja de diálogo.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 212
11.9 Para Seleccionar una Muestra Aleatoria Simple

Para obtener una muestra de los datos de una columna:

1) Usar Calc – Random Data – Simple from Columns.


2) En la caja de diálogo, especificar el número de datos que se desean
seleccionar de la columna en cuestión, y especificar la columna en
que se desea ubicar la muestra correspondiente.

Para crear una columna de números de identificación ID:

1) Usar Calc – Make Patterned Data – Simple Set of Numbers.


2) En la caja de diálogo, especificar una columna para ubicar los
números ID, luego especificar el primer y último número ID, como
también el incremento que se desee.

11.10 Para Calcular Probabilidades Binomiales

1) Usar Calc – Probability Distribution – Binomial.


2) En la caja de diálogo, seleccione Probability o Cumulative
Probability dependiendo si se necesita P(X = k) o P(X ≤ k).
3) Especificar numbers of trials y probability of success.
4) Especificar la columna de datos en donde se encuentran los valores
de “X” y especificar en que columna se van a ubicar los resultados.
5) Click OK.

11.11 Para Calcular las Probabilidades Acumuladas y Percentiles de la


Distribución Normal

1) Usar Calc – Probability Distribution – Normal.


2) Especificar la media y la desviación estándar.
3) Para hallar P(X ≤ k), se selecciona Cumulative Probability.
4) Especificar la columna de valores de “X” y especificar en que columna
se van a ubicar los resultados.
5) Para hallar un percentil, se selecciona Inverse Cumulative
Probability.

Nota: en Minitab no es necesario estandarizar.

11.12 Descripción Numérica de Dos Variables Categóricas

Para describir numéricamente una relación entre un par de variables


categóricas es necesario crear una tabla de doble entrada, como se
indica a continuación:

1) Usar Stat – Tables – Cross Tabulation.


2) En la caja de diálogo, se especifican las dos columnas que contienen
los datos categóricos en la subventana Clasificación variables, y
luego de Display se escogen una o algunas de las opciones:
Counts, Row percents, Columns percents o Total percents.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 213
11.13 Test Chi – Cuadrado Para Tablas de Doble Entrada

1) Usar Stat – Tables – Cross Tabulation.

2) En la caja de diálogo, especificar las dos columnas que contienen los


datos en la subventana Classification variables, y seleccionar Chi –
square analysis.

3) Click OK.

11.14 Test “t” Para Una Muestra

1) Usar Stat – Basic – Statistics – 1-Sample t.

2) Bajo variables, especificar la columna de datos y especificar el valor de


la media de la Hipótesis Nula e ingresar en la Opción Test mean.

3) Especificar la hipótesis alternativa en el botón Options:

10.15 Para Datos Pareados

1) Calcular las diferencias en una columna usando Calc – Calculator.

2) Usar el mismo procedimiento de 1-sample t, especificando el valor cero


en Test mean.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 214
ANEXO A

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 215
Relación entre las Distribuciones Especiales

F de Fisher

χ2n
2
2 F[1;∞]=Z
F[1;n]= t n
F[n; ∞ ]=
n

t de Student Normal Chi cuadrado

t ∞ =Z χ21 =Z2

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 216
ANEXO B

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 217
Minitab Project Report

————— 19-03-2004 13:24:27 ————————————————————

Welcome to Minitab, press F1 for help.

INFORME DE GASTOS EN CALEFACCIÓN

calefacción
25420 21600 26320 27580 22980
26220 29490 23380 29960 25220
26220 26770 26220 23600 25220
31560 23970 27770 20190 25420
28170 28520 23970 22720 18010

Descriptive Statistics: calefacción

Variable N Mean Median TrMean StDev SE Mean


calefacc 25 25460 25420 25519 3086 617

Variable Minimum Maximum Q1 Q3


calefacc 18010 31560 23490 27675

De los resultados descriptivos, se observa que el gasto promedio de un hogar es de


$25.460, con una desviación típica de $3.086. Se puede inferir que el 50% de la población
gasta entre $23.490 y $27.675. Para estudiar la distribución del gasto en calefacción se ha
graficado el histograma correspondiente:

Distribución del Gasto en Calefacción

8
8
7
6
6
5
Frequency

4
3
3
2
2
1
1
0
0

16750 19250 21750 24250 26750 29250 31750 34250


calefacción

En este histograma se puede observar que la distribución es unimodal, con una moda
estimada en $25.500 con una asimetría negativa.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 218
Para un mejor análisis se ha considerado presentar un resumen con las principales
estadísticas obtenidas.

Descriptive Statistics
Variable: calefacción

Anderson-Darling Normality Test


A-Squared: 0,176
P-Value: 0,912

Mean 25460,0
StDev 3086,3
Variance 9525217
Skewness -3,3E-01
Kurtosis 0,396999
N 25
18000 22000 26000 30000
Minimum 18010,0
1st Quartile 23490,0
Median 25420,0
3rd Quartile 27675,0
95% Confidence Interval for Mu Maximum 31560,0
95% Confidence Interval for Mu
24186,0 26734,0
24000 25000 26000 27000 95% Confidence Interval for Sigma
2409,9 4293,5
95% Confidence Interval for Median
95% Confidence Interval for Median
23970,0 26680,8

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 219
A los resultados antes expuestos, se puede agregar que los gastos en calefacción
distribuyen normal según la prueba de Anderson, por otra parte se pueden observar
gráficamente los límites de confianza para la media y mediana, y en el lado derecho se
proporciona un intervalo para la desviación típica. En este análisis se ha dado un 95% de
confianza para cada intervalo.

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 220
ANEXO C

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 221
JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 222
FORMULARIO DE DISTRIBUCIONES DISCRETAS

DISTRIBUCIONES GENERADORA
FUNCION DE CUANTÍA PARÁMETROS ESPERANZA VARIANZA
DISCRETAS DE MOMENTOS

UNIFORME
P[ X = x] =
1
; x = 1,2,3,...,n
n +1 n2 −1
( )
et 1− et ⋅n

n(1− et )
n
DISCRETA n 2 12

BERNOULLI P[ X = x] = px ⋅ q1− x ; x = 0,1 p p p⋅q q+p⋅e


t
B(1;p)
 n
P[ X = x] =   px ⋅ qn− x ; x = 0,1,2,...,n ( q + p⋅et )
n
BINOMIAL n;p n⋅p n⋅p⋅ q
B(n;p) x
POISSON e-l × l x ( )
P[ X = x] = ; x = 0,1,2,....... l l l l× e t -1
P( l ) x!
e
1 q  pet 
GEOMÉTRICA
P[ X = x] = p ⋅ q x− 1 ; x = 1,2,.... p  t 
G(p) p p2  1 − qe 
 Np   N − Np 
 ⋅ 
x   n−x  N−n
HIPERGEOMÉTRICA P[ X = x] =  ; x = 1,2,...n N;n;p n⋅p npq  
H[N;n;p] N  N −1
 
n
 x − 1 k x −k k×q
k
k  pe t 
P[ X = x] = 
BINOMIAL NEGATIVA
 p ⋅ q ; x = 1, 2,..., k ;p  t 
 k − 1
BN[k;p] p2
p  1 − qe 

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 222
FORMULARIO DE DISTRIBUCIONES CONTINUAS
DISTRIBUCIO- PARÁ- GENERADORA DE
FUNCION DE DENSIDAD ESPERANZA VARIANZA
NES METROS MOMENTOS
UNIFORME a +b ( b − a )2 eb⋅ t − ea⋅ t
fX ( x ) =
1
CONTINUA ; a ≤ x ≤ b a;b
U[a;b] b-a 2 12 t ⋅( b − a )
α
fX ( x ) = α e
−α x 1 1
EXPONENCIAL
Exp[ α ] ;x ≥0 α ; t<α
α α2 α−t
α p p−1 p p
fX ( x ) =
p
 α 
GAMMA
x .e −α⋅ x
; x ≥ 0 p; α   ; t<α
B(n;p) Γ(p) α α2 α−t 

 1  x − µ 2   1 
NORMAL
fX ( x ) =
1
⋅ expe − ⋅  µ;σ µ expe µ ⋅ t + ⋅σ2 ⋅ t 2 
N ( µ; σ2 )  ;− ∞ < x < +∞ σ
2 2
 2 
σ 2π  2  σ  
x n
fX ( x ) =
CHI- 1 − −1
CUADRADO e 2
⋅x 2
; x ≥ 0 1
; 1 ≤ n ∈ ¥,t <
1
n
1
n n 2n n
2
χ2n 2 Γ 
2 (1 − 2 ⋅ t ) 2

2
 n +1
Γ 
ft ( x ) =  2  ⋅
1
; − ∞ < x < +∞
n n +1 0 ; n>1 n ;n>2
t DE STUDENT n
Γ ⋅ n ⋅π  x  2 2
n-2
2 1 + 
 n 

 
m+n  
Γ
fX ( x ) =
m
 m

−1
 n ; n>2
F de FISHER  2  ⋅ m 2 x2 2n2 ( m+ n− 2 )
  ⋅  ;0 < x < + ∞ m;n n−2 ;n>4
m n n m+ n
m( n− 2 )( n− 4 )
Γ ⋅ Γ     m  2 
 2  2  1 + ⋅ x  
 n  

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 223
F de Fisher

2
F[1;n]= t n χ2n
F[1;∞]=Z
2
F[n; ∞ ]=
n

t de Student Normal Chi cuadrado

t ∞ =Z χ21 =Z2

JJJU
UL
U LIIIO
L OH
O HE
HEER
RN
R NA
N AN
ANND
DE
D EZ
E ZV
Z VA
V AL
ALLE
EN
E NZ
NZZU
UE
U EL
E LA
L A --- G
A GA
G AB
ABBR
RIIIE
R EL
E LSSSO
L OT
O TO
T OM
O ME
M ED
E DE
DEEL
L
L 224

También podría gustarte