Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VICERECTORADO DE INVESTIGACIÓN
FACULTAD DE CIENCIAS ECONÓMICAS
TEXTO DE ESTADÍSTICA
COMPUTACIONAL CON R, EXCEL,
MINITAB Y SPSS
AUTOR:
01-12-08 al 30-11-10
CALLAO – PERÚ
2010
ÍNDICE
Pág.
INDICE 2
INTRODUCCIÓN 10
Capítulo 1. CONSTRUCCIÓN DE UNA BASE DE DATOS 11
1.1 Introducción 11
1.2 Definición de variables 13
1.3 Introducción de datos 27
1.4 Archivo de datos 30
1.5 Transformación de datos 39
1.6 Recodificación de datos 43
1.7 Manipulación de archivos 49
2.1 Introducción 50
2.2 Cuadros estadísticos 50
2.3 Distribución de frecuencias 72
2.4 Gráficos estadísticos 87
2.5 Gráficos de variables cualitativas 89
2.6 Gráficos de frecuencias 98
2.7 Diagrama de tallos y hojas 112
2
4.2 Rango. Rango intercuartílico 156
4.3 Desviación media 158
4.4 La varianza 160
4.5 La desviación típica 166
4.6 El coeficiente de variación 167
4.7 El diagrama de cajas o boxplot 174
4.8 Medidas de forma de la distribución 182
Anexo 304
3
ÍNDICE DE CUADROS Y FIGURAS
CUADROS Pág.
1.1 Tabla de la masa corporal ideal 39
2.1 PBI por rama de la actividad económica, según año: 2000-07 55
2.2 Alumnos de estadística básica 09-A de la FCE-UNAC, por sexo, según hobby 58
2.3 Alumnos de estadística básica 09-A de la FCE-UNAC, por sexo, según
especialización y hobby 63
2.4 Alumnos de estadística básica 2009-A, de la FCE-UNAC, según hobby 73
2.5 Alumnos de estadística básica 2009-A, de la FCE-UNAC, según el número de
miembros en la familia 75
2.6 Pesos (Kg.) de los 60 alumnos de estadística básica 09-A UNAC 78
2.7 Distribución de frecuencias de los pesos de los alumnos de estadística básica
09-A FCE-UNAC 80
3.1 Resumen de los cuantiles calculados para los pesos (Kg.) de los alumnos de
estadística básica 09-A, FCE-UNAC, por la forma en que están los datos 150
3.2 Resumen de los percentiles calculados para los pesos (Kg.) de los alumnos de
estadística básica 09-A, de la FCE-UNAC, por programa usado 154
4.1 Resumen de las medidas de dispersión calculadas para los pesos (Kg.) de los
alumnos de estadística básica 09-A, de la FCE-UNAC, por programa usado 174
FIGURAS
1.1 Variables definidas en Excel 15
1.2 Variables definidas en Minitab 16
1.3 Editor de datos en SPSS 16
1.4 Definición del Tipo de variable 18
1.5 Cuadro de diálogo para definir Etiquetas de Valor 20
1.6 Cuadro de diálogo para Definir Valores Perdidos 21
1.7 Vista de Variables definidas en SPSS 23
1.8 Variables definidas en SPSS 24
1.9 Abriendo base de datos en R desde un block de notas 26
1.10 Base de datos en Excel 28
1.11 Base de Datos en MINITAB 28
1.12 Base de datos en SPSS 29
FIGURAS Pág.
4
1.13 Base de datos en R 29
1.14 Ventana de archivamiento en Excel 30
1.15 Cuadro de diálogo para Guardar como, en Excel 31
1.16 Ventana de File (archivo), en Minitab 32
1.17 Cuadro de diálogo para Save Project As, en Minitab 33
1.18 Cuadro de diálogo para Guardar como, en SPSS 34
1.19 Cuadro de diálogo para Guardar área de trabajo, en R 35
1.20 Cálculo del imc en Excel 40
1.21 Cálculo de la talla_m en Minitab 41
1.22 Cálculo de la variable talla_m en SPSS 42
1.23 Tipos de recodificación en Minitab 43
1.24 Obtención de la Condición, recodificando el IMC en Minitab 44
1.25 Resultado de la Condición recodificando el IMC en Minitab 45
1.26 Obtención de la Condición, recodificando el IMC en SPSS 46
1.27 Recodificar Valores antiguos del IMC y nuevos de Condición en SPSS 47
1.28 Resultado de la Condición recodificando el IMC en SPSS 47
1.29 Resultado de la Condición recodificando el IMC en R 48
2.1 Estructura de un cuadro estadístico 51
2.2 Obtención de un cuadro bidimensional con SPSS 56
2.3 Mostrar en las casillas 57
2.4 Obtención de un cuadro bidimensional con Minitab 60
2.5 Escoger qué mostrar en las casillas con el Minitab 61
2.6 Cuadro tridimensional en SPSS 64
2.7 Creando tabla dinámica en Excel 65
2.8 Tabla dinámica para Sexo y Hobby en Excel 66
2.9 Tabla dinámica para Sexo y Hobby con porcentajes en Excel 67
2.10 Tabla dinámica para Sexo, Especialización y Hobby en Excel 67
2.11 Obtención de tablas de frecuencias en SPSS 73
2.12 Obtención de tabla de frecuencias en Excel 79
2.13 Argumentos de la función Frecuencia 80
2.14 Recodificación de la variable peso en Minitab 81
2.15 Variable peso recodificada en pesos (intervalos) con Minitab 82
2.16 Obtención de tabla de frecuencias en Minitab (variable pesos) 83
FIGURAS Pág.
5
2.17 Recodificando la variable peso en SPSS 83
2.18 Recodificar Valores antiguos del peso y nuevos de pesos en SPSS 84
2.19 Resultado de la variable pesos, recodificando el peso en SPSS 85
2.20 Resultado de la variable pesos, recodificando el peso en R 86
2.21 Gráfico de sectores en Excel 90
2.22 Gráfico de sectores en SPSS 91
2.23 Gráfico de sectores en Minitab 91
2.24 Gráfico de sectores en R 92
2.25 Gráfico de barras de la variable hobby en Minitab 94
2.26 Datos de la variable hobby y clase en Excel 95
2.27 Herramientas del Análisis de datos en Excel 95
2.28 Obteniendo gráfico de Pareto en Excel 95
2.29 Gráfico de Pareto de la variable hobby en Excel 96
2.30 Gráfico de Pareto de la variable hobby en Minitab 97
2.31 Gráfico de barras de los miembros de la familia en Excel 98
2.32 Gráfico de barras de los miembros de la familia en SPSS 99
2.33 Gráfico de barras de los miembros de la familia en Minitab 100
2.34 Obteniendo el Histograma de peso en Excel 101
2.35 Histograma de frecuencia del peso en Excel 102
2.36 Obteniendo el histograma de peso en Minitab 103
2.37 Edición (en Binning) del histograma de peso en Minitab 104
2.38 Histograma de frecuencia del peso en Minitab 104
2.39 Histograma de frecuencia del peso en SPSS 105
2.40 Histograma de frecuencia del peso en R 106
2.41 Edición del histograma de densidad de peso en Minitab 108
2.42 Histograma de densidad de peso en Minitab 108
2.43 Datos para el Polígono de frecuencias y Ojiva del peso en Minitab 109
2.44 Scatterplot para el Polígono de frecuencias del peso en Minitab 110
2.45 Polígono de frecuencias del peso en Minitab 110
2.46 Scatterplot para la Ojiva del peso en Minitab 111
2.47 Ojiva del peso en Minitab 112
3.1 Cálculo de la media para datos agrupados en Excel 117
3.2 Cálculo de la media aritmética (PROMEDIO) en Excel 129
FIGURAS Pág.
6
3.3 Resultados de la media aritmética, mediana y moda en Excel 129
3.4 Selección de la variable peso para calcular estadígrafos en Minitab 130
3.5 Selección de estadígrafos de posición a calcular en Minitab 130
3.6 Cálculo de estadígrafos de Tendencia central en SPSS 131
3.7 Cálculo de cuartiles en Excel 151
3.8 Resultado de cuartiles y percentiles en Excel 152
3.9 Cálculo de cuartiles y percentiles en SPSS 153
4.1 Medidas de dispersión obtenidas con Excel 169
4.2 Selección de estadígrafos de dispersión en Minitab 170
4.3 Cálculo de estadígrafos de dispersión en SPSS 171
4.4 Estructura del diagrama de cajas y bigotes (boxplot) 175
4.5 Ventana de diálogo para definir el boxplot de peso en Minitab 176
4.6 Diagrama de cajas y bigotes de la variable peso en Minitab 176
4.7 Efectuando Gráfico Múltiple de Boxplot para peso, por sexo 177
4.8 Boxplot del peso para hombres y mujeres en Minitab 178
4.9 Ventana de diálogo Explorar para definir el boxplot de peso en SPSS 179
4.10 Diagrama de cajas y bigotes de la variable peso en SPSS 179
4.11 Boxplot del peso para hombres y mujeres en SPSS 180
4.12 Diagrama de cajas y bigotes de la variable peso en R 181
4.13 Boxplot del peso para hombres y mujeres en R 182
4.14 Cálculo de la asimetría y curtosis en Excel 187
5.1 Definiendo el diagrama de dispersión en Excel 192
5.2 Diagrama de dispersión de la cantidad y precio en Excel 192
5.3 Definiendo el diagrama de dispersión en Minitab 193
5.4 Diagrama de dispersión de la cantidad y precio en Minitab 193
5.5 Creando el diagrama de dispersión en SPSS 194
5.6 Diagrama de dispersión de la cantidad y precio en SPSS 195
5.7 Diagrama de dispersión de la cantidad y precio en R 196
5.8 Aplicando Regresión en Excel 204
5.9 Resultado de la Regresión de cantidad y precio de muñecas en Excel 205
5.10 Aplicando Regresión en Minitab 205
5.11 Aplicando Regresión en SPSS 207
6.1 Cálculo de probabilidades para la distribución binomial en Excel 214
FIGURAS Pág.
7
6.2 Solución del Ejemplo 6.2 en Excel 215
6.3 Probabilidad con la distribución binomial en Minitab 216
6.4 Probabilidad acumulada con la distribución binomial en Minitab 217
6.5 Probabilidad para varios valores con distribución binomial en Minitab 218
6.6 Cálculo de probabilidades con la distribución binomial en SPSS 220
6.7 Probabilidades acumuladas con la distribución binomial en SPSS 221
6.8 Cálculo de probabilidades para la distribución Poisson en Excel 227
6.9 Solución del Ejemplo 6.3 en Excel 228
6.10 Probabilidad con la distribución Poisson en Minitab 229
6.11 Probabilidad para varios valores con distribución Poisson en Minitab 230
6.12 Cálculo de probabilidades con la distribución Poisson en SPSS 231
6.13 Probabilidades acumuladas con la distribución Poisson en SPSS 232
6.14 Distribución de probabilidades Poisson del ejemplo 6.3 en SPSS 233
6.15 Cálculo de distribución hipergeométrica en Excel 238
6.16 Solución del Ejemplo 6.4 en Excel 239
6.17 Probabilidad con la distribución hipergeométrica en Minitab 240
6.18 Probabilidades con distribución hipergeométrica en Minitab 241
6.19 Cálculo de probabilidades con la distrib. hipergeométrica en SPSS 242
6.20 Probabilidades acumuladas con la distrib. hipergeométrica en SPSS 243
6.21 Distrib. de probabilidades hipergeométrica del ejemplo 6.4 en SPSS 243
6.22 Solución del Ejemplo 6.5 en Excel 248
6.23 Probabilidad con la distribución geométrica en Minitab 249
6.24 Probabilidades con distribución geométrica en Minitab 251
6.25 Cálculo de probabilidades con la distribución geométrica en SPSS 252
6.26 Probabilidades acumuladas con la distribución geométrica en SPSS 253
6.27 Distrib. de probabilidades geométrica del ejemplo 6.5 en SPSS 254
7.1 Probabilidad con la distribución uniforme en Minitab 261
7.2 Graficando probabilidades acumuladas para la uniforme en Minitab 263
7.3 Definiendo el área a sombrear para probabilidades acumuladas con la distri-
bución uniforme en Minitab 263
7.4 Cálculo y gráfico de P(22 ≤ X ≤ 24) con la dist. uniforme en Minitab 264
7.5 Gráfico del inverso de probab. acum. Con la dist. uniforme en Minitab 265
7.6 Cálculo de las densidades f(x) con la distribución uniforme en SPSS 266
FIGURAS Pág.
8
7.7 Probabilidades acumuladas con la distribución uniforme en SPSS 267
7.8 Densidades y probab. acumuladas con la distrib. uniforme en SPSS 267
7.9 Cálculo de probabilidades acumuladas con exponencial en Excel 271
7.10 Probabilidad acumulada con la distribución exponencial en Minitab 272
7.11 Graficando probabilidades acum. para la exponencial en Minitab 274
7.12 Cálculo de probab. acum. con la distribución exponencial en SPSS 276
7.13 Probabilidades acumuladas con la distrib. exponencial en SPSS 276
7.14 Cálculo de probabilidades acumuladas con la normal en Excel 281
7.15 Probabilidad acumulada con la distribución normal en Minitab 283
7.16 Graficando probabilidades acumuladas con la normal en Minitab 284
7.17 Cálculo de probab. acumuladas con la distribución normal en SPSS 286
7.18 Probabilidades acumuladas con la distribución normal en SPSS 287
7.19 Cálculo de probabilidades acumuladas con la chi-cuadrado en Excel 291
7.20 Gráfico de P(14.6 ≤ X ≤ 37.7) con la chi-cuadrado en Minitab 292
7.21 Cálculo de probab. acumuladas con la chi-cuadrado en SPSS 294
7.22 Cálculo de probabilidades acumuladas con la t en Excel 298
7.23 Gráfico de P(-1.316 ≤ X ≤ 2.060) con la t en Minitab 300
7.24 Cálculo de probab. acumuladas con la t en SPSS 301
9
INTRODUCCIÓN
10
Capítulo 1. CONSTRUCCIÓN DE UNA BASE DE DATOS
“El hombre más feliz del mundo es aquel que sepa reconocer los méritos
de los demás y pueda alegrarse del bien ajeno como si fuera propio”
Johann Wolfgang von Goethe
CONTENIDO
1.1 Introducción.
1.2 Definición de variables.
1.3 Introducción de datos.
1.4 Archivo de datos.
1.5 Transformación de datos.
1.6 Recodificación de datos.
1.7 Manipulación de archivos.
1.1 INTRODUCCIÓN
Una Base de Datos es un arreglo matricial cuyas columnas contienen los Campos (las
variables o preguntas del estudio) y las filas los Registros de datos (casos para el
SPSS correspondientes a cada unidad de investigación estudiada.
11
UNIVERSIDAD NACIONAL DEL CALLAO
FACULTAD DE CIENCIAS ECONÓMICAS
Asignatura: Estadística Básica
Profesor : Ingº Juan Francisco Bazán Baca
3. Peso (Kg.) …....... 4. Talla (cm.) …....... 5. Ingreso familiar mensual: S/.
……….
13. Horas de estudio semanal fuera de clase: ……… 14. Nº de libros leídos el 2008: …..
12
1.2 DEFINICIÓN DE VARIABLES
Variable cuantitativa discreta.- son aquellas que son el resultado del conteo y
asumen valores enteros. Ejemplo: edad (años cumplidos), número de libros leídos
el año anterior, número de perceptores de ingreso en el hogar, etc.
13
Para definir las Variables en una BD, se tiene que indicar en cada campo (columna) las
preguntas consideradas en el Cuestionario del estudio de manera abreviada.
a) En EXCEL
sexo (pregunta 1)
edad (pregunta 2)
peso (pregunta 3)
talla (pregunta 4)
14
col.proc (pregunta 18: Colegio de procedencia) y
b) En MINITAB
Al iniciar el programa Minitab 15, aparecen dos hojas: una de Session (Sesión: donde
se muestran los resultados de tareas resueltas con el programa) y otra Worksheet
(Hoja de Trabajo: similar a la de Excel y SPSS donde se definen las variables y se
ingresa los datos). Las columnas aparecen definidas por la letra C y un dígito (que
indica la columna. Debajo de C1 hemos definido el nº_cuest (número de cuestionario),
debajo de C2 sexo y así sucesivamente hasta C20 especial (ver figura 1.2)
15
Figura 1.2 Variables definidas en Minitab
c) En SPSS
Al abrir el programa SPSS 15, aparecen dos hojas: una de Resultados 1 [Dokument
1] – Visor SPSS (donde aparecen los resultados de las tareas efectuadas con SPSS) y
otra Sin título [Conjunto_de_datos0] – Editor de datos SPSS (donde se definen las
variables y se ingresan los datos del estudio) donde vamos a definir la base de datos.
16
En la parte inferior del Editor de datos SPSS (ver figura 1.3) se observan dos vistas:
una Vista de datos (donde se ingresan los datos para cada una de las variables en
estudio) y otra Vista de variables (donde se definen las variables en estudio).
Justamente la fig. 1.3 muestra la Vista de variables, en cada fila se van definiendo las
variables en el mismo orden como aparecen en el cuestionario (o como el investigador
quiera definirlas para cálculos estadísticos particulares).
Nombre
El nombre de la variable debe comenzar con una letra del alfabeto español y luego
utilizar las combinaciones de letras, dígitos o símbolos que se estimen necesarias
de modo que con a lo más 64 caracteres juntos (sin espacio en blanco) resuman el
significado de la variable o toda una pregunta del cuestionario.
Debe comenzar por una letra y los demás caracteres pueden ser letras, dígitos,
puntos o los símbolos #, @, _ o $.
17
Tipo
Seleccionar el tipo de datos que se espera para la variable. En función del tipo
escogido se visualizan los valores de la variable y éstos estarán disponibles sólo
para aquellas operaciones que son esperables para los mismos.
Para definir, ubíquese en la casilla de Tipo, pulse el botón con los puntos
suspensivos después de la palabra Numérico y aparece el cuadro de diálogo
mostrado en la Figura 1.4, en el que se observa los tipos de variables siguientes:
Numérico.- define una variable cuyos valores son números, los mismos que
aparecen sin separadores cada tres posiciones.
Coma.- define una variable numérica cuyos valores se muestran con comas de
separación cada tres posiciones y con un punto como separador de la parte
decimal.
Punto.- define una variable numérica cuyos valores se muestran con puntos de
separación cada tres posiciones y con una coma como separador de la parte
decimal. El editor de datos acepta valores numéricos para este tipo de variables,
con o sin puntos, o en notación científica.
18
opcional, o por el signo solamente. Por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2,
o incluso 1,23+2.
Fecha.- define una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de fecha-calendario u hora-reloj. Seleccionar una plantilla de
la lista desplegable. Se puede introducir las fechas utilizando como
delimitadores: barras, guiones, puntos, comas o espacios en blanco. El rango de
siglo para los años de dos dígitos se toma de las opciones de configuración
(Menú Edición, Opciones, pestaña Datos)
Dólar.- define una variable numérica cuyos valores contienen un signo de dólar,
una coma para la separación de los decimales y múltiples puntos.
Cadena.- define una variable cuyos valores no son numéricos; por lo tanto, no se
utilizan en los cálculos. También son conocidas como variables alfanuméricas.
Pueden contener diferentes caracteres hasta la longitud definida. Las letras
mayúsculas y las minúsculas son consideradas diferentes.
Anchura
Establecer el número máximo de caracteres que contienen los valores de la
variable. Automáticamente aparecen 8 caracteres.
Decimales
Determina el número de decimales para los valores de la variable. Si la variable es
tipo fecha o cadena, automáticamente aparecen 0 decimales y si es tipo numérica,
aparecen por defecto, 2 decimales.
Etiqueta
En este recuadro se indica el nombre completo de la variable o la pregunta
correspondiente formulada en el cuestionario hasta un máximo de 255 caracteres y
espacios en blanco. Se recomienda escribirla toda con mayúsculas, ya que esta
19
etiqueta es la que aparece en los cuadros de salida cuando se procesan algunos
resultados de interés y buscaremos de diferenciarlas de las etiquetas de valor.
Valores
En este recuadro por defecto, aparece Ninguno y sirve para asignar valores a los
resultados de variables de tipo cualitativo (Etiquetas de valor) o para definir los
rangos de variables cuantitativas transformadas con fines de procesamiento. Es
decir, que si una variable cualitativa responde a varias cualidades (categorías o
atributos) a cada una de ellas se le asigna un valor por lo general numérico,
pudiendo ser también alfabético.
Los valores los definimos así: estando ubicado en la casilla de Valores, pulsar el
botón con los puntos suspensivos después de la palabra Ninguno y aparece el
cuadro de diálogo mostrado en la Figura 1.5.
Para describir los valores de una variable de tipo cualitativo habrá que situar el
cursor en el recuadro Valor e introducir el número o letra correspondiente. A
continuación se pulsa el tabulador y el cursor se sitúa en el recuadro Etiqueta
donde se introduce la palabra o palabras que describen ese valor, luego pulsamos
Añadir; inmediatamente el cursos se ubica nuevamente en Valor y se repite el
proceso hasta que se define la etiqueta del último valor y se sale con Aceptar.
20
Se recomienda escribir las etiquetas de valor con mayúsculas y minúsculas (en el
ejemplo Hombre y Mujer) para que cuando se obtenga un cuadro con la variable
SEXO (con mayúsculas), se diferencie el nombre de la variable y sus categorías
componentes.
Perdidos
Son aquellos valores que no son considerados para realizar determinados cálculos
estadísticos. Existen dos tipos de valores perdidos:
Del usuario.- son aquellos que define el usuario por diferentes motivos, entre
los que podemos destacar aquellos que distorsionan los análisis estadísticos,
como por ejemplo cuando se han definido dos categorías de Sexo (1 = hombre
y 2 = mujer) pero por error de digitación se puede colocar cualquier otro valor.
Como se puede observar en la Figura 1.6, por defecto aparece No hay valores
perdidos; además existe la posibilidad que el usuario defina tres Valores
Perdidos Discretos o defina un Rango más un valor perdido discreto opcional
21
(un rango de valores perdidos definido por sus dos extremos junto con un solo
valor discreto individual). Se debe tener presente que sólo se pueden definir
rangos para variables de tipo numérico y que no se pueden definir valores
perdidos para variables de cadena larga (con más de 8 dígitos).
Columnas
Al igual que Anchura por defecto define un ancho de 8 para las Columnas de la
base de datos. De requerirse otro ancho, hay que definirlo ubicándose en la casilla
de Columnas y veremos que al extremo opuesto del 8 aparece un botón con un
triángulo hacia arriba para aumentar el ancho y otro triángulo hacia abajo para
disminuir dicho ancho de columna. También lo puede cambiar haciendo doble clic
en la correspondiente casilla de Columnas para la variable que esta definiendo y
digitar el ancho de columna deseado.
Alineación
Se tiene que escoger como van a estar alineados los valores en la base de datos,
por defecto aparece Derecha. Si quiere modificar la Alineación de valores para la
variable que esta definiendo, ubíquese en la correspondiente casilla de alineación
y haga clic en el botón que aparece al costado de Derecha e inmediatamente se
despliegan las tres posibles opciones de alineación Izquierda, Derecha y Centrado,
debiendo escoger la opción deseada haciendo clic sobre la palabra.
Medida
Indica el tipo de medición que le corresponde a la variable que estamos
definiendo, por defecto aparece Escala. Si quiere modificar la Medida para la
variable que esta definiendo, ubíquese en la correspondiente casilla de medida y
haga clic en el botón que aparece al costado de Escala e inmediatamente se
despliegan las tres posibles opciones de medida: Escala, Ordinal y Nominal,
debiendo escoger la opción deseada haciendo clic sobre la palabra.
Escala.- es utilizada para variables numéricas, como por ejemplo, las variables
edad, peso, talla, etc.
22
nominales pueden ser valores de cadena (alfanuméricos) o numéricos que
representen diferentes atributos (por ejemplo, 1 = Hombre, 2 = Mujer).
Recordar que estas son las variables definidas a partir del cuestionario de
“Características del alumno” de Estadística Básica, del 09A, de la FCE-UNAC.
23
Figura 1.8. Variables definidas en SPSS
d) En R
http://www.r-project.org/
En el margen izquierdo escoger la opción CRAN, luego un país cuya web facilite la
instalación, por ejemplo Australia (http://cran.ms.unimelb.edu.au/ ).
Una vez guardado el archivo, ejecutar la Instalación del programa la que al finalizar,
por defecto, deja en el escritorio para su ejecución el ícono:
Dando doble clic sobre el icono anterior, se inicia el programa R, el cursor por defecto
es el símbolo “ > ” indica que R esta listo para recibir y ejecutar un comando.
24
Según Paradis (2002) “R es un lenguaje orientado a objetos, …, lo cual significa que
los comandos escritos en el teclado son ejecutados directamente sin necesidad de
construir ejecutables. ….. La sintaxis de R es muy simple e intuitiva. Por ejemplo, una
regresión lineal se puede ejecutar con el comando lm(y~x). Para que una función sea
ejecutada en R debe estar siempre acompañada de paréntesis, inclusive en el caso que
no haya nada dentro de los mismos.”
Paradis, et.al., señala también que “Orientado a Objetos significa que las variables,
datos, funciones, resultados, etc., se guardan en la memoria activa del computador en
forma de objetos con un nombre específico. El usuario puede modificar o manipular
estos objetos con operadores (aritméticos, lógicos y comparativos) y funciones (que a
su vez son objetos)”.
Para tener una base de datos en una hoja de R, se tiene que hacer la lectura de la
misma por cualquiera de las siguientes maneras: desde un archivo con extensión *.txt,
desde un archivo de Excel con extensión csv, o mediante un copy/paste “clipboard”.
Caso 1.- Desde un archivo con extensión *.txt, como puede ser la base de datos
(Estadística básica 09-A.xls) trabajada en Excel y grabada con extensión *.txt o
copiar dicha base de datos de Excel, incluyendo los encabezados con el nombre de la
variable, a un block de notas y grabarla como Estadística básica 09-A.txt. Se procede
copiando en R la siguiente sintaxis:
> caso1=read.table(file.choose(),header=T)
Se esta pidiendo que cree el objeto caso1, como resultado de leer una tabla (read.table)
o base de datos. Al hacer enter, inmediatamente aparece la ventana de diálogo de la
Figura 1.9, solicitando la ruta correspondiente para escoger el archivo = file.choose()
con la base de datos (Estadística básica 09-A.txt) que se desea abrir. En la sintaxis,
header=T esta indicando que es verdadero (en inglés true = T) que la tabla a escoger
tiene encabezado (header) con el nombre de las variables (si no tiene encabezado,
header=F, de false = falso en inglés). Una vez escogida la base de datos, hacer clic en
Abrir y la base de datos queda almacenada en la hoja de R con la denominación del
objeto: caso1, el mismo que contiene 20 campos y 60 registros.
25
Figura 1.9 Abriendo base de datos en R desde un block de notas
Ha leído las variables de la base de datos de Estadística Básica 09A como un todo,
no reconoce a ninguna variable de manera independiente, para que ello ocurra
usamos el comando attach para unir las variables y reconozca a cada una de ellas
por el nombre que aparece en el encabezado. Escribir en R: > attach(caso1)
Si queremos editar los datos escribir: > fix(caso1)
También se puede leer la base de datos, en forma parecida a la anterior, sólo que
en vez de file.choose se debe colocar entre comillas la ruta que contiene el
archivo, así:
> caso1=read.table("D:/Beatriz/UNAC/Investigación/Proyecto 8 Estadística
computacional/Base de datos/ Estadística básica 09-A.txt ", header=T)
> attach(caso1)
26
Caso 2.- Desde un archivo en Excel con extensión csv, en la que se ha definido los 20
campos (incluyendo los encabezados con el nombre de la variable) y los 60 registros,
se ha grabado como libro de Excel y como tipo CSV (delimitado por comas). La base
de datos se denomina Estadística Básica 09A-copia.csv. Se procede copiando en R la
siguiente sintaxis: > caso2=read.table(file.choose(),header=T,sep=",")
También se puede leer la base de datos, en forma parecida a la anterior, sólo que
en vez de file.choose se debe colocar entre comillas la ruta que contiene el
archivo, así:
> caso2=read.csv("D:/Beatriz/UNAC/Investigación/Proyecto 8 Estadística
computacional/Base de datos/ Estadística Básica 09A-copia.csv ", header=T)
> attach(caso2)
27
En el registro 1, se colocan los datos del alumno que aparecen en el cuestionario
número 1, en el mismo orden que se ha respondido, es decir: sexo = 1(hombre),
edad = 20 años, peso = 68 kg., talla = 169 cm., ingreso familiar = 3900, miembros
en la familia = 5, etc. Y del mismo modo todos los cuestionarios.
28
Figura 1.12 Base de datos en SPSS
Para ver y corregir datos en R escribir: >fix(caso2). Al efectuar enter aparecen
los datos de la Figura 1.13. También con: > caso2 . Muestra los datos en la consola.
29
1.4 ARCHIVO DE DATOS
30
- Por último, hacer clic sobre el botón Guardar.
31
Figura 1.16 Ventana de File (archivo), en Minitab
32
Figura 1.17 Cuadro de diálogo para Save Project As, en Minitab
33
Figura 1.18 Cuadro de diálogo para Guardar como, en SPSS
34
Para Guardar en R:
- Hacer clic en el botón Archivo, se despliega una ventana en la que se puede
apreciar las opciones Interpretar código fuente R, Nuevo script, Abrir script,
etc.
- Hacer clic sobre la opción Guardar área de trabajo (imagen) y aparece el
cuadro de diálogo de la Figura 1.19.
35
El archivo guardado en R contiene la base de datos como un objeto (aquí se
llama caso2) y otros objetos que se definan, los que al Abrir con Cargar área
de trabajo, se pueden visualizar desde la ventana Misc / Listar objetos y se
puede seguir trabajando con todos ellos y crear nuevos objetos. Las
modificaciones efectuadas se vuelven a guardar del modo descrito. Si desea
saber el contenido de la base de datos guardada escriba: > str(caso2)
b) Cerrar.-
Una vez que se termina de trabajar con un archivo, se guarda y se procede a salir
de éste así:
- En Excel:
Elija el Botón de Office y luego la opción Cerrar. Cierra el libro y puede
seguir trabajando con el programa Excel.
x
Otra manera es utilizar el botón Cerrar ventana de la barra de menú (no
- En MINITAB:
Elija el botón File (Archivo) de la barra de menú y luego la opción Close
Worksheet (Cerrar hoja de trabajo). Cierra la hoja de trabajo y puede seguir
usando el programa Minitab.
x
Otra manera es utilizar el botón Cerrar de la barra de menú (no el de la
- En SPSS:
Elija el botón Archivo de la barra de menú y luego la opción Salir,
inmediatamente sale la pregunta ¿Desea guardar el contenido del Visor de
resultados en resultados 1 [Dokument 1]? Al escoger Sí, indique la carpeta
36
correspondiente y al terminar de guardar, sale automáticamente del
programa. Si escoge No, sale del programa.
x
Otra manera es utilizar el botón Cerrar de la barra de título, sale la misma
- En R:
Se recomienda previamente Guardar área de trabajo, luego elija el botón
Archivo de la barra de menú y luego la opción Salir, inmediatamente sale la
pregunta Guardar imagen de área de trabajo? Escoger No y sale del
programa.
x
Otra manera es utilizar el botón Cerrar de la barra de título, sale la misma
En MINITAB:
Si ha ingresado al programa, automáticamente tiene un Worksheet 1 (hoja de
trabajo 1) o si no, elija el botón File y luego la opción Nuevo. Otra manera es
utilizar la combinación de teclas: Ctrl + N.
En SPSS:
Si ha ingresado al programa, automáticamente tiene una hoja Sin título
[Conjunto_de_datos0] – Editor de datos SPSS (donde se definen las variables
y se ingresan los datos del estudio) donde vamos a definir la base de datos.
Si esta trabajando en SPSS, elija el botón File, luego la opción Nuevo y escoja
Datos, apareciendo una hoja Sin título 1 [Conjunto_de_datos1] – Editor de datos
SPSS.
37
En R:
Proceder conforme se ha indicado en el acápite 1.2 Definición de variables en R.
En MINITAB:
En SPSS:
Elija el botón File, luego la opción Abrir y escoja Datos. En el cuadro de
diálogo, seleccione la carpeta donde esta guardado el archivo, ubique el nombre
y tipo, luego haga clic en el botón Abrir.
En R:
Proceder conforme se ha indicado en el acápite 1.2 Definición de variables en R.
Nota.- en R también se puede definir una variable por separado como un objeto,
presentado como un vector, de tal manera que cada vez que se especifique el
programa reconoce sus valores. Por ejemplo, la variable peso de la base de datos
caso2, se ingresa así:
>peso=c(68,69, 63, 55, 57, 48, 50, …. , 67, 77, 53)
El programa R reconoce en el objeto peso, los pesos de los 60 alumnos.
38
1.5 TRANSFORMACIÓN DE DATOS
Muchas veces interesa crear nuevas variables a partir de una base de datos
determinada, para ello es necesario efectuar algunos cálculos utilizando las variables
de esa base de datos.
Por ejemplo, con la base de datos Estadística básica 09-A (EB-09A), en cualquiera
de los programas, se puede crear la variable IMC = Índice de Masa Corporal
(Kg./m2), con las variables peso (en kilos) y talla (en metros).
Para la Organización Mundial de la Salud (1995): “El IMC es una manera sencilla y
universalmente acordada para determinar si una persona tiene peso adecuado”. La
fórmula de cálculo propuesta por el estadístico belga L.A.J. Quetelet es:
peso
imc 2
talla
En la base de datos EB-09A el peso esta en Kg. y la talla está en cm. La talla debe
transformarse en una nueva variable, por ejemplo: talla_m = talla en metros, para
poder calcular la variable imc con los datos transformados de la siguiente manera:
En Excel:
Los resultados aparecen en la Figura 1.20, en la que aparece la base de datos EB-
09A con los datos de peso (columna D); talla en cm. (columna E); talla_m en
metros (columna U) obtenidos dividiendo cada dato de la columna E entre 100; imc
39
(columna V) calculado en la barra de formulas , estando en V2 =D2/(U^2)
y copiado en todas las celdas de la columna V; y condición (columna W) que en el
siguiente acápite se ve como se ha determinado.
En MINITAB:
Para transformar la talla en centímetros a metros (talla_m) se tiene que escoger de la
barra de menú la opción Calc, luego Calculator (calculadora) y aparece la ventana
de diálogo de la Figura 1.21. Definida en la hoja de cálculo la variable talla_m, en
Store result in variable (almacenar resultado en variable) escribir talla_m y en
Expression (expresión) escribir talla / 100, para terminar clic en OK y
automáticamente aparece el cálculo en la columna talla_m en la base de datos
Current data window (ver la Figura 1.21).
40
Figura 1.21 Cálculo de la talla_m en Minitab
En SPSS:
Para transformar la talla en centímetros, a metros (talla_m) se tiene que escoger de
la barra de menú la opción Transformar, Calcular variable y aparece la ventana
de diálogo Calcular variable de la Figura 1.22. En Variable de destino: escribir
talla_m. Haciendo clic en Tipo y etiqueta definir etiqueta (el nombre de la variable)
TALLA (m.) y el Tipo: numérica. En Expresión numérica: escribir talla / 100. Para
terminar el cálculo hacer clic en Aceptar y aparece la variable talla_m con sus
valores en la Vista de datos, del Editor de datos SPSS, ver la Figura 1.28.
41
Figura 1.22 Cálculo de la variable talla_m en SPSS
En R:
Para transformar la talla en centímetros, a metros (talla_m) se tiene que escribir:
> talla_m=talla/100
> talla_m
[1] 1.69 1.72 1.70 1.73 1.67 1.52 1.52 1.56 1.54 1.71 1.60 1.76 1.64 1.71 1.54
[16] 1.77 1.69 1.71 1.70 1.79 1.77 1.65 1.71 1.58 1.55 1.60 1.59 1.52 1.75 1.65
[31] 1.75 1.57 1.77 1.65 1.49 1.64 1.64 1.60 1.61 1.69 1.50 1.68 1.72 1.50 1.56
[46] 1.74 1.75 1.68 1.65 1.52 1.72 1.73 1.56 1.55 1.50 1.60 1.68 1.72 1.78 1.57
Para calcular el IMC escribir la fórmula así:
> imc=peso/talla_m^2
> imc
Los objetos talla_m e imc creados no se almacenan en la hoja de R, si queremos que
ello ocurra y guardarlos, debemos hacer transformaciones dentro de caso2, así:
> caso2=transform(caso2, talla_m=talla/100)
> caso2=transform(caso2, imc=peso/talla_m^2)
Para unir las nuevas variables en caso 2, escribir: > attach(caso2)
42
1.6 RECODIFICACIÓN DE DATOS
En el acápite anterior se han efectuado algunos cálculos con los datos, creando
nuevas variables y se esta interesado en recodificar los mismos. Por ejemplo, para
definir la Condición del peso del alumno con la variable IMC obtenida, usando la
propuesta del Cuadro 1, se procede de la siguiente manera:
En Excel:
Estando en W2, la condición (columna W) se calcula en la barra de fórmulas con la
43
Figura 1.24 Obtención de la Condición, recodificando el IMC en Minitab
En Code data from columns: (código de datos desde las columnas) seleccionar de
las variables a la izquierda imc o escribirla. En Store couded data in columns:
(almacenar datos codificados en la columna) seleccionar de las variables de la
izquierda condición o escribirla.
A continuación en Original values (valores originales) se va definiendo uno a uno
los intervalos definidos en el Cuadro 1.1, separándolos por dos puntos (:) y en New
los nuevos valores en texto.
Observar que el primer intervalo es para imc menor de 18.5, en Original values: se
coloca desde un valor muy bajo, que aquí se ha tomado el 0, por eso se escribe 0 :
18.49 (de ser necesario se agregan más nueves en los decimales, para estar más
cerca a 18.5) y en New: Delgado. El siguiente intervalo va de 18.5 hasta antes de 25,
en Original values: se escribe 18.5 : 24.99 y en New: Normal. Así sucesivamente,
para el último intervalo de 40 a más, en Original values: se escribe 40 : 100 (o un
valor más alto para que no queden datos sin recodificar) y en New: Obesidad
mórbida. Para finalizar la recodificación hacer clic en OK y en la base de datos
(Current data window) aparecen los datos de condición (ver Figura 1.25).
44
Figura 1.25 Resultado de la Condición recodificando el IMC en Minitab
En SPSS:
De la barra de menú escoger la opción Transformar, luego hacer clic sobre
Recodificar en distintas variables (si se escoge Recodificar en las mismas
variables, se pierden los valores originales ya que son reemplazados por los
recodificados). Aparece la ventana de diálogo Recodificar en distintas variables de
la Figura 1.26.
45
Figura 1.26 Obtención de la Condición, recodificando el IMC en SPSS
Observar que el primer intervalo es para imc menor de 18.5, en Valor antiguo, en
Rango, MENOR hasta valor se escribe 18.49 (de ser necesario se agregan más
nueves en los decimales, para estar más cerca a 18.5) y en Valor nuevo, en Valor
escribir 1, luego hacer clic en añadir. El siguiente intervalo va de 18.5 hasta antes de
25, en Valor antiguo, en Rango: se escribe 18.5 hasta 24.99 y en Valor nuevo
escribir 2, luego hacer clic en añadir. Así sucesivamente, para el último intervalo de
40 a más, en Valor antiguo, RANGO, valor hasta MAYOR se escribe 40 y en Valor
nuevo, en Valor escribir 5, luego clic en añadir.
46
Figura 1.27 Recodificar Valores antiguos del IMC y nuevos de Condición en SPSS
47
En R:
Antes de crear la Condición, debemos crear los intervalos del Cuadro 1.1, así:
> caso2=transform(caso2,condi=cut(imc,breaks=c(0,18.4999, 24.9999,29.9999,
39.9999,max(imc))))
> table(condi)
condi
(0,18.5] (18.5,25] (25,28.7] (28.7,30] (30,40]
4 49 7 0 0
En el resultado anterior, hay 4 alumnos con imc menor de 18.5 (delgados), 49
alumnos con imc entre 18.5 y 25 (normales) y 7 alumnos con imc entre 25 y 30 (con
sobrepeso); no hay alumnos obesos, ni con obesidad mórbida, por lo que vamos a
colocar las etiquetas correspondientes a Condición, de la siguiente manera:
> caso2=transform(caso2, Condición=factor(condi, labels=c("Delgado", "Normal",
"Sobrepeso")))
Luego escribimos: > attach(caso2) y después: > table(Condición)
Condición
Delgado Normal Sobrepeso
4 49 7
Con la sintaxis: > fix(caso2) obtenemos la hoja del R, donde aparecen las etiquetas
de Condición que se muestran en la Figura 1.29.
48
1.7 MANIPULACIÓN DE ARCHIVOS
Para los programas Excel, Minitab y SPSS el proceso de agregar o quitar variables
(en columnas) y registros o casos (en filas) es similar, simplemente hay que insertar
filas o columnas si es necesario o copiar las variables y/o casos. Así mismo, la
selección de variables para generar nuevos archivos se puede efectuar abriendo
nuevas hojas de datos para trabajar con ellas situaciones particulares.
Veamos la selección de variables en R y la obtención de casos.. Estando en caso2, la
forma más sencilla es escribir en R: >attach(caso2) y al hacer enter quedan
reconocidas todas las variable con el nombre del encabezado. Otra forma es, como
las variables aparecen dentro del objeto caso2 en columna: el n_cuest (columna 1),
sexo (columna 2), edad (col. 3), peso (col. 4), hasta col.proc (col. 19) y especial (col.
20). Cada una de las variables es trabajada como un objeto y se definen así:
> peso=caso2[,4]
Se pide crear el objeto peso y que lo obtenga de la columna 4, del objeto caso2 (la
base de datos trabajada). Dentro del corchete de caso2, la primera componente
indica fila (registro) y la segunda columna (variable). Al dejar vacía la primera
componente reconoce sólo los valores de la variable. Si se quiere visualizar el
contenido del objeto creado, escribimos peso y al hacer enter aparecen los pesos.
> peso
[1] 68.0 69.0 63.0 55.0 57.0 48.0 50.0 50.0 44.0 60.0 52.6 80.0 52.0 67.0 46.0
[16] 80.0 64.0 64.0 63.0 72.0 65.0 47.0 70.0 50.0 53.0 66.0 57.0 50.5 80.0 55.0
[31] 88.0 55.0 75.0 64.5 50.0 49.0 54.0 46.5 49.0 70.0 48.0 60.0 75.0 55.0 51.0
[46] 72.0 68.0 68.0 55.0 59.0 65.0 66.0 51.0 53.0 45.0 52.0 53.0 67.0 77.0 53.0
También se puede crear varios objetos a la vez separándolos con punto y coma, así:
> talla=caso2[,5] ; ing.fam=caso2[,6] ; mie.fam=caso2[,7]
Si desea visualizar los 20 datos del alumno 4 (registrados en la fila 4) escribir:
> reg.4=caso2[4,] enter y luego > reg.4 al hacer enter obtenemos:
nº_cuest sexo edad peso talla ing.fam mie.fam g.estud cr.aprob prom.acum
4 4 1 20 55 173 1200 5 60 42 12.4
t.viviend nº.dormit horas.tv hrs.estu lib.leídos hobby imp.estudio
4 1 3 3 4 4 4 4
imp.físico col.proc especial
4 4 2 2
49
Capítulo 2. PRESENTACIÓN DE DATOS
CONTENIDO
2.1 Introducción.
2.2 Cuadros estadísticos.
2.3 Distribución de frecuencias.
2.4 Gráficos estadísticos.
2.5 Gráficos de variables cualitativas.
2.6 Gráficos de frecuencias.
2.7 Diagrama de tallos y hojas.
2.1 INTRODUCCIÓN
Uno de los propósitos fundamentales de la estadística es la “reducción de datos”,
la misma que se puede efectuar mediante la presentación de datos de tres maneras:
cuadros o tablas estadísticas, gráficos y texto.
Se recomienda la aplicación de todas ellas; siendo primordial la construcción del
cuadro estadístico con los datos, para poder realizar la presentación gráfica y/o
textual que permita describir, establecer relaciones y/o explicar las variables en
estudio, contribuyendo así a la aplicación del método científico.
En este capítulo se desarrollan los temas relacionados a cuadros estadísticos,
tablas de frecuencias y algunas formas de presentación gráfica tanto para variables
cualitativas como cuantitativas.
50
manera concisa, reflejando la relación o comparación fácil entre las variables
en un estudio determinado.
b) Estructura.- las partes de un cuadro estadístico son: número, título,
encabezamiento, columna matriz, cuerpo y pie (notas, llamadas y fuente). La
ubicación de cada uno de ellos se puede apreciar en la Figura 2.1.
NÚMERO TÍTULO
COLUMNA ENCABEZAMIENTO
MATRIZ CUERPO
NOTAS
PIE LLAMADAS
FUENTE
51
- ¿Cuándo? Se realizó la observación de los datos (período al que se
refieren los datos)
- ¿Dónde? Se realizó la observación de los datos (lugar geográfico)
Ejemplo.-
¿Qué? Producto Bruto Interno.
¿Cómo? Por Años, Según Rama de la Actividad Económica.
¿Cuándo? Del 2000 al 2007.
¿Dónde? Perú.
Observación:
- Hay una reciprocidad entre el título y lo que aparece después de él, pues
el ¿cómo? del título permite ubicar las variables en el encabezamiento y
en la columna matriz; y viceversa, observando las variables en el
encabezamiento y en la columna matriz se puede poner el título.
- Cuando en el título del cuadro no se indica el lugar de observación,
significa que corresponde al país.
- La ubicación de variables en el encabezamiento y en la columna matriz
es indistinto, depende del criterio del investigador, pudiendo ser éstas de
cualquiera de los tipos definidos.
- Si los años observados son consecutivos, se recomienda colocar 2000-07
y si sólo son dos años, indicar 2000 y 2007.
52
- Escribir preferentemente en forma horizontal o en forma vertical letra por
letra de arriba hacia abajo.
- Según sea el caso, ordenar las columnas tomando en cuenta un
ordenamiento: natural, geográfico, importancia o alfabético.
- Si hay que indicar unidad de medida, colocarla con mayúsculas y
minúsculas encima del encabezamiento después del título o en su primera
línea (si todos los valores del cuerpo del cuadro van a representar lo
mismo) y/o en cada columna (si las unidades de medida son distintas).
Ejemplo.-
Para el Cuadro 2.1, antes indicado, el encabezamiento es:
Columna Matriz.- es la parte del cuadro que contiene las variables que
aparecen en el título después de la palabra “SEGÚN” y sus correspondientes
categorías o rangos, generando las filas del mismo.
Recomendaciones:
- Indicar en forma breve y precisa las variables a la altura del
encabezamiento (con mayúsculas) y debajo sus categorías o rangos al
lado del cuerpo del cuadro (con mayúscula y minúsculas).
- Escribir preferentemente en forma horizontal. Si hay más de una
variable, diferenciar las categorías con subrayado y/o negrita.
- Según sea el caso, ordenar las columnas tomando en cuenta un
ordenamiento: natural, geográfico, importancia o alfabético.
- Si hay que indicar unidad de medida, colocarla en la fila correspondiente.
- Cada cierto número de filas dejar espacio en blanco para no cansar al
lector.
53
- Usar algunos signos convencionales:
Resultado nulo o no existe el fenómeno (-).
Cifra aún no disponible (…).
Cantidad inferior a la mitad de la unidad adoptada: 0, 0.0, 0.00, etc.
Dato provisional (P).
Cifra estimada (E).
Cifra revisada (R).
Pie.- es la parte inferior del cuadro, donde se colocan las notas, llamadas y
la fuente de los datos. Es recomendable, no abusar en el uso de notas y
llamadas; así mismo ordenarlas alfabética y numéricamente.
Notas.- Son aclaraciones breves referidas a algún aspecto general del título
del cuadro o definición de alguna variable. Se efectúa colocando en el
margen izquierdo, de la primera línea del pie, la palabra Nota: detallando lo
que se desea aclarar.
54
Igualmente, si la información se ha obtenido de alguna página web y para
que el lector pueda recurrir a esa fuente, indicar los elementos centrales de
una referencia web (autor o entidad, año, título de la publicación, país,
fecha de consulta y la página web donde está disponible).
Si no se indica fuente, se asume que los datos son del autor (persona o
entidad) que los publica. En el caso de pertenecer a una entidad grande, se
indica el área de Elaboración (gerencia o dirección) para poder acudir
directamente a ellos de requerirse.
En caso de haber efectuado algunas modificaciones o reagrupamientos a la
información presentada por algún productor de información, se recomienda
indicar la Fuente y Elaboración.
Aspectos complementarios.-
Si el cuadro se extiende es recomendable hacerlo verticalmente y se debe
poner en la parte inferior derecha de la primera página la indicación
(Continúa …. . En la página siguiente se debe indicar el título del cuadro y
luego escribir a la izquierda …. Continuación), repetir el encabezamiento y
en la columna matriz continuar con las categorías o intervalos que siguen
hasta que se concluya el cuadro, en cuyo caso en la parte superior izquierda
se coloca …. Conclusión).
55
c) Tipos de cuadro.- según el número de variables que se presentan, los cuadros
pueden ser unidimensionales (se presenta una sola variable), bidimensionales
(se presentan dos variables) y multidimensionales (se presentan más de dos
variables).
d) Formas de obtención.-
Habiendo definido una base de datos, la forma más sencilla de obtener cuadros
estadísticos es con el SPSS, ya que tiene la ventaja de reconocer las etiquetas
(texto) para variables categóricas (codificadas numéricamente). Con los otros
programas también se obtiene cuadros, sólo que hay que efectuar previamente
recodificaciones de valores numéricos a texto.
Veamos la obtención de un cuadro bidimensional con las variables hobby (en
las filas) y sexo (en las columnas) con SPSS y luego con Minitab.
En SPSS:
De la barra de menú escoger Analizar → Estadísticos descriptivos → Tabla
de contingencia, aparece la ventana de diálogo de la Figura 2.2.
56
Entre las variables que aparecen al lado izquierdo, hacer clic sobre la variable
57
Queda a criterio del investigador escoger lo que desea: sólo frecuencias
observadas (número de casos), sólo alguno de los porcentajes, o cualquier
combinación de frecuencias observadas y/o porcentajes (incluyendo los cuatro
a la vez, sólo que para el análisis hay que tener mucho cuidado).
Escogido lo que va aparecer en las casillas, hacer clic en Continuar, regresa a
la Figura 2.2, para terminar el cuadro hacer clic en Aceptar.
Veamos algunos resultados:
Si para las casillas escogemos sólo frecuencias Observadas, el cuadro de
salida es el siguiente:
Recuento
SEXO
Hombre Mujer Total
HOBBY Deportes 14 1 15
Mus ica 14 13 27
Baile 1 3 4
TV / Cine 4 8 12
Otros 0 2 2
Total 33 27 60
SEXO
HOBBY
Hombre Mujer Total
Deportes 14 1 15
Música 14 13 27
Baile 1 3 4
TV / Cine 4 8 12
Otros 0 2 2
Total 33 27 60
58
Si para las casillas escogemos frecuencias Observadas y en porcentajes
hacemos clic en Fila, el cuadro de salida es el siguiente:
SEXO
Hombre Mujer Total
HOBBY Deportes Recuento 14 1 15
% de HOBBY 93.3% 6.7% 100.0%
Musica Recuento 14 13 27
% de HOBBY 51.9% 48.1% 100.0%
Baile Recuento 1 3 4
% de HOBBY 25.0% 75.0% 100.0%
TV / Cine Recuento 4 8 12
% de HOBBY 33.3% 66.7% 100.0%
Otros Recuento 0 2 2
% de HOBBY .0% 100.0% 100.0%
Total Recuento 33 27 60
% de HOBBY 55.0% 45.0% 100.0%
% de SEXO
SEXO
Hombre Mujer Total
HOBBY Deportes 42.4% 3.7% 25.0%
Mus ica 42.4% 48.1% 45.0%
Baile 3.0% 11.1% 6.7%
TV / Cine 12.1% 29.6% 20.0%
Otros 7.4% 3.3%
Total 100.0% 100.0% 100.0%
Sobre los mismos 60 alumnos, se puede apreciar que del total de hombres
(33 alumnos = 100.0%) el 42.4% gustan de los Deportes, otro 42.4%
Música, el 3.0% Baile y el 12.1% TV/Cine. Análisis similar se hace para
mujeres y para el total de alumnos.
59
Si para las casillas sólo se escoge en porcentajes Total, el cuadro de
salida es el siguiente:
% del total
SEXO
Hombre Mujer Total
HOBBY Deportes 23.3% 1.7% 25.0%
Mus ica 23.3% 21.7% 45.0%
Baile 1.7% 5.0% 6.7%
TV / Cine 6.7% 13.3% 20.0%
Otros 3.3% 3.3%
Total 55.0% 45.0% 100.0%
En Minitab:
De la barra de menú escoger Stat → Tables → Descriptive Statistics aparece
la ventana de diálogo de la Figura 2.4.
De las variables que aparecen al lado izquierdo, hacer clic sobre la variable
hobby que va ir en las filas (rows) e ingresarla en el recuadro en blanco al
60
costado de For rows: haciendo clic en el botón Select, luego hacer clic sobre
la variable sexo que va ir en las columnas (columns) e ingresarla al costado de
For columns: haciendo clic en el botón Select.
Si hacemos clic en el botón Categorical variables… se abre la ventana de
diálogo de la Figura 2.5, en la que se escoge que debe aparecer en las casillas,
de manera similar al SPSS.
Al igual que en el SPSS se tiene que escoger lo que se desea mostrar en las
casillas, escogido lo que va aparecer en las casillas, hacer clic en el botón OK,
regresa a la Figura 2.4, para terminar el cuadro hacer clic en OK.
Veamos algunos resultados:
Si para las casillas escogemos sólo frecuencias Count, el cuadro de salida
es el siguiente:
61
Tabulated statistics: hobby, sexo
1 2 All
1 14 1 15
2 14 13 27
3 1 3 4
4 4 8 12
5 0 2 2
All 33 27 60
Baile 1 3 4
Deportes 14 1 15
Música 14 13 27
Otros 0 2 2
TV/Cine 4 8 12
All 33 27 60
62
Tabulated statistics: hoby, sex
Baile 1 3 4
25.00 75.00 100.00
Deportes 14 1 15
93.33 6.67 100.00
Música 14 13 27
51.85 48.15 100.00
Otros 0 2 2
0.00 100.00 100.00
TV/Cine 4 8 12
33.33 66.67 100.00
All 33 27 60
En SPSS:
De la barra de menú escoger Analizar → Estadísticos descriptivos → Tabla
de contingencia, aparece la ventana de diálogo de la Figura 2.2.
Se ingresa la variable hobby en Filas, sexo en Columnas y especial en Capa
1 de 1. Si desea escoge Casillas para indicar que va aparecer en las mismas,
veamos sólo valores observados. La tabla es la que muestra la Figura 2.5.
La tabla se puede editar haciendo doble clic sobre ella en SPSS o copiarla en
Word y efectuar las modificaciones necesarias. El número y título son:
CUADRO 2.3 ALUMNOS DE ESTADÍSTICA BÁSICA, DE LA FCE-
UNAC, POR SEXO, SEGÚN ESPECIALIZACIÓN Y HOBBY: 09-A
63
Tabla de contingencia HOBBY * SEXO * ESPECIALIZACIÓN
Recuento
SEXO
ESPECIALIZACIÓN Hombre Mujer Total
Teoría Económica HOBBY Deportes 5 0 5
Musica 3 3 6
TV / Cine 0 2 2
Total 8 5 13
Gestión Empres arial HOBBY Deportes 9 1 10
Musica 11 10 21
Baile 1 3 4
TV / Cine 4 6 10
Otros 0 2 2
Total 25 22 47
En Minitab:
De la barra de menú escoger Stat → Tables → Descriptive Statistics aparece
la ventana de diálogo de la Figura 2.4.
Con las variables recodificadas previamente, se ingresa la variable hoby en
For rows, sexo en For columns y especialización en For layers. Si desea
escoge Categorical variables para indicar que va aparecer en las casillas,
veamos sólo Counts (conteos), OK, OK y los resultados son los siguientes:
Baile 1 3 4
Deportes 9 1 10
Música 11 10 21
Otros 0 2 2
TV/Cine 4 6 10
All 25 22 47
64
Hombre Mujer All
Baile 0 0 0
Deportes 5 0 5
Música 3 3 6
Otros 0 0 0
TV/Cine 0 2 2
All 8 5 13
65
A continuación, arrastrar la variable HOBBY, que aparece en el lado
derecho, sobre el mensaje Coloque campos de fila aquí; del mismo modo
arrastrar la variable SEXO sobre el mensaje Coloque campos de columna
aquí. Al volver a arrastrar la variable SEXO sobre el Cuerpo del cuadro en
el mensaje Coloque datos aquí, se obtiene la tabla dinámica requerida con el
resultado de los conteos visto en las tablas anteriores (ver Figura 2.8).
Para obtener porcentajes sobre las filas, las columnas o el total como en SPSS
y Minitab, se debe arrastrar nuevamente la variable de conteo (SEXO) en
el Cuerpo del cuadro, sobre el área de lo que fue el mensaje Coloque datos
aquí. En las filas aparece Cuenta de SEXO y Cuenta de SEXO2. Al hacer
doble clic sobre Cuenta de SEXO2, aparece la ventana de diálogo
Configuración de campo de valor, hacer clic en el botón Mostrar valores
como aparece Normal, hacer clic en la flecha de selección y se puede
escoger el porcentajes sobre las filas, las columnas o el total, al escoger el %
de la columna y Aceptar, aparece el cuadro de la Figura 2.9.
66
Figura 2.9 Tabla dinámica para Sexo y Hobby con porcentajes en Excel
67
Se reafirma nuevamente que el SPSS arroja una mejor presentación.
Para obtener tablas con el programa R, primero se definen las variables como
objetos. Tal como se plantea en el acápite 1.7 Manipulación de archivos, leída
la base de datos como caso2, al escribir >attach(caso2) y efectuar enter, se
identifican las variables con el nombre en el encabezado. También se pueden
crear las variables como objetos, separándolos con punto y coma, así:
> hobby=caso2[,16] ; sexo=caso2[,2] ; especialización=caso2[,20]
La tabla bidimensional con la variable hobby en las filas y sexo en las
columnas, se obtiene así:
> table(hobby,sexo)
sexo
hobby 1 2
1 14 1
2 14 13
3 1 3
4 4 8
5 0 2
Resultado idéntico al del Minitab, es necesario definir las etiquetas de hoby
y sexo.
La tabla tridimensional con la variable especial (especialización) y hobby en
las filas y sexo en las columnas, se obtiene así:
> table(hobby,sexo,especial)
, , especial = 1
sexo
hobby 1 2
1 5 0
2 3 3
3 0 0
4 0 2
5 0 0
68
, , especial = 2
sexo
hobby 1 2
1 9 1
2 11 10
3 1 3
4 4 6
5 0 2
Vamos a definir en R las etiquetas de las categorías correspondientes a las
variables sexo, hobby y especialización de la siguiente manera:
> caso2=transform(caso2, sexo=factor(sexo, labels=c("Hombres","Mujeres")))
> caso2=transform(caso2, hobby=factor(hobby, labels=c("Deporte","Música",
"Baile", "TV/Cine","Otro")))
> caso2=transform(caso2, especial=factor(especial, labels=c("Teoría Económica",
"Gestión Empresarial")))
Para que se reconozcan las nuevas variables con sus etiquetas escribir:
> attach(caso2)
Obtenemos las tablas anteriores de la siguiente manera:
> t1=table(hobby,sexo)
> t1
sexo
hobby Hombres Mujeres
Deporte 14 1
Música 14 13
Baile 1 3
TV/Cine 4 8
Otro 0 2
> prop.table(t1)
sexo
hobby Hombres Mujeres
Deporte 0.23333333 0.01666667
Música 0.23333333 0.21666667
69
Baile 0.01666667 0.05000000
TV/Cine 0.06666667 0.13333333
Otro 0.00000000 0.03333333
> t2
, , especial = Teoría Económica
sexo
hobby Hombres Mujeres
Deporte 5 0
Música 3 3
Baile 0 0
TV/Cine 0 2
Otro 0 0
sexo
hobby Hombres Mujeres
Deporte 9 1
Música 11 10
Baile 1 3
TV/Cine 4 6
Otro 0 2
> prop.table(t2)
sexo
hobby Hombres Mujeres
70
Deporte 0.08333333 0.00000000
Música 0.05000000 0.05000000
Baile 0.00000000 0.00000000
TV/Cine 0.00000000 0.03333333
Otro 0.00000000 0.00000000
sexo
hobby Hombres Mujeres
Deporte 0.15000000 0.01666667
Música 0.18333333 0.16666667
Baile 0.01666667 0.05000000
TV/Cine 0.06666667 0.10000000
Otro 0.00000000 0.03333333
Para conservar los valores originales en la base de datos caso2 y poner etiquetas,
se debe cambiar el nombre de la variable.
71
2.3 DISTRIBUCIÓN DE FRECUENCIAS
La información obtenida puede provenir de un censo o de una muestra. Los
resultados observados los podemos representar de la siguiente manera:
Las variables, con las últimas letras mayúsculas del alfabeto: X, Y, Z, etc. o
con algunas siglas que las abrevia el investigador o propias de algunas
disciplinas como en la economía: PBI (Producto Bruto Interno), M
(importaciones), etc.; en salud: IMC (Índice de Masa Corporal), etc.
Los subíndices, con las letras minúsculas: i, j, k, l, m, t, etc. representan
números enteros y sirven para diferenciar las unidades de análisis (U.A.) a
quienes corresponde el valor que toma la variable.
Con Xi representamos el valor de la variable X observado en laU.A. i-ésima.
Por ejemplo, si en la base de datos de los alumnos de Estadística Básica 09-A,
ver en el Anexo, X = Peso de los alumnos, entonces:
Xi = Peso del alumno i-ésimo de Estadística Básica 09-A; i = 1, 2, 3, …., 60.
X40 = 70 Kg., es el peso del alumno 40 o valor observado 40 de la variable.
Veamos las diferentes formas de presentación de datos.
72
Tal como se presenta en el acápite anterior, veamos la obtención de una tabla
de frecuencias por ejemplo, para la variable hobby en SPSS: Analizar →
Estadísticos descriptivos → Frecuencias. Inmediatamente se abre la ventana
de diálogo de la Figura 2.11.
De las variables al lado izquierdo escogemos hobby, haciendo doble clic o clic
% DE
HOBBY ALUMNOS ALUMNOS
Deportes 15 25.0
Musica 27 45.0
Baile 4 6.7
TV / Cine 12 20.0
Otros 2 3.3
Total 60 100.0
73
para que ingrese en Variables. En display, por defecto aparece Counts,
marcar también Percents, luego OK y aparecen los resultados del Cuadro 2.4.
74
La estructura general de este tipo de tablas es la que se muestra a continuación,
cuando se efectúan presentaciones reales de datos sólo se muestran algunos
elementos de esta estructura.
Donde: Ni = Ni - 1 + ni , hi = ni / n = Hi - Hi - 1 , Hi = Ni / n = Hi - 1 + hi
MIEMBROS EN % de Porcentaje
LA FAMILIA Alumnos Alumnos acumulado
2 2 3.3 3.3
3 5 8.3 11.7
4 11 18.3 30.0
5 27 45.0 75.0
6 8 13.3 88.3
7 5 8.3 96.7
8 1 1.7 98.3
9 1 1.7 100.0
Total 60 100.0
75
Tabla que trabajada en Excel, queda con las frecuencias indicadas a
continuación:
Proporción Porcentaje Nº acum. Prop. acum.
Miembros en la Alumnos alumnos alumnos alumnos alumnos
Familia (X i) (ni) (hi) (p i = 100 h i) (Ni) (Hi)
2 2 0.033 3.3% 2 0.033
3 5 0.083 8.3% 7 0.117
4 11 0.183 18.3% 18 0.300
5 27 0.450 45.0% 45 0.750
6 8 0.133 13.3% 53 0.883
7 5 0.083 8.3% 58 0.967
8 1 0.017 1.7% 59 0.983
9 1 0.017 1.7% 60 1.000
Total 60 1.000 100.0
76
> attach(caso2)
> table(mie.fam)
mie.fam
2 3 4 5 6 7 8 9
2 5 11 27 8 5 1 1
77
En la presentación de la distribución de frecuencias de la variable X, se indican
los intervalos de clase [LIi - LSi), las marcas de clase (Xi) acompañadas de las
siguientes frecuencias en las columnas:
Frecuencias absolutas o repeticiones = ni = Nº de unidades de análisis
(U.A.) en el intervalo i (resultado del conteo).
Frecuencia relativa = (hi) = Proporción de U.A. en el intervalo i.
pi = 100 hi = Porcentaje de U.A. en el intervalo i.
Frecuencia absoluta acumulada o repeticiones acumuladas = Ni = Número
acumulado de U.A. hasta el límite superior i (LSi).
Frecuencia relativa acumulada = Hi = la proporción acumulada de U.A.
hasta el límite superior i (LSi).
Pi = 100 Hi = porcentaje acumulado U.A. hasta el límite superior i (LSi).
Su estructura es:
Donde: N1 = n1, Ni = Ni - 1 + ni , hi = ni / n , H1 = h1 , Hi = Ni / n = Hi - 1 + hi
Vamos a obtener una tabla de frecuencias, con k = 5 intervalos, para los pesos
de los alumnos de Estadística Básica 2009-A, cuyos datos aparecen en el
Anexo y de manera ordenada se muestran en el Cuadro 2.6 siguiente:
CUADRO 2.6. PESOS (Kg.) DE LOS 60 ALUMNOS DE ESTADISTICA BÁSICA 09-A UNAC
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
78
Por interés particular, se desean construir k = 5 intervalos.
Los intervalos son de igual amplitud, donde C = R/k = 44 / 5 = 8.8 Kg.
Los intervalos son cerrados por la izquierda y abiertos por la derecha: [44 –
52.8), [52.8 – 61.6), [61.6 – 70.4), [70.4 - 79.2) y [79.2 – 88.0]. El Excel toma
los intervalos abiertos por la izquierda y cerrados por la derecha: (LI - LS].
Para obtener las frecuencias absolutas (ni) en Excel, es necesario sombrear las
celdas donde se deposita el resultado automático de los conteos, que en este
caso es en la columna G, de la celda G12 a la G16, tal como se muestra en la
79
los límites superiores de los intervalos, que están en las celdas de E12 hasta
E16).
80
N4 = 56, hay 56 alumnos que pesan menos de 79.2 Kg. cada uno.
H3 = 0.85, 85% de los alumnos pesan menos de 70.4Kg. cada uno.
Para obtener Tablas de frecuencias con el Minitab, el SPSS y el R, se tiene que
proceder con la recodificación de datos planteada en el acápite 1.6. Veamos:
En Minitab.-
De la barra de menú escoger la opción Data, luego Code (código) y Numeric
to text (numérico a texto) porque se desea recodificar valores numéricos en
texto (la denominación de los intervalos). Aparece la ventana de diálogo de la
Figura 2.14.
81
en New los nuevos valores en texto para representar los intervalos, tal como se
muestra en la Figura 2.14.
Para finalizar la recodificación hacer clic en OK y en la base de datos (Current
data window) aparecen los datos de pesos (ver Figura 2.15).
82
70.4 - 79.2 5 56 8.33 93.33
79.2 - 88.0 4 60 6.67 100.00
N= 60
En SPSS.-
De la barra de menú escoger la opción Transformar, luego hacer clic sobre
Recodificar en distintas variables. Aparece la ventana de diálogo Recodificar
en distintas variables de la Figura 2.17.
83
Escogiendo de la lista de variables que aparecen al lado izquierdo, en Var.
numérica → Var. de resultado: ingresar la variable peso, inmediatamente
aparece peso → ? En Variable de resultado, en Nombre: escribir pesos, en
Etiqueta: escribir PESO (Kg.) y luego hacer clic en el botón Cambiar (si no
hace esto, la recodificación no se realiza después), inmediatamente en Var.
numérica → Var. de resultado: se modifica por peso→ pesos.
Figura 2.18 Recodificar Valores antiguos del peso y nuevos de pesos en SPSS
84
Rango: se escribe 79.8 hasta 88.0 y en Valor nuevo, en Valor escribir 5, luego
clic en añadir.
Para finalizar la recodificación, al hacer clic en Continuar regresa a la ventana
de la Figura 2.17.
Luego hacer clic en Aceptar y aparece la variable pesos con sus valores del 1 al
5 en la Vista de datos del Editor de datos SPSS.
A continuación, en la Vista de variables, del Editor de datos SPSS, a la variable
pesos se le definen las Etiquetas de valor, en un cuadro de diálogo similar al
de la Figura 1.5. Para ello asignar los valores y etiquetas siguientes: 1, 44.0 –
52.8; 2, 52.8 – 61.6; 3, 61.6 – 70.4; 4, 70.4 – 79.2; y 5, 79.2 – 88.0.
Una vez que termina de añadir los valores y etiquetas hacer clic en Aceptar, en
la Vista de datos, del Editor de datos SPSS aparecen las etiquetas de condición
que se muestran en la Figura 2.14.
85
PESO (Kg.)
Porcentaje
PESO (Kg.) Frecuencia Porcentaje acumulado
44.0 - 52.8 19 31.7 31.7
52.8 - 61.6 15 25.0 56.7
61.6 - 70.4 17 28.3 85.0
70.4 - 79.2 5 8.3 93.3
79.2 - 88.0 4 6.7 100.0
Total 60 100.0
En R.-
Para crear los intervalos del Cuadro 2.7, estando en la base de datos caso 2, se
procede así:
> caso2=transform(caso2,pesos=cut(peso,breaks=c(43.99, 52.79, 61.59, 70.39,
79.19, 88.0)))
> attach(caso2)
Para visualizar la base de datos caso2 con los intervalos escribir:
> fix(caso2)
En el R Editor de datos aparece la variable pesos con los intervalos definidos,
tal como se muestra en la Figura 2.20.
86
Para obtener la tabla de frecuencias ejecutar:
> table(pesos)
pesos
(44,52.8] (52.8,61.6] (61.6,70.4] (70.4,79.2] (79.2,88]
19 15 17 5 4
Los resultados obtenidos son idénticos a los del Cuadro 2.7.
En esta parte vamos a desarrollar algunas formas de presentación gráfica básica, de tal
manera que permita descripciones importantes de las variables en estudio. En capítulos
posteriores se verá algunas otras formas gráficas propias de los tópicos tratados.
87
similar a la del cuadro a partir del que se construye, por ello ambos títulos
(del cuadro y del gráfico) son idénticos.
Ejemplo: Alumnos de Estadística básica 09-A, según su Hobby.
Cuerpo.- es la parte central del gráfico, representada por lo general en
forma rectangular (en una relación de 1.5 para el largo y como 1 para el
ancho) en la que con algunas representaciones geométricas, acompañadas de
datos y símbolos se busca establecer contrastes de las variables y sus
categorías a través de escalas apropiadas a las magnitudes en estudio.
Se recomienda colocar el título de los ejes, con el nombre de la variable o
sus categorías, indicando la unidad de medida si hubiera. Así mismo, se
debe buscar efectuar diferenciaciones entre los componentes del gráfico
bien mediante colores, tramas, sombreados, etc.
Leyenda.- son aclaraciones respecto a las partes componentes de un gráfico
expresadas a través de lo que representan ciertos colores, tramas, etc. y van
colocados por lo general al costado de gráfico con su indicación de lo que
representan.
Fuente.- al igual que los cuadros, es necesario indicar los elementos
esenciales que permitan identificar a los “dueños” de los gráficos e
información para cualquier consulta mediante una breve Ficha Bibliográfica
o Referencia Web, tal como se indica en la fuente de cuadros estadísticos.
En el caso de ser propio el gráfico, se recomienda indicar la Elaboración.
c) Tipos de gráficos.- al igual que los cuadros estadísticos, los gráficos pueden
ser unidimensionales, bidimensionales o pluridimensionales, según el número
de variables que se presenten.
88
2.5 GRÁFICOS DE VARIABLES CUALITATIVAS
Entre los principales gráficos de variables cualitativas tenemos los gráficos de sectores,
el gráfico de barras y el gráfico de Pareto.
Nº DE % DE GRADOS
HOBBY
ALUMNOS ALUMNOS SEXAGESIMALES
Deportes 15 25.0 90
Baile 4 6.7 24
TV/Cine 12 20.0 72
Otros 2 3.3 12
89
gusta la música 27 x 6 = 162º, a los 4 alumnos que les gusta el baile 4 x 6 = 24º, a
los 12 que les gusta TV/Cine 12 x 6 = 72º y a los 2 que les gusta Otros 2 x 6 = 12º.
En Excel:
En SPSS:
90
Gráfico 2.1 % DE ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN HOBBY
Deportes
Musica
Baile
3,3
% TV / Cine
Otros
20,0%
25,0%
6,7%
45,0%
En Minitab:
6.7%
20.0%
25.0% Category
Baile
3.3%
Deportes
Música
Otros
TV/Cine
45.0%
91
En R:
Como se puede apreciar, con sus propios matices, cada uno de los gráficos de
sectores es parecido, por lo que para los otros tipos de gráficos se explicará como
obtenerlos y presentaremos alguno de ellos.
92
En Excel:
En Minitab:
En SPSS:
En R:
93
Gráfico 2.2 ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN HOBBY
30
27
25
20
Alumnos
15
15
12
10
5 4
2
0
Baile Deportes Música Otros TV/Cine
HOBBY
En Excel:
Procede sólo si los valores de la variable son numéricos, por lo que utilizaremos
las etiquetas numéricas para hobby (1, 2, 3, 4 y 5). Consideremos que los datos
para los 60 alumnos están en la columna A, entre A2 y A61; y las clases de hobby
(1, 2, 3, 4 y 5) en la columna D, entre D3 y D7, ver Figura 2.26.
94
Figura 2.26 Datos de la variable hobby y clase en Excel
95
En la parte de Entrada, de la Figura 2.28, en Rango de entrada: sombrear el área
de los datos de hobby de la Figura 2.26 (desde A3 hasta A62); en Rango de
clases: sombrear el área de CLASE de la Figura 2.26 (desde D3 hasta D7) y se
marca Rótulos si se utilizaran para los dos rangos anteriores.
96
En Minitab:
En SPSS:
Gráfico 2.3 Gráfico de Pareto de los alumnos de Estadística Básica 09-A, según Hobby
60 100
50
80
40
Porcentaje
60
Alumnos
30
40
20
20
10
0 0
Hobby Música Deportes TV/Cine Baile Other
Count 27 15 12 4 2
Percent 45.0 25.0 20.0 6.7 3.3
Cum % 45.0 70.0 90.0 96.7 100.0
97
2.6 GRÁFICOS DE FRECUENCIAS
Entre los principales gráficos de variables cuantitativas tenemos los gráficos de barras,
histograma de frecuencias, polígono de frecuencia y la ojiva.
MIEMBROS EN % de Porcentaje
LA FAMILIA Alumnos Alumnos acumulado
2 2 3.3 3.3
3 5 8.3 11.7
4 11 18.3 30.0
5 27 45.0 75.0
6 8 13.3 88.3
7 5 8.3 96.7
8 1 1.7 98.3
9 1 1.7 100.0
Total 60 100.0
98
Gráfico 2.4 % DE ALUMNOS DE ESTADÍSTICA BÁSICA 09-A, SEGÚN
MIEMBROS EN LA FAMILIA
30
20
Alumnos
45,0%
10
18,3%
13,3%
8,3% 8,3%
3,3%
1,7% 1,7%
0
2 3 4 5 6 7 8 9
MIEMBROS EN LA FAMILIA
99
Gráfico 2.4 % de Alumnos de Estadística Básica 09-A, según el Número de miembros en su familia
50
45.0
40
30
Percent
20 18.3
13.3
10 8.3 8.3
3.3
1.7 1.7
0
2 3 4 5 6 7 8 9
Miembros en la familia
Percent within all data.
100
En Excel:
101
En Excel se obtiene los resultados para los límites superiores de clase indicados y
los rectángulos del histograma separados, por lo que se tiene que editar haciendo
clic sobre los rectángulos y con botón derecho seleccionar Formato de serie de
datos y en la ventana de diálogo del mismo nombre escoger Opciones de series y
en Ancho del intervalo poner 0%. Al hacer clic en el botón Cerrar, los
rectángulos del histograma aparecen juntos. Se pone número y título del gráfico,
así como colores, etc. y se tiene los resultados del la Figura 2.35.
En Minitab:
102
Figura 2.36 Obteniendo el Histograma de peso en Minitab
Hacer clic en el botón Labels… en Title: poner el número y título del gráfico, en
Data Labels escoger Use y-value labels, OK. Para finalizar OK y aparece un
histograma que debe ser editado para obtener los intervalos de clase deseados. Para
ello hacer doble clic sobre el histograma y aparece la ventana de diálogo Edit
Bars de la Figura 2.37donde ya se ha escogido Binning.
103
Figura 2.37 Edición (en Binning) del Histograma de peso en Minitab
GRÁFICO 2.6 HISTOGRAMA DEL PESO DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09-A
20 19
17
15
15
Frequency
10
5
5 4
0
44.0 52.8 61.6 70.4 79.2 88.0
Peso (Kg.)
104
En SPSS:
15
Alumnos
10
19
17
15
5
4
Media =59,87
Desviación típica =10,53
N =60
0
40 50 60 70 80 90 100
PESO (Kg)
En R:
Estando attachada la base de datos, para que reconozca la variable peso, se escribe
la sintaxis sencilla siguiente:
105
hist(variable, breaks=seq(mínimo, máximo, by=amplitud, col=”color”,
labels=TRUE, main=”título del gráfico”, xlab=”título eje X”, ylab=”título eje Y”)
Donde: variable (datos para obtener el histograma), mínimo = valor mínimo de los
datos, máximo = valor máximo, amplitud = ancho de los intervalos, color =
colores (blanco = 0, 8, “White”; negro= 1, 9, “black”; rojo = 2, 10, “red”; verde =
3, 11, “green”; azul = 4, 12, “blue”; magenta = 5, 13; violeta =6, 14, “violet”;
amarillo = 7, 15, “yellow”; anaranjado = orange; purpura = purple; rosado =pink;
fucsia=”magenta”; gris=”gray”; etc.)
> attach(caso2)
106
Histograma de densidad.- se presenta, por lo general, para tablas con intervalos
de clase de diferente amplitud, situación que ocurre para algunas variables
económicas. En las columnas de frecuencias se agrega una de densidad (di) que se
obtiene dividiendo las frecuencias relativas entre la amplitud de clase. Es decir,
di = hi / Ci .
Las barras del histograma de densidad tienen por base la amplitud del intervalo y
por altura la densidad alcanzada. El área debajo del histograma de densidad es
k k k
hi
igual a1. Area di Ci Ci hi 1.00
i 1 i 1 Ci i 1
Si para la variable peso trabajada, se juntan los dos últimos intervalos y se hace los
conteos correspondientes, el Cuadro 2.7 se transforma en:
Hacer clic en el botón Labels… en Title: poner el número y título del gráfico, en
Data Labels escoger Use y-value labels, OK. Para finalizar OK y aparece un
histograma de densidad que debe ser editado para obtener los intervalos de clase
deseados. Para ello hacer doble clic sobre el histograma y aparece la ventana de
diálogo Edit Bars de la Figura 2.41 donde ya se ha escogido Binning.
107
Figura 2.41 Edición del Histograma de densidad de peso en Minitab
GRÁFICO 2.7 HISTOGRAMA DE DENSIDAD DEL PESO DE LOS ALUMNOS E.B. 09-A
0.04
0.0360
0.0322
0.03 0.0284
Density
0.02
0.01 0.0085
0.00
44.0 52.8 61.6 70.4 88.0
PESO (Kg.)
108
c) Polígono de frecuencias.- es un gráfico de líneas que une los puntos medios
superiores de las barras del histograma, es decir, une los pares ordenados marcas
de clase y frecuencias absolutas o relativas, (Xi, ni) o (Xi, hi) con el fin de tener una
visión global de la distribución de frecuencias cuando son suavizadas.
Figura 2.43 Datos para el Polígono de frecuencias y Ojiva del peso en Minitab
Hacer clic en Data View… y en Data display marcar Connect line, OK. Luego
escoger Labels en Tittle: poner el número y título del gráfico, y en Data Labels
marcar Use y-value labels, OK.
109
Figura 2.44 Scatterplot para el Polígono de frecuencias del peso en Minitab
Gráfico 2.8 POLÍGONO DE FRECUENCIA DEL PESO DE LOS ALUMNOS E.B. 09-A
0.35
0.322
0.30 0.288
0.254
0.25
Frec. relat.
0.20
0.15
0.10 0.085
0.051
0.05
0.000 0.000
0.00
40 50 60 70 80 90 100
Marca de clase
110
d) Ojiva.- sirve para representar las frecuencias (absolutas o relativas) acumuladas
“menor o igual que” para una variable determinada. Su representación se hace con
un gráfico de líneas, no decreciente, que une los pares ordenados formados por los
límites superiores de los intervalos de clase y las frecuencias (absolutas o relativas)
acumuladas, (LSi, Ni) o (LSi, Hi).
Hacer clic en Data View… y en Data display marcar Connect line, OK. Luego
escoger Labels en Tittle: poner el número y título del gráfico, y en Data Labels
marcar Use y-value labels, OK.
111
Gráfico 2.9 OJIVA DEL PESO DE LOS ALUMNOS DE ESTADÍSTICA BÁSICA 09-A
1.000 1.000
1.0 0.949
0.864
0.576
0.6
0.4
0.322
0.2
0.000
0.0
40 50 60 70 80 90 100
Lím. Sup. PESO (Kg.)
Es un gráfico sencillo de realizar y fue propuesto por Tukey (1977) para ver la
distribución de frecuencias preliminar de una variable cuantitativa con pocas
observaciones. Para su elaboración se toma en cuenta el número de dígitos que poseen
los valores de la variable. El tallo viene dado por los dígitos de mayor orden,
acompañado por las hojas que es la parte complementaria del número representado.
Veamos su obtención para la variable peso.
En Minitab.-
112
Stem-and-Leaf Display: peso
Stem-and-leaf of peso N = 60
Leaf Unit = 1.0
1 4 4
9 4 56678899
24 5 000001122233334
(8) 5 55555779
28 6 0033444
21 6 5566778889
11 7 0022
7 7 557
4 8 000
1 8 8
En la columna central se presentan los tallos, representando los pesos en decenas (de
kg.) y en la última columna las hojas con un dígito por cada observación (sus unidades
se dan al comienzo del gráfico como Leaf Unit) aquí = 1.0 Kg. En la primera línea
aparece el peso mínimo (44) y en la última línea el peso máximo (88) Kg.
En SPSS.-
Estando en la base de datos de Estadística Básica 09-A, escoger del menú Analizar →
Estadísticos descriptivos → Explorar y aparece la ventana de diálogo Explorar. En
Dependientes: ingresar la variable peso de las variables del lado izquierdo. Hacer clic en
el botón Gráficos y aparece la ventana de diálogo Explorar: Gráficos, en Descriptivos
aparece activado automáticamente Tallo y hojas. Hacer clic en Continuar, regresa a
Explorar y para finalizar clic en Aceptar. En la ventana de Resultados aparece:
1.00 4 . 4
8.00 4 . 56678899
15.00 5 . 000001122233334
113
8.00 5 . 55555779
7.00 6 . 0033444
10.00 6 . 5566778889
4.00 7 . 0022
3.00 7 . 557
3.00 8 . 000
1.00 8 . 8
Stem width: 10
Each leaf: 1 case(s)
El ancho del tallo (Stem width) 10 indica que está en decenas de Kg.
En R.-
Estando attachada la base de datos de los alumnos de Estadística Básica 09-A
representada por caso2, se usa la función stem(variable). Se procede así:
> attach(caso2)
> stem(peso)
Aparece el diagrama de tallos y hojas siguiente:
4|4
4 | 56778899
5 | 000011122333334
5 | 55555779
6 | 003344
6 | 55566778889
7 | 0022
7 | 557
8 | 000
8|8
Sólo muestra los tallos en la primera columna (en decenas de Kg.) y las hojas (en
Kg.).
114
Capítulo 3. MEDIDAS DE POSICIÓN
“La estadística es una ciencia que demuestra que si mi vecino tiene dos
coches y yo ninguno, los dos tenemos uno” George Bernard Shaw
CONTENIDO
3.1 Introducción.
3.2 Media aritmética.
3.3 Mediana.
3.4 Moda.
3.5 Media Geométrica.
3.6 Media armónica.
3.7 Los cuantiles: cuartiles, deciles y percentiles.
3.1 INTRODUCCIÓN
115
3.2 MEDIA ARITMÉTICA
k k
X i ni X i ni k
i 1 i 1
b) Media o promedio muestral: X k
X i hi
n i 1
ni
i 1
Donde:
k = número de intervalos de clase.
Xi = Marca de clase
ni = frecuencias absolutas o repeticiones.
hi = frecuencia relativa.
N = tamaño de la población.
n = tamaño de la muestra.
Ejemplo 3.1
Si trabajamos con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que la media aritmética es:
116
N 60
Xi Xi
i 1 i 1 44 45 46 .... 80 88 3592.1
59.868 Kg.
N 60 60 60
Interpretación.- el peso promedio de los alumnos de Estadística Básica 09-A es
59.868 Kg. También podemos apreciar que el numerador representa el total
poblacional, es decir que la suma de los pesos de los 60 alumnos en la
población es de 3592.1 Kg.
Si trabajamos con los datos agrupados del Cuadro 2.7, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que la media aritmética es:
k 5
X i ni X i ni
i 1 i 1 X 1n1 X 2 n2 X 3n3 X 4 n4 X 5 n5
N 60 60
48.4(19) 57.2(15) 66.0(17) 74.8(5) 83.6(4) 3608.0
= 60.133 Kg.
60 60
117
En la Figura 3.1 se muestra en Excel como se ha efectuado el cálculo de la
media aritmética para datos agrupados.
Primero hay que ingresar las marcas de clase (Xi), las frecuencias absolutas (ni)
y las frecuencias relativas (hi) en las columnas C, D, y E respectivamente. La
forma más sencilla de efectuar el cálculo es la que aparece en la casilla F10
utilizando la función matemática suma de productos que se indica así:
5
X i hi = 60.133 Kg., que es la media solicitada.
i 1
Media Ponderada.-
n
X iWi
i 1
X n
Wi
i 1
118
Para el caso de un índice de precios Xi es un relativo de precios (Pti / P0i) y para un
índice de cantidad Xi es un relativo de cantidad (Qti / Q0i).
Ejemplo 3.2.- si los ingresos de 5 trabajadores son: 450, 500, 500, 550 y
2000. Entonces el ingreso promedio es de 800 muy distante del ingreso de la
mayoría de los trabajadores. Se recomienda usar la mediana.
Demostración:
n n n n
Yi (aX i b) a Xi b
i 1 i 1 i 1 i 1
Y aX b
n n n n
119
Ejemplo 3.3.- si el ingreso promedio de los trabajadores es X = S/. 1 000.
Hallar los ingresos promedio si se producen los siguientes incrementos:
S/. 100 para cada trabajador, entonces el nuevo ingreso de cada
trabajador es: Yi = Xi + 100 .
Luego el nuevo ingreso promedio de los trabajadores es:
Y = X + 100 = S/. 1 100.
10% para cada trabajador, entonces el nuevo ingreso de cada trabajador
es Yi = 1.10 Xi .
Luego el nuevo ingreso promedio de los trabajadores es:
Y = 1.10 X = 1.10 (1 000) = S/. 1 100.
120
Cálculo para datos sin agrupar.-
a) Ordenar los datos en forma ascendente: X(1) , X(2) , …. , X(n)
b) Calcular la mediana:
1
Si el número de observaciones n es par: Me X n
X n
2 2 2
1
Ejemplo 3.4
Si se calcula la mediana con los datos sin agrupar del Cuadro 2.6, peso en Kg. de
los 60 alumnos de Estadística Básica 09-A, se tiene que:
a) Los 60 datos ordenados en forma ascendente son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
121
n 1
Nj 1 Hj 1
Me LI j 2 Cj LI j 2 Cj
nj hj
Donde:
j = clase que contiene o donde esta la Me.
LIj = límite inferior de la clase que contiene la Me.
nj = repeticiones en la clase que contiene la Me.
Nj-1 = repeticiones acumuladas hasta la clase anterior a la que contiene Me.
Cj = amplitud de la clase Me = LSj – LIj .
hj = frecuencia relativa en la clase que contiene la Me.
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Me.
Ejemplo 3.5
Calcular la mediana con los datos agrupados del Cuadro 2.7, peso de los 60
alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Marca Prop. Acum. Prop.Ac.
Clase PESOS (Kg.) Alum-nos
clase alumnos alumnos alumnos
i LIi LSi Xi ni hi Ni Hi
1 44.0 52.8 48.4 19 0.317 19 0.317
2 52.8 61.6 57.2 15 0.250 34 0.567
3 61.6 70.4 66.0 17 0.283 51 0.850
4 70.4 79.2 74.8 5 0.083 56 0.933
5 79.2 88.0 83.6 4 0.067 60 1.000
60 1.000
Solución.-
a) Ubicar la clase j que contiene el valor Me.
n 60
30 . ¿En que intervalo de clase se contó la observación o peso del
2 2
alumno 30?
Observando los Ni del Cuadro 2.7, se aprecia que en la clase 1, N1 = 19, se
han contado los pesos de los 19 primeros alumnos (recordemos que los pesos
están ordenados de manera ascendente en el cuadro).
Entonces, en el intervalo de clase 2 se cuentan los pesos de los alumnos 20,
21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33 y 34.
n 60
Luego, la clase en la que se cuenta la talla del alumno 30 es la
2 2
clase j = 2. La mediana es un peso entre 52.8 y 61.6 Kg.
122
n
Nj 1
Me LI j 2 Cj
b) Calcular la Me usando la expresión: nj
Donde:
j = 2, n = 60, LIj = LI2 = 52.8 nj = n2 = 15,
Nj-1 = N1 = 19, C3 = LS3 – LI3 = 61.6 – 52.8 = 8.8
Reemplazando valores en la fórmula se tiene:
n 60
N1 19
Me LI 2 2 C2 52.8 2 8.8 59.253 Kg.
n2 15
Propiedades de la mediana.-
a) La suma de las desviaciones, en valor absoluto, de los valores observados
con respecto a la mediana es mínima; es decir, que es menor que la suma de
las desviaciones, en valor absoluto, con respecto a cualquier otro valor a de
la distribución.
n n
Xi Me Xi a , para datos sin agrupar.
i 1 i 1
k k
Xi Me ni Xi a ni , para datos agrupados.
i 1 i 1
123
c) Si a y b son números reales e Yi a X i b, entonces : Me(Y ) a Me( X ) b .
Propiedad similar a la de la media aritmética.
3.4 MODA
Es el valor observado más común, el que más se repite o el más frecuente. Para una
distribución de frecuencias o probabilidades, la moda es el valor que hace máxima
dicha distribución.
Ejemplo 3.7
Si se calcula la moda con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los
60 alumnos de Estadística Básica 09-A, se tiene que los pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
124
Se aprecia que el peso 55 es el que más se repite, luego: Mo = 55 Kg.
1
b) Calcular la moda usando la expresión: Mo LI j Cj
1 2
Donde:
j = clase(s) que contiene(n) o donde esta(n) la(s) Mo.
LIj = límite inferior de la clase que contiene la Mo.
Cj = amplitud de la clase Mo = LSj – LIj .
1 nj nj 1 hj hj 1 dj dj 1
2 nj nj 1 hj hj 1 dj dj 1
Ejemplo 3.8
Calcular la moda con los datos agrupados del Cuadro 2.7, peso de los 60 alumnos de
Estadística Básica 09-A FCE-UNAC, siguientes:
Marca Prop. Acum. Prop.Ac.
Clase PESOS (Kg.) Alum-nos
clase alumnos alumnos alumnos
i LIi LSi Xi ni hi Ni Hi
1 44.0 52.8 48.4 19 0.317 19 0.317
2 52.8 61.6 57.2 15 0.250 34 0.567
3 61.6 70.4 66.0 17 0.283 51 0.850
4 70.4 79.2 74.8 5 0.083 56 0.933
5 79.2 88.0 83.6 4 0.067 60 1.000
60 1.000
Solución.-
a) Ubicar la clase j que contiene el valor Mo.
125
Considerando que los intervalos son de igual amplitud, ¿en que intervalo de clase
se puede haber dado el mayor número de repeticiones ni o h i?
Observando los ni del Cuadro 2.7, se aprecia que el mayor es n1 = 19. Entonces,
en el intervalo de clase j = 1 se encuentra la moda. La moda es un peso entre 44 y
52.8 Kg.
1
b) Calcular la moda usando la expresión: Mo LI j Cj
1 2
Donde:
j = 1,
LIj = LI1 = 44.
C1 = LS1 – LI1 = 52.8 – 44 = 8.8.
1 nj nj 1 n1 n0 19 0 19
2 nj nj 1 n1 n2 19 15 4
1 19
Mo LI1 C1 44 8.8 51.270 Kg.
1 2 19 4
Propiedades de la moda.-
a) Es el único estadígrafo que se puede determinar para variables cualitativas.
b) La moda no se ve afectada por los valores extremos, al igual que la mediana.
c) Si a y b son números reales e Yi a X i b, entonces : Mo(Y ) a Mo( X ) b .
Propiedad similar a la de la media aritmética y la mediana.
d) Para una distribución determinada puede haber más de una moda o en su defecto
de no existir moda, puede haber antimoda (valor menos frecuente).
126
Distribución simétrica
30
25
Nº de U. de A.
20
15
10
0
140 145 150 155 160 165 170 175 180
Valores de la variable
20
15
10
5
0
140 145 150 155 160 165 170 175 180
Valores de la variable
25
20
Nº de U.A.
15
10
0
140 145 150 155 160 165 170 175 180
Valores de la variable
127
Para los pesos de los alumnos de Estadística Básica 09-A de la FCE-UNAC se
pueden resumir los estadígrafos calculados así:
Datos: X Me Mo
Sin agrupar 59.868 57.000 55.000
Agrupados 60.133 59.253 51.270
En Excel:
Estando copiados los datos de la variable peso de los 60 alumnos en la columna D,
desde D3 hasta D62, cuando en el programa se pide el rango de valores (como
Número 1), se sombrean estos o se escribe D3:D62.
Para efectuar cualquier cálculo nos ubicamos en una celda posterior. Para calcular la
media aritmética nos ubicaremos en la celda D63.
128
Figura 3.2 Cálculo de la media aritmética (PROMEDIO) en Excel
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo de la
Figura 3.4. En variables: seleccionar la variable peso de las variables que están a la
129
Figura 3.4 Selección de la variable peso para calcular estadígrafos en Minitab
130
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
En Tendencia central marcar los estadígrafos: media, mediana, moda y suma, luego
hacer clic en Continuar, regresando a la ventana de diálogo Frecuencias y efectuar
clic en Aceptar para terminar. Inmediatamente en el Visor de Resultados aparece:
Estadísticos
PESO (Kg)
N Válidos 60
Perdidos 0
Media 59.87
Mediana 57.00
Moda 55
Suma 3592
131
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, se escribe en la consola la sintaxis
para el estadígrafo requerido: mean(variable) para la media, median(variable) para la
mediana, min(variable) para el valor mínimo y max(variable) para el valor máximo.
Aplicando a la variable peso se obtiene:
> mean(peso)
[1] 59.86833
> median(peso)
[1] 57
> min(peso)
[1] 44
> max(peso)
[1] 88
132
3.5 MEDIA GEOMÉTRICA
Considerando que el producto de los valores observados puede ser muy elevado, se
sigue el siguiente procedimiento para hallar G:
a) Determinar el logaritmo decimal de G:
n
1 1
log G log X 1 log X 2 log X n log X i
n n i 1
Ejemplo 3.9
Si se calcula la media geométrica con los datos sin agrupar del Cuadro 2.6, peso en
Kg. de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
133
106.2486352942
1.7708105882
60
Considerando que el producto de las potencias de las marcas de clase elevadas a las
repeticiones observados puede ser muy grande, se sigue el siguiente procedimiento
para hallar G:
a) Determinar el logaritmo decimal de G:
k k
1 1
log G n1 log X 1 n2 log X 2 nk log X k ni log X i hi log X i
n n i 1 i 1
Solución.-
a) Determinamos el logaritmo decimal de G:
5
1 1
log G ni log X i n1 log X 1 n2 log X 2 n3 log X 3 n4 log X 4 n5 log X 5
60 i 1 60
1
19 log 48.4 15 log 57.2 17 log 66.0 5 log 74.8 4 log 83.6
60
134
32.01206187 26.36094043 30.93224690 9.36950799 7.68882511
60
106.36358231
1.772726.37
60
b) Hallamos G tomando el antilogaritmo de log G:
G 10log G 101.77272637 59.255 Kg.
Es a partir de esta expresión que se obtiene la fórmula para hallar la tasa media de
crecimiento intercensal (r) de la población siguiente:
Pn
r n 1
P0
Po = Población en el año 0.
Pn = Población en el año n.
n = Períodos (años, meses, etc.) transcurridos desde el período 0 hasta el período n.
Ejemplo 3.11
Según el INEI (2009) la población total del Perú el año 1993 fue de 22‟639,443
habitantes y el 2007 de 28‟220,764 habitantes. Se pide determinar:
135
Si se hubiera solicitado la tasa media de crecimiento intercensal mensual, se
tendría que haber obtenido la raíz 168 (meses transcurridos del ‟93 al ‟07).
Interpretación.- entre el año 1993 y el 2007 la población del Perú creció a un
1.59% anual. Es decir, que por cada 100 habitantes nacieron 1.59 niñ@s
(también se puede interpretar en tanto por mil o diez mil, etc.).
Donde:
Po = P2007 = Población en el año 0 = 2007 (Tomar el año más cercano).
Pn = P2010 = Población en el año n = 2010.
r = Tasa media de crecimiento intercensal anual = 0.015864843.
n = Años transcurridos desde el año 2007 hasta el año 2010 = 3 años.
Asumiendo que la tasa media de crecimiento intercensal anual es la misma para
los años siguientes y reemplazando valores en la fórmula de proyección de
población se tiene:
n 3
Pn 1 r P0 P2010 1 0.015864843 P2007
3
P2010 1 0.015864843 28220764 1.048353602(28220764) =
= 29‟585,340 habitantes.
Pn
log
P0
n
log 1 r
n = año buscado.
Pn = 40 millones (Población que tendrá el Perú el año n).
P0 = P2007 = 28‟220,764 habitantes (Tomar como año 0, el más cercano).
r = Tasa media de crecimiento intercensal anual = 0.015864843.
Reemplazando valores en la expresión anterior se tiene:
136
40000000
log
n 28220764 22.2 años
log 1 0.015864843
Entonces: 2007 + 22.2 años = 2029. El año 2029 el Perú tendrá 40 millones de
habitantes (si la tasa de crecimiento de la población es del 1.59%).
Ejemplo 3.12
Si se calcula la media armónica con los datos sin agrupar del Cuadro 2.6, peso en
Kg. de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
137
60 60
H 60
1 1 1 1 1 1
i 1 Xi X1 X2 X3 X 59 X 60
60 60
58.161 Kg.
1 1 1 1 1 1.0316135533
44 45 46 80 88
Ejemplo 3.13
Calcular la media armónica con los datos agrupados del Cuadro 2.7, peso de los 60
alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Marca Prop. Acum. Prop.Ac.
Clase PESOS (Kg.) Alum-nos
clase alumnos alumnos alumnos
i LIi LSi Xi ni hi Ni Hi
1 44.0 52.8 48.4 19 0.317 19 0.317
2 52.8 61.6 57.2 15 0.250 34 0.567
3 61.6 70.4 66.0 17 0.283 51 0.850
4 70.4 79.2 74.8 5 0.083 56 0.933
5 79.2 88.0 83.6 4 0.067 60 1.000
60 1.000
Solución.-
Desarrollando la fórmula se tiene:
n 60 60
H k 5
=
ni ni n1 n2 n3 n4 n5
i 1 Xi i 1 Xi X1 X2 X3 X4 X5
138
60 60
= 58.419 Kg.
19 15 17 5 4 1.0270673130
48.4 57.2 66.0 74.8 83.6
Si se calcula estas tres medias para los mismos datos se tiene que:
H G X
Para los pesos de los alumnos se han obtenido los siguientes resultados:
Datos: H G X
Sin agrupar 58.161 58.994 59.868
Agrupados 58.419 59.255 60.133
139
3.7 CUANTILES
a) CUARTILES (Qk )
Son particiones de la distribución de frecuencias en cuatro partes iguales de
modo que cada una de ellas acumula un cuarto de las observaciones (25% de los
datos).
140
El cuartil dos es igual a la mediana (acumula el 50% de los valores observados).
Es decir, Q2 = Me ya estudiada.
Cálculo para datos sin agrupar.-
a) Ordenar las observaciones en forma ascendente: X(1) , X(2) , …. , X(n)
b) Obtención de los cuartiles 1 y 3:
Cuartil 1 (Q1)
n 1
Ubicar su posición calculando , si es entero Q1 X n 1
.
4 4
Cuartil 3 (Q3)
3( n 1)
Ubicar su posición calculando , si es entero Q3 X 3( n 1)
.
4 4
Ejemplo 3.14
Calcular los cuartiles 1 y 3 con los datos sin agrupar del Cuadro 2.6, peso en Kg.
de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
141
Solución:
Cálculo del cuartil 1 (Q1)
n 1 60 1
Ubicar su posición con 15.25 . Como no es un valor entero, (E =
4 4
15 y F = 0.25), el cuartil 1 esta entre los pesos ordenados 15 y 16 (51 y 51 Kg.).
Aplicando la interpolación lineal recomendada, el cuartil 1 es:
Q3 X 45
0.75 X 46
X 45 = 67 + 0.75 [68 - 67] = 67.75 Kg.
kn k
Nj 1 Hj 1
Qk LI j 4 Cj LI j 4 C j , k = 1, 2, 3.
nj hj
Donde:
142
j = clase que contiene o donde esta el cuartil k (Qk).
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Qk.
Ejemplo 3.15
Calcule e interprete los cuartiles con los datos agrupados del Cuadro 2.7, peso de
los 60 alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Marca Prop. Acum. Prop.Ac.
Clase PESOS (Kg.) Alum-nos
clase alumnos alumnos alumnos
i LIi LSi Xi ni hi Ni Hi
1 44.0 52.8 48.4 19 0.317 19 0.317
2 52.8 61.6 57.2 15 0.250 34 0.567
3 61.6 70.4 66.0 17 0.283 51 0.850
4 70.4 79.2 74.8 5 0.083 56 0.933
5 79.2 88.0 83.6 4 0.067 60 1.000
60 1.000
Solución.-
Cálculo del cuartil 1 (Q1)
k = 1.
a) Ubicar la clase j que contiene el valor del cuartil k = 1 (Q1):
kn n 60
15 . ¿En que intervalo de clase se contó la observación o
4 4 4
peso del alumno 15?
Observando los Ni del Cuadro 2.7, vemos que en la clase 1, N1 = 19, se han
contado los pesos de los 19 primeros alumnos (recordemos que los pesos
están ordenadas de manera ascendente en el cuadro).
kn n 60
Luego, la clase en la que se contó la talla del alumno 15 es la
4 4 4
clase j = 1. El cuartil 1 es un peso entre 44.0 y 52.8 Kg.
b) Calcular el cuartil 1 (Q1) usando la expresión:
143
n 1
Nj 1 Hj 1
Q1 LI j 4 Cj LI j 4 Cj
nj hj
Donde:
j = 1, n = 60, LIj = LI1 = 44.0, nj = n1 = 19
Nj-1 = N0 = 0, C1 = LS1 – LI1 = 52.8 – 44.0 = 8.8.
Reemplazando valores en la fórmula se tiene:
n 60
N0 0
Q1 LI1 4 C1 44.0 4 8.8 46.947 Kg.
n1 19
Donde:
144
j = 3, n = 60, LIj = LI3 = 616, nj = n3 = 17.
Nj-1 = N2 = 34, C3 = LS3 – LI3 = 70.8 – 61.6 = 8.8.
Reemplazando valores en la fórmula se tiene:
3n 3(60)
N2 34
Q3 LI 3 4 C3 61.6 4 8.8 66.259 Kg.
n3 17
b) DECILES (Dk )
Son particiones de la distribución de frecuencias en diez partes iguales de modo
que cada una de ellas acumula un décimo de las observaciones (10% de los
datos).
145
c) PERCENTILES (Pk )
Son particiones de la distribución de frecuencias en cien partes iguales de modo
que cada una de ellas acumula un centésimo de las observaciones (1% de los
datos).
Para dividir la distribución de frecuencias en cien partes iguales necesitamos 99
puntos, por ello los percentiles son noventa y nueve y se denotan de la siguiente
manera:
Percentil 1 = P1 acumula una centésima parte de las observaciones (1%).
Percentil 2 = P2 acumula dos centésimas partes de las observaciones (2%).
Percentil 3 = P3 acumula tres centésimas partes de las observaciones (3%).
………….
Percentil k = Pk acumula las k centésimas partes de las observaciones (k%).
………….
Percentil 99 = P99 acumula las 99 centésimas partes de las observaciones (99%).
Nota.-
Todas los cuantiles calculados anteriormente son también percentiles (según el
% de observaciones que acumule cada uno de ellos).
Así tenemos que: la mediana (acumula el 50% de los valores observados) es
igual al percentil 50. Es decir, Me = P50.
También: Q1 = P25, Q2 = P50 = Me, Q3 = P75.
D10 = P10, D5 = P50 = Me, D9 = P90.
Pk X E
F X E 1
X E , k = 1, 2, 3, …., 99
146
Ejemplo 3.16
Calcular los percentiles 10 y 80 con los datos sin agrupar del Cuadro 2.6, peso
en Kg. de los 60 alumnos de Estadística Básica 09-A, cuyos pesos ordenados
son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
Solución:
Cálculo del percentil 10 (P10)
10 (n 1) 10 (60 1)
Ubicar su posición con 6.1 . Como no es un valor
100 100
entero, (E = 6 y F = 0.10), el percentil 10 está entre los pesos ordenados 6 y 7
(48 y 48 Kg.). Aplicando la interpolación lineal recomendada, el percentil 10 es:
P10 X 6
0.10 X 7
X 6 = 48 + 0.10 [48 - 48] = 48 Kg.
P80 X 48
0.80 X 49
X 48 = 68 + 0.80 [69 - 68] = 68.80 Kg.
147
Como en las tablas de frecuencias los valores de la variable están ordenados
kn
en forma ascendente, se determina , k = 1, 2, 3, …., 98 ó 99.
100
Ayudándonos de las frecuencias acumuladas se ve que clase j contiene (o
donde esta) el percentil k (Pk).
kn k
Nj 1 Hj 1
Pk LI j 100 Cj LI j 100 C j , k = 1, 2, 3, …., 98, 99.
nj hj
Donde:
j = clase que contiene o donde esta el percentil k (Pk).
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Pk.
Ejemplo 3.17.-
Calcule e interprete los percentiles 10 y 80 con los datos agrupados del Cuadro
2.7, peso de los 60 alumnos de Estadística Básica 09-A FCE-UNAC, siguientes:
Marca Prop. Acum. Prop.Ac.
Clase PESOS (Kg.) Alum-nos
clase alumnos alumnos alumnos
i LIi LSi Xi ni hi Ni Hi
1 44.0 52.8 48.4 19 0.317 19 0.317
2 52.8 61.6 57.2 15 0.250 34 0.567
3 61.6 70.4 66.0 17 0.283 51 0.850
4 70.4 79.2 74.8 5 0.083 56 0.933
5 79.2 88.0 83.6 4 0.067 60 1.000
60 1.000
Solución.-
Cálculo del percentil 10 (P10)
k = 10.
a) Ubicar la clase j que contiene el valor del percentil k = 10 (P10):
148
kn 10n 10 (60)
6 . ¿En que intervalo de clase se contó la observación
100 100 100
o peso del alumno 6?
Observando los Ni del Cuadro 2.7, vemos que en la clase 1, N1 = 19, se han
contado los pesos de los 19 primeros alumnos. Luego, la clase en la que se
kn 10n 10 (60)
contó el peso del alumno 6 , es la clase j = 1. El
100 100 100
percentil 10 es una talla entre 44.0 y 52.8 Kg.
b) Calcular el percentil 10 (P10) usando la expresión:
10n 10
Nj 1 Hj 1
P10 LI j 100 Cj LI j 100 Cj
nj hj
Donde:
j = 1, n = 60, LIj = LI1 = 44.0, nj = n1 = 19.
Nj-1 = N0 = 0, C1 = LS1 – LI1 = 52.8 – 44.0 = 8.8.
Reemplazando valores en la fórmula se tiene:
10n 10(60)
N0 0
P10 LI1 100 C2 44.0 100 8.8 46.779 Kg.
n1 19
149
80n 80
Nj 1 Hj 1
P80 LI j 100 Cj LI j 100 Cj
nj hj
En Excel:
Con los datos de la variable peso de los 60 alumnos en la columna D, desde D3 hasta
D62, cuando en el programa se pide Matriz se sombrean estos o se escribe D3:D62.
Para calcular los CUARTILES, por ejemplo el CUARTIL 1, primero ubicarse en la
celda D66.
150
Luego, con la opción de funciones del Excel, escoger dentro de Seleccionar una
categoría →Estadísticas → Cuartil, aparece la ventana de diálogo de la Figura 3.7.
151
Figura 3.8 Resultado de cuartiles y percentiles en Excel
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo Display
Descriptive Statistics (ver Figura 3.4).
En variables: seleccionar la variable peso de las variables que están a la izquierda.
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
152
En Variables: ingresar la variable peso, luego hacer clic en el botón y se
muestra la ventana de diálogo Frecuencias: Estadísticos de la Figura 3.9.
Estadísticos
PESO (Kg)
N Válidos 60
Perdidos 0
Percentiles 10 48.00
25 51.00
50 57.00
75 67.75
80 68.80
En los resultados del SPSS se aprecia que los cuartiles aparecen como los percentiles
25 (primer cuartil), 50 (segundo cuartil o mediana) y 75 (cuartil 3).
153
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, se escribe en la consola la sintaxis
para PERCENTILES: quantile(variable, p)
Donde variable es un conjunto de datos cuantitativos (peso aquí) y p es una
proporción para identificar a uno o varios percentiles determinados. Es decir, que
quantile es el valor por abajo del cual se encuentra el p% de las observaciones.
154
Capítulo 4. MEDIDAS DE DISPERSIÓN Y DE FORMA
CONTENIDO
4.1 Introducción.
4.2 Rango. Rango intercuartílico.
4.3 Desviación media.
4.4 La varianza
4.5 La desviación típica.
4.6 El coeficiente de variación.
4.7 El diagrama de caja (Box- Plot).
4.8 Medidas de forma de la distribución.
4.1 INTRODUCCIÓN
También se presenta una forma gráfica de apreciar la dispersión de los datos, a través
del diagrama de caja y bigotes (box-plot) como herramienta importante para el análisis
exploratorio de datos.
155
4.2 RANGO Y RANGO INTERCUARTÍLICO
RANGO
Ejemplo 4.1
Si trabajamos con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que el rango es:
R = Xmáx – Xmín = {X / Xmáx ≤ X ≤ Xmín }
R= 88 – 44 = 44 Kg. o R = {X / 44 ≤ X ≤ 88}
Interpretación.- la diferencia entre el peso máximo y mínimo de los alumnos de
Estadística Básica 09-A es de 44 Kg. También podemos decir que los pesos de
los 60 alumnos fluctúan entre 44 y 88 Kg.
Si trabajamos con los datos agrupados del Cuadro 2.7, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, tenemos que el rango es:
R = LS5 – LI1 = {X / LSk ≤ X ≤ LI1 }
= 88 – 44 = 44 Kg. o R = {X / 44 ≤ X ≤ 88}
Interpretación.- la diferencia entre el peso máximo y mínimo de los alumnos de
Estadística Básica 09-A es de 44 Kg. También podemos decir que los pesos de
los 60 alumnos fluctúan entre 44 y 88 Kg.
Tal como se puede apreciar el Rango es una medida muy gruesa de la dispersión
de los datos ya que nos da una idea de la diferencia o fluctuación de los valores
extremos.
156
RANGO INTERCUARTÍLICO
El rango intercuartílico (RIQ o RIC) es la diferencia entre el cuartil 3 y el cuartil 1
y nos indica entre que valores se encuentra el 50% central de las observaciones.
Tanto para datos sin agrupar, como para datos agrupados la fórmula de cálculo es:
157
4.3 DESVIACIÓN MEDIA
Mide la desviación absoluta promedio de los valores observados bien con respecto a
la media aritmética o con respecto a la mediana.
Utiliza la idea de distancia como la diferencia en valor absoluto de cada valor
observado con respecto a su media aritmética o su mediana.
Cálculo para datos sin agrupar.-
n n
Xi X X i Me
i 1 i 1
DM X ó DM X
n n
Primero se calcula la media aritmética o mediana, luego la desviación media.
Ejemplo 4.3
Calcular la desviación media respecto a la media aritmética con los datos sin
agrupar del Cuadro 2.6, peso en Kg. de los 60 alumnos de Estadística Básica 09-A,
cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
Solución.-
En el ejemplo 3.1 se ha determinado que el peso promedio de los 60 alumnos de
Estadística Básica 09-A es X = 59.87 Kg. y en el ejemplo 3.4 la mediana Me = 57
Kg. Para calcular la desviación media respecto a la media aritmética, se tiene que:
n 60
Xi X X i 59.87
i 1 i 1
DM X
n 60
44 59.87 45 59.87 46 59.87 80 59.87 88 59.87
60
15.87 14.87 13.87 20.13 28.13 540.38
9.006 Kg.
60 60
158
Interpretación.- el promedio de las desviaciones absolutas de los pesos de los
alumnos respecto a su media aritmética es de 9.006 Kg.
Ejemplo 4.4
Calcular la desviación media respecto a la mediana, con los datos agrupados del
Cuadro 2.7, peso de los 60 alumnos de Estadística Básica 09-A FCE-UNAC,
siguientes:
Solución.-
En el ejemplo 3.1 se ha encontrado la media aritmética X = 60.13 kg. y en el
ejemplo 3.5 la mediana Me = 59.25 Kg.,
Usando la fórmula de datos agrupados para la desviación media se tiene que:
k 5
X i Me ni X i 59.25 ni
i 1 i 1
DM Me
n 60
159
X 1 59.25 n1 X 2 59.25 n2 X 3 59.25 n3 X 4 59.25 n4 X 5 59.25 n5
60
4.4 VARIANZA
o S X2 V (X ) S2 para la muestra.
N N
(Xi )2 X i2 N 2
2 i 1 i 1
a) Varianza poblacional: X
N N
n n
(Xi X )2 X i2 n X 2
b) Varianza muestral: S X2 i 1 i 1
n 1 n 1
2 i 1 i 1
a) Varianza poblacional: X
N N
160
k k
(Xi X )2 ni X i2 ni n X 2
b) Varianza muestral: S X2 i 1 i 1
n 1 n 1
Primero se calcula la media aritmética para datos agrupados y luego la varianza.
Ejemplo 4.5
Calcular la varianza con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadística Básica 09-A, cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
Solución.-
En el ejemplo 3.1 se ha determinado que la media aritmética µ = 59.87 Kg.
N 60
(Xi )2 ( X i 59.87) 2
2 i 1 i 1
N 60
(44 59.87)2 (45 59.87)2 (46 59.87)2 (80 59.87)2 (88 59.87)2
60
251.8569 221.1169 192.3769 405.2169 791.2969
60
6542.47
109.0412 (Kg.)2.
60
N 60
X i2 N 2
X i2 60 2
2 i 1 i 1
…………. (1)
N 60
161
60
X i2 442 452 462 802 882
i 1
Ejemplo 4.6
Calcular la varianza de los pesos de los 60 alumnos de Estadística Básica 09-A
FCE-UNAC, con los datos agrupados del Cuadro 2.7, siguientes:
N 60
2 2 2
1 ( X 1 60.133) n1 ( X 2 60.133) n2 ( X 3 60.133) n3
60 ( X 4 60.133)2 n4 ( X 5 60.133)2 n5
162
2 2 2
1 (48.4 60.133) 19 (57.2 60.133) 15 (66.0 60.133) 17
60 (74.8 60.133)2 5 (83.6 60.133)2 4
2 i 1 i 1
…………. (2)
N 60
5
X i2 ni (48.4)219 (57.2)215 (66.0)217 (74.8)2 5 (83.6)2 4
i 1
= 223 569.28
5
X i2 ni 60 2
Propiedades de la varianza.-
a) La varianza de un conjunto de datos es mayor o igual que cero, S X2 ≥ 0.
Demostración:
n
(Yi Y )2
SY2 V (Y ) i 1
………. (3)
n 1
163
Sabemos que si a y b son números reales e Yi aX i b, entonces : Y aX b
2
SaX V (aX ) a 2V ( X ) a 2 S X2
Si b = 0, entonces:
2
Si a = 0, entonces: S b V ( b) 0
S X2 V (X b) V ( X ) S X2
Si a =1, entonces: b
c) Si se tiene k subgrupos (submuestras o estratos) de tamaños n1, n2, …., nk, tales
k
que ni n ; con medias aritméticas de los subgrupos: x1 , x2 , , xk y varianzas
i 1
164
de los subgrupos: S12 , S22 , , Sk2 , entonces la varianza de la muestra de tamaño n
S2 Sw2 Sb2
K
(ni 1) Si2
La intravarianza esta definida por: S w2 i 1
n 1
K
( xi x )2 ni
La intervarianza esta definida por: Sb2 i 1
n 1
Nota.- al construir estratos (clases, grupos o rangos) se busca que la
intravarianza ( S w2 ) sea pequeña y la intervarianza ( Sb2 ) sea grande.
165
2
ni xi
i 1 n1 x1 n2 x2 400(1,500) 600(1, 000) 1' 200, 000
x =
n n 1, 000 1, 000
= S/. 1,200
La intravarianza de los ingresos es:
2
(ni 1) Si2
(n1 1) S12 (n2 1) S22
S w2 i 1
n 1 n 1
399(360, 000) 599(250, 000) 218'390, 000
=
999 999
= 218,608.60 (S/.)2.
n 1 n 1
(1,500 1, 200) 2 (400) (1, 000 1, 200) 2 (600) 60'000, 000
=
999 999
= 60,060.06 (S/.)2.
166
Ejemplo 4.9.- en el ejemplo 4.5, se ha determinado la varianza (para datos sin
agrupar) de los pesos de los alumnos, siendo la misma σ2 = 109.0412 (Kg..)2.
Luego la desviación estándar será: 109.0412 = 10.442 Kg.
Interpretación.- el promedio de las desviaciones de los pesos de los alumnos
respecto a su media aritmética es de 10.442 Kg.
X
CV ( X ) 100 100 para la población.
X
SX S
cv( X ) 100 100 para la muestra.
X X
Ejemplo 4.11
En el ejemplo de los pesos de los 60 alumnos de Estadística Básica 09A-FCE-
UNAC, (para datos sin agrupar) se ha determinado que µ = 59.87 y σ = 10.442 Kg.
Luego el coeficiente de variación de los pesos de los alumnos es:
10.442
CV ( X ) 100 .100 =17.44 %
59.87
Interpretación.- el promedio de las variaciones porcentuales de los pesos de los
alumnos de Estadística Básica 09A-FCE-UNAC, respecto a su media aritmética es
del 17.44 %.
167
Ejemplo 4.12
En el ejemplo de los pesos de los 60 alumnos de Estadística Básica 09A-FCE-
UNAC, (para datos agrupados) se ha determinado que µ = 60.133 y σ = 10.495 Kg.
Luego el coeficiente de variación de las tallas de los alumnos es:
10.495
CV ( X ) 100 .100 = 17.45 %
60.133
Interpretación.- el promedio de las variaciones porcentuales de los pesos de los
alumnos de Estadística Básica 09A-FCE-UNAC, respecto a su media aritmética es
del 17.45 %.
En Excel:
Con los datos de la variable peso de los 60 alumnos de estadística Básica 09-A en la
columna D, desde D3 hasta D62, cuando en el programa se pide Matriz se sombrean
estos o se escribe D3:D62.
Una primera forma de obtener los estadígrafos es con la opción de funciones del
Excel, escoger dentro de Seleccionar una categoría →Estadísticas → escoger
estadígrafo y aparece ventana de diálogo en la que se indica los argumentos
requeridos y se obtiene el resultado.
Otra forma de obtenerlos es con la sintaxis para cada estadígrafo, que es la que
utilizaremos.
Para calcular el rango necesitamos el valor máximo y el valor mínimo. La sintaxis
correspondiente es: MAX(Matriz) y MIN(Matriz) respectivamente.
Para hallar el máximo de la variable peso, en la celda D71 escribir =MAX(D3:D62)
al hacer enter aparece 88 y para hallar el mínimo, en la celda D72 escribir
=MIN(D3:D62) al hacer enter aparece 44. Para hallar el rango, en la celda D73
escribir =D72-D7, al efectuar enter aparece 44(Ver figura 4.1).
Para hallar el rango intercuartílico (RIQ), se debe utilizar los resultados de los
cuatiles 1 y 3 calculados anteriormente en las celdas D66 y D68 respectivamente (ver
168
figura 3.8). En la celda D74 escribir =D68-D66, al efectuar enter aparece 16.25 (Ver
figura 4.1).
Para calcular la desviación media (Excel obtiene con respecto a la media aritmética)
usar la sintaxis: =DESVPROM(Matriz). Para la variable peso, en la celda D75
escribir =DESVPROM(D3:D62) al hacer enter aparece el resultado 9.006.
Para hallar la varianza de la muestra usar la sintaxis =VAR(Matriz) y para la
varianza de la población usar =VARP(Matriz). Para determinar la varianza de la
variable peso, en la casilla D76 escribir =VARP(D3:D62) al hacer enter aparece el
resultado 109.0412 (ver Figura 4.1).
Para calcular la desviación estándar muestral usar la sintaxis =DESVEST(Matriz)
y para la desviación estándar poblacional usar =DESVESTP(Matriz). Para la
variable peso, en la casilla D77 escribir =DESVESTP(D3:D62) al hacer enter
aparece el resultado 10.442 (ver Figura 4.1).
Para calcular el coeficiente de variación se divide la desviación estándar de la celda
D77 entre la media aritmética de la celda D63 así: en la casilla D78 escribir
=D77/D63 al hacer enter y luego clic en %, aparece 17.44%.
169
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo Display
Descriptive Statistics (vista en la Figura 3.4).
En variables: seleccionar la variable peso de las variables que están a la izquierda.
170
Se puede apreciar que los resultados obtenidos corresponden a cálculos muestrales,
por lo que hay que hacer reconversiones a valores poblacionales, así la varianza será:
N
(Xi )2
( N 1) S 2 (50 1) 110.89
2 i 1
109.0412 Kg2.
N N 60
Con este valor, ya se puede calcular la desviación estándar 109.0412 = 10.442
Kg. y el coeficiente de variación 17.44% (por ello solicitamos también la media
aritmética).
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
171
Luego hacer clic en Continuar, regresando a la ventana de diálogo Frecuencias y
para terminar, efectuar clic en Aceptar. Inmediatamente en el Visor de Resultados
aparece:
Estadísticos
PESO (Kg)
N Válidos 60
Perdidos 0
Media 59.87
Des v. típ. 10.530
Varianza 110.889
Rango 44
Mínimo 44
Máximo 88
Percentiles 25 51.00
50 57.00
75 67.75
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aquí).
172
> diff(range(peso))
[1] 44
173
> sd=var^0.5
> sd
[1] 10.44228
> cv=sd/mean(peso)*100
> cv
[1] 17.44207
174
representar el cuartil 2. Es decir, que la caja representa el RIQ, pues concentra el 50%
central de los valores observados.
De los extremos centrales de la caja se extienden los “bigotes” en la parte inferior hasta
el máx[Q1 - 1.5RIQ, mín (X1, X2, …., Xn)] y en la parte superior hasta el min[Q3 +
1.5RIQ, máx (X1, X2, …., Xn)]. Así mismo, por debajo de la parte inferior y por encima
de la parte superior de los bigotes se colocan los valores extremos (outliers) con
asteriscos, tal como se indica en la figura 4.4.
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Graph
→Boxplot → Simple → OK aparece la ventana de diálogo Boxplot – One Y,
Simple (ver la Figura 4.5).
De la lista de variables del lado izquierdo seleccionar la variable peso e ingresarla en
Graph variables:.
175
Para continuar hacer clic en OK y regresa a la ventana de Boxplot – One Y, Simple,
hacer clic en OK e inmediatamente aparece el boxplot (ver la figura 4.6).
176
Ubicándose dentro de la caja con el puntero del mouse, aparecen automáticamente
los cuartiles (ver la parte inferior de la figura 4.6). La lectura de los datos que allí
aparecen, permite describir que son 60 alumnos (N = 60), cuyos pesos fluctúan
entre 44 y 88 Kg. (Whiskers to = bigotes hasta: 44, 88) y que no hay pesos
extremos (outliers). Así mismo, los cuartiles indican que el 25% de los alumnos con
menos peso se encuentran por debajo de los 51 kg. (Q1) y el 25% de los alumnos
con más peso se encuentra por encima de los 67.75 Kg. (Q3). También que el 50%
de los alumnos pesa 57 Kg. o menos (median = mediana = 57 Kg.) y que el 50%
central de los pesos de los alumnos está entre 51 (Q1) y 67.75 Kg. (Q3).
También se puede obtener boxplot para hacer comparaciones entre una variable
cuantitativa, con alguna variable categórica; como puede ser en este caso ver el
comportamiento del peso de los alumnos por sexo (hombres y mujeres).
Para ello, estando en la ventana de diálogo de la figura 4.5 y con las etiquetas de
Figura 4.7 Efectuando Gráfico Múltiple de Boxplot para peso, por sexo
177
Seleccionar la variable sexo (con las etiquetas en texto) en By variables with
groups in separate panels: si se desea en un solo gráfico, pero en paneles
separados, el boxplot para hombres y mujeres (el que se ha escogido aquí); y si se
desea dos gráficos separados de boxplot uno para hombres y otro para mujeres
selecciona la variable sexo en By variables with groups on separate graphs:.
Para continuar hacer clic en OK y regresa a la ventana de la figura 4.5 de Boxplot –
One Y, Simple, hacer clic en OK e inmediatamente aparece el Gráfico 4.2 boxplot
para cada sexo (ver la figura 4.8).
GRÁ FICO 4.2 BOXPLOT DEL PESO DE LOS A LUMNOS DE ESTA DÍSTICA BÁ SICA 09-A FCE-UNA C,
POR SEXO
Hombre Mujer
90
80
70
Peso (Kg.)
60
50
40
Panel variable: sexo
178
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia: Analizar →
Estadísticos descriptivos → Explorar y aparece la ventana de la Figura 4.9.
Figura 4.9 Ventana de diálogo Explorar para definir el boxplot de peso en SPSS
90
80
70
60
50
40
PESO (Kg)
179
Si se desea un gráfico de boxplot para hombres y mujeres en un solo gráfico;
entonces, en la ventana de diálogo Explorar de la figura 4.9, en Factores: se ingresa
la variable sexo y para finalizar hacer clic en Aceptar e inmediatamente aparece el
resultado de la Figura 4.11.
90
80
70
PESO (Kg)
26
19
60
50
40
Hombre Mujer
SEXO
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aquí).
180
Figura 4.12 Diagrama de cajas y bigotes de la variable peso en R
181
Figura 4.13 Boxplot del peso para hombres y mujeres en R
182
MEDIDAS DE ASIMETRÍA
Según Pérez (2002) “Las medidas de asimetría tienen como finalidad el elaborar un
indicador que permita establecer el grado de simetría (o asimetría) que presenta una
distribución sin necesidad de llevar a cabo su representación gráfica. Supongamos hemos
representado gráficamente una distribución de frecuencias. Si trazamos una
perpendicular al eje de las abscisas por x y tomamos esta perpendicular como eje de
simetría, diremos que una distribución es simétrica si existe el mismo número de valores
a ambos lados de dicho eje, equidistantes de x dos a dos, y tales que cada par de valores
equidistantes de x tengan la misma frecuencia. En caso contrario, las distribuciones
serán asimétricas”
X Mo 3 X Me
Ap
S S
Donde S es la desviación estándar.
Si Ap = 0, la distribución es simétrica.
Si Ap > 0, la distribución es asimétrica positiva o asimétrica a la derecha.
Si Ap < 0, la distribución es asimétrica negativa o asimétrica a la izquierda.
b) Coeficiente de asimetría de Fisher.-
El coeficiente de asimetría propuesto por R.A. Fisher es:
n
1 3
Xi X
n i 1
Af 3
, para datos sin agrupar.
k
1 3
Xi X ni
n i 1
Af 3
, para datos agrupados.
183
Ejemplo 4.13
Con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60 alumnos de
Estadística Básica 09-A, cuyos pesos ordenados son:
44 45 46 46.5 47 48 48 49 49 50
50 50 50 50.5 51 51 52 52 52.6 53
53 53 53 54 55 55 55 55 55 57
57 59 60 60 63 63 64 64 64.5 65
65 66 66 67 67 68 68 68 69 70
70 72 72 75 75 77 80 80 80 88
Hallar los coeficientes de asimetría de Pearson y el de Fisher.
Solución.-
En ejemplos anteriores se obtuvo µ = 59.868, Me = 57 y σ = 10.442 Kg.
Luego el coeficiente de asimetría de Pearson es:
3 X Me 3 59.868 57
Ap = 0.82 > 0, los pesos tienen distribución
S 10.442
asimétrica positiva.
El coeficiente de asimetría de Fisher es:
n
1 3 1
Xi X (38558.56)
n i 1 60
Af 3
= 0.56 > 0, entonces los pesos tienen
(10.442)3
distribución asimétrica positiva.
Ejemplo 4.14
Hallar los coeficientes de asimetría de Pearson y el de Fisher, de los pesos de los 60
alumnos de Estadística Básica 09-A FCE-UNAC, con los datos agrupados del
Cuadro 2.7, siguientes:
184
Solución.-
En ejemplos anteriores se obtuvo µ = 60.133, Me = 59.253 y σ = 10.495 Kg.
Luego el coeficiente de asimetría de Pearson es:
3 X Me 3 60.133 59.253
Ap = 0.25 > 0, los pesos tienen distribución
S 10.495
asimétrica positiva.
El coeficiente de asimetría de Fisher es:
n
1 3 1
Xi X ni (39828.25)
n i 1 60
Af 3
= 0.57 > 0, entonces los pesos tienen
(10.495)3
distribución asimétrica positiva.
Según Chue J.y Otros (2007) “La curtosis cuantifica la cantidad de observaciones
que se agrupan alrededor de las medidas de tendencia central de la distribución de los
datos”.
La fórmula de cálculo de la curtosis es:
n
1 4
Xi X
n i 1
K 4
3 , para datos sin agrupar.
k
1 4
Xi X ni
n i 1
K 4
3 , para datos agrupados.
Ejemplo 4.15
Con los datos sin agrupar del Cuadro 2.6 (ver ejemplo 4.13), peso en Kg. de los 60
alumnos de Estadística Básica 09-A, hallar el coeficiente de curtosis.
Solución.-
En ejemplos anteriores se obtuvo µ = 59.868 y σ = 10.442 Kg.
185
Luego el coeficiente de curotosis es:
60
1 4 1762855.81
X i 59.868
60 i 1 60
K 4
3 3 = -0.53 < 0, entonces la distribución
(10.442) 4
es platicúrtica o achatada.
Ejemplo 4.16
Hallar el coeficiente de curtosis de los pesos de los 60 alumnos de Estadística
Básica 09-A FCE-UNAC, con los datos agrupados del Cuadro 2.7, dados en el
ejemplo 4.14.
Solución.-
En ejemplos anteriores se obtuvo µ = 60.133 y σ = 10.495 Kg.
Luego el coeficiente de curtosis es:
5
1 4 1825739.21
Xi 60.133 ni
60 i 1 60
K 4
3 3 = -0.41 < 0, por lo tanto, la
(10.495)3
distribución es platicúrtica o achatada.
En Excel:
Con los datos de la variable peso de los 60 alumnos de estadística Básica 09-A en la
columna D, desde D3 hasta D62, cuando en el programa se pide Matriz se sombrean
estos o se escribe D3:D62.
186
Para el peso, en la casilla D79 escribir =COEFICIENTE.ASIMETRIA(D3:D62) al
hacer enter aparece el resultado 0.58 (ver Figura 4.14). Entonces los pesos tienen
distribución asimétrica positiva.
Así mismo, en la casilla D80 escribir =CURTOSIS(D3:62) al hacer enter aparece el
resultado -0.47 (ver Figura 4.14). Entonces los pesos tienen distribución platicúrtica
o achatada.
En Minitab:
Estando en la base de datos Estadística Básica 09A, escoger del menú Stat →Basic
Statistics → Display Descriptive Statistics… aparece la ventana de diálogo Display
Descriptive Statistics (vista en la Figura 3.4).
En variables: seleccionar la variable peso de las variables que están a la izquierda.
Total
Variable Count Skewness Kurtosis
peso 60 0.58 -0.47
187
En SPSS:
Estando en la base de datos Estadística Básica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar → Estadísticos descriptivos → Frecuencias.
Inmediatamente se abre la ventana de diálogo Frecuencias.
Estadísticos
PESO (Kg)
N Válidos 60
Perdidos 0
Asimetría .579
Error típ. de asimetría .309
Curtosis -.469
Error típ. de curtosis .608
En R:
Estando en la base de datos Estadística Básica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aquí).
188
Para calcular la Asimetría, escribir en la consola:
> skewness(variable) al hacer enter se obtiene el resultado.
Para calcular la Curtosis, escribir en la consola:
> kurtosis(variable) al hacer enter se obtiene el resultado.
> kurtosis(peso)
[1] -0.6106151
attr(,"method")
[1] "excess"
Cuyos resultados son parecidos a los obtenidos con los otros programas, es decir, que
la distribución de la variable peso es asimétrica positiva y platicúrtica.
189
Capítulo 5. CORRELACIÓN Y REGRESIÓN SIMPLE
CONTENIDO
5.1 Introducción.
5.2 Diagrama de dispersión.
5.3 Covarianza y coeficiente de correlación.
5.4 Regresión lineal simple.
5.5 Coeficiente de determinación.
5.1 INTRODUCCIÓN
Así, vemos que en economía se busca explicar la demanda de los bienes y servicios en
función de los precios de los mismos.
190
5.2 DIAGRAMA DE DISPERSIÓN
Es decir, que se representan las parejas ordenadas (Xi, Yi) los mismos que aparecen
como puntos en el plano cartesiano y dan una idea del tipo de relación funcional
matemática para las variables.
Es un gráfico recomendado para establecer el tipo de asociación entre las variables (si
es directa o inversa), así como el tipo de relación funcional entre las mismas.
Ejemplo 5.1
Una compañía productora de muñecas quiere establecer la relación entre las variables
X = precio de las muñecas ($) e Y = cantidad de muñecas vendidas. Los datos son:
Solución.-
Vamos a utilizar los programas Excel, Minitab, SPSS y R para realizar el diagrama de
dispersión.
En Excel:
Al hacer clic en Aceptar, aparecen los puntos del diagrama de dispersión. Hacer clic
con el botón derecho sobre los puntos del plano y seleccionar agregar línea de
tendencia y aparece una ventana de diálogo. Escoger el tipo (automáticamente aparece
191
lineal, que es la que interesa en este caso). Al hacer clic en Cerrar se muestra el
diagrama de dispersión y la línea de tendencia de la Figura 5.2
En Minitab:
192
Con los datos de la variable precio (X) y cantidad (Y) en el Worksheet, del menú
escoger Graph, Scatterplot, aparece la ventana de diálogo Scatterplots; escoger With
Regression y hacer clic en OK. Se muestra la ventana de diálogo de la Figura 5.3.
260
240
Y = Cantidad
220
200
180
160
140
120
5.0 7.5 10.0 12.5 15.0 17.5 20.0
X = Precio
En SPSS:
193
Con los datos de la variable precio (X) y cantidad (Y) en el Editor de datos SPSS, del
menú escoger Gráficos, Interactivos, Diagrama de dispersión, aparece la ventana de
diálogo Crear diagrama de dispersión de la Figura 5.5.
194
280
240
CANT IDAD
200
160
120
8.0 0 12. 00 16. 00 20. 00
PRECIO
En R:
Definir los valores de las variables Precio y Cantidad, por los vectores X e Y
respectivamente siguientes:
Donde:
195
Figura 5.7 Diagrama de dispersión de la cantidad y precio en R
Los indicadores del grado de asociación lineal entre dos variables son la covarianza y
el coeficiente de correlación.
COVARIANZA.-
La covarianza entre las variables X e Y, denotada por Cov (X, Y), mide el promedio
de las discrepancias conjuntas del producto de las desviaciones de las variables X e
Y con respecto a sus respectivas medias. Se calcula como:
n
1 1
Cov( X , Y ) Xi X Yi Y SPXY
n i 1 n
196
Donde SPXY representa la Suma de Productos de las desviaciones de X e Y con
respecto a sus medias, calculada así:
n n
SPXY Xi X Yi Y X iYi n X Y
i 1 i 1
COEFICIENTE DE CORRELACIÓN.-
El coeficiente de correlación lineal entre las variables X e Y, denotada por ρ (X, Y),
mide el grado de asociación lineal entre las variables en estudio. Se calcula así:
Cov( X , Y )
( X ,Y ) , para la población; y
X Y
Cov( X , Y ) SPXY
r ( X ,Y ) r , para la muestra.
n 1 SCX SCY
S X SY
n
Donde:
n n n n
2 2
SCX Xi X X i2 n X 2 y SCY Yi Y Yi 2 nY 2
i 1 i 1 i 1 i 1
Cuanto más cercano a -1 o a 1 se encuentra es más fuerte la asociación lineal entre las
variables X e Y, y cercano a 0 indica que la asociación entre la variable es muy baja o
que no existe relación entre X e Y.
197
Ejemplo 5.2
Para los datos del ejemplo 5.1, calcular e interpretar la covarianza y el coeficiente de
correlación lineal simple entre X e Y.
Solución.-
Las variables X = precio de las muñecas ($) e Y = cantidad vendida. Los datos son:
Cálculos necesarios:
8 8
n = 8, X i 104.5 , X 13.0625 , Yi 1630 , Y 203.75
i 1 i 1
8
X i2 (6.5) 2 (8.0) 2 .... (17.5) 2 (20.0) 2 1,520.75
i 1
n
SCX X i2 n X 2 1520.75 8(13.0625)2 155.7188
i 1
8
Yi 2 (276) 2 (250) 2 .... (156) 2 (125) 2 349,814
i 1
n
SCY Yi 2 nY 2 349,814 8(203.75)2 17, 701.5
i 1
8
X iYi (6.5)(276) (8.0)(250) .... (20.0)(125) 19, 642
i 1
n
SPXY X iYi n X Y 19, 642 8(13.0625)(203.75) 1, 649.875
i 1
Luego:
SPXY 1649.875
a) Cov( X , Y ) 206.2344
n 8
198
SPXY 1, 649.875
b) r 0.994
SCX SCY 155.7188 17, 701.5
199
5.4 REGRESIÓN LINEAL SIMPLE
Así, en el ejemplo 5.1 vemos que las cantidad demandada de muñecas (Y), es una
función del precio de las mismas (X). Es decir, que Y = f(X).
En el diagrama de dispersión obtenido antes, se puede apreciar que no todos los puntos
caen sobre la recta postulada, por lo que es necesario agregarle al modelo una
componente de error, así el modelo queda como:
Yi = a + bXi + ei
n n
2
Minimizar ei2 Yi a bX i
i 1 i 1
200
Siendo la suma de los errores al cuadrado función de los parámetros a y b, se tiene que
tomar derivadas parciales con respecto a dichos parámetros e igualar a cero, así:
n
ei2 n
i 1
2 Yi a bX i ( 1) 0
a i 1
n
ei2 n
i 1
2 Yi a bX i ( X i ) 0
b i 1
n n
na b Xi Yi ……………. (1)
i 1 i 1
n n n
a Xi b X i2 X iYi ……... (2)
i 1 i 1 i 1
n n
X iYi nXY Xi X Yi Y
SPXY
bˆ i 1
n
i 1
n
; y
2 2 2 SCX
X i nX Xi X
i 1 i 1
â Y bˆ X
Fórmulas de cálculo para los valores de a y de b en regresión simple. Cabe resaltar que
el símbolo ˆ sobre a y sobre b indica que son valores estimados obtenidos con la
información muestral y son una buena aproximación hacia a y b en la estadística
inferencial.
Interpretación de â y b̂
Y
Al ser b̂ la pendiente de la recta, entonces en bˆ , si X 1 bˆ Y ; quiere
X
201
Por otro lado â representa el intercepto con el eje Y, cuando X se aproxima cero y en
algunos casos no tiene mayor sentido.
Ejemplo 5.3
Para los datos del ejemplo 5.1, se pide: a) calcular e interpretar los coeficientes de
regresión y el coeficiente de determinación entre X e Y; y b) determinar la cantidad
demandada de muñecas cuando el precio sea de $ 15.
Solución.-
n
SPXY X iYi n X Y 19, 642 8(13.0625)(203.75) 1, 649.875
i 1
n
SCX X i2 n X 2 1520.75 8(13.0625)2 155.7188
i 1
n
SCY Yi 2 nY 2 349,814 8(203.75)2 17, 701.5
i 1
Luego:
SPXY 1649.875
bˆ - 10.5952
SCX 155.7188
202
La ecuación de regresión simple queda establecido como:
Yi aˆ bˆ X i 342.15 10.595 X i
Interpretación.-
â = 342.15, indica que la demanda tope bordeará las 342 muñecas, con el precio de
las mismas alrededor de cero dólares.
Veamos como obtener los indicadores del modelo de regresión usando los programas
Excel, Minitaab, SPSS y R.
En Excel:
203
Figura 5.8 Aplicando Regresión en Excel
Para terminar hacer clic en Aceptar y se obtiene los resultados de la Figura 5.9.
A partir de la celda A12, aparece el Resumen de los cálculos de regresión, que para el
caso están sombreados y son:
Precio = b̂ = -10.595223376.
204
Figura 5.9 Resultado de la Regresión de cantidad y precio de muñecas en Excel
En Minitab:
Con los datos de la variable precio (X) y cantidad (Y) en el Worksheet, del menú
escoger Stat, luego Regression y nuevamente la opción Regression; y aparece la
ventana de diálogo Regression de la Figura 5.10.
205
De la lista de variables del lado izquierdo, seleccionar la variable Y = cantidad e
ingresarla en Response: (variable de respuesta o dependiente) y en Predictors:
seleccionar X = Precio.
Para terminar hacer clic en OK. Inmediatamente en la ventana de Session del Minitab
aparecen los resultados siguientes:
Analysis of Variance
Source DF SS MS F P
Regression 1 17481 17481 475.23 0.000
Residual Error 6 221 37
Total 7 17702
En SPSS:
Con los datos de las variables precio (X) y cantidad (Y) definidos e ingresados en el
editor de datos del SPSS, del menú seleccionar Analizar → Regresión → Lineal e
inmediatamente aparece la ventana de diálogo de la Figura5.11.
Una vez ingresadas las variables, hacer clic en Aceptar y aparecen los resultados
mostrados después de la Figura 5.11.
206
Figura 5.11 Aplicando Regresión en SPSS
La vista de resultados del SPSS muestra en el Resumen del modelo los coeficientes de
correlación y determinación, mientras que en los Coeficientes se presenta la constante
â = 342.150 y b̂ = -10.595.
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 342.150 6.701 51.059 .000
PRECIO ($) -10.595 .486 -.994 -21.800 .000
a. Variable dependiente: CANTIDAD
207
Al igual que el Minitab, también presenta el análisis de varianza para la regresión
siguiente:
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 17480.795 1 17480.795 475.226 .000a
Res idual 220.705 6 36.784
Total 17701.500 7
a. Variables predictoras : (Cons tante), PRECIO ($)
b. Variable dependiente: CANTIDAD
En R:
Definidos los valores de las variables Precio y Cantidad, por los vectores X e Y
respectivamente siguientes:
> modelo=lm(Y~X)
> modelo
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
342.15 -10.60
> resumen=summary(modelo)
> resumen
208
Call:
lm(formula = Y ~ X)
Residuals:
Coefficients:
---
Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
209
Capítulo 6. MODELOS DISCRETOS DE PROBABILIDAD
“La estadística es como una mujer con bikini, muestra casi todo, pero lo
fundamental lo oculta …. Olvidaba decir que lo fundamental es …. lo
que yo quiera creer” Robert Frost
CONTENIDO
6.1 Introducción.
6.2 Distribución binomial.
6.3 Distribución de Poisson.
6.4 Distribución hipergeométrica.
6.5 Distribución geométrica.
6.1 INTRODUCCIÓN
La determinación del éxito o fracaso en este tipo de pruebas esta sujeto al interés
particular de quién realiza una determinada prueba.
210
6.2 DISTRIBUCIÓN BINOMIAL
Distribución Bernoulli.-
Según Bazán y Corbera (1997) la distribución de Bernoulli “es el modelo más sencillo
de probabilidad y proporciona la base para derivar otras distribuciones de probabilidad
discreta”.
Las pruebas de Bernoulli tienen dos posibles resultados uno de los cuales es fijado
convencionalmente como éxito (E) y el otro como fracaso (F). Por tanto: Ω= {F, E}.
p ( x ) P( X x) p x q1 x ; x 0, 1.
x 0 1
p (x) = P (X = x) p q=1-p
Ejemplo 6.1
211
Características del ensayo binomial
Una prueba binomial se caracteriza por estar constituida por n pruebas de Bernoulli
repetidas o independientes, cada una con la misma probabilidad p de éxito y la variable
aleatoria X = número de éxitos. Rx = {0, 1, 2 , …. , n}.
Ley de probabilidad
p ( x) P( X x) Cxn p x q n x
; x 0, 1, 2,3,...., n
n!
Donde: C xn
n x ! x!
F ( x) P( X x) P( X xi ) Cxni p xi q n xi
xi x xi x
Todas estas probabilidades son calculadas por los programas estudiados, tal como
veremos a continuación.
Ejemplo 6.2
Se lanza una moneda correcta 5 veces. Sea X = el número de caras obtenidas. Calcule
la probabilidad de obtener: a) 3 caras; b) a lo más 2 caras; c) la distribución de
probabilidades; y d) la función de distribución acumulativa de probabilidades.
212
Solución
1 10
a) p(3) P( X 3) C35 ( )5 0.3125
2 32
1 1 1 1 5 10 16
= C05 ( )5 C15 ( )5 C25 ( )5 0.50
2 2 2 32 32 32 32
x 0 1 2 3 4 5
213
Veamos el procedimiento de cálculo de estas probabilidades con los programas, las
mismas que están sintetizadas en la tabla de la pregunta c) y d).
En Excel:
Para ello, estando en la casilla B2, en funciones del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función DISTR.BINOM y aparece la
ventana de diálogo de la Figura 6.1.
214
0.5 y en Acumulado escribir FALSO, porque no se desea calcular probabilidad
acumulada. Al hacer enter, aparece la probabilidad p(0) = 0.03125.
Para obtener las probabilidades para los otros valores de x, se efectúa una copia de lo
anterior para las celdas sucesivas en B3, B4, B5, B6 y B7, cuyos resultados se
muestran en la Figura 6.2.
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en C3, C4, C5, C6 y C7, cuyos resultados
se muestran en la Figura 6.2.
En Minitab:
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
215
variable para una probabilidad acumulada dada). Cálculos que son realizados
indicando previamente los parámetros de la distribución binomial, es decir, n =
Number of trials (número de pruebas) y p = Event probability (probabilidad de éxito).
x P( X = x )
3 0.3125
216
Figura 6.4 Probabilidad acumulada con la distribución binomial en Minitab
x P( X <= x )
2 0.5
Resultados similares a los del ejemplo 6.2.
Primero definir los valores en una columna de la Worksheet (hoja de trabajo del
Minitab); para el ejemplo 6.2, en la columna C1 con la denominación x se han definido
los valores 0, 1, 2, 3, 4 y 5.
Para calcular las probabilidades para cada uno de los valores de la variable, se procede
de manera similar a lo realizado en la Figura 6.3, sólo que no se selecciona Input
217
Como son seis probabilidades las que se van a calcular se tiene que indicar donde se
quiere colocar dichos resultados.
Figura 6.5 Probabilidad para varios valores con distribución binomial en Minitab
Si se desea seguir usando estos resultados para hacer otros cálculos, los mismos deben
aparecer en la Worksheet del Minitab, por ello en Optional storage: (deposito
opcional de resultados) escribir C2. Para terminar hacer clic en OK y los resultados se
muestran en la columna C2 de la Worksheet.
Si no se van hacer otros cálculos con los resultados, hacer clic en OK y dichos
resultados se muestran en la hoja de Session así:
x P( X = x )
0 0.03125
1 0.15625
2 0.31250
3 0.31250
4 0.15625
5 0.03125
218
Para calcular las probabilidades acumuladas para los seis valores del ejemplo 6.2 y con
los resultados en la hoja de Session, en la Figura 6.5 seleccionar
y al hacer clic en OK aparecen los resultados siguientes:
x P( X <= x )
0 0.03125
1 0.18750
2 0.50000
3 0.81250
4 0.96875
5 1.00000
Los dos últimos resultados son idénticos a los que aparecen en la Figura 6.2, los que a
continuación se presentan tal como se han obtenido en la Worksheet del Minitab.
0.30
0.25
0.20
p(x)
0.15
0.10
0.05
0.00
0 1 2 3 4 5
x
219
En SPSS:
Para calcular las probabilidades simples (P) y las acumuladas (F) del ejemplo 6.2, en la
vista de variables se define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4
y 5). Veamos el cálculo de probabilidades simples (P).
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.BINOM(cant,n,prob) que se precisan en el recuadro central de la Figura 6.6. Así
cant representa los valores de la variable x, n el número de ensayos = 5 y prob =
220
probabilidad de éxito = 0.5. Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados siguientes:
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.2, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.7.
221
así: CDF.BINOM(x,5,0.5). Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados siguientes:
En R:
> dbinom(3,5,0.5)
[1] 0.3125
> x=c(0,1,2,3,4,5)
> dbinom(x,5,0.5)
222
> P=dbinom(x,5,0.5)
> cbind(x,P)
x P
[1,] 0 0.03125
[2,] 1 0.15625
[3,] 2 0.31250
[4,] 3 0.31250
[5,] 4 0.15625
[6,] 5 0.03125
En la parte b) del ejemplo 6.2 se solicita F (2) = P (X ≤ 2), esto se calcula así:
> pbinom(2,5,0.5)
[1] 0.5
> F=pbinom(x,5,0.5)
> cbind(x,P,F)
x P F
223
[3,] 2 0.31250 0.50000
x
e
p( x) P( X x) ; x 0, 1, 2,3,....
x!
xi
e
F ( x) P( X x) P( X xi )
xi x xi x xi !
224
La deducción como un proceso de Poisson, surge cuando hay eventos discretos que
se generan en un intervalo continuo t (unidad de medida: longitud, área, volumen,
tiempo, etc.) y forman un proceso de Poisson con parámetro λ, si tiene las siguientes
propiedades.
( t)x e t
p ( x) P( X x) ; x 0, 1, 2,3,....
x!
Ejemplo 6.3
225
Solución
4x e 4
p( x) P( X x) ; x 0, 1, 2,3,.... Luego:
x!
43 e 4
a) p(3) = P(X = 3) = = 0.195367
3!
40 e 4 41 e 4 42 e 4
b) P (X ≤ 2) = p(0) + p(1) + p(2) = = 0.23810
0! 1! 2!
0 0.018316 0.018316
1 0.073262 0.091578
2 0.146525 0.238103
3 0.195367 0.433470
4 0.195367 0.628837
5 0.156293 0.785130
6 0.104196 0.889326
7 0.059540 0.948866
8 0.029770 0.978637
9 0.013231 0.991868
10 0.005292 0.997160
11 0.001925 0.999085
12 0.000641 0.999726
226
d) La distribución acumulativa de probabilidades se ha determinado con la función
4 xi e 4
F ( x) P( X x) P( X xi ) y se presentan en la tabla anterior
xi x xi x xi !
de la pregunta c).
En Excel:
Para ello, estando en la casilla B2, en funciones del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función POISSON y aparece la ventana
de diálogo de la Figura 6.8.
227
En Argumentos de función se define: el número de éxitos, x A2 (0) para poder
efectuar una copia para los demás valores de x. Media 4 y en Acumulado escribir
FALSO, porque no se desea calcular probabilidad acumulada. Al hacer enter, aparece
la probabilidad p(0) = 0.01832.
Para obtener las probabilidades para los otros valores de x, se efectúa una copia de lo
anterior para las celdas sucesivas en B3, B4, hasta B17, cuyos resultados se muestran
en la Figura 6.9.
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en C3, C4, hasta C17, cuyos resultados
se muestran en la Figura 6.9.
228
En Minitab:
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Cálculos que se realizan indicando
previamente el parámetro de la distribución Poisson, es decir, λ = 4 = Mean (media).
229
Probability Density Function
x P( X = x )
3 0.195367
Figura 6.11 Probabilidad para varios valores con distribución Poisson en Minitab
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.3 y
con los resultados en la Worksheet, en la Figura 6.10 seleccionar
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.11.
El gráfico de la distribución Poisson obtenido con el Minitab es el siguiente:
230
Gráfico 6.2 Distribución de Poisson con λ = 4
0.20
0.15
p(x)
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.3, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4, …., 15, …).
231
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 6.12. En Variable de destino: escribir P.
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.POISSON(cant,media) que se precisan en el recuadro central de la Figura 6.12.
Así cant representa los valores de la variable x, y media = λ = 4. Para finalizar hacer
clic en Aceptar y en la vista de datos aparece los resultados de la Figura 6.14.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.3, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.13.
232
En la Variable de destino: se escribe F. Del Grupo de funciones: escoger FDA y FDA
no centrada; y de Funciones y variables especiales: seleccionar Cdf.Poisson e
ingresarla en el recuadro Expresión numérica y definir los argumentos cant y media
así: CDF.POISSON(x,4). Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados de la Figura 6.14.
En R:
> dpois(3,4)
[1] 0.1953668
233
Si se desea determinar la distribución de probabilidades de la variable aleatoria X,
primero se define el vector de valores y luego se calculan las probabilidades así:
> x=c(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)
> P=dpois(x,4)
> cbind(x,P)
x P
[1,] 0 1.831564e-02
[2,] 1 7.326256e-02
[3,] 2 1.465251e-01
[4,] 3 1.953668e-01
[5,] 4 1.953668e-01
[6,] 5 1.562935e-01
[7,] 6 1.041956e-01
[8,] 7 5.954036e-02
[9,] 8 2.977018e-02
[10,] 9 1.323119e-02
[11,] 10 5.292477e-03
[12,] 11 1.924537e-03
[13,] 12 6.415123e-04
[14,] 13 1.973884e-04
[15,] 14 5.639669e-05
[16,] 15 1.503912e-05
234
En la parte b) del ejemplo 6.3 se solicita F (2) = P (X ≤ 2), esto se calcula así:
> ppois(2,4)
[1] 0.2381033
> F=ppois(x,4)
> cbind(x,P,F)
x P F
235
6.4 DISTRIBUCIÓN HIPERGEOMÉTRICA
CxM CnN xM
p( x) P( X x) ; máx {o, n + M - N} ≤ x ≤ mín {n, M}
CnN
Donde: p = M/N y q = (N – M) / N = 1 - p
Ejemplo 6.4
236
repartidos hayan: a) 3 naipes negros; b) a lo más 2 naipes negros; c) la distribución de
probabilidades; y d) la función de distribución acumulativa de probabilidades.
Solución
Cx26 C526x
p ( x) P( X x) ; x 0,1, 2,3, 4,5 Luego:
C552
C326 C226
a) p(3) P( X 3) = 0.32513
C552
x 0 1 2 3 4 5
237
En Excel:
Para ello, estando en la casilla B2, en funciones del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función DISTR.HIPERGEOM y
aparece la ventana de diálogo de la Figura 6.15.
Para obtener las probabilidades para los otros valores de x, se efectúa una copia de lo
anterior para las celdas sucesivas en B3, B4, B5, B6 y B7, cuyos resultados se
muestran en la Figura 6.16.
238
Las probabilidades acumuladas F(x) se han determinado haciendo los cálculos en la
columna C usando los de la columna B, estos se muestran en la Figura 6.16.
En Minitab:
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada).
239
Figura 6.17 Probabilidad con la distribución hipergeométrica en Minitab
x P( X = x )
3 0.325130
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.4 y
con los resultados en la Worksheet, en la Figura 6.17 seleccionar
240
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.18.
0.30
0.25
0.20
p(x)
0.15
0.10
0.05
0.00
0 1 2 3 4 5
x
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.4, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4, 5).
241
Figura 6.19 Cálculo de probabilidades con la distrib. hipergeométrica en SPSS
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.HIPER(cant,total,muestra,aciertos) que se precisan en el recuadro central de la
Figura 6.19. Así cant representa los valores de la variable x, total = N = 52, muestra =
n = 5 y aciertos = M = 26. Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados de la Figura 6.21.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.4, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.20.
242
ingresarla en el recuadro Expresión numérica y definir los argumentos cant, total,
muestra y aciertos, así: CDF.HIPER(x,52,5,26).
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.21.
243
En R:
> dhyper(3,26,26,5)
[1] 0.3251301
> x=c(0,1,2,3,4,5)
> P=dhyper(x,26,26,5)
> cbind(x,P)
x P
[1,] 0 0.02531012
[2,] 1 0.14955982
[3,] 2 0.32513005
[4,] 3 0.32513005
[5,] 4 0.14955982
[6,] 5 0.02531012
244
Para calcular probabilidades acumuladas con la hipergeométrica usar la función
phyper(x,M,N-M,n). Donde x puede ser un valor o un conjunto de valores definidos
previamente, M = objetos con la característica de interés, N-M = objetos sin la
característica de interés y n el tamaño de la muestra.
En la parte b) del ejemplo 6.4 se solicita F (2) = P (X ≤ 2), esto se calcula así:
> phyper(2,26,26,5)
[1] 0.5
> F=phyper(x,26,26,5)
> cbind(x,P,F)
x P F
Resultados idénticos para cada uno de los programas empleados. Cabe resaltar que
cualquiera de los cálculos de probabilidades con otras distribuciones son similares,
vemos ahora la distribución geométrica de probabilidades.
245
6.5 DISTRIBUCIÓN GEOMÉTRICA
p ( x ) P( X x) p q x 1 ; x 1, 2,3, 4,5,....
F ( x) P( X x) P( X xi ) p q xi 1
xi x xi x
Ejemplo 6.5
Se lanza una moneda cargada con probabilidad de cara igual a 1/4. Sea X el número de
lanzamientos de la moneda hasta obtener cara. Calcule la probabilidad de que se
hayan realizado: a) 3 lanzamientos; b) a lo más 2 lanzamientos; c) la distribución de
probabilidades; y d) la función de distribución acumulativa de probabilidades.
246
Solución
x 1
1 3
p( x) P( X x) ; x 1, 2,3, 4,.... Luego:
4 4
3 1
1 3
a) p(3) P( X 3) = 0.14063
4 4
1 1 2 1
1 3 1 3
b) P (X ≤ 2) = p(1) + p(2) = =
4 4 4 4
1 0.25000 0.25000
2 0.18750 0.43750
3 0.14063 0.57813
4 0.10547 0.68359
5 0.07910 0.76270
6 0.05933 0.82202
7 0.04449 0.86652
8 0.03337 0.89989
9 0.02503 0.92492
10 0.01877 0.94369
11 0.01408 0.95776
247
d) La distribución acumulativa de probabilidades se ha determinado con la función
xi 1
1 3
F ( x) P( X x) P( X xi ) y se presentan en la tabla
xi x 4 xi x 4
anterior de la pregunta c).
En Excel:
248
En Minitab:
En este programa, al igual que para las distribuciones anteriores, se puede hacer
cálculos de probabilidades individuales o para el conjunto de valores que toma la
variable.
Esta función permite tres tipos de cálculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada).
249
Veamos el cálculo de probabilidades individuales.
x P( X = x )
3 0,140625
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.5 y
con los resultados en la Worksheet, en la Figura 6.23 seleccionar
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.24.
Las probabilidades acumuladas presentadas en la Figura 6.24, se encuentran
alrededor de 0.987, para X = 15, por lo que existen más valores de X cuyas
probabilidades acumuladas no se han evaluado. Así tenemos que para X = 40: el
Minitab arroja una probabilidad más cerca de uno y es la siguiente:
x P( X <= x )
40 0.999990
250
Figura 6.24 Probabilidades con distribución geométrica en Minitab
0.25
0.20
0.15
p(x)
0.10
0.05
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
x
251
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.5, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, …, 14, 15, ….).
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.GEOM(cant,prob) que se precisan en el recuadro central de la Figura 6.25. Así
cant representa los valores de la variable x, prob = probabilidad de éxito = p = 0.25.
252
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.27.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 6.5, proceder de
manera similar al cálculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.26.
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.27.
253
Figura 6.27 Distrib. de probabilidades geométrica del ejemplo 6.5 en SPSS
En R:
F ( y) P(Y y) P(Y yi ) p q yi
yi y yi y
254
> dgeom(2,0.25)
[1] 0.140625
> y=c(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)
> P=dgeom(y,0.25)
> cbind(y,P)
y P
[1,] 0 0.250000000
[2,] 1 0.187500000
[3,] 2 0.140625000
[4,] 3 0.105468750
[5,] 4 0.079101563
[6,] 5 0.059326172
[7,] 6 0.044494629
[8,] 7 0.033370972
[9,] 8 0.025028229
[10,] 9 0.018771172
[11,] 10 0.014078379
[12,] 11 0.010558784
255
[13,] 12 0.007919088
[14,] 13 0.005939316
[15,] 14 0.004454487
[16,] 15 0.003340865
En la parte b) del ejemplo 6.5 se solicita F (2) = P (X ≤ 2) = P(Y ≤ 1), esto se calcula
en R así:
> pgeom(1,0.25)
[1] 0.4375
> F=pgeom(y,0.25)
> cbind(y,P,F)
y P F
256
[8,] 7 0.033370972 0.8998871
257
Capítulo 7. MODELOS CONTINUOS DE PROBABILIDAD
CONTENIDO
7.1 Introducción.
7.2 Distribución uniforme o rectangular.
7.3 Distribución exponencial.
7.4 Distribución normal.
7.5 Distribución chi-cuadrado.
7.6 Distribución T de student.
7.7 Distribución F.
7.1 INTRODUCCIÓN
probabilidades como:
258
7.2 DISTRIBUCIÓN UNIFORME O RECTANGULAR
1
,a x b
f ( x) b a
0 , otros casos
0 ,x a
x a
F ( x) P( X x) ,a x b
b a
1 , x b
Ejemplo 7.1
El tiempo en minutos que cierta persona invierte en ir de su casa a la estación del tren
es un fenómeno aleatorio que obedece a una ley de distribución uniforme en el
intervalo de 20 a 25 minutos.
a) ¿Cuál es la probabilidad de que alcance el tren que sale de la estación a las 7:28
a.m. en punto, si sale de su casa exactamente a las 7:05 a.m.?
259
Solución
1
, 20 x 25
f ( x) 5
0 , otros casos
0 ,x 20
x 20
F ( x) P( X x) , 20 x 25
5
1 , x 25
a) Si sale de su casa a las 7:05, para que alcance el tren que sale a las 7:28, debe
demorarse a lo más 23 minutos, es decir X ≤ 23, luego la probabilidad solicitada
usando la función de distribución acumulativa de probabilidades es:
23 20 3
P( X 23) F (23) = 0.6.
5 5
Significa que el 60% de las veces que sale de su casa a las 7:05 alcanzará el tren.
24 20 22 20 2
b) P(22 ≤ X ≤ 24) = F(24) – F(22) = = 0.4.
5 5 5
En Excel:
260
En Minitab:
La función permite tres tipos de cálculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las más usadas son las dos últimos.
261
Para efectuar el cálculo F(23) de la parte a) del Ejemplo 7.1 necesitamos seleccionar
Continuous uniform on 20 to 25
x P( X <= x )
23 0.6
Se procede del mismo modo para hallar F(24) y F(22) de la parte b).
De la tabla, se obtiene rápidamente P(22 ≤ X ≤ 24) = F(24) – F(22) = 0.8 – 0.4 = 0.4.
262
Figura 7.2 Graficando probabilidades acumuladas para la uniforme en Minitab
263
Distribution Plot
Uniform, Lower=20, Upper=25
0.4
0.20
0.15
Density
0.10
0.05
0.00
20 22 24 25
X
Figura 7.4 Cálculo y gráfico de P(22 ≤ X ≤ 24) con la dist. uniforme en Minitab
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar en la
Figura 7.1 e indicar los parámetros de la distribución uniforme.
Continuous uniform on 20 to 25
P( X <= x ) x
0.65 20.25
Cuyo gráfico (válido para la distribución uniforme y otras variables continuas) se
obtiene de manera similar al anterior, sólo que en la Figura 7.3 en Define Shaded Area
By se escoge , luego seleccionar (cola del lado izquierdo en
inferencia estadística) y en el recuadro de Probability: escribir 0.05.
264
Distribution Plot
Uniform, Lower=20, Upper=25
0.05
0.20
0.15
Density
0.10
0.05
0.00
20 20.3 25
X
Figura 7.5 Gráfico del inverso de probab. acum. Con la dist. uniforme en Minitab
Nota.- todos los procedimientos vistos aquí con el Minitab son válidos para las otras
distribuciones continuas de probabilidad y que serán abreviados cuando se vea para
esas otras distribuciones.
En SPSS:
Para calcular las densidades f(x) (f) del ejemplo 7.1, sólo para hacer el gráfico de la
función, en la vista de variables se define x y en la vista de datos se ingresan los
mismos (22, 23, 24, ….).
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
PDF.UNIFORM(cant,mín,máx) que se precisan en el recuadro central de la Figura 7.6.
265
Así cant representa los valores de la variable x, mín = valor mínimo = 20 y máx =
valor máximo = 25.
Figura 7.6 Cálculo de las densidades f(x) con la distribución uniforme en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.8, cuyos resultados no son de mucha trascendencia para variables continuas,
ya que sirven para realizar la gráfica de la distribución [distinto al caso discreto, donde
se obtenía probabilidades p(x) con esta función], por lo que para las siguientes
distribuciones los obviaremos, pero se obtienen de manera similar en el SPSS.
Sin embargo, las probabilidades acumuladas son de interés por lo que serán tratadas en
cada una de las distribuciones continuas que se presentan y cuyo procedimiento es
similar al que se ve a continuación.
Para el cálculo de las probabilidades acumuladas (F) del ejemplo 7.1, proceder de
manera similar al cálculo de densidades, con las variantes indicadas, tal como se
muestra en la Figura 7.7.
266
En la Variable de destino: se escribe Fx. Del Grupo de funciones: escoger FDA y
FDA no centrada; y de Funciones y variables especiales: seleccionar Cdf.Uniform e
ingresarla en el recuadro Expresión numérica.
Luego definir los argumentos cant representa los valores de la variable x, mín = valor
mínimo = 20 y máx = valor máximo = 25, así: CDF.UNIFORM(x,20,25).
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.8.
267
En R:
> x=c(22,23,24)
> f=dunif(x,20,25)
> cbind(x,f)
x f
[1,] 22 0.2
[2,] 23 0.2
[3,] 24 0.2
> F=punif(x,20,25)
> cbind(x,f,F)
x f F
268
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) usar la función qunif(p,mín,máx). Donde p
puede ser una probabilidad acumulada o un conjunto de probabilidades acumuladas
definidas previamente, mín = a = valor más pequeño de X y máx = b = valor más
grande de X.
> qunif(0.05,20,25)
[1] 20.25
Resultados idénticos a los del Minitab y del SPSS. Cabe resaltar que cualquiera de los
cálculos de probabilidades con otras distribuciones es similar.
x
e ,x 0
f ( x)
0 , otros casos
µ = E (X) = 1/ λ
σ2 = Var (X) = 1/ λ2
269
La función de distribución acumulativa de probabilidades
0 , x 0
F ( x) P( X x) x
1 e , x 0
Ejemplo 7.2
El tiempo de vida de un tipo de focos es una variable aleatoria X, que tiene distribución
exponencial con una vida media de 1000 horas. a) ¿Qué proporción de focos no sirve
antes de las 1000 horas? y b) ¿Qué proporción de focos dura entre 800 y 1200 horas?
Solución
0.001 x
0.001 e ,x 0
f ( x)
0 , otros casos
0 , x 0
F ( x) P( X x) 0.001 x
1 e , x 0
Significa que el 63.21% de los focos no sirve antes de las 1000 horas.
Significa que el 14.81% de los focos dura entre 800 y 1200 horas.
270
En Excel:
Para ello, estando en la casilla B2, en funciones del Excel, escogemos Estadísticas
(de seleccionar una categoría) y buscamos la función DISTR.EXP y aparece la
ventana de diálogo de la Figura 7.9.
271
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, cuyos resultados son:
En Minitab:
La función permite tres tipos de cálculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las más usadas son las dos últimos.
En el Ejemplo 7.2, la variable aleatoria X = tiempo de vida de los focos ~ Exp (0.001)
parámetro indicado en la Figura 7.10. Para resolver la parte a) y b) se necesita el
272
cálculo de probabilidades acumuladas F(800), F(1000) y F(1200) que se explican a
continuación.
Para efectuar el cálculo F(800) de la parte a) del Ejemplo 7.2 necesitamos seleccionar
x P( X <= x )
1000 0.632121
Se procede del mismo modo para hallar F(800) y F(1200) de la parte b).
273
Figura 7.11 Graficando probabilidades acum. para la exponencial en Minitab
Distribución exponencial
Scale= µ = 1/ λ = 1000, Thresh=0
0.0010
0.0008
0.0006
Density
0.0004 0.148
0.0002
0.0000
0 800 1200
X
274
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar en la
Figura 7.10 e indicar el parámetro de la distribución exponencial.
P( X <= x ) x
0.05 51.2933
El 5% de los focos tiene un duración menor o igual a 51.29 horas.
El valor de x, para una probabilidad acumulada F(x) =0.95 es:
P( X <= x ) x
0.95 2995.73
El 95% de los focos tiene una duración menor o igual a 2995.73 horas.
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.2, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (800, 1000, 1200).
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.EXP(cant,escala) que se precisan en el recuadro central de la Figura 7.12. Así
cant representa los valores de la variable x y escala = λ = 0.001.
275
Figura 7.12 Cálculo de probab. acum. con la distribución exponencial en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.13.
En R:
276
En el ejemplo 7.2, X = tiempo de vida de los focos ~ Exp (0.001). Para determinar las
probabilidades acumuladas correspondientes a los valores 800, 1000 y 1200 se define
un vector x con esos valores y luego las probabilidades acumuladas F se calculan así:
> x=c(800,1000,1200)
> F=pexp(x,0.001)
> cbind(x,F)
x F
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qexp(p,λ). Donde p es
una o un conjunto de probabilidades acumuladas definidas previamente y λ =
parámetro de la exponencial.
> p=c(0.05,0.95)
> q=qexp(p,0.001)
> cbind(p,q)
p q
277
7.4 DISTRIBUCIÓN NORMAL
Definición.- se dice que una variable aleatoria continua X tiene distribución normal
con parámetros µ y σ2, si su función de densidad de probabilidades está dada por:
(x )2
1 2 2
f ( x) e , x
2
2
Si una variable aleatoria X tiene distribución normal con media µ y varianza σ2, se le
denota así X ~ N (µ y σ2) y la ley de probabilidades es la antes indicada. La gráfica de
la distribución normal tiene la siguiente forma:
Distribution Normal
Mean = µ, StDev = σ
0.8
0.7
0.6
0.5
Density
0.4
0.3
0.2
0.1
0.0
µ
X
278
(t )2
x 1 2 2
F ( x) P( X x) e dt
2
2
X
Si una variable aleatoria X ~ N (µ, σ2) y se define la variable Z entonces la
z2
1 2
f ( z) e , z
2
2
t
z 1
Φ(z) = P( Z z) e dt . Se cumple que Φ(-z) = 1 - Φ(z), para z > 0.
2
279
Ejemplo 7.3
Los diámetros de los tubos fabricados por cierta máquina tienen distribución normal
con media de 9.8 mm. y desviación estándar de 0.53 mm. a) ¿Qué proporción de tubos
serán rechazados, si no se aceptan diámetros inferiores a 9 mm?; b) ¿Qué proporción
de tubos tiene un diámetro entre 8.5 y 11.0 mm?; y c) ¿por debajo de que diámetro se
encuentra el 95% de los tubos?
Solución
X 9.8
Estandarizando se tiene que Z ~ N (0, 1)
0.53
X 9.8 9 9.8
P( X 9) P P( Z 1.51) = Φ(-1.51) = 0.06552
0.53 0.53
Significa que alrededor del 6.55% de los tubos fabricados será rechazado.
Significa que alrededor del 99.25% de los tubos fabricados tienen diámetro entre
8.5 y 11.0 mm.
x 9.8 x 9.8
0.95 = P(X ≤ x) = P Z → Z 0.95 1.645 → x = 10.67 mm.
0.53 0.53
Significa que el 95% de los tubos fabricados tienen un diámetro de alrededor de los
10.67 mm.
280
En Excel:
281
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, cuyos resultados son:
Nota.- para hallar los resultados iniciales del ejemplo 7.3, se hizo una aproximación de
los valores Z, para poder usar la “vieja” tabla de la distribución normal estándar,
resultados que difieren de los acumulados F(x) encontrados con el programa, ya que
éste internamente hace la estandarización y da una mejor aproximación. Sin embargo,
el Excel también permite obtener los Φ(z) con la función DIST.NORM.ESTAND(z).
Tal como se muestra en los resultados anteriores difieren los F(x) y Φ(z).
En Minitab:
La función permite tres tipos de cálculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las más usadas son las dos últimos.
282
Figura 7.15 Probabilidad acumulada con la distribución normal en Minitab
Para efectuar el cálculo F(8.5) de la parte b) del Ejemplo 7.3 necesitamos seleccionar
x P( X <= x )
8.5 0.0070869
283
F(x) para que los resultados los deposite en la misma Worksheet. Al hacer clic en OK,
en la Worksheet aparecen los resultados siguientes:
284
Para finalizar hacer clic en OK y aparece el gráfico siguiente:
Distribution Normal
Mean=9.8, StDev=0.53
0.8
P(8.5 ≤ X ≤ 11.0) = 0.981
0.7
0.6
0.5
Density
0.4
0.3
0.2
0.1
0.0
8.5 9.8 11
X
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar en la
Figura 7.15 e indicar los parámetros de la distribución normal.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.95 en la parte
P( X <= x ) x
0.95 10.6718
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.3, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (8.5, 9.0, 11.0).
285
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.17. En Variable de destino: escribir F.
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.NORMAL(cant,media,desv_típ) que se precisan en el recuadro central de la
Figura 7.17. Así cant representa los valores de la variable x, media = µ = 9.8 y desv_típ
= σ = 0.53.
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.18.
286
Figura 7.18 Probabilidades acumuladas con la distribución normal en SPSS
En R:
En el ejemplo 7.3, X = diámetro de los tubos en mm. ~ N (9.8, 0.532). Para determinar
las probabilidades acumuladas correspondientes a los valores 8.5, 9.0 y 11.0 se define
un vector x con esos valores y luego las probabilidades acumuladas F se calculan así:
> x=c(8.5,9.0,11.0)
> F=pnorm(x,9.8,0.53)
> cbind(x,F)
x F
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qnorm(x,µ,σ). Donde p
es una o un conjunto de probabilidades acumuladas definidas previamente.
> qnorm(0.95,9.8,0.53)
[1] 10.67177
287
7.5 DISTRIBUCIÓN CHI-CUADRADO
Definición.- Sean Z1, Z2, ..., Zr, variables aleatorias independientes, cada una con
distribución normal estándar, Zi ~ N(0 , 1) . Entonces, la variable aleatoria
x² Z12 Z22 ... Z r2
tiene una distribución chi-cuadrado con r grados de libertad, si su función de
densidad de probabilidades está dada por:
r
1 1
x/2
f X 2 ( x) = r
x2 e , 0<x<
2
r
2
2
= 0 , en otros casos
Donde:
1
entero positivo (n) = (n – 1)! . Además, .
2
r = grados de libertad (GL) representa el número de variable aleatorias
independientes que se suman o el número de variables que pueden variar
libremente. En regresión y econometría es el rango de una matriz (máximo
número de columnas linealmente independientes) asociadas a formas
cuadráticas delas sumas de cuadrados.
Si la variable aleatoria X tiene distribución chi-cuadrado con r grados de libertad,
la denotaremos como X ~ X r2 .
= E(x²) = r y ² = Var(x²) = 2r
288
utilizando la función de distribución acumulativa de probabilidades que en la
mayoría de los casos son del tipo de acumulación menor o igual que.
Así tenemos que, la probabilidad que la variable aleatoria X con distribución
xr2 1 r 30 sea menor o igual a un valor constante x 2 , representada por:
PX X2 , 0≤ ≤1
Distribution chi-cuadrado
Chi-Square, df=25
0.06
0.05
0.04
Density
0.03
0.02
0.01
α
0.00
Xα
X
Ejemplo 7.4
Solución
289
a) P[X > 40.6] = 1 - P[ X 252 ≤ 40.6] = 1 – 0.975 = 0.025.
Significa que el 2.5% de los valores de X ~ X 252 son mayores que 40.6.
Significa que el 90% de los valores de X ~ X 252 se encuentran entre 14.6 y 37.7.
Significa que el 10% de los valores de X ~ X 252 son menores que 16.5.
En Excel:
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, los resultados se presentan en
la Figura 7.19. Se puede apreciar que se ha calculado una columna de 1 – F(x) cuyos
resultados son parecidos a los usados en la solución manual del Ejemplo 7.4.
290
Figura 7.19 Cálculo de probabilidades acumuladas con la chi-cuadrado en Excel
En Minitab:
Para calcular las probabilidades acumuladas para los valores de X del ejemplo 7.4, en
una columna de la worksheet definimos como x los valores 14.6, 37.7 y 40.6; y en otra
291
Resultados idénticos a los obtenidos con el Excel en la columna 1 – F(x).
Distribution Plot
Chi-Square, df=25
0.06
0.901
0.05
0.04
Density
0.03
0.02
0.01
0.00
14.6 37.7
X
292
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar en la
ventana de diálogo Chi-Square Distribution e indicar los grados de libertad 25.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.10 en la parte
Chi-Square with 25 DF
P( X <= x ) x
0.1 16.4734
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.4, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (14.6, 37.7, 40.6).
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.CHISQ(cant,gl) que se precisan en el recuadro central de la Figura 7.21. Así cant
representa los valores de la variable x y gl = grados de libertad = 25. Para finalizar
hacer clic en Aceptar y en la vista de datos aparece los resultados siguientes:
293
Figura 7.21 Cálculo de probab. acumuladas con la chi-cuadrado en SPSS
En R:
> x=c(14.6,37.7,40.6)
> F=pchisq(x,25)
> cbind(x,F)
x F
294
[2,] 37.7 0.95052629
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qchisq(x,gl). Donde p es
una o un conjunto de probabilidades acumuladas definidas previamente.
> qchisq(0.10,25)
[1] 16.47341
Definición.- Sea Z una variable aleatoria normal estándar N(0, 1). Sea X2 ~ X r2 una
variable aleatoria que tiene una distribución chi-cuadrado con r grados de libertad, y si
Z y X2 son independientes, entonces la variable aleatoria (v.a.)
Z Z r
T ~ tr
X2 Y
r
295
Media y Varianza:
La media y la varianza de la v. a. T con r grados de libertad son:
E(T) = T =0 , r>1
2 r
Var(T) = T , r>2
r 2
Función de Distribución Acumulativa de Probabilidades.-
El cálculo de probabilidades para variable aleatoria t, se efectúa utilizando las
Tablas de t, las mismas que han sido elaboradas utilizando la función de
distribución acumulativa de probabilidades que en la mayoría de los casos son del
tipo de acumulación menor o igual que.
Así tenemos que, la probabilidad que la variable aleatoria T con distribución tr (1
r < 30) sea menor o igual a un valor constante t , representada por:
PT t , 0< <1
Distribution t
gl = df=25
0.4
0.3
Density
0.2
0.1
α
0.0
Tα 0
X
296
La distribución t es una distribución simétrica como la normal y se cumple que:
Ejemplo 7.5
Solución
Significa que el 1.0% de los valores de X ~ T25 son mayores que 2.485.
Significa que el 87.5% de los valores de X ~ T25 se encuentran entre -1.316 y 2.06.
En Excel:
297
Para hallar las probabilidades acumuladas, estando en la casilla B2, en funciones
del Excel, escogemos Estadísticas (de seleccionar una categoría) y buscamos la
función DISTR.T y aparece la ventana de Argumentos de función donde se define:
el valor de X = A2 (1.316) para poder efectuar una copia para los otros valores de x,
en el recuadro de Grados_de libertad escribir 25 y en colas escribir 1. Una forma
Para obtener las probabilidades acumuladas para los otros valores de x, se efectúa una
copia de lo anterior para las celdas sucesivas en B3 y B4, los resultados se presentan en
la Figura 7.22. Se puede apreciar que se ha calculado una columna de 1 – F(x) cuyos
resultados son parecidos a los usados en la solución manual del Ejemplo 7.4.
En Minitab:
298
Para el cálculo de probabilidades acumuladas seleccionar e
indicar el parámetro requerido Degrees of freedom (grados de libertad) escribir 25 en
el recuadro.
Para calcular las probabilidades acumuladas para los valores de X del ejemplo 7.5, en
una columna de la worksheet definimos como x los valores -1.316, 2.060 y 2.485; y en
otra columna F(x) para obtener los resultados. Para ello, seleccionar y
escoge x en el recuadro; y en Optional storage: se escoge F(x) para que los resultados
los deposite en la misma Worksheet. Al hacer clic en OK, en la Worksheet aparecen
los resultados siguientes:
299
Distribution T
gl = df=25
0.4
0.875
0.3
Density
0.2
0.1
0.0
-1.316 0 2.06
X
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar en la
ventana de diálogo Chi-Square Distribution e indicar los grados de libertad 25.
Para determinar el valor de x, para una probabilidad acumulada F(x) =0.05 en la parte
P( X <= x ) x
0.05 -1.70814
En SPSS:
Para calcular las probabilidades acumuladas F(x) (F) del ejemplo 7.5, en la vista de
variables se define x y en la vista de datos se ingresan los mismos (-1.316, 2.060 y
2.485).
300
Del menú escoger Transformar → Calcular variable y aparece la ventana de
diálogo de la Figura 7.24. En Variable de destino: escribir F.
Del Grupo de funciones: del lado derecho, escoger FDA y FDA no centrada; y de
A continuación, hay que definir cada uno de los argumentos ? indicados en la función
CDF.T(cant,gl) que se precisan en el recuadro central de la Figura 7.24. Así cant
representa los valores de la variable x y gl = grados de libertad = 25. Para finalizar
hacer clic en Aceptar y en la vista de datos aparece los resultados siguientes:
301
En R:
> x=c(-1.316,2.060,2.485)
> F=pt(x,25)
> cbind(x,F)
x F
Para el cálculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la función qt(x,gl). Donde p es una
o un conjunto de probabilidades acumuladas definidas previamente.
> qt(0.05,25)
[1] -1.708141
302
REFERENCIAS BIBLIOGRÁFICAS
303
304
ANEXO
305
BASE DE DATOS: ESTADÍSTICA BÁSICA 09-A
(Continúa ….
306
…. Continuación)
ing. mie. prom.
nº_cuest sexo edad peso talla g.estud cr.aprob t.vi viend
fam fam acum
47 1 22 68 175 1500 3 150 34 11.00 2
48 1 21 68 168 2000 4 180 52 11.79 1
49 1 21 55 165 1500 5 100 34 12.00 1
50 2 22 59 152 1300 8 240 48 11.00 1
51 1 22 65 172 1000 9 300 32 12.09 3
52 1 20 66 173 1000 4 250 29 11.70 1
53 2 22 51 156 900 7 100 16 12.00 1
54 2 23 53 155 1250 4 250 40 12.00 1
55 2 19 45 150 650 7 125 34 14.00 1
56 2 20 52 160 900 4 150 44 14.00 2
57 1 19 53 168 1000 5 250 36 15.00 1
58 1 18 67 172 1300 5 180 39 13.00 2
59 1 19 77 178 1200 5 150 30 12.00 1
60 2 22 53 157 600 3 150 35 11.00 1
(Continúa ….
307
…. Conclusión)
nº.dor horas. hrs. lib. imp. imp.
nº_cuest hobby col. proc espe cial
mit tv estud leidos estudio fisico
32 4 3 9 3 2 5 1 1 1
33 3 8 14 4 2 5 4 1 2
34 3 12 16 3 2 4 3 2 2
35 1 12 12 6 4 4 2 1 2
36 4 12 30 8 2 5 3 1 1
37 4 14 14 5 2 4 3 2 2
38 4 10 5 3 3 5 3 1 2
39 3 30 28 5 4 5 4 1 2
40 3 12 28 4 2 5 2 1 2
41 3 16 14 10 1 5 3 1 2
42 2 6 10 0 1 3 3 1 2
43 7 10 7 3 4 4 3 2 2
44 3 14 14 2 4 5 4 1 2
45 3 7 12 1 2 5 3 1 1
46 5 21 35 3 2 4 3 1 2
47 2 10 10 2 1 2 4 1 1
48 3 21 14 3 1 5 4 2 1
49 3 10 18 2 2 5 4 1 2
50 10 8 10 3 2 4 3 1 2
51 4 5 10 7 1 5 5 1 2
52 5 10 14 5 1 5 5 2 2
53 8 10 18 4 2 4 5 1 1
54 3 9 10 2 3 4 4 1 2
55 4 4 10 3 2 4 5 1 2
56 2 8 8 8 4 5 4 1 2
57 3 14 5 2 1 3 3 1 2
58 3 14 14 5 1 4 3 1 2
59 3 14 30 5 1 4 3 1 2
60 2 15 16 3 2 3 4 1 2
Codificación:
308