Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Trabajo
Estadística Trabajo
VICERECTORADO DE INVESTIGACIN
FACULTAD DE CIENCIAS ECONMICAS
TEXTO DE ESTADSTICA
COMPUTACIONAL CON R, EXCEL,
MINITAB Y SPSS
AUTOR:
JUAN FRANCISCO BAZN BACA
(Resolucin Rectoral 1351-2008-R del 22-12-08)
01-12-08 al 30-11-10
CALLAO PER
2010
NDICE
Pg.
INDICE
INTRODUCCIN
10
11
1.1
Introduccin
11
1.2
Definicin de variables
13
1.3
Introduccin de datos
27
1.4
Archivo de datos
30
1.5
Transformacin de datos
39
1.6
Recodificacin de datos
43
1.7
Manipulacin de archivos
49
50
2.1
Introduccin
50
2.2
Cuadros estadsticos
50
2.3
Distribucin de frecuencias
72
2.4
Grficos estadsticos
87
2.5
89
2.6
Grficos de frecuencias
98
2.7
112
115
3.1
Introduccin
115
3.2
Mediaaritmtica
116
3.3
Mediana
120
3.4
Moda
124
3.5
Media geomtrica
133
3.6
Media armnica
137
3.7
140
155
4.1
155
Introduccin
4.2
156
4.3
Desviacin media
158
4.4
La varianza
160
4.5
La desviacin tpica
166
4.6
El coeficiente de variacin
167
4.7
174
4.8
182
190
5.1
Introduccin
190
5.2
Diagrama de dispersin
191
5.3
196
5.4
200
5.5
Coeficiente de determinacin
202
210
6.1
Introduccin
210
6.2
Distribucin binomial
211
6.3
Distribucin Poisson
224
6.4
Distribucin hipergeomtrica
236
6.5
Distribucin geomtrica
246
258
7.1
Introduccin
258
7.2
259
7.3
Distribucin exponencial
269
7.4
Distribucin normal
278
7.5
Distribucin chi-cuadrado
288
7.6
Distribucin T de student
295
REFERENCIAS BIBLIOGRFICAS
303
Anexo
304
Pg.
39
55
2.2 Alumnos de estadstica bsica 09-A de la FCE-UNAC, por sexo, segn hobby
58
63
73
75
78
80
3.1 Resumen de los cuantiles calculados para los pesos (Kg.) de los alumnos de
estadstica bsica 09-A, FCE-UNAC, por la forma en que estn los datos
150
3.2 Resumen de los percentiles calculados para los pesos (Kg.) de los alumnos de
estadstica bsica 09-A, de la FCE-UNAC, por programa usado
154
4.1 Resumen de las medidas de dispersin calculadas para los pesos (Kg.) de los
alumnos de estadstica bsica 09-A, de la FCE-UNAC, por programa usado
174
FIGURAS
1.1 Variables definidas en Excel
15
16
16
18
20
21
23
24
26
1.10
28
1.11
28
1.12
29
FIGURAS
Pg.
4
1.13
Base de datos en R
29
1.14
30
1.15
31
1.16
32
1.17
33
1.18
34
1.19
35
1.20
40
1.21
41
1.22
42
1.23
43
1.24
44
1.25
45
1.26
46
1.27
47
1.28
47
1.29
48
51
56
57
60
61
64
65
66
67
67
73
79
80
81
82
83
FIGURAS
Pg.
5
83
84
85
86
90
91
91
92
94
95
95
95
96
97
98
99
100
101
102
103
104
104
105
106
108
108
109
110
110
111
112
117
129
FIGURAS
Pg.
6
129
130
130
131
151
152
153
169
170
171
175
176
176
177
178
179
179
180
181
182
187
192
192
193
193
194
195
196
204
205
205
207
214
FIGURAS
Pg.
7
215
216
217
218
220
221
227
228
229
230
231
232
233
238
239
240
241
242
243
243
248
249
251
252
253
254
261
263
7.3 Definiendo el rea a sombrear para probabilidades acumuladas con la distribucin uniforme en Minitab
263
264
7.5 Grfico del inverso de probab. acum. Con la dist. uniforme en Minitab
265
266
FIGURAS
Pg.
8
267
267
271
272
274
276
276
281
283
284
286
287
291
292
294
298
300
301
INTRODUCCIN
10
CONTENIDO
1.1
1.2
1.3
1.4
1.5
1.6
1.7
Introduccin.
Definicin de variables.
Introduccin de datos.
Archivo de datos.
Transformacin de datos.
Recodificacin de datos.
Manipulacin de archivos.
1.1 INTRODUCCIN
Durante la fase de Elaboracin de datos de una Encuesta, es necesario construir una
Base de Datos (BD) que facilite procesamiento electrnico de los mismos mediante la
obtencin de cuadros, grficos, indicadores estadsticos y relaciones entre variables en
las que esta interesado el investigador a partir de los propsitos de su investigacin.
Una Base de Datos es un arreglo matricial cuyas columnas contienen los Campos (las
variables o preguntas del estudio) y las filas los Registros de datos (casos para el
SPSS correspondientes a cada unidad de investigacin estudiada.
Para efectos de procesamiento en cualquiera de los programas que estamos trabajando
(R, Excel, Minitab y SPSS) es necesario que el programa reconozca las variables
consideradas y algunos detalles que se deben tomar en cuenta. Para abreviar esta parte
disearemos la base de datos inicialmente en Excel y de aqu veremos como se exporta
a R, Minitab y SPSS con sus particularidades especiales en el SPSS.
Para el presente trabajo, se usa el Cuestionario de Caractersticas del Alumno que se
muestra en la pgina siguiente, el mismo que fue aplicado a 60 alumnos del curso de
Estadstica Bsica, el semestre 2009-A, en la FCE-UNAC.
11
N.........
Apellidos y Nombres: .
1. Sexo: Masculino
Femenino
2. Edad: .......
Departamento en edificio
Quinta .
Otro .............................
(Especifique)
11. N de dormitorios: ..
Msica
Baile
TV/Cine
Otro ............................
(Especifique
Muy poca
Poca
Mucha
Muchsima
Muy poca
Poca
Mucha
Muchsima
Estatal
No Estatal
1 Gestin Empresarial
MUCHAS GRACIAS
12
13
Para definir las Variables en una BD, se tiene que indicar en cada campo (columna) las
preguntas consideradas en el Cuestionario del estudio de manera abreviada.
a) En EXCEL
En una primera lnea de la hoja de clculo de Excel se especfica el nombre de la
variable utilizando el menor nmero posible de caracteres, de modo que recoja el
sentido de la pregunta. Se recomienda empezar con el nmero de cuestionario
(n_cuest) para identificar la unidad de anlisis a la que corresponden los datos y
corregir los mismos ante cualquier error.
A continuacin se definen las siguientes variables, en el mismo orden en que se han
formulado las preguntas en el Cuestionario, para facilitar posteriormente el ingreso de
los datos. As tenemos las variables:
sexo (pregunta 1)
edad (pregunta 2)
peso (pregunta 3)
talla (pregunta 4)
ing.fam (pregunta 5: Ingreso familiar mensual: S/.)
mie.fam (pregunta 6: N de miembros en la familia)
g.estud (pregunta 7: Gastos de estudio medio mensual S/.)
cr.aprob (pregunta 8: Crditos aprobados acumulados)
prom.acum (pregunta 9: Promedio ponderado acumulado)
t.viv (pregunta 10: En que tipo de vivienda reside?)
n.dormit (pregunta 11: N de dormitorios)
horas.tv (pregunta 12: Horas semanales de TV)
hrs.estu (pregunta 13: Horas de estudio semanal fuera de clase)
lib.leidos (pregunta 14: N de libros ledos el 2008)
hobby (pregunta 15: Cul es tu principal hobby?)
imp.estudio (pregunta 16: Importancia de tus estudios)
imp.fsico (pregunta 17: Importancia de tu fsico)
14
15
16
En la parte inferior del Editor de datos SPSS (ver figura 1.3) se observan dos vistas:
una Vista de datos (donde se ingresan los datos para cada una de las variables en
estudio) y otra Vista de variables (donde se definen las variables en estudio).
Justamente la fig. 1.3 muestra la Vista de variables, en cada fila se van definiendo las
variables en el mismo orden como aparecen en el cuestionario (o como el investigador
quiera definirlas para clculos estadsticos particulares).
Para cada Variable (o caracterstica en estudio) debemos indicar: nombre, tipo,
anchura, decimales, etiqueta, valores, perdidos, columnas, alineacin y medida;
tomando en cuenta algunas de las recomendaciones que a continuacin sealamos.
Nombre
El nombre de la variable debe comenzar con una letra del alfabeto espaol y luego
utilizar las combinaciones de letras, dgitos o smbolos que se estimen necesarias
de modo que con a lo ms 64 caracteres juntos (sin espacio en blanco) resuman el
significado de la variable o toda una pregunta del cuestionario.
Si el cuestionario contiene un nmero grande de preguntas se recomienda definir
cada una de las variables (preguntas) de la siguiente manera: pgta_01, pgta_02,
. , pgta_150 y en el momento de definir la etiqueta de la variable indicar la
pregunta formulada.
En general, al especificar del nombre de las variables se debe tener en cuenta:
Debe comenzar por una letra y los dems caracteres pueden ser letras, dgitos,
puntos o los smbolos #, @, _ o $.
El nombre de variable no puede terminar en punto.
El nombre de la variable debe ser nico; no se aceptan duplicados.
No utilizar caracteres especiales (por ejemplo: !, ?, ' y *).
Hay palabras reservadas que no se pueden utilizar como nombres de variable;
estas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
Establecido el nombre de la variable, presionar Enter, inmediatamente el cursor se
ubica en Tipo (donde aparece automticamente Numrico), con el que se
comienza indicar algunas especificaciones de la variable.
17
Tipo
Seleccionar el tipo de datos que se espera para la variable. En funcin del tipo
escogido se visualizan los valores de la variable y stos estarn disponibles slo
para aquellas operaciones que son esperables para los mismos.
Para definir, ubquese en la casilla de Tipo, pulse el botn con los puntos
suspensivos despus de la palabra Numrico y aparece el cuadro de dilogo
mostrado en la Figura 1.4, en el que se observa los tipos de variables siguientes:
Numrico.- define una variable cuyos valores son nmeros, los mismos que
aparecen sin separadores cada tres posiciones.
Coma.- define una variable numrica cuyos valores se muestran con comas de
separacin cada tres posiciones y con un punto como separador de la parte
decimal.
Punto.- define una variable numrica cuyos valores se muestran con puntos de
separacin cada tres posiciones y con una coma como separador de la parte
decimal. El editor de datos acepta valores numricos para este tipo de variables,
con o sin puntos, o en notacin cientfica.
Notacin cientfica.- define una variable numrica cuyos valores se muestran
con una E intercalada y un exponente con signo que representa una potencia de
base diez. El editor de datos acepta valores numricos con o sin el exponente
para estas variables. El exponente puede ir precedido de E o D con un signo
18
opcional, o por el signo solamente. Por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2,
o incluso 1,23+2.
Fecha.- define una variable numrica cuyos valores se muestran en uno de los
diferentes formatos de fecha-calendario u hora-reloj. Seleccionar una plantilla de
la lista desplegable. Se puede introducir las fechas utilizando como
delimitadores: barras, guiones, puntos, comas o espacios en blanco. El rango de
siglo para los aos de dos dgitos se toma de las opciones de configuracin
(Men Edicin, Opciones, pestaa Datos)
Dlar.- define una variable numrica cuyos valores contienen un signo de dlar,
una coma para la separacin de los decimales y mltiples puntos.
Moneda personalizada.- define una variable numrica cuyos valores se muestran
en uno de los formatos de moneda personalizados que se hayan definido
previamente en la pestaa Moneda del cuadro de dilogo Opciones del men
Edicin. Los caracteres definidos en la moneda personalizada no pueden
emplearse para la introduccin de datos pero s los mostrar el editor de datos.
Cadena.- define una variable cuyos valores no son numricos; por lo tanto, no se
utilizan en los clculos. Tambin son conocidas como variables alfanumricas.
Pueden contener diferentes caracteres hasta la longitud definida. Las letras
maysculas y las minsculas son consideradas diferentes.
Anchura
Establecer el nmero mximo de caracteres que contienen los valores de la
variable. Automticamente aparecen 8 caracteres.
Decimales
Determina el nmero de decimales para los valores de la variable. Si la variable es
tipo fecha o cadena, automticamente aparecen 0 decimales y si es tipo numrica,
aparecen por defecto, 2 decimales.
Etiqueta
En este recuadro se indica el nombre completo de la variable o la pregunta
correspondiente formulada en el cuestionario hasta un mximo de 255 caracteres y
espacios en blanco. Se recomienda escribirla toda con maysculas, ya que esta
19
20
Como se puede observar en la Figura 1.6, por defecto aparece No hay valores
perdidos; adems existe la posibilidad que el usuario defina tres Valores
Perdidos Discretos o defina un Rango ms un valor perdido discreto opcional
21
(un rango de valores perdidos definido por sus dos extremos junto con un solo
valor discreto individual). Se debe tener presente que slo se pueden definir
rangos para variables de tipo numrico y que no se pueden definir valores
perdidos para variables de cadena larga (con ms de 8 dgitos).
Columnas
Al igual que Anchura por defecto define un ancho de 8 para las Columnas de la
base de datos. De requerirse otro ancho, hay que definirlo ubicndose en la casilla
de Columnas y veremos que al extremo opuesto del 8 aparece un botn con un
tringulo hacia arriba para aumentar el ancho y otro tringulo hacia abajo para
disminuir dicho ancho de columna. Tambin lo puede cambiar haciendo doble clic
en la correspondiente casilla de Columnas para la variable que esta definiendo y
digitar el ancho de columna deseado.
Alineacin
Se tiene que escoger como van a estar alineados los valores en la base de datos,
por defecto aparece Derecha. Si quiere modificar la Alineacin de valores para la
variable que esta definiendo, ubquese en la correspondiente casilla de alineacin
y haga clic en el botn que aparece al costado de Derecha e inmediatamente se
despliegan las tres posibles opciones de alineacin Izquierda, Derecha y Centrado,
debiendo escoger la opcin deseada haciendo clic sobre la palabra.
Medida
Indica el tipo de medicin que le corresponde a la variable que estamos
definiendo, por defecto aparece Escala. Si quiere modificar la Medida para la
variable que esta definiendo, ubquese en la correspondiente casilla de medida y
haga clic en el botn que aparece al costado de Escala e inmediatamente se
despliegan las tres posibles opciones de medida: Escala, Ordinal y Nominal,
debiendo escoger la opcin deseada haciendo clic sobre la palabra.
Escala.- es utilizada para variables numricas, como por ejemplo, las variables
edad, peso, talla, etc.
Nominal.- es utilizada para representar los valores de cualidades, atributos o
categoras sin un orden particular (por ejemplo, sexo; hobby, etc.). Las medidas
22
23
Dando doble clic sobre el icono anterior, se inicia el programa R, el cursor por defecto
es el smbolo > indica que R esta listo para recibir y ejecutar un comando.
24
25
Tambin se puede leer la base de datos, en forma parecida a la anterior, slo que
en vez de file.choose se debe colocar entre comillas la ruta que contiene el
archivo, as:
>
caso1=read.table("D:/Beatriz/UNAC/Investigacin/Proyecto
26
Estadstica
Caso 2.- Desde un archivo en Excel con extensin csv, en la que se ha definido los 20
campos (incluyendo los encabezados con el nombre de la variable) y los 60 registros,
se ha grabado como libro de Excel y como tipo CSV (delimitado por comas). La base
de datos se denomina Estadstica Bsica 09A-copia.csv. Se procede copiando en R la
siguiente sintaxis: > caso2=read.table(file.choose(),header=T,sep=",")
Al hacer enter, inmediatamente aparece una ventana de dilogo idntica a la de la
Figura 1.9, solicitando la ruta correspondiente para escoger el archivo con separador
de comas (sep=,) aqu la base de datos (Estadstica Bsica 09A-copia.csv) que se
desea abrir. Una vez escogida la base de datos, hacer clic en Abrir y la base de datos
queda almacenada en R con la denominacin del objeto: caso2, el mismo que contiene
20 campos y 60 registros idnticos a los del caso1. Es decir, que lo que cambia es la
forma de efectuar la lectura.
Para que el R junte y reconozca las variables escribir: > attach(caso2)
Tambin se puede leer la base de datos, en forma parecida a la anterior, slo que
en vez de file.choose se debe colocar entre comillas la ruta que contiene el
archivo, as:
>
caso2=read.csv("D:/Beatriz/UNAC/Investigacin/Proyecto
Estadstica
27
28
29
a) Guardar y Guardar como.Guardar como: es el proceso inicial de almacenamiento en una unidad de disco
de una base de datos creada para volver a trabajar con ella en otro momento.
Guardar: es el archivamiento continuo que se hace sobre una base de datos ya
guardada y en la que se han efectuado cambios que se deben guardar antes de
cerrarla.
Para Guardar en EXCEL:
-
30
31
32
33
34
Para Guardar en R:
-
35
b) Cerrar.Una vez que se termina de trabajar con un archivo, se guarda y se procede a salir
de ste as:
-
En Excel:
Elija el Botn de Office y luego la opcin Cerrar. Cierra el libro y puede
seguir trabajando con el programa Excel.
Otra manera es utilizar el botn Cerrar ventana
En MINITAB:
Elija el botn File (Archivo) de la barra de men y luego la opcin Close
Worksheet (Cerrar hoja de trabajo). Cierra la hoja de trabajo y puede seguir
usando el programa Minitab.
Otra manera es utilizar el botn Cerrar
En SPSS:
Elija el botn Archivo de la barra de men y luego la opcin Salir,
inmediatamente sale la pregunta Desea guardar el contenido del Visor de
resultados en resultados 1 [Dokument 1]? Al escoger S, indique la carpeta
36
En R:
Se recomienda previamente Guardar rea de trabajo, luego elija el botn
Archivo de la barra de men y luego la opcin Salir, inmediatamente sale la
pregunta
programa.
Otra manera es utilizar el botn Cerrar
En MINITAB:
Si ha ingresado al programa, automticamente tiene un Worksheet 1 (hoja de
trabajo 1) o si no, elija el botn File y luego la opcin Nuevo. Otra manera es
utilizar la combinacin de teclas: Ctrl + N.
En SPSS:
Si ha ingresado al programa, automticamente tiene una hoja Sin ttulo
[Conjunto_de_datos0] Editor de datos SPSS (donde se definen las variables
y se ingresan los datos del estudio) donde vamos a definir la base de datos.
Si esta trabajando en SPSS, elija el botn File, luego la opcin Nuevo y escoja
Datos, apareciendo una hoja Sin ttulo 1 [Conjunto_de_datos1] Editor de datos
SPSS.
37
En R:
Proceder conforme se ha indicado en el acpite 1.2 Definicin de variables en R.
En MINITAB:
Elija el botn File y luego la opcin
teclas: Ctrl + O) u
carpeta donde esta guardado el archivo, ubique el nombre y tipo, luego haga clic
en el botn Abrir.
En SPSS:
Elija el botn File, luego la opcin Abrir y escoja Datos. En el cuadro de
dilogo, seleccione la carpeta donde esta guardado el archivo, ubique el nombre
y tipo, luego haga clic en el botn Abrir.
En R:
Proceder conforme se ha indicado en el acpite 1.2 Definicin de variables en R.
Nota.- en R tambin se puede definir una variable por separado como un objeto,
presentado como un vector, de tal manera que cada vez que se especifique el
programa reconoce sus valores. Por ejemplo, la variable peso de la base de datos
caso2, se ingresa as:
>peso=c(68,69, 63, 55, 57, 48, 50, . , 67, 77, 53)
El programa R reconoce en el objeto peso, los pesos de los 60 alumnos.
38
peso
imc
talla
IMC (Kg./m2)
Menos de 18.5
Sobrepeso
25 30
Obeso
30 - 40
Obesidad morbida
18.5 25
40 y ms
En la base de datos EB-09A el peso esta en Kg. y la talla est en cm. La talla debe
transformarse en una nueva variable, por ejemplo: talla_m = talla en metros, para
poder calcular la variable imc con los datos transformados de la siguiente manera:
En Excel:
Los resultados aparecen en la Figura 1.20, en la que aparece la base de datos EB09A con los datos de peso (columna D); talla en cm. (columna E); talla_m en
metros (columna U) obtenidos dividiendo cada dato de la columna E entre 100; imc
39
, estando en V2
=D2/(U^2)
En MINITAB:
Para transformar la talla en centmetros a metros (talla_m) se tiene que escoger de la
barra de men la opcin Calc, luego Calculator (calculadora) y aparece la ventana
de dilogo de la Figura 1.21. Definida en la hoja de clculo la variable talla_m, en
Store result in variable (almacenar resultado en variable) escribir talla_m y en
Expression (expresin) escribir talla / 100, para terminar clic en OK y
automticamente aparece el clculo en la columna talla_m en la base de datos
Current data window (ver la Figura 1.21).
40
En SPSS:
Para transformar la talla en centmetros, a metros (talla_m) se tiene que escoger de
la barra de men la opcin Transformar, Calcular variable y aparece la ventana
de dilogo Calcular variable de la Figura 1.22. En Variable de destino: escribir
talla_m. Haciendo clic en Tipo y etiqueta definir etiqueta (el nombre de la variable)
TALLA (m.) y el Tipo: numrica. En Expresin numrica: escribir talla / 100. Para
terminar el clculo hacer clic en Aceptar y aparece la variable talla_m con sus
valores en la Vista de datos, del Editor de datos SPSS, ver la Figura 1.28.
41
42
En Excel:
Estando en W2, la condicin (columna W) se calcula en la barra de frmulas con la
expresin lgica siguiente:
=SI(V2<18.5,"Delgado",SI(V2<25,"Normal",SI(V2<30,"Sobrepeso",SI(V2<40,"Ob
eso","Obesidad morbida")))).
Luego se hace una copia para los dems datos de la columna W, los resultados se
observan en la Figura 1.20.
En MINITAB:
De la barra de men escoger la opcin Data, luego Code (cdigo) y Numeric to
text (numrico a texto) porque se desea recodificar valores numricos en texto, ver
la Figura 1.23, tambin se puede apreciar otros tipos de recodificacin.
43
En Code data from columns: (cdigo de datos desde las columnas) seleccionar de
las variables a la izquierda imc o escribirla. En Store couded data in columns:
(almacenar datos codificados en la columna) seleccionar de las variables de la
izquierda condicin o escribirla.
A continuacin en Original values (valores originales) se va definiendo uno a uno
los intervalos definidos en el Cuadro 1.1, separndolos por dos puntos (:) y en New
los nuevos valores en texto.
Observar que el primer intervalo es para imc menor de 18.5, en Original values: se
coloca desde un valor muy bajo, que aqu se ha tomado el 0, por eso se escribe 0 :
18.49 (de ser necesario se agregan ms nueves en los decimales, para estar ms
cerca a 18.5) y en New: Delgado. El siguiente intervalo va de 18.5 hasta antes de 25,
en Original values: se escribe 18.5 : 24.99 y en New: Normal. As sucesivamente,
para el ltimo intervalo de 40 a ms, en Original values: se escribe 40 : 100 (o un
valor ms alto para que no queden datos sin recodificar) y en New: Obesidad
mrbida. Para finalizar la recodificacin hacer clic en OK y en la base de datos
(Current data window) aparecen los datos de condicin (ver Figura 1.25).
44
En SPSS:
De la barra de men escoger la opcin Transformar, luego hacer clic sobre
Recodificar en distintas variables (si se escoge Recodificar en las mismas
variables, se pierden los valores originales ya que son reemplazados por los
recodificados). Aparece la ventana de dilogo Recodificar en distintas variables de
la Figura 1.26.
45
Observar que el primer intervalo es para imc menor de 18.5, en Valor antiguo, en
Rango, MENOR hasta valor se escribe 18.49 (de ser necesario se agregan ms
nueves en los decimales, para estar ms cerca a 18.5) y en Valor nuevo, en Valor
escribir 1, luego hacer clic en aadir. El siguiente intervalo va de 18.5 hasta antes de
25, en Valor antiguo, en Rango: se escribe 18.5 hasta 24.99 y en Valor nuevo
escribir 2, luego hacer clic en aadir. As sucesivamente, para el ltimo intervalo de
40 a ms, en Valor antiguo, RANGO, valor hasta MAYOR se escribe 40 y en Valor
nuevo, en Valor escribir 5, luego clic en aadir.
46
Figura 1.27 Recodificar Valores antiguos del IMC y nuevos de Condicin en SPSS
En R:
Antes de crear la Condicin, debemos crear los intervalos del Cuadro 1.1, as:
> caso2=transform(caso2,condi=cut(imc,breaks=c(0,18.4999, 24.9999,29.9999,
39.9999,max(imc))))
> table(condi)
condi
(0,18.5] (18.5,25] (25,28.7] (28.7,30]
4
49
(30,40]
0
Normal Sobrepeso
49
Con la sintaxis: > fix(caso2) obtenemos la hoja del R, donde aparecen las etiquetas
de Condicin que se muestran en la Figura 1.29.
n_cuest sexo edad peso talla ing.fam mie.fam g.estud cr.aprob prom.acum
4
20 55
173
1200
60
42
2
49
12.4
Introduccin.
Cuadros estadsticos.
Distribucin de frecuencias.
Grficos estadsticos.
Grficos de variables cualitativas.
Grficos de frecuencias.
Diagrama de tallos y hojas.
2.1 INTRODUCCIN
Uno de los propsitos fundamentales de la estadstica es la reduccin de datos,
la misma que se puede efectuar mediante la presentacin de datos de tres maneras:
cuadros o tablas estadsticas, grficos y texto.
Se recomienda la aplicacin de todas ellas; siendo primordial la construccin del
cuadro estadstico con los datos, para poder realizar la presentacin grfica y/o
textual que permita describir, establecer relaciones y/o explicar las variables en
estudio, contribuyendo as a la aplicacin del mtodo cientfico.
En este captulo se desarrollan los temas relacionados a cuadros estadsticos,
tablas de frecuencias y algunas formas de presentacin grfica tanto para variables
cualitativas como cuantitativas.
2.2 CUADROS ESTADSTICOS
En la estadstica, como ciencia de la observacin, se emplean las tablas o cuadros
estadsticos para resumir la informacin estadstica (datos) obtenida mediante
encuestas, experimentos, registros administrativos, etc.
a) Definicin.- un cuadro estadstico es un arreglo matricial que contiene las
variables con sus correspondientes categoras y los datos observados de
50
NMERO
TTULO
COLUMNA
ENCABEZAMIENTO
MATRIZ
PIE
CUERPO
NOTAS
LLAMADAS
FUENTE
Observacin:
- Hay una reciprocidad entre el ttulo y lo que aparece despus de l, pues
el cmo? del ttulo permite ubicar las variables en el encabezamiento y
en la columna matriz; y viceversa, observando las variables en el
encabezamiento y en la columna matriz se puede poner el ttulo.
- Cuando en el ttulo del cuadro no se indica el lugar de observacin,
significa que corresponde al pas.
- La ubicacin de variables en el encabezamiento y en la columna matriz
es indistinto, depende del criterio del investigador, pudiendo ser stas de
cualquiera de los tipos definidos.
- Si los aos observados son consecutivos, se recomienda colocar 2000-07
y si slo son dos aos, indicar 2000 y 2007.
Agricultura
Total
Columna Matriz.- es la parte del cuadro que contiene las variables que
aparecen en el ttulo despus de la palabra SEGN y sus correspondientes
categoras o rangos, generando las filas del mismo.
Recomendaciones:
- Indicar en forma breve y precisa las variables a la altura del
encabezamiento (con maysculas) y debajo sus categoras o rangos al
lado del cuerpo del cuadro (con mayscula y minsculas).
- Escribir preferentemente en forma horizontal. Si hay ms de una
variable, diferenciar las categoras con subrayado y/o negrita.
- Segn sea el caso, ordenar las columnas tomando en cuenta un
ordenamiento: natural, geogrfico, importancia o alfabtico.
- Si hay que indicar unidad de medida, colocarla en la fila correspondiente.
- Cada cierto nmero de filas dejar espacio en blanco para no cansar al
lector.
53
Pie.- es la parte inferior del cuadro, donde se colocan las notas, llamadas y
la fuente de los datos. Es recomendable, no abusar en el uso de notas y
llamadas; as mismo ordenarlas alfabtica y numricamente.
Notas.- Son aclaraciones breves referidas a algn aspecto general del ttulo
del cuadro o definicin de alguna variable. Se efecta colocando en el
margen izquierdo, de la primera lnea del pie, la palabra Nota: detallando lo
que se desea aclarar.
54
Agricultura
Total
2000
2001
2002
2003
2004
2005
2006
2007
Fuente: Instituto Nacional de Estadstica e Informtica.
55
d) Formas de obtencin.Habiendo definido una base de datos, la forma ms sencilla de obtener cuadros
estadsticos es con el SPSS, ya que tiene la ventaja de reconocer las etiquetas
(texto) para variables categricas (codificadas numricamente). Con los otros
programas tambin se obtiene cuadros, slo que hay que efectuar previamente
recodificaciones de valores numricos a texto.
Veamos la obtencin de un cuadro bidimensional con las variables hobby (en
las filas) y sexo (en las columnas) con SPSS y luego con Minitab.
En SPSS:
De la barra de men escoger Analizar Estadsticos descriptivos Tabla
de contingencia, aparece la ventana de dilogo de la Figura 2.2.
56
Entre las variables que aparecen al lado izquierdo, hacer clic sobre la variable
HOBBY e ingresarla debajo del recuadro Filas haciendo clic en el botn
luego hacer clic sobre la variable SEXO e ingresarla debajo del recuadro
Columnas haciendo clic en el botn
Observadas y
la tabla va mostrar en las Casillas, los resultados del conteo (nmero de casos).
En Porcentajes, los recuadros al costado de Fila, Columna y Total aparecen
sin check.
Si hacemos clic al costado de
de casos en cada fila, de modo tal que en el cuadro los totales de fila van a
sumar 100%. Del mismo modo, si hacemos clic al costado de
Columna, el
programa saca porcentaje sobre el total de casos en cada columna, de modo tal
que en el cuadro los totales de columna van a sumar 100%. Finalmente si
hacemos clic al costado de
de casos, de modo tal que en el cuadro la suma de los porcentajes de todas las
casillas es el 100%.
57
Observadas, el cuadro de
salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
Recuento
HOBBY
Deportes
Mus ica
Baile
TV / Cine
Otros
Total
SEXO
Hombre
Mujer
14
1
14
13
1
3
4
8
0
2
33
27
Total
15
27
4
12
2
60
CUADRO 2.2 ALUMNOS DE ESTADSTICA BSICA, DE LA FCEUNAC, POR SEXO, SEGN HOBBY: 09-A
SEXO
HOBBY
Hombre
Mujer
Total
Deportes
14
15
Msica
14
13
27
Baile
TV / Cine
12
Otros
Total
33
27
60
58
Observadas y en porcentajes
HOBBY
Deportes
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Recuento
% de HOBBY
Musica
Baile
TV / Cine
Otros
Total
SEXO
Hombre
Mujer
14
1
93.3%
6.7%
14
13
51.9%
48.1%
1
3
25.0%
75.0%
4
8
33.3%
66.7%
0
2
.0%
100.0%
33
27
55.0%
45.0%
Total
15
100.0%
27
100.0%
4
100.0%
12
100.0%
2
100.0%
60
100.0%
Columna, el cuadro de
salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
% de SEXO
HOBBY
Total
Deportes
Mus ica
Baile
TV / Cine
Otros
SEXO
Hombre
Mujer
42.4%
3.7%
42.4%
48.1%
3.0%
11.1%
12.1%
29.6%
7.4%
100.0%
100.0%
Total
25.0%
45.0%
6.7%
20.0%
3.3%
100.0%
Sobre los mismos 60 alumnos, se puede apreciar que del total de hombres
(33 alumnos = 100.0%) el 42.4% gustan de los Deportes, otro 42.4%
Msica, el 3.0% Baile y el 12.1% TV/Cine. Anlisis similar se hace para
mujeres y para el total de alumnos.
59
Total, el cuadro de
salida es el siguiente:
Tabla de contingencia HOBBY * SEXO
% del total
HOBBY
Total
Deportes
Mus ica
Baile
TV / Cine
Otros
SEXO
Hombre
Mujer
23.3%
1.7%
23.3%
21.7%
1.7%
5.0%
6.7%
13.3%
3.3%
55.0%
45.0%
Total
25.0%
45.0%
6.7%
20.0%
3.3%
100.0%
En Minitab:
De la barra de men escoger Stat Tables Descriptive Statistics aparece
la ventana de dilogo de la Figura 2.4.
De las variables que aparecen al lado izquierdo, hacer clic sobre la variable
hobby que va ir en las filas (rows) e ingresarla en el recuadro en blanco al
60
costado de For rows: haciendo clic en el botn Select, luego hacer clic sobre
la variable sexo que va ir en las columnas (columns) e ingresarla al costado de
For columns: haciendo clic en el botn Select.
Si hacemos clic en el botn Categorical variables se abre la ventana de
dilogo de la Figura 2.5, en la que se escoge que debe aparecer en las casillas,
de manera similar al SPSS.
Count y la tabla va
sobre el total de casos en cada fila, de modo tal que en el cuadro los totales de
fila van a sumar 100%. Del mismo modo, si hacemos clic al costado de
Column percents, el programa saca porcentajes sobre el total de casos en cada
columna, de modo tal que en el cuadro los totales de columna van a sumar
100%. Finalmente si hacemos clic al costado de
saca porcentaje sobre el total de casos, de modo tal que en el cuadro la suma de
los porcentajes de todas las casillas es el 100%.
Al igual que en el SPSS se tiene que escoger lo que se desea mostrar en las
casillas, escogido lo que va aparecer en las casillas, hacer clic en el botn OK,
regresa a la Figura 2.4, para terminar el cuadro hacer clic en OK.
Veamos algunos resultados:
Si para las casillas escogemos slo frecuencias
es el siguiente:
61
1
2
3
4
5
All
Columns: sexo
All
14
14
1
4
0
33
1
13
3
8
2
27
15
27
4
12
2
60
Columns: sex
Hombre
Mujer
All
1
14
14
0
4
33
3
1
13
2
8
27
4
15
27
2
12
60
Baile
Deportes
Msica
Otros
TV/Cine
All
62
Row percents,
Columns: sex
Hombre
Mujer
All
Baile
1
25.00
3
75.00
4
100.00
Deportes
14
93.33
1
6.67
15
100.00
Msica
14
51.85
13
48.15
27
100.00
Otros
0
0.00
2
100.00
2
100.00
4
33.33
8
66.67
12
100.00
33
27
60
TV/Cine
All
En SPSS:
De la barra de men escoger Analizar Estadsticos descriptivos Tabla
de contingencia, aparece la ventana de dilogo de la Figura 2.2.
Se ingresa la variable hobby en Filas, sexo en Columnas y especial en Capa
1 de 1. Si desea escoge Casillas para indicar que va aparecer en las mismas,
veamos slo valores observados. La tabla es la que muestra la Figura 2.5.
La tabla se puede editar haciendo doble clic sobre ella en SPSS o copiarla en
Word y efectuar las modificaciones necesarias. El nmero y ttulo son:
CUADRO 2.3 ALUMNOS DE ESTADSTICA BSICA, DE LA FCEUNAC, POR SEXO, SEGN ESPECIALIZACIN Y HOBBY: 09-A
63
HOBBY
Total
HOBBY
Deportes
Musica
TV / Cine
Deportes
Musica
Baile
TV / Cine
Otros
Total
SEXO
Hombre
Mujer
5
0
3
3
0
2
8
5
9
1
11
10
1
3
4
6
0
2
25
22
Total
5
6
2
13
10
21
4
10
2
47
Columns: sex
Hombre
Mujer
All
1
9
11
0
4
25
3
1
10
2
6
22
4
10
21
2
10
47
Baile
Deportes
Msica
Otros
TV/Cine
All
Cell Contents:
Count
Columns: sex
64
Baile
Deportes
Msica
Otros
TV/Cine
All
Hombre
Mujer
All
0
5
3
0
0
8
0
0
3
0
2
5
0
5
6
0
2
13
65
A continuacin,
derecho, sobre el mensaje Coloque campos de fila aqu; del mismo modo
arrastrar la variable SEXO sobre el mensaje Coloque campos de columna
aqu. Al volver a arrastrar la variable SEXO sobre el Cuerpo del cuadro en
el mensaje Coloque datos aqu, se obtiene la tabla dinmica requerida con el
resultado de los conteos visto en las tablas anteriores (ver Figura 2.8).
Para obtener porcentajes sobre las filas, las columnas o el total como en SPSS
y Minitab, se debe arrastrar nuevamente la variable de conteo (SEXO) en
el Cuerpo del cuadro, sobre el rea de lo que fue el mensaje Coloque datos
aqu. En las filas aparece Cuenta de SEXO y Cuenta de SEXO2. Al hacer
doble clic sobre Cuenta de SEXO2, aparece la ventana de dilogo
Configuracin de campo de valor, hacer clic en el botn Mostrar valores
como aparece Normal, hacer clic en la flecha de seleccin
y se puede
66
Figura 2.9 Tabla dinmica para Sexo y Hobby con porcentajes en Excel
67
Para obtener tablas con el programa R, primero se definen las variables como
objetos. Tal como se plantea en el acpite 1.7 Manipulacin de archivos, leda
la base de datos como caso2, al escribir >attach(caso2) y efectuar enter, se
identifican las variables con el nombre en el encabezado. Tambin se pueden
crear las variables como objetos, separndolos con punto y coma, as:
> hobby=caso2[,16] ; sexo=caso2[,2] ; especializacin=caso2[,20]
La tabla bidimensional con la variable hobby en las filas y sexo en las
columnas, se obtiene as:
> table(hobby,sexo)
sexo
hobby
1 14
2 14 13
3
68
, , especial = 2
sexo
hobby
2 11 10
3
Hombres Mujeres
Deporte
14
Msica
14
13
Baile
TV/Cine
Otro
> prop.table(t1)
sexo
hobby
Hombres
Mujeres
0.23333333 0.21666667
69
Baile
0.01666667 0.05000000
0.00000000 0.03333333
> t2
, , especial = Teora Econmica
sexo
hobby
Hombres Mujeres
Deporte
Msica
Baile
TV/Cine
Otro
Hombres Mujeres
Deporte
Msica
11
10
Baile
TV/Cine
Otro
> prop.table(t2)
, , especial = Teora Econmica
sexo
hobby
Hombres
Mujeres
70
0.05000000 0.05000000
Baile
0.00000000 0.00000000
0.00000000 0.00000000
Hombres
Mujeres
0.18333333 0.16666667
Baile
0.01666667 0.05000000
0.00000000 0.03333333
Para conservar los valores originales en la base de datos caso2 y poner etiquetas,
se debe cambiar el nombre de la variable.
71
N de U.A.
(ni)
n1
n2
.
nk
n
Proporcin
de U.A (hi)
h1
h2
.
hk
1
% de U.A.
(100 hi)
p1
p2
.
pk
100%
De las variables al lado izquierdo escogemos hobby, haciendo doble clic o clic
en el botn
HOBBY
Deportes
Musica
Baile
TV / Cine
Otros
Total
ALUMNOS
15
27
4
12
2
60
% DE
ALUMNOS
25.0
45.0
6.7
20.0
3.3
100.0
73
Counts,
marcar tambin Percents, luego OK y aparecen los resultados del Cuadro 2.4.
Tally for Discrete Variables: hoby
hoby
Baile
Deportes
Msica
Otros
TV/Cine
N=
Count
4
15
27
2
12
60
Percent
6.67
25.00
45.00
3.33
20.00
Msica
15
27
Baile TV/Cine
4
Otro
12
74
Valores
(X i)
N de
U.A.
(n i)
Proporc.
U.A.
(h i)
% U.A.
pi = 100 h i
N
Acum
U.A.
(N i)
Prop.
Acum.
U.A.
(H i)
% Acum.
U.A.
P i =100H i
1
2
.
k
X1
X2
.
Xk
n1
n2
.
nk
h1
h2
.
hk
p1
p2
.
pk
N1
N2
.
Nk =
n
H1
H2
.
Hk = 1
P1
P2
.
Total
100%
Donde: Ni = Ni - 1 + ni ,
hi = ni / n = Hi - Hi - 1 ,
Pk =
100%
Hi = Ni / n = Hi - 1 + hi
los resultados del Cuadro 2.5 editado en spss haciendo doble clic.
Alumnos
2
5
11
27
8
5
1
1
60
75
% de
Alumnos
3.3
8.3
18.3
45.0
13.3
8.3
1.7
1.7
100.0
Porcentaje
acumulado
3.3
11.7
30.0
75.0
88.3
96.7
98.3
100.0
Proporcin
alumnos
(hi)
Porcentaje
alumnos
(p i = 100 h i)
N acum.
alumnos
(Ni)
Prop. acum.
alumnos
(Hi)
2
3
4
2
5
11
0.033
0.083
0.183
3.3%
8.3%
18.3%
2
7
18
0.033
0.117
0.300
5
6
7
8
9
Total
27
8
5
1
1
60
0.450
0.133
0.083
0.017
0.017
1.000
45.0%
13.3%
8.3%
1.7%
1.7%
100.0
45
53
58
59
60
0.750
0.883
0.967
0.983
1.000
Miembros en la
Familia (X i)
Cumulative percents, luego OK y aparecen los resultados del Cuadro 2.5, tal
como se aprecia a continuacin:
Tally for Discrete Variables: mie.fam
mie.fam
2
3
4
5
6
7
8
9
N=
Count
2
5
11
27
8
5
1
1
60
CumCnt
2
7
18
45
53
58
59
60
Percent
3.33
8.33
18.33
45.00
13.33
8.33
1.67
1.67
CumPct
3.33
11.67
30.00
75.00
88.33
96.67
98.33
100.00
> attach(caso2)
> table(mie.fam)
mie.fam
2
5 11 27
LSi
Intervalo 1
[Xmn
Xmn + C)
Intervalo 2
[Xmn + C
Xmn + 2C)
Intervalo 3
[Xmn + 2C
Xmn + 3C)
Intervalo k 1
[Xmn + (k 2)C
Xmn + (k 1)C)
Intervalo k
[Xmn + (k 1)C
Xmn + kC]
..
Xi
LI i
LSi
2
77
, i = 1, 2, ., k
1
2
.
k
LI1 -LS1
LI2 LS2
.
LIk LSk
Marca
clase
(X i)
N de
U.A.
(n i)
Proporc.
U.A.
(h i)
% U.A.
pi =
100 h i
#
Acum
U.A.
(N i)
Prop.
Acum.U.A.
(H i)
% Acu.
Pi =
X1
X2
.
Xk
n1
n2
.
nk
h1
h2
.
hk
p1
p2
.
pk
N1
N2
.
Nk = n
H1
H2
.
Hk = 1
P1
P2
.
100%
Total
100 H i
Pk =
100%
Donde: N1 = n1, Ni = Ni - 1 + ni , hi = ni / n , H1 = h1 , Hi = Ni / n = Hi - 1 + hi
Vamos a obtener una tabla de frecuencias, con k = 5 intervalos, para los pesos
de los alumnos de Estadstica Bsica 2009-A, cuyos datos aparecen en el
Anexo y de manera ordenada se muestran en el Cuadro 2.6 siguiente:
CUADRO 2.6. PESOS (Kg.) DE LOS 60 ALUMNOS DE ESTADISTICA BSICA 09-A UNAC
44
50
53
57
65
70
45
50
53
59
66
72
46
50
53
60
66
72
46.5
50.5
54
60
67
75
47
51
55
63
67
75
48
51
55
63
68
77
48
52
55
64
68
80
49
52
55
64
68
80
78
49
52.6
55
64.5
69
80
50
53
57
65
70
88
Para obtener las frecuencias absolutas (ni) en Excel, es necesario sombrear las
celdas donde se deposita el resultado automtico de los conteos, que en este
caso es en la columna G, de la celda G12 a la G16, tal como se muestra en la
Figura 2.12. A continuacin, con la opcin de funciones
79
los lmites superiores de los intervalos, que estn en las celdas de E12 hasta
E16).
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
% de
Acum. Prop.Ac. % Acum.
Alum-nos
alumnos alumnos alumnos alumnos alumnos
clase
Xi
ni
hi
100hi
Ni
Hi
100 Hi
48.4
19
0.317
31.7%
19
0.317
31.7%
57.2
15
0.250
25.0%
34
0.567
56.7%
66.0
17
0.283
28.3%
51
0.850
85.0%
74.8
5
0.083
8.3%
56
0.933
93.3%
83.6
4
0.067
6.7%
60
1.000 100.0%
60
1.000 100.0%
80
N4 = 56, hay 56 alumnos que pesan menos de 79.2 Kg. cada uno.
H3 = 0.85, 85% de los alumnos pesan menos de 70.4Kg. cada uno.
Para obtener Tablas de frecuencias con el Minitab, el SPSS y el R, se tiene que
proceder con la recodificacin de datos planteada en el acpite 1.6. Veamos:
En Minitab.De la barra de men escoger la opcin Data, luego Code (cdigo) y Numeric
to text (numrico a texto) porque se desea recodificar valores numricos en
texto (la denominacin de los intervalos). Aparece la ventana de dilogo de la
Figura 2.14.
81
en New los nuevos valores en texto para representar los intervalos, tal como se
muestra en la Figura 2.14.
Para finalizar la recodificacin hacer clic en OK y en la base de datos (Current
data window) aparecen los datos de pesos (ver Figura 2.15).
Count
19
15
17
CumCnt
19
34
51
82
Percent
31.67
25.00
28.33
CumPct
31.67
56.67
85.00
70.4 - 79.2
79.2 - 88.0
N=
5
4
60
56
60
8.33
6.67
93.33
100.00
En SPSS.De la barra de men escoger la opcin Transformar, luego hacer clic sobre
Recodificar en distintas variables. Aparece la ventana de dilogo Recodificar
en distintas variables de la Figura 2.17.
83
Figura 2.18 Recodificar Valores antiguos del peso y nuevos de pesos en SPSS
84
Rango: se escribe 79.8 hasta 88.0 y en Valor nuevo, en Valor escribir 5, luego
clic en aadir.
Para finalizar la recodificacin, al hacer clic en Continuar regresa a la ventana
de la Figura 2.17.
Luego hacer clic en Aceptar y aparece la variable pesos con sus valores del 1 al
5 en la Vista de datos del Editor de datos SPSS.
A continuacin, en la Vista de variables, del Editor de datos SPSS, a la variable
pesos se le definen las Etiquetas de valor, en un cuadro de dilogo similar al
de la Figura 1.5. Para ello asignar los valores y etiquetas siguientes: 1, 44.0
52.8; 2, 52.8 61.6; 3, 61.6 70.4; 4, 70.4 79.2; y 5, 79.2 88.0.
Una vez que termina de aadir los valores y etiquetas hacer clic en Aceptar, en
la Vista de datos, del Editor de datos SPSS aparecen las etiquetas de condicin
que se muestran en la Figura 2.14.
85
PESO (Kg.)
PESO (Kg.)
44.0 - 52.8
52.8 - 61.6
61.6 - 70.4
70.4 - 79.2
79.2 - 88.0
Total
Frecuencia
19
15
17
5
4
60
Porcentaje
31.7
25.0
28.3
8.3
6.7
100.0
Porcentaje
acumulado
31.7
56.7
85.0
93.3
100.0
En R.Para crear los intervalos del Cuadro 2.7, estando en la base de datos caso 2, se
procede as:
> caso2=transform(caso2,pesos=cut(peso,breaks=c(43.99, 52.79, 61.59, 70.39,
79.19, 88.0)))
> attach(caso2)
Para visualizar la base de datos caso2 con los intervalos escribir:
> fix(caso2)
En el R Editor de datos aparece la variable pesos con los intervalos definidos,
tal como se muestra en la Figura 2.20.
86
15
(70.4,79.2]
17
(79.2,88]
87
similar a la del cuadro a partir del que se construye, por ello ambos ttulos
(del cuadro y del grfico) son idnticos.
Ejemplo: Alumnos de Estadstica bsica 09-A, segn su Hobby.
Cuerpo.- es la parte central del grfico, representada por lo general en
forma rectangular (en una relacin de 1.5 para el largo y como 1 para el
ancho) en la que con algunas representaciones geomtricas, acompaadas de
datos y smbolos se busca establecer contrastes de las variables y sus
categoras a travs de escalas apropiadas a las magnitudes en estudio.
Se recomienda colocar el ttulo de los ejes, con el nombre de la variable o
sus categoras, indicando la unidad de medida si hubiera. As mismo, se
debe buscar efectuar diferenciaciones entre los componentes del grfico
bien mediante colores, tramas, sombreados, etc.
Leyenda.- son aclaraciones respecto a las partes componentes de un grfico
expresadas a travs de lo que representan ciertos colores, tramas, etc. y van
colocados por lo general al costado de grfico con su indicacin de lo que
representan.
Fuente.- al igual que los cuadros, es necesario indicar los elementos
esenciales que permitan identificar a los dueos de los grficos e
informacin para cualquier consulta mediante una breve Ficha Bibliogrfica
o Referencia Web, tal como se indica en la fuente de cuadros estadsticos.
En el caso de ser propio el grfico, se recomienda indicar la Elaboracin.
c) Tipos de grficos.- al igual que los cuadros estadsticos, los grficos pueden
ser unidimensionales, bidimensionales o pluridimensionales, segn el nmero
de variables que se presenten.
88
% DE
GRADOS
ALUMNOS
ALUMNOS
SEXAGESIMALES
Deportes
15
25.0
90
Msica
27
45.0
162
Baile
6.7
24
TV/Cine
12
20.0
72
Otros
3.3
12
Total
60
100.0
360
HOBBY
89
gusta la msica 27 x 6 = 162, a los 4 alumnos que les gusta el baile 4 x 6 = 24, a
los 12 que les gusta TV/Cine 12 x 6 = 72 y a los 2 que les gusta Otros 2 x 6 = 12.
Con estos datos es que los programas efectan de modo automtico la
representacin del pie correspondiente. Veamos.
En Excel:
Seguir la secuencia siguiente: Insertar Grficos Circular Grfico 2D,
escoger en Diseos de grfico (diseo 1) Seleccionar datos Rango de datos
del grfico: indicar las celdas donde se encuentran los datos en Etiquetas del
eje horizontal (categora) escoger Editar, en Rango de rtulos de eje: indicar las
celdas donde estn los hobbies, Aceptar y para finalizar Aceptar y aparece ttulo
del Grfico, ponerle el nmero y el ttulo, tal como se muestra a continuacin:
Tipo de
90
3,3
%
20,0%
25,0%
6,7%
45,0%
6.7%
20.0%
25.0%
3.3%
45.0%
91
Category
Baile
Deportes
Msica
Otros
TV/Cine
En R:
Estando attachada la base de datos obtenemos lo mismo, as:
> attach(caso2)
> pie(table(hoby))
Aparece el grfico siguiente:
En Excel:
Seguir la secuencia siguiente: Insertar Grficos Columna Columna en
2D, Columna agrupada, escoger (Estilo 2) Seleccionar datos en Rango de
datos del grfico: indicar las celdas donde se encuentran los datos en Etiquetas
del eje horizontal (categora) escoger Editar, en Rango de rtulos de eje: indicar las
celdas donde estn los hobbies, Aceptar y para finalizar Aceptar y aparece el
grfico sin ttulo; no olvidar ponerle el nmero y el ttulo.
En Minitab:
En el men escoger Graph Bar Chart escoger Simple. Aparece la
ventana de dilogo Bar Chart Counts of unique values, Simple. En Categorial
variables: ingresar hoby de la lista de variables a la izquierda, en Labels poner
nmero y ttulo del grfico, OK, y aparece el grfico de sectores que se muestra en
la Figura 2.25. Este grfico ha sido editado poniendo la variable con maysculas,
colores, etc.
En SPSS:
Siguiendo el procedimiento para obtener el cuadro 2.4 (Analizar Estadsticos
descriptivos Frecuencias) aparece la ventana de la Figura 2.7. Con la variable
hobby ya ingresada, escoger dentro de la opcin
Tipo de grfico:
93
25
Alumnos
20
15
15
12
10
5
4
2
Baile
Deportes
Msica
HOBBY
Otros
TV/Cine
96
En Minitab:
En el men escoger Stat Quality Tools Pareto Charts. Aparece la
ventana de dilogo Pareto Chart . En Chart defects data in: ingresar hoby de la
lista de variables a la izquierda y para finalizar OK y muestra el grfico.
En SPSS:
En el men escoger Analizar Control de calidad Grficos de Pareto
escoger Simple, luego Definir. Aparece la ventana de dilogo Grfico de Pareto
simple: Recuentos o sumas para grupos de casos.
En eje de categoras: ingresar la variable hobby que aparece en la lista de variables
a la izquierda, en Ttulos indicar el nmero y ttulo del grfico, luego
Continuar y finalmente Aceptar, aparece el grfico de Pareto.
En la Figura 2.30, se muestra el grfico de Pareto obtenido en Minitab y editado
en sus ejes y colores para las barras de las categoras de hobby.
Grfico 2.3 Grfico de Pareto de los alumnos de Estadstica Bsica 09-A, segn Hobby
60
100
50
Alumnos
40
60
30
40
20
20
10
0
Hobby
Count
Percent
Cum %
Msica
27
45.0
45.0
Deportes
15
25.0
70.0
TV/Cine
12
20.0
90.0
Baile
4
6.7
96.7
Other
2
3.3
100.0
97
Porcentaje
80
MIEMBROS EN
LA FAMILIA
2
3
4
5
6
7
8
9
Total
Alumnos
2
5
11
27
8
5
1
1
60
% de
Alumnos
3.3
8.3
18.3
45.0
13.3
8.3
1.7
1.7
100.0
Porcentaje
acumulado
3.3
11.7
30.0
75.0
88.3
96.7
98.3
100.0
98
Alumnos
20
45,0%
10
18,3%
13,3%
8,3%
8,3%
3,3%
0
2
1,7%
1,7%
MIEMBROS EN LA FAMILIA
99
Grfico 2.4 % de Alumnos de Estadstica Bsica 09-A, segn el Nmero de miembros en su familia
50
45.0
Percent
40
30
20
18.3
13.3
10
8.3
8.3
3.3
1.7
1.7
Miembros en la familia
Percent within all data.
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Xi
48.4
57.2
66.0
74.8
83.6
100
ni
19
15
17
5
4
60
hi
0.317
0.250
0.283
0.083
0.067
1.000
En Excel:
El proceso es similar a la construccin del grfico de Pareto antes visto, es decir,
que se requiere de herramientas para el anlisis de datos.
Escoger en la barra de men Datos Anlisis de datos (ubicado en el extremo
superior derecho) y aparece la ventana de dilogo Anlisis de datos. De Funciones
para anlisis escoger Histograma, luego Aceptar y aparece la ventana de dilogo
Histograma de la Figura 2.34.
101
En Excel se obtiene los resultados para los lmites superiores de clase indicados y
los rectngulos del histograma separados, por lo que se tiene que editar haciendo
clic sobre los rectngulos y con botn derecho seleccionar Formato de serie de
datos y en la ventana de dilogo del mismo nombre escoger Opciones de series y
en Ancho del intervalo poner 0%. Al hacer clic en el botn Cerrar, los
rectngulos del histograma aparecen juntos. Se pone nmero y ttulo del grfico,
as como colores, etc. y se tiene los resultados del la Figura 2.35.
102
103
GRFICO 2.6 HISTOGRAMA DEL PESO DE LOS ALUMNOS DE ESTADSTICA BSICA 09-A
20
19
17
15
Frequency
15
10
44.0
52.8
61.6
70.4
79.2
Peso (Kg.)
88.0
En SPSS:
Seguir el procedimiento para obtener el cuadro 2.4 (Analizar Estadsticos
descriptivos Frecuencias) aparece la ventana de la Figura 2.11. Con la
variable peso ya ingresada, escoger dentro de la opcin
Tipo de
Alumnos
15
10
19
17
15
5
4
Media =59,87
Desviacin tpica =10,53
N =60
0
40
50
60
70
80
90
100
PESO (Kg)
hist(variable,
breaks=seq(mnimo,
mximo,
by=amplitud,
col=color,
106
di Ci
i 1
i 1
hi
Ci
Ci
hi
1.00
i 1
Si para la variable peso trabajada, se juntan los dos ltimos intervalos y se hace los
conteos correspondientes, el Cuadro 2.7 se transforma en:
Clase
1
2
3
4
LIi
44.0
52.8
61.6
70.4
LSi
52.8
61.6
70.4
88.0
Xi
48.4
57.2
66.0
79.2
ni
hi
di
19
0.317 0.0360
15
0.250 0.0284
17
0.283 0.0322
9
0150 0.0085
60
1.000
El ltimo intervalo, tiene el doble de amplitud que los otros tres y por lo tanto
mayor nmero de repeticiones (5 +4 = 9). Para contrarrestar el efecto del mayor
ancho del intervalo es que se representa la densidad en vez de la frecuencia.
El Minitab es el programa apropiado para obtener el histograma de densidad.
Vamos a efectuar el mismo procedimiento de la construccin del histograma de
frecuencias. Es decir, Graph Histogram Simple OK y aparece la
ventana de dilogo Histogram Simple de la Figura2.36. En Graph variables:
ingresar la variable peso seleccionndola de las variables del lado izquierdo.
Haciendo clic en el botn Scale luego en Y-Scale Type aparece marcado
automticamente Frecuency, desactivarla y marcar Density, OK.
Hacer clic en el botn Labels en Title: poner el nmero y ttulo del grfico, en
Data Labels escoger Use y-value labels, OK. Para finalizar OK y aparece un
histograma de densidad que debe ser editado para obtener los intervalos de clase
deseados. Para ello hacer doble clic sobre el histograma y aparece la ventana de
dilogo Edit Bars de la Figura 2.41 donde ya se ha escogido Binning.
107
Density
0.03
0.0284
0.02
0.01
0.00
0.0085
44.0
52.8
61.6
70.4
PESO (Kg.)
88.0
108
Figura 2.43 Datos para el Polgono de frecuencias y Ojiva del peso en Minitab
El procedimiento para construir el Polgono de frecuencias es el siguiente: Graph
Scatterplot With Connect Line OK, y aparece la ventana de dilogo de
la Figura 2.44.
De la lista de variables del lado izquierdo seleccionar Frec. relat. e ingresarla en Y
variables y Marca de clase en X variables, como se muestra en la Figura 2.44.
Hacer clic en Data View y en Data display marcar Connect line, OK. Luego
escoger Labels en Tittle: poner el nmero y ttulo del grfico, y en Data Labels
marcar Use y-value labels, OK.
Para finalizar hacer clic en OK y aparece el polgono de frecuencias de la Figura
2.45.
109
Grfico 2.8 POLGONO DE FRECUENCIA DEL PESO DE LOS ALUMNOS E.B. 09-A
0.35
0.322
0.30
0.288
0.254
Frec. relat.
0.25
0.20
0.15
0.10
0.085
0.051
0.05
0.00
0.000
40
0.000
50
60
70
Marca de clase
80
110
90
100
111
Grfico 2.9 OJIVA DEL PESO DE LOS ALUMNOS DE ESTADSTICA BSICA 09-A
1.000
1.0
1.000
0.949
0.864
0.8
0.576
0.6
0.4
0.322
0.2
0.000
0.0
40
50
60
70
80
Lm. Sup. PESO (Kg.)
90
112
100
Stem-and-leaf of peso
Leaf Unit = 1.0
1
9
24
(8)
28
21
11
7
4
1
4
4
5
5
6
6
7
7
8
8
= 60
4
56678899
000001122233334
55555779
0033444
5566778889
0022
557
000
8
En SPSS.Estando en la base de datos de Estadstica Bsica 09-A, escoger del men Analizar
Estadsticos descriptivos Explorar y aparece la ventana de dilogo Explorar. En
Dependientes: ingresar la variable peso de las variables del lado izquierdo. Hacer clic en
el botn Grficos y aparece la ventana de dilogo Explorar: Grficos, en Descriptivos
aparece activado automticamente Tallo y hojas. Hacer clic en Continuar, regresa a
Explorar y para finalizar clic en Aceptar. En la ventana de Resultados aparece:
PESO (Kg) Stem-and-Leaf Plot
Frequency
1.00
8.00
15.00
Stem &
4 .
4 .
5 .
Leaf
4
56678899
000001122233334
113
8.00
7.00
10.00
4.00
3.00
3.00
1.00
Stem width:
Each leaf:
5
6
6
7
7
8
8
.
.
.
.
.
.
.
55555779
0033444
5566778889
0022
557
000
8
10
1 case(s)
El ancho del tallo (Stem width) 10 indica que est en decenas de Kg.
4|4
4 | 56778899
5 | 000011122333334
5 | 55555779
6 | 003344
6 | 55566778889
7 | 0022
7 | 557
8 | 000
8|8
Slo muestra los tallos en la primera columna (en decenas de Kg.) y las hojas (en
Kg.).
114
CONTENIDO
3.1
3.2
3.3
3.4
3.5
3.6
3.7
Introduccin.
Media aritmtica.
Mediana.
Moda.
Media Geomtrica.
Media armnica.
Los cuantiles: cuartiles, deciles y percentiles.
3.1 INTRODUCCIN
En este captulo se da inicio a otras modalidades de descripcin de los datos a
travs de los denominados estadgrafos que son medidas de resumen del
conjunto de datos obtenidos a partir de una muestra o un censo (enumeracin
completa de las unidades de anlisis de la poblacin).
Si el estadgrafo es obtenido en la muestra se denomina estimador (estadstico) y
es usado en inferencia estadstica como estimacin (aproximacin) al parmetro
desconocido en la poblacin.
Los estadgrafos puedes ser de: posicin, dispersin, forma y concentracin. Para
una mejor comprensin de estos estadgrafos presentaremos su definicin, clculo
para datos sin agrupar y para datos agrupados (tabla de frecuencias), as como su
interpretacin.
En este captulo veremos las medidas de posicin, llamadas tambin estadgrafos
de tendencia central, porque al obtenerlos reflejan un valor entre el mnimo y
mximo. Entre estos tenemos: la media aritmtica, la mediana, la moda, la media
geomtrica, la media armnica y los cuantiles.
Las aplicaciones con los programas se ven al final del captulo.
115
Xi
i 1
N
n
Xi
b) Media o promedio muestral:
i 1
X i ni
i 1
N
k
X i hi
i 1
X i ni
b) Media o promedio muestral:
i 1
k
X i ni
i 1
ni
X i hi
i 1
i 1
Donde:
k = nmero de intervalos de clase.
Xi = Marca de clase
ni = frecuencias absolutas o repeticiones.
hi = frecuencia relativa.
N = tamao de la poblacin.
n = tamao de la muestra.
Ejemplo 3.1
Si trabajamos con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadstica Bsica 09-A, tenemos que la media aritmtica es:
116
60
Xi
i 1
Xi
i 1
60
44 45 46 .... 80 88
60
3592.1
59.868 Kg.
60
X i ni
i 1
N
=
X i ni
i 1
X 1n1
X 2 n2
60
X 3n3
60
X 4 n4
X 5 n5
3608.0
60
60.133 Kg.
X i hi
i 1
(48.4)
19
15
17
5
4
(57.2)
(66.0)
(74.8)
(83.6)
60
60
60
60
60
60.133
117
productos de
Media Ponderada.n
X iWi
X
i 1
n
Wi
i 1
118
Pti
( P0i Q0i )
P0i
i 1
IPL t
Pti Q0i
i 1
n
P0i Q0i
P0i Q0i
i 1
i 1
Pti
( P0i Qti )
P0i
i 1
IPPt
Pti Qti
i 1
n
P0i Qti
P0i Qti
i 1
i 1
Propiedades de la media aritmtica.a) La suma de las desviaciones de los valores observados con respecto a su
n
(Xi
X)
i 1
Xi
nX
nX
nX
i 1
X ) 2 es mnima.
(Xi
i 1
c)
Ejemplo 3.2.- si los ingresos de 5 trabajadores son: 450, 500, 500, 550 y
2000. Entonces el ingreso promedio es de 800 muy distante del ingreso de la
mayora de los trabajadores. Se recomienda usar la mediana.
d)
aX i b, entonces : Y
Demostracin:
n
Yi
Y
i 1
(aX i b)
i 1
Xi
i 1
i 1
119
aX
aX
b.
50% observaciones
Me
120
50% observaciones
Clculo para datos sin agrupar.a) Ordenar los datos en forma ascendente: X(1) , X(2) , . , X(n)
b) Calcular la mediana:
Si el nmero de observaciones n es par: Me
1
X
2
n
2
n
1
2
n 1
2
Ejemplo 3.4
Si se calcula la mediana con los datos sin agrupar del Cuadro 2.6, peso en Kg. de
los 60 alumnos de Estadstica Bsica 09-A, se tiene que:
a) Los 60 datos ordenados en forma ascendente son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
1
X
2
30
31
1
57 57
2
57 Kg.
121
Me
n
Nj
2
nj
LI j
Cj
LI j
1
Hj
2
hj
Cj
Donde:
j = clase que contiene o donde esta la Me.
LIj = lmite inferior de la clase que contiene la Me.
nj = repeticiones en la clase que contiene la Me.
Nj-1 = repeticiones acumuladas hasta la clase anterior a la que contiene Me.
Cj = amplitud de la clase Me = LSj LIj .
hj = frecuencia relativa en la clase que contiene la Me.
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Me.
Ejemplo 3.5
Calcular la mediana con los datos agrupados del Cuadro 2.7, peso de los 60
alumnos de Estadstica Bsica 09-A FCE-UNAC, siguientes:
Clase
PESOS (Kg.)
i
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
60
2
alumno 30?
Observando los Ni del Cuadro 2.7, se aprecia que en la clase 1, N1 = 19, se
han contado los pesos de los 19 primeros alumnos (recordemos que los pesos
estn ordenados de manera ascendente en el cuadro).
Entonces, en el intervalo de clase 2 se cuentan los pesos de los alumnos 20,
21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33 y 34.
Luego, la clase en la que se cuenta la talla del alumno
clase j = 2. La mediana es un peso entre 52.8 y 61.6 Kg.
122
n
2
60
2
30 es la
Me
LI j
n
Nj
2
nj
Cj
Donde:
j = 2,
n = 60,
nj = n2 = 15,
Nj-1 = N1 = 19,
Me
LI 2
n
N1
2
C2
n2
60
19
2
8.8 59.253 Kg.
15
52.8
Propiedades de la mediana.a) La suma de las desviaciones, en valor absoluto, de los valores observados
con respecto a la mediana es mnima; es decir, que es menor que la suma de
las desviaciones, en valor absoluto, con respecto a cualquier otro valor a de
la distribucin.
n
Xi
Me
i 1
k
Xi
i 1
Xi
i 1
Me ni
Xi
a ni ,
i 1
123
Clculo para datos sin agrupar.Observar en el conjunto de datos el valor o los valores que ms se repiten.
Ejemplo 3.7
Si se calcula la moda con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los
60 alumnos de Estadstica Bsica 09-A, se tiene que los pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
124
Mo
LI j
1
Cj
2
Donde:
j = clase(s) que contiene(n) o donde esta(n) la(s) Mo.
LIj = lmite inferior de la clase que contiene la Mo.
Cj = amplitud de la clase Mo = LSj LIj .
1
nj
nj
hj
hj
dj
dj
nj
nj
hj
hj
dj
dj
Ejemplo 3.8
Calcular la moda con los datos agrupados del Cuadro 2.7, peso de los 60 alumnos de
Estadstica Bsica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
125
Considerando que los intervalos son de igual amplitud, en que intervalo de clase
se puede haber dado el mayor nmero de repeticiones ni o h i?
Observando los ni del Cuadro 2.7, se aprecia que el mayor es n1 = 19. Entonces,
en el intervalo de clase j = 1 se encuentra la moda. La moda es un peso entre 44 y
52.8 Kg.
b) Calcular la moda usando la expresin: Mo
LI j
1
Cj
2
Donde:
j = 1,
LIj = LI1 = 44.
C1 = LS1 LI1 = 52.8 44 = 8.8.
1
nj
nj
n1 n0
19 0 19
nj
nj
n1 n2
19 15 4
LI1
1
C1
2
44
19
8.8 51.270 Kg.
19 4
Propiedades de la moda.a) Es el nico estadgrafo que se puede determinar para variables cualitativas.
b) La moda no se ve afectada por los valores extremos, al igual que la mediana.
c) Si a y b son nmeros reales e Yi
Relacin entre la moda, la media y la mediana. Si la distribucin de frecuencias es simtrica se cumple que las tres medidas son
aproximadamente iguales. Entonces: X
126
Me
Mo
Distribucin simtrica
30
N de U. de A.
25
20
15
10
5
0
140
145
150
155
160
165
170
175
180
Valores de la variable
Si X
Me
N de U.A.
25
20
15
10
5
0
140
Si Mo
Me
145
175
180
N de U.A.
25
20
15
10
5
0
140
145
150
155
160
165 170
Valores de la variable
175
180
127
Mo
3X
Me
Me
Mo
Sin agrupar
X
59.868
57.000
55.000
Agrupados
60.133
59.253
51.270
Me
En Excel:
Estando copiados los datos de la variable peso de los 60 alumnos en la columna D,
desde D3 hasta D62, cuando en el programa se pide el rango de valores (como
Nmero 1), se sombrean estos o se escribe D3:D62.
Para efectuar cualquier clculo nos ubicamos en una celda posterior. Para calcular la
media aritmtica nos ubicaremos en la celda D63.
A continuacin, con la opcin de funciones
Enter, aparece el resultado 59.8683333 Kg. (ver la Figura 3.3). De manera similar
para calcular la mediana, Ubicarse en la celda D64 y al lado de
escribir
escribir
En Minitab:
Estando en la base de datos Estadstica Bsica 09A, escoger del men Stat Basic
Statistics Display Descriptive Statistics aparece la ventana de dilogo de la
Figura 3.4. En variables: seleccionar la variable peso de las variables que estn a la
izquierda. Hacer clic en el botn
Figura 3.5. Escoger los estadgrafos a calcular: Mean (media), Median (mediana),
Mode (moda) y hemos agregado Sum (suma), Minimum (mnimo) y Maximum
(mximo). Hacer clic en OK y regresa a la Figura 3.4.
129
Mean
59.87
Sum
Minimum
3592.10
44.00
130
Median
57.00
Maximum
Mode
88.00
55
Mode
5
En SPSS:
Estando en la base de datos Estadstica Bsica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar Estadsticos descriptivos Frecuencias.
Inmediatamente se abre la ventana de dilogo Frecuencias.
En Variables: ingresar la variable peso, luego hacer clic en el botn
y se
En Tendencia central marcar los estadgrafos: media, mediana, moda y suma, luego
hacer clic en Continuar, regresando a la ventana de dilogo Frecuencias y efectuar
clic en Aceptar para terminar. Inmediatamente en el Visor de Resultados aparece:
Estadsticos
PESO (Kg)
N
Vlidos
Perdidos
Media
Mediana
Moda
Suma
60
0
59.87
57.00
55
3592
131
En R:
Estando en la base de datos Estadstica Bsica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, se escribe en la consola la sintaxis
para el estadgrafo requerido: mean(variable) para la media, median(variable) para la
mediana, min(variable) para el valor mnimo y max(variable) para el valor mximo.
Aplicando a la variable peso se obtiene:
> mean(peso)
[1] 59.86833
> median(peso)
[1] 57
> min(peso)
[1] 44
> max(peso)
[1] 88
132
X1 X 2
Xn
X1 X 2
Xn
1
n
Considerando que el producto de los valores observados puede ser muy elevado, se
sigue el siguiente procedimiento para hallar G:
a) Determinar el logaritmo decimal de G:
log G
1
log X 1 log X 2
n
log X n
1
n
log X i
i 1
Ejemplo 3.9
Si se calcula la media geomtrica con los datos sin agrupar del Cuadro 2.6, peso en
Kg. de los 60 alumnos de Estadstica Bsica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
1
60
60
log X i
i 1
1
log 44 log 45
60
1
log X 1 log X 2
60
log X 60
log 88
1
1.6434526765 1.6532125138
60
133
1.9444826722
106.2486352942
1.7708105882
60
101.7708105882
58.994 Kg.
n1
1
X X
n2
2
nk
k
n1
1
X X
n2
2
nk
k
1
n
Considerando que el producto de las potencias de las marcas de clase elevadas a las
repeticiones observados puede ser muy grande, se sigue el siguiente procedimiento
para hallar G:
a) Determinar el logaritmo decimal de G:
1
n1 log X 1 n2 log X 2
n
log G
nk log X k
1
n
ni log X i
i 1
hi log X i
i 1
Ejemplo 3.10
Calcular la media geomtrica con los datos agrupados del Cuadro 2.7, peso de los
60 alumnos de Estadstica Bsica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
1
60
ni log X i
i 1
1
n1 log X 1 n2 log X 2 n3 log X 3 n4 log X 4 n5 log X 5
60
1
19 log 48.4 15 log 57.2 17 log 66.0 5 log 74.8 4 log 83.6
60
134
101.77272637
59.255 Kg.
1 r
P0
Es a partir de esta expresin que se obtiene la frmula para hallar la tasa media de
crecimiento intercensal (r) de la poblacin siguiente:
r
Pn
P0
Po = Poblacin en el ao 0.
Pn = Poblacin en el ao n.
n = Perodos (aos, meses, etc.) transcurridos desde el perodo 0 hasta el perodo n.
Ejemplo 3.11
Segn el INEI (2009) la poblacin total del Per el ao 1993 fue de 22639,443
habitantes y el 2007 de 28220,764 habitantes. Se pide determinar:
Pn
P0
14
P07
P93
14
135
1 r
P0
Donde:
Po = P2007 = Poblacin en el ao 0 = 2007 (Tomar el ao ms cercano).
Pn = P2010 = Poblacin en el ao n = 2010.
r = Tasa media de crecimiento intercensal anual = 0.015864843.
n = Aos transcurridos desde el ao 2007 hasta el ao 2010 = 3 aos.
Asumiendo que la tasa media de crecimiento intercensal anual es la misma para
los aos siguientes y reemplazando valores en la frmula de proyeccin de
poblacin se tiene:
Pn
P2010
1 r
P0
P2010
1 0.015864843 P2007
3
= 29585,340 habitantes.
c)
1 r
P0 se tiene que:
log
n
Pn
P0
log 1 r
n = ao buscado.
Pn = 40 millones (Poblacin que tendr el Per el ao n).
P0 = P2007 = 28220,764 habitantes (Tomar como ao 0, el ms cercano).
r = Tasa media de crecimiento intercensal anual = 0.015864843.
Reemplazando valores en la expresin anterior se tiene:
136
40000000
28220764
log 1 0.015864843
log
22.2 aos
n
n
i 1
1
Xi
Ejemplo 3.12
Si se calcula la media armnica con los datos sin agrupar del Cuadro 2.6, peso en
Kg. de los 60 alumnos de Estadstica Bsica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
137
60
1
1 Xi
60
60
i
1
44
1
X1
1
X2
60
1
46
1
45
1
X3
1
X 59
1
80
1
X 60
60
1.0316135533
1
88
58.161 Kg.
k
i
n
ni
1 Xi
1
k
i 1
hi
Xi
Frmula para trabajar bien con las repeticiones o frecuencias absolutas ni o para
trabajar con las frecuencias relativas hi. Por tratarse de datos agrupados Xi
representa la marca de clase para los intervalos o el valor indicado para los casos
discretos con poca variabilidad de los valores observados.
Ejemplo 3.13
Calcular la media armnica con los datos agrupados del Cuadro 2.7, peso de los 60
alumnos de Estadstica Bsica 09-A FCE-UNAC, siguientes:
Clase
PESOS (Kg.)
i
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
k
i
n
ni
1 Xi
60
ni
1 Xi
5
i
n1
X1
n2
X2
60
n3
X3
n4
X4
138
n5
X5
19
48.4
15
57.2
60
17
66.0
60
58.419 Kg.
1.0270673130
5
4
74.8 83.6
Para los pesos de los alumnos se han obtenido los siguientes resultados:
Datos:
Sin agrupar
58.161
58.994
X
59.868
Agrupados
58.419
59.255
60.133
139
3.7 CUANTILES
Son particiones de la distribucin de frecuencias en un determinado nmero de
partes iguales.
Entre los cuantiles ms conocidos se tiene: mediana (dos partes iguales), cuartiles
(cuatro partes iguales), quintiles (cinco partes iguales), deciles (diez partes iguales),
veintiles (veinte partes iguales) y percentiles (cien partes iguales).
Desarrollaremos los de mayor uso viendo su forma de clculo e interpretacin. Se
calculan de modo similar a la mediana.
a) CUARTILES (Qk )
Son particiones de la distribucin de frecuencias en cuatro partes iguales de
modo que cada una de ellas acumula un cuarto de las observaciones (25% de los
datos).
25% datos
Q1 25% datos
Q2
25% datos
Q3
25% datos
140
n 1
, si es entero Q1
4
n 1
4
F X
F X
E 1
E 1
Cuartil 3 (Q3)
Ubicar su posicin calculando
3( n 1)
, si es entero Q3
4
3( n 1)
4
F X
E 1
Ejemplo 3.14
Calcular los cuartiles 1 y 3 con los datos sin agrupar del Cuadro 2.6, peso en Kg.
de los 60 alumnos de Estadstica Bsica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
141
Solucin:
Clculo del cuartil 1 (Q1)
Ubicar su posicin con
n 1
4
60 1
15.25 . Como no es un valor entero, (E =
4
0.25 X 16
X 15
3(n 1)
4
3(60 1)
4
45
0.75 X
46
45
kn
, k = 1, 2 3. Ayudndonos de las
4
Qk
LI j
kn
4
Nj
nj
Cj
Donde:
142
LI j
k
Hj
4
hj
C j , k = 1, 2, 3.
Ejemplo 3.15
Calcule e interprete los cuartiles con los datos agrupados del Cuadro 2.7, peso de
los 60 alumnos de Estadstica Bsica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
n
4
60
15 . En que intervalo de clase se cont la observacin o
4
kn
4
143
n
4
60
15 es la
4
Q1
LI j
n
Nj
4
nj
Cj
LI j
1
Hj
4
hj
Cj
Donde:
j = 1,
n = 60,
nj = n1 = 19
Nj-1 = N0 = 0,
Q1
LI1
n
N0
4
C1
n1
44.0
60
0
4
8.8 46.947 Kg.
19
3n
4
3(60)
4
kn
4
3n
4
Q3
LI j
3n
Nj
4
nj
Donde:
144
Cj
LI j
3
Hj
4
hj
Cj
3(60)
4
45
j = 3,
n = 60,
nj = n3 = 17.
Nj-1 = N2 = 34,
Q3
LI 3
3n
4
3(60)
34
4
8.8 66.259 Kg.
17
N2
n3
C3
61.6
b) DECILES (Dk )
Son particiones de la distribucin de frecuencias en diez partes iguales de modo
que cada una de ellas acumula un dcimo de las observaciones (10% de los
datos).
10%
D1
10%
D2 ..
10%
D9
10%
145
c) PERCENTILES (Pk )
Son particiones de la distribucin de frecuencias en cien partes iguales de modo
que cada una de ellas acumula un centsimo de las observaciones (1% de los
datos).
Para dividir la distribucin de frecuencias en cien partes iguales necesitamos 99
puntos, por ello los percentiles son noventa y nueve y se denotan de la siguiente
manera:
Percentil 1 = P1 acumula una centsima parte de las observaciones (1%).
Percentil 2 = P2 acumula dos centsimas partes de las observaciones (2%).
Percentil 3 = P3 acumula tres centsimas partes de las observaciones (3%).
.
Percentil k = Pk acumula las k centsimas partes de las observaciones (k%).
.
Percentil 99 = P99 acumula las 99 centsimas partes de las observaciones (99%).
Nota.Todas los cuantiles calculados anteriormente son tambin percentiles (segn el
% de observaciones que acumule cada uno de ellos).
As tenemos que: la mediana (acumula el 50% de los valores observados) es
igual al percentil 50. Es decir, Me = P50.
Tambin:
Q1 = P25,
Q2 = P50 = Me,
Q3 = P75.
D10 = P10,
D5 = P50 = Me,
D9 = P90.
Clculo para datos sin agrupar.a) Ordenar las observaciones en forma ascendente: X(1) , X(2) , . , X(n)
b) Obtencin del k-simo percentil (Pk), k = 1, 2, 3, ., 99
Ubicar su posicin calculando
k ( n 1)
, si es entero Pk
100
k ( n 1)
100
F X
E 1
146
k = 1, 2, 3, ., 99
Ejemplo 3.16
Calcular los percentiles 10 y 80 con los datos sin agrupar del Cuadro 2.6, peso
en Kg. de los 60 alumnos de Estadstica Bsica 09-A, cuyos pesos ordenados
son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
Solucin:
Clculo del percentil 10 (P10)
10 (n 1)
100
10 (60 1)
100
0.10 X
80 (n 1)
100
80 (60 1)
100
48
0.80 X
49
48
kn
, k = 1, 2, 3, ., 98 99.
100
Pk
LI j
kn
Nj
100
nj
Cj
LI j
k
Hj
100
hj
C j , k = 1, 2, 3, ., 98, 99.
Donde:
j = clase que contiene o donde esta el percentil k (Pk).
LIj = lmite inferior de la clase que contiene el percentil k (Pk).
nj = repeticiones en la clase que contiene el percentil k (Pk).
Nj-1 = repeticiones acumuladas hasta la clase anterior a la que contiene Pk.
Cj = amplitud de la clase Pk = LSj LIj .
hj = frecuencia relativa en la clase que contiene el percentil k (Pk).
Hj-1 = frec. relativa acumulada hasta la clase anterior a la que contiene Pk.
Ejemplo 3.17.Calcule e interprete los percentiles 10 y 80 con los datos agrupados del Cuadro
2.7, peso de los 60 alumnos de Estadstica Bsica 09-A FCE-UNAC, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
148
kn
100
10n
100
10 (60)
100
kn
100
10n
100
10 (60)
100
6 , es la clase j = 1. El
P10
LI j
10n
100
Nj
10
Hj
100
hj
nj
Cj
LI j
Cj
Donde:
j = 1,
n = 60,
nj = n1 = 19.
Nj-1 = N0 = 0,
P10
LI1
10n
N0
100
C2
n1
44.0
10(60)
0
100
8.8 46.779 Kg.
19
80n
100
80 (60)
100
48 .
P80
Donde: j = 3,
Nj-1 = N2 = 34,
80n
100
LI j
Nj
Cj
nj
n = 60,
LI j
80
Hj
100
hj
Cj
nj = n3 = 17.
P80
LI3
80n
N2
100
C3
n3
80(60)
34
100
8.8 68.447 Kg.
17
61.6
CUANTIL
DATOS AGRUPADOS
Cuartil 1
51.00
46.947
Cuartil 2 (mediana)
57.00
59.253
Cuartil 3
67.75
66.259
Percentil 10
48.00
46.779
Percentil 80
68.80
68.447
En Excel:
Con los datos de la variable peso de los 60 alumnos en la columna D, desde D3 hasta
D62, cuando en el programa se pide Matriz se sombrean estos o se escribe D3:D62.
Para calcular los CUARTILES, por ejemplo el CUARTIL 1, primero ubicarse en la
celda D66.
150
escribir =CUARTIL(D3:D62,1).
151
En Minitab:
Estando en la base de datos Estadstica Bsica 09A, escoger del men Stat Basic
Statistics Display Descriptive Statistics aparece la ventana de dilogo Display
Descriptive Statistics (ver Figura 3.4).
En variables: seleccionar la variable peso de las variables que estn a la izquierda.
Hacer clic en el botn
Minimum
44.00
Q1
51.00
Median
57.00
Q3
67.75
Maximum
88.00
En SPSS:
Estando en la base de datos Estadstica Bsica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar Estadsticos descriptivos Frecuencias.
Inmediatamente se abre la ventana de dilogo Frecuencias.
152
y se
Vlidos
Perdidos
10
25
50
75
80
60
0
48.00
51.00
57.00
67.75
68.80
153
En R:
Estando en la base de datos Estadstica Bsica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, se escribe en la consola la sintaxis
para PERCENTILES: quantile(variable, p)
Donde variable es un conjunto de datos cuantitativos (peso aqu) y p es una
proporcin para identificar a uno o varios percentiles determinados. Es decir, que
quantile es el valor por abajo del cual se encuentra el p% de las observaciones.
25%
50%
75%
80%
PERCENTIL
MANUAL
EXCEL
MINITAB
SPSS
10
48.00
48.00
48.00
48.00
25 o cuartil 1
51.00
51.00
51.00
51.00
51.00
50 o cuartil 2
57.00
57.00
57.00
57.00
57.00
75 o cuartil 3
67.75
67.25
67.75
67.75
67.25
80
68.80
68.20
68.80
68.20
154
CONTENIDO
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
Introduccin.
Rango. Rango intercuartlico.
Desviacin media.
La varianza
La desviacin tpica.
El coeficiente de variacin.
El diagrama de caja (Box- Plot).
Medidas de forma de la distribucin.
4.1 INTRODUCCIN
En el captulo anterior vimos la caracterizacin de los datos de una variable mediante
un solo punto, es decir, el resumen de los datos a travs de un solo valor, el mismo que
no es suficiente para formarse una idea de la distribucin de la variable.
En el presente captulo se contina haciendo resmenes de la informacin cuantitativa
obtenida, describiendo el mayor o menor alejamiento de los valores observados en
formas absolutas y relativas.
Entre las formas absolutas de medicin tenemos el rango, el rango intercuartlico, la
desviacin media, la varianza y la desviacin estndar; en tanto que como medicin
relativa usaremos el coeficiente de variacin.
Tambin se presenta una forma grfica de apreciar la dispersin de los datos, a travs
del diagrama de caja y bigotes (box-plot) como herramienta importante para el anlisis
exploratorio de datos.
155
Ejemplo 4.1
Si trabajamos con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadstica Bsica 09-A, tenemos que el rango es:
R = Xmx Xmn = {X / Xmx X Xmn }
R= 88 44 = 44 Kg.
R = {X / 44 X 88}
Si trabajamos con los datos agrupados del Cuadro 2.7, peso en Kg. de los 60
alumnos de Estadstica Bsica 09-A, tenemos que el rango es:
R = LS5 LI1 = {X / LSk X LI1 }
= 88 44 = 44 Kg.
R = {X / 44 X 88}
Tal como se puede apreciar el Rango es una medida muy gruesa de la dispersin
de los datos ya que nos da una idea de la diferencia o fluctuacin de los valores
extremos.
156
RANGO INTERCUARTLICO
El rango intercuartlico (RIQ o RIC) es la diferencia entre el cuartil 3 y el cuartil 1
y nos indica entre que valores se encuentra el 50% central de las observaciones.
25% datos
Q1
25% datos
Q2
25% datos
Q3
25% datos
Tanto para datos sin agrupar, como para datos agrupados la frmula de clculo es:
RIQ = Q3 Q1 = P75 P25
Ejemplo 4.2
En el ejemplo 3.14 de cuartiles, con los datos sin agrupar del Cuadro 2.6, peso
en Kg. de los 60 alumnos de Estadstica Bsica 09-A, se ha determinado que el
cuartil 1 es Q1 = 51 Kg. y el cuartil 3 es Q3 = 67.75 Kg. Reemplazando valores
RIQ = 67.75 51.00 = 16.75 Kg.
157
Xi
X i Me
i 1
DM X
DM X
i 1
Ejemplo 4.3
Calcular la desviacin media respecto a la media aritmtica con los datos sin
agrupar del Cuadro 2.6, peso en Kg. de los 60 alumnos de Estadstica Bsica 09-A,
cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
60
Xi
DM X
i 1
X i 59.87
i 1
44 59.87
60
45 59.87
46 59.87
60
20.13 28.13
158
80 59.87
540.38
60
88 59.87
9.006 Kg.
Xi
DM X
X ni
Xi
i 1
Xi
X hi DM Me
i 1
Me ni
i 1
Xi
Me hi
i 1
Ejemplo 4.4
Calcular la desviacin media respecto a la mediana, con los datos agrupados del
Cuadro 2.7, peso de los 60 alumnos de Estadstica Bsica 09-A FCE-UNAC,
siguientes:
Clase
PESOS (Kg.)
i
1
2
3
4
5
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
X i Me ni
DM Me
i 1
X i 59.25 ni
i 1
60
159
X 1 59.25 n1
X 2 59.25 n2
X 3 59.25 n3
X 4 59.25 n4
X 5 59.25 n5
60
66.0 59.25 17
2
X
V (X )
S X2
V (X )
S2
para la poblacin.
para la muestra.
)2
(Xi
2
X
a) Varianza poblacional:
i 1
N
n
X )2
(Xi
S X2
i 1
b) Varianza muestral:
X i2
i 1
X i2 n X 2
i 1
n 1
n 1
(Xi
a) Varianza poblacional:
2
X
i 1
X i2 ni
i 1
160
) 2 ni
(Xi
S X2
b) Varianza muestral:
X )2 ni
i 1
X i2 ni n X 2
i 1
n 1
n 1
Ejemplo 4.5
Calcular la varianza con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60
alumnos de Estadstica Bsica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
60
)2
(Xi
2
( X i 59.87) 2
i 1
i 1
60
6542.47
60
405.2169 791.2969
109.0412 (Kg.)2.
60
X i2
2
i 1
X i2 60
. (1)
i 1
60
161
60
X i2
442
452
462
802 882
i 1
X i2 60
2
221,595.5 60(59.87) 2
60
i 1
60
6,542.47
109.0412 Kg.2
60
Ejemplo 4.6
Calcular la varianza de los pesos de los 60 alumnos de Estadstica Bsica 09-A
FCE-UNAC, con los datos agrupados del Cuadro 2.7, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos
alumnos
alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
) 2 ni
(Xi
2
i 1
( X i 60.133) 2 ni
i 1
60
2
2
2
1 ( X 1 60.133) n1 ( X 2 60.133) n2 ( X 3 60.133) n3
60 ( X 4 60.133)2 n4 ( X 5 60.133)2 n5
162
2
2
2
1 (48.4 60.133) 19 (57.2 60.133) 15 (66.0 60.133) 17
60 (74.8 60.133)2 5 (83.6 60.133)2 4
X i2 ni
2
i 1
X i2 ni 60
. (2)
i 1
60
X i2 ni
i 1
= 223 569.28
X i2 ni 60
2
223569.28 60(60.1333333) 2
60
i 1
60
6608.2133
60
= 110.1369 (Kg.)2.
aX i b, entonces:
V (aX
b)
a 2V ( X )
Demostracin:
n
(Yi Y )2
SY2
V (Y )
i 1
n 1
163
(3)
a 2 S X2
aX i b, entonces : Y
aX
b)]2
[aX i b (aX
SY2
V (Y )
i 1
a2 ( X i
i 1
n 1
2
SaX
Entonces:
Si b = 0, entonces:
2
SaX
S X2
n 1
b
V (aX
V (aX )
2
Si a = 0, entonces: S b
Si a =1, entonces:
X )2
b)
a 2V ( X )
a 2V ( X )
a 2V ( X ) a 2 S X2
a 2 S X2
a 2 S X2
V ( b) 0
b
V (X
b) V ( X )
S X2
que
ni
i 1
164
, xk y varianzas
(ni 1) Si2
S2
i 1
( xi
x ) 2 ni
i 1
n 1
n 1
ni xi
i 1
donde x
Sw2
Sb2
K
(ni 1) Si2
La intravarianza esta definida por:
S w2
i 1
n 1
K
( xi
La intervarianza esta definida por:
Sb2
x )2 ni
i 1
n 1
SEXO
Nmero
Ingreso Medio
Varianza
ni
xi (S/.)
Si2 (S/.)2
1.Hombres
400
1,500
360,000
2.Mujeres
600
1,000
250,000
165
ni xi
i 1
n1 x1 n2 x2
n
= S/. 1,200
La intravarianza de los ingresos es:
2
(ni 1) Si2
S w2
i 1
n 1
=
218'390, 000
999
= 218,608.60 (S/.)2.
( xi
Sb2
x )2 ni
i 1
n 1
=
( x1 x )2 n1 ( x2
n 1
x ) 2 n2
60'000, 000
999
= 60,060.06 (S/.)2.
S2
Sw2
SX
Tanto para datos sin agrupar como para datos agrupados se define como la raz
cuadrada de la varianza (bien poblacional o muestral).
2
S2
100
100
para la poblacin.
cv( X )
SX
100
X
S
100
X
para la muestra.
Ejemplo 4.11
En el ejemplo de los pesos de los 60 alumnos de Estadstica Bsica 09A-FCEUNAC, (para datos sin agrupar) se ha determinado que = 59.87 y = 10.442 Kg.
Luego el coeficiente de variacin de los pesos de los alumnos es:
CV ( X )
100
10.442
.100 =17.44 %
59.87
167
Ejemplo 4.12
En el ejemplo de los pesos de los 60 alumnos de Estadstica Bsica 09A-FCEUNAC, (para datos agrupados) se ha determinado que = 60.133 y = 10.495 Kg.
Luego el coeficiente de variacin de las tallas de los alumnos es:
CV ( X )
100
10.495
.100 = 17.45 %
60.133
En Excel:
Con los datos de la variable peso de los 60 alumnos de estadstica Bsica 09-A en la
columna D, desde D3 hasta D62, cuando en el programa se pide Matriz se sombrean
estos o se escribe D3:D62.
Una primera forma de obtener los estadgrafos es con la opcin de funciones
del
168
figura 3.8). En la celda D74 escribir =D68-D66, al efectuar enter aparece 16.25 (Ver
figura 4.1).
Para calcular la desviacin media (Excel obtiene con respecto a la media aritmtica)
usar la sintaxis: =DESVPROM(Matriz). Para la variable peso, en la celda D75
escribir =DESVPROM(D3:D62) al hacer enter aparece el resultado 9.006.
Para hallar la varianza de la muestra usar la sintaxis =VAR(Matriz) y para la
varianza de la poblacin usar =VARP(Matriz). Para determinar la varianza de la
variable peso, en la casilla D76 escribir =VARP(D3:D62) al hacer enter aparece el
resultado 109.0412 (ver Figura 4.1).
Para calcular la desviacin estndar muestral usar la sintaxis =DESVEST(Matriz)
y para la desviacin estndar poblacional usar =DESVESTP(Matriz). Para la
variable peso, en la casilla D77 escribir =DESVESTP(D3:D62) al hacer enter
aparece el resultado 10.442 (ver Figura 4.1).
Para calcular el coeficiente de variacin se divide la desviacin estndar de la celda
D77 entre la media aritmtica de la celda D63 as: en la casilla D78 escribir
=D77/D63 al hacer enter y luego clic en %, aparece 17.44%.
169
En Minitab:
Estando en la base de datos Estadstica Bsica 09A, escoger del men Stat Basic
Statistics Display Descriptive Statistics aparece la ventana de dilogo Display
Descriptive Statistics (vista en la Figura 3.4).
En variables: seleccionar la variable peso de las variables que estn a la izquierda.
Hacer clic en el botn
Total
Count
60
Mean
59.87
StDev
10.53
Variance
110.89
170
CoefVar
17.59
Range
44.00
IQR
16.75
)2
(Xi
2
i 1
( N 1) S 2
N
(50 1) 110.89
109.0412 Kg2.
60
109.0412 = 10.442
En SPSS:
Estando en la base de datos Estadstica Bsica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar Estadsticos descriptivos Frecuencias.
Inmediatamente se abre la ventana de dilogo Frecuencias.
En Variables: ingresar la variable peso, luego hacer clic en el botn
y se
171
Vlidos
Perdidos
25
50
75
60
0
59.87
10.530
110.889
44
44
88
51.00
57.00
67.75
(Xi
2
i 1
)2
( N 1) S 2
N
(50 1) 110.889
109.0412 Kg2.
60
109.0412 = 10.442
> diff(range(peso))
[1] 44
> sd=var^0.5
> sd
[1] 10.44228
> cv=sd/mean(peso)*100
> cv
[1] 17.44207
ESTADGRAFO MANUAL
EXCEL
MINITAB
SPSS
Rango
44.00
44.00
44.00
44
44
RIQ
16.75
16.25
16.75
16.75
16.25
Desviacin media
9.006
9.006
9.006
109.0412
109.0412
110.89 (a)
110.89 (a)
110.89 (a)
10.442
10.442
10.530 (a)
10.53 (a)
10.53 (a)
17.44%
17.44%
17.59 (a)
17.59 (a)
17.59 (a)
Varianza
Desviacin
estndar
Coeficiente
de
variacin
174
representar el cuartil 2. Es decir, que la caja representa el RIQ, pues concentra el 50%
central de los valores observados.
De los extremos centrales de la caja se extienden los bigotes en la parte inferior hasta
el mx[Q1 - 1.5RIQ, mn (X1, X2, ., Xn)] y en la parte superior hasta el min[Q3 +
1.5RIQ, mx (X1, X2, ., Xn)]. As mismo, por debajo de la parte inferior y por encima
de la parte superior de los bigotes se colocan los valores extremos (outliers) con
asteriscos, tal como se indica en la figura 4.4.
En Minitab:
Estando en la base de datos Estadstica Bsica 09A, escoger del men Graph
Boxplot Simple OK aparece la ventana de dilogo Boxplot One Y,
Simple (ver la Figura 4.5).
De la lista de variables del lado izquierdo seleccionar la variable peso e ingresarla en
Graph variables:.
Hacer clic en el botn
175
176
y aparece la ventana de
dilogo Boxplot Multiple Graphs, hacer clic en By variables (ver la figura 4.7).
Figura 4.7 Efectuando Grfico Mltiple de Boxplot para peso, por sexo
177
GR FICO 4.2 BOXPLOT DEL PESO DE LOS A LUMNOS DE ESTA DSTICA B SICA 09-A FCE-UNA C,
POR SEXO
Hombre
90
Mujer
Peso (Kg.)
80
70
60
50
40
Panel variable: sexo
178
En SPSS:
Estando en la base de datos Estadstica Bsica 09A, seguir la secuencia: Analizar
Estadsticos descriptivos Explorar y aparece la ventana de la Figura 4.9.
Figura 4.9 Ventana de dilogo Explorar para definir el boxplot de peso en SPSS
80
70
60
50
40
PESO (Kg)
179
90
PESO (Kg)
80
70
26
19
60
50
40
Hombre
Mujer
SEXO
En R:
Estando en la base de datos Estadstica Bsica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aqu).
180
181
182
MEDIDAS DE ASIMETRA
Segn Prez (2002) Las medidas de asimetra tienen como finalidad el elaborar un
indicador que permita establecer el grado de simetra (o asimetra) que presenta una
distribucin sin necesidad de llevar a cabo su representacin grfica. Supongamos hemos
representado grficamente una distribucin de frecuencias. Si trazamos una
perpendicular al eje de las abscisas por x y tomamos esta perpendicular como eje de
simetra, diremos que una distribucin es simtrica si existe el mismo nmero de valores
a ambos lados de dicho eje, equidistantes de x dos a dos, y tales que cada par de valores
equidistantes de x tengan la misma frecuencia. En caso contrario, las distribuciones
sern asimtricas
a) Coeficiente de asimetra de Pearson.Para distribuciones unimodales y ligeramente asimtricas, Karl Pearson encontr
que la relacin emprica entre la media aritmtica, la mediana y la moda es:
Mo
3X
Ap
Mo
3 X
Me
S
Af
Af
1
n
Xi
i 1
1
n
Xi
X ni
i 1
3
183
Ejemplo 4.13
Con los datos sin agrupar del Cuadro 2.6, peso en Kg. de los 60 alumnos de
Estadstica Bsica 09-A, cuyos pesos ordenados son:
44
45
46
46.5
47
48
48
49
49
50
50
50
50
50.5
51
51
52
52
52.6
53
53
53
53
54
55
55
55
55
55
57
57
59
60
60
63
63
64
64
64.5
65
65
66
66
67
67
68
68
68
69
70
70
72
72
75
75
77
80
80
80
88
3 X
Me
3 59.868 57
10.442
asimtrica positiva.
El coeficiente de asimetra de Fisher es:
Af
1
n
Xi
i 1
3
1
(38558.56)
60
(10.442)3
Ejemplo 4.14
Hallar los coeficientes de asimetra de Pearson y el de Fisher, de los pesos de los 60
alumnos de Estadstica Bsica 09-A FCE-UNAC, con los datos agrupados del
Cuadro 2.7, siguientes:
Clase
i
1
2
3
4
5
PESOS (Kg.)
LIi
44.0
52.8
61.6
70.4
79.2
LSi
52.8
61.6
70.4
79.2
88.0
Marca
Prop.
Acum. Prop.Ac.
Alum-nos
alumnos alumnos alumnos
clase
Xi
ni
hi
Ni
Hi
48.4
19
0.317
19
0.317
57.2
15
0.250
34
0.567
66.0
17
0.283
51
0.850
74.8
5
0.083
56
0.933
83.6
4
0.067
60
1.000
60
1.000
184
Ap
Me
3 60.133 59.253
10.495
asimtrica positiva.
El coeficiente de asimetra de Fisher es:
Af
1
n
Xi
ni
i 1
3
1
(39828.25)
60
(10.495)3
1
n
Xi
i 1
1
n
Xi
X ni
i 1
4
Ejemplo 4.15
Con los datos sin agrupar del Cuadro 2.6 (ver ejemplo 4.13), peso en Kg. de los 60
alumnos de Estadstica Bsica 09-A, hallar el coeficiente de curtosis.
Solucin.En ejemplos anteriores se obtuvo = 59.868 y = 10.442 Kg.
185
1
60
60
X i 59.868
i 1
4
1762855.81
60
3
(10.442) 4
es platicrtica o achatada.
Ejemplo 4.16
Hallar el coeficiente de curtosis de los pesos de los 60 alumnos de Estadstica
Bsica 09-A FCE-UNAC, con los datos agrupados del Cuadro 2.7, dados en el
ejemplo 4.14.
Solucin.En ejemplos anteriores se obtuvo = 60.133 y = 10.495 Kg.
Luego el coeficiente de curtosis es:
1
60
Xi
60.133 ni
i 1
4
1825739.21
60
3
(10.495)3
En Excel:
Con los datos de la variable peso de los 60 alumnos de estadstica Bsica 09-A en la
columna D, desde D3 hasta D62, cuando en el programa se pide Matriz se sombrean
estos o se escribe D3:D62.
Una manera de obtener los estadgrafos de forma es con la opcin de funciones
del Excel, escoger dentro de Seleccionar una categora Estadsticas escoger
estadgrafo y aparece ventana de dilogo en la que se indica los argumentos
requeridos y se obtiene el resultado. Otra manera de obtenerlos es con la sintaxis para
el estadgrafo, que es la que utilizaremos. Para la asimetra usar la sintaxis
=COEFICIENTE.ASIMETRIA(Matriz)
=CURTOSIS(Matriz).
186
En Minitab:
Estando en la base de datos Estadstica Bsica 09A, escoger del men Stat Basic
Statistics Display Descriptive Statistics aparece la ventana de dilogo Display
Descriptive Statistics (vista en la Figura 3.4).
En variables: seleccionar la variable peso de las variables que estn a la izquierda.
Hacer clic en el botn
Total
Count
60
Skewness
0.58
Kurtosis
-0.47
187
En SPSS:
Estando en la base de datos Estadstica Bsica 09A, seguir la secuencia para obtener
la tabla de frecuencias: Analizar Estadsticos descriptivos Frecuencias.
Inmediatamente se abre la ventana de dilogo Frecuencias.
En Variables: ingresar la variable peso, luego hacer clic en el botn
y se
Vlidos
Perdidos
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
60
0
.579
.309
-.469
.608
En R:
Estando en la base de datos Estadstica Bsica 09A y habiendo attachado la misma,
para que reconozca las variables y sus valores, donde variable es un conjunto de
datos cuantitativos (peso aqu).
J. Arriaza y Otros (2008) recomiendan en el Apndice B Medidas de forma, con el
paquete fBasics del R.
Por ello, primero instalar el paquete fBasics. En el men del R escoger Paquetes,
luego Instalar paquetes, escoger un pas (Australia, por ejemplo) aparece una lista
de Packages (paquetes) buscar fBasics y hacer doble clic para que se instale en la
pc. Luego, desde el men escoger en Paquetes, cargar paquete y aparece una lista,
dar doble clic en fBasics, para calcular los estadgrafos de forma. Si el fBasics esta
instalado, slo hay que cargarlo.
188
> kurtosis(peso)
[1] -0.6106151
attr(,"method")
[1] "excess"
Cuyos resultados son parecidos a los obtenidos con los otros programas, es decir, que
la distribucin de la variable peso es asimtrica positiva y platicrtica.
189
CONTENIDO
5.1
5.2
5.3
5.4
5.5
Introduccin.
Diagrama de dispersin.
Covarianza y coeficiente de correlacin.
Regresin lineal simple.
Coeficiente de determinacin.
5.1 INTRODUCCIN
Uno de los propsitos de la estadstica es efectuar predicciones al futuro, para lo cual
es necesario explicar el comportamiento de una variable dependiente o explicada
(denotada por Y) mediante una o ms variables independientes o explicativas
(denotadas por Xs) basados en fundamentos tericos del fenmeno que se estudia.
As, vemos que en economa se busca explicar la demanda de los bienes y servicios en
funcin de los precios de los mismos.
Igualmente, basados en la informacin observada sobre la produccin de un bien o
servicio a travs del tiempo, tratamos de predecir las cantidades a producir en el futuro.
En el presente captulo se busca establecer algunas formas sencillas de establecer la
relacin entre las variables construyendo los diagramas de dispersin delos datos, as
como la medicin de la relacin entre las variables usando la covarianza y el
coeficiente de correlacin.
Tambin se presenta la determinacin de algunos modelos de regresin lineal simple
entre dos variables y los de series de tiempo que permitan hacer pronsticos en
situaciones de incertidumbre.
190
6.5
8.0
10.0
12.5
14.0
16.0
17.5
20.0
276
250
238
212
190
183
156
125
191
lineal, que es la que interesa en este caso). Al hacer clic en Cerrar se muestra el
diagrama de dispersin y la lnea de tendencia de la Figura 5.2
192
Con los datos de la variable precio (X) y cantidad (Y) en el Worksheet, del men
escoger Graph, Scatterplot, aparece la ventana de dilogo Scatterplots; escoger With
Regression y hacer clic en OK. Se muestra la ventana de dilogo de la Figura 5.3.
Y = Cantidad
240
220
200
180
160
140
120
5.0
7.5
10.0
12.5
X = Precio
15.0
17.5
20.0
193
Con los datos de la variable precio (X) y cantidad (Y) en el Editor de datos SPSS, del
men escoger Grficos, Interactivos, Diagrama de dispersin, aparece la ventana de
dilogo Crear diagrama de dispersin de la Figura 5.5.
194
280
CANT IDAD
240
200
160
120
8.0 0
12. 00
16. 00
20. 00
PRECIO
195
Cov( X , Y )
1
n
Xi
i 1
196
X Yi Y
1
SPXY
n
SPXY
Xi
X Yi Y
i 1
X iYi n X Y
i 1
( X ,Y )
r ( X ,Y )
Cov( X , Y )
n 1
S X SY
n
, para la poblacin; y
SPXY
, para la muestra.
SCX SCY
Donde:
n
SCX
Xi
i 1
X i2 n X 2 y SCY
i 1
Yi Y
i 1
Yi 2 nY 2
i 1
Ejemplo 5.2
Para los datos del ejemplo 5.1, calcular e interpretar la covarianza y el coeficiente de
correlacin lineal simple entre X e Y.
Solucin.Las variables X = precio de las muecas ($) e Y = cantidad vendida. Los datos son:
X
6.5
8.0
10.0
12.5
14.0
16.0
17.5
20.0
276
250
238
212
190
183
156
125
Clculos necesarios:
8
n = 8,
X i 104.5 ,
X 13.0625 ,
Yi 1630 ,
i 1
i 1
X i2
i 1
X i2 n X 2 1520.75 8(13.0625)2
SCX
155.7188
i 1
Yi 2
349,814
i 1
SCY
i 1
X iYi
i 1
SPXY
Luego:
a) Cov( X , Y )
SPXY
n
1649.875
8
206.2344
198
1, 649.875
203.75
b) r
SPXY
SCX SCY
1, 649.875
0.994
Y = Cantidad
276
250
238
212
190
183
156
125
203.8
Media
( Xi
X)
-6.6
-5.1
-3.1
-0.6
0.9
2.9
4.4
6.9
199
(Yi
Y)
72.3
46.3
34.3
8.3
-13.8
-20.8
-47.8
-78.8
SPXY =
COV(X, Y) =
( Xi
X ) (Yi
Y)
-474.14
-234.14
-104.89
-4.64
-12.89
-60.95
-211.89
-546.33
-1649.88
-206.2344
ei2
Minimizar
i 1
200
Yi
i 1
a bX i
Siendo la suma de los errores al cuadrado funcin de los parmetros a y b, se tiene que
tomar derivadas parciales con respecto a dichos parmetros e igualar a cero, as:
n
ei2
i 1
Yi
a bX i ( 1) 0
Yi
a bX i ( X i ) 0
i 1
ei2
i 1
i 1
na b
Xi
. (1)
Yi
i 1
i 1
i 1
X i2
Xi b
i 1
i 1
X iYi
nXY
i 1
n
Xi
X Yi Y
i 1
n
2
i
i 1
nX
Xi
SPXY
;
SCX
i 1
a Y b X
Frmulas de clculo para los valores de a y de b en regresin simple. Cabe resaltar que
el smbolo sobre a y sobre b indica que son valores estimados obtenidos con la
informacin muestral y son una buena aproximacin hacia a y b en la estadstica
inferencial.
Interpretacin de a y b
Al ser b la pendiente de la recta, entonces en b
Y
, si X
X
Y ; quiere
201
Por otro lado a representa el intercepto con el eje Y, cuando X se aproxima cero y en
algunos casos no tiene mayor sentido.
5.5 COEFICIENTE DE DETERMINACIN (R2)
El coeficiente de determinacin mide el porcentaje de explicacin de la variabilidad de
la variable dependiente Y, que es debido a la regresin (explicada por la variable
independiente X) y el resto que se queda sin explicar se atribuye al error.
En la prctica se aproxima (estima) con el coeficiente de correlacin al cuadrado
multiplicado por 100, o sea: 100r2 %.
Ejemplo 5.3
Para los datos del ejemplo 5.1, se pide: a) calcular e interpretar los coeficientes de
regresin y el coeficiente de determinacin entre X e Y; y b) determinar la cantidad
demandada de muecas cuando el precio sea de $ 15.
Solucin.a) Para las variables X = precio de las muecas ($) e Y = cantidad vendida, en la
solucin del ejemplo 5.2 tenemos los clculos que necesitamos, as:
n
SPXY
X i2 n X 2 1520.75 8(13.0625)2
SCX
155.7188
i 1
SCY
i 1
Luego:
b
SPXY
SCX
a Y b X
1649.875
155.7188
- 10.5952
203.75 ( 1.085)(13.0625)
342.15
1, 649.875
a b X i
342.15 10.595 X i
Interpretacin.-
a = 342.15, indica que la demanda tope bordear las 342 muecas, con el precio de
las mismas alrededor de cero dlares.
r2 = 0.988 98.8%, indica que 98.8% de la variabilidad de la demanda de muecas
es explicado por el precio de estas. Es decir, que el precio de las muecas ajusta
muy bien la cantidad demandada de stas.
b) Para determinar la cantidad de muecas demandadas a un precio X = $15,
reemplazamos en la ecuacin de regresin de la parte a), as:
Yi
342.15 10.595 X i
203
204
205
Coef
342.150
-10.5952
S = 6.06500
SE Coef
6.701
0.4860
R-Sq = 98.8%
T
51.06
-21.80
P
0.000
0.000
R-Sq(adj) = 98.5%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
6
7
SS
17481
221
17702
MS
17481
37
F
475.23
P
0.000
206
a = 342.150 y b = -10.595.
R
R cuadrado
a
.994
.988
R cuadrado
corregida
.985
Error tp. de la
estimacin
6.06500
Coeficientesa
Modelo
1
(Constante)
PRECIO ($)
Coeficientes no
estandarizados
B
Error tp.
342.150
6.701
-10.595
.486
207
Coeficientes
estandarizad
os
Beta
-.994
t
51.059
-21.800
Sig.
.000
.000
Regres in
Res idual
Total
Suma de
cuadrados
17480.795
220.705
17701.500
gl
1
6
7
Media
cuadrtica
17480.795
36.784
F
475.226
Sig.
.000a
En R:
Definidos los valores de las variables Precio y Cantidad, por los vectores X e Y
respectivamente siguientes:
> X=c(6.5, 8.0, 10.0, 12.5, 14.0, 16.0, 17.5, 20.0)
> Y=c(276, 250, 238, 212, 190, 183, 156, 125)
A continuacin utilizar la funcin lm para definir
> modelo=lm(Y~X)
> modelo
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept)
342.15
X
-10.60
> resumen=summary(modelo)
> resumen
208
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
Median
-7.3883 -4.1741
0.5342
3Q
Max
2.3974 10.3735
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
342.150
6.701
-10.595
0.486
209
CONTENIDO
6.1
6.2
6.3
6.4
6.5
Introduccin.
Distribucin binomial.
Distribucin de Poisson.
Distribucin hipergeomtrica.
Distribucin geomtrica.
6.1 INTRODUCCIN
En el presente captulo se presentan los modelos de probabilidad discretos cuyo clculo
ha sido adaptado a los programas que estamos presentando y que permiten dinamizar
el aprendizaje del clculo de probabilidades por la simplificacin de los procesos.
Se presentan los principales modelos de probabilidad para variables aleatorias
discretas, en las que estamos interesados en el nmero de xitos en un determinado
nmero de ensayos o pruebas.
La determinacin del xito o fracaso en este tipo de pruebas esta sujeto al inters
particular de quin realiza una determinada prueba.
Entre los modelos a estudiar tenemos las distribuciones: binomial, Poisson,
hipergeomtrica y la Geomtrica.
En cada caso se presenta las caractersticas principales de cada distribucin, es decir, la
funcin de probabilidad, la esperanza, la varianza, la funcin de distribucin
acumulativa de probabilidades y las respectivas formas de clculo de probabilidades.
210
p ( x ) P( X
x) p x q1 x ; x 0, 1.
p (x) = P (X = x)
q=1-p
211
Donde: C xn
x) Cxn p x q n
; x 0, 1, 2,3,...., n
n!
n x ! x!
= E (X) = np
F ( x) P( X
x)
P( X
xi x
Cxni p xi q n
xi )
xi
xi x
Todas estas probabilidades son calculadas por los programas estudiados, tal como
veremos a continuacin.
Ejemplo 6.2
Se lanza una moneda correcta 5 veces. Sea X = el nmero de caras obtenidas. Calcule
la probabilidad de obtener: a) 3 caras; b) a lo ms 2 caras; c) la distribucin de
probabilidades; y d) la funcin de distribucin acumulativa de probabilidades.
212
Solucin
Cada lanzamiento de la moneda es una prueba de Bernoulli, ya que estamos
interesados en observar si sale cara (xito) o no sale (fracaso), con p = q = 0.5.
As mismo, se trata de n = 5 pruebas independientes, puesto que el resultado de un
lanzamiento no influye en los sucesivos.
Por lo tanto, la variable aleatoria X = nmero de caras obtenidas ~B (n=5, p = 0.5) y su
funcin de probabilidad es:
p ( x) P( X
a) p(3) P( X
10
32
0.3125
1
5 10
32 32 32
16
32
0.50
1/32 =
5/32 =
10/32 =
10/32 =
5/32 =
1/32 =
0.03125
0.15625
0.31250
0.31250
0.15625
0.03125
1/32 =
6/32 =
16/32 =
26/32 =
31/32 =
32/32 =
0.03125
0.18750
0.50000
0.81250
0.96875
1.00000
p(x)
F(x)
F ( x) P( X
x)
P( X
xi x
xi )
xi x
213
214
215
variable para una probabilidad acumulada dada). Clculos que son realizados
indicando previamente los parmetros de la distribucin binomial, es decir, n =
Number of trials (nmero de pruebas) y p = Event probability (probabilidad de xito).
donde se escribe 3.
P( X = x )
0.3125
y en
217
Como son seis probabilidades las que se van a calcular se tiene que indicar donde se
quiere colocar dichos resultados.
Figura 6.5 Probabilidad para varios valores con distribucin binomial en Minitab
Si se desea seguir usando estos resultados para hacer otros clculos, los mismos deben
aparecer en la Worksheet del Minitab, por ello en Optional storage: (deposito
opcional de resultados) escribir C2. Para terminar hacer clic en OK y los resultados se
muestran en la columna C2 de la Worksheet.
Si no se van hacer otros clculos con los resultados, hacer clic en OK y dichos
resultados se muestran en la hoja de Session as:
Probability Density Function
Binomial with n = 5 and p = 0.5
x
0
1
2
3
4
5
P( X = x )
0.03125
0.15625
0.31250
0.31250
0.15625
0.03125
218
Para calcular las probabilidades acumuladas para los seis valores del ejemplo 6.2 y con
los resultados en la hoja de Session, en la Figura 6.5 seleccionar
y al hacer clic en OK aparecen los resultados siguientes:
Cumulative Distribution Function
Binomial with n = 5 and p = 0.5
x P( X <= x )
0
0.03125
1
0.18750
2
0.50000
3
0.81250
4
0.96875
5
1.00000
Los dos ltimos resultados son idnticos a los que aparecen en la Figura 6.2, los que a
continuacin se presentan tal como se han obtenido en la Worksheet del Minitab.
p(x)
0.25
0.20
0.15
0.10
0.05
0.00
3
x
219
En SPSS:
Para calcular las probabilidades simples (P) y las acumuladas (F) del ejemplo 6.2, en la
vista de variables se define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4
y 5). Veamos el clculo de probabilidades simples (P).
Del men escoger Transformar Calcular variable y aparece la ventana de
dilogo de la Figura 6.6. En Variable de destino: escribir P.
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Binom y con un clic en
ingresarla en el recuadro Expresin numrica: donde aparece PDF.BINOM(?,?,?).
220
probabilidad de xito = 0.5. Para finalizar hacer clic en Aceptar y en la vista de datos
aparece los resultados siguientes:
Para el clculo de las probabilidades acumuladas (F) del ejemplo 6.2, proceder de
manera similar al clculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.7.
221
222
> P=dbinom(x,5,0.5)
Para mejorar la presentacin de la distribucin de probabilidades (x, P) usar la funcin
cbind que permite presentar los resultados de los objetos definidos en columna, uno a
continuacin de otro, as:
> cbind(x,P)
x
[1,] 0 0.03125
[2,] 1 0.15625
[3,] 2 0.31250
[4,] 3 0.31250
[5,] 4 0.15625
[6,] 5 0.03125
Para calcular probabilidades acumuladas con la distribucin binomial usar la funcin
pbinom(x,n,p). Donde x puede ser un valor o un conjunto de valores definidos
previamente, n el nmero de ensayos y p la probabilidad de xito.
En la parte b) del ejemplo 6.2 se solicita F (2) = P (X 2), esto se calcula as:
> pbinom(2,5,0.5)
[1] 0.5
Para obtener la distribucin de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=pbinom(x,5,0.5)
> cbind(x,P,F)
x
223
p( x) P( X
e
; x 0, 1, 2,3,....
x!
x)
F ( x) P( X
x)
P( X
xi x
xi )
xi x
e
xi !
224
La deduccin como un proceso de Poisson, surge cuando hay eventos discretos que
se generan en un intervalo continuo t (unidad de medida: longitud, rea, volumen,
tiempo, etc.) y forman un proceso de Poisson con parmetro , si tiene las siguientes
propiedades.
El promedio de xitos que ocurren en una unidad de medida t es conocido e igual a
t.
La ocurrencia de los eventos son independientes.
La probabilidad de xito en una unidad de medida pequea de longitud h es
proporcional a su longitud: h.
La probabilidad de ocurrencia de 2 o ms xitos en esta unidad pequea h es
aproximadamente cero.
Si en un proceso de Poisson de parmetro se observa t unidades de medida, se define
X = nmero de ocurrencias de eventos en las t unidades de medida. Entonces, el
recorrido de la variable es RX = {0, 1, 2, 3, . }.
La variable aleatoria X tiene distribucin Poisson definida por:
p ( x) P( X
x)
( t)x e
x!
; x 0, 1, 2,3,....
Ejemplo 6.3
El promedio de llamadas recibidas por una central telefnica en un minuto es igual a 2.
Calcule la probabilidad de que en 2 minutos se reciban: a) 3 llamadas; b) a lo ms 2
llamadas; c) la distribucin de probabilidades; y d) la funcin de distribucin
acumulativa de probabilidades.
225
Solucin
Como = 2 y t = 2, t = 4 llamadas promedio en 2 minutos.
Sea X = el nmero de llamadas recibidas en 2 minutos ~ P (4) y la ley de
probabilidades es:
p( x) P( X
x)
4x e 4
; x 0, 1, 2,3,.... Luego:
x!
a) p(3) = P(X = 3) =
43 e 4
= 0.195367
3!
40 e 4
0!
41 e 4
1!
42 e 4
= 0.23810
2!
p(x) = P(X = x)
F(x) = P(X x)
0.018316
0.018316
0.073262
0.091578
0.146525
0.238103
0.195367
0.433470
0.195367
0.628837
0.156293
0.785130
0.104196
0.889326
0.059540
0.948866
0.029770
0.978637
0.013231
0.991868
10
0.005292
0.997160
11
0.001925
0.999085
12
0.000641
0.999726
226
x)
P( X
xi x
xi )
xi
4 xi e 4
y se presentan en la tabla anterior
xi !
x
de la pregunta c).
Veamos el procedimiento de clculo de estas probabilidades con los programas, las
mismas que estn sintetizadas en la tabla de la pregunta c) y d).
En Excel:
Para hallar la distribucin de probabilidades Poisson, en la hoja de clculo definimos
en la columna A los valores de la variable x = 0, 1, 2, 3, 4, ., 15, .. En la columna
B, definimos las probabilidades p(x) para cada uno de los valores.
Para ello, estando en la casilla B2, en funciones
227
En Minitab:
En este programa, al igual que en la distribucin binomial, se puede hacer clculos de
probabilidades individuales o para el conjunto de valores que toma la variable.
Del men escoger Calc Probability Distributions Poisson y aparece la ventana
de dilogo de la Figura 6.10. En el ejemplo 6.3, la variable aleatoria X = nmero de
llamadas recibidas ~P (=4) parmetro indicado en la Figura 6.10.
Esta funcin permite tres tipos de clculos: Probabililty (calcular una probabilidad para
un valor de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Clculos que se realizan indicando
previamente el parmetro de la distribucin Poisson, es decir, = 4 = Mean (media).
, seleccionar
229
P( X = x )
0.195367
storage; se escoge p(x) para que los resultados los deposite en la misma Worksheet. Al
hacer clic en OK, en la Worksheet aparecen los resultados de la Figura 6.11.
Figura 6.11 Probabilidad para varios valores con distribucin Poisson en Minitab
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.3 y
con los resultados en la Worksheet, en la Figura 6.10 seleccionar
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.11.
El grfico de la distribucin Poisson obtenido con el Minitab es el siguiente:
230
p(x)
0.15
0.10
0.05
0.00
10
11
12
13
14
15
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.3, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4, ., 15, ).
231
232
En R:
Para calcular probabilidades simples con la distribucin Poisson usar la funcin
dpois(x,). Donde x puede ser un valor o un conjunto de valores definidos previamente
y la media.
En el ejemplo 6.3, X = nmero de llamadas recibidas ~ P ( = 4). En la parte a) se
solicita p (3) = P (X = 3), esto se calcula as:
> dpois(3,4)
[1] 0.1953668
233
[1,]
0 1.831564e-02
[2,]
1 7.326256e-02
[3,]
2 1.465251e-01
[4,]
3 1.953668e-01
[5,]
4 1.953668e-01
[6,]
5 1.562935e-01
[7,]
6 1.041956e-01
[8,]
7 5.954036e-02
[9,]
8 2.977018e-02
[10,]
9 1.323119e-02
[11,] 10 5.292477e-03
[12,] 11 1.924537e-03
[13,] 12 6.415123e-04
[14,] 13 1.973884e-04
[15,] 14 5.639669e-05
[16,] 15 1.503912e-05
Para calcular probabilidades acumuladas con Poisson usar la funcin ppois(x,).
Donde x puede ser un valor o un conjunto de valores definidos y la media.
234
En la parte b) del ejemplo 6.3 se solicita F (2) = P (X 2), esto se calcula as:
> ppois(2,4)
[1] 0.2381033
Para obtener la distribucin de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=ppois(x,4)
> cbind(x,P,F)
x
[1,]
0 1.831564e-02 0.01831564
[2,]
1 7.326256e-02 0.09157819
[3,]
2 1.465251e-01 0.23810331
[4,]
3 1.953668e-01 0.43347012
[5,]
4 1.953668e-01 0.62883694
[6,]
5 1.562935e-01 0.78513039
[7,]
6 1.041956e-01 0.88932602
[8,]
7 5.954036e-02 0.94886638
[9,]
8 2.977018e-02 0.97863657
[10,]
9 1.323119e-02 0.99186776
235
p( x) P( X
x)
CxM CnN xM
; mx {o, n + M - N} x mn {n, M}
CnN
F ( x) P( X
x)
P( X
xi x
xi )
xi x
CnN
Ejemplo 6.4
De la baraja de 52 cartas se reparten 5 naipes sin reposicin. Sea X el nmero de
naipes de color negros repartidos. Calcule la probabilidad de que entre los 5 naipes
236
p ( x) P( X
Cx26 C526x
x)
; x 0,1, 2,3, 4,5 Luego:
C552
a) p(3) P( X
3)
C326 C226
= 0.32513
C552
C026 C526
C552
C226 C326
=
C552
C126 C426
C552
p(x)
0.02531
0.14956
0.32513
0.32513
0.14956
0.02531
F(x)
0.02531
0.17487
0.50000
0.82513
0.97469
1.00000
F ( x) P( X
x)
P( X
xi x
Cx26i C526xi
xi )
xi x
C552
de la pregunta c).
Veamos el procedimiento de clculo de estas probabilidades con los programas, las
mismas que estn sintetizadas en la tabla de la pregunta c) y d).
237
En Excel:
Para hallar la distribucin de probabilidades hipergeomtrica, en la hoja de clculo
definimos en la columna A los valores de la variable x = 0, 1, 2, 3, 4 y 5. En la
columna B, definimos las probabilidades p(x) para cada uno de los valores.
Para ello, estando en la casilla B2, en funciones
239
, seleccionar
P( X = x )
0.325130
storage; se escoge p(x) para que los resultados los deposite en la misma Worksheet. Al
hacer clic en OK, en la Worksheet aparecen los resultados de la Figura 6.18.
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.4 y
con los resultados en la Worksheet, en la Figura 6.17 seleccionar
240
p(x)
0.25
0.20
0.15
0.10
0.05
0.00
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.4, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, 4, 5).
Del men escoger Transformar Calcular variable y aparece la ventana de
dilogo de la Figura 6.19. En Variable de destino: escribir P.
241
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.21.
243
En R:
Para calcular probabilidades simples con la distribucin hipergeomtrica usar la
funcin dhyper(x,M,N-M,n). Donde x puede ser un valor o un conjunto de valores
definidos previamente, M = objetos con la caracterstica de inters, N-M = objetos sin
la caracterstica de inters y n el tamao de la muestra.
En el ejemplo 6.4, X = nmero de naipes negros repartidos ~ Hiper (N = 52, M =26, n
= 5). En la parte a) se solicita p (3) = P (X = 3), esto se calcula as:
> dhyper(3,26,26,5)
[1] 0.3251301
Si se desea determinar la distribucin de probabilidades de la variable aleatoria X,
primero se define el vector de valores y luego se calculan las probabilidades as:
> x=c(0,1,2,3,4,5)
> P=dhyper(x,26,26,5)
Para presentar la distribucin de probabilidades (x, P) usar la funcin cbind que
permite presentar los resultados de los objetos definidos en columna, uno a
continuacin de otro, as:
> cbind(x,P)
x
[1,] 0 0.02531012
[2,] 1 0.14955982
[3,] 2 0.32513005
[4,] 3 0.32513005
[5,] 4 0.14955982
[6,] 5 0.02531012
244
245
p ( x ) P( X
x) p q x 1 ; x 1, 2,3, 4,5,....
F ( x) P( X
x)
P( X
xi x
q xi
xi ) p
xi x
Ejemplo 6.5
Se lanza una moneda cargada con probabilidad de cara igual a 1/4. Sea X el nmero de
lanzamientos de la moneda hasta obtener cara. Calcule la probabilidad de que se
hayan realizado: a) 3 lanzamientos; b) a lo ms 2 lanzamientos; c) la distribucin de
probabilidades; y d) la funcin de distribucin acumulativa de probabilidades.
246
Solucin
El xito es obtener cara, entonces p = P(C) = = 0.25 y q = = 0.75.
Sea X = el nmero de lanzamientos de la moneda hasta obtener cara ~ Geom (0.25) y
la ley de probabilidades es:
p( x) P( X
1
4
x)
a) p(3) P( X
3)
3
4
1
4
x 1
3
4
3 1
1
b) P (X 2) = p(1) + p(2) =
4
= 0.14063
3
4
1 1
1
4
3
4
2 1
p(x) = P(X = x)
F(x) = P(X x)
0.25000
0.25000
0.18750
0.43750
0.14063
0.57813
0.10547
0.68359
0.07910
0.76270
0.05933
0.82202
0.04449
0.86652
0.03337
0.89989
0.02503
0.92492
10
0.01877
0.94369
11
0.01408
0.95776
247
F ( x) P( X
x)
P( X
xi x
1
xi )
4 xi
3
4
xi 1
y se presentan en la tabla
En Excel:
La distribucin de probabilidades geomtrica no esta definida en el Excel, pero se
pueden obtener en la hoja de clculo trabajando con la frmula. Para ello definir en la
columna A, los valores de la variable x, luego en la columna B definir las
probabilidades p(x) como frmula de clculo. Del mismo modo en la columna C,
definir los acumulados, bajo la forma tradicional de acumulacin y se obtiene el
resultado mostrado en la Figura 6.22.
En Minitab:
En este programa, al igual que para las distribuciones anteriores, se puede hacer
clculos de probabilidades individuales o para el conjunto de valores que toma la
variable.
Del men escoger Calc Probability Distributions Geometric y aparece la
ventana de dilogo de la Figura 6.23. En el ejemplo 6.5, la variable aleatoria X = el
nmero de lanzamientos de la moneda hasta obtener cara ~ Geom (0.25) parmetro
indicado en la Figura 6.23.
249
, seleccionar
P( X = x )
0,140625
storage; se escoge p(x) para que los resultados los deposite en la misma Worksheet. Al
hacer clic en OK, en la Worksheet aparecen los resultados de la Figura 6.24.
Para calcular las probabilidades acumuladas para los valores del ejemplo 6.5 y
con los resultados en la Worksheet, en la Figura 6.23 seleccionar
y en Optional storage: seleccionar F(x). Al hacer clic en OK
en la Worksheet aparecen los resultados de la Figura 6.24.
Las probabilidades acumuladas presentadas en la Figura 6.24, se encuentran
alrededor de 0.987, para X = 15, por lo que existen ms valores de X cuyas
probabilidades acumuladas no se han evaluado. As tenemos que para X = 40: el
Minitab arroja una probabilidad ms cerca de uno y es la siguiente:
Cumulative Distribution Function
Geometric with p = 0.25
x
40
P( X <= x )
0.999990
250
p(x)
0.20
0.15
0.10
0.05
0.00
10 11 12 13 14 15 16 17 18
x
251
En SPSS:
Para calcular las probabilidades simples (P) del ejemplo 6.5, en la vista de variables se
define x y en la vista de datos se ingresan los mismos (0, 1, 2, 3, , 14, 15, .).
Del men escoger Transformar Calcular variable y aparece la ventana de
dilogo de la Figura 6.25. En Variable de destino: escribir P.
252
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.27.
Para el clculo de las probabilidades acumuladas (F) del ejemplo 6.5, proceder de
manera similar al clculo de probabilidades simples, con las variantes indicadas, tal
como se muestra en la Figura 6.26.
En la Variable de destino: se escribe F. Del Grupo de funciones: escoger FDA y FDA
no centrada; y de Funciones y variables especiales: seleccionar Cdf.Geom e
ingresarla en el recuadro Expresin numrica.
Luego definir los argumentos cant, y prob, as: CDF.GEOM(x,0.25).
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 6.27.
253
p( y) P(Y
y) p q y ; y
F ( y) P(Y
y)
yi ) p
P(Y
yi y
q yi
yi y
254
> dgeom(2,0.25)
[1] 0.140625
Si se desea determinar la distribucin de probabilidades de la variable aleatoria Y,
primero se define el vector de valores y luego se calculan las probabilidades as:
> y=c(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)
> P=dgeom(y,0.25)
Para presentar la distribucin de probabilidades (y, P) usar la funcin cbind que
permite presentar los resultados de los objetos definidos en columna, uno a
continuacin de otro, as:
> cbind(y,P)
y
[1,]
0 0.250000000
[2,]
1 0.187500000
[3,]
2 0.140625000
[4,]
3 0.105468750
[5,]
4 0.079101563
[6,]
5 0.059326172
[7,]
6 0.044494629
[8,]
7 0.033370972
[9,]
8 0.025028229
[10,]
9 0.018771172
[11,] 10 0.014078379
[12,] 11 0.010558784
255
[13,] 12 0.007919088
[14,] 13 0.005939316
[15,] 14 0.004454487
[16,] 15 0.003340865
Para calcular probabilidades acumuladas con la geomtrica usar la funcin
pgeom(y,p). Donde x puede ser un valor o un conjunto de valores definidos
previamente, p = probabilidad de xito.
En la parte b) del ejemplo 6.5 se solicita F (2) = P (X 2) = P(Y 1), esto se calcula
en R as:
> pgeom(1,0.25)
[1] 0.4375
Para obtener la distribucin de probabilidades y las probabilidades acumuladas
efectuamos el siguiente proceso.
> F=pgeom(y,0.25)
> cbind(y,P,F)
y
[1,]
0 0.250000000 0.2500000
[2,]
1 0.187500000 0.4375000
[3,]
2 0.140625000 0.5781250
[4,]
3 0.105468750 0.6835938
[5,]
4 0.079101563 0.7626953
[6,]
5 0.059326172 0.8220215
[7,]
6 0.044494629 0.8665161
256
[8,]
7 0.033370972 0.8998871
[9,]
8 0.025028229 0.9249153
[10,]
9 0.018771172 0.9436865
257
CONTENIDO
7.1
7.2
7.3
7.4
7.5
7.6
7.7
Introduccin.
Distribucin uniforme o rectangular.
Distribucin exponencial.
Distribucin normal.
Distribucin chi-cuadrado.
Distribucin T de student.
Distribucin F.
7.1 INTRODUCCIN
En el presente captulo se presentan los modelos de probabilidad continuos cuyo
clculo basado en integrales, ha sido adaptado a los programas que estamos estudiando
y que facilitan el clculo de probabilidades por la simplificacin de los procesos.
Se presentan los principales modelos de probabilidad para variables aleatorias
continuas, cuyo clculo de probabilidades esta basado en la distribucin acumulativa
x
probabilidades como:
P(a X b) = F(b) F(a)
258
f ( x)
,a x b
b a
0
, otros casos
x)
,x
x a
,a x b
b a
1
, x b
Ejemplo 7.1
El tiempo en minutos que cierta persona invierte en ir de su casa a la estacin del tren
es un fenmeno aleatorio que obedece a una ley de distribucin uniforme en el
intervalo de 20 a 25 minutos.
a) Cul es la probabilidad de que alcance el tren que sale de la estacin a las 7:28
a.m. en punto, si sale de su casa exactamente a las 7:05 a.m.?
b) Hallar P(22 X 24).
259
Solucin
La variable aleatoria X = tiempo que se demora la persona en ir de su casa a la estacin
del tren saliendo a las 7:05 a.m. ~ Uniforme (20, 25) y la funcin de densidad de
probabilidades esta dada por:
f ( x)
1
, 20 x 25
5
0 , otros casos
x)
,x
20
x 20
, 20 x 25
5
1
, x 25
a) Si sale de su casa a las 7:05, para que alcance el tren que sale a las 7:28, debe
demorarse a lo ms 23 minutos, es decir X 23, luego la probabilidad solicitada
usando la funcin de distribucin acumulativa de probabilidades es:
P( X
23)
F (23)
23 20
5
3
= 0.6.
5
Significa que el 60% de las veces que sale de su casa a las 7:05 alcanzar el tren.
b) P(22 X 24) = F(24) F(22) =
24 20
5
22 20
5
2
= 0.4.
5
260
En Minitab:
Del men escoger Calc Probability Distributions Uniform y aparece la
ventana de dilogo de la Figura 7.1.
261
Para efectuar el clculo F(23) de la parte a) del Ejemplo 7.1 necesitamos seleccionar
y en el recuadro escribir 23. Al hacer clic en OK, en la hoja de Session
aparece este resultado:
Cumulative Distribution Function
Continuous uniform on 20 to 25
x
23
P( X <= x )
0.6
Se procede del mismo modo para hallar F(24) y F(22) de la parte b).
Si de antemano sabemos que se requiere calcular probabilidades acumuladas para
varios valores de X, en una columna de la worksheet definimos dichos valores como x
y en otra columna F(x) para obtener los resultados. Para ello, en la figura 7.1 en vez de
escoger Input constant: se selecciona
y escoge x en el recuadro; y en
Optional storage; se escoge F(x) para que los resultados los deposite en la misma
Worksheet. Al hacer clic en OK, en la Worksheet aparecen los resultados siguientes:
De la tabla, se obtiene rpidamente P(22 X 24) = F(24) F(22) = 0.8 0.4 = 0.4.
Una representacin grfica de la solucin anterior en Minitab (cuyo procedimiento es
similar para otras distribuciones continuas), se obtiene seleccionando del men Graph
Probability Distribution Plots, de la ventana mostrada seleccionar View
Probability, luego hacer clic en OK y aparece la ventana de dilogo de la Figura 7.2.
En Distribution: hacer clic en
, luego
262
263
Distribution Plot
0.20
Density
0.15
0.10
0.05
0.00
20
22
24
25
Figura 7.4 Clculo y grfico de P(22 X 24) con la dist. uniforme en Minitab
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
x
20.25
, luego seleccionar
264
Distribution Plot
0.05
Density
0.15
0.10
0.05
0.00
20 20.3
25
Figura 7.5 Grfico del inverso de probab. acum. Con la dist. uniforme en Minitab
Nota.- todos los procedimientos vistos aqu con el Minitab son vlidos para las otras
distribuciones continuas de probabilidad y que sern abreviados cuando se vea para
esas otras distribuciones.
En SPSS:
Para calcular las densidades f(x) (f) del ejemplo 7.1, slo para hacer el grfico de la
funcin, en la vista de variables se define x y en la vista de datos se ingresan los
mismos (22, 23, 24, .).
Del men escoger Transformar Calcular variable y aparece la ventana de
dilogo de la Figura 7.6. En Variable de destino: escribir f.
Del Grupo de funciones: del lado derecho, escoger FDP y FDP no centrada; y de
Funciones y variables especiales: seleccionar Pdf.Uniform y con un clic en
ingresarla al recuadro Expresin numrica: donde aparece PDF.UNIFORM(??,?).
A continuacin, hay que definir cada uno de los argumentos ? indicados en la funcin
PDF.UNIFORM(cant,mn,mx) que se precisan en el recuadro central de la Figura 7.6.
265
Figura 7.6 Clculo de las densidades f(x) con la distribucin uniforme en SPSS
Para finalizar hacer clic en Aceptar y en la vista de datos aparece los resultados de la
Figura 7.8, cuyos resultados no son de mucha trascendencia para variables continuas,
ya que sirven para realizar la grfica de la distribucin [distinto al caso discreto, donde
se obtena probabilidades p(x) con esta funcin], por lo que para las siguientes
distribuciones los obviaremos, pero se obtienen de manera similar en el SPSS.
Sin embargo, las probabilidades acumuladas son de inters por lo que sern tratadas en
cada una de las distribuciones continuas que se presentan y cuyo procedimiento es
similar al que se ve a continuacin.
Para el clculo de las probabilidades acumuladas (F) del ejemplo 7.1, proceder de
manera similar al clculo de densidades, con las variantes indicadas, tal como se
muestra en la Figura 7.7.
266
En R:
Para calcular las densidades con la distribucin uniforme se usa la funcin
dunif(x,mn,mx). Donde x puede ser un valor o un conjunto de valores definidos
previamente, mn = a = valor ms pequeo de X y mx = b = valor ms grande de X.
En el ejemplo 7.1, X = tiempo que se demora la persona en ir de su casa a la estacin
del tren ~ Uniforme (20, 25). Para determinar las densidades correspondientes a los
valores 22, 23 y 24se define un vector x con dichos valores y luego las densidades f se
calculan as:
> x=c(22,23,24)
> f=dunif(x,20,25)
> cbind(x,f)
x
[1,] 22
0.2
[2,] 23
0.2
[3,] 24
0.2
[1,] 22
0.2
0.4
[2,] 23
0.2
0.6
[3,] 24
0.2
0.8
268
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) usar la funcin qunif(p,mn,mx). Donde p
puede ser una probabilidad acumulada o un conjunto de probabilidades acumuladas
definidas previamente, mn = a = valor ms pequeo de X y mx = b = valor ms
grande de X.
Para hallar el valor del cuantil x correspondiente a una probabilidad acumulada de
0.05, se procede as:
> qunif(0.05,20,25)
[1] 20.25
Resultados idnticos a los del Minitab y del SPSS. Cabe resaltar que cualquiera de los
clculos de probabilidades con otras distribuciones es similar.
f ( x)
,x 0
, otros casos
269
F ( x) P( X
x)
, x 0
1 e
, x 0
Ejemplo 7.2
El tiempo de vida de un tipo de focos es una variable aleatoria X, que tiene distribucin
exponencial con una vida media de 1000 horas. a) Qu proporcin de focos no sirve
antes de las 1000 horas? y b) Qu proporcin de focos dura entre 800 y 1200 horas?
Solucin
La variable aleatoria X = tiempo de vida de los focos tiene distribucin exponencial
con media = 1/ = 1000 horas. Por lo tanto, = 0.001. Luego X ~ Exp (0.001) y la
funcin de densidad de probabilidades esta dada por:
f ( x)
0.001 e
0
0.001 x
,x 0
, otros casos
F ( x) P( X
x)
, x 0
1 e
0.001 x
, x 0
270
En Excel:
Para hallar la distribucin de probabilidades acumuladas exponenciales, en la hoja de
clculo definimos en la columna A los valores de la variable x = 800, 1000 y 1200. En
la columna B, definimos las probabilidades acumuladas F(x) para cada uno de los
valores.
Para ello, estando en la casilla B2, en funciones
271
Para obtener las probabilidades acumuladas para los otros valores de x, se efecta una
copia de lo anterior para las celdas sucesivas en B3 y B4, cuyos resultados son:
En Minitab:
Del men escoger Calc Probability Distributions Exponential y aparece la
ventana de dilogo de la Figura 7.10.
P( X <= x )
0.632121
Se procede del mismo modo para hallar F(800) y F(1200) de la parte b).
Tambin se puede calcular probabilidades acumuladas para varios valores de X, en una
columna de la worksheet definimos dichos valores como x y en otra columna F(x) para
obtener los resultados. Para ello, en la figura 7.10 en vez de escoger Input constant: se
selecciona
F(x) para que los resultados los deposite en la misma Worksheet. Al hacer clic en OK,
en la Worksheet aparecen los resultados siguientes:
273
, luego
Distribucin exponencial
Density
0.0008
0.0006
0.0004
0.148
0.0002
0.0000
800 1200
274
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
x
51.2933
275
276
En el ejemplo 7.2, X = tiempo de vida de los focos ~ Exp (0.001). Para determinar las
probabilidades acumuladas correspondientes a los valores 800, 1000 y 1200 se define
un vector x con esos valores y luego las probabilidades acumuladas F se calculan as:
> x=c(800,1000,1200)
> F=pexp(x,0.001)
> cbind(x,F)
x
[1,]
800
0.5506710
[2,] 1000
0.6321206
[3,] 1200
0.6988058
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la funcin qexp(p,). Donde p es
una o un conjunto de probabilidades acumuladas definidas previamente y
parmetro de la exponencial.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.05 y 0.95 se procede as:
> p=c(0.05,0.95)
> q=qexp(p,0.001)
> cbind(p,q)
p
277
f ( x)
2
)2
(x
1
2
Var (X) = 2
Distribution Normal
Mean = , StDev =
0.8
0.7
0.6
Density
0.5
0.4
0.3
0.2
0.1
0.0
278
F ( x)
P( X
x)
)2
(t
dt
entonces la
= N (0, 1) y su funcin de
f ( z)
1
e
2
z2
2
(z) = P( Z
z)
t
1
2
e dt . Se cumple que (-z) = 1 - (z), para z > 0.
2
279
Ejemplo 7.3
Los dimetros de los tubos fabricados por cierta mquina tienen distribucin normal
con media de 9.8 mm. y desviacin estndar de 0.53 mm. a) Qu proporcin de tubos
sern rechazados, si no se aceptan dimetros inferiores a 9 mm?; b) Qu proporcin
de tubos tiene un dimetro entre 8.5 y 11.0 mm?; y c) por debajo de que dimetro se
encuentra el 95% de los tubos?
Solucin
La variable aleatoria X = dimetro de los tubos en mm. ~ N (9.8, 0.53).
Estandarizando se tiene que Z
X 9.8
~ N (0, 1)
0.53
P( X
9)
X 9.8
0.53
9 9.8
0.53
P( Z
Significa que alrededor del 6.55% de los tubos fabricados ser rechazado.
b) P(8.5 X 11.0) = P
8.5 9.8
0.53
X 9.8
0.53
9 9.8
0.53
P( 2.45 Z
3.40)
x 9.8
x 9.8
0.53
0.53
Z 0.95
Significa que el 95% de los tubos fabricados tienen un dimetro de alrededor de los
10.67 mm.
Veamos la solucin del ejemplo 7.3 utilizando los programas y basados
fundamentalmente en las probabilidades acumuladas de la normal.
280
En Excel:
Para hallar la distribucin de probabilidades acumuladas normales, en la hoja de
clculo definimos en la columna A los valores de la variable x = 8.5, 9.0 y 11.0. En la
columna B, definimos las probabilidades acumuladas F(x).
Para hallar las probabilidades acumuladas, estando en la casilla B2, en funciones
del Excel, escogemos Estadsticas (de seleccionar una categora) y buscamos la
funcin DISTR.NORM y aparece la ventana de dilogo de la Figura 7.14.
281
Para obtener las probabilidades acumuladas para los otros valores de x, se efecta una
copia de lo anterior para las celdas sucesivas en B3 y B4, cuyos resultados son:
Nota.- para hallar los resultados iniciales del ejemplo 7.3, se hizo una aproximacin de
los valores Z, para poder usar la vieja tabla de la distribucin normal estndar,
resultados que difieren de los acumulados F(x) encontrados con el programa, ya que
ste internamente hace la estandarizacin y da una mejor aproximacin. Sin embargo,
el Excel tambin permite obtener los (z) con la funcin DIST.NORM.ESTAND(z).
Tal como se muestra en los resultados anteriores difieren los F(x) y (z).
Para hallar el inverso de probabilidades acumuladas (calcular el valor del cuantil x ,
para una probabilidad acumulada = p) usar la funcin DIST.NORM.INV(p, , ) que
para la parte c) del ejemplo 7.3 escribir =DIST.NORM.INV(0.95,9.8,0.53) en el
recuadro al lado de
anteriormente hallado.
En Minitab:
Del men escoger Calc Probability Distributions Normal y aparece la ventana
de dilogo de la Figura 7.15.
La funcin permite tres tipos de clculos: Probabililty density (para hallar f(x) para un
valor x de la variable), Cumulative probability (calcular la probabilidad acumulada
hasta un valor x determinado) e Inverse cumulative probability (calcular el valor de la
variable para una probabilidad acumulada dada). Las ms usadas son las dos ltimos.
En el Ejemplo 7.3, la variable aleatoria X = dimetro de los tubos en mm. ~ N (9.8,
0.53) parmetro indicado en la Figura 7.15.
Para resolver la parte a) y b) se necesita el clculo de probabilidades acumuladas
F(8.5), F(9.0) y F(11.0) que se explican a continuacin.
282
P( X <= x )
0.0070869
283
F(x) para que los resultados los deposite en la misma Worksheet. Al hacer clic en OK,
en la Worksheet aparecen los resultados siguientes:
e indicar los valores X1 = 8.5 y X2 = 11.0 [ya que queremos hallar P(8.5
Distribution Normal
Mean=9.8, StDev=0.53
0.8
0.7
0.6
Density
0.5
0.4
0.3
0.2
0.1
0.0
8.5
9.8
X
11
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
y en el recuadro escribir
x
10.6718
285
286
[1,]
8.5
0.007086862
[2,]
9.0
0.065593960
[3,] 11.0
0.988217584
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la funcin qnorm(x,,). Donde p
es una o un conjunto de probabilidades acumuladas definidas previamente.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.95 se procede as:
> qnorm(0.95,9.8,0.53)
[1] 10.67177
El 95% de los tubos tiene un dimetro menor o igual a 10.6718 mm.
287
Z12
Z22 ... Z r2
f X 2 ( x) =
r
2
r
2
x2 e
x/2
= 0
0<x<
en otros casos
Donde:
( n)
X n 1e x dx , n > 0. Si n es
1
2
asociadas a formas
= Var(x) = 2r
288
xr2 1 r
X2
PX x
x2
0
f X 2 x dx
x2
0
r
2
r
2
r
1
2
x
2
e dx
y su grfica es:
Distribution chi-cuadrado
Chi-Square, df=25
0.06
0.05
Density
0.04
0.03
0.02
0.01
0.00
Ejemplo 7.4
Si la variable aleatoria X ~ X 252 . Hallar: a) Qu proporcin de valores de X son
mayores que 40.6?; b) Qu proporcin de valores de X se encuentran entre 14.6 y
37.7?; y c) por debajo de que valor se encuentra el 10% de los valores de X?
Solucin
La variable aleatoria X ~ X 252 . Entonces, usando la tabla de chi-cuadrado se tiene que:
289
Significa que el 10% de los valores de X ~ X 252 son menores que 16.5.
Veamos la solucin del ejemplo 7.4 utilizando los programas y basados
fundamentalmente en las probabilidades acumuladas de la chi-cuadrado.
En Excel:
Para hallar la distribucin de probabilidades acumuladas chi-cuadrado, en la hoja de
clculo definimos en la columna A los valores de la variable x = 14.6, 37.7 y 40.6. En
la columna B, definimos las probabilidades acumuladas, que en Excel vienen dadas
por F(x) = P(X > x).
Para hallar las probabilidades acumuladas, estando en la casilla B2, en funciones
del Excel, escogemos Estadsticas (de seleccionar una categora) y buscamos la
funcin DISTR.CHI y aparece la ventana de Argumentos de funcin donde se
define: el valor de X = A2 (14.6) para poder efectuar una copia para los otros valores
de x, y en el recuadro de Grados_de libertad escribir 25. Una forma directa de
clculo es escribir =DISTR.CHI(A2,25) en el recuadro al lado de
. Al hacer clic en
290
escoge x en el recuadro; y en Optional storage: se escoge F(x) para que los resultados
los deposite en la misma Worksheet. Al hacer clic en OK, en la Worksheet aparecen
los resultados siguientes:
291
, luego
e indicar los valores X1 = 14.6 y X2 = 37.7 [ya que queremos hallar P(14.6 X
37.7) y el grfico con dicha rea sombreada].
Para finalizar hacer clic en OK y aparece el grfico de la Figura 7.20.
Distribution Plot
Chi-Square, df=25
0.06
0.901
0.05
Density
0.04
0.03
0.02
0.01
0.00
14.6
37.7
292
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x, para una probabilidad acumulada dada) seleccionar
en la
y en el recuadro escribir
x
16.4734
293
[1,] 14.6
0.04976093
294
[2,] 37.7
0.95052629
[3,] 40.6
0.97471962
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la funcin qchisq(x,gl). Donde p es
una o un conjunto de probabilidades acumuladas definidas previamente.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.10 se procede as:
> qchisq(0.10,25)
[1] 16.47341
El 10% de los valores de X ~ X 252 son menores que 16.5.
Z
X2
r
Z r
~ tr
Y
f t
r 1
2
r
r
2
t
1
r
r 1
2
- <t<
Media y Varianza:
La media y la varianza de la v. a. T con r grados de libertad son:
E(T) =
Var(T) =
=0
2
T
r>1
,
r>2
Funcin de Distribucin Acumulativa de Probabilidades.El clculo de probabilidades para variable aleatoria t, se efecta utilizando las
Tablas de t, las mismas que han sido elaboradas utilizando la funcin de
distribucin acumulativa de probabilidades que en la mayora de los casos son del
tipo de acumulacin menor o igual que.
As tenemos que, la probabilidad que la variable aleatoria T con distribucin tr (1
r < 30) sea menor o igual a un valor constante t , representada por:
,
PT t
0<
<1
PT
f t dt
r 1
2
r
r
2
Distribution t
gl = df=25
0.4
Density
0.3
0.2
0.1
0.0
296
0
X
t
1
r
r 1
2
dt
297
. Al
298
escoge x en el recuadro; y en Optional storage: se escoge F(x) para que los resultados
los deposite en la misma Worksheet. Al hacer clic en OK, en la Worksheet aparecen
los resultados siguientes:
, luego
e indicar los valores X1 = -1.316 y X2 = 2.060 [ya que queremos hallar P(-1.316
X 2.060) y el grfico con dicha rea sombreada].
Para finalizar hacer clic en OK y aparece el grfico de la Figura 7.23.
299
Distribution T
gl = df=25
0.4
0.875
Density
0.3
0.2
0.1
0.0
-1.316
0
X
2.06
en la
y en el recuadro escribir
x
-1.70814
300
ingresarla
301
En R:
Para calcular probabilidades acumuladas con la T usar la funcin pt(x,gl). Donde x
puede ser un valor o un conjunto de valores definidos previamente, gl = grados de
libertad.
En el ejemplo 7.5, X ~ T25. Para determinar las probabilidades acumuladas
correspondientes a los valores (-1.316, 2.060 y 2.485) se define un vector x con esos
valores y luego las probabilidades acumuladas F se calculan as:
> x=c(-1.316,2.060,2.485)
> F=pt(x,25)
> cbind(x,F)
x
[1,] -1.316
0.1000570
[2,]
2.060
0.9750238
[3,]
2.485
0.9899976
Para el clculo del inverso de probabilidades acumuladas (calcular el valor del cuantil
x o q, para una probabilidad acumulada dada) usar la funcin qt(x,gl). Donde p es una
o un conjunto de probabilidades acumuladas definidas previamente.
Para hallar el valor del cuantil q correspondiente a las probabilidades acumulada de
0.05 se procede as:
> qt(0.05,25)
[1] -1.708141
El 5% de los valores de X ~ T25 son menores que -1.708141.
302
REFERENCIAS BIBLIOGRFICAS
Indicadores
303
304
ANEXO
305
sexo
edad
peso
talla
ing.
fam
mie.
fam
g.estud
cr.aprob
prom.
acum
t.vi viend
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
1
1
1
1
1
2
2
2
2
1
2
1
2
1
2
1
1
1
2
1
1
2
1
2
2
2
2
2
1
1
1
2
1
1
2
2
1
2
2
1
2
1
1
2
1
1
21
16
20
20
21
19
19
17
19
19
22
20
19
18
17
20
18
18
18
23
19
20
20
22
21
23
19
19
20
19
18
20
20
21
18
21
19
19
19
21
19
20
20
19
21
21
68
69
63
55
57
48
50
50
44
60
52.6
80
52
67
46
80
64
64
63
72
65
47
70
50
53
66
57
50.5
80
55
88
55
75
64.5
50
49
54
46.5
49
70
48
60
75
55
51
72
169
172
170
173
167
152
152
156
154
171
160
176
164
171
154
177
169
171
170
179
177
165
171
158
155
160
159
152
175
165
175
157
177
165
149
164
164
160
161
169
150
168
172
150
156
174
3900
800
1000
1200
800
1000
700
1000
600
3000
800
1800
1200
1000
1600
750
3000
2800
2000
4500
3500
2200
4000
1000
800
800
950
1000
1500
1800
1000
4000
800
800
800
900
3000
2000
1300
2500
600
750
2100
2500
600
800
5
5
5
5
5
5
5
4
6
7
4
6
4
4
7
4
6
3
5
5
6
5
5
6
5
2
5
4
5
7
3
5
3
5
2
6
5
5
5
5
4
6
6
5
5
5
150
50
250
60
90
250
150
400
20
80
180
150
150
250
300
170
200
240
160
300
200
150
200
120
250
120
180
150
150
200
80
230
250
70
250
300
250
160
80
100
100
120
140
150
200
120
36
42
38
42
34
42
38
42
50
39
50
38
38
50
30
47
35
35
35
44
42
39
35
43
43
40
34
25
31
35
34
37
34
38
34
50
34
38
37
34
40
27
30
38
50
43
11.30
13.33
13.49
12.40
12.29
13.19
12.40
12.60
13.96
12.00
15.92
13.00
12.00
15.92
13.00
14.00
12.00
11.99
12.00
12.00
13.00
12.00
11.00
11.00
11.00
11.00
12.00
11.00
14.60
12.20
12.00
12.30
13.00
13.50
13.00
12.00
11.95
12.35
12.30
11.35
12.63
10.00
11.70
11.00
13.00
11.50
2
1
3
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
2
2
1
1
1
1
1
1
4
3
2
1
1
1
1
1
1
1
2
3
1
1
1
1
4
1
(Contina .
306
. Continuacin)
n_cuest
sexo
edad
peso
talla
ing.
fam
mie.
fam
g.estud
cr.aprob
prom.
acum
t.vi viend
47
48
49
50
51
52
53
54
55
56
57
58
59
60
1
1
1
2
1
1
2
2
2
2
1
1
1
2
22
21
21
22
22
20
22
23
19
20
19
18
19
22
68
68
55
59
65
66
51
53
45
52
53
67
77
53
175
168
165
152
172
173
156
155
150
160
168
172
178
157
1500
2000
1500
1300
1000
1000
900
1250
650
900
1000
1300
1200
600
3
4
5
8
9
4
7
4
7
4
5
5
5
3
150
180
100
240
300
250
100
250
125
150
250
180
150
150
34
52
34
48
32
29
16
40
34
44
36
39
30
35
11.00
11.79
12.00
11.00
12.09
11.70
12.00
12.00
14.00
14.00
15.00
13.00
12.00
11.00
2
1
1
1
3
1
1
1
1
2
1
2
1
1
n_cuest
n.dor
mit
horas.
tv
hrs.
estud
lib.
leidos
hobby
imp.
estudio
imp.
fisico
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
3
7
2
3
4
2
4
3
4
5
3
7
4
4
3
3
4
3
6
4
2
3
4
7
6
3
4
3
3
10
3
8
4
30
3
4
6
8
10
8
15
10
6
26
7
8
12
10
6
12
5
14
6
14
8
7
14
5
3
6
21
16
8
25
35
4
6
30
12
12
30
30
15
16
26
15
10
14
14
18
10
10
20
25
24
8
6
15
8
5
15
9
9
1
15
5
4
3
2
3
4
5
4
10
3
3
3
4
3
2
5
8
3
2
3
2
4
7
4
4
3
3
3
3
2
2
1
4
2
2
2
5
4
1
4
2
4
1
3
3
2
2
5
4
2
2
1
2
2
4
2
2
1
4
1
4
4
5
4
4
5
4
5
5
4
5
5
5
4
5
5
5
4
4
5
4
4
4
3
4
4
5
5
5
5
4
4
3
3
4
4
2
3
3
3
2
3
3
5
3
3
4
5
3
2
4
4
4
4
4
5
3
3
3
3
3
4
2
1
2
2
2
2
2
2
1
2
1
2
2
1
2
2
2
1
2
2
2
2
1
2
2
2
2
2
1
2
2
(Contina .
307
. Conclusin)
n_cuest
n.dor
mit
horas.
tv
hrs.
estud
lib.
leidos
hobby
imp.
estudio
imp.
fisico
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
4
3
3
1
4
4
4
3
3
3
2
7
3
3
5
2
3
3
10
4
5
8
3
4
2
3
3
3
2
3
8
12
12
12
14
10
30
12
16
6
10
14
7
21
10
21
10
8
5
10
10
9
4
8
14
14
14
15
9
14
16
12
30
14
5
28
28
14
10
7
14
12
35
10
14
18
10
10
14
18
10
10
8
5
14
30
16
3
4
3
6
8
5
3
5
4
10
0
3
2
1
3
2
3
2
3
7
5
4
2
3
8
2
5
5
3
2
2
2
4
2
2
3
4
2
1
1
4
4
2
2
1
1
2
2
1
1
2
3
2
4
1
1
1
2
5
5
4
4
5
4
5
5
5
5
3
4
5
5
4
2
5
5
4
5
5
4
4
4
5
3
4
4
3
1
4
3
2
3
3
3
4
2
3
3
3
4
3
3
4
4
4
3
5
5
5
4
5
4
3
3
3
4
1
2
2
2
1
2
2
2
2
2
2
2
2
1
2
1
1
2
2
2
2
1
2
2
2
2
2
2
2
Codificacin:
SEXO
TIPO DE VIVIENDA
HOBBY
IMPORTANCIA DE .
1 = Hombre
1 = Casa Independiente
1 = Deporte
2 = Mujer
2 = Dpto. en Edificio
2 = Msica
3 = Quinta
3 = Baile
4 = Otro
4 = TV/Cine
1 = Muy Poca
2 = Poca
3 = Media
4 = Mucha
5 = Muchsima
5 = Otro
COLEGIO DE PROCEDENCIA
ESPECIALIZACIN
1 = Estatal
2 = No Estatal
1 = Teora Econmica
2 = Gestin Empresarial
308