Está en la página 1de 365

ESTADÍSTICA

MÓDULO ÚNICO
CARRERA: CONTADOR PÚBLICO
ADMINISTRACIÓN DE EMPRESAS
CURSO: 3º AÑO
PROFESOR: Lic. ROBERTO CADAR
SALTA - 2007

1
2
Educación
A DISTANCIA

AUTORIDADES DE LA UNIVERSIDAD

CANCILLER

Su Excelencia Reverendísima
Mons. MARIO ANTONIO CARGNELLO
Arzobispo de Salta

RECTOR

Dr. ALFREDO GUSTAVO PUIG

VICE-RECTOR ACADÉMICO

Dr. GERARDO VIDES ALMONACID

VICE-RECTOR ADMINISTRATIVO

Ing. MANUEL CORNEJO TORINO

SECRETARIA GENERAL

Prof. CONSTANZA DIEDRICH

DELEGADO RECTORAL
del S.E.A.D.

Dr. OMAR CARRANZA

3
4
Indice general

CURRICULUM VITAE .................................... 9 7. Organización de los Datos ........................ 43


I. Fundamentación ........................................ 13 7.1. Corrección ............................................. 43
II. Objetivos .................................................. 13 7.2. Clasificación........................................... 43
III. Programa de la asignatura ....................... 13 7.3. Tabulación ............................................. 44
IV. Bibliografía ............................................... 16 8. Presentación de los datos estadísticos ..... 46
V. Evaluación y Condición para regularizar 8.1. Introducción ........................................... 46
la materia ................................................. 17
8.2. Cuadros estadísticos ............................. 46
VI. Guía de Estudios ..................................... 21
8.3. Gráficos Estadísticos ............................. 52

UNIDAD I UNIDAD III


SIGNIFICADO Y ALCANCE DE LA
DISTRIBUCIÓN DE FRECUENCIAS .......... 65
ESTADÍSTICA ......................................... 21
1. Introducción .............................................. 65
1. La Estadística como disciplina científica ... 21
2. Series estadísticas ................................... 65
2. Aplicaciones de la estadística ................... 22
3. Distribución de frecuencias ....................... 66
2.1. Aplicación en distintas disciplinas .......... 22
4. Distribución de frecuencias para
2.2. Aplicación en la Economía y los
variables continuas .................................. 66
Negocios .................................................. 22
4.1. Organización de los datos ...................... 67
3. La Falsedad estadística ............................ 23
4.2. Construcción de las tablas de
frecuencias .............................................. 68
UNIDAD II 4.3. Tabulación de los datos ......................... 70
LA INVESTIGACIÓN ESTADÍSTICA ........... 25 4.4 Marca de clase (xi) ................................. 71
1. Etapas de un trabajo estadístico ............... 25 4.5. Distribución de frecuencias relativas
2. Variables ................................................... 26 simples (fr) ............................................... 71
3. Datos estadísticos .................................... 28 4.6. Gráficos de distribución de
frecuencias simples ................................. 73
4. Población y Muestra ................................. 30
4.7. Algunas situaciones particulares con
4.1. Población ............................................... 30 las tablas de frecuencias .......................... 75
4.2. Población finita y población infinita ......... 31 4.8. Distribuciones de frecuencias
4.3. Muestra .................................................. 32 acumuladas .............................................. 78
4.4. Parámetro y Estadígrafo ........................ 33 5. Distribución de frecuencias para
variables discretas ................................... 81
5. Objetivos del Análisis Estadístico ............. 36
6. Distribución de frecuencias para
5.1. Estadística Descriptiva .......................... 36
variables cualitativas ................................ 83
5.2. Estadística Inferencial ............................ 37
6. Relevamiento de datos estadísticos .......... 40
UNIDAD IV
6.1. Concepto ............................................... 40
RESUMEN DE INFORMACIÓN A TRAVÉS
6.2. Clases de fuentes .................................. 40 DE MEDIDAS DESCRIPTIVAS ............... 93
6.3. Experimentos y Encuestas. Métodos de 1. Concepto .................................................. 93
recolección de datos ................................ 41
2. Medidas de posición ................................. 93
6.4. El proceso de obtener datos .................. 42

5
2.1. Media aritmética ..................................... 94 3.2.- Frecuencia relativa de ocurrencia ....... 169
2.2. Mediana ............................................... 100 3.3.- Probabilidad subjetiva ......................... 170
2.3 Moda ..................................................... 101 4.- Axiomas de Probabilidad ....................... 173
2.4. Media aritmética, mediana y moda 5.- Reglas de Probabilidad .......................... 174
para datos agrupados ............................ 105
5.1.- Eventos mutuamente excluyentes y
Media aritmética combinada ........................ 106 no excluyentes. Reglas de la adición ..... 174
2.5. Otras medidas de posición ................... 118 5.2.- Eventos independientes y
Uso de la G para obtener tasas promedio dependientes. Reglas de la
de crecimiento ........................................ 120 multiplicación .......................................... 179

3. Medidas de Dispersión ........................... 131 Probabilidades conjuntas utilizando


tablas de contingencias .......................... 181
3.1 Rango ................................................... 132
6.- Reglas de conteo ................................... 188
Características del Rango .......................... 132
6.1.- Regla de la multiplicación .................... 188
3.2 Desviación Absoluta Promedio ............. 132
6.2.- Permutaciones .................................... 189
Características de la DM ............................ 133
6.3.- Variaciones ......................................... 190
3.3 Varianza ............................................... 134
6.4.- Combinaciones ................................... 191
3.4 Desviación típica o estándar ................. 135
6.5.- Aplicación de permutaciones y combina-
Principales característica de la ciones para determinar probabilidades ... 192
desviación típica .................................... 136
7.- Teorema de Bayes ................................ 195
3.5. Varianza y desvío típico de una
muestra .................................................. 137
3.6. Coeficiente de Variación ...................... 141 UNIDAD VI
3.7 Varianza y desvío típico para datos DISTRIBUCIÓN DE PROBABILIDADES ... 209
agrupados .............................................. 145 1.- Distribución probabilística ...................... 209
3.8 Otras medidas de dispersión ................ 148 1.1.- Concepto de Función .......................... 209
4. Formas de la distribución ........................ 149 1.2.- Variable aleatoria ................................ 209
4.1 Simetría y Asimetría .............................. 149 1.3.- Función probabilística ......................... 210
4.2 Distribuciones asimétricas .................... 151 1.4.- Distribución probabilística ................... 211
4.3. Coeficiente de Asimetría de Pearson ... 153 2.- Valor esperado ...................................... 213
4.4. Curtosis ............................................... 154 3.- Media y varianza de la población ........... 214
EL GRÁFICO DE CAJA ............................ 156 3.1.- Media de la población .......................... 214
3.2.- Varianza de la población ..................... 215
UNIDAD V 4.- Distribuciones de probabilidades
TEORIA DE LAS PROBABILIDADES ........ 163 discretas ................................................ 218

1.- Introducción ........................................... 163 4.1- Distribución binominal .......................... 218

2.- Conceptos básicos ................................ 163 Uso de las tablas ........................................ 221

2.1.- Evento aleatorio - Espacio muestral - 4.2.- Distribución de Poisson ...................... 225
Experimento ........................................... 164 Aproximación de la distribución de
2.2.- Eventos aleatorios simples y Poisson a la distribución binomial ........... 226
compuestos ........................................... 164 4.3.- Distribución hipergeométrica ............... 229
3.- Los tres enfoques de la Probabilidad ..... 168 5.- Distribución de probabilidades
continuas................................................ 232
3.1.- Probabilidad clásica ............................ 168

6
5.1. Distribución Normal .............................. 232 UNIDAD IX
5.2. Distribución exponencial ...................... 246 TEST DE HIPOTESIS ................................ 301
1. Generalidades......................................... 301
APÉNDICES 2. Procedimiento de las pruebas de
hipótesis ................................................. 301
Apéndice 1 .................................................. 257
3. Hipótesis exactas e inexactas ................ 305
Distribución Probabilisticas Binomiales ....... 257
4. Pruebas de hipótesis con muestras
Apéndice 2 .................................................. 260
grandes .................................................. 305
Probabilidades acumuladas para
4.1 Prueba de una media poblacional .......... 305
distribuciones binomiales ....................... 260
4.2 Prueba de la proporción de la población 307
Apéndice 3 .................................................. 263
4.3 Prueba para la diferencia de medias ..... 308
Probabilidades Poisson .............................. 263
5. Error de tipo II. Curva Característica
Apéndice 4 .................................................. 267
Operativa y Curva de Potencia de
Apéndice 5 .................................................. 268 Contraste ............................................... 309
Valores de e-l .............................................. 268 6. Inferencia para muestras pequeñas.
Diagrama de Contenido - Unidad VII ........... 269 La Distribución “t” de Student ................. 317
6.1 Introducción ......................................... 317
6.2 Características 3.................................. 317
UNIDAD VII
6.3 Uso de la tabla ...................................... 318
DISTRIBUCION EN EL MUESTREO ........ 271
6.4 Inferencia estadística utilizando la
1. Introducción ............................................ 271
distribución t ........................................... 319
2. Importancia de la muestra ....................... 271
6.5 Grados de libertad 4 ............................. 326
3. Error muestral ......................................... 272
4. Distribución en el muestreo ..................... 272
UNIDAD X
5. Error estándar ......................................... 273
LA DISTRIBUCIÓN JI CUADRADA (c2) ... 333
6. Distribución muestral de medias ............. 273
1. Características de la distribución ............ 333
7. Distribución muestral de proporciones .... 275
2. Uso de las tablas de c2 .......................... 334
8. Teorema del límite central ...................... 277
3. Aplicaciones de c2 .................................. 334
3.1 Prueba para la bondad de ajuste ........... 336
UNIDAD VIII
3.2 Test de Independencia .......................... 346
TEORÍA CLÁSICA DE LA ESTIMACIÓN ... 285
3.3 Prueba de Homogeneidad ..................... 348
1. Introducción ............................................ 285
3.4 Prueba de una varianza de la población 353
2. Estimador y Estimación .......................... 285
3. Tipos de Estimaciones ............................ 285
APÉNDICES
4. Propiedades de un buen estimador ......... 286
Apéndice 6 .................................................. 361
5. Estimaciones puntuales .......................... 287
Tabla de números aleatarios ....................... 361
6. Estimación por intervalo ......................... 289
Apéndice 7 .................................................. 362
6.1 Introducción .......................................... 289
Valores porcentuales de la distribución t ..... 362
6.2 Nivel e Intervalo de Confianza .............. 290
Apéndice 8 .................................................. 363
6.3 Cálculo de Estimaciones por
intervalos para muestras grandes .......... 291 Valores porcentuales de la distribución X2 .. 363

7
8
CURRICULUM VITAE

1. DATOS PERSONALES

APELLIDO Y NOMBRES: CADAR, Roberto Oscar


DOCUMENTO: D.N.I. Nº 12.790.108

2. TÍTULOS

a)Nivel Medio

* Perito Mercantil otorgado por el Colegio Salesiano “Angel Zerda” en


1974.

b) Nivel Superior

* Licenciado en Administración de Empresas otorgado por la Universi-


dad Católica de Salta en 1983. (Matrícula Profesional 059 - Consejo
Profesional de Ciencias Económicas).
* Profesor en Ciencias Económicas otorgado por la Universidad Nacio-
nal de Salta en 1988.

3. CARGOS DESEMPEÑADOS EN LA DOCENCIA

* Director de Estudios (Titular) del Instituto Superior del Profesorado


“José Manuel Estrada” desde 01-04-86 hasta la fecha.
* Rector (Suplente) del Instituto “José Manuel Estrada” - Niveles Medio
y Terciario, desde el 17-02-92 hasta el 24-09-93.
* Jefe de la carrera de Administración de Empresas (interino) depen-
diente de la Facultad de Economía y Administración de la Universidad
Católica de Salta desde el 07-03-89 hasta el 01-05 de 1989.
* Supervisor Técnico de la Dirección General de Educación Superior
dependiente del Ministerio de Educación de la Provincia de Salta desde
el 27-09-93 hasta el 10-12-95.
* Secretario Académico de la Escuela de Negocios de la U.C.S desde
el 2-7-95 hasta el 10-03-97.

9
4. OTROS CARGOS DESEMPEÑADOS

* Secretario Técnico de la Dirección de Estadísticas y Censos de la


Universidad Católica de Salta desde el 03-05-88 hasta el 06-03-89 y
del 02-07-89.
* Secretario Regional de la Sociedad Argentina de Estadística desde
1992 hasta la fecha.

5. ANTECEDENTES DOCENTES

a)Nivel Medio

- Instituto “José Manuel Estrada”

Profesor Titular en las siguientes asignaturas:

* Estadística Metodológica de 5º año desde el 08-05-80 a la fecha.


* Organización de Empresas de 5º año desde el 09-03-81 al 13-03-83.
* Economía Política de 4º año desde el 17-03-81 al 10-03-85.
* Contabilidad de 1º año desde el 12-03-84 hasta agosto de 1986.

Profesor suplente en las siguientes asignaturas:

* Análisis de Balance de 5º año desde el 14-03-83 al 16-05-83 y desde


el 22-06-84 al 05-08-84.
* Organización de Oficinas de 3º año desde el 01-08-83 al 29-11-83.
* Contabilidad de 3º año desde el 22-06-84 al 05-08-84.

- Instituto Privado “Carlos Guido Spano”

* Profesor titular de la asignatura Organización del Comercio y la Em-


presa desde el 19-08-80 hasta el 28-02-85.

- Colegio Salesiano “Angel Zerda”

Profesor titular en las siguientes asignaturas:

* Sistematización Administrativa y Contable de 3º, 4º y 5º año desde


marzo de 1982 hasta el 11-12-95.

10
* Organización del Comercio y de la Empresa desde marzo de 1984
hasta diciembre de 1997.
* Contabilidad y Sistematización Administrativa - Contable de 3er. año
desde el 01-02-98 a la fecha.

- Bachillerato Integral “Raúl Scalabrini Ortiz”

* Profesor suplente de la asignatura Probabilidad y Estadística desde


el 08-10-90 hasta el 30-12-90.

- Colegio de la “Divina Misericordia”

* Profesor de Contabilidad de 3º año desde marzo a julio de 1991.

b) Nivel Superior No Universitario

Profesor titular en el Instituto Superior del Profesorado “José Manuel


Estrada” en las siguientes asignaturas:

* Estadística de 3º año del Profesorado en Ciencias Jurídicas y Conta-


bles desde el 01-04-86.
* Metodología y Práctica de la Enseñanza de 4º año de la carrera del
Profesorado en Ciencias Jurídicas y Contables del Instituto del Profe-
sorado “José M. Estrada” desde el 01-04-88 a la fecha.

c)Nivel Superior Universitario

Profesor adjunto a cargo en la Universidad Católica de Salta en las


siguientes cátedras:

* Estadística en la carrera de Servicio Social desde 17-03-86 hasta la


fecha.
* Estadística en la carrera de Administración de Empresas y la carrera
de Economía desde el 18-08-86 hasta la fecha.
* Estadística en la carrera de Geografía desde el 23-03-87 hasta di-
ciembre de 1991.
* Estadística en la carrera de Ingeniería Industrial desde el 26-03-90 al
31-12-90.
* Estadística en la carrera de Comunicaciones Sociales desde marzo
de 1991 hasta la fecha.

11
* Estadística Aplicada en la carrera de Turismo desde agosto de 1992
hasta la fecha.
* Administración del Personal desde el 15-08-88 al 31-12-88 y desde el
14-08-89 al 31-12-89.
* Métodos y Modelos Decisionales en la carrera de Administración de
Empresas desde marzo de 1.994 hasta la fecha.

12
Carrera: Contador Público - Administración de Empresas
Curso: 3º Año
Materia: Estadística
Profesor: Lic. Roberto Cadar
Año Académico: 2007

I. Fundamentación
La información es un recurso fundamental para la toma de decisiones
en todo tipo de organización. Los directivos enfrentan el desafío de resol-
ver distintos problemas en condiciones de incertidumbre. Gracias al desa-
rrollo de los métodos cuantitativos, muchos de estos problemas han en-
contrado soluciones. La Estadística ha demostrado ser una herramienta
útil en todas las disciplinas en los procesos de decisión, en trabajos de
investigación y en evaluación de proyectos.

II. Objetivos
√ Conocer el significado y alcance de la Estadística como disciplina
científica.
√ Aplicar los métodos y técnicas estadísticas a los problemas relaciona-
dos con la Economía y los Negocios.
√ Valorar la Estadística como herramienta fundamental en los procesos
de investigación y toma de decisiones.

III. Programa de la asignatura


Unidad I: SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA

1. Estadística. Diferentes significados. La Estadística como disciplina


científica.
2. Aplicaciones de la Estadística en distintas disciplinas. Importancia en
la Economía y Negocios.
3. La falsedad estadística.

Unidad II: LA ESTADÍSTICA COMO DISCIPLINA CIENTÍFICA.

1. Etapas de un trabajo estadístico

13
2. Variables. Concepto. Clasificación. Datos estadísticos.
3. Población. Concepto. Población finita y población infinita. Unidades
elementales de observación. Parámetro.
4. Muestra. Conceptos. Razones para el muestreo. Muestras
probabilísticas y no probabilísticas. Estadígrafo.
5. Objetivos del análisis estadístico. Estadística Descriptiva. Inferencia
Estadística.
6. Relevamiento de datos. Fuentes internas y externas. Fuentes prima-
rias y secundarias. Métodos de obtención de datos.
7. Organización de los datos recopilados.
8. Presentación de la información. Cuadros y gráficos. Elementos es-
tructurales. Distintos tipos. Construcción. Lectura e interpretación.
Instrumentos de análisis.

Unidad III: DISTRIBUCIÓN DE FRECUENCIAS

1. Serie simple de datos. Arreglo de datos. Diagramas de tallos y hojas.


2. Series de frecuencias para variables continuas y discretas. Distribu-
ción de frecuencias para variables cualitativas. Construcción de las
tablas. Consideraciones básicas. Distribución de frecuencias relati-
vas. Gráficos: histogramas, polígonos de frecuencias y gráfico d e
bastones.
3. Distribución de frecuencias acumuladas. Construcción. Gráficos: ojivas
y gráficos escalonados.

Unidad IV: RESUMEN DE INFORMACIÓN A TRAVÉS DE MEDIDAS DES-


CRIPTIVAS

1. Medidas de posición. Concepto. Limitaciones. Media aritmética. Me-


diana. Moda. Media geométrica. Media armónica. Cuartiles. Deciles.
Percentiles. Conceptos. Cálculos. Características. Propiedades. Opor-
tunidad de utilización de cada una. Diagrama de caja.
2. Medidas de variabilidad. Concepto. Importancia. Clasificación. Ran-
go. Desvío absoluto promedio. Varianza. Desviación típica. Concep-
tos. Cálculos. Características. Propiedades. Dispersión relativa. Co-
eficiente de variación.
3. Formas de la distribución. Simetría y Asimetría. Curtosis.

Unidad V: TEORÍA DE LAS PROBABILIDADES

1. Introducción. Conceptos básicos.

14
2. Eventos aleatorio. Espacio muestral. Experimento. Eventos simples y
compuestos.
3. Los tres enfoques de la probabilidad. Probabilidad clásica. Frecuencia
relativa de ocurrencia. Probabilidad subjetiva.
4. Axiomas de probabilidad.
5. Eventos excluyentes y no excluyentes. Regla de la adición.
6. Eventos independientes y dependiente. Regla de la multiplicación.
7. Probabilidades conjuntas.
8. Reglas de conteo. Permutaciones. Variaciones. Combinaciones.
9. Teorema de Bayes.

Unidad VI: DISTRIBUCIÓN DE PROBABILIDADES

1. Función probabilística. Distribución probabilística.


2. Valor esperado. Media y varianza de la población.
3. Distribuciones de probabilidades discretas. Distribución binomial. Dis-
tribución de Poisson.
4. Distribuciones de porbabilidades continuas. Distribución normal. Dis-
tribución exponencial.

Unidad VII: DISTRIBUCIONES EN EL MUESTREO

1. Importancia de la muestra.
2. Error muestral
3. Distribución en el muestreo. Error estándar. Distribución muestral de
medias y de proporciones.
4. Teorema del límite central.

Unidad VIII: TEORÍA CLÁSICA DE LA ESTIMACIÓN.

1. Estimador y estimación. Tipos de estimación.


2. Propiedades de un buen estimador.
3. Estimaciones puntuales.
4. Estimaciones por intervalos. Estimaciones de la media poblacional y
de la proporción. Estimación de las diferencias de medias.

Unidad IX: TEST DE HIPÓTESIS

1. Concepto de hipótesis estadística. Procedimientos de las pruebas de


hipótesis. Hipótesis exactas e inexactas.

15
2. Pruebas de hipótesis para muestras grandes. Prueba de la media
poblacional. Prueba de la proporción de la población. Prueba de la
diferencia de medias. Error de tipo II. Curva de característica opera-
tiva. Potencia de contraste.
3. Inferencia estadística para muestras pequeñas. La distribución “t” de
Student. Pruebas de hipótesis. Estimaciones.

Unidad X: LA DISTRIBUCIÓN JI CUADRADA

1. Características de la distribución ji cuadrado.


2. Aplicaciones. Prueba de bondad de ajuste. Prueba de independencia.
Prueba de homogeneidad. Prueba de la varianza.

IV. Bibliografía
BÁSICA

• CHAO, Lincoln, “Introducción a la Estadística” C.E.S.C.S.A.


• CHOU, Ya Lun, “Análisis Estadístico”Ed. Mc. Graw. Hill.
• KAZMIER, Leonard y DIAZ MATA, Alfredo, “Estadística Aplicada” a la
Administración y Economía. Serie Schaum. Ed. Mc.Graw - Hill
• LEVIN, Richard, “Estadística para Administradores” Ed. Prenice may.
• SHAO, Stephen, “Estadística para Economía y Administración”. Ed.
Herrero Hnos.

COMPLEMENTARIA

• BERENSON, Mark y LEVINE, David, “Estadística para Administra-


ción y Economía” Ed. Interamericana.
• CHRISTENSEN, Howard, “Estadística Paso a Paso”. Ed. Trillas.
• MENDENHALL, W. Y RENMUTH, J. “Estadística para Administración
y Economía” Grupo Ed. Iberoamericana.
• MILLS, Richard “Estadística para Economía y Administración”, Ed.
Mc. Graw-Hill.
• NETER, J. y WASSERMAN, W. y OTT. Lyman, “Fundamentos de Es-
tadística” CECSA.
• SCHEARFFER, R. Y MENDENHALL, W. y OTT. Lyman. “Elementos de
Muestreos. Grupo Ed. Iberoamericana.
• YAMANE, Taro. “Estadística” Ed. Harla.

16
• D’OTTONE, Horacio “Estadística”. Ed. Copecultura (Sgo. De Chile)
• RANKE, J. y REITSCH. A., “Pronóstico de los negocios”. Ed. Prenice-
Hall
• PUBLICACIONES DEL INDEC (Instituto Nacional de Estadísticas y
Censos).

V. Evaluación y Condición para regularizar la materia


EVALUACIÓN

a) De seguimiento. A través del desarrollo de actividades de los módu-


los y la participación en los foros y clases satelitales.

b) De resultados. Mediante dos exámenes parciales con posibilidad de


un solo recuperatorio.

- Primer parcial. Unidades I y II


- Segundo parcial. Unidad III

c) Condiciones de regularidad. Aprobación de los dos exámenes parcia-


les con una calificación mínima de 4 (cuatro).

17
18
DIAGRAMA DE CONTENIDO - BLOQUE Nº 1

UNIDAD I
SIGNIFICADO Concepto de Aplicaciones La falsedad
Y ALCANCE DE Estadística estadística
LA ESTADISTICA

BLOQUE Nº 1

UNIDAD II
Etapas de un tra-

19
LA INVESTIGACIÓN bajo estadística
ESTADISTICA

Relevamiento
Variables
de datos

Datos Organización
estadísticos de los datos

Presentación
Población y de la
Muestra
información

Estadística
Descriptiva Cuadros Gráficos
e Inferencial
20
VI. Guía de Estudios
UNIDAD I

SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA


1. La Estadística como disciplina científica

En el lenguaje cotidiano se utiliza la palabra "estadística" como un con-


junto de cifras referido a alguna actividad, por ejemplo: número de acci-
dentes de tránsito durante un año, cifras de producción de cereales; índi-
ces mensuales de precios al consumidor, etc.

Sin embargo, por "estadística" debe entenderse algo más elaborado y


más susceptible de tratamiento científico. En la actualidad, todas las dis-
ciplinas utilizan la información estadística con el objeto de planificar cursos
de acción, y aún cuando se trabaja en condiciones de incertidumbre, de-
ben tomarse las decisiones correspondientes. La Estadística, precisamente,
proporciona un conjunto de métodos para la preparación de decisiones
acertadas frente a la incertidumbre. Trata de la resolución de problemas,
y en consecuencia, se encuentra dentro de los límites del método cientí-
fico.

Queda claro, entonces, que hoy en día los métodos estadísticos no se


aplican únicamente para reunir cifras históricas, sino que deben permitir el
tratamiento de la información numérica con fines de obtener conclusiones
útiles y elaborar pronósticos. Por ejemplo, en el nuevo escenario económi-
co, un gerente utiliza los datos de ventas no sólo para conocer los resul-
tados económicos, sino con el propósito de hacer estimaciones y analizar
tendencias.

De todo lo expuesto, se puede resumir el concepto de Estadística como


sigue:

“Es la disciplina que comprende un conjunto de teorías, métodos


y técnicas para obtener, describir e interpretar datos e informacio-
nes con el objeto de tomar decisiones y predecir fenómenos que
pueden expresarse en forma cuantitativa”.

21
2. Aplicaciones de la estadística
2.1. Aplicación en distintas disciplinas

Existen dos tipos extremos respecto a la Estadística: una aceptación


indiscriminada, donde se pretende tomar decisiones basándose solamen-
te en métodos estadísticos; o bien, una desconfianza sistemática en ella,
lo que lleva a ignorar muchos hechos de la realidad. Es por ello que debe
adoptarse una actitud intermedia, es decir utilizar los métodos y técnicas
estadísticas como herramientas para el logro de objetivos buscados. Nin-
gún procedimiento estadístico, en sí mismo, puede conducir directamente
a resultados buscados. La utilización adecuada depende de la habilidad y
exigencias de quienes los emplee(1) .

Como en todas las disciplinas se realizan trabajos de investigación, los


métodos estadísticos son instrumentos fundamentales de aplicación. Se
pueden citar los siguientes ejemplos:

- En Agricultura, un área relacionada con las Ciencias Biológicas, se


utilizan para determinar los efectos de fertilizantes en la producción
de cereales.
- En Medicina, se emplean para determinar los posibles efectos de un
nuevo tratamiento para una determinada enfermedad.
- En Ingeniería Industrial, es fundamental el conocimiento sobre las
técnicas estadísticas de control de calidad.

De la misma manera se puede afirmar que la Estadística es de gran


utilidad en Psicología, Educación, Sociología, Antropología, Geografía,
Turismo, Química, etc.

2.2. Aplicación en la Economía y los Negocios

La creciente complejidad de la Economía provoca cada vez mayor in-


certidumbre para las operaciones de cualquier empresa, pero como ya se
dijo, los administradores deben igualmente resolver problemas y tomar
decisiones. Particularmente, en el campo de la Administración, la Estadís-
tica ha demostrado ser una importante herramienta en áreas tales como

1. D'Ottone, Horacio. Op. cit. en la bibliografía.

22
investigación de mercados, evaluación de proyectos, pronósticos de ven-
tas, etc. En la actualidad, se trata de incluir todos los métodos relaciona-
dos con las decisiones estadísticas en una teoría que las abarque por
completo denominada "teoría de las decisiones".

Se debe puntualizar la importancia de los métodos estadísticos para


cualquier gobierno. Por ejemplo, la obtención de diferentes indicadores
como ser el PBI, índices de precios, tasas de interés, y otros, sirven no
sólo para describir el estado actual de la economía, sino que proporcionan
ideas de la tendencias, lo que permite evaluar las medidas de un plan
económico. Estos indicadores también son utilizados por los distintos sec-
tores económicos que llevarán a decisiones respecto a las operaciones y
políticas de cada uno.

3. La Falsedad estadística

La mala utilización de los métodos estadísticos llevan a resultados erró-


neos que destruyen el valor de cualquier investigación. Obtención de da-
tos insuficientes, construcciones inadecuadas de gráficos, datos muestrales
no representativos, son algunas de las situaciones que llevan a interpreta-
ciones engañosas y conclusiones equivocadas.

Por lo expresado, se requiere de cuidado y prudencia en el manejo de


datos estadísticos. Los errores cometidos son involuntarios en muchos
casos, pero también puede mentirse con estadísticas debido a intereses
creados. El primer ministro británico del siglo XIX, Benjamín Disraeli ex-
presó burlonamente que "existen tres tipos de falsedades: las mentiras,
las mentiras detestables y las estadísticas".

A medida que se avance en el desarrollo de los temas se irán haciendo


referencias al mal uso de la estadística en distintos métodos, técnicas y
procedimientos.

23
Actividad Nº 1

1. a. Busque en el diccionario las distintas acepciones del vocablo "es-


tadística".

b. De acuerdo a los conceptos desarrollados en el punto 1 de este


módulo y a las acepciones expuestas en (a), construya su propia
definición de estadística y explíquela.

2. Realice un listado de por los menos 5 actividades o ámbitos empre-


sariales donde la estadística resulte esencial.

3. Ilustre con un ejemplo la aplicación de la estadística en cada una de


las siguientes disciplinas.

a) Geografía
b) Turismo
c) Educación
d) Psicología

4) En los procesos decisorios se utilizan también los modelos proporcio-


nados por la Investigación operativa y la Econometría.

Investigue cuál es la finalidad de cada una y establezca la relación


con la Estadística.

5) Consulte la bibliografía y elabore un resumen sobre la historia de la


Estadística.

24
UNIDAD II
LA INVESTIGACIÓN ESTADÍSTICA
1. Etapas de un trabajo estadístico

Toda investigación estadística es un procedimiento sistemático que tie-


ne las siguientes etapas:

1.Formulación del problema: Debe determinarse en forma precisa el


objeto de la investigación, es decir "el qué" y "el para qué" se investiga.
Deben indicarse los sujetos del estudio (unidades de observación) y las
características de interés (variables).

2.Diseño del experimento: Se denomina "experimento" a la observa-


ción planeada de un fenómeno de cualquier índole con la finalidad de
describir su comportamiento y/o tomar una decisión. Formulado el proble-
ma, el investigador debe decidir si estudia toda la población (universo) o
sólo una parte de ella (muestra). En el Primer caso deberá realizar un
censo (enumeración completa de la población). Si elige una muestra, de-
berá diseñar el procedimiento adecuado para obtener una muestra repre-
sentativa de la población.

3.Relevamiento de datos: Se procede a recopilar los datos de las


distintas fuentes disponibles utilizando los distintos métodos de recolec-
ción.

4.Organización y presentación de datos: Los datos organizados y


presentados en cuadros (tablas) y/o gráficos se convierten en información
útil para facilitar la lectura y el análisis de la misma.

5.Análisis: Según sea el objetivo de la investigación, el análisis puede


ser descriptivo o inferencial. (Ver tema 5).

6.Interpretación: Los resultados obtenidos, que están expresados en


lenguaje estadístico, deben ser "traducidos" al lenguaje de la disciplina
científica en la cual se investiga. La interpretación permite la elaboración
de conclusiones y la toma de decisiones.

25
2. Variables

Cualquier objeto o evento cuyas características son observables cons-


tituye un "fenómeno". En un sentido más amplio se puede decir que un
"fenómeno" indica qué aspectos de la realidad está bajo observación o
estudio.

Sea la siguiente información sobre el personal de una universidad.

ANTIGÜEDAD CARGO Y SEXO


(en años) Docentes Administrativos
V M V M

0-5 3 5 2 4
5 - 10 18 16 19 11
10 y más 45 60 22 24

TOTAL 66 81 43 39

En la información del cuadro hay 3 características observables: antigüe-


dad, cargo y sexo. Cada una de ellas constituye una variable.

Una variable es una propiedad o característica de un objeto de estudio


que puede asumir distintos valores. También puede definirse como una
característica observable de un objeto de estudio que se puede describir
según un esquema de clasificación y medición bien definida.

VARIABLE VALORES O CATEGORIA DE VARIABLES

Antigüedad 0-5 5 - 10 10 y más


Cargo Docente - Administrativo
Sexo Varón - Mujer

Las variables se clasifican: en a) cualitativas y b) cuantitativas.

a) Las variables cualitativas, llamadas también "atributos", expresa pro-


piedades de los fenómenos que se pueden describir cualitativamente

26
y, desde luego, no están representadas numéricamente. Ej.: Cargo y
Sexo. Otros ejemplos: nacionalidad, nivel instrucción, estado civil, etc.

b) Las variables cuantitativas son las expresiones numéricas de algunas


propiedades de los fenómenos. En la información sobre el personal,
la antigüedad es una variable continua. Otros ejemplos: edad, peso,
estatura, etc.

Las variables cuantitativas pueden ser: "discretas" o "continuas".

- Las variables discretas son aquellas que pueden tomar sólo ciertos
valores es el intervalo considerado y no admiten valores intermedios.
Generalmente son valores enteros. Ej.: el número de hijos. Una fami-
lia puede tener 0,1, 2... hijos, pero no algún valor intermedio.

- Las variables continuas son las que pueden tomar cualquier valor en
el intervalo considerado. Ej.: el peso. Una persona que pesa 65 kgs.,
redondeando a enteras se puede tener la certeza que su peso es un
valor entre 64,5 y 65,5 kgs. Puede pesar 65 a 65,385 kgs., o cualquier
valor entre 64,5 y 65,5 kgs.

Hay muchas variables continuas cuyos valores parecen ser discretos.


Por ejemplo, la edad de una persona. Si alguien dice que cumplió 25 años,
en realidad tiene 25 años más una fracción de año.

Ahora bien, el empleo de fracciones o decimales no significa que nece-


sariamente las variables sean continuas. En algunas competencias depor-
tivas participantes pueden recibir calificaciones como 7; 7,5; 8; 8,5. Estos
valores son discretos ya que no se puede calificar entre 7 y 7,5.

En resumen:

- Las observaciones para una variable discreta se obtienen por el pro-


ceso de "conteo": número de acciones vendidas en la Bolsa, unidades
de un producto en un inventario, etc.

- Las observaciones para una variable continua se obtienen por el pro-


ceso de "medición": peso, estatura, temperatura, etc.

27
3. Datos estadísticos

Un dato es el valor de la variable. Si una persona es "varón", "docente"


y tiene una antigüedad de "6 años" en la universidad, cada uno de estos
valores individuales constituye un dato para cada variable de interés.

De hecho, los datos se presentan con algún tipo de "medición", es decir


que los registros de observaciones deben expresarse en números (o
símbolos) de manera que puedan aplicarse los métodos estadísticos.

Las características cuantitativas pueden transformarse en datos numé-


ricos, simplemente por medición directa en unidades tales como metro,
kilogramos, pesos, dólares, etc.

Si las características son cualitativas, las observaciones pueden


clasificarse como poseedoras o no de una cualidad o propiedad determi-
nada. Un artículo puede considerarse como "defectuoso" o "bueno". Pero
los atributos pueden expresarse numéricamente a los efectos de un trata-
miento estadístico, por ejemplo, asignar el valor 0 a los artículos defectuo-
sos y el valor 1 a los artículos buenos.

En muchos casos, los datos cuantitativos también pueden ser tratados


cualitativamente según la naturaleza del problema bajo estudio. La califi-
cación de exámenes es cuantitativa, pero puede ser tratada como atribu-
to, categorizando la calificación o resultado como "aprobado" o "desapro-
bado".

Lo más importante para destacar es que no toda información numérica


es considerada como dato estadístico. La información apropiada para un
análisis estadístico debe ser un conjunto de números que muestren "rela-
ciones significativas", es decir deben ser cifras que puedan ser compara-
das, analizadas e interpretadas. Un número aislado que no muestre rela-
ción significativa no es un dato estadístico (2).

(2) Shao, Stephen, op. cit. en la bibliografía

28
Actividad Nº 2

1. Indique si el siguiente enunciado es correcto o incorrecto y funda-


mentar la respuesta:

"Las variables discretas son las que asumen valores enteros"

2. Clasifique las siguientes variables:

a) Indices de desocupación de las provincias argentinas.


b) Número de asignaturas aprobadas por alumnos de una carrera
universitaria.
c) Causa de los accidentes de trabajo.
d) Densidad de población de los departamentos de la provincia de
Salta.
e) País de destino de las exportaciones argentinas.
f) Número de ambientes de las viviendas de un barrio.

3. ¿Por qué no cualquier número es un dato estadístico?

4. En diarios o revistas, identifique secciones que incluyan datos esta-


dísticos

29
4. Población y Muestra
4.1. Población

En la investigación estadística es fundamental definir el marco de refe-


rencia de estudio, esto lleva a definir la Población o Universo.

Población es la totalidad de posibles mediciones y


observaciones bajo consideración en una situación
dada de un problema.

Cada situación en particular implica definir una población diferente. Si el


problema consiste en analizar las evaluaciones del desempeño de todos
los empleados de una empresa comercial, entonces la población está
constituida por las evaluaciones de todos los empleados de esa empresa.
Si el problema consiste solamente en el análisis del desempeño de los
vendedores de la empresa, entonces la población está formada por las
evaluaciones de todos los vendedores de la organización. Es fundamental
que la población quede claramente especificada a fin de identificar los
integrantes de la misma.

Cada elemento de la población se denomina "unidad elemental de


observación". Sobre cada una de ellas se efectuarán las mediciones de
las características o propiedades que pueden ser cuantitativas o cualitativas.

Ejemplo: Durante una auditoría en una librería se revisan las cuentas


corrientes de los clientes a efectos de determinar el saldo promedio.

- La población consiste en todas las cuentas corrientes de los clientes


del negocio.
- La variable bajo estudio es el saldo. Es cuantitativa.
- La unidad de observación es cada cuenta individual.

Es fundamental definir cuidadosamente la unidad elemental y su carac-


terística observada. En un estudio sobre viviendas puede interesar el nú-
mero de habitaciones de cada una. Pero, qué es una habitación? ¿Un
dormitorio, un cuarto de baño, una cocina? ¿Se incluirán todas las depen-
dencia de la vivienda o sólo algunas? Otro ejemplo puede ser un análisis
sobre la rentabilidad de las pequeñas empresas. En este caso habrá que
precisar qué es una pequeña empresa y qué características se tendrán en
cuenta para considerarla como tal.

30
Puede ocurrir que distintos investigadores se opongan en las definicio-
nes sobre una misma cuestión básica. Por ejemplo, si se toma en conside-
ración al “turista” como unidad de observación para un análisis cualquiera,
puede ocurrir que para un economista, un turista sea la persona que se
desplaza de su residencia habitual, ya que tal desplazamiento lo obliga a
realizar gastos de hotelería, transporte, comida, etc. cualquiera sea la
“motivación” del viaje; sin embargo un sociólogo puede considerar que un
“viajante de comercio” o “un director de una S.A." que asiste a una reunión
de trabajo, no es un turista, puesto que la motivación de su viaje es con-
secuencia de la actividad laboral.

En resumen, la definición de la población y las características de sus


unidades elementales dependen de la naturaleza del problema que se
estudia, lo que importa es que esa definición sea lo más precisa posible.

4.2. Población finita y población infinita

Se denomina población “finita” a la que incluye un


número limitado de observaciones.

Por ejemplo, el conjunto de salarios de los operarios en una compañía.


Algunas poblaciones finitas incluyen solamente unos cuantos datos, mien-
tras que otras, consisten en miles o millones de datos. Siempre que sea
posible alcanzar el número total de observaciones, se considera como
finita la población.

Población “infinita” es aquella que incluye una gran


cantidad de medidas u observaciones que no pue-
den alcanzarse por conteo.

Una población de este tipo podría ser todas las baterías posibles que
fabricaría un industrial si continuara trabajando indefinidamente, bajo de-
terminadas condiciones de operación. Otra población infinita sería todos
los resultados posibles al lanzar un dado en forma continua e indefinida.
En las poblaciones infinitas, no puede obtenerse información completa,
por lo que para poder estudiarla se deberá trabajar con una muestra.

31
4.3. Muestra

Si las poblaciones que se investigan son infinitas, se dijo que el único


procedimiento posible es el de muestreo; como no puede contarse con
todos los elementos de la población, se toma de la misma una parte. En el
caso de poblaciones finitas, el muestreo sigue siendo el único procedi-
miento práctico, sobre todo si éstas son muy grandes y su enumeración
completa es prácticamente imposible. Por ejemplo, si se desea investigar
las preferencias de las amas de casa de la ciudad de Salta sobre una
marca de jabón, no será posible entrar en contacto con todas ellas, más
bien se encuestará a una parte de ella, o sea, se obtendrá una muestra.

Una muestra es un conjunto de observaciones toma-


das a partir de una población dada. Es un subconjunto
de la población o universo.

Fundamentalmente, una muestra se elige por las siguientes razones:

a) MENOR COSTO. Cuando los datos se obtienen mediante una muestra,


los gastos son menores que si se trabaja con un censo completo.

b) MAYOR RAPIDEZ. Los datos se pueden recopilar y procesar más rápida-


mente. Esto es importante si la información se requiere con urgencia.

c) MAYOR ALCANCE. Como se trabaja con una parte de la población, es


posible obtener información más completa y precisa que si se trabaja
con un censo.

d) En otros casos, el examen de los elementos requiere de la destruc-


ción de los mismos, como por ejemplo cuando se desea determinar
la calidad de los fósforos; aquí, el control se debe hacer con una
muestra porque si se trabajara con el censo esto implicaría la des-
trucción de toda la producción y no quedarían productos después del
examen.

De hecho, toda muestra debe ser representativa del universo que se


estudia, para permitirle al investigador extraer conclusiones en cuanto a
las relaciones entre sus variables y establecer generalizaciones, es decir
inferencias válidas a la población.

32
Existen varios tipos de diseños de muestras, pero todos ellos producen
dos categorías de muestras. Las probabilísticas y las no probabilísticas.

En las muestras probabilísticas todos los elementos de la población


tienen una probabilidad conocida de ser incluidos en la muestra.

Las muestras no probabilísticas son muestras de "juicio" donde el inves-


tigador elige los elementos que, en su opinión, son representativas de la
población.

4.4. Parámetro y Estadígrafo

Las características medibles de una población se denominan paráme-


tros. Por ejemplo, se desea realizar un análisis sobre los resultados de
una prueba de ingreso a todos los aspirantes a las carreras universitarias
de Ciencias Económicas en la provincia de Salta. Suponiendo que se tra-
baje con la población, se puede obtener un promedio de todas las califica-
ciones de los aspirantes en la prueba. Ese promedio describe una carac-
terística del universo, por lo tanto constituye un parámetro.

Si se decide trabajar con una muestra, se selecciona un grupo de aspi-


rantes, se registran sus calificaciones en la prueba y se obtiene un prome-
dio. En este caso, ese promedio está calculado sobre una muestra y se
denomina estadígrafo o estadístico. Los estadígrafos son las caracte-
rísticas medibles de una muestra.

33
Actividad Nº 3

1) Se ha hecho un estudio para determinar la preferencia de una marca


especial de detergente por parte de las amas de casa de la ciudad de
Salta. Entre las 200 amas de casas entrevistadas, 120 respondieron
que preferían esa marca.

a) ¿Cuál es la población?
b) ¿Cuál es la unidad de observación?
c) ¿Qué constituye la muestra?

2) Se lanza una moneda 100 veces y se obtienen 60 caras.

a) ¿Qué constituye la muestra?


b) ¿Qué constituye la población?

3) Durante una semana, en un cine asistieron 1000 espectadores. Expli-


que las circunstancias bajo las cuales estos 1000 espectadores pue-
den considerarse.

a) como muestra,
b) como una población.

4) La Municipalidad de Salta está efectuando una encuesta domiciliaria


de opinión sobre el servicio de recolección de residuos. Con ese ob-
jetivo se ha ideado un esquema para realizar un muestreo aleatorio
de las casas en distintos puntos de la ciudad y planea efectuar en-
cuestas durante los días hábiles de 9 a 14 horas. ¿Producirá este
esquema una muestra aleatoria?

5) En cada uno de los siguientes casos, identifique:

1) el objetivo del trabajo,


2) la variable de interés,
3) la población,
4) la muestra,
5) la unidad de observación.

34
a) Varias veces durante el día un ingeniero de control de calidad, en
una fábrica textil, selecciona diferentes muestras de metros cua-
drados de tela, las examina y registra el número de imperfecciones
que encuentra.

b) El Ministerio de Trabajo investiga la seguridad de las empresas


industriales de la provincia de Salta. A tal efecto registra los índices
de accidentes de trabajo a 50 establecimientos elegidos al azar.

c) A partir del registro de volantes en un distrito electoral, se toma


una muestra de 60 electores y encuentra que 30 están afiliados a
algún partido político.

35
5. Objetivos del Análisis Estadístico

Los datos estadísticos se pueden recopilar para fines prácticos (des-


criptivos) y de conocimiento científico (inductivos). Según el objetivo, la
Estadística puede dividirse en Estadística Descriptiva y Estadística
Inferencial.

5.1. Estadística Descriptiva

La estadística Descriptiva se refiere a aquella parte


del estudio que incluye la obtención, organización,
presentación y descripción de información numéri-
ca. El análisis se limita a los datos obtenidos en un
caso particular y no implica ningún tipo de inferen-
cia o generalización.

Por ejemplo, un gerente de ventas desea conocer las aptitudes de cinco


vendedores. Obtiene las ventas realizadas por los mismos durante una
semana y las presenta en el siguiente cuadro:

Vendedor A B C D E

Monto (en 18 25 20 15 22
miles de $)

Una medida estadística para describir esta información puede ser la


venta media o media aritmética.

18 + 25 + 20 + 15 + 22
Media = = $ 20
5

En este caso, se utilizan métodos descriptivos, ya que el promedio resu-


me y describe la información obtenida y no hay ninguna generalización
hacia las aptitudes de los otros vendedores de la compañía.

36
Los datos pueden presentarse en diversos gráficos, como por ejemplo,
un gráfico de barras.

30
25

20

15

10

A B C D E Vendedor

5.2. Estadística Inferencial

Si el interés del gerente de ventas es conocer las aptitudes de todos los


vendedores de la compañía, deberá recurrir a otros métodos estadísticos.
Si carece de tiempo y de recursos para trabajar con todos los datos,
utilizará una muestra como base para realizar una inferencia o estimación
acerca de la venta media de todos los vendedores. Para ello, deberá apli-
car los métodos de la Estadística Inferencial o Inferencia Estadística.

La Inferencia Estadística es un método mediante


el cual se obtienen generalizaciones o se toman
decisiones acerca de una población basadas en
información de una muestra.

Se debe observar que la inferencia estadística se relaciona con la esta-


dística descriptiva, ya que la información parcial de la muestra es obtenida
por métodos descriptivos. La venta media de $ 20 que es el estadígrafo,
podría utilizarse para estimar la venta media de todos los vendedores de
la empresa, es decir obtener una estimación del parámetro.

Como la Estadística Inferencial trabaja sobre una muestra, también se


denomina Estadística Muestral.

37
En el ámbito de la administración de empresas, los métodos de inferencias
son fundamentales para la toma de decisiones. Se tomarán a modo de
ejemplos dos casos típicos.

- Un comerciante mayorista recibe un embarque de artículos compra-


dos. Para determinar la calidad de los mismos, inspecciona 50 unida-
des y encuentra que 5 son defectuosas. Rechaza el embarque y lo
devuelve al proveedor?.

- Se emplean dos programas de capacitación para operarios de una


empresa industrial. Se aplican a dos grupos semejantes y al finalizar
el período de capacitación, se toma una prueba a ambos grupos. En
base a la calificación promedio de cada grupo, ¿podrá evaluarse la
efectividad de los dos programas de capacitación?

Visto los conceptos de ambas ramas de la Estadística, se puede dar


una definición más específica de esta disciplina:

La Estadística se refiere a un conjunto de métodos


para manejar la obtención, presentación y análisis
de observaciones numéricas. Sus fines son descri-
bir al conjunto de datos obtenidos (muestra) y tomar
decisiones o realizar generalizaciones acerca de las
características de todas las posibles observaciones
bajo consideración. (población)

38
Actividad Nº 4

1) Cinco baterías marca "Alfa" y cinco baterías marca "Beta" se prueban


para determinar su duración. Las duraciones para Alfa son: 27, 38,
37, 35 y 33 meses; para la marca Beta, las duraciones son : 25, 35,
28, 32 y 30 meses. A partir de las siguientes conclusiones, identifique
las que provienen de métodos descriptivos y las que provienen de
métodos inferenciales:

a) La duración promedio de las 5 baterías Alfa es de 34 meses y la


duración promedio de las 5 baterías marca Beta es de 30 meses.

b) La duración promedio de Alfa es mayor que la de Beta.

c) Probablemente, la duración promedio de todas las baterías Alfa


sea mayor que la duración promedio de todas las baterías Beta.

d) Si el precio de Alfa es igual al precio de Beta, es preferible comprar


Alfa.

2) Un candidato a ocupar un cargo público asegura que ganará la elec-


ción. Un sondeo de opinión indica que sobre 200 electores 40 votarán
por él, 100 favorecerán a su oponente y 15 están indecisos.

a) ¿Cuál es el parámetro poblacional de interés?


b) ¿Cuál de los estadígrafos debe utilizar para estimar el parámetro?

3) Proporcione un ejemplo de utilización de Estadística Descriptiva e


Inferencia Estadística aplicada a la Economía y los Negocios.

39
6. Relevamiento de datos estadísticos
6.1. Concepto

El relevamiento consiste en la recopilación de datos de diversas fuentes.

6.2. Clases de fuentes

a.Fuentes internas y fuentes externas

- Las fuentes internas son las que se encuentran dentro de la organi-


zación. Los datos obtenidos de estas fuentes, denominados internos,
son los relacionados directamente con las actividades de la empresa.
Estos datos están registrados en comprobantes (facturas, recibos,
etc.), fichas, registros contables, informes, o bien, en forma codifica-
da en discos, disquetes o memoria de una computadora. Por ejem-
plo: la información que proporciona el departamento de ventas sobre
el monto de ventas de una compañía en un período determinado o
los datos sobre la asistencia de los empleados obtenidos de la Oficina
de Personal.

- Las organizaciones necesitan también datos ajenos al funcionamien-


to y, por lo tanto, deben recurrir a fuentes externas. Los datos exter-
nos pueden obtenerse de distintas revistas o publicaciones; por ejem-
plo: una empresa agrícola requiere información sobre exportaciones
de granos puede recurrir a publicaciones de la Sociedad Rural Argen-
tina. En otras ocasiones, deben prepararse encuestas para recopilar
datos no disponibles en fuentes internas u otras por ejemplo, opinio-
nes de los consumidores de un nuevo producto.

b. Fuentes primarias y fuentes secundarias

- Las fuentes primarias son fuentes originarias de datos. Se denomi-


nan primarias porque los datos son obtenidos de una publicación
editada por el recopilador original. Como los datos se recopilan por
primera vez, se pueden utilizar experimentos estadísticos y encues-
tas como métodos de recolección. En el ejemplo sobre las opiniones
de los consumidores de un nuevo producto, la encuesta diseñada por
la empresa constituye una fuente primaria.

40
- Las fuentes secundarias son aquellas que proporcionan toda la infor-
mación existente sobre el tema bajo estudio. Se denominan secunda-
rias porque los datos son obtenidos de una reimpresión, que es publi-
cada por una persona u organización distinta al recopilador original.

La utilización de fuentes primarias o secundarias depende de la necesi-


dad y disponibilidad de datos, como así también del costo y la confiabilidad.
Las fuentes primarias son más costosas, pero pueden ser más confiables.
Si se utiliza una encuesta, ésta debe ser cuidadosamente planteada ya
que hay que establecer objetivos, diseñar la muestra, preparar a los
encuestadores, realizar pruebas pilotos; todo esto lleva tiempo y dinero.
Las fuentes secundarias tienen costos de búsqueda más bajos, pero se
debe evaluar la confiabilidad de las mismas, ya que los datos pueden estar
desactualizados, parcialmente publicados o pueden contener errores de
impresión.

Con respecto a publicaciones y revistas, existen una gran variedad de


las mismas confeccionadas por organismos gubernamentales (Ejemplo:
publicaciones del INDEC, del Banco Central, etc.). También se encuentran
las estadísticas elaboradas por Naciones Unidas (a través de sus organis-
mos: FAO, OMS, UNESCO, UNICEF), Organización de los Estados Ame-
ricanos y otros organismos internacionales. Se pueden consultar revistas
especializadas de cámaras sectoriales, fundaciones, institutos de investi-
gaciones y otras entidades que compilan y publican datos sobre las acti-
vidades que les conciernen.

6.3. Experimentos y Encuestas. Métodos de recolección de datos

Un experimento estadístico es un proceso de


recolección de datos donde se ejerce un control
sobre algunos o todos los factores que pueden
influir sobre la variable bajo estudio.

Por ejemplo, la administración de una compañía industrial desea cono-


cer si el nuevo plan de capacitación preparado por el departamento de
personal conduce a un aumento en la productividad. Un experimento para
averiguar este problema podría consistir en seleccionar a un grupo de
operarios y hacerlo participar en el nuevo plan de capacitación, dejando al
otro grupo trabajando en las mismas condiciones. Luego, se compararán
las productividades de dos grupos y se evaluará si el plan es o no efectivo.

41
Una encuesta estadística es el proceso de recopi-
lación de datos relacionados con las característi-
cas de elementos, sin un control especial que
influya sobre la variable de interés.

Considerando el estudio de la productividad (variable bajo estudio) de


los operarios, se pueden obtener datos sobre la productividad durante los
últimos meses y además se puede obtener información sobre el nivel de
instrucción, éste es un datos de encuesta. Se puede analizar la relación
entre el nivel de instrucción y la productividad, pero debe observarse que
no se ejerce ningún control sobre el factor "instrucción".

6.4. El proceso de obtener datos

En las encuestas o experimentos se pueden utilizar distintos métodos.


Algunos de ellos son:

a) Observación directa: Es muy apropiado y eficiente para recopilar


ciertos tipos de datos. Un ejemplo clásico es el estudio sobre el tráfico
de vehículos con el objeto de organizar el tráfico de una ciudad. Los
observadores se ubican en un determinado punto de la ciudad para
contar y registrar el número de vehículos que pasan por el lugar. La
cantidad y el tipo de datos que pueden ser recopilados por este mé-
todo son limitados. Una limitación puede ser los prejuicios del obser-
vador, quien registra algunos hechos, pasando por alto otros que
pueden ser importantes. Los observadores deben ser entrenados de
manera tal que puedan registrar con precisión los datos relevantes de
los fenómenos que se investigan. Por otro lado, la observación debe
ser de suficiente duración para que pueda obtenerse la cantidad ne-
cesaria de datos.

b) Respuestas individuales: Los datos mediante respuestas individuales


pueden obtenerse por entrevistas personales, entrevistas telefónicas
o cuestionarios escritos. El cuestionario está especialmente indicado
cuando los datos buscados requieren respuestas muy concretas, o
bien cuando las muestras son muy grandes. Los datos para el Censo
Nacional de Población y Vivienda, por ejemplo, se relevan mediante
un cuestionario. En otras ocasiones, los cuestionarios se envían por
correo, como sería el caso de una revista que desea conocer opinio-

42
nes de sus suscriptores acerca de la misma, de esta manera puede
recabar los datos en distintos lugares de un área geográfica determi-
nada.

Si los datos requieren respuestas más matizadas, y mayor número de


respuestas por parte de las personas seleccionadas en la muestra, la
entrevista personal sería el método adecuado.

La decisión de utilizar experimentos o encuestas y alguno de los méto-


dos mencionados depende de la naturaleza del problema, del costo y el
tiempo disponible. Cualquier encuesta o experimento debe planearse y
conducirse con cuidado a efectos de conseguir datos relevantes, es decir
precisos y útiles. Existe la posibilidad de emplear un método en particular
o bien una combinación de dos o más, lo importante es disponer de datos
precisos y útiles.

7. Organización de los Datos


7.1. Corrección

Antes de la presentación, será necesario efectuar una corrección de los


datos relevados para evaluar la confiabilidad de los mismos. En las entre-
vistas y cuestionarios, son muy comunes errores cometidos por los entre-
vistadores o por los respondientes. Puede haber omisiones, respuestas
inconsistentes, respuestas incompletas. Si se han utilizado fuentes secun-
darias, es necesario verificar que los datos sean completos y/o actualiza-
dos.

Si no se revisan los datos, se corre el riesgo de continuar con una


investigación que no llevará a los resultados deseados y se habrá perdido
tiempo y dinero.

7.2. Clasificación
La clasificación implica el establecimiento de grupos o clases para los
resultados de una variable. El criterio de clasificación depende de los ob-
jetivos y el método de estudio. La clasificación es importante para el aná-
lisis de relaciones entre variables.

43
El monto de ventas, por ejemplo, puede clasificarse por año o por sucur-
sal de una compañía. Los empleados de una empresa pueden clasificarse
por categorías o por nivel de instrucción.

Cuando los datos se tabulan conjuntamente en dos o más sistemas de


clasificación se denominan datos en clasificación cruzada. Por ejemplo, el
monto de ventas de las compañías puede clasificarse por año y sucursal.
Los empleados pueden clasificarse por categoría, sexo y nivel de instruc-
ción.

7.3. Tabulación

La tabulación implica la determinación del número de casos o el valor de


los elementos que se incluyen en cada clase o categoría determinada. En
otras palabras, la tabulación es el proceso que permite un arreglo de los
datos en forma resumida de acuerdo a las clasificaciones.

El siguiente, es un ejemplo de tabulación manual con una tabla de conteo


por medio de marcas.

Edad de los Conteo Número de


empleados empleados

20 - 25 /// 3
25 - 30 //// /// 8
30 - 35 //// 5
35 y más // 2
18

Los sistemas de computación permiten tabulaciones más extensas en


un menor tiempo.

44
Actividad Nº 5

1) Nombre publicaciones que proporcionan información estadística.

2) Consulte la bibliografía y confeccione un resumen sobre aspectos


básicos para la confección de cuestionarios.

3) Identifique, al menos, una falla principal en cada una de las siguientes


preguntas diseñadas para obtener información y redacte nuevamen-
te la pregunta para eliminar la falla.

a) "¿Cuántas veces visitó el Shopping en los últimos 6 meses?"


b) "¿Le viene a la cabeza el nombre de "Pepsi" o de otras marca
cuando escucha la palabra "gaseosa"?"
c) "Indique qué marca de yerba prefiere Ud. y dé 3 razones para su
preferencia".

4) Una compañía elaboró recientemente una nueva bebida sin alcohol,


distribuyéndola embotellada a los supermercados y en latas a nego-
cios minoristas. Actualmetne está examinando los datos de ventas
para observar qué tipo de envase es preferido por los clientes.

a) ¿Por qué estos datos de ventas son encuesta?


b) ¿Cómo podría Ud. establecer un experimento para estudiar la pre-
ferencia con resepcto al envase? Explique.

5) En cada una de las siguientes situaciones, indique si sería preferible


un censo o una muestra para obtener la información deseada; expli-
que además si serían preferibles cuestionarios o entrevistas.

a) Un noticiero de TV desea conocer la opinión de los ciudadanos


sobre la reforma de la Constitución.
b) El Consejo Profesional de Ciencias Económoicas desea actualizar
los datos de sus matriculados.
c) Una compañía con 500 empleados desea determinar las actitudes
de los empleados hacia las políticas de la empresa.

45
8. Presentación de los datos estadísticos
8.1. Introducción

La presentación de los datos es la disposición de los mismos de manera


tal que se conviertan en información significativa que permitan su análisis
e interpretación.

Las dos técnicas básicas de presentación son los cuadros o tablas y los
gráficos.

8.2. Cuadros estadísticos

8.2.1. Concepto

La técnica de los cuadros consiste en arreglos de los datos, divididos


por uno o más sistemas de clasificación, en columnas e hileras.

Cuando el cuadro tiene una sola clasificación se denomina de clasifica-


ción simple, cuando se confecciona con dos o más clasificaciones se llama
cuadro de clasificación cruzada o de doble entrada.

La construcción de una tabla depende de la utilización y del tipo de


análisis que se realice. Para que una tabla sea efectiva debe ser clara y
precisa para posibilitar su lectura. Se deben evitar tablas complicadas y
largas. Cuando se desean hacer comparaciones, las tablas deben ser
diseñadas para facilitar las mismas.

En los cuadros de doble entrada debe tenerse especial cuidado en el


orden y disposición de las clasificaciones. Demasiadas divisiones y
subdivisiones pueden tornar confusa la información, siendo preferibles
varios cuadros simples en lugar de uno con clasificación cruzada.

8.2.2. Elementos estructurales

Una tabla completa debe contener los siguientes elementos estructura-


les o partes:

46
PRODUCCION ARGENTINA (a) Título
DE PAPEL POR PRINCIPALES TIPOS
(En miles de toneladas) (b) Nota de
encabezado
P E R I O D O S (c)
TIPOS Encabezado
1991 1992 1993 (1)

(d) Diario 221 208 198 (e)


Columna Impresión 179 170 176 Cuerpo
Matriz Industrial 510 508 504
Doméstico 38 36 50

TOTALES 948 922 922

(1) Datos estimados (f)


Notas al pie
Fuente: Unión Industrial Argentina (UIA) (g) Fuente

a) Título: El título describe el contenido de la tabla. Debe ser completo


y preciso.
b) Nota del encabezado: Es una aclaración o amplitud del título ya sea
para detallar algún elemento importante o para expresar la unidad de
medida de los datos. Se coloca debajo del título y entre paréntesis.
c) Encabezado: Contiene los títulos de las clasificaciones ubicadas en
las columnas.
d) Columna Matriz: Contiene los títulos de las clasificaciones ubicadas
en las filas.
e) Cuerpo: Es el contenido de los datos estadísticos arreglados de acuer-
do a las descripciones de los encabezados. Cada dato se consigna
en una celda que es la intersección entre una fila y una columna.
f) Notas al pie: Se utiliza para explicar o aclarar algunos elementos del
cuadro. Ayudan al análisis e interpretación.
g) Fuente: Indica la procedencia de los datos. Permite conocer quién
recopiló la información y evaluar la confiabilidad de la fuente. Además,
saber donde recurrir si se necesita información adicional sobre el tema.

8.2.3. Consideraciones adicionales sobre los cuadros

1) Es importante que en cada celda se registre algo. Si el dato es cero,


este cero debe ser anotado en la celda. Si la información no está
disponible, debe indicarse con ND o bien con una aclaración al pie. Si

47
la celda se deja en blanco, no se sabe si el dato es cero, no está
disponible o hubo alguna omisión.

2) Cuando en un informe o texto se presentan varias tablas, se hace


necesario numerar las mismas por orden de aparición a fin de facilitar
la referencia de las mismas. El número se coloca antes del título.

3) Cuando se quieren analizar relaciones estadísticas entre variable-


dependiente e independiente, es conveniente ubicar la primera en la
columna matriz. La variable de interés fundamental en una investiga-
ción es una variable dependiente. Otras variables, las cuales se cree
que afectan las mediciones de las variables dependientes, son las
variables independientes. Se puede decir que la variable dependiente
está determinada o influenciada por la variable independiente. Por
ejemplo: se desea analizar el desempeño de un grupo de empleados;
en este caso el desempeño es la variable de interés. Además se
quiere conocer qué factores pueden influir sobre el desempeño, pu-
diéndose considerar la instrucción y el sexo que serían en este caso
las variables independientes.

4) Presentación en porcentajes: Cuando se presentan datos en porcen-


tajes, se pueden utilizar distintas bases que dependerán del análisis
y/o comparación que se desee realizar sobre los datos.

Ejemplo: Número de empleados por sexo y categoría-Cifras absolutas

Categoría Varones Mujeres Total

Vendedores 60 50 100
Administrativos 40 20 60
Maestranza 20 10 30
Total 120 80 200

Porcentajes conjuntos

Categoría Varones Mujeres Total

Vendedores 30 25 55
Administrativos 20 10 30
Maestranza 10 5 15
Total 60% 40% 100%

48
Porcentajes verticales

Categoría Varones Mujeres Total

Vendedores 50 62.5 55
Administrativos 33 25 30
Maestranza 17 12.5 15

Total 100% 100% 100%

Porcentajes horizontales

Categoría Varones Mujeres Total

Vendedores 55 45 100%
Administrativos 67 33 100%
Maestranza 67 33 100%

Total 60% 40% 100%

49
Actividad Nº 6

1) El Centro de Industriales Siderúrgicos presentó el siguiente informe


sobre la producción siderúrgica comparando los meses de enero y
febrero de 1997 y 1998. Los productos considerados son hierro pri-
mario y acero crudo.

Los datos indican que la producción de hierro primario en enero de


1997 fue de 229.000 toneladas y en enero de 1998 a 256.000 tone-
ladas; para el mes de febrero de cada año fue de 262.000 y 275.000
toneladas respectivamente. Para el acero crudo la producción total
para los meses de enero y febrero de 1997 fue de 500.000 toneladas,
correspondiendo el 45% al mes de enero y el 55% al mes de febrero;
en el mes de enero de 1998 la producción aumentó un 15% respecto
del mismo mes en 1997, mientras que en el mes de frebrero de 1998
disminuyó un 10% con respecto a febrero de 1997. La institución
aclaró que los datos de 1998 son provisorios.

Presente todos datos del informe en cuadro con todos los elementos
estructurales asegurando una lectura comprensiva de las cifras.

2) La compañía Aguila estudió los factores que afectaban el ausentismo


de los trabajadores de producción en una de sus plantas. Se obtuvie-
ron los siguientes resultados clasificados; los datos se clasificaron
por el sexo y record de asistencia.

Records satisfactorios Records no satisfactorios


Hombres: 1920 Hombres: 989
Mujeres: 925 Mujeres: 475

a) Convierta estos datos en porcentajes y preséntelos en una tabla


en forma que pueda estudiarse la relación entre las variables. ¿Qué
base utilizó para el cálculo de porcentajes?

b) ¿Existe alguna indicación de relación estadística entre las varia-


bles de la tabla? Explique.

c) Luego se agregó al análisis la variable "estado civil" y se obtienen


los siguientes resultados.

50
- Hombres casados 1730 satisfactorios y 630 insatisfactorios.
- Hombres en otro estado civil 190 satisfactorio y 350 insatisfactorio.
- Mujeres casadas 304 satisfactorios y 430 insatisfactorios.
- Mujeres en otro estado civil 621 satisfactorios y 45 insatisfactorio.

Convierta estos datos en porcentajes y preséntelos en una tabla para


estudiar las relaciones causa-efecto entre las variables dependiente e in-
dependiente. ¿Existe una relación estadística entre las tres variables?
Fundamente su respuesta.

51
8.3. Gráficos Estadísticos

8.3.1. Concepto

En los gráficos, la información se presenta en magnitudes que puedan


interpretarse visualmente. Deben dibujarse en forma sencilla y atractiva
que permitan una rápida comprensión de su contenido.

3.2. Partes de un gráfico

Ventas mensuales de la empresa xx Título


(en miles de $) Nota del encabezado

$
60
50

40 Diagramas
Escala de
y 30

20

10
Mes
Enero Febrero
Escala de x

Fuente: Dpto. de Vtas. Fuentes

- Titulo: Describe le contenido del gráfico.


- Diagrama: Son los distintos trazos con que se presentan los datos.
Pueden ser líneas, barras, etc.
- Escala: En el eje de ordenadas (y) generalmente se miden las mag-
nitudes de los datos. El eje de las abscisas (x) es frecuentemente
usada para colocar la clasificación.
- Fuente: Indica la procedencia de los datos.

Al igual que los cuadros, en los gráficos se consignan las notas del
encabezado y notas al pie cuando fuese necesario.

52
8.3.3. Tipos de gráficos

Existen muchos tipos de gráficos. Aquí se considerarán los gráficos


más sencillos y de uso corriente.

a) Simples
I. Lineales
b) Múltiples

a) Simples
GRAFICOS II. De Barras b) Múltiples
c) Compuestas
d) Bidireccionales

III. Circulares

Se desarrollarán algunas características de los gráficos en base a los


datos hipotéticos presentados en los siguientes cuadros:

Cuadro Nº 1

Ventas diarias de la Empresa "Llave" S.R.L.


(en miles de $)

Día Crédito Contado Total

Lunes 5 3 8
Martes 2 2 4
Miércoles 5 2 7
Jueves 11 4 15
Viernes 7 3 10
Sábado 8 5 13

38 19 57

Cuadro Nº 2

Número de ingresantes a 3 carreras en la U.C.S. en los años 1997-


1998.

53
CARRERA 1997 1998

Abogacía 90 108
Adm. de Empresas 40 80
Ingeniería Civil 70 35

I. Gráficos Lineales

Los gráficos lineales vienen representados en los ejes de coordenadas


cartesianas mediante líneas rectas o quebradas. Son útiles para repre-
sentar series cronológicas, es decir cuando la observación de un fenóme-
no se hace a través de tiempo (años, meses, días, etc.). Cuando hay un
gran número de períodos y existen marcadas fluctuaciones en los datos,
este tipo de gráfico es el adecuado.

a)Gráfico lineal simple. Representa una sola serie de datos

$
16

14

12 Ventas totales
diarias de la empresa
10
Llave
8

4 El tiempo siempre
se coloca en el eje de la x.
2
Día
L M M J V S

b)Gráfico lineal múltiple

Se utiliza para representar dos o más serie de datos. Se deben diferen-


ciar las líneas con distintos trazos o colores para individualizar cada serie.

54
GRAFICO Nº 2
$
16

14

12
10 Ventas diarias
al contado y a crédito
8 de la empresa LLave
6

4 Si se pretende representar más


2
de 3 series, el gráfico puede resultar
confuso.
Día
L M M J V S

II.Gráfico de barras

Los gráficos de barras son de fácil interpretación. Los datos se repre-


sentan mediante barras o rectángulos cuya amplitud es constante y la
longitud proporcional al número de observaciones. Las barras pueden
disponerse en forma vertical u horizontal. Dentro de este tipo de gráfico,
se encuentran las siguientes variantes:

a) Gráfico de barras simples: Representa una sola serie de datos. Las


ventas totales por día se grafican dibujando una barra para cada día
de la semana con una altura igual al volumen de ventas. (Gráfico Nº 3).

b) Gráfico de barras múltiples: Representan dos o más series de


datos. Son adecuados para efectuar comparaciones. Las ventas al
contado y a crédito de la semana se muestran en el gráfico Nº 4.

c) Gráficos de barras compuestas: Este procedimiento de represen-


tar dos o más series en el mismo gráfico consiste en dibujar el diagra-
ma de barras dibujadas con otras de distinto fondo que representarán
la segunda (o tercera) serie. Cada barra tendrá una longitud igual a la
suma de los datos de las dos series. En el gráfico Nº 5, cada barra
representa el total de las ventas por día y está en dos: la parte rayada
corresponde a las ventas a crédito y la parte de arriba (sin rayar) las
ventas al contado.

55
GRAFICO Nº 3
(Barras Simples)

$
16

14

12
10

L M M J V S Día

GRAFICO Nº 4
(Barras Múltiples)

d) Gráfico de barras bidireccionales. Se utiliza para indicar cambios


porcentuales, para ilustrar ganancias o pérdidas, producción y ven-
tas sobre lo normal o bajo lo normal de un período a otro, saldos
positivos y negativos, etc. Las barras bidireccionales pueden dispo-
nerse en forma vertical u horizontal.

56
Se representarán los cambios porcentuales en el número de ingresan-
tes en 1998 con respecto a 1997.

Carrera: Abogacía Adm. de Empresas Ing. Civil

Variación
porcentual +20% +100% -50%

Gráfico Nº 6 - Ingresantes a las 3 Carreras


de la U.C.S. en 1998 (cuadro 2)
Carrera

Abogacía

Ing.
Civil

Adm. De
Empresa

Nº de Alumnos

25 50 75 100

GRAFICO Nº 7
-100 -80 -60 -40 -20 0 -20 -40 -60 -80 -100

Adm. De
Empresas

Abogacía

Ing. Civil

57
GRAFICO Nº 5
(Barras Compuestas)

Las barras, como se dijo anteriormente, se pueden disponer en forma


horizontal. Esta disposición es utilizada habitualmente para graficar en
series de datos que se presentan en un solo período de tiempo. Al igual
que las verticales, pueden ser simples, múltiples y compuestas.

Una técnica comúnmente usada es disponer los aumentos porcentua-


les en orden descendente y las disminuciones en orden ascendente.

III. Gráficos circulares

Los gráficos circulares son adecuados para recalcar la magnitud relati-


va de los componentes del total. Consiste en dividir un circuito en sectores
cuyas superficies sean proporcionales a las cantidades correspondientes
a cada categoría. Dado que los sectores circulares dependen de su ángu-
lo central, éstos se determinan estableciendo la proporcionalidad respecto
a 360º, que es el ángulo de la circunferencia. El método corriente para
dibujar este tipo de gráfico es reducir los datos a porcentajes del total.

Utilizando los datos del cuadro Nº 2 respecto a los ingresantes en 1997,


se construirá un gráfico de sectores.

58
Carrera Ingresante %

Abogacía 90 45
Adm. de Empresas 40 20
Ing. Civil 70 35

200 100

100% le corresponde 360º

Abogacía

100 360 45 x 360


45 x X= = 162º
100

Adm. de Empresas

100 360 20 x 360


20 x x= = 72º
100

Ing. Civil

100 360 35 x 360 126º


35 x x= =
100 360º

Abogacía 45%

Ing. Civil Adm. De


35% Emp.
20%

Actualmente la construcción de gráficos se facilita utilizando programas


de computación que poseen una gran variedad de los mismos. Lo impor-
tante es determinar el gráfico adecuado según el tipo de información.

59
Además de los gráficos desarrollados, los datos pueden presentarse en
mapas estadísticos, pictogramas, gráficos de volúmenes, etc.

8.3.4. La falsedad estadística a través de gráficos

Una de las formas de mentir con la estadística es dibujando gráficos


engañosos. Considérese la siguiente información sobre las ventas de 3
vendedores de una compañía para ilustrar un ejemplo.

GRÁFICO (a)

GRAFICO (b)

El eje vertical debe comenzar en cero para que se tenga una adecuada
representación de la situación. Los gráficos cuyas escalas de los ejes
verticales comienzan en cero tienden a enfatizar la magnitud de las cifras
consideradas, mientras que en los gráficos que omiten el cero tienden a
enfatizar la variación en el número sin considerar la verdadera magnitud.

Al observar el gráfico (a) puede concluirse erróneamente que el vende-


dor B tuvo ventas que apenas superaron la mitad de lo que vendió C. En
cambio en el gráfico (b) muestra la información real ya que destaca que
las tres cifras son relativamente grandes, lo cual resta el énfasis puesto a
la variabilidad que muestra el gráfico. (a)

60
Actividad Nº 7

1) Identificar en diarios y/o revistas gráficos estadísticos distintos a los


desarrollados en el módulo.

2) Cuadro de Ingresos y Egresos de Caja de un Negocio (en miles de $)

Mes Enero Febrero Marzo Abril Mayo Junio

Ingresos 50 45 70 40 80 100

Egresos 20 30 120 60 100 130

a) Representar en un gráfico lineal los ingresos y egresos


b) Representar gráficamente la comparación de ingresos y egresos en
un diagrama de barras.
c) Obtener los saldos para cada mes y representarlos gráficamente.

3)Relación egresados por cada 100 ingresantes en la Universidad

Facultad Egresados Facultad Egresados


Agronomía 22 Cs. Exactas y Naturales 12
Arquitectura 24 Farmacia y Bioquímica 27
Ingeniería 19 Ciencias Económicas 12

Representar la información en un gráfico adecuado.

4)Un informe sobre turismo consigna lo siguiente:

- En enero y febrero de 1998 ingresaron a la provinica 15.450 y 12.750


turistas mostrando un aumento del 18% y 12 % con respecto a los
mismos meses delaño anterior.

- De los totales de la temporada 1998, el 48% fueron visitantes extran-


jeros, el 30% de la región próxima a Salta y el resto de otros puntos
del país.

61
a) Obtener el número de turistas que ingresaron en enero y febrero de
1997. Construir un gráfico comparativo.

b) Construir un gráfico para mostrar las cifras referentes a la proceden-


cia de los turistas.

62
Actividad Obligatoria

1) Explique la importancia que tiene el análisis estadístico en la organi-


zación donde Ud. trabaja.

2) Describa una aplicación de la estadística en el área donde Ud. des-


empeña su trabajo. Especifique

a) Objetivo de la investigación.
b) La población bajo estudio y las variables de interés.
c) Tipos de fuentes de datos disponibles y métodos de recolección a
utilizar.

3) Con referencia al punto 2:

a) Recopile los datos necesarios


b) Organice y presente la información en cuadros y gráficos.
c) Elabore un informe sobre los resultados y conclusiones de su in-
vestigación.
d) Si fuera necesario, indique las dificultades que tuvo para realizar
este trabajo de aplicación.

NOTA: En el caso de que Ud. no trabaje, concurra a cualquier empresa


u organización y realice allí esta actividad de investigación integradora.

63
64
UNIDAD III
DISTRIBUCIÓN DE FRECUENCIAS
1. Introducción

Una de las etapas de la investigación estadística es el análisis de los


datos que puede ser descriptivo o inferencial. Pero también en la investi-
gación puede interesar el estudio de una, dos o tres, o más variables.

Cuando se trabaja con una sola variable, el análisis es univariado (dis-


tribución de empleados por ingreso); si se trabaja con dos variables, el
análisis es bivariado (distribución de empleados por ingreso y por anti-
güedad) y el análisis es multivariado cuando se trabaja con tres o más
variables (distribución de empleados por ingreso, por antigüedad y ni-
vel de instrucción).

Este módulo trataría específicamente el análisis descriptivo para distri-


buciones univariadas.

2. Series estadísticas

Una serie estadística es un conjunto de datos numéricos, ordenados y


clasificados según un determinado criterio. Las series pueden clasificarse
de la siguiente manera:

Temporales o cronológicas
Series
estadísticas
Espaciales
Intemporales
De Cualitativas
Frecuencia Discretas
Cuantitativas Continuas

Las series "temporales" son aquellas cuyos valores de la variable se


observan en períodos de tiempos. Por ejemplo, las ventas mensuales de
una compañía o la producción anual de cereales de un país.

65
En las series intemporales los valores se observan en un período fijo o
en un momento determinado. Si los valores se estudian en función de un
espacio geográfico; las series se denominan "espaciales"; por ejemplo
población (número de habitantes) de las provincias argentinas en 1997.

Las series intemporales de frecuencias son aquellas que se confeccio-


nan cuando se estudia o analiza la repetición de los valores de una varia-
ble. Según sea el tipo de la variable, estas series pueden ser cualitativas
o cuantitativas. Estas series son el objetivo de estudio de esta unidad.

3. Distribución de frecuencias

Cuando el número de valores que toma la variable es grande, se hace


necesario resumir la información para posibilitar la lectura y la interpreta-
ción. Una manera efectiva de reducir el tamaño de la serie y facilitar su
tratamiento es mediante la confección de distribuciones de frecuencias.

Una distribución de frecuencias es una tabla donde los datos se


agrupan en clases o categorías con sus respectivas frecuencias.

Con estas tablas se puede apreciar mejor la configuración de la informa-


ción a la vez que se facilitan los cálculos y el análisis de los datos.

4. Distribución de frecuencias para variables continuas

Supóngase que se analizan los índices mensuales de accidentes de las


empresas industriales de una ciudad determinada. Para el estudio se selec-
cionan 25 establecimientos y se registra para cada una el número de acciden-
tes por mil horas-hombre del último mes. Los datos son los siguientes.

2,7 1.8 1.0 2.2 4.1


3.8 4.8 2.5 1.4 4.5
3.1 3.3 3.6 3.0 2.5
5.3 3.3 3.0 5.8 4.4
3.4 2.1 5.6 3.9 3.4

Estos valores constituyen una "serie simple" de datos. Son datos brutos
porque todavía no han sido procesados por métodos estadísticos.

66
4.1. Organización de los datos

Una primera técnica sencilla de organización es la "ordenación" que


consiste en una disposición de los valores en forma ascendente o descen-
dente.

1.0 2.5 3.1 3.6 4.5


1.4 2.5 3.3 3.8 4.8
1.8 2.7 3.3 3.9 5.3
2.1 3.0 3.4 4.1 5.6
2.2 3.0 3.4 4.4 5.8

Una de las ventajas de este arreglo es la identificación rápida de valores


máximos y mínimos. Sin embargo, la ordenación no resulta práctica para
el análisis y pierde importancia cuando es grande el número de datos.

Otra técnica de organizar los datos para la evaluación del investigador


con el objeto de seleccionar extremos, valores típicos y concentración de
valores, es el "arreglo de tallos y hojas". Se ordenan el (o los) primero(s)
dígitos de cada valor, se forman los tallos, y con los dígitos siguientes se
forman las hojas. Para los datos del ejemplo los dígitos iniciales 1 - 2 - 3 -
4 y 5 son los tallos y los dígitos sucesivos (decimales) son las hojas.

Indices de accidentes

Tallos Hojas

1 8 0 4
2 7 1 5 2 5
3 8 1 4 3 3 6 0 0 9 4
4 8 1 5 4
5 3 6 8

Al igual que la ordenación, la representación de tallos y hojas tiene una


utilidad limitada cuando es grande el número de datos.

67
4.2. Construcción de las tablas de frecuencias

La ordenación y el diagrama de tallos y hojas son técnicas que ayudan


a la organización pero no puede reconocerse la configuración de los índi-
ces de accidentes con sólo volcar los registros proporcionados por cada
empresa. Para resumir estos datos en una tabla, primero se deben deter-
minar los intervalos de clase.

Un intervalo para el conjunto de índices puede ser:

2 - 3 ⇒ intervalo de clase o clase

Definido el intervalo se determina su frecuencia, o sea la cantidad de


observaciones incluida en esa clase. La frecuencia para este intervalo es
3, es decir que en 3 empresas ocurrieron entre 2 y 3 accidentes mensua-
les.

La confección de las distribuciones depende de la naturaleza y del nú-


mero de datos. Los intervalos deben seleccionarse adecuadamente para
que la configuración de la distribución no resulte confusa. Al construir las
tablas de frecuencias se pierde un poco de información, pero las mismas
ofrecen ventajas al momento del análisis y la interpretación.

Entre las pautas para la confección se deben considerar las siguientes:

a) El número de clases no debe ser ni muy grande ni muy pequeño.


Cuando hay muchos intervalos, la amplitud de los mismos es peque-
ña, por lo tanto cada uno tendría pocos datos o ninguno. Si hay pocas
clases con intervalos amplios, puede resultar que queden cifras rela-
tivamente significativas concentradas en unas cuantas clases.

b) Los intervalos deben tener la misma amplitud a efectos de poder


hacer comparaciones. En algunas situaciones pueden presentarse
intervalos de distinta amplitud, pero se dificulta la interpretación de la
distribución. En otros casos se debe recurrir a intervalos abiertos.

c) La confección de la distribución debe facilitar el trabajo de análisis,


por lo tanto los intervalos de clase deben ser fáciles de manejar.

68
Se puede utilizar el siguiente procedimiento para determinar la amplitud
de los intervalos.

1')Obtener el rango o recorrido (R). El rango es la diferencia entre el


valor mayor y el valor menor de la distribución.

R = Valor mayor - Valor menor

Para la distribución de los índices de accidentes, el rango es:

R = 5.8 - 1.0

R = 4.8

2')Seleccionar el número de clases (k). La "regla de Sturges" (1) es


una pauta que sirve de orientación para determinar cuántos interva-
los debe tener la distribución:

Número de valores Número apropiado de


de la distribución intervalos

10 a 100 4a8
100 a 1.000 8 a 11
1.000 a 10.000 11 a 14

Para la distribución de la serie se eligen 5 clases.

3')Determinar la amplitud o ancho de la clase (A) dividiendo el rango


sobre el número de intervalos.

R R = 4.8
A=
k k= 5

4.8
A= = 0.96
5

A=1

(1) La fórmula de Sturges establece que k = 1 + 3.3 log n (siendo n el número de observaciones)

69
Por conveniencia y facilidad de lectura, el ancho del intervalo se redon-
dea a 1.

4')Establecer los límites de cada clase a fin de evitar superposiciones


de clases para que ninguna observación caiga dentro de más de una
categoría; de acuerdo a esto, el primer intervalo es "1,0 pero menos
de 2,0".

Las 5 clases de la distribución de los accidentes son:

1.0 < 2.0


2.0 < 3.0
3.0 < 4.0
4.0 < 5.0
5.0 < 6.0

4.3. Tabulación de los datos

Definidos los intervalos de clase, se procede a determinar las frecuen-


cias de clases (fi). La frecuencia de clase es la cantidad de observaciones
que se incluye en cada intervalo.

Indices de Conteo Cantidad de


accidentes empresas fi

1.0 - 2.0 /// 3


2.0 - 3.0 //// 5
3.0 - 4.0 //// //// 10
4.0 - 4.0 //// 4
5.0 - 6.0 /// 3

Las frecuencias obtenidas se denominan "frecuencias absolutas sim-


ples".

70
4.4 Marca de clase (xi)

La marca de clase es el punto medio del intervalo de clase; es el valor


que representa a la clase. Se obtienen sumando el límite inferior y el límite
superior de cada clase dividido entre 2.

Li + Ls
xi =
2

La marca de clase para el primer intervalo es:

1.0 + 2.0
xi =
2

xi = 1.5

Indices de Marca de clase Cantidad de


accidentes xi empresas fi

1.0 - 2.0 1.5 3


2.0 - 3.0 2.5 5
3.0 - 4.0 3.5 10
4.0 - 5.0 4.5 4
5.0 - 6.0 5.5 3
25

4.5. Distribución de frecuencias relativas simples (fr)

En muchas ocasiones es preferible trabajar con una distribución de fre-


cuencias relativas. La frecuencia relativa es la proporción o porcentaje del
total de datos que se incluye en cada clase.

La frecuencia relativa se calcula dividiendo la frecuencia absoluta de


cada clase entre el número total de observaciones

71
fi
fr =
n

Si se expresa en porcentaje

fi
fr = . 100
n

La frecuencia relativa del primer intervalo es:

3 3
fr = o fr= . 100
25 25

fr = 0.12 o 12%

Hay un 12% de las empresas que posee un índice de accidentes entre


1 y 2.

La distribución de frecuencias relativas para los índices de accidentes


de las 25 empresas es la siguiente:

Indice de
accidentes fr

1.0 - 2.0 0.12 o 12%


2.0 - 3.0 0.20 o 20%
3.0 - 4.0 0.40 o 40%
4.0 - 5.0 0.16 o 16%
5.0 - 6.0 0.12 o 12%

1.00 o 100%

De hecho, la suma de las frecuencias relativas debe ser igual a 1 o al


100%.

72
4.6. Gráficos de distribución de frecuencias simples

Una distribución de frecuencias simples puede representarse mediante


dos gráficos: a) Histograma; b) Polígono de frecuencias.

a)Histograma

El histograma es un gráfico de barras. Para cada intervalo se dibuja una


barra con altura igual a la frecuencia absoluta simple o frecuencia relativa
simple.

12

10

1 2 3 4 5 6 Indices
(Intervalos)

b) Polígono de frecuencias

El polígono de frecuencias es un gráfico lineal que se representa con las


marcas de clases. Se construye ubicando sobre cada marca un punto a la
altura de la frecuencia absoluta (o relativa), uniendo luego los puntos re-
sultantes mediante segmentos de recta.

73
12

10

0.5 1.5 2.5 3.5 4.5 5.5 6.5 Indices (xi)

Obsérvese que el gráfico presenta las marcas de clases de los interva-


los anterior al primero (0.5) y posterior al último (6.5) para que la figura
quede cerrada. De hecho, estas marcas tienen frecuencia cero.

El polígono de frecuencias puede construirse conjuntamente con el


histograma en los mismo ejes con solo unir los puntos medios de los
techos de las barras.
12

10

0.5 1.5 2.5 3.5 4.5 5.5 6.5 Indices (xi)

74
4.7. Algunas situaciones particulares con las tablas de frecuencias

a)Distribuciones con intervalos de amplitudes desiguales

En algunos casos se construyen tablas de frecuencias con intervalos de


amplitudes desiguales. Esto sucede cuando la variable de interés tiene
algunas observaciones extremas altas. En lugar de definir pocos interva-
los con igual tamaño, pero muy amplios; o bien muchos intervalos de igual
tamaño, pero más estrechos, es frecuente definir tamaños variables para
los intervalos de clase.

La siguiente tabla muestra las ventas semanales de 35 sucursales de


una empresa.

Ventas Nº de
(en miles de $) sucursales
fi

10 - 20 4
20 - 30 7
30 - 40 12
40 - 60 8
60 - 100 4
35

Obsérvese que las tres primeras clases tienen una amplitud de 10, la
tercera clase, 20 y la última tiene una amplitud de 40.

Se debe tener cuidado al representar gráficamente este tipo de distribu-


ciones ya que se pueden construir gráficos inadecuados, como el siguien-
te histograma para la distribución de las ventas.

75
fi

12

10

10 20 30 40 60 100 Intervalos

Aquí hay una deformación, porque se exageran demasiado las áreas de


las barras para los intervalos más anchos.

La forma adecuada consiste en que la altura de cada barra esté repre-


sentada sobre una base de "frecuencia por intervalo estándar" (o una
base de porcentaje por intervalo estándar si se trata de una distribución de
frecuencias relativas). Se selecciona una amplitud estándar, en este caso
$10 que es la más típica, que se utiliza para ajustar las frecuencias sobre
este intervalo estándar.

Intervalos Amplitud Nº de intervalos Frecuencia Frecuencia


estandarizados por intervalo por intervalo
estandarizado

10 - 20 10 1 4 4

20 - 30 10 1 7 7

30 - 40 10 1 12 12

40 - 60 20 2 8 4

60 - 100 40 4 4 2

76
El histograma apropiado será el siguiente:

fi
12

10
8
6
4

10 20 30 40 60 100 Intervalos

b) Intervalos abiertos

Cuando las series de datos tienen observaciones muy extremas, en


lugar de intervalos de tamaños variables, se pueden utilizar intervalos con
extremos abiertos.

Ventas Nº de sucursales
(en miles de $) fi

Menos de 20 4
20-30 6
30-40 10
40-50 3
50 y más 2

25

Los intervalos abiertos son aquellos que no tienen definidos uno de los
límites. En el primer intervalo no está definido el límite inferior y en el
último, el límite superior.

77
Las clases abiertas se utilizan con fines de presentación, pero presen-
tan dificultades para los cálculos, como así también para la representa-
ción gráfica.

Por ejemplo, es el histograma de la distribución sólo se hace referencia


a las clases abiertas pero no se las grafica.

fi
12
10
8
6
4

2 4 empresas 2 empresas
tienen ventas tiene ventas
de menos de de 50 y más
20. Ventas
10 20 30 40 50

4.8. Distribuciones de frecuencias acumuladas

Las distribuciones de frecuencias acumuladas permiten observar cuán-


tas observaciones se hallan por encima o por debajo de ciertos valores.

Considérese la distribución de frecuencias simples de los índices de


accidentes de las 25 empresas.

Indices de Cantidad Proporción de


accidentes de empresas empresas
fi fr
1.0 - 2.0 3 0.12
2.0 - 3.0 5 0.20
3.0 - 4.0 10 0.40
4.0 - 5.0 4 0.16
5.0 - 5.6 3 0.12
25

78
Indices Frecuencias acumuladas (fa)

Menor que 1.0 0


Menor que 2.0 3
Menor que 3.0 8 (3 + 5)
Menor que 4.0 18 (3 + 5 + 10)
Menor que 5.0 22 (3 + 5 + 10 + 4)
Menor que 6.0 25 (3 + 5 + 10 + 4 + 3)

Esta tabla recibe el nombre de distribución de frecuencias acumula-


das "menor que". Por ejemplo, la frecuencia acumulada 18 indica que 18
empresas tienen un índice de accidentes menor a 4,0.

Ahora se construye la siguiente tabla:

ÍNDICES FRECUENCIAS ACUMULADAS (fa)

1.0 y mayor 25

2.0 y mayor 22 (25-3)

3.0 y mayor 17 (25-8)

4.0 y mayor 7 (25-18)

5.0 y mayor 3 (25-22)

6.0 y mayor 0

Esta tabla recibe el nombre de distribución de frecuencias acumula-


das "mayores que". Por ejemplo, se observa en la información que 17
empresas registran un índice de 3.0 y más.

También se pueden confeccionar las tablas de frecuencias acumuladas


relativas.

79
Frecuencias acumuladas Frecuencias acumuladas
"menor que" "mayor que"

Índice fa Índice fa

Menor que 1.0 0 1.0 y mayor 1.00

Menor que 2.0 0.12 2.0 y mayor 0.88

Menor que 3.0 0.32 3.0 y mayor 0.68

Menor que 4.0 0.72 4.0 y mayor 0.28

Menor que 5.0 0.88 5.0 y mayor 0.12

Menor que 6.0 1.00 6.0 y mayor 0

Las distribuciones de frecuencias acumuladas se representan gráfica-


mente mediante un "polígono de frecuencias acumuladas" u "ojiva".

Para una distribución acumulada "menor que" la ojiva será creciente, y


para una distribución acumulada "mayor que" será decreciente.
fa
1

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
1 2 3 4 5 6
Ma ïndices

80
Mediante las ojivas se puede obtener gráficamente el valor mediano
(3,45) que es el valor que deja dividida la distribución en la mitad (Ver
Unidad IV).

5. Distribución de frecuencias para variables discretas

Se registra el número de hijos para cada uno de los 20 empleados de


una compañía. Los datos, ya ordenados, son los siguientes:

1 1 1 2 2
2 2 2 2 2
3 3 3 3 3
4 4 4 5 5

La variable Xi (número de hijos) toma valores entre 1 y 5. Como Xi


asume pocos valores, puede considerarse cada valor de la variable como
una clase, o sea:

Nº de hijos (Xi) : 1 2 3 4 5

La tabla de frecuencias simples (absolutas y relativas) queda conforma-


da como sigue:

Número de hijos Nº de empleados Proporción o porcentaje


(Xi) (fi) de empleados (fr)

1 3 0.15 o 15%
2 7 0.35 o 35%
3 5 0.25 o 25%
4 3 0.15 o 15%
5 2 0.10 o 10%

20 1 100 %

La representación gráfica de esta distribución se realiza en un "gráfico


de bastones". Para cada valor de la variable se dibuja un segmento con
altura equivalente a la frecuencia (absoluta o relativa).

81
fi
7

0 Xi
0 1 2 3 4 5

También se puede construir una tabla de frecuencias acumuladas para


la distribución del número de hijos.

Nº de hijos Nº de empleados
(xi) (fa)

Hasta 1 3
Hasta 2 10 (3 + 7)
Hasta 3 15 (3 + 7 + 5)
Hasta 4 18 (3 + 7 + 5 + 3)
Hasta 5 20 (3 + 7 + 5 + 3 + 2)

Las frecuencias acumuladas se representan en un gráfico denominado


"escalonado". En el eje horizontal se marcan los valores de la variable (xi)
y se levanta en cada uno de los puntos un segmento vertical de longitud
igual a la frecuencia acumulada respectiva. Luego, se dibujan los tramos
horizontales correspondientes a los intervalos dentro de los cuales no
pueden existir datos, ya que la variable discreta no admite valores inter-
medios.

82
fa

20
18
16
14
12
10
8
6
4
2
0 Xi
0 1 2 3 4 5

Cuando los valores de una variable discreta son numerosos, el trata-


miento para la construcción de las tablas de frecuencias puede asimilarse
al caso de una variable continua como se estudió en el punto 4.

6. Distribución de frecuencias para variables cualitativas

Se registran los elementos de una población o muestra con respecto a


un atributo y los resultados obtenidos de dichas observaciones se agru-
pan según las distintas modalidades que tome al atributo. Por ejemplo, 80
empleados de una compañía pueden clasificarse según el estado civil.

Estado civil Nº de empleados Porcentaje de empleados

Casado 45 56.25 %
Soltero 23 28.75 %
Divorciado 7 8.75 %
Viudo 5 6.25 %

80 100 %

83
Para graficar esta información pueden utilizarse gráficos de barras o
circulares como los desarrollados en la unidad II.

Viudo
Divorciado 6,25%
8,75%

Casado
Soltero
56,25%
28.75%

84
Actividad Nº 8

Una compañía financiera desea analizar la información sobre los mon-


tos de préstamos solicitados por 50 personas. A tal fin, obtiene los datos
de los formularios correspondientes:

Montos (en miles de pesos):

1.85 2.50 2.80 3.40 1.40 1.20 2.45 2.30


2.30 2.80 2.10 2.15 2.20 3.30 2.70 2.40
1.00 1.20 3.80 3.55 2.15 2.10 2.70 2.70
2.35 1.55 1.90 1.45 1.70 3.90 3.60 3.00
2.45 1.95 2.85 1.45 1.55 2.25 3.60 2.60
2.90 2.65 3.15 3.10 1.65 1.70 2.50 2.30
1.85 2.40

a) Identificar la variable bajo estudio y clasificarla.

b) Organizar los datos en una tabla de frecuencias con intervalos de


amplitud 0,50 ($500).

c) Calcular las marcas de clase.

d) Confeccionar una tabla de frecuencias relativas.

e) Construir un histograma de frecuencias relativas.

f) Construir un polígono de frecuencias absolutas.

g) Confeccionar las tablas de frecuencias acumuladas "menos que" y


"más que" tanto absolutas como relativas.

h) Dibujar las ojivas correspondientes.

85
Actividad Nº 9

El dueño de una frutería recibió un pedido de cajones de manzanas.


Para determinar la calidad, tomó una muestra de 20 cajones y encontró
las siguientes cantidades de manzanas en mal estado en cada uno.

2 2 3 3 4 0 6 2 6 4
3 2 2 6 4 2 0 2 3 3

a)Identificar las variables bajo estudio y clasificarlas.

b)Construir una tabla de frecuencias absolutas simples.

c) Representar gráficamente la información de (b).

d)Construir una tabla de frecuencias absolutas acumuladas.

e)Representar gráficamente la información de (d).

86
Actividad Nº 10

La facultad de Administración organizó un curso de Marketing para pro-


fesionales. Con el objeto de planificar las clases, el cuerpo docente desea
conocer las profesiones de los 40 participantes. Los datos se obtienen de
las fichas de inscripción.

Ficha Profesión Ficha Profesión Ficha Profesión

01 Médico 13 Médico 25 Psicólogo


02 Psicólogo 14 Contador 26 Abogado
03 Médico 15 Médico 27 Ingeniero
04 Médico 16 Ingeniero 28 Médico
05 Ingeniero 17 Ingeniero 29 Contador
06 Abogado 18 Médico 30 Abogado
07 Médico 19 Contador 31 Ingeniero
08 Abogado 20 Abogado 32 Médico
09 Odontólogo 21 Contador 33
10 Psicólogo 22 Psicólogo 34 Contador
11 Ingeniero 23 Abogado 35 Médico
12 Arquitecto 24 Médico 36 Abogado

a) Identificar la variable bajo estudio.

b) Confeccionar una tabla de frecuencias absolutas y otra de frecuen-


cias relativas.

c) Representar gráficamente la información elaborada.

87
Actividad Nº 11

En una discusión de un grupo de asesores sobre el potencial de ventas


de una compañía, un asesor estableció que es un error creer que las
personas de edad más baja representan un número relativamente alto
para las ventas de uno de los productos principales de la compañía. Para
apoyar su argumento, el asesor citó los siguientes datos sobre edades de
los clientes, basados en un reciente estudio de investigación de merca-
dos:

Grupo de edad % de clientes

Menos de 16 1
16 - 17 6
18 - 19 8
20 - 19 7
22 - 25 12
26 - 29 14
30 - 39 19
40 - 49 25
50 o más 8
100 %

El asesor dijo que los porcentajes de edad entre 30 y 49 años son


considerablemente mayores que los porcentajes de los grupos de clientes
más jóvenes. "De hecho", hizo notar, las personas de edad entre 40 y 49
años son los mejores clienes del producto.

¿Está Ud. de acuerdo con esta interpretación de los datos? Si es así,


apoye su argumento citando cifras específicas. Si no, explique por qué no
está de acuerdo con la interpretación del asesor.

88
Actividad Nº 12

Lea la siguiente distribución de frecuencias:

clases: 100 - 150 150 - 200 200 - 250 300 - 350 350 - 450

fi: 5 9 18 10 8

a)¿Qué particularidad presenta la tabla?

b)Construir un histograma.

89
Actividad Nº 13

La siguiente información corresponde a la antigüedad (en años) de 100


docentes universitarios:

Antigüedad Nº de docentes

5-9 9
10 - 14 14
15 - 19 18
20 - 24 32
25 - 29 17
30 - 34 5
35 - 39 5
100

a) ¿Cuál es la amplitud de las clases?

b) Obtener las marcas de clase.

c) Calcular las frecuencias relativas.

d) ¿Cuántos docentes tienen una antigüedad media de 27 años?

e) ¿Qué intervalo tiene la mayor frecuencia?

f) ¿Qué porcentaje de docentes tiene por lo menos 20 años de antigüe-


dad?

g) ¿Qué porcentaje de docentes tiene a lo sumo una antigüedad de 14


años?

h) ¿Qué porcentaje tiene una antigüedad mínima de 15 años pero no


mayor de 30?

i) Representar gráficamente la información de la tabla.

90
Actividad Nº 14

La siguiente tabla corresponde a los salarios pagados a 53 periodistas:

Salarios ($) Menos de 300 300-500 500-700 700 y +

Nº de 10 22 15 6
empleados (fi)

a) ¿Cuántas clases tiene la distribución?

b) ¿Cuántas clases distintas hay?

c) ¿Cómo definiría el 1º intervalo si su amplitud fuera igual al 2º?

d) ¿Qué limitación existe para construir los gráficos?. ¿Qué modifica-


ción debe hacerse?

91
92
UNIDAD IV
RESUMEN DE INFORMACIÓN A TRAVÉS
DE MEDIDAS DESCRIPTIVAS
1. Concepto

Las medidas descriptivas son valores representativos de una distribu-


ción, son cifras individuales que resumen la información. Se utilizan para
describir ciertas características de los datos, permitiendo una compren-
sión más precisa. Además, a partir de estas medidas se podrán realizar
inferencias y pronósticos.

El análisis de la información se puede realizar a través de:

- Medidas de posición.
- Medidas de dispersión.
- Medidas de asimetría (sesgo)
- Medidas de apuntamiento (curtosis)

2. Medidas de posición

Estas medidas habitualmente se denominan "promedios". Desde el punto


de vista estadístico un promedio es una medida de tendencia central, es
decir tiende a ubicarse en el centro de la distribución.

Las medidas de posición o localización son:

- Media aritmética - Media geométrica - Cuartiles


- Mediana - Media armónica - Deciles
- Moda - Percentiles

93
2.1. Media aritmética

2.1.1. Concepto

La media aritmética de un conjunto de


observaciones numéricas es la suma de
los valores del conjunto dividida
por el número de observaciones.

Siete trabajadores de una compañía perciben los siguientes salarios:

320 360 330 340 355 325 346

El salario medio es:

320 + 360 + 330 + 340 + 355 + 325 + 346 2376


Media = =
7 7

Media = · 339,43

320 330 340 350 360

a)Sean x1, x2 ...........xn los N datos correspondientes a una población.


La media población (simbolizada por m) es:

x1 + x2 + ... + xn Σ xi
μ= μ = (1)
N N

b)Sean x1, x2 ..., xn los n datos correspondientes a una muestra. La


media muestral (simbolizada por x) es:

x1 + x2 + ... + xn Σ xi
X= χ = (2)
n n

94
xi = representa a cada valor de la distribución.
N = representa al total de observaciones de la población.
n = representa al total de observaciones de la muestra.
Σ = Suma de los valores de la variable.

2.1.2. Principales características de la media aritmética

a) La media aritmética se calcula con todos los valores de un conjunto.


Cada valor del conjunto afecta el valor de la media. Cuando existen
valores extremos, la media puede llegar a ser menos representativa.

Ejemplo:

Obtener la media de los siguientes valores

8 - 10 - 12 - 15 - 50

8 + 10 + 12 + 15 + 50
χ = = 19
5

8 9 10 11 12 13 14 15 16 17 18 19 50

x
La media está afectada por el valor extremo.

50 En la escuela se puede observar que el promedio tiende hacia los


valores altos.

b) La media aritmética está definida algebraicamente. Conociendo dos


de los tres términos de la expresión, se puede determinar el tercero.

Ejemplo:

Durante una semana 5 corredores de seguros vendieron un promedio


de 4,8 pólizas. ¿Cuál fue el total de pólizas vendidas?

95
x = 4.8 n=5 Σ xi (Total) = ?

Σ xi Σxi = n (x)
x=
n Σxi = 5 (4,8) = 24 pólizas

c) La media aritmética tiene las siguientes propiedades:

(1) La suma algebraica de los desvíos (d) de los valores de la variable


con respecto a su media es siempre igual a cero.

d = xi - x

(xi - x) = 0
o d=0

Ejemplo: Cuatro operarios perciben los siguientes jornales semanales

25 - 30 - 34 - 41

El jornal medio es x = $32.5

Los desvíos de los valores con respecto a la media son:

xi d = (xi - x)

25 25 - 32.5 = - 7.5
30 30 - 32.5 = - 2.5
34 34 - 32.5 = 1.5
41 41 - 32.5 = 8.5
Σ= 0

(2) La suma del cuadrado de las desviaciones con respecto a la media


es mínima. Esto significa que la suma del cuadrado de las desviaciones
con respecto a la media es menor que la suma del cuadrado de las desvia-
ciones con respecto a cualquier otro valor. Esto es:

Σ (xi - x )2 es menor que Σ (xi - cualquier valor)2

96
Ejemplo: Considerando los datos del ejemplo anterior, cuya media es
32.5, se elige arbitrariamente el valor 33.

xi d = xi - x (xi - x)2 xi d = xi - 33 (xi - 33)2

25 - 7.5 56.25 25 -8 64
30 - 2.5 6.25 30 -3 9
34 1.5 2.25 34 1 1
41 8.5 72.25 41 8 64

Σ=137 Σ=138

Σ (xi - 32.5)2 < Σ (xi - 33)2

137 < 138

(3) Si a cada valor de la variable se le suma (o se le resta) una constan-


te, la media queda sumada (o restada) por esa constante.

Si y = xi + c entonces y=x+c

Ejemplo: Los jornales de los cuatro operarios son:

x1 x2 x3 x4
Jornales (xi) = 25 30 34 41

x = $32.5 jornal medio

Supóngase que se decide un aumento de $10 para todos los jornales.


Los nuevos valores son:

Jornales (yi): x1 + c x2 + c x3 + c x4 + c

yi : 25 + 10 30 + 10 34 + 10 41 + 10
yi: 35 40 44 51

La media después del aumento es:

170
y= = $42.5
4

97
y=x+c
42.5 = 32.5 + 10

(4) Si a cada valor de la variable se le multiplica (o se divide) una cons-


tante, la media queda multiplicada (o dividida) por esa constante.

Si y = xi . c entonces y=x.c
Si y = xi /c entonces y = x/c

2.1.3 Media aritmética ponderada

Cuando los datos de un conjunto de datos tienen distintas importancias


en el grupo, al calcular la media aritmética debe considerarse esta impor-
tancia que está expresada en una ponderación.

La media aritmética se denomina "ponderada" y se obtiene


multiplicando cada valor de la variable (xi) por su
ponderación (pi ) y la suma de los productos se
divide por el total de las ponderaciones.

Sean x1, x2 ... xn los valores de la variable y p1, p2 ... pn sus ponderacio-
nes correspondientes. La media ponderada (w) es:

x1 p1 + x2 p2 + ... xn pn
w=
p1 + p2 + .... + pn

Σxi pi
w= (3) xi: Cada valor de la variable
Σpi pi: cada ponderación

Un ejemplo práctico es el índice académico de la Universidad Católica


de Salta. Cada asignatura en el plan de estudios tiene asignada un núme-
ro de "créditos". Estos créditos indican la importancia de la materia en el
plan. El promedio aritmético final de un egresado se obtiene teniendo en
cuenta los créditos, es decir es un promedio ponderado y no un promedio
simple.

98
Ejemplo: un estudiante de Administración de la U.C.S. obtuvo las si-
guientes calificaciones en 3 asignaturas:

Filosofía: 10 (diez); Economía: 6 (seis); Costos: 4 (cuatro)

La calificación media (promedio simple) es:

20
x= = 6,67
7

Pero cada materia tiene el siguiente número de créditos: Filosofía: 2


créditos; Economía: 3 créditos y Costos: 4 (créditos). La calificación media
(índice académico) de este alumno cambiará ya que será un promedio
ponderado:

Asignatura Calificación (xi) Créditos (pi)

Filosofía 10 2
Economía 6 3
Costos 4 4

10 (2) + 6 (3) + 4 (4) 54


Indice académico = w = =
2+3+4 9

w=6

El promedio ha disminuido por el efecto de las ponderaciones. En Cos-


tos, la asignatura de mayor ponderación, el alumno obtuvo una calificación
baja.

99
2.2. Mediana

2.2.1. Concepto

La mediana es el valor que se ubica en el centro de un conjunto de datos


ordenados.

La mediana deja dividida a la distribución en dos partes iguales, o sea


que tiene tantos términos inferiores como superiores a ella.

Para el cálculo debe considerarse dos situaciones.

a)Número impar de datos

La mediana es el valor que se ubica en la posición [(n+1)/2].

Los salarios de los 7 trabajadores ordenados de menor a mayor.

320 325 330 340 346 355 360

La mediana se ubica en la posición [(7 + 1)/2] = 4º lugar.

Md = $ 340

320 330 340 350 360

Md

b)Número par de datos

La mediana es el valor que se ubica en las posiciones.

(n/2) y [(n + 2)/2]

Los salarios de 8 trabajadores ordenados son:

320 325 330 340 346 355 360 365

100
La mediana se ubica entre el 4º y 5º lugar, o sea:

340 + 346
(8/2) = 4º y [(8/2)/2] = 5º Md = = $343
2

2.2.2 Principales características de la mediana

a) La mediana no esta afectada por valores extremos porque no utiliza


todos los valores para su cálculo.

Ejemplo: Dados los valores 8 10 12 15 50

La mediana es el valor que se ubica en el 3º lugar.

Md = 12

Si el valor 50 se incrementa, la media aritmética si aumenta, pero la


mediana sigue siendo la misma.

b) La mediana no está definida algebraicamente.

c) En algunos casos, como cuando el número de datos es par, la media-


na es un valor aproximado, ya que es el valor medio de los dos valo-
res centrales.

2.3 Moda

2.3.1 Concepto

La moda es el valor que se presenta con la mayor frecuencia.

Ejemplo: Los salarios de 10 trabajadores son:

365 - 320 - 340 - 370 - 380 - 340 - 355 - 340 - 326 - 340

Como el número de trabajadores que percibe $340 es mayor que cual-


quier otro, la moda es 340.

101
Mo = $ 340

320 330 340 350 360 370 380

2.3.2 Principales características de la moda

a) La moda no está definida algebraicamente.

b) No está afectada por valores extremos.

c) Es una medida adecuada para el análisis de variables cualitativas.


Por ejemplo: estado civil modal, nivel de instrucción modal, etc.

d) En un conjunto de datos puede haber una, dos o más modas y en


algunas distribuciones puede no haber moda ya que no hay ningún
valor que se presente con la mayor frecuencia.

Si la distribución tiene una moda se denomina unimodal, si tiene dos, se


denomina bimodal y si tiene tres o más modas se denomina multimodal.

102
Actividad Nº 15

1. Un negocio de electrodomésticos que posee diez sucursales registró


el número de heladeras vendidas por cada una durante una semana.

Sucursal A B C D E F G H I J

Número de
heladeras vendidas 4 6 0 7 3 5 2 1 5 5

a) Calcular la venta media, la venta mediana y la venta modal.

b) Se estima que para la semana siguiente las ventas aumentarán un


20% en cada sucursal ¿Cuál es la nueva venta media?

2. Una agencia de turismo recibió un total de $3.800 por parte de los


estudiantes de un colegio en concepto de seña por un viaje de egre-
sados. Si la seña media por alumno es $95, ¿cuántos estudiantes
participarán del viaje?

3. Una compañía tiene tres productos A, B y C, cuyos márgenes de


utilidades son respectivamente 15%, 13% y 10%. Si las ventas men-
suales correspondientes a cada producto son (en miles de $) 4.0 - 2.5
y 1.8, ¿cuál es el margen medio de ganancia?

4. Cinco jóvenes fueron beneficiados con becas para estudios universi-


tarios siendo el importe medio de $150 y el importe mediano de $135.

a) ¿Cuál fue el importe total entregado a los 5 estudiantes?


b) Supóngase que al estudiante que recibía el mayor importe se le
incrementa la beca en $20.

i) ¿Cuál es el nuevo importe medio?


ii) ¿Cuál es el nuevo importe mediano?

5.Un informe sobre el turismo en Salta muestra los siguientes datos:

a) La mayoría de los turistas que visitan Salta provienen de la provin-


cia de Buenos Aires.

103
b) Los hoteles de tres estrellas registran un promedio de 2 pernoctes
por noche.
c) La mitad de los hoteles de tres estrellas logró un índice de aloja-
miento menor que 70% y la otra mitad logró un índice superior al
70%.

Indicar qué promedio (media, mediana o moda) se utiliza en cada una


de la conclusiones mencionadas.

6. En una discusión salarial, el gerente general de una compañía sostie-


ne que el salario promedio pagado a los trabajadores es de $380 por
mes. En cambio, el delegado gremial afirma que el salario prevale-
ciente es de $350 ¿Quién maneja los verdaderos valores?

104
2.4. Media aritmética, mediana y moda para datos agrupados

2.4.1 Media aritmética

Las fórmulas (1) y (2) estudiadas en el punto 2.1.1. se utilizan para


calcular la media aritmética cuando los datos están presentados en una
serie simple.

Si cada valor x1, x2, ... xn está agrupado en una tabla con su frecuencia
respectiva, f1, f2, ... fn, la media aritmética se obtiene multiplicando cada
valor (xi) por su frecuencia (fi) y la suma de los productos se divide por el
total de observaciones de la muestra o de la población, o sea:

x1 f1 + x2 f2 + ... + xn fn
μ =
f1 + f2 + ... + fn

Σ xi fi Σ xi fi
μ = (4) x = (5)
Σ fi Σ fi

Media poblacional Media muestral

Como fi = N (en caso de una población) y fi = n (en caso de una mues-


tra), las fórmulas (4) y (5) se puede expresar como:

Σ xi fi Σ xi fi
μ = (6) x = (7)
N n

Ejemplo: Se toma una muestra de 40 familias para determinar el núme-


ro medio de hijos. Los datos se presentan en la siguiente tabla:

Número de hijos Cantidad de familias


xi fi
2 10
3 15
4 9
5 6
40

105
Utilizando la fórmula (6)

2 (10) + 3 (15) + 4 (9) + 5 (6) 131


x= =
11 + 14 + 9 + 6 40

x = 3.3 hijos

Cuando los datos están agrupados en una tabla con intervalos de clase,
el xi de las fórmulas (6) y (7) representa a la marca de clase de cada
intervalo. Para el cálculo de la media, se multiplica cada marca de clase
(xi) por su frecuencia de clase (fi) y la suma de los productos se divide por
el total de observaciones de la distribución.

Ejemplo: Calcular el índice medio de accidentes de la muestra de 25


empresas (Punto 4.4. - Unidad III).

Indices Marca de clase Número de empresas


xi fi

1 - 2 1.5 3
2 - 3 2.5 5
3 - 4 3.5 10
4 - 5 4.5 4
5 - 6 5.5 3
25

1.5 (3) 2.5 (5) + 3.5 (10) + 4.5 (4) + 5.5 (3) 86.5
x= =
25 25

x = 3.5 índice medio de accidentes

Media aritmética combinada

Cuando se analizan distintas muestras (o distintos conjuntos de datos)


donde se obtiene la media aritmética de cada una, y se desea calcular la
media para todas las muestras, la media aritmética se denomina "combi-
nada" (x).

106
La media combinada se obtiene multiplicando cada media muestral (x)
por su tamaño (n) y dividiendo la suma de los productos por el total de los
tamaños de las muestras, o sea:

x1n1 + x2 n2 + ... + xn. nn


x=
n1 + n2 + ... + nn

Σ xi . ni xi: media de cada muestra


x= ni: tamaño de cada muestra
Σ ni

Ejemplo: la empresa A tiene 100 operarios cuyo sueldo medio es de


$320, mientras que la empresa B que tiene 50 operarios tiene un sueldo
promedio de $390. ¿Cuál es el salario medio para los operarios de ambas
empresas?

320 (100) + 50 (390) 51.500


x= =
100 + 50 150

x = $ 343.33

107
Actividad Nº 16

1. Calcular la media aritmética para la siguiente distribución de los alqui-


leres de 100 locales comerciales.

Alquileres Nº de locales
fi

200 - 300 22
300 - 400 30
400 - 500 19
500 - 600 10
600 - 700 12
700 - 800 7
100

2. En una empresa hay 15 técnicos, 20 empleados administrativos y


300 operarios. Las edades medias de cada grupo son 42,5 años; 34,5
años y 28,7 años respectivamente. Calcular la edad media para to-
dos los trabajadores.

3. El promedio general de calificaciones de dos cursos A y B es 7,1. El


curso A tiene 20 alumnos y una calificación media 6,4 y el curso B
tiene una calificación media de 7,5. ¿Cuántos alumnos tiene el curso
B?

108
2.4.2 Mediana

La mediana para datos agrupados en una tabla de frecuencias con


intervalos de clase es un valor aproximado a la verdadera mediana. Se
puede obtener por dos métodos: a) el método gráfico y b) el método de
interpolación.

a) Método gráfico

Como ya se analizó el punto 4.8 de la unidad III, la mediana se puede


obtener gráficamente mediante las ojivas. Las dos ojivas se intersectan en
la mitad del total de las frecuencias (12,5), siendo el valor mediano 3,45,
es decir que el 50% de las empresas tiene un índice menor a 3,45 y el otro
50% tiene un índice mayor a 3,45.

Indices Nº de empresas Frecuencias acumuladas


fi fa

1- 2 3 3
2- 3 5 8
3- 4 10 18
4- 5 4 22
5- 6 3 25

25

109
fa

25

20
18 E
15
n/2 = 12.5 C 10
10 4.5
8.0 A B D

Indices

1 2 3 4 5 6
Li
Md

b)Método de interpolación

En primer lugar se debe identificar el "intervalo mediano". Observando


el gráfico la mitad del total de datos (n/2 = 12,5) se localiza en la clase 3
- 4, por lo tanto este es el intervalo que contiene a la mediana.

Hasta el intervalo 2 - 3 hay 11 observaciones; en el intervalo 3 - 4 se


incluye desde el dato número 12 hasta el dato número 18, o sea que los
12.5 primeros datos se encuentran en esta clase que es el intervalo me-
diano.

Luego, se aplica la siguiente fórmula:

n/2 - fa
Md = Li + . Ci (9)
fi

110
Li: límite inferior del intervalo mediano
n: total de datos promediados
fa: frecuencia acumulada anterior al intervalo mediano
fi: frecuencia absoluta simple del intervalo mediano
Ci: amplitud del intervalo mediano.

Esta fórmula se fundamenta en una distribución uniforme de los distin-


tos valores de la variable dentro del intervalo que contiene la mediana.

Se puede establecer la siguiente relación de proporcionalidad.

AB AD CB . AD
= donde AB =
CB ED ED

Del gráfico se desprende que:

Md = Li + AB

Sustituyendo AB por la expresión hallada

CB . AD
Md = Li +
ED

donde:

CB = n/2 - fa entonces CB = 12.5 - 8 = 4.5

que indica los elementos que faltan para llegar a la mitad del total de
datos. Hasta la clase anterior al intervalo mediano hay 8 observaciones,
por lo que faltan 4,5 para la mitad.

A su vez ED = fi o sea ED = 10. De las 10 observaciones que hay en el


intervalo mediano, se necesitan 4,5 para alcanzar la mitad, por eso se
divide n/2 - fa sobre fi que es una fracción del intervalo de clase.

n/2 - fa 12,5 - 8 4,5


= =
fi 10 10

111
Por último AD = Ci o sea AD = 1 (amplitud del intervalo). La fracción
anterior se multiplica por la amplitud que da la posición de la mediana
dentro del intervalo.

n/2 - fa 4,5
. Ci = .1 = 0.45
fi 10

El valor 0.45 se agrega al límite inferior de la clase mediana (Li ) para


obtener el valor de la mediana.

n/2 - fa
Md = Li + Ci
fi

12.5 - 8
Md = 3 + .1
10

Md = 3 + 0.45 = 3.45

112
Actividad Nº 17

La siguiente distribución corresponde a los alquileres pagados por 100


locales comerciales:

Alquileres Nº de locales
$ fi

200 - 300 22
300 - 400 30
400 - 500 19
500 - 600 10
600 - 700 12
700 - 800 7

100

Obtener la mediana:

a) por el método gráfico


b) por el método de interpolación

113
2.4.3 Moda

La moda, para una distribución de frecuencias, no puede calcularse


exactamente, sino en forma aproximada.

Los métodos de cálculos son:

a)el método directo;


b)el método de interpolación mediante gráfico y
c) el método de interpolación mediante fórmula.

La tabla de frecuencias de los índices de accidentes de las 25 empresas


se utilizarán para ejemplificar la aplicación de los 3 métodos.

Indices Nº de empresas Marca de clase


fi xi

1- 2 3 1.5
2- 3 5 2.5
3- 4 10 3.5
4- 5 4 4.5
5- 6 3 5.5

25

Cada uno de los puede dar un valor diferente a la moda.

a)Método directo

La moda directa en una distribución de frecuencias es la marca de clase


o punto medio del intervalo modal. El intervalo modal es el que tiene la
mayor frecuencia.

En la distribución de los índices de accidentes el intervalo modal es 3 -


4 porque allí se concentra la mayor frecuencia que es 10. Como el punto
medio 3,5 es el valor que representa a la clase modal por lo tanto se
considera la moda de la distribución.

Mo = 3.5 accidentes

114
b)Interpolación mediante gráfico

(1) Se construye un histograma

fi
clase modal fn = 10
10

8 d1 d2

4 f1 = 5
f2 = 4
2

1 2 3 4 5 6 Indices
moda 3,4

(2) Se dibujan dos líneas diagonalmente en el interior de la barra de la


clase modal, partiendo de las esquinas superiores de la barra a las esqui-
nas superiores de las barras adyacentes.

(3) Se dibuja una línea perpendicular desde la intersección de las dos


diagonales hasta el eje de las x. La moda se localiza en dicho eje y es 3,4.

Obsérvese que se han empleado los valores y la frecuencia de la clase


modal y las frecuencias de las clases inmediatamente anterior y posterior
a la clase modal.

c) Interpolación por fórmula

La fórmula para el cálculo de la moda es:

d1
Mo = Li + . Ci (10)
d1 + d2

115
Li : Límite inferior del intervalo modal
d1 : Diferencia entre la frecuencia de la clase modal y la frecuencia de la
clase premodal (d1= fn - f1)
d2 : Diferencia entre la frecuencia de la clase modal y la frecuencia de la
clase posmodal (d2 = fn - f2).
Ci: Amplitud de la clase modal.

Aplicando la fórmula (10) para la distribución de índices de accidentes


se tiene:

Li = 3
d1 = 10 - 5 = 5
d2 = 10 - 4 = 6
Ci = 1

5
Mo = 3 + .1
5+6

Mo = 3 + 0.45 = 3.45

Mo ~ 3.45 accidentes

Si el gráfico fue dibujado exactamente, la moda calculada mediante


fórmula deberá ser el mismo valor que la moda obtenida el histograma.

116
Actividad Nº 18

Calcular la moda por los tres métodos desarrollados para la distribución


de alquileres de los 100 locales comerciales.

Alquileres Nº de locales
fi

200 - 300 22
300 - 400 30
400 - 500 19
500 - 600 10
600 - 700 12
700 - 800 7
100

117
2.5. Otras medidas de posición

2.5.1 Media Geométrica

La media geométrica (G) se define como la raíz n-ésima de los produc-


tos de los valores de un conjunto de datos.

n
G = √ x1 . x2 ... xn

Ejemplo: Calcular la media geométrica de los valores 5 - 7 - 10 - 12

4 4
G = √ (5) (7) (10) (12) = √ 4.200

G = 8,05

La media geométrica tiene las siguientes características.

(1) Es susceptible de tratamiento algebraico. Si se conocen dos de los


tres términos de la expresión, el tercero puede ser determinado.
n
G = √ Producto de n valores

Ejemplo:

Si un conjunto de 5 valores tiene una media geométrica de 3 ¿Cuál es


el producto de los 5 valores?

G=3 n=5

Producto de n valores = Gn

= 35 = 243

(2) El cálculo de G se basa en todos los valores de un conjunto de datos.


Cada valor del conjunto afecta el valor de G. Si uno de los valores es cero,
el valor de G es cero.

118
Ejemplo: 12 - 8 - 0
3
G = √ (12) (8) (0)

G=0

(3) La media geométrica es afectada por los valores extremos pero en


menor cantidad que lo es a la media aritmética.

Ejemplo. Sean los valores 4 - 7 - 25

La media aritmética es:

Σ xi
x=
n

36
x= = 12
3

La media geométrica es:


3
G = √ (4) (7) (25)

G = 8,9

El valor de G es siempre menor que la media aritmética.

(4) Cuando se obtienen las razones de los valores de un conjunto con


respecto a cada valor inmediato anterior, la media geométrica es el único
promedio apropiado para las razones.

Ejemplo: Las ventas de un negocio durante cuatro meses fueron:

Mes Ventas ($) Razón con respecto al mes anterior (xi)


Enero 1.000 1.10
Febrero 1.100 1.70
Marzo 1.870 1.70
Abril 3.740 2.00

119
Se calcula la media geométrica de las razones.
3 3
G = √ (1.10) (1.70) (2.00) = √ 3.74

G = 1.5522 o 155.22 %

En el cuadro siguiente se muestran las ventas mensuales basadas en


G.

Mes Ventas
E 1.000 -
F 1.100 1.000 (1.5522) = 1.552.20
M 1.870 1.552.20 (1.5522) = 2.409.32
A 3.740 2.409.32 (1.5522) = 3.739.75 = 3.740

Con la media geométrica se llega al último valor (3.740), mientras que si


se hubiera utilizado la media aritmética de las razones, el resultado no
hubiera sido consistente.

Cuando un número es obtenido multiplicando el número anterior por la


razón promedio, la secuencia de los números se denomina progresión
geométrica. Los valores de las ventas constituyen una progresión
geométrica con una razón promedio de 155.22%.

Uso de la G para obtener tasas promedio de crecimiento

Considerando la secuencia de valores de una progresión geométrica,


se tiene:

Po: Valor del primer período (período base)


Pn: valor del último período
n: número de valores excluyendo el primero de ellos.
G: la razón promedio.

120
Simbólicamente
Enero (base) = 1.000 Po
Febrero = 1.000 (1.5522) = 1.552.20 Po . G
Marzo = 1.552.20 (1.5522) = 2.409.32 Po G(G) = Po G2
Abril = 2.409,32 (1.5522) = 3.739.75 Po G2 (G) = PoG3

En general, el valor al final del n-ésimo período es:

Po . Gn = Pn

Pn
n
G =
Po

Pn
G =n (12)
√ Po

La tasa promedio de crecimiento (r) es:

r = G - 100% (13)

La base de una razón expresada en % es igual al 100%.

Po = 1.000 Pn = 3.740 n = 3 (se excluye el período base)

G=? r=?

3.740
G= 3
√ 1.000

G = 1.5522 o 155.22 %

r = 155.22 - 100

r = 55.22%

Las ventas tienen una tasa promedio de crecimiento mensual del 55,22%.

121
2.5.2 Media Armónica

Se define la media armónica (H) como el inverso de la media aritmética


de los inversos de los valores de la variable.

1 n
H= entonces H= (14)
Σ 1 Σ 1
x x

por lo tanto

n
H=
1 1 1
+ + .... +
x1 x2 xn

Ejemplo: Dados los valores 2 - 3 - 6 - 8

4 4
H= =
1 1 1 1 54
+ + +
2 3 6 8 48

H = 3.55

La media armónica se obtiene utilizando todos los valores del conjunto,


por lo tanto es afectada por valores extremos, pero en menor cantidad que
la media geométrica.

Ejemplo: 4 - 7 - 25

x = 12 G = 8.9

122
3
H=
1 1 1
+ +
4 7 25

H=7

En resumen:

H < G < x

El significado de la media armónica se puede ilustrar con el siguiente


ejemplo:

Se ha recorrido la distancia Salta - Tucumán a razón de 80 km por hora


y el regreso Tucumán - Salta a razón de 60 km por hora ¿Cuál es el
trayecto total de ida y vuelta?

La media aritmética dará como respuesta:

80 + 60
= 70 km/h
2

El resultado es erróneo. El tiempo invertido en recorrer la distancia (D)


entre Salta y Tucumán será: D/80 y el regreso D/60.

La velocidad media de ida y vuelta será:

Espacio 2
H (velocidad media) = =
Tiempo 1 1
+
80 60

H = 68.57 km/h

123
2.5.3 Cuartiles

Así como la mediana divide la distribución en dos partes iguales, los


cuartiles dividen a la distribución en cuatro partes iguales (o casi iguales).
Existen tres cuartiles:

- Primer cuartil (Q1) es el valor de la variable por debajo del cual queda
el 25% de los elementos de la serie estudiada.

- Segundo cuartil (Q2) es el valor por debajo del cual queda el 50% de
los elementos de la distribución. El segundo cuartil es igual a la mediana.

- Tercer cuartil (Q3) es el valor por debajo del cual queda el 75% de los
elementos de la distribución.

Para calcular los cuartiles en los datos sin agrupar se debe seguir el
siguiente procedimiento.

1') Ordenar los datos de menor a mayor.

2') Encontrar la posición que ocupa el Q1, Q2 o Q3 a través de las si-


guientes fórmulas:

n+1 2(n + 1) 3 (n + 1)
Orden Q1 = ; Orden Q2 = ; Orden Q3 =
4 4 4

3') Buscar el dato que ocupa la posición hallada en el peso anterior.

Ejemplo: Los siguientes datos corresponden a las puntuaciones de 15


exámenes tomados a postulantes a un cargo en una empresa de servicio.

45 - 47 - 49 - 50 - 52 - 52 - 57 - 60 -
62 - 65 - 65 - 68 - 70 - 74 - 78

* El primer cuartil será:

n+1
Orden Q1 =
4

124
15 + 1
Orden Q1 = = 4º lugar
4

El dato que ocupa el 4 lugar es 50, o sea:

Q1 = 50 puntos

El 25% de los postulantes tiene una puntuación inferior a 50 puntos:

* El segundo cuartil será:

3 (n + 1)
Orden Q3 =
4

3 (15 + 1)
Orden Q3 = = 12º lugar
4

El dato que ocupa el lugar número 12 es 68 , o sea:

Q3 = 68 puntos

El 75% de los postulantes tiene una puntuación inferior a 68 puntos.

- Si el valor resultante de la posición es un entero, se selecciona el dato


correspondiente al orden del cuartil buscado. Este es el caso del ejemplo
anterior.

- Si el punto de posición está a la mitad entre dos puntos de posición,


se selecciona la media de sus valores correspondientes.

- Si el valor del orden no es un entero ni un valor a la mitad entre los


otros dos puntos de posición se utiliza la siguiente regla empírica para
aproximarse al cuartil: redondearlo al punto de posición del entero
más cercano y seleccionar el valor de la observación correspondiente.

125
Ejemplo: Dados los siguientes valores:

10 20
12 22
14 25
18 27
18 30

n+1 10 + 1
Orden Q1 = = = 2.75
4 4

El 1º cuartil se ubica entre el 2º y 3º lugar, o sea entre los valores 12 y


14. Como el orden (por redondeo) se acerca a 3, se considera 14 como
valor aproximado del 1º cuartil.

Q1 = 14

3 (n+1) 3(10+1)
Orden Q3 = = = 8.25
4 4

El 3º cuartil se ubica entre el 8º y 9º lugar, o sea entre los valores 25 y


27. Como el orden (por redondeo) se acerca a 8, se considera 25, como
valor aproximado del 3º cuartil.

Q3 ≅ 25

Cuando los datos están agrupados en una tabla de frecuencias, los


cuartiles se calculan por el mismo procedimiento que el cálculo de la me-
diana.

1') Se identifica el intervalor que contiene el 1' y el 2' o el 3' cuartil.

2') Luego se utiliza una de las siguientes fórmulas:

126
n/4 - fa
Q1 = Li + . Ci (15)
fi

2n/4 - fa
Q2 = Li + .Ci (16)
fi

3n/4 - fa
Q3 = Li + . Ci (17)
fi

Li: Límite inferior de la clase a la que pertenece el 1', el 2' o el 3' cuartil

n/4: Orden del 1 cuartil - 2n/4: Orden del 2 cuartil.


2n/4: Orden del 3' cuartil.

fa: Frecuencia acumulada anterior a la clase que contiene el cuartil bus-


cado.

f i: Frecuencia simple de la clase cuartílica.

Ci: Amplitud de la clase cuartílica.

Ejemplo: Calcular el Q1 y el Q3 de la distribución de frecuencias de los


índices de accidentes de las 25 empresas.

Indices Nº de empresas Frecuencia Acumulada


fi fa

1- 2 3 3
2- 3 5 8
3- 4 10 18
4- 5 4 22
5- 6 3 25

25

127
fa

25

20

15

10

1 2 3 4 5 Indices

Q1 Q3

Orden 1 cuartil Orden 3' cuartil

n 25 3n 3(25)
Q1 = = = 6.25 Q3 = = = 18.75
4 4 4 4

La clase del 1' cuartil se localiza La clase del 3' cuartil se localiza en
en el intervalor 2 - 3. el intervalor 4 - 5.

Luego, se aplica la fórmula (15) Luego se aplica la fórmula (17)

3.25 - 3 18.75 - 18
Q1 = 2 + .1 Q3 = 4 + .1
5 4

Q1 = 2.65 Q3 = 4.1875

Una de las aplicaciones importantes de los cuartiles es en la confección


del diagrama de caja que se desarrollará más adelante.

128
2.5.4 Deciles y Percentiles

- Los deciles (D) dividen a la distribución en diez partes iguales. Así, por
ejemplo, el decil 1 (D1), deja el 10% de los valores por debajo de él; el
decil 2 (D2) deja el 20% de los valores por debajo de él. Análogamente
ocurre con los deciles D3, D4... D9.

- Los percentiles (P) dejan dividida a la distribución en cien partes igua-


les. Los percentiles se denotan por P1, P2, P3 ... P99. Así, por ejemplo,
el P80 deja por debajo el 80% de los elementos de la distribución.

Debido a que estas medidas no son de uso frecuente en el campo de la


Administración, no se desarrollarán las fórmulas para su cálculo. No obs-
tante, los procedimientos de dichos cálculos son análogos a los utilizados
para la mediana y los cuartiles.

129
Actividad Nº 19

1) Dados los siguientes valores:

2 - 7 - 8 - 15 - 10 - 4 - 9 - 10

Calcular:

a) La media geométrica;
b) La media armónica;
c) El tercer cuartil.

2) Según el censo de 1970, la población de la ciudad de Salta era de


176.216 habitantes. De acuerdo a los datos del censo 1991 la pobla-
ción aumentó a 373.857. Obtener la tasa promedio de crecimiento
anual por cada mil habitantes de la población de la ciudad.

3) Dada la distribución de los alquileres de los 100 locales comerciales.

a) Calcular el Q1 y Q3
b) Interpretar las medias calculadas.

Alquileres Nº de locales
fi

200 - 300 22
300 - 400 30
400 - 500 19
500 - 600 10
600 - 700 12
700 - 800 7

100

130
3. Medidas de Dispersión

Las medidas de dispersión describen la


variabilidad de las observaciones de un conjunto
de datos con respecto a un valor promedio.

Rango
De distancia Rango inter-cuartil (*)
Desviación cuartílica (*)
Absolutas
Medidas * Desviación absoluta promedio
de De desviación * Varianza
Dispersión promedio * Desviación típica
* Desviación intercuartílica (*)

Relativa ⇒ Coeficiente de Variación

Considérese el número de pólizas vendidas durante una semana por


dos sucursales de una compañía de seguros.

Lunes Martes Miércoles Jueves Viernes


Sucursal "A" 5 12 8 14 11
Sucursal "B" 9 8 10 12 11

A
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

A
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

La media de ambas sucursales es 10 pólizas.

μA = 10 μB = 10

Si bien ambas sucursales tiene la misma venta media, se puede obser-


var que los valores de la Sucursal "A" están más dispersos que los valores
de la Sucursal "B" respecto a la media.

* Se tratan en el punto 3.8

131
3.1 Rango

Es la diferencia entre el valor máximo y el valor


mínimo de un conjunto de datos.

R = xn - x1 (18) xn = valor máximo; x1 = valor mínimo

RA = 14 - 5 = 9 RB = 12 - 8 = 4

Características del Rango

1. Es una medida de cálculo sencillo.

2. El rango no está afectado por los valores comprendidos entre el valor


máximo o mínimo, al utilizar los extremos no proporciona una medida
efectiva de variabilidad en relación el valor promedio.

3.2 Desviación Absoluta Promedio

La desviación absoluta promedio es la media aritmética de las desvia-


ciones de los valores individuales de la distribución con respecto a su
promedio (generalmente se utiliza la desviación media).

Σ⎥ xi - μ⎥
Dm = (19)
N

Los signos de las desviaciones se ignoran, ya que de acuerdo la propie-


dad de la media ya estudiada, la suma de los desvíos es cero.

132
SUCURSAL "A"

xi xi - μ Valor absoluto de los desvíos

5 5 - 10 = -5 5
12 11 - 10 = 2 2
8 8 - 10 = -2 2
14 14 - 10 = 4 4
11 11 - 10 = 1 1

Σ=0 Σ⎥ d⎥ = 14

SUCURSAL "B"

xi xi - μ Valor absoluto de los desvíos

9 9 - 10 = -1 1
8 8 - 10 = -2 2
10 10 - 10 = 0 0
12 12 - 10 = 2 2
11 11 - 10 = -1 1

Σ=0 Σ⎥ d⎥ = 14

14 6
DmA = = 2,8 DmB = = 1,2
5 5

Características de la DM

1. El cálculo está basada en todos los valores e indica la dispersión con


relación a un valor promedio.

2. Al ignorarse los signos de las desviaciones, la medida no resulta


adecuada para un manejo matemático.

133
3.3 Varianza

La varianza es el promedio de los cuadrados de las


desviaciones de los valores de la variable
con respecto a su media.

La varianza poblacional se simboliza con sigma cuadrado (σ2) y la fór-


mula se expresa:

Σ(xi - μ)2
σ2 = (19)
N

L M M J V

Sucursal A (xi - μ)2 25 4 4 16 1 Σ = 50

Sucursal B (xi - μ)2 1 4 0 4 1 Σ = 10

50 10
σ2A = σ2B =
5 5

σ2A = 10 σ2B = 2

Principales características de la varianza

1. La varianza es matemáticamente lógica ya que considera los signos


de los desvíos, de allí su ventaja con respecto a la desviación abso-
luta promedio.
2. La varianza no está expresada en unidades originales, sino en una
unidad al cuadrado. Esto es debido a la operación de elevar al cuadra-
do las desviaciones.
3. Cuando las varianzas son grandes se hace difícil su interpretación.

Para calcular la varianza se pueden emplear las variantes de la fórmula:

134
Σ xi2 Σxi 2
Σ xi
(20) σ = 2
- (21) σ = 2
- (μ)2
N N N

Para aplicar estas fórmulas se utilizarán los datos de la sucursal B.

xi 9 8 10 12 11 Σ = 50

xi2 81 64 100 144 121 Σ = 510

Utilizando la Utilizando la
fórmula 20 fórmula 21

2
510 50 510
σ =
2
- σ =
2
- (10)2
5 5 5

σ2 = 102 - 100 σ2 = 102 - 100

σ2 = 2 σ2 = 2

3.4 Desviación típica o estándar

Debido a que la varianza no está expresada en unidades originales y


para restaurarlas se obtiene la raíz cuadrada de esta medida.

La medida así obtenida recibe el nombre de "desviación típica o están-


dar"

La desviación típica es la raíz cuadrada del


promedio de los cuadrados de las desviaciones
de los valores con respecto a su media.

La desviación típica poblacional se simboliza con s (sigma) y la fórmula


se expresa.

135
Σ (xi - μ)2
σ= (22)
√ N

La desviación típica de A es La desviación típica de B es:

50 10
σA = = √ 10 σB = =√ 2
√ 5 √ 3

σA = 3,2 pólizas σB = 1,4 pólizas

La fórmula (22) se puede expresar como:

Σ xi2 Σxi 2
Σ xi
σ = - (23) σ= - (μ)2 (24)
√ N N √ N

Principales característica de la desviación típica

1. Como la varianza, la desviación típica se calcula en base a todos los


valores. Mide la dispersión alrededor de la media y no con respecto a
ciertos valores como el rango.

2. La desviación estándar es matemáticamente lógica, ya que al igual


que la varianza, tiene en cuenta los signos positivos y negativos de
los desvíos individuales.

3. Como ya se señaló anteriormente, el desvío típico está expresado en


unidades originales lo que facilita su análisis e interpretación.

4. a)Si a cada valor de la variable se le suma (o se le resta) una cons-


tante, el desvío típico no se modifica.

136
b)Si a cada valor de la variable x lo multiplica (o se lo divide) por una
constante, el desvío típico queda multiplicada (o dividida) por dicha
constante.

5. Hasta ahora se hizo referencia a la varianza y el desvío típico


poblacional, por cuanto las fórmulas de ambas medidas calculadas a
partir de una muestra tienen la siguiente variante: el denominador se
divide por n-1. La explicación se desarrolla en el punto 3.5. La varianza
y el desvío típico muestrales se simbolizan por S2 y S respectivamente.

3.5. Varianza y desvío típico de una muestra

La varianza muestral (S2) se obtiene mediante la siguiente fórmula:

Σ (x1 - x)2
S2 = (25)
n-1

La desviación típica muestral (S) se obtiene por:

Σ (x1 - x)2
S= (26)
√ n-1

El denominador se divide por n-1. Este término se denomina "grados de


libertad".

Ejemplo: las edades de una muestra de cinco personas son: 20; 24; 28;
35; 40. La media es:

Σxi
x= x = 29.4 años.
n

Al calcular la desviación típica muestral, se utiliza una estimación de la


medida de la población. Se introduce un sesgo debido a que el valor Σ =(x1
- x)2 es un valor mínimo para cualquier distribución dada. Si a cada ele-
mento se hubiera restado cualquier otro valor distinto de 29,4 años, la
suma de las diferencias sería mayor que Σ = (x1 - 29.4)2.

137
Al utilizar en el cálculo la moda muestral como estimador de la media
poblacional, por lo regular se obtendrá una desviación estándar menor
que la desviación estándar poblacional. Este sesgo se puede corregir di-
vidiendo Σ = (xi - x )2 entre los grados de libertad n - 1. Debido que la media
muestral se usó como estimación de la media poblacional en el cálculo del
desvío muestral, solo cuatro de las edades son libres de varias, ya que la
quinta edad se puede determinar porque Σ = (xi - x) = 0. Sólo se requiere
de cuatro edades para tener toda la información.

Los grados de libertad en un conjunto de datos indican el número de


elementos de datos que son independientes de los otros y que se consti-
tuyen como piezas únicas de información.

138
Actividad Nº 20

1) Las ventas de una compañía (en miles de pesos) durante una sema-
na fueron:

Día L M M J V S

Ventas ($) 8 4 6 7 10 7

a) Obtener las siguientes medidas:

i) Rango;
ii) Desviación absoluta promedio;
iii) varianza
iv) Desviación típica

b) El gerente estima que las ventas disminuirán un 10% la próxima


semana ¿Qué ocurrirá con el desvío típico?

2) Un productor cinematográfico elige un grupo de extras para una pe-


lícula. Las edades de los primeros 10 entrevistados son:

50 - 56 - 55 - 49 - 52
57 - 56 - 57 - 56 - 59

El productor quiere extras cuya edad se agrupe estrechamente alre-


dedor de los 55 años como aceptable,pero que la variabilidad no
supere los 3 años. ¿Cumple este grupo con los requisitos?

3) En uno de los departamentos de producción de una empresa indus-


trial la producción diaria media por operario era de 374.3 unidades y
la desviación típica de la producción diaria por operario de 34.7 unida-
des. Se condujo un programa de entrenamiento para los operarios
menos eficientes. Subsecuentemente, la producción diaria media subió
a 421.6 unidades por operario y la desviación típica se redujo a 29.3
unidades.

Describir los cambios que tuvieron lugar después del entrenamiento.

139
4) Se toman las medidas a 80 personas y resulta una estatura media de
1.70 mts. y una desviación típica de 0.02 mts. Posteriormente se
verifica que el instrumento usado en la medición tenía 3 cm menos.
Ratifique o rectifique los valores mencionados.

140
3.6. Coeficiente de Variación

Cuando se desea comparar dos distribuciones, las medidas absolutas


de dispersión son útiles si los promedios de ambas son aproximadamente
del mismo tamaño y las unidades de medida de los conjuntos son iguales,
de lo contrario la comparación de la dispersión se hace complicada.

Ejemplo: la media y el desvío típico de los salarios de dos compañías:

Cía. I Cía. II

μ1 = 400 μ2 = 200
δ1 = 65 δ2 = 48

A simple vista, la Cía. I tiene mayor dispersión que la Cía. II debido a que
el desvío típico es mayor. Pero esta conclusión no es cierta, ya que la
desviación típica es significativa sólo en relación con la media respecto a
la cual se calcula.

Para la comparación se requiere una medida relativa que describa una


idea general de la magnitud del desvío estándar en relación con la magni-
tud de la media. Esta medida se denomina "coeficiente de variación" que
se obtiene dividiendo el desvío típico sobre la media aritmética.

δ
(27) cv = Población
μ

S
(28) cv = Muestra
x

Si se expresa en porcentaje se multiplica por 100

Compañía I Compañía II

65 48
cv = cv =
400 200

141
cv = 0.1625 o 16.25% cv = 0.24 o 24%

La distribución I tiene una variación absoluta mayor que la distribución II,


pero la variación relativa es menor porque es mayor su media aritmética.

Existen dos propiedades:

a)Cuando a cada valor de la variable se le suma (o se le resta) una


constante, el cv disminuye (o aumenta).

Ejemplo: El salario medio de una muestra de trabajadores una compa-


ñía es de $200 con una desviación típica de $ 20.

Sx 20
cv = cv = = 0,10
x 200

Se decide aumentar los salarios en $40.

y = $ 240 Sy = $20

La nueva media El nuevo desvío


se incrementa a 240 no se modifica

Sy 20
cv = cv = = 0.08 el nuevo CV disminuye
y 204

b)Cuando a cada valor de la variable se multiplica (o se divide) por una


constante, el cv no se modifica.

Ejemplo: se decide duplicar los salarios originales:

y = $400 Sy = $40

La nueva media también El nuevo desvío también


se duplica se duplica

142
Sy 400
cv = cv= = 0.10 el nuevo CV no se
y 40 modifica

143
Actividad Nº 21

1) Una compañía mayorista estaba estudiando la posibilidad de conver-


tirse en proveedor de 3 minoristas, pero la escasez de inventario la
obligó a seleccionar un solo minorista. El gerente de crédito de la
compañía está evaluando los créditos de los tres. En los últimos 5
años, sus cuentas por cobrar se han atrasado el siguiente número
promedio de días. El gerente de crédito considera que la consisten-
cia, además de un promedio mínimo, es de suma importancia. Ba-
sándose en la dispersión relativa. ¿Cuál minorista será mejor cliente?

López 62.2 61.8 63.4 63.0 61.7


Guzmán 62.5 61.9 62.8 63.0 60.7
Sánchez 62.0 61.9 63.0 63.9 61.5

2. La media de una distribución de un centenar de artículos es 50 y la


suma de los cuadrados de las desviaciones respecto de la media es
3.600, por lo que el coeficiente de variación es igual a 0.08. ¿Es
correcto este enunciado?.

144
3.7 Varianza y desvío típico para datos agrupados

La varianza y la desviación típica para datos de una población agrupa-


dos es una tabla de frecuencias se obtienen con las siguientes fórmulas:

Varianza Desvío típico

Σ(xi - μ)2 . fi Σ (xi - μ)2 . fi


σ2 = (29) σ= (30)
N √ N

Si se trata de una muestra, el denominador se divide por n - 1.

Varianza Desvío típico

Σ(xi - x)2 . fi Σ (xi - x)2 . fi


σ2 = (31) σ= (32)
n-1 √ n-1

donde:

xi = valor de la clase o punto medio del intervalo


m = media poblacional
x = media muestral
fi = frecuencia de clase.
N = total de observaciones de la población
n = total de observaciones de la muestra.

La desviación al cuadrado para cada clase se multiplica por su frecuen-


cia y la suma de los productos se divide por N o en n - 1.

La varianza y el desvío típico para la distribución del número de acciden-


tes de la muestra de 25 empresas, cuya media es 3.5, se obtienen a
continuación.

145
Indices Marca de Nº de empresas (xi - x)2 (xi - x)2 f

1-2 1.5 3 (1.5 - 3.5)2 = 4 4 (3) = 12

2-3 2.5 5 (2.5 - 3.5)2 = 1 1 (5) = 5

3-4 3.5 10 (3.5 - 3.5)2 = 0 0 (10) = 0

4-5 4.5 4 (4.5 - 3.5)2 = 1 1 (4) = 4

5-6 5.5 3 (5.5 - 3.5)2 = 4 4 (3) = 12

25 33

Aplicando las fórmulas (31) y (32).

33 33 33
σ =
2
= σ= = √1.375
25 - 1 24 √ 25 -1

σ 2 = 1.375 σ = 1.17

Las fórmulas equivalentes de (29) y (30) son:

Σxi2 - fi Σ xi2 - fi
σ2 = - μ2 (33) σ= μ2 (34)
N √ N

Las fórmulas equivalentes de (33) y (34) son:

Σxi2fi - n x 2
Σ xi2fi - nx 2

σ2 = (35) σ= (36)
n-1 √ n-1

146
Actividad Nº 22

El número de cheques cobrados diariamente en 5 sucursales de un


banco durante 100 días tuvo la siguiente distribución de frecuencias:

Nº de cheques 0-200 200-400 400-600 600-800 800-1000


fi 10 13 17 42 18

El director de operaciones del banco, sabe que una desviación standard


o típica en el cobro de más de 200 cheques diarios crea problemas de
organización y dotación del personal en las sucursales, debido a una car-
ga de trabajo no uniforme ¿Debe preocuparse en este momento?.

147
3.8 Otras medidas de dispersión

3.8.1 Rango intercuartil

El rango intercuartil (RI) representa la distancia


entre el tercer cuartil (Q1) y el primer cuartil (Q3).

RI = Q3 - Q1 (37)

Considérese nuevamente los datos correspondientes a las puntuacio-


nes de 15 exámenes tomados a postulantes (ver punto 2.5.1).

45 - 47 - 49 - 50 - 52 - 57 - 60 - 62 - 65 - 65 - 68 - 70 - 74 - 78

El primer cuartil (Q1) y el tercer cuartil calculados fueron:

Q1 = 50 Q3 = 68

El rango intercuartil es:

RI = 68 - 50

RI = 18 puntos

3.8.2 Desviación cuartílica (QD)(*)

La desviación cuartílica consiste en la división


del rango intercuartílico entre dos.

Q3 - Q1
QD = (38)
2

(*) Shao, Stephen, op. cit. en bibliografía.

148
68 - 50
QD =
2

QD = 9 puntos

Las principales características de QD son:

(1) La QD está basada en dos valores: Q1 y Q3. No está afectada por


valores extremos, los cuales son menores que Q1 o mayores que Q3. El
50% de los datos está entre Q1 y Q3. Una QD baja indica una pequeña
variación entre el 50% de los datos centrales. En cambio, una QD alta
significa que la variación entre los elementos centrales es grande.

(2) La QD tiene el inconveniente de que no está basada en cada valor de


una distribución.

Los cuartiles y el rango intercuartil son utilizados para confeccionar el


diagrama de caja que se trata en el anexo de este módulo, reproduciendo
el artículo de la revista Capacitando en Calidad - N VII del Dpto. de Mate-
mática de la Universidad Nacional del Sur.

4. Formas de la distribución
4.1 Simetría y Asimetría

Distribución simétrica

Considérese la distribución A

Intervalos fi xi

10 - 20 3 15
20 - 30 5 25
30 - 40 9 35
40 - 50 5 45
50 - 60 3 55
25

149
Se construye a continuación el polígono de frecuencias.

fi
10

xi
5 15 25 35 45 55 65

El polígono se vuelve cada vez más suave y curvo a medida que au-
menta el número de observaciones. El Polígono suavizado recibe el nom-
bre de “curva de frecuencia”.

150
Se puede observar que la distribución es simétrica por la forma del
polígono. En este caso los valores de la media aritmética, la mediana y la
moda son iguales o casi iguales.

x = 35 Md = 35 Mo = 35

4.2 Distribuciones asimétricas

Se presenta a continuación otras dos distribuciones B y C.

(B) (C)
Intervalos fi xi Intervalos fi xi

10 - 20 3 15 10 - 20 2 15
20 - 30 12 25 20 - 30 3 25
30 - 40 5 35 30 - 40 5 35
40 - 50 3 45 40 - 50 12 45
50 - 60 2 55 50 - 60 3 55
25 25

151
Se construyen el polígono y la curva de frecuencias para ambas distri-
buciones y se calculan los 3 promedios.

fi fi
x = 30,6
12 12
md = 27,9
10 mo = 25 10
8 8
6 6
4 4
2 2
0 0

fi fi
x = 39,4
12 12
md = 42,1
10 mo = 45 10
8 8
6 6
4 4
2 2
0 0

En la distribución (B) hay una asimetría (sesgo) hacia la derecha, ya que


la media es mayor que la mediana y ésta mayor que la moda. En este caso
x es afectada por algunos valores extremos altos.

La distribución (C) tiene una asimetría hacia la izquierda. La media es


menor que la mediana y ésta menor que la moda. La media es afectada
por valores extremos bajos.

En resumen

152
Media Moda
Moda
Mediana Mediana Mediana
Moda Media Media

Distribución simétrica Distribución asimétrica Distribución asimétrica hacia


hacia la derecha o la izquierda o negativa
asimétrica positiva

x = Md = M o Mo<Md< x x < Md < Mo

4.3. Coeficiente de Asimetría de Pearson

La asimetría puede medirse a través de un coeficiente. Uno de los más


utilizado es el coeficiente de asimetría de Pearson que se obtiene de la
siguiente manera:

x - MO
Sk = (39) Sk = 3 (x - Md) (40)
S S

Si Sk = 0 distribución simétrica.
Si Sk < 0 distribución asimétrica negativa.
Si Sk > 0 distribución asimétrica positiva.

Distribución A Distribución B Distribución C

S = 11,9 S = 11,2 S = 11,2

35 - 35 30,6-25 39,4-45
Sk = Sk = Sk =
11,9 11,2 11,2

Sk = 0 Sk = 0.50 Sk = -0.50

Simétrica Positiva Asimétrica negativa

153
Mientras más marcada sea la asimetría menos representativa es la
media, siendo la mediana una medida más conveniente debido a que no
recibe influencias de valores extremos.

4.4. Curtosis

La curtosis mide el grado de apuntamiento de una distribución, es decir


se mide su grado de pico.

Existen medidas para describir la curtosis que se tratan en el módulo III.


Sólo se hará referencia a que una distribución con respecto al apunta-
miento puede ser: leptocúrtica, mesocúrtica o platocúrtica.
fi

Leptocúrtica Alto apuntamiento.


“Lepto”: palabra griega que
significa “esbelto”.

fi

Mesocúrtica Apuntamiento
intermedio.
“Meso”: palabra griega que
significa “mitad”.

fi

Platocúrtica Achatada
“Platos” palabra griega que
significa “ancho” o “plano”.

154
Actividad Nº 23

Dada la siguiente distribución:

Intervalo fi

0 - 200 10
200 - 400 13
400 - 600 17
600 - 800 42
800 - 1000 18
100

a)Calcular la media, la mediana, la moda y el desvío típico.

b)Calcular e interpretar el coeficiente de asimetría.

155
EL GRÁFICO DE CAJA
Lic. ALICIA QUINTANA

Señor Supervisor, Señor INTRODUCCIÓN Paso 3: buscar la obser-


Operario: supongamos PREVIA vación que ocupa el lu-
que en sus tareas dia- gar encontrado en el
rias de trabajo haya te- Para poder iniciar el paso 2.
nido que analizar un tema, necesitamos de
conjunto de datos y se algunos conceptos pre- Como ilustración vea-
ha encontrado con la vios, a saber: mos los siguientes ejem-
presencia de unos pocos plos:
valores que le han llama- I. Mediana.
do la atención, le han II. Cuartiles. Ejemplo 1:
parecido extraños, ra- III. Rango intercuartílico.
ros, por ser muy gran- 16 18 11 13 8 11 9
des o muy pequeños en I. MEDIANA
relación al resto de los Siguiendo el esquema de
datos. El problema es La mediana (M) es el va- los pasos, ordenamos
que, tal vez, Usted no ha lor que divide al conjun- los datos de menor a
sabido qué hacer. En el to de datos ordenados mayor:
presente artículo se le de menor a mayor en
brinda una solución. dos partes iguales. O 8 9 11 11 13 16 18
sea, el 50% de los datos
El Gráfico de Caja es es inferior a M y el otro El lugar que ocupa la
una técnica estadística 50% es superior a M. mediana es (7+1)/2=4.
que se construye para Por lo tanto, la mediana
cumplir con dos objeti- Los pasos a seguir para ocupa el 4º lugar que es
vos principales: el cálculo son los si- igual a 11.
guientes:
- visualizar las caracte- Ejemplo 2:
rísticas o propiedades Paso 1: ordenar los da-
que tiene un conjunto tos de menor a mayor. 16 4 18 11 13 8 9 8
dado de datos.
Paso 2: hallar el lugar o Ordenando los datos de
- detectar la presencia posición ocupada por la menor a mayor obtene-
de valores "outliers", o mediana a través de la mos:
sea valores que resul- fórmula (n+1)/2 siendo la
tan ser sospechosos. n la cantidad de datos. 4 8 8 9 11 13 16 18

156
El lugar que ocupa la Existen varios métodos es igual a 16.
mediana es (8+1) / 2 = para calcular Q1 y Q3.
4,5. Como el lugar 4,5 A continuación se expo- Ejemplo 2:
no existe, en estos ca- nen los pasos de uno
sos, cuando la cantidad solo de ellos. El lugar que ocupa Q1
(n+1)/2 no es un núme- es (8+1)/4=2.25. Como
ro entero, procedemos Paso 1: ordenar los da- el lugar 2.25 no existe,
de la siguiente manera: tos de menor a mayor. entonces promediamos
podemos afirmar que la los valores que ocupan
mediana se encuetra Paso 2: hallar la posición 2º y 3º posición. Luego,
entre el 4º y el 5º lugar. que ocupa Q1 a través Q1= (8+8)/2=8.
Luego, la mediana será de la fórmula (n+1)/4
igual al promedio de los siendo n la cantidad de El lugar que ocupa Q3
valores, que ocupan el datos y hallar la posición es 3 (8+1)/4=6.75. Por
4º y el 5º lugar. O sea, M que ocupa Q3 a través lo tanto, prome-diamos
será igual a (9-11)/2=10. de la fórmula 3(n+1)/4. los valores que ocupan
la 6º y 7º posición. O sea,
II.- CUARTILES Paso 3: buscar la obser- Q3=(13+16)/2=14.5
vación que ocupa la po-
Se trata de valores que sición encontrada en el III. RANGO
dividen al conjunto de paso 2 para Q1 y bus- INTERCUARTILICO
datos ordenados de me- car la observación que
nor a mayor en cuatro ocupa la posición encon- El rango intercuartílico
partes iguales (o casi trada en el paso 2 para (R1) representa la dis-
iguales). Existen tres Q3. tancia entre Q1 y Q3. O
cuartiles que notaremos sea, R1=Q3-Q1.
Q1, Q2 y Q3. Como ilustración, calcu-
lemos Q1 y Q3 de los EL GRÁFICO DE
- Q1, llamado cuartil de ejemplos dados ante- CAJA. CONCEPTO.
orden 1, es tal que el riormente:
25% de los valores es El aspecto de un gráfico
inferior a él. Ejemplo 1: de caja es como el que
- Q2, llamado cuartil de se muestra en la figura 1.
orden 2, es tal que el El lugar que ocupa Q1
50% de los valores es es (7+1)/4=2. Luego, Q1 Como su nombre lo in-
inferior a él. Por lo tanto, ocupa el 2º lugar que es dica se trata de una caja
coincide con la mediana. igual a 9. rectangular de largo
- Q3, llamado cuartil de igual la rango
orden 3, es tal que el El lugar que ocupa Q3 intercuartílico. La altura
75% de los valores es es 3(7+1)/4=6. Luego de la caja es arbitraria.
inferior a él. Q3 ocupa el 6º lugar que

157
entonces la distribu-
ción de los datos es
asimétrica.
L1 Q1 M Q3 L2
EL GRAFICO DE CAJA
outlier
COMO METODO PARA
Fig. 1 LA DETECCION DE
LOS "OUTLIERS"
El lado izquierdo repre- En cuanto a su posición,
senta a Q1 y el lado de- cuanto más grandes En ocasiones, al selec-
recho a Q3. Por lo tanto, sean las observaciones, cionar una muestra, se
la caja contiene el 50% esto se manifiesta con observa que uno o más
de los datos. un desplazamiento de la de los datos parece ser
caja hacia la derecha. muy grande o muy pe-
En el interior de la caja queño en relación al res-
se dibuja una línea ver- En cuanto a su variabili- to de los datos. Tal me-
tical que representa a la dad, cuanto más disper- dición recibe el nombre
medicina. De la caja sa- sas estén las observa- de "outliers" y se presen-
len dos líneas horizon- ciones, mayor será la ta un problema. ¿Debe-
tales que llegan hasta los amplitud de la caja. mos conservarlo en la
valores limítrofes L1 y muestra o desecharlo?.
L2. L1 representa a la En cuanto a la forma de
menor observación que la distribución, podemos La presencia de outliers
es, a su vez mayor o establecer una regla ge- puede deberse a varias
igual que Q1-1.5 * R1. neral para averiguar si la causas, entre ellas:
L2 representa a la ma- distribución de los datos
yor observación que es, es simétrica o no: - a algún error de medi-
a su vez, menor que Q3 ción o registro. Estos a
+ 1.5 * R1. - Si la caja interna iz- su vez pueden ser pro-
quierda es igual a la vocados por un instru-
EL GRAFICO DE CAJA caja interna derecha (o mento de medición de-
COMO METODO PARA sea, la mediana se lo- ficiente, la misma uni-
ANALIZAR UN CON- caliza a la mitad de la dad experimental pue-
JUNTO DE DATOS. caja: entonces la distri- de estar defectuosa o
bución de los datos es tal vez el experimenta-
Permite visualizar las simétrica. dor registró equivoca-
carac-terísticias más damente la medición.
importantes de un con- - Si la caja interna iz-
junto de datos, su posi- quierda es más gran- - la presencia de un va-
ción, su variabilidad y la de que la caja interna lor muy grande o muy
forma de la distribución. derecha o viceversa, pequeño en relación al

158
resto de los datos pue- que lo produjo para de-
de tratarse de un acon- cidir su eliminación o
tecimiento que tiene conservación.
muy poca probabilidad
de ocurrir. No quiere
decir que no ocurre
nunca. De hecho, algu-
30 29 30 34 35 40
na vez ocurre.
Fig. 2
Para decidir si un
outlier debe ser des- EJEMPLO M=34 Q1=30
echado o conservado Q3=35 R1=5
en la muestra se debe- Quiero finalizar este ar-
rá investigar la causa tículo con un ejemplo Para la detección de
que lo produjo. Si se simple de construcción outliers calculamos:
debió a un error de me- de un gráfico de caja que
dición o registro se Usted puede realizar a Q1 - 1.5 * R1=30 -1.5 *
podrá eliminar de la mano pero, hoy en día, 5 =22.5
muestra. Pero si no existen software esta-
puede encontrarse una dísticos modernos que Q3 + 1.5 * R1= 35 + 1.5
razón que indique que los realizan muy eficien- *5=42.5
el outlier se debió a un temente.
error de medición o re- No existen observacio-
gistro, se ha de man- Los siguientes datos re- nes superiores a 42.5
tener en la muestra. Es presentan 15 medicio- pero si existe una obser-
peligrosa su elimina- nes del espesor de las vación inferior a 22.5 que
ción pues ese valor asas de unas latas de es el dato 20. Luego, 20
puede contener infor- pintura: es considerado un
mación importante. outlier. Para completar la
29 29 34 35 30 34 30 20 caja, debemos calcular
El gráfico de caja permi- 30 L1 y L2 que resultan ser
te detectarla la presen- 29 y 40 respectivamen-
cia de outliers de la si- 35 34 38 34 40 34 te.
guiente manera:
Siguiendo los métodos El gráfico de caja corres-
Toda observación supe- vistos en la primera par- pondiente se expone en
rior a Q3+1.5 * R1 o in- te de este artículo cal- la figura 2. Se observa
ferior a Q1 - 1.5 * R1 es culamos M, Q1, Q3 y que los datos presentan
considerada un outlier. R1: una marcada asimetría.
Luego deberá
investigarse la causa

159
FINAL

Señor Supervisor, Señor


Operario: ¿se ha dado
cuenta de la utilidad de
esta técnica?. No sólo
permite hacer resaltar
las propiedades más re-
levantes de los datos
sino que lo tranquiliza
ante la duda de conside-
rar a una medición como
outlier o no. Sólo resta
que Usted investigue la
causa que lo produjo.

Ponga esta herramien-


ta en práctica. Lo ayu-
dará a realizar su tra-
bajo con datos que re-
presentan ¡¡muy bien!!
a la población en estu-
dio.

160
Actividad Obligatoria

Los desempleados, en porcentajes

A continuación se detallan los niveles de desocupación en los 28 distri-


tos urbanos del país, más Río Negro, considerado aparte por el INDEC
como un aglomerado urbano-rural, de acuerdo con el relevamiento reali-
zado en octubre último.

DESOCUPACIÓN
1) Bahía Blanca 13,4
2) Gran La Plata 14,7
3) Mar del Plata y Batán 17,0
4) GBA y Capital 14,3
5) Catamarca 13,2
6) Corrientes 13,4
7) Gran Córdoba 16,1
8) Río Cuarto 13,1
9) Chaco (Gran Resistencia) 10,1
10) Chubut (Comodoro Rivadavia) 11,8
11) Paraná 12,2
12) Concordia 13,7
13) Formosa 6,3
14) Jujuy (San Salvador, Palpalá) 15,5
15) La Pampa (Sta. Rosa) 9,3
16) La Rioja 9,7
17) Mendoza 6,1
18) Misiones (Posadas) 4,9
19) Neuquén y Plottier 11,3
20) Salta 14,3
21) Gran San Juan 8,6
22) San Luis y El Chorrillo 11,5
23) Santa Cruz (Río Gallegos) 4,6
24) Gran Rosario 13,2
25) Sta. Fe y Sto. Tomé 16,2
26) Santiago del Estero 9,4
27) Tierra del Fuego 10,3
28) Tucumán 15,5
Río Negro 13,9

161
Con los datos del informe sobre el desempleo, efectuar los siguientes
ejercicios:

1. a) Construir un diagrama de caja.


b) Analizar la información a partir del gráfico elaborado

2. a) Organizar los datos en un diagrama de tallos y hojas.


b) Construir una tabla de frecuencias absolutas simples y una tabla
de frecuencias relativas simples.
c) Construir un histograma de frecuencias relativas.
d) A partir de la serie de frecuencias, calcular la media aritmética, la
mediana, el desvío típico y el coeficiente de variación.
e) Analizar la asimetría de la distribución.

162
UNIDAD V
TEORIA DE LAS PROBABILIDADES
1.- Introducción

Hasta ahora, se ha desarrollado una estadística descriptiva, es decir el


tratamiento de datos consistió en una descripción a través de tablas, grá-
ficas y medidas resumidas (de posición y de dispersión). Por ejemplo, un
negocio posee 100 cuentas por cobrar. Un auditor toma una muestra de
15 cuentas y obtiene la media y el desvío típico de los montos. El análisis
se limita a la muestra, sin hacer ningún tipo de generalización hacia la
población o sea a las 100 cuentas.

Si el auditor en base a los montos por cobrar de la muestra desea


estimar la media de montos de las 100 cuentas deberá utilizar métodos y
técnicas de la inferencia estadística. Toda conclusión a la que llegue el
auditor respecto a las 100 cuentas estará basado en una generalización
que es mucho más amplia que la conclusión que obtiene de las 15 cuen-
tas; pero esa generalización no es totalmente válida, el auditor debe deter-
minar “la probabilidad” de que sea verdadera. La inferencia estadística
ayuda a la toma de decisiones en condiciones de incertidumbre, ésta
incluye afirmaciones y generalizaciones sobre la “probabilidad de su vali-
dez”. En conclusión, la teoría de las probabilidades es la base de la esta-
dística inferencial (1).

El desarrollo de las teorías de las probabilidades se debe a la atención


prestada a los juegos de azar en el siglo XVII en Francia e Inglaterra (2).

2.- Conceptos básicos

Las probabilidades existen porque hay fenómenos aleatorios. Un fe-


nómeno es aleatorio cuando su ocurrencia está determinada por factores
fortuitos o por el azar. En cambio, en los fenómenos deterministas hay
seguridad de la ocurrencia o no de un hecho.

1. Levin, Richard, Estadística para Administradores. Prentice Hall.


2. Chao, Lincoln, Estadística para las Ciencias Administrativas, Mc. Graw Hill.

163
El resultado de la tirada de una moneda o de un dado es un ejemplo
clásico de un fenómeno aleatorio ya que situaciones aleatorias determina-
rán si ocurre cara o sello en la moneda o, los números 1, 2, ..., 6 en el
dado. También son ejemplos de fenómenos aleatorios el número de acci-
dentes de tránsito en una ruta, el resultado de un partido de fútbol o el
número de defectuosos de un producto en un proceso productivo.

2.1.- Evento aleatorio - Espacio muestral - Experimento

a) Evento aleatorio: es uno o varios de los resultados posibles que se


obtienen al hacer algo, es decir son los resultados conseguidos a
través de un experimento.
b) Experimento: es un proceso, operación o actividad que producen un
evento.
c) Espacio muestral: es el conjunto de todos los resultados posibles
de un experimento. El espacio muestral es un conjunto universal.

Ejemplo:

Considérese los posibles resultados al arrojar un dado:

- Espacio muestral (U) U = {1, 2, 3, 4, 5, 6}

Todos los posibles resultados


(las 6 caras del dado)

- Experimento: arrojar el dado

- Eventos o Resultados posibles: cada cara del dado.

2.2.- Eventos aleatorios simples y compuestos

Un experimento puede implicar muchos y hasta un número infinito de


resultados. Ya sea dijo que un resultado de un experimento constituye un
evento aleatorio o suceso aleatorio. Los eventos pueden ser simples o
compuestos.

164
a) Un evento aleatorio simple es el resultado de un solo ensayo en
particular.

Supóngase el experimento de tirar dos monedas para determinar la


ocurrencia del número de caras (c) o sellos (s). El espacio muestral
es:

U = {CC; CS; SC; SS},

o sea hay 4 resultados posibles. Cada uno de estos resultados es un


evento simple.

b) Un evento compuesto contiene dos o más eventos simples.

En el ejemplo anterior, los resultados de obtener por lo menos una


cara son CC; CS; SC. Esto es un evento compuesto que es un sub-
conjunto del espacio muestral porque está formado por 3 eventos
simples distintos para un mismo resultado.

Cada uno de los eventos simples constituye un punto muestral. En el


ejemplo desarrollado hay 4 puntos muestrales:

CC CS SC SS

165
Actividad Nº 24

1) Un encuestador entrevista a 4 personas para conocer si está de


acuerdo (S) o no (N) con la reelección presidencial.

a) ¿Cuántos posibles resultados hay?

b) ¿Cuál es el espacio muestral de este experimento?

2) En un establecimiento secundario, se proyecta crear el nivel superior


no universitario. Se estudian 3 posibles orientaciones: carreras de
formación docente (D), carreras de formación técnica (T) y/o carreras
de formación artística (A). Observar el diagrama e indicar la zona o
zonas de los siguientes posibles eventos.

a) que se implementen únicamente carreras técnicas,

b) que no se implementen ninguna de las 3 orientaciones,

c) que no se implementen ni carreras técnicas ni artísticas,

d) que no se implementen carreras docentes,

e) que se implementen las 3 orientaciones.

D T

5 2 6
1
3 4 8

7 A

3) En el experimento de arrojar un dado, se sabe que el espacio muestral


es U = {1,2,3,4,5 y 6}. Indicar si los siguientes eventos son simples o
compuestos.

166
a) El evento de obtener un cuatro.
b) El evento de obtener un número par.
c) El evento de obtener un número mayor que 3.
d) El evento de obtener un número menor que 2.

167
3.- Los tres enfoques de la Probabilidad

Los conceptos de probabilidad están relacionados con los 3 enfoques


diferentes: el clásico, el de frecuencia relativa y el subjetivo.

3.1.- Probabilidad clásica

La probabilidad clásica, llamada también “teórica” o “matemática”, de


que un evento ocurra se define como:

Número de resultados favorables


P (E) = (1)
Número de resultados posibles

Por ejemplo: ¿Cuál es la probabilidad de que en un mazo de naipes de


la baraja española se obtenga una sota?

4 1
P (E) = = = 0,1
40 10

- El evento (E) es obtener una sota.


- El número de resultados posibles es 40 que es la totalidad de naipes
en la baraja española.
- El número de resultados favorables es 4 ya que en la baraja hay 4
sotas.

Otro ejemplo: Un cliente de una relojería desea comprar un desperta-


dor. Tiene la posibilidad de elegir entre 300 relojes marca A, 12 marca B y
8 marca C. ¿Cuál es la probabilidad de que compre un reloj marca C?

8
P (C) = = 0,16
50

Obsérvese que en este enfoque todos los posibles resultados se cono-


cen de antemano, por eso la probabilidad clásica se denomina “probabili-

168
dad a priori”. El espacio muestral está constituido: por resultados
equiprobables puesto que cada resultado tiene la misma probabilidad de
ocurrencia. Sin embargo, no en todos los problemas se pueden indicar de
antemano las probabilidades de los experimentos, por ejemplo, la proba-
bilidad de que una persona viva hasta los 70 años, la probabilidad de que
las ventas de una empresa aumenten en los próximos tres meses, proba-
bilidad de ocurrencia de un accidente de tránsito, etc. En estos casos son
útiles los otros dos enfoques.

3.2.- Frecuencia relativa de ocurrencia

Este enfoque tiene su origen en Inglaterra durante la década de 1800


cuando los estadísticos intentaban encontrar un fundamento teórico para
calcular el riesgo de las pérdidas en los seguros de vida y comerciales,
comenzaron definiendo las probabilidades de los datos estadísticos refe-
ridos a nacimientos y muertes(3).

El enfoque de la frecuencia relativa define la probabilidad de dos mane-


ras:

a)Frecuencia relativa observada de un evento en un gran número


de ensayos. Se determinan las frecuencias de que algo ha sucedido en el
pasado y mediante esta cifra se puede estimar la probabilidad de que
nuevamente ocurrirá en el futuro. Se requiere de la observación y recopi-
lación de datos y no está implícita ninguna suposición de igualdad de
probabilidades, por ello este enfoque también se denomina “probabilidad
empírica”. Por lo tanto, de acuerdo a este enfoque, la probabilidad de que
ocurra el evento (E) es:

Número de observaciones de E n (E)


P (E) = = (2)
Tamaño de la muestra n

n (E) = frecuencia n(E)/n = frecuencia relativa

Ejemplo: Una muestra aleatoria de empresas industriales con un total


de 10.000 empleados registró 300 accidentes de trabajo en un período de

3. Levin, Richard op. cit

169
12 meses. ¿Cuál es la probabilidad de ocurrencia de accidentes de trabajo
durante este año?

300
P (E) = = 0,03
10.000

Este valor de probabilidad está calculado sobre una muestra, por eso es
una estimación del valor verdadero. Además, se hace la suposición de que
los parámetros de seguridad industrial no han variado con respecto al
período anterior en que se tomó la muestra.

b) La proporción de las veces que un evento ocurre en el largo


plazo cuando las condiciones son estables. Esta segunda caracterís-
tica de la probabilidad de frecuencia relativa indica que a más ensayo hay
mayor exactitud. Un ejemplo clásico es el lanzamiento de una moneda
correcta. La probabilidad de que ocurra cara o sello es 0,50 (1/2). Si se
arroja 50 veces, la probabilidad de cara esta lejos de 0,5. Al aumentar el
número de lanzamientos, hay una mayor estabilidad y mayor probabilidad
de acercarse a 0,50.

En resumen, si un experimento se realiza n veces con f éxitos, se supo-


ne que la frecuencia relativa f/n tiende a un límite cuando n aumenta.
Entonces, la probabilidad de éxito es:

lim f / n
n →∞

La probabilidad no está dada por este límite, lo que puede hacerse es


estimarla a partir de una muestra grande.

3.3.- Probabilidad subjetiva

Los dos enfoques anteriores dan como resultados valores de probabili-


dad objetivos porque indican la proporción o porcentaje de ocurrencia del
evento a largo plazo. En cambio, el enfoque subjetivista, la probabilidad de
un evento es el grado de confianza que tiene una persona de que ese
evento ocurra en base a la evidencia disponible, es un juicio personal. Un

170
enfoque personalista es apropiado cuando hay probabilidad de que el evento
ocurra (o no) una única vez o muy pocas veces.

Muchas decisiones administrativas para problemas particulares requie-


ren de probabilidades subjetivas ya que no existen situaciones idénticas
anteriores como referencias; de esta manera debe contar con toda la
información sobre el tema a efectos de tomar una decisión acertada.

El siguiente ejemplo ilustra muy bien este enfoque. Un juez debe decidir
si permite o no la instalación de una planta de energías nuclear en una
zona donde existe una falla geológica. Puede preguntarse cuál será la
probabilidad de que ocurra un grave accidente nuclear en ese lugar. El
hecho de que no haya frecuencia relativa de evidencia de accidentes an-
teriores en el lugar no lo exime de tomar la decisión. Deberá recopilar toda
la información posible y actuar con gran sabiduría para determinar la pro-
babilidad o no de un accidente nuclear (4).

4. Levin, Richard, op. cit.

171
Actividad Nº 25

1) Para cada uno de los siguientes casos, indicar cuál de los 3 enfoques
es el más apropiado (clásico, de frecuencia relativa o subjetiva) es el
más apropiado para determinar el valor de probabilidad.

a) La probabilidad de que Ud. efectúe un viaje a Europa este año.


b) La probabilidad de que aparezca un número par al tirar un dado.
c) La probabilidad de anotar un gol en un partido de fútbol.
d) La probabilidad de que un producto elegido al azar de un pedido
grande resulte defectuoso.
e) La probabilidad de que salga el 0 en la ruleta.

2) Elabore ejemplos de determinación de probabilidad con los tres


enfoques aplicados a problemas de la Administración o Economía.

172
4.- Axiomas de Probabilidad

Un axioma o postulado es una declaración que se acepta sin prueba. En


general, el valor de probabilidad de un evento está entre 0 y 1.

0 < P (E) < 1

De aquí se desprende que:

a) P (E) > 0: La probabilidad de cualquier evento debe ser siempre un


valor positivo. Cuando la probabilidad es cero, significa que el evento
no ocurrirá.

b) P (E) < 1: Significa que la probabilidad de un evento nunca puede ser


mayor que 1.

c) P (U) = 1: Significa que hay certeza que el evento ocurrirá. U indica el


espacio muestral que incluye todos los resultados posibles.

P (E) + P (E’) = 1

P (E) probabilidad de que ocurra el evento E.

P (E’) probabilidad de que no ocurra el evento E

por lo tanto,

P (E) = 1 - P (E’) y P (E’) = 1 - P (E)

complemento de complemento de
E E’

P (E) + P (E’) = 1

o P (E u E’) = U (conjunto universal)

173
5.- Reglas de Probabilidad
5.1.- Eventos mutuamente excluyentes y no excluyentes.
Reglas de la adición

a) Eventos mutuamente excluyentes

Dos eventos A y B son mutuamente excluyentes cuando la probabilidad


de A excluye la probabilidad de ocurrencia de B y viceversa. Esto significa
que ocurre A o B pero no ambos. Por lo tanto:

P (A o B) = P (A) + P (B)
o P (A u B) = P (A) + P (B) (3)

Esta regla se denomina regla especial de la adición. Como A y B no


tienen elementos en común, entonces A B = 0.

Ejemplos: Determinar la probabilidad de obtener una sota en un rey en


las 40 cartas de la baraja española.

P (S) = probabilidad de sota


P (R) = probabilidad de rey.

P (S o R) = P (S u R) = P (S) + P (R)
4 4 8
= = =
40 40 40
1
P (S o R) = = 0,02
5

Utilizando el diagrama de Venn

S R P (S) + P (R) = 0,20


4 4
= 0,10 = 0,10 P (otra carta) = 1 - P (S u R)
40 40
= 1 - 0,20 = 0,80
0,80

174
* La regla de la adición se puede aplicar para tres o más eventos.

b) Eventos no excluyentes

Dos eventos A y B no son mutuamente excluyentes cuando es posible


que ocurran ambos. Por ejemplo si se desea determinar la probabilidad de
obtener una sota o una carta de copa. Los eventos sota y copa pueden
ocurrir simultáneamente ya que se puede obtener una sota de copa. En-
tonces sota y copa son eventos no excluyentes. La fórmula (3) debe mo-
dificarse para evitar un conteo doble, deberá reducirse la posibilidad de
ocurrencia de sota y copa. Entonces:

P (A o B) = P (A) + P (B) - P (A y B)
o P (A u B) = P (A) + P (B) - P (A n B) (4)

Esta es la regla general de la adición. Pueden ocurrir A o B o ambos.


Recordar que si son mutuamente excluyentes (A n B) = Æ

Ejemplo: P (S) = probabilidad de sota


P (C) = probabilidad de copa

P (S o C) = P (S) + P (C) - P (S y C)
4 10 1 13
= + − =
40 40 40 40

S C
los eventos se intersectan
S parcialmente
y
C

Otros ejemplos:

- En un negocio de 40 empleados hay 8 cajeros, 20 vendedores, 7


administrativos y 5 empleados de maestranzas. 5 cajeros, 14 vendedores,
4 administrativos y 2 son empleados de maestranzas son varones.

175
Sean C = Cajero, A = Administrativo, V = vendedores, M = empleado
de maestranza, H = hombre, F = mujer.

Se elige un empleado al azar. Determinar:

a)la probabilidad de que sea vendedor o administrativo.


b)la probabilidad de que no sea vendedor.
c) la probabilidad de que sea cajero o mujer,
d)la probabilidad de que sea empleado de maestranza o varón.

a)
P (V o A) = P (V) + P (A)
20 7 27
= + = = 0,675 (eventos excluyentes)
40 40 40

b)
P (V’) = P (C) + P (A) + P (M)
8 7 5 20
= + + = = 0,50 (eventos excluyentes)
40 40 40 40

o bien:
20
P (V' ) = 1− = 0,50
40

c)
P (C o F) = P (C) + P (F) - P (C y F)
8 15 3 20
P (Cop) = + − = = 0,50 (eventos no excluyentes)
40 40 40 40

d)
P (M o H) = P (M) + P (H) - P (M y H)
5 25 2 28
P (M y H) = + − = = 0,70 (eventos no excluyentes)
40 40 40 40

- La probabilidad de que una persona invierta en acciones de la compa-


ñía A es 0,20 y en acciones de la compañía B 0,30 y en ambas A y B, 0,10.
Cuál es la probabilidad de que:

176
a)Invierta en A o en B o en ambas.
b)Invierta en A o en B pero no en ambas.
c) No invierta en ninguna de las dos.

A B

0,10 0,10 0,10

0,60

a)P (A o B) = P (A) + P (B) - P (A y B)


= 0,20 + 0,30 - 0,10 = 0,50 (sucesos no excluyentes)

b)P (A o B) = P (A o B) - P (A y B)
= 0,40 - 0,10 = 0,30 (sucesos excluyentes)

c) P (ni A ni B) = 1 - 0,40 = 0,60

177
Actividad Nº 26

1) El Sr. Gómez tiene una suma de dinero y piensa gastar el mismo en


tres cosas: en una computadora (C), en vacaciones (V) o en una
video grabadora (G). Las probabilidades de los tres eventos son
respectivamente 0,28; 0,20 y 0,35.

a) ¿Cuál es la probabilidad de que gaste el dinero en una de


estas 3 cosas?
b) ¿Cuál es la probabilidad de que gaste el dinero en otra cosa
distinta (hacer un diagrama de Venn).

2) En una caja hay 30 artículos marca X, 15 marca Y, 35 marca Z. Entre


los artículos X hay 10 defectuosos, entre los artículos Y hay 5
defectuosos y entre los de marca Z hay 8 defectuosos. Sea P (D) =
defectuoso y P (D’) = bueno.

Si se selecciona al azar un producto, cuál es la probabilidad de que:

a) Sea defectuoso
b) Sea Y o Z.
c) Sea X o defectuoso o ambos
d) Sea Z o bueno o ambos

3) Las probabilidades de que un vendedor de automóviles venda en una


semana cero, uno, dos, tres, cuatro o cinco y más automóviles son:
0,05; 0,10; 0,18; 0,25; 0,20 y 0,22 respectivamente. Cuál es la
probabilidad de que venda en una semana.

a) dos o más automóviles;


b) tres o menos automóviles.

178
5.2.- Eventos independientes y dependientes.
Reglas de la multiplicación

a) Eventos independientes

Dos eventos A y B son independientes cuando la ocurrencia de A no


afecta a la probabilidad de que ocurra B y viceversa.

Si A y B son eventos independientes, la probabilidad de A y B es igual


al producto de sus probabilidades respectivas.

P (A y B) = P (A) P (B) (5) Regla especial de la multiplicación.


o P (A n B) = P (A) P (B)

P (A B) indica que tanto A como B ocurren, por lo tanto la intersección


es una probabilidad conjunta.

Ejemplo: se arroja una moneda dos veces, cuál es la probabilidad de


que en cada tirada aparezca cara.
1 1
Se sabe que P(C) = = 0,50 ; P (S) = = 0,50
2 2

Sea C1 = evento de cara en la primera tirada.

C2 = evento de cara en la segunda tirada.

La probabilidad conjunta es:

P (C1 n C2) = P (C1) P (C2)


= (0,50) (0,50)= 0,25

Las probabilidades conjuntas se pueden mostrar a través de un diagra-


ma de árbol. Considérese el lanzamiento de una moneda.

179
1 lanzamiento 2 lanzamiento Probabilidades conjuntas

P (C1) × P (C2 ) = 0,25


P (C2 ) = 0,50
P (C1) = 0,50
P (C1) × P (S 2 ) = 0,25
P (S 2 ) = 0,50
P (S 2 ) = 0,50 P (S1) × P (S 2 ) = 0,25
P (S1) = 0,50
0,25
P (C2 ) = 0,50 P (S1) × P (C2 ) =
1

La probabilidad de cara, P (C) = 0,50 y la probabilidad de sello, P (S) =


0,50. Cada una de estas probabilidades es una probabilidad marginal o
incondicional, es decir la simple probabilidad de que ocurre un evento. Por
lo tanto, la probabilidad conjunta en condiciones de independencia esta-
dística es el producto de las probabilidades marginales.

Otro ejemplo: Considérese en una baraja española, la probabilidad de


que se obtengan una sota y luego un rey teniendo en cuenta que después
de sacar la primera carta se la repone. Por lo tanto:

P (S n R) = P (S) . P (R)
4 4 1
= × = = 0,01
40 40 100

Obsérvese que la P (R) es la misma que P(S) porque al haber reposi-


ción no está condicionada por la ocurrencia de S.

b) Eventos dependientes

Dos eventos A y B son dependientes cuando la ocurrencia de A afecta


la probabilidad de ocurrencia de B y viceversa.

Si A y B son eventos dependientes, la probabilidad de que ocurran A y


B es igual a la probabilidad de A por la probabilidad de B con la condición
de que haya ocurrido A.

P (A n B) = P (A) . P (B/A) (6)

180
P (B/A) denota la probabilidad condicional de B dado que ocurre A.

La ecuación (6) se denomina regla general de la multiplicación. Es gene-


ral porque se aplica tanto a eventos dependientes como independientes.
Si los eventos son independientes P (B/A) = P (B).

De la fórmula (6) se obtiene la probabilidad condicional P (B/A):


P (A ∩ B)
P (B/A) = (7)
P (A )

Ejemplo: Considérese el mismo ejemplo anterior de obtener una sota y


luego un rey en una baraja española, pero en este caso al sacar la primera
carta no se la repone. Por lo tanto.

P (S o R) = P (S) . P (R / S)
4 4 16 4
= × = = = 0,0103
40 39 1560 390

En este caso la P (R) si está condicionada por P (S) debido a que no


hubo reposición. Al sacar la primera carta P(S) = 4/40, al sacar la segunda
quedan 39, por lo tanto P(R/S) = 4/39.

Probabilidades conjuntas utilizando tablas de contingencias

Para determinar las probabilidades conjuntas también se pueden utilizar


una tabla de contingencia.

En la asignatura Contabilidad de la carrera de Contador Público de la


Universidad Norte se analiza el rendimiento de los alumnos de 1º año
considerando si provienen de colegios secundarios con carreras comer-
ciales o de otras carreras.

Sea: B = rendimiento bueno B’= rendimiento pobre


C = provienen de colegios de carreras comerciales.
C = provienen de colegios con otras carreras.

Se muestran las probabilidades conjuntas en la siguiente tabla:

181
CARRERA

Rendimiento C C’ Total

B 0,08 0,12 0,20

B’ 0,32 0,48 0,80

Total 0,40 0,60 1,00

- En cada celda se anotan las probabilidades conjuntas P(B n C); P


(B’n C); P (B n C’); P (B’ n C).

- El total de cada fila y de cada columna son las probabilidades marginales


P (C) = 0,60; P (C’) = 0,40; P (B)= 0,20; P (B’) = 0,80.

A través de esta tabla se puede determinar si los eventos rendimiento y


carrera son independientes o no. En este caso son independientes ya que
cada probabilidad conjunta es igual al producto de las probabilidades
marginales. Esto indica que el rendimiento no tiene nada que ver con la
carrera secundaria.

Se puede demostrar de la siguiente manera:

P (B) = 0,20

P (B n C) 0,08
P (B/C) = = = 0,20
P (C) 0,40

P (B/C) = P (B)

Supóngase que se analiza la misma situación en la Universidad Sur. Se


confeccional la siguiente tabla de contingencia o de probabilidades conjun-
tas:

182
CARRERA

Rendimiento C C’ Total

B 0,15 0,05 0,20

B’ 0,25 0,55 0,80

Total 0,40 0,60 1,00

En este caso, los eventos son dependientes, es decir que el rendimiento


si depende de la carrera. Las probabilidades conjuntas no son iguales al
producto de las probabilidades marginales.

Esta situación de dependencia se puede comprobar de la siguiente


manera:

P (B) = 0,20

P (B C) 0,15
P (B/C) = = = 0,375
P (C) 0,40

P (B/C) ≠ P (B)

Los ejemplos anteriores sirvieron para analizar la dependencia o inde-


pendencia de los eventos. En el siguiente ejemplo se verá como se confec-
ciona una tabla de contingencia.

Se presentan 100 postulantes, 40 mujeres (M) y 60 varones (V) para un


examen de admisión a distintos cargos en una empresa. De las mujeres
aprobaron (A) el 90%, mientras que el 20% de los varones desaprobaron
(D) el examen.

P (M) = 0,40 P (V) = 0,60

P (A/M) = 0,90 P (A/V) = 0,80

P (D/M) = 0,10 P (D/V) = 0,20

183
Primero se confeccionará un diagrama de árbol:

P(A/M) = 0,90 P(M) . P(A/M) = 0,40 (0,90) = 0,36

Probabilidades Conjuntas
0
= 0,4
( M) P(D/M) = 0,10 P(M) . P(D/M) = 0,40 (0,10) = 0,04
P

P( V
)=
P(A/V) = 0,80 P(V) . P(V/A) = 0,60 (0,80) = 0,48
0,6
0
0,12
P(D/V) = 0,20 P(V) . P(D/V) = 0,60 (0,20)=
1,00

Ahora se construirá una tabla:

Resultado
A D Total
Sexo

M 0,36 0,04 0,40

V 0,48 0,12 0,60

Total 0,84 0,16 1,00

Determinar

a)P (A) b) P (V n D) C) P (V/A) d) P (A/V)

e)Si sexo y calificación son independientes.

a)P (A) = 0,84 b) P (V n D) = 0,12

P (V n A) 0,48
c) P (V/A) = = = 0,57
P (A) 0,84

P (A n V) 0,48
d)P (A/V) = = = 0,80
P (V) 0,60

184
P (M n A) 0,36
e)P (M) = 0,40 P (M/A) = = = 0,43
P (A) 0,84

P (M/A) = P (M)
no son independientes.

185
Actividad Nº 27

1) Una bolsa contiene 30 tarjetas: 8 blancas, 10 rojas, 12 azules. Se


extraen dos tarjetas sin reemplazos, ¿Cuál es la probabilidad de
extraer?

a) ¿Dos tarjetas azules una después de la otra?


b) ¿Una blanca y una roja después?
c) ¿Dos del mismo color?

2) Resolver el ejercicio anterior con reposición de tarjetas.

3) Dos divisiones de productos distintos de una empresa son Alfa y


Beta. Se estima que la probabilidad de que productos Alfa tenga un
margen de utilidad del 10% este año es 0,30; la probabilidad de que
Beta tenga un margen de utilidad del 10% es 0,20 y la probabilidad de
que ambos productos tengan un margen de utilidad del 10% es 0,06:

a) ¿Cuál es la probabilidad de que ambos productos tengan la utilidad


del 10%?
b) ¿Cuál es la probabilidad de que Beta tenga el margen de utilidad
del 10% dado que Alfa alcanza ese criterio de ganancia?
c) Aplicar una prueba apropiada para determinar si el logro de
utilidades de ambos productos es estadísticamente independiente.

4) Un profesor de estadística sabe por experiencia anterior que un alumno


que estudia regularmente la asignatura tiene una probabilidad de
aprobar del 0,80, mientras que el alumno que no lo hace regularmente
tiene una probabilidad del 0,20 de aprobar. El docente sabe que el
60% de los estudiantes estudian regularmente. Si un estudiante
aprueba la asignatura, ¿cuál es la probabilidad de que haya estudiado
regularmente? Sea A = aprobó, R= Estudia regularmente.

5) La siguiente tabla de probabilidad conjunta muestra las reacciones


de los votantes ante un nuevo decreto presidencial:

186
REACCIÓN

AFILIACION A FAVOR NEUTRAL EN CONTRA TOTAL


(F) (N) (C)

P.J.(J) 0,30 0,05 0,05 0,40


UCR (R) 0,125 0,075 0,15 0,35
OTROS (O) 0,125 0,025 0,10 0,25
TOTAL 0,55 0,15 0,30 1,00

I) Con referencia a la tabla determinar las siguientes probabilidades:


a) de que el votante esté en contra,
b) de que el votante sea afiliado del P.J. y esté en contra,
c) de que el votante sea afiliado a otros partidos políticos.
d) de que el votante esté a favor del decreto dado que pertenece a
la U.C.R.
e) de que el votante sea del P.J. o de la U.C.R.
f) de que el votante sea de la U.C.R. o sea neutral.
II) ¿Son afiliación y reacción eventos independientes?

187
6.- Reglas de conteo

En el enfoque clásico para determinar la probabilidad se requiere del


número total de posibles resultados. En problemas sencillos es posible
contar todos los posibles resultados, pero en otros se necesita del uso de
los métodos de combinatoria (permutaciones, variaciones y combinacio-
nes).

6.1.- Regla de la multiplicación

Esta regla puede considerarse bajo dos situaciones:

a)Si se realizan un cierto número (n) de operaciones o actos, y cada


operación o acto puede realizarse en el mismo número de formas (k), el
número total de posibles resultados para n operaciones o actos:

(k) . (k) ... (k) = kn

Ejemplo: se lanzan 4 monedas para determinar cuántas caras salen.


Hay 4 actos y cada uno tiene dos posibles resultados (formas): cara o
sello. Entonces, el total de posibles resultados para los 3 actos es:

kn = 24 = 16 posibles resultados

Listando los resultados se tiene:

CCCC SCCC SSCS SCSC

CCCS CCSS SCSS CSCS 16

CCSC SSSS CSSS CSSC Resultados

CSCC SSSC SSCC SCCS

b)Si hay n actos u operaciones que pueden realizarse en k1, k2, .... kn
formas, respectivamente, el número total de posibles resultados diferen-
tes para los n actos u operaciones es:

188
(k1) . (k2) .... (kn)

Ejemplo: Un menú consta de 3 comidas, 2 tipos de bebidas y 2 tipos de


postres. ¿De cuántas formas posibles puede seleccionarse dicho menú?

(3) (2) (2) = 12 formas posibles

Diagrama de árbol

Comidas Bebidas Postres Resultados

P1 C1 B1 P1
B1
P2 C1 B1 P2
C1
P1 C1 B2 P1
B2
P2 C1 B2 P2

P1 C2 B1 P1
B1
P2 C2 B1 P2
C2
P1 C2 B1 P1
B2
P2 C2 B2 P2

P1 C3 B1 P1
B1
P2 C3 B1 P2
C3
P1 C3 B2 P1
B2
P2 C3 B2 P2

6.2.- Permutaciones

Una permutación es un arreglo ordenado de todos los n elementos de


un conjunto.

189
n
Pn = n (n-1) (n-2) (n-3) ... (3) (2) (1)

n
Pn = n! (8)

n! factorial de n

Si n = 0, 0! = 1

Ejemplo: Encontrar el número total de permutaciones del conjunto de


letras a b c tomadas todas a la vez.

3
P3 = 3! = 3 x 2 x 1 = 6 permutaciones

abc bac cab


acb bca cba

6.3.- Variaciones

Una variación es una forma especial de permutación. Se refiere a un


arreglo ordenado de r elementos tomados de conjunto de n elementos. Es
un arreglo de una parte de los elementos.

El número total de posibles variaciones es:


n!
V=
n r (n − r )! (9)

Ejemplo: Encontrar el número total de variaciones del conjunto de le-


tras abc tomadas de dos a la vez:

n=3 r=2
3! 3 x 2 x1
V = = = 6
3 2 (3 − 2)! 1

o 3
V2 = 3x2 = 6

6 formas posibles. Obsérvese que


ab ac bc como aquí interesa el orden, ab
ba ca cb no es lo mismo que ba-

190
Otro ejemplo: En un concurso hay 3 premios (primero, segundo y ter-
cero) para 10 participantes. ¿De cuántas formas pueden obtenerse los 3
premios?

n = 10 r = 3. Hay 10 formas de obtener el primer premio, 9 de obtener


el segundo y 8 el tercero. Por lo tanto:

V3 =
10
(10) (9) (8) = 720 formas posibles

10! (10) (9) (8) (7! )


o bien V = = = 720
10 3 (10 − 3)! 7!

6.4.- Combinaciones

Una combinación es un arreglo de r elementos tomados de un conjunto


de n elementos sin importar el orden.

El número total de posibles combinaciones es:

n!
C=
r! (n − r )!
(10)
n r

Ejemplo: Encontrar el número total de combinaciones del conjunto de


letras abc tomadas de a dos a la vez.

n=3 r=2
3! (3) (2) (1)
C = = = 3
3 3 2! (3 − 2!)! (2) (1)

ab - ac - bc ⇒ 3 formas posibles

Obsérvese que como aquí no interesa el orden ab = ba

Otro ejemplo: Entre 15 personas, se desea formar una comisión de 5


miembros. ¿De cuántas maneras posibles puede formarse dicha comisión?
15!
C = = 3.003
15 5 5! (15 − 5 )!

191
El número total de combinaciones posibles de un conjunto de n elemen-
tos tomados todos a la vez es igual a 1.

n
Cn = 1

6.5.- Aplicación de permutaciones y combinaciones para


determinar probabilidades

Sea el siguiente problema:

Una caja contiene 15 tarjetas, 6 rojas y 9 verdes. Se sacan 4 tarjetas


aleatoriamente. Determinar la probabilidad de que:

a)Sean 4 rojas o 4 verdes.


b)Sean 2 rojas y 2 verdes.

1) Se deben calcular el número total de posibles resultados


(combinaciones) de sacar 4 tarjetas entre las 15.
15!
C = = 1.365
15 4 4! 11!

2) A continuación se resuelven los puntos a y b.

a) El número de combinación de 4 rojas tomadas de las 6 tarjetas


rojas es:
6!
C= = 15
6 4 4! 2!

El número de combinaciones de 4 tarjetas verdes tomadas de las


9 verdes es:
9!
C= = 126
9 4 4! 5!

Por regla de la adición, el número total de combinaciones de 4


rojas o 4 verdes es:

6
C4 + 9
C4 = 15 + 126 = 141

192
La probabilidad de sacar 4 rojas y 4 verdes es:
C + C
6 4 9 4 141
R (4R o 4V) = = = 0,103
C 1.365
15 4

b) El número de combinaciones de 2 rojas entre 6 tarjetas de ese


color es:
6!
C= = 15
6 2 2! 4!

El número de combinaciones de 2 verdes entre 9 tarjetas de ese


color es:
9!
C= = 36
9 2 2! 7!

Por regla de la multiplicación, el número total de combinaciones


de 2 rojas y 2 verdes es:

-6C2 . 9C2 = 15 . (36) = 540

La probabilidad de sacar 2 rojas y 2 verdes es:


C ⋅ C
6 2 9 2 540
P (2R y 2V) = = = 0,396
C 1.365
15 4

193
Actividad Nº 28

1) Una prueba consiste en 10 preguntas de verdadero/falso. ¿De cuántas


formas posibles puede resolverse la prueba?

2) Un contratista de construcción ofrece casas con cinco distintos tipos


de ambientes, tres tipos de techos y dos tipos de pisos. ¿De cuántas
maneras puede elegir un comprador una casa?

3) El presidente, vicepresidente, secretario y tesorero de una determinada


asociación, se elegirán de entre 10 candidatos. Determinar el número
de maneras distintas que esos puestos pueden ocuparse.

4) Un profesor recomienda doce textos en la bibliografía de su materia.


Siete de los libros son de autores nacionales y el resto de autores
extranjeros: Si el profesor indica a los alumnos la lectura de 3 libros:

a) ¿De cuántas formas posibles pueden seleccionar 3


libros de autores nacionales o 3 de autores extranjeros;
b) ¿de cuántas formas pueden seleccionar 2 libros de autores
nacionales y 1 de autor extranjero.

5) Una compañía tiene dos puestos disponibles y los asignará eligiendo


al azar 2 personas de una lista de 2 mujeres y 2 hombres, todos ellos
con una larga trayectoria dentro de la compañía.

a) ¿Cuál es la probabilidad de que al menos una mujer sea


seleccionada?
b) Cuál es la probabilidad de que ninguna de las mujeres sea
seleccionada?

194
7.- Teorema de Bayes

La regla de Thomas Bayes (1702-1761) es una técnica para calcular


probabilidades condicionales. La importancia de Bayes radica en el uso de
probabilidades subjetivas para tomar decisiones en condiciones de incer-
tidumbre. Su interés se centró en el desarrollo de un método para encon-
trar la probabilidad de una causa específica cuando se observa un efecto
particular. El evento B ha ocurrido, cuál es la probabilidad de que la causa
sea A1 o A2.

Sea la siguiente ecuación:

P (A1) . P(B/A1) = P (B) P (A1/B)

P (A1) ⋅ P (B / A1)
P ( A 1 / B) = = (11)
P (B)

Si hay n eventos mutuamente excluyentes A1 A2,...An que pueden cau-


sar el evento B (efecto), entonces B puede ser determinado por una de las
causas, la probabilidad de que el evento B ocurra es:

P(B)= P [(A1 n B) U P (A2 n B) U....U + P (An n Bn)]

Como los eventos son mutuamente excluyentes, entonces (Ai n B) y (Aj


n B) son también mutuamente excluyentes. Por regla especial de la adi-
ción.

P(B)= P (A1 n B) + P (A2 n B) +...+ P (An n B)

Por regla general de la multiplicación:

P(B)= P (A1) P (B/A1) + P (A2) P (B\A2) +...+ P (An) P (B/An)

Sustituyendo en (11)

P (A1) . P(B/A1)
(12) P(A1/B) =
P(A1).P(B/A1)+P(A2)P(B/A2) +...+ P(An).P(B/An

195
P ( A1 n B )
P ( A1 / B ) = (13) igual a la fórmula (7)
P (B)

En resumen: Conociendo P(B/A1) puede calcularse P(A1/B).

Ejemplo: Los productos de un negocio son comprados a 3 proveedores


X, Y, Z. El 50% de los artículos se compran en X, el 30% a Y y 20% a Z. Se
sabe que X se retrasa en los pedidos el 3% de las veces, Y, el 5% de las
veces, y Z el 2%. Se recibe un pedido retrasado, cuál es la probabilidad de
que sea del proveedor Y?

R = retraso P (R/X) = 0,03 P(R/Y) = 0,05 P (R/Z)= 0,02

P (Y) . P (R/Y) P (RnY)


P(Y/R)= =
P (X). P(R/X) + P(Y) P(R/Y) + P(Z) P(R/Z) P (R)

0,50 (0,05) 0,025


= =
0,30 (0,03) + 0,50 (0,05) + 0,20 (0,02) 0,038

P(Y/R) = 0,658

Con el uso de las tablas de probabilidades conjuntas se simplifica el


cálculo de probabilidades condicionales para el teorema de Bayes.

Se constituye la tabla para el ejemplo anterior:

R = retraso R’= sin retraso

Proveedor R R’ Total
X 0,009 0,291 0,30
Y 0,025 0,475 0,50
Z 0,004 0,196 0,20
Total 0,038 0,962 1,00

196
P(Y n R) 0,025
P(Y/R) = = = 0,658
P (R) 0,38

El teorema de Bayes es, en un sentido, lo que se espera que haga el


médico al diagnosticar un paciente. El médico conoce los síntomas de
cada enfermedad P(B/Ai) y la frecuencia relativa de cada enfermedad P
(Ai). Lo que el médico observa en el paciente es un síntoma y debe deter-
minar (diagnosticar) la probabilidad de que ese paciente tenga una enfer-
medad particular, dado ese síntoma P(Ai/B) (5).

5. Mills, Richard, Estadística para Economía y Administración. Ed. Mc Graw-Hill.

197
Actividad Nº 29

1) Una vendedora a domicilio sabe por experiencia que de todas las


visitas realizadas el 15% dieron como resultado grandes ventas (G),
el 30% pequeñas ventas (S) y el 55% no fueron ventas (N). De aquellos
que hicieron grandes compras, el 75% viven en zona céntrica (C); de
los que realizaron pequeñas compras, el 50% vive en zona céntrica
y el 30% que no realizó compras vive en esa zona.

Si la siguientes visita se realiza en la zona céntrica, ¿Cuál es la


probabilidad de una gran venta? ¿Una venta pequeña?, ¿Ninguna
venta?

2) Hay 3 cajas iguales (I, II, III) que contienen alhajas de oro. La caja I
contiene un anillo, la II un reloj y dos pulseras y la III un anillo, dos
pulseras y dos relojes. Se selecciona al azar una caja y extrae una
alhaja. Si la alhaja es un reloj, cuál es la probabilidad de que provenga
de la caja I? ¿De la caja II? ¿De la caja III?

198
Ejercicios de Repaso

1) Una compañía telefónica está considerada la conveniencia de distribuir


los fondos de una campaña promocional tendiente a incrementar las
llamadas a larga distancia en una provincia. La siguiente tabla contiene
los mercados en los que, en opinión de la empresa, vale la pena
centrar las promociones:

Segmentos del mercado Costo de la Campaña

A $ 350.000
B $ 550.000
C $ 250.000
D $ 200.000
E $ 250.000

Se cuenta con $800.000 para destinarlos a esas campañas:

a) Preparar una lista mutuamente excluyente de los eventos posibles


de la decisión referente a los gastos.

b) Suponer que la compañía decidió destinar la totalidad de los


$800.000. Cambia esto la respuesta de (b)? Fundamentar.

2) De 100 postulantes que se presentaron a una empresa, 40 tenían


experiencia anterior (E) y 30 profesionales (F). Sin embargo, 20 de
los solicitantes reunían ambos requisitos y ya han sido incluidos en
los conteos anteriores.

a) Elaborar un diagrama de Venn que describa esta población.

b) ¿Cuál es la probabilidad de que un solicitante elegido al azar tenga


experiencias previa o sea profesional?

c) ¿Cuál es la probabilidad de que un solicitante tenga experiencia


previa o sea profesional pero no ambas cosas?

d) ¿Cuál es la probabilidad de que un solicitante elegido al azar sea


profesional, dado que tiene experiencia anterior?

199
3) Un canillita ofrece 3 diarios: Tribuno, Nación y Clarín. Posee 10
ejemplares del diario Tribuno, 7 del diario Nación y 4 del diario Clarín.
Un comprador adquiere 3 ejemplares, ¿Cuál es la probabilidad de que:

a) los 3 sean de distintos diarios?


b) los 3 sean del mismo diario?

4) Los empleados de una universidad fueron clasificados de acuerdo a


su edad y ocupación. Los resultados se dan en el siguiente cuadro:

X W Y Z

Edad
Ocupación 21 - 30 31 - 40 41 - 50 51 y más

Administrativo 2 24 16 17

Docentes 1 40 36 28

Personal de
Apoyo 16 20 14 2

Considerando que se selecciona un empleado al azar, obtener la


probabilidad de que el elegido:

a) Sea administrativo o tenga 51 años o más.


b) No sea docente.
c) Sea docente dado que tiene entre 41 y 50 años.

5) Un hombre de 40 años contrata un seguro diferido a 20 años. Su


mujer tiene la misma edad. Se sabe que la probabilidad de que un
hombre de 40 años sobreviva 20 años es 0,80 y la probabilidad de
que una mujer de 40 años sobreviva 20 años es 0,90. ¿Cuál es la
probabilidad de que por lo menos uno esté vivo para que cobre el
seguro?

6) Un gerente bancario estudia la relación entre la condición de empleo


al momento de un préstamo y el hecho de que si después del préstamo
se vuelve o no moroso. Elige al azar 100 cuentas, y obtiene los
siguientes resultados:

200
Condición Condición de empleo
del Total
Préstamo Con empleo (E) Sin empleo (E’)

Moroso (M) 10 8 18
No moroso (M’) 60 22 82

Total 70 30 100

a) Confeccionar una tabla de probabilidades conjuntas.


b) Obtener las siguientes probabilidades indicando el significado de
cada una:

i) P (M) iv) P (M’ o E’)


ii) P (M’ y E’) v) Son condición de préstamos y
iii) P (M / E) condición de empleo independiente.

7) De un grupo de 20 personas, 10 hablan francés (F), 8 hablan inglés


(I) de los cuales 3 también hablan francés y 5 no hablan ninguno de
estos idiomas. Se selecciona un individuo al azar.

a) ¿Cuál es la probabilidad de que hable francés?


b) ¿Cuál es la probabilidad de que hable inglés?
c) ¿Cuál es la probabilidad de que no hable ninguno de estos idiomas?
d) ¿Cuál es la probabilidad de que hable francés e inglés?
e) ¿Cuál es la probabilidad de que hable francés sabiendo que habla
inglés?
f) ¿Cuál es la probabilidad de que hable inglés sabiendo francés?
g) ¿Cuál es la probabilidad de que hable francés o inglés o ambas?

8) Sean los siguientes eventos:

A1 :la familia tiene auto.


A2 :la familia no tiene auto.
B1 :el ingreso familiar es menor que $4.000.
B2 :el ingreso familiar está entre $4.000 y $8.000.
B3 :el ingreso familiar es mayor que $8.000 y en la población bajo
estudio se tiene:

201
P (A1) = 0,70 P (B2) = 0,45 P (B3) = 0,08

P (A1 / B2) = 0,85 P (A1 / B3) = 0,90

Hallar: a) P (B3 y A1) b) P (A1 o B3)

c) P (B2 / A1) d) P (A1 /B2)

9) Para contribuir a la selección de empleados idóneos para el desempeño


de un puesto determinado, el departamento de personal toma una
prueba de aptitud a todos los solicitantes. A fin de determinar la
efectividad de la prueba, se contrastó con una muestra de solicitantes
que reprobaron y se los puso a prueba durante un lapso de tiempo
corto. Se encontró que del 30% que pasaron la prueba sólo el 80%
fueron satisfactorios y de aquellos que no pasaron la prueba, el 10%
fueron satisfactorios.

a) Determinar la probabilidad de que un solicitante sea satisfactorio


para este puesto.
b) Determinar la probabilidad de que un solicitante sea satisfactorio
habiendo sido reprobado.

10) Indicar si los siguientes enunciados son correctos o incorrectos (C o I).

a) ( ) El resultado de un experimento se llama actividad.


b) ( ) Si A y B son eventos mutuamente excluyentes, entonces
P (A B) ) =
c) ( ) La probabilidad clásica supone que todos los resultados
posibles de un experimento tienen igual probabilidad de
presentarse.
d) ( ) Si A y B son estadísticamente dependientes, entonces
P (A y B) = P (A) . P (B).
e) El teorema de Bayes es la fórmula de la probabilidad condicional
en condiciones de dependencia estadística.

202
Respuestas a los ejercicios de la Unidad V

Puntos 1 y 2

1) a) 16
SSSS, SSSN, SSNS, SNSS, NSSS, SSNN, SNNS, SNSN
b) (U) = NSNS, NNSS, NSSN, NNNS, NNSN, NSNN, SNNN, NNNN

2)a) 6 b) 8 c) 5 y 8 d) 4 - 6 - 7 y 8 e) 1

3)a) Simple; b) Compuesto; c) Compuesto; d) Compuesto.

Punto 3

1) a) Subjetiva; b) Clásica; c) Frecuencia relativa;

d) Frecuencia relativa; e) Clásica.

Puntos 4 y 5.1

1)
C V G a) P (C o V o G) = 0,83

0,28 0,20 0,35 b) P (otra cosa distinta)=


=0,17 o bien 1-0,83= 0,17

0,17

2)a) P (D) = 23/30


b) P (Y o Z) = 5/8
c) P (X o D) = 43/80 (eventos no excluyentes)
d) P (Z o D’) = 13/16 (eventos no excluyentes)

3) a) P (2 o más) = 0,85 b) P (3 o menos) = 0,33

203
Punto 5.2

1) a) P (A1 n A2) = 22/145 = 0,152

b) P (B1 n R2) = 8/87 = 0,092

c) P (A1 n B2) u P (R1 n R2) u P (A1 n A2) = 0,32

2)a) 0,16 ; b) 0,09 ; c) 0,34

3)a) P (Alfa y Beta) = 0,06

0,06
b) P (Beta/Alfa) = = 0,20
0,30

c) ¿P (Beta) = P (Beta/Alfa)?

P (Beta) = 0,20
P (Beta/Alfa) = 0,20
son independientes

P (R n A) 0,48
4)P (R/A) = = = 0,86
P (A) 0,56

5)I) a) P (C) = 0,30 b) P (J y C) = 0,05

c) P (O) = 0,25 d) P (F/R) = 0,36

e) P (J o R) = 0,75 f) P (R o N) = 0,425

II) O son independientes

Punto 6

1) kn = (2)10 = 1024

2) (5) (3) (2) = 30

204
3) V4 = 5040
10

4) a) 7C3 + 5C3 = 45 ; b) 7C2 . 5C1 = 26.


C + C C
2 1 2 2 2 1 2 2 1
C = 6 a) = = b) =
5) 4 2 C 6 3 C 6
4 2 4 2

Punto 7

1)
C C’ Total

G 0,1125 0,0375 0,15

S 0,15 0,15 0,30

N 0,165 0,385 0,55

Total 0,4275 0,5725 1,00

P (G/C) = 0,26 P (S/C) = 0,35 P (N/C) = 0,39

2) a) P (I/R) = 0 b) P (II/R) = 0,45 c) P (III/R) = 0,55

205
Ejercicios de Repaso

1) a) Hay 17 subconjuntos que pueden abarcarse con el presupuesto A


BCD E

A,C - A,D - A,E - B,C - B,D - B,E - C,D-


C,E - D,E - A,C,D - A,D,E - C,D,E-

b) Los únicos subconjuntos donde se gasta todo el presupuesto son


B,C - A,C,D - B,E - A,C,E.

2) a)

E F b) P (E o F) = 0,50

20 20 10 c) P (E o F) = 0,30

50 d) P (F \ E) = 0,50

3) a) 280/1330 = 0,21 b) 159/1330 = 0,12.

4) a) P (A o Z) = 0,41; b) P (A o S) = 0,51; c)P (D/Y) = 0,24

5) 0,98

6) a)
E E’ Total
M 0,10 0,08 0,18
M’ 0,60 0,22 0,82
Total 0,70 0.30 1,00

b) i) Prob. de moroso = 0,18


ii) Prob. de no moroso y sin empleo = 0,22
iii) Prob. de moroso dado que tiene empleo = 0,14
iv)Prob. de no moroso o sin empleo = 0,90
v) No son independientes.

206
7) I F

5 3 7

a)P (F) = 0,5


b)P (I) = 0,4
c) P (I’ n F’) = 0,25
d)P (F n I) = 0,15
e)P (F / I) = 0,375
f) P (I / F) = 0,30
g)P (F o I) = 0,75

8)
B1 B2 B3 Total
a) 0,072
A1 0,2455 0,3825 0,072 0,70
b) 0,708
A2 0,2245 0,0675 0,008 0,30
c) 0,546
Total 0,47 0,45 0,08 1,00
d) 0,85

9)a)
Satisf. (S)
0,80 0,24
Aprobaron (A)
0,30 0,06
No satisf. (S’)
0,20
Satisf. (S)
0,10 0,07
Reprobaron (R)
0,70 0,63
No Satisf. (S’)
0,90 1,00

b)P (S) = 0,31 c) P (S / R) = 0,10

10) a) I b) C c) C d) I e) C

207
208
UNIDAD VI
DISTRIBUCIÓN DE PROBABILIDADES
1.- Distribución probabilística
1.1.- Concepto de Función (6)

Se define una función como una asociación especial entre un elemento


(x) de un conjunto y un elemento (y) de otro conjunto, donde cada elemen-
to x se relaciona con uno y sólo uno de los elementos y.

x e y consideran un par ordenado (x,y). Por ejemplo, un par ordenado


(5,3) que se muestra en el siguiente gráfico. El primer elemento del par se
representa en el eje horizontal y el otro en el eje vertical.
y

5
4
3 (5.3)
2
1

x
1 2 3 4 5

Cada par ordenado está representado por un punto en el plano. Los dos
conjuntos de elementos representan a todos los posibles valores que x e
y pueden tomar; cualquier regla que defina una relación entre ellos será
una ecuación. Considérese y = x + 2; y es una función de x. Al asignar un
valor a x le corresponde uno y solo un valor de y; por ej.: x=6; y=8.

Se utiliza f para designar función y la notación funcional es f(x) (valor de


f en x). La ecuación x+2 puede expresarse como f(x) = x+2 o sea y = f(x).

1.2.- Variable aleatoria

Las letras x e y se consideran “variables”. El valor de variable y se


obtiene cuando se sustituye el valor de la variable x en la función. Enton-
ces x es la variable independiente e "y" la variable dependiente.
6. Chao, Lincoln, op. cit.

209
La mayoría de las funciones en estadística son funciones probabilísticas.
A cada evento aleatorio se le asigna un número y dicho número es “el
valor de la variable aleatoria”.

Si los valores que toma un símbolo tal como x están asociados


con los eventos aleatorios de un experimento, y depender de
ocurrencias aleatorias, a ese símbolo se le denomina“variable
aleatoria”.

Por ejemplo, sea X el número de caras al arrojar 2 monedas:

Espacio muestral Valor de la variable aleatoria (X)

SS 0 (ninguna cara)
CS 1 (una cara)
SC 1 (una cara)
CC 2 (dos caras)

1.3.- Función probabilística

Una función probabilística es una regla que asigna una fracción


probabilística a cada uno de los valores de la variable aleatoria.

La función probabilística para el número de caras al lanzar 3 monedas


es la siguiente:

Espacio muestral X P (X) probabilidad

SS 0 1/4

CS
1 2/4
SC

CC 2 1/4

1,0

210
P(x)

2/4

1/4

0 1 2 x

1.4.- Distribución probabilística

Las funciones probabilísticas también se denominan “distribuciones


probabilísticas”, ya que la probabilidad total (1 o 100%) se distribuye entre
todos los posibles valores de la variable aleatoria.

Una distribución probabilística es una distribución de probabili-


dades donde cada fracción probabilística está asociada con uno
de los posibles valores diferentes de la variable aleatoria.

De acuerdo a la naturaleza de la variable aleatoria, las distribuciones


probabilísticas pueden ser discretas o continuas (ver módulo 1).

La distribución probabilística es una distribución de frecuencias relativas


a largo plazo. La distribución probabilística es una distribución teórica mien-
tras que la distribución de frecuencias relativas es una distribución empí-
rica.

211
Actividad Nº 30

1) Cuatro tarjetas marcadas con los números 1 - 2 - 3 y 4 se colocan en


una caja y se mezclan. Sea X la variable aleatoria que indica el número
de la tarjeta que se extrae con reemplazo. Obtener la distribución
probabilística de X.

2) Un vendedor ofrece dos modelos de video grabadoras R y S. La


preferencia de ambos modelos es la misma: el 50% de los posibles
compradores prefieren R y el otro 50% prefieren S. Hay en existencia
3 videos de cada modelo y supóngase que en un sólo día se venden
3 videos:

a) ¿Cuál es la probabilidad de que en un cierto día se vendan 3


videos del mismo modelo?
b) Definir la variable aleatoria de este experimento.
c) Definir los eventos simples y sus valores correspondientes de la
variable aleatoria.
d) ¿Cuál es la distribución probabilística de X?

212
2.- Valor esperado

La media a largo plazo de una variable aleatoria x se denomina valor


esperado y se simboliza E(X).

Para una variable aleatoria discreta el valor esperado es igual a la suma


de los distintos valores multiplicados por sus probabilidades correspon-
dientes:

n
E (X) = ∑ Xi P (Xi) (14)
i=1

∑ xi P (xi) = x1 P(x2) + x2 P(x2) + ... + Xn P(xn)

El valor esperado llamado también esperanza matemática de una varia-


ble aleatoria es un promedio ponderado, donde las probabilidades corres-
pondientes son utilizadas como ponderación.

Ejemplo: En el ejemplo del lanzamiento de las 2 monedas, el valor


esperado de X es:
1 2 1
E(X) = 0 +1 + 2 =1
4 4 4

El valor esperado 1 es un promedio a largo plazo, esto significa que a


medida que el número de tiradas se acerque al infinito, el promedio de las
tiradas estarán cercano a 1.

Otro ejemplo: un inversor tiene un millón de pesos para una inversión.


X indica la cantidad de dinero con la que terminará.

X (millones) P (X)

1 0,2
2 0,3
3 0,2
4 0,2
5 0,1
1,0

213
¿Cuál es la ganancia esperada de este inversor?

E(X) = ∑ xi P (xi)
E(X) = 1 (0,2) + 2 (0,3) + 3 (0,2) + 4 (0,2) + 5 (0,1)
E(X) = 2,7 millones.

Ganancia esperada = 2,7 - 1= 1,7 millones

3.- Media y varianza de la población


3.1.- Media de la población

Ya se estudió en el módulo 3 que la media de una población ( m ) se


obtiene de la siguiente manera:

∑ xi
μ= (15)
N

Esta fórmula se empleará cuando la población sea finita. Si la población


es infinita, la fórmula anterior no puede utilizarse para el cálculo de la
media poblacional. En este caso la manera de trabajar las poblaciones
infinitas es conociendo los valores probabilísticos de cada valor de la mis-
ma, por lo tanto estas poblaciones se manejan como distribuciones
probabilísticas. La media de una población infinita se obtiene calculando la
media de la distribución probabilística.

En resumen: Cualquier distribución probabilística, continua o discreta,


se denomina distribución de la población.

Ejemplo: Se marcan 4 números (1 - 2 - 3 y 4) en un conjunto de tarjetas.


El 30% de las tarjetas están marcadas con 1; el 20% con 2; el 10% con 3
y el 40% con 4. Las tarjetas se mezclan en una bolsa, se saca una y se
anota su número. Luego se la repone, antes de sacar la siguiente y así
sucesivamente. ¿Cuál es la media de x? (Obsérvese que la población es
infinita debido a que hay reposición de las tarjetas).

x: 1 - 2 - 3 - 4 Distribución
P (x): 0,30 0,20 0,10 0,40 probabilística

214
La media de X es el valor esperado E (X)

= E(X) = 1 (0,30) + 2 (0,20) + 3 (0,10) + 4 (0,40)

E(X) = 2,6

Se calcula de esta manera debido a que cada número tiene distinta


probabilidad de salir.

En caso de que cada número tuviera la misma probabilidad de salir (1/


4) la media sería:
1 + 2 + 3 + 4 10
= = 2,5
4 4

3.2.- Varianza de la población

Si la población es finita, la varianza se calcula de la siguiente manera:

σ2 = ∑ (XI − μ)
2

(16)
N

σ = ∑ ( XI − μ )
2

Y el desvío típico (17)


N

Para una población infinita, es necesario utilizar la distribución


probabilística para obtener la varianza. La notación “promedio de” es re-
emplazado por el signo de “valor esperado” para expresar la varianza de
la población, porque el valor esperado es el promedio a largo plazo de la
variable. Por lo tanto:

s 2
= E (x - μ )2

(X - μ )2 = X2 - 2 μ X + μ 2

Entonces E (x - μ )2 = E (X2 - 2 μ X + μ 2) =

= E (X2) - E (2 μ X) + E (μ 2)

215
Como 2 μ y μ son constantes, el valor esperado del producto de una
constante por una variable es igual a la constante multiplicada por el valor
esperado de la variable o sea: E (2 μ X) = 2 μ E(X). Además E (μ2) = μ2.

Por lo tanto:

E (X -μ)2 = E (X2) - 2 μ E (X) + μ 2

= E (X2) - 2 μ μ + μ 2

= E (X2) - 2 μ 2 + μ 2

En consecuencia σ 2 = E (X2) - μ2 = ∑ x2 P (X) - μ2

Ejemplo: Obtener la varianza de x correspondiente al problema de las


tarjetas:

x P(x) x2 x2 P (x)
1 0,30 1 0,30
2 0,20 4 0,80
3 0,10 9 0,90
4 0,40 16 6,40

8,40

Recordar que μ = E (X) = 2,6


entonces:
σ 2 = X2 P (x) - μ 2

σ 2 = 8,40 - (2,6)2

σ 2 = 1,64

y el desvío típico es σ = 1,65 = 1,28

216
Actividad Nº 31

1) Una empresa está evaluando dos proyectos de inversión cuyos valores


actuales netos y tasas de retornos son iguales. No obstante, se sabe
que un proyecto es más conveniente que otro desde el punto de vista
del riesgo que está relacionado con la dispersión relativa (a mayor
dispersión, mayor riesgo). Las siguientes cantidades, expresadas en
moneda constante, corresponden a los flujos de fondos anuales de
los dos proyectos con sus respectivas probabilidades de ocurrencia.
Decidir qué proyecto es más conveniente.

Proyecto 1 Proyecto 2

Flujos Prob. Flujos Prob.

$ 1.200 0,05 $ 1.700 0,10


$ 2.800 0,15 $ 1.200 0,15
$ 1.000 0,25 $ 3.100 0,18
$ 3.000 0,35 $ 1.500 0,30
$ 2.000 0,20 $ 2.500 0,27

2) Se ha determinado que las ventas de una revista en quioscos tiene la


siguiente distribución probabilística:

Número de revistas (x) 100 - 150 - 200 - 250 - 300 - 350

P (x) 0,05 - 0,10 - 0,25 - 0,30 - 0,20 - 0,10

Calcular el valor esperado y las varianza de las ventas de la revista.

217
4.- Distribuciones de probabilidades discretas
4.1- Distribución binominal

La distribución binominal es una distribución discreta de probabilidad


que es útil en la aplicación para la toma de decisiones. El proceso de
interés describe datos resultantes de un experimento denominado proce-
so de Bernoulli. El proceso de Bernoulli es un proceso de muestreo en las
siguientes características:

a) Hay solamente dos posibles resultados que son mutuamente


excluyentes en cada ensayo u observación: éxito y fracaso (ocurrencia
o no).
b) Los ensayos son estadísticamente independientes.
c) La probabilidad de éxito (p), permanece constante de un ensayo a
otro, esto significa que el proceso es estacionaria.

Para determinar la probabilidad de un evento se requiere:

1) el número de éxitos u ocurrencias (x),


2) el número de ensayos u observaciones (n),
3) la probabilidad de éxito en cada ensayo (p)

La fórmula que se aplica es:

P ( x ÷ n÷ p) = n
Cx px qn-x (18)

q = 1-p

La obtención de la fórmula (18) se puede demostrar con el siguiente


ejemplo del número de caras (x) en el lanzamiento de 3 monedas:

218
Re sultados x Distribución probabilística P(x )
3
SSS 0 (1−p) = = 1
1 3
2 8
SSC
1 12
SCS 1 3(p ) (1−p) =3
2 2
=
3
8
CSS
SCC
2
3(p ) (1− p) = 3
2 1 1 3
CCS 2 =
2 2 8
CSC
3
CCC 2 (p) = 1 = 1 8
3
2 1

Cara Sello

p = (éxito)= 1/2 (1-p) o q (fracaso) = 1/2

Para X = 0 hay solamente un posible resultado

P (X = 0) = P (SSS)
= (1-p) (1-p) (1-p) = (1-p)3 = 1/8

Para X = 1 hay 3 posibles resultados

P (SSC) = (1-p) (1-p) . p = (1-p)2 . p

P (SCS) = (1-p) (p) (1-p) = (1-p)2 . p

P (CSS) = p (1-p) (1-p) = (1-p)2 . p

Como hay 3 posibles resultados

P (X = 1) = 3 (p) (1-p)2 = 3/8

y lo mismo para P (X = 2) y P (x = 3).

219
El total de posibles resultados para cada valor de x para una muestra de
3 elementos no es otra cosa que una combinación de x elementos entre
3 elementos.

Entonces:
X Combinaciones

0 3
C0 = 1

1 3
C1 = 3

2 3
C2 = 3

3 3
C3 = 1

Por lo tanto si tenemos:

P (x=2 ÷ n=3 ÷ p=1/2) = 3


C2 (1/2)2 (1/2) = 3/8

P (x ÷ n÷ p) = n
Cx px qn-x

La distribución binomial de este ejemplo se puede graficar de la siguien-


te manera:

P (X)

3
8
2
8
1
8
0 1 2 3 x

Ejemplo: La selección argentina de fútbol jugará 10 partidos durante


una gira. Se sabe que en la región donde se realizarán los partidos el 20%
de los días son lluviosos. ¿Cuál es la probabilidad de que 3 partidos se
jueguen bajo la lluvia?

220
x=3 n = 10 p = 0,20 q = 0,80

P (x =3 ô n =10 ô p = 0 , 2 0 ) = C3 (0,20)3 (0,80)7


10

10!
P (x = 3) = (0,20)3 (0,80)7 = 0,20133
3! 7!

Uso de las tablas

El cálculo de las probabilidades con la fórmula de la binomial resulta


tediosa sobre todo cuando n es grande. Esto se simplifica utilizando las
tablas de la distribución binomial (Tablas 1 y 2 del Anexo). La tabla 1
corresponde a las distribuciones de probabilidades individuales y la 2 a la
distribución de probabilidades acumuladas.

Para cada tamaño de la muestra se consignan los valores de probabili-


dades para cada número de éxitos (x) que se ubican en la columna y las
probabilidades de éxito (p) que se ubican en la fila. El valor de probabilidad
está en la intersección de x y p.

Sean los siguientes ejercicios utilizando el mismo ejemplo:

a) ¿Cuál es la probabilidad de que 5 partidos se jueguen en la lluvia?

P (x = 5 ⎮n =10⎮ p = 0,20) = 0,02642 según tabla 1

b) Calcular la probabilidad de que no más de dos partidos se jueguen en


la lluvia, o sea:

P (x<2 ⎮n =10⎮ p=0,20) = P (x = 0) + P (x = 1) + P (x = 2)

= 0,10737 + 0,26844 + 0,30199

= 0,6778 según tabla 1

221
En lugar de sumar las probabilidades individuales, se puede utilizar la
tabla 2 que contiene las probabilidades acumuladas:

P (x<2 ⎮n=10⎮ p=0,20) = 0,6778 según tabla 2

c) ¿Cuál es la probabilidad de que a lo sumo 4 partidos se jueguen en


la lluvia?

P (x<4 ⎮n=10⎮ p=0,20) = 0,96721 según tabla 2

d) Determinar la probabilidad de que 3 o más partidos se jueguen en la


lluvia, o sea:

P (x > 3 ⎮n=10⎮ p=0,20)

Usando la tabla 2 obtenemos la probabilidad de que hasta 2 partidos


se jueguen bajo la lluvia.

P (x< 2 ⎮n=10⎮ p=0,20) = 0,6778

por lo tanto P (x > 3) = 1 - P (x < 2)

= 1 - 0,6778 = 0,3222

Media y desviación típica en la distribución binomial

La distribución binomial tiene un valor esperado o medio ( m ) y una


desviación típica ( s ).

n = número de ensayos
m=np p = probabilidad de éxito
q = probabilidad de fracaso
s= npq 1 - p.

Ejemplo: Se sabe que el 10% de los productos fabricados por una


compañía son defectuosos.

222
Se toma una muestra aleatoria de 25 artículos, ¿cuál es el número
esperado de defectuosos (promedio de largo plazo)? ¿Cuál es la desvia-
ción típica?
μ = 25 (0,20) = 5 artículos
σ= (25) (0,20) (0,80) = 4= 2

223
Actividad Nº 32

1) En un barrio de la ciudad de Salta el 40% de las familias no tiene


teléfono. Se toma una muestra de 15 familias. Determinar la
probabilidad de que:

a) 7 familias no tengan teléfono.


b) Ninguna familia tengan teléfono.
c) A lo sumo 5 familias no tenga teléfono.
d) Por lo menos 8 familias no tengan teléfono.
e) No más de 3 familias sí tenga teléfono.
f) Entre 8 y 10 familias tengan teléfono.

2) En una empresa nueva sólo el 35% de los empleados tiene el legajo


completo. Si en un control se revisan 15 legajos, calcular μ y σ.

224
4.2.- Distribución de Poisson

Esta distribución se llama así por el francés Siméon Dennis Poisson


(1781-1840) quien desarrolló esta distribución.

Puede utilizarse la distribución de Poisson para determinar la probabili-


dad de que ocurra un número de eventos, en un continuo de tiempo o
espacio.

El proceso de Poisson es similar al proceso de Bernoulli, pero los even-


tos no ocurren en ensayos fijos, sino en un continuo (por ejemplo, en un
intervalo de tiempo), como ser la distribución de llamadas telefónicas que
están en un conmutador, la demanda de servicios de asistencia médica,
etc. Estos casos pueden ser descriptos por una variable discreta. El nú-
mero de pacientes que llega a una guardia médica en un intervalo de
tiempo será 0, 1, 2, 3 o algún número entero.

El proceso de Poisson, como el de Bernoulli es estacionario y los even-


tos son independientes.

Para determinar la probabilidad de un evento en un proceso de Poisson


sólo se requiere el número promedio a largo plazo de eventos para el
intervalo de tiempo o dimensión específica. La media se representa por la
letra griega λ (lamda). La fórmula para el cálculo de probabilidad de X
ocurrencias en la distribución de Poisson es:

x −λ
P (x ⎮ λ) = λ e (19)
X!

donde:

X: número de éxitos (u ocurrencias)


l: número medio de ocurrencias por intervalo de tiempo
e: constante 2,7183 base del sistema de logaritmos naturales.

Ejemplo: En un banco de la ciudad de Salta, en promedio cinco perso-


nas utilizan un cajero automático cada hora. ¿Cuál es la probabilidad de
que en una hora elegida aleatoriamente, 2 personas utilicen el cajero au-
tomático?

225
(5)2 (2,7183)-5
P (X=2 ôl = 5) = = 0,0842
2!

Uso de tablas

En forma alternativa, y para facilitar los cálculos, se puede utilizar la


tabla de probabilidades de Poisson (Tabla 3). En las filas se consignan los
valores de l y en las columnas el número de ocurrencias (x). La intersec-
ción de l y X indica el valor de probabilidad buscada.

Ejemplo: Considerando el ejercicio anterior, cuál es la probabilidad de


que:

a) ¿una persona utilice el cajero?


b) ¿no más de dos personas utilicen el cajero?

Utilizando la tabla 3

a) P (x = 1 ⎮ λ = 5) = 0,0337

b) P (x < 2 ⎮ λ = 5) = P (x = 0) + P (x =1) + P (x =2)


= 0,0067 + 0,0337 + 0,0842
= 0,1246

Aproximación de la distribución de Poisson a la distribución


binomial

Si el número de ensayos (n) en el proceso de Bernoulli, es grande, los


cálculos se vuelven tediosos. La distribución de Poisson puede usarse
como aproximación de la binomial si se cumplen dos requisitos:

1) n grande
2) p pequeño

Una regla para una buena aproximación es trabajar con un n > 30 y n p


< 5.

226
Ejemplo: un informe indica que en el 10% de las empresas industriales
se producen graves accidentes de trabajo. Si se toma una muestra de 30
empresas, ¿cuál es la probabilidad de que en 5 de ellas hayan ocurrido
graves accidentes de trabajo?

-Utilizando la binomial

P (x = 5 ⎮n = 30⎮ p = 0,10) = 0,10230

-Utilizando Poisson

λ = np
λ = 30 (0,10) = 3

P (x = 5 ⎮ λ = 3) = 0,1008

La diferencia entre los dos valores es de 0,0015 por lo que la aproxima-


ción es buena.

Así como λ define la media de la distribución de Poisson, la desviación


típica de esta distribución es σ= λ

227
Actividad Nº 33

1) Una tienda recibe 4,2 reclamos de clientes por semana. Determinar


la probabilidad de que en una semana elegida al azar:

a) Ningún cliente haga un reclamo.


b) No menos de 5 clientes hagan reclamos.
c) No más de 1 cliente haga un reclamo.

2) El 2% de operarios de una fábrica padecen de problemas en la vista.


En 100 operarios elegidos al azar, ¿cuál es la probabilidad de que a
lo sumo 5 tengan problemas en la vista?

228
4.3.- Distribución hipergeométrica

Cuando el muestreo es sin reemplazo para cada uno de los elementos


tomados de una población, no es aplicable el proceso de Bernoulli, ya que
hay un cambio sistemático en la probabilidad de éxito mientras se extraen
elementos de la población.

En este caso, la distribución discreta de probabilidad apropiada es la


distribución hipergeométrica.

Para la determinación de las probabilidades hipergeométricas se re-


quiere conocer:

X: número designado de éxitos


N: número de elementos de la población
T: número total de éxitos en la población
n: número de elementos de la muestra

Luego aplicar la siguiente fórmula:

N-T T
Cn - x Cx
P (x) = N
(20)
Cn

Ejemplo: Una biblioteca posee 10 textos de Estadística, de los cuales 6


son de autores extranjeros. Si se eligen al azar 5 textos, ¿cuál es la proba-
bilidad de que 2 de ellos sean de autores extranjeros?

X=2 T= 6
N = 10 n=5
10 - 6 6 4 6
4! 6!
C5 - 2 C2 C3 C2 3! 1! 2! 4!
P (x = 2) = 10
= 10
=
C5 C5 10!
5! 5!
(4) (15)
= = 0,24
252

229
Debe observarse que la distribución hipergeométrica es una aplicación
del análisis combinatorio desarrollado en el punto 6.4. Se resolverá el
ejercicio (a) que se utilizó como ejemplo en esa oportunidad utilizando la
fórmula (20).

Tarjetas rojas Tarjetas verdes

X=4 X=4
N = 15 N = 15
T=6 T=9
n=4 n=4

15 - 6 6 15 -9 9
C4 - 4 C4 C4 - 4 C4
P (4 rojas o 4 verdes) = 15
+ 15
C4 C4

9 6 6 9
C0 C4 C0 C4
= 15
+ 15
C4 C4

15 126 141
= + =
1365 1365 1365

= 0,103

230
Actividad Nº 34

1) Un producto industrial se embarca en lotes de 20 unidades. Para


reducir el número de unidades defectuosas enviados a los clientes,
se implementó un programa de inspección que consiste en tomar
una muestra de 5 unidades de cada lote y rechazar el lote si se
observa más de un artículo defectuoso. Si un lote contiene 4 artículos
defectuosos, ¿cuál es la probabilidad de que sea aceptado?

2) En el departamento de ventas de una compañía hay 15 empleados


de los cuales 10 tienen legajo incompleto. Si se controla una muestra
de 5 legajos, determinar la probabilidad de que 3 estén incompletos.

231
5.- Distribución de probabilidades continuas
5.1. Distribución Normal

5.1.1. Naturaleza e Importancia

La variable aleatoria normal es de naturaleza continua ya que su espa-


cio muestral consiste en un número infinito de valores reales y la variable
puede asumir cualquier valor de una gama de ellos.

La distribución normal es la más conocida y la más usada de las distri-


buciones teóricas. Muchas variables aleatorias parecen seguir un patrón
de distribución que es semejante a la distribución normal, como ser peso,
estatura y otras relacionadas con la producción de procesos físicos (di-
mensiones y rendimientos). Si bien no todas las poblaciones se distribu-
yen normalmente, muchas distribuciones pueden aproximarse a la normal
a medida que aumenta el tamaño de la muestra.

5.1.2.- Características

−∞ μ ∞

Figura A

Puede describirse a la distribución normal como una curva regular en


forma acampanada que está definida por la media y por la desviación
estándar de la variable aleatoria x. Es simétrica alrededor de su media; la
altura y la dispersión están dadas por la desviación estándar.

Matemáticamente puede describirse de la siguiente manera:

232
1 −1 2 [(x − μ \ σ )] 2
P(x ) = e (21)
σ 2π

para - ∞ < x < + ∞

x = valor de la variable aleatoria continua.


μ = la media o valor esperado de x
σ = desviación estándar de x
π = constante 3,1416...
e = base de los logaritmos naturales 2,718.

De acuerdo a lo expuesto, se resumen a continuación las característi-


cas de la distribución normal.

1') Como la curva normal presenta una distribución probabilística de


una variable continua es imposible referirse a algún punto en particular
sobre la curva como probabilidad de x. Para determinar probabilidades, se
deben establecer intervalos, como por ejemplo, el intervalo entre a y b
indica el área sombreada bajo la curva que proporciona la probabilidad de
que la variable aleatoria tome cualquier valor entre a y b. El área total
bajo la curva es igual a 1. La ecuación (20) se define como una función
probabilística de densidad. El término “densidad” es obtenido de la física,
donde la palabra se usa para designar “probabilidad”.

Figura B
a b
2') La curva normal tiene forma de campana. El componente exponencial
da la forma general de la curva.

3') La curva tiene un solo pico (por lo tanto es unimodal) y es simétrica


con respecto a su media ( μ ).

4') Una curva normal está definida por tres constantes (π y 2) y dos
parámetros, la μ y σ de x.

233
5') Como x es una variable continua, puede asumir cualquier valor real
entre - ∞ y + ∞. La curva normal no toca el eje de las x. Cuando, x aumenta
o disminuye apartándose de la media, la curva es asintótica al eje x.

5.1.3.- Regla de la Normal

Ya se dijo que el área bajo la curva normal es igual a 1, cualquiera sea


el valor de y el valor de . Esto significa que los valores bajo la curva son
valores de probabilidades.

Si los valores de una población se distribuyen normalmente puede apli-


carse la denomina “regla de la normal” que se enuncia a continuación.

1') Aproximadamente el 68% de los valores de una población se en-


cuentran dentro de 1 desviación estándar respecto de la media, o sea

m + 1 s = 68% de los casos.

2') Aproximadamente el 95,5% de los valores de una población se en-


cuentran dentro de 2 desviaciones estándar respecto de la media, o sea:

m + 2 s = 95,5% de los casos

3') Aproximadamente el 99,7% de los valores de una población (casi el


100%) se encuentran dentro de 3 desviaciones estándar respecto de la
media, o sea:

m + 3 s = 99,7% de los casos

68 % 95,5 %
16 % del área 16 % del área 2,25 % del área 2,25 % del área
del área del área

1σ 1σ 2σ 2σ

Figura C Figura D

234
99,7 %
15 % del área del área 15 % del área

3σ 3σ

Figura 3

Ejemplo: La distribución de los salarios de los vendedores de una tien-


da es normal con m =$300 y s =$10. El negocio cuenta con 80 vende-
dores.

Aplicando la regla de la normal, se tiene.

1') μ + 1 σ o 300 + 10 = 68% de los casos

290 < μ < 310

Aproximadamente 54 vendedores (0,68.80) tienen un salario entre 190


por 310 pesos.

2') μ + 2 σ o 300 + 2 (10) = 95,5% de los casos

280 < μ < 320

Aproximadamente 76 vendedores (0,955 x 80) tienen un salario entre


280 y 320 pesos.

3') μ + 3 σ o 300 + 3 (10) = 97,7% de los casos

270 < μ < 330

Aproximadamente 78 vendedores (0,977 x 80) tienen un salario entre


270 y 330 pesos.

235
5.1.4.- Importancia de los parámetros

Los dos parámetros, media ( μ ) y desviación típica ( σ ) determinan la


forma y ubicación de la curva normal. Si las distribuciones tienen la misma
media pero con diferentes desviaciones típicas, las curvas tienen el mis-
mo centro. Cuando σ es pequeña la curva tiende a ser leptocúrtica (alto
apuntamiento). Si es más grande la curva tiende a ser más achatada (Ver
figura F).

σ =3

σ =5 σ =5

μ = 10 μ = 18
σ =5

μ = 10 Figura G

Figura F

Cuando las distribuciones tienen la misma desviación típica, pero con


medias distintas, las formas de las curvas son iguales, pero la curva se
mueve a lo largo del eje de las x.

5.1.5.- Distribución normal estándar

Para calcular probabilidades dentro de un intervalo es necesario cono-


cer la distribución probabilística. Como hay tantas variables normales no
es práctico desarrollar una distribución probabilística distinta para cada
una. Este problema se soluciona debido a que existe una distribución
probabilística aplicable a cada una de las posibles variables normales que
se denomina “distribución normal estándar” . Esta distribución
probabilística de la variable normal estándar Z, se define como:

x-m
Z= (22)
s

236
donde:

x = valor de la variable aleatoria de interés.


μ = media de la distribución de la variable aleatoria.
σ = desviación típica de la distribución.
Z = es la diferencia entre el valor observado de X y su media, expresada
en términos de su desviación típica. El valor de Z es igual al número
de desviaciones típicas de x respecto de la media.

Considérese el ejemplo de la distribución de salarios con μ = 300 y σ =


10. ¿Cuál es la probabilidad de que un vendedor seleccionado al azar
tenga un salario mayor o igual que $320?

x = 320. Aplicando la ecuación (2) se transforma x en Z.

320 - 300
Z= = 2
10

Cambiando la pregunta, ¿Cuál es la probabilidad de que el salario de un


vendedor seleccionado aleatoriamente sea mayor o igual que 2 desviacio-
nes típicas a partir de su media?

P (x < μ ) = 0,50 P (x > μ ) = 0,50

−∞ μ ∞

Figura H

Como Z se expresa la desviación del valor observado de X a partir de la


media, el control de la distribución de Z no representa ninguna desviación,
la media de Z es igual a cero (0). Como Z está expresada en unidades de
desviaciones típicas, la desviación típica de Z es igual a 1. La distribución
se define completamente por la media 0 y el desvío típico 1. Hay una y
solamente una distribución probabilística para la variable estándar Z.

237
En el ejemplo anterior el valor 2 significa 2 desviaciones típicas por
encima de la media o bien Z es igual a 2.

Si el área bajo la curva es igual 1 (o 100%) entonces P(X > μ) = 0,50 y


P (X < μ) = 0,50.

0,4775 0,4775

280 300 320


−2σ 0 +2σ

Volviendo al ejemplo

320 - 300
Z= =2
10

Por regla de la normal μ + 2 σ = 0,955 (95,5%) de los valores. Como


la curva normal es simétrica,

μ + 2 σ = 0,4775
μ - 2 σ = 0,4775

(Ver figura)

Se pide la probabilidad de que un vendedor tenga un salario mayor o


igual a 320, o la probabilidad de que Z > 2.

P (300 a 320) = 0,4775

Z=2

P (x ≥ 320) = 0,0225

300 320

238
El valor de probabilidad entre 0 y Z o 0 y 2 es igual a 0,4775. Como P
( > 300) = 0,5, para conocer el valor de probabilidad de x > 320 o Z > 2
se debe restar 0,5 - 0,4775 = 0,0225. Esto significa que existe una proba-
bilidad de 0,0225 (o del 2,25%) que un vendedor gane un salario igual o
mayor que 320.

5.1.6.- Cálculo de probabilidades. Uso de la tabla

El valor de probabilidad para cualquier valor de x puede obtenerse usan-


do la tabla 4. La tabla proporciona los valores de probabilidad de 0 a Z.

Por ejemplo:

- Si Z = 1,50, el valor de probabilidad es 0,4332.

- Si Z = 1,56, el valor de probabilidad es 0,4406.

Las puntuaciones de Z se listan en la columna del lado izquierdo y en el


renglón superior. La columna del lado izquierdo tiene el dígito de las unida-
des y décimos, mientras que en el renglón superior se halla el dígito de los
dos centésimos.

Z 0,00 ... 0,06

1,5 0,4332 0,4406

Por ejemplo la probabilidad de que Z > 1,50 es 0,0668 (0,5 - 0,4332) y


la probabilidad de que Z < -1,56 es 0,0594 (0,5 - 0,4406).

0,4332 0,4406

0,0594
0,0668

−∞ 0 1,5 ∞ −∞ - 1,56 0 ∞

239
Con el siguiente ejercicio se analizarán distintos casos para obtener
valores de probabilidades para x con la distribución normal.

La factura mensual de teléfono por casa en una zona céntrica se distri-


buye normalmente con una media de $80 y una desviación típica de $6. Si
se selecciona aleatoriamente una factura, determinar la probabilidad de
que la misma:

a) sea de $70 y menos


b) esté entre $78,50 y $82,50;
c) esté entre $85 y $95;
d) sea de $75 de más;
e) sea igual a $90;

a)P (x < 70)


x-μ
Z=
σ

70 - 80
Z= = -1,67
70 80
- 1,67 0
Area entre 0 y -167 = 0,4525 y como
el área entre - ¥ y 0 es 0,50.

P (x < 70) = 0,50 - 0,4525 = 0,0475

b) P (78,50 < x < 82,50)


78,50 − 80
Z= = − 0,25
6
82,50 − 80
Z= = 0,42
6
μ
Area entre 0 y -0,25 = 0,0987
78,50 80 82,50

-0,25 0 0,42 Area entre 0 y 0,42 = 0,1628

P (78,50 < x < 82,50) = 0,0987 + 0,1628 = 0,2615

240
c) P (85 < x < 95)
85 - 80
Z= = 0,83
6

95 - 80
Z= = 2,5
80 85 95 6

0 0,83 2,5

Area entre 0 y 2,5 (entre 80 y 95) = 0,4938


Area entre 0 y 0,83 (entre 80 y 85) = 0,2967

P (85 < x < 95) = 0,4938 - 0,2967 = 0,1971

d) P (x > 75)

75 - 80
Z= = -0,83
6

∞ μ ∞ Area entre 0 y -0,83 = 0,2967


75 80 Area entre 0 y + = 0,50
H
-0,83 0

P (x > 75) = 0,2967 + 0,50 = 0,7967

e) P (x = 90)

Se estableció que como se trabaja con una distribución probabilística


continua es imposible determinar la probabilidad de un valor en particular,
sino que deben establecerse intervalos. En el caso de P(X = 90) se deberá
buscar P (89,5 < X < 90,5). Es el mismo caso de (c).

241
90,5 - 80
Z= = 1,75
6

89,5 - 80
Z= = 1,58
80 89,5 90,5
6

Area entre 0 y 1,75 = 0,4599


Area entre 0 y 1,58 = 0,4429

P (X = 90) = 0,4599 - 0,4429 = 0,017

5.1.7.- Aproximaciones de la Normal a otras distribuciones

Una de las importancias que la distribución normal es que puede aproxi-


marse a otras distribuciones.

Se estudiarán a continuación las aproximaciones de una distribución


continua como la normal a distribuciones discretas como la binomial y
Poisson.

I) Aproximación normal a la binomial

Cuando el número de observaciones (n) es grande, puede utilizarse la


distribución probabilística normal a las probabilidades binomial. Una regla
conveniente es la que indica que las aproximaciones son aceptables cuan-
do n>30 y np>5.

Al usar la normal como base de aproximación a la binomial.

μ = np (número promedio de éxitos u ocurrencias).

σ= npq (desviación estándar del número de éxitos).

Como la distribución normal es continua los valores de X deben ajustar-


se mediante una corrección de continuidad, ya que un evento discreto
representa un intervalo continuo desde un límite exacto superior.

242
Ejemplo: En un barrio de la ciudad de Salta el 20% de las casas no
poseen gas natural. Si se investigan 30 casas de ese barrio, cuál es la
probabilidad de que 50 más no haya gas natural.

- Se utilizará primeramente la distribución binomial.

P (X>5\n=30\p=0,20) = 0,7448

- Aproximación de la normal

n = 30 np = 30 (0,20) = 6

se cumplen los dos criterios de aproximación.

μ = np = 6 σ = npq = 30 (0,20) (0,80)

σ = 2,2

Si bien se busca P (X > 5) al utilizar la corrección de continuidad P (X > 4,5).

El evento discreto 5 casas representa el intervalo continuo entre 4,5 y 5,5.

En general: Cuando P (X > Xi) se resta


y Cuando P (X < Xi) 0,5

Cuando P (X < Xi) se suma


y cuando P (X > Xi) 0,5

En el ejercicio como P (x > xi) se resta 0,5 (5 - 0,5 = 4,5).

4,5 - 6
Z= = -0,68
2,2

Area entre 0 y -0,68 = 0,2518


Area entre 0 y + = 0,50
4,5 6

-0,68 0
P (X > 5) = 0,2518 + 0,5 = 0,7518

243
La diferencia entre el valor obtenido por la binomial y el obtenido por la
normal es solamente 0,007 por lo que la aproximación es buena.

II) Aproximación normal a la distribución de Poisson

Cuando la media de la distribución de Poisson es grande, puede aproxi-


marse la distribución normal a probabilidad de Poisson. Una regla que
indica una buena aproximación es considerar > 10.

Recordar que μ - λ y σ = λ

Ejemplo: En un banco, en promedio 10 personas utilizan el cajero auto-


mático cada hora. Determinar la probabilidad de que no más de 5 perso-
nas utilicen el cajero en una hora seleccionada al azar.

- Utilizando Poisson (tabla 3)

P (x < 5 \ λ =10) = P (X=0) + P (X=1) + P (X=2) + P (X=3) +


+ p (X=4) + P (X = 0,5)

= 0 + 0,0005 + 0,0023 + 0,0076 + 0,0189 +

+ 0,0378 = 0,0671

- Utilizando la Normal

m = λ = 10 se cumple el criterio de aproximación P(x < 5), al aplicar la


corrección de continuidad P (x>5,5), se suma 0,5 debido a que P(X < x1).

λ = 20 σ= 10 = 3,16
5,5 − 10
Z= = − 1,42
3,16
Area entre 0 y -1,42 = 0,4222
5,5 10
P (X < 5,5) = 0,5 - 0,4222 =0,0778
- 1,42 0

La diferencia entre los valores de probabilidad calculados con ambas


distribuciones es muy pequeña, lo que indica una aproximación aceptable.

244
Actividad Nº 35

1) Las exportaciones de productos agrícolas de nuestro país se


distribuyen normalmente con un promedio de 8.000 millones de dólares
anuales y un desvío típico de 1.000 millones.

Hallar:

a) P (X > 10.000)

b) P (X < 7.000)

c) P (X = 6.000)

d) P (9.000 < X < 11.000)

e) P (6.000 < X < 8.500)

f) P (X > 9.000 o X < 8.000)

2) El 20% de los clientes de un negocio son morosos. Si se toma una


muestra de 60 clientes, ¿Cuál es la probabilidad de que a lo sumo 5
sean morosos?

3) Un conmutador recibe en promedio 12 llamadas por minuto. Hallar la


probabilidad de que lleguen por lo menos 6 llamadas en un minuto.

245
5.2. Distribución exponencial

El modelo de probabilidad exponencial tiene su origen en el proceso de


Poisson. Una probabilidad de Poisson se relaciona con la probabilidad de
ocurrencia de un número específico de éxitos en una unidad especificada
finita, donde el número de éxitos es la variable aleatoria. Al invertir los
papeles de una variable de Poisson y su unidad especificada finita, se
tiene un modelo de probabilidad exponencial. Una variable "exponencial" x
es el intervalor de tiempo, o espacio requerido para obtener un número
específico de éxitos (7).

En su libro, Kazmier establece que si se presentan eventos en el contex-


to de un proceso Poisson, la longitud de tiempo o el espacio entre eventos
sucesivos tiene una "distribución exponencial de probabilidad". Al ser el
tiempo y el espacio son continuos, una medición de este tipo es una varia-
ble aleatoria continua. Para cualquier variable continua, no se pregunta,
por ejemplo, ¿"cuál es la probabilidad de que la primera solicitud de servi-
cio llegue exactamente en un minuto?, sino que se debe determinar un
intervalo dentro del cual debe ocurrir el evento; por lo tanto la pregunta
sería "¿cuál es la probabilidad de que la primera solicitud de servicio llegue
en un minuto?". La distribución exponencial se aplica cuando interesa el
tiempo (o espacio) hasta la ocurrencia del primer evento, o el tiempo entre
dos eventos sucesivos, o bien el tiempo que transcurre hasta que se
presenta el primer evento, después de cualquier punto en el tiempo elegi-
do al azar (8).

La probabilidad exponencial de que ocurra el primer evento dentro del


intervalo designado de tiempo o espacio es:


P (t < t) = 1 - e (23)

La probabilidad exponencial de que el primer evento no ocurra dentro


del intervalo designado de tiempo o espacio es:


P (T > t) = e (24)

representa el número promedio de ocurrencias para el intervalo de interés.

7. Chou, Ya Lun "Análisis Estadístico" Ed. Mc Graw-Hill


8. Kazmier, Leonard "Estadística Aplicada a la Administración y a la Economía" Serie Sahaon "Ed.
Mc. Graw-Hill"

246
Ejemplo 1

Una empresa mayorista recibe 8 pedidos de compra por hora es prome-


dio. Determinar la probabilidad de que se reciba el primer pedido dentro de
un lapso de quince minutos.

Promedio por hora = 8


= Promedio por quince minutos: 2

-2
P (T < 15') = 1 - e

= 1 - 0,13534

= 0,8647

Los valores de e-l se pueden obtener de la tabla V.

Ejemplo 2:

Considerando el ejemplo anterior, ¿cuál es la probabilidad de que el


primer pedido no llegue durante la primera hora.

λ = 8 por hora

P(T>8) = e-8

= 0,00034

El valor esperado de una distribución exponencial es E(T) = 1/ λ y la


varianza en V(T) = 1/ λ2.

247
ACTIVIDAD INTEGRADORA

En promedio, 6 personas utilizan un cajero bancario automático cada


hora. Determinar la probabilidad de que:

a) Cuando menos pasen 10 minutos entre las llegadas de dos clientes.

b) Después de que salga un cliente, no llegue otro cuando menos 20


minutos.

c) De que llegue un segundo cliente antes de que pase un minuto después


de que el primer cliente comienza su transacción bancaria?

248
Ejercicios de Repaso

1) Una empresa dedicada a la investigación de mercados efectúa una


encuesta postal sabiendo que la probabilidad de contestar es de 0,20.

Si se enviaron 20 cartas, hallar la probabilidad de:

a) 8 respuestas,
b) no más de 3 respuestas,
c) por lo menos 16 sin respuestas.

2) La DGI ha clausurado en promedio 6,4 negocios por mes. Encontrar


la probabilidad de que:

a) Ningún negocio sea clausurado durante una semana.


b) Entre 3 y 5 negocios sean clausurados durante un mes.

3) La compañía “Click” fábrica encendedores de cigarrillos. Un


componente importante de este producto es una pequeña rueda de
acero dentada que gira y crea la chispa para el encendido. Esta
rueda de acero está fabricada con un acero comprado por la compañía
"Click". La característica más importante del acero es su dureza. El
departamento de ingeniería industrial ha especificado que los lingotes
de acero deben tener una dureza de cuando menos 425 Unidades
Brinell (UB). Es también conveniente que el material sea uniforme.
Se ha decidido comprar todo este material a un solo proveedor, ya
que ello implica ahorro en costos. La lista de posibles proveedores se
redujo a dos firmas A y B.

a) La dureza media de los lingotes producidos por A es de 510,2 UB,


mientras que la dureza media de los lingotes de B es 492,8 Ub.
¿Es la calidad de B inferior a la de A? Explicar la respuesta,
aclarando cuál es la interpretación del término “calidad”.
b) La dureza de los lingotes producidos por cada proveedor está distribuida
normalmente. La desviación típica de la dureza de los lingotes de A es
53,9 UB y la desviación típica de la dureza de los lingotes de B es 31,4
Ub. ¿Qué forma presenta mayor uniformidad? Explicar.
c) ¿Cuál es la proporción de lingotes con 425 o más UB producidas
por cada proveedor?

249
d) Sobre la base de la información anterior, ¿qué firma seleccionaría
Ud? Fundamentar la respuesta.
e) ¿Qué otros factores además de la calidad, consideraría al hacer
la selección del proveedor?

4) La duración de las pilas fabricadas por la compañía “Luxor” está


normalmente distribuida con = 795 minutos y =37 minutos.

a) ¿Cuál es la probabilidad de que una pila dura entre 775 y 820


minutos?
b) ¿Cuál es la probabilidad de que una pila dure más de 800 minutos?
c) ¿Existe una probabilidad de 0,95 de que una pila dure menos de
cuántos minutos?
d) El 50% de las pilas duran entre —— y ——. Usar límites simétricos
alrededor de la media.

5) La media de las puntuaciones de los exámenes de 80 postulantes es


de 75 con un desvió típico de 8. La distribución es normal. El
departamento de personal determinó que aquellos postulantes que
hayan obtenido 60 puntos o más pasarán a una entrevista. ¿Cuántos
de ellos serán entrevistados?

250
Respuestas a los ejercicios de la Unidad VI

Punto 1

1) X: 1 2 3 4
P(X): 1/4 1/4 1/4 1/4 = 4/4 = 1

2) a) 0,25; b) Número de videos del mismo modelo.

c) Eventos simples RRR - RRS - RSR - SRR - SSR - SRS - RSS - SSS
Valor de X 1 0 0 0 0 0 0 1

d) X= 0 1

P(X)= 6/8 2/8

Punto 2 y 3

1) CV1= 38,2% - CV2= 33,51% - Conviene el 2.


2) E(X)= 240 2 = 4.150 = 64,4

Punto 4.1.

1) a) P(X=7) = 0,17708; b) P(X=0) = 0,00047; c) P(X 5) =0,40321


d) P(X 8) = 0,21311; e) P(X 3) = 0,00193; f) P(8 X 10) = 0,56962

2) = mp= 5,25 = 1,85 (Aprox. Posson a la Binamial)

Punto 4.2.

1) a) 0,0150; b) 0,4101; c) 0,078

2) 0,9834

251
Punto 5

1) a) 0,0228; b) 0,1587; c) 0,0005; d) 0,1574;


e) 0,6687
f) 0,6587

2) P(X 5,5)= 0,0179 (Aprox. Normal a la Binomial)

3) P(X 5,5)= 0,9686 (Aprox. Normal a Posson)

252
Ejercicios de Repaso

1) a) 0,02216; b) 0,41145; c) 0,62965

2) a) 0,2019 b) 0,3375

3) a) No, porque ambos cumplen las especificaciones.


b) B
c) A= 0,9429 B= 0,9846
d) B cumple con todas las condiciones
e) precio, condiciones de pago, etc.

4) a) 0,4572; b) 0,4443;

c) 855,9 minutos, d) Entre 770 y 820 minutos.

5) 78 postulantes.

253
254
APÉNDICES

255
256
Apéndice 1
Distribución Probabilisticas Binomiales

⎛ n ⎞ x n −x
Las anotaciones en la tabla son valores de ⎜⎜ ⎟⎟ p q
⎝x⎠

257
258
259
Apéndice 2
Probabilidades acumuladas para distribuciones binomiales

x ⎛ n ⎞ k n−k
CP (x ) = ∑ ⎜ ⎟p q
⎜ ⎟
k −0 ⎝k⎠

260
261
262
Apéndice 3
Probabilidades Poisson

263
264
265
266
Apéndice 4

267
l

Apéndice 5
Valores de e-λ

268
Diagrama de Contenido - Unidad VII

Errores muestrales
y no muestrales

Distribución Distribuciones
Importancia de la
en el muestreo Muestrales
muestra

269
Distribución muestral
de medias

Distribución muestral
de proporciones

Teorema del
límite central
270
UNIDAD VII
(1)
DISTRIBUCION EN EL MUESTREO
1. Introducción

Luego de haber estudiado la teoría de las probabilidades como base de


la inferencia estadística, se desarrollará la distribución en el muestreo que
es un tema fundamental para entender el proceso de inferencia estadísti-
ca.

Se analizarán los puntos básicos para el estudio de la “Estimación” y el


“Test de Hipótesis”.

2. Importancia de la muestra

En la unidad I (módulo 1) se expusieron algunas características impor-


tantes de una muestra. Se hizo referencia a la necesidad de que una
muestra debe ser representativa para que pueda ser usada con fines de
realizar inferencias acerca de la población.

Los métodos para seleccionar muestras son muchos, dependiendo del


objetivo del estudio, del tiempo, del dinero y de la naturaleza de los ele-
mentos individuales de la población. En este módulo no se desarrollará
este tema, sino que el mismo será investigado por el alumno a través de
la guía propuesta en las actividades de pág. 17. No obstante, se hará la
diferencia entre “muestras probabilísticas” y “muestras no probabilísticas”.

Una muestra “probabilística” es aquella en la que los sujetos de la mues-


tra se eligen sobre la base de probabilidades conocidas. En cambio, una
muestra “no probabilística” está basada en los puntos de vista subjetivos
de una persona que utiliza su conocimiento y su opinión para identificar los
elementos de la población que serán incluidos en una muestra, por ello se
denomina también “muestreo de juicio”.

Las muestras probabilísticas son preferidas porque la selección de los


elementos es objetiva y el error muestral puede ser medido en términos

1 Shao, Stephen: "Estadística para Economía y Administración de Empresas", Herrero Hnos.

271
de probabilidad. Si bien una muestra de juicio es fácil de obtenerla y su
costo es bajo, no permite medir el error muestral.

Recuérdese que los valores que describen características de la mues-


tra se denominan “estadígrafos” y los valores que describen característi-
cas de una población se denominan “parámetros”. Los símbolos a utilizar
son:

Medida Muestra Población


(Estadígrafo) (Parámetro)

Media x μ
Desviación típica s σ
Proporción p p
Números de elementos n N

3. Error muestral

La diferencia entre el resultado obtenido de una muestra y el resultado


el cual deberíamos haber obtenido de la población se llama “error muestral”.
El error muestral es medido por el error estándar del estadígrafo, en tér-
minos de probabilidad, bajo la curva normal (ver punto 5). Esta medida
indica “la precisión” de la estimación de la población basada en una mues-
tra. Mientras más pequeño sea el error muestral, mayor precisión hay en
la estimación.

Debe hacerse notar que hay errores que se cometen en las encuestas,
en las tabulaciones de datos, en los cálculos, etc. que no son debidos a la
muestra por eso se denominan errores “no muestrales”.

4. Distribución en el muestreo

Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de


la población (N), pueden extraerse dos o más muestras de la misma po-
blación. De cada muestra, puede ser calculado un estadígrafo. Una distri-
bución del estadígrafo obtenida de las muestras se denomina “distribución
en el muestreo del estadígrafo”. Por ejemplo, de una población de tamaño

272
3, con los elementos A, B y C, es posible extraer 3 muestras de tamaño 2
(sin reposición). Si se calcula la media de cada muestra, habrá 3 medias
muestrales. Estas 3 medidas forman una distribución que se denomina
“distribución de medias muestrales” o “distribución muestral de medias”.

5. Error estándar

La desviación estándar de una distribución muestral de un estadígrafo,


se denomina “error estándar del estadígrafo”. Por ejemplo, la desviación
típica de la distribución muestral de medias se denomina “error estándar
de la media”.

La “desviación estándar” se refiere a los valores originales, mientras que


el “error estándar” se refiere a valores calculados. Los estadígrafos son
valores calculados a partir de una muestra.

6. Distribución muestral de medias

Tómese como ejemplo, esta población finital pequeña compuesta por


los jornales de 4 trabajadores de una empresa industrial.

Trabajador A B C D

Jornal ($) 2 5 6 3

∑ x i = 16 4 = $4
La media es μ =
N

La desviación típica es σ =
∑ ( x − μ )2
= $ 1,58
N

A continuación se obtendrá todas las muestras posibles de tamaño 2 y


se calculará la media para cada una (El muestreo es sin reposición).
4!
C = C = 2! 2! = 6 combinaciones posibles
n r 4 2

273
Muestras Jornales Medias muestrales

A-B 2- 5 3,5
A-C 2- 6 4,0
A-D 2- 3 2,5
B-C 5- 6 5,5
B-D 5- 3 4,0
C-D 6- 3 4,5

24,0

El total de las 6 medias muestrales es 24, por lo tanto, la media de las


medias muestrales es:
X = 24 6 = $4

Esta media es igual a la media de la población.

Las medias muestrales pueden presentarse en la siguiente distribución:

Medias Muestrales (X) Número de medias muestrales (f)

2,5 1
3,5 1
4,0 2
4,5 1
5,5 1
6

La media de esta distribución puede calcularse:


24
X= = $4
6

El desvío típico de la distribución muestral de medias (Simbolizado por


σx) se puede obtener por la fórmula:

∑ x2 f 10 − 1
σx = − x2 = − 42 ; σ x = 0,83 = 0,91
n 6

274
El desvío típico obtenido es el “error estándar de la media”, que en la
práctica se calcula por:
σ
σx = (1)
n

Si la población es finita, se agrega el factor de corrección, o sea:

σ N−n
σx = (2)
n N −1

En el ejemplo σ = 1,58 ; N = 4 ; n= 2

1,58 4−2
σx = = 0,91
2 4 −1

En resumen:

La distribución de las medias obtenidas de todas la muestras posibles,


se denomina distribución muestral de medias. La media de esta distribu-
ción es igual a la media poblacional y la desviación típica es igual al error
estándar de la media. El error estándar disminuye a medida que aumenta
el tamaño de la muestra.

7. Distribución muestral de proporciones

La distribución en el muestreo de la proporción es un conjunto de pro-


porciones de todas las muestras posibles del mismo tamaño, extraídas de
una población.

Hay 4 empleados en una empresa, A, B, C y D. Los empleados A y B son


profesionales universitarios; C y D son no profesionales. Supóngase los 4
empleados como una población.

Desígnese con el valor 1 a un profesional y con 0 a un no profesional.

275
Empleado X La proporción de los profesionales es

A 1
2
B 1 p= = 0,50 Parámetro y el desvío típico:
4
C 0
D 0
2 σ = p.q = 0,50(0,50) = 0,50

Se obtendrán todas las muestras posibles (sin reposición) de tamaño 3


y se calculará la proporción de profesionales.

Muestra Proporción muestral


ABC 2/3 = 0,67
ABD 2/3 = 0,67
ACD 1/3 = 0,33
BCD 1/3 = 0,33
2,00

La media de las proporciones muestrales es:


2,00
p= = 0,50 ==== igual a la proporción
4
de la población.

El error estándar de la proporción obtenida por la fórmula 22 (Módulo 3) es:

σp = 0,17

El cálculo del error estándar de la proporción se simplifica por:

p.q p.q N − n
(3) σp = n
o σp = −
n N −1
(4)

para poblaciones
finitas
0,50(0,50) 4 − 3
σp = 3 4 −1
= 0,17

276
8. Teorema del límite central

Como resulta impracticable obtener todas las medias muestrales la dis-


tribución normal se utiliza para aproximar las probabilidades de las medias
muestrales en un a distribución muestral. La normalidad de la distribución
muestral de medias queda establecida en el “teorema del límite central”
cuyo enunciado dice:

- Si una población es bastante grande y está normalmente distribuida,


la distribución de las medias muestrales también será normal.
- Si una población no está normalmente distribuida, la distribución
muestral de medias se aproximará a una distribución normal si el
tamaño es suficientemente grande.

La distribución normal de las medias muestrales tiene una media igual a


E(X) y el error estándar σx. Si se desconocen los valores de μ y σx, pueden
estimarse a partir de X y S. El erro estándar estimado a partir de S, se
obtiene por:
S
S= (5)
n

Ejemplo:

La media de las cuentas a cobrar de 1.500 clientes en una tienda es de


$250 y una desviación típica de $45. ¿Cuál es la probabilidad de seleccio-
nar una muestra aleatoria de 100 cuentas con una media de $260 y más?

x −μ x −μ
Z= = (6)
σx σ n

260 − 250 10
Z= = = 2,22
45 100 4,5

Area entre 0 y 2,22 = 0,486


0,50 - 0,4868 = 0,0132
P (X ³ $ 260) = 0,0132

250 260

277
Cuando N es grande y el tamaño de la muestra n, es pequeña, el factor
de corrección
N−n
N −1

se aproxima a 1, por lo tanto puede obviarse y utilizar sólo


σ p.q
σx = o σp =
n n

según corresponda para el cálculo del error estándar.

278
Actividad Nº 36

1) Contestar las siguientes preguntas:

a) ¿Cuáles son las principales características de una muestra?


b) ¿Qué diferencia hay entre un parámetro y un estadígrafo?
c) ¿Qué diferencia hay entre error muestral y erro no muestral?
d) ¿A qué se denomina distribución en el muestreo?
e) ¿Qué mide el error estándar? ¿Cómo se obtiene este error?
f) ¿Por qué es importante el teorema del límite central?

2) Las pólizas vendidas por 5 vendedores de seguros durante un período


dado son:

Vendedor A B C D E
Pólizas Vendidas 2 3 4 5 1

I) Considerar los 5 vendedores como una población.


a) Obtener la media aritmética y la desviación típica.

II) Elegir todas las muestras posibles de tamaño 2 (sin reposición).


a) Obtener las medias de todas las muestras posibles.
b) Construir un a distribución muestral de medias.
c) Obtener la media de la distribución muestral y el error estándar
de la media.

3) Con los datos de la población del ejercicio (2), elegir todas las muestras
posibles de tamaño 3 (sin reposición) y realizar las mismas actividades
consignadas en el punto II.

4) La duración promedio de 2.000 baterías producidas por una compañía


es de 38 meses y una desviación típica es de 8 meses. ¿Cuál es la
probabilidad de seleccionar una muestra al azar de 50 baterías con
una duración de por lo menos 35 meses?

5) De 50.000 familias en una ciudad, el 30% no tiene televisión por


cable. Determinar la probabilidad de seleccionar una muestra aleatoria
de 500 familias con una proporción de 33% o más.

279
6) Consultar la bibliografía consignada en el programa y desarrollar la
siguiente guía de estudio sobre el tema Métodos de Muestreo.

a) Efectúe una lectura global sobre el tema de referencia.


b) Lea atentamente el tema "Muestras Probabilísticas".
b.1. Conteste: a qué se denomina "muestra probabilística".
b.2. Cuáles son los 4 tipos de muestras probabilísticas?
c) Lea el tema "Muestreo Simple al Azar".
c.1. Explique el procedimiento de este tipo de muestreo.
c.2. Supóngase que los 70 alumnos de una carrera reciben núme-
ros de identificación del 01 al 70. Se desea entrevistar a 10 de
ellos eligiéndolos aleatoriamente. Utilizando la tabla de núme-
ros aleatorios, cuáles serán los seleccionados? (Ver Anexo I)
c.3. ¿Cuáles son las principales ventajas y desventajas de este
tipo de muestreo?
d. Lea el tema sobre "Muestreo sistemático"
d.1. Explique el procedimiento de este tipo de muestreo.
d.2. ¿Cómo seleccionaría la muestra del punto c.2. por este mé-
todo?
d.3. ¿Cuáles son las ventajas y desventajas del muestreo siste-
mático?
e. Lea el tema "Muestreo Estratificado".
e.1. Explique en qué consiste este diseño de muestra.
e.2. Supóngase que de un total de 1.000 empleados de una gran
compañía, se desea obtener una muestra de 100 para una
investigación. El número total de empleados se distribuye
según su instrucción.

Instrucción Nº de Trabajadores

Primaria 50
Secundaria 500
Superior No Univ. 150
Superior Univ. 300

1.000

a) ¿Cómo seleccionaría la muestra estratificada proporcional?


b) ¿Cómo seleccionaría la muestra estratificada no proporcional?
c) ¿Cuál de las dos es más apropiada?

280
e.3. Señale ventajas y desventajas de este diseño de muestra.
f. Lea el tema "Muestreo por Conglomerados"
f.1. ¿En qué consiste este tipo de muestreo?
f.2. ¿Qué diferencias hay con el muestreo estratificado?
f.3. Determine ventajas y desventajas.
g. Lea el tema "Muestras no Probabilísticas".
g.1. A qué se denomina "muestras no probabilísticas?
g.2. Explique cuál es la diferencia con las muestras probabilísticas?
g.3. Señale, en general, ventajas y desventajas.

281
Respuestas a los ejercicios de la Unidad VII

1) Consultar el marco teórico del módulo y de la bibliografía.

2) I) μ = 3 σ = 1,41

II) a) 10 muestras

b) Media 1,5 2,0 2,5 3,0 3,5 4,0 4,5


Nº de muestras 1 1 2 2 2 1 1 = 10

c) Media: 3 pólizas Error estándar de la media = 0,87

3)a) 10 muestras

b) Media 2,0 2,33 2,67 3,0 3,33 3,67 4,0


Nº de muestras 1 1 2 2 2 1 1 = 10

c) Media: 3 pólizas Error estándar de la media = 0,58

4) P (X ³ 35 meses) = 0,9960

5) P (X ³ 0,33) = 0,0668

282
Diagrama de Contenido - Unidad VIII

TEORÍA CLÁSICA
DE LA ESTIMACIÓN

Tipos de Propiedades
Estimador y
estimación de un buen
Estimación
estimador

283
^ Puntual

^ Por intervalo
Nivel e Intervalo de Confianza

Estimaciones para muestras grandes:


- Estimación de la Media Poblacional
- Estimación de la Proporción de la Población
- Estimación de la Diferencia de dos medias
284
UNIDAD VIII

TEORÍA CLÁSICA DE LA ESTIMACIÓN


1. Introducción

Por lo general, los parámetros de la población son desconocidos y se


hace necesario estimarlos a partir de valores muestrales (estadígrafos).
El empresario recurre a las estimaciones por cuanto sus decisiones se
basan en una información incompleta y con una gran incertidumbre. La
estimación, una de las bases de la inferencia estadística, permitirá la ge-
neralización respecto de las características de la población a partir de la
información de las muestras.

2. Estimador y Estimación

- Un estimador es un estadígrafo con el cual se estima un parámetro


poblacional. La media muestral (X), por ejemplo, puede ser un estimador
para la media población (m).

- Estimación es un valor específico observado de un estadígrafo.


Supóngase que se toma una muestra de focos y se prueban para
determinar la duración media que es X = 4.000 hs. Si nos servimos de
este valor específico para estimar la duración media de todos los focos,
el valor 4.000 hs. será una estimación.

3. Tipos de Estimaciones

Una estimación de un parámetro puede ser expresada de dos maneras:


“por punto” y “por intervalo”.

- Una estimación puntual es un número único que se utiliza para estimar


el parámetro. Si en el ejemplo anterior se afirma que la duración media
de los focos es de 4.000 hs., se está haciendo una estimación puntual.
Este tipo de estimación es insuficiente ya que hay un acierto o una
equivocación. Si la estimación de 4.000 hs. es equivocada, no se conoce
el grado de error y no hay seguridad de la confiabilidad de la estimación.

285
Si el margen es de solamente de 50 hs., 4.000 hs. puede ser una
buena estimación, pero si el error es de 500 hs., se rechazará como
estimación. Esta estimación debe incluir una estimación del error (2).

- “La estimación por intervalos” es una gama o recorrida de valores


dentro del cual se puede esperar que esté el parámetro. Si la estimación
de la duración de los focos se expresa como entre 3.950 hs. y 4.050
hs., es una estimación por intervalo. Este tipo de estimación indica el
error por el grado de su intervalo y por la probabilidad de que el
verdadero parámetro se encuentre dentro de él.

4. Propiedades de un buen estimador

La calidad de un estadígrafo como estimador se puede evaluar de acuerdo


a los siguientes criterios:

a) Insesgabilidad. Se dice que un estadígrafo es un estimador insesgado


de la población si el valor esperado de su distribución muestral es
igual al parámetro poblacional.

X es un estimador insesgado de μ, ya que E(X) = μ


p es un estimador insesgado de P, ya que E(p) = P

b) Consistente . Debido al error de muestreo, un estimador,


generalmente, no es idéntico al parámetro a estimar. Un estimador
es consistente si al aumentar el tamaño de la muestra, se logra una
seguridad casi absoluta de que el valor del estadígrafo se acerca
mucho más al valor del parámetro de la población.

c) Eficiencia. La eficiencia hace referencia al tamaño del error estándar


del estadígrafo. Un estimador es más eficiente que otro si el primero
tiene un error estándar menor. Un estimador con esta propiedad
tiene mayor probabilidad de lograr una estimación más cercana al
parámetro poblacional.

d) Suficiencia. Un estimador es suficiente si utiliza la información de la


muestra, de modo tal que ningún otro estimador proporcione más
información de esta muestra referente al parámetro de la población.
2. Levin, Richard, "Estadística para Administración". Ed. Prentice-Hall.

286
5. Estimaciones puntuales

La media muestral es el mejor estimador de μ. Cumple con todas las


propiedades mencionadas en el punto anterior. Si la muestra es grande su
distribución muestral puede aproximarse a una distribución normal. Al
conocer la distribución muestral de X se puede realizar una estimación
basada en la muestra.

Recordar que la X se obtiene con la fórmula ya conocida:

x=
∑ xi
n

En cuanto a la varianza, se utilizó la siguiente fórmula al estudiar las


medidas de dispersión (unidad IV).

∑ (x − x )
2

s =
2
n
Pero al utilizar S2 como estimador de σ2, la fórmula anterior se vuelve:

∑ (x − x )
2

s = n −1
2
(7)

Al usar n-1, se obtiene un estimador insesgado de s. Si se hubiera


trabajado sólo con n, el valor tendría algún sesgo.

Ejemplo: Una compañía desea conocer el número de pólizas vendidas


durante por los vendedores. Obtiene los siguientes datos durante una
semana con una muestra de 20 vendedores.

1 2 2 3 3 3 4 4 5 5
5 6 6 7 8 8 9 10 10 10

111
x= = 5,6 S 2 = 8,26 S= 8,26 = 2,9
20

287
Actividad Nº 37

Ejercicios - Puntos 1 al 5

1) Contestar las siguientes preguntas:

a) Diferenciar entre “estimador” y “estimación”.


b) Explicar la ventaja que tiene una estimación por intervalo sobre el
estimación puntual.

2) Indicar si los siguientes enunciados son correctos (C) o incorrectos


(I).

a) ____Se dice que un estimador es eficiente del parámetro


poblacional, con un tamaño creciente de la muestra, se tiene casi
la certidumbre de que el valor del estadístico se acerca más al
parámetro poblacional.

b) ____El intervalo es una gama de valores que se usan para estimar


la forma de la distribución de una población.

c) ____Cuando se elige un estimador del parámetro poblacional, la


propiedad más importante para evaluar su calidad es la
insesgabilidad.

3) El propietario de una sala de espectáculos está considerando la


posibilidad de ampliar su capacidad y necesita conocer el número
promedio de personas que asisten a los distintos espectáculos y la
variación de dicho número. La asistencia a 9 espectáculos
seleccionados, aleatoriamente (en miles) fue:

13,0 8,5 14 20,5 7,6 12,5 20,6 14,2 10,2

Obtener las estimaciones puntuales de la media y la varianza de la


población.

288
6. Estimación por intervalo
6.1 Introducción

Ya se definió en el punto 3 que la estimación por intervalo indica un


grado de error. Si se estima la duración media de los focos fabricados por
una compañía, se puede seleccionar una muestra de 300 unidades a
través de un control de calidad cuya X = 4.000 hs. Se sabe que la desvia-
ción típica de la población es de 1.500 hs.

Si se utiliza X para estimar μ , se hace necesario un dato sobre la


incertidumbre que acompaña a esta estimación, o sea establecer un inter-
valo donde posiblemente se encuentre la media poblacional desconocida.
Por lo expresado, se necesita obtener “el error estándar de la media”.

Por el teorema del límite central, la distribución muestral de medias se


aproxima a una distribución normal. Recuérdese que la dispersión de la
distribución muestral se mide a través del error estándar. Como n = 300 es
una muestra bastante grande, se puede aplicar el teorema de referencia.

El error estándar de la media es:


σ 1500
σx = = = 86,6 hs.
n 300

Ese resultado es el error estándar que acompaña a la estimación. Es


decir, la duración media verdadera de todos los focos puede estar en el
intervalo entre 3.913,4 y 4.086,6. No obstante, falta determinar la proba-
bilidad de que la verdadera duración de los focos se halle en el intervalo.

Por regla de la normal (Unidad VII) hay una probabilidad de 0,683 de que
la media de una muestra de tamaño 300 se encuentre dentro de un error
estándar positivo y negativo de μ . En otras palabras el 68,3% de todas las
medias muestrales se encuentra a un error estándar positivo o negativo
de m . En el ejemplo de la duración de focos, hay una confianza del 68,3%
de que la duración se encuentre en el intervalo 3.913,4 o 4.086,6 (4.000
± 1 σ ). Análogamente:

- 3.826,9 a 4.173,2 hs. con el 95,5% de confianza (4.000 ± 2 σ).

- 3.740,2 a 4.259,8 hs. con el 99,7% de confianza (4.000 ± 3 σ).

289
6.2 Nivel e Intervalo de Confianza

- La probabilidad asociada a una estimación por intervalo se denomina


nivel de confianza. Por ejemplo 80%; 90%; 95%; 99% y otros. El nivel de
confianza se expresa como 1 - α .

- El intervalo de confianza es la estimación, es decir el recorrido den-


tro del cual se espera que se encuentre el parámetro. Como estamos
trabajando con una distribución normal estándar, la diferencia entre el
valor de x y su media, expresada en términos de su desviación típica está
dada por z. El valor de z es igual al número de desviaciones típicas. Por lo
tanto, los intervalos de confianza se expresan como:

x + zsx límite superior de intervalo de confianza

x - zsx límite inferior de intervalo de confianza

Si se estima la duración media de los focos con 90%(*) el intervalo de


confianza es:

4000 + 1,64 (86,6) = 3.858 a 4.142

(*) Para 1 - a = 90%, z = 1,64 (ver la tabla)

Una proporción 1 - a del área bajo la curva normal estándar queda entre
-z a /2 y z a /2.

Si 1 - α = 90% α = 0,10 y α / 2 = 0,05.

1−α
α/2 0,005 0,90 α/2 0,005

Ζα/2 σx Ζα/2 σx
μ
− Ζα/2 0 + Ζα/2

Interpretación

La estimación obtenida anteriormente no significa que haya una proba-


bilidad de 0,90 de que la duración media de todos los focos se encuentre
dentro del intervalo establecido, sino que debe interpretarse así:

290
“Si se seleccionan muchas muestras aleatorias de tamaño 300 y se
calcula el intervalo de confianza de todas esas muestras, en el 90% de
ellas, la media de la población se encuentra dentro de ese intervalo”.

Valores de z para los coeficientes de confianza más utilizados:

1-α 50% 68,27% 90% 95% 95,45% 99% 99,73%

z 0,6745 1,00 1,645 1,96 2,00 2,58 3,00

6.3 Cálculo de Estimaciones por intervalos para muestras grandes

6.3.1 Estimación de una media poblacional

Si se conoce el desvío estándar de la población, el error estándar se


calcula como:
σx
σx =
n

por lo tanto el intervalo de confianza para estimar m se obtiene de la


siguiente manera:

x − z α / 2 σx < μ < x + z α / 2 . σx (8)

Si el desvío estándar de la población se desconoce, se utiliza el desvío


estándar de la muestra, S para estimar σ.

De acuerdo a lo estudiado en el punto 5 de la unidad, se estima por:

∑ (x − x )
2
S=
n

En este caso, el error estándar de la media se obtiene:


S
Sx = (9)
n

siendo los límites de confianza x + Sx

291
Ejemplo: El Dpto. de Personal de una empresa está interesada en es-
timar el número promedio de días que los empleados faltaron por razones
particulares. Un análisis de los legajos de 49 trabajadores elegidos al azar
dio una media de 12 días. Si el desvío estándar poblacional es de 2,5 días,
determinar el intervalo de confianza del 95% para el verdadero promedio.

x±z
12 ± 1,96 (2,5 / 49)
12 ± 1,96 (0,36)

11,3 ≤ μ ≤ 12,7

Determinación del tamaño de la muestra para la estimación

En la distribución normal

μ ± z σx = μ ± E y E = z

E = es el error muestral o sea la diferencia entre x y μ

En el problema anterior E = 1,96 (0,36) = 0,7


σ z.σ
E = z. y n=
n E
⎛ z . σ2 ⎞
n = ⎜⎜ ⎟
⎟ (10)
⎝ E ⎠

donde:

E: error muestral máxima que se acepta.


z: se establece mediante el nivel de confianza.
σ: desvío estándar de la población que si se desconoce se puede estimar
por σ.

Ejemplo: Supóngase que el Jefe de Personal desea estimar la media de


inasistencia utilizado la misma desviación típica y con el mismo nivel de
confianza pero acepta como error máximo 0,5. El tamaño de la muestra
que deberá elegir es:

292
(1,96)2 . (2,5)2
n= = 96,04 = 96 trabajadores
(0,5)2

6.3.2 Estimación de la proporción de la población

Para construir un intervalo de confianza para estimar la proporción


poblacional se debe utilizar la distribución binomial. Como los cálculos de
probabilidades binomiales son complejos, se puede aproximar por medio
de una distribución normal que puede servir para aproximar la distribución
muestral. Para aproximarse debe cumplir que:

n ≥ 30 y np ≥ 5, donde μ = np y σ = n.p.q

La proporción de éxitos en la muestra se expresa por p. Como np es


igual al número medio de éxitos, se divide np entre n para obtener sólo a
proporción p. La media de la distribución muestral de proporciones es:

μp = p

Análogamente, se modifica la desviación típica dividiendo n.p.q entre


n para convertir número de éxitos en proporción de éxitos. La desviación
estándar de la proporción de éxitos se representa por:
p.q
σp = error estándar de la proporción
n

Si se desconoce la proporción de la población:


p.q
Sp = (11)
n

Por lo tanto el intervalo de confianza para estimar la proporción de la


población p es;
p − z α / 2 . σp ≤ p ≤ p + z α / 2 σp (12)

Si se desconoce la proporción de la población:


p ± z α / 2 Sp

293
Ejemplo: Otro problema del jefe del personal es estimar la verdadera
proporción de legajos de los empleados que están incompletos. Elige una
muestra de 50 legajos y encuentra 14 incompletos. Determinar el intervalo
de confianza del 99% para p.
14
p= = 0,28
50
p + z α / 2 . Sp

0,28 (0,72)
0,28 ± 2,58 .
50
0,12 ≤ p ≤ 0,44

Determinación del tamaño de la muestra para estimar la proporción de


la población
p.q p.q E
E = z σp = z . o =
n n z

donde:
p . q E2
= 2
n z

z2 .p . q
n= (13)
E2

Ejemplo: Supóngase que para la estimación del ejercicio anterior, el


jefe desea un error no mayor de 0,10. El tamaño de la muestra será:
(2,58)2 . (0,28) . (0,72)
n= 2
= 134,2
(0,10)

n = 134 legajos

294
6.3.3 Estimación de la diferencia entre dos medias

Si dos medias muestrales x1 y x2 son independientes, el procedimiento


para construir el intervalo de confianza para δ (delta), verdadera entre las
dos medias poblaciones μ1 y μ2 es similar a los anteriores.

D − z α / 2 . σD ≤ δ ≤ D + z α / 2 . σ2 (13)

Siendo D = x1 - x2

σD = error estándar de la diferencia de medias

σ12 σ 22
σD = + (15)
n1 n2

se puede estimar a partir de S2 cuando se desconoce la varianza de la


población.

Ejemplo: se desde estimar la verdadera diferencia de medias en la


duración de dos marcas de baterías. Se obtiene los siguientes datos.

Marca A Marca B
Tamaño de la muestra n1 = 100 n2 = 100
Media muestral x1 = 38 meses x2 = 35 meses
Varianza poblacional σ12 = 36 meses σ12 = 25 meses

Obtener el intervalo de confianza del 95% para δ, verdadera diferencia


de las dos medias:

σ12 σ 22
D + zα / 2 + D = 38 − 35 = 3
n1 n2

36 25
3± 1,96 +
100 100

3 ± 1,96 (0,78)

1,5 ≤ δ ≤ 4,5 meses

295
Actividad Nº 38

Ejercicios del punto 6

1. Una fábrica de golosinas desea estimar el peso medio de los paquetes


de caramelos envasados automáticamente por una máquina. De la
producción de un día se sacó una muestra de 120 paquetes y se
obtuvo una media de 855 gramos y un desvío típico de 47 gramos.
Estimar m con un nivel de confianza de 99%.

2. La oficina de Extensión Universitaria de una Universidad desea estimar


la proporción de ingresantes que estudiarán carreras humanistas.
Selecciona aleatoriamente una muestra 80 fichas de inscripción y
encontró que 12 ingresantes estudiarán dichas carreras. Estimar p
con un nivel de confianza de 95%.

3. Un examen estándar se aplica a un grupo de estudiantes de nivel


superior universitario y a un grupo de estudiantes de nivel superior no
universitario. Se obtienen los siguientes docentes:

Sup. Univ. Sup. No Univ.


Muestra n1 = 72 n2 = 36
Puntuación media x1 = 84 x2 = 80
Varianza σ12 = 40 σ12 = 64

Determinar el intervalo de confianza del 90% para la verdadera


diferencia de medias entre las puntuaciones medias de ambos grupos
de estudiantes.

4. Supóngase que es la estimación de ejercicio 1, se pretende que el


error de la estimación no sea mayor a 3 gramos. ¿Cuál debe ser el
tamaño de la muestra para dicha estimación?

5. Si en el ejercicio 2, se desea un error máximo de 2,5%, ¿cuál debe


ser el tamaño de la muestra para la estimación?

6. Se realiza un estudio sobre el ingreso de los operarios de una gran


compañía metalúrgica. Una muestra de 100 operarios dio como
resultado ingreso medio de $520 y una desviación típica de $30. De

296
esos 100 trabajadores, se encontró que 20, tenían un ingreso menor
a $350.

a) Estimar con el 95% de confianza, la verdadera media de ingreso


de todos los operarios.

b) Estimar con el 95% de confianza, la verdadera proporción de


operarios con ingresos menores de $350.

297
Respuestas a los ejercicios de la Unidad VIII

Puntos 1 al 5

1) Consultar el marco teórico del módulo.

2) a) I ; b) I ; c) I

3) μ = 13,5 σ = 4,6

Punto 6

1) 843,9 ≤ μ ≤ 866,1

2) 0,07 ≤ p ≤ 0,23

3) 1,49 ≤ δ ≤ 6,51

4) n = 16,34

5) n = 784

6) a. 514,12 ≤ μ ≤ 525,88

b. 0,12 ≤ p ≤ 0,28

298
TEST DE
PRUEBAS DE HIPOTESIS PRUEBAS DE
HIPÓTESIS HIPÓTESIS

MUESTRAS
PEQUEÑAS

MUESTRAS
Distribución t GRANDES
PROCEDIMIENTO
DE LA PRUEBA
DE HIPÓTESIS

299
Características Prueba de una
media poblacional

Inferencia
estadística
Prueba de
proporción
de la población
Pruebas para la media
Diagrama de Contenidos - Unidad IX

poblacional y para la
diferencia de medias Prueba de la
diferencia de
Estimaciones de la media dos medias
poblacional y de la
diferencia de medias
300
UNIDAD IX
TEST DE HIPOTESIS
1. Generalidades

Una hipótesis estadística es una declaración tentativa acerca del valor


del parámetro de una población. Mediante las pruebas de hipótesis se
pueden tomar decisiones sobre una media poblacional, sobre una propor-
ción de la población o cualquier otro parámetro, basándose en la informa-
ción proporcionada por una muestra. La afirmación es tentativa debido a
que los verdaderos valores de los parámetros se desconocen.

2. Procedimiento de las pruebas de hipótesis

Los pasos esenciales en este procedimiento son:

(1) Identificación de la distribución de la población

Es necesario conocer la distribución teórica de la variable aleatoria que


se estudia, ya que la decisión sobre la hipótesis se toma en base a las
probabilidades de ocurrencias.

Cualquier procedimiento estadístico que requiere identificar la distribu-


ción probabilística se denomina “enfoque paramétrico”, de lo contrario se
denomina “enfoque no paramétrico”.

(2) Planteamiento de las hipótesis

Se confrontan dos tipos de hipótesis: a) la “hipótesis nula” que se simbo-


liza por H0 y b) la “hipótesis alternativa” simbolizada por H1.

La hipótesis nula es una declaración tentativa de que el parámetro de la


población es igual a un valor específico. El nombre de “nula” expresa la
idea de que “no hay diferencia”. Por ejemplo;

H0: μ = 10

301
La hipótesis alternativa es una afirmación tentativa de que el parámetro
de la población tiene un valor diferente del especificado en la hipótesis
nula:

H1: μ = 10

El valor de H1 se obtiene a partir de una muestra que se utiliza para


apoyar este hipótesis. Obsérvese que H1 se planteó “como distinto”, esto
significa que si los datos muestrales muestran un valor muy bajo o un valor
muy alto se rechaza H0. Como la hipótesis alternativa no indica la dirección
de la diferencia, esta prueba se denomina de “dos colas o de dos extre-
mos”.

H1 puede especificar una sola dirección, es decir una alternativa unilateral.

H1: μ > 10 o H1: μ < 10

En estos casos, H0 se rechaza solo si el valor muestral indica un valor


muy alto (H1 > 10) o solo si el valor de la muestra es muy bajo (H1 < 10).
Como aquí se especifica la dirección, la prueba se denomina “un extremo”
o “de una cola”.

(3) Especificación del nivel de significación

La finalidad de un test de hipótesis no es poner en tela de juicio el valor


de un estadígrafo, sino emitir un juicio sobre “la diferencia” que hay entre
ese valor y el supuesto parámetro poblacional. El nivel de significación es
el estándar estadístico que se determina para rechazar H0. Si se especi-
fica, por ejemplo, un nivel del 5%, entonces se rechaza H0 sólo si el resul-
tado muestral es tan diferente del valor hipotético que una diferencia de
esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabili-
dad del 0,05 o menos.

Al usar un nivel de significación del 5%, existe una probabilidad del 0,05
de rechazar H0 si ésta es verdadera. Este error se denomina de “tipo I” que
es siempre igual al nivel de significación.

El error de tipo I se simboliza por α (alfa)

Se incurre en error de tipo II si se acepta H0 siendo falsa. Este error se


simboliza por β (beta).

302
(4) Planteo de la regla de decisión

Para tener un criterio de decisión se requiere establecer:

a) el estadístico de prueba y
b) la región crítica.

a) El estadístico de prueba es una variable aleatoria, cuyo valor se


utiliza para decidir de rechazar o aceptar H0. Un estadígrafo muestral
como la media aritmética, la puntuación z o cualquier otra variable
pueden ser estadísticos de prueba.

b) La región crítica es el conjunto de valores para el estadístico de


prueba que llevará el rechazo de H0.

Desde luego, la región de no rechazo es el conjunto de valores para el


estadístico de prueba que llevará a aceptar H0. Ambas regiones están
separadas por un valor crítico (C).

1-α

μ c

región de aceptación valor crítico región de rechazo

Las reglas de decisión pueden ser:

α/2 α/2 α α

-c μ c μ c c μ

303
Rechazar H0 si el Rechazar H0 si el Rechazar H0 si el
valor del estadísti valor del estadís- valor del estadís
co de prueba es tico de prueba es tico de prueba es
≥ que C o ≤ que C ≥ que C. ≤ que C
(Test de dos colas) (Test de una cola) (Test de una cola)

(5) Toma de decisiones

La decisión de aceptar o rechazar H0 lleva a cuatro posibles resultados:

- Si H 0 es verdadera y se rechaza, se comete error de tipo I. La


probabilidad de cometer este error es α .

- Si H0 es verdadera y se acepta la decisión es correcta y la probabilidad


de tomar esta decisión es 1- α .

- Si H0 es falsa y se acepta, se comete error de tipo II. La probabilidad


de cometer este tipo de error se denomina β.

- Si H0 es falsa y se rechaza la decisión es correcta. La probabilidad de


tomar este decisión es 1- β.

En resumen:

H0 H0
Decisión Verdadera Falsa

Error de Decisión
Rechazar H0 tipo I (α) correcta (1- β)

Decisión Error de
Aceptar H0 correcta (1- α) tipo II (β)

Debe tenerse cuenta que los dos tipos de error están relacionados
inversamente. En los gráficos se representan las áreas de α y β.

Cuando α disminuye, la recta vertical se traslada hacia la derecha, au-


menta el área de β. Cuando la recta vertical se traslada hacia la izquierda,
α aumenta a medida que el área de β disminuye.

304
α

μ0

μ1

α está comprendida sólo cuando H0 es verdadera.

β está comprendida sólo cuando H1 es verdadera.

3. Hipótesis exactas e inexactas

Una hipótesis es exacta cuando se especifica un valor único para el


parámetro poblacional:

Ejemplo: H0 : μ = 100 H1: μ = 90

Una hipótesis es inexacta cuando se especifica un conjunto de valores


que puede tomar el parámetro:

Ejemplo: H0: μ ≥ 100 H μ < 100

4. Pruebas de hipótesis con muestras grandes


4.1 Prueba de una media poblacional

El gerente de una compañía de teléfonos asegura que el importe medio


de las facturas por el servicio de uso familiares a lo sumo de $90. La
distribución de los importes es normal con = $ 25. La oficina de facturación
eligió al azar 100 facturas y encontró una media de $98. Con un nivel de
significación del 5%, probar la aseveración del gerente.

305
1 La distribución en normal.

2 Las hipótesis quedan planteadas así:

H0: μ ≤ 90
H1: μ > 90

3 α = 0,05. El valor crítico z es 1,645 que es el valor normal estándar.

4 Regla de decisión

Se utilizará como estadístico de prueba, la puntuación z.


Rechazar H0 si z ≥ 1,645

0 1,645
x − μ0
z=
σ/ n

98 − 90
z= = 3,2 Como Z > 1,645 se rechaza H0 es decir
25 / 100
la afirmación del gerente.

Se puede utilizar también como estadístico de prueba, la media crítica


XCR .
X CR = μ 0 ± z σ x (16)

XCR 90 + 1,645 (2,5) = 94,11

90 94,11

306
Rechazar H0 si X es mayor que la media crítica.

Como la media muestral 98 es mayor que X CR se rechaza H0

Desde luego, empleando cualquiera de los dos estadísticos de prueba


lleva a la misma decisión.

4.2 Prueba de la proporción de la población

Un gerente de comercialización sostiene que el 80% de los cliente de la


empresa están conforme con un nuevo servicio que brinda la compañía.
Una consultora entrevistó a 200 clientes y 148 de ellos están conformes
con el servicio. Probar la hipótesis de que la proporción es menor con α =
0,01.

148
H0: p = 0,80 p= = 0,74
200
H1: p 0,80

α = 0,01 - z crítico = - 2,33 Rechazar H0 si z ≤ - 2,33

p −p
z=
p.q
n

-2,33 0

0,74 − 0,80
z= = − 2,12
0,80(0,20)
200

Se acepta H0 ya que z > - 2,33.

307
4.3 Prueba para la diferencia de medias

Esta prueba tiene como finalidad decidir si la diferencia entre dos me-
dias obtenidas de muestras independientes es lo suficientemente grande
que indiquen que las muestras se tomaron a partir de poblaciones distin-
tas o si dicha diferencia es tan pequeña que se debe al azar. La H0 de
interés no sólo se refiere a que las medias muestrales se obtuvieron de
poblaciones con medias iguales, sino que las dos muestras se obtuvieron
de la misma población. Esto significa que σ1 = σ2.

Las hipótesis se plantean de la siguiente manera:

H0: μ1 - μ2 = 0 ó μ1 = μ2

H1: μ1 - μ2 ≠ 0 ó μ1 ≠ μ2

El estadístico de prueba utilizando la puntuación z es:

( − ) − (μ1 − μ 2)
z = x1 x 2
σD

Como μ1 - μ2 = 0 , entonces:


z = x1 x 2 (17) D = x1 − x 2
σD

Recordar que el error estándar de la diferencia de medias es:

σD = σ1 + σ2
2 2

n1 n2

Ejemplo: se desea probar si la duración promedio de las baterías mar-


ca A es igual a la duración promedio de las baterías marca B. Con este
propósito se toman de 100 baterías de cada marca, cuyas medias son xA
= 38 meses y xB= 35 meses. Las varianzas poblacionales son respectiva-
mente σA2 = 36 meses y σB2 = 25 meses. Utilizar α = 0,05.

308
H0: μ1 = μ2 (no hay diferencias en las duraciones de ambas marcas).

H1: μ1 ≠ μ2 (si existe diferencias entre las duraciones de A y B).

La prueba es de dos colas. Con α =0,05, el valor crítico en 1,96.

Rechazar H0 si z ³ 1,96 ó
z £ -1,96

-1,96 1,96

Aplicando el estadístico de prueba:


38 − 35 3 3
z= = =
36 25 0,61 0,78
+
100 100

z = 3,85

Como z es > 3,84, se rechaza H0, las duraciones de A y B son distintas.

El problema anterior se podría haber planteado como prueba de una


cola si se deseaba probar que la duración de A es mayor que la de B.
Entonces:

H0 : μ1 = μ2 H1: μ1 > μ2

El valor crítico es 1,645. Como z > 1,645, se rechaza H0 y se concluye


que la duración de las baterías A es mayor que B.

5. Error de tipo II. Curva Característica Operativa y Curva


de Potencia de Contraste

Ya se estableció que β es el error de tipo II, o sea la probabilidad de


aceptar H0 cuando es falsa. En el problema del punto 4.1, la regla de
decisión era:

309
Rechazar H0 si z ³ 1,645. Esta regla puede replantearse como:

Aceptar H0 si z < 1,645.

Para obtener β es necesario trabajar con la media crítica, o sea x CR =


94,11.

Aceptar H0 si la media muestral es menor que 94,11.

1- α
0,95

90 94,11

0.06 1-α
0,94

94,11 98

β = P (x < 94,11 / μ = 98)

94,11− 98
z= = − 1,56
2,5

Area entre 0 y -1,56 = 0,4406

Area entre 0 y -∞ = 0,50

0,5 - 0,4406 = 0,0594 = 0,06

P (error de tipo II) = 0,06

por lo tanto 1 - β = 1 - 0,06 = 0,94

El valor 0,06 indica, entonces, la probabilidad de aceptar H0 cuando H1


es verdadera es decir μ = 98.

El valor 0,94 significa la probabilidad de rechazar correctamente H0. El


valor 1- β se denomina “potencia de contraste” o “potencia de prueba”.

310
Al mantener constantes el nivel de significación y el tamaño de muestra
de la muestra, β disminuye a medida el valor de la media alternativa se
aleja del valor de H0. Esta probabilidad aumenta al acercarse el valor
alternativo al valor de H0. La probabilidad de aceptar H0 con diversos va-
lores alternativos de la media verdadera se puede graficar mediante una
curva denominada “de característica operativa” (CO).

Para el ejemplo anterior, considérense los siguientes valores alternati-


vos de 92; 95; 98 y 100.

92 94,11

94,11− 92
z= = 0,84 Area entre 0 y 0,84 = 0,2995
2,5

β = P (x ≤ 94,11) = 0,50 + 0,2995 = 0,7995 = 0,80

1 - β = 1 - 0,80 = 0,20

94,11 95
94,11− 95
z= = − 0,36 Area entre 0 y − 0,36 = 0,1406
2,5

β = P (x ≤ 94,11) = 0,50 - 0,1406 = 0,3594 = 0,36

1 - β = 1 - 0,36 = 0,64

311
94,11 98

94,11− 98
z= = − 1,56 Area entre 0 y − 1,56 = 0,4406
2,5

β = P (x < 94,11) = 0,50 - 0,4406 = 0,0594 = 0,06

1 - β = 1 - 0,06 = 0,94

94,11 100

94,11− 100
z= = − −2,36 Area entre 0 y − 2,36 = 0,4909
2,5

β = P (x < 94,11) = 0,5 - 0,4909 = 0,0091 = 0,01

1- β = 1- 0,01 = 0,99

Valor de μ β= valor de CO 1- β = Potencia

90 0,95 0,05
92 0,80 0,20
95 0,36 0,64
98 0,06 0,94
100 0,01 0,99

β = Probabilidad de aceptación de H0

1 - β = Probabilidad de rechazo de H0.

312
La curva CO queda graficada de la siguiente forma:

β
1.00

0.50

0
90 91 92 93 94 95 96 97 98 99 100 µ

Rechazar H0 cuando es falsa significa decidir correctamente un valor


alto de 1- β de muestra que la prueba está funcionando bien (ya que se
rechaza H0 cuando es falsa). Si 1 - β es bajo significa que la prueba no
funciona bien, puesto que no está rechazando H0 cuando es falsa.

El valor 1- β mide la eficacia de la prueba, es por ello que se denomina


“potencia de contraste” o “poder de la prueba”. La curva de potencia de
contraste muestra la probabilidad de rechazar H0 con distintos valores de
la media verdadera.

β
1-

90 92 95 98 100 µ

313
Valores críticos para los niveles de significación más utilizados

a 0,10 0,05 0,01

z crítico (1 cola) 1,28 1,645 2,33


z crítico (2 colas) 1,645 1,96 2,58

314
Actividad Nº 39

Ejercicios - Puntos 1 al 5

1) Contestar las siguientes preguntas:

a) ¿Cuál es la finalidad de la prueba de hipótesis?


b) ¿Qué diferencia hay entre un enfoque paramétrico y un enfoque
no paramétrico?
c) Explicar brevemente los pasos para el procedimiento de prueba
de hipótesis.

2) Completar los siguientes conceptos:

a) Cuando la prueba de hipótesis tiene una sola región de rechazo,


se dice que la prueba es de......................................................

b) β expresa y el error de tipo ............................................. y significa


...............................................................................................

c) En la prueba de diferencias entre dos medias, la hipótesis nula se


plantea como H0: μ1 = μ2 , esto indica que μ1 - μ2 = ................
...............................................................................................

3) El propietario de un cine sabe que una película de gran éxito se


exhibirá un promedio de 84 días en cada ciudad, y la desviación
estándar es de 10 días. El dueño quería comparar la popularidad de
la película en su ciudad con la que alcanzó en otras ciudades del
país. Seleccionó aleatoriamente 36 cines de la ciudad y descubrió
que exhibieron la película un promedio de 81 días.

a) probar las hipótesis para ver si el promedio de días de exhibición


bajó, con un nivel de significación del 5%. Utilizar xCR y z.

b) Obtener la probabilidad de cometer error de tipo II y la potencia de


contraste.

4) Un fabricante de salsa de tomate está a punto de decidir si producir


una marca nueva con más condimento. El departamento de

315
investigación aplicó una encuesta a 200 familias y averiguó que la
salsa sería comparada por 120 de ellas. Un estudio hecho el año
pasado reveló que el 55% de las familias comprarían la nueva marca.
Con un nivel de significación del 1%, deberá la compañía concluir
que hay un mayor interés en la nueva salsa condimentada?

5) Dos laboratorios de investigación han producido independientemente


dos medicamentos que dan alivio a los que sufren artritis. El primer
fármaco fue probado en un grupo de 90 enfermos, dando un promedio
de 8,5 horas de alivio, con una desviación estándar de 1,8 horas. El
segundo fue probado en 80 enfermos y produjo un promedio de 7,9
horas de alivio con una desviación estándar de 2,1 horas.

Con un nivel de significación de 0,05, probar si hay diferencia en los


dos medicamentos.

6) Dado los siguientes valores alternativos de m para el ejercicio 3: 84,


83, 81y 78.

a) determinar los valores de β y 1 - β ;


b) graficar las curvas de CO y de potencia de contraste.

316
6. Inferencia para muestras pequeñas. La Distribución “t”
de Student
6.1 Introducción

Hasta el momento se han manejado estimaciones de distribuciones nor-


males donde la desviación típica de la población es conocida. No obstante,
se presentan problemas de inferencia estadística para muestras peque-
ñas (n < 30) cuando σ es desconocida.

Este caso fue resuelto a principios de siglo cuando W.S. Gosset, utili-
zando el seudónimo de “Student”, publicó una distribución teórica que
lleva el nombre de Distribución t de Student.

3
6.2 Características

La distribución t se basa en la consideración de que la población a partir


de la cual se obtiene la muestra es normal o aproximadamente normal. Se
pueden mencionar las siguientes características:

Normal t, n = 10

t, n = 2

- La distribución t es continua, acampanada y simétrica, pero a diferencia


de la distribución normal tiene mayor variabilidad. La curva t está más
extendida en la parte de las colas y es más achatada en el centro.

- A medida que aumenta el tamaño de la muestra, la curva t se acerca


a una curva normal. Cuando n tiende a infinito, la curva t se vuelve
idéntica a la curva normal. En otras palabras, el estimador s se acerca
a σ; si el n se acerca a N, s se acerca a σ y no existen diferencias entre
t y z.

3. Caho, Lincoln: "Introducción a la Estadística". C.E.C.S.A.

317
- Mientras que z contiene sólo una variable aleatoria que es x, ya que n
y σ son constantes, la razón t contiene dos variables aleatorias que
son x y s, estas variables son independientes unas de las otras.

En resumen, t tiene una media igual a 0 (cero) y una desviación típica


generalmente mayor que 1. Esta desviación tiende a 1 cuando n tiende a
infinito. Por lo tanto, mientras el valor z tiene solamente una distribución, el
valor t tiene una familia de distribuciones, donde cada una tiene la misma
media pero una desviación típica diferente que depende del valor n.

El único parámetro de la distribución t es el número de grados de liber-


tad (gl) que es igual a n-1. Entonces, la curva t está definida cuando está
dado el tamaño de la muestra y en consecuencia el número de gl. (ver
punto 6.7.).

6.3 Uso de la tabla

Los valores críticos para probar hipótesis o efectuar estimaciones utili-


zando la distribución t se pueden obtener de la tabla del Anexo II. En los
dos renglones superiores se consignan los valores de probabilidad que se
utilizan con mayor frecuencia para realizar inferencias.

En el renglón Q se encuentran las probabilidades iguales al área de la


cola superior o de la cola inferior para los grados de libertad que deben
utilizarse para las pruebas de una cola. En el renglón 2Q se encuentran las
probabilidades iguales a la suma de ambas áreas (colas superior e infe-
rior) que son utilizadas para pruebas de dos colas (y para las estimaciones
de parámetros por intervalo). Los valores para los gl se listan en la primera
columna. El valor resultante de la intersección del número de gl especifica-
do y el valor de probabilidad establecido corresponde al valor crítico.

Ejemplo Nº 1: Obtener el valor crítico t para una prueba de una cola con
n = 10 y α =0,05.

El número de gl = n-1 o sea 9. Se utiliza el valor de Q = 0,05 (1 renglón)


ya que es una prueba de un extremo tgl = tg = 1,833

Ejemplo Nº 2: Obtener el valor crítico t para una prueba de dos colas


con n = 10 y α = 0,10 tgl = tg = 2,262.

318
Obsérvese que el valor de 0,10 en el renglón 2Q es equivalente al valor
de 0,05 en el renglón Q.

Ejemplo Nº 3: Obtener los valores críticos t para cada uno de los si-
guientes casos.

a) n = 15 α = 0,01 para prueba de una cola


t14 = 2,624

b) n = 20 α = 0,05 para prueba de dos colas


t19 = 2,093

6.4 Inferencia estadística utilizando la distribución t

6.4.1 Prueba para la media poblacional

Si la muestra es pequeña, el valor de s puede desviarse mucho, si se


utiliza la puntuación z hay una gran probabilidad de que se cometa un serio
error. En este caso, corresponde usar el estadístico de prueba pertene-
ciente a la distribución t.
x −μ x −μ
t= = (18)
Sx s/ n

El valor calculado se compara con el valor crítico t (tabla) y se toma la


decisión.

Ejemplo Nº 1: Un fabricante de baterías para automóviles afirma que la


duración promedio de las mismas es de 38 meses. Se toma una muestra
de 16 baterías y se encuentra que la duración media es de 35 meses con
un desvío típico de 6,2 meses.

Probar la hipótesis con un nivel de significación del 5% de que la dura-


ción promedio de las baterías es menor que la establecida por el fabricante.

- Planteo de la hipótesis

H0: μ = 38 meses
H1: μ < 38 meses

319
Prueba de una cola. El valor
crítico de t con α = 0,05
y con gl = 16-1 = 15 es igual
a -1,753 (extremo izquierdo).

-1,753
- Regla de decisión -t

Rechazar H0 si t ≤ α -1,753

- Estadístico de prueba

35 − 38
t= = − 1,935
6,2 / 16

Como el valor -1,935 es menor al valor crítico, se rechaza H0 y se


concluye que la duración de las baterías es menor.

Ejemplo Nº 2: Considerar el mismo ejercicio anterior, pero probar que la


duración promedio es distinta a la especificada por el fabricante.

- Planteo de hipótesis

En este caso la prueba es de dos colas:

H0: μ = 38
H1: μ ≠ 38

El valor crítico de t para 15 grados de libertad con α =0,50 es t15 = 2,131.

Regla de decisión

Rechazar H0 si t ≥ 2,131 o t ≤ -2,131

-t t
-2,131 0 2,131

320
- Estadístico de prueba

t = -1,935

En este caso, se acepta H0 ya que t es mayor que 2,131.

6.4.2 Estimación de la media poblacional

El método de construir el intervalo de confianza para estimar μ es el


mismo empleado para una distribución normal, excepto que se trabaja con
valores de t en lugar de valores de z.

El intervalo de confianza con 1 - α para estimar μ en base a la media de


una muestra pequeña es:

x − t gl α / 2 s x ≤ μ ≤ x + t gl α / 2 s x (19)

Ejemplo: El propietario de una librería desea estimar el importe medio


de las cuentas por cobrar. Para tal fin selecciona una muestra de 12 fichas
de clientes y se registran los siguientes saldos (en $).

180 240 150 320 215 80


90 170 350 270 100 240

Estimar m con un nivel de confianza del 99%.

Se obtienen la media y el desvío típico.

x= ∑ ∑
x ( x − x )2
s=
n n −1

x = $ 200,42 s = $ 88,17

t con 11 grados de libertad es t11,0,01 = 3,106


88,17
x ± tgl . Sx 200,42 ± 3,106 = $ 121,27 a $ 279,57
a/2
12

121,27 ≤ μ ≤ 279,57

321
6.4.3 Prueba de la diferencia entre dos medias

a)Muestras independientes

Dos muestras son independientes cuando las observaciones de una no


están relacionadas con las observaciones de las otras.

Al probar la hipótesis debe suponerse que las varianzas de las dos


poblaciones son idénticas o sea σ12 = σ22, es decir la varianza de la diferen-
cia de medias es:
σ12 + σ12 ⎛1 1⎞
σD2 = + σ12 = ⎜⎜ + ⎟⎟ (20)
n1 n2 ⎝ n1 n2 ⎠

Para obtener la varianza de la diferencia de medias, es necesario esti-


mar. Por lo tanto:
⎛1 1⎞
SD2 = S 2 ⎜⎜ + ⎟⎟ (21)
⎝ n1 n2 ⎠

El estimador S2 se obtiene de la siguiente manera:

S = 2 (n1 − 1)S2 + (n2 − 1) S22


(22)
n1 + n2 − 2

Por lo tanto, el error estándar de la diferencia de dos medias muestrales


se obtiene sustituyendo la ecuación (21) por la siguiente:

SD =
(n1 − 1) S2 + (n2 − 1)S22 . ⎛⎜ 1 + 1⎞

n1 + n2 − 2 ⎜n n2 ⎟⎠
(23)
⎝ 1

El estadístico de prueba utilizado es:


t = x1 x 2 (24)
SD

322
Ejemplo: una fábrica produce dos marcas distintas de tubos fluores-
cente A y B. De cada marca se toma una muestra de 15 unidades y se
calcula la duración media y la varianza muestral de cada una los resulta-
dos son:

Marca A Marca B

Muestra n1 = 15 n2 = 15
Duración media x1 = 1.600 hs. x2 = 1.570 hs.
Varianza S21 = 14.4000 hs. S22 = 12.100 hs

Probar la hipótesis de que no hay diferencias entre las duraciones de


ambas marcas con α = 0,05.

Se trata de una prueba de dos colas, entonces:

H0: μ1 = μ2 (no hay diferencias entre las duraciones de A y B)

H1: μ1 ≠ μ2 (si hay diferencias entre las duraciones de A y B)

El número de grados de libertad es n1 + n2 - 2, es decir:

15 + 15 - 2 = 28

t26,0,05 = 2,048

Rechazar H0 si t ³ 2,048 ó t £ -2,048

-2,048 2,048

Empleando el estadístico de prueba:

323
1600 − 1570 30
t= = = 0,714
(15 − 1).14.400 + (15 − 1).12 .100 ⎛ 1 1⎞ 42,03
⎜ + ⎟
14 + 14 − 2 ⎝ 15 15 ⎠

t < 2,048 es decir que la diferencia entre las duraciones de A y B no es


significativa, por lo tanto se acepta H0. Dicha diferencia es debida al azar.

b) Muestras dependientes

En muchos casos, las observaciones se muestran por pares donde


cada observación de una muestra se relaciona con una observación de la
otra muestra, por lo tanto se dice que las muestras son dependientes.

El procedimiento para probar hipótesis de diferencias de dos medias de


muestras dependientes requiere los siguientes datos:

1') D: que es la diferencia entre dos observaciones entre cada par


coincidente.

2') D: media de D para n, observaciones:

D= ∑
D
(25)
n

3') El desvío típico de D:

SD = ∑ D2
− D2 (26)
n

4') El error estándar de D:


SD
SD = (27)
n −1

5') El estadístico de prueba:


D
t= (28)
SD

324
Ejemplo: Diez trabajadores de una fábrica son entrenados con un nue-
vo método de trabajo. Se desea saber si con dicho entrenamiento la pro-
ductividad ha aumentado. A continuación se muestran las producciones
(en unidades) de cada uno del entrenamiento.

Trabajador Después (L) Antes (A) D=L-A D2

1 85 80 5 25
2 92 90 2 4
3 94 95 -1 1
4 88 80 8 64
5 82 79 3 9
6 95 88 7 49
7 94 90 4 16
8 82 87 -5 25
9 85 86 -1 1
10 89 84 5 25

Σ = 27 Σ = 219
27 219
D= = 2,7 SD = − (2,7 )2 = 3,82
10 10
3,82
SD = = 1,273 error estándar
10 − 1

H0: μ1 = μ2 (no hay diferencia entre la productividad antes y después


del entrenamiento).

H1: μ1 > μ2 (el entrenamiento ha aumentado la productividad)

Si se prueba con α = 0,01, el valor crítico es:

t9,0,01 = 2,821

Rechazar H0 si t ≥ 2,821:
2,7
t= = 2,12
1,273

Se acepta H0, el entrenamiento no aumentó la productividad de los


trabajadores.

325
6.4.4 Estimación de la diferencia de dos medias muestrales

El intervalo de confianza (1- α) para estimar la diferencia entre dos


medias muestrales se obtiene:

D − t gl α / 2 SD ≤ δ ≤ D + t gl α / 2 SD (29)

Ejemplo Nº 1: Considerar el problema de muestras independientes del


punto 4-3 (a). Estimar d con el 95% de confianza.

D ± tgl, a/2
SD

30 ± 2,048 (42,03) = – 56,1 a 116,1

Como el límite inferior es negativo se considera 0, por lo tanto,

0 ≤ δ ≤ 116.1

Ejemplo Nº 2: Considerar el problema de muestras dependientes del


punto 4.3.(b). Estimar δ con el 99% de confianza.

2,7 ± 3,250 (1,273) = -1,4 a 6,8

0 ≤ δ ≤ 6,8

6.5 Grados de libertad 4

Los grados de libertad se refiere al número de valores que puede variar


libremente en un conjunto de datos bajo ciertas condiciones. Por ejemplo,
la suma de 4 valores de como resultado 15.

a + b + c + d = 15

Si a = 4; b = 6; c = 3, el valor de d queda determinado automáticamente,


ya que:
4 + 6 + 3 + d = 15
d = 15 - 13 = 2

4. Shao, Stephen - op. cit.

326
El número de valores que puede variar libremente en el conjunto es 2.
Por lo tanto, si hay n elementos y la suma de ellos es un valor fijo, el
número de grados de libertad es igual a n-1.

Cuando se estudió la varianza muestral como estimador de la varianza


poblacional, se determinó que en la fórmula, la suma del cuadrado de las
desviaciones Σ ( x -x)2 se divide entre el tamaño de la muestra menos 1.
Dados los siguientes valores x1, x2, x3, x4 y x5 cuya x = 8. Libremente
asignamos valores para x1, x2, x3 y x4:

x1 = 10 ; x2 = 6 ; x32 = 9 ; x4 = 7

El valor de la varianza queda determinada automáticamente, ya que el


quinto valor es fijo.

(x - x) = 0 (10-8) + (6-8) + (9-8) + (7-8) + (x5 -8) = 0

2 + (-2) + 1 + (-1) + (x5 -8) = 0

x5 = 8

En el cálculo de la varianza interesa las desviaciones de n-1 elementos,


o sea:

S =∑2(x − x ) 2

n −1

S 2
=
(10 − 8 )2 + (6 − 8 )2 + (9 − 8 )2 + (7 − 8 )2 + (8 − 8 )2
4

S2 = 2,5

327
Actividad Nº 40

Ejercicios del punto 6

1) Contestar las siguientes preguntas:

a) ¿Cuál es la utilidad de la distribución t?

b) ¿Cuáles son las semejanzas y diferencias entre la distribución


normal y una distribución t?

2) El jefe de personal de una compañía afirma que el promedio de horas


trabajadas en una semana por los trabajadores administrativos es de
23 horas. Al tomar al azar 10 tarjetas reloj las horas extras registradas
durante una semana en cada una eran:

Tarjeta A B C D E F G H I J

Horas extras 18 22 20 15 24 18 19 21 22 20

Probar la hipótesis del jefe de personal con un nivel de significación


del 5%.

3) Con los datos del problema anterior, determinar el intervalo de


confianza del 95% para estimar μ .

4) Dos máquinas producen pernos idénticos. Las longitudes tienen la


misma varianza, pero se sospecha que la longitud promedio de los
pernos de la máquina I no es igual a los de los fabricados por la
máquina II. Se toman dos muestras independientes y se obtienen los
siguientes datos:

Máquina I Máquina II

Tamaño de la muestra n1 = 8 n2 = 10

Promedio muestral
(en pulgadas) x1 = 2,6 x2 = 2,5

328
Varianza muestral S21 = 0,0054 S22 = 0,0046

a) Indicar los datos que existe una diferencia significativa entre las
dos medias con α = 0,01.

b) Obtener el intervalo de confianza del 99% para la verdadera


diferencia de las dos medias poblacionales.

5) Se desea determinar si un grupo de 10 estudiantes puede


desempeñarse bien en Matemática y en Física. Las calificaciones de
una evaluación de la siguiente nómina no son independientes.

Estudiante A B C D E F G H I J

Matemática 84 55 85 98 80 55 80 64 91 85

Física 84 57 90 97 74 53 75 63 90 82

a) Probar la hipótesis de que la puntuación media en Matemática es


la misma que en Física contra la hipótesis alternativa de que son
diferentes con el α = 0,005.

b) Determinar el intervalo de confianza del 95% para la verdadera


diferencia de las medias.

329
Respuestas a los ejercicios de la Unidad IX

Puntos 1 al 5

1) Consultar el marco teórico del módulo y de la bibliografía

2) a) una cola

b) error de tipo II y significa la probabilidad de aceptar H siendo falsa.

c) No hay diferencia entre las medias.

3) a) Z = - 1,8 X CR = 81,3 Rechazar H (Test de 1 cola)

b) β = 0,43 1 - β = 0,57

4) Z = 1,44 Aceptar H0 (Test de 1 cola)

5) Z = 1,99 Aceptar H0 (Test de 2 colas)

6) Valores alternativos de μ1 84 83 81 78
β C 0,95 0,85 0,43 0,02
1-β Potencia 0,05 0,15 0,57 0,98

Punto 6

1) Consultar el marco teórico del módulo y de la bibliografía.

2) t = - 3,8 Rechazar H0 (Test de 1 cola)

3) 18,1 ≤ μ ≤ 21,7

4) a) t = 3,03 Rechazar H

b) 0,003 ≤ μ ≤ 0,197

5) a) t = 1,19 Aceptar H

b) -1,08 ≤ μ ≤ 3,48 o 0 ≤ μ ≤ 3,48

330
CHI CUADRADO

CARACTERÍSTICAS APLICACIONES

331
- BONDAD DE AJUSTE

- TEST DE INDEPENDENCIA
Diagrama de Contenidos Unidad X

- PRUEBA DE HOMOGENEIDAD

- PRUEBA DE LA VARIANZA
POBLACIONAL
332
UNIDAD X
LA DISTRIBUCIÓN JI CUADRADA (χ2)
1. Características de la distribución

La función de densidad de probabilidad para ji cuadrada se representa


matemáticamente con la siguientes ecuación:

f (X2) = (k) (χ2) (gl / 2) -1


(e-X2/2) (30)

donde k depende sólo de gl, es decir de los grados de libertad, χ2 es ji


cuadrada, y es la base de los logaritmos naturales. No se tratará el desa-
rrollo de la ecuación anterior, sino que se hará referencia a las caracterís-
ticas de χ2 que permitirán su aplicación para la inferencia estadística. Es-
tas características son las siguientes:

1') χ2 es una variable aleatoria que no puede asumir valores negativos.


2') La distribución χ2 tiene un sólo parámetro: los grados de libertad (gl).
3') La distribución χ 2 es continua y unimodal. Al igual que z y t, el área
bajo la curva χ2 representa probabilidades.
4') La distribución χ2 tiene sesgo a la derecha. A medida que aumenta
gl, el sesgo es menor, y se aproxima a una distribución normal.
5') La media de χ2 está dada por los grados de libertad, E (χ 2) = gl. La
varianza es el doble de los grados de libertad, Var (χ2) = 2 gl.
6') La ecuación representa una familia de distribuciones. Hay una
distribución diferente para cada grado de libertad.
2

0.60 f (x )

0.50

0.40 R=1

0.30

0.20 R= 5

0.10 R = 10

0 2

x
2 4 6 8 10 12 14 16

333
2. Uso de las tablas de χ2

Ya se estableció que la curva χ2 representa probabilidades. Para cada


posible valor de gl puede construirse una tabla de probabilidades. No
obstante, puede utilizarse la tabla χ2.

La tabla del Anexo III muestra los valores críticos χ2 que se denota por
χ2(gl,a). El subíndice tiene dos números, gl indica los grados de libertad y a
indica el porcentaje cortado bajo la cola superior de la distribución.

Las probabilidades más comúnmente utilizadas se consignan en el en-


cabezamiento de la tabla, siendo representadas por el área de la cola
superior de la curva. En la columna izquierda se muestran los grados de
libertad. El valor por una gl y para una probabilidad dada constituye el
valor crítico χ2 que corta la cola superior (o lado derecho) bajo la curva.
Por ejemplo el valor χ2 que corta el 5% de la distribución con 8 grados de
libertad es:
χ2(8,0,05) = 15,507

5% 5%

15,507

El gráfico también muestra el valor que corta el 5% inferior del área bajo
la curva (o el 95% superior de la distribución) con 8 grados de libertad.

χ2(8,0,95) = 2,732

3. Aplicaciones de χ2

Existen problemas donde deben realizarse inferencias acerca de la dis-


tribución de toda una población en base a observaciones muestrales don-
de las hipótesis de las pruebas no son aseveraciones acerca del paráme-
tro de una población, sino verificar hipótesis tales como “una moneda es

334
regular” o “las variables desempeño e instrucción son independientes”.
Los datos son categorizados y los resultados se muestran en forma de
conteo. Por ejemplo, los salarios de los empleados de una compañía re-
presentados a través de una tabla de frecuencias. Cada frecuencia se
anota en una celda o clase. Las frecuencias observadas de la muestra se
denotan por f01 f02, ....f0n. La suma de todas las frecuencias observadas es
igual al tamaño de la muestra, o sea:

f01 + f02 + .... + f0n = n

Estos valores observados, se comparan con frecuencias esperadas o


teóricas fe1, fe2 + ... + fen que se obtienen de distribuciones teóricas espe-
cíficas, también en este caso:

fe1 + fe2 + .... + fen = n

La prueba consiste en determinar si las frecuencias observadas con-


cuerdan o discrepan con las esperadas.

El estadístico de prueba es:

χ =∑
2 (f0 . fe )2
(31)
fe

El numerador es la diferencia al cuadrado, la cual sólo puede tomar


valores positivos. Mientras menor sea la diferencia, menor será el valor de
χ2. Los valores pequeños de χ2 indican concordancia, mientras que los
valores grandes indican discrepancia, entre los dos conjuntos frecuencias.
Debe observarse que es común que estas pruebas son de una sola cola.

Los valores calculados del estadístico de prueba χ2 se basan en datos


discretos, pero la distribución χ2 es continua. Si las fe son grandes, la
distribución del estadístico de prueba puede aproximarse a la distribución
de χ2. Una regla práctica es que la fe para cada clase debe ser por lo
menos 5. Las categorías que no cumplen este criterio deben combinarse
con otras adyacentes cuando sea posible.

El estadístico de prueba (31) se utiliza para las pruebas de bondad de


ajuste, de independencia y de homogeneidad. La distribución χ2 también
se utiliza para probar el valor de un parámetro, como es “la prueba de la
varianza”. (punto 3.4.)

335
3.1 Prueba para la bondad de ajuste

En esta prueba, H0 especifica una distribución uniforme (todos los valo-


res posibles de una variable aleatoria son igualmente probables), binomial,
Poisson, etc. Se elige una muestra y se prueba si la distribución muestral
sigue a la distribución teórica especificada en H0. La hipótesis alternativa
afirma que la muestra no ha sido tomada de la distribución específica.

La prueba implica n observaciones que se clasifican en k clases o cate-


gorías, donde en cada celda se anotan las frecuencias observadas que se
comparan con las esperadas a través de los cálculos, utilizando el esta-
dístico de prueba de χ2.

El valor que se requiere de la estadística χ2 para rechazar o aceptar H0


depende del nivel de significación y de los grados de libertad (gl). Para la
prueba de bondad de ajuste, los grados de libertad son iguales al número
de categorías o clases menos 1, es decir:

gl = k - 1 (32)

Si el valor del estadístico de prueba es mayor o igual al valor crítico se


dice que el ajuste es malo y se rechaza H0. Si el valor χ2 es pequeño, se
dice que el ajuste es bueno y se acepta H0.

Ejemplo: Una empresa dedicada a estudios de mercados está intere-


sada en las preferencias de las amas de casa de 4 zonas de la ciudad
respecto a una marca de arroz. Selecciona una muestra al azar de 200
amas de casas con los siguientes resultados:

ZONA A B C D TOTAL

Preferencias (f0) 35 43 64 58 200

Estas preferencias constituyen las frecuencias observadas. Bajo la hi-


pótesis de que pA = pB = pC = pD todas estas probabilidades son iguales a
1/4. Entonces las frecuencias esperadas son cada una igual a 50 (1/4.200).

336
Planteando las hipótesis:

H0: Las preferencias están distribuidas de manera uniforme en las cuatro


zonas.

H1: Las preferencias no están distribuidas de manera uniforme en las


cuatro zonas.

Las categorías son 4, por lo tanto los grados de libertad son 3, ya que:

k=4 gl = k - 1 gl = 4 - 1 = 3

Utilizando un nivel de significación del 5%, el valor crítico con 3 grados


de libertad es:

χ2(3,0,05) = 7,814

7,814

Rechazar H0 si χ2 es mayor o igual a 7,814.

Los cálculos para obtener χ2 se muestran a continuación:

Zona f0 fe f0-f e (f 0-f e) 2 f0-fe)2/ fe

A 35 50 -15 225 4,5


B 43 50 -7 49 0,98
C 64 50 14 196 3,92
D 58 50 8 64 1,28

10,68

χ =∑
2 (f0 . fe )2 = 10,68
fe

337
Como χ2 es mayor que 7,814, se rechaza H0 es decir no hay uniformidad
en las preferencias en las 4 zonas.

En el cálculo de las frecuencias teóricas, puede haber restricciones


adicionales. Si la media de la muestra X se utiliza para estimar μ para
obtener las frecuencias esperadas, esta restricción reduce el número de
grados de libertad en 1.

En general, si hay m estimaciones muestrales utilizadas para m pará-


metros desconocidos en el cálculo de frecuencias teóricas, el número de
grados de libertad está aún más reducido por m, es decir:

gl = k - 1 - m (33)

Ejemplo: una consultora desea demostrar que la distribución de los


índices de accidentes de trabajo en empresas industriales es normal.
Selecciona una muestra de 50 establecimientos y la distribución de índi-
ces se muestra en la siguiente tabla de frecuencias.

Indices frecuencias observadas (9)


1 - 1,5 6
1,5 - 2,0 10
2,0 - 2,5 18
2,5 - 3,0 9
3,0 - 3,5 7
50

Se calculan la media y el desvío típico a través de las fórmulas estudia-


das en el módulo 3.

X= ∑
xf
X = 2,3
n

S= ∑
(x − x ) f 2
S = 0,60
n −1

- Planteo de hipótesis

H0: la distribución de frecuencias tiene distribución normal.


H1: la distribución de frecuencias no sigue una distribución normal.

338
- El número de clases está dado por el número de intervalos, o sea k = 5.

- Cálculo de las frecuencias esperadas. Como se desconocen μ y σ,


se utilizarán x como estimación puntual de μ y S como estimación de σ.

En primer lugar se debe encontrar la probabilidad de un valor de x


dentro de los intervalos de clase. Como la normal es una distribución de
una variable continua que puede tomar valores de -∞ a +∞, P(x < 1,0) y
P(x > 3,5) no son igual a 0. Debido a que ΣP0 = ΣPe = n, no pueden
ignorarse las colas de la curva. Por lo tanto, las clases pueden definirse de
la siguiente manera:

Menos de 1,5
1,5 - 2,0
2,0 - 2,5
2,5 - 3,0
3,0 y más

Los límites de clase se transforman a valores de z y se utiliza la para


calcular las frecuencias teóricas.

Desv.est.normal Area de clase Frec. esp.

Li Ls ZLi ZLs P(ZLi ≤ z ≤ Zls) 50 (Area de Clase)

-∞ 1,5 -∞ -1,33 0,0918 4,6


1,5 2,0 -1,33 -0,5 0,2167 10,8
2,0 2,5 -0,5 0,33 0,3208 16,0
2,5 3,0 0,33 1,17 0,2497 12,5
3,0 ∞ 1,17 ∞ 0,121 6,1

1,0000 50,0

* Li = Límite inferior Ls = Límite superior

* ZLi y ZLs son las desviaciones estándares normales.

L i − 2,3 L s − 2,3
ZL i = ZL s =
0,6 0,6

339
Por ej. ZLs en la primera clase

1,5 − 2,3
ZL s = = − 1,33
0,6

* P (ZLi ≤ Z ≤ ZLs) representa el área de la clase.

Por ejemplo la probabilidad para el área de la primera clase.

-1,33 0

Area entre 0 y -1,33 = 0,4082 — según tabla 4

Area entre -∞ y 1,33 = 0,5 - 0,4082 = 0,0918

P (-∞ ≤ z ≤ 1,5) = 0,0918

* Las frecuencias teóricas se obtienen multiplicando n por el área de la


clase.

n . P (ZLi ≤ Z ≤ ZLs)

La frecuencia esperada de la 1º clase es:

50 (0,0918) = 4,59 = 4,6

- Grados de libertad. Recordar que:

gl = k - 1 - m

k = es el número de clases
m = es el número de parámetros a estimar

340
En nuestro ejemplo:

k=5
m = 2, ya que son dos los parámetros desconocidos a estimar μ y σ.

Por lo tanto:

gl = 5 - 1 - 2 = 2 grados de libertad.

- Determinación del nivel de significación ( α )

Para esta prueba α = 0,05

- Valor crítico

Para X22,0,05 = 5,991

- Regla de decisión

Rechazar H0 si X2 ≥ 5,991

Aceptar H0 si X2 ≤ 5,991

- Cálculo de X2
f0 − fe2
Frecuencias Frecuencias
fe
Observadas Esperadas (f0 -fe ) 2
(f0 ) (fe )

6 4,6 1,96 0,426


10 10,8 0,64 0,059
18 16,0 4 ,00 0,25
9 12,5 12,25 0,98
7 6,1 0,81 0,133

50 50,0 1,848

X2 = 1,848

341
Como X2 es menor que el valor crítico, se acepta H0, lo que indica que
la distribución de frecuencias sigue una distribución normal.

Considérese el siguiente problema. Un estudio sobre la propiedad de


parcelas de tierra es una zona durante un período de 10 años proporcionó
la siguiente información. Cuando una parcela cambia de dueño debido a
un juicio hipotecario o abandono se clasifica como “traspaso”. Una mues-
tra de 50 parcelas aportó los siguientes datos.

Número de Traspasos (x) 0 1 2 3 4 5 6 7 8 9

Número de Parcelas (f0) 6 9 11 8 7 4 2 2 1 0 = 50

Se plantea la hipótesis de que la distribución de traspasos se ajusta a


una distribución de Poisson.

- En primer lugar se determinará el valor de l para probar la hipótesis.


x . f0 137
X= = = 2,74
n 50
x = λ = 2,7

- Luego, se obtendrán las frecuencias esperadas con base a la distribu-


ción de Poisson con λ = 1,8.

Número de P (x) Frecuencias


Traspasos con λ =2,7 e s p e r a d a s ( f )
e
(x) (tabla 3) n.P (x)

0 0,0672 3,4
1 0,1815 9,1
2 0,2450 12,3
3 0,2205 11,0
4 0,1488 7,4
5 0,0804 4,0
6 0,0362 1,8
7 0,0139 0,7
8 0,0047 0,2
9 0,0014 0,1

50,0

342
(*) Diferencia por redondeo de datos.

- Con la información obtenida se plantean las hipótesis:

H0: La distribución de traspasos se ajusta a una distribución de Poisson.

H1: La distribución no se ajusta a la distribución de Poisson.


f0 − fe2
X f0 fe
fe

0 6 15 3,4 12.5 0,5


1 9 9,1 0,001
2 11 12,3 0,137
3 8 11,0 0,818
4 7 7,4 0,022
5 4 4,0
6 2 9 1,8 6,8
7 2 0,7 0,712
8 1 0,2
9 0 0,1

2,189

X2 = 2,189

Obsérvese que para cumplir el requisito de que cada fe sea de cuando


menos 5, se combinaron las dos primeras y las cinco últimas categorías
por lo que K = 5

Como se estima el parámetro en base a una muestra, gl = 3, ya que:

gl = k - m - 1

gl = 5 - 1 - 1 = 3

- Si se utiliza un nivel de significación del 1%, el valor crítico es X23,0,01


= 11,3449. Como la regla de decisión es:

343
Rechazar H0 si X2 > 11,3449

Aceptar H0 si X2 < 11,3449

Se acepta H0, por lo tanto la distribución de traspasos de las parcelas se


ajusta a una variable con distribución de Poisson.

344
Actividad Nº 41

Ejercicios del punto 1

1) El número de accidentes fatales en una ruta durante una semana se


distribuye de la siguiente forma:

Día D L M M J V S

Nº de accidentes 28 12 10 7 8 11 24

Probar la hipótesis de que tanto, el sábado como el domingo tiene el


25% y cada uno de los otros 5 días el 10% de todos los accidentes
fatales con α = 0,025.

2) Un fabricante de heladeras ofrece tres líneas básicas de su producto


que pueden describirse en términos comparativos de su precio como
“bajo”, “intermedio” y “alto”. Antes de llevar a cabo una campaña de
promoción para resaltar las virtudes de las heladeras de precio alto,
los porcentajes de ventas de las 3 categorías eran de 45%, 30% y
25%. De una muestra aleatoria de 50 heladeras que se vendieron
después de la promoción, el número de productos que se vendieron
en cada categoría fue 15, 15 y 20. Probar la H0 de que el patrón
histórico de ventas no difiere del patrón histórico, utilizando el 5%
como nivel de significación.

3) Se desea probar si la distribución de jornales de operarios de una


industria es normal. Una distribución de frecuencias de jornales de 40
operarios, elegidos aleatoriamente, es la siguiente:

Jornales ($) Nº de operarios


10 - 20 6
20 - 30 10
30 - 40 14
40 - 50 7
50 - 60 3
40

Utilizar con α = 0,01 para probar la hipótesis.

345
3.2 Test de Independencia

En los tests de independencia existen dos variables categóricas y la


prueba consiste en suponer que ambas variables son estadísticamente
independientes.

La independencia implica saber que la categoría en la que se clasifica


una observación con respecto a una variable, no tiene ningún efecto sobre
la probabilidad de caer también en alguna de las diversas categorías de
las otras variables5. Dicho de otra manera, el problema es determinar si
existe alguna relación entre dos conjuntos de atributos de una población.

La prueba X2 de independencia tiene una metodología parecida a la


prueba de bondad de ajuste. La misma se explicará con el siguiente problema.

En una empresa se desea conocer si hay alguna relación entre la asis-


tencia de los empleados y el sexo. La asistencia se clasifica en “satisfacto-
ria” (S) y “no satisfactoria” (NS). Para la prueba se toma una muestra de
100 empleados.

1') Planteo de Hipótesis

H0: Sexo y Asistencia son variables independientes.


H1: Sexo y Asistencia son variables dependientes.

2') Las frecuencias observadas de la muestra se anotan en una tabla de


contingencia (o de clasificación doble) de dimensión r . k, donde:

r = el número de renglones.
k = el número de columnas.

Sexo
Asistencia V M Total

S 45 25 70
NS 15 15 30
Total 60 40 100

5. Kazmier, Leonard: "Estadística Aplicada a la Economía y Administración". Ed. Mc. Gral. Hill.

346
La tabla tiene dos categorías de renglón (V y M) y dos de columnas
(S y NS), por lo tanto es una tabla de 2 x 2.

3') Las f0 deben compararse con las frecuencias esperadas. La fe de


cada celda de la tabla debe ser proporcional al total de f0 es la
frecuencia total del renglón y fk es la frecuencia total de la columna,
la frecuencia esperada se determina como:

f0 = ∑
fr . ∑ fk
(33)
n

La tabla de frecuencias esperadas para el problema del ejemplo queda


confeccionada así:

Sexo
Asistencia V M Total

S 42 28 70
NS 18 12 30
Total 60 40 100

La fe de la primera celda (S y V) se obtiene:

fe =
(60)(70 ) = 42
100

4') Los grados de libertad para la prueba de independencia se determinan


por la siguiente fórmula:

gl = (r - 1) (k - 1) (34)

Para este problema r = 2 y k = 2

gl = (2-1) . (2-1) = 1

5') Si se usa a = 0,05, el valor crítico es:

X2(1,0,05) = 3,841, por lo tanto la regla de decisión es:

347
Rechazar H0 si X2 ≥ 3,841
Aceptar H0 si X2 < 3,841

6') El estadístico de prueba es el mismo que se utilizó para la bondad de


ajuste o sea:

X =∑
2 (f0 − fe )2
fe
En este caso, se eleva el cuadrado la diferencia entre f0 y fe de cada
celda y se divide entre la fe de dicha celda.

X 2
=
(45 − 42 )2 (25 − 28 )2 (15 − 18 )2 (15 − 12 )2
+ + + = 1,789
42 28 18 12

X2 = 1,786 es menor que el valor crítico. Se aceptar H0 y se demuestra


que la asistencia y el sexo son independientes, es decir no hay
ninguna relación.

3.3 Prueba de Homogeneidad

Esta prueba para X2 es una extensión del test de independencia donde


también se trabaja con datos clasificados cruzadamente y se utiliza el
mismo estadístico de prueba. Las diferencias entre ambas pruebas son
las siguientes:

1) Las pruebas de independencia tienen como objetivo decidir si dos


variables son independientes, mientras que las pruebas de
homogeneidad se aplican cuando se desea saber si diferentes
muestras provienen de la misma población.

2) El test de independencia supone una sola muestra obtenida de una


sola población; la prueba de homogeneidad suponen dos o más
muestras independientes, donde cada una procede de cada una de
las poblaciones distintas bajo estudio.

3) El aspecto anterior implica que en la prueba de independencia, todas


las frecuencias marginales son cantidades al azar, mientras que en
el criterio de homogeneidad, los totales de los renglones (o filas) son
tamaños de muestras que son números elegidos.

348
Considérese el siguiente problema. Los técnicos de un establecimiento
que fabrica fiambres y embutidos deben decidir la adopción de un nuevo
proceso para elaborar jamón cocido tipo A. Eligen 200 piezas obtenidas
mediante le proceso nuevo y 200 mediante el proceso tradicional. Los
resultados son:

Piezas (1) (2)


Proceso Defectuosos Buenas Total

Nuevo (a) 22 178 200


Tradicional (b) 36 164 200

Total 58 342 400

La hipótesis nula puede plantearse como que las dos muestras proce-
den de la misma población, es decir que las dos clasificaciones son homo-
géneas en lo que respecta al estado de las piezas. Esto significa que no
hay diferencia entre los dos métodos.

S se define:

p1a: probabilidad de nuevo y defectuoso


p2a: probabilidad de nuevo y buena
p1b: probabilidad de tradicional y defectuosa
p2b: probabilidad de tradicional y buena.

p1a = p1b
H0
p2a = p2b

Con la expresión alternativa de H0 se puede determinar porque se deno-


mina homogeneidad. Al decir homogéneas se entiende que las cosas son
iguales o tiene algo en común.

Ahora, se estiman las proporciones de defectuosas y buenas, es decir:


58/400 y 342/400. Las frecuencias esperadas, por ejemplo, para el méto-
do nuevo son:

349
(7)
58/400 (200) = 29 342/400 (200) = 171

Las frecuencias esperadas se muestran en el siguiente cuadro:

Piezas
Proceso Defectuosos Buenas Total

Nuevo (a) 29 171 200


Tradicional (b) 29 171 200

Total 58 342 400

En resumen:

p1a = p1b
H0 Los métodos son iguales
p2a = p2b

H1: alguna igualdad no se cumple. Los métodos son diferentes.

Los grados de libertad son: gl: (r-1) (k-1)

gl: (2-1) (2-1) = 1

Si α = 0,01, entonces el valor crítico de X2 = 6,634, por lo tanto:

Rechazar H0 si X2 ≥ 6,634

Aceptar H0 si X2 < 6,634

Aplicando el estadístico de prueba:

(f0 − fe )2
X =
2

fe

7. fe = Σ fr Σ fk/n

350
X 2
=
(22 − 29 )2 (178 − 171)2 (36 − 29 )2 (164 − 171)2
+ + + = 3,952
29 171 29 171

X2 = 3,952

Se acepta H0.

351
Actividad Nº 42

Ejercicios del punto 2

1) Un centro Comercial tiene 5 divisiones. De una muestra aleatoria de


500 clientes se obtuvo la siguiente clasificación doble:

DIVISION DE COMPRAS

Tipo de Ropa y Comes- Electro- Bazar Juguetes Total


Pago Calzado tibles doméstico

Contado 10 15 5 5 15 50
efectivo

Contado 20 15 5 15 5 60
Cheque

Tarjeta de 70 75 25 20 50 240
crédito

Cuenta 50 45 15 10 30 150
Corriente

Total 150 150 10 50 100 500

Con un nivel de significación del 0,05, son tipo de pago y tipo de


compra independientes?

2) Se eligen 3 muestras aleatorias de docentes de los 3 nivel. La primera


contiene 300 docentes de nivel primario; la segunda contiene 200 de
nivel medio, y la tercera, 100 de nivel superior. A cada docente se le
pide una opinión sobre la reforma educativa y las opciones son “a
favor” y “en contra” “muestral”.

352
Docentes A Neutral En Total
Favor Contra

Nivel Primario 182 85 33 300


Nivel Medio 68 60 72 200
Nivel Superior 32 53 15 100

Total 282 198 120 600

Probar con un nivel de significación del 0,05, si hay uniformidad en las


opiniones.

3.4 Prueba de una varianza de la población

Para una población con distribución normal, el estadístico de prueba

X 2
=
(n − 1) S 2
(36)
σ2

se distribuye como X2 con (n-1) grados de libertad.

Como n y σ2 son constantes, la distribución muestral de S2 está asocia-


da con distribución X2 cercanamente. A partir de S2, puede probarse la
hipótesis para una varianza poblacional aplicando ji cuadrada.

La prueba puede ser de una cola o de dos colas y las hipótesis pueden
plantearse

H0: σ2 = σ02 ó H0: σ2 = σ02

H1: σ2 > σ02 H1: σ2 ≠ σ02

ó H1: σ2 < σ02

Desde luego, H0 puede también ser una hipótesis inexacta como H0: σ2
≥ σ02 o H0: σ2 ≤ σ02 .

353
Dado un nivel de significación (α) y especificando los grados de libertad
se puede tomar la decisión comparando el valor del estadístico de prueba
con el valor crítico.

Ejemplo: los salarios de los empleados de una compañía se distribuye


normalmente. Se afirma que la desviación típica de la población no es
superior a $100. Una muestra de 15 salarios dio como resultado una media
de $670 y un desvío típico (S) de $125.

Probar la hipótesis con α = 0,05 de que σ2 es mayor que σ02

H0: σ2 ≤ 10.000 H1: σ2 > 10.000

gl = 15 -1 = 14

X214,0,05 = 23,68

23,684

Rechazar H0 si X2 ≥ 23,684
Aceptar H0 si X2 < 23,684

14 (15.625 )
X2 = = 21,875
10.000

Se acepta H0.

Considérese el problema anterior suponiendo que la varianza poblacional


es igual a 100 y se desea probar que σ2 es distinto de 100.

En este caso se plantea una hipótesis de dos colas.

H0: σ2 = 100 H1: σ2 ≠ 100

Para α = 0,05 y gl = 14, los valores críticos son:

X214,0,025 = 26,118 y X214,0,975= 5,628

354
10%

26,118

Rechazar H0 si X2 ≥ 26,118 o X2 ≤ 5,628.

14 (15.625 )
X2 = = 21,875
10.000

Se acepta H0.

Construcción del intervalo de confianza para estimar

El estadígrafo S2 es un buen estimador de σ2 , por lo tanto el intervalo de


confianza (1- α) para estimar σ2 se obtiene:

(n − 1)S 2 ≤ σ 2 ≤ (n − 1)S 2
(37)
X 2gl,α X 2gl,α

Ejemplo: Estimar la varianza poblacional para la distribución de salarios


con base a la varianza muestral S2 = 15.625 con el 95% de confianza.

14 (15.625 ) 2 14 (15.625 )
≤σ ≤
26,118 5,628
8.375,45 ≤ σ 2 ≤ 38.868,16
91,52 ≤ σ ≤ 197,15

355
ACTIVIDAD OBLIGATORIA

Ejercicios punto 3

1) Cuando un proceso de producción está funcionando adecuadamente,


la varianza de las medidas de las unidades producidas es de 4 cm.
Se sugiere que el proceso de producción se encuentra ahora fuera
de control. Se selecciona una muestra de 7 unidades producidas y se
obtiene las siguientes medidas en centímetros.

9 10 13 12 8 6 12

a) Obtener S2.

b) Probar la hipótesis de que el proceso de producción sigue funcionado


adecuadamente, con α = 0,05.

c) Determinar el intervalo de confianza del 95% para estimar σ2 .

2) Una fábrica de neumáticos para camiones afirma que la duración


media de los productos es de 26.000 km y un desvío típico de 340
km. Sin embargo, se sospecha que la variabilidad aumentó. Se toma
una muestra de 16 neumáticos, se prueban bajo ciertas condiciones
hasta que se desgastan y se encuentra que la media se mantiene,
pero el desvío es de 350 km.

a) Probar la hipótesis con α = 0,10.

b) Determinar el intervalo de confianza con el 90% para estimar σ2.

356
Respuestas a los ejercicios de la Unidad X

Punto 1

1)χ2 = 14,45 Aceptar H0

2)χ2 = 7 Aceptar H0

3)χ2 = 0,24 Aceptar H0

Punto 2

1)χ2 = 25,8 Rechazar H0 (Prueba de independencia)

2)χ2 = 77,5 Rechazar H0 (Prueba de homogeneidad)

Punto 3

1)a) S = 6,33

b) χ2 = 9,495 Aceptar H0

c) 2,63 ≤ σ2 ≤ 30,69

2)a) χ2 = 15,89 Aceptar H0

b) 82362,17 ≤ σ2 ≤ 214.912,28

286,99 ≤ σ ≤ 463,59

357
358
APÉNDICES

359
360
Apéndice 6
Tabla de números aleatarios

361
Apéndice 7
Valores porcentuales de la distribución t

362
Apéndice 8
Valores porcentuales de la distribución X2

363
364
FICHA DE EVALUACIÓN
MÓDULO ÚNICO

Sr. alumno/a:

El Instituto de Educación Abierta y a Distancia, en su constante preocupación por mejorar la


calidad de su nivel académico y sistema administrativo, solicita su importante colaboración para
responder a esta ficha de evaluación. Una vez realizada entréguela a su Tutoría en el menor
tiempo posible.

1) Marque con una cruz

MÓDULO En gran medida Medianamente Escasamente

1. Los contenidos de los módulos fueron


verdadera guía de aprendizaje (punto 5
del módulo).

2. Los contenidos proporcionados me ayu-


daron a resolver las actividades.

3. Los textos (anexos) seleccionados me


permitieron conocer más sobre cada
tema.

4. La metodología de Estudio (punto 4 del


módulo) me orientó en el aprendizaje.

5. Las indicaciones para realizar activida-


des me resultaron claras.

6. Las actividades propuestas fueron acce-


sibles.

7. Las actividades me permitieron una re-


flexión atenta sobre el contenido

8. El lenguaje empleado en cada módulo fue


accesible.

CONSULTAS A TUTORIAS SI NO

1. Fueron importantes y ayudaron resolver mis dudas y actividades.

2) Para que la próxima salga mejor... (Agregue sugerencias sobre la línea de puntos)

1.- Para mejorar este módulo se podría ................................................................................................................................

.......................................................................................................................................................................................................

3) Evaluación sintética del Módulo.

.......................................................................................................................................................................................................
Evaluación: MB - B - R - I -

4) Otras sugerencias.............................................................................................................................................................
.......................................................................................................................................................................................................

365

También podría gustarte