Está en la página 1de 166

ESTADÍSTICA

MATERIAL TEÓRICO
Unidades 1 a 5

Modalidad a Distancia

Equipo Docente:
Cra. Ana Edith Cocco
Esp Rita Ester Maldonado
Lic. Matías Battaglino
Cra. Agostina Scapin
Cr. Fernando Lourenço

Año 2023

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 1


ESTADÍSTICA

ORGANIZACIÓN DE CADA UNIDAD


INTRODUCCIÓN
Cada unidad comienza con una introducción que hace referencia al contenido a
tratar en el mismo, a los conocimientos previos y a sus relaciones con los nuevos
conceptos a desarrollar en el mismo.

OBJETIVOS
Los establecidos para cada unidad

CONTENIDOS
Desarrollo de los contenidos de cada unidad

EJEMPLOS
Se utilizan para clarificar los contenidos.

EJERCICIOS DE CÁLCULO
Están destinados a la interpretación correcta de enunciados, uso de fórmulas y
adquisición de destrezas en el cálculo.

EJERCICIOS INTEGRADORES DE APLICACIÓN


Consisten en la aplicación de los conceptos adquiridos hasta el momento, en
situaciones de la vida cotidiana. Se pretende así que el alumno desarrolle las
sutilezas de la aplicación e interpretación de la estadística y probabilidad.
Estos ejercicios pueden ser de resolución manual o electrónica, según la
conveniencia en cada caso.

ARCHIVOS DE DATOS
Consisten en conjuntos de datos almacenados en formato planilla de cálculo para
ser utilizados en la resolución de ejercicios mediante las herramientas informáticas
adecuadas. Las mismas hacen referencia tanto a planillas de cálculo
convencionales como a software estadístico específico. En cada caso se analizará
la conveniencia de la herramienta a utilizar.

EJERCICIOS DE AUTOEXAMEN
Permiten que el alumno pueda establecer una medición de su nivel de aprendizaje
delos conceptos adquiridos y aumente la destreza de aplicación de los mismos en
situaciones cotidianas. Las soluciones se proporcionan en el apéndice destinado a
tal fin.

GLOSARIO
En esta sección se puntualizan y destacan los términos y conceptos desarrollados
en la unidad.

RESUMEN
Síntesis de la unidad.
Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 2
UNIDAD 1

LA NECESIDAD DE LA ESTADÍSTICA. LOS DATOS Y SU


MEDICIÓN - TABULACIÓN Y DESCRIPCIÓN GRÁFICA
INTRODUCCIÓN
En el ámbito de las Ciencias Económicas hay una variada gama de situaciones que
se manifiestan o representan a través de diferentes tipos de datos.
Para que un proyecto, negocio, o investigación sean exitosos, se requiere un
adecuado manejo de la información involucrada en cada uno de ellos. Es así que
se necesita contar con el conocimiento y las herramientas adecuadas para
determinar:
Qué elementos se van a observar.
Qué características de esos elementos se van a considerar.
Cómo se van a medir esas características.
Cómo se va a procesar dicha información y finalmente
Qué interpretación se dará a los resultados obtenidos para que la misma sea la
correcta.
Todo trabajo que se realiza en estadística comienza por la recolección de datos
implica una tarea ardua e importante que a los fines de esta unidad se supone
realizada. Sin embargo, la recolección de datos por si sola aporta poco al estudio
de problema, es necesario organizar y sistematizar los datos de manera concisa y
significativa de modo que permita que esos datos se transformen en información
relevante
Los datos se clasifican en cualitativos o cuantitativos, Los datos cualitativos
emplean etiquetas o nombres para determinar categorías de elementos iguales.
Los datos cuantitativos son números que indican cuánto o cuántos. También las
variables son cualitativas o cuantitativas y su medición se realizan según sea en
términos de escalas nominales ordinales (variables cualitativas) de intervalo y de
razón (variables cuantitativas).
Se realiza la presentación gráfica o tabular de datos cualitativos y cuantitativos.
Cuando se observan datos en ámbitos de la empresa o la economía, la confección
de tablas y gráficos permite mejorar la interpretación de información económica o
empresarial.
Los métodos que se explican en esta unidad en primer lugar se dirigen a una sola
variable. También se construirán gráficos y tablas mediante software.

OBJETIVOS
Proporcionar al estudiante los elementos necesarios para el tratamiento estadístico
de situaciones problemáticas.
Desarrollar habilidades para la presentación gráfica y tabular de datos cualitativos
y cuantitativos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 3


Adquirir destreza en el armado de tablas de frecuencias e interpretación de las
mismas.

CONTENIDOS
A. LA NECESIDAD DE LA ESTADÍSTICA. LOS DATOS Y SU MEDICIÓN
A.1. Origen y Aplicaciones en las Ciencias Económicas
A.2. Estadística Descriptiva
A.3. Estadística Inferencial
A.4. Población y Muestra
A.5. Datos. Variables. Escala de medición
Fuentes de Datos
A.6. Cómo se realiza un trabajo estadístico.

B. TABULACIÓN DE DATOS – DESCRIPCIÓN GRÁFICA DE LOS DATOS.


B.1. Presentación de datos cualitativos.
B.1.1. Distribución de frecuencia
B.1.2. Distribuciones de frecuencia relativa y de frecuencia porcentual
B.1.3. Gráficos de barra y gráficas de sectores
B.2. Presentación de datos cuantitativos.
B.2.1. Distribución de frecuencia
B.2.2. Distribuciones de frecuencia relativa y de frecuencia porcentual
B.2.3. Gráficos de puntos
B.2.4. Histograma
B.2.5. Distribuciones acumuladas
B.2.6. Ojiva
B.3. Análisis exploratorio de datos: el diagrama de tallo y hojas
B.4. Tabulaciones cruzadas y diagramas de dispersión
B.4.1. Tabulación cruzada
B.4.2. Diagrama de dispersión y línea de tendencia

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 4


A. LA NECESIDAD DE LA ESTADÍSTICA. LOS DATOS Y
SU MEDICIÓN

A.1 Origen y Aplicaciones en las Ciencias Económicas


En la vida cotidiana estamos rodeados de información diversa que se nos presenta
a través de diferentes tipos de datos. Por ejemplo:
 En la República Argentina el 91,4% de los niños de 5 años asisten a la
escuela, según el censo del año 2010.
 En una encuesta de Estados Unidos se encontró que el 31% de los hombres
adultos ven más de 10 horas de televisión a la semana mientras que las
mujeres solo un 26%.
 En la Provincia de Córdoba durante el año 2009 se registraron 606 mm en
promedio de precipitaciones. Fuente: Fuerza Aérea Argentina. Servicio
Meteorológico Nacional.
 En un determinado Hospital, se atienden más de 20 casos de hipertensión
diaria en varones de más de 60 años.
A estos datos numéricos se los denomina comúnmente Estadísticas. Las mismas
hacen referencia a promedios, porcentajes y medidas.
En un sentido amplio, la estadística se define como el arte y la ciencia de reunir
datos, analizarlos, presentarlos e interpretarlos. Especialmente en los negocios y
en la economía, la información obtenida al reunir datos, analizarlos, presentarlos e
interpretarlos proporciona a directivos, administradores y personas que deben
tomar decisiones una mejor comprensión del negocio o entorno económico,
permitiéndoles así tomar mejores decisiones con base en mejor información.
Considerando su origen, la Estadística estuvo ligada a gobiernos y
administraciones. Surgen así los censos que comenzaron a brindar información
acerca de la población de cada país.
Actualmente la Estadística es abordada desde distintas disciplinas y temáticas, con
mayor o menor grado de dificultad matemática, dando origen a la Estadística
Empresarial, Estadística Educativa, Estadística Médica, Estadística Psicológica,
Estadística para historiadores, entre otras. En la actualidad, la Estadística y sus
aplicaciones son parte integral de la vida cotidiana.
En las Ciencias Económicas, la Estadística puede ser utilizada para:
 Realizar análisis de los mercados financieros obteniendo conclusiones para
tomar decisiones sobre compra o venta de determinadas acciones.
 Realizar pronósticos sobre tasas de inflación, índices de desempleo, predicción
de las variables económicas para períodos futuros.
 Estimar la proporción de clientes que prefieren un producto en vez de otro y la
razón de esto.
 Control de calidad, vigilando los procesos de producción, calculando promedios,
tomando muestras de productos, separando los defectuosos para realizar
ajustes en el proceso de producción.
 Minimización de Costos

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 5


 Investigación de mercado utilizando la información de los comercios minoristas.
Se procesa y vende esta información a fabricantes de los productos.
 Asesorar a funcionarios públicos sobre políticas económicas, planes sociales,
tasas tributarias.

En este punto, se puede considerar a la Estadística como la rama de la ciencia


que trata sobre la recolección, organización, presentación, análisis e interpretación
de los datos obtenidos por las observaciones, para poder hacer comparaciones y
elaborar conclusiones.

El fin de la Estadística es darle sentido a los datos recolectados a los efectos de


tomar decisiones acertadas.

A.2 Estadística Descriptiva


Permite resumir y describir datos. Incluye la preparación de tablas, elaboración de
gráficos y técnicas para el cálculo de los diferentes parámetros poblacionales.
Es fundamental que Administradores, Contadores e Informáticos dominen estas
técnicas para resumir y caracterizar sus datos con el objeto de tomar decisiones
correctas.
Permanentemente venimos hablando de datos, cabe preguntarse de dónde se
obtienen los datos.
Se pueden obtener de diferentes maneras: fuentes de datos existentes en
dispositivos manuales (papel) o electrónicos (bases de datos, tablas), encuestas,
estudios experimentales con el objeto de recolectar nuevos datos.
Las empresas cuentan con diversas bases de datos sobre sus empleados, clientes
y operaciones de negocios. Datos sobre los salarios de los empleados, sus edades
y los años de experiencia suelen obtenerse de los registros internos del personal.
Otros registros internos contienen datos sobre ventas, gastos de publicidad, costos
de distribución, inventario y cantidades de producción. La mayor parte de las
empresas cuentan también con datos detallados de sus clientes.
La importancia de Internet como fuente de datos y de información estadística sigue
creciendo. Casi todas las empresas cuentan con una página Web que proporciona
información general acerca de la empresa, así como datos sobre ventas, cantidad
de empleados, cantidad de productos, precios de los productos y especificaciones
de los productos. Además, muchas empresas se especializan ahora en
proporcionar información a través de Internet. Con lo que uno puede tener acceso
a cotizaciones de acciones, precios de comidas en restaurantes, datos de salarios
y a una variedad casi infinita de información.
No obstante, esta facilidad de obtención de los datos, cabe considerar que se
pueden cometer errores en la toma de los mismos. Por ejemplo, un entrevistador
puede cometer un error de escritura al escribir la edad de una persona, en lugar de
colocar 26 coloca 62. También pueden quedar datos ausentes o datos que
quedaron sin registrar.
Existen procedimientos para revisar la consistencia de los datos y analizar también
si se trata de valores a típicos o inusuales. En próximas unidades se analizará este
tema en profundidad.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 6


Generalmente es muy difícil y/o costoso trabajar con todos los datos de una
población. Usualmente se selecciona una muestra para someterla a análisis y con
los resultados obtenidos de esta muestre se infieren resultados hacia la población.

A.3 Estadística Inferencial


En muchas situaciones se requiere información acerca de grupos grandes de
elementos (individuos, empresas, votantes, hogares, productos, clientes, etc.).
Pero, debido al tiempo, costo y a otras consideraciones, sólo es posible recolectar
los datos de una pequeña parte de este grupo.
La Inferencia Estadística comprende un conjunto de técnicas que nos permiten
estimar o inferir los parámetros de una población a partir de una muestra de la
misma y con ello tomar decisiones sobre esa población. Estas decisiones incluyen
un factor de riesgo, ya que las características de la población no se infieren con
certeza, lo que hace necesario medir el error cometido.
Aparecen en este párrafo varios conceptos nuevos e importantes, que se irán
definiendo y explicando con el avance de los contenidos. Ellos son: estimar,
parámetros, factor de riesgo, medición del error.

A.4 Población y Muestra


De los ejemplos mencionados precedentemente, se desprende el concepto de
Población. En unos ejemplos se trata de un grupo de personas, en otros de
productos y en otros de zonas geográficas, países o provincias.
Población: Conjunto de TODOS los elementos sujetos a estudio, que se pueden
medir según una o más características denominadas variables.
Los alumnos de un curso dado en un año dado, por ejemplo, constituyen una
población, que se puede analizar según distintas características: según el sexo,
según la edad, según las materias aprobadas, según las materias aplazadas, según
el promedio de notas, según las horas que dedique al estudio, etc. Las tiradas
sucesivas de una moneda originan una población dicotomizada en caras o cruces.
De todo esto deducimos que hay dos ingredientes principales en una población
estadística: un conjunto de individuos y una característica variable que se investiga.
Si bien el interés de una investigación está dirigido a la población, existen
limitaciones físicas, de tiempos o de recursos, que hacen poco o nada factible,
trabajar con todos los elementos de la población.
Es por ello que habitualmente, se toma una parte de la población para realizar el
estudio estadístico.
Muestra: Subconjunto de la población.
La muestra debe ser representativa. Eso significa que debe contiene las
características relevantes de la población en las mismas proporciones en que están
incluidas en tal población.
Por ejemplo, si se trabaja con la población de un país, el número de hombres y
mujeres que se toma en la muestra debe coincidir con las proporciones de dicho
país.
Este tema se profundizará durante la unidad de muestreo en Estadística Aplicada.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 7


Censo: Proceso de realizar un estudio para recolectar datos de toda una población.
Las características de una muestra, se denominan estadísticos muestrales.
Las características de una población, se denominan parámetros poblacionales.
Los estadísticos nos sirven para tratar de estimar o inferir los parámetros cuando
no podemos conocerlos estudiando directamente toda la población.
Por lo general, en estadística se usan letras del alfabeto latino para simbolizar la
información de las muestras y letras griegas para referirnos a la información de las
poblaciones. Así es que:
Media poblacional se denota con µ
̅
Media muestral se denota con 𝒙
Número de elementos de una población: N
Número de elementos de una muestra: n
Estos conceptos se utilizarán en unidades posteriores.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 8


A.5 Datos. Variables. Escala de Medición
Datos: Son hechos, informaciones y cifras que se recogen, analizan y resumen
para su presentación e interpretación.
Conjunto de datos: Se les llama así, al conjunto de datos reunidos para un
determinado estudio.
En la siguiente tabla se presenta un conjunto de datos que contiene información
sobre 24 empresas de reconocida trayectoria.

Tabla A.1. Conjunto de Datos de Empresas de mayores ventas - Año 2000


Nombre Actividad Ventas P.Neto Activo Empleo Resultado
Cargil Industria Alimenticia 2058,70 319,10 998,10 1653 59,70
Arcor Industria Alimenticia 1150,00 618,00 1170,00 13000 25,00
Asociación Coop. Arg. Asociación Cooperadora 1015,10 102,30 363,10 560 3,30
Aceitera Gral. Deheza Elaboración de Aceites 940,70 162,90 429,30 1700 1,60
Molinos Industria Alimenticia 845,50 396,20 624,40 3358 4,40
SanCor Industria Alimenticia 820,70 283,90 694,40 5146 0,10
Mastellone Hnos. Industria Alimenticia 727,30 393,30 1006,90 4200 16,00
La Plata Cereal Elaboración de Aceites 686,70 78,20 270,80 484 -54,70
Minera Alumbrera
Procesamiento de cobre y oro 487,00 24,00 1436,60 700 22,10
Limited
Aluar Industria Metalúrgica 421,00 532,40 1187,40 1936 70,70
Loma Negra Fabricación de Cementos 395,70 320,70 717,00 2945 21,40
Fabricación de alimentos y
Refinería de maíz 314,80 68,40 207,70 1330 33,40
bebidas
Toyota Arg. Fabricación de vehículos 309,00 119,10 231,60 668 -0,50
Avon Fabricación de comésticos. 308,60 35,40 98,80 1175 470,90
Producción de hilados
Du Pnt 281,00 173,00 224,00 707 16,00
sintéticos
Producción de sistemas de
Tetra Pak 260,50 84,00 213,50 362 26,90
envasado
Juan Minetti Fabricación de Cementos 258,40 433,20 917,60 1250 -25,00
Elaboración de Productos
Grupo Milkaut 231,90 91,60 165,50 1411 4,80
Lácteos
Scania Agr. Fabricación de camiones 198,60 127,00 186,00 930 -3,20
Quickfood Elaboración de alimentos 186,20 48,40 118,60 1000
Productos de limpieza y
S.C Jhonson & Son 184,00 45,10 165,50 456 7,30
cosméticos
Fate Fabricación de neumáticos 177,90 112,20 227,70 1230 -7,90
Kraft Suchard Arg. Industria Alimenticia 172,40 113,50 136,00 716 17,20
Elaboración de Productos
Milkaut 164,30 61,60 135,40 1317 0,80
Lácteos
Fuente: Revista Mercado

Elemento: Individuo o entidad de los que se obtienen los datos. En la tabla anterior,
cada empresa constituye un elemento.
Por ejemplo, Cargil es un elemento, Arcor otro elemento, Sancor otro.
Cada cifra o información volcada en la tabla constituye un dato, por lo tanto toda la
tabla es el conjunto de datos a analizar.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 9


Variable: Es la característica que interesa de los elementos.
El conjunto de datos de la Tabla A.1 contiene las 7 variables siguientes:
 Nombre de la Empresa
 Actividad a la que se dedica la Empresa
 Ventas anuales
 P. Neto: Patrimonio Neto
 Activo: anual
 Cantidad de Empleados
 Resultado anual
Los valores encontrados para cada variable en cada uno de los elementos
constituyen los datos.
Observación: Es el conjunto de mediciones obtenidas para un determinado
elemento.
Volviendo a la Tabla A.1, el conjunto de mediciones para la primera observación
(Cargil) es
Industria Alimenticia 2058,70 319,10 998,10 1653 59,70

El conjunto de mediciones para la segunda observación (Altria Group) es


Industria Alimenticia 1150,00 618,00 1170,00 13000 25,00

Un conjunto de datos que tiene 24 elementos contiene 24 observaciones.

Escalas de medición
La Escala de medición se utiliza para determinar cuánta información se encuentra
contenida en el dato.
La recolección de datos requiere alguna de las escalas de medición siguientes:
nominal, ordinal, de intervalo o de razón.
Escala nominal: Cuando el dato de una variable es un nombre que identifica una
característica de un elemento, se considera que la escala de medición es una
escala nominal. La escala de medición es nominal aun cuando los datos aparezcan
como valores numéricos ya que se usan para identificar y clasificar objetos.
No admiten criterios de orden. Cada valor se asigna a una categoría diferente.
Por ejemplo, Estado Civil de las personas que puede tomar la modalidad: soltero,
casado, divorciado, separado o viudo.
Escala Ordinal: se establece un orden jerárquico entre las categorías; ejemplo:
gerente de una empresa, jefe de sección, empleado.
Al igual que en las escalas nominales, en las escalas ordinales se emplean a
menudo porcentajes y proporciones.
Escala de intervalo: establece una distancia entre los valores de la variable, el
punto de origen de la escala es convencional, ejemplo: la temperatura corporal.
Escala de razón: presenta todas las propiedades de orden y distancia de la escala
de intervalo adicionando el punto de origen; ejemplo: el peso, la talla.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 10


El valor cero para Ventas indica que la empresa no vendió. Además, si se comparan
las ventas de una empresa $1150, con la de otra empresa, $421, la propiedad de
razón muestra que $1150/$421 = 2,73. Quiere decir que la empresa Arcor vendió
2,73 veces más que la empresa Aluar.

Datos cualitativos y cuantitativos


 Los datos cualitativos comprenden etiquetas o nombres que se usan para
identificar un atributo de cada elemento. Los datos cualitativos emplean la
escala nominal o la ordinal y pueden ser numéricos o no.
 Los datos cuantitativos requieren valores numéricos que indiquen cuánto o
cuántos. Los datos cuantitativos se obtienen usando las escalas de medición
de intervalo o de razón.
Los datos cuantitativos son discretos o continuos. Datos cuantitativos que miden
cuántos (por ejemplo, el número de llamadas recibidas en 5 minutos) son discretos.
Datos cuantitativos que miden cuánto (por ejemplo, peso o tiempo) son continuos
porque entre los posibles valores de los datos no hay separación.
Por lo tanto, una variable cualitativa es una variable con datos cualitativos.
Volviendo a la Tabla A.1., se definen a continuación las variables consideradas y
las escalas de medida correspondientes.
 Actividad: Variable Cualitativa medida en Escala Nominal.
 Ventas: Variable Cuantitativa Continua medida en Escala de razón.
 P. Neto: Variable Cuantitativa Continua medida en Escala de razón.
 Activo: Variable Cuantitativa Continua medida en Escala de razón
 Empleados: Variable Cuantitativa medida en Escala Discreta
 Resultado: Variable Cuantitativa Continua medida en Escala de razón

Otros Ejemplos:
a) La calificación de un examen en términos de desaprobado, aprobado o
promocionado, es una variable cualitativa, del tipo ordinal, en donde a pesar de
no haber, una característica numérica, sí en cambio, hay un orden que se
establece, en este caso de menor a mayor.
b) El número de empleados de una fábrica es una variable cuantitativa discreta.
c) La velocidad de un vehículo es una variable cuantitativa continua medida en
escala de razón.
d) El número de unidades de un artículo en existencia es una variable cuantitativa
discreta.
e) El Tonelaje total embarcado es una variable cuantitativa continua medida en
escala de razón.
f) La Profesión de una persona es una variable cualitativa medida en escala
nominal.

A.6 Cómo se realiza un trabajo estadístico


Comenzamos un trabajo estadístico recordando a la Estadística como la rama de
la ciencia que trata sobre la
- Recolección
Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 11
- Organización
- Presentación
- Análisis e interpretación de los datos obtenidos por las observaciones
- Elaboración de conclusiones.
Aunque en todo estudio estadístico el primer paso es la recolección de datos, es
usual asumir que los datos ya han sido recolectados y que ahora están disponibles.
Por consiguiente, el trabajo comienza con el esfuerzo por organizar y presentar
estos datos de manera significativa y descriptiva.
Los datos deben colocarse en un orden lógico que revele rápida y fácilmente el
mensaje que contienen.
Luego que los datos se han organizado y se han presentado para su revisión, deben
ser analizados e interpretados.
A este efecto haremos una primera lectura de la Tabla A.1.
Esta tabla fue diseñada en planilla de cálculo Excel.

Ejercicio A.1: Considerando la Tabla A.1., responda las siguientes preguntas:


a) ¿Cuántos elementos hay en este conjunto de datos?
b) ¿A qué hace referencia cada fila y cada columna de la tabla?
c) ¿Cuántas variables hay en este conjunto de datos?. Defina la escala de medida
para una cada de ellas.
Observe que la empresa Quickfood no presenta ningún dato en la columna
Resultado. No inventar ninguno ni colocar cero pensando en que la ausencia
de un dato equivale al valor cero.
d) ¿Cuál es el número promedio de ventas en las veinticuatro empresas?
e) ¿Qué porcentaje de ventas supera los 1000?
f) ¿En qué porcentaje la cantidad de empleados es menor a 800?
g) Observe las industrias alimenticias. ¿Cuántas empresas corresponden a este
rubro?
h) Obtenga las ventas totales por Actividad.
i) Destaque el nombre de la empresa de menor venta.

Solución:
a) La Tabla A.1. constituye un conjunto de datos. En él hay 24 elementos, cada una
de las empresas consideradas.
b) Cada fila de la tabla corresponde a un elemento o individuo. Cada columna, a
una variable.
c) En este conjunto de datos hay 6 variables: Recordemos que:
Actividad es una Variable Cualitativa medida en Escala Nominal.
Ventas es una Variable Cuantitativa Continua medida en Escala de razón.
P. Neto es una Variable Cuantitativa Continua medida en Escala de razón.
Activo es una Variable Cuantitativa Continua medida en Escala de razón
Empleados: es una Variable Cuantitativa medida en Escala Discreta
Resultado es una Variable Cuantitativa Continua medida en Escala de razón
Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 12
d) Promedio de Ventas = número de ventas = 12596 = 524,83.
24
e) 3 ventas de 24empresas superan los 1000, es decir un porcentaje del 12,5%
(3/24).
f) 8 empresas de 24empresas tienen menos de 800 empleados, es decir un
porcentaje del 33,33% (8/24).
g) Filtre la lista de datos de manera que sólo visualice las empresas
correspondientes a esta Actividad.

También incorporando la fila de totales podrá visualizar por ejemplo, la cantidad de


Industrias Alimenticias.
h)
Suma de Ventas
Actividad Total
Asociación Cooperadora 1015,1
Elaboración de Aceites 1627,4
Elaboración de alimentos 186,2
Elaboración de Productos Lácteos 396,2
Fabricación de alimentos y bebidas 314,8
Fabricación de camiones 198,6
Fabricación de Cementos 654,1
Fabricación de cosméticos. 308,6
Fabricación de neumáticos 177,9
Fabricación de vehículos 309
Industria Alimenticia 5774,6
Industria Metalúrgica 421
Procesamiento de cobre y oro 487
Producción de hilados sintéticos 281
Producción de sistemas de envasado 260,5
Productos de limpieza y cosméticos 184
Total general 12596

i) La empresa de menores ventas es Milkaut.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 13


GLOSARIO
Censo: Proceso de realizar un estudio para recolectar datos de toda una población.
Datos: Son hechos, informaciones y cifras que se recogen, analizan y resumen
para su presentación e interpretación.
Elementos: Entidades sobre las que se recolectan los datos.
Escala: Determina cuánta información se encuentra contenida en el dato.
Estadística: Rama de la ciencia que trata sobre la recolección, organización,
presentación, análisis e interpretación de los datos obtenidos por las
observaciones, para poder hacer comparaciones y elaborar conclusiones.
Estadística Descriptiva: Permite resumir y describir datos. Incluye la preparación
de tablas, elaboración de gráficos y técnicas para el cálculo de los diferentes
parámetros poblacionales.
Estadística Inferencial: Comprende un conjunto de técnicas que nos permiten
estimar o inferir los parámetros de una población a partir de una muestra de la
misma y con ello tomar decisiones sobre esa población.
Muestra: Subconjunto de la Población.
Observación: Conjunto de mediciones obtenidas de un elemento determinado.
Población: Conjunto de todos los elementos de interés en una investigación
determinada.
Variable: Característica que interesa de un elemento.

RESUMEN
Esta primera parte de la unidad introduce los conceptos básicos de la estadística
necesarios para poder realizar un trabajo estadístico.
Primeramente, se definen los conceptos elementales de población y muestra y a
continuación datos, variables y escalas de medidas con la correspondiente
clasificación.
Luego se define la estadística descriptiva e inferencial y finalmente se ingresa ya
en la elaboración de un pequeño trabajo estadístico, desde cómo recolectar datos,
organizarlos, presentarlos e interpretarlos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 14


B. TABULACIÓN DE DATOS – DESCRIPCIÓN GRÁFICA
DE LOS DATOS

B.1. Presentación de datos cualitativos


Distribución de frecuencia

Para comprender mejor este concepto analizaremos el siguiente ejemplo:


Se consideran 50 ventas de viajes de turismo de una empresa mayorista de
consolidada trayectoria en el rubro turismo. Esta situación se refleja en la siguiente
Tabla.

Tabla B.1. Datos de una muestra de 50 ventas de viajes turísticos.


Costa Atlántica Costa Atlántica Costa Atlántica Patagonia Costa Atlántica
Cataratas del Cataratas del Cataratas del
Mendoza Mendoza
Iguazú Iguazú Iguazú
Noroeste Noroeste Noroeste
Patagonia Costa Atlántica
Argentino Argentino Argentino
Cataratas del Cataratas del Noroeste
Costa Atlántica Patagonia
Iguazú Iguazú Argentino
Cataratas del Noroeste Noroeste Noroeste
Costa Atlántica
Iguazú Argentino Argentino Argentino
Noroeste
Costa Atlántica Costa Atlántica Costa Atlántica Costa Atlántica
Argentino
Mendoza Costa Atlántica Costa Atlántica Costa Atlántica Costa Atlántica
Cataratas del
Patagonia Costa Atlántica Costa Atlántica Mendoza
Iguazú
Noroeste Noroeste Noroeste Noroeste
Costa Atlántica
Argentino Argentino Argentino Argentino
Noroeste Cataratas del
Costa Atlántica Mendoza Patagonia
Argentino Iguazú
Fuente: Elaboración propia
Los datos aparecen de esta manera tal como se fueron realizando las ventas.
A continuación, se construye una tabla de distribución de frecuencias, a los efectos
de brindar una mejor interpretación de la situación.
La variable será el destino del viaje, como se observó antes se separan los valores
de la variable en categorías que no se superponen como muestra la tabla B.1.
(variable cualitativa con escala nominal) y se cuentan la cantidad de ventas de cada
una de las categorías.
El destino Costa Atlántica aparece 19 veces, Cataratas del Iguazú 8 veces,
Noroeste Argentino 5 veces, Mendoza 13 veces y Patagonia 5 veces. Esta
distribución de frecuencia proporciona un resumen de cómo se distribuyeron las 50
ventas entre los cinco destinos. El resumen aporta más claridad que los datos
originales de la tabla B.1. Al observar esta distribución de frecuencia, es claro que
Costa Atlántica es el destino que más se vendió, Cataratas del Iguazú el segundo,
Noroeste Argentino el tercero, Mendoza el cuarto y finalmente Patagonia en el
quinto lugar.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 15


Tabla B.2. Distribución de frecuencia de las ventas de viajes

Destino Turístico Frecuencia


Costa Atlántica 19
Cataratas del Iguazú 8
Noroeste Argentino 13
Mendoza 5
Patagonia 5
TOTAL 50
Fuente: Elaboración propia
Entonces una distribución de frecuencias es la agrupación en forma de tabla de los
valores de la variable separada en clases que no se superponen (son excluyentes)
y del número de elementos que se observa para cada clase y que se denomina
frecuencia absoluta.
Distribuciones de frecuencia relativa y de frecuencia porcentual
Es posible obtener a partir de las frecuencias absolutas de cada clase las
frecuencias relativas que permite mostrar la relación (proporción) respecto del total
de datos del número de elementos de cada clase. En un conjunto de datos, en el
que hay n observaciones, la frecuencia relativa de cada clase se determina como
sigue:
Frecuencia relativa de una clase = Frecuencia de la clase
n
La frecuencia relativa es igual a la proporción de los elementos que pertenecen a
cada clase.
La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por
100.
Una distribución de frecuencia relativa es una tabla en la que se muestra la
frecuencia relativa de cada clase. Mientras que una distribución porcentual es la
misma tabla expresada en porcentaje.
En la tabla B.3 se presenta una distribución de frecuencia relativa y una distribución
de frecuencia porcentual referente a los destinos turísticos. En esta tabla se
observa que la frecuencia relativa de la Costa Atlántica es 19/50 =0,38, la de las
Cataratas del Iguazú es 8/50 = 0,16, etc. En la distribución de frecuencia porcentual,
se muestra que 38% de las ventas fueron de Costa Atlántica, 16% de Cataratas del
Iguazú, etc.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 16


TABLA B.3. Distribuciones de Frecuencia Relativa y Porcentual de las ventas de viajes
turísticos.

Destino Turístico Frecuencia Frecuencia


Relativa Porcentual
Costa Atlántica 0,38 38
Cataratas del Iguazú 0,16 16
Noroeste Argentino 0,26 26
Mendoza 0,10 10
Patagonia 0,10 10
TOTAL 1,00 100
Fuente: Elaboración propia

Gráficos de barra y gráficos de Sectores


La forma más usual de representar una distribución de frecuencias de una variable
cualitativa es el gráfico de barras. En la mayoría de los casos el eje horizontal
muestra las categorías de la variable de interés y el eje vertical frecuencia absoluta,
frecuencia relativa o de frecuencia porcentual. Una característica distintiva del
grafico de barras es que las categorías no son adyacentes, es decir existe una
distancia o espacio entre las barras. En síntesis, un gráfico de barras es una
representación de una distribución de frecuencias mediante rectángulos uniformes
cuya altura representa la frecuencia de la clase.
En el gráfico B.1 se observa que Costa Atlántica, Mendoza y Cataratas del Iguazú
son los destinos preferidos.

Gráfico B.1. Gráfico de Barras para la venta de Viajes

Destinos Turísticos
40%
35%
30%
25%
20%
15%
10%
5%
0%
Costa Atlántica Cataratas del Noroeste Mendoza Patagonia
Iguazú Argentino

Fuente: Elaboración propia


Otro gráfico útil para describir distribuciones de frecuencias de una variable
cualitativa es el gráfico de sector y que muestra la proporción o porcentaje que
representa cada categoría de la variable, sobre el total de la frecuencia. Para
construir un gráfico se dibuja un círculo que representa todos los datos, luego se
usa la frecuencia relativa para subdividir el círculo en sectores, o partes, que

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 17


corresponden a la frecuencia relativa de cada clase. Por ejemplo, como un círculo
tiene 360 grados y Costa Atlántica presenta una frecuencia relativa de 0,38, el
sector del gráfico de sector correspondiente a Costa Atlántica resultará de
0,38*(360) =136,8 grados. El sector para Cataratas del Iguazú constará de
0,16*(360) =57,6 grados y así sucesivamente.
Gráfico B.2. Gráfico de sector para las ventas de viajes

Destinos Turísticos

10%

10% Costa Atlántica


38%
Cataratas del Iguazú
Noroeste Argentino
Mendoza
26% Patagonia

16%

Fuente: Elaboración propia

La distribución de frecuencias de datos cualitativos representa la


participación en el total de cada categoría, sin embargo, se individualizan solo
aquellas que tengan relevancia mientras las que no superan el 5% se agrupan
en Otros (discrecionalmente) La suma de las frecuencias es igual a la
cantidad de elementos observados, la suma de las frecuencias relativas
siempre es igual a 1 y del porcentaje es igual a 100.

B.2 Presentación de datos cuantitativos


Distribución de frecuencia
En la sección anterior se ha diferenciado entre variables cualitativas y cuantitativas.
En la tabla B.4 se encuentran los tiempos en día que demora una auditoria y el
objetivo de esta sección es ver cómo se construye una distribución de frecuencias
de esa variable.
La distribución de frecuencias, como se explicó antes para variable cualitativa,
consiste en la agrupar un conjunto de datos en categorías excluyentes entre sí, que
muestran el número de observaciones que hay en cada una de ellas.
Como se ve, esta definición se puede aplicar a una variable cuantitativa
considerando que hay que ser cuidadosos al definir las clases que se van a utilizar.
En la tabla B.4 se describen los datos sin agrupar (o datos brutos)

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 18


Tabla B.4. Auditoría Anual- Días de Duración

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
Fuente: Estadística para Administración y Economía – Anderson Sweeney Williams
Para construir una distribución de frecuencias los datos brutos se los debe agrupar
en clases y para ello es necesario definir el número de clases, el ancho que deberán
tener y fijar los límites de cada clase.
Número de clases: El fin es obtener suficientes clases de manera que se observe
la forma de distribución, y esta es una cuestión de criterio. Se recomienda emplear
entre 5 y 20 clases. Cuando los datos son pocos, cinco o seis clases bastan para
resumirlos. Si son muchos, se suele requerir más clases. Como el número de datos
en la tabla B.4 es relativamente pequeña (n = 20), se decide elaborar una
distribución de frecuencia con cinco clases.
Intervalo o ancho de clase: El número de clases y el ancho son interdependientes,
cuanto mayor sea el número de clases menor es el ancho de las clases y viceversa.
Identificando el mayor y el menor de los valores de los datos y dividiéndolo por el
número de clases se obtiene el intervalo de clase. De acuerdo con la siguiente
expresión:
Ancho aproximado de clase = Mayor valor en los datos – Valor menor en los datos
Numero de clases
La expresión ancho aproximado se debe a que se redondea el valor obtenido a
conveniencia de quien construye la distribución.
Como regla general es recomendable que el ancho sea el mismo para todas las
clases, los intervalos de clase desiguales originan problemas de análisis e
interpretación en los datos.
En los datos sobre las duraciones de las auditorías de fin de año el valor mayor en
los datos es 33 y el valor menor es 12. Como se ha decidido resumir los datos en
cinco clases, empleando la ecuación el ancho aproximado de clase que se obtiene
es (33 - 12)/5 = 4.2.
Al redondear, en la distribución de frecuencia se usa como ancho de clase cinco
días.
En la práctica el número de clases y su ancho adecuado se determinan por prueba
y error.
Y para ello se utilizan combinaciones entre número de clases e intervalo hasta
lograr la distribución que mejor resume los datos a criterio de quien la construye.
Al tener el número de clases y el intervalo o ancho de la clase, se fijan los límites
de clase.
Límites de clase. Los límites de clase deben elegirse de manera que cada dato
pertenezca a una y sólo una de las clases. El límite de clase inferior indica el menor
valor de los datos a que pertenece esa clase. El límite de clase superior indica el
mayor valor de los datos a que pertenece esa clase. Al elaborar distribuciones de

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 19


frecuencia para datos cualitativos, no es necesario especificar límites de clase
porque cada dato corresponde de manera natural a una de las clases disyuntas.
Pero con datos cuantitativos, como la duración de las auditorías de la tabla B.4, los
límites de clase son necesarios para determinar dónde colocar cada dato.

Tabla B.5. Distribución de frecuencia de las auditorías


Duración de las Frecuencia
auditorias (dias)
10-14 4
15-19 8
20-24 5
25-29 2
30-34 1
Total 20
Fuente: Estadística para Administración y Economía – Anderson Sweeney Williams

Mediante los datos de la duración de las auditorías de la tabla B.4, se elige 10 días
como límite inferior y 14 como límite superior de la primera clase. En la tabla B.5
esta clase se denota como 10–14. El valor menor, 12 (de la tabla), pertenece a la
clase 10–14. Después se elige 15 días como límite inferior y 19 como límite superior
de la clase siguiente. Así, se continúan definiendo los límites inferior y superior de
las clases hasta tener las cinco clases. El valor mayor en los datos, 33, pertenece
a la clase 30–34.
Las diferencias entre los límites inferiores de clase de clases adyacentes es el
ancho de clase. Con los dos primeros límites inferiores de clase, 10 y 15, se ve que
el ancho de clase es 15 – 10 = 5.
Una vez determinados números, ancho y límites de las clases, la distribución de
frecuencia se obtiene contando el número de datos que corresponden a cada clase.
Por ejemplo, en la tabla B.4 se observa que hay cuatro valores que pertenecen a la
clase 10-14. Por tanto, la frecuencia de la clase 10–14 es 4. Al continuar con este
proceso de conteo para las clases se obtiene la distribución de frecuencia que se
muestra en la tabla B.5. En esta distribución de frecuencia se observa lo siguiente:
1. Las duraciones de las auditorías que se presentan con más frecuencia son de la
clase 15-19 días. 8 de las 20 auditorías caen en esta clase.
2. Sólo una auditoría requirió 30 o más días.
Una observación interesante es respecto de que al organizar la información en
intervalos de frecuencia, se resume información y por lo tanto hay una perdida de
información detallada, sin embargo los beneficios de poder resumir (sobre todo una
importante cantidad de datos) en una tabla de frecuencias con intervalos,
compensa esa pérdida de detalle en la información.
Punto medio de clase. Se obtiene sumando el límite inferior y superior y
dividiéndolo por dos. Es entonces el valor medio entre el límite inferior y el límite
superior de la clase y es representativo de los valores que corresponden a cada
clase. En el caso de las duraciones de las auditorías, los cinco puntos medios de
clase son 12, 17, 22, 27 y 32.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 20


Distribuciones de frecuencia relativa y porcentual
Como se explicó para datos cualitativos la distribución de frecuencias relativas es
la proporción de la frecuencia de cada clase sobre el total de observaciones, o sea:
Frecuencia relativa de la clase = Frecuencia de la clase
n
La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100.
Las distribuciones de frecuencia relativa y porcentual que se observan en la tabla
B.6 permiten concluir que el 0.40 de las auditorías, o 40%, necesitaron entre 15 y
19 días. Sólo 0.05, o 5%, requirió 30 o más días.
Tabla B.6. Distribución de Frecuencia Relativa y Porcentual
Duración de las Frecuencia relativa Frecuencia
auditorias (días) porcentual
10-14 0.20 20%
15-19 0.40 40%
20-24 0.25 25%
25-29 0.10 10%
30-34 0.05 5%
Total 1.00 100%
Fuente: Estadística para Administración y Economía – Anderson Sweeney Williams

Gráficos de puntos
Uno de los más sencillos resúmenes gráficos de datos son las gráficas de puntos.
En el eje horizontal se presenta el intervalo de los datos. Cada dato se representa
por un punto colocado sobre este eje. El gráfico B.3 es la gráfica de puntos de los
datos de la tabla B.4.
Los tres puntos que se encuentran sobre el 18 del eje horizontal indican que hubo
tres auditorías de 18 días. Las gráficas de puntos muestran los detalles de los datos
y son útiles para comparar la distribución de los datos de dos o más variables.
Gráfico B.3. Gráfica de puntos para los datos de las duraciones de las auditorías

Tiempo para las auditorías

12 13 14 15 16 17 18 19 20 21 22 23 27 28 33

Fuente: Elaboración propia


Histograma
Se utiliza usualmente para datos cuantitativos y se hace con datos previamente
resumidos mediante una distribución de frecuencia, frecuencia relativa o
porcentual. Un histograma se construye colocando la variable de interés en el eje
horizontal y la frecuencia, en el eje vertical.
La frecuencia de cada clase se indica dibujando un rectángulo cuya base está
determinada por los límites de clase sobre el eje horizontal y cuya altura es la
frecuencia correspondiente.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 21


Gráfico B.4. Histograma de frecuencias para los datos de las duraciones de las auditorías

Frecuencias
9
8
7
6
5
4
3
2
1
0
10-14 15-19 20-24 25-29 30-34

Fuente: Elaboración propia


En esta figura, la clase de mayor frecuencia se indica mediante el rectángulo que
se encuentra sobre la clase 15–19 días. La altura del rectángulo muestra que la
frecuencia de esta clase es 8. Los rectángulos adyacentes se unen y a diferencia
de las gráficas de barras, en un histograma no hay separación. La adyacencia entre
los límites indica que todos los valores entre el límite inferior de la primera clase y
el superior de la última son posibles.
Los histogramas sirven para dar información respecto de la forma de la distribución.
Si se toman distintos conjuntos de datos y se realizan los respectivos histogramas,
se podrá visualizar el sesgo.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 22


Gráfico B.5. Histogramas de Frecuencias sesgados

Sesgado a la Izquierda Sesgado a la Derecha


7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
10-14 15-19 20-24 25-29 30-34 10-14 15-19 20-24 25-29 30-34

Simétrico
10
8
6
4
2
0
10-14 15-19 20-24 25-29 30-34

Fuente: Elaboración propia

Otra forma de representar una distribución es mediante un polígono de frecuencias.


En este al histograma se le trazan los puntos medios de cada rectángulo y se unen
esos puntos dando origen a una línea que da forma continua a la distribución. Estos
polígonos se pueden utilizar también para visualizar la forma de la distribución.

Gráfico B.6. Polígono de Frecuencias


8
8
6

5
Frequency

4
4

2
2

1
0

10 15 20 25 30 35
tiempoaudi

Fuente: Elaboración propia

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 23


Distribuciones acumuladas
Las distribuciones de frecuencia acumulativa son otra forma de representar una
distribución de una variable cuantitativa. Los elementos que la componen son los
de la distribución de frecuencia, es decir igual cantidad y amplitud de intervalos y
los mismos. Pero muestra la cantidad acumulada de frecuencia, frecuencia relativa
o porcentual correspondiente al límite superior de cada intervalo. Las primeras dos
columnas de la tabla B.7 corresponden a la distribución de frecuencia acumulada
de los datos de las duraciones de las auditorías.
Tabla B.7. Polígono de Frecuencias
Duración de las Frecuencia acumulada Frecuencia relativa Frecuencia porcentual
auditorias en días acumulada acumulada
Menor o igual que 14 4 0.20 20
Menor o igual que 19 12 0.60 60
Menor o igual que 24 17 0.85 85
Menor o igual que 29 19 0.95 95
Menor o igual que 34 20 1.00 100
Fuente: Estadística para Administración y Economía – Anderson Sweeney Williams

Para entender cómo se determina la frecuencia acumulada, considere la clase que


dice “menor o igual que 24”. La frecuencia acumulada en esta clase es simplemente
la suma de la frecuencia de todas las clases en que los valores de los datos son
menores o iguales que 24. En la distribución de frecuencia de la tabla B.7 la suma
de las frecuencias para las clases 10–14, 15–29 y 20–24 indica que los datos cuyos
valores son menores o iguales que 24 son 4 + 8 + 5 = 17. Por lo tanto, en esta clase
la frecuencia acumulada es 17. Además, en la distribución de frecuencias
acumuladas de la Tabla B.7 se observa que cuatro auditorías duraron 14 días o
menos y que 19 auditorías duraron 29 días o menos.
Por último, se tiene que la distribución de frecuencias relativas acumuladas indica
la proporción de todos los datos que tienen valores menores o iguales al límite
superior de cada clase, y la distribución de frecuencias porcentuales acumuladas
indica el porcentaje de todos los datos que tienen valores menores o iguales al
límite superior de cada clase.
La distribución de frecuencias relativas acumuladas se calcula ya sea sumando las
frecuencias relativas que aparecen en la distribución de frecuencias relativas o
dividiendo la frecuencia acumulada entre la cantidad total de datos. Empleando el
último método, las frecuencias relativas acumuladas que aparecen en la columna
3 de la tabla se obtienen dividiendo las frecuencias acumuladas de la columna 2
entre la cantidad total de datos (n = 20). Las frecuencias porcentuales acumuladas
se obtienen multiplicando las frecuencias relativas por 100. Estas distribuciones de
frecuencias acumuladas relativas y porcentuales indican que 0,85 o el 85% de las
auditorías se realizaron en 24 días o menos, que 0,95 o 95% de las auditorías se
realizaron en 29 días o menos, etcétera.

Ojiva (Polígono de frecuencias acumuladas)


La gráfica de una distribución acumulada, llamada ojiva, es una gráfica que muestra
los valores de los datos en el eje horizontal y las frecuencias acumuladas, las
frecuencias relativas acumuladas o las frecuencias porcentuales acumuladas en el

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 24


eje vertical. En el grafico B.7 se muestra una ojiva correspondiente a las frecuencias
acumuladas de las duraciones de las auditorías.
Gráfico B.7. Ojiva de los datos de las duraciones de las auditorías
Frecuencia acumulada

25

20

15

10

0
5 10 15 20 25 30 35

Duración de las auditorías

La ojiva se construye al graficar cada uno de los puntos correspondientes a la


frecuencia acumulada de las clases. Como las clases de las duraciones de las
auditorías son 10–14, 15–19, 20–24, etc., hay huecos de una unidad entre 14 y 15,
19 y 20, etc. Estos huecos se eliminan al graficar puntos a la mitad entre los dos
límites de clase. Así, para la clase 10–14 se usa 14.5, para la clase 15–19 se usa
19.5 y así en lo sucesivo.
En la ojiva del grafico B.7 la clase “menor o igual que 14” cuya frecuencia
acumulada es 4 se grafica mediante el punto que se localiza a 14.5 unidades sobre
el eje horizontal y a 4 unidades sobre el vertical. La clase “menor o igual que 19”
cuya frecuencia acumulada es 12, se representa por un punto que se encuentra a
19.5 unidades sobre el eje horizontal y 12 unidades sobre el vertical.
Observe que en el extremo izquierdo de la ojiva se ha graficado un punto más. Este
punto inicia la ojiva mostrando que en los datos no hay valores que se encuentren
abajo de la clase 10–14. Este punto se encuentra a 9.5 unidades sobre el eje
horizontal y a 0 unidades sobre el vertical.
Para terminar los puntos graficados se conectan mediante líneas rectas.

CONCLUSIONES (Estadística para Administración y Economía – Anderson


Sweeney Williams)
1. Una gráfica de barras y un histograma son en esencia lo mismo; ambas son
representaciones gráficas de una distribución de frecuencia. Un histograma es sólo
una gráfica de barras sin separación entre las barras. Para algunos datos
cuantitativos discretos, también se puede tener separación entre las barras.
Considere, por ejemplo, el número de materias en que está inscrito un estudiante
universitario. Los datos sólo tienen valores enteros. No hay valores intermedios
como 1.5, 2.73, etc. Sin embargo, cuando se tienen datos cuantitativos continuos,
como en las auditorías, no es apropiado tener separación entre las barras.
2. Los valores adecuados para los límites de clase cuando se tienen datos
cuantitativos depende del nivel de precisión de los datos. Por ejemplo, en el caso
de los datos de la tabla B.4, sobre la duración de las auditorías, los límites usados
fueron números enteros. Si los datos hubieran estado redondeados a la décima de
día más cercana (es decir, 12.3, 14.4, etc.), entonces los límites se hubieran dado
con décimas de día. La primera clase, por ejemplo, hubiera sido de 10.0 a 14.9. Si

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 25


los datos se hubieran registrado hasta la centésima de día más cercana (es decir,
12.34, 14.45, etc.), los límites se hubieran dado con centésimas de días. Por
ejemplo, la primera clase hubiera sido de 10.00–14.99.
3. Una clase abierta sólo necesita el límite inferior de la clase o el límite superior de
la clase. Por ejemplo, suponga que en los datos de la tabla B.6 sobre las duraciones
de las auditorías dos de éstas hubieran durado 58 y 65 días. En lugar de haber
seguido con clases de amplitud 5 de 35–39, de 40–44, de 45 a 49, etc., podría
haber simplificado la distribución de frecuencia mediante una clase abierta de “35
o más”. La frecuencia de esta clase habría sido 2. La mayor parte de las clases
abiertas aparecen en el extremo superior de la distribución. Algunas veces se
encuentran clases abiertas en el extremo inferior y rara vez están en ambos
extremos.
4. En una distribución de frecuencia acumulada, la última frecuencia siempre es
igual al número total de observaciones. En una distribución de frecuencia relativa
acumulada la última frecuencia siempre es igual a 1.00 y en una distribución de
frecuencia porcentual acumulada la última frecuencia es siempre 100.

B.3 Análisis exploratorio de datos: el diagrama de tallo y hojas


Las técnicas del análisis exploratorio de datos emplean aritmética sencilla y gráficas
fáciles de dibujar, dichas técnicas son útiles para resumir datos. La técnica conocida
como diagrama de tallo y hojas muestra en forma simultánea el orden jerárquico y
la forma de un conjunto de datos.
Para ilustrar el uso de los diagramas de tallo y hojas, considere la siguiente tabla.
Estos datos son el resultado de un examen de aptitudes con 150 preguntas
presentado por 50 personas que aspiraban a un puesto en una empresa. Los datos
indican el número de respuestas correctas por examen.
Tabla B.8. Nº de Preguntas contestadas correctamente

112 72 69 97 107
73 92 76 86 73
126 128 118 127 124
82 104 132 134 83
92 108 96 100 92
115 76 91 102 81
95 141 81 80 106
84 119 113 98 75
68 98 115 106 95
100 85 94 106 119
Para elaborar un diagrama de tallo y hoja inicie acomodando los primeros dígitos
de cada uno de los datos a la izquierda de una línea vertical. A la derecha de la
línea vertical se anota el último dígito de cada dato. Con base en la primera fila de
la tabla B.8 (112, 72, 69, 97 y 107), los primeros cinco datos al elaborar el diagrama
de tallo y hojas serían los siguientes:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 26


6 9
7 2
8
9 7
10 7
11 2
12
13
14

Por ejemplo, para el dato 112, se observa que los primeros dígitos, 11, se
encuentran a la izquierda de la línea y el último dato, 2, a la derecha. De manera
similar, el primer dígito, 7, del dato 72 se encuentra a la izquierda de la línea y el 2
a la derecha. Si continúa colocando el último dígito de cada dato en la fila
correspondiente a sus primeros dígitos obtiene:
6 98
7 236365
8 62311045
9 72262158854
10 748026606
11 2859359
12 6874
13 24
14 1
Una vez organizados los datos de esta manera, hay que ordenar los datos de cada
fila de menor a mayor. Entonces se obtiene el diagrama de tallo y hojas que se
muestra aquí.
6 89
7 233566
8 01123456
9 12224556788
10 002466678
11 2355899
12 4678
13 24
14 1

Los números a la izquierda de la línea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman
el tallo, y cada dígito a la derecha de la línea vertical es una hoja. Por ejemplo,
considere la primera fila que tiene como tallo el 6 y como hojas 8 y 9. Esta fila indica
que hay dos datos que tienen como primer dígito el seis. Las hojas indican que
estos datos son 68 y 69.
Para atender a la forma del diagrama de tallo y hojas, se usan rectángulos que
contienen las hojas de cada tallo; con esto se obtiene lo siguiente.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 27


6 89

7 233566

8 01123456

9 12224556788

10 002466678

11 2355899

12 4678
1
13 24

14 1

Al rotar la página sobre su costado en contra de las agujas del reloj se obtiene una
imagen de los datos que es parecida a un histograma y en el que las clases son
60–69, 70–79, 80–89, etcétera.
Aunque el diagrama de tallo y hojas parece proporcionar la misma información que
un histograma, tiene dos ventajas fundamentales:
1. El diagrama de tallo y hojas es más fácil de construir a mano.
2. En cada intervalo de clase proporciona más información que un histograma
debido a que el tallo y la hoja proporcionan el dato.
Así como para una distribución de frecuencia o para un histograma no hay un
determinado número de clases, tampoco para el diagrama de tallo y hojas hay un
número determinado de renglones o tallos. Si piensa que este diagrama original
condensa demasiado los datos, es fácil expandirlo empleando dos o más tallos por
cada primer dígito. Por ejemplo, para usar dos tallos por cada primer dígito se ponen
todos los datos que terminen en 0, 1, 2, 3 o 4 en una fila y todos los datos que
terminen en 5, 6, 7, 8 o 9 en otro. Este método se ilustra en el siguiente diagrama
expandido de tallo y hojas.
6 89
7 233
7 566
8 011234
8 56
9 12224
9 556788
10 0024
10 66678
11 23
11 55899
12 4
12 678
13 24
13
14 1
Observe que las hojas de los datos 72, 73 y 73 pertenecen al intervalo 0–4 y
aparecen con el primer tallo que tiene el valor 7. Las hojas de los valores 75, 76 y

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 28


76 pertenecen al intervalo 5–9 y aparecen con el segundo tallo que tiene el valor 7.
Este diagrama expandido de tallo y hojas es semejante a una distribución con los
intervalos 65–69, 70–74, 75–79, etcétera.
El ejemplo anterior muestra un diagrama de tallo y hojas con datos de hasta tres
dígitos. Estos diagramas también se elaboran con datos de más de tres dígitos. Por
ejemplo, considere los datos siguientes sobre el número de hamburguesas
vendidas en un restaurante de comida rápida en cada una de 15 semanas.
1565 1852 1644 1766 1888 1912 2044 1812
1790 1679 2008 1852 1967 1954 1733
A continuación, se presenta un diagrama de tallo y hojas de estos datos.

Unidad de hoja = 10

15 6
16 47
17 369
18 1558
19 156
20 04

Observe que para definir cada hoja se emplea un solo dígito y que para construir el
diagrama sólo se usaron los primeros tres dígitos de cada dato. En la parte superior
del diagrama se ha especificado que la Unidad de hoja = 10.
Para ilustrar cómo se interpretan los datos de este diagrama considere el primer
tallo 15 y su hoja correspondiente 6. Al unir estos números obtiene 156. Para lograr
una aproximación al dato original es necesario multiplicar este número por 10, el
valor de la unidad de hoja. Por tanto, 156 x 10 = 1560 es una aproximación al dato
original empleado para construir el diagrama de tallo y hoja.
Aunque a partir de este diagrama no es posible reconstruir los datos exactos, la
convención de usar un solo dígito para cada hoja, permite construir diagramas de
tallo y hojas con datos que tengan un gran número de dígitos. En diagramas que
no se especifica la unidad de hoja, se supone que la unidad es 1.

B.4 Tabulaciones cruzadas y diagramas de dispersión


Con frecuencia, los directivos o quienes deben tomar decisiones requieren métodos
tabulares o gráficos que les ayuden a entender la relación entre dos variables. La
tabulación cruzada y los diagramas de dispersión son dos métodos de este tipo.
Tabulación cruzada
Una tabulación cruzada es un resumen tabular de los datos de dos variables. Su
uso se ilustrará con el siguiente ejemplo, constituido por los datos correspondientes
a la calidad y precios de 300 restaurantes argentinos. La tabla siguiente muestra
los datos de los 10 primeros restaurantes. Se presentan los datos de calidad y
precio característicos de estos restaurantes. La calidad es una variable cualitativa
que tiene como categorías bueno, muy bueno y excelente. El precio es una variable
cuantitativa que va desde $10 hasta $49.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 29


Tabla B.9. Evaluación de la calidad y precios de 300 Restaurantes de Argentina
RESTAURANTE CALIDAD PRECIO
1 Bueno 18
2 Muy bueno 22
3 Bueno 28
4 Excelente 38
5 Muy bueno 33
6 Bueno 28
7 Muy bueno 19
8 Muy bueno 11
9 Muy bueno 23
10 Bueno 13

Fuente: Elaboración propia


En esta tabla se muestra una tabulación cruzada con los datos de esta aplicación.
Los encabezados (buena, muy buena y excelente) corresponden a las tres
categorías de calidad. Los encabezados ($10–19, $20–29, $30–39 y $40–49)
corresponden a las cuatro clases de la variable precio. Por tanto, a cada restaurante
de la muestra le corresponde una celda en una fila y en una columna de la tabla.
Por ejemplo, si el restaurante 5 tiene muy buena calidad y su precio es $33, a este
restaurante le corresponde la fila 2 y la columna 3 de precios de la tabla B.10.
La tabla B.10 muestra que la mayor parte de los restaurantes de la muestra (64)
tienen muy buena calidad y su precio está en el intervalo $20–29. También se ve
que sólo dos restaurantes tienen una calidad excelente y un precio en el intervalo
$10–19. Observe además que en el margen derecho y en la fila inferior de la
tabulación cruzada aparecen las distribuciones de frecuencia de la calidad y de los
precios, por separado. En la distribución de frecuencia de la calidad, en el margen
derecho, se observa que hay 84 restaurantes buenos, 150 muy buenos y 66
restaurantes excelentes. De manera semejante, en la fila inferior se tiene la
distribución de frecuencia de la variable precios.

Tabla B.10. Tabulación cruzada de calidad y precios de 300 Restaurantes de Argentina


PRECIO
Calidad 10-19 20-29 30-39 40-49 Total
Bueno 42 40 2 0 84
Muy bueno 34 64 46 6 150
Excelente 2 14 28 22 66
Total 78 118 76 28 300
Fuente: Elaboración propia

Al dividir los totales del margen derecho de la tabulación cruzada entre el total de
esa columna se obtienen distribuciones de frecuencia relativa y frecuencia
porcentual de la variable calidad. Por ejemplo, 84/300 = 0,28.

Calidad Frecuencia relativa Frecuencia porcentual


Bueno 0.28 28
Muy bueno 0.50 50
Excelente 0.22 22
Total 1.00 100

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 30


En esta distribución de frecuencia porcentual se observa que 28% de los
restaurantes son calificados como buenos, 50% como muy buenos y 22%
excelentes.
Si divide los totales de la fila inferior de la tabulación cruzada (Tabla B.10) entre el
total de esa fila obtiene distribuciones de frecuencia relativa y de frecuencia
porcentual de los precios.
Precio Frecuencia relativa Frecuencia porcentual
$10-29 0.26 26
$20-29 0.39 39
$30-39 0.25 25
$40-49 0.09 9
Total 1.00 100

En esta distribución de frecuencia porcentual 26% de los precios se encuentran en


la clase de los precios más bajos, 39% se encuentran en la clase siguiente, y así
sucesivamente.
El principal valor de una tabulación cruzada es que permite ver la relación entre las
variables. Una observación de la tabulación cruzada de la tabla B.10 es que los
precios más altos están relacionados con la mejor calidad de los restaurantes y los
precios bajos están relacionados con menor calidad.
Si se convierten las cantidades de una tabulación cruzada en porcentajes de
columna o de fila, se obtiene más claridad sobre la relación entre las variables. En
la tabla B.11 se presentan los porcentajes de fila, que son el resultado de dividir
cada frecuencia de la tabla B.10 entre el total de la fila correspondiente. Entonces,
cada fila de la tabla B.11 es una distribución de frecuencia porcentual de los precios
en esa categoría de calidad. Entre los restaurantes de menor calidad (buenos), el
mayor porcentaje corresponde a los menos caros (50% tiene precios en el intervalo
$10–19 y 47.6% en el intervalo $20–29). De los restaurantes de mayor calidad
(excelentes), los porcentajes mayores corresponden a los más caros (42.4% tiene
precios de $30–39 y 33.4% de $40–49). Así que un precio más elevado está
relacionado con una mejor calidad de los restaurantes.
La tabulación cruzada se utiliza mucho para examinar la relación entre dos
variables. En este, emplea una variable cualitativa (las calidades) y una cuantitativa
(los precios). También se elaboran tabulaciones cruzadas con dos variables
cualitativas o cuantitativas. Cuando se usan variables cuantitativas, primero es
necesario crear las clases para los valores de las variables. Por ejemplo, se
agruparon los precios en cuatro categorías ($10–19, $20–29, $30–39 y $40–49).

Tabla B.11. Porcentajes de fila de cada categoría de calidad

Calidad $10-19 $20-19 $30-39 $40-49 Total


Buena 50.0 47.6 2.4 0.0 100
Muy buena 22.7 42.7 30.6 4.0 100
Excelente 3.0 21.2 42.4 33.4 100

Fuente: Elaboración propia

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 31


Diagrama de dispersión y línea de tendencia
Un diagrama de dispersión es una representación gráfica de la relación entre dos
variables cuantitativas y una línea de tendencia es una línea que da una
aproximación de la relación. Por ejemplo, la relación publicidad/ventas en una
tienda de equipos de sonido. Durante los últimos tres meses, en 10 ocasiones la
tienda apareció en comerciales de televisión, en el fin de semana, para promover
sus ventas. Los directivos quieren saber si hay relación entre el número de
comerciales emitidos el fin de semana y las ventas en la semana siguiente.
En la tabla B.12 se presentan datos muestrales de las 10 semanas dando las ventas
en cientos de dólares. En el Gráfico B.8 aparece el diagrama de dispersión y la
línea de tendencia de los datos de la Tabla B.12. El número de comerciales (x)
aparece en el eje horizontal y las ventas (y) en el eje vertical. En la semana 1, x= 2
y y= 50. En el diagrama de dispersión se grafica un punto con estas coordenadas.
Para las otras nueve semanas se grafican puntos similares. Observe que en dos
semanas sólo hubo un comercial, en otras dos semanas hubo dos comerciales,
etcétera.
En el Gráfico B.8, se observa una relación positiva entre el número de comerciales
y las ventas. Más ventas corresponden a más comerciales.
En el Gráfico B.9 se muestran los patrones de los diagramas de dispersión y el tipo
de relación positiva parecida a la del ejemplo de la cantidad de comerciales y las
ventas.
En el Gráfico B.10 no aparece ninguna relación entre las dos variables.
El Gráfico B.11 representa una relación negativa en la que y tiende a disminuir a
medida que x aumenta.
Tabla B.12. Datos muestrales de una tienda de equipos de sonido

Semanas Número de comerciales Ventas (en cientos de $)


1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

Fuente: Elaboración propia

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 32


Gráfico B.8. Diagrama de dispersión y Línea de Tendencia de la tienda de Equipos de sonido

Ventas
70
Ventas (en cientos de $)

60
50
40
30
20
10
0
0 1 2 3 4 5 6
Número de comerciales

Fuente: Elaboración propia

Gráfico B.9. Tipos de relación que aparecen en los diagramas de dispersión

Fuente: Elaboración propia


Una relación positiva

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 33


Gráfico B.10. Tipos de relación que aparecen en los diagramas de dispersión

Fuente: Elaboración propia


Ninguna relación aparente

Gráfico B.11. Tipos de relación que aparecen en los diagramas de dispersión

Fuente: Elaboración propia


Una relación negativa

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 34


Ejercicio
Actualmente las redes sociales desempeñan un papel fundamental en la vida de
las personas. Diariamente son utilizadas y permiten acceder a gran cantidad de
información. Cada vez más empresas las utilizan como parte de su estrategia, ya
que entre otras ventajas facilitan contar con diferentes estadísticas en forma
periódica.
La red social Instagram para una cuenta comercial permite contar con:
 Estadísticas por publicación
 Estadísticas de perfil
 Seguidores
 Historias
 Promociones
A continuación, se presentan estadísticas sobre los Seguidores de una cuenta de
Instragram de una empresa:

1) Se pide:
a) Identifique las variables que se muestran graficadas.
b) Determine la mayor frecuencia para el Intervalo de edad y para Lugares
Destacados.
c) Realice la distribución de frecuencia relativa para la variable Sexo de los
seguidores. Determine la cantidad actual de seguidores hombres y
seguidores mujeres en valores absolutos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 35


d) En el último gráfico se muestra el nivel de actividad en las distintas horas
del día sábado de los seguidores en Instagram. Si tuvieras que elegir en
qué momento de este día es más conveniente subir las imágenes y
videos de la empresa, ¿qué horario elegirías para buscar que sea visto
por la mayor cantidad de personas? En cambio, ¿en cuáles horarios sería
menos conveniente realizar las publicaciones?
Además, la empresa realizó una Publicación, la que presentó la siguiente
cantidad de impresiones (visualizaciones totales de la publicación).

2) Se pide:
a) Muestre la distribución de frecuencia relativa y frecuencia porcentual.
b) Realice un gráfico de barras.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 36


GLOSARIO
Datos cualitativos: Nombres que se usan para identificar categorías de elementos
semejantes.
Datos cuantitativos: Valores numéricos que indican cantidad.
Diagrama de dispersión: Representación gráfica de la relación entre dos variables
cuantitativas. A una variable se le asigna un eje horizontal y a la otra un eje vertical.
Distribución de frecuencia: Resumen tabular de datos que muestra la cantidad
de veces que aparecen los datos que pertenecen a cada una de las clases.
Distribución de frecuencia acumulada: Síntesis tabular de datos cuantitativos,
en la que se muestra el número de datos que son menores o iguales que el límite
superior de cada clase.
Distribución de frecuencia relativa: Resumen tabular de datos que muestra la
proporción de datos de cada una las clases.
Distribución de frecuencia porcentual: Resumen tabular de datos que muestra
el porcentaje de datos que corresponden a cada una de las clases.
Línea de tendencia: Línea que da una aproximación de la relación entre dos
variables.
Punto medio de clase: Valor que se encuentra a la mitad entre el límite de clase
inferior y el límite de clase superior.
RESUMEN
En esta segunda parte de la unidad, se trabajó con la forma de presentación de los
datos mediante tablas de frecuencias y gráficos, distinguiendo los conceptos de
frecuencias, frecuencias relativas y porcentuales.
Según se trate de datos cualitativos o cuantitativos, será la representación mediante
la tabla y gráfico adecuado a los mismos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 37


UNIDAD 2

DESCRIPCIÓN NUMÉRICA DE LOS DATOS - ANÁLISIS


PARA UNA Y DOS VARIABLES

INTRODUCCIÓN
En la unidad anterior estudió las representaciones de datos mediante tablas y
gráficos a los efectos de resumir los datos.
Existen circunstancias en las que ni las tablas ni los gráficos nos dan información
suficiente para la toma de decisiones. Es por ello que, en esta unidad, se presentan
varias medidas numéricas que proporcionan otras opciones para resumir datos.
Primeramente, utilizará medidas numéricas para conjuntos de datos que constan
de una sola variable. Se verán medidas que se llaman de posición, que nos
permiten decir alrededor de que valor se encuentran todos los valores de la variable
aleatoria y medidas de dispersión, que nos indican si los valores están más o menos
dispersos alrededor de la medida de posición.
En algunas ocasiones basta con calcular un promedio, por ejemplo, para
caracterizar el conjunto de datos, pero en otras, debemos calcular además, alguna
medida de dispersión para caracterizarlo mejor. Si además, queremos comparar
medidas de variación de dos o más distribuciones, tendremos que considerar
valores relativos de estas medidas.
Posteriormente, si el conjunto de datos consta de más de una variable, empleará
estas mismas medidas numéricas para cada una de las variables por separado.
Además, en el caso de dos variables, estudiará también medidas de la relación
entre dos variables.

OBJETIVOS
Lograr capacidades de comprensión, definición y cálculode las medidas de posición
y dispersión.
Ser capaz de comprender, definir y calcular las medidas de asimetría.
Ser capaz de comparar dos muestras estadísticas mediante sus medidas.
Ser capaz de caracterizar a un conjunto de datos mediante la lectura de sus
medidas.
Saber utilizar estas medidas en situaciones prácticas de la vida profesional.

CONTENIDOS
2.1. Análisis para una variable
Medidas de tendencia central y Posición
Media
Mediana
Moda

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 38


Percentiles
Cuartiles
Medidas de Dispersión
Rango
Varianza
Desviación Estándar (Típica)
Coeficiente de variación
Medidas de Asimetría y Puntiagudez
2.2. Análisis para dos variables
Covarianza
Coeficiente de Correlación
Coeficiente de Determinación
2.3. Tipificación. Punto Z
2.4. Regla Empírica

2.1 Análisis para una Variable


Así como en la unidad anterior, se resumieron datos mediante gráficos y tablas de
frecuencias, en esta unidad se utilizarán medidas numéricas para resumir datos.
Estas medidas serán de posición, dispersión, forma, y asociación.
Si se calculan medidas con los datos de una muestra, llaman estadísticos
muestrales.
Si se calculan medidas con los datos de una población, se llaman parámetros
poblacionales.
En inferencia estadística, al estadístico muestral se le conoce como el estimador
puntual del correspondiente parámetro poblacional. Estos conceptos se utilizarán
en unidades posteriores.

Medidas de tendencia central y posición


Las medidas de posición tienen por objeto determinar el valor central de un conjunto
de datos.
La medida de posición debe ser fácil de calcular, pero también hay que tener en
cuenta que cuando depende de todos los datos resume mejor la característica del
fenómeno que cuando depende solamente de algunos.
En las medidas de posición más que una gran sensibilidad a los cambios en el valor
de la variable es deseable cierta estabilidad.
Una buena medida de posición debe tener la propiedad de que si a cada valor de
la variable aleatoria se le suma una cantidad constante, (lo que equivale a un
cambio de origen), la medida de posición se incremente en la misma cantidad.
La medida de posición más importante y de uso más corriente es la media aritmética
porque es la que mejor cumple con los requisitos de una buena medida de posición.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 39


Son de uso corriente, aunque no con la misma intensidad de la media aritmética, la
mediana y la moda. La mediana se utiliza preferentemente cuando los valores
extremos pueden influir demasiado en el promedio.
La medida de posición a utilizar depende, fundamentalmente, de la distribución de
los datos, de las características del fenómeno y del uso que se hará de esta medida
de posición.

Media
La medida de posición más importante es la media, o valor promedio, de una
variable. La media proporciona una medida de posición central de los datos.
Si los datos son datos de una muestra, la media se denota 𝑥̅ .
Si los datos son datos de una población, la media se denota con la letra griega μ.
Recuerde que el valor de la primera observación de la variable x se denota con x1,
el valor de la segunda observación de la variable x con x2 y así sucesivamente. El
valor de la i-ésima observación de la variable x se denota xi. La fórmula para la
media muestral cuando se tiene una muestra de n observaciones es la siguiente.
∑ 𝑥𝑖
𝑥̅ = (2.1)
𝑛

El numerador es la suma de los valores de cada una de las observaciones y el


denominador la cantidad de las mismas.
Considere los siguientes datos que representan el tamaño de cinco grupos de
alumnos de una universidad.
36 44 52 4226
xi representa el número de alumnos en cada uno de los cinco grupos, por lo tanto,
x1=36, x2=44 y así sucesivamente.
La media muestral se calcula de la siguiente manera:
n

x
i 1
i
𝑥1 +𝑥2 +𝑥3 +𝑥4 +𝑥5 36+44+52+42+26 200
𝑥̅ = = = = = 40
n 5 5 5

Por lo tanto, la media muestral del tamaño de estos grupos es 40 alumnos.


En una población, el número de observaciones se denota con N y la media μ. Por
lo tanto, la media poblacional será:
∑ 𝑥𝑖
𝜇= (2.2)
𝑁
En la fórmula 2.1 se han considerado uno por uno, todos los valores observados,
aunque algunos fueran iguales.
En la unidad 1 se definió el término frecuencia como la cantidad de veces que se
repite un valor de la variable:
fi xi
, la cantidad de veces que se repite un valor de la variable

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 40


y que la suma de las frecuencias absolutas, es igual al número total de
observaciones. En consecuencia, podemos obtener la media aritmética de n
valores observados mediante la siguiente fórmula.

n
 xi fi
x  i 1 
 xi fi
(2.3)
n n
 fi
i

Es necesario observar que aunque (2.1) y (2.3) tienen distintas estructuras, no hay
dos medias aritméticas. La media aritmética es una sola, lo que sucede es que en
la fórmula (2.1) se consideran los valores de cada observación aisladamente,
repitiendo los valores iguales tantas veces como aparecen, y en (2.3) en lugar de
x f
repetir los valores iguales, i , se tiene en cuenta su frecuencia de observación, i
f
, y se lo coloca una sola vez multiplicado por i .
Para calcular la media aritmética en las distribuciones con datos agrupados (series
agrupadas) se utilizan las mismas formulas (2.1) y (2.3), pero en las distribuciones
con datos agrupados, el valor de la variable es el punto medio del intervalo de clase.
Al respecto cabe recordar que cuando la variable aleatoria es continua, las
frecuencias, y los datos en general, están siempre dados para intervalos de clase.
Por el momento se omite la fórmula teórica de la media aritmética de una variable
continua. El cálculo práctico de la media se efectúa con la fórmula:

x i fi
x (2.4)
f i

x f
donde i es el punto medio del intervalo de clase y i la frecuencia con que se ha
presentado un valor en ese intervalo.
Debemos observar también que, cuando se trata de datos agrupados, la frecuencia
de cada clase se refiere a distintos valores dentro del intervalo de clase y que pocas
veces estos valores están uniformemente distribuidos en el intervalo.
Al tomar el punto medio como representativo de todos los valores de clase, se
supone que los datos están distribuidos uniformemente, y cuando esto no es cierto
se comete un error.
Ejemplo:
Se han registrado las ventas en un comercio durante 50 días, con los siguientes
resultados, en miles de pesos:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 41


153 – 123 – 129 – 132 – 147 – 138 – 137 – 134 – 131 – 147 –
134 – 148 – 125 – 139 – 146 – 145 – 148 – 135 – 152 – 128 –
138 – 138 – 122 – 146 – 137 – 151 – 145 – 124 – 132 – 138 –
137 – 146 – 138 – 146 – 140 – 137 – 129 – 126 – 117 – 136 –
128 – 127 – 146 – 144 – 137 – 128 – 143 – 141 – 136 – 138 –
a) Calcule la media aritmética de los datos originales.
b) Agrupe datos en un cuadro de distribución de frecuencias con cinco
intervalos.
c) Calcule la media aritmética en base a las frecuencias absolutas.

Solución
n
 xi 6.862
i 1
x   137,24
a) n 50
b) El valor mayor es 153 y el menor 117, por lo tanto la amplitud del recorrido de la
variable es 153 - 117 = 36.
La amplitud del intervalo “c” tendría que ser: 36/5=7,2; pero como no es un valor
muy cómodo para trabajar entonces se amplía el recorrido a 155- 115 de modo que
c = 40/5 = 8.
Clase
Frecuencias
Li  Ls
115  123 3
123  131 10
131  139 19
139  147 13
147  155 5
En el cuadro anterior hemos obtenido una distribución de frecuencias en cinco
intervalos de clase. Los datos así presentados no permiten el cálculo de los distintos
parámetros, para poder obtenerlos es necesario buscar un valor que represente los
valores de la variable incluidos en cada intervalo de clase. Para eso se trabaja con
los puntos medios de cada intervalo, que se obtienen sumando el límite inferior al
límite superior y dividirlo por dos,
( ( Li+Ls) / 2 )
En nuestra actividad los puntos medios son los que aparecen en el cuadro siguiente
en la columna número 1.
c) Se construye el cuadro siguiente a los fines de sistematizar la información. Las
columnas 1 y 2 surgen del cuadro presentado en punto b.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 42


(1) (2) (3) (4) (5) (6)
Puntos medios
xi
fi xi f i ( xi  x ) ( xi  x ) f i ( xi  x ) 2 f i f i

119 3 357  17.12  51.36 879.28 3


127 10 1270  9.12  91.20 831.74 13
135 19 2565  1.12  21.28 23.83 32
143 13 1859 6.88 89.44 615.35 45
151 5 755 14.88 74.40 1107.07 50
50 6806 0 3457.28

x i fi
6806
x   136.12 de acuerdo a la columna 3 del cuadro.
n 50
Compare con el resultado obtenido en a) y extraiga conclusiones.

La media aritmética ponderada


Este factor de ponderación es un elemento subjetivo, pues, lo que es importante
para una persona puede no serlo para otra, y por esa razón debe manejarse con
sumo cuidado. Generalmente se define la importancia relativa de los valores de la
variable conforme a una pauta dada y según ella se determinan los factores de
ponderación.
Si utilizamos el símbolo wi como factor de ponderación, las fórmulas de la media
aritmética muestral ponderada para el caso general es:

 xi wi
x (2.5)

 wi

 xi f i wi
x (2.6)

 wi fi

Donde  fi  n.

Ejemplo: En junio un inversionista compró 300 acciones de Telecom a un precio


de $ 20 por acción, en agosto compró 400 acciones más a $ 25 cada una y en
noviembre 400 más a $ 23 por acción. ¿Cuál es el precio medio ponderado por
acción?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 43


20 ∗ 300 + 25 ∗ 400 + 23 ∗ 400 6000 + 10000 + 9200 25200
𝑥̅ = = = = 22,91
300 + 400 + 400 1100 1100

La media geométrica

Es un tipo de media que se calcula como la raíz del producto de un conjunto de


números estrictamente positivos.

Su fórmula es:

Donde:

N: Se trata del número total de observaciones. Por ejemplo, si tenemos el


crecimiento de los beneficios de una empresa durante 4 periodos, N será 4.

x: La variable X es sobre la que calculamos la media geométrica. Siguiendo el


ejemplo anterior, el crecimiento de los beneficios estará expresado en porcentaje y
será la variable X.

i: Representa la posición de cada observación. En este ejemplo, podríamos ponerle


un número cada periodo. Un 1, al periodo 1, un 2 al periodo 2, etc. De manera que
x1 es el crecimiento de los beneficios en el periodo 1, x2 el crecimiento de los
beneficios en el periodo 2, x3 el crecimiento de los beneficios en el periodo 3 y x4
el crecimiento de los beneficios en el periodo 4.

La media geométrica se calcula como un producto conjunto. Es decir, que todos los
valores se multiplican entre sí, de modo que si uno de ellos fuera cero, el producto
total sería cero. Por ello, debemos siempre tener en cuenta que a la hora de calcular
la media geométrica necesitamos números que sean únicamente positivos.

Es recomendada para promediar razones, interés compuesto y números índice.

Una de sus principales ventajas es que es menos sensible a valores extremos (muy
grandes o muy pequeños) que podrían alterar la media de una muestra estadística.
Por el contrario, su principal desventaja es que no puede utilizarse con números
negativos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 44


Mediana

La mediana es la observación central; es decir, la mitad de las observaciones es


menor, y la otra mitad mayor.

En ocasiones la mediana se simboliza como Me o Md, el procedimiento para


calcularla es el siguiente:
 Las observaciones se ordenan de menor a mayor.
 Cuéntese para encontrar el valor medio. En un número impar de
observaciones, la mediana es el valor medio; para un número par de
observaciones se define como la media de los dos valores centrales.

Ejemplo: 25 – 28 – 29 – 30 – 35 Mediana = 29

Ejemplo: 25 – 28 – 29 – 30 – 35 - 42 Mediana = (29 + 30) / 2 = 29,50

Ejemplo: En la tabla Empresas.xlsx, la mediana de las ventas es

Mediana = (309 + 314,80) / 2 = 623,80 / 2 = 311,9

Para obtener este resultado no olvide previamente ordenar de manera creciente los
valores de ventas.
Se recuerda el contenido de la tabla Empresas.xlsx, ya utilizada en unidades
anteriores:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 45


Tabla 1.1. Conjunto de Datos de Empresas de mayores ventas - Año 2000

Nombre Actividad Ventas P.Neto Activo Empleo Resultado


Cargil Industria Alimenticia 2058,70 319,10 998,10 1653 59,70
Arcor Industria Alimenticia 1150,00 618,00 1170,00 13000 25,00
Asociación Coop. Arg. Asociación Cooperadora 1015,10 102,30 363,10 560 3,30
Aceitera Gral. Deheza Elaboración de Aceites 940,70 162,90 429,30 1700 1,60
Molinos Industria Alimenticia 845,50 396,20 624,40 3358 4,40
SanCor Industria Alimenticia 820,70 283,90 694,40 5146 0,10
Mastellone Hnos. Industria Alimenticia 727,30 393,30 1006,90 4200 16,00
La Plata Cereal Elaboración de Aceites 686,70 78,20 270,80 484 -54,70
Minera Alumbrera Limited Procesamiento de cobre y oro 487,00 24,00 1436,60 700 22,10
Aluar Industria Metalúrgica 421,00 532,40 1187,40 1936 70,70
Loma Negra Fabricación de Cementos 395,70 320,70 717,00 2945 21,40
Refinería de maíz Fabricación de alimentos y bebidas 314,80 68,40 207,70 1330 33,40
Toyota Arg. Fabricación de vehículos 309,00 119,10 231,60 668 -0,50
Avon Fabricación de cosméticos. 308,60 35,40 98,80 1175 470,90
Du Pnt Producción de hilados sintéticos 281,00 173,00 224,00 707 16,00
Tetra Pak Producción de sistemas de envasado 260,50 84,00 213,50 362 26,90
Juan Minetti Fabricación de Cementos 258,40 433,20 917,60 1250 -25,00
Grupo Milkaut Elaboración de Productos Lácteos 231,90 91,60 165,50 1411 4,80
Scania Agr. Fabricación de camiones 198,60 127,00 186,00 930 -3,20
Quickfood Elaboración de alimentos 186,20 48,40 118,60 1000
S.C Jhonson & Son Productos de limpieza y cosméticos 184,00 45,10 165,50 456 7,30
Fate Fabricación de neumáticos 177,90 112,20 227,70 1230 -7,90
Kraft Suchard Arg. Industria Alimenticia 172,40 113,50 136,00 716 17,20
Milkaut Elaboración de Productos Lácteos 164,30 61,60 135,40 1317 0,80
Fuente: Elaboración propia

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C. 46


La mediana no puede calcularse para variables categóricas medidas en
escala nominal.
Ejemplo: Supongamos un grupo de 5 personas que tienen las siguientes edades,
5, 7, 8, 10, y 90.
La mediana es el valor de la variable que está en el medio de todos los valores que
puede asumir dicha variable, cuando éstos están ordenados en un sentido dado; la
mediana implica orden y a este orden lo simbolizamos con (Me), siendo:
º

 N 1
(M e )    (2.7)
 2 

Donde N es la cantidad de datos ordenados.


El valor de la variable que ocupa el lugar señalado por el orden de la mediana, (Me),
es la mediana. En el caso anterior de las cinco personas, tenemos:
5 7 8 10 90 Valores de la variable
1º 2º 3º 4º 5º Orden en que se encuentran los datos

El orden de la mediana es:


5 1
(M e )  ( )3
2

y la mediana es el valor que ocupa el tercer lugar:


Me  8
Cuando el número de datos es impar la expresión (2.7) nos permite determinar la
mediana, y ésta coincide con un valor observado de la variable.
Cuando la serie está compuesta por un número par de datos la fórmula (2.7) indica
un orden que está comprendido entre dos valores observados; por ejemplo si la
serie anterior hubiera sido de 4 términos: 3, 7, 8, y 90, el orden de la mediana sería:
4 1 º
(M e )  ( )  2.5
2

La mediana está comprendida, ahora, entre los valores observados 7 y 8. En este


caso no hay una mediana, hay muchas, cualquier valor entre 7 y 8 es una mediana.
Por lo general se considera como valor de la mediana a la media aritmética de
estos valores ( 7 + 8 ) / 2 = 7.5 pero podemos decir que éste es el valor de una
mediana que se toma como tal por convención.
El procedimiento anterior permite calcular la mediana cuando las series no están
agrupadas. Cuando las series están agrupadas se sigue otro procedimiento.
El cálculo de la mediana para datos continuos agrupados es un poco más complejo
pues deberá utilizar Tablas de Frecuencias e intervalos de clases.
A nivel práctico, nosotros calcularemos la mediana con los puntos medios de
los intervalos de clase.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


47
Ejemplo:
Se toman los mismos datos del ejemplo anterior. Se han registrado las ventas en
un comercio durante 50 días, con los siguientes resultados, en miles de pesos:

153 – 123 – 129 – 132 – 147 – 138 – 137 – 134 – 131 – 147 –
134 – 148 – 125 – 139 – 146 – 145 – 148 – 135 – 152 – 128 –
138 – 138 – 122 – 146 – 137 – 151 – 145 – 124 – 132 – 138 –
137 – 146 – 138 – 146 – 140 – 137 – 129 – 126 – 117 – 136 –
128 – 127 – 146 – 144 – 137 – 128 – 143 – 141 – 136 – 138 –”
Con estos datos se pide:
a) calcular la mediana de los datos originales.
b) calcular la mediana de los datos agrupados.
Solución
a) Recordar que la mediana es el valor de la variable que divide al total de datos,
ordenados en forma creciente o decreciente, en dos partes iguales.
Por lo tanto, los datos puestos en orden creciente serian:

117 – 122 – 123 – 124 – 125 – 126 – 127 – 128 – 128 – 128 –
129 – 129 – 131 – 132 – 132 – 134 – 134 – 135 – 136 – 136 –
137 – 137 – 137 – 137 – 137 – 138 – 138 – 138 – 138 – 138 –
138 – 139 – 140 – 141 – 143 – 144 – 145 – 145 – 146 – 146 –
146 – 146 – 146 – 147 – 147 – 148 – 148 – 151 – 152 – 153 –

El orden de la mediana es:


50  1
( Me)   25,5
2
Por lo tanto, cualquier valor comprendido entre 137 y 138 puede ser el valor de la
mediana, pero por convención:

137  138
Me   137,5
2

b) Cuando los datos están agrupados, para el cálculo de la mediana, se debe


calcular, los intervalos de clase y trabajar con los puntos medios de cada intervalo.
Luego encontrar el orden de la mediana dentro de la frecuencia acumulada y ver
cuál es el valor de la variable que corresponde a dicha frecuencia, y ese valor es el
valor de la mediana de esa distribución.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


48
xi fi  fi  Fi
119 3 3
127 10 13
135 19 32
143 13 45
151 5 50
total 50

Cuando la frecuencia acumulada es 32, quiere decir que el orden que daba 25,5 se
encuentra dentro de esa frecuencia y por lo tanto el valor de la mediana en este
caso es el 135.
Ejemplo:
Si considera ahora un grupo de 5 personas a las que se le pregunta su edad, la
media aritmética del grupo será:
5  7  8  10  90
X   24 años
5
Esta es una cifra que no representa al grupo de ninguna manera. En cambio, si
ordenamos las edades de menor a mayor y tomamos el del medio, 8, este número
si será representativo del grupo.
Aunque la media es la medida de localización central más empleada, en algunas
situaciones se prefiere la mediana.
A la media la influyen datos en extremo pequeños o considerablemente grandes.
Al generalizar lo anterior, es posible decir que cuando los datos contengan valores
extremos, es preferible usar a la mediana como medida de localización central.

Moda
La moda es el valor que se presenta más veces.
Por lo general, se usa para un número grande de observaciones, cuando el
investigador desea hacer notar el valor más popular.
La moda es un buen indicador sólo si hay una frecuencia dominante.

Ejemplo:
Considerando la planilla de cálculo Empresas.xlsx, utilizada en las unidades
anteriores, calcule la moda para el conjunto de datos que hace referencia a las
actividades de las empresas.
La moda es Industria Alimenticia que aparece 6 veces dentro del conjunto de
datos.
Hay situaciones en que la frecuencia mayor se presenta con dos o más valores
distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de
una moda se dice que los datos son bimodales. Si contienen más de dos modas,
son multimodales. En los casos multimodales casi nunca se da la moda, pues no
resulta de mucha utilidad.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


49
Percentiles
Un percentil aporta información acerca de la dispersión de los datos en el intervalo
que va del menor al mayor valor de los datos.
Se dice que cerca de p por ciento de las observaciones tienen valores menores que
el percentil p y aproximadamente (100 - p) por ciento de las observaciones tienen
valores mayores que el percentil p. El percentil p se define como sigue:
El percentil p es un valor tal que por lo menos p por ciento de las observaciones
son menores o iguales que este valor y por lo menos (100 - p) por ciento de las
observaciones son mayores o iguales que este valor.
Las puntuaciones en los exámenes de admisión de escuelas y universidades se
suelen dar en términos de percentiles. Por ejemplo, suponga que un estudiante
obtiene 54 puntos en la parte verbal del examen de admisión. Esto no dice mucho
acerca de este estudiante en relación con los demás estudiantes que realizaron el
examen. Sin embargo, si esta puntuación corresponde al percentil 70, entonces
70% de los estudiantes obtuvieron una puntuación menor a la de dicho estudiante
y 30% de los estudiantes obtuvieron una puntuación mayor. Para calcular el
percentil p se emplea el procedimiento siguiente.

Cálculo del Percentil


a) Ordenar los datos de menor a mayor.
b) Calcular el índice i
𝑝
𝑖=( )𝑛
100
donde p es el percentil deseado y n es el número de observaciones.
c) Si i no es un número entero, debe redondearlo. El primer entero mayor que
i denota la posición del percentil p.
d) Si i es un número entero, el percentil p es el promedio de los valores en las
posiciones i e i+1.

Ejemplo:
Se consideran ahora importes de sueldos correspondientes a empleados iniciales
(sin antigüedad) de una empresa.

3450 3355 3310 3480 3490 3480 3730 3550 3540 3650 3520 3925

Se desea determinar el percentil 85 en estos sueldos.


Primeramente, se ordenan los datos de menor a mayor:
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
Luego se calcula el índice
𝑝 85
𝑖=( )𝑛 = ( ) 12 = 10,2
100 100
Como i no es un número entero, se debe redondear.
La posición del percentil 85 es el primer entero mayor que 10,2. Es la posición 11.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


50
Observe ahora los datos ordenados. El percentil 85 es el dato en la posición 11, o
sea 3730.

Cuartiles
Los cuartiles son valores análogos a la mediana y los percentiles, pero en lugar de
dividir los datos ordenados en dos partes iguales, se dividen en cuatro partes. Cada
parte contiene el 25% de las observaciones.
Q1= primer cuartil, o percentil 25. Q1 = (3450+3480)/2 = 3465
Q2 =segundo cuartil, o percentil 50
Q3 = tercer cuartil, o percentil 75
Una vez más se ordenan los sueldos iniciales de menor a mayor. Q2, el segundo
cuartil (mediana), es 3505.
Hasta aquí vimos las medidas de posición, que nos incidan el valor central
alrededor del cual se distribuyen los valores del conjunto de datos.
A continuación, veremos las medidas de variación que se llaman también medidas
de concentración o medidas de dispersión, e indican de qué manera se distribuyen
los valores alrededor del valor central. Nos dicen si estos valores están
concentrados o dispersos.

Medidas de Variación o Dispersión


En algunas ocasiones basta con calcular un promedio, por ejemplo, para
caracterizar un conjunto de datos, pero en otras debemos calcular, además alguna
medida de dispersión para caracterizarla mejor. Si además, queremos comparar
medidas de variación de dos o más conjuntos de datos, tendremos que considerar
valores relativos de estas medidas.
Ejemplo:
Dados los tres conjuntos de datos siguientes:
(1) 8 8 9 9 9 9 9 10 10
(2) 6 6 7 9 9 9 11 12 12
(3) 1 3 6 9 9 11 13 14 15

a) Calcule moda, mediana y media. Grafique cada conjunto de datos.


b) ¿Son suficientes estas medidas para realizar un análisis de datos completo?

a) Serie 1: Moda = 9; Mediana = 9; Media = 9


Serie 2: Moda = 9; Mediana = 9; Media = 9
Serie 3: Moda = 9; Mediana = 9; Media = 9

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


51
Serie 1 Serie 2

1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9

Serie 3

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


52
b) No. A simple vista las gráficas son diferentes.
Además, podemos señalar que son más convenientes las medidas que se basan
en todas las observaciones.

Rango
Es la diferencia entre el mayor valor y el menor valor del conjunto de datos.
R = XM - Xm
Donde XM es el mayor valor y Xm es el menor valor.
Considerando nuevamente los valores de ventas de la planilla Empresas.xlsx, la
mayor venta es 2058,70 y la menor es 164,30. Entonces

Rango = 2058,70 – 164,30 = 1894,40

Este resultado no es muy representativo de la variabilidad de los datos pues


solamente hay un solo valor de venta por encima de 1894,40.
Aunque el rango es la medida de variabilidad más fácil de calcular, rara vez se usa
como única medida. La razón es que el rango se basa sólo en dos observaciones
y, por tanto, los valores extremos tienen una gran influencia sobre él.
Rango intercuartílico: es la diferencia entre el tercer cuartil y el primer cuartil.
En otras palabras, el rango intercuartílico es el rango en que se encuentra el 50%
central de los datos.
En los datos de los sueldos mensuales iniciales, los cuartiles son
Q3 = 3600 y Q1 = 3465.
Por lo tanto, el rango intercuartílico es 3600 - 3465 = 135.

Varianza
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza
está basada en la diferencia entre el valor de cada observación (xi) y la media. Ala
diferencia entre cada valor xi y la media (cuando se trata de una muestra, μ cuando
se trata de una población) se le llama desviación respecto de la media. Si se trata
de una muestra, una desviación respecto de la media se escribe (𝑥𝑖 − 𝑥̅ ), y si se
trata de una población se escribe (𝑥𝑖 − 𝜇).
Para calcular la varianza, estas desviaciones respecto de la media se elevan al
cuadrado. Si los datos son de una población, el promedio de estas desviaciones
elevadas al cuadrado es la varianza poblacional. La varianza poblacional se denota
con la letra griega σ2. En una población en la que hay N observaciones y la media
poblacional es μ, la varianza poblacional se define como sigue:
∑(𝑥𝑖 −𝜇)2
Varianza Poblacional: 𝜎2 = 2.8
𝑁

En la mayor parte de las aplicaciones de la estadística, los datos a analizar


provienen de una muestra.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


53
Aunque no se dará en este curso una explicación detallada, es posible demostrar
que si la suma de los cuadrados de las desviaciones respecto de la media se divide
entre n - 1, en lugar de entre n, Por lo tanto, la varianza muestral se define así:
∑(𝑥𝑖 −𝑥̅ )2
Varianza Muestral: 𝑠 2 = 2.9
𝑁−1

Si se considera el ejemplo de las ventas de empresas, aplicando esta fórmula, la


varianza muestral será.

𝑠 2 = 199075,45

Y considerando el ejemplo dell registro de ventas en un comercio durante 50 días,


se obtienen los siguientes resultados:

(1) (2) (3) (4) (5) (6)


Puntos medios
xi
fi xi f i ( xi  x ) ( xi  x ) f i ( xi  x ) 2 f i f i

119 3 357  17.12  51.36 879.28 3


127 10 1270  9.12  91.20 831.74 13
135 19 2565  1.12  21.28 23.83 32
143 13 1859 6.88 89.44 615.35 45
151 5 755 14.88 74.40 1107.07 50
50 6806 0 3457.28

𝑠 2 = 70,55

Desviación Estándar (Típica)


La desviación estándar se define como la raíz cuadrada positiva de la varianza.

Continuando con la notación adoptada para la varianza muestral y para la varianza


poblacional, se emplea s para denotar la desviación estándar muestral y σ para
denotar la desviación estándar poblacional, por lo tanto:

∑(𝑥𝑖 −𝜇)2
Desviación estándar Poblacional: 𝜎=√ 2.10
𝑁

∑(𝑥𝑖 −𝑥̅ )2
Desviación Estándar Muestral: 𝑠=√ 2.11
𝑁−1

Continuando con el mismo ejemplo,

√𝑠 2 = 446,18

Observe que la desviación estándar se mide en las mismas unidades que los datos
originales. Por esta razón es más fácil comparar la desviación estándar con la

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


54
media y con otras medidas que se encuentren representadas en las mismas
unidades que los datos originales.

Coeficiente de variación
Coeficiente de variación: para que las medidas de variación de dos o más
distribuciones sean comparables es necesario considerar valores relativos de estas
medidas.

A tal fin se forma un cociente con una medida de variación en el numerador y una
medida de posición en el denominador como unidad de medida.

Coeficiente de variación Medida de var iacion


(CV ) 
Medida de posicion

Aunque cualquier medida de las que hemos visto se puede utilizar en el numerador
y denominador respectivamente, lo corriente es utilizar la desviación típica como
medida de variación, y la media aritmética como medida de posición, o sea

CV  para poblaciones
x
y
s
CV  para muestras
X

En algunas ocasiones se requiere un VALOR que indique cuán grande es la


desviación estándar en relación con la media. Esta medida es el coeficiente de
variación y se representa como porcentaje.
Cabe señalar finalmente que para comparar dos o más distribuciones entre si, es
necesario utilizar el mismo coeficiente en cada una de ellas.

medida de var iacion


El Coeficiente de variación es igual a CV 
medida de posicion

Se utiliza a los efectos de que las medidas de variación de dos o más distribuciones,
sean comparables. Continuando con nuestro de ejemplo de valores de venta, el
coeficiente de variación será en este caso:

medida de var iacion s 446,18


CV     0,85  85%
medida de posicion x 524,83
A medida que el CV disminuye, se observa mayor homogeneidad en los datos,
o lo que es lo mismo, los datos están más concentrados alrededor del
promedio.
Todo lo visto anteriormente, nos permite caracterizar una población según sus
medidas de posición y variación.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


55
La media es el valor promedio. Es el valor equitativo que se obtendría al repartir un
todo entre sus elementos.
La desviación estándar mide lo equitativo que se ha hecho ese reparto. A mayor
desviación estándar, menor equilibrio.

¿Cuáles son las medidas más utilizadas para describir un conjunto de datos
y cuándo se utilizan?
 La desviación estándar y la media son las dos medidas más utilizadas para
describir un conjunto de datos.
 La desviación estándar se emplea cuando también es apropiado el uso de
la media, es decir en distribuciones simétricas de datos numéricos.
 El rango es una medida apropiada para datos numéricos cuando se desea
enfatizar valores extremos.
 El coeficiente de variación es útil cuando se comparan dos distribuciones
numéricas medidas en escalas diferentes.

A continuación, se presentas medidas que dan información acerca de la forma de


la distribución de una variable. Ellas son:

Medidas de Asimetría y Puntiagudez


Asimetría:

En las distribuciones simétricas la media, la mediana y la moda tienen el mismo


valor.

En las distribuciones asimétricas la relación empírica entre la media, la mediana y


la moda es aproximadamente la siguiente:

 x  M  3(  x  M e )
o (2.12)

En la siguiente figura puede observarse la posición relativa de estos valores.

Las curvas asimétricas tienen la forma que se indica en la figura 2.1.Se dice que la
distribución (a) tiene asimetría derecha o asimetría positiva y la distribución (b)
asimetría izquierda, o negativa.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


56
Figura 2.1.

De la relación anterior se deduce una expresión que permite medir la asimetría

Mo Me µx µx Me Mo

a) asinetria derecha b) asimetria izquierda


figura 4.3

x  M o
Asimetria 
x (2.13)

Para no trabajar con el valor modal se puede utilizar esta forma:

3(  x  M e )
Asimetria 
x (2.14)

(2.13) y (2.14) se llaman coeficientes de asimetría de Pearson, primero y segundo


respectivamente.

En las distribuciones simétricas los coeficientes dados son iguales a cero. En las
otras distribuciones no son iguales a cero. Cuando el coeficiente es positivo, la
distribución es asimétrica derecha y cuando es negativo, asimétrica izquierda.

Si media, mediana y moda son iguales, diremos que la distribución es


simétrica. El gráfico correspondiente sería:

Mo.
Me.
Media

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


57
Figura 2.2

En cambio, una distribución es asimétrica derecha cuando la Moda es


menor que la Mediana y ésta menor que la Media.

Es asimétrica izquierda cuando la Media es menor que la Mediana y ésta


menor que la Moda.

Cuando los valores de los parámetros son diferentes, pero no están


ubicados en alguno de estos órdenes, simplemente decimos que la
distribución es asimétrica.

Los gráficos correspondientes serian:

Mo Me µx µx Me Mo

a) asimetria derecha b) asimetria izquierda

Figura 2.3

Por ejemplo, en la siguiente distribución, calculemos los parámetros: Media,


Mediana y Moda y veamos si la distribución es simétrica o no.

xi fi xi fi F ( x)   fi
xi  x
100 3 300 3
200 7 1400 10
300 15 4500 25
400 7 2800 32
500 3 1500 35
total 35 10500
n
 xi fxi 10500
i 1
x   300
n 35

La Media es igual a 300

Para saber cuál es el valor Modal en esta distribución, simplemente veamos el valor
de la variable que se presenta con mayor frecuencia.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


58
En este caso ese valor es 300, ya que se presenta 15 veces (fi = 15), o sea Mo=300

Nos falta saber cuál es la Mediana.


 
  n  1  35  1  
( Me)       (18) , por lo tanto la mediana es el valor de la var iable
 2   2 
que se encuentra en el orden 18 y ese valor es el 300.
Me = 300

En este ejemplo Media, Mediana y Moda son iguales, por lo tanto, es una
distribución simétrica.

Con los mismos valores de la variable, pero con otra frecuencia veamos que la
distribución se transforma de simétrica en asimétrica.

xi fi xi fi F ( x)   fi
xi  x
100 3 300 3
200 5 1000 8
300 7 2100 15
400 8 3200 23
500 12 6000 35
total 35 12.600

En este caso: x  360 , Me  400 y Mo  500 , por lo tanto la distribución es


asimétrica izquierda, ya que la Media es menor que la Mediana y esta menor que
la Moda.

Otro caso se presenta si tenemos los siguientes datos:

xi fi xi fi F ( x)   fi
xi  x
100 10 1000 10
200 9 1800 19
300 8 2400 27
400 5 2000 32
500 3 1500 35
total 35 8.700

En este caso: x  249 , Me  200 y Mo  100 , por lo tanto la distribución es


asimétrica derecha, ya que la Media es mayor que la Mediana y ésta mayor que
la Moda.

Puntiagudez

Otro parámetro, que se refiere a la forma de la distribución es el que mide la


puntiagudez de la curva.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


59
4  3 4  3 4  3

 3  3  3

Figura 2.4

Para datos sin agrupar se emplea la siguiente fórmula:

(2.15)

Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:

Para datos agrupados en intervalos se emplea la siguiente fórmula:

Dónde: = cada uno de los valores; n = número de datos; = media aritmética;


= Cuádruplo de la desviación estándar poblacional; f = frecuencia absoluta; xm =
marca de clase.

Cuando   3 , la distribución es normal: nosotros diremos que tiene puntiagudez


normal,   3 la distribución es platikurtica o achatada, es más baja que la normal,
y cuando   3 la distribución es leptokurtica o puntiaguda, es más alta que la
normal. Ver figura 2.4.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


60
2.2 Análisis para dos variables
Hasta ahora se han examinado métodos numéricos que resumen datos en una sola
variable. Muchas veces quienes toman decisiones necesitan conocer la relación
entre dos variables.
A continuación, se presentan la covarianza y la correlación como medidas
descriptivas de la relación entre dos variables.
El administrador de un determinado negocio dedicado a la venta de ropa, desea
determinar la relación entre el número de comerciales televisados en un fin de
semana y las ventas del negocio durante la semana siguiente.
En la tabla 2.2 se presentan datos muestrales de las ventas expresadas en miles
de pesos. En esta tabla se presentan 10 observaciones (n = 10), una por cada
semana. El diagrama de dispersión en el gráfico 2.1 muestra una relación positiva,
en que las mayores ventas (y) están asociadas con mayor número de comerciales
(x). En efecto, el diagrama de dispersión sugiere que podría emplearse una línea
recta como aproximación a esta relación.
Se introduce entonces la covarianza como una medida descriptiva de la asociación
entre dos variables.

Covarianza
En una muestra de tamaño n con observaciones (x1, y1), (x2, y2), etc., la covarianza
muestral se define como sigue:
∑(𝒙𝒊 −𝒙
̅)(𝒚𝒊 −𝒚
̅)
𝒔𝒙𝒚 = (2.16)
𝒏−𝟏

Tabla 2.2. Datos muestrales del negocio de venta de ropa

Semana Nro de comerciales Ventas (en miles)


1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46

Fuente: Elaboración propia

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


61
Gráfico 2.1. Datos muestrales del negocio de venta de ropa

70

60

50
Ventas (en miles)

40

30

20

10

0
0 1 2 3 4 5 6
Nro de comerciales

Fuente: Elaboración propia


Para medir, en el problema del negocio de ropa, la fuerza de la relación lineal entre
el número de comerciales x y el volumen de ventas y, se usa la ecuación 2.16 para
calcular la covarianza muestral.
En la tabla 2.3 se muestra el cálculo de ∑(𝒙𝒊 − 𝒙
̅) (𝒚𝒊 − 𝒚
̅)
Observe que 𝒙̅= 30/10 = 3 y 𝒚̅= 510/10 = 51. Empleando la ecuación (2.16) se
encuentra que la covarianza muestral es
∑(𝒙𝒊 −𝒙
̅)(𝒚𝒊 −𝒚
̅) 𝟗𝟗
𝒔𝒙𝒚 = = = 𝟏𝟏
𝒏−𝟏 𝟗
Tabla 2.3
Ventas (en
Semana Nro de comerciales miles)
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Totales 30 510 0 0 99
Fuente: Elaboración propia
La fórmula para calcular la covarianza de una población de tamaño N es semejante
a la ecuación (2.16), pero la notación usada es diferente para indicar que se está
trabajando con toda la población.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


62
∑(𝒙𝒊 − 𝝁𝒙 ) (𝒚𝒊 − 𝝁𝒚 )
𝝈𝒙𝒚 =
𝑵
donde μx se usa para denotar la media poblacional de la variable x y μy para denotar
la media poblacional de la variable y. La covarianza σ xy está definida para una
población de tamaño N.
Para ayudar a la interpretación de la covarianza muestral, considere el gráfico 2.1.;
trazando una línea vertical punteada en 𝒙 ̅= 3 y una línea horizontal punteada en 𝒚
̅=
51. Estas líneas dividen a la gráfica en cuatro cuadrantes. Los puntos del cuadrante
I corresponden a xi mayor que 𝒙 ̅y yi mayor que 𝒚 ̅ , los puntos del cuadrante II
corresponden a xi menor que ̅ 𝒙 y yi mayor que 𝒚̅, etc.
Por tanto, los valores de serán positivos para los puntos del
cuadrante I, negativos para los puntos del cuadrante II, positivos para los puntos
del cuadrante III y negativos para los puntos del cuadrante IV.
Si el valor de sxy es positivo, los puntos que más influyen sobre sxy deberán
encontrarse en los cuadrantes I y III. Por tanto, sxy positivo indica que hay una
asociación lineal positiva entre x y y; es decir, que a medida que el valor de x
aumenta, el valor de y aumenta.
Si sxy es negativo, los puntos que más influyen sobre s xy deberán encontrarse en
los cuadrantes II y IV. Entonces, sxy negativo indica que hay una asociación lineal
negativa entre x y y; esto es, conforme el valor de x aumenta, el valor de y
disminuye.
Por último, si los puntos tienen distribución uniforme en los cuatro cuadrantes, s xy
tendrá un valor cercano a cero, lo que indicará que no hay asociación lineal entre x
y y.

Coeficiente de Correlación
Para datos muestrales el coeficiente de correlación del se define como:
𝑠𝑥𝑦
𝑟𝑥𝑦 = 𝑟𝑥𝑦 = coeficiente de correlación muestral
𝑠 𝑠
𝑥 𝑦
𝑠𝑥𝑦 = covarianza muestral
𝑠𝑥 = desviación estándar muestral de x
𝑠𝑦 = desviación estándar muestral de y
Considerando nuevamente el ejemplo con el que se viene trabajando, se calculan:

∑(𝑥𝑖 − 𝑥̅ )2 20
𝑠𝑥 = √ = √ = 1,49
𝑛−1 9

∑(𝑦𝑖 − 𝑦̅)2 566


𝑠𝑦 = √ = √ = 7,93
𝑛−1 9
Recordar que 𝒔𝒙𝒚 = 𝟏𝟏, por lo tanto el coeficiente de correlación será:
𝑠𝑥𝑦 11
𝑟𝑥𝑦 = = = +0,93
𝑠𝑥 𝑠𝑦 (1,49)(7,93)

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


63
Para calcular el coeficiente de correlación poblacional, se reemplaza s por 𝜌 (ro).
𝜎𝑥𝑦
𝜌𝑥𝑦 =
𝜎𝑥 𝑠𝑦
Se concluye que existe una relación lineal fuerte entre el número de comerciales y
las ventas.
Dicho de otra manera, un aumento en el número de comerciales se asocia con un
incremento en las ventas.
La correlación proporciona una medida de la asociación lineal y no necesariamente
de la causalidad. Que la correlación entre dos variables sea alta no significa que
los cambios en una de las variables ocasionen modificaciones en la otra. Aumentar
los precios de las prendas de vestir no hará que los comerciales mejoren.
El valor del coeficiente de correlación es independiente de cualquier unidad usada
para medir las variables y se altera por un valor alejado o distante.
La manera más sencilla y eficaz de representar la correlación entre variables es a
través de los diagramas de dispersión, que permiten visualizar la nube de puntos
correspondientes a los diferentes pares de la distribución.

¿Qué información proporciona r?

 Si r = -1 o r = +1, la correlación es perfecta. La nube de puntos es alargada.


 Si r se aproxima a –1 o a +1 la correlación es fuerte. El riesgo de hacer
estimaciones de una variable a partir de la otra es escaso.
 Si r se acerca a 0 las variables están poco relacionadas. Nubes de puntos
redondeadas.
 Si r es positivo la correlación es directa: el aumento de una variable es
seguido por el aumento de la otra.
 Si r es negativo la correlación es inversa: el aumento de una variable es
seguido por la disminución de la otra.
Correlaciones de:
 0 a 0,25 (0-0.25) indican correlación escasa o falta de correlación.
 0,25 a 0,5 (-0.25 a -0.5), cierto grado de correlación.
 0,5 a 0,75 (-0,5 a -0,75) la relación es de moderada a buena.
 Mayor de 0,75 (-0.75) es muy buena o excelente.

Coeficiente de Determinación
En ocasiones la correlación se eleva al cuadrado (r2) para formar el coeficiente de
determinación. Para los datos de la Tabla 2.3., el coeficiente de determinación es
0,86, esto significa que se puede explicar o pronosticar 86 % de la variabilidad en
una de las medidas, cuando se conoce el valor de la otra medida.
El coeficiente de correlación habla del grado de la relación que vincula a dos
variables.
Si deseáramos describir la forma de la relación que liga a estas dos variables
utilizaremos la regresión lineal.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


64
2.3 Tipificación. Puntos Z
Además de las medidas de posición, variabilidad y forma, interesa conocer también
la ubicación relativa de los valores de un conjunto de datos. Las medidas de
posición relativa ayudan a determinar qué tan lejos de la media se encuentra un
determinado valor.
A partir de la media y la desviación estándar, se puede determinar la localización
relativa de cualquier observación. Suponga que tiene una muestra de n
observaciones, en que los valores se denotan x1, x2, …, xn.
Suponga además que ya determinó la media muestral, que es𝒙 ̅ y la desviación
estándar muestral, que es s. Para cada valor xi existe otro valor llamado punto z.
La ecuación siguiente permite calcular el punto z correspondiente a cada xi.
𝑥𝑖 − 𝑥̅
𝑧𝑖 = donde zi es el punto z para xi
𝑠
Al punto z también se le llama valor estandarizado.
El punto zi puede ser interpretado como el número de desviaciones estándar a las
que xi se encuentra de la media 𝒙̅. Por ejemplo, si z1= 1,2, esto indica que x1es 1.2
desviaciones estándar mayor que la media muestral.
De manera similar, z2= -0,5 indica que x2es 0,5 o 1/2 desviación estándar menor
que la media muestral.
Puntos z mayores a cero corresponden a observaciones cuyo valor es mayor a la
media, y puntos z menores que cero corresponden a observaciones cuyo valor es
menor a la media. Si el punto z es cero, el valor de la observación correspondiente
es igual a la media.
El punto z de cualquier observación se interpreta como una medida relativa de la
localización de la observación en el conjunto de datos. Por tanto, observaciones de
dos conjuntos de datos distintos que tengan el mismo punto z tienen la misma
localización relativa; es decir, se encuentran al mismo número de desviaciones
estándar de la media.
En la tabla siguiente se calculan los puntos z correspondientes a los tamaños de
los grupos de alumnos.
̅. = 40, y la desviación estándar
Recuerde que ya calculó la media muestral 𝒙
muestral, s = 9,69.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


65
Tabla 2.4. Puntos z. Ejemplo de grupos de alumnos

Nro. Alumnos Desviac. Resp de la media Puntos z


36 -4 -0,41257
44 4 0,41257
52 12 1,23771
42 2 0,20628
26 -14 -1,44399
Fuente: Elaboración propia
El punto z de la quinta observación, que es –1,44, indica que esta observación está
más alejada de la media; esta observación está 1.44 desviaciones estándar más
abajo de la media.

2.4 Regla Empírica


Hace referencia a la forma de agrupación de las observaciones alrededor de
un valor central, la media o promedio, en unidades de desviación estándar.
La Regla Empírica permite decir, siempre que los datos muestren una
distribución simétrica con forma de campana, qué proporción de los valores que se
tienen en los datos debe estar dentro de un determinado número de desviaciones
estándar de la media.

REGLA EMPÍRICA: cuando los datos tienen una distribución en forma de


campana:
• Cerca de 68% de los valores de los datos se encontrarán a no más de una
desviación estándar desde la media.
• Aproximadamente 95% de los valores de los datos se encontrarán a no más de
dos desviaciones estándar desde la media.
• Casi todos los valores de los datos estarán a no más de tres desviaciones estándar
de la media.

Por ejemplo, los envases con detergente líquido se llenan en forma automática en
una línea de producción. Los pesos de llenado suelen tener una distribución en
forma de campana. Si el peso medio de llenado es de 16 onzas y la desviación
estándar de 0.25 onzas, la regla empírica es aplicada para sacar las conclusiones
siguientes:
• Aproximadamente 68% de los envases llenados pesarán entre 15.75 y 16.25
onzas (estarán a no más de una desviación estándar de la media).
• Cerca de 95% de los envases llenados pesarán entre 15.50 y 16.50 onzas
(estarán a no más de dos desviaciones estándar de la media).
• Casi todos los envases llenados pesarán entre 15.25 y 16.75 onzas (estarán a no
más de tres desviaciones estándar de la media).

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


66
GLOSARIO
Coeficiente de correlación: Medida de la relación lineal entre dos variables, que
puede tener valores desde -1 hasta +1. Los valores cercanos a +1 indican una
fuerte relación lineal positiva; valores cercanos a -1 muestran una fuerte relación
lineal negativa, y valores cercanos a cero una ausencia de relación lineal.
Coeficiente de variación: Medida de variabilidad relativa que se obtiene al dividir
la desviación estándar entre la media y multiplicando el resultado por 100.
Cuartiles: Los percentiles 25, 50 y 75, llamados cada uno primer cuartil, segundo
cuartil (mediana) y tercer cuartil. Los cuartiles sirven para dividir al conjunto de
datos en cuatro partes; cada una contiene aproximadamente 25% de los datos.
Desviación estándar: Una medida de variabilidad obtenida de la raíz cuadrada de
la varianza.
Media: Medida de localización central que se calcula sumando los valores de los
datos y dividiendo entre el número de observaciones.
Mediana: Medida de localización central proporcionada por el valor central de los
datos cuando éstos se han ordenado de menor a mayor.
Moda: Medida de localización central, definida como el valor que se presenta con
mayor frecuencia.
Percentil: Un valor tal que por lo menos p por ciento de las observaciones son
menores o iguales que este valor y por lo menos 100 % de las observaciones son
mayores o iguales que este valor. El percentil 50 es la mediana.
Rango: Una medida de la variabilidad, que se define como el valor mayor menos
el menor.
Rango intercuartílico (RIC): Una medida de la variabilidad, que se define como la
diferencia entre el tercer y primer cuartil.
Varianza: Una medida de la variabilidad que se basa en los cuadrados de las
desviaciones de los datos respecto a la media.

RESUMEN
En esta unidad hemos visto cómo se caracteriza a un conjunto de datos,
resumiendo información, mediante el cálculo de sus principales medidas,
obteniendo así:
Sus medidas de posición (Media Aritmética, Mediana y Moda), las cuáles indican el
valor de la variable alrededor del cual se concentran los valores de las variables.
Sus medidas de dispersión (Varianza, Desviación Típica, Coeficiente de Variación)
indicando el grado de concentración de los valores de la variable respecto de las
medidas de posición.
Sus medidas de asimetría, indicando si la distribución de los valores de la variable
es la misma, tanto para los valores de la variable mayores a la medida de posición,
como para los valores de la variable menores a su medida de posición.
El análisis para dos variables.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


67
UNIDAD 3

Probabilidad

INTRODUCCIÓN
En las unidades previas, se identificó un conjunto de datos. A partir de él, se
distinguieron elementos y variables. Posteriormente se construyeron tablas de
frecuencias y gráficos con sus distribuciones.
En esta unidad se desarrolla el concepto de probabilidad como una herramienta
para medir la incertidumbre. Y también un conjunto de reglas que permiten asignar
y obtener valores de probabilidad. Estas herramientas y conceptos servirán como
base para el desarrollo de las próximas unidades.
Con respecto a la aplicación de la probabilidad como herramienta, se aborda de
dos maneras. La primera es sobre cómo se asignan probabilidades. Y otra forma
es la utilización como medida cuando a partir de una muestra, se infieren
conclusiones a cerca de la población.
Muchos conceptos de probabilidad son familiares en cierta forma. Quien no ha oído
hablar, por ejemplo, que existe una alta probabilidad de que mañana llueva, de que
la acción de una empresa cotice a mayor valor en el mercado, etc. Todos estos
conocimientos intuitivos, van a ser tratados con la correspondiente fundamentación
matemática, para intentar responder con brevedad a algunas preguntas tales como:
qué es la probabilidad, cómo se calcula, quienes son los que tienen probabilidad,
etc.

OBJETIVOS
Que el alumno sea capaz de comprender y definir los conceptos de: Fenómeno
Aleatorio, Espacio muestral, Evento, Variable aleatoria (continuas y discretas), y
Probabilidad.
Que sea capaz de calcular la probabilidad de una variable aleatoria.
Que sepa distinguir y calcular las probabilidades de eventos mutuamente
excluyentes e independientes.

CONTENIDOS
3.1 Incertidumbre
3.2 Espacio muestral, eventos, hechos o sucesos
3.3 Las definiciones de la probabilidad
3.4 Axiomas de la Probabilidad
3.5 Regla de la Suma
3.6 Probabilidad Condicional
3.7 Eventos Independientes
3.8 Regla de la multiplicación
3.9 Teorema de Bayes

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


68
3.1 Incertidumbre
Ante cambios a lo establecido se genera incertidumbre, y distintos resultados
posibles de ese cambio son inciertos.
La aleatoriedad de un experimento o de un cambio, pueden ser explicados por el
azar.
Fenómenos o Experimentos aleatorios son los que no arrojan resultados
similares ante iguales condiciones iniciales del experimento.
Este concepto se contrapone al de fenómeno determinístico que ante condiciones
iniciales iguales resulta en idénticos resultados, fenómenos generalmente
asociados a experimentos físicos. Cuando los experimentos no son físicos, como
en el caso de los experimentos sociales, las condiciones iniciales no son
controlables, pero se puede concebir la sucesión de resultados como fruto de un
experimento aleatorio.
Ejemplos de experimentos aleatorios son el lanzamiento de una moneda, el nivel
de producción de un día etc., en tanto que como ejemplos de fenómenos
determinísticos se pueden mencionar los grados de ebullición del agua, la
temperatura de dilatación del metal, resultado de un partido de futbol, velocidad de
caída de un cuerpo, tasa de inflación, etc.

3.2 Espacio muestral, eventos, hechos o sucesos


Eventos simples: Son los resultados posibles simples o básicos de un
experimento aleatorio. Los eventos simples no pueden ocurrir simultáneamente,
sólo ocurre uno.
Ejemplo: observar la cara superior ante el lanzamiento de un dado.
¿Cuál es el experimento y cuáles son los resultados posibles?
El experimento es el lanzamiento del dado, y el resultado surge de la observación
de la cara superior que puede ser: E1=1, E2=2, E3= 3, E4=4, E5=5, E6=6.
Al conjunto de todos los resultados posibles simples de un experimento aleatorio
se lo denomina Espacio muestral y se denota con la letra E o S

S  1,2,3,4,5,6
Es importante observar que el espacio muestral contiene todos los resultados
posibles de un experimento aleatorio, pero cuando se realiza el experimento
solamente ocurre uno de estos eventos simples. Por eso se dice que el espacio
muestral constituye un conjunto exhaustivo de elementos que son mutuamente
excluyentes.
Así por ejemplo si se trata del experimento aleatorio tirada de la moneda, el espacio
muestral estará definido por los eventos simples:
S  cara, cruz

Este espacio muestral contiene dos resultados posibles (eventos simples), pero
cuando se realice el experimento solamente se presentará uno de ellos.
Se definen a continuación los posibles tipos de eventos:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


69
a) El evento imposible (conjunto vacío) no contiene ningún resultado posible.
b) El evento simple, como ya se definió, contiene un solo resultado posible.
c) El evento compuesto contiene más de un resultado posible.
d) El evento cierto (espacio muestral) contiene todos los eventos simples.

Con relación a la tirada del dado podemos establecer los siguientes eventos:
a) El evento imposible: S 0  (conjunto vacío )
b) Eventos simples:
S 2  1

S 2  2

S 3  3

S 4  4
c) Eventos compuestos son los que contienen más de un resultado posible.
Se pueden realizar muchas combinaciones. Por ejemplo:
S 7  1,2,3
En este caso podemos haber definido el evento compuesto: "los resultados de la
tirada de un dado, tal que los números sean menor a cuatro"
Y en el caso siguiente, que los resultados de la tirada del dado sean números pares.
S 8  2,4,6
d) Evento cierto: Se trata también de un evento compuesto constituido por
todos los eventos simples.
S  1,2,3,4,5,6
Existe un paralelismo entre la terminología utilizada y las reglas de la Teoría de
Conjuntos (Sixto Ríos. Métodos Estadísticos. Mc Graw Hill - 1969). Sólo a título
informativo, se resume esta vinculación en el siguiente cuadro:

Teoría de Conjuntos Resultados posibles de un fenómeno


aleatorio
Elementos del conjunto Eventos simples
Conjuntos Espacio Muestral
Sub-Conjuntos Eventos
Conjunto vacío Evento Imposible
Conjunto complementario Evento Contrario
Unión de conjuntos Unión de eventos
Intersección de conjuntos Intersección de eventos
Conjuntos disjuntos Eventos mutuamente excluyentes
El espacio muestral y los eventos se pueden representar mediante un diagrama de
Venn.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


70
Considere que este diagrama representa a los eventos compuestos: A=(2,3,4)
B=(4,5,6), resultados de un experimento aleatorio que consiste en el lanzamiento
de un dado.
El evento A está formado por "los resultados de la tirada de un dado, tal que los
números sean menor a cinco y mayor que 1".
El evento B está formado por "los resultados de la tirada de un dado, tal que los
números sean mayores que 3".

Dados dos eventos que pertenecen a E se define como la intersección de dos


eventos A y B, AB, a la ocurrencia de todos los eventos simples en E que
pertenecen tanto a A como a B, es decir, la intersección es la ocurrencia de
ambos eventos.

Aquellos eventos compuestos que ocurren conjuntamente se denominan


eventos no mutuamente excluyentes. Mientras que serán eventos
mutuamente excluyentes aquellos que no pueden ocurrir juntos; es el caso
de dos conjuntos A y B que no contienen eventos simples en común, es decir,
la intersección de ambos es el conjunto vacío (AB=).
Se dice que dos o más eventos son colectivamente exhaustivos cuando de
su unión resulta el espacio muestral.

Ejemplo: en el lanzamiento del dado analice los eventos pares e impares. ¿Son
mutuamente excluyentes?. Dé un ejemplo de no mutuamente excluyentes.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


71
3.3 Las definiciones de la probabilidad
El fenómeno aleatorio arroja resultados en los que el azar deja su impronta. Para
poder considerar la posibilidad de que un resultado del fenómeno aleatorio suceda,
se necesita medir esa posibilidad y esa valoración se denominará probabilidad. Sin
embargo, ésta no es una definición formal de probabilidad; las distintas definiciones
de probabilidad se presentan a continuación.
La probabilidad es una medida numérica de la verosimilitud de ocurrencia de un
evento. La forma de asignar este valor ha sido objeto de estudio de tres escuelas
de pensamiento: la teoría clásica, la teoría de la frecuencia relativa y la teoría
subjetiva.
La definición clásica
Se asienta fundamentalmente en el supuesto de resultados igualmente probables.
Si un dado es perfecto en su construcción se espera que tenga igual probabilidad
de salir cualquiera de los seis números. Por este motivo la probabilidad de que
1
salga un número cualquiera tendrá el valor .
6
Cuando se expresa en forma general y existen N resultados posibles cada uno de
ellos tendrá probabilidad igual a .1
N

En forma general se puede definir como:

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑝𝑢𝑒𝑑𝑒 𝑜𝑐𝑢𝑟𝑟𝑖𝑟 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜


Definición clásica P(E)=
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

El enfoque clásico descansa sobre el supuesto de igualdad de probabilidad para


todos los eventos. Este es un supuesto fuerte que no se verifica en la realidad para
todos los casos, y cuando no se verifica, el enfoque clásico asigna probabilidades
con error, cuya magnitud dependerá de la magnitud del desvío en la igualdad de
probabilidades. Cuando no es posible asignar probabilidades mediante este
enfoque se utiliza el enfoque de la frecuencia relativa.

Enfoque de la frecuencia relativa


El procedimiento válido para la asignación de probabilidades según este enfoque,
es la asignación de probabilidades mediante la observación pasada de los
resultados de un experimento. Si el número de veces que se realizó la observación
en iguales condiciones es n y el evento ocurre s veces, siendo s  n , la probabilidad
s
estimada es n y esta estimación se acerca al verdadero valor de la probabilidad
en la medida que n sea suficientemente grande.
En forma general se puede definir como:

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑖ó 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜


Enfoque frecuencial P(E)= 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠

Ejemplo: Si el año pasado en la maternidad de la ciudad hubo 100 nacimientos, y


de ellos 64 fueron de sexo femenino, la probabilidad que el próximo nacimiento sea
64
una niña es P(F)= 100 .

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


72
Tanto la teoría clásica como la de la frecuencia relativa son enfoques objetivos de
probabilidad debido a que se originan en supuestos como el de igualdad de
probabilidades (teoría clásica) o porque se observa empíricamente un número
importante de repeticiones del fenómeno (frecuencia relativa).
Para asignar probabilidades mediante la frecuencia relativa no solo es necesario
contar con datos, sino que además deber ser una cantidad suficientemente grande.
Si el número de datos fuera insuficiente, las probabilidades no necesariamente
serían una estimación de la probabilidad; y si los mismos no existieran sería
imposible aplicar esta forma de asignación de probabilidades.
Finalmente existe una última forma de asignación de probabilidades, mediante el
enfoque subjetivo.

Enfoque subjetivo
Los enfoques anteriores dan cuenta del cálculo de probabilidades para
experimentos que se pueden repetir o que cumplen la condición de eventos
equiprobables. Sin embargo, cuando existen eventos que se realizan una sola vez,
es decir no son repetitivos, esos enfoques no están en condiciones de asignar
probabilidades y, por lo tanto, un importante conjunto de eventos no podrían
abordarse.
Por eso surge el enfoque subjetivo de probabilidades; que considera a la
probabilidad como una medida de confianza personal sobre un evento particular,
en otras palabras es una asignación de un valor a una creencia. Ese valor está
dentro del rango de 0 y 1.
Si un individuo cree que un evento A tiene el doble de posibilidades de salir que el
evento B, y A y B son los únicos eventos posibles, entonces la P(A)= 2/3 y la de
B=1/3.
El enfoque subjetivo admite que distintos individuos pueden tener, en términos de
probabilidad, ponderaciones distintas. El enfoque subjetivo tiene singular
importancia para asignar probabilidades a fenómenos que no han ocurrido o de
muy escasa frecuencia. En general el criterio de asignación descansa en el criterio
o juicio de un experto.
Estos enfoques son complementarios y se utiliza aquel que se considera más
apropiado conforme a las condiciones del fenómeno que se analiza.

3.4 Axiomas y Propiedades de la Probabilidad


Los axiomas de la teoría de Probabilidad son los siguientes:
Axioma 1 - Positividad: Si A es un evento definido en E, entonces 0  P( A)  1
Este axioma afirma que la probabilidad de un evento es no negativa y que no puede
ser mayor a 1.
Axioma 2 - Certeza: Siendo E el espacio muestral, P(E)=1.
El espacio muestral es de probabilidad cierta es un evento que va necesariamente
a ocurrir cuando se lleve a cabo el experimento.
Axioma 3 – De la Suma: Si A y B son dos eventos definidos en E y si AB=, o
sea que A y B son mutuamente excluyentes, entonces la probabilidad de que ocurra
cualquiera de ellos es la suma de sus probabilidades; o sea P( A  B)  P( A)  P( B)

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


73
Este teorema se puede generalizar para k números de eventos:
P(A 1 + A 2 + ⋯ . . +A 3 ) = P(A 1 ) + P(A 2)….+ P(A k)
De los axiomas anteriores se deducen las siguientes propiedades:
1) La probabilidad del evento imposible es 0, si un evento es imposible no puede
ocurrir entonces su probabilidad 0.
Ejemplo: la probabilidad de obtener un 7 en el lanzamiento de un dado.

2) La probabilidad de E es igual a P(A) + P(Ac )= 1 (siendo Ac el complemento del


evento A) . La probabilidad de A y de Ac son complementarias, mutuamente
excluyentes y colectivamente exhaustivos. Entonces la P(Ac ) = 1 − P(A)

Es importante no perder de vista lo siguiente:


a) Los que tienen probabilidad son los eventos, definidos como conjuntos de
resultados posibles de un fenómeno aleatorio.
b) La probabilidad de un evento, es en realidad una medida relativa de la posibilidad
de que se presente ese evento.
c) La definición axiomática provee una representación abstracta de la probabilidad,
pero no nos dice cómo se obtiene su valor; o sea, cómo se obtiene ese número
que se llama la probabilidad del evento.

3.5 La regla de la Suma


La regla de la suma permite saber la probabilidad de que ocurra cualquiera de los
eventos relacionados.

Si A y B son eventos no mutuamente excluyentes la probabilidad de que


ocurra A o B, o ambos es la suma de las probabilidades de los eventos A y
B, menos la probabilidad de su ocurrencia conjunta.
Entonces P( A  B)  P( A)  P( B)  P( A  B) a este resultado se lo conoce
como la regla de la suma (regla aditiva general).
Cuando la intersección es igual al evento imposible, o sea la probabilidad de que
se den conjuntamente ambos eventos sea igual a 0:
P(A ∪ B) = P(A) + P(B).
Gráficamente la regla de la suma sería:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


74
Eventos no mutuamente excluyentes Eventos mutuamente excluyentes

Cuando dos eventos son no mutuamente excluyentes como A y B, al sumar la P(A)


se suma la parte de la intersección con B y al sumar la probabilidad de B se vuelve
a suma la intersección entre Ay B. Por este motivo es necesario restar una vez esa
intersección para obtener el resultado correcto. P( A  B)  P( A)  P(B)  P( A  B) .
En el caso de eventos mutuamente excluyentes la probabilidad de la intersección
es igual a 0, por lo que el resultado correcto es P(A ∪ B) = P(A) + P(B).
El teorema de la suma se puede generalizar, pongamos por caso tres eventos A, B
y C que se definen en el mismo espacio muestral, entonces:
P( A  B  C)  P( A)  P( B)  P(C )  P( A  B)  P( A  C)  P( B  C)  P( A  B  C)

Ejemplo:
De mil personas que se han entrevistado en Río cuarto, se han obtenido los datos
respecto de su nivel del estudio y su condición de empleo. Se solicita calcular la
probabilidad que un individuo tenga estudios secundarios o esté empleado.

A partir del concepto de Probabilidad Condicional se puede derivar una expresión


general para la probabilidad conjunta de dos eventos (regla de la multiplicación), no
obstante, será necesario distinguir entre eventos dependientes e independientes

3.6 Probabilidad Condicional


Teniendo en cuenta el ejemplo de Anderson-Sweeney-Williams, considere el caso
de las promociones de los agentes de policía de una determinada ciudad. La fuerza
policíaca consta de 1200 agentes, 960 hombres y 240 mujeres. De éstos, en los
últimos dos años, fueron promovidos 324.
En la Tabla 3.1 se muestra cómo quedaron repartidas estas promociones entre los
hombres y mujeres. Después de analizar el registro de las promociones, un comité
femenil protestó, ya que habían sido promovidos 288 agentes hombres, frente a
sólo 36 mujeres. Los directivos de la fuerza policial argumentaron que el número

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


75
de mujeres promovidas no se debía a una discriminación, sino a que el número de
mujeres que son agentes de policía es una cantidad pequeña.

Tabla 3.1. Promociones, en los dos últimos años, de los agentes de policía.
Hombre Mujer Total
Promovido 288 36 324
No Promovido 672 204 876
Total 960 240 1200

Fuente: Anderson – Sweeney - Williams


Ahora verá cómo emplear la probabilidad condicional para analizar esta acusación
de discriminación. Sean:
M = el evento que un agente de policía sea hombre
W = el evento que un agente de policía sea mujer
A = el evento que un agente de policía sea promovido
Ac = el evento que un agente de policía no sea promovido
Dividir los valores de los datos de la tabla 3.1 entre el total de agentes de policía,
1200, permite concretar la información que se tiene en las probabilidades
siguientes.
P(M  A) = 288/1200 = 0.24 = probabilidad de que un agente de policía, escogido
en forma aleatoria, sea hombre y haya sido
promovido
P(M  Ac) = 672/1200 = 0.56 = probabilidad de que un agente de policía, escogido
en forma aleatoria, sea hombre y no haya
sido promovido
P(W  A) = 36/1200 = 0.03 = probabilidad de que un agente de policía, escogido
en forma aleatoria, sea mujer y haya sido promovido
P(W  Ac) = 204/1200 = 0.17 = probabilidad de que un agente de policía, escogido
en forma aleatoria, sea mujer y no haya sido
promovido
Como cada uno de estos valores da la probabilidad de la intersección de dos
eventos, se les llama probabilidades conjuntas. A la Tabla 4.2, que proporciona la
información de las probabilidades de promoción de los agentes de policía, se le
conoce como tabla de probabilidades conjuntas.
Las cantidades que aparecen en los márgenes de una tabla de las probabilidades
conjuntas son las probabilidades de cada uno de los eventos por separado. Es
decir,
P(M) = 0.80, P(W) = 0.20, P(A) = 0.27, P(Ac) = 0.73
A estas probabilidades se les conoce como probabilidades marginales por
encontrarse en los márgenes de una tabla de probabilidad conjunta.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


76
Tabla 3.2. Tabla de Probabilidad Conjunta para las Promociones.
Hombre (M) Mujer (W) Total
Promovido (A) 0,24 0,03 0,27
No Promovido (Ac) 0,56 0,17 0,73
Total 0,80 0,20 1,00
Fuente: Anderson – Sweeney - Williams

Las probabilidades conjuntas aparecen en el cuerpo de la tabla.


Las probabilidades marginales aparecen en los márgenes de la tabla.

Observe que las probabilidades marginales se obtienen al sumar las probabilidades


conjuntas del renglón o columna correspondiente de la tabla de probabilidades
conjuntas. Por ejemplo, la probabilidad marginal de ser promovido es P(A) = P(M
 A) + P(W  A) = 0.24 + 0.03 = 0.27.
En las probabilidades marginales se observa que 80% de la fuerza policiaca está
formada por hombres y 20% por mujeres, que 27% de los agentes de policía fueron
promovidos y 73% no fueron promovidos.
Ahora empiece con el análisis de la probabilidad condicional calculando la
probabilidad de que un agente de policía sea promovido dado que ese agente sea
hombre.
Emplee la notación para probabilidad condicional para determinar P(A | M).
Para calcular P(A | M) se observa, primero, que esta notación sólo significa que se
considera la probabilidad del evento A (promoción) ya que la condición designada
como evento M (que el agente de policía sea hombre) está dada.
Así que P(A | M) indica que sólo interesan los promovidos dentro de los 960 agentes
de policía que son hombres. Como 288 de los 960 agentes de policía que son
hombres fueron promovidos, la probabilidad de ser promovido dado que se es un
agente hombre es 288/960 = 0.30. En otras palabras, puesto que un agente de
policía es hombre, ese agente tuvo 30% de probabilidades de ser promovido en los
dos últimos años.
Resultó fácil aplicar este procedimiento, ya que en la Tabla 3.1 se muestra el
número de agentes de policía en cada categoría.
Ahora es interesante mostrar cómo calcular probabilidades condicionales, como
P(A | M), a partir de las probabilidades de eventos relacionados y no a partir de los
datos de frecuencias de la tabla 3.1. Entonces,
P(A | M) = 288/960 = 0.30.
Ahora, tanto el numerador como el denominador de esta fracción se dividen entre
1200, cantidad total de agentes de policía en el estudio.

288 288 / 1200 0,24


P( A / M )     0,30
960 960 / 1200 0,80
Observe que la probabilidad condicional se obtiene de 0.24/0.80. Regrese a la tabla
de probabilidad conjunta (Tabla 4.2) y observe que 0.24 es la probabilidad conjunta
de A y M; es decir, P(A  M) = 0.24; también que 0.80 es la probabilidad marginal

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


77
de que un agente de la policía seleccionado aleatoriamente sea hombre. Es decir,
P(M) = 0.80. Por tanto, la probabilidad condicional P(A | M) se calcula como la razón
entre P(A  M) y la probabilidad marginal P(M).

P( A  M ) 0,24
P( A / M )    0,30
P( M ) 0,80
El hecho de que la probabilidad condicional se pueda calcular como la razón entre
una probabilidad conjunta respecto a una probabilidad marginal proporciona la
siguiente fórmula para el cálculo de la probabilidad condicional de dos eventos A y
B.
P( A  B) P( A  B)
P( A / B)  o P( B / A) 
P( B) P( A)

Ahora, considere de nuevo el asunto de la discriminación contra las mujeres


agentes de policía. La probabilidad marginal del renglón 1 de la tabla 4.2 indica que
la probabilidad de que un agente de la policía sea promovido (ya sea hombre o
mujer) es P(A) = 0.27. Sin embargo, la cuestión relevante en el caso de la
discriminación tiene que ver con las probabilidades condicionales P(A | M) y P(A |
W). Es decir, ¿cuál es la probabilidad de que un agente de la policía sea promovido
dado que es hombre y cuál es la probabilidad que un agente de la policía sea
promovido dado que es mujer? Si estas dos probabilidades son iguales, no hay
fundamentos para un argumento de discriminación ya que las oportunidades de ser
promovidos son las mismas para agentes de la policía hombres o mujeres. Pero, si
hay diferencia entre estas dos probabilidades condicionales se confirmará que los
hombres y mujeres agentes de policía son considerados de manera distinta cuando
se trata de las decisiones para promoverlos.
Ya se determinó que P (A | M) = 0.30. Ahora use los valores de probabilidad de la
tabla 3.1. y la ecuación de probabilidad condicional para calcular la probabilidad de
que un agente de la policía sea promovido dado que es mujer; es decir,
P(A | W).
P( A  W ) 0,03
P( A / W )    0,15
P(W ) 0,20
¿Qué conclusión obtiene? La probabilidad de que un agente de policía sea
promovido dado que es hombre es 0.30, el doble de 0.15, que es la probabilidad de
que un agente de policía sea promovido dado que es mujer. Aunque el uso de la
probabilidad condicional no demuestra por sí misma que haya discriminación en
este caso, los valores de probabilidad condicional confirman el argumento
presentado por las mujeres agentes de policía.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


78
3.7 Eventos Independientes
Volviendo al ejemplo de agentes de policía, P(A) = 0.27, P(A | M) = 0.30 y P(A
| W) = 0.15. Es claro que a la probabilidad de ser promovido (evento A) le afecta o
le influye el que el oficial sea un hombre o una mujer.
En concreto, como P(A | M) ≠ P(A), los eventos A y M son eventos dependientes.
Es decir, a la probabilidad del evento A (ser promovido) la altera o le afecta saber
que se da el evento M (que el agente sea hombre). De manera similar, como
P(A | W) ≠ P(A), los eventos A y W son eventos dependientes.
Pero, si la probabilidad de un evento A no cambia por la existencia del evento M,
es decir, si P(A | M) = P(A), entonces los eventos A y M son eventos independientes.
Esto lleva a la definición de la independencia de dos eventos.
Dos eventos serán independientes si la probabilidad de que ocurra A no altera la
probabilidad de que se presente B.

Dos eventos A y B son independientes si:

P(A|B) = P(A) o P(B|A) = P(B)

Si se lanza un dado y una moneda, el resultado del lanzamiento del dado no tiene
influencia en el resultado del lanzamiento de la moneda. O la probabilidad de que
salga un 5 no afecta a la probabilidad de que salga cara.
Sin embargo, cuando consideramos la extracción de dos cartas de un mazo la
probabilidad de que salga un As tiene influencia en la probabilidad de que salga un
Basto; esto debido a que si sale un As y es el de Basto, y considerando que el mazo
es de cuarenta cartas, la probabilidad de que salga un Basto se modifica de 10/40
a 10/39 si el As que salió no fuera de Basto o de 9/39 si lo fuera.

3.8 Regla de la multiplicación


Cuando se emplea la regla de la suma se está trabajando con la probabilidad de
combinar eventos, mientras que la regla del producto calcula la probabilidad de que
los eventos ocurran en forma simultánea. La regla de la multiplicación se emplea
para obtener probabilidades conjuntas. Se basa en la definición de la probabilidad
condicional y se obtiene despejando la probabilidad conjunta:

Partiendo de la definición condicional:

P( A  B) P( A  B)
P( A / B)  o P( B / A) 
P( B) P( A)

La regla del producto es:

P(A ∩ B) = P(A|B)P(B) o P(A ∩ B) = P(B|A)P(A)

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


79
Entonces la probabilidad de la intersección entre A y B va a ser igual a la
probabilidad condicional de A dado B por la probabilidad de B.
En el caso de eventos independientes la probabilidad condicionada de A dado B es
igual a la probabilidad de A. En consecuencia, la probabilidad del producto de A y
B (o probabilidad conjunta) es igual al producto de las dos probabilidades
marginales.
P(A ∩ B) = P(A)P(B)
Como una aplicación de la ley de la multiplicación para eventos independientes
considere el caso del dueño de una estación de servicios que por experiencia sabe
que 80% de los clientes usan tarjeta de crédito al pagar el combustible. ¿Cuál es la
probabilidad de que los dos siguientes clientes paguen el combustible con tarjeta
de crédito? Sean:
A = el evento el primer cliente paga con tarjeta de crédito
B = el evento el segundo cliente paga con tarjeta de crédito.
Entonces el evento que interesa es A ∩ B. Si no hay ninguna otra información, será
razonable suponer que A y B son eventos independientes. Por tanto,
P(A ∩ B) P(A)P(B) = (0.80)(0.80) = 0.64

No confundir la noción de eventos mutuamente excluyentes con la de eventos


independientes.
Dos eventos cuyas probabilidades no son cero, no pueden ser mutuamente
excluyentes e independientes.
Si uno de los eventos mutuamente excluyentes ocurre, el otro evento no puede
ocurrir; por tanto, la probabilidad de que ocurra el otro evento se reduce a cero.

Ejemplo:
Doce personas (6 mujeres, 4 hombres y dos niños) realizan un paseo en un
pequeño autobús, al llegar a cierto lugar, bajan del autobús cuatro personas una
tras otra, determine la probabilidad de que:
a) La primera y segunda persona que bajen sean mujeres, el tercero sea un niño y
por último baje un hombre
b) Que baje un niño, luego un hombre, luego otro niño y por último que baje una
mujer
Solución:
a) Sean los siguientes eventos:
S1= {baje del autobús primero una mujer}
S2= {baje del autobús en segundo lugar una mujer}
S3= {baje del autobús en tercer lugar un niño}
S4= {baje del autobús en cuarto lugar un hombre}

P(S1  S2  S3  S4) = P(S1) P(S2/S1) P(S3/S1S2) P (S4/S1S2S3) =

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


80
= (6/12)*(5/11)*(2/10)*(4/9) = 240/11,880 = 0.0202
b) Sean los siguientes eventos:
S1= {baje del autobús primero un niño}
S2= {baje del autobús en segundo lugar un hombre}
S3= {baje del autobús en tercer lugar un niño}
S4= {baje del autobús en cuarto lugar una mujer}

P(S1  S2  S3  S4) = P(S1) P(S2/S1) P(S3/S1S2) P (S4/S1S2S3) =

= (2/12)*(4/11)*(1/10)*(6/9) = 48/11,880 = 0.00404

3.9 Teorema de Bayes


La Probabilidad Condicional, vista recientemente, toma en cuenta la información en
cuanto a la ocurrencia de un evento, para predecir la probabilidad de otro evento.
Este concepto se puede ampliar para la “revisión” de las probabilidades basadas
en nueva información y para determinar la probabilidad de que un evento particular
se debió a una causa específica. El procedimiento para revisión de estas
probabilidades se conoce como Teorema de Bayes.
Primeramente, introduciremos el Teorema de la Probabilidad Total que afirma lo
siguiente:
Sea E1, E2,…, En una partición sobre el espacio muestral y sea B un suceso
cualquiera del que se conocen las probabilidades condicionales P(B/Ei), entonces
la probabilidad del suceso B viene dada por la expresión:
𝑛

P(B) = ∑ 𝑃(𝐵│𝐸𝑖 )𝑃(𝐸𝑖 )


𝑖=1

Por ser E1, E2,…, En una partición del espacio muestral, el suceso B, se puede
escribir como:
𝐵 = (𝐵 ∩ 𝐸1 ) ∪ (𝐵 ∩ 𝐸2 ) … ∪ (𝐵 ∩ 𝐸𝑛 )

donde los (𝐵 ∩ 𝐸𝑖 ) son mutuamente excluyentes, por lo tanto:

𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐸1 ) + 𝑃(𝐵 ∩ 𝐸2 ) … + 𝑃(𝐵 ∩ 𝐸𝑛 )


Luego
𝑃(𝐵) = 𝑃(𝐵│𝐸1 )𝑃(𝐸1 ) + 𝑃(𝐵│𝐸2 )𝑃(𝐸2 ) … + 𝑃(𝐵│𝐸𝑛 )𝑃(𝐸𝑛 )
𝑛

P(B) = ∑ 𝑃(𝐵│𝐸𝑖 )𝑃(𝐸𝑖 )


𝑖=1

A continuación, enunciaremos el teorema de Bayes:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


81
El enunciado de este postulado establece que se puede calcular la probabilidad de
que ocurra un suceso A sabiendo que existe un suceso B que condiciona al primero
y viceversa. Por lo general, suele ser útil como método predictivo, causal y de
diagnóstico, tomando en cuenta información que se conoce con anterioridad, y
nueva información que se relaciona con los eventos. Esto permite tomar
información previa para compararla con la nueva.
Sirviéndose de esta definición, ha sido aplicable en la medicina, pudiendo
determinar la probabilidad de que una persona llegue a padecer una
enfermedad, siendo el caso más destacable el diagnóstico de cáncer. Para
esto, se toman en cuenta condiciones e historial médico familiar que permita
calcular la probabilidad de que un diagnóstico sea posible a futuro.
Dentro del campo informático, a través de algoritmos basados en el teorema
de Bayes, se puede determinar qué correos electrónicos entran dentro de la
categoría spam, facilitando la experiencia de los usuarios dentro de estos
servicios.
Formalizando lo expresado, supongamos que la presentación de uno cualquiera de
los eventos mutuamente excluyentes E1, E2, ..., En, puede producir la presentación
de otro evento A, el cual solamente puede presentarse como consecuencia de la
presentación de uno de los eventos Ei mencionados.
Bajo estas condiciones el teorema de Bayes permite conocer la probabilidad de que
habiendo ocurrido el evento A, sea como consecuencia de cualquier evento 𝐸𝑖 .
Entonces:
La probabilidad de que se presente 𝐸𝑖 , dado que se ha presentado A (Probabilidad
condicionada), es:
P(𝐸𝑖 ∩ A)
P(𝐸𝑖 /A) =
P(A)
Conforme a la hipótesis, el evento A solamente puede presentarse con uno de los
eventos E, por lo tanto la probabilidad de A, P(A), es igual a la probabilidad de que
se presente con E1, o con E2, ...., o con En , es decir, por el Teorema de la
Probabilidad Total:

P (A) = P (E1A) + P (E2A) + ... + P (EnA)

Por el teorema del producto, el numerador del segundo término se puede escribir
como:
P(𝐸𝑖 ∩ A) = P(A/𝐸𝑖 )P(𝐸𝑖 )
Por lo tanto:

P(A/𝐸𝑖 )P(𝐸𝑖 )
P(𝐸𝑖 /A) = P(A⁄𝐸 )P(𝐸 )+P(A⁄𝐸2 )P(𝐸2 )+⋯+P(A/𝐸𝑛 )P(𝐸𝑛 )
1 1

El proceso de asignación de probabilidades del teorema de Bayes se puede graficar


de la siguiente forma:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


82
Probabilidades a Evidencia Evaluación con Probabilidades a
Priori ocurrida teorema de Bayes Posteriori

Es decir, se parten de probabilidades asignadas por estimaciones iniciales a los


eventos Ei luego de acaecido el evento A (realización empírica) se aplica el teorema
de Bayes para revalorizar las probabilidades de los eventos 𝐸𝑖 (probabilidades
asignadas posteriormente).
Se utiliza cuando se ha presentado un evento A que únicamente puede presentarse
como consecuencia de las causas E1, E2, ..., En, mutuamente excluyentes, y se
quiere saber si la que ha actuado es una causa determinada: 𝐸𝑖 .
La probabilidad P(𝐸𝑖 ) es una probabilidad “a priori” del evento 𝐸𝑖 , en cambio la
probabilidad P ( Ei / A ) de que haya actuado la causa Ei al presentarse A, es una
probabilidad a “Posteriori”.

Ejemplo 1:
La probabilidad de que haya un accidente en una fábrica que dispone de alarma es
0.1. La probabilidad de que suene la alarma si se ha producido algún incidente, es
de 0.97 y la probabilidad de que suene si no ha sucedido ningún incidente es 0.02.
En el supuesto de que haya funcionado la alarma, ¿Cuál es la probabilidad de que
no haya habido ningún incidente?
Se definen los sucesos:
I = Producirse incidente. E
A = Sonar la alarma.
Gráficamente se puede representar de la siguiente manera:

0,9 ∗ 0,02
P(I/̅ A) = = 0,157
0,1 ∗ 0,97 + 0,9 ∗ 0,02

Ejemplo 2:
Un estudio de auditoria revisa la contabilidad de una empresa considerando que en
trabajos anteriores se constataron errores en el 15% de los registros contables. Por
otra parte, se ha constatado también que del total de errores el 60% refleja valores
inusuales en los saldos registrados. Mientras que el 13% de los saldos inusuales

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


83
surgen de registraciones correctas. Al detectarse un valor inusual en los saldos cual
es la probabilidad que se haya cometido un error
Solución
P(E)=0,15 P(SI/E)=0,60
P(𝐸̅ )=0,85 P(SI/𝐸̅ )=0,13
Aplicando el teorema de Bayes

P(E/SI)=

Otra forma:

P(E/SI)=

Si se cuenta con los datos de la probabilidad conjunta y la de probabilidad de saldos


inusuales se puede calcular directamente.
Por último, se puede calcular mediante una tabla

Prob Probabilidades
Registracion probabilidad Bayes
condicional Saldos inusuales

con errores 0,15 0,6 0,09 0,45


sin errores 0,85 0,13 0,1105 0,55
1 0,73 0,2005 1

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


84
GLOSARIO
Espacio muestral: conjunto de todos los resultados posibles simples de un
experimento aleatorio.
Eventos independientes: la probabilidad de que ocurra A no altera la probabilidad
de que se presente B.
Eventos simples: Son los resultados posibles simples o básicos de un
experimento aleatorio.
Experimentos aleatorios son los que no arrojan resultados similares ante iguales
condiciones iniciales del experimento.
Probabilidad marginal: es la probabilidad que aparece en los márgenes de las
tablas o cuadros de probabilidad.

RESUMEN
En esta unidad se vio:

 Definiciones de Probabilidad

 Cómo se calcula la Probabilidad y algunas de sus propiedades.

 Cuándo dos eventos son independientes

 Probabilidad Condicionada

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


85
UNIDAD 4

Variable Aleatoria - Distribuciones de Probabilidad

INTRODUCCIÓN
Esta unidad tiene como objetivo explicar la importancia de las variables aleatorias,
tanto discretas como continuas. También se explican las medidas de posición y
variación, y los principales modelos teóricos de variables aleatorias discretas y
continuas.
Los experimentos aleatorios dan como resultado eventos que están dentro del
espacio muestral. Los eventos pueden resultar en números o representar
características cualitativas. Cuando los resultados son cualitativos, es conveniente
poder darle un tratamiento numérico para estudiar el comportamiento aleatorio de
ese fenómeno. La forma de hacerlo es mediante una variable aleatoria.
En cuanto a la distribución de probabilidades, se deben diferenciar las
distribuciones de una variable aleatoria discreta y de una variable aleatoria
continua.

OBJETIVOS
Que el alumno sea capaz de comprender y definir los conceptos de: Variable
aleatoria discreta, Función de Probabilidad y función de distribución de una variable
aleatoria discreta o continua.
Que el alumno sea capaz de caracterizar a una población estadística mediante la
lectura de sus parámetros.
Que el alumno sea capaz de distinguir una distribución de probabilidad teórica
(Normal) mediante sus características.
Que el alumno sea capaz de comprender y calcular, los distintos parámetros de la
distribución Normal.

CONTENIDOS
4.1 Variable Aleatoria
4.2 Distribución de Probabilidad de una Variable Aleatoria Discreta
4.3 Parámetros en las Distribuciones de Variables Aleatorias: Esperanza
Matemática y Varianza
4.4 Distribuciones Discretas Teóricas
4.5 Distribución de Probabilidad Bipuntual
4.6 Distribución de Probabilidad Binomial
4.7 Distribución de Probabilidad de Poisson

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


86
4.1 Variable Aleatoria
Recuerde los conceptos trabajados en las unidades anteriores sobre Población,
elementos o individuos y variables.

Una Variable Aleatoria es una regla que asigna valores numéricos a cada
evento simple del espacio muestral.

Dicho de otra manera, la variable aleatoria asocia un valor numérico a cada


resultado de un experimento aleatorio.
Si el experimento que se plantea es la nota de un alumno en álgebra. Los posibles
resultados estarían dados por el sistema de calificación, suponiendo que se califica
de 0 a 10, los valores que asumiría la variable aleatoria estarían dados por esas
notas, que configuran el espacio muestral. En este caso los valores numéricos
surgen del mismo experimento ya que el fenómeno tiene resultados cuantitativos.
Cuando el experimento aleatorio no da como resultado un número, es necesario
establecer una regla que indique cómo se determina el valor de la variable aleatoria.
Por ejemplo, con el lanzamiento de una moneda, los resultados posibles o eventos
serían “cara” o “cruz”.
Si se define la variable aleatoria “número de caras en el lanzamiento de una
moneda”, los resultados posibles se transforman en números ya que si sale cruz
hay 0 caras y si sale cara el valor de la variable es 1. En este caso el experimento
arroja resultados cualitativos y la variable toma valores numéricos.
Las variables aleatorias pueden ser discretas o continuas. Una variable aleatoria
es discreta cuando asume valores que se pueden contar o enumerar; como
ejemplos se pueden mencionar: el valor obtenido al lanzar un dado, el número de
caras en el lanzamiento de 4 monedas, el número de inasistencias en una empresa,
el número de piezas defectuosas en una fábrica de autopartes etc.
Las variables aleatorias son continuas cuando su valor se expresa en un intervalo
o rango, surgen principalmente de procesos de medición. Ejemplos de variables
aleatorias continuas son: el peso de los camiones con cereal en una báscula, la
estatura de los alumnos de este curso, el tiempo de reparación de los cortes de luz,
etc.
A continuación, es expone un
Ejemplo detallado de Variable Aleatoria Discreta:
Al tirar sucesivamente 1 moneda, los posibles resultados son: cruz ( + ) o cara (c).
a) Se tira una moneda dos veces. Defina el espacio muestral.
S  (c, c) ; (c,) ; (, c, ) ; (,) Éstos son todos los resultados posibles que
pueden presentarse al tirar dos veces una moneda.

b) Si en el punto a) se define el Experimento Aleatorio como:


“Número de caras que se obtienen en las dos tiradas”

b1) ¿Cuál es el espacio muestral que se genera en este caso?

S  0,1,2

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


87
Pues definido el Experimento Aleatorio, tal como se expresa en el punto b), los
eventos simples de S son valores numéricos, en donde pueden darse las siguientes
posibilidades: que en las dos tiradas no se presente ninguna cara (0), que aparezca una
cara (1), o que las dos sean caras (2).

0 cuando no exis tan caras en dos tiradas



X  1 cuando exista una cara en las dos tiradas
2 cuando exis tan 2 caras en las dos tiradas

4.2 Distribución de Probabilidad de una Variable Aleatoria Discreta

Una variable aleatoria discreta es la que tiene valores numerables o que se


pueden contar.

Cualquier valor de la variable aleatoria se corresponde con un evento o conjunto de


eventos que originan ese valor. Como los eventos tienen probabilidad, esta
probabilidad se traslada a los valores de la variable aleatoria.
Decir Probabilidad de que la variable aleatoria tome un determinado valor, es
lo mismo que decir probabilidad de que ocurra alguno de aquellos eventos
simples de los cuales depende ese valor de la variable aleatoria.
Se puede revisar cómo se obtiene una variable aleatoria discreta con el siguiente
ejemplo, en el que se observan los valores de la variable aleatoria y la respectiva
probabilidad de que la variable aleatoria asuma esos valores:
Tabla 4.1 - Lanzamiento de cuatro monedas
Variable: Número de caras
Eventos Nº de Caras Probabilidad
X,X,X,X 0 1/16
X,X,X,C 1 1/16
X,X,C,X 1 1/16
X,C,X,X 1 1/16
C,X,X,X 1 1/16
X,X,C,C 2 1/16
X,C,C,X 2 1/16
C,C,X,X 2 1/16
C,X,X,C 2 1/16
C,X,C,X 2 1/16
X,C,X,C 2 1/16
X,C,C,C 3 1/16
C,C,C,X 3 1/16
C,C,X,C 3 1/16
C,X,C,C 3 1/16
C,C,C,C 4 1/16

De acuerdo a la Tabla 4.1 el experimento aleatorio, lanzamiento de cuatro monedas


da como resultado los eventos de la primera columna de la tabla conformando el
espacio muestral.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


88
A la vez, cuando se define la variable aleatoria “número de caras” en el
lanzamiento de cuatro monedas, se origina la columna dos. En ella se cuenta el
número de caras posibles surgidas de la columna 1, dando origen a los valores de
la variable que van de 0 hasta 4.
Para cada valor de la variable le corresponde un valor de probabilidad individual;
sin embargo, los valores se repiten y la probabilidad de un valor repetido surge de
sumar las probabilidades de ese valor, es decir:
𝑃(𝑋 = 𝑥2 = 2) = 𝑃(X, X, C, C) + P(X, C, C, X) + PC, C, X, X) + P(C, X, X, C) + P(C, X, C, X) + P(X, C, X, C)
= 1/16 + 1/16 + 1/16 + 1/16 + 1/16 + 1/16 = 6/16

De esta forma se obtiene la distribución de probabilidades para todos los valores


de la variable, que se muestra en la Tabla 4.2

Tabla 4.2 Probabilidades de la V.A.


Nº de Caras Probabilidad
0 1/16
1 4/16
2 6/16
3 4/16
4 1/16
1

Figura 4.1 Distribución de Probabilidad de la Variable Nº de caras de una moneda

Entonces:

Una distribución de probabilidades es el par ordenado de valores de la


variable aleatoria y su respectiva probabilidad: (Xi ; P(Xi).

Se puede representar mediante un gráfico de frecuencias, tal como se observa en


la Figura 4.1 Además, una distribución de probabilidades también se puede obtener
a través de una ecuación, utilizando los valores de la variable aleatoria.
Resumiendo, las tres maneras de representar una distribución de probabilidades
son mediante un cuadro, un gráfico y una función analítica o ecuación.
Ejemplo a) Fenómeno aleatorio: tirada de un dado
Espacio muestral: S = 1,2,3,4,5,6 
Variable aleatoria: X = Número en la cara superior

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


89
Posibles valores de la V.A. = 1, 2, 3, 4, 5 o 6
A cada evento simple que tiene una probabilidad 1/6 le corresponde, en este caso,
un valor de la variable, la que puede, por lo tanto, tomar cualquiera de estos seis
valores con la misma probabilidad 1/6 (ver Tabla 4.3).
Esto se escribe de la siguiente manera:
P(X = xi ) = P(xi) Para i = 1, 2, 3, 4, 5, 6
La letra X mayúscula indica la variable aleatoria en forma genérica y la letra
minúscula los valores que puede asumir.
P(X = x1 =1) = P(x1) = 1/6
P(X = x2 =2) = P(x2) = 1/6
P(X = x3 =3) = P(x3) = 1/6
P(X = x4 =4) = P(x4) = 1/6
P(X = x5 =5) = P(x5) = 1/6
P(X = x6 =6) = P(x6) = 1/6
P(x1) + P(x2) + P(x3) + P(x4) + P(x5) + P(x6) = 1
Los valores posibles de la variable aleatoria (recorrido) y los de sus respectivas
probabilidades se suelen presentar en forma de tablas, como puede observarse en
la Tabla 4.3.
Generalmente la columna (1) no se coloca en una tabla de distribución de
probabilidades.

Tabla 4.3.
Evento :
Numero Variable
Pr obabilidad
Inscripto aleatoria
P( X  xi )  p( xi )
en cara X  xi
sup erior
(1) (2) (3)
1 x1  1 1/ 6
2 x2  2 1/ 6
3 x3  3 1/ 6
4 x4  4 1/ 6
5 x5  5 1/ 6
6 x6  6 1/ 6
Suma 6/6 1

Ejemplo b) Fenómeno aleatorio: Tirada de un dado


Espacio muestral: S = 1,2,3,4,5,6 
Variable aleatoria X = X(S) = 1, si la cara sup erior es par
Posibles valores de la V.A.: 0, 1 0 si la cara sup erior es impar

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


90
Probabilidades:
P(X = xi ) = P(xi) Para i = 1, 2
P(X = x1 =1) = P(x1) = P(2U 4 U 6) = P(2) +P(4) +P(6)= 3/6 =1/2
P(X = x2 =2) = P(x2) = P(1U 3 U 5) = P(1) +P(3) +P(5)= 3/6 =1/2
P(x1) + P(x2) = 1
La Tabla 4.4 proporciona la distribución de probabilidades correspondientes.
Tabla 4.4 Distribución de probabilidades de pares e impares en la tirada de un dado
Variable Pr obabilidad
Evento
aleatoria P( X  x i )  p ( x i )
(1) (2) (3)
Im par x1  0 3/ 6
Par x2  1 3/ 6
Suma 6/ 6 1

Al conjunto de pares ordenados de valores (xi P(xi.)) correspondientes a


un sistema completo de eventos suele llamársele distribución de
probabilidades de la variable aleatoria X

La distribución de probabilidades es el conjunto de valores que puede asumir X y


el conjunto de probabilidades según las cuales la variable aleatoria asume estos
valores. Las tablas 4.3 y 4.4 expresan distribuciones de probabilidades en forma
de tablas.
Al referirnos a una población podemos considerar que la distribución de
probabilidades de una variable aleatoria es una abstracción de la distribución de
frecuencias relativas de la población en cuestión.
Los valores xi de la variable aleatoria corresponden a un sistema completo de
eventos y por consiguiente la suma de p (xi) es igual a la unidad. En consecuencia,
la función de probabilidad de una variable aleatoria discreta debe satisfacer
las siguientes condiciones:
a) 0  p( x i )  1 para todo xi


b) 
i 0
p( x i )  1

La función de probabilidad, p (xi), de una variable aleatoria discreta se suele


llamar también función de cuantía e indica el valor de la probabilidad en el punto
X = xi
En resumen, podemos establecer los siguientes pasos para obtener la distribución
de probabilidades de una variable aleatoria:
1) Definir el experimento aleatorio.
2) Determinar los eventos simples que constituyen el espacio muestral.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


91
3) Establecer una regla que permita obtener los valores xi a partir de los
eventos simples.
4) Obtener el conjunto de valores posibles para la V.A.
5) Calcular todos los valores P(X = xi ) =p(xi ); sumando las probabilidades de
todos los eventos simples que corresponden a cada valor xi, de X
6) Establecer el conjunto de pares ordenados de valores (.xi , p (xi.) ) que
constituyen la distribución de probabilidades de X. La distribución de probabilidades
de una variable aleatoria, se expresa mediante una tabla de valores, según hemos
visto, o mediante un modelo matemático que permita calcular P(xi), conociendo xi

4.3 Parámetros en las Distribuciones de Variables Aleatorias:


Esperanza Matemática y Varianza
Los parámetros son medidas que permiten caracterizar una distribución de
probabilidades de una variable aleatoria poblacional, entre las más importantes se
encuentran: la esperanza matemática, la varianza y la desviación típica.
La esperanza matemática o valor esperado (igual a la media que vimos en
estadística descriptiva) es una medida de tendencia central y, como consecuencia,
el promedio al que tiende la variable y surge de la suma ponderada de los valores
de la variable por su probabilidad.
Cuando X es una variable aleatoria discreta, la esperanza matemática es:

Esperanza matemática, valor esperado o media 𝜇 = 𝐸(𝑋) = ∑ 𝑥 𝑃(𝑥).

Ejemplo: Una concesionaria de autos de la ciudad considera que vende autos en


el mes de acuerdo con la siguiente distribución.
Autos vendidos (X) P(X)
0 0,1
1 0,2
2 0,3
3 0,3
4 0,1

Le podrían preguntar a Ud. cuántos autos espera vender el concesionario y cómo


puede considerarse ese valor con respecto a la media.
El resultado surge de la suma del producto del valor de la variable por la
probabilidad, lo que daría un valor de 2,1 autos que se esperan vender
mensualmente como tendencia. Si bien no existe la cantidad 2,1 autos, sí implica
que tiende a dos autos en promedio.
Propiedades de la esperanza matemática
Si una variable aleatoria X tiene una distribución de probabilidades conocida, es
posible que de otra variable que este en función de X podamos conocer su
esperanza matemática sin hallar la función de probabilidad. Esto es posible por un
conjunto de propiedades de la esperanza matemática.
Si se tiene una variable aleatoria con distribución:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


92
X P(X) La E(X) es igual a 0,9 y surge de
-1 0,3 hacer
0 0,1
(-1)x(0,3) + (0)x(0,1) + (2)x(0,6)
2 0,6
E(X) 0,9

Si ahora se suma una constante c a la variable aleatoria X, se puede obtener la


esperanza de la nueva variable (X+c), que es igual a la esperanza de X más la
constante

X+3 P(X) La E(X) es igual a 3.9 y surge de hacer


2 0,3 (3-1)x(0.3) + (3+0)x(0.1) + (3+2)x(0.6). Que es lo mismo que
3 0,1 hacer 3+0.9. Entonces directamente se puede calcular la
5 0,6 E(X+c)=E(X)+c. Y esto es lógico en tanto se aumente en c
E(X+3) 3,9 el valor de la variable, ya que las probabilidades se
mantienen y aumenta en c la media o esperanza
matemática.
Por lo tanto:
1- E(X+c) = E(X) + c
Si ahora se multiplica cada valor de la Variable Aleatoria por 3:
2- E(cX) = c E(X) para todo número real c.
La esperanza de una constante por una variable E(cX) es igual a la constante por
la esperanza de la variable, o sea: cE(X).

La E(X) es igual a 2,7 y surge de hacer


(3x-1)x(0.3)+(3x0)x(0.1)+ (3x2)x(0.6). Que es lo
mismo que hacer 3x0.9. Entonces directamente
se puede calcular la E(cX)=cE(X). Y esto es
lógico en tanto se multiplique por c el valor de la
variable, ya que las probabilidades se mantienen
y la media o esperanza matematica tambien se
multiplica por c.
3- E(X+Y) = E(X) + E(Y)
4- E(c) = c para todo número real c
5- E(aX+b) = a E(X) + b para todo par de números reales a y b.
6- E(XY) = E(X) E(Y) únicamente en el caso de que X e Y sean variables
aleatorias independientes.
La relación con la media aritmética que se desarrolló en la unidad 3 viene de la
mano de considerar los datos en términos de frecuencia de manera que, de acuerdo
𝑓𝑖
con la definición frecuencial de la probabilidad 𝑃(𝑋) = 𝑛 , la probabilidad es igual a
la frecuencia relativa.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


93
𝑓𝑖 𝑥𝑓𝑖
Por otro lado, la media 𝜇 = 𝐸(𝑋) = ∑ 𝑥 𝑛 = ∑ 𝑛 o que es igual a la media que se
presenta cuando los datos se presentan en forma de frecuencia y si estuvieran
como clases o intervalos, x sería el punto medio de la clase.
Se denotará con µ a la media poblacional y con 𝑥̅ a la media muestral.
Es así que el desarrollo teórico de la distribución de probabilidad coincide con el
análisis descriptivo realizado en las primeras unidades.
A continuación, se presentan otra propiedad importante de la media aritmética o
Esperanza Matemática:
Propiedad: La suma algebraica de todos los desvíos de los valores de la variable
con respecto a la media aritmética es igual a cero:
n
 ( xi  x )  0
i

Esta igualdad la demostramos de la siguiente manera:


n
n n n n  xi
( x i  x )   xi   x   xi  n x x  i
n
i i i i ; recordando que : , y
n n
 xi   xi  0
reemplazando x por su igual, nos queda : i i con lo que se
comprueba que la sumatoria de los desvíos de los valores de la variable respecto
a la media es igual a cero.

ESPERANZA MATEMÁTICA y MEDIA ARITMETICA, son parámetros cuyo


significado es el mismo. Uno calculado con probabilidad y el otro con
frecuencias.

Ejercicio: (Propiedades de la Media aritmética)

En una industria donde trabajan 512 obreros, cuyos salarios varían de $200,-
(aprendiz) a $ 1000,- (obrero especializado), el salario promedio alcanza a $500.-
¿qué sucederá con este promedio si:
a) ¿Se aumentan todos los salarios en $250?
b) ¿Se aumentan todos los salarios en un 50 %?
c) ¿Se aumentan todos los salarios en un 25 % más $ 125.-?
d) ¿A quiénes beneficia cada plan de aumento?
Solución:
X = salario
E(X)= 500,-
N = 512
Siendo:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


94
a) E( x + k ) = E ( x ) + k - La esperanza de una variable más una constante , es
igual a la esperanza matemática de la variable más la constante.
Entonces: E( x + 250 ) = 500 + 250 = 750
b) E ( x + tx) = E ( x ) + t E ( x ) - La esperanza de una constante multiplicada por
una variable , es igual a la constante multiplicada por la esperanza matemática de
la variable.
E ( x + 0,50 x) = E ( x ) + 0,50 E ( x ) = 500 + 0,50 (500) =
= 500 + 250 = 750
E ( x + tx + k ) = E ( x ) + t E ( x ) + k =
E ( x + 0,25 x + 125 ) = 500 + 0,25 ( 500 ) + 125 = 750
d) La propuesta que más beneficia al aprendiz y a los salarios inferiores a la media
es la del inciso a) y la que beneficia a los salarios superiores es la del inciso b).
Cuando sumamos una cantidad constante beneficia más a las salarios bajos,
mientras que si aumentamos un porcentaje el importe va a ser mayor cuando
tengamos una base más alta sobre la que aplicamos el porcentaje.

Varianza y desviación típica


Otro de los parámetros estudiado de una distribución de probabilidades poblacional
es la varianza, La varianza es otro de los parámetros que se estudian de una
distribución de probabilidades poblacional.
Es importante porque es una medida de la variabilidad de los datos y, como se vio
en la unidad 3, es el promedio de los desvíos respecto de la media al cuadrado.
Así, la varianza es igual a:

Varianza 𝜎 2 = ∑(𝑥 − 𝜇)2 𝑃(𝑥).


Desviación típica o estándar 𝜎 = √𝜎 2

La varianza se obtiene, restando a media a los valores de X. Esta diferencia se


eleva al cuadrado. Se multiplica por la probabilidad y finalmente se suman esos
productos. La desviación típica es la raíz cuadrada de la varianza es decir:

𝜎 = √𝜎 2
Ejemplo de cálculo de la varianza:

Autos
P(X) (X-u)2 (X-u)2 P(x)
vendidos (X)
0 0,1 4,41 0,441
1 0,2 1,21 0,242
2 0,3 0,01 0,003
3 0,3 0,81 0,243
4 0,1 3,61 0,361
E(X) 2,1 Var(X)= 𝜎 2 1,29

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


95
Propiedades de la Varianza
La varianza también presenta algunas propiedades de interés
1- La varianza de una constante es cero.



2
 
Var (c)  E  c  c   E c  c 2  0
 

2- La varianza del producto de una variable por una constante es igual a la


constante al cuadrado por la varianza de la variable

Var (cx)  c 2Var ( x)

3- La varianza de una variable más una constante es igual a la varianza de la


variable
Var( x  c)  Var( x)
4- Varianza de la suma (o diferencia) de variables aleatorias
Dadas las variables aleatorias X1 y X2 , resulta:
Var( X1 + X2 ) = Var( X1 ) + Var( X2 ) +2 Cov ( X1 X2 )
Asimismo, se verifica que

Var ( X1 - X2 ) = Var( X1 ) + Var( X2 ) -2 Cov ( X1 X2)


Se ha llamado covarianza de X1 X2 a E ( X1  X1 )( X 2  X 2 ) . 
Cuando las variables aleatorias X1 y X2 son independientes:
Cov ( X1 X2 ) = 0

Por lo tanto, cuando las variables X1 y X2 son independientes:

Var ( X1 + X2 ) = Var( X1 ) + Var( X2 )

4.4 Distribuciones Discretas Teóricas


Las distribuciones que se verán a continuación en esta unidad y en la unidad
siguiente son denominadas distribuciones teóricas.
Se trata modelos que han surgido de deducciones lógicas y matemáticas más que
de experimentos reales, por consiguiente, son apropiadas para el mundo real bajo
condiciones específicas.

4.5 Distribución de Probabilidad Bipuntual


Se basa en lo que se denomina el experimento bipuntual o experimento Bernoulli
(en homenaje al matemático y estadístico Jacques Bernoulli; 1654-1705) o prueba
binomial. Este experimento se obtiene considerando a la población como
poseedora o no de un atributo, es decir se refiere a un experimento aleatorio con
dos resultados posibles.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


96
Es así que son posibles solo dos resultados del experimento, “éxito” si posee el
atributo y “fracaso” si no lo posee. Es necesario aclarar que no hay una connotación
de “bueno” o “malo” en esa denominación, sino que está asociada a la observación
de la característica o atributo estudiado.
Se le asocia un valor p de probabilidad a la posesión del atributo (“éxito”) y un valor
1-p a la no posesión.
Se define una variable aleatoria que asume los valores 1 y 0 si el resultado del
experimento indica la posesión del atributo o no, respectivamente. De forma que el
experimento bipuntual presenta la siguiente distribución de probabilidad.
Tabla 4.5.1. Distribución de probabilidad bipuntual
Variable
P(X=xi)=
Evento Aleatoria
P(xi)
X=xi
No posee el atributo x1=0 1-p
Posee el atributo x2=1 p
La forma analítica o matemática de la distribución de probabilidades bipuntual es la
siguiente:

P(X = x) = P(x) = px (1-p)1-x ; para x = 0,1

Entonces, si X=1 P(X = x2) = P(x2 = 1) = p


Si X=0 P(X = x1) = P(x1 = 0) = 1-p

La distribución bipuntual tiene como media a p ya que:


1

 xp (1  p)
x 0
x 1 x
p
E(X)=
Y como varianza a pq ya que:
2=E(X2) – E(X)2= p-p2 = p(1-p) = p q si q=1-p

Varianza 𝜎 2 = ∑(𝑥 − 𝜇)2 𝑃(𝑥) = (0 – p)2 P(0) + (1 – p)2 P(1) = p2 (1 – p) + (1 – p)2 p =

= P2 – p3 + p - 2p2 + p3 = p2+ p - 2p2 = p – p2 = p(1-p) = pq

Por lo tanto, el único parámetro de la distribución bipuntual es p debido que


conociendo este valor queda determinada la distribución.

En consecuencia, la desviación típica de esta distribución es:


  pq

Es bueno recordar que en la distribución bipuntual no interesa el número de


individuos de la población dicotomizada, sino la proporción p de individuos con la
característica que se investiga.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


97
A continuación, se verá cómo se define la variable aleatoria en la distribución
Bipuntual, su distribución de probabilidad, la función de acumulación y cómo se
obtienen sus parámetros.

Ejemplo:
De un total de 100 encuestas que tenía que realizar un encuestador, completó 70;
las 30 restantes no se realizaron, porque el encuestado no se encontraba en su
domicilio.
Se realiza el siguiente fenómeno aleatorio: extracción de una encuesta de las 100,
y se fija si la misma está realizada o no.
Se define la variable aleatoria X = cantidad de encuestas realizadas en la
extracción.
a) ¿Qué valores puede asumir la variable aleatoria?
b) ¿De qué distribución se trata?
c) ¿Cuál es la distribución de probabilidad de X?
d) Define y grafique P(X) y F(X).
e) ¿Cuál es la esperanza matemática de X?
f) ¿Cuál es la varianza?

Solución:
a) La variable aleatoria discreta X = cantidad de encuestas realizadas en la
extracción, puede asumir dos valores, que son:
1; si la encuesta esta realizada
X  X (S )  
0; si la encuesta no esta realizada
ya que en una sola extracción, la cantidad de encuestas realizadas, puede ser: 0,
si la encuesta extraída es una de las 30 no realizadas, y 1, si la encuesta es una de
las 70 que sí se realizaron.
O sea que los valores posibles que puede tomar la variable aleatoria X son: 0 o 1.
b) La variable X, tiene distribución Bipuntual, pues se trata de una población
dicotomizada, porque los individuos se dividen en dos clases, y el experimento
aleatorio consiste en extraer un individuo de esta población y fijarnos si el
individuo pertenece, o no, a una de las clases en que se divide la población.
c) La distribución de probabilidad de una variable consiste en obtener todos los
pares ordenados (x, p( x )), es decir calcular la probabilidad para cada valor de
la variable. En una distribución Bipuntual, la función de probabilidad, p(x), es
igual a:
P ( x)  p x (1  p )1 x

Para nuestro caso P(x=0) = 0,30 y P(x= 1)=0,70, es decir la distribución de


probabilidad es:
Variable Función de Función de
Evento aleatoria probabilidad acumulación
x
P(x) = p (1-p) 1-x F(X)
Encuesta no realizada 0 0.30 0.30
Encuesta realizada 1 0.70 1.00
1.00

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


98
d) P ( x)  p x (1  p )1 x es la función de probabilidad de X, cuyo gráfico es:
Gafico funcion de probabilidad
P(x)
1

0,30 P
1-p

0 1 x

F(x) es la función de distribución o acumulación de x; el gráfico de F(x) es


Grafico funcion de distribucion
F(x)
1

0,30
1-p

0 1 x

1 1
e) La μ  E ( X )   x p ( x)   x p x (1  p)1 x  p que es uno de los parámetros de la
x 0 x 0
distribución bipuntual.

x P(x) x P(x)

0 0.30 0

1 0.70 0.70

Esperanza de x  0.70

O sea que E( x)    P  0.70

f) Luego   E ( x )  [ E ( x) ] = 0.70 – (0.70)2 = 0.70 – 0.49 =0.21


2 2 2

Con lo que se obtiene otro parámetro de esta distribución:

σ 2  Pq  0.70 x 0.30  0.21

4.6 La distribución Binomial


Se puede considerar a la distribución binomial como la repetición de n veces de la
prueba bipuntual. Y el fenómeno que le da origen presenta las siguientes
características:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


99
1) se trata de n veces ensayos o pruebas.
2) la población se estudia dicotomizada en función de una característica,
es decir, puede resultar en un “éxito” o fracaso” y la probabilidad de
que posea esa característica es p y que no la posea 1-p.
3) la probabilidad de un éxito en un ensayo es independiente de
cualquier otro ensayo
4) La probabilidad p se mantiene constante, que es lo mismo que decir
que cada prueba mantiene la probabilidad p de obtener un éxito.
Supongamos que tenemos una población dicotomizada formada por individuos que
tienen la característica A y por individuos que no la tienen. Sea p la probabilidad de
que un individuo seleccionado al azar pertenezca a la clase A y sea q=1-p la
probabilidad de que no pertenezca a ella.
Se realiza un experimento aleatorio que consiste en efectuar n observaciones con
reposición y determinar la cantidad de individuos observados con la característica
A. ¿Cuáles son los valores que puede asumir la variable? Y ¿cuál es la probabilidad
de cada uno de estos valores?
Lo primero que se nota es que la variable aleatoria solo puede asumir valores
enteros; como casos extremos puede suceder que ninguno de los individuos
seleccionados tenga la característica A, o que todos la tengan; por lo tanto la
variable aleatoria X puede asumir valores enteros desde 0 a n, inclusive.
El teorema del producto nos permite determinar la probabilidad de seleccionar x
individuos A y n-x individuos "no A" en un orden determinado, por ejemplo la
probabilidad de que sean A los x individuos que se observen primero y que sean
"no A" los n-x individuos que se seleccionan al final, es:
ppp..(x factores p) qqq (n-x factores q) = px qn-x (4.6.1)
Lo que acabamos de obtener es, en realidad, la probabilidad de que en n
observaciones se presenten x individuos A en un orden determinado, cualquiera
sea ese orden.
En n observaciones x individuos A pueden presentarse, según el orden de selección
de tantas maneras distintas (mutuamente excluyentes) como Cxn . A cada de estas
diferentes formas de poder presentarse x individuos con la característica A en n
observaciones le corresponde una probabilidad igual a (4.6.1) En consecuencia la
probabilidad de que se presenten x individuos A en n observaciones, cualquiera
que sea el orden en que lo hagan, es igual a la probabilidad p x (1-p)n-x repetida
tantas veces como Cxn, o sea
P(X=x) = p(x; n, p) = Cxn px (1 - p)n-x ; x= 0, 1, 2, .......,n (4.6.2)
Ó
P(X=x) = p(x; n, p) = Cxn px qn-x ; x= 0, 1, 2, ......,n (4.6.3)

Esta es la función de probabilidad de una variable aleatoria X con distribución


binomial, la que se denota también mediante la siguiente expresión:
n!
p( x; n, p)  p x qn x
x ! (n  x)!

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


100
La función de probabilidad de una variable aleatoria binomial se puede
generalizar como P(x,n,p) = Cnx px (1-p)n-x

p(x; n, p) es la probabilidad de que en n pruebas repetidas con


probabilidad constante se presente x veces el evento que en una
prueba tiene probabilidad p; pero también es la probabilidad de que
se presente n-x veces, el evento que en una experiencia aislada,
tiene probabilidad q.

En consecuencia, podemos escribir:


 x  0,1,2,......................n
p( x; n, p)  p(n  x; n, q)  
n  x  n, n  1, n  2,....,0
En la práctica significaría que: en un experimento aleatorio que consiste en extraer
aleatoriamente con reposición, n individuos de una población dicotomizada, la
probabilidad de que x individuos pertenezcan a la clase A, es igual a la probabilidad
de que n-x pertenezcan a la clase no A; por ejemplo en una población dicotomizada
en varones o mujeres, si extraemos 10 individuos (n = 10), la probabilidad de que
de los 10 extraídos, tres sean varones (x = 3), es lo mismo que 7 sean mujeres (n-
x
x = 7). Esta igualdad se verifica fácilmente sustituyendo en (4.6.3) Cn por su igual

Cnn  x . En resumen, la función de probabilidad en la distribución binomial se puede


escribir de las siguientes formas:

Cnx p x (1  p) n  x  Cnx p x q n  x  Cnn  x q n  x (1  q) x

Es de hacer notar que si realizamos una sola observación, lo que equivale a hacer
n=1 en (4.6.2), obtenemos la función de probabilidad de una variable con
distribución bipuntual

P(X=x) = p(x; n=1, p) = px (1 - p)1-x ; x= 0, 1

se puede considerar, en consecuencia, a la distribución bipuntual como un caso


particular de la distribución binomial.

La función de distribución acumulativa o función de distribución, será


entonces:

F (t )  p( X  t ; n, p)   X t p( x; n, p) ; t real

F (t )  p( X  t ; n, p)   X t Cnx p x q n  x ; t real

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


101
Es bastante usual utilizar tablas de probabilidad binomial para evitar los cálculos
mediante la utilización del modelo de probabilidad binomial que lleva a un conjunto
de cálculos engorrosos. Por ese motivo se verá la utilización de tablas y la
construcción de las mismas mediante recursos informáticos.

A continuación, veremos gráficamente el comportamiento de la distribución


binomial según los valores de P (que como sabemos puede ser menor igual
o mayor a 0,50)

Parámetros de la distribución Binomial


Media y Varianza de la distribución Binomial
La media de la distribución binomial se obtiene mediante la propiedad de la
esperanza matemática. Debido a que la distribución binomial es una suma de
variables bipuntuales cuya media es p. Entonces:
n
E ( xi )  E ( x1  x2  .........  xn )  E ( x1 )  E ( x2 )  ....  E ( xn )  p  p  .......  p  np
i 1

Y la varianza se obtiene, mediante la suma de n variables bipuntuales


independientes, así:
n
Var ( xi )  Var ( x1  x2  .........  xn )  Var ( x1 )  Var ( x2 )  ....  Var ( xn )  pq  pq  .......  pq  npq
i 1

Las Tablas de la distribución Binomial

Tabla de la función de probabilidad

P( X i  xi )  P( xi )  p xi (1  p)1 xi ; xi  0,1
El cálculo de es una tarea pesada,
especialmente para altos valores de n, así por ejemplo, si quisiéramos calcular la
probabilidad para x = 10, n = 15 y p = 0,40, tendríamos:
15 !
p( x  10, n  15; p  0,4)  (0,40)10 (0.6)5
10! 5!

cuyo cálculo, como puede observarse, no es tan sencillo.

Se han construido tablas de la probabilidad de la distribución binomial, para


distintos valores de x, de n, y de p.

En las clases prácticas se resolverán ejercicios en donde se detalla


el manejo de las tablas de probabilidades en la distribución
binomial, ya sea para un valor particular como para un intervalo de
valores de la variable.
Dichas tablas pueden construirse también utilizando una hoja de
cálculo, tal como se presenta a continuación.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


102
Construcción de tablas en hoja de cálculo.
Para construir una tabla en Excel de la distribución binomial, se presenta el
siguiente ejemplo:
El CECIS ha estudiado que los sábados por la tarde, los negocios pequeños de
venta de ropa –especializados en moda o (boutiques)– tienen una probabilidad de
0,30 de realizar una venta por cada persona que ingresa al negocio. Considerando
n=4.
Tabla del ejemplo
(1) (2) (3) (4) (5) (6)
X n-x
n-x X Combinatorio P (1-p) Px P(X)
4 0 1 0,2401 0,2401 0,2401
3 1 4 0,1029 0,4116 0,4116
2 2 6 0,0441 0,2646 0,2646
1 3 4 0,0189 0,0756 0,0756
0 4 1 0,0081 0,0081 0,0081
1 1

En la columna (2) se despliegan los valores de la variable (X) que va desde 0 hasta
4, el n correspondiente al número de ensayos.
La columna (1) tiene los valores de n-x.
La columna (3) tiene los valores correspondiente al combinatorio para cada valor
de x, se usó la función combinat(n,x) cuyo primer argumento es (número de
ensayos) y el segundo argumento es x, o sea, los respectivos valores de la variable
y que da como resultado el número de veces por el que se debe multiplicar la
columna (4). En esta columna se obtiene el valor de P(x)= (1-p)n-x, es decir, para
cuando x=3 Px (1-p)n-x =0.33 (0.7)4-3 =0.0441.
La columna (5) surge de multiplicar (3)x(4), así para x=3 será 4x0,0189=0,0756. De
esta forma se pueden obtener todos los valores.
En la columna (6) se utilizó con la función distr. binom. (X,n,p,falso) que
directamente da el valor de Cnx px (1-p)n-x para cada valor de la variable y que,
como se puede observar, coincide con lo calculado en (5).
También se puede observar que la suma de (5) y (6) es igual a 1 y cumple con
∑ni=1 Pxi = 1.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


103
4.7 Distribución de Poisson
Esta distribución fue enunciada por Poisson en 1837 y tiene en la actualidad un
amplio campo de aplicación en economía y administración de empresas. Se utiliza
fundamentalmente cuando hay un gran número de experimentos o períodos t y en
cada uno de ellos hay una pequeña probabilidad de que suceda cierto evento.
Los ejemplos más comunes son los de fenómenos de espera en fila, es decir, la
cantidad de gente que se atiende en la caja de un banco en un período de tiempo
o la cantidad de fallas en un proceso productivo.
También se aplica para determinar el número de piezas defectuosas en una
producción en serie; el número de aviones que aterrizan en una pista durante un
cierto tiempo del día; el número de siniestros que se producen en una compañía de
seguros en un período dado; la cantidad de accidentes en un taller en un corto
período de tiempo; el número de llamadas telefónicas en un periodo dado; etc.; etc.
Las condiciones que cumplen los fenómenos que se pueden modelizar mediante
una distribución Poisson son:

1) La variable x es el número de veces que ocurre el evento durante


u intervalo
2) El número de ocurrencias del hecho es independiente entre un
intervalo y otro (intervalo de tiempo, espacio o volumen).
3) La esperanza matemática de la variable es proporcional al tamaño
del intervalo.
4) La probabilidad de más de una ocurrencia del hecho en un intervalo
muy pequeño es despreciable en comparación con la probabilidad
de una sola ocurrencia; entonces no se tiene en cuenta.

La función de probabilidad en la distribución de Poisson puede obtenerse


directamente y también puede estudiarse como un caso límite de la distribución
binomial cuya función de probabilidad es:
n!
p( x; n, p)  Cnx p x q n  x  p x qn x (4.7.1)
x ! ( n  x )!
Para obtener la función de probabilidad de la distribución de Poisson a partir de la
binomial, se considera que p es muy pequeño y que n es muy grande. Como
condición accesoria se impone que la media, np, sea una constante, que se suele
simbolizar con  pero nosotros simbolizaremos con  , o sea que:
np    Constante
De esta relación se deducen:
 
p y q  1
n n
Sustituyendo en (4.7.1), queda, agrupando convenientemente:
μ x n(n  1)(n  2)...........(n  x  1) μ μ
P( x; n; p)  x
(1  ) n (1  )  x (4.7.2)
x! n n n
Tomamos límite para n   , teniendo presente que:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


104
n(n  1)(n  2)...........(n  x  1) 1 2 x 1
lim  lim(1  ) (1  )......(1  ) 1
n n n n n n( x veces) n n n n
n n

 
lim (1  )n  e  lm (1  ) x  1
n n
n y n
Llevando estos valores a (4.7.2) obtenemos la función de probabilidad de la
distribución de Poisson:

(e-μμ x )
P(X  x)  P(x;  )  (4.7.3)
x!
Esta es la función de probabilidad o función de probabilidad en la distribución de
Poisson que se utiliza para el estudio de casos raros en poblaciones numerosas.
(4.7.3) es la probabilidad de que en una población numerosa con media  se
presenten x casos raros.
Como se puede observar, los casos raros se manifiestan también según una ley,
cuando el número de pruebas es suficientemente grande.
Media Aritmética y Varianza: También es bueno tener presente que en la
distribución de Poisson p es muy pequeño y consecuentemente q = 1- p, es
prácticamente igual a 1. Debido a ello en esta distribución, que proviene de la
binomial, la media y varianza son iguales.
 2  npq  np  

La media y la varianza de la distribución Poisson son iguales y su valor es igual a


µ o λ dependiendo la notación y la desviación típica o estándar es √µ o λ.

Hemos visto cómo se obtiene la función de probabilidad, la media y varianza, de


una distribución de Poisson, como límite de una distribución binomial cuando p es
pequeño y n grande.

Ejemplo 1: Suponga que en la oficina del Defensor del pueblo se quiere saber si
llegarán 2 personas para ser atendidas en la próxima hora (o en una hora de
atención al público). Si se ha observado que en 80 horas han entrado para ser
atendidas 85 personas, ¿cómo se calcularía esta probabilidad?

2.71828−8.5 (8.52 )
P(2; 8.5) = .= 0,00735034
2!

Ejemplo 2: Si la Municipalidad ha subcontratado a una empresa para que realice


las tareas de bacheo y se ha encontrado que cada 100 metros hay 2 baches. Para
presupuestar la empresa la zona que le toca, desea saber cuál es la probabilidad
que se le presente 3 baches en cualquier cuadra.
2.71828−2 (23 )
P(3 ; 2) = .= 0,18044704
3!

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


105
Si se desea conocer la probabilidad de que haya 3 baches cada 50 metros, se debe
calcular la media proporcional. Si en 100 metros hay como promedio 2 baches en
50 metros habrá, entonces:

P(3,1)= 0,06131324

Que corresponderá por hacer proporcional la media al intervalo en espacio


correspondiente a los 50 metros.

Gráfico 4.7.1 - Forma de la distribución Poisson

La distribución Poisson es asimétrica derecha y su forma depende del único


parámetro de esta distribución que es la media. A medida que la media es mayor
la asimetría de la distribución cambia de sentido. Cuando µ=1,2 la asimetría
derecha es muy marcada, pasando por los valores de 3 y 5 de mantiene hasta que
en 7 la distribución es prácticamente simétrica y en µ=10 es asimétrica izquierda.
Si bien las probabilidades se pueden obtener mediante la aplicación de la función
de probabilidad es útil simplificar estos cálculos mediante tablas o software.
La distribución Poisson se puede utilizar como una aproximación a la distribución
binomial cuando n es grande y p es pequeña, como regla empírica se deberán
satisfacer las siguientes condiciones; n ≥ 100 y np ≤ 10. Cumpliendo estas
condiciones se puede aproximar una distribución binomial mediante una
distribución Poisson

Las tablas de la distribución de Poisson


Los valores de la probabilidad en la distribución de Poisson (4.6.3) se han tabulado
para distintos valores de x y de  = np
Para mayor ilustración veremos un ejemplo de aplicación de la tabla de Poisson:
El número medio de profesores que faltan por día en una Universidad, es de tres;
suponiendo que se aplica la distribución de Poisson se quiere saber:
a) Cuál es la probabilidad de que en un día dado, falte a lo sumo un profesor.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


106
b) Cuál es la probabilidad de que falten más de 5 profesores en un día
c) La distribución probable de las faltas de profesores en los próximos cien días.
Lo primero que debemos hacer, es buscar en la tabla la columna que corresponde
a  =3.
En esta columna de la tabla de la probabilidad de la distribución de Poisson. Vemos
que la probabilidad para x= 0, o sea la probabilidad de que no falte ningún profesor,
es 0,0498 y de que uno falte es 0,1494; por lo tanto la probabilidad de que falte a
lo sumo uno es, según el teorema de la suma:
0,0498 + 0,1494= 0,1992
La probabilidad de que falten más de cinco se obtiene sumando las probabilidades
para los valores de x mayores a cinco, es decir:
0,0504 + 0,0216 + 0,0081 +0,0027 + 0,0008+ 0,0002+ 0,0001=0,0839
Finalmente, para determinar la distribución de las faltas de profesores en los
próximos cien días se multiplican las posibilidades de los distintos valores de x por
cien (ver columnas "número de días " del cuadro 4.7.2

Cuadro 4.7.2
Nro.deprof Nro
e  x
.que faltan de
x!
X dias
0 0,0498 5
1 0,1494 15
2 0,2240 22
3 0,2240 22
4 0,1680 17
5 0,1008 10
6 0,0504 5
7 o mas 0,0335 3
También se han confeccionado tablas con la probabilidad acumulada de esta
distribución, o sea tablas de la función de distribución, F(x), mejor dicho de 1-F(x´).
Esta tabla se aplica para determinar la probabilidad de que se presente " x´ o más
" veces un evento que tiene baja probabilidad de presentarse. Así, la solución del
punto b) del ejemplo anterior se encuentra directamente en esta tabla para x´=6.
En cambio, la solución del punto a) se encuentra restando de uno el valor que trae
la tabla para x´=2.
En los siguientes ejemplos, veremos aplicaciones del manejo de las tablas de
probabilidades, en la distribución Poisson.
Ejemplo 3
Una firma comercial analizó una muestra de 10.000 pedidos recibidos de cierto
artículo almacenado y observó que la proporción de pedidos incompletos era
aproximadamente 0,00028, ¿Cuál es la probabilidad de que lleguen?:
a) 4 pedidos incompletos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


107
b) a lo sumo 3 incompletos.
c) más de 7 incompletos.
d) 7 o más pero a lo sumo 9.
e) más de 2 pero menos de 8.
f) ningún incompleto.
Interprete en cada caso el resultado obtenido.
Solución.
a) Este ejercicio plantea un problema de una distribución Poisson, porque "n" es
grande, y P muy pequeño.
El parámetro μ de la distribución es:
E(x)= μ = np = 10 000 x 0.00028 =2.8
Se nos pide aquí la siguiente probabilidad:
P( X = 4, μ =2.8 ), que según (4.7.3) la función de probabilidad es:
(e-μ μ x )
P(X  x)  P(x;μ) 
x!
(e- 2.8 2.84 )
P(X  4)  P(4;2.8)   0.1557
4!
Pero como este cálculo es complicado, utilizamos la tabla III, que trae la
probabilidad para un x y un μ determinado. En la tabla, el valor de μ figura como
m, ubicándonos para un
μ =2.8 y en este caso para x=4, encontramos la
probabilidad 0.1557.

m
X 2.1..................2.8
0 0.1225 0.0608
1 0.2572 0.1703
2 0.2700 0.2384
3 0.1890 0.2225
4 0.0902 0.1557

5 0.0417 0.0872
6 0.0146 0.0407
.
.

b) La probabilidad solicitada es P ( x  3;   2.8 ) esta probabilidad la podemos


calcular sumando las siguientes probabilidades :

P( x  0; μ  2.8)  P( x  1; μ  2.8)  P( x  2; μ  2.8)  P ( x  3; μ  2.8 ) 


0.0608  0.1703  0.2384  0.2225  0.6919

las cuales se obtienen de la tabla III, igual que en el inciso anterior.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


108
m
X 2.1..................2.8
0 0.1225 0.0608
1 0.2572 0.1703
2 0.2700 0.2384
3 0.1890 0.2225
4 0.0902 0.1557

5 0.0417 0.0872
6 0.0146 0.0407

pero como la tabla IV, proporciona la P ( x  x'; μ ) es decir acumula


probabilidades para valores de x mayores o iguales a x’, podemos entrar en dicha
tabla para m=2.8 y x =4, de esta forma, obtenemos la P ( x  4; μ )  0.3181 y si
restamos esta probabilidad de 1 (uno), obtenemos la probabilidad solicitada es
decir:
P ( x  3; μ  2.8 )  1  P( x  4,   2.8)  1  0.3081  0.6919
siendo esta probabilidad igual a la obtenida, si sumamos las probabilidades de la
tabla III, como ya hemos visto.
c) La probabilidad solicitada en este caso es P ( x  7; μ  2.8)
Se pide la probabilidad de que x > 7, pero la tabla IV no trae la probabilidad de x
mayor a un número dado, sino de x mayor o igual a un número dado. En este caso
x > 7 equivale a x  8 , ya que la variable de la distribución Poisson es discreta y el
valor mayor a siete significa 8 o más; por lo tanto podemos escribir:
P ( x  7; μ  2.8)  P( x  8,   2.8)  0.0081
Probabilidad que se obtiene directamente de la tabla IV entrando para m=2.8 y x
= 8.
De la misma forma, podríamos haber sumado las probabilidades de la tabla III:
P(x=8, m=2.8)+P( x=9, m=2.8)+P( x=10, m=2.8)+P( x=11, m=2.8)+ P(x=12,m=2.8)
= 0.0057+0.0018+0.0005+0.0001+0.0000=0.0081
y obtener el mismo resultado, pero es más práctico utilizar la tabla IV

d) La probabilidad que se pide es P ( 7  x  9; μ  2.8)


Esta probabilidad se puede obtener sumando las probabilidades que proporciona
la tabla III
P( x=7, µ=2.8)+P( x=8, µ=2.8)+P( x=9, µ=2.8)=
0.0163+0.0057+0.0018 =0.0237
Pero como la tabla IV acumula para mayores o iguales a un x dado, es mas cómodo
utilizar esta tabla, haciendo:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


109
P ( 7  x  9; μ  2.8)  P( x  7, μ  2.8)  P( x  10, μ  2.8) 
0.0244  0.0007  0.0237

e) La probabilidad pedida es P(2  x  8,   2.8)


Pero como estamos trabajando con una variable discreta, al pedir la probabilidad
de que x sea mayor que 2, nos están pidiendo mayor o igual a 3, y al pedir menor
que 8 nos piden menor o igual a 7 es decir:
P(2  x  8, μ  2.8)  P(3  x  7)
Siendo esta probabilidad similar al caso anterior, es decir, utilizando la tabla IV de
Poisson acumulada tenemos:
P ( 3  x  7; μ  2.8)  P( x  3, μ  2.8)  P( x  8, μ  2.8) 
0.5305  0.0081  0.5224

f) En este caso nos piden P( x  0, μ  2.8)


Esta probabilidad se encuentra directamente en la tabla III:
P( x  0, μ  2.8)  0.0608
Ejemplo 4
En base a los datos del ejemplo anterior:
a) Obtener la función de probabilidad y de acumulación
b) Calcular la media aritmética y la desviación típica
a) Sabemos que la función de probabilidad de una variable aleatoria, es la
probabilidad de que la variable asuma un determinado valor, es decir P( X = x ), en
(e-μμ x )
P(X  x)  P(x;  ) 
este caso sería : x! , tendríamos que calcular esta fórmula,
para todos los posibles valores de la variable, pero no hace falta, ya que como
vimos, estos valores figuran en la tabla III

m
X 2.1..................2.8
0 0.1225 0.0608
1 0.2572 0.1703
2 0.2700 0.2384
3 0.1890 0.2225
4 0.0902 0.1557

5 0.0417 0.0872
6 0.0146 0.0407
..
7
..

de esta tabla podemos obtener la distribución de probabilidades y calcular la


distribución de probabilidades acumulada, como figura en el siguiente cuadro:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


110
Valores de Función de Función de
la variable probabilidad acumulación
x (e -μ μ x ) F(x)
P(x;   2.8) 
x!
0 0.0608 0.0608
1 0.1703 0.2311
2 0.2384 0.4695
3 0.2225 0.6920
4 0.1557 0.8477
5 0.0872 0.9348
6 0.0407 0.9756
7 0.0163 0.9919
8 0.0057 0.9976
9 0.0018 0.9994
10 0.0005 0.9999
11 0.0001 1
12 0.0000 1
b). La media aritmética de una distribución Poisson se puede obtener mediante la
relación n p por lo tanto   10000 x 0.00028  2.8
La desviación típica de una variable con distribución Poisson es:
    2.8  1.67

Construcción de una tabla de probabilidades


Si se considera una distribución P(X,3), se obtiene la distribución utilizando la forma
o función analítica de P(X,µ). Sin embargo se construirá una tabla utilizando la
planilla de Excel. Mediante la fórmula POISSON.DIST(X;µ;FALSO), se calcula la
probabilidad para valor de la variable y se obtiene la distribución.
(1) (2)
X P(X,3)
0 0,049787068
1 0,149361205
2 0,224041808
3 0,224041808
4 0,168031356
5 0,100818813
6 0,050409407
7 0,021604031
8 0,008101512
9 0,002700504
10 0,000810151
11 0,00022095
12 0,0000552
13 0,0000127
14 0,0000027
15 0,0000005
16 0,0000001
17 0,0000000

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


111
En esta tabla están representados todos los valores de la variable y la probabilidad
de que asuma cualquiera de ellos. Estas tablas permiten encontrar la probabilidad
mediante la distribución Poisson para una media determinada (en este caso 3).
Para distintos valores de la media y de la variable se pueden encontrar las
probabilidades pertinentes mediante la función.
Se pueden armar tablas de probabilidad para distintos valores de la media y con
ellas encontrar probabilidades pedidas en los problemas.
Tabla de probabilidad Acumulada
(1) (2) (3)
X P(X,3) ∑P(X,3)
0 0,04978707 0,04978707
1 0,14936121 0,19914827
2 0,22404181 0,42319008
3 0,22404181 0,64723189
4 0,16803136 0,81526324
5 0,10081881 0,91608206
6 0,05040941 0,96649146
7 0,02160403 0,9880955
8 0,00810151 0,99619701
9 0,0027005 0,99889751
10 0,00081015 0,99970766
11 0,00022095 0,99992861
12 0,0000552 0,99998385
13 0,0000127 0,9999966
14 0,0000027 0,99999933
15 0,0000005 0,99999988
16 0,0000001 0,99999998
17 0 1

Ejercicio:
a) Construir la tabla de probabilidades (distribución para u=5 y u=7) y
comprobar la forma de la distribución.
b) Construir la tabla de probabilidades acumulada. Graficar
c) Mediante la tabla acumulada de probabilidad, calcular:
a) P(x>4,µ=3)
b) P(x≤4,µ=3)
c) P(1≤x≤4,µ=3)

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


112
UNIDAD 5

Variables Aleatorias Continuas. Distribución Normal.

INTRODUCCIÓN
En las unidades previas, se identificó un conjunto de datos. A partir de él, se
distinguieron elementos y variables. Posteriormente se construyeron tablas de
frecuencias y gráficos con sus distribuciones.
En la unidad 4 se estudiaron las distribuciones de probabilidades de las variables
aleatorias discretas más importantes binomial y Poisson.
En esta unidad se verán las distribuciones de probabilidad de variables aleatorias
continuas. Las variables aleatorias son continuas cuando su valor se expresa en un
intervalo o rango y tiene un número infinito de valores para ese rango específico.
Surge principalmente de procesos de medición.
Ejemplos de variables aleatorias continuas son: El peso de los camiones con cereal
en una báscula, la estatura de los alumnos de este curso, el tiempo de reparación
de los cortes de luz etc.
En cuanto a la distribución de probabilidades, se debe diferenciar de la distribución
de una variable aleatoria discreta en que la probabilidad se corresponde con
intervalos y con un valor determinado de la variable.

OBJETIVOS
Que el alumno sea capaz de distinguir una distribución de probabilidad teórica
(Normal) mediante sus características.
Que el alumno sea capaz de comprender y calcular, los distintos parámetros de la
distribución Normal.

CONTENIDOS
5.1 Distribución de Probabilidades de Variables Aleatorias Continuas
5.2 Valor esperado, Varianza y Desviación Típica de Variables Aleatorias
Continuas
5.3 La Distribución Normal
5.3.1 La distribución Normal Estándar
5.3.2 Cálculo de probabilidades para una variable normal natural
5.3.3. Aproximación de la distribución Normal a la Binomial
5.4 Ley de los grandes Números
5.5 Otras Distribuciones: Teoría de las Pequeñas Muestras

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


113
5.1 Distribución de Probabilidades de Variables Aleatorias Conti-
nuas
Una variable aleatoria asume valores en función de los eventos, y sus valores
pueden ser discretos o continuos, por consiguiente:

Una variable aleatoria continua es la que tiene un número infinito de valores


posibles para el espacio muestral definido.

Para poder entender la distribución de probabilidad continua se va a definir una


función importante que se llama función de densidad de probabilidad (en adelante
función de densidad) cuya notación será f(x).
Esta función no es igual a la función de probabilidad que se trató para variable
aleatoria discreta, ya que no representa probabilidad sino que por medio de ella se
obtendrán las probabilidades para un determinado intervalo de la variable a ≤ X ≤
b.
La función de densidad es la derivada (o la velocidad) con la que se acumula
probabilidad al pasar de derecha a izquierda en el eje de los valores de la variable
continua X. La función de densidad por consiguiente no es la probabilidad sino que
la probabilidad surge de integrar la función de densidad. Es decir que la
probabilidad es igual al área (integral) que se acumula bajo la curva de densidad
para un intervalo.
La función de densidad cumple con las siguientes condiciones:

- f(x)≥0
- El área bajo la curva f(x) es igual a 1
- La probabilidad de que la variable X tome valores entre a y b se simboliza P(a ≤
X ≤ b) y es igual a la superficie entre los puntos a y b, la función de densidad y
el eje x. Por lo tanto la probabilidad de que un valor determinado de X tenga
probabilidad es 0.

Figura 5.1

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


114
1- f(x) ≥ 0

2- ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
3 P (a ≤ X ≤ b) = ∫𝑎 𝑓(𝑥)𝑑𝑥
La forma de obtener probabilidades es calcular el área por debajo de la curva, que
es semejante a la integral en un determinado intervalo de X. Esto da lugar a la
función de acumulación de probabilidad que es con la que se obtienen
probabilidades.

La función de acumulación se define como:


𝑥
P(X ≤ x) = F(x) = ∫−∞ 𝑓(𝑥)𝑑𝑥
Que es una función no decreciente de los valores de la variable aleatoria con las
siguientes propiedades:
- 𝐹(−∞) = 0
- 𝐹(∞) = 1
- 𝑃
- 𝑑𝐹 (𝑥)⁄𝑑𝑥 = 𝑓(𝑥)

Gráficamente una función de Acumulación de una variable aleatoria continua toma


la siguiente forma:

Figura 5.2

5.2 Valor esperado, Varianza y Desviación Típica de Variables


Aleatorias Continuas
Esperanza matemática
Las variables aleatorias continuas al igual que las discretas tienen medidas
resúmenes como la esperanza matemática, la varianza y la desviación típica.
El valor esperado o esperanza matemática (igual a la media que vimos en
estadística descriptiva) es una medida de tendencia central de la variable, y como
consecuencia el promedio al que tiende la variable y en el caso de las variables
continuas surge de la integral del producto de la variable por su probabilidad

Valor esperado esperanza matemática o media 𝜇 = 𝐸(𝑋) = ∫ 𝑥𝑓(𝑥)𝑑𝑥.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


115
Las propiedades de la esperanza matemática se mantienen trátese de una variable
aleatoria continua o discreta.

Varianza y desviación típica


Como se vio anteriormente para variables aleatorias discretas la varianza es el
valor que indica la dispersión de los valores de la variable respecto de la esperanza
matemática o valor esperado y para una variable continua es igual a

Varianza 𝜎 2 = ∫(𝑥 − 𝜇)2 𝑓𝑥𝑑𝑥. Desviación típica o estándar 𝜎 = √𝜎 2

También las propiedades de la varianza son aplicables según sean variables


aleatorias continuas o discretas.

5.3 La distribución Normal


Las distribuciones continuas pueden adoptar distintas formas se pueden mencionar
la distribución uniforme de probabilidad y la exponencial, sin embargo una gran
cantidad de fenómenos de la naturaleza se pueden representar mediante la
distribución normal de probabilidades, entre ellos estatura, pesos. Consumo de
cierto tipo de productos, puntuaciones de examen, etc.
La distribución normal está caracterizada por dos parámetros; la media, μ y la
desviación típica, σ. Y su función de densidad es la siguiente:
−(𝑥−𝜇)2
1
𝑁(𝜇, 𝜎) = 𝜎√2𝜋 𝑒 2𝜎2 . Para -∞ ≤ x ≤ ∞ y σ>0

En donde e y π son constantes conocidas que σ e valen 2,7183 y 3,1416


respectivamente. El gráfico correspondiente a una variable x con μ y σ es el
siguiente:

Figura 5.3
La media es la que representa el centro de la distribución, esta es simétrica (igual
forma y superficie a ambos lados de la media). Como la superficie total debajo de
la función de densidad es igual a 1, a cada lado de la media el área es igual a 0,5.
Si se analiza la fórmula se puede observar que: como la desviación de X respecto
de la media está elevada al cuadrado iguales desvíos en valor absoluto representan
la misma densidad, también a mayores valores de X respecto de la media, la

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


116
densidad es menor ya que el exponente de e es negativo. Además por cada valor
de μ y σ existe una distribución distinta por eso se considera que hay una familia
de distribuciones normales.
La posición está representada por μ y un cambio significa un desplazamiento a la
derecha o a la izquierda dando lugar a otras distribuciones. De igual forma valores
distintos de σ altera la forma de la distribución en más plana o más puntiaguda sin
trasladarla.

Figura 5.4

En resumen, las característica de la distribución normal

Tiene forma campanular y la media moda y mediana están en el centro


de la distribución. El área total bajo la curva es 1 y desde el punto central
hacia la izquierda se acumula 0.5 igual que desde el centro a la derecha.
Es simétrica y la forma a la izquierda del valor central es idéntica a la de
la derecha.
Desciende suavemente en ambas direcciones del valor central. Es
asintótica La localización de la distribución está dada por el valor de μ y
la dispersión por el valor de σ.

Para obtener probabilidades de una distribución normal se debería encontrar el


área bajo la curva entre dos valores de X como a y b (ver figura 5.1).
Sin embargo, de acuerdo a los distintos valores de μ y σ la distribuciones serian
distintas, el cálculo de esas áreas para distintas distribuciones, sería muy poco
práctica por lo que se busca una distribución que generalice la forma de buscar
probabilidades. Se logra mediante la distribución normal estándar.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


117
5.3.1 La distribución Normal estándar
La distribución normal estándar se origina en una transformación de la variable X
que se distribuye normal con media μ y σ, da origen a una variable Z que se
distribuye con μ=0 y σ=1. Z indica que la unidad de medida es 1 o sea σ. Se pasa
𝑋−𝜇
de una variable X a una Z mediante la siguiente transformación𝑧 = 𝜎 es decir que
z es igual a la diferencia entre cada valor de X respecto de la media (a esto se le
llama desvío) dividido por la desviación estándar o típica. De esta forma Z expresa
la distancia a la media de cada valor de X en unidades de desviación estándar.
Esta transformación garantiza que el área bajo Z es igual al área bajo X, de esta
forma las probabilidades en intervalos entre Z son equivalentes a intervalos en
valores de X.
Ejemplo: Si una distribución X ~ N(100,10) (esta es la forma en que se expresa la
distribución de XLa variable normal X requiere de los parámetros que definen la
función; μ=100 y σ=10.
Si se busca la probabilidad de que x sea menor que 100 (μ), el área sería
100−100
equivalente a que 𝑧 < 10 =0, y la probabilidad en ambos casos es 0,50.
También se debe considerar que a valores de X menores que μ los valores de Z
serán negativos y a valores mayores de X respecto de la media los valores de Z
serán positivos.
Si el valor de x=110, el área menor a ese valor en términos de z sería z<1.
En síntesis, con la variable z se pueden buscar todas las probabilidades para
intervalos de X, simplemente estandarizando (transformando los valores de X en Z)
o tipificando X.
La distribución de probabilidades de la variable Z que acumula probabilidad hasta
z0 se muestra en la figura 5.5:

Figura 5.5

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


118
La tabla de probabilidad Normal
Para encontrar probabilidades para una variable aleatoria continua, se debe
acumular el área entre intervalos de valores. La tabla de probabilidad normal se
puede calcular mediante la integral de la función de densidad.
Las tablas de probabilidad tienen para valores de la variable acumulado el valor de
probabilidad (es decir la integral) entre ese punto y menos infinito; o sea que en la
tabla para cada valor se acumula probabilidad “para menores”.
Las probabilidades están siempre expresadas en términos de la variable Z que
estandariza las variables y expresa cualquier variable en una escala dada por el
desvío dividido la desviación típica.
O sea que todas la familia de variables normales con distintos valores de media y
desviación estándar (μ , σ) se pueden transformar a variables z(0.1).
Para encontrar una probabilidad se debe: en primer lugar, transformar como se
explicó, X en Z y luego obtener la probabilidad.
Casi todas las tablas del área de la normal se han construido para valores de la
variable Z normal (0,1). Estas tablas pueden diferir en la zona a que se refieren los
valores de la probabilidad. La clave se encuentra generalmente en el título, indicada
en los límites de la integral, o en un dibujo de la curva normal en el que se sombrea
la zona que corresponde a la tabla.
Los límites o dibujos, más usuales son los siguientes

t
F (t )   f ( z ) dz (5.3.1)

0 t z

t
F (t )   f ( z ) dz (5.3.2)
0

0 t z

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


119

F (t )   f ( z) dz (5.3.3)
t

0 t z

(5.3.4)
-t 0 t z

En todos los casos t es un valor particular de z.


Las letras F, x, z y t que hemos utilizado son convencionales y en las tablas pueden
encontrarse otras. Cabe señalar además que nosotros hemos simbolizado hasta
ahora con F(t) a la función de distribución, o función de probabilidad acumulada,
con el significado de la formula (5.3.1), pero es común encontrar este símbolo en
las tablas para referirse a la zona que se ha tabulado, como se expresa en (5.3.2),
(5.3.3) y (5.3.4).
Los problemas de aplicación de la tabla del área de la distribución normal consisten,
por lo general, en determinar la probabilidad para un intervalo dado.
La probabilidad, o el área, correspondiente a un intervalo cualquiera se calcula
utilizando de las tablas indicadas anteriormente, y teniendo en cuenta las
características o propiedades de la curva normal.
La tabla del área de la distribución normal que nosotros utilizaremos corresponde
a la figura y formula (5.3.1) y trae valores positivos de t.

En las clases prácticas se resolverán ejercicios en donde se detalla


el manejo de las tablas de probabilidades en la distribución normal,
ya sea para un valor particular como para un intervalo de valores
de la variable.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


120
La Regla Empírica
Es la descripción de la proporción de observaciones que se encuentran alrededor
de la media, en unidades de desviaciones estándar.
Así en Z el 68% del área estará entre -1 y 1, el 95% entre -2 y 2 y casi toda el área
entre -3 y 3, como se observa en la figura 5.4.

Regla empírica
1) A una distancia de una vez la desviación estándar o típica, se encuentra
aproximadamente el 68% del área de la curva. Es decir a μ ± σ.
2) A una distancia de dos veces la desviación estándar o típica, se encuentra
aproximadamente el 95% del área de la curva. Es decir a μ ± 2σ.
3) A una distancia de tres veces la desviación estándar o típica, se encuentra más
del 99,% del área de la curva. Es decir a μ ± 3σ.

Figura 5.4

5.3.2 Cálculo de probabilidades para una variable Normal natural


La forma de calcular probabilidades en una variable normal general o natural X, es
decir la que se expresa con parámetros μ y σ, es transformando el intervalo para el
que se busca la probabilidad. Se estandarizan o tipifican los valores de manera que
quedan expresados en términos de Z con media igual a 0 y desviación estándar o
típica =1.
Puede suceder que se busque la probabilidad entre los valores x0 y x1 para una
variable natural X, entonces se deberá buscar los valores Z correspondiente
𝑥0−𝜇 𝑥1−𝜇
transformando el intervalo de la siguiente forma 𝑧0 = y 𝑧1 = de manera
𝜎 𝜎

que la P(x0 ≤ X ≤ x1)= P(z0 ≤ Z ≤ z1), de esta forma la probabilidad se obtiene


directamente de la tabla.

Ejemplo 1: Si X es una variable X que se distribuye con μ=20 y σ=4


(X ~ N (20,4) ). Hallar la probabilidad entre 22 y 27.2

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


121
Resolución:
22−20 27,2−20
P(22 ≤ X ≤ 27.2)= P(𝑧0 = 4 - ≤ Z ≤ 𝑧1 = 4 ) = P (0,5 ≤ Z ≤ 1,8). Ahora
se está en condiciones de revisar la tabla y para buscar ese intervalo:
P (Z≤1,8)=0,9641 mientras que la P (Z≤0,5)=0,6915 por lo tanto P (0,5 ≤ Z ≤ 1,8)=
P (Z≤1,8) – P (Z≤0,5) =0,9032-0,6915 = 0,2716.

Función de densidad
Normal(20,16): p(evento)=0,2726
0,10

0,07
Densidad

0,05

0,02

0,00
0,00 10,00 20,00 30,00 40,00
Variable

Figura 5.5
Ejemplo 2:
Una fábrica de aluminio produce un tipo de canaleta de aleación. Se sabe que la
rigidez medida en kg sobre m2 esta normalmente distribuida en μ =24,25 y una
σ=1,15. Si se elige al azar una canaleta de esta línea de producción. ¿Qué
probabilidad tendrán los siguientes valores?:
a) Entre 22,50 y 24,25
b) Entre 22,50 y 25,00
c) Entre 25,25 y 26,25
d) Mayor de 25
e) Menor de 22
Siempre las probabilidades surgen de una distribución normal estándar Z, por lo
tanto, cuando se pide un valor hasta el que se ha acumulado una probabilidad
determinada, el valor que se obtiene es un punto z. Si se necesita obtener ese valor
en términos de la variable natural o general X, se lleva el z a su equivalente x de
la variable natural. Se hace utilizando los parámetros de la variable x: μ y σ. Si para
𝑥
obtener z se usa z 𝜎−𝜇 entonces despejando x se obtiene x= μ+ z σ y de esta manera
se obtiene el valor de la variable natural X.
Esa operación se llama destipificar y el valor es un valor destipificado.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


122
Ejemplo 3: Con los datos del ejemplo 1, encontrar el valor de x que acumula una
probabilidad menor a 0.95, es decir P(X<x)=0.95. Esta probabilidad se busca en la
tabla y se obtiene para el valor de z=1,65. Para encontrar el valor de X, se hace x=
μ+ 1,65 σ o sea x=20+1,65x4; x=26.6

Ejemplo 4: Con la misma distribución del ejemplo 1 encontrar:


a) P(X>x)=0.95
b) P(X<x)=0.2420
c) P(x0<X<x1)=0.95

Para encontrar valores de probabilidad es necesario (usando la tabla) llevar los


puntos del intervalo de la variable X a valores de la variable Z, con estos valores se
encuentra en la tabla de la probabilidad correspondientes. De igual modo valores
equivalentes a cierta área de una distribución Z se pueden transformar (destipificar)
y llevarlos a valores de la variable natural X.

5.3.3. Aproximación de la distribución Normal a la Binomial


La distribución binomial que se vio en la unidad 5, requiere obtener probabilidades
dándole valores a parámetros n y p. Como se vio es posible aproximar esa
distribución para cuando n es grande y p pequeño mediante la distribución Poisson.
Otra forma de obtener probabilidades similares a la distribución binomial es
mediante la distribución normal, Si se observa cuando np y n(1-p) son ambos
mayores o iguales a 5. Es decir np ≥ 5 y n(1-p)≥5 .

Figura 5.6

Ahora bien la distribución normal es continua cualquier probabilidad en un punto es


igual a 0 mientras la binomial al ser discreta los valores individuales de x poseen
probabilidad. En este sentido va a ser necesario realizar una corrección por
continuidad para que los valores pasen a tratarse como intervalos.
La utilidad del uso de una distribución normal no es tanto operativa sino conceptual.
Y en estadística aplicada se verá como una distribución de proporciones puede
aproximarse por una distribución normal y de esta manera obtener medidas de la
muestra.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


123
La aproximación de una distribución binomial mediante una distribución normal
pasa por considerar los dos parámetros con los que se define la normal. En la
distriución binomial la media µ= np y σ =√𝑛𝑝1 − 𝑝 entonces
Z=𝑥 − 𝑛𝑝/√𝑛𝑝1 − 𝑝 por lo que para un np≥5 se aplica la distribución normal, es
decir se pueden calcular probabilidades mediante la distribución normal.
Para ello será necesario realiza una correción por continuidad, que no es otra cosa
que amplia en 0,5 un valor x de la distribución binomial para que quede
comprendido en un intervalo de +- 0,5. Asi se utiliza el factor de corrección
1)P(X≥x) = P( X≥x-0,5);
2)P(X>x) = P( X>x+0,5);
3)P(X≤x) = P( X≤x+0,5);
4)P(X<x) = P( X<x-0,5);

Ejemplo:
Para ver cómo se le puede usar para aproximar la distribución binomial, suponga
que nos gustaría saber la probabilidad de obtener 5, 6, 7 u 8 caras en10
lanzamientos de una moneda no alterada. Se podría utilizar la tabla para encontrar
esta probabilidad de la siguiente manera:
P(r =5, 6, 7 u 8) =P(r = 5) + P(r = 6) + P(r = 7) + P(r =8)
= 0.2461 + 0.2051 + 0.1172 + 0.0439
= 0.6123
En la figura 5.6 se dibuja una binomial con una normal sobrepuesta a ella con las
misma media (√𝑛𝑝1 − 𝑝 =√10⁄1⁄21⁄2 = √2,5= 1.581).
Observe el área bajo la curva normal entre 5 1/2 y 5 1/2. Nos damos cuenta de
que estas áreas de aproximadamente el mismo tamaño que el área de la barra
sombreada que representa la probabilidad binomial de obtener cinco caras.
Los dos “medios” (1/2) que agregamos y restamos a cinco se conocen como
factores de corrección de continuidad y se utilizan para mejorar la precisión de la
aproximación.
Al usar los factores de corrección de continuidad, vemos que la probabilidad
binomial de obtener 5, 6, 7 u 8 caras puede ser aproximada por el área bajo la curva
normal entre 4.5 y 8.5.
Determine esta probabilidad mediante el cálculo de los valores de z
correspondientes a 4.5 y 8.5

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


124
Figura 5.7

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


125
5.4 Ley de los grandes Números
La ley de los grandes números es la justificación matemática del enfoque
frecuencial de la probabilidad.
Vamos a demostrar la llamada ley débil (o sencilla) de los grandes números. Esta
ley señala que, en fenómenos de tipo binomial, si el número de observaciones es
suficientemente grande, la frecuencia relativa x/n será con un alto grado de
confianza prácticamente igual a la probabilidad P.
La desigualdad de Tchebycheff, establece:
𝜎2
𝑃(|𝑋 − 𝜇| > 𝐾) ≤ 𝐾2 (5.4.1)
Esto nos dice que la probabilidad de que X difiera de 𝜇 en una magnitud superior
𝜎2
a K, no es superior a 𝐾2 .
Hemos visto que en la distribución binomial, si la variable es, X/n, la media y la
varianza de esta variable son:
𝑋
Media de ( ) = 𝜇 = 𝑃; recordar que si 𝑋 es binomial, su media es nP
𝑛
𝑋 Pq
Varianza de ( ) = 𝜎 2 = , recordar que si 𝑋 es binomial, su varianza es nPq
𝑛 𝑛
Si además hacemos 𝐾 = 𝜀 tan pequeño como se quiera (positivo), podemos escribir
la desigualdad de Tchebycheff de la siguiente manera:
𝑋 Pq
𝑃 (| − 𝑃| > 𝜀) ≤ (5.4.2)
𝑛 𝑛𝜀 2

Se demuestra fácilmente que P q = P (1 – P ) alcanza su valor máximo para P =1/2,


por lo tanto, reemplazamos en (5.13.2) a P q por su valor máximo, (0,50 X 0,50 =
0,25 = 1/4)
𝑋 1
𝑃 (|𝑛 − 𝑃| > 𝜀) ≤ 4 𝑛𝜀2 (5.4.3)

Si tomamos límite para 𝑛 → ∞ nos queda


𝑋
lim 𝑃 (|𝑛 − 𝑃| > 𝜀) = 0 (5.4.4)

De donde se deduce que, cuando n es suficientemente grande, la probabilidad que


X/n se aleje de P en una cantidad mayor a 𝜀 (positivo pero tan pequeño como se
quiera) es igual a cero. No se trata de un evento imposible sino de un evento
altamente improbable.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


126
5.5 Otras Distribuciones: Teoría de las Pequeñas Muestras
5.5.1 Introducción

En los puntos anteriores nos hemos referido a estimadores que, de conformidad al


teorema Central del Límite, tienen distribución de probabilidades normal, o
asintóticamente normal para muestras suficientemente grandes y hemos visto que
el valor de n, para que la muestra se considere grande, depende del parámetro a
estimar. Para utilizar la distribución normal en la estimación de la media poblacional
la muestra tiene que ser mayor a 30; para la varianza mayor a 100 y para
proporciones el tamaño varia en función de “p” a partir de n ≥ a 30 para p=0,50.

Muchas veces las muestras no son suficientemente grandes o se presentan


situaciones especiales que requieren el uso de estimadores que tienen otras
distribuciones. Se aplican en tales casos la distribución bipuntual, la distribución, la
distribución binomial, la distribución de Poisson u otras distribuciones desarrolladas
especialmente para pequeñas muestras pero que son también de aplicación en
muestras relativamente grandes.

La técnicas Estadisticas especiales referidas a pequeñas muestras se


conocen con el nombre de Teoría de las Pequeñas Muestras, siendo las tres
distribuciones principales las siguientes:

Distribución X2 (chi cuadrado) de Pearson

Distribución t de Student

Distribución F de Snedecor

Estas distribuciones se llaman también distribuciones exactas.

5.5.2 Definición de una variable aleatoria con distribución χ 2 (Chi Cuadrado)

Una variable Chi Cuadrado se define como la suma de los cuadrados de


variables normales z (0,1), es decir si x1, x2, x3.........,xn son n observaciones
muestrales en una población normal ( , ) , el estadístico (variable aleatoria):

n
 ( xi   ) 2
(x -  )
y  i 1 ; recordar que z (3.2.1)
2 
se distribuye x2 (chi cuadrado con n grados de libertad). También se puede escribir:
n
y   z i2 ; z ~ N(0,1)
i 1
2
Una variable x (chi cuadrado) tiene grados de libertad y estos son iguales a
la cantidad de z que se suman, o sea que si se suman n variables z , la Chi

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


127
Cuadrado tendrá n grados de libertad. Se demuestra, nosotros no lo haremos, que
la media aritmética de una Chi Cuadrado es igual a los grados de libertad (n) y la
varianza es igual a dos veces los grados de libertad (2n) es decir:
n
y   z i2   n2  una chi cuadrado con n grados de libertad;
i 1
y
 2  n;
n  2  2n
 nn

Es bueno aclarar que cuando los parámetros poblacionales ( , ) no se


conocen y hay que estimarlos los grados de libertad ya no serán igual a n (cantidad
de variables z al cuadrado que se suma), sino que habrá que restar de n (grados
de libertad) la cantidad de parámetros que se estimen.

Por ejemplo, si se conoce la desviación típica poblacional, pero no la media


poblacional, a la que estimamos con la media muestral, la Chi Cuadrado tendrá n-
1 grado de libertad y se calculara de la siguiente manera:
n
 ( xi  x ) 2 n
y  i 1   z2   2
2 i n -1
σ i 1

Como vemos, al ser la Chi Cuadrado igual a la suma de los cuadrados de


variables normales z (0,1), no asumirá valores negativos, sino valores entre 0 e
infinito, por ser una variable continua. En el gráfico siguiente puede observarse el
comportamiento de la función de densidad de la distribución x2 para distintos
grados de libertad.

2g
3 libertad
2.5
6 g. L.
2
10 g.l.
1.5

0.5
0
0 5 10 15 20 x2 n

Una propiedad importante de la distribución Chi cuadrado, es la propiedad


reproductiva, o sea la de reproducirse por la suma, llamada también propiedad
aditiva de Chi cuadrado. Dadas dos variables Chi cuadrado: y1 y y2 con n1 y n2
grados de libertad, la suma de ellas es otra Chi cuadrado que se distribuye con n 1
+ n2 grados de libertad.
5.5.3 Definición de una variable aleatoria con distribución t de Student

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


128
Si las variables aleatorias X e y se distribuyen N ( ,  ) y  n2
respectivamente, el cociente:
X 
t  (3.4.1)
y
n

tiene una distribución tn (t de Student con n grados de libertad). Si hacemos

X 
z

resulta
z
t
y
n

donde z, que tiene distribución Normal, N(0,1) e y ~  n2

Como vemos la variable t de Student se obtiene como el cociente entre una


normal tipificada y la raíz cuadrada de una Chi cuadrada dividida sus grados de
libertad. Los grados de libertad de la distribución t, son iguales a los grados de
libertad de la Chi del denominador.

Esta distribución es simétrica, y asume valores entre menos infinito e infinito

En el siguiente gráfico se compara la curva normal z (0,1) con la distribución,


t

Normal

t4 n=4

t2 n=2

Como se puede apreciar a medida que n aumenta la t n se aproxima a la normal z


(0,1)
5.5.4 Definición de una variable aleatoria con distribución F de Snedecor

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


129
Si las variables x e y se distribuyen  m2 y  n2 respectivamente, se dice que el
estadístico o la variable F calculada como el cociente de estas dos Chi cuadrado
dividida cada una por sus grados de libertad, tiene una distribución F(m,n) de
Snedecor, con m y n grados de libertad en el numerador y el denominador
respectivamente, es decir:

x
nx
F (m, n)  m 
y my
n

Como vemos la distribución F de Snedecor tiene grados de libertad en el


numerador y el denominador, y se obtiene como el cociente de dos Chi cuadrado
divididas cada una por sus grados de libertad, siendo los grados de libertad del
numerador y el denominador , los grados de libertad de la Chi cuadrado del
numerador y el denominador respectivamente.

El recorrido de esta variable es de 0 a infinito, no asume valores negativos


por ser cociente de dos variables positivas.

g(F) F2,2

F10,2

F10,10

0 0.5 1.0 1.5 F

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


130
ESTADÍSTICA

MATERIAL PRÁCTICO
Unidades 1 a 5

Modalidad a Distancia

Año 2023

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


131
UNIDAD 1

A. LA NECESIDAD DE LA ESTADÍSTICA. LOS DATOS Y


SU MEDICIÓN

EJERCICIO Nº1
Una reconocida empresa de turismo de nuestro país, realiza un registro de los
mejores alojamientos al momento de realizar recomendaciones a sus clientes.

La siguiente tabla presenta algunos alojamientos de Argentina, con datos


correspondientes al año 2016. Además, esta empresa coloca una puntuación a
cada uno de ellos teniendo en cuenta parámetros tales como servicios generales,
restaurant, habitaciones, ubicación, entre otras consideraciones.

Tabla 1. Alojamientos en Argentina

Nombre Localidad Provincia Estrellas Hab Doble Calificación


Condado Hotel Goya Corrientes **** 2000 89
Alto Paraná Córdoba Córdoba ** 1010 79
Turismo Hotel Casino Corrientes Capital Corrientes **** 1850 88
Conte Capital Federal Buenos Aires **** 2100 90
Costanera Hotel & Resort Corrientes Capital Corrientes *** 1500 81
Grand King Capital Federal Buenos Aires **** 2100 91
Posada Casablanca Esquina Corrientes **** 2050 89
Arenales Capital Federal Buenos Aires *** 1500 83
Hotel de la Cañada Córdoba Córdoba **** 1900 92
Hotel Pellegrini Sunchales Sante Fe ** 1000 78
Chipre Capital Federal Buenos Aires * 800 70
Hotel Arrecifes Arrecifec Buenos Aires * 750 71
Panamericano Bs As Capital Federal Buenos Aires ***** 2500 95

Fuente: Elaboración propia


Responda las siguientes preguntas y justifique:

a) ¿Cuántos elementos hay en este conjunto de datos?

b) ¿Cuántas variables hay en este conjunto de datos?

c) ¿Cuáles variables son cualitativas y cuáles cuantitativas?

d) ¿Qué tipo de escala de medición se usa para cada variable?

e) ¿Cuál es la población?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


132
EJERCICIO Nº 2
De acuerdo a los datos de la tabla precedente responda:

a) ¿Cuál es el precio promedio de una habitación doble en los hoteles


considerados?
b) Calcule la calificación promedio.
c) ¿Qué porcentaje de los hoteles se encuentra en Capital Federal? Y ¿Qué
porcentaje de hoteles se encuentra en Córdoba?
d) ¿En qué porcentaje de los hoteles el precio de la habitación doble supera
los $2000?

EJERCICIO Nº 3
La Empresa LIBROS. S.A. vende libros electrónicos a los miembros de su club de
venta por internet. En una encuesta literaria se les pidió a los nuevos miembros del
club que llenaran un cuestionario con 11 preguntas. Algunas de las preguntas eran:

a) ¿Cuántos libros electrónicos has comprado en los últimos 12 meses?

b) ¿Eres miembro de algún otro club de venta de libros electrónicos por internet (Sí
o No)?

c) ¿Cuál es tu edad?

d) Incluyéndote a ti, ¿de cuántas personas (adultos y niños) consta tu familia?

e) ¿Qué tipo de libros te interesa comprar? Se presentaban quince categorías entre


las que se encontraban Novelas, Históricos, Tecnología, Ciencia Ficción.
Románticos

Responde si los datos que se obtienen con cada pregunta son cualitativos o
cuantitativos.

EJERCICIO Nº 4
La empresa ENCUESTAS realizó una encuesta telefónica empleando una muestra
aleatoria local compuesta de 503 adultos de 18 años o más. En la encuesta se les
preguntó a los participantes “Cómo considera que se alimenta en este momento.
Las respuestas podían ser Óptima, Regular, Mala o Ninguna opinión.

a) ¿Cuál es el tamaño de la muestra de esta investigación?

b) ¿Son estos datos cualitativos o cuantitativos?

c) ¿Sería conveniente usar promedios o porcentajes para resumir los datos de


estas preguntas?

d) De las personas que respondieron, 23% dijo que su alimentación era óptima.
¿Cuántos fueron los individuos que dieron esta respuesta?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


133
EJERCICIO Nº 5
En el año 2015, se realizó la última elección presidencial en el país IDEAL.

En una encuesta realizada entre los votantes registrados se encontró que el


Candidato 2 iba a la cabeza con un porcentaje estimado de 54%.

a) ¿Cuál fue la población en este estudio?

b) ¿Cuál fue la muestra en este estudio?

c) ¿Por qué se empleó una muestra en esta situación? Explique.

EJERCICIO Nº 6(Fuente: Estadística para Administración y Economía – Anderson Sweeney


Williams)

En una encuesta realizada a 131 directores de inversión en Barron’s se encontró lo


siguiente (Barron’s 28 de octubre de 2002):

• De los dirigentes 43% se clasificaron como optimistas o muy optimistas sobre el


mercado de acciones.

• El rendimiento promedio esperado en los 12 meses siguientes en títulos de capital


fue 11.2%.

• La atención a la salud fue elegida por 21% como el sector con más probabilidad
de ir a la cabeza del mercado en los próximos 12 meses.

• Cuando se les preguntó cuánto tiempo se necesitaría para que las acciones de
tecnología y telecomunicación recobraran un crecimiento sostenible, la respuesta
promedio de los directivos fue 2.5 años.

a) Cite dos estadísticas descriptivas.

b) Haga una inferencia sobre la población de todos los directivos de inversiones


respecto al rendimiento promedio esperado en los títulos de capital durante los
siguientes 12 meses.

c) Haga una inferencia acerca de la cantidad de tiempo que se necesitará para que
las acciones de tecnología y telecomunicación recobren un crecimiento sostenible.

EJERCICIO Nº 7
Considere el conjunto de datos de la muestra de los 10 minicomponentes que se
muestra en la siguiente tabla:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


134
Tabla - Muestra de 10 Minicomponentes

Precio Calidad de CD FM Puertos


Marca y Modelo ($) sonido Capacidad Sintonización USB
Aiwa NSX-AJ800 250 Buena 3 Regular 2
JVC FS-SD1000 500 Buena 1 Muy Buena 0
JVC MX-G50 200 Muy Buena 3 Excelente 2
Panasonic SC-PM11 170 Regular 5 Muy Buena 1
RCA RS 1283 170 Buena 3 Mala 0
Sharp CD-BA2600 150 Buena 3 Buen 2
Sony CHC-CL1 300 Muy Buena 3 Muy Buena 1
Sony MHC-NX1 500 Buena 5 Excelente 2
Yamaha GX-505 400 Muy Buena 3 Excelente 1
Yamaha MCR-E100 500 Muy Buena 1 Excelente 0
Fuente: Elaboración propia
a) Cuántas variables hay en éste conjunto de datos
b) De éstas variables, ¿cuáles son cualitativas y cuáles son cuantitativas?
c) ¿Cuál es la capacidad promedio de Puertos USB en la muestra?
d) ¿Qué porcentaje de los minicomponentes tienen un sintonizador de FM
bueno o excelente?
e) ¿Qué porcentaje de los minicomponentes tienen dos puertos USB?

EJERCICIO Nº 8
En una encuesta a 430 viajeros de negocio se encontró que 155 de ellos empleaban
los servicios de un agente de viajes para la preparación de sus viajes.

a) Elabore una estadística descriptiva que sirva para estimar el porcentaje de


viajeros de negocios que emplean un agente de viajes para preparar su viaje.
b) Con la encuesta se encontró que la manera más frecuente en que los
viajeros de negocios hacen los preparativos de su viaje es mediante un sitio
en línea. Si el 4% de los viajeros de negocios encuestados hacen los
preparativos de esta manera, ¿cuántos de los 430 encuestados emplearon
un sitio en línea?
c) Estos datos sobre cómo se hacen los preparativos, ¿son cualitativos o
cuantitativos?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


135
EJERCICIO Nº 9
Una pequeña empresa de la Ciudad de Río Cuarto realiza ventas por internet de
zapatos, carteras y accesorios. Hace envíos a distintas provincias y los clientes
califican la venta. En la siguiente tabla figuran las últimas 20 ventas:

Días Demora
Categoría Localidad Provincia Calificación Importe
del Envío

Zapatos Río Cuarto Córdoba 1 Excelente $ 1.190


Carteras Elena Córdoba 2 Muy Bueno $ 2.550
Accesorios Villa Mercedes San Luis 3 Bueno $ 3.800
Carteras Venado Tuerto Santa Fe 6 Regular $ 3.100
Zapatos Villa Mercedes San Luis 3 Bueno $ 2.400
Zapatos Córdoba Córdoba 2 Muy Bueno $ 1.500
Accesorios Rosario Santa Fe 5 Regular $ 810
Carteras Río Cuarto Córdoba 1 Excelente $ 3.600
Accesorios Merlo San Luis 2 Bueno $ 2.100
Carteras Sampacho Córdoba 1 Excelente $ 850
Zapatos Villa Dolores Córdoba 1 Excelente $ 1.700
Zapatos Río Tercero Córdoba 2 Muy Bueno $ 500
Accesorios Santa Fe Santa Fe 6 Regular $ 1.300
Carteras Santa Rosa La Pampa 3 Bueno $ 600
Carteras Río Cuarto Córdoba 1 Excelente $ 1.100
Accesorios General Pico La Pampa 2 Muy Bueno $ 320
Carteras San Luis San Luis 2 Bueno $ 580
Zapatos Villa María Córdoba 1 Excelente $ 1.800
Accesorios Río Cuarto Córdoba 2 Excelente $ 500
Carteras Casilda Santa Fe 7 Regular $ 700

Responda a las siguientes preguntas y justifique:

a) ¿Cuántas variables hay en este conjunto de datos?


b) ¿Cuáles variables son cualitativas y cuáles cuantitativas?
c) ¿Qué porcentaje de ventas se hicieron en Río Cuarto?
d) ¿Qué porcentaje de clientes calificaron como Excelente a la Venta?
e) Actualmente la empresa vende a cuatro provincias. Se planteó como objetivo
que en todas ellas el número de ventas realizadas sobre el total sea mayor a un
15%. Con sólo observar los datos de la tabla:
-Identifique la provincia en la que en las últimas ventas no se cumplió con
dicho objetivo,
-Señale qué porcentaje representa la cantidad de ventas concretadas en la
misma.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


136
f) Se desea mejorar la calificación dada a la empresa, por lo que se pide que sin
realizar mayores cálculos:
-Indique en cuál provincia se presenta la calificación más baja y el porcentaje
que representa el número de ventas realizadas en ella.
-¿Puede observar si la calificación baja está vinculada a alguna otra variable
de la tabla?. ¿A cuál de ellas?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


137
B. TABULACIÓN DE DATOS – DESCRIPCIÓN GRÁFICA DE LOS
DATOS
EJERCICIO Nº1
Una reconocida empresa de turismo de nuestro país, realiza un registro de los
mejores alojamientos al momento de realizar recomendaciones a sus clientes.
A continuación, se da una distribución de frecuencia relativa.

Clase Frecuencia relativa


A 0.22
B 0.18
C 0.40
D
a) ¿Cuál es la frecuencia relativa de la clase D?
b) El tamaño de la muestra es 200. ¿Cuál es la frecuencia de la clase D?
c) Muestre la distribución de frecuencia.
d) Dé la distribución de frecuencia porcentual.

EJERCICIO Nº 2
Un cuestionario proporciona como respuestas 58 Sí, 42 No y 20 ninguna opinión.
a) En la construcción de una gráfica de pastel, ¿qué porcentaje le corresponderán
del gráfico de sectores a la respuesta Sí?
b) ¿Qué porcentaje le corresponderán del gráfico de sectores a la respuesta No?
c) Construya un gráfico de sectores.
d) Construya un gráfico de barras.

EJERCICIO Nº 3
El índice de audiencia de televisión, que mide el porcentaje de personas que tienen
televisión y que están viendo un determinado programa se llama REACH.
Por ejemplo, en Argentina, Telefe superó los 10 puntos en dos meses consecutivos,
octubre y noviembre de 2016, con una media de 10.2 puntos. Durante junio y julio
de 2014, con la transmisión exclusiva de Brasil 2014, el canal público logró
posicionarse tercero con medias por encimas de los 6.0 puntos.
Kantar Ibope Media (empresa que mide audiencia) publicó la lista de los 50
programas de televisión con los mayores índices de audiencia en la historia de la
televisión. Los datos siguientes presentan las cadenas de televisión que produjeron
estos 50 programas con mayor índice de audiencia.

Telefe elnueve eltrece FOX elnueve


Telefe elnueve elnueve eltrece eltrece
Telefe eltrece elnueve eltrece elnueve
elnueve Telefe eltrece Telefe eltrece
eltrece elnueve elnueve elnueve eltrece
Telefe eltrece eltrece Telefe Telefe
eltrece Telefe eltrece Telefe eltrece
Telefe eltrece eltrece eltrece Telefe
Telefe elnueve elnueve elnueve elnueve
elnueve Telefe elnueve elnueve Telefe

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


138
a) Con estos datos construya una distribución de frecuencia, una de frecuencia
porcentual y una gráfica de barras.
b) ¿Cuál o cuáles cadenas de televisión han presentado los programas de mayor
índice de audiencia? Compare los desempeños de elnueve, Telefe y eltrece.

EJERCICIO Nº 4
Un restaurante de Puerto Madero emplea cuestionarios en los que pide a sus
clientes que evalúen el servicio, la calidad de los alimentos, los cocteles, los precios
y la atmósfera del restaurante. Cada uno de estos puntos se evalúa con una escala
de óptimo (O), muy bueno (V), bueno (G), regular (A) y malo (P). Emplee la
estadística descriptiva para resumir los datos siguientes respecto a la calidad de
los alimentos. ¿Qué piensa acerca de la evaluación de la calidad de los alimentos
de este restaurante?

G O V G A O V O V G O V A

V O P V O G A O O O G O V

V A G O V P V O O G O O V

O G A O V O O G V A G

EJERCICIO Nº 5

Netflix, ofrece alquiler por streaming, de más de 50 000 títulos de películas. Antes
de alquilar una película, el cliente puede ver una descripción de la misma y, si así
lo desea, un resumen de las evaluaciones de la misma. Netflix emplea un sistema
de evaluación de cinco estrellas que tienen el significado siguiente:

1 estrella = Me disgustó
2 estrellas = No me disgustó
3 estrellas = Me gustó
4 estrellas = Me gustó mucho
5 estrellas = Me fascinó
Dieciocho críticos, entre los que se encontraban Roger Ebert de Chicago Sun Times
y Ty Burr de Boston Globe, proporcionaron evaluaciones en Hispanoamérica de la
película Batman inicia (Netflix.com, 1 de marzo de 2006). Las evaluaciones fueron
las siguientes:

4, 2, 5, 2, 4, 3, 3, 4, 4, 3, 4, 4, 4, 2, 4, 4, 5, 4

a) Diga por qué son cualitativos estos datos.


b) Dé una distribución de frecuencias y una distribución de frecuencia relativa.
c) Realice un gráfico de barras.
d) Haga un comentario sobre las evaluaciones que dieron los críticos a esta
película.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


139
EJERCICIO Nº 6

La Agencia ProCórdoba, creada por el Gobierno de la Provincia de Córdoba para


incentivar las exportaciones, publicó en sus informes la siguiente representación
gráfica referida a la Composición de las Exportaciones de Córdoba durante el Año
2017. (Sustraído de http://www.procordoba.org)

Notas:
*Las exportaciones cordobesas en el año 2017 alcanzaron la suma de 7.881
millones de dólares
*PP: Productos Primarios
*MOA: Manufacturas de Origen Agropecuario
*MOI: Manufacturas de Origen Industrial
*CyE: Combustibles y Energía.
Se pide:
a) Muestre la distribución de frecuencia relativa.
b) Determine el importe de exportaciones de cada rubro (expresado en millones de
dólares).
c) Si las exportaciones argentinas en el año 2017 alcanzaron la suma 58.384
millones de dólares:
-Indique qué porcentaje representan las exportaciones cordobesas sobre el
total del país.
-Construya una gráfica de pastel mostrando la participación de Córdoba
sobre el total argentino.

EJERCICIO Nº 7
Con los siguientes datos de años seleccionados aleatoriamente construya un
diagrama de tallo y hojas. Use 10 como unidad de hoja.
1161 1206 1478 1300 1604 1725 1361 1422
1221 1378 1623 1426 1557 1730 1706 1689

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


140
EJERCICIO Nº 8
En un maratón 1228 registrados. Para esta competencia hubo seis grupos de
edades. Los datos siguientes son las edades encontradas en una muestra de 40
participantes.
49 33 40 37 56
44 46 57 55 32
50 52 43 64 40
46 24 30 37 43
31 43 50 36 61
27 44 35 31 43
52 43 66 31 50
72 26 59 21 47
a) Realice un diagrama expandido de tallo y hojas.
b) ¿En qué grupo de edad hubo más participantes?
c) ¿Qué edad se presenta con más frecuencia?
d) ¿Qué porcentaje de los corredores pertenecían al grupo de veintitantos años?

EJERCICIO Nº 9
Los siguientes son datos de 30 observaciones en las que intervienen dos variables,
x e y. Las categorías para x son A, B, y C; para y son 1 y 2.
Observación x y Observación x y
1 A 1 16 B 2
2 B 1 17 C 1
3 B 1 18 B 1
4 C 2 19 C 1
5 B 1 20 B 1
6 C 2 21 C 2
7 B 1 22 B 1
8 C 2 23 C 2
9 A 1 24 A 1
10 B 1 25 B 1
11 A 1 26 C 2
12 B 1 27 C 2
13 C 2 28 A 1
14 C 2 29 B 1
15 C 2 30 B 2

a) Con estos datos elabore una tabulación cruzada en la que x sea la variable
para los renglones e y para las columnas.
b) Calcule los porcentajes de los renglones.
c) Calcule los porcentajes de las columnas.
d) ¿Cuál es la relación, si hay alguna, entre las variables x e y?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


141
EJERCICIO Nº 10
Las siguientes 20 observaciones corresponden a 20 variables cuantitativas
Observación x y Observación x y
1 -22 22 11 -37 48
2 -33 49 12 34 -29
3 2 8 13 9 -18
4 29 -16 14 -33 31
5 -13 10 15 20 -16
6 21 -28 16 -3 14
7 -13 27 17 -15 18
8 -23 35 18 12 17
9 14 -5 19 -20 -11
10 3 -3 20 -7 -22
a) Elabore un diagrama de dispersión para la relación entre x e y.
b) ¿Cuál es la relación, si hay alguna, entre x e y?.

EJERCICIO Nº 11
Considere la distribución de frecuencia siguiente.

CLASES FRECUENCIAS
10-19 10
20-29 14
30-39 17
40-49 7
50-59 2

Construya una distribución de frecuencia acumulada y otra de frecuencia relativa


acumulada.

EJERCICIO Nº 12
Considere los datos siguientes.
8.9 10.2 11.5 7.8 10.0 12.2 13.5 14.1 10.0 12.2

6.8 9.5 11.5 11.2 14.9 7.5 10.0 6.0 15.8 11.5

a) Construya un diagrama de punto.


b) Elabore una distribución de frecuencia.
c) Construya una distribución de frecuencia porcentual.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


142
EJERCICIO Nº13
Cada año en argentina, aproximadamente 1.5 millones de los estudiantes de
educación superior presentan un examen de aptitud escolar (EAE), Cerca de 80%
de las universidades e instituciones de educación superior emplean las
puntuaciones obtenidas por los estudiantes en este examen como criterio de
admisión. A continuación se presentan las puntuaciones obtenidas en las áreas de
matemáticas y expresión verbal por una muestra de estudiantes.

1025 1042 1195 880 945


1102 845 1095 936 790
1097 913 1245 1040 998
998 940 1043 1048 1130
1017 1140 1030 1171 1035
a) Presente una distribución de frecuencia y un histograma de estas
puntuaciones. La primera clase debe empezar en la puntuación 750 y la
amplitud de clase deberá ser 100.
b) Dé un comentario sobre la forma de la distribución.
c) ¿Qué otras observaciones puede hacer acerca de estas puntuaciones con
base en los resúmenes tabulares y gráficos?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


143
UNIDAD 2

DESCRIPCIÓN NUMÉRICA DE LOS DATOS - ANÁLISIS


PARA UNA Y DOS VARIABLES

EJERCICIO Nº1
Una maestra de mosaiquismo quiere incrementar el número de alumnos que
asisten a sus talleres y para ello necesita saber a qué edades les interesa dicha
disciplina. Para ello utiliza como muestra uno de los cursos al que le dicta clases
actualmente. En este grupo tiene 13 alumnos de las siguientes edades: 60, 57, 66,
68, 58, 64, 57, 70, 53, 52, 57, 59 y 69.
Calcule:
a) media
b) mediana
c) moda.

EJERCICIO Nº 2
El Ministerio de Trabajo, Empleo y Seguridad Social emite dos veces al año un
Boletín de Estadísticas Laborales. Se tomó información sobre los salarios medios
de los años 2010 y 2011, de dos actividades relevantes de la actualidad como es
el sector comercial y de la construcción. (Revista del trabajo, año 8, Nº 10,
Julio/Diciembre 2012. Fuente: INDEC)

Ingreso medio 1 de los ocupados plenos según variables seleccionadas 2


1º Trim. 2º Trim. 3º Trim. 4º Trim. 1º Trim. 2º Trim. 3º Trim. 4º Trim.
ACTIVIDAD 2010 2010 2010 2010 2011 2011 2011 2011
Construcción 1.876 1.896 2.001 2.232 2.989 3.144 3.511 3.908
Comercio 1.966 2.220 2.216 2.354 2.327 2.387 2.758 2.725
Notas:
1. Ingreso de la ocupación principal de los ocupados, excluyendo beneficiarios de
planes de empleo.
2. Ocupados que trabajan 35 o más horas semanales.
a) Para cada una de las actividades calcule moda, mediana y media.
b) Para cada uno de las actividades calcule el primer y el tercer cuartil.

EJERCICIO Nº 3
Se considera como muestra las edades de alumnos regulares de la facultad de
Ciencias Económicas de la Universidad Nacional de Rio Cuarto: 23, 20, 18, 28, 24
y 25. Calcule la varianza y la desviación estándar.

EJERCICIO Nº 4
Un productor ganadero de la zona necesita información sobre los caballos que tiene
en su establecimiento. Se sabe que el promedio de vida de estos animales es de

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


144
25 años. Se tomó una muestra con valores de edades de muerte de los cabellos
fallecidos en los últimos 10 años:
15, 25, 40, 10, 30, 5, 28, 22, 8
Calcule:
a) Rango
b) Rango intercuartílico
c) Varianza
d) Desviación estándar.

EJERCICIO Nº 5
La edad promedio en que se inserta una persona al mercado laboral es de 22 años,
suponga que los datos tienen una distribución en forma de campana, y que la
desviación estándar es de 3, utilice la regla empírica para determinar que
porcentaje de los datos se encuentra dentro de los siguientes rangos:
a) 13-31
b) 19-25
c) 16-28

EJERCICIO Nº 6
Se quiere saber la influencia que tiene en las ventas mensuales las campañas
publicitarias en forma mensual, para ello se tomó una muestra de las principales
marcas de aguas saborizadas.

Numero de Ventas
publicidades en miles
Marcas "X" $ "Y"
Aquaruis 5 30
Ser 3 28
Naranpol 3 31
Levite 1 12
H2O 4 29
Twister 2 16
Gatorade 4 33
Total 22 179

a) Realice el diagrama de dispersión para las variables en cuestión.


b) Determine la covarianza e interprete su resultado.
c) Determine el coeficiente de correlación e interprete su resultado.

EJERCICIO Nº 7
La nota final de una materia surge de calcular una media ponderada. Para ello se
toman las notas que han obtenido los alumnos en cuatro instancias evaluables que
determina el profesor. El responsable de la asignatura otorga un peso de 3 al
examen inicial, de 1 al trabajo entregable, 2 al trabajo final y 4 al examen final.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


145
Como ejemplo, en la siguiente tabla, se consideran las notas de un alumno:

a) Utilizando promedio ponderado, obtenga la calificación final de este alumno.


b) Realice un gráfico de barras que permita representar las cuatro instancias
evaluables y la calificación final obtenida en el inciso anterior.
c) La nota final del alumno, se encuentra más próxima a las notas obtenidas en los
exámenes o en los trabajos?.
d) En función al resultado anterior, realizaría alguna modificación en cuanto al
sistema de calificación?.

EJERCICIO Nº 8
Una consultora está seleccionando currículum vitae de 50 personas para cubrir
puestos de secretario administrativo, seleccionara solo aquellos que tengan
estudios universitarios y los agrupa de acuerdo a las edades:
Edades Frecuencia
25-28 10
29-32 28
33-36 8
37-40 4
a) Calcule la edad promedio por persona y la respectiva desviación estándar.
b) Calcule la varianza para los datos agrupados y su desviación estándar

EJERCICIO Nº 9
La Dirección de una empresa dedicada a la venta de automotores, con el objetivo
de reducir sus costos de almacenamiento, tomó la decisión de centrar sus
esfuerzos en vender aquellos vehículos que llevan más días en stock. En primer
lugar y antes de diseñar cualquier acción, desean tener información sobre el tiempo
de permanencia de sus bienes de cambio actuales en inventario. Para esto, un
empleado de la firma relevó la cantidad de días en stock que tienen los 10
vehículos que actualmente tiene la firma en sus depósitos, obteniendo los
siguientes valores:
10 - 15 - 24 - 24 - 30 - 14 - 30 - 35 - 30 - 38
Se pide:
a) Calcule la media, mediana y moda.
b) Calcule varianza y desviación estándar.
c) Interprete los resultados obtenidos en los incisos anteriores.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


146
EJERCICIO INTEGRADOR UNIDADES 1 Y 2
Un empresario gastronómico decide contratarlo a los fines conocer en profundidad
las variables que afectan a su negocio en el año. Para que realice la mencionada
evaluación, pone a su disposición las siguientes tablas de datos:

Tabla 1: Artículos
Artículo Nombre Grupo Nombre Precio Unitario
Agua Mineral Bebidas sin alcohol $ 41,32
Bife de chorizo Sugerencias $ 206,61
Bondiola de cerdo a las brasas Principales $ 206,61
Brownie Postres $ 66,12
Copa helada Postres $ 49,59
Ensalada integral Ensaladas $ 72,73
Las Perdices Malbec Vinos $ 224,79
Latitud 33 Malbec Vinos $ 176,03
Panciato Entradas $ 140,50
Panzottis de langostino Pastas $ 157,02
Terraza Alto Malbec Vinos $ 210,74
Trucha a la Manteca Sugerencias $ 157,02
Coca - Cola 1,5 Bebidas sin alcohol $ 41,32

Tabla 2: Ventas de un turno


Artículo Nombre Precio Unitario Grupo Nombre Mozo
Panzottis de langostino $ 157,02 Pastas Mozo 1
Panciato $ 140,50 Entradas Mozo 1
Bondiola de cerdo a las brasas $ 206,61 Principales Mozo 1
Ensalada integral $ 72,73 Ensaladas Mozo 2
Panzottis de langostino $ 157,02 Pastas Mozo 2
Bife de chorizo $ 206,61 Sugerencias Mozo 3
Latitud 33 Malbec $ 176,03 Vinos Mozo 3
Agua Mineral $ 41,32 Bebidas sin alcohol Mozo 1
Panzottis de langostino $ 157,02 Pastas Mozo 2
Bife de chorizo $ 206,61 Sugerencias Mozo 2
Latitud 33 Malbec $ 176,03 Vinos Mozo 2
Coca - Cola 1,5 $ 41,32 Bebidas sin alcohol Mozo 1
Terraza Alto Malbec $ 210,74 Vinos Mozo 3
Brownie $ 66,12 Postres Mozo 3
Copa helada $ 49,59 Postres Mozo 3
Trucha a la Manteca $ 157,02 Sugerencias Mozo 1
Bife de chorizo $ 206,61 Sugerencias Mozo 1
Bondiola de cerdo a las brasas $ 206,61 Principales Mozo 3
Las Perdices Malbec $ 224,79 Vinos Mozo 3
Trucha a la Manteca $ 157,02 Sugerencias Mozo 2

La tabla artículos contiene todos los productos que se comercializan en el


restaurante. La tabla ventas, en cambio, es una muestra de las ventas diarias del
restaurante, extraídas de un turno elegido al azar. Con dichos datos ud. deberá
resolver las siguientes consignas:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


147
1. Determine cuántos elementos, y cuántas variables hay en cada tabla.
Especifique qué tipos de datos contiene cada una, y qué escalas de medida
deben utilizarse. ¿Cuál sería la población en el caso de la tabla ventas?
2. En la tabla artículos calcule:
a) Precio promedio de los artículos.
b) Precio promedio de los artículos pertenecientes al grupo vinos. ¿Son más
caros que el promedio de los artículos? ¿Cuál es la diferencia porcentual
con respecto a este?
c) Porcentaje de los artículos que corresponden al grupo postres. ¿Es el
grupo postres el con mayor porcentaje de artículos, o hay otro?
d) Porcentaje de los artículos cuyo precio es inferior a los $100.-
3. Con la tabla ventas arme otra tabla con la frecuencia absoluta y porcentual
de la venta por artículo. Grafique usando un gráfico de sector o pastel y con
un gráfico de barras. Determine cuál es el artículo con mayor venta en dicho
turno. ¿con cuál de los dos gráficos le resulto más fácil detectarlo? Luego
determine alguna combinación de artículos cuya venta agrupada represente
un 25% del total. ¿Qué gráfico es más práctico para responder esta
consigna?
4. Con la tabla ventas arme una tabulación cruzada donde se pueda visualizar
la relación que existe entre la variable grupo de artículos, y la variable mozo.
¿Qué grupo de artículos fue vendido solamente por el mozo 1? ¿Qué implica
esto?
5. Con la tabla ventas:
a) Calcule: Media aritmética de los datos originales, mediana, y moda.
Luego varianza y desviación típica.
b) Calcule el Coeficiente de variación y comente el significado del resultado.
c) Determine si se trata de una distribución simétrica con la ayuda del
coeficiente de asimetría de Pearson segundo.
d) Agrupe los datos en un cuadro de distribución de frecuencias con cinco
intervalos, y luego calcule media aritmética en base a las frecuencias
absolutas.
e) Si los datos tienen una distribución simétrica con forma de campana, y
usando los parámetros calculados en a), determine entre que montos de
venta se encuentra el 95% de los valores.
f) Ahora suponga que Ud. no conoce la forma de distribución de los datos,
y se le solicita que determine qué porcentaje de las ventas oscila entre
$26,31 y $275,42.-
Por último, realice una interpretación de los resultados obtenidos en todas las
consignas para concluir acerca de las variables que afectan al negocio.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


148
GUÍA DE PRÁCTICO -UNIDAD 3

Probabilidad

EJERCICIO Nº 1
Indique si los siguientes son fenómenos aleatorios o determinísticos:
a) Velocidad de caída de un cuerpo.
b) Calidad del producto final en un proceso productivo.
c) Duración de las lámparas de un lote.
d) Temperatura de ebullición del agua.
e) La hora de llegada de un tren que debe llegar a las diez en punto.
f) El rendimiento de un tipo de maíz.
g) Número de nacimientos en un día determinado.
h) Tasa de inflación.

EJERCICIO N° 2
El precio de una acción, puede, en un determinado día, bajar, permanecer sin
variación o subir. Si a estos tres comportamientos distintos se les asigna
respectivamente los números: 1, 2 y 3.
a) Defina el espacio muestral y confeccione un diagrama donde se muestre el
comportamiento de 2 acciones, indicando el número total de situaciones
posibles que pueden darse.
b) Defina qué entiende por evento simple y enuncie 3 de ellos; expréselos
simbólicamente.
c) Defina qué entiende por evento compuesto y enuncie por lo menos uno.
d) ¿Cuál es el evento cierto?
e) ¿Qué es un evento?

EJERCICIO N° 3
Al trasladarse a otra ciudad, un contador busca una casa de uno, de dos o de tres
dormitorios y encuentra que ninguna de las casas que se anuncian para la venta
tiene menos dormitorios que baños, pero que todas tienen, naturalmente por lo
menos un baño.
a) Confeccione un diagrama donde se muestre las distintas situaciones que
pueden darse e indique cuáles son todos los eventos simples de este espacio
muestral.
b) ¿Qué tipo de evento es el formado por todos los puntos del gráfico en donde el
número de baños es igual al de dormitorios?
c) Cite un evento imposible para este experimento.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


149
EJERCICIO N° 4
Un curso de 2º año de un colegio secundario está compuesto por:
Sexo Menor a Mayor a
Total
Edad 130 cm 130 cm
13 17 10 27

14 10 8 18

15 3 2 5

Total 30 20 50

Cuál es la probabilidad de que un alumno elegido al azar:


a) Mida más de 130 cm.
b) Mida menos de 130 cm y tenga 14 años.
c) Mida más de 130 cm y tenga 12 años.
d) Mida menos de 130 cm y tenga 16años.

EJERCICIO N° 5
De 375 viajes que un señor realizo en tren, 125 veces llega demorado a destino.
a) ¿Cuál es la probabilidad de que en su próximo viaje en tren llegue demorado?
b) ¿Qué probabilidad tiene en su próximo viaje de no llegar demorado?

EJERCICIO N° 6
En base a los datos del ejercicio 2, que dice: El precio de una acción, puede, en un
determinado día, bajar, permanecer sin variación o subir. Si a estos tres
comportamientos distintos se les asigna respectivamente los números: 1, 2 y 3;
supongamos que los nueve posibles resultados tengan las siguientes
probabilidades:
Y
Segunda 3 1,3 2,3 3,3
Acción * * *
1/16 2/16 1/16

1,2 2,2 3,2


2
* 4/16 *
2/16 2/16

1 1,1 2,1 3,1


* * *1/16
1/16 2/16

1 2 3 X

Primera Suba
Baje Perm Acción

a) ¿Cuál es la probabilidad de que el precio de la primera acción baje?


b) ¿Cuál es la probabilidad de que el precio de una de las acciones por lo menos
suba?
c) ¿Cuál es la probabilidad de que el precio de ambas acciones tengan igual
comportamiento?

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


150
EJERCICIO N° 7
En base a los datos del ejercicio 2 y 6: El precio de una acción, puede, en un
determinado día, bajar, permanecer sin variación o subir. Si a estos tres
comportamientos distintos se les asigna respectivamente los números: 1, 2 y 3;
supongamos que los nueve posibles resultados tengan las siguientes
probabilidades:

Y
Segunda 3 1,3 2,3 3,3
Acción * * *
1/16 2/16 1/16

1,2 2,2 3,2


2
* 4/16 *
2/16 2/16

1 1,1 2,1 3,1


* * *1/16
1/16 2/16

1 2 3 X

Primera Suba
Baje Perm Acción

Si X es el evento “baja del precio de la primera acción”, en tanto que Y es el evento


“invariabilidad en el precio de la segunda acción”:
a) ¿Cuál es la probabilidad de que algunos de estos eventos ocurra?
b) ¿Cuál es la probabilidad de que solo ocurra uno de ellos?

EJERCICIO N° 8
Entre los 80 directivos de una empresa hay 48 casados; se sabe, además, que hay
35 con estudios universitarios concluidos de los cuáles 22 son casados.
Cuál es la probabilidad de que un director elegido al azar sea:
a) Casado o con estudios universitarios no concluidos.
b) Soltero o con estudios universitarios concluidos.

EJERCICIO N° 9
Hay 200 aspirantes a un cargo administrativo en el departamento de personal de
una compañía, que se clasifican de la siguiente manera según su edad y
experiencia previa:

Edad
Menor de 30 Mayor de 30 Total
Experiencia
Con 16 32 48

Sin 24 128 152

Total 40 160 200

a) Si denotamos con “E” la elección al azar de un aspirante con experiencia.


¿Cuál es la P (E)?
b) Si denotamos con “M” la elección al azar de un aspirante menor de 30. ¿Cuál
es la P (M)?
c) ¿Cuál es la probabilidad de elegir al azar un aspirante que tenga experiencia
y que sea menor de 30?.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


151
d) Si la empresa decide limitar la selección de aspirantes a aquellos que sean
menores a 30. ¿Cuál es la probabilidad de elegir al azar a alguien con
experiencia previa?
e) ¿Cuál es la probabilidad de elegir alguien menor a 30 si es indispensable que
tenga experiencia previa?

EJERCICIO N° 10
En base a los datos del ejercicio número 2,04, y siendo “X” el evento que el precio
de la primera acción baje en tanto que “Y” denota el evento de que el precio de la
segunda acción permanezca inalterable.
a) ¿Cuál es la probabilidad de que el precio de la primera acción baje si el precio
de la segunda ha permanecido inalterable?
b) ¿Cuál es la probabilidad de que el precio de la segunda acción permanezca
inalterable si el de a primera acción baja?

EJERCICIO N° 11
Se pregunta a un consultor de administración su opinión sobre la razón por la cual
la secretaria de un director ha dejado su trabajo.
Sin poder obtener ninguna información directa sobre la secretaria, el consultor toma
los siguientes datos de un estudio a gran escala sobre la moral y la motivación en
las compañías. Entre todas las secretarias insatisfechas, el 20 % lo están
principalmente porque les disgusta el trabajo, el 50% porque se sienten mal pagas
y el 30% porque tienen problema de horario. Además las correspondientes
probabilidades de que se retiren son respectivamente 0,60; 0,40 y 0,90. ¿Cuál es
la probabilidad de que la secretaria haya renunciado porque no le gustaba su tarea?

EJERCICIO N° 12
Un distribuidor de discos emplea tres personas: K, L y M, que sacan discos de
recipientes y los apilan para subsiguiente verificación y empaque.
K, prepara 1 pedido equivocado cada 100 pedidos; L se equivoca en 10 pedidos
cada 100 y M comete un error en 5 pedidos cada 100. De todos los pedidos
despachados para comprobación K, L y M, preparan respectivamente el 50 %, el
30 % y el 20 %.
Si se encuentra un pedido mal preparado. Cuáles son las respectivas
probabilidades de que el pedido haya sido preparado por:
a) K
b) L
c) M
d) K ó M

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


152
EJERCICIO INTEGRADOR
El mismo empresario gastronómico le pide que con la tabulación cruzada entre
grupos de artículos y mozos (ver punto 4 ejercicio integrador unidades 1, 2, y 3),
responda una serie de preguntas. A continuación se le ofrece la tabla:

Total
Grupos|Mozos Mozo 1 Mozo 2 Mozo 3 general
Bebidas sin alcohol 2 2
Ensaladas 1 1
Entradas 1 1
Pastas 1 2 3
Postres 2 2
Principales 1 1 2
Sugerencias 2 2 1 5
Vinos 1 3 4
Total general 7 6 7 20

Estos son los interrogantes que Ud. deberá responderle al empresario:


1. ¿Las ventas de un restorán son un fenómeno aleatorio o determinístico?¿Por
qué?
2. ¿Cuántos eventos simples componen el espacio muestral?
3. Dado el evento “ventas del mozo 3”: ¿Qué tipo de evento es?
4. En el supuesto que el mozo 1 no estuviera autorizado a vender bebidas con
alcohol: ¿Cómo se denominaría al evento “ventas de vinos del mozo 1”?
5. ¿Cuál es la probabilidad de que una venta elegida al azar sea:
a. Pastas
b. Pastas y del Mozo 2
c. Pastas o del Mozo 2
d. Ensaladas o Entradas
e. Mozo 1 y Postres
6. Si ahora la empresa decide analizar solamente las ventas del mozo 2: ¿Cuál es
la probabilidad de que venda pastas? Compare este resultado con el obtenido
en el inc. b) del punto 5.
7. Por último, el empresario le solicita que determine la probabilidad de que en todo
el restaurante haya una venta en primer lugar, de Principales, y luego, en
segundo lugar, una de Sugerencias. Explique qué tipo de eventos son, y qué
regla debe aplicar.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


153
GUÍA DE PRÁCTICO -UNIDAD 4

Distribuciones de Probabilidad. Variables aleatorias discretas


EJERCICIO Nº 1
Sean X e Y dos variables aleatorias independientes distribuidas y definidas de la
siguiente manera:
Xi p (xi)
1 0,30
3 0,20
5 0,50
1,00

Tal que ∑ p( x i ) =1

Yi p (yi)
2 0,15
4 0,15
6 0,70
1,00

Tal que
∑ p( y i ) =1

a) Calcular la E(X) y E (Y)


b) Calcular la E(X + Y)
c) Calcular la E (X.Y)
d) Calcular la E (2 X)

En cada caso enuncie la propiedad del operador E que utiliza.

EJERCICIO Nº 2
En una empresa, los salarios han tenido un promedio de $ 5.000 mensuales en el
último semestre, con una desviación típica de $ 50. Qué sucede con la varianza de
los salarios si:
a) Se aumentan en $ 450.
b) Se aumentan en el 10 %.
c) Se efectúan ambos aumentos simultáneamente.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


154
EJERCICIO Nº 3
La variable aleatoria X: “salario por hora-hombre trabajada” fue analizada en base
a una encuesta realizada en 10 empresas mayoristas con un total de 1.000
empleados, obteniéndose los siguientes datos:

Nº de trabajadores
Salario por hora que reciben dicho
salario

150 25
160 50
170 100
180 300
190 250
200 175
210 50
220 25
230 25
Total 1.000

 Calcule la E (x).
 Grafique la función de distribución de probabilidades o función de cuantía de
𝑿𝒊
 Grafique la función de acumulación de la variable 𝑋𝑖

EJERCICIO Nº 4
Las variables X e Y están relacionadas por la siguiente función lineal:
Y = 0,25 X + 4

Se conoce además que x  40 y  x  400


2

Calcule:

a) Y
b) ∂2 y

c) ∂ y

d) ∂ 2
2y

e) CV y

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


155
EJERCICIO Nº 5
DISTRIBUCION BIPUNTUAL
La probabilidad de que cierta máquina produzca un artículo defectuoso es 0,30. Si
definimos la variable aleatoria X = cantidad de productos defectuosos, calcule:
a) Qué valores puede asumir X y cuál es el espacio probabilístico.
b) Grafique P (xi) y F (X).

EJERCICIO Nº 6
DISTRIBUCION BINOMIAL
Se observa, en general, que el 10% de los troncos de árbol usados en cierto
producto son muy resinosos. Se toma una muestra al azar de 20 troncos.
a) Calcular la media.
b) Calcular la desviación típica.

EJERCICIO Nº 7
Supongamos un archivo de cuentas corrientes de una empresa de nuestro medio, en
donde se conoce que la cuarta parte de los clientes tiene saldo acreedor y el resto saldo
deudor. Si extraemos aleatoriamente, con reposición, 15 clientes, calcule las siguientes
probabilidades:

1) Que en esa muestra se obtengan 6 clientes con saldo acreedor.


2) De extraer exactamente 8 clientes con saldo deudor.
3) De extraer menos de 3 clientes con saldo acreedor.
4) De extraer 6 o menos clientes con saldo acreedor.
5) Que en la muestra aparezcan más de 4 fichas con saldo acreedor.
6) De obtener 6 ó más fichas con saldo acreedor.
7) De obtener 2 ó más, pero 6 ó menos fichas con saldo acreedor.
8) De que aparezcan más de 3, pero 7 ó menos fichas con saldo acreedor.
9) De extraer 1 ó más, pero menos de 4 fichas con saldo acreedor.
10) De extraer más de 2, pero menos de 8 fichas con saldo acreedor.
11) De extraer menos de 6 fichas con saldo deudor.
12) De obtener 7 ó menos fichas con saldo deudor.
13) De que en la muestra aparezcan más de 8 fichas con saldo deudor.
14) De extraer 10 ó más fichas con saldo deudor.
15) De obtener 10 ó menos, pero 5 ó más fichas con saldo deudor.
16) De que aparezcan más de 6, pero 12 ó menos fichas con saldo deudor.
17) De obtener 8 ó más, pero menos de 14 fichas con saldo deudor.
18) De extraer más de 10 pero menos de 13 fichas con saldo deudor.
19) De extraer 2 fichas con saldo nulo (ni acreedor ni deudor).

EJERCICIO Nº 8
En una fábrica trabajan 600 operarios no especializados, 150 empleados
administrativos y 250 operarios especializados.
Sea X la variable aleatoria “número de empleados administrativos que se presentan
en en 20 observaciones con reemplazo, calcule la probabilidad de que:

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


156
a) X=20. ¿ Qué representa esta probabilidad ?.
b) X ≤ 3.
c) Los no administrativos sean mayor ó igual a 4.
d) Los operarios especializados ó no especializados a lo sumo sean 17.
e) El número de empleados administrativos no sea menor a 8 pero tampoco mayor
a 15.
f) Exactamente el 85% no sean administrativos de los 20 observados.
g) A lo sumo 6 sean especializados ó no especializados.

EJERCICIO Nº 9
DISTRIBUCION POISSON
Un empresario del transporte posee dos camiones de carga que puede utilizar
diariamente. La demanda de camiones para un día se distribuye aproximadamente
según una Ley de Poisson, con media igual a 1,5.
Calcular:
a) La probabilidad de que en un día no se presente demanda alguna.
b) La probabilidad de que en un día la demanda no sea satisfecha totalmente.

EJERCICIO Nº 10
En una fábrica los artículos defectuosos producidos por cierta máquina alcanzan al
1%. Se toma una muestra de 200 artículos, cuál es la probabilidad de que dicha
máquina produzca:
a) 4 artículos defectuosos.
b) A lo sumo 7 artículos defectuosos.
c) Más de 5 productos defectuosos.
d) 2 ó más, pero a lo sumo 4 productos defectuosos.
e) Ningún producto defectuoso.

EJERCICIO Nº 11
De acuerdo a las estadísticas que lleva prolijamente una empresa de transporte, un
conductor tiene un pinchazo de cubierta cada 200 km., suponiendo un recorrido sin
inconvenientes.
a) Calcular la probabilidad de obtener 2 ó más pinchazos en un recorrido de 1000
km.
b) Calcular la probabilidad de que en dicho recorrido no tenga ningún pinchazo.
c) Calcular la probabilidad de que tenga exactamente 3 pinchazos.
d) Calcular la probabilidad de que tenga menos de 4 pinchazos.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


157
ESTADISTICA

GUÍA DE PRÁCTICO -UNIDAD 5

EJERCICIO Nº 1
Las notas de los alumnos de la Facultad de Ciencias Económicas de la Universidad
Nacional de Río Cuarto en un examen de Contabilidad, en el que se califica del 0
al 100, se distribuye Normal con media 60 y desviación típica 15. Se desea saber
el porcentaje de alumnos con notas:
a) Menores o iguales a 45.
b) Menores de 75.
c) Mayores de 30.
d) Mayores de 90.
e) Entre 30 y 45.
f) Entre 75 y 90.
g) Entre 45 y 90.
h) Entre 45 y 75.
i) Menos de 30 ó más de 75.

EJERCICIO Nº 2
Si la variable x se distribuye Normal con media 10 y desviación típica 5, x ( 10, 5 ),
determinar a qué debe ser igual x0 y x1, si :
a) P ( x < x0 ) = 0,8413
b) P ( x > x0 ) = 0,8413
c) P ( x0 < x < x1 ) = 0,9544 (probabilidad central)

EJERCICIO Nº 3
Determinar Z0 dado:
a) P( z > z0 ) = 0,3121
b) P( 0< z < z0 ) = 0,4515
c) P( z > z0 ) = 0,8023
d) P( z < z0 ) = 0,4562
e) P( -z0 < z < z0 ) = 0,7456

EJERCICIO Nº 4
Las notas de un examen fueron 0,1,2,3,4,5,6,7,8,9,10. Dependiendo del número de
respuestas correctas a 10 preguntas formuladas. La calificación media fue de 6,7 y
la desviación típica 1,2. Suponiendo que las calificaciones se distribuyen
normalmente es decir X N( 6,7; 1,2 ), determinar:
a) La nota mínima del 10% superior de la clase.
b) La nota máxima del 10% más bajo de la clase.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


158
EJERCICIO N° 5
Una fábrica de cajas de cartón corrugado, adquiere papel y cartón una vez por
semana. El volumen semanal de la producción, en miles de metros cuadrados, se
distribuye de acuerdo a la siguiente función de densidad:
 c.x 0x2

f (x)  
0 para todo otro x

a) Calcule qué valor asume la constante "c" en la función de densidad.


b) Grafique la función de densidad
c) Calcule y grafique la función de acumulación de x.
d) Calcule la probabilidad de x en el intervalo  0, 1  .

e) Calcule la probabilidad de Pr  x  4 .

EJERCICIO N° 6
Sea X una variable aleatoria continua tal que:
 1
 h para 0  x  h

f (x) 
 0 para x  0 y para x  h

Calcular la E(x).

EJERCICIO N° 7
En una población de 3.428 adultos, la distribución de las estaturas es
aproximadamente Normal, con µ = 140 cm y σ = 25 cm.
Calcule la probabilidad de que una persona tenga una estatura:
a) Superior a 170 cm.
b) Inferior a 90 cm.
c) Comprendida entre 1 m. y 1,50 m.
d) Comprendida entre 1,80 m. y 1,90 m.
e) Entre qué valores queda ubicado el 40% central.
En cada uno de los incisos anteriores calcule el número de dichas personas.

EJERCICIO N° 8
El tiempo empleado en minutos, en ir de un hotel al aeropuerto por la ruta “A” se
distribuye Normal, con µ = 27 y σ = 5; mientras que por la ruta “B”, la distribución
es Normal con µ = 30 y σ = 2.
Qué ruta conviene utilizar si se dispone de 30 minutos?.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


159
Ejercicio N° 9
Halle el área bajo la curva Normal tipificada:
a) A la derecha de Z = 2,6.
b) A la izquierda de Z = 1.
c) A la derecha de Z = -0,66.
d) A la izquierda de Z = -1,88.
e) Entre Z = 1,25 y Z = 1,67.

EJERCICIO N° 10
Las estaturas de un grupo de soldados se distribuyen normalmente con media igual
a 1,75 cm y varianza igual a 0,04.
Qué porcentaje de soldados tendrá una estatura inferior a 1,60.

EJERCICIO N° 11
Encuentre el área bajo la curva Normal entre:
a) Z = - 1,20 y Z = 2,40
b) Z = 1,23 y Z = 1,87
e) Z = - 0,90 y Z = 0,70

EJERCICIO N° 12
Determinar él ó los valores de Z, donde el área bajo la curva Normal:
a) Entre 0 y Z es 0,3770.
b) A la izquierda de Z es 0,8621.
c) El área entre -1,5 y Z es 0,8621.
d) Entre Z y –Z es 0,975.

EJERCICIO N° 13
DISTRIBUCIÓN CHI CUADRADO

Sean las variables aleatorias x i ( i = 1,2,...........12 ) todas normal e independientemente


distribuidas con medias y varianzas μi y σ i ( i = 1,2, ...........12 )
respectivamente. Si
12
 xi - μi  2
definimos el estadístico χ = 2

σ 2 ∑
, este estadístico tiene una distribución χ i2 .
i= 1 i
Se desea saber sobre el mismo lo siguiente:

a) Pr  5,23 ≤ χ 2
≤ 14,8 
b) Pr { χ 2 ≤ 26,2 }
c) Pr { χ 2 > 6,30 }
d) Pr { χ 2 < t 0 } = 0,01

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


160
e) Pr { χ 2 > t 1 } = 0,05
f) Pr { χ 2 < 3,57 } + Pr { χ 2 > 21 }
Solución: Recordemos previamente los siguientes conceptos:
 Grados de libertad: Los grados de libertad de un estimador son iguales al número
de observaciones en la muestra, menos el número de parámetros poblacionales
que se estiman a partir de las observaciones.
 Características de la distribución Chi- Cuadrado: es asimétrica derecha, pero
tiende a ser simétrica al aumentar los grados de libertad. Acumula para valores
de la variable entre 0 e infinito (un valor determinado).

Antes de resolver el práctico debemos saber cómo se encuentran las probabilidades


en la tabla de la Chi- Cuadrado:
En la primera fila se encuentran las probabilidades acumuladas hasta el punto que
figura en el cuerpo de la tabla, o sea que acumula para valores menores o iguales a un
punto y en la primera columna figuran los grados de libertad de la distribución.

a) Pr  5,23 ≤ χ 2
≤ 14,8 

Para buscar la probabilidad de que la variable asuma un valor entre 5,23 y 14,8,
debemos entrar en la tabla de la Chi-Cuadrado y buscar en la primera columna un n =
12 (que son los grados de libertad), luego buscar en esa fila el valor de 14,8 y si
miramos en la primera fila vemos que la probabilidad acumulada hasta ese valor es de
0,75. Luego debemos restar la probabilidad acumulada hasta 5,23, hacemos el mismo
procedimiento y encontramos que la probabilidad es de 0,05 y luego restamos y
encontramos que la probabilidad entre esos dos valores es de 0,70.

Pr { 5,23 ≤ χ 2 ≤ 14,8 } = Pr { χ 2 ≤ 14,8 } - Pr { χ 2 ≤ 5,23 } = 0,75 - 0,05 = 0,70

0 5,23 1,48 χ2

b) Pr { χ 2 ≤ 26,2 } , a este valor lo encontramos directamente en la tabla y es igual a


0,99, gráficamente es casi toda el área bajo la curva:

0 26,2 χ2

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


161
c) Pr {χ 2 > 6,30 } = 1 - Pr {χ 2 < 6,30 } = 1- 0,10 = 0,90 , que es la probabilidad
buscada.

0 6,30 χ2

d) Pr   2  t0  0,01

En este caso lo que se desea hallar, no es el valor de la probabilidad sino el valor de


la variable para el cual está acumulada cierta probabilidad, lo buscamos en el cuerpo
de la tabla. O sea:

Pr { χ 2 < t 0 } = 0,01 el valor de t 0 = 3,57

0,01

0 3,57 χ2

e) Pr { χ 2 > t 1 } = 0,05

En este punto también nos piden hallar el valor de la variable. Debemos encontrar el
valor de t1 tal que Pr { χ12 2 > t 1 } = 0,05 y ese valor en tabla es t1 = 21.

0,05

0 21 χ2

f) Pr {χ 2 < 3,57 } + Pr {χ 2 > 21 }

Este caso es la suma de los dos anteriores, o sea que se nos pide la probabilidad de
la unión de las dos colas:

Pr {χ 2 < 3,57 } + Pr {χ 2 > 21 }= 0,01+ 0,05 = 0,06

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


162
0,06

0 χ2

EJERCICIO N° 14
Sea una distribución Chi-Cuadrado con 23 grados de libertad  23
2
, Cuál será la
probabilidad de que dicha variable asuma un valor:

a) Inferior a 41,6. b) Superior a 22,3. c) Un valor comprendido en la intersección.


d) Un valor comprendido en la unión de los conjuntos dados anteriormente.

EJERCICIO N° 15
Si la variable U se distribuye χ 72 , encontrar los valores χ 12 y χ 22 tales que:
a) P ( U > χ 22 ) = 0,025 b) P ( U < χ 12 ) = 0,50 c) P ( χ 12 ≤ U ≤ χ 22 ) = 0,90

EJERCICIO N° 16
DISTRIBUCIÓN T DE STUDENT

Supongamos que extraemos una muestra de 6 herramientas de un lote de


producción que suponemos normalmente distribuido, con media  y varianza
desconocida. Se define entonces el estadístico:

x -μ
T
6

 x
i1
i  x
2

n(n  1)

el cual tiene una distribución “t” de Student con n-1 = 5 grados de libertad.
Deseamos conocer antes de tomar la muestra, lo siguiente:

1) Pr { t < - 0,727 } 5) Pr { 1,476 < t < 3,365 }


2) Pr { t < 0,727 } 6) Pr { - 2,571 < t < 0,727 }
3) Pr { t > 4,032 } 7) Pr { - 1,476 < t < - 0,727 }
4) Pr { t > - 0,727 } 8) Pr { - 0,727 < t < 0,727 }
9) Pr { t < - 0,727 } + Pr { t > 1,476 }

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


163
Solución:

Para resolver este problema, recordemos algunas características de esta


distribución. Es una distribución simétrica, similar a la Normal pero algo mas
achatada, y se usa cuando el tamaño de la muestra es pequeño (en caso de que el
tamaño de la muestra sea grande, n > 30, aplicamos distribución Normal).
La tabla que vamos a utilizar para encontrar las probabilidades acumula desde
menos infinito hasta un valor positivo de la variable (o sea que es igual que la tabla
de la distribución Normal).

1) En primer lugar nos piden: Pr  t  - 0,727 . Para buscar esta probabilidad, y


sabiendo que la tabla acumula para valores menores o iguales a un valor, hacemos:

Pr  t  - 0,727  1 - Pr  t  0,727  1- 0,75  0,25

Gráficamente la probabilidad obtenida sería:

0,25

-0,727 0

2) Este punto podemos obtenerlo directamente en la tabla, entrando en la misma


para 5 grados de libertad obtenemos:
Pr { t < 0,727 } = 0,75

0,75

0 0,727

3) Debemos encontrar la probabilidad de la cola derecha de la distribución:

Pr { t > 4,032 } = 1 - Pr { t < 4,032 } = 1- 0,995 = 0,005

0,005

0 4,032

4) En este punto nos piden Pr { t > - 0,727 } que por ser simétrica es igual a Pr
{ t < 0,727 } = 0,75

0,75

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


164
-0,727 0 0,727

5) Debemos hallar la probabilidad de en un intervalo, entre dos valores positivos de


la variable:

Pr { 1,476 < t < 3,365 } = Pr { t < 3,365 } - Pr { t < 1,476} = 0,99 - 0,90 = 0,09

0,09

0 1,476 3,365

6)

Pr { - 2,571 < t < 0,727 } = Pr { t < 0,727 - Pr { t < - 2,571 } = 0,75 - 1+ 0,975 = 0,725
0,725

-2,57 0 0,727

7)
Pr { - 1,476 < t < - 0,727 } =
Pr { 0,727 < t < 1,476 } = Pr { t < 1,476 } - Pr { t < 0,727 } = 0,90 - 0,75 = 0,15

-1,476 0,727

8)

Pr { - 0,727 < t < 0,727 } = { Pr { t < 0,727 } - 0,50 } x 2 = { 0,75 - 0,50 } x 2 = 0,50

-0,727 0 0,727

9)

Pr { t < - 0,727 } + Pr { t > 1,476 } =


1- Pr { t < 0,727 } + 1 - Pr { t < 1,476 } = 2 - 0,75 - 0,90 = 0,35

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


165
-0,727 0 1,476

EJERCICIO N° 17
El siguiente gráfico muestra una distribución “t” de Student con 9 grados de libertad.

-t1 0 t1 t

a) el area sombreada a la derecha = 0,05


b) el area sombreada total = 0,05
Encontrar el valor de t 1 si c) el area total no sombreada = 0,99
d) el area sombreada sobre la izquierda = 0,01
e) el area a la izquierda de t1 = 0,90

EJERCICIO N° 18
Hallar el número de grados de libertad que tiene la distribución de una variable “t” de
Student, si se sabe que dentro del intervalo [ - 1,350; 1,350 ] está comprendido el 80%
de los valores que puede asumir la variable. Determinados los grados de libertad, hallar
el valor to para el cual Pr (t < to) = 0,99.

Respuesta:
Grados de libertad: 13. to = 2,650.

Apuntes de Cátedra: Estadística - Fac. Cs.Económicas - U.N.R.C.


166

También podría gustarte