Está en la página 1de 51

10/2/2022

UNIVERSIDAD AUTÓNOMA DE SANTO DOMINGO


Facultad de Ciencias Económicas y Sociales
Escuela de Estadística

FUNDAMENTOS DE ESTADÍSTICA

(EST-1100)

Prof. Juan Gabriel Avilés Quezada

CONTENIDO:

 Capítulo 1. Introducción.

 Capítulo 2. Organización y presentación de datos.

 Capítulo 3. Medidas de tendencia central.

 Capítulo 4. Medidas de posición.

 Capítulo 5. Medidas de dispersión.

 Capítulo 6. Introducción a la teoría de probabilidad.

 Referencias bibliográficas.

1
10/2/2022

Capítulo 1. Introducción.
Según el Dr. Mario Triola, la palabra estadística proviene del latín antiguo status
(que significa “Estado o Forma de Gobierno”). Sin embargo, los doctores Richard
Levin y David Rubin, sostiene que la palabra estadística tiene su origen en el
término alemán statistik (que significa “Ciencia del Estado”), el cual proviene de la
palabra italiana statista (que significa “Hombre de Estado o Político”).

En sus inicios, la estadística estuvo vinculada a los Estados, debido al interés de


los gobiernos por contar con datos sobre el Estado y su uso se remonta a tiempos
muy antiguos, pues la evidencia apunta a que antes de cristo, ya se realizaban
censos y se registraban datos en pieles, rocas, madera y en cuevas, para controlar
el número de personas, de animales o de ciertas mercancías.

No obstante, John Graunt en 1662 publicó un libro sobre información estadística


acerca de los nacimientos y defunciones ocurridos en Londres, el cual se
considera el punto de partida de la estadística moderna. Cabe destacar que en sus
inicios, la estadística fue utilizada como un instrumento de simple cuantificación.

Capítulo 1. Introducción.
Por otro lado, en República Dominicana, la estadística tiene sus orígenes desde los primeros
años de su descubrimiento, debido a que existen evidencias sobre informaciones
estadísticas relacionadas al repartimiento de indios en 1514 y sobre un censo que realizó el
gobernador Antonio de Osorio en 1606, el cual contiene un conteo de la población, de
esclavos, de ingenios, de puertos, etc.

No obstante, es a partir del 1935 cuando la estadística en nuestro país logra un importante
desarrollo, debido a que en ese año, el presidente Rafael Leónidas Trujillo promulga la Ley
No. 1023 que crea la Oficina Central de Estadística, siendo su primer director el señor
Vicente Tolentino Rojas, quien llevo a cabo una brillante labor al frente de la misma y por lo
tanto, es considerado como uno de los padres de la Estadística en R.D.

Otro acontecimiento importante se produce en el año 1981, cuando la UASD crea la


Licenciatura en Estadística, debido a que en los años subsiguientes, se produjeron
numerosas graduaciones de licenciados en estadística, lo que constituyó un nuevo impulso
al desarrollo de las estadísticas en la República Dominicana, ya que anteriormente, para ser
estadístico había que graduarse en el extranjero, lo que limitaba considerablemente la
cantidad de profesionales en el área.

2
10/2/2022

Capítulo 1. Introducción.
Es importante resaltar que a lo largo de la historia, muchas personas fueron
contribuyendo al desarrollo de la estadística, haciendo posible que la estadística se
desarrollara y se convirtiera en una herramienta de vital importancia en la investigación
científica que realizan la mayoría de los campos del conocimiento. En esa medida se
considera una ciencia transversal.

La estadística puede definirse como la ciencia que recolecta, organiza, presenta, analiza
e interpreta datos, que proceden de una población o de una muestra representativa de
ella, con el fin de conocer sus características relevantes, para propiciar una toma de
decisión más efectiva y pertinente. En esta definición surgen tres conceptos muy
importantes en el ámbito de la estadística: datos, población y muestra, los cuales se
explicarán más adelante.

Cabe destacar que los datos de poblaciones humanas se recolectan a través de un


censo o de una encuesta por muestreo. Un censo es una encuesta en la cual se recopila
datos o información de todos los elementos de la población, mientras que una encuesta
por muestreo es un método utilizado para recoger datos o información a través de
cuestionarios y/o entrevistas a una muestra representativa de la población.

Capítulo 1. Introducción.
• Datos: son la materia prima de la cual se nutre la estadística. Se definen como las
observaciones recolectadas.
• Población: es el conjunto de todos los elementos que estamos estudiando, que poseen
características comunes bien definidas, acerca de los cuales intentamos sacar
conclusiones.
• Muestra: es un subconjunto representativo de la población. Se dice que es
representativo cuando contiene las características relevante de la población en las
mismas proporciones, es decir, cuando es una fotocopia fiel de la población.

Existe una diferencia entre estadísticas y estadística. La primera se refiere a una colección
de información numérica, mientras que la segunda se refiere a la ciencia como tal.

La estadística está muy relacionada con el método científico y su importancia se debe en


gran medida a que apoya la investigación en todas las demás disciplinas, cuando estas
utilizan un enfoque cuantitativo de investigación, que se basa en la recolección y análisis de
datos para dar respuesta a las preguntas de la investigación y con ello probar las hipótesis
establecidas o formular nuevas hipótesis de investigación.

3
10/2/2022

Capítulo 1. Introducción.
La estadística se divide en dos grandes áreas:
• Estadística descriptiva: es un conjunto de métodos y técnicas que se
utilizan para resumir y describir las características importantes de un
conjunto de datos.
• Estadística inferencial: es un conjunto de métodos y técnicas que se
utilizan para hacer inferencias sobre la población, a partir del estudio
de una muestra representativa de ella. Hacer inferencias es sacar
conclusiones, hacer predicciones o tomar decisiones.

Un parámetro es una medida numérica que describe una característica de


la población, por ejemplo: µ,σ2,σ, p, etc. Un estadístico es una medida
numérica que describe alguna característica de la muestra, por ejemplo:
xത , s2, s, 𝑝,ҧ etc.

Las unidades elementales son las personas, animales o cosas, a quienes


se les miden las variables, es decir, de ellas se obtienen las variables.

Capítulo 1. Introducción.
Las variables son características que pueden cambiar de una observación
a otra. Existen dos tipos básicos de variables:
1) Variables cualitativas: que son aquellas que representan datos
categóricos o atributos, que consisten en nombres o etiquetas. Este
tipo de datos se miden en escala nominal o en escala ordinal.

2) Variables cuantitativas: que son aquellas que representan datos


numéricos, que son el resultado de conteos o mediciones. Este tipo de
datos se miden en escala de intervalo o en escala de razón. Las variables
cuantitativas pueden ser discretas y continuas.
 Variables discretas: son aquellas que por su naturaleza no admiten
valores fraccionarios, es decir, solo admiten valores enteros, que
provienen de conteos.
 Variables continuas: son aquellas que por su naturaleza admiten
valores fraccionarios, es decir, toman cualquier valor dentro de un
intervalo especifico y este proviene de una medición.

4
10/2/2022

Capítulo 1. Introducción.
El nivel de medición de los datos rige los cálculos que se llevan a cabo con
el fin de resumir y presentar los datos. También determina las pruebas
estadísticas que se deben realizar. Existen cuatro grandes tipos de niveles o
escalas de medición:
1. Escala nominal: en ella, las observaciones acerca de una variable
cualitativa sólo se clasifican (se colocan en categorías mutuamente
excluyentes y exhaustivas) y se cuentan (frecuencia). No existe una
forma particular para ordenar las etiquetas. Para una mejor
comprensión de lectura, estos conteos suelen convertirse en
porcentajes.
2. Escala ordinal: es similar a la escala nominal, pero con la discrepancia
de que aquí, las categorías o etiquetas pueden colocarse en cierto
orden (alto, medio, bajo), porque se supone que una clasificación se
encuentra en un nivel superior a otra, no obstante, no se puede medir
la magnitud de la diferencia entre categorías, porque carecen de
significado.

Capítulo 1. Introducción.
3. Escala de intervalo: Es para variables numéricas. En ella, los datos se pueden
poner en orden y es posible encontrar diferencias significativas entre ellos.
Los datos en este nivel no tienen un punto de inicio cero natural que
signifique ausencia de la característica, lo que ocasiona que las razones no
tengan sentido. El cero es un punto más de la escala.
4. Escala de razón: contiene las propiedades de la escala de intervalo, pero con
la diferencia de que aquí, si hay un punto de inicio cero natural que significa
ausencia de la característica, por tanto, las razones tienen sentido (es
significativa). En fin los datos medidos en esta escala pueden ser sometidos
a cualquier tratamiento estadístico. Más adelante se presenta una tabla
comparativa de cosas que permite y no permite realizar cada tipo de escala.

Fuentes de datos: se refieren al lugar de procedencia de los datos. Pueden ser:


primarias (cuando los datos son recolectados directamente por las personas u
organizaciones que llevan a cabo el estudio) y secundarias (cuando los datos
han sido reunidos por otros y se nos presentan mediante publicaciones, es decir,
revistas, periódicos, libros, base de datos, etc).

5
10/2/2022

Capítulo 1. Introducción.
TABLA COMPARATIVA DE COSAS QUE PERMITEN REALIZAR LOS TIPOS DE ESCALAS.

Escala Escala Escala de Escala de


Permite:
Nominal Ordinal Intervalo Razón
Conocer el orden de los datos. ✓ ✓ ✓
Utilizar una distribución de frecuencia. ✓ ✓ ✓ ✓
Utilizar gráficas para presentar los datos. ✓ ✓ ✓ ✓
Calcular la moda. ✓ ✓ ✓ ✓
Calcular la mediana. ✓ ✓ ✓
Calcular la media aritmética. ✓ ✓
Calcular las medidas de variabilidad. ✓ ✓
Cuantificar la diferencia entre dos datos. ✓ ✓
Sumar o restar datos. ✓ ✓
Multiplicar y dividir datos. ✓

Capítulo 1. Introducción.
ETAPAS FUNDAMENTALES DE UNA INVESTIGACIÓN ESTADÍSTICA.

1) La planeación: es la etapa esencial para el éxito de una investigación.


Es preferible no llevar a cabo el estudio, si ésta no ha sido bien
planeada. Planear significa prever o anticipar lo que puede ocurrir.
Incluye la definición del problema a investigar (definiendo el qué y el
por qué), el establecimiento de los objetivos de la investigación (general
y específicos) y la creación de la estrategia general para obtener y
analizar los datos, además incluye la revisión de literatura, la
elaboración de presupuestos, el cronograma de actividades, etc.
2) La elaboración de un diseño de investigación: es la etapa en la cual se
establece el camino a seguir para alcanzar los objetivos definidos. En
esta etapa se expresan los problemas en forma de hipótesis, se
operacionalizan las variables (para convertir un concepto abstracto a
términos concretos, observables y medibles a través de un instrumento)
y se eligen los métodos que permitirán recopilar y analizar los datos.

6
10/2/2022

Capítulo 1. Introducción.
3) Diseño de la muestra (muestreo): en esta etapa se tiene que definir con
claridad y cuidado, la población que se va a estudiar, el método de
muestreo más apropiado (cuando las muestras son obtenidas por un
adecuado procedimiento estadístico, éstas tienden a representar la
población) y el tamaño adecuado de la muestra (especificando la
magnitud del error deseado, el nivel de confianza, etc.). Los
procedimientos aleatorios son la forma más confiable de selección.
4) Diseño del cuestionario: es el proceso de adaptar los diferentes objetivos
del estudio a preguntas que permitan obtener la información necesaria.
Esta etapa incluye la formulación del tipo de pregunta, número de éstas,
secuencia y los medios para mantener motivada a la persona
encuestada. Aquí es importante probar el cuestionario para evaluar las
preguntas, la calidad de la entrevistas, las posibilidades de
contradicciones que pueden surgir en la investigación, la duración de la
entrevista, etc. Un requisito obligatorio en el diseño del cuestionario es el
respecto a la dignidad y a la privacidad del entrevistado.

Capítulo 1. Introducción.
5) El trabajo de campo: en esta etapa se incluye el reclutamiento de los
entrevistadores, supervisores y otro personal de campo. Además, incluye
la capacitación del personal de campo, preparación de instrucciones
escritas para los entrevistadores sobre el uso del cuestionario, la
recopilación de los datos en el campo y el control de calidad de las
entrevistas, etc.
6) La verificación y la codificación: estos son procesos afines diseñados con
el propósito de transcribir la información registrada en los cuestionarios a
una forma adecuada para el análisis estadístico. La verificación de las
respuestas empieza cuando el entrevistador revisa cada cuestionario en
el campo y continúa con las revisiones que realizan el supervisor de
campo y el personal de oficina. Se hace con el objetivo de eliminar las
respuestas incompletas o inconsistentes, como también los errores en el
uso del cuestionario. La codificación consiste en convertir datos
cualitativos en datos numéricos que puedan ser almacenados, contados
o tabulados con rapidez y facilidad.

7
10/2/2022

Capítulo 1. Introducción.
7) La preparación para el análisis: incluye un conjunto de actividades como:
digitación de los datos, chequeos rutinarios (para descubrir las
inconsistencias en las respuestas y los errores de digitación), y un plan de
tabulación de los datos (diseñar el formato de las tablas).
8) Análisis y preparación del informe: consiste en la presentación e
interpretación de los datos recopilados en la investigación, utilizando tablas
y gráficos. También se hace uso de técnicas sencillas y complejas del
calculo estadístico y se da una interpretación teórica elaborada de los
resultados. El objetivo de esta etapa es proporcionar un resumen de los
datos, capaz de satisfacer los propósitos de la investigación, lo más breve y
comprensible posible. Cuando se prepara el informe debemos tener
presente a quien va dirigido. Si es a especialistas, éste deberá contener
mucho más información sobre los aspectos metodológicos de la
investigación, que cuando es preparado para el publico general. No
obstante, hay que prestarle atención al estilo en que se va a escribir, la
mecánica de presentación del material y la organización de los temas.

Capítulo 1. Introducción.
NOTACIÓN DE SUMATORIA SIMPLE.
Para el calculo de una gran cantidad de indicadores estadísticos, casi siempre
es necesario determinar la suma de un conjunto de valores. Para denotar una
suma, se utiliza la letra griega mayúscula conocida como sigma, que se
simboliza mediante ∑. Haciendo uso de este concepto, la expresión (x1 + x2
+ x3 + x4 + … + xn) se representa matemáticamente como:
n

෍ xi
i=1

Donde la expresión bajo de sigma (i = 1) indica el elemento que va a


sumarse (i) y el primer término de la suma (1), mientras que la (n) sobre
sigma indica el termino final de la suma. Todo esto se lee como “sumatoria
de xi, desde i=1 hasta n.” Asumiendo que x = 1, 3, 5, la sumatoria de xi será:
𝟑

෍ 𝒙𝒊 = 𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 = 𝟏 + 𝟑 + 𝟓 = 𝟗
𝒊=𝟏

8
10/2/2022

Capítulo 1. Introducción.
A continuación se presenta las tres propiedades generales de la sumatoria
simple:
1) La sumatoria de una constante es igual al producto de la constante por el
número de veces que se presenta. Sea n = 4 y k = 5, entonces:
𝑛

෍ 𝑘𝑖 = 𝑘 ∙ 𝑛 = 5 ∗ 4 = 20
𝑖=1
4

෍ 𝑘 = 5 + 5 + 5 + 5 = 20
𝑖=1

2) La sumatoria del producto de una constante por una variable es igual al


valor de la constante por la sumatoria de la variable. Sea k = 5 y x = 1, 3, 5,
7, entonces:
𝑛 𝑛

෍ 𝑘 ∙ 𝑥𝑖 = 𝑘 ∙ ෍ 𝑥𝑖 = 5 ∗ 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 ∗ 1 + 3 + 5 + 7 = 5 ∗ 16 = 80
𝑖=1 𝑖=1

Capítulo 1. Introducción.
𝑛

෍ 𝑘 ∙ 𝑥𝑖 = 5𝑥1 + 5𝑥2 + 5𝑥3 + 5𝑥4


𝑖=1
= 5 ∗ 1 + 5 ∗ 3 + 5 ∗ 5 + 5 ∗ 7 = 5 + 15 + 25 + 35 = 80

3) La sumatoria de la suma (o diferencia) de dos variables es igual a la


suma (o diferencia) de las sumatorias individuales de las dos variables.
Sean los valores de (xi = 4, 3, 5, 8) y (yi = 6, 4, 5, 7) entonces:
𝑛 𝑛 𝑛

෍(𝑥𝑖 + 𝑦𝑖 ) = ෍ 𝑥𝑖 + ෍ 𝑦𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑦1 + 𝑦2 + 𝑦3 + 𝑦4
𝑖=1 𝑖=1 𝑖=1
= 4 + 3 + 5 + 8 + 6 + 4 + 5 + 7 = 20 + 22 = 42
𝑛

෍(𝑥𝑖 + 𝑦𝑖 ) = 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + 𝑥3 + 𝑦3 + 𝑥4 + 𝑦4
𝑖=1
= 4 + 6) + (3 + 4) + (5 + 5) + (8 + 7 = 10 + 7 + 10 + 15 = 42

9
10/2/2022

Capítulo 2. Organización y presentación de datos.


Una ordenación de datos, ya sea en orden ascendente o descendente, es la
forma más sencillas de presentarlos; sin embargo, en algunas ocasiones no
resulta útil. Una mejor forma de organizar y resumir los datos, es a través de
una distribución de frecuencias, que es una tabla en la que organizamos los
datos en clases o categorías, con sus respectivas frecuencias, para conocer
su distribución o estructura. Se le conoce como distribución de frecuencias
porque nos muestra el numero de observaciones del conjunto de datos que
caen en cada clase o categoría.

Tanto las clases (que son para variables numéricas), como las categorías
(que son para las variables cualitativas), deben ser mutuamente excluyentes
(que ningún dato puntual cae en más de una categoría) y exhaustivas (que
todos los datos caen en una u otra categoría). Es importante tener esto en
cuenta, debido a que más adelante se utilizará un tipo de intervalo de clase
que se lee “a menos de”, en el cual las clases no incluyen los datos que
coinciden con el valor de su limite superior.

Capítulo 2. Organización y presentación de datos.


CONCEPTOS IMPORTANTES.

• Frecuencia absoluta simple (fi): es el número de elementos o mediciones


que pertenecen a cada una de las categorías o clases.
• Frecuencia relativa simple (fr): es el resultado de dividir el valor de la
frecuencia absoluta simple (fi) entre el total de datos (n). fr = fi / n.
• Porcentaje: es el resultado de multiplicar la frecuencia relativa (fr) * 100.
• Frecuencia absoluta acumulada menos de (Fi <): es una acumulación
sucesiva desde arriba hacia abajo de la frecuencia absoluta simple (fi).
• Frecuencia absoluta acumulada más de (Fi >): es una acumulación
sucesiva desde abajo hacia arriba de la frecuencia absoluta simple (fi).
• Frecuencia relativa acumulada menos de (Fr <): es una acumulación
sucesiva desde arriba hacia abajo de la frecuencia relativa simple (fr).
• Frecuencia relativa acumulada más de (Fr >): es una acumulación
sucesiva desde abajo hacia arriba de la frecuencia relativa simple (fr).

10
10/2/2022

Capítulo 2. Organización y presentación de datos.


• Clases: son un grupos de intervalos de valores, que están delimitados por valores extremos o
limites de clase. En una clase, la cifra más pequeña se denomina limite inferior (Li), mientras
que la cifra más grande se denomina limite superior (Ls). Cuando uno de estos limites es
indefinido, a la clase se le denomina abierta. Si ambos limites están definidos, a la clase se le
denomina cerrada.
• Punto medioo marcade clase (Xi): es la semi-suma de los limites de clase. Xi = (Li + Ls) / 2.
• Proporción: es el número de observaciones con una característica en particular entre el total
de observaciones. El numerador siempre está incluido en el denominador. Esta puede
expresarse en porcentaje. Ej: si en un aula hay 12 estudiantes, de los cuales 9 son hombres y
3 son mujeres, la proporción de hombres sería (9/12) = 0.75, y la proporción de mujeres sería
(3/12) = 0.25.
• Razón: es el cociente de dos cantidades y posee la característica de que los valores del
numerador y del denominador son independientes, es decir, ninguno está contenido en el
otro. Ej: si en un aula hay 12 estudiantes, de los cuales 9 son hombres y 3 son mujeres, la
razón sería (9/3) = 3 y nos indica que la relación entre hombres y mujeres en esa aula fue de
3 hombres por cada mujer (3:1).
• Tasa: es un tipo de proporción que toma en cuenta la variable tiempo. Su cálculo varía según
sea el caso.

Capítulo 2. Organización y presentación de datos.


COMPONENTES DE UNA TABLA O CUADRO ESTADÍSTICO.

 Titulo: expresa de manera resumida el contenido de la tabla y el espacio


geográfico en el cual se obtiene el dato. Un buen titulo debe responder
las siguientes preguntas: ¿Qué estamos estudiando? (personas,
animales o cosas), ¿Cómo lo vamos a presentar? (si es una tabla
cruzada, “por” variable en el encabezado, “según” variable en la columna
matriz), ¿Dónde? (el lugar donde se levantaron los datos) y ¿Cuándo? (el
tiempo al que corresponden los datos).
 Encabezado: son los diferentes subtítulos que se colocan en la parte
superior de cada columna.
 Columna matriz: es la columna principal de la tabla y se encuentra en el
lado izquierdo, en donde se coloca la variable principal bajo estudio, con
sus categorías o clases.
 Cuerpo: contiene todas las información numéricas que aparecen en la
tabla. Son las celdas restantes (que no pertenecen a la columna matriz).

11
10/2/2022

Capítulo 2. Organización y presentación de datos.


 Nota aclaratoria: es opcional. Trata sobre cualquier asunto que no esta
claramente explicado en el titulo y por lo general, se refieren a unidades
de medidas en las cuales se expresan los datos que estamos
presentando. Se coloca entre el titulo y el encabezado, y debe encerrarse
entre paréntesis.
 Fuente: nos indica de donde proceden los datos. Se coloca en la parte
inferior izquierda de la tabla. En caso de que los datos que componen la
tabla, son recolectados por la propia persona o entidad que efectúa el
estudio, no es necesario señalar la fuente.
 Notas al pie: son usadas para hacer aclaraciones sobre aspectos que
aparecen en la tabla y que no han sido explicados en otra parte. Se
colocan debajo de la fuente, en caso de que apliquen.

A continuación se presenta un ejercicio sobre la elaboración de una


distribución de frecuencia para datos cualitativos.

Capítulo 2. Organización y presentación de datos.


DISTRIBUCIÓN DE FRECUENCIA PARA DATOS CUALITATIVOS.

Los siguientes datos corresponden al sexo de una muestra de 30


estudiantes del aula RB-100 del CURCE-UASD, tomada el 10 de febrero del
2020:
F, F, M, F, F, F, M, M, F, F, F, F, F, M, F, M, F, F, F, F, M, M, M, F, F, F, F, F, F, F.

Distribución de los Estudiantes, según Sexo, en el Aula RB-100 del CURCE-UASD, 10


de febrero del 2020.
Sexo Conteo Estudiantes (fi) Porcentaje
Masculino IIII - III 8 26.67%
Femenino IIII - IIII - IIII - IIII - II 22 73.33%
Total 30 100%
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

12
10/2/2022

Capítulo 2. Organización y presentación de datos.


GRÁFICOS BÁSICOS PARA DATOS CUALITATIVOS.

Gráfico de barras anchas: es el gráfico recomendado si se desea presentar las


frecuencias absolutas simples, las cuales se representan en el eje vertical,
mientras que las categorías se representan en el eje horizontal. Se caracteriza
porque las barras están separadas y tienen una anchura uniforme.
Cantidad de estudiantes (fi)

25
22

20

15

10 8

0
Masculino Femenino

Sexo

Capítulo 2. Organización y presentación de datos.


Gráfico de pastel: es el gráfico recomendado si se desea presentar los
porcentajes. Consiste en un circulo o pastel dividido en pedazos o sectores,
los cuales representan categorías cuyo tamaño son proporcionales a su total
general. Mediante regla de tres, se calcula el equivalente de cada porcentaje
en grados de la circunferencia, para después proceder con el trazado
utilizando compás, regla y transportador.

26.67%
Masculino
Femenino
73.33%

13
10/2/2022

Capítulo 2. Organización y presentación de datos.


EJEMPLO DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA CON
CRUZAMIENTO DE DOS VARIABLES CUALITATIVAS.

Distribución de los clientes por nacionalidad, según estado civil, en el Banco


XX, febrero del 2020.

Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

Capítulo 2. Organización y presentación de datos.


DISTRIBUCIÓN DE FRECUENCIA PARA DATOS CUANTITATIVOS.

Los siguientes datos corresponden a la edad de una muestra de 20 clientes


del Banco XX, en febrero del 2020:
27, 48, 39, 42, 25, 44, 62, 35, 57, 40, 44, 46, 29, 65, 30, 55, 43, 36, 50, 50.

 Rango (R): es la diferencia entre el valor máximo y el valor mínimo del


conjunto de datos. R = Xmax – Xmin = 65 – 25 = 40
 Número de clases (NC): se recomienda usar entre 5 y 20 clases, así como
la formula de Sturges y redondear el resultado hacia arriba.
NC = 1 + 3.322 log n = 1 + 3.322 log (20) = 5.32 ≈ 6
 Intervalo de clase (IC): es la anchura de la clase. Si disponemos de una
distribución de frecuencia, este será igual a la diferencia entre dos limites
inferiores de clases consecutivas. En caso contrario, será igual a la
división del rango entre el número de clases. Se recomienda redondear el
resultado hacia arriba. IC = R / NC = 40 / 6 = 6.67 ≈ 7

14
10/2/2022

Capítulo 2. Organización y presentación de datos.

Distribución de los Clientes, según Edad, en el Banco XX, Febrero del 2020.

Clientes
Edad (años) Conteo fr Fi < Fr < Fi > Fr > Xi
(fi)
25-32 IIII 4 0.20 4 0.20 20 1.00 28.5
32-39 II 2 0.10 6 0.30 16 0.80 35.5
39-46 IIII - I 6 0.30 12 0.60 14 0.70 42.5
46-53 IIII 4 0.20 16 0.80 8 0.40 49.5
53-60 II 2 0.10 18 0.90 4 0.20 56.5
60-67 II 2 0.10 20 1.00 2 0.10 63.5
Total 20 1.00
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

Capítulo 2. Organización y presentación de datos.

LIMITES DE CLASES DECLARADOS Y VERDADEROS.

Los limites verdaderos o fronteras de clase son puntos específicos de la escala que
sirven para "separar clases adyacentes". En el intervalo “a menos de”, se obtienen
restando 0.5 tanto al limite inferior como al limite superior de la clase en cuestión.

15
10/2/2022

Capítulo 2. Organización y presentación de datos.

Interpretaciones de la tercera clase:

• fi: 6 clientes tienen una edad de 39 a menos de 46 años.


• fr: El 30% de los clientes tienen una edad de 39 a menos de 46 años.
• Fi <: 12 clientes tienen una edad de menos de 46 años (o de 25 a
menos de 46 años).
• Fr <: El 60% de los clientes tienen una edad de menos de 46 años (o
de 25 a menos de 46 años).
• Fi >: 14 clientes tienen una edad mayor o igual a 39 años (o de 39 a
menos de 67 años).
• Fr >: El 70% de los clientes tienen una edad mayor o igual a 39 años
(o de 39 a menos de 67 años).
• Xi: 42.5 años es el valor que representa a todos los valores que están
incluidos en la clase de 39 a menos de 46 años.

Capítulo 2. Organización y presentación de datos.


GRÁFICOS BÁSICOS PARA DATOS CUANTITATIVOS.

Histograma: es la representación gráfica por excelencia de una distribución de


frecuencias. Consiste en barras rectangulares que están unidas una a la otra
secuencialmente. La escala horizontal representa clases de valores cuantitativos,
y la escala vertical representa sus frecuencias. Las alturas de las barras
corresponden a los valores de frecuencia.

16
10/2/2022

Capítulo 2. Organización y presentación de datos.


Polígono de frecuencia: es un gráfico que representa una distribución de frecuencia
absoluta o relativa. Utiliza segmentos de línea conectados a puntos que están
situados directamente encima de los puntos medios de clase. Se obtiene fácilmente
mediante la unión de los puntos medios que pueden ser proyectados encima y en el
centro de cada una de las barras de un histograma. Difiere del histograma porque
utiliza segmentos de línea en vez de barras. Para que toque el eje x, hay que añadir
dos puntos medios con frecuencia igual a cero.

Capítulo 2. Organización y presentación de datos.


Ojiva: es un gráfico que se utiliza para presentar las frecuencias acumuladas “más
de” y/o “menos de” que se generan en un conjunto de datos. En la ojiva de menos,
en el eje horizontal se representan los limites superiores de las clases, mientras que
en el eje vertical se representan las frecuencias acumuladas menos de. En la ojiva de
más, en el eje horizontal se representan los limites inferiores de las clases, mientras
que en el eje vertical se representan las frecuencias acumuladas más de. En el eje x,
hay que dibujar un corte. Para que la línea toque el eje x, hay que añadir un limite
adicional con frecuencia cero en cada gráfico.

17
10/2/2022

Capítulo 2. Organización y presentación de datos.


Gráfico lineal: este tipo de gráfico se utiliza especialmente para representar datos
clasificados por cantidad o tiempo. Permite visualizar el comportamiento de una
variable a través del tiempo, o establecer comparaciones entre dos o más variables, o
sea, se usan para representar series de tiempo o cronológicas (días, semanas,
meses, años, etc.). En el eje horizontal se representa la variable tiempo y en el eje
vertical se representa la variable a estudiar. Este es un ejemplo tomado del libro de
Mario Triola (Estadística. 12 ed., p.59):

Capítulo 2. Organización y presentación de datos.


Diagrama de tallos y hojas: representa datos cuantitativos separando cada valor en dos
partes: el tallo (el primer digito) y las hojas (los demás dígitos que acompañan este
primer digito). La fila donde están contenidos estos valores se conoce como rama. Las
características de esta técnica exploratoria de datos son: muestra la forma de la
distribución de los datos, conserva los valores de los datos originales y los datos
muestrales aparecen ordenados. Los tallos y las hojas se ordenan de manera
creciente, no en el orden establecido por la lista original. Ej:

Xi: 27, 48, 39, 42, 25, 44, 62, 35, 57, 40, 44, 46, 29, 65, 30, 55, 43, 36, 50, 50.

Tallo Hojas
2 5 7 9
3 0 5 6 9
4 0 2 3 4 4 6 8
5 0 0 5 7
6 2 5

18
10/2/2022

Capítulo 2. Organización y presentación de datos.


Gráfico de barras estrechas: si los datos de una variable discreta están ordenados en
una serie de frecuencias y deseamos representar frecuencias absolutas o relativas,
utilizaremos este tipo de gráfico. Las barras deben ser estrechas para representar el
hecho de que los valores que toma la variable son discretos. En el eje horizontal se
representa la variable discreta y en el eje vertical se representa las frecuencias. A
continuación se presenta un ejemplo de este tipo de gráfico. En la diapositiva
siguiente se muestra la serie de frecuencias que se utilizó para generarlo.

Capítulo 2. Organización y presentación de datos.


Serie de Frecuencias: es el ordenamiento de una serie de datos relativamente pequeña
en la cuál cada término simple de la serie se hace acompañar por la cantidad de veces
que este se repite, es decir, por su frecuencia. Cuando no sea factible construir una
serie de clases y frecuencia, este método es adecuado. Ej: se tiene los siguientes datos
sobre la cantidad de hijos de una muestra de 20 personas en Bonao, Mayo, 2020. Xi: 2,
1, 3, 0, 1, 2, 0, 2, 1, 1, 2, 3, 1, 4, 1, 3, 2, 0, 1, 0.

Serie de Frecuencias de la muestra de personas, según Cantidad de Hijos, en Bonao,


Mayo del 2020.
Cantidad de hijos Personas (fi) fr (Fi <) (Fr <) (Fi >) (Fr >)

0 4 0.20 4 0.20 20 1.00


1 7 0.35 11 0.55 16 0.80
2 5 0.25 16 0.80 9 0.45
3 3 0.15 19 0.95 4 0.20
4 1 0.05 20 1.00 1 0.05
Total 20 1.00 - - - -
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

19
10/2/2022

Capítulo 2. Organización y presentación de datos.

TIPOS DE PRESENTACIÓN DE DATOS.

La presentación de los datos estadísticos pueden llevarse a cabo de cuatro


formas, algunas de las cuales ya se han abordado en este capítulo:
• Textual: consiste en ofrecer cifras numéricas insertadas a todo lo largo de
un texto. Es muy usada en periódicos, revistas y boletines.
• Semi-tabular: se aproxima a la idea de una tabla, pero no llega a reunir
las formalidades de una tabla. Su uso es muy insignificante.
• Tabular: se manifiesta mediante cuadros o tablas estadísticas, a través de
las cuales los datos son colocados en filas y columnas atendiendo a un
orden determinado. Constituye la forma más exacta de presentar las
informaciones. Anteriormente, se presentaron los requisitos de una tabla.
• Gráfica: permite presentar los datos mediante el uso de figuras o dibujos
y constituye un complemento de la presentación tabular. Su uso es
bastante amplio, puesto que permite comprender los datos con mayor
rapidez y facilidad. Anteriormente, se presentaron las más básicas.

Capítulo 3. Medidas de Tendencia Central.


MEDIDAS DE TENDENCIA CENTRAL .

Se definen como aquel valor que se utiliza para representar un conjunto de


datos. Se caracterizan por encontrarse localizadas en el centro de la
distribución de los datos o cerca de este. Existen diferentes métodos para
medir el centro, los más utilizados se presentan a continuación.

Media aritmética.
Es el valor más representativo de un conjunto de datos. Es la más utilizada
por los métodos estadísticos avanzados. Para encontrar la media aritmética,
sumamos los valores y dividimos el resultado entre el número de
observaciones. Su fórmula para datos simples o sueltos es:
Media poblacional Media muestral
σ xi σ xi
μ= xത =
N n

20
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


Su fórmula para datos agrupados es:
Media poblacional Media muestral
σ(xi ∙ fi) σ(xi ∙ fi )
μ= xത =
N n
Aspectos destacables de la media:
• Las medias muestrales de una misma población tienden a variar menos
que otras medidas de tendencia central.
• Cada conjunto de datos posee una y sólo una media.
• La media de un conjunto de datos utiliza todos los valores de los datos.
• No se calcula si la distribución de frecuencia tiene clases abiertas.
• Puede verse afectada por valores extremos (atípicos) que no son
representativos del resto de los datos, por tanto, si existen valores
extremos en los datos, no se recomienda su uso. En este caso, se
recomienda el uso de la mediana.

Capítulo 3. Medidas de Tendencia Central.


Mediana.
Es el indicador que divide al conjunto de datos en dos partes iguales, de
manera que el 50% de los datos será inferior a la mediana y el 50% restante
es superior a la mediana. Es el punto medio de los valores una vez que se
han ordenado de menor a mayor o de mayor a menor. Su procedimiento de
cálculo para datos simples o sueltos es:
1) Se ordenan los datos. 𝐧+𝟏
𝐏𝐦𝐞 =
2) Se localiza la posición donde está ubicada la mediana: 𝟐
3) La mediana será igual al dato que ocupe ese lugar en el paso 1. Si la
posición fuera un numero decimal, entonces la mediana será igual al
promedio de los dos datos mas centrales.

Su procedimiento de cálculo para datos agrupados es:


1) Calcular la Fi “menos de”.
𝐧
2) Calcular la posición de la mediana: 𝐏𝐨𝐬𝐢𝐜𝐢ó𝐧 =
𝟐

21
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


3) Localizar la clase mediana, buscando en la columna de las Fi “menos de”
un valor igual al valor de la posición calculada y si no aparece ese valor,
entonces elegir el valor inmediatamente superior al valor de la posición
calculada.
4) Determinar el valor de la mediana utilizando la siguiente formula:
𝐏𝐨𝐬𝐢𝐜𝐢ó𝐧 − 𝐅𝐢 "𝐦𝐞𝐧𝐨𝐬 𝐝𝐞" 𝐚𝐧𝐭𝐞𝐫𝐢𝐨𝐫
𝐌𝐞 = 𝐋𝐢 + ∗ 𝐈𝐂
𝐟𝐢

Aspectos destacables de la mediana:


• No se afecta por los valores extremos, sino por el orden que tienen
dichos valores, por tanto, se utiliza si la distribución es asimétrica.
• Puede calcularse si la distribución de frecuencia tiene clases abiertas.
• Ciertos procedimientos estadísticos que utilizan la mediana son más
complejos que aquellos que utilizan la media.
• Resulta tediosa si debemos ordenar grandes cantidades de datos de
forma manual.

Capítulo 3. Medidas de Tendencia Central.


Moda.
Es el valor que más se repite en el conjunto de datos. Cuando un único valor
de datos ocurre con más frecuencia que los demás, ese valor es la moda y
se dice que el conjunto de datos es unimodal. Cuando dos valores de datos
ocurren con la misma mayor frecuencia, cada uno es una moda y se dice
que el conjunto de datos es bimodal. Cuando más de dos valores de datos
ocurren con la misma mayor frecuencia, cada uno es una moda y se dice
que el conjunto de datos es multimodal. Cuando ningún valor de datos se
repite, se dice que no hay moda.

Su procedimiento de cálculo para datos agrupados es:


1) Se localiza la clase modal, que es la de mayor frecuencia (fi).
2) Determinar el valor de la moda utilizando la siguiente formula:
. 𝐝𝟏
𝐌𝐨 = 𝐋𝐢 + ∗ 𝐈𝐂
𝐝𝟏 + 𝐝𝟐

22
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


Donde:
d1 = frecuencia simple (fi) de la clase modal menos la anterior.
d2 = frecuencia simple (fi) de la clase modal menos la posterior.

Aspectos destacables de la moda:


• Es muy fácil de obtener.
• Puede ser calculada en datos cualitativos.
• No se afecta por los valores extremos.
• Puede calcularse si la distribución de frecuencia tiene clases abiertas.
• Un conjunto de datos puede tener una moda, o múltiples modas, o no tener
ninguna.
• Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil
interpretarlos y compararlos.

Relación entre media, mediana y moda: si la distribución es simétrica, estos tres


indicadores siempre serán iguales. No obstantes, en una distribución con sesgo
positivo, la media > la mediana > la moda, mientras que en una distribución con
sesgo negativo, la media < la mediana < la moda.

Capítulo 3. Medidas de Tendencia Central.

En las imágenes se puede apreciar mejor la relación entre media, moda y mediana
en cada caso. Cabe destacar que esta relación solo permite tener una idea del tipo
de asimetría de la distribución, pero lo que realmente determinará si la distribución es
simétrica, sesgada a la izquierda o sesgada a la derecha será el resultado de la
fórmula del coeficiente de asimetría de Fisher, que es el más utilizado en estadística
ya que es más preciso que el coeficiente de asimetría de Pearson y que el coeficiente
de asimetría de Bowley. A continuación se presenta un ejemplo de una variable que
se distribuye de esa manera.

23
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


Un ejemplo de una variable cuya distribución es simétrica, es la variable
coeficiente de inteligencia, pues en ambos extremos de la distribución se
concentrarán una cantidad reducida de datos (los muy inteligentes a la
derecha y los poco inteligentes a la izquierda), mientras que la gran
mayoría se concentrarán en el centro de la distribución.

Un ejemplo de una variable cuya distribución está sesgada a la izquierda,


es la variable Cantidad de personas con Alzheimer por grupos de edad,
pues a medida que aumentan los grupos de edad, aumenta la cantidad
de personas con esta enfermedad.

Un ejemplo de una variable cuya distribución está sesgada a la derecha,


es la variable los ingresos de las personas, pues a medida que aumentan
los salarios, disminuye considerablemente la cantidad de empleados
públicos que lo ostentan.

Capítulo 3. Medidas de Tendencia Central.


Media ponderada.
La media ponderada nos permite calcular un promedio que toma en cuenta
la importancia de cada valor con respecto al total. Cuanto mas grandes sea
el peso de un elemento (w), más importante se considera que es éste. Su
formula es: σ 𝐰𝐢 ∙ 𝐱 𝐢
𝐱ത 𝐰 =
σ 𝐰𝐢

Media geométrica.
Es la raíz n-esima del producto de todos los números. Es recomendada para
datos de progresión geométrica, para promediar razones, interés compuesto
y índices; en fin, se usa siempre que se desee calcular el cambio porcentual
promedio en el tiempo para alguna variable. Sus fórmulas para datos simples
o sueltos son:
𝐧
σ 𝐥𝐨𝐠 𝐱 𝐢
𝐆= 𝐱𝟏 ∗ 𝐱 𝟐 ∗ 𝐱 𝟑 ∗ ⋯ ∗ 𝐱 𝐧 ó 𝐆 = 𝐚𝐧𝐭𝐢𝐥𝐨𝐠𝐚𝐫𝐢𝐭𝐦𝐨
𝐧

24
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


Sus fórmulas para datos agrupados son:
𝐧 σ (𝐟𝐢 ∙ 𝐥𝐨𝐠 𝐱 𝐢 )
𝐆= 𝐱 𝟏 𝐟𝟏 ∗ 𝐱 𝟐 𝐟𝟐 ∗ 𝐱 𝟑 𝐟𝟑 ∗ ⋯ ∗ 𝐱 𝐤 𝐟𝐤 ó 𝐆 = 𝐚𝐧𝐭𝐢𝐥𝐨𝐠𝐚𝐫𝐢𝐭𝐦𝐨
𝐧

Aspectos destacables de la media geométrica:


• La media geométrica siempre es menor o igual (nunca mayor) que la
media aritmética.
• Necesita que todos los datos sean positivos.
• Se ve afectada por clases abiertas.

Tasa de crecimiento promedio.


Es una aplicación especial de la media geométrica. Permite determinar un
cambio porcentual promedio durante cierto periodo. Su fórmula es:
Donde: “Pn” es la cantidad al final del periodo n, “P0” es la
𝐧 𝐏𝐧
𝐫= −𝟏 cantidad al inicio del periodo y “n” es el tiempo transcurrido
𝐏𝟎 desde P0 hasta Pn.

Capítulo 3. Medidas de Tendencia Central.


Media Armónica.
Se define como el reciproco o inverso de la media aritmética de los recíprocos de los
valores que componen una serie. Es de gran utilidad cuando estamos frente a
variables relacionadas con tasas de cambio: velocidades, producción, tiempos,
rendimientos, etc. Se encuentra al dividir el número de valores (n) entre la sumatoria
de los recíprocos de todos los valores. Sus fórmulas son:
Para datos simples: Para datos agrupados:
𝐧 𝐧 𝐧 𝐧
𝐇= = 𝐇= =
𝟏 𝟏 𝟏 𝟏 𝟏 𝐟𝐢 𝐟𝟏 𝐟𝟐 𝐟𝟑 𝐟
σ + + + ⋯+
𝐱𝐢 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧
σ + + + ⋯+ 𝐧
𝐱𝐢 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧

Aspectos destacables de la media armónica:


• Es poca influenciada por la presencia de valores muy grandes, pero es
notablemente sensible frente a valores muy pequeños.
• Esta siempre es menor o igual (nunca mayor) que la media geométrica.
• Necesita que todos los valores sean diferentes de cero.
• Se ve afectada por clases abiertas.

25
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


EJERCICIOS PARA DATOS SIMPLES O SUELTOS:
1) El precio hipotéticos de la funda de leche Milex de 2,200 gramos en una muestra de
6 supermercados de la ciudad de Bonao, en enero 2019, se presenta a continuación:
Xi: 1,100.00 1,000.00 980.00 975.00 980.00 1,050.00

Media aritmética:
σ xi 1100 + 1000 + 980 + 975 + 980 + 1050 6085
xത = = = = 1,014.17 pesos.
n 6 6
El precio promedio de la funda de leche Milex de 2200 gramos en esa muestra de 6
supermercados de la ciudad de Bonao se estima en 1,014.17 pesos.

Mediana: El 50% de las fundas de


1) Ordenar: 975, 980, 980, 1000, 1050, 1100. leche Milex de 2200 g
2) Posición: 3) Interpolar: tienen un precio inferior a
n+1 6+1 980 + 1000 1980 990 pesos, mientras que el
Pme = = Me = =
2 2 2 2 50% restante tienen un
Pme = 3.5 posición. Me = 990 pesos. precio superior a 990 pesos.

Capítulo 3. Medidas de Tendencia Central.


Xi: 1,100.00 1,000.00 980.00 975.00 980.00 1,050.00
Moda:
Mo = 980 pesos, unimodal.
El precio más común de la funda de leche Milex de 2200 g fue de 980 pesos.

Media ponderada:
2) Un estudiante universitario obtuvo las siguientes calificaciones durante un
semestre académico. Calcule la media de las calificaciones para ese semestre.
Asignaturas Calificaciones (Xi) Creditos (Wi) Wi . Xi σ wi ∙ x i 1415
xത w = =
Matemáticas 75 4 300 σ wi 18
Física 80 4 320 xത w = 78.61 puntos.
Letras 85 3 255 Interpretación: La calificación
Biología 75 4 300 promedio (índice académico)
Historia 80 3 240 del estudiante universitario
durante ese semestre fue de
Total - 18 1,415 78.61 puntos.

26
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


Media geométrica:
3) Los datos siguientes corresponden a las tasas de interés pagadas por los bancos
de una ciudad en cuentas de ahorros.
Xi: 3.0% 4.8% 2.9% 4.1% 3.5%.

n 5 5
G= x1 ∗ x 2 ∗ x 3 ∗ ⋯ ∗ x n = 3.0 ∗ 4.8 ∗ 2.9 ∗ 4.1 ∗ 3.5 = 599.256 = 3.59%

La tasa de interés promedio pagada por los bancos en cuentas de ahorros es de 3.59%

Tasa de crecimiento promedio:


4) Según la Oficina Nacional de Estadística, la población de la República Dominicana
en 1981 fue de 5,545,741 habitantes y en 1993 fue de 7,293,390 habitantes.
Determine la tasa de crecimiento promedio anual durante ese periodo.
n Pn 12 7,293,390 12
La población dominicana
r= −1= −1= 1.315133541 − 1 creció a una tasa promedio
P0 5,545,741
anual de 2.31%, durante el
r = 1.0231 − 1 = 0.0231 ∗ 100 = 2.31% periodo (1981 – 1993).

Capítulo 3. Medidas de Tendencia Central.


Media armónica:
5) La velocidad a la que transitaban 5 vehículos al momento de pasar por un
radar de trafico en una carretera del país, se presenta a continuación.
Determinar la velocidad media de los vehículos.

Xi: 110 km/h 121 km/h 102 km/h 108 km/h 116 km/h.
n n
H= =
1 1 1 1 1
σ + + +⋯+
x i x1 x 2 x 3 xn
5 5
H= = = 111.01 km/h
1 1 1 1 1 0.045039242
+ + + +
110 121 102 108 116

La velocidad promedio de los vehículos al pasar por el radar de tráfico de la


carretera se estima en 111.01 km/h.

27
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


EJERCICIOS PARA DATOS AGRUPADOS:
1) Los siguientes datos corresponden a la puntuación obtenida por una muestra de
25 estudiantes en un examen parcial de estadística:
Puntuación Estudiantes (fi ) Xi Xi . fi Fi "menos de" Media aritmética:
9-11 3 10 30 3 σ(x i ∙ fi ) 348
11-13 6 12 72 9 xത = = = 13.92 puntos.
n 25
13-15 8 14 112 17
15-17 5 16 80 22
La puntuación promedio de los
17-19 3 18 54 25
estudiantes en el examen parcial de
Total 25 - 348 - estadística se estima en 13.92 puntos.

Mediana: n 25 El 50% de los estudiantes


Posición = = = 12.5
2 2 obtuvieron una puntuación
inferior a 13.88 puntos,
Posición − Fi "menos de" anterior
Me = Li + ∗ IC mientras que el 50%
fi restante obtuvieron una
12.5 − 9 puntuación superior a
Me = 13 + ∗ 2 = 13.88 puntos.
8 13.88 puntos.

Capítulo 3. Medidas de Tendencia Central.

Moda: Puntuación Estudiantes (fi ) Xi Xi . fi Fi "menos de"


d1 = 8 – 6 = 2 9-11 3 10 30 3
d2 = 8 – 5 = 3 11-13 6 12 72 9
d1 13-15 8 14 112 17
Mo = Li + ∗ IC 15-17 5 16 80 22
d1 + d2
2 17-19 3 18 54 25
Mo = 13 + ∗2 Total 25 - 348 -
2+3
Mo = 13 + 0.4 ∗ 2 = 13 + 0.8
Dado que: 𝐱ത 𝟏𝟑. 𝟗𝟐 > 𝐌𝐞 𝟏𝟑. 𝟖𝟖 > 𝐌𝐨(𝟏𝟑. 𝟖𝟎)
Mo = 13.80 puntos
La distribución de frecuencia de las puntuaciones
La puntuación mas común obtenida de los estudiantes en el examen parcial de
por los estudiantes en el examen estadística esta sesgada a la derecha (asimétrica
parcial de estadística fue de 13.80 positiva)
puntos.

28
10/2/2022

Capítulo 3. Medidas de Tendencia Central.


Media geométrica:
2) Los siguientes datos corresponden a las tasas de crecimiento anual de las ventas
de una muestra de pequeñas empresas de Bonao:
Empresas
Tasas (%) Xi
(fi )
2-4 5 3
4-6 9 5
6-8 3 7
8-10 2 9
10-12 1 11
Total 20 -

n 20
G= x1 f1 ∗ x 2 f2 ∗ x 3 f3 ∗ ⋯ ∗ x k fk = 35 ∗ 59 ∗ 73 ∗ 92 ∗ 111 = 5.11%

La tasa promedio de crecimiento anual de las ventas de las pequeñas empresas de Bonao
se estima en 5.11%.

Capítulo 3. Medidas de Tendencia Central.


Media armónica:
3) Los siguientes datos corresponden a la velocidad máxima registrada de los
lanzamientos que realizaron una muestra de 20 pitcher durante su primer partido
de la temporada 2019 en la MLB.

Velocidad (mph) Pichert (fi) Xi n n


H= =
fi f1 f2 f3 f
88 - 90 2 89 σ + + +⋯+ n
x i x1 x 2 x 3 xn
90 - 92 9 91 20
92 - 94 5 93 H=
2 9 5 3 1
94 - 96 3 95 + + + +
89 91 93 95 97
96 - 98 1 97 20
H= = 92.16 mph
Total 20 - 0.217024676

La velocidad máxima promedio de los lanzamientos realizados por los pitcher


durante su primer partido de la temporada 2019 en la MLB se estima en 92.16
mph.

29
10/2/2022

Capítulo 4. Medidas de Posición.


MEDIDAS DE POSICIÓN O FRACTILES.

Son indicadores que dividen un conjunto de datos en fracciones o segmentos iguales,


según sea la magnitud que estos poseen. Se caracterizan por permitirnos
posicionarnos por debajo del centro del conjunto de datos o en el mismo centro o por
encima de este. Su procedimiento de cálculo es similar al de la mediana, tanto para
datos simples, como para datos agrupados, con la diferencia de que la fórmula de la
posición se ajusta según sea el número de partes iguales en que el fractil divide los
datos. También son indicadores tales que, un porcentaje determinado de los datos
es inferior a ellos y el otro porcentaje restante, es superior a ellos. El ultimo orden de
cada fractil no se calcula, por tanto, se asume que es igual al valor máximo del
conjunto de datos. Los más usados son: cuartiles, deciles y percentiles.

Cuartiles.
Son indicadores que dividen el conjunto de datos en cuatro partes iguales, de
manera que, cada parte equivale aproximadamente a un 25% de los datos. Se
identifican como Qk, que se lee cuartil de orden k. CUARTILES Q1 Q2 Q3 Q4
% de datos ≤ Qk 25% 50% 75% 100%

Capítulo 4. Medidas de Posición.


Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧 + 𝟏) 𝐤(𝐧)
𝐏𝐐𝐤 = 𝐏𝐐𝐤 =
𝟒 𝟒

Deciles.
Son indicadores que dividen el conjunto de datos en diez partes iguales, de manera
que, cada parte equivale aproximadamente a un 10% de los datos. Se identifican
como Dk, que se lee decil de orden k.
𝐤(𝐧 + 𝟏)
𝐏𝐃𝐤 =
𝟏𝟎
Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧)
DECILES D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 𝐏𝐃𝐤 =
𝟏𝟎
% de datos ≤ Dk 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentiles.
Son indicadores que dividen el conjunto de datos en cien partes iguales, de manera
que, cada parte equivale aproximadamente a un 1% de los datos. Se identifican como
Pk, que se lee percentil de orden k.

30
10/2/2022

Capítulo 4. Medidas de Posición.


Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧 + 𝟏) 𝐤(𝐧)
𝐏𝐏𝐤 = 𝐏𝐏𝐤 =
𝟏𝟎𝟎 𝟏𝟎𝟎

PERCENTILES P1 P2 P3 P4 ... P37 … P56 … P79 … P88 … P97 P98 P99 P100
% de datos ≤ Pk 1% 2% 3% 4% ... 37% ... 56% ... 79% ... 88% ... 97% 98% 99% 100%
Método de interpolar: si al calcular la posición del fractil deseado, obtenemos un
número decimal, entonces el valor del fractil deseado se determinará mediante el
método de la interpolación, dando los siguientes pasos:
1. Se divide la posición calculada en dos partes, una parte entera y una parte
decimal (que es un valor entre cero y uno).
2. En los datos ordenados, se ubica la posición calculada y traza una pequeña línea
vertical en ese punto, es decir, si la posición calculada es 5.37, entre la posición 5
y la posición 6 se coloca una línea vertical.
3. El valor del fractil será igual al dato que está a la izquierda de la línea, más la
parte decimal de la posición calculada multiplicada por la diferencia del dato que
esta a la derecha de la línea y el dato que está a la izquierda de la línea:
Posición 5 + 0.37 (Posición 6 – Posición 5)

Capítulo 4. Medidas de Posición.


EJERCICIO PARA DATOS SIMPLES O SUELTOS:
La puntuación obtenida por los empleados de una empresa en una prueba de
inteligencia emocional se muestra a continuación:
Xi: 65 70 78 94 91 90 88 80 83 77 91 48 51 55 67 81 59 79 66 74.

Cuartil de orden 1 :

Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94

Posición: Interpolar:
k(n + 1) 1(20 + 1) 21 Q1 = 65 + 0.25 66 − 65
PQk = ; PQ1 = = = 5.25 posición.
4 4 4 Q1 = 65.25 puntos.

El 25% de los empleados obtuvieron una puntuación menor o igual a 65.25 puntos en la
prueba de inteligencia emocional y el 75% restante, obtuvieron una puntuación mayor a
65.25 puntos.

31
10/2/2022

Capítulo 4. Medidas de Posición.


Decil de orden 7 :

Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94

Posición:
k(n + 1) 7(20 + 1) 147
PDk = ; PD7 = = = 14.7 posición.
10 10 10

Interpolar:
D7 = 81 + 0.7 83 − 81 = 82.4 puntos.

El 70% de los empleados obtuvieron una puntuación menor o igual a 82.4 puntos,
mientras que el 30% restante, obtuvieron una puntuación mayor a 82.4 puntos.

Capítulo 4. Medidas de Posición.


Percentil de orden 43:

Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94

Posición:
k(n + 1) 43(20 + 1) 903
PPk = ; P43 = = = 9.03 posición.
100 100 100

Interpolar:
P43 = 74 + 0.03 77 − 74 = 74.09 puntos.

El 43% de los empleados obtuvieron una puntuación menor o igual a 74.09 puntos,
mientras que el 57% restante, obtuvieron una puntuación mayor a 74.09 puntos.

32
10/2/2022

Capítulo 4. Medidas de Posición.


EJERCICIO PARA DATOS AGRUPADOS:
Los siguientes datos corresponden a la puntuación obtenida por una muestra de 25
estudiantes en un examen parcial de estadística:
Puntuación Estudiantes (fi) Fi "menos de" Interpretación: El 75% de los
9 - 11 3 3 estudiantes obtuvieron una
11 - 13 6 9 puntuación inferior o igual a
13 - 15 8 17 15.7 puntos, mientras que el
15 - 17 5 22 25% restante obtuvieron una
17 - 19 3 25
puntuación superior a 15.7
puntos.
Total 25 -

Cuartil de orden 3 :
Posición − Fi "menos de" anterior
k(n) Q𝑘 = Li + ∗ IC
PQk = fi
4 18.75 − 17
Q3 = 15 + ∗ 2 = 15 + 0.35 ∗ 2
3(25) 75 5
PQ3 = = = 18.75 posición. Q3 = 15 + 0.7 = 15.7 puntos.
4 4

Capítulo 4. Medidas de Posición.

Puntuación Estudiantes (fi) Fi "menos de" Interpretación: El 20% de los


estudiantes obtuvieron una
9 - 11 3 3 puntuación inferior o igual a
11 - 13 6 9 11.67 puntos, mientras que el
13 - 15 8 17 80% restante obtuvieron una
15 - 17 5 22 puntuación superior a 11.67
17 - 19 3 25 puntos.

Total 25 -

Decil de orden 2:
Posición − Fi "menos de" anterior
k(n) Dk = Li + ∗ IC
PDk = fi
10
5−3
D2 = 11 + ∗ 2 = 11 + 0.3333 ∗ 2
2(25) 50 6
PD2 = = = 5 posición. D2 = 11 + 0.6666 = 11.67 puntos.
10 10

33
10/2/2022

Capítulo 4. Medidas de Posición.

Puntuación Estudiantes (fi) Fi "menos de" Interpretación: El 8% de los


estudiantes obtuvieron una
9 - 11 3 3 puntuación inferior o igual a
11 - 13 6 9 10.33 puntos, mientras que el
13 - 15 8 17 92% restante obtuvieron una
15 - 17 5 22 puntuación superior a 10.33
17 - 19 3 25 puntos.
Total 25 -

Percentil de orden 8 :
Posición − Fi "menos de" anterior
k(n) Pk = Li + ∗ IC
PPk = fi
100
2−0
P8 = 9 + ∗ 2 = 9 + 0.6667 ∗ 2 = 9 + 1.3334
8(25) 200 3
PP8 = = = 2 posición. P8 = 10.33 puntos.
100 100

Capítulo 5. Medidas de Dispersión.


Si se observa con detenimiento la
siguiente figura, notará que la media de
las tres curvas es la misma, pero la
curva A tiene menor separación (o
variabilidad) que la curva B, y ésta tiene
menor variabilidad que la C. Si medimos
sólo la media de estas tres
distribuciones, estaremos pasando por
alto una diferencia importante que
existe entre las tres curvas. Al igual que
sucede con cualquier conjunto de datos, Una medida de dispersión pequeña
la media, la mediana y la moda sólo nos indica que los datos se acumulan con
revelan una parte de la información que proximidad alrededor de la media
debemos conocer acerca de las aritmética. Por consiguiente, la media se
características de los datos. Para considera representativa de los datos.
aumentar nuestro entendimiento del Por el contrario, una medida grande de
patrón de los datos, debemos medir dispersión indica que la media no es
también su dispersión. confiable.

34
10/2/2022

Capítulo 5. Medidas de Dispersión.


MEDIDAS DE DISPERSIÓN.
Son indicadores que permiten medir la variabilidad de los datos en una distribución,
es decir, el grado en que las observaciones se separan. Su importancia radica en
que nos ayudan a medir la confiabilidad de las medidas de tendencia central y
además nos permiten comparar las dispersiones de diferentes muestras, para evitar
elegir distribuciones que tengan las dispersiones más grandes.

Rango: es un indicador que mide la diferencia entre el valor máximo y el valor


mínimo de un conjunto de datos. Para datos simples o sueltos, su fórmula es:
R = Xmax – Xmin ; para datos agrupados su fórmula es: R = Limite superior de la
última clase – Limite inferior de la primera clase.

Rango interfractiles (RI): mide la diferencia entre dos medidas de posición. Es más
completo que la desviación intercuartílica (DI) = Q3 – Q1, porque con este indicador
se puede calcular el rango entre dos medidas de posición cualquiera.

Desviación media: mide la variabilidad absoluta promedio de un conjunto de datos.


Su valor siempre es menor que el de la desviación estándar.

Capítulo 5. Medidas de Dispersión.

Sus fórmulas son las siguientes:


Datos simples Datos agrupados
σ xi − xത σ xi − xത ∙ fi
DM = DM =
n n
Varianza: mide la variabilidad cuadrática promedio de un conjunto de datos. Al
elevar al cuadrado cada distancia, logramos que todos los números sean positivos y,
al mismo tiempo, asignamos más peso a las desviaciones más grandes (desviación
es la distancia entre la media y un valor).

Este indicador presenta un inconveniente y es que para la varianza las unidades son
el cuadrado de las unidades de los datos; por ejemplo, “dólares al cuadrado”. Estas
unidades no son muy claras o fáciles de interpretar, por ello surgió un indicador
denominado desviación típica o estándar que resuelve este problema. Su formula
para la población y para la muestra, tanto para datos simples, como para datos
agrupados se presenta a continuación.

35
10/2/2022

Capítulo 5. Medidas de Dispersión.


Datos simples Datos agrupados
σ xi − μ 2 σ xi − μ 2 ∙ fi
Población σ2 = σ2 =
N N
σ x 2 σ xത 2 ∙ fi
i−xത x i −
Muestra S2 = S2 =
n−1 n−1
Desviación típica o estándar: mide la variabilidad promedio de un conjunto de datos. Es la
raíz cuadrada de la varianza y se calcula con el propósito de que los valores que fueron
elevados al cuadrado retornen a su unidad original, resolviendo así el inconveniente de la
varianza. Su variedad de formulas son:
Datos simples Datos agrupados Varianza conocida

σ 𝐱𝐢 − 𝛍 𝟐 σ 𝐱𝐢 − 𝛍 𝟐 ∙ 𝐟𝐢
Población 𝛔= 𝛔= 𝛔 = 𝛔𝟐
𝐍 𝐍

σ 𝐱 𝐢 − 𝐱ത 𝟐 σ 𝐱 𝐢 − 𝐱ത 𝟐 ∙ 𝐟𝐢
Muestra 𝐒= 𝐒= 𝐒= 𝑺𝟐
𝐧−𝟏 𝐧−𝟏

Capítulo 5. Medidas de Dispersión.


Coeficiente de variación: es una medida relativa de dispersión que relaciona la desviación
estándar y la media, expresando la desviación estándar como porcentaje de la media. La
unidad de medida es “porcentaje”, en lugar de las unidades de medida de los datos
originales, lo que permite comparar fácilmente la dispersión de dos o más conjuntos de
datos sin importar sus unidades de medida. Sus formulas son:

Población Muestra
σ S
CV = ∗ 100 CV = ∗ 100
μ xത
Interpretación del coeficiente.
VALOR DEL CV VARIABILIDAD ESTABILIDAD
Nota: no hay criterios universales para
decir que un valor del CV es “bajo” o CV = 0% Nula Muy alta
“moderado” o “alto”, no obstante, el Mtro. 0% < CV ≤ 20% Baja Alta
Alberto Estrella (exdirector de la Cátedra 20% < CV ≤ 60% Moderada Moderada
de Estadística Especializada de la 60% < CV ≤ 90% Alta Baja
UASD), nos proporciona la siguiente guía.
CV > 90% Muy alta Nula

36
10/2/2022

Capítulo 5. Medidas de Dispersión.


EJERCICIO DE MEDIDAS DE DISPERSIÓN PARA DATOS SIMPLES :
Los años de antigüedad de una muestra de vehículos SUV compactos, en el
Residencial Granados, en Bonao, Marzo, 2020, se presentan a continuación:
Xi: 5 7 6 3 4 7 3.
Rango:
R = Xmax – Xmin= 7 – 3 = 4 años.
La diferencia de años entre el SUV compacto más antiguo y el más reciente en el
Residencial Granados, en Bonao, es de 4 años.

Rango interfractil (Q1 y Q3):


Ordenar: 3 3 4 5 6 7 7
𝑘(𝑛 + 1) 1(7 + 1) 8 3(7 + 1) 24
𝑃𝑄𝑘 = ; 𝑃𝑄1 = = = 2 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛. 𝑃𝑄3 = = = 6 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
4 4 4 4 4
Q1 = 3 años. Q3 = 7 años.
La distancia que hay entre el cuartil 3 y el
RI = Q3 – Q1 = 7 – 3 = 4 años.
cuartil 1 es de 4 años de antigüedad.

Capítulo 5. Medidas de Dispersión.

Desviación media: |5 - 5| = 0
|7 - 5| = 2
σ xi 5 + 7 + 6 + 3 + 4 + 7 + 3 35
xത = = = = 5 años. |6 - 5| = 1
n 7 7 |3 - 5| = 2
σ xi − xത 10 |4 - 5| = 1
DM = = = 1.43 años. |7 - 5| = 2
n 7
|3 - 5| = 2
La variabilidad absoluta promedio de los años de antigüedad de ෍ xi − xത = 10
los SUV compactos se estima en 1.43 años de antigüedad.

(5 - 5)^2 = 0
Varianza: (7 - 5)^2 = 4
(6 - 5)^2 = 1
σ xi − xത 2
18 18 (3 - 5)^2 = 4
S2 = = = = 3 años2 .
n−1 7−1 6 (4 - 5)^2 = 1
(7 - 5)^2 = 4
La variabilidad cuadrática promedio de los años de antigüedad (3 - 5)^2 = 4
de los SUV compactos se estima en 3 años de antigüedad 2. ෍ 𝑥𝑖 − 𝑥 ҧ 2 = 18

37
10/2/2022

Capítulo 5. Medidas de Dispersión.

Desviación estándar:
S= S2 = 3 años 2 = 1.73 años. S2 = 3 años 2.

La variabilidad promedio de los años de antigüedad de los SUV compactos se estima


en 1.73 años de antigüedad.

Coeficiente de variación:
S 1.73 xത = 5 años.
CV = ∗ 100 = ∗ 100 = 34.6 %
xത 5

El tamaño relativo de la variabilidad promedio de los años de antigüedad de los SUV


compactos con relación a la media se estima en 34.6%. Este valor indica que la
variabilidad de los datos, así como su estabilidad, se consideran moderada.

Capítulo 5. Medidas de Dispersión.


EJERCICIO DE MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS:

Los siguientes datos corresponden al precio por libra de un producto en una muestra
de supermercados del gran santo domingo, en Marzo, 2020:
Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740

Rango:
R = LS (ultima clase) – LI (primera clase) = 20 – 10 = 10 pesos.
La diferencia en pesos entre el precio más caro y el precio más barato del producto,
en la muestra de supermercado del gran santo domingo es de 10 pesos.

38
10/2/2022

Capítulo 5. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740

Rango interfractil (Q1 y Q3):


k(n) 1(20) 20 3(20) 60
PQk = ; PQ1 = = = 5 posición. PQ3 = = = 15 posición.
4 4 4 4 4
Posición − Fi "menos de" anterior 15 − 6
Q1 = Li + ∗ IC Q3 = 14 + ∗ 2 = 16 pesos.
fi 9
5−1
Q1 = 12 + ∗ 2 = 13.6 pesos.
5
La distancia que hay entre el cuartil
RI = Q3 – Q1 = 16 – 13.6 = 2.4 pesos.
3 y el cuartil 1 es de 2.4 pesos.

Capítulo 5. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740

σ xi ∙ fi 298
xത = = = 14.9 𝑝𝑒𝑠𝑜𝑠.
n 20
Desviación media:
σ xi − xത ∙ fi 26.8
DM = = = 1.34 pesos.
n 20

La variabilidad absoluta promedio del precio del producto en la muestra de


supermercados de gran santo domingo se estima en 1.34 pesos.

39
10/2/2022

Capítulo 5. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
σ x i ∙ fi 298
xത = = = 14.9 𝑝𝑒𝑠𝑜𝑠.
n 20

Varianza:
σ xi − xത 2 ∙ fi 67.80 67.80
S2 = = = = 3.57 pesos2 .
n−1 20 − 1 19
La variabilidad cuadrática promedio del precio del producto en la muestra de
supermercados de gran santo domingo se estima en 3.57 pesos2.

Capítulo 5. Medidas de Dispersión.

Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
S2 = 3.57 pesos2.

Desviación estándar:
S= S2 = 3.57 pesos 2 = 1.89 pesos.

La variabilidad promedio del precio del producto en la muestra de supermercados de


gran santo domingo se estima en 1.89 pesos.

40
10/2/2022

Capítulo 5. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
xത = 14.9 𝑝𝑒𝑠𝑜𝑠.

S = 1.89 pesos.
Coeficiente de variación:
S 1.89
CV = ∗ 100 = ∗ 100 = 12.68 %
xത 14.9
El tamaño relativo de la variabilidad promedio del precio del producto con relación a
la media se estima en 12.68%. Este valor indica que la variabilidad de los datos es
baja y la estabilidad es alta.

Capítulo 6. Introducción a la Teoría de Probabilidad

PROBABILIDAD.

La probabilidad y la estadística están relacionadas en una forma


importante. La probabilidad se emplea como una herramienta para evaluar
la confiabilidad de las conclusiones acerca de la población, cuando sólo se
tiene información muestral y se define como una medida numérica de la
posibilidad de que un evento ocurra. Se denota con la letra “P”. Los valores
de probabilidad siempre se asignan en una escala de 0 a 1 inclusive.

La probabilidad la vamos a utilizar en dos formas:


• Cuando la población es desconocida y sólo se dispone de una muestra
de esa población, la probabilidad se usa para hacer enunciados acerca
de las características de la población, es decir, hacer inferencias
estadísticas.
• Cuando la población es conocida, se usa la probabilidad para describir
la posibilidad de observar un resultado muestral en particular.

41
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad

Una probabilidad cercana a 0 indica que es poco probable que un evento


ocurra, una probabilidad cercana a 1 indica que es casi seguro que un
evento se produzca. Otras probabilidades entre 0 y 1 representan grados de
posibilidad de que un evento ocurra. Por ejemplo, si se considera el evento
“lluvia para mañana”, se entiende que cuando el informe del clima indica
“una probabilidad de lluvia de 0.05”, significa que la posibilidad de lluvia es
muy baja. Sin embargo, si se indica una probabilidad de lluvia de 0.90, es
muy probable que llueva. Un valor de 0.50 indica que la probabilidad de que
llueva, es igual a la probabilidad de que no llueva.

En probabilidad se analizan experimentos estadísticos, que se definen


como cualquier proceso que genere un conjunto de resultados o datos. En
estadística nos interesan, en particular, las observaciones que se obtienen
al repetir varias veces un experimento. En cada repetición ocurre uno y sólo
uno de los resultados posibles del experimento. Un ejemplo simple de
experimento estadístico es el lanzamiento de una moneda al aire.

Capítulo 6. Introducción a la Teoría de Probabilidad

En tal experimento sólo hay dos resultados posibles: cara o cruz. Al


conjunto de todos los posibles resultados de un experimento estadístico se
le llama espacio muestral y se representa con el símbolo S. A cada
resultado en un espacio muestral se le llama punto muestral o evento
simple y se define como el resultado que se observa en una sola repetición
del experimento.

En cualquier experimento dado, podríamos estar interesados en la


ocurrencia de ciertos eventos, más que en la ocurrencia de un elemento
específico del espacio muestral. Un evento se define como un subconjunto
del espacio muestral, que puede incluir todo el espacio muestral S, o no
contener ningún elemento (conjunto vacío “φ”). Se denotan con las tres
primeras letras del abecedario en mayúscula. Considere el experimento de
lanzar un dado y observar la cara superior: S = {1, 2, 3, 4, 5, 6} ; un evento
simple es el 1, otro es el 2, y así sucesivamente. Si se define el evento A
como observar un numero par, A = {2, 4, 6}

42
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad

Asignación de probabilidades.
Los requisitos básicos son: cada probabilidad debe estar entre 0 y
1 inclusive, y la suma de las probabilidades de todos los eventos
simples en S debe ser igual a 1. Los tres métodos comunes son:
1. Método de la frecuencias relativas (requiere repetir el experimento
un gran número de veces): se realiza un experimento un gran
número de veces y se cuenta el número de veces que ocurre el
evento A. Entonces, P(A) se aproxima de la siguiente manera:
número de veces que ocurrió A fA
𝑃 𝐴 = =
número de veces que se repitió el experimento n

2. Método clásico de la probabilidad (requiere resultados igualmente


probables): si un procedimiento tiene N resultados posibles que
son igualmente probables, y si exactamente n de estos
resultados corresponden al evento A, entonces:
número de resultados que pertenecen al evento A
P A =
número de resultados posibles
nA
=
N

Capítulo 6. Introducción a la Teoría de Probabilidad

Ejemplo de los dos métodos anteriores:

43
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad

3) Probabilidades subjetivas: es más apropiado cuando no se puede asumir en


forma realista que los resultados del experimento son igualmente probables y
cuando se dispone de pocos datos relevantes. Cuando el método subjetivo se
utiliza para asignar probabilidades a los resultados del experimento, es posible
usar cualquier información disponible, como nuestra experiencia o intuición.
Debido a que la probabilidad subjetiva expresa el grado de creencia de una
persona, es personal. Utilizando este método, se puede esperar que distintas
personas asignen probabilidades diferentes al mismo resultado experimental. El
método subjetivo exige un cuidado especial para asegurar que los dos requisitos
básicos de asignación de probabilidad se cumplan. Ejemplo:

Capítulo 6. Introducción a la Teoría de Probabilidad


Apuntes de suma importancia.
• La definición clásica de probabilidad fue formulada por Pierre-Simon
Laplace.
• La probabilidad de cualquier evento es igual a la suma de las probabilidades
de los eventos simples o puntos muestrales contenidos en él.
• El complemento del evento A, expresado por Ac, consiste en todos los
resultados en los cuales el evento A no ocurre. P(Ac) = 1 – P(A).
• Las aproximaciones por frecuencia relativa tienden a mejorar con más
observaciones, esto se debe a la ley de los grandes números, que establece
que cuando un procedimiento se repite una y otra vez, la probabilidad por
frecuencia relativa de un evento tiende a acercarse a la probabilidad real.
• Un evento aleatorio es un subconjunto del espacio muestral de un
experimento aleatorio, que es un experimento cuyo resultado es incierto.
• Un experimento determinístico es aquel que se puede predecir con exactitud.
Ej: sabemos sin ningún margen de error que si una persona ingiere un litro
de mercurio morirá o si dejamos caer un piedra por la ventana, sabemos que
en pocos segundos caerá al suelo.

44
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad


Diagrama del árbol.
Algunos experimentos se pueden generar en etapas
y el espacio muestral se puede obtener por medio
de este diagrama. Cada nivel de ramificación
sucesivo del árbol corresponde a un paso requerido
para generar el resultado final. Ejemplo: lance al
aire dos monedas imparciales y registre el resultado.
Se nota rápidamente que S = {HH, HT, TH, TT}.

Diagrama de Venn.
A veces es útil visualizar un experimento usando
este diagrama, en el cual, la caja exterior
representa el espacio muestral S, que contiene
todos los eventos simples: S = {1,2,3,4,5,6,7}.
Como un evento es un conjunto de uno o más
eventos simples, estos están representados por
un circulo con la letra que identifica el evento.
A={1,2,4,7}, B={1,2,3,6} y C={1,3,4,5}.

Capítulo 6. Introducción a la Teoría de Probabilidad

A continuación se presentan varias normas importantes que con frecuencia


simplifican el cálculo de las probabilidades.

Regla de la adición.
Es útil cuando interesa conocer la probabilidad de que ocurra por lo menos
uno de dos eventos. Es decir, con los eventos A y B nos interesa conocer la
probabilidad de que ocurra el evento A o el evento B, o ambos. Antes de
presentar la regla de la adición, debemos estudiar dos conceptos
relacionados con la combinación de eventos: la unión de eventos y la
intersección de eventos.

Dados dos eventos A y B, la unión de A y B es el evento que contiene


todos los puntos de la muestra que pertenecen a A o B o ambos. La unión
se denota mediante A∪B. No obstante, la intersección de A y B es el
evento que contiene los puntos de la muestra que pertenecen tanto a A
como a B. La intersección se denota por medio de A∩B.

45
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad

A = {1,2,4,7} ; Ac = {3,5,6}
B = {1,2,3,6} ; Bc = {4,5,7}
C = {1,3,4,5} ; Cc = {2,6,7}
A∪B = {1,2,3,4,6,7}
A∪C = {1,2,3,4,5,7}
B∪C = {1,2,3,4,5,6}
A∩B = {1,2} ; A∩C = {1,4} ; B∩C = {1,3}

Capítulo 6. Introducción a la Teoría de Probabilidad

Para encontrar la P(A∪B), que es lo mismo que P(A o B), sume el número de
formas en que puede ocurrir el evento A y el número de formas en que
puede ocurrir el evento B, pero hágalo de tal manera que cada resultado se
contabilice sólo una vez. Entonces, la P(A∪B) es igual a esa suma, dividida
por el número total de resultados en el espacio muestral.
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)

La regla de la suma se simplifica cuando los eventos son mutuamente


excluyentes o disjuntos, es decir, los eventos A y B son mutuamente
excluyentes si no pueden ocurrir al mismo tiempo, por tanto, como no van a
tener puntos muestrales en común, la P(A∩B), que es lo mismo que P(A y B),
es igual a cero y la regla de la suma quedaría como: 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵

Cuando dos eventos pueden ocurrir al mismo tiempo se dicen que son no
mutuamente excluyentes, es decir, los contrario a lo planteado más arriba.

46
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad


Ejemplo 1: se realiza un experimento de lanzar un dado normal al aire y observar la
cara superior. Cuál es la probabilidad: a) de obtener un 3 y b) de no obtener un 3.
S={1,2,3,4,5,6} ; si se define el evento A como “obtener un 3”, entonces A={3} y
Ac={1,2,4,5,6}. Como los resultados de este experimento son igualmente probables:
nA 1
𝑷 𝑨 = = = 𝟎. 𝟏𝟔𝟔𝟕 ; 𝑷 𝑨𝒄 = 1 − 𝑃 𝐴 = 1 − 0.1667 = 𝟎. 𝟖𝟑𝟑𝟑
N 6
Si se define el evento B como “obtener un número par” y C como “obtener un número
mayor que tres”, entonces B={2,4,6} y C={4,5,6} ; B∪C = {2,4,5,6} ; B∩C = {4,6}
¿Cual es la probabilidad de obtener un número par y mayor que tres?
n B∩C 2 1 1 1 2 1
𝑷 𝑩∩𝑪 = = = = 𝟎. 𝟑𝟑𝟑𝟑 ; 𝑷 𝑩 ∩ 𝑪 = + = = = 𝟎. 𝟑𝟑𝟑𝟑
N 6 3 6 6 6 3
¿Cual es la probabilidad de obtener un número par o mayor que tres?
3 3 2 4 2
𝑷 𝑩 ∪ 𝑪 = 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐵 ∩ 𝐶 = + − = = = 𝟎. 𝟔𝟔𝟔𝟕
6 6 6 6 3
n B∪C 4 2 1 1 1 1 4 2
𝑷 𝑩∪𝑪 = = = = 𝟎. 𝟔𝟔𝟔𝟕 ; 𝑷 𝑩 ∪ 𝑪 = + + + = = = 𝟎. 𝟔𝟔𝟔𝟕
N 6 3 6 6 6 6 6 3

Capítulo 6. Introducción a la Teoría de Probabilidad


Ejemplo 2: Tabla 4- Resultados de las pruebas de drogas a solicitantes de empleo.

Si un sujeto se selecciona al azar de entre los 555 sujetos que fueron sometidos a la
prueba de drogas, encuentre la probabilidad de seleccionar un sujeto con resultado
positivo en la prueba o que use drogas.

A = “resultado positivo en la prueba”. B = “El sujeto usa drogas”.


70 50 45 75 5
𝑷 𝑨𝒐𝑩 = 𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴𝑦𝐵 = + − = = = 𝟎. 𝟏𝟑𝟓𝟏
555 555 555 555 37

47
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad


Probabilidad condicional.
La probabilidad de un evento a menudo es influida por el hecho de si otro evento
relacionado ha ocurrido ya. Suponga que se tiene un evento A con probabilidad P(A).
Si se obtiene nueva información y se aprende que un evento relacionado, denotado
por B, ya ocurrió, esta información se puede aprovechar mediante el cálculo de una
nueva probabilidad del evento A, a la cual se denomina probabilidad condicional, y se
escribe P(A | B). La notación se utiliza para indicar que se está considerando la
probabilidad del evento A dada la condición de que B ha ocurrido. De ahí que la
notación P(A | B) se lea “la probabilidad de A dado B”.

Ejemplo 3: considere la situación del estado de ascensos de oficiales hombres y


mujeres de una fuerza policial metropolitana en el este de Estados Unidos. La policía
local está formada por 1,200 oficiales, 960 hombres y 240 mujeres. Durante los
últimos dos años fueron ascendidos 324 oficiales de policía. Después de revisar el
registro de ascensos, un comité de mujeres policía planteó un caso de discriminación
sobre la base de que 288 oficiales hombres fueron promovidos, en comparación con
sólo 36 mujeres. Enseguida se mostrará cómo se utiliza la probabilidad condicional
para analizar la acusación de discriminación.

Capítulo 6. Introducción a la Teoría de Probabilidad


288
𝑃 𝑀∩𝐴 = = 𝟎. 𝟐𝟒
1200
672
𝑃 𝑀 ∩ 𝐴𝑐 = = 𝟎. 𝟓𝟔
1200
36
𝑃 𝑊∩𝐴 = = 0.03
1200
204
𝑃 𝑊 ∩ 𝐴𝑐 = = 𝟎. 𝟏𝟕
1200

48
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad


Debido a que cada uno de estos valores da la probabilidad de la intersección de dos
eventos, las probabilidades se llaman probabilidades conjuntas. Los valores en los
bordes de esta tabla proporcionan las probabilidades de cada caso por separado. Es
decir, P(M)=0.80; P(W)=0.20; P(A)=0.27, y P(Ac)=0.73. Estos datos se refieren a las
probabilidades marginales debido a su ubicación en los bordes de la tabla de
probabilidad conjunta. Observe que las probabilidades marginales se encuentran al
sumar las probabilidades conjuntas en la fila o columna correspondiente de la tabla.
Por ejemplo, la probabilidad marginal de ser promovido es P(A) = P(M∩A) + P(W∩A) = 0.24 +
0.03 = 0.27. Cabe destacar que P (M∩A) es lo mismo que P (A∩M).

Para determinar si hay discriminación, se comparará la probabilidad de que un oficial


sea promovido dado que es hombre, con la probabilidad de que un oficial sea
promovido dado que es mujer. La probabilidad condicional se calcula como la división
de la probabilidad conjunta entre la probabilidad marginal. 𝑃 𝐴|𝐵 = 𝑃 𝐴 ∩ 𝐵 Τ𝑃(𝐵)

𝑃(𝐴 ∩ 𝑀) 0.24 𝑃(𝐴 ∩ 𝑊) 0.03


𝑷 𝑨|𝑴 = = = 𝟎. 𝟑𝟎 ; 𝑷 𝑨|𝑾 = = = 𝟎. 𝟏𝟓
P(M) 0.80 P(W) 0.20

Capítulo 6. Introducción a la Teoría de Probabilidad

Otro ejemplo: sea C el evento de tener cáncer y A el evento de dar positivo en la prueba,
determine:

• La probabilidad de tener cáncer dado un resultado positivo en la prueba.


P (C | A) = P(C ∩ A) / P (A) = (8 / 1000) ÷ (107 / 1000) = 0.008 ÷ 0.107 = 0.0748
• La probabilidad de no tener cáncer dado un resultado positivo en la prueba.
P (CC | A) = P(CC ∩ A) / P (A) = (99 / 1000) ÷ (107 / 1000) = 0.099 ÷ 0.107 = 0.9252
• La probabilidad de un resultado positivo en la prueba dado que el cáncer está presente.
P (A | C) = P(A ∩ C) / P (C) = (8 / 1000) ÷ (10 / 1000) = 0.008 ÷ 0.01 = 0.8
• La probabilidad de un resultado positivo en la prueba dado que el cáncer no está presente.
P (A | CC) = P(A∩ CC) / P (CC) = (99 / 1000) ÷ (990 / 1000) = 0.099 ÷ 0.99 = 0.1

49
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad


Eventos independientes.
En el ejemplo anterior, P(A) = 0.27; P(A | M) = 0.30, y P(A | W) = 0.15. En particular,
debido a que P(A | M) ≠P(A), diríamos que los eventos A y M son dependientes. Es
decir, la probabilidad del evento A (promoción) se ve alterada o afectada por conocer
que el evento M ocurrió (el policía es hombre). Asimismo, como la P(A | W)≠P(A),
diríamos que A y W son eventos dependientes. No obstante, si la probabilidad del
evento A no cambia por la existencia del evento M “es decir, P(A | M) = P(A)”
diríamos que A y M son eventos independientes.

Regla de la multiplicación.
Mientras que la regla de la suma (ley aditiva) de la probabilidad se utiliza para
calcular la probabilidad de la unión de dos eventos, la regla de la multiplicación se
utiliza para calcular la probabilidad de la intersección de dos eventos. Esta última
regla se basa en la definición de la probabilidad condicional. Las formulas son:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∙ 𝑃 𝐵|𝐴
o
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 ∙ 𝑃 𝐴|𝐵

Capítulo 6. Introducción a la Teoría de Probabilidad

La regla de la multiplicación se simplifica cuando los eventos son independientes,


es decir, los eventos A y B son independientes si P(A | B) = P(A) o P(B | A) = P(B),
por lo tanto, al sustituir estas equivalencias en la formula anterior, la regla de la
multiplicación quedaría como:
𝑃 𝐴∩𝐵 = 𝑃 𝐴 ∙𝑃 𝐵
o
𝑃 𝐴∩𝐵 = 𝑃 𝐵 ∙𝑃 𝐴

Ejemplo 4: un envase contiene 6 bolas azules y 9 bolas verdes. Usted cierra los
ojos y del envase escoge dos bolas una por una y anota sus colores: a) ¿Cuál es
la probabilidad de que la primera bola sea azul y la segunda sea verde? ;
b) ¿Cuál es la probabilidad de que ambas bolas sean verdes?

𝑃 𝐴 ∩ 𝑉 = 𝑃 𝐴 ∙ 𝑃 𝑉|𝐴 𝑃 𝑉 ∩ 𝑉 = 𝑃 𝑉 ∙ 𝑃 𝑉|𝑉
6 9 9 9 8 12
𝑃 𝐴∩𝑉 = ∗ = = 0.2571 𝑃 𝑉∩𝑉 = ∗ = = 0.3429
15 14 35 15 14 35

50
10/2/2022

Capítulo 6. Introducción a la Teoría de Probabilidad

Ejemplo 5: considere la situación de un gerente de estaciones de servicio que sabe, a


partir de su experiencia, que 80% de los clientes usa tarjeta de crédito cuando
compra gasolina. ¿Cuál es la probabilidad de que los siguientes dos clientes que
compren gasolina usen tarjeta de crédito?, Si:
A = el evento de que el primer cliente use tarjeta de crédito.
B = el evento de que el segundo cliente use tarjeta de crédito.
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 ∙ 𝑃 𝐵 = 0.80 ∗ 0.80 = 0.64

Ejemplo 6: con los datos proporcionados complete el siguiente cuadro a sabiendas


que los eventos, o son mutuamente excluyentes o independientes, no ambos.
P(A) P(B) Condiciones para eventos A y B P (A ∩ B) P (A ∪ B) P (A | B)
0.30 0.40 Mutuamente excluyentes 0 0.70 0
0.30 0.40 Independientes 0.12 0.58 0.30
0.10 0.50 Mutuamente excluyentes 0 0.60 0
0.20 0.50 Independientes 0.10 0.60 0.20

REFERENCIAS BIBLIOGRÁFICAS
 Anderson, D., Sweeney, D., y Williams, T. (2012). Estadística para negocios y
economía. 11 ed. México D.F. México.
 Custodio, C. (2007). Estadística Básica. 4 ed. Santo Domingo, R.D.
 Familia, C. (2016). Introducción a la Estadística Elemental Aplicada (Tomo I). Santo
Domingo, R.D.
 Levin, R. y Rubin, D. (2010). Estadística para Administración y Economía. 7ed. Ciudad
de México, México.
 Lind, D., Marchal, W., y Wathen, S. (2012). Estadística Aplicada a los Negocios y la
Economía. 15 ed. Ciudad de México, México.
 Mendenhall, W., Beaver, R., y Beaver, B. (2010). Introducción a la Probabilidad y
Estadística. 13 ed. Ciudad de México, México.
 Triola, M. (2018). Estadística. 12 ed. Ciudad de México, México.

51

También podría gustarte