Está en la página 1de 30

ESTADÍSTICA APLICADA

23 de noviembre de 2022.
1. RESUMEN Y GRÁFICAS DE DATOS

ESTADÍSTICA
Ciencia que se encarga de recoger, organizar, presentar, analizar e interpretar datos con el fin de facilitar la toma de
decisiones más eficaz (Lind, Marchal & Wathen, 2012).

Colección de métodos para planear experimentos, obtener datos, y después organizar, resumir, presentar, analizar,
interpretar y llegar a conclusiones basadas en los datos (Triola, M., 2004).

ESTADÍSTICA INFERENCIAL
ESTADÍSTICA DESCRIPTIVA Métodos que se emplean para generalizar o
Métodos para organizar, resumir y presentar deducir el comportamiento de una población
datos de manera informativa (Lind, Marchal & con base en la información de una muestra de
Wathen, 2012). ella (Lind, Marchal & Wathen, 2012).

Ej. Censo general de población y vivienda, Ej. los llamados “conteos” rápidos en las
jornadas electorales.
1.1 DISTRIBUCIÓN DE FRECUENCIAS

Es la presentación organizada de datos que


muestra el número de observaciones del
conjunto de datos que entra en cada una de las
clases de un conjunto de clases mutuamente
excluyentes y colectivamente exhaustivas.

Clase: Cada una de las modalidades nominales


o intervalos numéricos admitidos por una
variable
Construcción de una distribución de frecuencias

La manera de construir las tablas de distribuciones de frecuencias varía según


sea el carácter de la variable a estudiar.

TIPO DE VARIABLE TIPO DE PREGUNTA RESPUESTAS

Nominal ¿Ha participado en algún sorteo? 1 Si 2 No

□ Nunca
Cualitativa
Ordinal ¿Ha viajado en el metro? □ Algunas veces

□ Siempre

Discreta ¿Cuántos hermanos tiene? ___ Número


Cuantitativa
Continua ¿Cuánto pesa? ___ Kilogramos
Distribución de frecuencias para variables cuantitativas continuas

Intervalo de clase. Elemento en la tabla que permite condensar un conjunto


de datos en mayor grado, con el objetivo de hacer un resumen de ellos.

Está definido por dos valores:

• Límite inferior de la clase (LIC)


• Límite superior de la clase (LSC)
Número de clases

1. Entre 5 y 20 clases
2. Fórmula de Sturges: 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔 = 𝟏 + 𝟑. 𝟑 𝒍𝒐𝒈 𝒏
3. 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔 = 𝒏
4. 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔 = 𝒍𝒐𝒈𝟐 (𝒏 + 𝟏)

𝒏 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠


Ejemplo
Una empresa desea evaluar la rapidez en el pago de facturas de sus clientes. De los
registros de ventas a crédito de los 6 últimos meses del año pasado, se
escoge al azar a 50 clientes y se registra el tiempo (en días) entre la entrega del
producto y su pago. Los datos recogidos son:

Número total de datos = 50

Con la fórmula de Sturges:

Número de clases = 𝟏 + 𝟑. 𝟑 𝒍𝒐𝒈 𝒏 = 1 + 3.3 𝑙𝑜𝑔 50 = 6.60 ≈ 7

Con la fórmula:

Número de clases = 𝒏 = 50 = 7.07 ≈ 7

Para este tamaño de muestra es aceptable tener 7 clases


Amplitud, tamaño o longitud del intervalo de clase (𝒘)

𝒅𝒂𝒕𝒐 𝒎𝒂𝒚𝒐𝒓 − 𝒅𝒂𝒕𝒐 𝒎𝒆𝒏𝒐𝒓


𝒘=
𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔

Si el valor de 𝒘, no es un número entero, se redondea a un valor más


conveniente.

48 − 15
𝑤= = 4.714 ≈ 𝟓
7
Límites de clase

El límite inferior del primer intervalo de clase puede ser igual al dato con el valor
mínimo o ligeramente menor.

Límite inferior de clase (𝐿𝐼𝐶) del primer intervalo de


clase:
𝐿𝐼𝐶 = 15

Límite superior de clase (𝐿𝑆𝐶) del primer intervalo


de clase:

𝐿𝑆𝐶 = 𝐿𝐼𝐶 + 𝑤 = 15 + 5 = 20

Y así sucesivamente para el resto de intervalos.


Marca de clase

Es el punto medio del intervalo de clase.

𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟


𝑚𝑖 =
2
Frecuencia absoluta

Es el número de veces que se


repite cada uno de los valores de
una variable.

La suma de todas las frecuencias


absolutas representa el total de
datos de la muestra.
Frecuencia absoluta acumulada

Número resultante de sumar la frecuencia absoluta de la clase que se está calculando


con las frecuencias de las clases que la anteceden.
Frecuencia relativa

Es el cociente entre la frecuencia absoluta del intervalo y el número total de datos.

Si a este cociente se le multiplica por 100 se obtiene una frecuencia relativa para
cada clase expresada como porcentaje.
Frecuencia relativa acumulada

Es igual a la frecuencia relativa del intervalo que se está calculando más la frecuencia
relativa acumulada de todos los intervalos anteriores.

Si esta frecuencia se multiplica por 100 se obtiene un porcentaje denominado frecuencia


acumulada relativa porcentual.
De la tabla se tiene las siguientes interpretaciones:

Un total de 13 clientes demoró en pagar sus facturas entre 25 y menos de 30 días.


El 10 % de los clientes demoró en pagar sus facturas entre 35 y menos de 40 días.
Un total de 21 clientes demoró en pagar sus facturas menos de 25 días.
El 98 % de los clientes demoró en pagar sus facturas menos de 45 días.
Distribución de frecuencias para variables cuantitativas discretas

Sigue los mismos lineamientos establecidos para una variable continua,


excepto que no existen intervalos ni marcas de clase.
1.2 HISTOGRAMAS
Gráficos formados por rectángulos verticales construidos sobre una línea horizontal
delimitada por los intervalos de la variable mostrada.

Los intervalos corresponden a los de una tabla de distribución de frecuencias.

El eje vertical corresponde a las frecuencias de la clase (absoluta, relativa, acumulada o


acumulada porcentual).
Simetría. Las observaciones están distribuidas de
manera uniforme a un lado y a otro del punto medio
del histograma.

Sesgo. Las observaciones no están distribuidas


simétricamente en ninguno de los lados de la mitad
(con las estaturas y los pesos de las personas se
generan histogramas aproximadamente simétricos)

Distribución sesgada positivamente tiene una cola que


se extiende hacia la derecha (precios de las viviendas:
algunas casas costosas crean el sesgo de la cola hacia
la derecha).

Distribución sesgada negativamente tiene una cola


que se extiende hacia la izquierda (calificaciones de
exámenes: no hay calificaciones superiores a 100%, la
mayoría es superior a 70%, y sólo algunas son
realmente bajas).
1.3 GRÁFICAS ESTADÍSTICAS

Gráfica circular (diagrama circular, gráfica de pastel o diagrama de sectores)

Sirve para representar variables cualitativas o discretas.

Se basa en la subdivisión de un círculo en sectores que corresponden a la frecuencia


relativa de las clases.

La suma de las proporciones no deben exceder al 100%.

Se utiliza para representar la proporción de elementos de cada uno de los


valores de la variable.
Polígono de frecuencias. Línea que une los puntos medios de todas las barras
de un histograma.

Se utiliza para representar gráficamente distribuciones tanto de frecuencias absolutas


como de frecuencias relativas.

Las frecuencias están en el eje


vertical.

Los valores de la variable en el eje


horizontal.

Se agregan dos clases, una en cada


extremo de la escala de valores
observados. Éstas contienen cero
observaciones, pero permiten que
el polígono llegue al eje horizontal
en ambos extremos de la
distribución.
2. ESTADÍSTICOS PARA DESCRIBIR, EXPLORAR Y
COMPARAR DATOS

2.1 MEDIDAS DE TENDENCIA CENTRAL

Medida de tendencia central. Medida que indica el valor que debe


esperarse para un dato típico o situado en el centro.

Las principales medidas de tendencia central son:

• Media aritmética

• Mediana

• Moda
𝒙)
Media, media aritmética o promedio (ഥ

Cuando los 𝒏 datos observados han sido agrupados y organizados en una tabla
de frecuencia, la media aritmética se calcula con la siguiente fórmula:

𝒌
𝒙𝟏 𝒇𝟏 + 𝒙𝟐 𝒇𝟐 + ⋯ + 𝒙𝒌 𝒇𝒌 𝟏
ഥ=
𝑿 = ෍ 𝒙𝒊 𝒇𝒊
𝒏 𝒏
𝒊=𝟏

Donde:

𝑘 = es el número de clases que tiene la tabla


𝑥𝑖 = valor de 𝑥 en la clase 𝑖 de la tabla
𝑓𝑖 = frecuencia absoluta simple de la clase 𝑖
Ejemplo

Un total de 40 gimnastas fueron seleccionadas


para que integren la selección estatal. El técnico
del equipo midió sus estaturas en centímetros y
los agrupó por intervalos en una tabla de
frecuencia.
Sobre la base de las medidas, el técnico desea
conocer el promedio de estatura por gimnasta.

6
1 147.5 3 + 152.5 10 + 157.5 16 + 162.5 7 + 167.5 4
ഥ=
𝑿 ෍ 𝑥𝑖 𝑓𝑖 =
40 40
𝑖=1

6295
ഥ=
𝑿 = 157.375 ≈ 𝟏𝟓𝟕. 𝟑𝟖
40

La estatura promedio por gimnasta seleccionada para la selección estatal es 157.38 𝑐𝑚


Mediana
Es el elemento que está más al centro del conjunto de números. La mitad de
los elementos están por arriba de este punto y la otra mitad está por debajo.
Ejemplo:
A partir de los datos de las 40 gimnastas calcular la mediana.

Solución:

Se tiene 𝑛 = 40
Se determina la clase que contiene a la mediana ubicando la primera frecuencia
acumulada hasta llegar al elemento número 𝑛 + 1 ÷ 2

40 + 1
= 20.5 (promedio de los números 20 y 21)
2

Las observaciones 20 y 21 deben estar en la tercera clase, el


intervalo de 155, 160 .
Utilizando la ecuación para calcular la mediana

𝑛 + 1 Τ2 − 𝐹 + 1
𝑚= 𝑤 + 𝐿𝑚
𝑓𝑚

𝑛 = 40, 𝐹 = 13, 𝑓𝑚 = 16, 𝑤 = 5 𝑦 𝐿𝑚 = 155

20.5 − 13 + 1
𝒎= 5 + 155 = 𝟏𝟓𝟕. 𝟎𝟑 𝒄𝒎
16
Moda

Es el valor que más se repite dentro de un conjunto de datos.

• Cuando dos valores ocurren con la misma frecuencia y ésta es la más


alta, ambos valores son modas, por lo que el conjunto de datos es
bimodal.

• Cuando más de dos valores ocurren con la misma frecuencia y ésta es


la más alta, todos los valores son modas, por lo que el conjunto de
datos es multimodal.

• Cuando ningún valor se repite, se dice que no hay moda.


Moda de datos agrupados

Los datos están agrupados en una distribución de frecuencias


Se supone que la moda está localizada en la clase que tiene la mayor frecuencia

Para determinar un solo valor para la moda a partir de esta clase modal, se utiliza la siguiente ecuación

𝑑2 = frecuencia de la clase modal menos la


𝐿𝑀𝑜 = límite inferior de la clase modal
frecuencia de la clase inmediatamente
𝑑1 = frecuencia de la clase modal menos la mayor que ella
frecuencia de la clase que se encuentra 𝑤 = ancho del intervalo de la clase modal
inmediatamente menor que ella

Ejemplo

Utilizando la ecuación calcular la


moda del saldo de las cuentas de
cheques.
6
𝐿𝑀𝑜 = 155 𝑀0 = 155 + 5
𝑑1 = 16 − 10 = 6 6+9
𝑑2 = 16 − 7 = 9
𝑤=5 𝑴𝟎 = 𝟏𝟓𝟕
Cuando una distribución es simétrica, su media, mediana y moda son iguales.

De otra manera, la media y la mediana se cargan hacia los valores extremos,


la media más que la mediana.
2.2 MEDIDAS DE VARIACIÓN

• Indican la dispersión de los datos en la escala de medición de la


variable considerada.

• Responden a la pregunta: ¿dónde están diseminadas las puntuaciones


o los valores obtenidos?

• Son valores en una distribución y las medidas de la variabilidad son


intervalos que designan distancias o un número de unidades en la
escala de medición.

Las más utilizadas son la desviación estándar y varianza.


Varianza y desviación estándar de datos agrupados

Ejemplo

Se presenta la distribución de
frecuencias de las 40 gimnastas
seleccionadas para que integren la
selección estatal. Calcular varianza
y desviación estándar.

σ 𝑓 𝑥 − 𝑥ҧ 2
1 122.9648
𝒔𝟐 = = = 𝟐𝟖. 𝟕𝟗
𝑛−1 40 − 1

𝒔= 𝑠 2 = 𝟓. 𝟑𝟔 𝒄𝒎
ഥ = 𝟏𝟓𝟕. 𝟑𝟖 𝒄𝒎
𝑿

También podría gustarte