Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Descriptiva
Grupo: 511004_1
Licenciatura En Matemáticas
24/06/ 2023
Introducción
Las medidas de la estadística descriptiva son herramientas muy útiles para resumir y
entender un conjunto de datos. En el presente trabajo se resuelven una serie de ejercicios
sobre las medidas de tendencia central, medidas de posición y medidas de dispersión, que
nos van a permitir analizar, aplicar y fortalecer el conocimiento práctico de todo lo
relacionado con este tema.
Desarrollo
Donde:
R → Es el rango.
Ejemplo: Supongamos que tenemos una empresa que produce microchips para luego
venderlos a las principales marcas de computadoras. Esta empresa encarga a un
economista que realice un estudio sobre la evolución de las ventas (últimos 4 años) para,
posteriormente, ofrecer consejos que mejoren los resultados empresariales. Entre otras
muchas métricas, se pide que se calcule el rango de producción de microchips. A
continuación, se muestra la siguiente tabla de datos:
El mes que más microchips produjo la empresa (MÁXIMO) fue el mes 32 con 49.079
microchips producidos. Por su parte, el momento que menos microchips produjo tuvo lugar
en el mes 16 con 10.124 microchips producidos. Por tanto, el rango estadístico que es la
diferencia (49.079-10.124) se sitúa en 38.955.
También se puede calcular como la desviación típica al cuadrado. Dicho sea de paso,
entendemos como residuo a la diferencia entre el valor de una variable en un momento y el
valor medio de toda la variable.
Por ejemplo, si tuviésemos datos sobre los salarios de un conjunto de personas en euros, el
dato que arroja la varianza sería en euros cuadrados. Para que tenga sentido la
interpretación calcularíamos la desviación típica y pasaríamos el dato a euros.
Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno con
un salario diferente:
La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 +
1.700 + 1.300 + 1.800) /5) 1.500 euros.
Donde:
Sin embargo, al calcular el coeficiente de variación para ambas poblaciones, nos daríamos
cuenta que es justo, al contrario.
Elefantes: 400/5000=0,08
Ratones: 5/15=0,33
Si multiplicamos ambos datos por 100, tenemos que el coeficiente de variación para los
elefantes es de apenas un 8%, mientras que el de los ratones es de un 33%. Como
consecuencia de la diferencia entre las poblaciones y su peso medio, vemos que la
población con mayor dispersión no es la que tiene una mayor desviación típica.
b. medidas de posición
las medidas de posición son indicadores estadísticos que permiten resumir los datos en uno
solo, o dividir su distribución en intervalos del mismo tamaño. Las medidas de posición se
suelen dividir en dos grandes grupos: la de tendencia no central y las centrales.
Las medidas de posición no centrales: son los cuantiles. Estos realizan una serie de
divisiones iguales en la distribución ordenada de los datos. De esta forma, reflejan los
valores superiores, medios e inferiores.
Medias de posición central: Estas nos permiten resumir la distribución de los datos en un
solo valor central, alrededor del cual se sitúan; mientras que las segundas dividen la
distribución en partes iguales.
La media aritmética, geométrica o armónica: Son tres medidas centrales que nos
indican un promedio ponderado de los datos. La primera es la más utilizada y la más
conocida de las tres. La geométrica se aplica en series que muestran crecimientos
porcentuales. Por su parte, la armónica es útil en el análisis de inversiones en bolsa.
La mediana: En este caso, esta es la medida de posición central más reconocible.
Divide la distribución en dos partes iguales. De esta forma, expresa el valor mediano,
que no medio. Es muy útil en variables como los ingresos o salarios, a la vez que
está muy relacionada con la media y algunos de los cuantiles vistos.
La moda: Estamos ante una medida central de los valores más frecuentes. Por
tanto, la moda nos informa sobre aquellos que se repiten en más ocasiones. Esta
medida es muy útil en los estudios de mercado cuando medimos una impresión
sobre un producto con una escala Likert.
Siendo:
d. Regresión lineal
La regresión lineal es una técnica de análisis de datos que predice el valor de datos
desconocidos mediante el uso de otro valor de datos relacionado y conocido. Modela
matemáticamente la variable desconocida o dependiente y la variable conocida o
independiente como una ecuación lineal. Por ejemplo, supongamos que tiene datos sobre
sus gastos e ingresos del año pasado. Las técnicas de regresión lineal analizan estos datos
y determinan que tus gastos son la mitad de tus ingresos. Luego calculan un gasto futuro
desconocido al reducir a la mitad un ingreso conocido futuro.
ρ = 0 No existe correlación
Ejemplo:
Tipos de regresión lineal:
Regresión lineal simple: El primer tipo es la regresión lineal simple, en la que solo se
utiliza un único predictor. Por ejemplo, puede usarse a la hora de predecir accidentes
mortales de tráfico en un país. La variable de respuesta Y sería el país y se compararía
con la población, que sería la variable predictora X.
Regresión lineal múltiple: La regresión lineal múltiple permite crear modelos que emplean
diferentes predictores, los cuales se usarán para dar una respuesta a Y.
Regresión lineal múltiple Fuente: la.mathworks.com
Podría utilizarse para predecir cuántos litros de gasolina consumirán varios coches, variable
de respuesta Y, en función del peso y la potencia que tengan, variable predictiva X.
Por último, la regresión lineal múltiple multivariante se utiliza en modelos que cuentan con
varios predictores para múltiples variables de respuesta. Se podría emplear para calcular los
kilómetros por litro de gasolina que se usan en ciudad y autopista a partir de tres variables:
distancia entre ejes, peso en vacío y tipo de combustible.
65, 63, 65, 66, 69, 67, 53, 58, 69, 60, 61, 64, 65, 67, 62, 61, 55, 57, 60, 62, 64, 65, 64, 71,
68, 66, 56, 59, 61, 62, 63, 65, 63, 70, 67, 66, 57, 59, 61, 62, 64, 64, 63, 69, 67, 66, 58, 60,
61, 62, 50, 51, 67, 70, 54, 72, 65, 59, 60, 70, 66, 57, 71, 53
PUNTUACIÓN Fi Fr % F
50 1 0,0156 1.56% 1
51 1 0,0156 1.56% 2
53 2 0,031 3.1% 4
54 1 0,0156 1.56% 5
55 1 0,0156 1.56% 6
56 1 0,0156 1.56% 7
57 3 0,0468 4.68% 10
58 2 0,031 3.1% 12
59 3 0,0468 4.68% 15
60 4 0,062 6.2% 19
61 5 0,078 7.8% 24
62 5 0,078 7.8% 29
63 4 0,062 6.2% 33
64 5 0,078 7.8% 38
65 6 0,0937 9.37% 44
66 5 0,078 7.8% 49
67 5 0,078 7.8% 54
68 1 0,0156 1.56% 55
69 3 0,0468 4.68% 58
70 3 0,0468 4.68% 61
71 2 0,031 3.1% 63
72 1 0,0156 1.56% 64
50,51,53,53,54,55,56,57,57,57,58,58,59,59,59,60,60,60,60,61,61,61,61,61,62,62,62,62,62,6
3,63 63,63,64,64,64,64,64,65,65,65,65,65, 65, 66,66,66,66,66,67,67,67,67,67,68,69,69,69,
70, 70 70,71,71,72
x1 + x2 + x3 + x 4 +…+ x N
X̅ =
N
4017
X̅ =
64
X =62,76
MODA
Mo=65
MEDIANA
Me=n+1 /2
Me=63+63/2
Me=63
PRIMER CUANTIL
i=(p/100) n
i= (25/100)64
i=0,25*100
i=16
Q₁=60
TERCER CUANTIL
i=(p/100) n
i= (75/100)64
i=0,75*64
i=48
Q₃=66
D₄=4*64/10
D₄=256/10
D₄=25,6
D₄=26
D₄=62
P₇₀=70*64/100
P₇₀=4480/100
P₇₀=44,8
P₇₀=45
P₇₀=66
Rango: 10 . 34−2.81=7.53
Intervalos: es el número de casilla que tiene que haber, se calcula aplicando la Regla de
Sturges:
k =1+3,322 Logn
k =1+3,322 log ( 76 )=7,24 ≈ 8
R 7.53
Amplitud (a i ¿: a i= = =0.94
k 8
4.69+5.63
x= =5.16
2
5.63+6.57
x= =6.1
2
6.57+7,51
x= =7.04
2
7.51+ 8.45
x= =7.98
2
8.45+9,39
x= =8.92
2
9,39+10,34
x= =9.86
2
∑ 76
∑1
b. Hallar la moda y mediana.
Para calcular la mediana se debe verificar si el número de datos es par o impar. Cuando es
par se utiliza:
n 76
par = =38
2 2
Tenemos el número 38, el cual debemos buscar en la frecuencia absoluta acumulada, pero
generalmente no siempre esta ese número, entonces se trabaja con un número siguiente al
38, por lo que tenemos al número 40 con el cual se trabajara en ese intervalo que le
corresponde el 40
N
−f i−1
Ahora se trabaja dentro de la fórmula: 2
Me=Li + ai
fi
38−18
Me=6,57+ 0,94
22
20
∗0,94
22
Me=6,57+
1
Me=6.57+ 0,85
Me=7,42
f i −f i−1
Moda: La formula M 0=Li+ ∗ai
( f i−f i−1 )+( f i−f i+ 1)
22−11
M 0=6.57+ ∗0.94
( 22−11 )+ ( 22−19 )
11
M 0=6.57+ ∗0.94
14
11
∗0.94
14
M 0=6.57+
1
M 0=6.57+ 0.73
M 0=7,3
( )
kn
−fi−1
4
Qk =Li + A
fi−fi−1
Como se está hablando de medidas de posición, entonces lo primero es hallar esto:
kn
Posición
4
1∗76
Q1 → =19
4
Entonces tenemos de posición el 19, el cual este se busca en la frecuencia absoluta
acumulada. Pero si no esta se trabaja con la frecuencia mayor siguiente:
Q1=6.57+ 0.94∗0,04
Q1=6.57+ 0.03
Q1=6.6
Encontramos la posición:
2∗76
Q2 → =38
4
Como no está en la frecuencia absoluta acumulada se escoge el valor mayor, en este caso
40.
Q2=6,993
σ
La fórmula es Cv=
x
Desviación estándar:
v 2=
∑ ( x−x )2∗f
n
2 171,5 2
v= =2,2 5
76
La desviación estándar es solo sacar la raíz cuadrada de la varianza:
σ =√ 2,25
σ =1,5
Coeficiente de Variación:
1,5
Cv= =0,20
7,33
Ventas 402 381 350 430 441 380 405 420 421
Precios 45 66 70 90 75 45 65 70 65
2
X Y X*Y X² Y
a. Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se
ajuste.
y=ax+ b
y=0.2013 x +15.525
Para 55 tenemos:
y=0,2013 ( 55 )+15.525
y=11.0715+15.525=26.5965
Para 58 tenemos:
y=0,2013 ( 58 )+15.525
y=11.67 +15.525=27.195
para 68 tenemos:
y=0,2013 ( 68 )+15.525
y=13.68+ 15.525=29.20
para 70 tenemos:
y=0,2013 ( 70 )+15.525
y=14.09+15.525=29.61
R=¿0.41
Tiene una correlación positiva, las variables tienen una correlación mínima
5. Los datos de la siguiente tabla representan las alturas (X) cm. Y los pesos (Y) kg.
de varios hombres.
Y 40 51 53 56 53 58 62 82
X Y X∗Y X2
n=8
a. Estimar la ecuación que mejor se ajuste de modo que el peso dependa de la altura
y=ax+ b
2411
a= =0.1594
15119
∑y−a∑ x
b=
n
455−(0,1594)(1395)
b=
8
455−222.36
b=
8
232,64
b=
8
b=29,07
Luego la ecuación lineal que se aproxima a la relación entre el peso y la altura está
determinada por:
y=0,1594 x+29.07
y=23,91+29,07=52,98 kg
y=24,38+ 29,07=53,45 kg
y=27,89+ 29,07=56,96 kg
x=174,375
y=56,875
∑ ( x−x ) ( y− y )
r= 2 2
√ ∑(x− x) √ ∑( y− y )
670,31315
r=
√ 1908,7∗√ 1008,875
670,31315
r=
43,68∗31,76
r =0,4831