Está en la página 1de 34

Estadística Descriptiva

Unidad 2 Paso 4 - Actividad de medias estadísticas

Presentado Por:

Luz Adriana Osorio Cardona - Código: 1.055.918.749

Diana Patricia Jaramillo Cañas - Código: 22.030.419

Yuliana Guaca - Código: 1.006.410.237

Jhonatan Darío Gómez Pérez - Código: 1.001.545.273

Sergio Yesid Cubides Diaz - Código: 1.054.552.954

Tutora:

María Teresa Santos Torres

Curso:

Estadística Descriptiva

Grupo:

511004_7
Universidad Nacional Abierta y a Distancia (UNAD)

Escuela De Ciencias De La Educación (ECEDU)

2020

INTRODUCCIÓN

La finalidad de este taller es que el estudiante cuantifique algunos ejercicios propuestos en la

guía, de igual manera, logrando así una descripción donde se encuentra la varianza, la

desviación típica, la media, la moda entre otros conceptos… y finalmente, haciendo

representación gráfica de la información estadística el cual comunique de forma clara y

efectiva los elementos relevantes de la información.


DEFINICIONES

Diana Patricia Jaramillo Cañas

a. Medidas de dispersión:

Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética.

Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más

utilizadas son el rango, la desviación estándar y la varianza.

b. Regresión lineal:

O ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia

entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε.

c. Correlación lineal:

Basado en la comparación de la varianza asociada de dos variables (covarianza) y las

desviaciones estándar de cada uno a través del cálculo del coeficiente r de Pearson.

d. Diagrama de caja:
Es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El

gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la

distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc.


Jhonatan Darío Gómez Pérez

a. Medidas de dispersión:

Las Medidas de Dispersión nos indican qué tanto están dispersos o qué tanto abarca en

amplitud los datos de un conjunto. Cuando se tiene una muestra de datos obtenida de una

población cualquiera, es importante determinar sus medidas de tendencia central, así como

también es básico el determinar qué tan dispersos están los datos en la muestra, por lo que se

hace necesario determinar su Rango, la Varianza y la Desviación Estándar, ya que una

excesiva variabilidad o dispersión en los datos indica la inestabilidad del proceso en análisis

en la mayoría de los casos.

b. Regresión lineal:

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para

aproximar la relación de dependencia entre una variable dependiente Y, las variables

independientes Xi y un término aleatorio.

c. Correlación lineal:

está basado en la comparación de la varianza asociada de dos variables (covarianza) y las

desviaciones estándar de cada uno a través del cálculo del coeficiente r de Pearson.

d. Diagrama de caja:

Los diagramas de caja son una forma útil de graficar datos divididos en cuatro cuartiles, cada

uno con igual cantidad de valores. El diagrama de caja no grafica frecuencia ni muestra las
estadísticas individuales, pero en ellos podemos ver claramente dónde se encuentra la mitad

de los datos. Es un buen diagrama para analizar la asimetría en los datos.

Luz Adriana Osorio

a. Medidas de dispersión:

Las medidas de dispersión son importantes porque nos hablan de la variabilidad que

encontramos en una determinada muestra o población. Cuando hablamos de muestra, esta

dispersión es importante porque condiciona el error que vamos a tener a la hora de hacer

inferencias para medidas de tendencia central, como la media

b. Regresión lineal:

El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una variable

aleatoria a cuando b toma un valor específico. La aplicación de este método implica un

supuesto de linealidad cuando la demanda presenta un comportamiento creciente o

decreciente, por tal razón, se hace indispensable que previo a la selección de este método

exista un análisis de regresión que determine la intensidad de las relaciones entre las variables

que componen el modelo.

c. Correlación lineal:

Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer

de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la

covarianza, que indica el grado de variación conjunta de dos variables aleatorias.


d. Diagrama de caja:

El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa

(variable numérica). El gráfico es una herramienta que permite visualizar, a través de los

cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de

la mediana, etc. Se compone de:

Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la caja

una línea indica dónde se encuentra la mediana (segundo cuartil Q2)

Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza

en el tercer cuartil y acaba en el máximo.

Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos

requisitos de heterogeneidad de los datos.

Yuliana Guaca

a. Medidas de dispersión:

Nos indican como se alejan los datos respecto de la media aritmética y Sirven como indicador

de la variabilidad de los datos finalmente las medidas de dispersión más utilizadas son el

rango, la desviación estándar y la varianza.


b. Regresión lineal:

Es un campo de estudio que enfatiza la relación estadística entre dos variables continúas

conocidas como variables de predicción y respuesta. (Nota: cuando hay más de una variable

predictora, se convierte en regresión lineal múltiple).

c. Correlación lineal:

Está basado en la comparación de la varianza asociada de dos variables (covarianza) y las

desviaciones estándar de cada uno a través del cálculo del coeficiente r de Pearson.

d. Diagrama de caja:

Es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El

gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la

distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc.

Sergio Yesid Cubides Diaz

a. Medidas de dispersión

Estas medidas de dispersión dentro de los procesos estadísticos hacen referencia e indican la

forma como se van alejando los datos en relación con la media aritmética y su aplicabilidad

permite determinar la variabilidad de los datos, es importante enunciar que entre las medidas

de dispersión se tienen la desviación estándar, el rango y la varianza ;para complementar lo

anterior se infiere que la medida de dispersión siempre está representada por un número no

negativo (0 ) siendo los datos iguales los cuales van aumentando, en la medida que van

cambiando o diversificando los valores


b. Regresión lineal

La relación que existe entre una variable dependiente y unas variables independientes es lo

que en estadística recibe el nombre de regresión lineal y este modelo matemático permite

aproximar la dependencia entre las variables citadas, cabe destacar que la regresión lineal

permite realizar comparaciones de tipo antropométrico como la estatura entre seres humanos

donde el valor medio permite igualar los valores superiores y reducir o regresar aquellos que

estaban por debajo del valor medio

c. Correlación lineal

En estadística se entiende como correlación lineal la relación que se presenta entre dos

variables las cuales son cualitativas siendo esta relación también de tipo lineal y permite

determinar la magnitud y dirección de la relación propuesta, cabe destacar que la magnitud de

la relación es la fuerza de dicha relación entre las variables

d. Diagrama de caja

La representación gráfica de los valores de las variable cuantitativas o numéricas; es lo que

en estadística recibe el nombre de diagrama de caja, es importante afirmar que esta estrategia

permite observar con el apoyo de los cuartiles la forma como están distribuidos la asimetría

según el grado, la posición de la mediana y los extremos según los valores dados
Fórmulas y Gráficos:

Rango o recorrido:
Re = Max {xi} - Min {xi}

Rango o recorrido intercuatílico:


RI = Q3 - Q1

Desviación Media:

Varianza:

Para el cálculo se suele aplicar la expresión:

Desviación Típica:

Otra expresión:
Coeficiente de variación:

Regresión Lineal:

Donde:
Correlación Lineal:

Cov (x;y): la covarianza entre el valor «x» e «y».

σ(x): desviación típica de «x».

σ(y): desviación típica de «y».


Valores que puede tomar la correlación:

ρ = -1 Correlación perfecta negativa

ρ = 0 No existe correlación

ρ = +1 Correlación perfecta positiva

Representación gráfica de la correlación lineal:


Diagrama de Caja:
EJERCICIOS

1. Los porcentajes de rentabilidad de los fondos de la inversión de diez grandes

empresas fueron:

28,2 18,1 34,4 28,9 26,5 26 25


12,5 10 10,9 20,5 25,5 14,9 20

Para esta población determine:

a) La varianza

Debemos aplicar la siguiente formula

2 ∑ ( x 1−x )2
S=
n−1

Donde:

S 2 =varianza
x i=término del cojunto de datos
x=media de la muestra
n=tamaño de la muestra

Como desconocemos la media de la muestra debemos de encontrarla usando la siguiente

formula:
x=
∑x
n

( 28 , 2 ) + ( 1 8 , 1 ) + ( 3 4 , 4 ) + ( 2 8 , 9 ) + ( 26 , 5 ) + ¿ 301,4
x =¿ (20,5)+(25,5)+(19,9)+(20)¿14 ¿x= =21,5¿
( 26 ) + ( 2 5 ) + ( 1 2 , 5 ) + ( 1 0 ) + ( 1 0 , 9 ) + ¿ 14
La media es de 21,5

Ya hallando la media procedemos a hallar la fórmula de la varianza

22222 2 2 22
(2 28,−15)+(8,1−25)+(34,−215)+(28,9−15)+(26,5−1 )+¿ 2 2 2 2 2 (6,7)+−3,4)+(12,9)+(74 5)+¿ 2 2 2 2 (4,89)+(1,56)+(1 ,4)+(5,76)+(25 ¿ 2723,54
S=¿ 2 2 2 2 2 (20,5−1 )+(25,−15)+(9,−215)+(20−1,5)¿4−1S=¿ 2 2 2 2 2 (−1)+4 (−6,)+(−1,5)¿ 13¿S= (1)+6(43,56)+(2 5+¿ 13¿S= =5,6¿
( 2 6 − 1 , 5 ) + ( 2 − 1 , 5 ) + ( 2 , 5 − 1 ) + ( 0 − 2 1 , 5 ) + ( 0 , 9 − 2 1 5 ) + ¿ ( 4 ,5 ) + 3 ( − 9 ) + 1 , 5 ) + ( − 1 0 , 6 ) + ¿ ( 2 0 , 5 ) + ( 1 2 , 5 ) + ( 8 1 32 , 5 ) + ( 1 2 , 3 6 ) + ¿ 1 3
La varianza es de 55,65

b) La desviación típica
para hallar la desviación típica realizamos con la solución del punto anterior el siguiente

procedimiento:

S 2=55,65
S= √55,65=7 ,45
La desviación típica es de 7,45

c) Desviación media.

Para hallar la desviación media, debemos de coger cada valor absoluto de la variable y

restarle la media usando la siguiente formula

|x −x|+|x 2 −x|+|x 3 −x|+.... ..... ..|x n −x|


DM= 1
n
Si observamos que algunos resultados son negativos, recordemos que el valor absoluto de un

número es el mismo número, pero sin signo lo cual daría por ejemplo que el valor absoluto de

-3 es 3.

|28,−15|+8,1−2 5|+34,−215|+28,9−15|+26,5−1 |+¿ |6,7+−3,4|+12,9|+74|5+¿ 6,7+3412,9+745+¿ 87,6


DM=¿ |20,5−1 |+25,−15|+9,−215|+20−1,5|+¿14DM=¿ |−1+4|−6,|+−1,5|¿ 14¿DM= 1+46,+15¿ 14= =6,25¿
|26−1,5|+2−1,5|+2,5−1|+0−21,5|+0,9−215|+¿ |4,5+3|−9+|1,5+|−10,6|+¿ 4,5+3 9+1,5 06+¿ 14
Observamos que la desviación media es de 6,25
2. En la siguiente tabla aparecen los años de servicio acumulados por 360 trabajadores

de una gran empresa antes de su retiro voluntario.

Años de servicio Número de empleados


0 10
1 34
2 56
3 76
4 80
5 25
6 10
7 27
8 12
9 8
10 19
11 3

Para esta muestra halle:

a) Dibuje el histograma.

EMPR ESA
NUMERO DE EMPLEADOS

Frecuencia
100
80
60 76 80
40 56
20 34 27 0
0 25 19
10 10 12 8 3 mayor...
0 1 2 3 4 5 6 7 8 9 10 11y
AÑOS DE SERVICIO

b) Media: para hallar la media, es necesario hallar la marca clase, con el fin de poder

obtener el producto de marca clase (x) con la frecuencia (f), es decir, xf:
A continuación, se hace el cálculo de la media para distribuciones agrupadas:

x́=
∑ xf x́= 1459 x́=4,0527
n 360

c) Mediana: para hallar la mediana, es necesario hallar la frecuencia absoluta

acumulada F, así:
A continuación, se debe encontrar el intervalo en el que se encuentra la mediana

(Me). Este intervalo se halla dividiendo la cantidad de datos (n) entre 2.

n 360
= =180
2 2

Este resultado se busca de forma exacta (algunas veces) o aproximada entre los

resultados de la frecuencia absoluta acumulada Fi. De este modo, se puede observar

que la Fi más cerca de 180 es 256, el cual corresponde al intervalo (4).

POR LO TANTO, LA MEDIANA ES: 4

d) Moda: es el valor con mayor frecuencia en una de las distribuciones de datos.

En este caso el que más se repite es el 4 que tiene como resultado 80 números de

empleados

e) Varianza: para hallar la varianza se debe elevar al cuadrado las marcas clase y este

resultado multiplicarlo por la frecuencia f.

Nota: es importante tener el promedio de los intervalos, en este caso es 4,0527

Se tiene la fórmula para hallar la varianza de distribuciones agrupadas:

Se reemplaza:

s2=¿

s2=¿ s2=¿
s2=¿

s2=¿

s2=¿

s2=¿

s2=¿

s2=¿

s2=¿

s2=¿

s2=¿

La varianza es igual a: 6314,583333

Desviación Típica: para hallar la desviación típica estándar, solo se aplica su fórmula:

s= √ s2
Se reemplaza:

s= √6314,583333 s=79,464

f) Qué porcentaje de empleados tiene más de 8 años de experiencia y menos de 6 años

de experiencia.

- Porcentaje de empleados que tienen más de 8 años de experiencia: para hallar

este porcentaje, primero se suma la cantidad de empleados que hay en las clases

superiores a 8 y, luego, se aplica una regla de tres para hallar el porcentaje:

Años de servicio x Número de empleados f


0 10
1 34
2 56
3 76
4 80
5 25
6 10
7 27
8 12
9 8
10 19
11 3

Empleados con más de 8 años de experiencia

8+19+3=30
Regla de tres:

30∗100 3000
x= x= x=8,333
360 360

El porcentaje de empleados que tienen más de 8 años de experiencia es de 8,3%.

- Porcentaje de empleados que tienen menos de 6 años de experiencia: para

hallar este porcentaje, primero se suma la cantidad de empleados que hay en las

clases inferiores a 6 y, luego, se aplica una regla de tres para hallar el porcentaje:

Años de servicio x Número de empleados f


0 10
1 34
2 56
3 76
4 80
5 25
6 10
7 27
8 12
9 8
10 19
11 3

Empleados con menos de 6 años de experiencia

10+34 +56+76+80+ 25=281

Regla de tres:
281∗100 28.100
x= x= x=7 8,05
360 360

El porcentaje de empleados que tienen más de 8 años de experiencia es de 78,05

3. La siguiente tabla refiere a los usos más comunes citados en una encuesta realizada a

usuarios de ordenadores de pequeñas y medianas empresas.

Área No. de usuarios


Contabilidad 215
Procesadores de texto 177
Hojas de calculo 244
Bases de datos 135
Puntos de venta 100
Información 46
Otros 87

a) Media

Hallamos la media aritmética con respecto al número de usuarios

215+177+244+ 135+100+46+ 87
Media=
7

1004
Media=
7

Media=143.42
b) Mediana

Realizamos la división total de la muestra

502+503
Mediana =
2

505
Mediana =
2

Mediana = 502.5

Organizamos los datos de menor a mayor:

Área No. de usuarios


Información 46
Otros 87
Puntos de venta 100
Área de datos
Bases No. de usuarios
135
Contabilidad
Procesadores de texto 215
177
Hojas de calculo
sumatoria 244
545
sumatoria 459

Lo que indica que la mediana está en la sumatoria que incluya el 502.5

Lo que indica que la mediana es

Mediana= los procesadores de texto

c) Moda

La moda es el área con mayor número de usuarios

Moda = 244 perteneciente a hojas de calculo


d) Varianza

x1 ¿ ¿) ( x 1− x́)2
215 215-143,42=71,58 71,582=5123,69
177 177-143,42=33,58 33,582=1127,61
244 244-143,42=100,58 100,582=10116,33
135 135-143,42=-8,42 −8,422=70,89
100 100-143,42=-43,42 −43,422 =1885,29
46 46-143,42=-97,42 −97,422=9490,65
87 87-143,42=-56,42 −56,422=3183,21
Suma= 1004 0,06 30997,67

2 ∑ (x1 − x́)2
s=
n−1

30997,67
s2=
1004−1

30997,67
s2=
1003

2
s =30,90

e) Desviación típica
∑ ( x 1−x́)2
s=
√ n−1

s=√ 30,90

s=5,55

f) Realizar el histograma correspondiente a los datos

300
244
250 215
200 177
150 135
100 87
100
46
50
0
ad to lo s ta n s
li id ex la cu to en ió ro
b e t c e da
e v ac Ot
a d de rm
o nt r es s e sd o sd nfo
C a s t I
do Ho
j Ba Pu
n
esa
oc
Pr

Medida de dispersión Resultado


Media 143,42
mediana 502,5
Moda 244
Varianza 30,90
Desviación típica 5,55
600
502.5
500

400

300
244
200
143.42
100
30.9
5.55
0
Media mediana Moda Varianza Desviación típica

4. Una compañía asigna diferentes precios a un equipo de sonido particular en ocho

regiones diferentes del país. La tabla adjunta muestra el número de unidades vendidas

y los precios correspondientes (en miles de pesos).

Ventas 402 381 350 430 441 380 405 420 421
Precio 45 66 70 90 75 45 65 70 65

a) Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se

ajuste. R//:

Ventas=0.85*precio+347.73

b) Determinar las ventas si el precio es de 55, 58, 68, y 70 miles de pesos. R//: 394.3,

396.8, 405.3 y 407.0 respectivamente.


c) Determinar R y dar una interpretación R//: 0.4128

La correlación estadística es medida por lo que se denomina coeficiente de correlación (r).

Su valor numérico varía de 1,0 a -1,0. Nos indica la fuerza de la relación. ... Cuanto más

cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la relación entre las

variables.

5. Los datos de la siguiente tabla representan las alturas (X) cm. y los pesos (Y) kg. de

varios hombres.
Y (Kg) 40 51,5 53,5 56,5 53,5 58 62,5 82
X (Cm) 185 152 185 155 126 196 172 187

a) Estimar la ecuación que mejor se ajuste de modo que el peso dependa de la altura.

b) Determinar el peso si la altura es de 150, 153 y 175 cm.

c) Determinar R y dar una interpretación

x y (x)(y) x2
185 40 7400 34225
152 51.5 7828 23104
185 53.5 9897.5 34225
155 56.5 8757.5 24025
126 53.5 6741 15876
196 58 11368 38416
172 62,5 10750 29584
187 82 15334 34969
Total 1358 457.5 78076 234424

y=mx+b

n ( ℇxy ) −( ℇx )( ℇy )
m=
n ( ℇ x 2 )−¿ ¿

( ℇy ) ( ℇ x 2 )−( ℇx )( ℇxy )
b=
n ( ℇ x 2 ) −¿ ¿
8(78076)−(1358)(457,5)
m=
8 ( 234424 )−¿ ¿

m=0,106

( 457,5 ) ( 234424 )−(1358)(78076)


b=
8 ( 234424 )−¿ ¿

b=39,12

a) Estimar la ecuación que mejor se ajuste de modo que el peso dependa de la altura.

y=0,106 x +39,12

b) Determinar el peso si la altura es de 150, 153 y 175 cm.

y=0,106 (150 )+ 39,12

y=55,02
y=0,106 (153 )+ 39,12

y=55,338

y=0,106 (175 )+ 39,12

y=57,67

c) Determinar R y dar una interpretación

y2
1600
2652,25
2862,25
3192,25
2862,25
3364
3906,25
6724
27163,25

n ( ℇxy )−( ℇx )( ℇy )
R= 2
√n ( ℇ x )−¿ ¿ ¿
8 ( 78076 ) −(1358)(457,5)
R=
√ 8 ( 234424 )−¿ ¿ ¿

R=0,21

Tiene una correlación positiva, sin embargo, las variables no tienen una alta

correlación, es decir que no tienen tanta relación una de la otra.

REFERENCIAS BIBLIOGRÁFICAS

Gallardo, Y [Yoney Gallardo]. (12 dic. 2015). Curso Excel 2016 - Básico [Archivo de video].

Recuperado de https://youtu.be/TLMKv1OzUDc

Romero, E. (2016). Estadística para todos: análisis de datos; estadística descriptiva; teoría de la

probabilidad e inferencia. Editorial Difusora Larousse - Ediciones Pirámide. Recuperado de

http://bibliotecavirtual.unad.edu.co:2077/lib/unadsp/detail.action?

docID=11231145&p00=Estadistica+descriptiva

https://es.wikipedia.org/wiki/Wikipedia:Portada

https://www.ecured.cu/EcuRed
https://www.universoformulas.com/estadistica/descriptiva/diagrama-caja/

https://www.ingenieriaindustrialonline.com/pronostico-de-la-demanda/regresion-lineal/

https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

https://lamenteesmaravillosa.com/las-medidas-de-dispersion-en-estadistica/

También podría gustarte