Está en la página 1de 16

Fase 4 - Medidas estadísticas

Por

Laura Cristina Llanos Torres


Lina Marcela Pulgarín Ruiz

Tutora: Laura Marcela Elles

Curso: Estadística Descriptiva


Código: 511004_6

Universidad Nacional Abierta y a Distancia UNAD

Octubre – 2023
Introducción

En el presente trabajo se resuelven ejercicios sobre las medidas estadísticas como la


Medidas de dispersión, de posición, Correlación y regresión lineales además diagramas
posibles en la regresión y correlación lineal. A partir de la revisión de los documentos
compartidos en la unidad 1 se dan solución de acuerdo con su planteamiento y también su
respectiva justificación. Lo anterior nos lleva a organizar estadísticamente los datos dados
aplicando las fórmulas adecuadas y de la manera correcta.
1. Defina y de un ejemplo de:

a. Medidas de dispersión

Según García, R. F. (1977) las medidas de dispersión miden el grado de dispersión de los
valores de la variable. Nos dicen que tanto difieren los datos entre sí, cuanto se distancian
unos de otros. Las medidas de dispersión son: rango, varianza, desviación estándar y
coeficiente de variación.

Los define como:

 Rango: Es la diferencia que existe entre el mayor y el menor valor que toma la
variable.

Ejemplo: Datos de altura: 120 ;117;128 ;111;138 ;141;132

Identificamos el valor mayor (141) y luego el menor (111) ; ahora hacemos la resta

141 – 111=30

Podemos decir entonces que el rango de la variable Altura es 30 cm. García, R. F. (1977)

 Varianza:

su propósito es establecer la variabilidad de la variable. Mide la dispersión de los datos en


una variable respecto a la media, calculando la media de los cuadrados de las distancias de
todos los datos. Valores elevados de varianza indica que los datos están distantes de la
media. Supongamos que la varianza de la variable altura en la muestra A es de 12, mientras
que en la muestra B es de 10; con esos datos podríamos decir que la muestra A tiene mayor
dispersión de datos (más lejos de la media). La varianza se representa con el símbolo
σ ²(sigma al cuadrado) para el universo o población y con el símbolo s 2(s al cuadrado) ,

cuando se trata de la muestra. García, R. F. (1977)

 desviación estándar:

Es la raíz cuadrada de la varianza, se representa por σ (sigma) cuando pertenece al universo


o población y por “ s” , cuando pertenece a la muestra.
Tiene mucha relación con la varianza ya que se obtiene de ella calculándole la raíz
cuadrada. La interpretación es similar a la varianza, la varianza se expresa en unidades de
variable al cuadrado y la desviación estándar simplemente en unidades de variable. La
varianza es menos usada porque no expresa las mismas unidades que los datos, ya que las
desviaciones están elevadas al cuadrado. Si los datos fueran en metros, la varianza
denotaría metros cuadrados y eso induciría a confusiones con una medida de superficie. En
cambio, en la desviación típica esto se corrige por lo que sí expresa las mismas unidades
que los datos. García, R. F. (1977)

 coeficiente de variación:

Se utiliza para comparar conjuntos de datos pertenecientes a poblaciones distintas


eliminando las posibles distorsiones de las medias de dos o más poblaciones. Se obtiene de
dividir la desviación típica por el valor absoluto de la media y por lo general se expresa en
porcentaje para su mejor comprensión. García, R. F. (1977)

S
Se calcula del siguiente modo: C v = ∗¿100
|X|

b. Medidas de posición

Lo que buscan estas medidas es “dividir el conjunto de datos en grupos con el mismo
número de valores”. García, R. F. (1977). Las medidas de posición son:

 Cuartiles:

Estos estadísticos dividen la distribución de los valores de la variable en 4 partes, cada una
de las cuales engloba el 25 % de los mismos. Los símbolos de estas medidas son:

Q1 (primer cuartil que deja a su izquierda el 25 % de los datos)

Q2 (segundo cuartil que deja a su izquierda el 50% de los datos y coincide con la mediana),

Q3 (tercer cuartil que deja a su izquierda el 75% de los datos). García, R. F. (1977)

Ejemplo:

2,3,4,5,5Q 1 ,6,7,8,9,10,11,12, 12Q212 ,13,14,15,16,16Q 3 ,17,18,19,20,21,22


Primero se ordenan los números de menor a mayor.

Sacar N (Total de datos) =18

N
Calcular el cuartil 2 que es la mediana, como N es par se utiliza la formula
2

18
Sería iguala a: =9
2

Para calcular el cuartil 2, el promedio de 12+12=12

Es este caso se dividen en 2 los datos desde donde esta la flecha del Q2 en cada mitad hay 9
datos.

N +1 9+ 1 10
Para calcular el Q1 en la primera mitad de como n=9 (No es par) = = = =5
2 2 2

N +1 9+ 1 10
Para el cuartil 3 se hace lo mismo, pero ahora de la otra mitad = = =5 de la
2 2 2
segunda mitad que seria 16, en la posición donde está el 5. García, R. F. (1977)

Entonces: Q1= 5 Q2= 12 Q3= 16

 Deciles

De manera similar que los cuartiles, éstos son 9 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en diez grupos iguales de datos que representan,
cada uno, el 10% de los valores. García, R. F. (1977)

 Percentiles:

Son 99 valores que distribuyen los datos, ordenados de forma creciente o decreciente, en
cien tramos iguales, concentrando cada uno de ellos el 1% de los datos. García, R. F. (1977)

c. Correlación lineal y regresión lineal


Para Leal. (2019) “El análisis de correlación consiste en estudiar el grado de asociación de
las variables ya sea de una o varias variables.”

Ejemplo Correlación lineal:

Al analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen


los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de
tiempo de 10 años, una posible representación sería situar un punto por cada año de forma
que la primera coordenada de cada punto sería la cantidad en euros invertidos en
publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación.
De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación
existente entre ambas variables. Vila. (2004)

 Regresión Lineal:

Para Leal. (2019) “El análisis de regresión analiza la relación de variables, ya sea una
variable dependiente y una o varias variables independientes” y según Vila. (2004) En
aquellos casos en que el coeficiente de regresión lineal sea “cercano” a +1 o a – 1 , tiene
sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos (recta
de mínimos cuadrados). Uno de los principales usos de dicha recta será el de predecir o
estimar los valores de Y que obtendríamos para distintos valores de X. Estos conceptos
quedarán representados en lo que llamamos diagrama de dispersión:
La ecuación de la recta de mínimos cuadrados (en forma punto-pendiente) es la siguiente:

Ejemplo sobre regresión Lineal:

Si queremos estudiar la relación existente entre ambas variables, siguiendo con el ejemplo
anterior referente a la relación entre las ventas de una empresa ( Vt ) y sus gastos en
publicidad GPt ¿ ), lo que podemos hacer es representar gráficamente el modelo
matemático lineal que podemos considerar para analizar dicha relación. Vila. (2004)

Vt=β1+β2∗GPt+ut

Supongamos que disponemos de los siguientes datos:


A partir de este modelo matemático lineal, vamos a analizar la relación entre ambas
variables, la variable ventas ( Vt ) que es la variable dependiente del modelo y la variable
que vamos a analizar y los gastos en publicidad ( GPt ) que es la variable independiente o la

variable explicativa que vamos a utilizar para estudiar las ventas. En este modelo queremos
comprobar qué influencia tienen los gastos de publicidad sobre el volumen de facturación o
las ventas de la empresa. Para poder cuantificar dicha relación, debemos también
representar la recta de regresión que subyace en el modelo matemático que relaciona ambas
variables. Para cuantificar la relación entre ambas variables y tener una aproximación de la
magnitud de la influencia de los gastos en publicidad sobre las ventas de la empresa
debemos estimar el modelo por mínimos cuadrados ordinarios ( M .C . O . ) donde se
minimiza la suma de los cuadrados de los residuos. La recta en rojo (que aparece a
continuación en el gráfico), es la que mejor se ajusta a la nube de puntos que tenemos.
Dicho de otra forma, es la recta que hace que el error de estimación, definido como la
distancia entre el valor observado y el valor estimado de la variable endógena (en el
gráfico, es la distancia vertical señalada por la flecha en rojo), sea la mínima para cada una
de las observaciones (recta de mínimos cuadrados), esta recta será la que utilizaremos para
predecir o estimar los valores de Y que obtendremos para distintos valores de X . Cruz.
(2011)
d. Diagramas posibles en la regresión y correlación lineal.

Vila. (2004) Propone que en particular, nos interesa cuantificar la intensidad de la relación
lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de
correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1:

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la


correlación tiende a ser lineal directa (mayores valores de X significan mayores valores de
Y ), y se aproxima a –1 cuando la correlación tiende a ser lineal inversa.
Es importante notar que la existencia de correlación entre variables no implica causalidad.
¡Atención!: si no hay correlación de ningún tipo entre dos v . a . , entonces tampoco habrá
correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no
hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el
análisis del coeficiente de correlación entre dos variables: Cruz. (2011)

2. A continuación, se presentan las puntuaciones de un examen de matemáticas realizadas a


64 estudiantes de un determinado colegio:
65, 63, 65, 66, 69, 67, 53, 58, 69, 60, 61, 64, 65, 67, 62, 61, 55, 57, 60, 62, 64, 65, 64, 71,
68, 66, 56, 59, 61, 62, 63, 65, 63, 70, 67, 66, 57, 59, 61, 62, 64, 64, 63, 69, 67, 66, 58, 60,
61, 62, 50, 51, 67, 70, 54, 72, 65, 59, 60, 70, 66, 57, 71, 53

a. Realizar la tabla de frecuencia.

Tabla de frecuencias para datos agrupados

Frecuencia Marca de
Intervalos Frecuencia acumulada clase
50 - 53 2 2 51,5 103
53 - 56 4 6 54,5 218
56 - 59 6 12 57,5 345
59 - 62 12 24 60,5 726
62 - 65 14 38 63,5 889
65 - 68 16 54 66,5 1064
68 - 71 7 61 69,5 486,5
71 - 74 3 64 72,5 217,5
Total 64 4049

b. Hallar la media, moda y mediana.


Media:
Para calcular la media se utiliza la siguiente formula:
∑ x ⋅ F 4049
x= = =63 , 26
n 64
x=63 , 26

Moda:
Para ello se usa la siguiente fórmula.

fi−f i−1
Mo=Li+ ∗A
(f i −f i−1 )+(f i−f i+ 1)

Li=65 fi=16 A=3 f i−1=14 f i +1=7

16−14
Mo=65+ ∗3
(16−14)+(16−7)

2
Mo=65+ ∗3
2+9

2
Mo=65+ ∗3
11

Mo=18+0 , 54

Mo=18 , 54

Mediana:
Para calcular la mediana se utiliza la siguiente formula:

n
−(Fi−1)
2 n 64
Me=Li + A = =32
fi 2 2

Li=62 Fi−1=24 f i=14 A=3

32−24
Me=62+ .3
14
8
Me=62+ .3
14

Me=62+1 , 71

Me=63 , 71

Me=63 , 71 puntos

c. Hallar el primer y tercer cuantil.


Utilizaremos la siguiente formula.

( )
kn
−F i−1
4
Qk =Li + A
F i−F i−1

Tabla de frecuencias para datos agrupados

Frecuencia Marca de
Intervalos Frecuencia acumulada clase
50 - 53 2 2 51,5 103
53 - 56 4 6 54,5 218
56 - 59 6 12 57,5 345
59 - 62 12 24 60,5 726
62 - 65 14 38 63,5 889
65 - 68 16 54 66,5 1064
68 - 71 7 61 69,5 486,5
71 - 74 3 64 72,5 217,5
Total 64 4049

Primer cuartil
Donde
Li=¿ 59

F i−1=¿ 12

F i=¿24
A=3
Qk =cuartil por encotrar

kn 1× 64
= =16
4 4

Q 1=59+3 ( 24−12
16−12
)
Q 1=59+3 ( 124 )
Q1=59+1

Q1=60

Se concluye que el primer cuartil es 60 y se encuentra en la posición 16

Tercer cuartil
Li=¿ 65

F i−1=¿ 37

F i=¿54

A=3
Qk =cuartil por encotrar

kn 3 ×64
= =48
4 4

Q3=65+ 3 ( 48−38
54−38 )

Q3=65+ 3 ( 1016 )
Q3=65+ 1,875

Q3=66,875

Se concluye que el tercer cuartil es 66,875 y se encuentra en la posición 48


d. Hallar el cuarto decil.

( )
kn
−F i−1
10
Dk = Li + A
Fi −Fi−1

Li=¿ 62

F i−1=¿ 24

F i=¿38

A=3
Dk = Decil por encotrar

kn 4 ×64
= =25 , 6
10 10

D4 =62+3 ( 2538−24
, 6−24
)
D4 =62+3 ( 114, 6 )
D4 =62+0 , 34

D4 =62 ,34

Se concluye que el cuarto decil es 62 , 34 y se encuentra en la posición 25,6

e. Hallar el 70° percentil.

( )
kn
−F i−1
100
Pk =Li + A
Fi −Fi−1

Li=¿ 65

F i−1=¿ 37
F i=¿54

A=3
Pk =Percentil por encotrar

kn 70 × 64
= =44 , 8
100 10

P70=65+3 ( 4454−38
, 8−38
)
P70=65+3 ( 616, 8 )
P70=65+1 , 28

P70=66 , 28

Se concluye que el percentil de 70 es 66 , 38 y se encuentra en la posición 44,8

f. Compare los valores dados anteriormente en un Software (GeoGebra, Excel, R,


RStudio).

También podría gustarte