Está en la página 1de 16

ESTADISTICA DESCRIPTIVA - (511004A_764)

Unidad 2 - Fase 4 - Medidas estadísticas

ANGIE ARANGO

FERNANDO ENRIQUE VASQUEZ BETANCOURT

OSCAR LIFARDO AMADOR

JOSE LEONEL JUAGIBIOY

JHON CARLOS SILVA

UNIVIERSIDAD NACIONAL ABIERTA Y A DISTANCIA

PROGRAMA DE LICENCIATURA EN MATEMATICAS

2020
INTRODUCCION

A través de los tiempos el hombre ha sentido la necesidad de poder interpretar todos los
fenómenos que se desarrollan en su entorno para entenderlos y tener un control absoluto de cada
uno de ellos, por ello que encontramos que los grandes matemáticos de la historia la aplicaron en
sus investigaciones.

Es por ello que la estadística se ha convertido en una herramienta importante para analizar e
interpretar los datos contenidos en la información que recopila. En la actualidad el hombre aplica el
uso de la Estadística en los casos que van desde el cálculo más sencillo hasta el más complejo
conocimiento científico. La Estadística se encuentra relacionada con diferentes ámbitos de la
sociedad como político, investigativo, educativo, etc.
 LA ACTIVIDAD CONSISTE EN:

1. Defina y de un ejemplo de:

a) MEDIDAS DE DISPERSIÓN

Las medidas de dispersión son números que indican si una variable se mueve mucho, poco, más o
menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una
característica de la variable estudiada. En este sentido, deben acompañar a las medidas de
tendencia central. Juntas, ofrecen información de un sólo vistazo que luego podremos utilizar para
comparar y, si fuera preciso, tomar decisiones.

 PRINCIPALES MEDIDAS DE DISPERSIÓN

LAS MEDIDAS DE DISPERSIÓN MÁS CONOCIDAS SON:

 EL RANGO

Es un valor numérico que indica la diferencia entre el valor máximo y el mínimo de una población o
muestra estadística. Su fórmula es:

R = Máx – Mínx

 Donde:

R → Es el rango.

Máx → Es el valor máximo de la muestra o población.

Mín → Es el valor mínimo de la muestra o población estadística.

x → Es la variable sobre la que se pretende calcular esta medida.

 EJEMPLO:

Supongamos que tenemos una empresa que produce microchips para luego venderlos a las
principales marcas de computadoras. Esta empresa encarga a un economista que realice un
estudio sobre la evolución de las ventas (últimos 4 años) para, posteriormente, ofrecer consejos
que mejoren los resultados empresariales. Entre otras muchas métricas, se pide que se calcule el
rango de producción de microchips. A continuación, se muestra la siguiente tabla de datos:

 Año 1 ….. 44.347


 Año 2 ….. 12.445
 Año 3 ….. 26.880
 Año 4 ..... 23.366

R = Máx – Mínx
R = 44.347 – 12.445
R = 31.902
El mes que más microchips produjo la empresa (MÁXIMO) fue el Año 01 con 44.347 microchips
producidos. Por su parte, el momento que menos microchips produjo tuvo lugar en el Año 02 con
12.445 microchips producidos. Por tanto, el rango estadístico que es la diferencia (44.347 –
12.445) se sitúa en 31.902
¿Cómo se interpreta esto? Esto quiere decir, que durante los últimos 4 años la variación máxima
que ha habido ha sido de 31.902microchips producidos.

 LA VARIANZA

La varianza es una medida de dispersión que representa la variabilidad de una serie de datos
respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos
entre el total de observaciones. Su formula es la siguiente:

 X → Variable sobre la que se pretenden calcular la varianza


 xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
 N → Número de observaciones.
 x̄ → Es la media de la variable X.

 EJEMPLO:

Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno con un
salario diferente:

 Juan: 1.500 euros


 Pepe: 1.200 euros
 José: 1.700 euros
 Miguel: 1.300 euros
 Mateo: 1.800 euros

La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 + 1.700 +
1.300 + 1.800) /5) 1.500 euros.

 Dado que la fórmula de la varianza en su forma desglosada se formula como sigue:

Obtendremos que se debe calcular tal que:

El resultado es de 52.000 euros al cuadrado. Es importante recordar que siempre que calculamos
la varianza tenemos las unidades de medida al cuadrado. Para pasarlo a euros, en este caso
tendríamos que realizar la desviación típica. El resultado aproximado sería de 228 euros. Esto
quiere decir que, en media, la diferencia entre los salarios de las distintas personas será de 228
euros.

 LA DESVIACIÓN TÍPICA

La desviación típica es otra medida que ofrece información de la dispersión respecto a la media.
Su cálculo es exactamente el mismo que la varianza, pero realizando la raíz cuadrada de su
resultado. Es decir, la desviación típica es la raíz cuadrada de la varianza.

 X → Variable sobre la que se pretenden calcular la varianza


 xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
 N → Número de observaciones.
 x̄ → Es la media de la variable X.

 EJEMPLO:

Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno con un
salario diferente:

 Juan: 1.500 euros


 Pepe: 1.200 euros
 José: 1.700 euros
 Miguel: 1.300 euros
 Mateo: 1.800 euros

La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 + 1.700 +
1.300 + 1.800) /5) 1.500 euros.

 Dado que la fórmula de la varianza en su forma desglosada se formula como sigue:

Obtendremos que se debe calcular tal que:

El resultado es de 52.000 euros al cuadrado. Es importante recordar que siempre que calculamos
la varianza tenemos las unidades de medida al cuadrado. Para pasarlo a euros, en este caso
tendríamos que realizar la desviación típica. El resultado aproximado sería de 228 euros. Esto
quiere decir que, en media, la diferencia entre los salarios de las distintas personas será de 228
euros.

 EL COEFICIENTE DE VARIACIÓN

Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto
y por lo general se expresa en porcentaje para su mejor comprensión.

 X → Variable sobre la que se pretenden calcular la varianza


 σx → Desviación típica de la variable X.
 | x̄ | → Es la media de la variable X en valor absoluto con x̄ ≠ 0

 EJEMPLO:

Vamos a comprobar como, con cualquiera de las dos fórmulas expuestas, el resultado de la
desviación típica o desviación media es el mismo.

 Según la fórmula de la varianza (raíz cuadrada):

 Según la fórmula del valor absoluto:

Tal como dictaba el cálculo intuitivo. La desviación media es de 1. Pero, ¿no habíamos dicho que
la fórmula del valor absoluto y de la desviación típica daban valores diferentes? Así es, pero hay
una excepción. El único caso en que la desviación estándar y la desviación respecto de la media
ofrecen el mismo resultado es el caso en que todas las desviaciones son igual a 1

b) Medidas de posición

Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de
frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra
en el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de
Tendencia Central ". Pero estas medidas de posición de una distribución de frecuencias han de
cumplir determinadas condiciones para que lean verdaderamente representativas de la variable a
la que resumen. Toda síntesis de una distribución se considerará como operativa si intervienen en
su determinación todos y cada uno de los valores de la distribución, siendo única para cada
distribución de frecuencias y siendo siempre calculable y de fácil obtención. A continuación, se
describen las medidas de posición más comunes utilizadas en estadística, como lo son:

 Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero,
segundo y tercer cuartil.

Formula de Q1 para series de Datos Agrupados en Clase.

 Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).

El decil es aquel valor de una serie que supera a 1/10 parte de los datos y es superado por las 9/10
partes restantes (respectivamente, hablando en porcentajes, supera al 10% y es superado por el
90% restante),

 Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero a
los noventa y nueve percentiles).

El percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento
restante para series de Datos Agrupados en Clase.

Ejemplo:
En una serie de 32 términos se desea localizar el 4° sextil, 8° decil y el 95° percentil.

Esto significa que el 4° textil se encuentra localizado en el término número 21, es decir, el que
ocupa la 21° posición; el 8° decil se encuentra localizado entre el termino numero 25° y 26° y el 95°
percentil entre la posición 30° y 31° .
c) Correlación lineal

La correlación, también conocida como coeficiente de correlación lineal (de Pearson), es una
medida de regresión que pretende cuantificar el grado de variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos variables, es
decir, si se representan en un diagrama de dispersión los valores que toman dos variables, el
coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto de puntos representados
se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de
intensidad y el sentido de la relación entre dos variables.

Siendo:
 Cov (x;y): la covarianza entre el valor «x» e «y».
 σ(x): desviación típica de «x».
 σ(y): desviación típica de «y».

Valores que puede tomar la correlación

 ρ = -1          Correlación perfecta negativa


 ρ = 0           No existe correlación
 ρ = +1         Correlación perfecta positiva

Hablamos de correlación positiva si siempre que el valor «x» sube, el valor «y» sube, y además
con la misma intensidad (+1). En el caso opuesto, si siempre que el valor «x» sube, y el valor «y»
baja, y además con la misma intensidad, entonces estamos hablando de correlación negativa (-1).
Es importante saber que esto no quiere decir que lo hagan en la misma proporción (salvo que
tengan la misma desviación típica).

Representación gráfica de la correlación

 Correlación perfecta positiva:

 No hay correlación:
 Correlación perfecta negativa:

Consejo: en muchas ocasiones, no tenemos los medios o los datos suficientes para utilizar
esta fórmula. Por ello, si tenemos dos series de precios, podemos calcular el coeficiente de
correlación en excel, usando la siguiente función: coef.de.correl(serie de precios x;serie de
precios y).

d) Regresión lineal

La regresión lineal es quizás el método más conocido para “predecir” el comportamiento de los
datos o intentar hacerlo. Es como el caballito de batalla en los métodos predictivos, en Machine
Learning (ML) es considerada como una de la técnica central del aprendizaje supervisado.

Hago un ejemplo fácil con datos de la temperatura global. Los datos se pueden descargar desde la
página de Robert H. Shumway.

 #Cargamos los datos


o temperaturas.globales<-scan("data/globtemp.dat")
o x=temperaturas.global[45:142]
 #Asignamos los tiempos de nuestros datos
o t=1900:1997
 #Estimamos la recta que describe "mejor" nuestros datos
o fit=lm(x~t)
o plot(t,x,type="o",col="2",xlab="Años",ylab="Temperaturas globales",main="Ejemplo
de Regresión Lineal")
o abline(fit)

e) Diagramas posibles en la regresión y correlación lineal.

En un estudio sobre el sexismo en el trabajo se contrastaron las variables sexo y nivel de ingresos.
Los resultados obtenidos sobre una muestra de 528 individuos se presentan en una tabla de doble
entrada:
Se pide:

a) Representar gráficamente las variables en estudio.

b) Calcular una medida descriptiva del nivel de asociación entre ambas variables. Realizar un
análisis gráfico y analizar los resultados.

Punto 4

Una compañía asigna diferentes precios a un equipo de sonido particular en ocho regiones
diferentes del país.

 Tabla
Numero de ventas y precios

Ventas 402 381 350 430 441 380 405 420 421

Precio 45 66 70 90 75 45 65 70 65

Nota: La tabla adjunta muestra el número de unidades vendidas y los precios correspondientes (en
miles de pesos).
a) Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se
ajuste.

Se denomina regresión lineal cuando la función es lineal, es decir, requiere la determinación de dos
parámetros: la pendiente y la ordenada en el origen de la recta de regresión. [CITATION Reg \p 1 \l
9226 ]

Fórmula
  y=ax+ b
Tabla 2
Datos en ventas y precios de la compañía
Y X X*Y X2
402 45 18.090 2025
381 66 25.146 4356
350 70 24.500 4900
430 90 38.700 8100
441 75 33.075 5625
380 45 17.100 2025
405 65 26.325 4225
420 70 29.400 4900
421 65 27.365 4225
SUMATORIA 3.630 591 239.701 40.381
N: 9
Nota: Para completar la información se obtienen los siguientes valores ( x∗y ), ( x 2 ¿ y la
sumatoria.
 Para encontrar el valor de a y b de la fórmula y=ax+ b se utilizan las siguientes

fórmulas:

n ∑ xi y i−∑ x i ∑ y i
a= 2
n ∑ x 2i −( ∑ x i )

b=¿ ¿
Por lo que

n ∑ xi y i−∑ x i ∑ y i
a= 2
n ∑ x 2i −( ∑ x i )

9(239.701)−(591)(3,630)
a=
9 ( 40381 )−(591)2

2.157.309−2.145 .330
a=
363.429−349.281

11.979
a=
14.148

a=0.846692112
b=¿ ¿

(3.630)(40.381)−(591)(239.701)
b=
9 ( 40.381 )−(591)2

146.583 .030−141.663.291
b=
363.429−349,281

4.919 .739
b=
14.148

b=347.73
ECUACIÓN LINEAL QUE SE APROXIMA A LA RELACIÓN PRECIO-VENTAS:

y=ax+ b

y=0.846692112 x +347.73
b) Determinar las ventas si el precio es de 55, 58, 68, y 70 miles de pesos.

X =55
y=0.846692112(55)+ 347.73
y=394.2980662

X =58
y=0.846692112(58)+ 347.73
y=396.8381425

X =68
y=0.846692112(68)+347.73
y=405.3050636

X =70
y=0.846692112(70)+ 347.73
y=406.9984478

c) Determinar R y dar una interpretación

Tabla 3: Valores de y elevados al cuadrado

Y2
161.604
145.161
122.500
184.900
194.481
144.400
164.025
176.400
177.241
1.470.712

Nota: Se elevan los valores de Y para encontrar R


R=n ¿ ¿

9 ( 239.701 )−(591)( 3630)


R=
√ 9 ( 40.381 ) −(591)2 √ 9(1.470 .712)−(3.630)2
11.979
R=
(−228.138)(−8.764 .764)

11.979
R=
1.999575729

R=0.00000599077

d) Compare los valores dados anteriormente en un Software (GeoGebra, Excel, R,

RStudio)

Figura 1

Valores anteriores en Excel


Nota: Se grafica en Excel los calores dados para corroborar la información.

a) Organizando los datos en una gráfica nos muestra que los puntos se ubican cerca de una recta

lo cual tenemos correlación lineal

90

80

70

60

50

40

30

20

10

0
120 130 140 150 160 170 180 190 200
Fórmula y=ax+ b 

Datos para desarrollar ecuación

ALTURA PESO X*Y X2 Y2

X Y
126 53,5 6741 15876 2862,25
152 51,5 7828 23104 2652,25
155 56,5 8757,5 24025 3192,25
172 62,5 10750 29584 3906,25
185 40 7400 34225 1600
185 53,5 9897,5 34225 2862,25
187 82 15334 34969 6724
196 58 11368 38416 3364
SUMATORIA

1358 457,5 78076 234424 209306,25


N=8

 Para encontrar el valor de a y b de la fórmula y=ax+ b se utilizan las siguientes fórmulas:

n ∑ xi y i − ∑ x i ∑ y i
a= 2
b=¿ ¿
n ∑ x 2i −( ∑ x i )

n ∑ xi y i−∑ x i ∑ y i 8(78076)−(1358)( 457.5) 624608−621285


a= 2 a= 2 a=
2
n ∑ x −( ∑ x i )
i
8 ( 234424 )−(1358) 1875392−1844164

3323 (457.5)(234424)−(1358)(78076)
a= a=0.1064b=¿ ¿b=
31228 8 ( 234424 )−(1358)2

107248980−106027208 1221772
b= b= b=39.124
1875392−1844164 31228

Ecuación lineal:

y=ax+ b

y=0.1064 x+39.124
b) Determinar el peso si la altura es de 150, 153 y 175 cm

x=150 y=0.1064∗150+ 39.124 y=15.96+ 39.124 y=55.084

x=153 y=0.1064∗153+ 39.124 y=16.2792+39.124 y=55.4032

x=175 y=0.1064∗175+ 39.124 y=18.62+39.124 y=57.744

c) Determinar R y dar una interpretación

8 ( 78076 )−(1358)(457.5)
R=n ¿ ¿ R=
√ 8 ( 234424 ) −(1358)2 √8 (209306.25)−(457.5)2

624608−621285 3323
R= R=
√ 1875392−1844164 √ 1674450−209306.25 √ 30628 √1465143.75

3323 3323
R= R= R=0.5404
175.008∗1210.431 211835.108

REFERENCIA BIBLIOGRAFICA

 https://sites.google.com/site/iniciacionestadistica/introduccion/1-1-historia

 https://www.monografias.com/trabajos84/definicion-estadistica/definicion-estadistica.shtml

 https://bibliotecadeinvestigaciones.wordpress.com/matematicas/estadistica-descriptiva-
conceptos-generales/

 http://132.248.164.227/publicaciones/docs/apuntes_matematicas/34.%20Estadistica
%20Descriptiva.pdf

También podría gustarte