PDF U3 Estadistica

ESTADÍSTICA
UNIDAD 3. DISPERSIÓN EN LOS DATOS OBTENIDOS Y SU AJUSTE A UNA

LÍNEA RECTA
INTRODUCCIÓN .................................................................................................... 3
1. MEDIDAS DE DISPERSIÓN .............................................................................. 4

1.1 OSCILACIÓN, RANGO O RECORRIDO ......................................................................................... 4
1.1.1 Rango de datos no agrupados ............................................................................................ 4
1.1.2 Rango de datos agrupados ................................................................................................. 4
1.1.3 Rango intercuartílico .......................................................................................................... 5
1.2 VARIANZA ................................................................................................................................ 10
1.2.1 Varianza para datos no agrupados................................................................................... 10
1.2.2 Varianza para datos agrupados ........................................................................................ 11
1.3 DESVIACIÓN TÍPICA O ESTÁNDAR ........................................................................................... 13
1.3.1 Desviación estándar para datos no agrupados ................................................................ 13
1.3.2 Desviación estándar para datos agrupados ..................................................................... 13
1.4 DESVIACIÓN MEDIA................................................................................................................. 14
1.4.1 Desviación media para datos no agrupados .................................................................... 14
1.4.2 Desviación media para datos agrupados ......................................................................... 15
1.5 COEFICIENTE DE VARIACIÓN ................................................................................................... 16
2. REGRESIONES ............................................................................................... 18
2.1 CONCEPTO ............................................................................................................................... 18
2.2 REGRESIÓN LINEAL .................................................................................................................. 18
2.2.1 Regresión lineal simple..................................................................................................... 19
2.2.2 Covarianza ........................................................................................................................ 26
2.2.3 Coeficiente de correlación ............................................................................................... 29
ACTIVIDADES DE LA UNIDAD 3: ....................................................................... 34
TALLER ................................................................................................................ 35
GLOSARIO ........................................................................................................... 37
BIBLIOGRAFÍA .................................................................................................... 37
INTRODUCCIÓN
En esta tercera unidad, se abordará lo relacionado con las Medidas de Dispersión,

las cuales se calculan después de tener las Medidas de Tendencia Central, ya que
sirven para verificar la confiabilidad de las mismas.
Teniendo en cuenta el hecho de que no siempre en un estudio estadístico, se

manejan variables independientes, sino que en ocasiones hay variables que se
relacionan o dependen una de la otra, se trabajará también lo que tiene que ver con
las regresiones lineales, las cuales son una herramienta muy útil, a la hora de
identificar una posible relación entre variables.
De igual forma, se tocará el tema asociado con la Covarianza y el Coeficiente de

Correlación, los cuales ayudan a establecer, qué tan fuerte es la asociación entre
variables.
Conocimientos previos requeridos
Se requiere que al iniciar la unidad, el estudiante debería tener conocimientos

básicos en:
 Matemáticas, relacionados con la línea recta y el manejo del plano

cartesiano.
 Así mismo, se requiere que haya claridad en cuanto a lo trabajado en la
unidad 1 de esta asignatura, en lo que tiene que ver con las sumatorias; y en
general, todo lo trabajado en la unidad 2.
Sin embargo, cabe aclarar que en el transcurso del proceso, se brindarán los
conceptos necesarios para abordar cada temática.
Competencias
Al finalizar la unidad, el estudiante estará en capacidad de:
 Determinar las medidas de dispersión, tanto para datos agrupados, como para
no agrupados
 Interpretar las medidas de dispersión, al relacionarlas con las medidas de
tendencia central
 Identificar variables que se relacionan para ajustar sus diferentes valores a una
regresión lineal
 Determinar la regresión lineal que relaciona un par de variables
 Comprobar la fuerza de la relación que existe entre las variables a través del
coeficiente de correlación.
1. MEDIDAS DE DISPERSIÓN
Después de obtener las Medidas de Tendencia Central de un conjunto de datos, es

importante saber si estas los representan correctamente, es decir, si al tomarlas
como referente, son confiables, ya que según Arvello (s.f.), al trabajarlas
independientemente, estas no brindan información, de qué tan lejos o cerca se
encuentran los datos respecto a las mismas. Para esto se usan las Medidas de
Dispersión; según Muñoz (2000), estas miden precisamente la dispersión que tiene
la variable de estudio, respecto a las medidas de posición o de tendencia central,
indicando qué tan representativas son; de aquí se dice que a mayor dispersión, es
menor la representatividad de las medidas, y viceversa.
1.1 OSCILACIÓN, RANGO O RECORRIDO
Esta medida es la distancia que hay entre el dato mayor y el dato menor del
conjunto. Según García (s.f.), esta medida es sin duda la más fácil de obtener,
además su comprensión también es sencilla. Sin embargo, solamente considera los
valores extremos del conjunto, y no proporciona mayor información acerca de los
demás, por lo cual, para los diferentes análisis estadísticos, su utilidad es limitada.
1.1.1 Rango de datos no agrupados
En este caso, se toma el dato mayor y se le resta el dato menor.
Por ejemplo, para determinar el rango del siguiente conjunto de datos
70 63 67 68 67 66 76 64 70 66
64 58 56 68 61 67 62 61 81 64
68 77 71 59 69 65 75 67 73 62
68 63 71 74 70 63 76 66 64 64
79 83 66 77 70 66 69 69 58 67
65 67 80 59 54 52 61 71 62 69
61 67 65 57 62 78 63 67 57 67
72 70 68 66 70 65 65 67 72 73
El dato mayor es 83, y el menor es 52, por lo tanto, el rango es:
83 − 52 = 31
1.1.2 Rango de datos agrupados
En el caso de que se tengan los datos agrupados en intervalos, el procedimiento

para determinar el rango, es tomar el dato mayor de la última clase y restarle el dato
menor de la primera clase; por ejemplo, con el siguiente conjunto de datos
a absoluta
a relativa
a absoluta
Frecuenci
Frecuenci
Frecuenci
Frecuenci
acumulad
acumulad
a relativa
Marca
Clase
de clase
a
[235,240) 237.5 5 0.08 0.08 5
[240,245) 242.5 8 0.13 0.21 13
[245,250) 247.5 27 0.45 0.66 40
[250,255) 252.5 15 0.25 0.91 55
[255,260) 257.5 5 0.08 1 60
TOTAL 60 ≈1
Para determinar el rango, se toma el dato mayor de la última clase (260) y el dato
menor de la primera clase (235), y se restan
260 − 235 = 25
1.1.3 Rango intercuartílico
Este valor se refiere a la diferencia que existe entre el primer y tercer cuartil. La
forma de determinarlo es diferente para datos no agrupados y agrupados.
1.1.3.1 Rango intercuartílico para datos no agrupados
Se tiene por ejemplo el siguiente conjunto de datos, que representan la edad en

años de 12 personas (tomado y adaptado de Vigna, 2010).
20 49 59 18
32 32 63 24
20 32 53 48
Lo primero que se debe hacer es ordenar los datos:
18 20 20 24
32 32 32 48
49 53 59 63
Haciendo uso de la fórmula explicada en la unidad 2, referente al tema de cuartiles,

se tiene:
𝑛∗𝑘
𝑄𝑖 =
100
Donde n=número de datos y k= porcentaje de los datos que representa el cuartil,

se procede a determinar el primer y tercer cuartil
Primer cuartil
12 ∗ 25
𝑄1 = =3
100
De aquí se dice que se toman los valores que están en la posición 3 y 4, y se dividen
entre 2
20 + 24
𝑄1 = = 22
2
Tercer cuartil
12 ∗ 75
𝑄3 = =9
100
De aquí se dice que se toman los valores de las posiciones 9 y 10, y se dividen entre
2
49 + 53
𝑄3 = = 51
2
Con estos datos se dice que a partir de los 22 años hasta los 51, se encuentra el
50% central de los datos, y al determinar el rango intercuartílico, se tiene entonces
que:
51 − 22 = 29
Por tanto, se dice que la distancia entre el 50% central de los datos, es de 29 años.
1.1.3.2 Rango intercuartílico para datos agrupados
En este caso, se toma el ejemplo trabajado en la unidad 2, referente al tema de

cuartiles para datos agrupados.
Se tienen los siguientes datos, que representan los pesos en kg de 40 personas

(ordenados previamente).
10 10 10 10 11 11 11 12
12 13 14 14 15 15 15 16
17 17 17 18 18 18 19 19
19 19 20 20 20 20 21 21
22 22 22 24 24 24 25 25
Se agruparon los datos en la siguiente tabla de distribución de frecuencias:
Frecuenci
Frecuenci
a Relativa
Absoluta
Frecuencia
Frecuencia
acumulada
acumulada
Límites Marca
absoluta
Clase
relativa
Límites de
reales de de
a
clase
clase clase
N° Li. Ls Lri Lrs mi F f

1 9 11 8.5 11.5 10 7 0.175 7 0.175
2 12 14 11.5 14.5 13 5 0.125 12 0.3
3 15 17 14.5 17.5 16 7 0.175 19 0.475
4 18 20 17.5 20.5 19 11 0.275 30 0.75
5 21 23 20.5 23.5 22 5 0.125 35 0.875
6 24 26 23.5 26.5 25 5 0.125 40 1
Haciendo uso de la fórmula planteada en la unidad 2 (cuartiles para datos

agrupados), se procede a determinar el primer y tercer cuartil:
𝑛∗𝑘
− 𝐹𝑎
𝑄𝑖 = 𝐿𝑟𝑖 + 4 ∗ (𝐴𝑐)
𝐹𝑖
Siendo
Lri= Límite real inferior de la clase que contiene el i-cuartil

n= tamaño de la muestra
Fa= frecuencia absoluta acumulada de la clase anterior a la clase que contiene el i-
cuartil
𝐹𝑖 = frecuencia absoluta de la clase que contiene al i-cuartil
Ac= amplitud de la clase que contiene al i-cuartil
K= número del cuartil
Primer cuartil
Para determinar el primer cuartil, primero se divide el total de datos (40, valor
obtenido al sumar las frecuencias absolutas) entre cuatro partes iguales (cuartiles)
40
= 10
4
El dato que está en la posición 10 es el 13, y este dato está contenido en la clase o
intervalo número 2; de esta forma, se procede a definir los datos necesarios para
determinar el primer cuartil.
Lri=11.5
n=40
Fa=7
𝐹𝑖 =5
Ac=3
k=1
Se reemplazan en la ecuación
40
−7 10 − 7
𝑄1 = 11.5 + 4 ∗ (3) = 11.5 + ∗ (3) = 13.3
5 5
Tercer cuartil
Para determinar el tercer cuartil, se usa primero la siguiente ecuación:
𝑛 ∗ 𝑘 40 ∗ 3
= = 30
4 4
El dato que está en la posición 30 es el 20, y este aparece en la clase número 4,

entonces se procede a definir los datos necesarios para determinar el tercer cuartil.
Lri=17.5
n=40
Fa=19
𝐹𝑖 =11
Ac=3
k=3
Se reemplazan en la ecuación
40 ∗ 3
− 19 30 − 19
𝑄3 = 17.5 + 4 ∗ (3) = 17.5 + ∗ (3) = 20.5
11 11
Con estos datos se dice que a partir de los 13.3 kilogramos hasta los 20.5
kilogramos, se encuentra el 50% central de los datos, y al determinar el rango
intercuartílico:
20.5 − 13.3 = 7.2
Se dice que la distancia entre el 50% central de los datos, es de 7.2 kilogramos.
Ahora, en caso de que no se cuente con el conjunto de origen de los datos, sino
solamente la tabla de distribución de frecuencias, se tiene otro método para
determinar los cuartiles (Vigna, 2010), haciendo uso de la misma fórmula:
𝑛∗𝑘
− 𝐹𝑎
𝑄𝑖 = 𝐿𝑟𝑖 + 4 ∗ (𝐴𝑐)
𝐹𝑖
En el caso del primer cuartil, para identificar la clase que lo contiene, se revisa cuál
tiene una frecuencia relativa acumulada, que sea igual a 0.25 (25%), o un valor
superior cercano. Para el ejemplo, la clase número 2, tiene una frecuencia relativa
acumulada de 0.3; es el valor superior más cercano a 0.25; es decir, de esta clase
se deben extraer los datos que se van a reemplazar en la ecuación, lo cual confirma
lo que se realizó anteriormente para determinar el primer cuartil.
Y para el tercer cuartil, se revisa cuál clase tiene una frecuencia relativa acumulada,
igual a 0.75 (75%), o un valor superior cercano. En este caso, la clase número 4,
tiene exactamente una frecuencia relativa acumulada igual a 0.75; basándose en
esta clase, se deben definir los datos necesarios para reemplazar en la ecuación, y
esto confirma el procedimiento realizado anteriormente para determinar el tercer
cuartil.
Video de apoyo
Intercuartil datos agrupados. (Florez, 2016)
https://www.youtube.com//embed/d__Ib3AsviE
1.2 VARIANZA
La Varianza es básicamente la distancia promedio que existe entre cada uno de los
datos y su media aritmética o promedio. Se puede determinar la varianza de una
población y/o de una muestra, para lo cual, se tienen las siguientes fórmulas:
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆2 =
𝑛
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆2 =
𝑛−1
Donde:
𝑋𝑖 : i-ésima observación del conjunto
𝑋̅: media aritmética de los datos
𝑛: tamaño de la muestra
Según Cannavos (1988), esta es una medida razonablemente buena de

variabilidad, porque si la mayoría de las distancias entre cada observación y la
media aritmética son grandes, la varianza lo será también, o si son pequeñas, de la
misma forma la varianza lo será. Se debe tener en cuenta que esta medida es
bastante sensible a la presencia de valores extremos (demasiado grandes o
pequeños, respecto a los demás) y que, según Vigna (2010), por estar expresada
en el cuadrado de las unidades de los datos, puede ser de difícil interpretación.
1.2.1 Varianza para datos no agrupados
Se tiene por ejemplo el siguiente conjunto de datos: 5, 7, 8, 3, 6, 9 (no siempre son

datos diferentes, en ocasiones hay datos que se pueden repetir, depende de la
variable de estudio). En total son seis datos.
Primero se determina la media aritmética (recuerde que se suman los datos y se

divide este resultado entre el tamaño de la muestra)
38
𝑋̅ = = 6.33
6
Ahora, para determinar la varianza, se siguen los pasos:
1°. Se toma cada dato y se le resta la media aritmética

2°. Cada uno de esos resultados se eleva al cuadrado
3°. Se suman los resultados obtenidos.
4°. El resultado de la suma se divide entre el total de datos menos uno (n-1)
2
(𝑋1 − 𝑋̅)2 + (𝑋2 − 𝑋̅)2 + (𝑋3 − 𝑋̅)2 + (𝑋4 − 𝑋̅)2 + (𝑋5 − 𝑋̅)2 + (𝑋6 − 𝑋̅)2
𝑆 =
𝑛−1
2
(5 − 6.33)2 + (7 − 6.33)2 + (8 − 6.33)2 + (3 − 6.33)2 + (6 − 6.33)2 + (9 − 6.33)2
𝑆 =
5
(−1.33)2 + (0.67)2 + (1.67)2 + (−3.33)2 + (−0.33)2 + (2.67)2

𝑆2 =
5
23.33
𝑆2 = = 4.7
5
Nota: recordar que el denominador (“n” o “n-1”) depende del tipo de varianza que
se esté determinando, si de una población o de una muestra.
1.2.2 Varianza para datos agrupados
En el caso de los datos agrupados, se maneja la siguiente fórmula para determinar

la varianza (Vigna,2010):
2
∑𝑛𝑖=1(𝑚𝑖 − 𝑋̅)2 ∗ 𝑓𝑖
𝑆 =
𝑛−1
Donde:
𝑚𝑖 : marca de clase del intervalo en la posición i
𝑋̅: media aritmética de los datos
𝑓𝑖 : frecuencia absoluta del intervalo en la posición i
𝑛: tamaño de la muestra
Para el ejemplo, se toma la siguiente distribución de frecuencias (unidad 2, medidas

de tendencia central para datos agrupados)
Temperatura N° de días
(°C)
[27,28) 4
[28,29) 8
[29,30) 7
[30,31) 12
[31,32) 15
[32,33) 11
[33,34) 2
[34,35) 2
TOTAL 61
En la unidad 2, en el tema sobre Medidas de Tendencia Central para datos
agrupados, se determinó la media aritmética basada en la tabla anterior, haciendo
uso de la siguiente fórmula:
(𝑋1 ∗ 𝑓1 ) + (𝑋2 ∗ 𝑓2 ) + ⋯ + (𝑋𝑘 ∗ 𝑓𝑘 )

𝑋̅ =
𝑁
Donde:
N : Número total de datos
𝑿𝒊 : marca de clase del intervalo en la posición i
𝒇𝒊 : frecuencia del intervalo en la posición i
k : número de clases
Se obtuvo lo siguiente:
1876.5
𝑋̅ = = 30.8
61
Teniendo el valor de la media aritmética, se procede a realizar la siguiente tabla, la

cual facilita el proceso para reemplazar los valores necesarios a la hora de
determinar la varianza
Marca de N° de días
Temperatura clase ( 𝒎𝒊 ) (𝒇𝒊 ) ̅ )𝟐
(𝒎𝒊 − 𝑿
∗ 𝒇𝒊
[27,28) 27.5 4 43.56
[28,29) 28.5 8 42.32
[29,30) 29.5 7 11.83
[30,31) 30.5 12 1.08
[31,32) 31.5 15 7.35
[32,33) 32.5 11 31.79
[33,34) 33.5 2 14.58
[34,35) 34.5 2 27.38
TOTAL 61 179.89
Ahora se reemplaza en la fórmula:
2
∑𝑛𝑖=1(𝑚𝑖 − 𝑋̅)2 ∗ 𝑓𝑖
𝑆 =
𝑛−1
179.89
𝑆2 =
60
𝑆 2 = 2.99
1.3 DESVIACIÓN TÍPICA O ESTÁNDAR
Se calcula determinando la raíz cuadrada de la varianza, por lo que se obtendrá en

las unidades reales de los datos; a raíz de esto, se considera según Vigna (2010),
que con ella se puede determinar, cómo se comportan realmente los datos con
respecto a la media aritmética.
1.3.1 Desviación estándar para datos no agrupados
Continuando con el ejemplo anterior (varianza para datos no agrupados), teniendo

en cuenta que la varianza que se obtuvo fue:
𝑆 2 = 4.7
Al sacar la raíz cuadrada de este valor, se obtiene
𝑆 = 2.16
Con esto se dice que la variación de los datos respecto a la media aritmética, es
relativamente pequeña, por lo que podría confiarse en que este valor, más o menos
puede representar el conjunto de datos.
1.3.2 Desviación estándar para datos agrupados
Tomando nuevamente el ejemplo anterior (varianza para datos agrupados), la

varianza que se obtuvo fue:
𝑆 2 = 2.99
Al sacar la raíz cuadrada de este valor, se obtiene:
𝑆 = 1.72
Si se hace la comparación de esta desviación estándar con la del anterior conjunto

(datos no agrupados), se puede decir que, en este caso, el valor de la media
aritmética es más confiable para representar el conjunto de datos, ya que la
desviación es bastante pequeña.
Videos de apoyo
Cálculo varianza y desviación estándar de datos agrupados. (Ruiz, 2011)
https://www.youtube.com//embed/nHeiIR_Gaug
Video de apoyo
Varianza y desviación estándar. (Simbasica, 2013)
https://www.youtube.com//embed/vrgxWXAa9MY
1.4 DESVIACIÓN MEDIA
Según García (s.f.), la Desviación Media (MD), mide la desviación promedio de los
valores, con respecto a la media del grupo, sin tomar en cuenta el signo de la
desviación, por lo que se hace uso del valor absoluto de la distancia entre cada dato
y la media aritmética, y se determina de manera diferente para datos agrupados y
no agrupados.
1.4.1 Desviación media para datos no agrupados
Para el caso de los datos no agrupados, se tiene la siguiente fórmula (tomada de

García, s.f.):
∑𝑛𝑖=1 |𝑋𝑖 − 𝑋̅|

𝐷𝑥 =
𝑛−1
Nota: en este caso, al igual que para la desviación estándar, el denominador “n” o
“n-1”, depende del valor que se quiera determinar, es decir, si es para una población
o para una muestra respectivamente.
Tomando nuevamente el ejemplo con el siguiente conjunto de datos: 5, 7, 8, 3, 6, 9,

donde la media aritmética que se obtuvo fue:
38
𝑋̅ = = 6.33
6
Entonces se procede a
1°. Tomar cada dato y restarle la media aritmética

2°. A estos resultados, determinarles el valor absoluto
3°. Sumar los valores absolutos resultantes
4°. Dividir el resultado de esta suma entre el número de datos menos 1.
|𝑋1 − 𝑋̅| + |𝑋2 − 𝑋̅| + |𝑋3 − 𝑋̅| + |𝑋4 − 𝑋̅| + |𝑋5 − 𝑋̅| + |𝑋6 − 𝑋̅|
𝐷𝑥 =
𝑛−1
|5 − 6.33| + |7 − 6.33| + |8 − 6.33| + |3 − 6.33| + |6 − 6.33| + |9 − 6.33|

𝐷𝑥 =
6−1
|−1.33| + |0.67| + |1.67| + |−3.33| + |−0.33| + |2.67|
𝐷𝑥 =
5
10
𝐷𝑥 = =2
5
En este caso, la desviación media no difiere mucho de la desviación estándar.
1.4.2 Desviación media para datos agrupados
Para el caso de los datos agrupados, se tiene la siguiente fórmula (tomada de

García, s.f.):
∑𝑛𝑖=1|𝑚𝑖 − 𝑋̅| ∗ 𝑓𝑖
𝐷𝑥 =
𝑛−1
En este caso, se toma nuevamente el ejemplo con los siguientes datos:
Temperatura N° de días
(°C)
[27,28) 4
[28,29) 8
[29,30) 7
[30,31) 12
[31,32) 15
[32,33) 11
[33,34) 2
[34,35) 2
TOTAL 61
1876.5
Donde se obtuvo como media aritmética: 𝑋̅ = = 30.8
61
Entonces se realiza la siguiente tabla, que facilitará el proceso a la hora de

reemplazar los valores en la fórmula
Marca de N° de días (𝒇𝒊 )

Temperatura clase ( 𝒎𝒊 ) ̅|
|𝒎𝒊 − 𝑿
∗ 𝒇𝒊
[27,28) 27.5 4 13.2
[28,29) 28.5 8 18.4
[29,30) 29.5 7 9.1
[30,31) 30.5 12 3.6
[31,32) 31.5 15 10.5
[32,33) 32.5 11 18.7
[33,34) 33.5 2 5.4
[34,35) 34.5 2 7.4
TOTAL 61 86.3
Ahora se reemplazan los valores en la fórmula:
86.3
𝐷𝑥 =
60
𝐷𝑥 = 1.43
Para este caso, también se observa que esta desviación media no difiere mucho de
la desviación estándar.
1.5 COEFICIENTE DE VARIACIÓN
Según Vigna (2010), indica el porcentaje de variación con respecto a la media

aritmética, por lo que se expresa como:
𝑆
𝐶𝑉 = ∗ 100
𝑋̅
Donde:
𝑆: Desviación estándar del conjunto de datos
𝑋̅: Media aritmética del conjunto de datos
Aunque generalmente se maneje como un porcentaje, también se conoce el

coeficiente de variación de Pearson, en el cual no se multiplica por 100, solo se
realiza el siguiente cociente:
𝑆
𝐶𝑉 =
𝑋̅
Como resultado, se va a obtener un valor entre 0 y 1, cuando el valor resultante es

próximo a 0 (cero); esto representa poca variabilidad en los datos, pero cuando está
más cercano a 1, quiere decir que la muestra es muy dispersa. (Universo Fórmulas,
s.f.), este método es más aconsejable por la facilidad de interpretación que brinda.
A pesar de que la desviación estándar y la media aritmética se determinan de

manera diferente para datos agrupados y no agrupados, cuando ya se tienen estos
valores, el coeficiente de variación se determina de la misma forma en ambos casos.
Tomando el ejemplo anterior (varianza y desviación estándar para datos no

agrupados), se obtuvieron los siguientes valores:
𝑆 = 2.16
𝑋̅ = 6.33
Así que el coeficiente de variación, es:
2.16
𝐶𝑉 =
6.33
𝐶𝑉 = 0.34
Este valor representa una variabilidad relativamente pequeña de los datos.
Ahora, al tomar el ejemplo anterior (varianza y desviación estándar para datos

agrupados), se obtuvieron los siguientes valores:
𝑆 = 1.72
𝑋̅ = 30.8
Entonces el coeficiente de variación, resulta:
1.72
𝐶𝑉 =
30.8
𝐶𝑉 = 0.05
El valor obtenido es bastante cercano a 0 (cero), por lo que se dice que en esta
muestra, la variabilidad es mínima.
Video de apoyo
Medidas de Dispersión en Excel. (Valadez, 2012)
https://www.youtube.com//embed/UqMHmRzlOiU
Documento de Apoyo
Salinas, P. (2011), Medidas de dispersión. En Pedro José Salinas (1ª ed.),

Estadística para investigadores (pp. 29-40). Mérida, Venezuela: Editorial
Venezolana C.A. Recuperado de
http://www.saber.ula.ve/bitstream/123456789/34394/1/Libro_Completo.pdf
Favor dirigirse al material interactivo y desarrolle el “EJERCICIO DE REPASO 1”
2. REGRESIONES
Hasta ahora se ha tratado el trabajo individual de las variables, pero en ocasiones,

hay estudios que se basan en dos variables (cuantitativas) que se relacionan, o que
una depende de la otra. Para evaluar el nivel de relación que tienen dichas variables,
se hace una regresión lineal.
2.1 CONCEPTO
Este término lo introdujo por primera vez Francis Galton en su libro “Natural
Inheritance” (Patrimonio natural), en 1889; el trabajo que él realizó, se basó en
describir los rasgos físicos de descendientes (hijos) basándose en los de sus
padres. Es decir, estudió por ejemplo, la estatura de los hijos (una variable) y la de
los padres (otra variable), para lograr diseñar una “fórmula” en la que, teniendo la
estatura de los padres, se podría predecir la estatura de los hijos; dicha “fórmula”
es la ecuación de una línea recta. De aquí se dice, según López (s.f.), que el sentido
de la regresión lineal, es poder predecir la medida de determinada variable,
conociendo la medida de otra con la cual se relaciona.
Es así como la regresión lineal, se convierte en la técnica estadística usada para

estudiar la relación entre variables. Según Webster (2000), es una de las
herramientas estadísticas más poderosas usadas para solucionar problemas en los
negocios.
2.2 REGRESIÓN LINEAL
El proceso de ajustar los datos a una regresión lineal, se realiza con el fin de verificar
el comportamiento que estos tienen, es decir, si realmente una variable depende de
la otra.
Para esto se deben determinar los valores que son fijos en la ecuación de la recta,
de tal forma que solo sea necesario reemplazar el valor de una variable para obtener
el de la otra.
La verificación de tal comportamiento, también se hace gráficamente con la ayuda

del plano cartesiano.
Ahora, teniendo en cuenta que los datos se van a tratar de ajustar a una línea recta,
es importante recordar la ecuación de la función lineal:
𝑦 = 𝑓(𝑥) = 𝑚𝑥 + 𝑏
Donde los valores de “m” y de “b” son fijos.
2.2.1 Regresión lineal simple
En este caso, se habla específicamente de dos variables, denominadas “x” e “y”.

Aquí se dice que “y” depende de “x”, y eso matemáticamente se escribe:
𝑦 = 𝑓(𝑥)
Por lo anterior, “y” se denomina la variable dependiente, es la que se va a predecir,

es decir, determinar su valor a partir de determinado valor de “x”, esto con ayuda de
la ecuación lineal que se va a hallar; es denominada también variable respuesta.
A la variable “x” se le conoce como independiente, ya que toma valores sin depender
una de otra; se denomina también variable explicativa.
Ahora, hay que recordar que en la ecuación de la línea recta, la “m” está indicando
la pendiente, en este caso:
𝑦 = 𝑚𝑥 + 𝑏
Coeficiente de regresión, cuando:
 m<0, indica una relación inversa, es decir, si el

valor de una variable aumenta, el de la otra
disminuye, o viceversa
 m>0, indica una relación directa, es decir, si el
valor de una variable aumenta, el de la otra
también, y de la misma forma, cuando en lugar
de un aumento hay una disminución.
Teniendo en cuenta que los valores de “m” y de “b” en la ecuación son fijos, se
tienen las siguientes fórmulas para determinarlos, teniendo los valores de “x” e “y”.
(𝑛 ∗ ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 ) − (∑𝑛𝑖=1 𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖 )

𝑚=
(𝑛 ∗ ∑𝑛𝑖=1 𝑥𝑖 𝟐 ) − (∑𝑛𝑖=1 𝑥𝑖 )𝟐
𝑏 = 𝑦̅ − 𝑚𝑥̅
siendo 𝑥̅ e 𝑦̅ las medias aritméticas respectivas de las variables “x” e ”y”
Ejemplo 1 (tomado y adaptado de vadenumeros.es)
Una compañía de seguros considera que el número de vehículos que circulan por
determinada autopista a más de 120 km/h, puede ponerse en función del número
de accidentes (x) que ocurren en ella. Durante cinco días se obtuvieron los
siguientes datos:
Accidentes (𝒙𝒊 ) 5 7 2 1 9
Vehículos (𝒚𝒊 ) 15 18 10 8 20
a) Construir la regresión lineal que relaciona el número de accidentes con el

número de autos que circulan por la autopista a más de 120 km/h.
b) Si cierto día se produjeron seis accidentes, ¿Cuántos vehículos se puede
suponer que circulaban por la autopista a más de 120 km/h?
c) Realizar la gráfica que ayuda a verificar la relación entre las variables.
SOLUCIÓN
a) Para construir la regresión lineal, se deben determinar los valores de “m”
y de “b”; para esto se hace uso de las ecuaciones dadas anteriormente.
Pero antes, con ayuda de la siguiente tabla, se hallarán los valores
necesarios para reemplazar en las fórmulas.
𝒙 𝒚 𝒙∗𝒚 𝒙𝟐
5 15 75 25
7 18 126 49
2 10 20 4
1 8 8 1
9 20 180 81
TOTAL 24 71 409 160
Estos totales son los que se van a reemplazar

en las fórmulas; son los resultados de las
sumatorias
Ahora se reemplazan los valores en la fórmula para determinar “m”
(5 ∗ 409) − (24 ∗ 71)
𝑚=
(5 ∗ 160) − (24)2
341
𝑚=
224
𝑚 = 1.522
Para determinar “b”, se requieren las medias aritméticas de las variables “x” e “y”
24
𝑥̅ = = 4.8
5
71
𝑦̅ = = 14.2
5
Los valores obtenidos junto con el valor de “m”, se usan para determinar “b”
𝑏 = 14.2 − (1.522 ∗ 4.8)
𝑏 = 6.894
De esta manera, la ecuación que ajusta los datos a una regresión lineal, es:
𝑦 = 1.522 𝑥 + 6.894
Al analizar el valor de m (coeficiente de regresión), se puede ver que existe una

asociación lineal directa entre las variables (m>0); y al revisar los datos
proporcionados, se evidencia que, a mayor cantidad de accidentes, es porque
también aumentó el número de autos que circulaban por la autopista a más de 120
km/h.
Para dar respuesta a la pregunta, se reemplaza la cantidad de accidentes que se

produjeron en la ecuación lineal determinada anteriormente, sabiendo que “x” es la
variable que representa esta cantidad.
𝑦 = (1.522 ∗ 6) + 6.894
𝑦 = 16.02
Así se dice que el día que hubo seis accidentes en la autopista, circularon 16 autos
a más de 120 km/h.
Para graficar se toman los valores de “x” e “y”, y se ubican en el plano cartesiano
de la misma forma que se procede para graficar una función lineal.
Figura 1. Accidentes según el número de vehículos
Accidentes según el número de vehículos

25
y = 1,5223x + 6,8929
20
Vehículos
15
10 Vehículos
Lineal (Vehículos)
5
0
0 2 4 6 8 10
Accidentes
Fuente: elaboración propia
Para obtener la línea de color morado, se toman el valor máximo y mínimo de “x”, y
se reemplazan en la ecuación lineal que se determinó,
𝑦 = (1.522 ∗ 1) + 6.894 = 8.41
𝑦 = (1.522 ∗ 9) + 6.894= 20.59
Los puntos respectivos de “x” e “y” de la ecuación, se grafican y se unen mediante

la línea de color morado.
Finalmente, se verifica la asociación lineal positiva que existe entre las variables,
además se visualiza que los puntos de color naranja, casi están sobre la línea, por
lo que se dice que la ecuación lineal determinada se ajusta a los datos.
Video de apoyo
Regresión lineal en Excel vista. (pampreciosa, 2010)
https://www.youtube.com//embed/7zvKWzyeB2o
Nota: importante tener en cuenta los siguientes casos, para interpretar la

representación gráfica de la regresión.
Figura 2. La regresión
Fuente: Webster (2000)
Ejemplo 2 (tomado y adaptado de Caldera, 2009)
Una compañía de bienes raíces residenciales en cierta ciudad, desea poder predecir
los costos mensuales de rentas para departamentos, basados en su tamaño medido
en pies cuadrados. Para esto, selecciona una muestra de 25 departamentos, de los
cuales tiene su tamaño y el valor de la respectiva renta.
Tabla 1. Costos mensuales de rentas
Renta en Tamaño en pies

dólares cuadrados
(𝑦𝑖 ) (𝑥𝑖 )
950 850
1600 1450
1200 1085
1500 1232
950 718
1700 1485
1650 1136
935 726
875 700
1150 956
1400 1100
1650 1270
2300 1985
1800 1369
1400 1175
1450 1225
1100 1245
1700 1259
1200 1150
1170 896
1600 1361
1650 1040
1200 785
800 1010
1750 1210
Adaptado de (Caldera, 2009)
a) Determinar la regresión lineal que relaciona el tamaño de los departamentos

con el valor de su renta.
b) Realizar la gráfica que ayuda a verificar la relación entre las variables.
SOLUCIÓN
a) Para determinar la regresión lineal que relaciona las variables, se realiza

la siguiente tabla, la cual brindará los datos necesarios para reemplazar
en las respectivas fórmulas, para hallar los valores de “m” y “b”.
𝒙 𝒚 𝒙∗𝒚 𝒙𝟐
850 950 807500 722500
1450 1600 2320000 2102500
1085 1200 1302000 1177225
1232 1500 1848000 1517824
718 950 682100 515524
1485 1700 2524500 2205225
1136 1650 1874400 1290496
726 935 678810 527076
700 875 612500 490000
956 1150 1099400 913936
1100 1400 1540000 1210000
1270 1650 2095500 1612900
1985 2300 4565500 3940225
1369 1800 2464200 1874161
1175 1400 1645000 1380625
1225 1450 1776250 1500625
1245 1100 1369500 1550025
1259 1700 2140300 1585081
1150 1200 1380000 1322500
896 1170 1048320 802816
1361 1600 2177600 1852321
1040 1650 1716000 1081600
785 1200 942000 616225
1010 800 808000 1020100
1210 1750 2117500 1464100
TOTAL 28418 34680 41534880 34275610
Estos totales son los que se van a usar en la fórmula para determinar
el valor de “m”
(25 ∗ 41534880) − (28418 ∗ 34680)

𝑚=
(25 ∗ 34275610) − (28418)2
52835760
𝑚=
49307526
𝑚 = 1.071
Ahora para determinar el valor de “b” en la ecuación de la regresión

lineal, se requieren los valores de las medias aritméticas de las
variables “x” e “y”
28418
𝑥̅ = = 1136.72
25
34680
𝑦̅ = = 1387.2
25
Los valores obtenidos se reemplazan en la fórmula, junto con el valor

de “m”
𝑏 = 1387.2 − (1.071 ∗ 1136.72)
𝑏 = 169.77
Así que la ecuación de la regresión que relaciona el tamaño de los
departamentos con el respectivo valor de la renta, es:
𝑦 = 1.071𝑥 + 169.77
El valor del coeficiente de regresión (m=1.07), indica que si existiese

una relación entre el tamaño de los departamentos y el valor de la
renta, esta relación sería directa. (m>0)
b) La figura que ayuda a verificar la relación entre las variables, es la

siguiente:
Figura 3. Renta de los departamentos según su Tamaño
Renta de los departamentos según su

tamaño
2500 y = 1,0716x + 169,14
Renta del departamento
2000
1500
Series1
1000
Lineal (Series1)
500
0
0 500 1000 1500 2000 2500
Tamaño del departamento
Fuente: elaboración propia
 En este caso, se visualiza que posiblemente la regresión lineal que se

determinó, no se ajusta muy bien a los datos, ya que hay una buena parte de
puntos (coordenadas), que están considerablemente lejos de la línea recta
de color vino tinto. De esta forma, se dice que las variables en cuestión, quizá
no comparten una relación lineal muy fuerte.
2.2.2 Covarianza
Ahora, teniendo en cuenta que no siempre los puntos (coordenadas) se posicionan

sobre la línea recta, de la cual se determina la ecuación para relacionar las
variables, se tiene la covarianza, esta “mide la fuerza de la relación lineal entre dos
variables”, (estadística aplicada a las ciencias políticas, s.f.)
La fórmula para determinarla es:
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
𝐶𝑜𝑣(𝑥. 𝑦) = − (𝑋̅ ∗ 𝑌̅)
𝑛
Se dice que cuando se obtiene un valor demasiado alto de covarianza (comparado

con los valores de las variables), es porque “no implica efecto causal”, (estadística
aplicada a las ciencias políticas, s.f.).
Según el valor que se obtenga, se tienen las siguientes interpretaciones:

Indica que las variables tienen una relación
𝐶𝑜𝑣(𝑥, 𝑦) > 0 directa, se mueven en la misma dirección, es
decir, si una aumenta, la otra también y viceversa
𝐶𝑜𝑣(𝑥, 𝑦) < 0 Indica que las variables tienen una relación

inversa, es decir, si una aumenta, la otra
disminuye y viceversa.
𝐶𝑜𝑣(𝑥, 𝑦) = 0 Indica que las variables no están relacionadas

linealmente
Nota: el valor de la covarianza confirma el análisis que se realiza al

determinar el coeficiente de regresión, ya que tienen interpretaciones
similares.
Ejemplo 1
Tomando nuevamente el ejemplo 1, se va a determinar la covarianza, sabiendo que:

𝑛
∑ 𝑋𝑖 𝑌𝑖 = 409
𝑖=1
𝑋̅ = 4.8
𝑌̅ = 14.2
𝑛=5
Se procede a reemplazar en la fórmula:

409
𝐶𝑜𝑣(𝑥. 𝑦) = − (4.8 ∗ 14.2)
5
𝐶𝑜𝑣(𝑥. 𝑦) = 81.8 − 68.16
𝐶𝑜𝑣(𝑥. 𝑦) = 13.64
 Con esto se confirma que las variables tienen una relación directa (positiva),
ya que el coeficiente de regresión, mostró la misma situación (m=1.522), y
en este caso, el valor de la covarianza según la interpretación que se debe
dar (𝐶𝑜𝑣(𝑥, 𝑦) > 0), muestra dicha relación entre las variables. Como se dijo
anteriormente, entre más accidentes se presentan, esto indica que la
circulación de autos a más de 120 km/h, también aumentó.
Ejemplo 2
Tomando nuevamente los datos del ejemplo 2, se va a determinar la covarianza,

sabiendo que:
𝑛
∑ 𝑋𝑖 𝑌𝑖 = 41534880
𝑖=1
𝑋̅ = 1136.72
𝑌̅ = 1387.2
𝑛 = 25
Se reemplazan estos datos en la fórmula:
41534880
𝐶𝑜𝑣(𝑥. 𝑦) = − (1136.72 ∗ 1387.2)
25
𝐶𝑜𝑣(𝑥. 𝑦) = 1661395.2 − 1576857.984
𝐶𝑜𝑣(𝑥. 𝑦) = 83537.216
 En este caso, se confirma lo que se había determinado a través del

coeficiente de regresión, que la relación entre las variables es directa, y al
revisar los valores, se podría decir que a mayor tamaño de los
departamentos, el valor de la renta también aumenta; sin embargo, por el
valor de la covarianza, se debe empezar a contemplar la posibilidad de que
no existe un efecto causal fuerte de una variable en la otra.
2.2.3 Coeficiente de correlación
La covarianza ayuda a confirmar lo que indica el valor del coeficiente de regresión,

y estos dan un indicio sobre la asociación entre las variables, pero realmente el valor
que indica qué tan fuerte es la relación lineal existente, es el coeficiente de
correlación.
Este valor oscila entre 1 y -1; entre más se acerque a estos límites, se puede decir
que existe una relación perfecta.
Cuando se acerca más a -1, quiere decir que la relación es inversa, y si su

proximidad es hacia 1, indica que la relación entre las variables es directa.
La fórmula para determinar el coeficiente de correlación es:
𝐶𝑜𝑣(𝑥. 𝑦)
𝑟(𝑥.𝑦) =
𝑆(𝑥) ∗ 𝑆(𝑦)
Siendo 𝑆(𝑥) y 𝑆(𝑦) , las desviaciones estándar de las variables “x” e “y”
respectivamente.
Ejemplo 1.
Tomando nuevamente los datos el ejemplo 1, se va a determinar el coeficiente de

correlación entre el número de vehículos que circulan por la autopista a más de 120
km/h, y el número de accidentes.
El valor de la covarianza ya se determinó; hace falta determinar las desviaciones

estándar de las variables “x” e “y”; para esto se usará la fórmula proporcionada
anteriormente (varianza y desviación estándar para datos no agrupados).
 En el caso de la variable “x” (número de accidentes), se tiene:
(𝑋1 − 𝑋̅)2 + (𝑋2 − 𝑋̅)2 + (𝑋3 − 𝑋̅)2 + (𝑋4 − 𝑋̅)2 + (𝑋5 − 𝑋̅)2
𝑆2 =
𝑛−1
El valor de la media aritmética de esta variable es:

𝑋̅ = 4.8
Así que, reemplazando en la fórmula, se tiene:
2
(5 − 4.8)2 + (7 − 4.8)2 + (2 − 4.8)2 + (1 − 4.8)2 + (9 − 4.8)2
𝑆 =
5−1
44.8
𝑆2 =
4
𝑆 2 = 11.2
El valor determinado es el de la varianza; para hallar la desviación estándar,

se halla la raíz cuadrada de esta.
𝑆(𝑥) = 3.35
 En el caso de la variable “y” (número de vehículos), se tiene
2
(𝑌1 − 𝑌̅)2 + (𝑌2 − 𝑌̅)2 + (𝑌3 − 𝑌̅)2 + (𝑌4 − 𝑌̅)2 + (𝑌5 − 𝑌̅)2
𝑆 =
𝑛−1
El valor de la media aritmética de esta variable es:
𝑌̅ = 14.2
Al reemplazar en la fórmula se obtiene:
(15 − 14.2)2 + (18 − 14.2)2 + (10 − 14.2)2 + (8 − 14.2)2 + (20 − 14.2)2

𝑆2 =
5−1
104.8
𝑆2 =
4
𝑆 2 = 26.2
𝑆(𝑦) = 5.12
Teniendo las desviaciones estándar y el valor de la covarianza
𝐶𝑜𝑣(𝑥. 𝑦) = 13.64
Se procede a reemplazar en la fórmula para hallar el coeficiente de

correlación
13.64
𝑟(𝑥.𝑦) =
3.35 ∗ 5.12
𝑟(𝑥.𝑦) = 0.8
Con este valor, se observa que existe una relación directa bastante fuerte entre las
variables, (se acerca a 1), lo cual se evidenció al realizar la gráfica y al determinar
la covarianza.
Ejemplo 2:
Tomando nuevamente los datos del ejemplo 2, se va a determinar el coeficiente de

correlación entre el tamaño de los departamentos y el valor de su renta.
Ya se tiene el valor de la covarianza, así que hace falta hallar las desviaciones
estándar de las variables. Teniendo en cuenta que son 25 datos, en este caso no
se trabajará la fórmula directamente, sino que se realizará la siguiente tabla, la cual
proporcionará los datos necesarios para determinar las desviaciones estándar.
 En el caso de la variable “x” (tamaño del departamento), la media aritmética

es
𝑋̅ = 1136.72
Ahora la tabla resulta:
𝒙 ̅
𝑿𝒊 − 𝑿 ̅ )𝟐
(𝑿𝒊 − 𝑿
850 -286,72 82208,3584
1450 313,28 98144,3584
1085 -51,72 2674,9584
1232 95,28 9078,2784
718 -418,72 175326,438
1485 348,28 121298,958
1136 -0,72 0,5184
726 -410,72 168690,918
700 -436,72 190724,358
956 -180,72 32659,7184
1100 -36,72 1348,3584
1270 133,28 17763,5584
1985 848,28 719578,958
1369 232,28 53953,9984
1175 38,28 1465,3584
1225 88,28 7793,3584
1245 108,28 11724,5584
1259 122,28 14952,3984
1150 13,28 176,3584
896 -240,72 57946,1184
1361 224,28 50301,5184
1040 -96,72 9354,7584
785 -351,72 123706,958
1010 -126,72 16057,9584
1210 73,28 5369,9584
TOTAL 28418 -191,44 1972301,04
Tomando los datos de la tabla, se determina la varianza y luego la desviación
estándar
1972301,04
𝑆2 =
24
𝑆(𝑥) = 286.66
 En el caso de la variable “y” (valor de la renta), la media aritmética es
𝑌̅ = 1387.2
Ahora la tabla resulta:
𝒚 ̅
𝒀𝒊 − 𝒀 ̅ )𝟐
(𝒀𝒊 − 𝒀
950 -437,2 191143,84
1600 212,8 45283,84
1200 -187,2 35043,84
1500 112,8 12723,84
950 -437,2 191143,84
1700 312,8 97843,84
1650 262,8 69063,84
935 -452,2 204484,84
875 -512,2 262348,84
1150 -237,2 56263,84
1400 12,8 163,84
1650 262,8 69063,84
2300 912,8 833203,84
1800 412,8 170403,84
1400 12,8 163,84
1450 62,8 3943,84
1100 -287,2 82483,84
1700 312,8 97843,84
1200 -187,2 35043,84
1170 -217,2 47175,84
1600 212,8 45283,84
1650 262,8 69063,84
1200 -187,2 35043,84
800 -587,2 344803,84
1750 362,8 131623,84
TOTAL 34680 -0,12 3130758,94
Tomando los datos de la tabla, se determina la varianza y luego la desviación
estándar
3130758.94
𝑆2 =
24
𝑆(𝑦) = 361.17
Teniendo las desviaciones estándar y el valor de la covarianza
𝐶𝑜𝑣(𝑥. 𝑦) = 83537.216
Se procede a reemplazar en la fórmula para hallar el coeficiente de correlación
83537.216
𝑟(𝑥.𝑦) =
286.66 ∗ 361.17
𝑟(𝑥.𝑦) = 0.6
Con este resultado, se evidencia que la relación lineal entre el tamaño del
departamento y la renta, según los datos proporcionados, no es tan fuerte como se
esperaría, lo cual se evidenció con la gráfica y con el valor de la covarianza.
Video de apoyo
Calcular coeficiente de correlación con Excel. (financialred, 2012)
https://www.youtube.com//embed/_g_hIebKlvQ
Documento de Apoyo
Valdéz, I. (s.f.). Regresión lineal simple. Disponible en
http://www.dcb.unam.mx/profesores/irene/Notas/Regresion.pdf
Documento de Apoyo
Ruiz, A. (11/08/2011). Regresión lineal y correlación. Disponible en
http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin
Favor dirigirse al material interactivo y desarrolle el “EJERCICIO DE REPASO 2”

Actividades de la Unidad 3:
Actividad 1. Taller:
Tipo de actividad (subida avanzada de archivos)
Basándose en el material disponible en el Aula Virtual, y además, apoyándose en

los recursos digitales propuestos, realice un estudio relacionado con su respectivo
programa, donde maneje dos variables que se relacionen. Determinar la regresión
lineal que las relaciona y verificar dicha relación con el coeficiente de correlación.
Realizar el gráfico respectivo y concluir.
El estudio debe estar bien sustentado e investigado.
Formato de entrega: el nombre del archivo debe tener el siguiente formato
“Apellido_Nombre_Actividad_1”
Ejemplo: “Castillo_Anderson_Actividad_1”
Plazo máximo de entrega: de acuerdo a lo estipulado en el cronograma del

curso.
Actividad 2. Taller:
Tipo de actividad (subida avanzada de archivos)
Basándose en el material disponible en el Aula Virtual, además apoyándose en

los recursos digitales propuestos, desarrolle y entregue el siguiente taller:
Lea atentamente las instrucciones de presentación.
El taller debe cargarse al Aula Virtual, en formato pdf; los archivos que se envíen
en formatos diferentes, no serán revisados ni calificados.
Formato de entrega: el nombre del archivo debe tener el siguiente formato
“Apellido_Nombre_Actividad_ 2”
Ejemplo: “Castillo_Anderson_Actividad_2”
Plazo máximo de entrega: de acuerdo a lo estipulado en el cronograma del

curso.
Taller
1. Los siguientes son los estudiantes que se encontraron con desnutrición en 80

colegios oficiales de Boyacá.
70 63 67 68 67 66 76 64 70 66
64 58 56 68 61 67 62 61 81 64
68 77 71 59 69 65 75 67 73 62
68 63 71 74 70 63 76 66 64 64
79 83 66 77 70 66 69 69 58 67
65 67 80 59 54 52 61 71 62 69
61 67 65 57 62 78 63 67 57 67
72 70 68 66 70 65 65 67 72 73
Determinar las medidas de dispersión para decidir, qué tan confiables son las
medidas de tendencia central de este conjunto de datos.
2. La siguiente tabla de distribución de frecuencias, representa las distancias

recorridas en metros, por 70 atletas en 2 horas. Determinar las medidas de
dispersión ¿Qué se puede concluir a partir de ellas?
a absoluta
a relativa
a absoluta
Frecuenci
Frecuenci
Frecuenci
Frecuenci
acumulad
acumulad
a relativa
Marca
Clase
de clase
a
a
[235,245) 240 17 0.24 0.24 17
[245,255) 250 11 0.16 0.40 28
[255,265) 260 17 0.24 0.64 45
[265,275) 270 15 0.22 0.86 60
[275,285) 280 10 0.14 1 70
TOTAL 70 1
3. La siguiente tabla muestra el número de páginas y el costo de 10 obras literarias
N° de Costo
páginas ($)
170 2000
290 3200
300 3500
180 2100
310 4400
240 2900
220 2600
210 2650
280 3300
250 3000
 Determinar la regresión lineal que asocia el número de páginas de las

obras literarias con su costo. Interpretar el coeficiente de regresión y
verificar las hipótesis a través de la covarianza y el coeficiente de
correlación.
4. La siguiente tabla, muestra la edad y el peso respectivo de 10 jovencitas.
PESO
EDAD
(kg)
17 52
15 48
18 55
16 54
19 58
15 50
14 47
17 54
20 60
19 59
 Ajustar los datos a una línea recta, graficar y determinar el coeficiente de

correlación. ¿Se podría decir, que el peso de cada jovencita, depende de
su edad?
 ¿Qué peso se esperaría que tuviera una jovencita de 21 años?
5.
Un granjero distribuye huevos en varias ciudades aledañas. En el transcurso del
viaje, algunos huevos se rompen, se agrietan, por lo cual, no pueden ser
vendidos. Desde hace 50 días, el granjero viene registrando el número de
huevos que no se han logrado vender.
15 10 9 11 15 16 9 10 10 10
12 14 14 15 11 11 12 16 15 17
16 16 15 14 10 11 11 11 12 12
12 11 13 14 16 15 18 19 18 10
11 12 12 11 13 13 15 13 12 14
 Hallar las medidas de tendencia central y medir su confiabilidad.

Concluir.
GLOSARIO
Dispersión: característica importante del conjunto de datos que indica, qué tan
separados se encuentran respecto a una medida de tendencia central. (García, s.f.)
Variabilidad: capacidad de cambio que se presenta en los datos a lo largo del

conjunto respecto a una medida específica, (sinónimo de dispersión).
Desviación estándar: se calcula como la raíz cuadrada de la varianza, y qué tanto

se alejan o se acercan en promedio los datos a la media aritmética. (Vigna, 2010)
Correlación: indica el nivel de la relación que existe entre dos variables. Es decir,
el coeficiente de correlación muestra si realmente los datos tienden a disponerse de
forma lineal, (López, s.f.)
Efecto causal: el efecto que tiene una variable sobre otra, es decir, si una variable
influye sobre otra, el cambio en la variable influyente, necesariamente generará un
cambio en la variable influida, (Pérez, 2010)
BIBLIOGRAFÍA
 Arvello, A. (s.f.). Medidas de dispersión. Disponible en

http://www.arvelo.com.ve/pdf/medidas-de-dispersion-arvelo.pdf
 Caldera, M. (2009). Correlación y regresión lineal para procesos de producción:

Gestiopolis. http://www.gestiopolis.com/correlacion-y-regresion-lineal-para-
procesos-de-produccion/
 Cannavos, G.C. (1988). Probabilidad y estadística, aplicaciones y métodos.

México: Mc Graw Hill.
 García, C. (s.f.). Medidas de dispersión. Universidad Autónoma del Estado de

Hidalgo, Sistema de Universidad Virtual. Disponible en
http://fcps.uaq.mx/descargas/prope2014/estadistica/4/medidas_dispersion.pdf
 López, F. (s.f.). Regresión lineal. Disponible en

http://www.dmae.upm.es/WebpersonalBartolo/Probabilidad/15_RegresionLinea
l.pdf
 Muñoz, D. R. (2000). Manual de estadística. Juan Carlos Martínez Coll.

Recuperado de
https://books.google.es/books?hl=es&lr=&id=WdgP8dknR08C&oi=fnd&pg=PA1
1&dq=manual+de+estad%C3%ADsticas+David+Ruiz&ots=s8K3zUAd1c&sig=N
1rSrntUSSgV81h9TJLhF4AvJFM#v=onepage&q&f=false
 Pérez, P. (2010). Introducción al análisis empírico de variables económicas.
Disponible en https://rua.ua.es/dspace/bitstream/10045/15809/1/Tema1p.pdf
 Universo Fórmulas (s.a.). Coeficiente de variación de Pearson.

http://www.universoformulas.com/estadistica/descriptiva/coeficiente-variacion-
pearson/
 Vadenumeros.es ,(s.a.). Ejercicios de estadística, covarianza, correlación y

recta de regresión. http://www.vadenumeros.es/sociales/ejercicios-
distribuciones-bidimemensionales.htm
 Vigna, A. (2010). Medidas de dispersión. Disponible en

http://www.fder.edu.uy/contenido/rrii/contenido/curricular/estadistica/010102.pdf
 Webster, A.L. (2000). Estadística aplicada a los negocios y la economía.

México: Mc Graw Hill. Recuperado de
http://matematicaeducativa.com/libros/estadistica_negocios.pdf
VERSIÓN: 1.0 FECHA EDICIÓN: 11/11/2016

CRÉDITOS UPTC EQUIPO DE PRODUCCIÓN
Autor / compilador: Yuri Carolina Niño Castillo
Comité de gestión y calidad FESAD

Equipo de Producción:
Oficina de Educación Virtual

PDF U3 Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PDF U3 Estadistica

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

UNIDAD 3. DISPERSIÓN EN LOS DATOS OBTENIDOS Y SU AJUSTE A UNA

1. MEDIDAS DE DISPERSIÓN .............................................................................. 4

ACTIVIDADES DE LA UNIDAD 3: ....................................................................... 34

En esta tercera unidad, se abordará lo relacionado con las Medidas de Dispersión,

Teniendo en cuenta el hecho de que no siempre en un estudio estadístico, se

De igual forma, se tocará el tema asociado con la Covarianza y el Coeficiente de

Conocimientos previos requeridos

Se requiere que al iniciar la unidad, el estudiante debería tener conocimientos

 Matemáticas, relacionados con la línea recta y el manejo del plano

Al finalizar la unidad, el estudiante estará en capacidad de:

Después de obtener las Medidas de Tendencia Central de un conjunto de datos, es

1.1 OSCILACIÓN, RANGO O RECORRIDO

1.1.1 Rango de datos no agrupados

En este caso, se toma el dato mayor y se le resta el dato menor.

Por ejemplo, para determinar el rango del siguiente conjunto de datos

El dato mayor es 83, y el menor es 52, por lo tanto, el rango es:

1.1.2 Rango de datos agrupados

En el caso de que se tengan los datos agrupados en intervalos, el procedimiento

[240,245) 242.5 8 0.13 0.21 13

[245,250) 247.5 27 0.45 0.66 40

[250,255) 252.5 15 0.25 0.91 55

[255,260) 257.5 5 0.08 1 60

1.1.3 Rango intercuartílico

1.1.3.1 Rango intercuartílico para datos no agrupados

Se tiene por ejemplo el siguiente conjunto de datos, que representan la edad en

Lo primero que se debe hacer es ordenar los datos:

Haciendo uso de la fórmula explicada en la unidad 2, referente al tema de cuartiles,

Donde n=número de datos y k= porcentaje de los datos que representa el cuartil,

En este caso, se toma el ejemplo trabajado en la unidad 2, referente al tema de

Se tienen los siguientes datos, que representan los pesos en kg de 40 personas

Se agruparon los datos en la siguiente tabla de distribución de frecuencias:

N° Li. Ls Lri Lrs mi F f

Haciendo uso de la fórmula planteada en la unidad 2 (cuartiles para datos

Lri= Límite real inferior de la clase que contiene el i-cuartil

Para determinar el tercer cuartil, se usa primero la siguiente ecuación:

El dato que está en la posición 30 es el 20, y este aparece en la clase número 4,

20.5 − 13.3 = 7.2

Intercuartil datos agrupados. (Florez, 2016)

Según Cannavos (1988), esta es una medida razonablemente buena de

1.2.1 Varianza para datos no agrupados

Se tiene por ejemplo el siguiente conjunto de datos: 5, 7, 8, 3, 6, 9 (no siempre son

Primero se determina la media aritmética (recuerde que se suman los datos y se

Ahora, para determinar la varianza, se siguen los pasos:

1°. Se toma cada dato y se le resta la media aritmética

(−1.33)2 + (0.67)2 + (1.67)2 + (−3.33)2 + (−0.33)2 + (2.67)2

1.2.2 Varianza para datos agrupados

En el caso de los datos agrupados, se maneja la siguiente fórmula para determinar

Para el ejemplo, se toma la siguiente distribución de frecuencias (unidad 2, medidas

(𝑋1 ∗ 𝑓1 ) + (𝑋2 ∗ 𝑓2 ) + ⋯ + (𝑋𝑘 ∗ 𝑓𝑘 )

Teniendo el valor de la media aritmética, se procede a realizar la siguiente tabla, la

Ahora se reemplaza en la fórmula:

Se calcula determinando la raíz cuadrada de la varianza, por lo que se obtendrá en

1.3.1 Desviación estándar para datos no agrupados

Continuando con el ejemplo anterior (varianza para datos no agrupados), teniendo

Al sacar la raíz cuadrada de este valor, se obtiene

1.3.2 Desviación estándar para datos agrupados

Tomando nuevamente el ejemplo anterior (varianza para datos agrupados), la

Al sacar la raíz cuadrada de este valor, se obtiene:

Si se hace la comparación de esta desviación estándar con la del anterior conjunto

Cálculo varianza y desviación estándar de datos agrupados. (Ruiz, 2011)

Varianza y desviación estándar. (Simbasica, 2013)

1.4 DESVIACIÓN MEDIA