Está en la página 1de 17

PROBABILIDAD

Y ESTADISTICA

Ing. Martín Nieto Guerra


APUNTES CORRESPONDIENTES AL SEGUNDO PARCIAL
BLOQUE 3

III.- MEDIDAS DE DISPERSIÓN

Medidas de dispersión. En estadística, las medidas de dispersión (también llamadas variabilidad, dispersión o propagación)
es el grado en que una distribución se estira o exprime.

¿Qué son las medidas de dispersión?

Las medidas de dispersión o de variación, en estadística, miden cuánto se aleja una distribución de datos del valor de una
medida central, como puede ser la media o promedio aritmético. Su valor siempre es positivo y normalmente distinto de 0,
salvo en el caso de datos idénticos.

Si una medida de dispersión arroja un valor pequeño, significa que los datos se ubican muy cercanos al promedio,
pero si es grande, quiere decir que los datos están más dispersos, por lo tanto, alejados de la media.

Las medidas de dispersión son muy importantes desde el punto de vista estadístico, no solo como indicadores aritméticos de la
variación de los datos, sino como una ayuda inestimable cuando se quiere mejorar la calidad, tanto en la manufactura de
productos como en la prestación de servicios.

Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética. Sirven como indicador de la
variabilidad de los datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.
Son importantes también porque nos hablan de la variabilidad que encontramos en una determinada muestra o población.
Cuando hablamos de muestra, esta dispersión es importante porque condiciona el error que vamos a tener a la hora de hacer
inferencias para medidas de tendencia central, como la media.

En las medidas de dispersión, hay tres componentes importantes relacionados con la variabilidad aleatoria:

 La percepción de su ubicuidad en el mundo que nos rodea.

 La competencia para su explicación.

 La habilidad de cuantificarla (que implica comprender y saber aplicar el concepto de dispersión).

1.- RANGO

Indica la dispersión entre los valores extremos de una variable. se calcula como la diferencia entre el mayor y el menor valor de
la variable. Se denota como R.

El rango está recomendado para una comparación primaria. De esta manera, considera solo las dos observaciones extremas.
Por eso se recomienda solo para muestras pequeñas.

R = XM – Xm

R = Rango o Recorrido.

XM = Dato mayor de la muestra.

Xm = Dato menor de la muestra.

Ejemplo de rango:
1.- Esta es una lista del número de huracanes ocurridos en el Atlántico durante los últimos 14 años:
8; 9; 7; 8; 15; 9; 6; 5; 8; 4; 12; 7; 8; 2
El dato de valor máximo es 15, y el valor mínimo es 2, por lo tanto:

R = Valor máximo – valor mínimo = 15 – 2 = 13 huracanes

2.- Supongamos que tenemos una empresa que produce microchips para luego venderlos a las principales marcas de
computadoras. Esta empresa encarga a un economista que realice un estudio sobre la evolución de las ventas (últimos 4 años)
para, posteriormente, ofrecer consejos que mejoren los resultados empresariales. Entre otras muchas métricas, se pide que se
calcule el rango de producción de microchips. A continuación, se muestra la siguiente tabla de datos:
MES 1 44.347 MES 25 46.136
MES 2 12.445 MES 26 18.007
MES 3 26.880 MES 27 36.339
MES 4 23.366 MES 28 27.696
MES 5 42.464 MES 29 47.413
MES 6 15.480 MES 30 47.636
MES 7 21.562 MES 31 20.978
MES 8 11.625 MES 32 49.079
MES 9 39.496 MES 33 40.668
MES 10 39.402 MES 34 45.932
MES 11 47.699 MES 35 40.454
MES 12 44.315 MES 36 46.132
MES 13 29.581 MES 37 35.054
MES 14 44.320 MES 38 11.906
MES 15 35.264 MES 39 22.532
MES 16 10.124 MES 40 43.045
MES 17 43.520 MES 41 45.074
MES 18 26.360 MES 42 16.505
MES 19 19.534 MES 43 27.336
MES 20 30.755 MES 44 37.831
MES 21 37.327 MES 45 29.757
MES 22 15.832 MES 46 37.765
MES 23 33.919 MES 47 22.237
MES 24 29.498 MES 48 38.601

RANGO MAXIMO = 49.079


RANGO MINIMO = 10.124
RANGO = 38.955
El mes que más microchips produjo la empresa (MÁXIMO) fue el mes 32 con 49.079 microchips producidos. Por su parte, el
momento que menos microchips produjo tuvo lugar en el mes 16 con 10.124 microchips producidos. Por tanto, el rango
estadístico que es la diferencia (49.079-10.124) se sitúa en 38.955.

¿Cómo se interpreta esto? Esto quiere decir, que durante los últimos 4 años la variación máxima que ha habido ha sido de
38.955 microchips producidos.

2.- DESVIACIÓN MEDIA


La desviación media, también llamada desviación absoluta promedio, es una medida de dispersión estadística.

La desviación media de un conjunto de datos es la media aritmética de los valores absolutos de los que se desvía cada
valor respecto a la media.

Esta medida de dispersión nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la
muestra y la media de los datos y se determina de la siguiente manera:

DM = |X1 – X | + |X2 – X | + |X3 - X |+….. +|Xn - X| =


n

En resumen tenemos

Donde:

DM ó Dx = Desviación Media

xi: Valores de la variable.

x = Media aritmética de la muestra.


n: número total de datos.

Y se interpreta como el grado de alejamiento absoluto promedio de los datos con respecto a su media.

¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la Media Aritmética? Si solo se hicieran
deferencias entre cada dato y la media aritmética, éstas tendrían signos positivos y negativos ya que algunos datos
son menores que la media y otros son mayores que la media, luego al sumar las diferencias, con sus signos
correspondientes, éstas se irían anulando unas con otras, dando como resultado cero y no sería posible medir el
grado de alejamiento promedio de los datos en la muestra.

La desviación media indica dónde estarían concentrados los datos si todos estuvieran a la misma distancia de la
media aritmética. Consideramos la desviación de un valor de la variable como la diferencia en valor absoluto entre ese
valor de la variable y la media aritmética de la serie. Así pues, se considera como la media aritmética de las
desviaciones.

EJEMPLOS:
1.- Un analista está estudiando los resultados económicos de una empresa durante el año pasado, y tiene la
información del beneficio obtenido por la empresa en cada trimestre de dicho año: 2, 3, 7 y 5 millones de dólares.
¿Cuál es la desviación media de los datos?

1º. Calculamos la media.


X = 2 + 3 + 7 + 5 = 17/4 = 4.25
4
2º.- Aplicamos la fórmula de la desviación media.

DM = | 2 – 4 .25| + | 3 - 4.25| + | 7 - 4.25| + | 5 - 4.25| = |- 2.25| + | - 1.25| + | 2.75| + | 0.75|


4 4
DM = 2.25 + 1.25 + 2.75 + 0.75 = 7/4 = 1.75
4

DM = 1.75
2.- Calcular la Desviación Media de las calificaciones de probabilidad y estadística de los alumnos del grupo A:
Grupo A : 6, 3, 10, 2 y 9
X = 6+3+10+2+9/5 = 30/5= 6

DM = |6 - 6| + |3 - 6| + |10 - 6| + |2 - 6| + |9 - 6|= 0 + 3 + 4 + 4 + 3 = 14/5 = 2.8


5 5

La Fórmula para obtener la Desviación Media de datos agrupados es la siguiente:

DM = ∑ |Xi - X | • fi
n

Intervalo Marca de clase xi Frecuencias fi


(20 – 30) 25 22
(30 – 40) 35 26
(40 – 50) 45 37
(50 – 60) 55 31
(60 – 70) 65 34
150
1º. Calculamos la Media de los Datos Agrupados.

Intervalo Marca de clase xi Frecuencias fi xi f i


(20 – 30) 25 22 550
(30 – 40) 35 26 910
(40 – 50) 45 37 1,665
(50 – 60) 55 31 1,705
(60 – 70) 65 34 2,210
150 7,040

X = ∑ xi fi = 7,040/150 = 46.93
N

2º.- Completamos la tabla para calcular la Desviación Media.

DM = ∑ |Xi - X | • fi
N
X =46.93
Intervalo Marca de clase xi Frecuencias fi xi fi |xi - x| |xi - x|• fi
(20 – 30) 25 22 550 21.93 482.46
(30 – 40) 35 26 910 11.93 310.18
(40 – 50) 45 37 1,665 1.93 71.41
(50 – 60) 55 31 1,705 8.07 250.17
(60 – 70) 65 34 2,210 18.07 614.38
150 7,040 1,728.60

3er. Calculamos la Desviación Media, aplicando la fórmula.


DM = ∑ |Xi - X | • fi
n

DM = 1,728.60/150 = 11.52

3.- VARIANZA
La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media.
Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
También se puede calcular como la desviación típica al cuadrado. Dicho sea de paso, entendemos como residuo a la diferencia
entre el valor de una variable en un momento y el valor medio de toda la variable.
En estadística, la varianza es una medida de dispersión que indica la variabilidad de una variable aleatoria. La varianza es igual
a la suma de los cuadrados de los residuos partido por el número total de observaciones.

Ten en cuenta que como residuo se entiende la diferencia entre el valor de un dato estadístico y la media del conjunto de
datos.

En la teoría de la probabilidad, el símbolo de la varianza es la letra griega sigma elevada al cuadrado (σ2). Aunque también se
suele representar como Var(X), siendo X la variable aleatoria de la cual se calcula la varianza.

En general, la interpretación del valor de la varianza de una variable aleatoria es sencilla. Cuanto más grande sea el valor de la
varianza, más dispersos están los datos. Y al revés, cuanto más pequeña sea el valor de la varianza, menos dispersión habrá
en la serie de datos. Sin embargo, al interpretar la varianza hay que prestar atención con los valores atípicos, ya que pueden
distorsionar el valor de la varianza.
VARIANZA

PARA DATOS NO AGRUPADOS

PARA UNA MUESTRA PARA UNA POBLACION

S2 = ∑ (Xi – X )2 σ2 = ∑ (Xi – X )2

n–1 N
PARA DATOS AGRUPADOS

PARA UNA MUESTRA PARA UNA POBLACION

S2 = ∑ (Xi – X )2 • fi σ2 = ∑ (Xi – X )2 • fi

n–1 N
EJEMPLOS:

1.- De una empresa multinacional se conoce el resultado económico que ha tenido durante los últimos cinco años, en
la mayoría ha obtenido beneficios, pero un año presentó unas pérdidas considerables: 11, 5, 2, -9, 7 millones de euros.
Calcula la varianza de este conjunto de datos.

1º.- Calcular la Media Aritmetica.

X = 11 + 5 + 2 + (-9) + 7 = 16/5 = 3.2

2º.- Aplicamos la fómula de la varianza.

σ2 = ∑ (Xi – X )2

N
σ2 = (11 - 3.2)2 + (5 – 3.2)2 + (2 – 3.2)2 + (-9 -3.2)2 + (7 – 3.2)2 =

σ2 = (7.8)2 + (1.8)2 + (-1.2)2 + (-12.2)2 + (3.8)2 = 60.84 + 3.24 + 1.44 + 148.84 + 14.44

5 5

σ2 = 228.8/5 = 45.76 millones de euros.

¿Por qué se elevan al cuadrado los residuos?

La razón por la que los residuos se elevan al cuadrado es sencilla. Si no se elevasen al cuadrado, la suma de residuos
sería cero. Es una propiedad de los residuos. Así pues, para evitarlo, tal como ocurre con la desviación típica se
elevan al cuadrado. El resultado es la unidad de medida en la que se miden los datos, pero elevada al cuadrado.

4.- DESVIACIÓN TIPICA O ESTÁNDAR


La desviación estándar es una medida que expresa el grado de dispersión de un conjunto de datos. Es decir, la desviación
estándar indica qué tan uniforme es un conjunto de datos. Cuanto más cerca de 0 es la desviación estándar, más homogéneos
son los datos.
La desviación estándar o desviación típica es una medida que ofrece información sobre la dispersión media de una variable. La
desviación estándar es siempre mayor o igual que cero.

La desviación estándar mide el grado de disersión de los datos con respecto a la media, se denota como s para una muestra o
como σ (sigma) para la población. Se define como la raíz cuadrada de la varianza según la expresión:

Mientras menor sea la desviación estándar, los datos son más homogéneos, es decir existe menor dispersión, el incremento de
los valores de la desviación estándar indica una mayor variabilidad de los datos.

Fórmulas para calcular la desviación típica:

Desviación típica o estándar muestral Desviación típica o estándar poblacional


S = √ S2 σ = √ σ2

DATOS AGRUPADOS:

2.- Calcular la varianza y la desviación estándar de una población de niños a partir de la siguiente tabla:

σ2 = ∑ (Xi – X )2

N
Edad (años) Frecuencia fi
0-2 7
2-4 8
4-6 8
6-8 7
30

Edad (años) Frecuencia fi Marca de clase xi xi • fi


0-2 7 1 7
2-4 8 3 24
4-6 8 5 40
6-8 7 7 49
30 120
1º.- Calculamos la Marca de Clase

2º.- Calculamos xi • fi
3er. Calculamos la Media Aritmética:

X = ∑ xi• fi = 120/30 = 4 años


N

4º.- Calculamos la Varianza

σ2 = ∑ (Xi – X )2 • fi

N
Agregamos más columnas a nuestra tabla: media = 4 años

Edad (años) Frecuencia Marca de xi • fi


fi clase xi (Xi – X ) (Xi – X )2 (Xi – X )2 • fi

0-2 7 1 7 -3 9 63
2-4 8 3 24 -1 1 8
4-6 8 5 40 1 1 8
6-8 7 7 49 3 9 63
N = 30 120 142

Aplicamos la fórmula de la Varianza:

σ2 = ∑ (Xi – X )2 • fi = 142/30 = 4.73 años2

N
5º.- Calculamos la desviación estándar

σ = √ σ2 = √4.73 años2 = 2.175 AÑOS.


El valor de la desviación estándar poblacional σ es de 2.175 años.

4.- COEFICIENTE DE VARIACIÓN

Permite determinar la razón existente entre la desviación estándar (s) y la media. Se denota como CV. El coeficiente de
variación permite decidir con mayor claridad sobre la dispersión de los datos.

El coeficiente de variación, también denominado como coeficiente de variación de Pearson, es una medida estadística que nos
informa acerca de la dispersión relativa de un conjunto de datos.

Es decir, nos informa al igual que otras medidas de dispersión, de si una variable se mueve mucho, poco, más o menos que
otra.

El coeficiente de variación se utiliza para comparar conjuntos de datos pertenecientes a poblaciones distintas. Si atendemos a
su fórmula, vemos que este tiene en cuenta el valor de la media. Por lo tanto, el coeficiente de variación nos permite tener una
medida de dispersión que elimine las posibles distorsiones de las medias de dos o más poblaciones.

También puede ser expresado en por ciento.

La fórmula para calcular el Coeficiente de Variación es la siguiente:

CV = σx
|X|

 X: variable sobre la que se pretenden calcular la varianza


 σx: Desviación típica de la variable X.
 | x̄ |: Es la media de la variable X en valor absoluto con x̄ ≠ 0
EJERCICIOS:
1.- Las alturas de una población de jugadores de un equipo de baloncesto vienen dadas por la siguiente tabla.
Calcular:

Altura No. de Jugadores fi


1.70 – 1.75 1
1.75 – 1.80 3
1.80 – 1.85 4
1.85 – 1.90 8
1.90 – 1.95 5
1.95 – 2.00 2
23

Calcular:

a) La desviación media.
b) La varianza.
C) La desviación típica o estándar.

a) La desviación media.

DM = ∑ |Xi - X | • fi
N

X = 1.866
Altura No. de Marca de Xi • fi |xi - x| |xi - x|•fi (xi – x)2 (xi – x)2•fi
Jugadores Clase xi
fi
1.70 – 1.75 1 1.725 1.725 0.141 0.141 0.0198 0.0198
1.75 – 1.80 3 1.775 5.325 0.091 0.273 0.008 0.024
1.80 – 1.85 4 1.825 7.3 0.041 0.164 0.0016 0.0064
1.85 – 1.90 8 1.875 15 0.009 0.072 0.000081 0.000648
1.90 – 1.95 5 1.925 9.625 0.059 0.295 0.0034 0.017
1.95 – 2.00 2 1.975 3.95 0.109 0.218 0.012 0.024
23 42.925 1.163 0.092

X = ∑ xi fi = 42.925/23 = 1.866
N

DM= 1.163/23 = 0.051

b) La varianza.

σ2 = ∑ (Xi – X )2 • fi =

σ2 = 0.092/23 = 0.004

C) La desviación típica o estándar.

σ = √ σ2
σ = √ 0.004 = 0.063
2.- La tabla de distribución de frecuencias registra la cantidad de adultos en una población a partir de los 30 años:

X = 59.5
Intervalo Frecuencia Marca de Clase xi fi |Xi - X | |Xi - X | • fi (Xi – X )2 (Xi – X )2 • fi
fi xi
30 - 39 7 34.5 241.5 25 175 625 4.375
40 - 49 12 44.5 534 15 180 225 2,700
50 - 59 19 54.5 1,035.5 5 95 25 475
60 - 69 16 64.5 1,032 5 80 25 400
70 - 79 10 74.5 745 15 150 225 2,250
80 - 89 6 84.5 507 25 150 625 3,750
90 - 99 2 94.5 189 35 70 1225 2,450
72 4,284 900 16,400

Calcular:
a) La desviación media.
b) La varianza.
C) La desviación típica o estándar.

a) La desviación media.

DM = ∑ |Xi - X | • fi
N

X = ∑ xi fi = 4,284/72 = 59.5
N
DM = 900/72 = 12.5 Por lo tanto la DM = 12.5

b) La varianza.

σ2 = ∑ (Xi – X )2 • fi = 16,400/72 = 227.77777

N
C) La desviación típica o estándar.

σ = √ σ2 = √227.8 = 15.1

d) Coeficiente de Variación
CV = σ/|X| = 15.1 / 59.5 = 0.2537 X 100% = 25.37 %

BLOQUE 4

IV.- MEDIDAS DE FORMA

Las medidas de forma son indicadores que ofrecen información acerca de la manera en que los datos se encuentran
contenidos dentro de una distribución; se clasifican en dos grupos: las medidas de sesgo o asimetría y las medidas de
apuntamiento o curtosis.

De igual manera son aquellas que nos muestran si una distribución de frecuencia tiene características especiales como
simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución.

1.- SESGO

El sesgo es una medida que indica qué tan simétrica o asimétrica es una distribución, se clasifican en:

Distribución simétrica: Se llama así cuando los datos que tiene se encuentran repartidos de forma semejante en ambos lados
de la media, por lo que en una distribución simétrica la moda, la mediana y la media son iguales.

Distribución asimétrica: Se llama así cuando tiene los datos con las frecuencias más bajas ubicadas del lado derecho o
izquierdo de la media.
Existen dos tipos de asimetrías

La asimetría a la izquierda: También llamada asimetría negativa que es aquella en la que los datos con las frecuencias más
bajas se ubican a la izquierda de la media y los datos con mayor frecuencia se encuentran a la derecha.

En la asimetría negativa la Media es menor que la Mediana y la mediana es menor que la Moda.

La asimetría a la derecha: También llamada asimetría positiva que es aquella en la que los datos con las frecuencias más
bajas se ubican a la derecha de la media y los datos con mayor frecuencia se encuentran a la izquierda.

En la asimetría positiva la Moda es menor que la Mediana y la mediana es menor que la Media.

El coeficiente de Fisher es una herramienta que sirve para determinar la simetría o la asimetría de una distribución.
Su fórmula es Sf = (1/N)∑(X1 - X )3
S3
N= Número total de datos.
𝑋̅= La media aritmética
S = Desviación estándar
El coeficiente de Fisher cumple con las siguientes características.
Si 𝑆𝑓 = 0 significa que la distribución es simétrica
Si 𝑆𝑓 > 0 significa que la distribución tiene sesgo positivo
Si 𝑆𝑓 < 0 significa que la distribución tiene sesgo negativo
2.- APUNTAMIENTO DE FISHER O CURTOSIS.
La curtosis es una medida estadística que determina el grado de concentración que presentan los valores de una variable
alrededor de la zona central de la distribución de frecuencias. También es conocida como medida de apuntamiento.
El apuntamiento o curtosis mide que tan achatada o tan puntiaguda es una distribución. De acuerdo con este análisis, las
distribuciones se clasifican en tres tipos:
Distribución leptocúrtica: Es una distribución que contiene una gran concentración de datos en la zona central.
Distribución mesocúrtica: Es una distribución que contiene una concentración de datos mediana en la zona central.
Distribución platicúrtica: Es una distribución que contiene una baja conglomeración de datos en su región centra.

COEFIENTE DE ASIMETRÍA DE FISHER

Una distribución es simétrica cuando al trazar una vertical, en el diagrama de barras o histograma de una variable, según sea
esta discreta o continua, por el valor de la media, esta vertical se transforma en eje de simetría y entonces decimos que la
distribución es simétrica. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría.
La asimetría puede ser de dos tipos:

 Asimétrica por la derecha.


 Asimétrica por la izquierda.

BLOQUE 5

V.- MEDIDAS DE CORRELACIÓN

La correlación estadística constituye una técnica estadística que nos indica si dos variables están relacionadas o no. Por
ejemplo, considera que las variables son el ingreso y el gasto familiares. Se sabe que los aumentos de ingresos y gastos
disminuyen juntos. Por lo tanto, están relacionados en el sentido de que el cambio en cualquier variable estará acompañado
por un cambio en la otra variable.

De la misma manera, los precios y la demanda de un producto son variables relacionadas; cuando los precios aumentan la
demanda tenderá a disminuir y viceversa. Si el cambio en una variable está acompañado de un cambio en la otra, entonces se
dice que las variables están correlacionadas. Por lo tanto, podemos decir que el ingreso y gastos familiares y el precio y la
demanda están correlacionados.

Relación Entre las Variables. La correlación puede decir algo acerca de la relación entre las variables. Se utiliza para entender:
1. Si la relación es positiva o negativa
2. La fuerza de la relación.

La correlación es una herramienta poderosa que brinda piezas vitales de información. En el caso del ingreso y el gasto
familiares, es fácil ver que ambos suben o bajan juntos en la misma dirección. Esto se denomina correlación positiva. En caso
del precio y la demanda, el cambio se produce en la dirección opuesta, de modo que el aumento de uno está acompañado de
un descenso en el otro. Esto se conoce como correlación negativa.

1.- COEFICIENTE DE CORRELACIÓN -1.0 a 1.0

La correlación estadística es medida por lo que se denomina coeficiente de correlación (r). Su valor numérico varía de 1.0 a -
1.0. Nos indica la fuerza de la relación. En general, r > 0 indica una relación positiva y r < 0 indica una relación negativa,
mientras que r = 0 indica que no hay relación (o que las variables son independientes y no están relacionadas). Aquí, r = 1.0
describe una correlación positiva perfecta y r = -1.0 describe una correlación negativa perfecta. Cuanto más cerca estén
los coeficientes de +1.0 y -1.0, mayor será la fuerza de la relación entre las variables. Como norma general, las siguientes
directrices sobre la fuerza de la relación son útiles (aunque muchos expertos podrían disentir con la elección de los límites).

Valor de r Fuerza de relación

- 1.0 A – 0.5 o 1.0 a 0.5 Fuerte


-0.5 A – 0.3 o 0.3 a 0.5 Moderada
-0.3 A – 0.1 o 0.1 a 0.3 Débil
-0.1 A 0.1 Ninguna o muy débil

La correlación es solamente apropiada para examinar la relación entre datos cuantificables significativos (por ejemplo, la
presión atmosférica o la temperatura) en vez de datos categóricos, tales como el sexo, el color favorito, etc.

Desventajas. Si bien 'r' (coeficiente de correlación) es una herramienta poderosa, debe ser utilizada con cuidado.

1. Los coeficientes de correlación más utilizados sólo miden una relación lineal. Por lo tanto, es perfectamente posible que, si
bien existe una fuerte relación no lineal entre las variables, r está cerca de 0 o igual a 0. En tal caso, un diagrama de
dispersión puede indicar aproximadamente la existencia o no de una relación no lineal.

2. Hay que tener cuidado al interpretar el valor de 'r'. Por ejemplo, se podría calcular 'r' entre el número de calzado y la
inteligencia de las personas, la altura y los ingresos. Cualquiera sea el valor de 'r', no tiene sentido y por lo tanto es llamado
correlación de oportunidad o sin sentido.

3. 'r' no debe ser utilizado para decir algo sobre la relación entre causa y efecto. Dicho de otra manera, al examinar el valor de
'r' podríamos concluir que las variables X e Y están relacionadas. Sin embargo, el mismo valor de “r” no nos dice si X
influencia a Y o al revés. La correlación estadística no debe ser la herramienta principal para estudiar la causalidad, por el
problema con las terceras variables.
FORMULA PARA CALCULAR EL COEFICIENTE DE CORRELACION.

r= ∑ (xi – x ) • ( yi – y )

√∑(xi – x )2•√∑(yi – y )2

EJERCICIOS:

1.- En el departamento de orientación educativa se están organizando conferencias para orientar a los estudiantes en la
elección de su carrera a elegir, se buscará la mejor orientación basados en sus calificaciones que determinan sus actitudes
y capacidades. Para facilitar la obtención de información al estudiante, se analizarán correlaciones entre sus calificaciones
de dos de sus materias, por ejemplo, para el área de físico-matemáticas, se tomarían de Álgebra, Geometría, Cálculo, Física
o Química.

Alumno Calculo Integral Física


1 48 56
2 53 77
3 77 82
4 44 67
5 69 85
6 79 86
7 84 93
8 68 76
9 61 58
10 55 45

De la tabla de calificaciones calcular el coeficiente de correlación “r”

r= ∑ (xi – x ) • ( yi – y )

√∑(xi – x )2•√∑(yi – y )2

Tomemos Calculo Integral como la variable X y Física como la variable Y.

Cálculo X Física Y (xi – x) (yi – y) (xi – y)• (yi – y) (xi – x)2 (yi – y)2
48 56 -15.8 -15.2 240.16 249.64 231.04
53 77 -10.8 5.8 - 62.64. 116.64 33.64
77 82 13.2 10.8 142.56 174.24 116.64
44 67 -19.8 - 4.2 83.16 392.04 17.64
69 85 5.2 13.8 71.76 27.04 190.44
79 86 15.2 14.8 224.96 231.04 219.04
84 93 20.2 21.8 440.36 408,04 475.24
68 76 4.2 4.8 20.16 17.64 23.04
61 58 -2.8 -13.2 36.96 7.84 174.24
55 45 -8.8 -26.2 230.56 77.44 686.44
638 712 1,428.00 1,701.6 2,167.40
63.8 71.2

r= 1,428.0 = 1,428.0 = 1,428.0/1,920.429075 = 0.7436

√1,701.6 •√2,167.40 (41.2504545)(46.55534341)

Como podemos observar “r” tiene un valor positivo, quiere decir que las variables tienen una dependencia positiva, es decir que si
entre más alta calificación tenga en matemáticas también subirá la de física. Estos alumnos sí son uno buenos candidatos al área de
físico-matemáticos

2.- RECTA DE REGRESIÓN

QUÉ ES UNA RECTA DE REGRESIÓN? Supongamos que tenemos una nube de puntos de unos datos obtenidos de una
muestra, como por ejemplo estos:
Estos puntos siguen una cierta tendencia y sugieren una forma que puede ajustarse a una recta. Podemos obtener una recta
en torno a la cual se agrupan los puntos y que se ajusta a la tendencia que guardan los puntos. A esta recta es a lo que
llamamos recta de regresión:

Las rectas de regresión cumplen las siguientes características:

Pasan por el centro de gravedad de la nube de puntos (punto cuyas coordenadas son las medias de cada variable)

La suma de los cuadrados de las distancias (verticales u horizontales) a los puntos es mínima, es decir, que, desde la recta, las
distancias a los puntos es la mínima. La recta de regresión pasa por en medio de todos esos puntos minimizando la distancia a
estos:

De esta forma, la recta de regresión representa la tendencia de la nube de puntos.

La recta de regresión nos permite, conocidos los valores de una de las variables, estimar de manera aproximada los valores
esperados de la otra variable. Las estimaciones realizadas serán confiables siempre y cuando el valor del coeficiente de
correlación lineal de Pearson, se aproxime lo máximo posible a 1 o a -1. Cuando dicho coeficiente esté en torno a 0, las
estimaciones realizadas no tienen ningún sentido.
La recta de regresión intenta sustituir a todo un conjunto de puntos de un diagrama de dispersión y facilitar los cálculos
necesarios para determinar la tendencia que presentan las dos variables de interés. No siempre se puede trazar dicha recta de
regresión para determinar la tendencia. Esta recta también nos sirve para extrapolar y conocer datos de que no se encuentran
en la tabla de información.

La fórmula para calcular la Recta de Regresión Lineal de un conjunto de datos es la siguiente:

y = bx + a + €

Donde:
b= Es la pendiente de la recta, este valor debe estimarse a partir de la tendencia de los puntos
a= Es la ordenada al origen, es decir, el punto en que la recta cruza el eje Y
y= Es la variable dependiente
x= Es la variable independiente
€ es el error

𝒃 = 𝑪𝑶𝑽𝒙𝒚 donde Sx es la Varianza de x


𝑺𝒙
𝒂 = 𝒚̅ − 𝒃𝒙̅ donde 𝒚̅ es la media de la variable y, 𝒙̅ es la media de la variable x

COVXY = ∑ (xi – x ) • ( yi – y )) Sx = ∑(xi – x )2


n–1 n–1

1.- Encuentre la recta de regresión del ejercicio anterior.


y = bx + a + €

Cálculo X Física Y (xi – x) (yi – y) (xi – y)• (yi – y) (xi – x)2 (yi – y)2
48 56 -15.8 -15.2 240.16 249.64 231.04
53 77 -10-8 -7.2 - 62.64. 116.64 33.64
77 82 13.2 10.8 142.56 174.24 116.64
44 67 -19.8 -4.2 83.16 392.04 17.64
69 85 5.2 13.8 71.76 27.04 190.44
79 86 15.2 14.8 224.96 231.04 219.04
84 93 20.2 21.8 440.36 408,04 475.24
68 76 4.2 4.8 20.16 17.64 23.04
61 58 -2.8 -13.2 36.96 7.84 174.24
55 45 -8.8 -26.2 230.56 77.44 686.44
638 712 1,428.00 1,701.6 2,167.40
63.8 71.2

1er. Paso: Calcular la covarianza.


COVXY = ∑ (xi – x ) • ( yi – y ))
n–1

COVxy = 1,428.0 = 1,428.0 = 158.6666


10 – 1 9

2º.- Calcular la varianza de x Sx = ∑(xi – x )2


n–1

Sx = 1,701.6 = 189.0666
9
3º.- Sustituimos valores para obtener el valor de b: 𝒃 = 𝑪𝑶𝑽𝒙𝒚 = 158.6666 = 0.8392
𝑺𝒙 189.0666
4º.- Sust. valores para obtener el valor de a: 𝒂 = 𝒚̅ − 𝒃𝒙̅ = 71.2 – (0.8392) (63.8) = 71.2 – 53.5409 = 17.6591

Por lo que la Ecuación de la Recta es: y = 0.8392x + 17.6591 + €

3.- ERROR ESTÁNDAR DE ESTIMACIÓN.

El error de estimación nos mide el grado de alejamiento que existe entre cada punto del diagrama de dispersión y la recta de
regresión. Debido a que la recta no pasa por cada uno, si así sucediera no sería entonces una recta, se dice entonces que se
comete un error al definir la Recta de Regresión Lineal. Es decir, el error estándar de estimación mide las posibles variaciones
de la media muestral con respecto al verdadero valor de la media poblacional.

Por ejemplo, si se desea conocer la edad promedio de la población de un país (media poblacional) se toma un pequeño grupo
de habitantes, a los que llamaremos “muestra”. De ella se extrae la edad promedio (media muestral) y se asume que la
población tiene esa edad promedio con un error estándar de estimación que varía más o menos.

Habría que reseñar que es importante no confundir la desviación estándar con el error estándar y con el error estándar de
estimación:

1- La desviación estándar es una medida de la dispersión de los datos; es decir, es una medida de la variabilidad de la
población.

2- El error estándar es una medida de la variabilidad de la muestra, calculada en base a la desviación estándar de la población.

3- El error estándar de estimación es una medida del error que se comete al tomar la media muestral como estimación de la
media poblacional.

El error estándar de estimación se define mediante la siguiente formula:

€ = ±√∑(yi – y)2
n-2
.

El Erros Estándar de Estimación para el ejercicio anterior sería:

€ = ±√∑(yi – y)2
n-2

€ = ± √2,167.40 = √ 2,167.40 = √270.92 = ±16.46


10 – 2 8

De la ecuación obtenida: y = 0.8392x + 17.6591 + €

Sustituimos el valor del error: y = 0.8392x + 17.6591 + €

Por lo que la ecuación de la Recta de Regresión del ejercicio anterior quedaría de la siguiente forma:

y = 0.8392x + 17.6591 + ±16.46

También podría gustarte