Clase Semana 15 Cap 4 Introducción Al Análisis Exploratorio de Datos

1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Capítulo 4
Introducción al Análisis Exploratorio de Datos

4.1 Conceptos básicos
Recordemos del capítulo 1 del curso:
Población (de elementos)

Un conjunto de elementos (personas u objetos) que tienen alguna característica A que es de interés
para la toma de una decisión.
Variable
Es la característica que se registra o investiga. Específicamente es una representación numérica de
una característica o atributo A. Es el resultado de un proceso de medición; representaremos las
variables usando mayúsculas, como X, Y, etc.
Población Estadística (de una variable)

Colección de todos los registros o valores de una variable X, obtenidos al medir un atributo en la
respectiva población de elementos, incluyendo repeticiones si las hubiere.
Distribución de frecuencias de una variable

Clasificación de los valores de una variable X según la frecuencia (número absoluto o porcentual de
casos) con que se presenta cada valor. La distribución nos muestra el comportamiento del atributo
bajo estudio en la población de elementos. Es la primera información que se tiene, con datos ya
organizados y estructurados.
Parámetro
Es una constante que, calculada sobre toda la población estadística de una variable X, la caracteriza
en un sentido determinado. Representa un aspecto específico del comportamiento de la variable
X en la Población de elementos.
Muestra
Una muestra es un subconjunto de una población estadística. La muestra nos proporciona información
acerca de la población, y la calidad de esta información depende de cómo se la ha tomado. Una manera
de lograr una buena representación de la población en la muestra, es elegir ésta mediante algún
mecanismo de sorteo o selección aleatoria que otorgue a cualquier elemento de la población de
elementos, la misma opción de ser seleccionado y registrar en él el valor de la variable X de interés.
El conjunto de valores registrados, digamos (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) es una muestra de la población estadística
de X; aquí 𝑋𝑖 es el valor de X registrado en el elemento # 𝑖 de la muestra de elementos.
Muestra Aleatoria (m.a.)

Si X es una variable aleatoria, una muestra aleatoria de tamaño n, es un grupo (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de n
observaciones de X tomadas al azar e independientemente entre sí. Si la selección se hace mediante
algún sistema de sorteo se dice que es una "muestra probabilística", y si el sorteo es simple, se dice
que es una muestra aleatoria simple. En cambio, si el sorteo es de tipo complejo, por ejemplo, una
sucesión de sorteos, la muestra recibe otros nombres, dependiendo del sistema de sorteo.
Estadística
Es un valor calculado a partir de los datos de una muestra, que sólo depende los valores muestrales.
1
Ejemplo 1
• Característica de Interés: Estrés crónico por sobrecarga laboral
• Variable X: Presencia de estrés crónico, codificada según Presente=1, Ausente=0
• Población = {U1, U2, U3, U4, ... , U400} los 400 trabajadores de una empresa financiera
• Población Estadística = {0,1,0, 1,...,0}, lo que significa que U1,U3 y U400, entre otros trabajadores,
no están estresados, y en cambio U2 y U4 entre otros trabajadores sí están estresados. La sucesión
de 0 y 1 es muy larga y no permite ver ningún patrón. Es más informativo presentar una lista
resumida que nos proporciona el estado de la población en lo que a estrés crónico se refiere. Esa
lista es la Distribución de X en la Población que mostramos abajo, junto con una representación
gráfica circular:
Distribución de X Figura 1 Distribución de presencia o ausencia de estrés crónico
X N %
0 250 62.5
1 150 37.5
Total 400 100
1=Presente, 37.5
0=Ausente, 62.5
0=Ausente 1=Presente
• Parámetro: Basta un “descriptor”, como por ejemplo la “Incidencia de estrés crónico” =P = %

de casos en la población, que tienen e. crónico = 37.5%
• Si tomamos una muestra de tamaño 𝑛 = 6 trabajadores de esta población mediante un sorteo
simple, y obtenemos (𝑈1 , 𝑈3 , 𝑈9 , 𝑈30 , 𝑈25 , 𝑈400 ) y registramos X en cada uno y obtenemos
(0,0, 1, 0, 1, 0), entonces la estadística 𝑃̂ = % 𝑑𝑒 𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑒𝑠𝑡𝑟é𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 =
2
100 × 6 = 33.3% sería una aproximación al parámetro P, o en la jerga estadística 𝑃̂ = 33.3%
es la “estimación” del parámetro P. La estimación 𝑃̂ no coincide exactamente con el parámetro
P, pero se le aproxima.
Distribución de X (muestra) Figura 2 Distribución de presencia o ausencia de estrés crónico en la muestra
X n %
0 4 66.7
1 2 33.3
Total 6 100
1=Presente, 33.3
0=Ausente, 66.7
0=Ausente 1=Presente
2
4.2 Estadísticas más importantes
Dada una m.a. (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), de tamaño n, las estadísticas importantes son:
Media muestral 𝑿.
∑𝒏
𝒋=𝟏 𝑿𝒋
Se define mediante 𝑿 = 𝒏 y es el equivalente de la media poblacional 𝜇. Mide la “tendencia
central” en la muestra, es un valor alrededor del cual está la mayoría de los valores observados de la
muestra.
Ejemplo 2
̅ = 𝟏𝟏+𝟏𝟐+𝟏𝟐+𝟏𝟓+𝟏𝟕 = 𝟏𝟑. 𝟒
• En la serie de n = 5 notas: 11, 12, 12, 15, 17: 𝑿 𝟓
• ̅ = 𝟔𝟒𝟎.
En la serie de n = 5 ingresos mensuales: 400, 600, 600, 700, 900 la media es 𝑿
̅ = 𝟐, 𝟐𝟔𝟎 (un sólo valor extremo, 9000, al-
Y en la serie 400, 600, 600, 700, 9000 la media es 𝑿
̅ y la hace poco representativa del conjunto de datos o de la “tendencia central”).
tera 𝑿
Propiedades:
• Tiene una fórmula analítica que hace fácil su tratamiento matemático. Por esto último, es la
medida de T. Central más usada en los análisis estadísticos.
• Bastante estable al muestreo. Se usa con fines descriptivos e inferenciales.
• Es el centro "de gravedad" de la distribución, que toma en cuenta no sólo las frecuencias sino
también los valores de los datos. Se la interpreta como "el valor típico" de la serie de datos,
en el sentido que “la mayoría de valores está alrededor de 𝑿 ̅”
• Se ve afectada por "valores extremos" desbalanceados (valores muy alejados hacia la izquierda o
hacia la derecha del punto de tendencia central), como ya vimos en el ejemplo de los ingresos
mensuales.
Propiedades formales de la Media Aritmética:

• 𝑛𝑋̅ = ∑𝑛𝑗=1 𝑋𝑗 que se obtiene despejando ∑𝑛𝑗=1 𝑋𝑗 en la definición de 𝑿.
• ∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = 0 , pues:
∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = ∑𝑛𝑗=1 𝑋𝑗 − ∑𝑛𝑗=1 𝑋̅ = ∑𝑛𝑗=1 𝑋𝑗 − 𝑛𝑋̅ = ∑𝑛𝑗=1 𝑋𝑗 − ∑𝑛𝑗=1 𝑋𝑗 = 0
Varianza muestral S2
Se define como la distancia cuadrado promedio entre un valor 𝑋𝑗 cualquiera de la serie y la media 𝑋̅
∑𝒏 ̅ 𝟐
𝒋=𝟏(𝑿𝒋 −𝑿)
de la serie. Su fórmula de definición es entonces: 𝑺𝟐 = . Es el equivalente muestral de la
𝒏−𝟏
varianza poblacional 𝜎 2 .
El denominador es (𝑛 − 1) porque aunque hay n términos en la sumatoria que define 𝑆 2 , éstos no

son todos independientes, pues como ∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = 0 , conociendo el valor de las (𝑛 − 1)
primeras diferencias (𝑋𝑗 − 𝑋̅), podemos obtener el valor de la última, despejándola de la igualdad
∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅) = 0. Lo anterior se resalta diciendo que "en el cálculo de 𝑆 2 tenemos (n-1) grados de
libertad", pues realmente tenemos (𝑛 − 1) diferencias (𝑋𝑗 − 𝑋̅) independientes. S2 se interpreta
como "el promedio de las distancias al cuadrado entre los valores de la serie y el punto de tendencia
central". Cuanto mayor sea la varianza, mayor será la variabilidad promedio en la distribución.
Se demuestra que ∑𝑛𝑗=1(𝑋𝑗 − 𝑋̅)2 = ∑𝑛𝑗=1 𝑋𝑗 2 − 𝑛𝑋̅ 2 y a partir de ello se tiene una fórmula más
práctica para el cálculo de 𝑆 2 :
𝟐
∑𝒏 𝟐 ̅𝟐
𝒋=𝟏 𝑿𝒋 −𝒏𝑿 ∑𝑛
𝑗=1(𝑋𝑗 −𝑋)
2 ∑𝒏 𝟐
𝒋=𝟏 𝑿𝒋 −𝒏𝑿
𝟐 2
Fórmula de cálculo de la varianza: 𝑺 = ⇒𝑆 = =
𝒏−𝟏 𝑛−1 𝒏−𝟏
Nota: La varianza va en las unidades de X al cuadrado
3
Desviación estándar muestral S
Se define mediante 𝑆 = √𝑆 2 y se interpreta como la “distancia promedio entre un valor cualquiera
de 𝑋𝑖 de la muestra y el punto de tendencia central 𝑋̅”.
La mayoría de los valores de la muestra (más de 50%) cae dentro del intervalo [𝑋̅ − 𝑆, 𝑋̅ + 𝑆].
Ejemplo 3
En la serie de n = 8 casos de notas X:
Variable Casos Total
𝑗 1 2 3 4 5 6 7 8
𝑋𝑗 15 15 19 20 20 20 20 20 149
𝑋𝑗2 225 225 361 400 400 400 400 400 2811
∑𝑛 2 ̅2
𝑗=1 𝑋𝑗 −𝑛𝑋 2811−8×18.62
∑𝑛𝑗=1 𝑋𝑗 = 149 ; ∑𝑛𝑗=1 𝑋𝑗 2 = 2811; 𝑋̅ = 18.6 y 𝑆 2 = = = 5.1 y
𝑛−1 8−1
𝑆 = √5.1 = 2.3
Nota:
• Toda estadística es una variable aleatoria, pues puede tomar diversos valores, según la muestra
que ocurra, y estos valores dependen del azar, cuando los n casos en los cuales se registra la
variable X de interés, se seleccionan mediante algún sistema de sorteo.
• Toda estadística tiene alguna “distribución de probabilidades”, o sea una regla (o fórmula) que
predice la mayor o menos frecuencia relativa con que se presentan los posibles valores de la
𝜎2
estadística. Por ejemplo, si n es “grande”, aplicando el Teorema del límite central: 𝑋̅~𝑁(𝜇, ). 𝑛
4.3 Estadísticas más importantes en estadística descriptiva bidimensional

En economía se suele tomar muestras para estudiar el comportamiento conjunto de dos o más
variables. El caso bidimensional se presenta cuando se tiene dos variables estadísticas 𝑋 e 𝑌 que por
teoría económica deben mostrar cierto tipo de relación, por ejemplo 𝑋 = 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 e 𝑌 = 𝐶𝑜𝑛𝑠𝑢𝑚𝑜
o 𝑋 = 𝑃𝑟𝑒𝑐𝑖𝑜 𝑑𝑒 𝑢𝑛 𝑏𝑖𝑒𝑛 e 𝑌 = 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒𝑚𝑎𝑛𝑑𝑎𝑑𝑎 𝑑𝑒𝑙 𝑏𝑖𝑒𝑛. En el primer caso se espera
una relación “directa”, esto es 𝑋 e 𝑌 tienden a subir o bajar juntas, mientras que en el segundo caso,
𝑋 e 𝑌 se espera una relación “inversa”, es decir 𝑋 e 𝑌 van en dirección opuesta, a mayor valor del
precio 𝑋 se espera una menor cantidad demandada 𝑌.
Para estudiar la relación entre dos variables 𝑋 e 𝑌 se toma una muestra de n elementos o agentes
económicos (𝑈1 , 𝑈2 , … , 𝑈𝑖 , … , 𝑈𝑛 ) y se registra simultáneamente en cada uno las parejas de valores
de 𝑋 e 𝑌 obteniendo la muestra aleatoria de n parejas (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑖 , 𝑌𝑖 ), … , (𝑋𝑛 , 𝑌𝑛 )
El tipo de relación más sencillo y frecuente es la relación lineal: tendencia de X e Y a seguir una
línea recta en el plano cartesiano 𝑋𝑌. Para cuantificar esta relación se usa el coeficiente de
correlación de Pearson.
4.3.1 Coeficiente de correlación de Pearson 𝒓𝑿𝒀

𝐹ó𝑟𝑚𝑢𝑙𝑎 𝑑𝑒 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛 𝐹ó𝑟𝑚𝑢𝑙𝑎 𝑑𝑒 𝑐á𝑙𝑐𝑢𝑙𝑜
⏞𝑛𝑖=1(𝑋𝑖−𝑋̅)(𝑌𝑖−𝑌̅)
∑ ⏞𝑛𝑖=1 𝑋𝑖𝑌𝑖−𝑛𝑋̅𝑌̅
∑
Denotado 𝑟𝑋𝑌 , se define mediante 𝑟𝑋𝑌 = (𝑛−1)𝑆𝑋 𝑆𝑌
= (𝑛−1)𝑆𝑋 𝑆𝑌
Propiedades formales:
1. |𝑟𝑋𝑌 | ≤ 1
2. 𝒓𝑿𝒀 = 𝟎 ⇔ 𝑵𝒐 𝒆𝒙𝒊𝒔𝒕𝒆 𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝒍𝒊𝒏𝒆𝒂𝒍 𝒆𝒏𝒕𝒓𝒆 𝑿 𝒆 𝒀
3. 𝑟𝑋𝑌 = 1 ⇔ ∃𝛼, 𝛽 > 0 𝑡𝑎𝑙𝑒𝑠 𝑞𝑢𝑒 𝑌 = 𝛼 + 𝛽𝑋
4. 𝑟𝑋𝑌 = −1 ⇔ ∃𝛼, 𝛽 < 0 𝑡𝑎𝑙𝑒𝑠 𝑞𝑢𝑒 𝑌 = 𝛼 + 𝛽𝑋
4
Interpretación
• Tipo de Asociación entre X e Y:
Si 𝑟𝑋𝑌 > 0 Existe Asociación Lineal Directa
Si 𝑟𝑋𝑌 < 0 Existe Asociación Lineal Inversa
Si 𝒓𝑿𝒀 = 𝟎 No Existe Asociación Lineal entre X e Y (puede haber asociación no lineal).
• Grado (la fuerza) de la Asociación Lineal:

|𝑟𝑋𝑌 | = 0 se interpreta como asociación nula
|𝒓𝑿𝒀 | ≅ 𝟎 se interpreta como asociación débil
|𝒓𝑿𝒀 | ≅ 𝟏 se interpreta como asociación fuerte
|𝑟𝑋𝑌 | = 1 se interpreta como asociación máxima
Criterio para el tamaño de las correlaciones

Cuándo los valores son "altos", "medianos" o "bajos", depende mucho de la naturaleza de las variables
y del área de trabajo.
En Economía, Contabilidad y Gestión una correlación en valor absoluto mayor o igual que 0.8
es alta; En otras áreas como Educación, Ciencias de la conducta, humanas y sociales una correlación
en valor absoluto mayor o igual que 0.5 es considerada alta.
𝐹ó𝑟𝑚𝑢𝑙𝑎 𝑑𝑒 𝑑𝑒𝑓𝑖𝑛𝑖𝑐𝑖ó𝑛
⏞
∑𝑛 (𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
𝑟𝑋𝑌 = 𝑖=1
(𝑛 − 1)𝑆𝑋 𝑆𝑌
𝑌 El rectágulo de bordes rojos es la zona “más
frecuente” para (𝑋, 𝑌), pero en este caso, los
𝑌̅ + 𝑆𝑌 puntos no se distribuyen con la misma
frecuencia dentro del rectángulo:
La frecuencia se concentra en la zona oval
𝑌̅ sombreada, donde (𝑋 − 𝑋̅)(𝑌 − 𝑌̅) > 0
o sea cuando 𝑋 es “grande”: 𝑋 > 𝑋̅, 𝑌 tam-
bién es “grande”: 𝑌 > 𝑌̅; o cuando 𝑋 es “pe-
𝑌̅ − 𝑆𝑌 queño”: 𝑋 < 𝑋̅, 𝑌 también es “pequeño”:
𝑌 < 𝑌̅. Las parejas (𝑋, 𝑌) “tienden” a seguir
una recta, marcada en rojo, de pendiente
𝑋̅ − 𝑆𝑋 𝑋̅ 𝑋̅ + 𝑆𝑋 𝑋 positiva. Hay relación directa o creciente
entre 𝑋 e 𝑌. Por ejemplo, Precio y Oferta.
Figura 1 𝑟𝑋𝑌 > 0 indica relación directa entre las variables 𝑋 e 𝑌

𝑌̅ + 𝑆𝑌 puntos no se distribuyen con la misma
La frecuencia se concentra en la zona oval
𝑌̅ sombreada, donde (𝑋 − 𝑋̅)(𝑌 − 𝑌̅) < 0
o sea cuando 𝑋 es “grande”: 𝑋 > 𝑋̅, 𝑌 es
“pequeño”: 𝑌 < 𝑌̅; o cuando 𝑋 es “peque-
𝑌̅ − 𝑆𝑌 ño”: 𝑋 < 𝑋̅, 𝑌 es “grande”: 𝑌 > 𝑌̅. Las
parejas (𝑋, 𝑌) “tienden” a seguir una recta de
pendiente negativa. Hay relación inversa o
𝑋̅ − 𝑆𝑋 𝑋̅ 𝑋̅ + 𝑆𝑋 𝑋 decreciente entre 𝑋 e 𝑌.Por ejemplo, Precio
y Demanda.
Figura 2 𝑟𝑋𝑌 < 0 indica relación inversa entre las variables 𝑋 e 𝑌
5
𝑌̅ + 𝑆𝑌 puntos se distribuyen con la misma
La frecuencia se concentra en la zona
𝑌̅ circular sombreada, donde en algunos casos
ocurre que (𝑋 − 𝑋̅) > 0 y (𝑌 − 𝑌̅) > 0 y
con similar frecuencia en otros casos ocurre
𝑌̅ − 𝑆𝑌 que
(𝑋 − 𝑋̅) < 0 y (𝑌 − 𝑌̅) < 0
𝑋̅ − 𝑆𝑋 𝑋̅ 𝑋̅ + 𝑆𝑋 𝑋 Las parejas (𝑋, 𝑌) “tienden” a seguir una
recta, marcada en rojo, de pendiente nula. No
Hay relación lineal entre 𝑋 e 𝑌. Por ejemplo,
Demanda de bienes “indiferentes”
Figura 3 𝑟𝑋𝑌 = 0 indica que no hay relación lineal entre las variables 𝑋 e 𝑌

frecuente” para (𝑋, 𝑌), pero los puntos no se
𝑌̅ + 𝑆𝑌 distribuyen con la misma frecuencia dentro
del rectángulo:
La frecuencia se concentra en la zona
𝑌̅ sombreada, donde en algunos casos ocurre
que (𝑋 − 𝑋̅) > 0 y (𝑌 − 𝑌̅) > 0 y con
similar frecuencia en otros casos ocurre que
𝑌̅ − 𝑆𝑌 (𝑋 − 𝑋̅) < 0 y (𝑌 − 𝑌̅) < 0 , pero las
parejas (𝑋, 𝑌) “tienden” a seguir una curva,
marcada en rojo. No Hay relación lineal
𝑋̅ − 𝑆𝑋 𝑋̅ 𝑋̅ + 𝑆𝑋 𝑋 entre 𝑋 e 𝑌 por lo que 𝑟𝑋𝑌 = 0 pero sí hay
relación entre no lineal entre 𝑋 e 𝑌. Por
ejemplo, Ley de rendimientos decrecientes.
Figura 4 𝑟𝑋𝑌 = 0 no hay relación lineal entre 𝑋 e 𝑌, pero sí hay relación no lineal
Ejemplo 4
En un examen hay dos partes, una obligatoria y otra electiva, con igual puntaje (diez como
máximo). Las preguntas tocaban diversas aplicaciones de los mismos temas. Se concluyó que el
examen estaba "bien puesto" porque había similar puntaje promedio en sus dos partes. Si Ud. recibe
la siguiente muestra de notas y sus estadísticas correspondientes:
Alumno A B C D E F G H I J M D.E.
P. Obligatoria X 8 4 9 3 10 7 6 2 2 5 5.60 2.88
P. Electiva Y 6 7 7 8 2 6 5 6 7 6 6.00 1.63
¿Realmente el examen estuvo “bien puesto”?
Solución:
Graficando las parejas de notas en un plano cartesiano XY:
Con Excel Diagrama de dispersión XY:
Insertar→ En Gráficos: Click en ícono Dispersión →Dispersión : Se abre un recuadro en
blanco (“Área de gráfico”) → Dentro del Área de gráfico: Click con botón derecho de ratón:
Seleccionar datos→Agregar→Nombre de la serie: Poner un breve nombre descriptivo como
Diagrama de dispersión X Y(si lo deja en blanco Excel pondrá Serie 1); Valores X de la serie:
6
resaltar con el mouse los valores de X; Valores Y de la serie: resaltar con el mouse los valores
de Y→Aceptar: aparece el gráfico con los puntos (x,y).
Para editar: Cursor sobre el gráfico→Diseño de gráfico (en la cinta de opciones) → Click sobre
Agregar elemento de gráfico y seleccionar alguna opción para editar, como Títulos del Eje, o
Leyenda, etc.
10
9
8
7
P. Electiva (Y)
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
P. Obligatoria (X)
Figura 1 Parejas de notas de cada caso de la muestra
El gráfico anterior (llamado Diagrama de dispersión) muestra que, al parecer, los que “salen bien”
en la parte obligatoria, tienden a “salir mal” en la electiva y viceversa. Ambas partes “se dan la
contra”. El examen no sería coherente, no estaría “bien puesto”.
∑𝑛 ̅̅
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
Usando la fórmula de cálculo 𝑟𝑋𝑌 = . Arreglando en una tabla para facilitar cálculos:
(𝑛−1)𝑆𝑋 𝑆𝑌
i 1 2 3 4 5 6 7 8 9 10 Total Estadísticas
Alumno A B C D E F G H I J -- M D.E.
P. Obligatoria Xi 8 4 9 3 10 7 6 2 2 5 -- 5.60 2.88
P. Electiva Yi 6 7 7 8 2 6 5 6 7 6 -- 6.00 1.63
XiYi 48 28 63 24 20 42 30 12 14 30 311 -- --
𝑛 = 10, ∑10𝑖=1 𝑋𝑖 𝑌𝑖 = 311. Haciendo cálculos:
∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 311 − 10 × 5.60 × 6.00 311 − 336 −25
𝑟𝑋𝑌 = = = = = −0.59
(𝑛 − 1)𝑆𝑋 𝑆𝑌 (10 − 1) × 2.88 × 1.63 42.26 42.26
El resultado estadístico es que la correlación es negativa y “grande” (al ser |𝑟𝑋𝑌 | > 0.5), para el área
de donde vienen los datos (área educacional). Hay una fuerte relación inversa entre las dos partes
del examen, las partes de esa prueba “se dan la contra”, si alguien sale bien en la parte obligatoria
suele salir mal en la electiva y viceversa. Por eso se concluye que el examen está “mal puesto”.
Correlación con Excel: Usamos la secuencia de comandos:

𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: COEF.DE.CORREL →Aceptar
→ Matriz1: resaltar los datos de X; Matriz2: resaltar los datos de Y→Aceptar.
Excel muestra el valor de 𝑟𝑋𝑌
7
Alumno A B C D E F G H I J
P. Obligatoria Xi 8 4 9 3 10 7 6 2 2 5
P. Electiva Yi 6 7 7 8 2 6 5 6 7 6
-0.5916 Arturo Calderón G:

=COEF.DE.CORREL(C3:L3,C4:L4)
Ejemplo 5
Para una selección de personal, un economista forma un equipo con tres evaluadores, a los cuales se
les dio una muestra de ensayo de n=7 expedientes de proyectos de inversión para que les otorguen
puntajes cuantitativos con notas que van de 0 a 16 y que miden de menos a más la calidad de
proyecto. El evaluador 3 es el más experto y sus juicios son totalmente aceptados. Los otros
evaluadores están a prueba. Los datos de la muestra de ensayo y sus estadísticas son:
Muestra de ensayo Estadísticas ¿Si tuviera que formar un jurado con
Expediente A B C D F G J Media D. Estándar dos evaluadores: podrían estar los
evaluadores 1 y 2 juntos? ¿Si tuviera
Evaluador 1 14 8 5 10 3 6 9 7.857 3.625
que escoger a un evaluador entre 1 y 2
Evaluador 2 10 9 11 10 12 11 13 10.857 1.345 para que forme jurado con el evaluador
Evaluador 3 9 10 10 11 12 12 14 11.143 1.676 3: con quién se quedaría?
Solución:
Aplicando el mismo sistema gráfico del ejemplo anterior:
Para la pregunta ¿Pueden estar juntos los evaluadores 1 y 2?
Figura 1 Diagrama de dispersión de calificaciones de

Evaluador 1 vs calificaciones del Evaluador 2
16 El diagrama de dispersión XY muestra
que hay tendencia a relación inversa en
14 las evaluaciones: los evaluadores
12 tienden a discrepar.
Evaluador 2 (Y)
10
La respuesta sería no, porque los
8 evaluadores no concuerdan, se “dan
6 la contra”.
4
2
0
0 2 4 6 8 10 12 14 16
Evaluador 1 (X)
8
Para la pregunta ¿Entre 1 y 2: Quién debe ser el acompañante del evaluador experto 3? Los
diagramas de dispersión muestran que debemos elegir al evaluador 2
Figura 1 Evaluadores 1 y 2 comparados con evaluador 3 (experto)

16 16
14 14
12 12
Evaluador 1
Evaluador 2
10 10
8 8
6 6
4 4
2 2
0 0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
Evaluador 3 Evaluador 3
∑𝑛 ̅̅
Usando la fórmula de cálculo 𝑟𝑋𝑌 = (𝑛−1)𝑆𝑋 𝑆𝑌
Muestra de ensayo Estadísticas Correlaciones entre evaluadores
Expediente A B C D F G J Media D. Estándar Ev1 Ev2 Ev3
Evaluador 1 14 8 5 10 3 6 9 7.857 3.625 Ev1 1
Evaluador 2 10 9 11 10 12 11 13 10.857 1.345 Ev2 -0.38 1
Evaluador 3 9 10 10 11 12 12 14 11.143 1.676 Ev3 -0.35 0.82 1
Ev1Ev2 140 72 55 100 36 66 117 Suma(Ev1Ev2) 586
Ev1Ev3 126 80 50 110 36 72 126 Suma(Ev1Ev3) 600
Ev2Ev3 90 90 110 110 144 132 182 Suma(Ev2Ev3) 858
La correlación de las calificaciones de los evaluadores 1 y 2 es -0.38, negativa y aunque no es
grande, indica que tienden a darse la contra: no debieran estar juntos.
El evaluador 2 tiene correlación positiva y grande ( >0.5) con el experto evaluador 3, o sea tienden a
coincidir, a concordar. El evaluador 2 debe acompañar al evaluador experto.
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: COEF.DE.CORREL →Aceptar

→ Matriz1: resaltar los datos de X; Matriz2: resaltar los datos de Y→Aceptar.
Excel muestra el valor de 𝑟𝑋𝑌
9
̂ = 𝒂 + 𝒃𝑿
4.3.2 Regresión lineal simple 𝒚
Cuándo se usa
• El análisis de regresión lineal simple sirve para estimar el valor medio que podría tomar una
variable aproximándola linealmente con el valor que toma otra variable, la cual por lo usual es
más simple de medir.
• Se usa cuando hay razones teóricas que permiten decir que una variable X condiciona a la otra
variable Y en una relación de proporcionalidad (relación lineal) Y=f(X)
Y = Variable dependiente o respuesta. Es la variable predicha

X = Variable independiente o predictora. Es la variable en que nos apoyamos para predecir a Y. Por
lo general precede en el tiempo a Y o la precede en estatus teórico, su posición teórica es más básica
que la de Y. Por ejemplo:
Y = Habilidades sociales de la persona y X = Rasgo de personalidad Extraversión o

Y = Consumo mensual de la familia y X = Ingreso mensual de la familia.
(1) La condicionalidad es imprescindible para que el modelo sea aplicable, es una relación de
precedencia teórica o temporal de X sobre Y, por eso se dice que X condiciona a Y y no al revés.
(2) La relación de proporcionalidad implica que

En un diagrama de dispersión las parejas (𝑋, 𝑌) forman un nube de puntos ovalada que sigue una
dirección lineal
El coeficiente de correlación rXY, en valor absoluto, está más cerca de uno que de cero. Esto es,
|rXY| es “grande” dentro de los estándares de donde provienen los datos, claro está.
Es la condición (1) la que diferencia el análisis de correlación del análisis de regresión.
Bajo (1) y (2) podemos explicitar la relación entre X e Y mediante la fórmula 𝑦̂ = 𝑎 + 𝑏𝑋, donde
𝑦̂ es el valor esperado de Y cuando conocemos el valor de X. No es el valor real pues además del
efecto de X sobre Y está el efecto de otros factores no controlados que se suman de manera aleatoria
y generan una diferencia entre el valor real Y y su valor esperado 𝑦̂. Lo anterior se describe con la
fórmula 𝑌 = 𝑎 + 𝑏𝑋 + 𝜀 donde 𝜺 representa ese efecto azaroso acumulado, pero que se supone
pequeño respecto del efecto de X en Y
Interpretación del modelo 𝒚 ̂ = 𝒂 + 𝒃𝑿

a es la “ordenada en el origen” es el punto de corte con el eje de ordenadas o “eje y”, cuando X=0
b es la “pendiente”. Mide el grado de inclinación de la recta. Si es positiva, la recta es creciente. Si
es negativa es decreciente. Representa la variación que sufre Y si X se incrementa en una unidad. Es
una “tasa de cambio” análoga a una tasa de cambio monetaria. Tanto a como b son “parámetros”
del modelo.
10
Figura 1 Descomposición de Y según el modelo lineal

𝑌 = 𝑎 + 𝑏𝑋 + 𝜀
𝑦̂ = 𝑎 + 𝑏𝑋
Y
j > 0
a + bX
𝑦̂
Estimación de parámetros: Método de mínimos cuadrados

Para obtener estimaciones o aproximaciones de a y b, dados los valores de una muestra de n parejas
(X,Y) se asume que las n parejas son obtenidas independientemente unas de otras y que en la
ecuación que relaciona a Y con X en cada caso 𝑌𝑗 = 𝑎 + 𝑏𝑋𝑗 + 𝜀𝑗 , el término 𝜀𝑗 es residual
pequeño. En este contexto es natural tomar los valores de a y b tales que hagan mínimos los
deferentes residuos 𝜀𝑗 . Una manera de hacerlo es tomar a y b tales que minimice
∑𝒏𝒋=𝟏 𝜺𝟐𝒋 = ∑𝑛𝑗=1(𝑌𝑗 − 𝒂 − 𝒃𝑋𝑗 )2 , en la idea que, si la suma de cuadrados es pequeña, cada término
será más pequeño todavía. Este método da como resultados las fórmulas:
𝑺 ∑𝑛 ̅̅
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌 𝑆 ∑𝑛 ̅̅
𝒃 = 𝒓𝑿𝒀 𝑺𝒀 = × 𝑆𝑌 = 2
̅ − 𝒃𝑿
y 𝒂=𝒀 ̅; 𝒚
̂ = 𝒂 + 𝒃𝑿
𝑿 ⏟(𝑛−1)𝑆𝑋 𝑆𝑌 𝑋 (𝑛−1)𝑆𝑋
𝑟𝑋𝑌
Una medida de la bondad del ajuste del modelo a los datos, esto es, de cuán bien se puede representar
a Y con su estimación 𝑦̂, es el coeficiente de correlación lineal 𝑟𝑌𝑦̂ = |𝑟𝑋𝑌 | : Mientras más cercano
esté a 1 (en valor absoluto) mejor ajuste tendrá los datos a un modelo lineal.
También se suele usar el coeficiente R2 = rxy2, llamado también el coeficiente de determinación,

pero que no aplicaremos en estas notas.
Ejemplo 6
Una encuesta entre 11 comerciantes informales dio la siguiente información sobre su Ingreso
semanal (en dólares) y el Número de Horas de trabajo por semana
Caso 1 2 3 4 5 6 7 8 9 10 11 Media D.E.
Horas X 40 30 48 60 42 44 70 72 60 54 60 52.7273 13.1232
Ingreso Y 60 55 72 79 80 60 90 99 90 80 86 77.3636 14.1794
a) ¿Podría predecirse el Ingreso a partir del Trabajo usando un modelo lineal? Justifique usando
todas las herramientas estadísticas que sean atingentes o apropiadas.
b) Una hipótesis que se hizo antes de tomar los datos era que, en este sector de informales, cada
hora semanal de trabajo adicional generaba un aumento en el ingreso de más de 50 centavos
de dólar. ¿Hay evidencia a favor de la hipótesis?
c) Un informal decide trabajar una hora diaria adicional de lunes a sábado: ¿En cuánto aumentaría
su ingreso esperado?
11
d) El costo semanal de una canasta familiar mínima es US$ 125 y en un hogar, tanto el esposo
como la esposa son informales y trabajan igual: ¿Cuánto debe trabajar cada uno como mínimo
para cubrir la canasta familiar?
Solución:
a) Naturalmente en este caso, el trabajo precede en el tiempo al ingreso, es decir, Horas X de
trabajo es la v. independiente y el Ingreso semanal Y es la variable dependiente. En este
contexto, tenemos dos herramientas para evaluar la aplicabilidad de un modelo lineal: el
Diagrama de dispersión XY y el coeficiente de correlación de Pearson rXY.
Figura 1 Diagrama de dispersión La relación entre X e Y es lineal. Los puntos “siguen” o se

de Ingreso semanal según Horas sitúan alrededor de una recta. Un modelo lineal representaría
de trabajo bien a los datos, sí sería apropiado.
120
100
Para la correlación rXY , tenemos las medias y desviaciones
80
estándar, es mejor usar la fórmula que sólo necesita hallar la
Ingreso y
60
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌
40 suma de productos XY: 𝑟𝑋𝑌 = (𝑛−1)𝑆𝑋 𝑆𝑌
20
0
Adecuando los datos:
0 10 20 30 40 50 60 70 80
Horas X
Caso 1 2 3 4 5 6 7 8 9 10 11 Media D.E.

Horas X 40 30 48 60 42 44 70 72 60 54 60 52.7273 13.1232
Ingreso Y 60 55 72 79 80 60 90 99 90 80 86 77.3636 14.1794
Producto XY 2400 1650 3456 4740 3360 2640 6300 7128 5400 4320 5160 Suma XY 46554
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌 46,554−11×52.7273×77.3636
Reemplazando en la fórmula:𝑟𝑋𝑌 = = = 0.905 > 0.8 que es
(𝑛−1)𝑆𝑋 𝑆𝑌 (11−1)13.1232×14.1794
grande para datos económicos (|rXY|>0.8).
Ambos métodos nos dicen que un modelo lineal de la forma 𝑦̂ = 𝑎 + 𝑏𝑋 sería adecuado para hacer
predicciones.
b) La pregunta afirma que en el modelo 𝑦̂ = 𝑎 + 𝑏𝑋 ocurre que la “pendiente” o tasa de cambio de

Y por X es b > 0.5
𝑆 14.1794
Necesitamos calcular 𝑏 = 𝑟𝑋𝑌 𝑆𝑌 = 0.905 × 13.1232 = 0.9773 ≅ 0.98 que en efecto, resultó
𝑋
mayor que 0.5. Sí hay evidencia a favor de la hipótesis.
c) Una hora diaria adicional de lunes a sábado son 6 horas semanales adicionales. Dada la propor-
cionalidad, podemos aplicar una regla de tres simple:
Por una hora adicional de trabajo semanal → b=0.98 dólares adicionales de ingreso
Por seis horas adicionales de trabajo semanal →6×0.98=5.86 dólares adicionales de ingreso. Su
ingreso esperado aumenta en 5.86 dólares.
d) Ya que ambos son informales y trabajan igual, su aporte al hogar es igual. Dividiendo entre dos
el costo de la canasta mínima, tenemos que cada uno debe aportar 125/2 = 62.5 y dado este
ingreso Y, debemos hallar la cantidad X de horas de trabajo por semana. Como 𝑦̂ = 𝑎 + 𝑏𝑋,
sólo faltaría hallar 𝑎 = 𝑌 − 𝑏𝑋 = 77.38 − 0.98 × 52.73 = 25.8 y así tenemos completa la
ecuación de predicción: 𝑦̂ = 25.8 + 0.98𝑋
Si 𝒀 = 𝟔𝟐. 𝟓 entonces de 𝟔𝟐. 𝟓 = 25.8 + 0.98𝑿 tenemos 𝑋 = (62.5 − 25.8)/0.98 = 37.45
horas de trabajo semanales. Cada esposo debe trabajar unas 37.45 horas semanales como
mínimo para cubrir el costo de la canasta familiar mínima.
12
Con Excel: Hay varias alternativas; las más simples son:
Para el Diagrama de dispersión XY:

Insertar→ En Gráficos: Click en ícono Dispersión →Dispersión : Se abre un recuadro en
blanco (“Área de gráfico”) → Dentro del Área de gráfico: Click con botón derecho de ratón:
Seleccionar datos→Agregar→Nombre de la serie: Poner un breve nombre descriptivo como
Diagrama de dispersión X Y(si lo deja en blanco Excel pondrá Serie 1); Valores X de la serie:
resaltar con el mouse los valores de X; Valores Y de la serie: resaltar con el mouse los valores
de Y→Aceptar: aparece el gráfico con los puntos (x,y).
Para editar: Cursor sobre el gráfico→Diseño de gráfico (en la cinta de opciones) → Click sobre
Agregar elemento de gráfico y seleccionar alguna opción para editar, como Títulos del Eje, o
Leyenda, etc.
Para la Pendiente b:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: PENDIENTE→Aceptar →
Conocido_y: resaltar los datos de Y; Conocido_x: resaltar los datos de X →Aceptar.
Excel muestra el valor de 𝑏
Para el Intercepto a:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: INTERSECCION.EJE→Aceptar
→ Conocido_y: resaltar los datos de Y; Conocido_x: resaltar los datos de X →Aceptar.
Excel muestra el valor de 𝑎
Caso 1 2 3 4 5 6 7 8 9 10 11
Horas X 40 30 48 60 42 44 70 72 60 54 60
Ingreso Y 60 55 72 79 80 60 90 99 90 80 86
b
0.98 Arturo Calderón G:
=PENDIENTE(C4:M4,C3:M3)
a
25.83 Arturo Calderón G:
=INTERSECCION.EJE(C4:M4,C3:M3)
13
Ejemplo 7 (Correlación)
En un trabajo relativo a la ansiedad ante la evaluación en alumnos universitarios de primer ciclo, un
economista y un psicólogo educacional tenían la hipótesis inicial que las horas dedicadas al estudio
tenían un rol protector contra este tipo de ansiedad y que lo mismo ocurría, aunque de menor manera,
con la satisfacción que tenía el alumno con las clases que recibía de sus profesores. Se tomó una
pequeña muestra aleatoria piloto de n = 10 alumnos, y se aplicó un test psicológico breve de Ansiedad
y se registró la cantidad semanal promedio de horas de estudio (aparte de las horas de clase y
prácticas) así como las puntuaciones en una escala de satisfacción con las clases (que mide
cuantitativamente la satisfacción de menos a más). Los datos individuales obtenidos así como algunas
estadísticas de ellos son:
Datos Estadísticas
D.
Alumno 1 2 3 4 5 6 7 8 9 10 Media
Estándar
Ansiedad 6 5 4 5 4 6 2 3 2 1 3.80 1.7512
Estudio 1 2 4 2 4 6 6 5 5 6 4.10 1.8529
Satisfacción 8 7 8 5 7 5 10 6 8 8 7.20 1.5492
a) Escriba cada hipótesis y evalúela gráficamente, escribiendo su respectiva conclusión

(provisional por tratarse de evaluaciones gráficas) y luego escriba una conclusión global sobre
todas las hipótesis.
b) Evalúe cada hipótesis y escriba su conclusión general y final, basándose en estadísticas
apropiadas.
c) Un revisor del estudio afirma que aunque concuerda con las hipótesis, faltaría agregar que las
horas de estudio y satisfacción además se refuerzan mutuamente. ¿Qué diría usted al
revisor? Apóyese con el uso de herramientas estadísticas.
Solución:
a) Desagregando el párrafo "las horas dedicadas al estudio tenían un rol protector contra este tipo
de ansiedad y que lo mismo ocurría, aunque de menor manera, con la satisfacción que tenía el
alumno con las clases que recibía de sus profesores" las hipótesis son:
Hipótesis 1: "Estudio protege contra la ansiedad" equivale a decir que hay relación inversa y
fuerte entre estudio y ansiedad.
Hipótesis 2: "lo mismo ocurría, aunque de menor manera, con la satisfacción que tenía el
alumno con las clases que recibía de sus profesores" puede interpretarse como:
(1) El estudio protege contra la satisfacción con las clases; pero eso no tendría sentido, estar
satisfecho con las clases no es algo como para ser evitado, mientras que estar ansioso sí es algo
que uno preferiría evitar.
otra posible interpretación es:
(2) La satisfacción con las clases protege contra la ansiedad. Esto último sí tiene sentido y
optamos por esta interpretación.
Además se sostiene que lo anterior "ocurría de menor manera", esto es, la relación de
satisfacción con ansiedad es menos intensa que la relación entre estudio y ansiedad.
Estadísticamente (denotando la Ansiedad con Y, Estudio con X y Satisfacción con Z) las

hipótesis son:
Hipótesis 1: Hay relación inversa y fuerte entre estudio y ansiedad ( 𝑟𝑋𝑌 < −0.5))
Hipótesis 2: Hay relación inversa y fuerte entre satisfacción y ansiedad ( 𝒓𝒁𝒀 < −𝟎. 𝟓)
y
14
La relación (inversa) entre satisfacción y ansiedad es menos intensa o fuerte que la relación
(inversa) entre estudio y ansiedad esto equivale a |𝒓𝑿𝒀 | > |𝒓𝒁𝒀 |).
Sólo son necesarios dos diagramas de dispersión:
7 7
6 6
5 5
Ansiedad Y
Ansiedad Y
4 4
3 3
2 2
1 1
0 0
0 2 4 6 8 0 2 4 6 8 10 12 14
Estudio X Satisfacción Z
Figura 1 Relación inversa entre Estudio y Ansiedad Figura 2 Relación inversa entre Satisfacción y
Ansiedad
Resultado:
Salvo el caso del alumno 6 que se aleja de la tendencia general, la figura 2 muestra que conforme
aumentan las horas de estudio, las puntuaciones en ansiedad tienden a ser menores.
La conclusión acerca de la hipótesis 1 es que sí hay evidencia de relación inversa y lineal entre
Estudio y Ansiedad.
Resultado:
En la figura 2 se observa también una relación inversa donde a mayor satisfacción con las clases se
presentan menores puntuaciones en ansiedad, aunque hay algo más de dispersión, la tendencia es
menos clara.
La conclusión acerca de la hipótesis 2 sería que habría relación inversa entre Satisfacción y
Ansiedad pero no se podría evaluar cuán menor sería esta relación inversa comparada con la que
existe entre ansiedad y estudio.
Conclusión global:
Los gráficos de dispersión muestran una clara relación inversa entre Estudio y Ansiedad y
también una relación inversa entre Satisfacción y Ansiedad, pero no es evidente la supuesta
relación "menos intensa" en el caso de satisfacción con ansiedad. Necesitamos cuantificar para
tener datos menos subjetivos.
b) Como se mencionó en a), hay que precisar más y para ello es apropiado medir la asociación
lineal con los respectivos coeficientes de correlación de Pearson 𝑟𝑋𝑌 y 𝑟𝑍𝑌 :
Para la hipótesis 1:
𝑟𝑋𝑌 = −0.64 que es negativo y “grande” en valor absoluto (|𝑟𝑋𝑌 | = 0.64 > 0.5) según nuestra
convención para datos de Psicología. Esta hipótesis tiene evidencia a su favor, sí sería cierta.
15
Para la hipótesis 2: 𝑟𝑍𝑌 = −0.56 y como en la hipótesis 1, aquí también se presenta una
correlación negativa y grande, lo que corrobora la hipótesis 2.
Además aunque esta correlación es grande, es “menos grande” (en valor absoluto) que la
correlación encontrada entre estudio y ansiedad, es decir, sí se cumple la parte de la hipótesis
que dice que el efecto protector contra la ansiedad que tiene la satisfacción con las clases, es
menos fuerte que el efecto protector del estudio.
Conclusión global:
Los gráficos y las estadísticas muestran que hay una fuerte relación inversa entre Horas de
estudio y Ansiedad y también relación inversa y fuerte entre Satisfacción con las clases y
Ansiedad, siendo esta segunda relación menos intensa comparada con la primera.
c) Para estudiar lo que dice el revisor, hay que ver si la relación entre estudio y satisfacción es
directa y fuerte, sólo así sería cierto que estas variables “se refuerzan mutuamente” como
afirma el revisor. Como es usual primero usamos un diagrama de dispersión:
12 El gráfico muestra una relación que es o nula

o muy débil, los puntos caen casi horizontal-
10 mente. El coeficiente de correlación es nece-
sario para medir el grado de relación directa,
Satisfacción Z
8
si la hubiera:
6 𝒓𝑿𝒁 = 𝟎. 𝟏𝟗 (|𝒓𝑿𝒁 | = 0.19 < 0.5 )
4
𝐋a correlación entre Satisfacción y Estudio
2 aunque positiva es muy débil (debajo de
0
0.5) como para poder asegurar que la la
0 2 4 6 8 afirmación es cierta.
Le diría que está equivocado
Estudio X
Figura 3 Relación entre Estudio y Satisfacción
Ejemplo 8 (Regresión)
La Cadena de Farmacias Inti, una cadena emergente de farmacias, quiere determinar el efecto sobre
sus ventas, de una campaña de promociones y descuentos que acaba de implementar, pero medida
en términos de su posición con respecto a una cadena de farmacias ya establecida y conocida. Para
hacer lo anterior, tomó como referencia los gastos estimados en promoción y en ventas de farmacias
de la competencia, vecinas inmediatas a las de su propia cadena y entonces tanto sus gastos como
ventas fueron medidos como porcentaje de los gastos y ventas de la competencia. Obtenidos los
datos para una muestra de n = 15 farmacias de su cadena, ubicadas en distritos diferentes (por un
periodo de un mes) obtuvo las estadísticas de la tabla 1 que le dan para analizar:
Tabla 1 Datos y estadísticas de la muestra de Cadena de Farmacias Inti

Distrito 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Indice de Promociones 95 92 103 115 77 79 105 94 85 101 106 120 118 75 99
Indice de Ventas 98 94 110 125 82 84 112 99 93 107 114 132 129 79 105
16
a) ¿Podría establecerse una relación entre estos índices? ¿De haberla, qué tipo de relación habría?
Use sólo las herramientas estadísticas adecuadas.
b) El gerente de Inti le pregunta si podría predecir el índice de ventas a partir del índice en
promociones, y de ser así, cuál sería la fórmula de pronóstico. Absuelva esta pregunta usando
estadística.
c) La gerencia de Inti piensa que cuando iguale el gasto en promociones en Inti con el gasto en la
cadena rival, podría superarla en ventas ¿Qué le podría decir usted al respecto? Use estadística
para contestar y escriba su conclusión.
d) La cadena rival, enterada del estudio de Inti, decide, para el mes siguiente al del estudio, un
gasto en promociones de 120 mil unidades monetarias pues sabe que Inti sólo tiene presupuesto
para 80 mil unidades monetarias en promociones y espera que, con esta medida, las ventas de
Inti no pasen del 70% de las ventas de la cadena. En Inti le preguntan qué pasaría ¿Qué podría
decir usted?
Solución:
a) Debemos examinar los datos para ver si habría relación y de qué tipo: usaremos diagrama de
dispersión para ver la posible relación y de acuerdo a ello, la correlación para medir si se trata
de una relación lineal suficientemente fuerte como para establecer una relación de proporciona-
lidad (i.e. asociación lineal)
140
El diagrama muestra una
120
clara relación lineal y
100
Índice de ventas
directa entre el índice de

80 promociones X y el índice
60 de ventas Y.
40
Sí habría relación entre
los índices, sería lineal y
20
directa.
0
0 20 40 60 80 100 120 140
Falta cuantificar para
Indice de promociones X
evaluar el grado o
Figura 1 Diagrama de dispersión de Indice X de promociones versus Indice Y de Ventas
intensidad de la relación. Usaremos el coeficiente de correlación lineal de Pearson 𝑟𝑋𝑌

𝒓𝑿𝒀 = 𝟎. 𝟗𝟗𝟑𝟓 que es mayor que 0.8 (nuestro “punto de corte” para correlaciones grandes con
datos de Gestión, Economía, etc.).
La relación entre los dos índices es lineal, directa o positiva y grande.
b) En el fondo el gerente pregunta si puede establecerse una fórmula del tipo 𝒚 = 𝑓(𝒙) , donde 𝒚
es el índice de ventas de Inti y 𝒙 el índice de promociones. Para ello, como las promociones son
previas a las ventas, tendría sentido tomar 𝑌 = Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑣𝑒𝑛𝑡𝑎𝑠 y 𝑋 =
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑝𝑟𝑜𝑚𝑜𝑐𝑖𝑜𝑛𝑒𝑠, esto es al índice de ventas como “variable dependiente”. Además,
como en a) ya se confirmó que la relación es lineal, una recta de regresión 𝑦̂ = 𝑎 + 𝑏𝑋 es la
fórmula apropiada.
Con Excel:
𝑏 = 1.1488; 𝑎 = −7.9268
La fórmula de pronóstico sería:

𝑦̂ = −7.9268 + 1.1488𝑋 o 𝐼𝑛𝑑. ̂ 𝑉𝑒𝑛𝑡. = −7.9268 + 1.1488𝐼𝑛𝑑. 𝑃𝑟𝑜𝑚.
(Se ha usado cuatro decimales por precaución, para evitar el efecto acumulativo del error de
17
redondeo asociado al uso de muestras muy pequeñas, o sea con n < 30).
c) Recordemos que el enunciado dice que “tomó como referencia los gastos estimados en
promoción y en ventas de farmacias de la competencia, vecinas inmediatas a las de su propia
cadena y tanto sus gastos como ventas fueron medidos como porcentaje de los gastos y ventas
𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 𝑉𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖
de la competencia” o sea que 𝑋 = 100 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 ; 𝑌 = 100 𝑉𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 . En este
contexto, “igualar el gasto en promociones en Inti con el gasto en la cadena rival” equivale a
G𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 = 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 ⇒ 𝑋 = 100 y se pregunta ¿ 𝑌 > 100?. En la ecuación de
̂ (𝑌) = −7.9268 + 1.1488𝐼𝑛𝑑. 𝑃𝑟𝑜𝑚(𝑋) hacemos 𝑋 = 100 ⇒
regresión: 𝐼𝑛𝑑. 𝑉𝑒𝑛𝑡.
𝑦̂ = −7.9268 + 1.1488 × 100 = 106.9572 > 100: Inti sí superaría en ventas a la cadena
rival.
d) En este caso, recordando las definiciones vistas en c), si 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 =

80
120; 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 = 80 ⇒ 𝑋 = 100 120 = 66.67 ⇒ 𝑦̂ = −7.9268 + 1.1488 × 66.67 =
68.6664 < 70 La respuesta es que las ventas de Inti serán un 68.66% de las ventas de la
cadena rival. O sea que sí serían inferiores al 70% de lo que venda la rival.
18

Clase Semana 15 Cap 4 Introducción Al Análisis Exploratorio de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase Semana 15 Cap 4 Introducción Al Análisis Exploratorio de Datos

Cargado por

Copyright:

Formatos disponibles

1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.

Introducción al Análisis Exploratorio de Datos

Recordemos del capítulo 1 del curso:

Población (de elementos)

Población Estadística (de una variable)

Distribución de frecuencias de una variable

Muestra Aleatoria (m.a.)

Distribución de X Figura 1 Distribución de presencia o ausencia de estrés crónico

• Parámetro: Basta un “descriptor”, como por ejemplo la “Incidencia de estrés crónico” =P = %

Distribución de X (muestra) Figura 2 Distribución de presencia o ausencia de estrés crónico en la muestra

Propiedades formales de la Media Aritmética:

El denominador es (𝑛 − 1) porque aunque hay n términos en la sumatoria que define 𝑆 2 , éstos no

4.3 Estadísticas más importantes en estadística descriptiva bidimensional

4.3.1 Coeficiente de correlación de Pearson 𝒓𝑿𝒀

• Grado (la fuerza) de la Asociación Lineal:

Criterio para el tamaño de las correlaciones

𝑌 El rectágulo de bordes rojos es la zona “más

𝑌 El rectágulo de bordes rojos es la zona “más

Figura 1 Parejas de notas de cada caso de la muestra

Correlación con Excel: Usamos la secuencia de comandos:

-0.5916 Arturo Calderón G:

Para la pregunta ¿Pueden estar juntos los evaluadores 1 y 2?

Figura 1 Diagrama de dispersión de calificaciones de

Figura 1 Evaluadores 1 y 2 comparados con evaluador 3 (experto)

𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: COEF.DE.CORREL →Aceptar

Y = Variable dependiente o respuesta. Es la variable predicha

Y = Habilidades sociales de la persona y X = Rasgo de personalidad Extraversión o

(2) La relación de proporcionalidad implica que

Es la condición (1) la que diferencia el análisis de correlación del análisis de regresión.

Interpretación del modelo 𝒚 ̂ = 𝒂 + 𝒃𝑿

Figura 1 Descomposición de Y según el modelo lineal

Estimación de parámetros: Método de mínimos cuadrados

También se suele usar el coeficiente R2 = rxy2, llamado también el coeficiente de determinación,

Figura 1 Diagrama de dispersión La relación entre X e Y es lineal. Los puntos “siguen” o se

Caso 1 2 3 4 5 6 7 8 9 10 11 Media D.E.

b) La pregunta afirma que en el modelo 𝑦̂ = 𝑎 + 𝑏𝑋 ocurre que la “pendiente” o tasa de cambio de

Para el Diagrama de dispersión XY:

a) Escriba cada hipótesis y evalúela gráficamente, escribiendo su respectiva conclusión

Estadísticamente (denotando la Ansiedad con Y, Estudio con X y Satisfacción con Z) las

12 El gráfico muestra una relación que es o nula

Figura 3 Relación entre Estudio y Satisfacción

Tabla 1 Datos y estadísticas de la muestra de Cadena de Farmacias Inti

directa entre el índice de

intensidad de la relación. Usaremos el coeficiente de correlación lineal de Pearson 𝑟𝑋𝑌

La fórmula de pronóstico sería:

d) En este caso, recordando las definiciones vistas en c), si 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 =

También podría gustarte