Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase Semana 15 Cap 4 Introducción Al Análisis Exploratorio de Datos
Clase Semana 15 Cap 4 Introducción Al Análisis Exploratorio de Datos
Capítulo 4
Variable
Es la característica que se registra o investiga. Específicamente es una representación numérica de
una característica o atributo A. Es el resultado de un proceso de medición; representaremos las
variables usando mayúsculas, como X, Y, etc.
Parámetro
Es una constante que, calculada sobre toda la población estadística de una variable X, la caracteriza
en un sentido determinado. Representa un aspecto específico del comportamiento de la variable
X en la Población de elementos.
Muestra
Una muestra es un subconjunto de una población estadística. La muestra nos proporciona información
acerca de la población, y la calidad de esta información depende de cómo se la ha tomado. Una manera
de lograr una buena representación de la población en la muestra, es elegir ésta mediante algún
mecanismo de sorteo o selección aleatoria que otorgue a cualquier elemento de la población de
elementos, la misma opción de ser seleccionado y registrar en él el valor de la variable X de interés.
El conjunto de valores registrados, digamos (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) es una muestra de la población estadística
de X; aquí 𝑋𝑖 es el valor de X registrado en el elemento # 𝑖 de la muestra de elementos.
Estadística
Es un valor calculado a partir de los datos de una muestra, que sólo depende los valores muestrales.
1
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Ejemplo 1
• Característica de Interés: Estrés crónico por sobrecarga laboral
• Variable X: Presencia de estrés crónico, codificada según Presente=1, Ausente=0
• Población = {U1, U2, U3, U4, ... , U400} los 400 trabajadores de una empresa financiera
• Población Estadística = {0,1,0, 1,...,0}, lo que significa que U1,U3 y U400, entre otros trabajadores,
no están estresados, y en cambio U2 y U4 entre otros trabajadores sí están estresados. La sucesión
de 0 y 1 es muy larga y no permite ver ningún patrón. Es más informativo presentar una lista
resumida que nos proporciona el estado de la población en lo que a estrés crónico se refiere. Esa
lista es la Distribución de X en la Población que mostramos abajo, junto con una representación
gráfica circular:
X N %
0 250 62.5
1 150 37.5
Total 400 100
1=Presente, 37.5
0=Ausente, 62.5
0=Ausente 1=Presente
X n %
0 4 66.7
1 2 33.3
Total 6 100
1=Presente, 33.3
0=Ausente, 66.7
0=Ausente 1=Presente
2
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
4.2 Estadísticas más importantes
Dada una m.a. (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), de tamaño n, las estadísticas importantes son:
Media muestral 𝑿.
∑𝒏
𝒋=𝟏 𝑿𝒋
Se define mediante 𝑿 = 𝒏 y es el equivalente de la media poblacional 𝜇. Mide la “tendencia
central” en la muestra, es un valor alrededor del cual está la mayoría de los valores observados de la
muestra.
Ejemplo 2
̅ = 𝟏𝟏+𝟏𝟐+𝟏𝟐+𝟏𝟓+𝟏𝟕 = 𝟏𝟑. 𝟒
• En la serie de n = 5 notas: 11, 12, 12, 15, 17: 𝑿 𝟓
• ̅ = 𝟔𝟒𝟎.
En la serie de n = 5 ingresos mensuales: 400, 600, 600, 700, 900 la media es 𝑿
̅ = 𝟐, 𝟐𝟔𝟎 (un sólo valor extremo, 9000, al-
Y en la serie 400, 600, 600, 700, 9000 la media es 𝑿
̅ y la hace poco representativa del conjunto de datos o de la “tendencia central”).
tera 𝑿
Propiedades:
• Tiene una fórmula analítica que hace fácil su tratamiento matemático. Por esto último, es la
medida de T. Central más usada en los análisis estadísticos.
• Bastante estable al muestreo. Se usa con fines descriptivos e inferenciales.
• Es el centro "de gravedad" de la distribución, que toma en cuenta no sólo las frecuencias sino
también los valores de los datos. Se la interpreta como "el valor típico" de la serie de datos,
en el sentido que “la mayoría de valores está alrededor de 𝑿 ̅”
• Se ve afectada por "valores extremos" desbalanceados (valores muy alejados hacia la izquierda o
hacia la derecha del punto de tendencia central), como ya vimos en el ejemplo de los ingresos
mensuales.
Varianza muestral S2
Se define como la distancia cuadrado promedio entre un valor 𝑋𝑗 cualquiera de la serie y la media 𝑋̅
∑𝒏 ̅ 𝟐
𝒋=𝟏(𝑿𝒋 −𝑿)
de la serie. Su fórmula de definición es entonces: 𝑺𝟐 = . Es el equivalente muestral de la
𝒏−𝟏
varianza poblacional 𝜎 2 .
3
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Desviación estándar muestral S
Se define mediante 𝑆 = √𝑆 2 y se interpreta como la “distancia promedio entre un valor cualquiera
de 𝑋𝑖 de la muestra y el punto de tendencia central 𝑋̅”.
La mayoría de los valores de la muestra (más de 50%) cae dentro del intervalo [𝑋̅ − 𝑆, 𝑋̅ + 𝑆].
Ejemplo 3
En la serie de n = 8 casos de notas X:
Variable Casos Total
𝑗 1 2 3 4 5 6 7 8
𝑋𝑗 15 15 19 20 20 20 20 20 149
𝑋𝑗2 225 225 361 400 400 400 400 400 2811
∑𝑛 2 ̅2
𝑗=1 𝑋𝑗 −𝑛𝑋 2811−8×18.62
∑𝑛𝑗=1 𝑋𝑗 = 149 ; ∑𝑛𝑗=1 𝑋𝑗 2 = 2811; 𝑋̅ = 18.6 y 𝑆 2 = = = 5.1 y
𝑛−1 8−1
𝑆 = √5.1 = 2.3
Nota:
• Toda estadística es una variable aleatoria, pues puede tomar diversos valores, según la muestra
que ocurra, y estos valores dependen del azar, cuando los n casos en los cuales se registra la
variable X de interés, se seleccionan mediante algún sistema de sorteo.
• Toda estadística tiene alguna “distribución de probabilidades”, o sea una regla (o fórmula) que
predice la mayor o menos frecuencia relativa con que se presentan los posibles valores de la
𝜎2
estadística. Por ejemplo, si n es “grande”, aplicando el Teorema del límite central: 𝑋̅~𝑁(𝜇, ). 𝑛
Para estudiar la relación entre dos variables 𝑋 e 𝑌 se toma una muestra de n elementos o agentes
económicos (𝑈1 , 𝑈2 , … , 𝑈𝑖 , … , 𝑈𝑛 ) y se registra simultáneamente en cada uno las parejas de valores
de 𝑋 e 𝑌 obteniendo la muestra aleatoria de n parejas (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑖 , 𝑌𝑖 ), … , (𝑋𝑛 , 𝑌𝑛 )
El tipo de relación más sencillo y frecuente es la relación lineal: tendencia de X e Y a seguir una
línea recta en el plano cartesiano 𝑋𝑌. Para cuantificar esta relación se usa el coeficiente de
correlación de Pearson.
Propiedades formales:
1. |𝑟𝑋𝑌 | ≤ 1
2. 𝒓𝑿𝒀 = 𝟎 ⇔ 𝑵𝒐 𝒆𝒙𝒊𝒔𝒕𝒆 𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝒍𝒊𝒏𝒆𝒂𝒍 𝒆𝒏𝒕𝒓𝒆 𝑿 𝒆 𝒀
3. 𝑟𝑋𝑌 = 1 ⇔ ∃𝛼, 𝛽 > 0 𝑡𝑎𝑙𝑒𝑠 𝑞𝑢𝑒 𝑌 = 𝛼 + 𝛽𝑋
4. 𝑟𝑋𝑌 = −1 ⇔ ∃𝛼, 𝛽 < 0 𝑡𝑎𝑙𝑒𝑠 𝑞𝑢𝑒 𝑌 = 𝛼 + 𝛽𝑋
4
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Interpretación
• Tipo de Asociación entre X e Y:
Si 𝑟𝑋𝑌 > 0 Existe Asociación Lineal Directa
Si 𝑟𝑋𝑌 < 0 Existe Asociación Lineal Inversa
Si 𝒓𝑿𝒀 = 𝟎 No Existe Asociación Lineal entre X e Y (puede haber asociación no lineal).
Ejemplo 4
En un examen hay dos partes, una obligatoria y otra electiva, con igual puntaje (diez como
máximo). Las preguntas tocaban diversas aplicaciones de los mismos temas. Se concluyó que el
examen estaba "bien puesto" porque había similar puntaje promedio en sus dos partes. Si Ud. recibe
la siguiente muestra de notas y sus estadísticas correspondientes:
Alumno A B C D E F G H I J M D.E.
P. Obligatoria X 8 4 9 3 10 7 6 2 2 5 5.60 2.88
P. Electiva Y 6 7 7 8 2 6 5 6 7 6 6.00 1.63
¿Realmente el examen estuvo “bien puesto”?
Solución:
Graficando las parejas de notas en un plano cartesiano XY:
Con Excel Diagrama de dispersión XY:
Insertar→ En Gráficos: Click en ícono Dispersión →Dispersión : Se abre un recuadro en
blanco (“Área de gráfico”) → Dentro del Área de gráfico: Click con botón derecho de ratón:
Seleccionar datos→Agregar→Nombre de la serie: Poner un breve nombre descriptivo como
Diagrama de dispersión X Y(si lo deja en blanco Excel pondrá Serie 1); Valores X de la serie:
6
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
resaltar con el mouse los valores de X; Valores Y de la serie: resaltar con el mouse los valores
de Y→Aceptar: aparece el gráfico con los puntos (x,y).
Para editar: Cursor sobre el gráfico→Diseño de gráfico (en la cinta de opciones) → Click sobre
Agregar elemento de gráfico y seleccionar alguna opción para editar, como Títulos del Eje, o
Leyenda, etc.
10
9
8
7
P. Electiva (Y)
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
P. Obligatoria (X)
El gráfico anterior (llamado Diagrama de dispersión) muestra que, al parecer, los que “salen bien”
en la parte obligatoria, tienden a “salir mal” en la electiva y viceversa. Ambas partes “se dan la
contra”. El examen no sería coherente, no estaría “bien puesto”.
∑𝑛 ̅̅
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
Usando la fórmula de cálculo 𝑟𝑋𝑌 = . Arreglando en una tabla para facilitar cálculos:
(𝑛−1)𝑆𝑋 𝑆𝑌
i 1 2 3 4 5 6 7 8 9 10 Total Estadísticas
Alumno A B C D E F G H I J -- M D.E.
P. Obligatoria Xi 8 4 9 3 10 7 6 2 2 5 -- 5.60 2.88
P. Electiva Yi 6 7 7 8 2 6 5 6 7 6 -- 6.00 1.63
XiYi 48 28 63 24 20 42 30 12 14 30 311 -- --
𝑛 = 10, ∑10𝑖=1 𝑋𝑖 𝑌𝑖 = 311. Haciendo cálculos:
∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 311 − 10 × 5.60 × 6.00 311 − 336 −25
𝑟𝑋𝑌 = = = = = −0.59
(𝑛 − 1)𝑆𝑋 𝑆𝑌 (10 − 1) × 2.88 × 1.63 42.26 42.26
El resultado estadístico es que la correlación es negativa y “grande” (al ser |𝑟𝑋𝑌 | > 0.5), para el área
de donde vienen los datos (área educacional). Hay una fuerte relación inversa entre las dos partes
del examen, las partes de esa prueba “se dan la contra”, si alguien sale bien en la parte obligatoria
suele salir mal en la electiva y viceversa. Por eso se concluye que el examen está “mal puesto”.
7
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Alumno A B C D E F G H I J
P. Obligatoria Xi 8 4 9 3 10 7 6 2 2 5
P. Electiva Yi 6 7 7 8 2 6 5 6 7 6
Ejemplo 5
Para una selección de personal, un economista forma un equipo con tres evaluadores, a los cuales se
les dio una muestra de ensayo de n=7 expedientes de proyectos de inversión para que les otorguen
puntajes cuantitativos con notas que van de 0 a 16 y que miden de menos a más la calidad de
proyecto. El evaluador 3 es el más experto y sus juicios son totalmente aceptados. Los otros
evaluadores están a prueba. Los datos de la muestra de ensayo y sus estadísticas son:
Muestra de ensayo Estadísticas ¿Si tuviera que formar un jurado con
Expediente A B C D F G J Media D. Estándar dos evaluadores: podrían estar los
evaluadores 1 y 2 juntos? ¿Si tuviera
Evaluador 1 14 8 5 10 3 6 9 7.857 3.625
que escoger a un evaluador entre 1 y 2
Evaluador 2 10 9 11 10 12 11 13 10.857 1.345 para que forme jurado con el evaluador
Evaluador 3 9 10 10 11 12 12 14 11.143 1.676 3: con quién se quedaría?
Solución:
Aplicando el mismo sistema gráfico del ejemplo anterior:
10
La respuesta sería no, porque los
8 evaluadores no concuerdan, se “dan
6 la contra”.
4
2
0
0 2 4 6 8 10 12 14 16
Evaluador 1 (X)
8
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Para la pregunta ¿Entre 1 y 2: Quién debe ser el acompañante del evaluador experto 3? Los
diagramas de dispersión muestran que debemos elegir al evaluador 2
Evaluador 2
10 10
8 8
6 6
4 4
2 2
0 0
0 2 4 6 8 10 12 14 16 0 2 4 6 8 10 12 14 16
Evaluador 3 Evaluador 3
∑𝑛 ̅̅
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
Usando la fórmula de cálculo 𝑟𝑋𝑌 = (𝑛−1)𝑆𝑋 𝑆𝑌
Muestra de ensayo Estadísticas Correlaciones entre evaluadores
Expediente A B C D F G J Media D. Estándar Ev1 Ev2 Ev3
Evaluador 1 14 8 5 10 3 6 9 7.857 3.625 Ev1 1
Evaluador 2 10 9 11 10 12 11 13 10.857 1.345 Ev2 -0.38 1
Evaluador 3 9 10 10 11 12 12 14 11.143 1.676 Ev3 -0.35 0.82 1
Ev1Ev2 140 72 55 100 36 66 117 Suma(Ev1Ev2) 586
Ev1Ev3 126 80 50 110 36 72 126 Suma(Ev1Ev3) 600
Ev2Ev3 90 90 110 110 144 132 182 Suma(Ev2Ev3) 858
La correlación de las calificaciones de los evaluadores 1 y 2 es -0.38, negativa y aunque no es
grande, indica que tienden a darse la contra: no debieran estar juntos.
El evaluador 2 tiene correlación positiva y grande ( >0.5) con el experto evaluador 3, o sea tienden a
coincidir, a concordar. El evaluador 2 debe acompañar al evaluador experto.
9
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
̂ = 𝒂 + 𝒃𝑿
4.3.2 Regresión lineal simple 𝒚
Cuándo se usa
• El análisis de regresión lineal simple sirve para estimar el valor medio que podría tomar una
variable aproximándola linealmente con el valor que toma otra variable, la cual por lo usual es
más simple de medir.
• Se usa cuando hay razones teóricas que permiten decir que una variable X condiciona a la otra
variable Y en una relación de proporcionalidad (relación lineal) Y=f(X)
(1) La condicionalidad es imprescindible para que el modelo sea aplicable, es una relación de
precedencia teórica o temporal de X sobre Y, por eso se dice que X condiciona a Y y no al revés.
Bajo (1) y (2) podemos explicitar la relación entre X e Y mediante la fórmula 𝑦̂ = 𝑎 + 𝑏𝑋, donde
𝑦̂ es el valor esperado de Y cuando conocemos el valor de X. No es el valor real pues además del
efecto de X sobre Y está el efecto de otros factores no controlados que se suman de manera aleatoria
y generan una diferencia entre el valor real Y y su valor esperado 𝑦̂. Lo anterior se describe con la
fórmula 𝑌 = 𝑎 + 𝑏𝑋 + 𝜀 donde 𝜺 representa ese efecto azaroso acumulado, pero que se supone
pequeño respecto del efecto de X en Y
10
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
𝑦̂ = 𝑎 + 𝑏𝑋
Y
j > 0
a + bX
𝑦̂
𝑺 ∑𝑛 ̅̅
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌 𝑆 ∑𝑛 ̅̅
𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌
𝒃 = 𝒓𝑿𝒀 𝑺𝒀 = × 𝑆𝑌 = 2
̅ − 𝒃𝑿
y 𝒂=𝒀 ̅; 𝒚
̂ = 𝒂 + 𝒃𝑿
𝑿 ⏟(𝑛−1)𝑆𝑋 𝑆𝑌 𝑋 (𝑛−1)𝑆𝑋
𝑟𝑋𝑌
Una medida de la bondad del ajuste del modelo a los datos, esto es, de cuán bien se puede representar
a Y con su estimación 𝑦̂, es el coeficiente de correlación lineal 𝑟𝑌𝑦̂ = |𝑟𝑋𝑌 | : Mientras más cercano
esté a 1 (en valor absoluto) mejor ajuste tendrá los datos a un modelo lineal.
Ejemplo 6
Una encuesta entre 11 comerciantes informales dio la siguiente información sobre su Ingreso
semanal (en dólares) y el Número de Horas de trabajo por semana
Caso 1 2 3 4 5 6 7 8 9 10 11 Media D.E.
Horas X 40 30 48 60 42 44 70 72 60 54 60 52.7273 13.1232
Ingreso Y 60 55 72 79 80 60 90 99 90 80 86 77.3636 14.1794
a) ¿Podría predecirse el Ingreso a partir del Trabajo usando un modelo lineal? Justifique usando
todas las herramientas estadísticas que sean atingentes o apropiadas.
b) Una hipótesis que se hizo antes de tomar los datos era que, en este sector de informales, cada
hora semanal de trabajo adicional generaba un aumento en el ingreso de más de 50 centavos
de dólar. ¿Hay evidencia a favor de la hipótesis?
c) Un informal decide trabajar una hora diaria adicional de lunes a sábado: ¿En cuánto aumentaría
su ingreso esperado?
11
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
d) El costo semanal de una canasta familiar mínima es US$ 125 y en un hogar, tanto el esposo
como la esposa son informales y trabajan igual: ¿Cuánto debe trabajar cada uno como mínimo
para cubrir la canasta familiar?
Solución:
a) Naturalmente en este caso, el trabajo precede en el tiempo al ingreso, es decir, Horas X de
trabajo es la v. independiente y el Ingreso semanal Y es la variable dependiente. En este
contexto, tenemos dos herramientas para evaluar la aplicabilidad de un modelo lineal: el
Diagrama de dispersión XY y el coeficiente de correlación de Pearson rXY.
100
Para la correlación rXY , tenemos las medias y desviaciones
80
estándar, es mejor usar la fórmula que sólo necesita hallar la
Ingreso y
60
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌
40 suma de productos XY: 𝑟𝑋𝑌 = (𝑛−1)𝑆𝑋 𝑆𝑌
20
0
Adecuando los datos:
0 10 20 30 40 50 60 70 80
Horas X
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌 46,554−11×52.7273×77.3636
Reemplazando en la fórmula:𝑟𝑋𝑌 = = = 0.905 > 0.8 que es
(𝑛−1)𝑆𝑋 𝑆𝑌 (11−1)13.1232×14.1794
grande para datos económicos (|rXY|>0.8).
Ambos métodos nos dicen que un modelo lineal de la forma 𝑦̂ = 𝑎 + 𝑏𝑋 sería adecuado para hacer
predicciones.
c) Una hora diaria adicional de lunes a sábado son 6 horas semanales adicionales. Dada la propor-
cionalidad, podemos aplicar una regla de tres simple:
Por una hora adicional de trabajo semanal → b=0.98 dólares adicionales de ingreso
Por seis horas adicionales de trabajo semanal →6×0.98=5.86 dólares adicionales de ingreso. Su
ingreso esperado aumenta en 5.86 dólares.
d) Ya que ambos son informales y trabajan igual, su aporte al hogar es igual. Dividiendo entre dos
el costo de la canasta mínima, tenemos que cada uno debe aportar 125/2 = 62.5 y dado este
ingreso Y, debemos hallar la cantidad X de horas de trabajo por semana. Como 𝑦̂ = 𝑎 + 𝑏𝑋,
sólo faltaría hallar 𝑎 = 𝑌 − 𝑏𝑋 = 77.38 − 0.98 × 52.73 = 25.8 y así tenemos completa la
ecuación de predicción: 𝑦̂ = 25.8 + 0.98𝑋
Si 𝒀 = 𝟔𝟐. 𝟓 entonces de 𝟔𝟐. 𝟓 = 25.8 + 0.98𝑿 tenemos 𝑋 = (62.5 − 25.8)/0.98 = 37.45
horas de trabajo semanales. Cada esposo debe trabajar unas 37.45 horas semanales como
mínimo para cubrir el costo de la canasta familiar mínima.
12
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Con Excel: Hay varias alternativas; las más simples son:
Para la Pendiente b:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: PENDIENTE→Aceptar →
Conocido_y: resaltar los datos de Y; Conocido_x: resaltar los datos de X →Aceptar.
Excel muestra el valor de 𝑏
Para el Intercepto a:
𝑓𝑥 →Seleccionar categoría: Estadísticas →Seleccionar la función: INTERSECCION.EJE→Aceptar
→ Conocido_y: resaltar los datos de Y; Conocido_x: resaltar los datos de X →Aceptar.
Excel muestra el valor de 𝑎
Caso 1 2 3 4 5 6 7 8 9 10 11
Horas X 40 30 48 60 42 44 70 72 60 54 60
Ingreso Y 60 55 72 79 80 60 90 99 90 80 86
b
0.98 Arturo Calderón G:
=PENDIENTE(C4:M4,C3:M3)
a
25.83 Arturo Calderón G:
=INTERSECCION.EJE(C4:M4,C3:M3)
13
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Ejemplo 7 (Correlación)
En un trabajo relativo a la ansiedad ante la evaluación en alumnos universitarios de primer ciclo, un
economista y un psicólogo educacional tenían la hipótesis inicial que las horas dedicadas al estudio
tenían un rol protector contra este tipo de ansiedad y que lo mismo ocurría, aunque de menor manera,
con la satisfacción que tenía el alumno con las clases que recibía de sus profesores. Se tomó una
pequeña muestra aleatoria piloto de n = 10 alumnos, y se aplicó un test psicológico breve de Ansiedad
y se registró la cantidad semanal promedio de horas de estudio (aparte de las horas de clase y
prácticas) así como las puntuaciones en una escala de satisfacción con las clases (que mide
cuantitativamente la satisfacción de menos a más). Los datos individuales obtenidos así como algunas
estadísticas de ellos son:
Datos Estadísticas
D.
Alumno 1 2 3 4 5 6 7 8 9 10 Media
Estándar
Ansiedad 6 5 4 5 4 6 2 3 2 1 3.80 1.7512
Estudio 1 2 4 2 4 6 6 5 5 6 4.10 1.8529
Satisfacción 8 7 8 5 7 5 10 6 8 8 7.20 1.5492
Solución:
a) Desagregando el párrafo "las horas dedicadas al estudio tenían un rol protector contra este tipo
de ansiedad y que lo mismo ocurría, aunque de menor manera, con la satisfacción que tenía el
alumno con las clases que recibía de sus profesores" las hipótesis son:
Hipótesis 1: "Estudio protege contra la ansiedad" equivale a decir que hay relación inversa y
fuerte entre estudio y ansiedad.
Hipótesis 2: "lo mismo ocurría, aunque de menor manera, con la satisfacción que tenía el
alumno con las clases que recibía de sus profesores" puede interpretarse como:
(1) El estudio protege contra la satisfacción con las clases; pero eso no tendría sentido, estar
satisfecho con las clases no es algo como para ser evitado, mientras que estar ansioso sí es algo
que uno preferiría evitar.
otra posible interpretación es:
(2) La satisfacción con las clases protege contra la ansiedad. Esto último sí tiene sentido y
optamos por esta interpretación.
Además se sostiene que lo anterior "ocurría de menor manera", esto es, la relación de
satisfacción con ansiedad es menos intensa que la relación entre estudio y ansiedad.
7 7
6 6
5 5
Ansiedad Y
Ansiedad Y
4 4
3 3
2 2
1 1
0 0
0 2 4 6 8 0 2 4 6 8 10 12 14
Estudio X Satisfacción Z
Figura 1 Relación inversa entre Estudio y Ansiedad Figura 2 Relación inversa entre Satisfacción y
Ansiedad
Resultado:
Salvo el caso del alumno 6 que se aleja de la tendencia general, la figura 2 muestra que conforme
aumentan las horas de estudio, las puntuaciones en ansiedad tienden a ser menores.
La conclusión acerca de la hipótesis 1 es que sí hay evidencia de relación inversa y lineal entre
Estudio y Ansiedad.
Resultado:
En la figura 2 se observa también una relación inversa donde a mayor satisfacción con las clases se
presentan menores puntuaciones en ansiedad, aunque hay algo más de dispersión, la tendencia es
menos clara.
La conclusión acerca de la hipótesis 2 sería que habría relación inversa entre Satisfacción y
Ansiedad pero no se podría evaluar cuán menor sería esta relación inversa comparada con la que
existe entre ansiedad y estudio.
Conclusión global:
Los gráficos de dispersión muestran una clara relación inversa entre Estudio y Ansiedad y
también una relación inversa entre Satisfacción y Ansiedad, pero no es evidente la supuesta
relación "menos intensa" en el caso de satisfacción con ansiedad. Necesitamos cuantificar para
tener datos menos subjetivos.
b) Como se mencionó en a), hay que precisar más y para ello es apropiado medir la asociación
lineal con los respectivos coeficientes de correlación de Pearson 𝑟𝑋𝑌 y 𝑟𝑍𝑌 :
Para la hipótesis 1:
𝑟𝑋𝑌 = −0.64 que es negativo y “grande” en valor absoluto (|𝑟𝑋𝑌 | = 0.64 > 0.5) según nuestra
convención para datos de Psicología. Esta hipótesis tiene evidencia a su favor, sí sería cierta.
15
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
Para la hipótesis 2: 𝑟𝑍𝑌 = −0.56 y como en la hipótesis 1, aquí también se presenta una
correlación negativa y grande, lo que corrobora la hipótesis 2.
Además aunque esta correlación es grande, es “menos grande” (en valor absoluto) que la
correlación encontrada entre estudio y ansiedad, es decir, sí se cumple la parte de la hipótesis
que dice que el efecto protector contra la ansiedad que tiene la satisfacción con las clases, es
menos fuerte que el efecto protector del estudio.
Conclusión global:
Los gráficos y las estadísticas muestran que hay una fuerte relación inversa entre Horas de
estudio y Ansiedad y también relación inversa y fuerte entre Satisfacción con las clases y
Ansiedad, siendo esta segunda relación menos intensa comparada con la primera.
c) Para estudiar lo que dice el revisor, hay que ver si la relación entre estudio y satisfacción es
directa y fuerte, sólo así sería cierto que estas variables “se refuerzan mutuamente” como
afirma el revisor. Como es usual primero usamos un diagrama de dispersión:
8
si la hubiera:
6 𝒓𝑿𝒁 = 𝟎. 𝟏𝟗 (|𝒓𝑿𝒁 | = 0.19 < 0.5 )
4
𝐋a correlación entre Satisfacción y Estudio
2 aunque positiva es muy débil (debajo de
0
0.5) como para poder asegurar que la la
0 2 4 6 8 afirmación es cierta.
Le diría que está equivocado
Estudio X
Ejemplo 8 (Regresión)
La Cadena de Farmacias Inti, una cadena emergente de farmacias, quiere determinar el efecto sobre
sus ventas, de una campaña de promociones y descuentos que acaba de implementar, pero medida
en términos de su posición con respecto a una cadena de farmacias ya establecida y conocida. Para
hacer lo anterior, tomó como referencia los gastos estimados en promoción y en ventas de farmacias
de la competencia, vecinas inmediatas a las de su propia cadena y entonces tanto sus gastos como
ventas fueron medidos como porcentaje de los gastos y ventas de la competencia. Obtenidos los
datos para una muestra de n = 15 farmacias de su cadena, ubicadas en distritos diferentes (por un
periodo de un mes) obtuvo las estadísticas de la tabla 1 que le dan para analizar:
16
1Est 10 Introducción a la Estadística y Probabilidad ©2021 Arturo Calderón G.
a) ¿Podría establecerse una relación entre estos índices? ¿De haberla, qué tipo de relación habría?
Use sólo las herramientas estadísticas adecuadas.
b) El gerente de Inti le pregunta si podría predecir el índice de ventas a partir del índice en
promociones, y de ser así, cuál sería la fórmula de pronóstico. Absuelva esta pregunta usando
estadística.
c) La gerencia de Inti piensa que cuando iguale el gasto en promociones en Inti con el gasto en la
cadena rival, podría superarla en ventas ¿Qué le podría decir usted al respecto? Use estadística
para contestar y escriba su conclusión.
d) La cadena rival, enterada del estudio de Inti, decide, para el mes siguiente al del estudio, un
gasto en promociones de 120 mil unidades monetarias pues sabe que Inti sólo tiene presupuesto
para 80 mil unidades monetarias en promociones y espera que, con esta medida, las ventas de
Inti no pasen del 70% de las ventas de la cadena. En Inti le preguntan qué pasaría ¿Qué podría
decir usted?
Solución:
a) Debemos examinar los datos para ver si habría relación y de qué tipo: usaremos diagrama de
dispersión para ver la posible relación y de acuerdo a ello, la correlación para medir si se trata
de una relación lineal suficientemente fuerte como para establecer una relación de proporciona-
lidad (i.e. asociación lineal)
140
El diagrama muestra una
120
clara relación lineal y
100
Índice de ventas
b) En el fondo el gerente pregunta si puede establecerse una fórmula del tipo 𝒚 = 𝑓(𝒙) , donde 𝒚
es el índice de ventas de Inti y 𝒙 el índice de promociones. Para ello, como las promociones son
previas a las ventas, tendría sentido tomar 𝑌 = Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑣𝑒𝑛𝑡𝑎𝑠 y 𝑋 =
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑝𝑟𝑜𝑚𝑜𝑐𝑖𝑜𝑛𝑒𝑠, esto es al índice de ventas como “variable dependiente”. Además,
como en a) ya se confirmó que la relación es lineal, una recta de regresión 𝑦̂ = 𝑎 + 𝑏𝑋 es la
fórmula apropiada.
Con Excel:
𝑏 = 1.1488; 𝑎 = −7.9268
c) Recordemos que el enunciado dice que “tomó como referencia los gastos estimados en
promoción y en ventas de farmacias de la competencia, vecinas inmediatas a las de su propia
cadena y tanto sus gastos como ventas fueron medidos como porcentaje de los gastos y ventas
𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 𝑉𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖
de la competencia” o sea que 𝑋 = 100 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 ; 𝑌 = 100 𝑉𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 . En este
contexto, “igualar el gasto en promociones en Inti con el gasto en la cadena rival” equivale a
G𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝐼𝑛𝑡𝑖 = 𝐺𝑎𝑠𝑡𝑜𝑠 𝑑𝑒 𝑅𝑖𝑣𝑎𝑙 ⇒ 𝑋 = 100 y se pregunta ¿ 𝑌 > 100?. En la ecuación de
̂ (𝑌) = −7.9268 + 1.1488𝐼𝑛𝑑. 𝑃𝑟𝑜𝑚(𝑋) hacemos 𝑋 = 100 ⇒
regresión: 𝐼𝑛𝑑. 𝑉𝑒𝑛𝑡.
𝑦̂ = −7.9268 + 1.1488 × 100 = 106.9572 > 100: Inti sí superaría en ventas a la cadena
rival.
18