Está en la página 1de 11

ESTUDIOS

GENERALES
LETRAS
PRÁCTICA DIRIGIDA No. 8
CURSO: Introducción a la Estadística y Probabilidad
CÓDIGO: 1EST 10
PROFESOR: Arturo Calderón G.
HORARIO: 0921
FECHA: 17 de diciembre de 2020
SEMESTRE: 2020-2
Los ejercicios marcados con un asterisco serán tratados durante la práctica. El resto es para el trabajo
personal del alumno.

Ejercicio 1* (Análisis de Correlación)


Dos investigadores de la Dirección de Asuntos Estudiantiles de una universidad local tienen en marcha una
investigación donde se quiere estudiar cómo se relacionan con el Rendimiento académico del alumno de segundo
año de universidad, el sentido de Autoeficacia (creencia en la propia capacidad para hacer cualquier tarea y enfrentar
exitosamente los problemas) y el grado de Integración a la vida universitaria (conocimiento de los procesos
administrativos, de los sistemas de evaluación, de medios disponibles de acceso a la información, tutorías, de métodos
de estudio, plan de estudios, etc.). Uno de los investigadores sostenía la hipótesis inicial que a mayor autoeficacia
mejor rendimiento pero que la integración no tenía mayor rol, mientras que su colega concordando con lo primero
negaba lo segundo y sostenía que la integración tenía más relación con el rendimiento que la autoeficacia. Tomada
una muestra piloto pequeña de n = 10 alumnos, se registró un índice de rendimiento y puntuaciones en dos tests que
registran Autoeficacia e Integración (con puntuaciones cuantitativas que miden de menos a más el respectivo
atributo). Las puntuaciones obtenidas así como sus estadísticas (medias y desviaciones estándar) son:

Datos Estadísticas
Alumno 1 2 3 4 5 6 7 8 9 10 Media D.Estándar
Rendimiento 6 7 8 7 8 6 10 9 10 11 8.20 1.7512
Autoeficacia 1 2 7 5 9 11 12 10 11 12 8.00 4.0825
Integración 9 8 9 6 8 6 11 7 9 9 8.20 1.5492

Usted entra como practicante a la Dirección y los investigadores saben que, siendo economista, domina los
métodos cuantitativos de análisis, así que le encargan hacer el estudio de estos datos para tener elementos sólidos
que les permitan evaluar las conjeturas arriba enunciadas:

a) Escriba las hipótesis y haga un refraseo de las mismas en términos estadísticos. Luego evalúe gráficamente
cada hipótesis y escriba la respectiva conclusión (provisional por tratarse de evaluaciones gráficas). Finalmente
evalúe analíticamente cada hipótesis, examine los resultados y escriba las conclusiones que pondría en su
informe final.
b) Un revisor del proyecto de investigación dice que tanto autoeficacia como integración guardan relación directa
con el rendimiento pero que además lo hacen cada una por su cuenta, o sea independientemente. Evalúe esta
nueva hipótesis con herramientas estadísticas gráficas y cuantitativas.

Soluciones:
a) Las hipótesis de trabajo son dos:
Investigador 1: “A mayor autoeficacia mejor rendimiento pero la integración no tenía mayor rol” que en
términos estadísticos genera dos hipótesis específicas:
H1: “Entre Autoeficacia y Rendimiento hay asociación directa”
H2: “Entre Integración y Rendimiento no hay ninguna asociación”
Colega del Investigador 1: “concordando con lo primero negaba lo segundo y sostenía que la integración tenía
más relación con el rendimiento que la autoeficacia”.
H3 = H1
H4: “La Integración y Rendimiento sí están asociadas, en relación más intensa que la que tienen Autoeficacia
con Rendimiento”

1
El refraseo estadístico sería, denotando X = Autoeficacia; Z = Integración e Y = Rendimiento y dado que los
datos son del área Psicología y Educación:

Investigador 1: H1: 𝑟𝑋𝑌 > 0.5; H2: 𝑟𝑍𝑌 = 0.


Colega: H3: 𝑟𝑋𝑌 > 0.5; H4: |𝑟𝑍𝑌 | > 0.5 𝑦 |𝑟𝑍𝑌 | > 𝑟𝑋𝑌

Evaluación gráfica: Con diagramas de dispersión (hechos con Excel)


Autoeficacia y Rendimiento Integración y Rendimiento
12 12

10 10
Rendimiento

Rendimiento
8 8

6 6
4 4
2 2
0 0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12
Autoeficacia Integración

Rendimiento tendría relación lineal directa con Autoeficacia y también con Integración. Se cumplirían las
hipótesis H1y H3, no H2 y para H4 habría que cuantificar porque las escalas de medición de Integración y
Autoeficacia no necesariamente son equivalentes y eso altera el gráfico. Usando Excel obtenemos:
Evaluación analítica: Con coeficientes de correlación (en una matriz de correlaciones)
Matriz de correlaciones
Rendimiento Autoeficacia Integración
Rendimiento 1 -- --
Autoeficacia 0.6994 1 --
Integración 0.5570 0.1581 1

𝑟𝑋𝑌 = 0.6994 > 0.5 es cierta (y por tanto lo que afirma H3 también)
𝑟𝑍𝑌 = 0 no se cumple pues 𝑟𝑍𝑌 = 0.5570 > 0.5 es grande, no es nula ni débil.
|𝑟𝑍𝑌 | = 0.5570 > 0.5 es cierta en lo que a la relación entre Integración y Rendimiento se refiere pero como
además se afirma que esta relación sería más intensa que la que hay entre Autoeficacia y Rendimiento, o sea
que además |𝑟𝑍𝑌 | > 𝑟𝑋𝑌 , esta parte no se cumple.

Dados los resultados, la conclusión sería que los datos muestran evidencia de que a mayor Autoeficacia
mayor Rendimiento, lo mismo ocurre con Integración y Rendimiento, de modo que Integración sí tiene un
rol, pues se asocia de modo directo y grande con Rendimiento, pero no llega a tener una relación más intensa
que la que tiene la Autoeficacia con el Rendimiento.

b) Lo que afirma el revisor es lo ya dicho y comprobado en la primera parte de las conclusiones ( 𝑟𝑋𝑌 > 0.5 y
𝑟𝑍𝑌 > 0.5) pero añade una quinta hipótesis, H5: Autoeficacia e Integración no se relacionan, esto es 𝑟𝑋𝑍 = 0 o
cercana a cero, pero no grande. De la matriz de correlaciones tenemos 𝑟𝑋𝑍 = 0.1581 que no es grande, está
más cerca de 0 que de 0.5. Esta afirmación del revisor sería cierta. Falta ver el diagrama de dispersión para
verificar que no haya algún otro tipo de relación o algún caso anómalo que altere el valor de la correlación:

Autoeficacia e Integración El gráfico de dispersión muestra que entre


12
Autoeficacia e Integración prácticamente no
10
habría relación, de modo que cada una actuaría
independientemente.
8
Integración

0
0 2 4 6 8 10 12 14
Autoeficacia

2
Ejercicio 2* (Análisis de Regresión)
Un investigador economista estudia la relación entre Ingreso (anual, en miles de dólares) y Experiencia (medida en
años de trabajo) en empleados de corporaciones grandes del sector servicios. El investigador tiene la conjetura que
el Ingreso responde de manera directa y lineal a la Experiencia cuando se tiene poco o regular tiempo en el
mercado laboral, no más de 20 años. Los datos de una pequeña muestra piloto resultaron:

Caso 1 2 3 4 5 6 7 8 9 10 Media D.E.


Ingreso 88 120 90 120 100 142 89 60 100 120 102.9000 23.2018
Años 6 18 6 13 15 20 16 2 11 18 12.5000 6.0782

a) ¿Tiene razón el investigador? Use todas las técnicas estadísticas apropiadas para justificar su respuesta.
b) ¿Cuál sería el ingreso esperado de un empleado con 5 años de trabajo en este sector?
c) Una pareja trabaja en este sector; el esposo tiene 15 años en el sector y la esposa 5 años. Ellos quieren adquirir
una propiedad mediante un crédito hipotecario y para recibirlo, el ingreso familiar anual debe superar los 200
mil dólares. Si solo ellos dos trabajan en su hogar ¿Recibirían el crédito? De no ser así, ¿cuántos años debieran
esperar hasta calificar para el crédito?

Solución:
a) La conjetura de “el Ingreso responde de manera directa y lineal a la Experiencia” plantea una relación de de-
pendencia, donde la variable explicada o dependiente es 𝑌 =Ingreso anual y la variable independiente o
explicativa es 𝑋 = Años de experiencia laboral, pues en este caso la experiencia laboral precede al ingreso (el
trabajo se realiza primero y luego se cobra por él). Por ello para analizar la conjetura debemos verificar que
haya una relación lineal directa y grande entre X e Y.
Dados los datos, para evaluar la hipótesis, las herramientas estadísticas son dos: el Diagrama de dispersión para
examinar visualmente la relación y ver si es directa, y luego el coeficiente de correlación de Pearson 𝑟𝑋𝑌 que
debe resultar grande y positivo (mayor que 0.8 por ser datos de economía/gestión). Usando Excel:

Primero el diagrama de dispersión:


160

140

120
Ingreso anual (Y)

100

80

60

40

20

0
0 2 4 6 8 10 12 14 16 18 20 22
Años de experiencia (X)

Figura 1 Ingreso anual según años de experiencia laboral.


En efecto, hay relación directa, aunque la magnitud no se puede deducir del gráfico
Pasemos a medir la intensidad de la relación con 𝑟𝑋𝑌 = 0.8426 > 0.8:
rxy = 0.8426
=COEF.DE.CORREL(C3:L3,C2:L2)

La correlación resulta grande y positiva. En efecto, los resultados estadísticos apoyan


la conjetura del gestor: el ingreso sí responde de manera directa y lineal a los años de
experiencia. Sería factible usar un modelo lineal 𝑦̂ = 𝑎 + 𝑏𝑋 para expresar esta
relación. Eso es lo que necesitamos para la parte b) del problema.
.

3
b) En este caso, tenemos que 𝑋 = 5 y queremos pronosticar el ingreso esperado de alguien con esa cantidad de
años de experiencia. Usaremos la línea de tendencia 𝑦̂ = 𝑎 + 𝑏𝑋. Primero calculemos los coeficientes de esta
recta de regresión:
b = 3.2165 =PENDIENTE(C2:L2,C3:L3)
a = 62.6932 =INTERSECCION.EJE(C2:L2,C3:L3
)

𝑏 = 3.2165 y 𝑎 = 62.6933; la recta de regresión es 𝑦̂ = 62.6933 + 3.2165𝑋 y para 𝑋 = 5 tenemos


𝑦̂ = 62.6933 + 3.2165 × 5 = 78.7760 y entonces el Ingreso esperado sería de uno 78.776 miles de dólares al
año.

c) El ingreso familiar es la suma de los ingresos de la pareja, tenemos que calcular el ingreso de cada uno y ver si
la suma pasa de 200 mil dólares anuales:
En el caso del esposo 𝑋 = 15 ⇒ 𝑦̂ 𝑒𝑠𝑝𝑜𝑠𝑜 = 62.6933 + 3.2165 × 15 = 110.9413 miles de dólares anuales.
En el caso de la esposa 𝑋 = 5 ⇒ 𝑦̂𝑒𝑠𝑝𝑜𝑠𝑎 = 78.77603 miles de dólares anuales (esto sale de la parte b))
El ingreso familiar es 𝑦̂𝑒𝑠𝑝𝑜𝑠𝑜 + 𝑦̂𝑒𝑠𝑝𝑜𝑠𝑎 = 110.9413 + 78.7760 = 189.7173 miles de dólares anuales:
No recibirán el crédito.

Como el tiempo pasa igual para ambos, y asumiendo que contribuyen por igual para lograr el crédito, les faltan
10.2827
en total 200 − 189.7173 = 10.2827 miles de dólares anuales y eso equivale a = 5.1414 miles de dó-
2
lares adicionales por cada uno.
La tasa de cambio de ingreso/año es 𝑏 = 3.2165, entonces por cada año adicional de trabajo, sube el ingreso
esperado de cada uno en 3.2165 miles de dólares, por tanto con un año más no alcanza, pero con dos años
adicionales el ingreso esperado de cada uno sube en 2 × 3.2165 = 6.430 > 5.1414:
Tendrían que esperar dos años más para superar la cota de 200 mil dólares de ingreso familiar para calificar
para el crédito hipotecario.

Ejercicio 3*
En un estudio de mercado, una empresa investigadora de mercados registró los precios y cantidades ofertadas y
demandadas de un mismo bien en n = 7 mercados, obteniendo las cifras siguientes:

Caso 1 2 3 4 5 6 7
Precio P 30 38 50 34 60 62 44
Cantidad ofertada O 60 72 79 60 90 99 80
Cantidad demandada D 80 81 69 86 59 58 77

Usted es contratado por la empresa para absolver algunas cuestiones relativas al estudio de mercados, que son:
a) ¿Se podría usar el precio P para pronosticar la Oferta O y también la Demanda D del bien? Y de ser así, ¿cuáles
serían las fórmulas para hacer las respectivas predicciones? Aplicando todas las herramientas estadísticas apro-
piadas, responda a estas preguntas.
b) Para un precio P = 35 ¿Cuál sería la cantidad ofertada que se esperaría? ¿Cuál sería la cantidad demandada que
se esperaría? Aplique procedimientos estadísticos para contestar. Por cada sol adicional en que aumente el
precio ¿Cómo y en cuánto cambiarían oferta y demanda?
c) En b), un empresario que no comercializa este bien pregunta si a ese precio tendría oportunidad de vender algo,
de decidirse a comercializarlo ¿Qué podría decir? Justifique estadísticamente.
d) ¿A qué precio se equilibrarían oferta y demanda?

Solución:
a) De acuerdo con la teoría económica Oferta y Demanda responden al precio, esto es, en general 𝑂 = 𝑓(𝑃) y
𝐷 = 𝑔(𝑃) donde 𝑓 es función creciente y 𝑔 es función decreciente. O sea, desde la teoría, si es posible el
pronóstico, para lo cual necesitamos especificar o explicitar las funciones 𝑓 y 𝑔 .
La herramienta gráfica para examinar posibles relaciones entre dos variables es el diagrama de dispersión (o
también “Nube de puntos”). En este caso, por comodidad y para facilitar la interpretación, graficaremos las
diferentes parejas de puntos tanto para el caso (Precio, Oferta) como para el caso (Precio, Demanda), mante-
niendo al precio en el eje horizontal:

4
Figura 1 Relación entre precio y oferta y demanda en la muestra de mercados
120 100
90
100
80
70
80
Oferta O

Demanda D
60
60 50
40
40
30

20 20
10
0 0
0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
Precio P Precio P

La tendencia lineal es clara: entre precio y oferta hay una relación directa y entre precio y demanda la relación
es lineal e inversa (las líneas rectas se han añadido para destacar la linealidad).

Para certificar que la relación lineal es suficientemente fuerte, en ambas ecuaciones, necesitamos que sea
suficientemente intensa de modo que el modelo lineal represente bien los datos. Calculamos las correlaciones
respectivas con Excel:
Correlaciones Precio Oferta y Precio Demanda
rpo = 0.9670 =COEF.DE.CORREL(C2:I2,C3:I3
)
rdp = -0.9568 =COEF.DE.CORREL(C2:I2,C4:I4
)

𝑟𝑃𝑂 = 0.9670 y 𝑟𝑃𝐷 = −0.9568


La relación es directa tratándose de precio y oferta e inversa con precio y demanda. Como se trata de datos del
área de Economía/Gestión, las correlaciones de valor alto se cuentan a partir de 0.8 (en valor absoluto) y en
este caso ambas correlaciones superan esta barrera: Se comprueba que la relación lineal es bastante fuerte en
ambos casos, así que podrían aplicarse modelos lineales (donde el precio P es la variable independiente)que
representarían bien a los datos y tendría sentido estimar los respectivos parámetros para hacer pronósticos de
Oferta y Demanda a partir del precio P.

Las funciones serían 𝑂̂ = 𝑓(𝑃) = 𝑎 + 𝑏𝑃, 𝑏 > 0 para la Oferta y 𝐷̂ = 𝑔(𝑃) = 𝑎′ + 𝑏 ′ 𝑃, 𝑏 ′ < 0 para la
demanda. Para especificar totalmente los modelos, usamos las funciones de Excel:

Ecuación de la Oferta O = a + bp Ecuación de la Demanda D = a' + b'p


b= 1.1273 a= 25.9315 b' = -0.8488 a'= 111.4186
=PENDIENTE(C3:I3,C2:I2) =INTERSECCION.EJE(C3:I3,C2:I2
=PENDIENTE(C4:I4,C2:I2) =INTERSECCION.EJE(C4:I4,C2:I2
)
)

b) 𝑃 = 35 y nos piden pronosticar 𝑂 y 𝐷. Usamos el modelo de regresión en cada caso:


𝑂̂ = 25.9315 + 1.1273𝑃 y 𝐷 ̂ = 111.4186 − 0.8488𝑃
̂ ̂
𝑃 = 35 ⇒ 𝑂 = 25.9315 + 1.1273 × 35 = 65.3868 y 𝐷 ̂ = 111.4186 − 0.8488 × 35 = 81.7093
P O D
35 65.3868 81.7093
Por cada sol adicional en el precio: La oferta sube en 1.1273 unidades y la demanda baja en 0.8488 unidades.

c) Se ve que al precio de 35 hay más demanda que oferta (𝑂̂ = 65.3868 < 𝐷 ̂ = 81.70931). Es decir sí habría
posibilidad de entrar a vender en este mercado y conseguir compradores.

d) De la parte b) tenemos:
Ecuación de regresión de la oferta y el precio: 𝑂̂ = 25.9315 + 1.1273𝑃
Ecuación de regresión de la demanda y el precio: 𝐷 ̂ = 111.4186 − 0.8488𝑃
Si son iguales Oferta y Demanda, entonces 𝑂 = 𝐷  25.9315 + 1.1273𝑃 = 111.4186 − 0.8488𝑃 ⇒
̂ ̂
111.4186−25.9315
𝑃 = 1.1273+0.8488 = 43.2605, Oferta y Demanda se equilibran o igualan a un precio de 43.25605

5
Ejercicio 4*
Una amiga suya, estudiante de Psicología, está construyendo una prueba psicológica breve que mide ansiedad y su
profesor de Construcción de Pruebas Psicológicas le dice que para “validar” su prueba (o sea, verificar que mide en
efecto ansiedad y no otras cosas) la aplique a una muestra “piloto” de voluntarios y registre las puntuaciones
(denotadas Y), junto con otra prueba psicológica conocida (aunque más extensa) que también mide ansiedad, que ya
ha sido validada y genera puntuaciones en ansiedad, denotadas X. Además le pide aplicar, a la misma muestra, otra
prueba que genera puntuaciones Z y que mide otro rasgo psicológico que se sabe no tiene ninguna relación con la
ansiedad. Su amiga siguió las instrucciones de su profesor, aplicó las pruebas a 𝑛 = 10 personas (“participantes” en
la jerga de investigación psicológica) y obtuvo las puntuaciones que se muestran abajo:

Participante A B C D E F G H I J
Y 10 12 11 12 12 13 13 14 14 15
X 28 24 37 34 36 43 40 55 44 55
Z 13 5 2 7 1 0 3 9 10 6

Su amiga recurre a usted para que la ayude en el análisis estadístico de datos. Habiendo aceptado usted se plantea el
siguiente “plan de análisis”:
a) ¿Cómo debieran ser las asociaciones de Y con X y de Y con Z si el test breve fuera válido?
b) ¿Cómo debieran resultar los diagramas de dispersión XY y ZY para que hubiera indicios de validez del test
breve?
c) ¿Qué estadísticas debiera usar para evaluar la presunta validez?
Aplique su plan de análisis y escriba las conclusiones que podría dar a su amiga.

Solución:
a) Si el Test que se está construyendo mide ansiedad, entonces mide lo mismo que el test ya conocido y validado
para medir ansiedad. Por tanto las puntuaciones Y y X debieran ser iguales o directamente proporcionales al
obtenerse o medirse en los mismos participantes. O sea tendría que haber una asociación directa entre Y y X.
Por otra parte, la prueba que genera las puntuaciones Z mide otro rasgo psicológico que no tiene ninguna re-
lación con la ansiedad, y en ese caso, el test en construcción debiera reflejar esa falta de relación, esto es, no
habría mayor asociación entre Y y Z.
b) Los diagramas de dispersión debieran ser en el caso de Y y X puntos bastante alineados en tendencia creciente
o directa y en caso de Y y Z, no mostrar ningún patrón.
c) Las estadísticas apropiadas son los coeficientes de correlación, nada más, pues no se habla de una relación de
dependencia donde una variable condicione u origine a las otras. Lo esperado es obtener 𝑟𝑌𝑋 > 0.5 y |𝑟𝑌𝑍 | ≅ 0
o muy débil, lejos de 0.5
Aplicando el plan de análisis, y con ayuda de Excel, tenemos:

Test breve vs Test válido Test breve vs Test que no mide ansiedad
16 16
Puntuciones Y en Test Breve

Puntuciones Y en Test Breve

14 14
12 12
10 10
8 8
6 6
4 4
2 2
0 0
0 10 20 30 40 50 60 0 2 4 6 8 10 12 14
Puntuaciones X en Test válido Puntuaciones Z en Test que no mide ansiedad

Los gráficos de dispersión muestran que lo establecido en b) se cumple: habría relación directa entre Y y X y no
habría relación entre Y y Z.
Correlaciones 𝑟𝑌𝑋 = 0.8358 > 0.5 y |𝑟𝑌𝑍 | = 0.04545 ≅ 0; las
ryx = 0.8358 correlaciones muestran que hay relación lineal directa y
grande entre X e Y y que no hay mayor relación entre Z
ryz = -0.04545
e Y, como se espera.
Hay evidencia de que el Test breve sí mide ansiedad

6
Ejercicio 5
En un estudio de consumidores, un economista pidió a una muestra de 10 personas que evaluaran tanto el sabor como
la claridad de las instrucciones del envase de un nuevo concentrado proteínico que se iba a introducir en el mercado,
y que después de esta evaluación dijeran el precio que ellos fijarían para el producto. Antes de tomar los datos se
tenía la idea que el precio estaría condicionado por la percepción de sabor en una relación de proporcionalidad directa.
Sobre el envase no se sabía cómo podría influir. Tomados los datos se obtuvieron los puntajes cuantitativos que
miden de menos a más su correspondiente atributo:

Encuestado 1 2 3 4 5 6 7 8 9 10 Media D.E.


Sabor (X) 7 4 10 12 16 15 19 20 16 20 13.9000 5.52670
Envase (Z) 5 11 13 5 15 10 19 11 9 17 11.5000 4.64878
Precio (Y) 44 40 38 51 49 51 54 55 52 50 48.4000 5.79655

a) Haga diagramas de dispersión XY ¿Qué tipo de relación podría haber entre Sabor y Precio?
b) Según el enunciado ¿Cuál sería la variable dependiente y cuál la independiente? ¿Cuál sería el modelo de datos
que representa la idea que se tenía antes de tomar los datos?
c) En el contexto de b) y planteado el modelo de regresión 𝑦̂ = 𝑎 + 𝑏𝑥. Halle las estimaciones de a y de b. ¿Se
trata de una relación débil o fuerte? ¿Cuán bien representa el modelo a los datos?
d) Un “focus group” o grupo focal de consumidores concluyó que la percepción del sabor estaría en unos 13
puntos y recomendó un precio de lanzamiento de 60 soles ¿Concuerda con el precio recomendado?
e) Si la puntuación en percepción del sabor pasara de 13 a 14 ¿Cómo y cuánto varía el precio Y que estaría
dispuesto a pagar un consumidor? ¿Y si bajara de 18 a 17, cómo y cuánto variaría el precio?

Solución:
a) El diagrama de dispersión XY (Sabor y Precio) figura abajo
Sabor y Precio
60

50

40
Precio Y

30

20

10

0
0 5 10 15 20 25
Sabor X

Figura 1 Relación entre percepción de sabor y precio.


Sí habría una relación directa, Sabor y Precio tienden a crecer o disminuir a la vez, tienen el mismo
comportamiento relativo. De lo que se dice en el enunciado, dado que la evaluación del sabor antecede en el
tiempo al precio, habría una relación de condicionamiento directo del sabor sobre el precio.

b) La variable dependiente o condicionada es Precio y la variable independiente es Sabor. El enunciado menciona


que “antes de tomar los datos, se tenía la idea que el precio estaría condicionado por la percepción de sabor en
una relación de proporcionalidad directa”, lo que implica que un modelo lineal sería el modelo de datos
adecuado: 𝒀 = 𝒂 + 𝒃𝑿 + 𝜺 o mejor escrito 𝑃𝑟𝑒𝑐𝑖𝑜 = 𝑎 + 𝑏 × 𝑆𝑎𝑏𝑜𝑟 + 𝜀 , donde, ya sabemos, 𝜀
representa una variación aleatoria que se “suma” a la variable dependiente (en este caso 𝑌 ≡ 𝑃𝑟𝑒𝑐𝑖𝑜) y la
convierte en aleatoria, y además se asume que este efecto fortuito, no sistemático sino aleatorio, puede ser
negativo o positivo de modo que “en valor esperado es cero”, esto es 𝐸(𝜀) = 0 y por tanto 𝐸(𝑌) =
𝐸(𝑎 + 𝑏𝑋 + 𝜀) = 𝑎 + 𝑏𝑋 + 𝐸(𝜀) = 𝑎 + 𝑏𝑋 (también se asume que 𝑋 es variable, pero no aleatoria, es de
valores dados para cada persona o caso). De ahí que 𝑦̂ = 𝑎 + 𝑏𝑥 represente el valor esperado de 𝑌, no su valor
real.

7
c) Respondamos las preguntas en orden:

Planteado el modelo de regresión 𝑦̂ = 𝑎 + 𝑏𝑥, sabemos que las fórmulas de estimación de a y b son:
𝑆 ∑𝑛 𝑋 𝑌 −𝑛𝑋̅𝑌̅ 𝑆 ∑𝑛 𝑋 𝑌 −𝑛𝑋̅𝑌̅
𝑏 = 𝑟𝑋𝑌 𝑌 = 𝑖=1 𝑖 𝑖
𝑆𝑋 (𝑛−1)𝑆𝑋 𝑆𝑌
× 𝑌 = 𝑖=1 𝑖 𝑖 2
𝑆𝑋 (𝑛−1)𝑆𝑋
y 𝑎 = 𝑌̅ − 𝑏𝑋̅, eso para cálculos manuales. Con Excel es
directo, basta digitar datos, fx y usar las funciones PENDIENTE e INTERSECCIÓN.EJE, obtenemos:
Coeficientes de la ecuación y = a +bx
b= 0.8709 =PENDIENTE(C4:L4,C2:L2
)
a= 36.2950 =INTERSECCION.EJE(C4:L4,C2:L2
)
𝑃𝑟𝑒𝑐𝑖𝑜 = 36.295 + 0.8709 × 𝑆𝑎𝑏𝑜𝑟 es la ecuación de la estimación del precio que se pagaría en función de
la percepción del sabor.

Para saber si se trata de una relación débil o fuerte, nos basaremos en la magnitud del valor absoluto de la
correlación Precio_Sabor: |𝑟𝑋𝑌 | y como son variables de gestión/economía, el “punto de corte” es 0.8 o más.
Coeficiente de correlación rxy
r xy = 0.8303 =COEF.DE.CORREL(C4:L4,C2:L2
)
|𝑟𝑋𝑌 | = 0.8303 > 0.8 es “grande”, se trata de una relación (lineal) “fuerte”. (además 𝑟𝑋𝑌 = 0.8303 > 0, así
que la relación es “directa” o “creciente”).

Finalmente, usamos el mismo coeficiente de correlación para evaluar cuán bien representa el modelo a
los datos: como la correlación es alta, podemos decir que los datos están bien representados por el modelo.

Nota: Para cálculo manual (menos exacto y recomendable) podemos usar las fórmulas:
𝑆𝑌 ∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌
𝑏 = 𝑟𝑋𝑌 y 𝑎 = 𝑌 − 𝑏𝑋; donde 𝑟𝑋𝑌 =
𝑆𝑋 (𝑛−1)𝑆𝑋 𝑆𝑌
De los datos originales nos quedamos con lo necesario y añadimos los productos XY
Encuestado 1 2 3 4 5 6 7 8 9 10 Media D.E.
Sabor (X) 7 4 10 12 16 15 19 20 16 20 13.9000 5.52670
Precio (Y) 44 40 38 51 49 51 54 55 52 50 48.4000 5.79655
XY 308 160 380 612 784 765 1026 1100 832 1000 SumaXY 6967
Reemplazando valores
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋𝑌 6,967−10×13.9×48.4 6,967−6,727.6 239.4000
Primero 𝑟𝑋𝑌 = (𝑛−1)𝑆𝑋 𝑆𝑌
= (10−1)×5.5267×5.79655 = 288.3223 = 288.3223 = 0.8303; luego
𝑆 5.79655
𝑏 = 𝑟𝑋𝑌 𝑆𝑌 = 0.8303 × 5.52670 = 0.8708 y 𝑎 = 𝑌 − 𝑏𝑋 = 48.40 − 0.8708 × 13.90 = 36.2559
𝑋
así la estimación del precio (promedio) para una evaluación de X puntos en Sabor, sería 𝑦̂ = 𝑎 + 𝑏𝑥 =
36.295 + 0.8708𝑋

d) En este caso, nos dicen que 𝑋 = 13 y debemos averiguar la estimación del precio Y. De c) tenemos que
𝑦̂ = 𝑎 + 𝑏𝑥 = 36.2950 + 0.8709𝑋 , entonces tomando 𝑋 = 13 y reemplazando tenemos que el precio esperado
sería de 𝑦̂ = 36.295 + 0.8709 × 13 = 47.6167 soles. El precio recomendado era de 60 soles, que es muy alto
según indican los resultados estadísticos. No concordamos con el precio recomendado, es muy caro y la gente
no lo pagaría.

e) Si X pasa de 13 a 14, entonces Y pasa de 𝑦̂ = 36.295 + 0.8709 × 13 = 47.6167 soles a


𝑦̂ = 36.295 + 0.8709 × 14 = 48.4876 soles, o sea el precio Y crecería en (48.48 − 46.62) = 0.8709 soles

Si X baja de 18 a 17, entonces Y pasa de 𝑦̂ = 36.295 + 0.8709 × 18 = 51.9712 soles a 𝑦̂ = 36.295 +


0.8709 × 17 = 51.1003 soles, o sea el precio Y disminuiría en (51.09 − 51.96) = −0.8709 soles.

Nota: En general, es más sencillo recordar que el coeficiente b del modelo mide el cambio en el precio Y por
punto adicional en sabor X, es una “tasa de cambio de precio por sabor” o sea la tasa de proporcionalidad :
Dado que 𝑏 = 0.8709 es la tasa de proporcionalidad directa, podemos decir que por cada punto adicional en
Sabor (X), el precio aumenta en 0.8709 centavos y también que por cada punto menos en Sabor, el precio
disminuye en 0.8709 centavos.

8
Ejercicio 6
En el ejercicio anterior:
a) Haga diagramas de dispersión ZY ¿Qué tipo de relación podría haber entre Envase y Precio?
b) Se plantea el modelo de regresión 𝑦̂ = 𝑎 + 𝑏𝑧. Halle las estimaciones de a y de b. ¿Se trata de una relación
débil o fuerte? Un “focus group” o grupo focal de consumidores concluyó que claridad de las instrucciones del
envase estaría en unos 13 puntos y recomendó un precio de lanzamiento de 60 soles ¿Podría decir algo sobre el
precio recomendado?

Solución:
a) Diagrama de dispersión ZY para evaluar el posible tipo de relación que podría haber entre Envase y Precio:
Envase y Precio
60

50

40
Precio Y

30

20

10

0
0 5 10 15 20
Envase Z

Figura 2 Relación entre percepción de envase y precio.


No hay mayor relación, los puntos (Z, Y) caen casi horizontalmente. La percepción del envase no condiciona el
precio que se estaría dispuesto a pagar.

b) Planteado el modelo de regresión 𝑦̂ = 𝑎 + 𝑏𝑧, procedemos a la estimación de a y b como en el ejercicio 5, pero


cambiando X por Z y de paso, calculamos la correlación 𝑟𝑍𝑌
Coeficientes de la ecuación y = a +bZ
b= 0.1902
a= 46.2123

Coeficiente de correlación rxz


r zy = 0.1526
|𝑟𝑍𝑌 | = 0.1526 < 0.8 y la correlación no es de valor alto (más bien |𝑟𝑍𝑌 | ≅ 0) y podemos decir que se trata de una
“débil” relación la que habría entre Envase (Z) y Precio (Y).

Sobre la recomendación de “Focus”, la verdad, no se puede hacer ningún pronóstico confiable, al tratarse de
una relación muy débil.

Ejercicio 7
Para formar un jurado de un concurso se tiene a cuatro evaluadores, a los cuales se les dio una muestra de ensayo
de n=7 expedientes para que les otorguen puntajes cuantitativos con notas que van de 0 a 16 y que miden de menos
a más la calidad del concursante. El evaluador 3 es el más experto y sus juicios son totalmente aceptados. Los otros
evaluadores están a prueba. Los datos de la muestra de ensayo y estadísticas son:

Muestra de ensayo Estadísticas Correlaciones


Expediente A B C D F G J Media D. Estándar Ev1 Ev2 Ev3 Ev4
Evaluador 1 14 8 5 10 3 6 9 7.857 3.625 Ev1 1
Evaluador 2 10 9 11 10 12 11 13 10.857 1.345 Ev2 -0.381 1
Evaluador 3 9 10 10 11 12 12 14 11.143 1.676 Ev3 1
Evaluador 4 13 11 12 10 11 9 10 10.857 1.345 Ev4 1

9
¿Si tuviera que formar un jurado con dos evaluadores: podrían estar los evaluadores 1 y 2 juntos? ¿Podrían estar
juntos los evaluadores 2 y 4 ¿Si tuviera que escoger a un evaluador para que forme jurado con el evaluador 3: con
quién se quedaría? Use todas las herramientas estadísticas gráficas y numéricas para contestar.

Solución:
Los evaluadores examinan a los mismos candidatos, por lo tanto, debieran concordar al asignarles puntuaciones:
debiera haber correlación positiva y grande (mayor de 0.5 al menos). Con lo anterior en mente, veamos las pregun-
tas:
¿Los evaluadores 1 y 2 podrían estar juntos?
16 El diagrama de dispersión muestra que hay
tendencia a relación inversa: los evaluadores
14 tienden a discrepar.
12
Viendo la correlación se confirma que la
Evaluador 2

10
tendencia no es a concordar sino, en todo
8 caso, lo opuesto.
6
La respuesta es no, porque la correlación
4
entre las puntuaciones que han asignado a los
2 candidatos en la muestra de ensayo es baja y
0 además negativa: no concuerdan, casi se “dan
0 2 4 6 8 10 12 14 16 la contra”.
Evaluador 1

¿Podrían estar juntos los evaluadores 2 y 4?


16 Para los evaluadores 2 y 4, veamos cómo se
relacionan las puntuaciones que asignan a los
14
mismos expedientes.
12
Evaluador 4

10 Primero gráficamente para tener una idea


8 rápida; ya luego dependiendo del gráfico
6
veamos cuán necesario sería calcular el
coeficiente de correlación:
4
2 La respuesta es, de nuevo, no: califican de
0 manera muy opuesta, como lo muestra el
0 2 4 6 8 10 12 14 16 gráfico XY (diagrama de dispersión). No
Evaluador 2 vale la pena calcular la correlación, saldrá
negativa de todos modos, no positiva ni
grande como debiera ser.

Para ver cuál evaluador entre 1 y 2 debemos asignar como compañero del evaluador 3 (que es el experto),
calculemos sus correlaciones con el evaluador 3 (cálculos a mano):

Muestra de ensayo Estadísticas 600 − 7 × 7.857 × 11.143


Expediente A B C D F G J Media D. Estándar 𝑟13 = = −0.353
6 × 3.625 × 1.676
Evaluador 1 14 8 5 10 3 6 9 7.857 3.625
Evaluador 2 10 9 11 10 12 11 13 10.857 1.345 858 − 7 × 10.857 × 11.143
Evaluador 3 9 10 10 11 12 12 14 11.143 1.676 𝑟23 = = 0.824
6 × 1.345 × 1.676
Ev1Ev3 126 80 50 110 36 72 126 Suma 600
Ev2eV3 90 90 110 110 144 132 182 Suma 858

El ev alu ador 1 n o concuerda co n el exp erto (la correlación es p equeña y n egativa ), en cambio el
evaluador 2 sí lo h ace ( la co rrelación es g rand e y po sitiva) .
Deb emo s elegir a l eva luad or 2 co mo compañero d el experto. Un gráfico (no es necesario, p ero por si
acaso, allá v a) ilu str a los resu ltado s:

10
Fig ura 3 Eva lua dores 1 y 2 com parado s con eva lua dor 3 (ex perto )
16 16
14 14
12 12

Evaluador 2
Evaluador 1

10 10
8 8

6 6
4
4
2
2
0
0 0 2 4 6 8 10 12 14 16
0 2 4 6 8 10 12 14 16
Evaluador 3
Evaluador 3

11

También podría gustarte