Está en la página 1de 30

INFORME

PRIMER ESTUDIO:
A. Resumen Ejecutivo
Tras un cuidadoso estudio de todos los aspectos relevantes, sobre los donativos de las
corporaciones a sociedades de beneficencia, he elaborado una tabla donde se estima la
cantidad media y el intervalo por el que oscila la cantidad, con la que las corporaciones
contribuirn a las escuelas y universidades, teniendo en cuenta los ingresos antes de
impuestos y los nmeros de empleados de las respectivas sociedades de beneficencia.
Ingresos
antes de
impuestos
Nmero de
empleados
Contribuci
n media
Intervalo
contribucin
(desde.
hasta.)

7.200.000$

28.075.000$

33.250.000$

43.650.000$

63.400.000$

800

2.775

3.500

4.525

10.900

179.97770

576.01370 721.21520 1.034.85120

2.172.40380

122.91480
a
247.888

522.04970 668.75470
a 632.631
a 775.656
40
50

1.795.84520
a
2.584.77590

963.38670
a 1.108.872
40

Para realizar dicho estudio, me he basado en informacin sobre los donativos de 38


compaas. Estos datos financieros provienen de los informes anuales de las compaas.
Y tambin he utilizado otros datos, que los consegu en fuentes tales como revistas de
negocios. Pero por mi propia experiencia, creo que el nivel de los donativos se ve
afectado por la rentabilidad de la compaa, su tamao y si sta se ubica en la industria
de la alta educacin (por ejemplo, el procesamiento de datos, la electrnica o la
qumica), el nivel de educacin de sus ejecutivos y si la compaa equipara sus
donativos con los de sus empleados. La rentabilidad se puede medir con el ingreso antes
o despus de Impuestos, el tamao, por el nmero de empleados o las ventas totales, y
el nivel de educacin por el nmero promedio de aos de escolaridad o por el porcentaje
de ejecutivos que tienen grados superiores.
Despus de poseer toda esta informacin, he decidido que las variables ms relevantes
para realizar el estudio son:
- CONTRIB Millones de euros en donativos.
- INCOME Ingresos antes de impuestos, en millones de dlares.
- SIZE Nmero de empleados en miles.
- FIRM Tipo de empresa: BD Bases de datos; ELE Electrnica; QUI
Qumica; OTH Otro tipo.
- EDLEVEL Proporcin de ejecutivos que tienen un grado de educacin superior.
- MATCHIND: Si, si la compaa equipara sus donativos con los de sus empleados.
NO, en otro caso.

B. Introduccin
A lo largo de la historia, las grandes corporaciones siempre han estado muy interesadas
por sociedades de beneficencia, escuelas e instituciones culturales, las cuales
continuamente estn realizando aportaciones econmicas. Dichas aportaciones cada vez
son ms mayoritarias, por tanto, resulta muy interesante hacer un estudio, que determine
una cantidad apropiada en euros, sobre dichas aportaciones.
C. Metodologa
Para realizar el estudio, utilizar las variables nombradas anteriormente, con las que
ajustar un modelo adecuado para estimar la contribucin en donativos. Dentro de
dichas variables tengo una variable dependiente o respuesta que es CONTRIB y varias
variables independientes o predictoras, dentro de las cuales distingo dos tipos:
Continuas, donde se engloban INCOME, SIZE y EDLEVEL; y Discretas, donde se
engloban FIRM y MATCHIND. Por tanto, el modelo que voy a ajustar es un modelo
ANCOVA.
Para llegar a la conclusin de que el mejor modelo, para estimar la contribucin en
donativos, es: CONTRIB2 = 0.305101 + 0.013096*INCOME + 0.031056*SIZE,
he tenido que seguir una serie de pasos:
1 Representacin de los datos.
2 Ajuste, inferencia y bondad del ajuste del modelo.
3 Seleccin de modelos.
4 Diagnstico del modelo.
5 Prediccin.
D. Hallazgos
Matriz de diagrama de dispersin
0.3

0.5

8 10
2.0

0.1

1.5
0.5

1.0

Frequency

CONTRIB

Frequency

0.5

EDLEVEL

30

50

INCOME

SIZE

Frequency

8 10

10

Frequency

0.1

0.3

0.5

1.0

1.5

2.0

10

30

50
x

Correlacin Parcial de todas las variables

CONTRIB EDLEVEL INCOME SIZE


CONTRIB 0.00000000 -0.01539785 0.7414886 0.3226208
EDLEVEL -0.01539785 0.00000000 0.0422848 0.2870335
INCOME 0.74148857 0.04228480 0.0000000 0.0914839
SIZE
0.32262082 0.28703347 0.0914839 0.0000000
Ajuste del Modelo 1
Resumen del Modelo1:
Call:
lm(formula = CONTRIB ~ EDLEVEL + FIRM + INCOME + MATCHING + SIZE,
data = MLG11)
Residuals:
Min
1Q
Median
3Q
Max
-0.79048 -0.12551 -0.02027 0.16748 0.54672
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
-0.144073 0.268112 -0.537 0.5942
EDLEVEL
-0.238528 0.673333 -0.354 0.7251
FIRM[T.ELE]
0.180400 0.174840 1.032 0.3087
FIRM[T.OTH]
-0.012526 0.198990 -0.063 0.9501
FIRM[T.QUI]
0.067753 0.202473 0.335 0.7397
INCOME
0.021535 0.004354 4.946 1.57e-05 ***
MATCHING[T.Si] 0.069340 0.088213 0.786 0.4367
SIZE
0.049763 0.028243 1.762 0.0861 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2554 on 38 degrees of freedom
Multiple R-squared: 0.7321, Adjusted R-squared: 0.6828
F-statistic: 14.83 on 7 and 38 DF, p-value: 3.83e-09
Intervalo de Confianza
2.5 %
(Intercept)
-0.686837313
EDLEVEL
-1.601619163
FIRM[T.ELE]
-0.173544082
FIRM[T.OTH]
-0.415358898
FIRM[T.QUI]
-0.342132290
INCOME
0.012720741
MATCHING[T.Si] -0.109237387
SIZE
-0.007412303

97.5 %
0.39869211
1.12456285
0.53434480
0.39030757
0.47763870
0.03034890
0.24791791
0.10693804

Tabla ANOVA
Response: CONTRIB
Sum Sq Df F value Pr(>F)
EDLEVEL 0.00818 1 0.1255 0.72511
FIRM
0.07041 3 0.3600 0.78224
INCOME
1.59513 1 24.4635 1.571e-05 ***
MATCHING 0.04029 1 0.6179 0.43671
SIZE
0.20242 1 3.1045 0.08612 .
Residuals
2.47777 38
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Step: Modelo1
Proceso de seleccin de modelos:
Start: AIC=-118.38
CONTRIB ~ EDLEVEL + FIRM + INCOME + MATCHING + SIZE
Df Sum of Sq
- FIRM
3 0.070
- EDLEVEL
1 0.008
- MATCHING 1 0.040
<none>
- SIZE
1 0.202
- INCOME
1 1.595

RSS AIC
2.548 -123.090
2.486 -120.227
2.518 -119.637
2.478 -118.379
2.680 -116.767
4.073 -97.517

Step: AIC=-123.09
CONTRIB ~ EDLEVEL + INCOME + MATCHING + SIZE
- EDLEVEL
- MATCHING
<none>
- SIZE
- INCOME

Df Sum of Sq
RSS AIC
1 1.195e-05 2.548 -125.090
1 0.021 2.569 -124.710
2.548 -123.090
1 0.228 2.776 -121.143
1 3.131 5.679 -88.223

Step: AIC=-125.09
CONTRIB ~ INCOME + MATCHING + SIZE
Df Sum of Sq
RSS AIC
- MATCHING
1 0.022 2.570 -126.699
<none>
2.548 -125.090
- SIZE
1 0.254 2.802 -122.720
- INCOME
1 3.138 5.686 -90.171
Step: AIC=-126.7
CONTRIB ~ INCOME + SIZE

Df Sum of Sq
<none>
- SIZE
1
- INCOME 1

RSS

AIC
2.570 -126.699
0.319 2.889 -123.320
3.140 5.710 -91.973

Call:
lm(formula = CONTRIB ~ INCOME + SIZE, data = MLG11)
Coefficients:
(Intercept)
INCOME
SIZE
-0.21966
0.02380
0.05114
Ajuste del Modelo 2
Resumen del Modelo 2:
Call:
lm(formula = CONTRIB ~ INCOME + SIZE, data = MLG11)
Residuals:
Min
1Q
Median
3Q
Max
-0.81717 -0.12738 -0.01143 0.18258 0.60182
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.219657 0.106386 -2.065 0.0450 *
INCOME
0.023799 0.003283 7.249 5.62e-09 ***
SIZE
0.051138 0.022140 2.310 0.0258 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2445 on 43 degrees of freedom
Multiple R-squared: 0.7221, Adjusted R-squared: 0.7092
F-statistic: 55.88 on 2 and 43 DF, p-value: 1.102e-12
Intervalo de Confianza
(Intercept)
INCOME
SIZE

2.5 %
97.5 %
-0.434204707 -0.005109767
0.017178114 0.030420459
0.006487029 0.095788078

Tabla ANOVA
Response: CONTRIB
Sum Sq Df F value Pr(>F)
INCOME 3.14043 1 52.5457 5.623e-09 ***
SIZE
0.31883 1 5.3347 0.02577 *
Residuals 2.56992 43
---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test Shapiro-Wilk
data: MLG11$rstudent.Modelo2
W = 0.9372, p-value = 0.01539

1
0
-1
-2
-4

-3

MLG11$rstudent.Modelo2

Grfico de Comparacin de Cuantiles

-2

-1

norm quantiles

Test de Bonferroni
max|rstudent| = 4.102799, degrees of freedom = 42,
unadjusted p = 0.0001835323, Bonferroni p = 0.008442486
Observation: 45

Ajuste del Modelo 3


Resumen del Modelo 3:
Call:
lm(formula = CONTRIB ~ INCOME + SIZE, data = MLG11)
Residuals:
Min
1Q
Median
3Q
Max
-0.3647774 -0.1658024 -0.0007011 0.1681191 0.5511392

Coefficients:
Estimate
-0.245811
0.026868
0.034478

Std. Error t value


0.091174 -2.696
0.002905 9.250
0.019359 1.781

Pr(>|t|)
0.0101 *
1.09e-11 ***
0.0821 .

(Intercept)
INCOME
SIZE
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.209 on 42 degrees of freedom


(1 observation deleted due to missingness)
Multiple R-squared: 0.7958, Adjusted R-squared: 0.7861
F-statistic: 81.84 on 2 and 42 DF, p-value: 3.242e-15
Intervalo de Confianza
(Intercept)
INCOME
SIZE

2.5 %
97.5 %
-0.429807557 -0.06181378
0.021005727 0.03272992
-0.004590048 0.07354569

Tabla ANOVA
Response: CONTRIB
Sum Sq Df F value Pr(>F)
INCOME 3.7371 1 85.5533 1.093e-11 ***
SIZE
0.1386 1 3.1719 0.08215 .
Residuals 1.8346 42
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Step:Modelo3
Proceso de seleccin de modelos:
Start: AIC=-137.99
CONTRIB ~ INCOME + SIZE

Df Sum of Sq RSS
AIC
<none>
1.835 -137.992
- SIZE
1 0.139 1.973 -136.716
- INCOME 1 3.737 5.572 -90.003
Call:
lm(formula = CONTRIB ~ INCOME + SIZE, data = MLG11)
Coefficients:
(Intercept)
INCOME
SIZE
-0.24581
0.02687
0.03448

Variables con influencia en el Modelo 3


Resumen de la Influencia:
Potentially influential observations of
lm(formula = CONTRIB ~ INCOME + SIZE, data = MLG11) :
dfb.1_ dfb.INCO dfb.SIZE dffit cov.r
9 -0.46 0.56 -0.03
0.81_* 0.64_*
42 -0.03 -0.31 0.51
0.52
1.97_*
44 -0.01 0.67 -1.00_* -1.03_* 1.71_*

cook.d hat
0.18 0.07
0.09 0.47_*
0.35 0.43_*

Ajuste del Modelo 4


Resumen del Modelo 4:
Call:
lm(formula = CONTRIB ~ INCOME + SIZE, data = MLG11)
Residuals:
Min
1Q Median
3Q
Max
-0.37170 -0.14081 -0.01159 0.15921 0.55039
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.245318 0.090745 -2.703 0.00994 **
INCOME
0.024941 0.003318 7.516 3.11e-09 ***
SIZE
0.053757 0.025237 2.130 0.03921 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.208 on 41 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 0.8022, Adjusted R-squared: 0.7926
F-statistic: 83.15 on 2 and 41 DF, p-value: 3.729e-15
Intervalo de Confianza
(Intercept)
INCOME
SIZE

2.5 %
97.5 %
-0.428581432 -0.06205457
0.018239543 0.03164279
0.002789312 0.10472382

Tabla ANOVA
Response: CONTRIB
Sum Sq Df F value Pr(>F)
INCOME 2.44440 1 56.4910 3.109e-09 ***
SIZE
0.19633 1 4.5372 0.03921 *
Residuals 1.77409 41

--Signif. Codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de Shapiro-Wilk
data: MLG11$rstudent.Modelo4
W = 0.9697, p-value = 0.296

1
0
-2

-1

MLG11$rstudent.Modelo4

Grfico de Comparacin de Cuantiles

-2

-1

norm quantiles

Test Breusch-Pagan
data: MLG11$CONTRIB ~ MLG11$INCOME + MLG11$SIZE
BP = 9.0389, df = 2, p-value = 0.01090
Grfico XY

rstudent.Modelo4

-1

-2
0.0

0.5

1.0

fitted.Modelo4

1.5

Grfico de Transformacin BOXCOX

-30
-40
-70

-60

-50

log-Likelihood

-20

-10

95%

-2

-1

Ajuste del Modelo 5


Resumen del Modelo 5:
Call:
lm(formula = CONTRIB2 ~ INCOME + SIZE, data = MLG11)
Residuals:
Min
1Q
Median
3Q
Max
-0.191862 -0.070069 -0.005135 0.075744 0.208679
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.305101 0.044231 6.898 2.30e-08 ***
INCOME 0.013096 0.001617 8.097 4.88e-10 ***
SIZE
0.031056 0.012301 2.525 0.0155 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.1014 on 41 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 0.8302, Adjusted R-squared: 0.8219
F-statistic: 100.2 on 2 and 41 DF, p-value: < 2.2e-16

Intervalo de Confianza
(Intercept)
INCOME
SIZE

2.5 %
97.5 %
0.215775309 0.39442599
0.009829684 0.01636262
0.006213840 0.05589824

Tabla ANOVA
Response: CONTRIB2
Sum Sq Df F value Pr(>F)
INCOME 0.67395 1 65.5595 4.883e-10 ***
SIZE
0.06553 1 6.3741 0.01554 *
Residuals 0.42148 41
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de Shapiro-Wilk
data: MLG11$CONTRIB2
W = 0.9699, p-value = 0.2991

1
0
-2

-1

MLG11$rstudent.Modelo5

Grfico de Comparacin de Cuantiles

-2

-1

norm quantiles

Test de Breusch-Pagan
data: MLG11$CONTRIB2 ~ MLG11$INCOME + MLG11$SIZE
BP = 2.5063, df = 2, p-value = 0.2856

Grfico XY

rstudent.Modelo5

-1

-2

0.4

0.6

0.8

1.0

1.2

fitted.Modelo5

Test de Durbin-Watson
data: CONTRIB2 ~ INCOME + SIZE
DW = 1.6722, p-value = 0.2419
alternative hypothesis: true autocorelation is not 0

0.0
-0.1
-0.2
-0.3

Partial ACF

0.1

0.2

0.3

Series MLG11$rstudent.Modelo5

10
Lag

15

Variables con influencia en el Modelo 5


Resumen de la Influencia:
Potentially influential observations of
lm(formula = CONTRIB2 ~ INCOME + SIZE, data = MLG11) :
dfb.1_ dfb.INCO dfb.SIZE dffit cov.r cook.d hat
30 0.04 -0.03 0.00
0.04
1.23_* 0.00 0.13
42 0.05 0.93 -1.28_* -1.30_* 5.86_* 0.57 0.82_*
Resumen numrico
mean
sd
0% 25% 50% 75% 100% n NA
INCOME 35.865909 13.482322 7.2 28.075 33.25 43.650 63.4 44 2
SIZE
3.777273 1.772774 0.8 2.775 3.50 4.525 10.9 44 2
Prediccin:
Sintaxis de la Prediccin:
> X0<-data.frame(cbind(c(7.2, 28.075, 33.25, 43.650, 63.4), c(0.8, 2.775, 3.50, 4.525,
10.9)))
> pred.m<-predict(Modelo5,
+ data.frame(INCOME=as.numeric(X0[,1]),
+ SIZE=as.numeric(X0[,2])),interval="confidence",
+ se.fit=T,data=MLG11)
> # Resultados.
Prediccin con CONTRIB2:
> pred.m$fit
fit
lwr
upr
1 0.4242378 0.3505921 0.4978835
2 0.7589557 0.7225301 0.7953813
3 0.8492439 0.8177742 0.8807136
4 1.0172764 0.9815226 1.0530301
5 1.4739077 1.3400915 1.6077238
Prediccin con CONTRIB:
> (pred.m$fit)^(1/0.5)
fit
lwr
upr
1 0.1799777 0.1229148 0.2478880
2 0.5760137 0.5220497 0.6326314

3 0.7212152 0.6687547 0.7756565


4 1.0348512 0.9633867 1.1088724
5 2.1724038 1.7958452 2.5847759
E. Discusin e Interpretacin
1. Realizo la representacin grfica de todas las variables, mediante la matriz de
diagrama de dispersin. En el grfico observo que los histogramas de las variables no
tienen la forma de la Campana de Gauss, por tanto a simple vista no muestran
normalidad; tambin observo que el grfico de CONTRIB y EDLEVEL muestra una
tendencia casi horizontal; el de CONTRIB e INCOME muestra una tendencia positiva;
y el de CONTRIB e SIZE muestra una tendencia positiva, pero posee una elevacin,
debido a algunos puntos.
2. Realizo la Correlacin Parcial de todas las variables, donde observo que la
correlacin entre CONTRIB y EDLEVEL es muy baja y negativa, entre CONTRIB e
INCOME es muy buena y positiva, y entre CONTRIB y SIZE es baja y positiva. Con lo
cual las variables que mejor estn correlacionadas son CONTRIB e INCOME.
3. Realizo el ajuste del modelo con todas las variables y obtengo este Modelo 1:
CONTRIB = -0.144073 - 0.238528*EDLEVEL + 0.180400*FIRM[T.ELE]
-0.012526*FIRM[T.OTH] + 0.067753*FIRM[T.QUI] + 0.021535*INCOME +
0.069340*MATCHING[T.Si] + 0.049763*SIZE
En los resultados del ajuste, observo que tan slo la variable INCOME es
estadsticamente significativa; tambin observo que el p-valor es menor que 0.05; y el
R2ajustado nos muestra que el modelo es regular tericamente, porque se encuentra entre
0.4 y 0.69, pero en la prctica lo consideramos bueno a partir de 0.6, por tanto en este
caso sera bueno, esto nos dice que la recta ajustada de mi modelo explica el 68%, es
decir, este es el porcentaje de variabilidad que mi modelo es capaz de explicar.
En el Intervalo de confianza se encuentra el 0, por tanto 0=0 y el resto de variables
tambin son 0, es decir, el modelo no es bueno.
Segn la Tabla Anova, No puedo rechazar la H0: 0= EDLEVEL = FIRM =
MATCHING = SIZE = 0, porque Pr(>F) es superior a 0.05, por tanto mi modelo no es
bueno.
4. Como he visto que el Modelo 1 no es adecuado, he realizado el step, es decir, el
proceso de seleccin de modelos, para que el programa R me muestre el modelo que
considera adecuado. Dicho modelo es:
CONTRIB = -0.21966 + 0.02380*INCOME + 0.05114*SIZE
5. Realizo el ajuste del modelo que me ha mostrado el step y obtengo este Modelo 2:
CONTRIB = -0.219657 + 0.023799*INCOME + 0.051138*SIZE

En los resultados del ajuste, observo que todas las variables son estadsticamente
significativas; tambin observo que el p-valor es menor que 0.05, por tanto, puedo
concluir que 0 0; y el R2ajustado nos muestra que el modelo es bueno, porque es mayor
que 0.7, esto nos dice que la recta ajustada de mi modelo explica el 70%, es decir, este
es el porcentaje de variabilidad que mi modelo es capaz de explicar.
En el Intervalo de Confianza, no se encuentra el 0, por tanto
0, es decir, el modelo es bueno.

0,

0y

Segn la Tabla Anova, puedo rechazar la H0: 0= 1= 2= 0, porque el Pr(>F) es


inferior a 0.05 y estadsticamente significativo.
A la vista de estas conclusiones, mi modelo ha superado el proceso de Bondad, por tanto
ahora voy a realizar el proceso de diagnstico:
6. Para comenzar con el diagnstico, aado las estadsticas a las observaciones y
selecciono residuos studentizados.
7. El proceso de diagnstico comienza con el anlisis de Normalidad, para ello utilizo
el Test de Normalidad de Shapiro-Wilk, el cual me muestra que no hay normalidad,
porque el p-valor es menor que 0.05.
Para asegurarme de que no hay normalidad, realizo la grfica de comparacin de
cuantiles y observo que hay un punto fuera de las bandas, con lo cual afirmo que no
hay normalidad.
8. Como he visto que no hay normalidad y puede ser causa del punto que est fuera de
los bandas, voy a proceder a eliminarlo. Para ello hago el Test de Bonferroni, el cual
me dice que la observacin 45 es extraa. Entonces elimino dicha observacin de mi
conjunto de datos.
9. Ahora ajusto el modelo de nuevo, porque al eliminar una observacin el modelo
puede variar. Al realizar dicho ajuste obtengo este Modelo 3:
CONTRIB = -0.245811 + 0.026868*INCOME + 0.034478*SIZE
En los resultados del ajuste, observo que la variable SIZE no es estadsticamente
significativa; tambin observo que el p-valor es menor que 0.05, por tanto, puedo
concluir que 0 0; y el R2ajustado nos muestra que el modelo es bueno, porque es mayor
que 0.7, esto nos dice que la recta ajustada de mi modelo explica el 78%, es decir, este
es el porcentaje de variabilidad que mi modelo es capaz de explicar.
En el Intervalo de Confianza, la variable SIZE incluye el 0, por tanto SIZE es 0, con lo
cual mi modelo no es bueno.
Segn la Tabla Anova, No puedo rechazar la H0: 0= 1= 2= 0, porque el Pr(>F)
que corresponde a INCOME es inferior a 0.05, pero el que corresponde a SIZE es
superior a 0.05, con cual como ambos deben ser inferiores a 0.05 y estadsticamente
significativos para poder rechazar la Hiptesis, en este caso no rechazo.

10. Como he visto que el Modelo 3 no es adecuado, he realizado el step, para que el
programa R me muestre si ha variado el modelo que considera adecuado. Pero el step
me muestra que el modelo que considera adecuado contiene las mismas variables que el
anterior, dicho modelo es:
CONTRIB = -0.24581+ 0.02687*INCOME + 0.03448*SIZE
11. Entonces realizo el anlisis de influencia y observo los datos que influyen en la
variable SIZE, porque es la variable que no estadsticamente significativa en el modelo.
En este caso, el dato que influye es el 44, el cual elimino de mi conjunto de datos, para
ver si ahora, al ajustar el modelo, la variable SIZE es estadsticamente significativa.
12. Ajusto el modelo de nuevo y obtengo Modelo 4:
CONTRIB = -0.245318 + 0.024941*INCOME + 0.053757*SIZE
En los resultados del ajuste, observo que todas las variables son estadsticamente
significativas; tambin observo que el p-valor es menor que 0.05, por tanto, puedo
concluir que 0 0; y el R2ajustado nos muestra que el modelo es bueno, porque es mayor
que 0.7, esto nos dice que la recta ajustada de mi modelo explica el 79%, es decir, este
es el porcentaje de variabilidad que mi modelo es capaz de explicar.
En el Intervalo de Confianza, no se encuentra el 0, por tanto
0, es decir, el modelo es bueno.

0,

0y

Segn la Tabla Anova, puedo rechazar la H0: 0= 1= 2= 0, porque el Pr(>F) es


inferior a 0.05 y estadsticamente significativo. Tambin puedo concluir, que los
residuos son mayores que las variables explicativas, por tanto la variabilidad explicada
es menor a la que queda por explicar, es decir, lo que queda por explicar es mayor que
lo que mi modelo explica, esto ya lo habamos deducido anteriormente con el R2ajustado.
A la vista de estas conclusiones, mi modelo ha superado el proceso de Bondad, por tanto
ahora voy a realizar el proceso de diagnstico:
13. Para comenzar con el diagnstico, aado las estadsticas a las observaciones y
selecciono residuos studentizados.
14. El proceso de diagnstico comienza con el anlisis de Normalidad, para ello utilizo
el Test de Normalidad de Shapiro-Wilk, el cual me muestra que hay normalidad,
porque el p-valor es mayor que 0.05.
Para asegurarme de que hay normalidad, realizo la grfica de comparacin de cuantiles
y observo que no hay ningn punto fuera de las bandas, con lo cual afirmo que hay
normalidad.
15. Como he visto que hay normalidad, contino con el proceso de diagnstico.
Ahora realizo el anlisis de la Homogeneidad de Varianzas, para ello utilizo el Test de
Breusch-Pagan, el cual me muestra que no hay homogeneidad de varianzas, porque el
p-valor es menor que 0.05.

Para asegurarme de que no hay homogeneidad de varianzas, realizo el grfico XY y


observo que los puntos muestran una tendencia, con lo cual afirmo que no hay
homogeneidad de varianzas.
16. Ahora, para intentar solucionar el problema de la homogeneidad, realizo la
Transformacin de boxcox. En el grfico de boxcox, observo que la lnea vertical del
centro se encuentra alrededor del 0.5, entonces transformo la variable CONTRIB. Para
ello, calculo una nueva variable denominada CONTRIB2 y la calculo escribiendo:
CONTRIB^0.5.
17. Entonces ahora, ajusto el modelo con la nueva variable y obtengo Modelo 5:
CONTRIB2 = 0.305101 + 0.013096*INCOME + 0.031056*SIZE
En los resultados del ajuste, observo que todas las variables son estadsticamente
significativas; tambin observo que el p-valor es menor que 0.05, por tanto, puedo
concluir que 0 0; y el R2ajustado nos muestra que el modelo es bueno, porque es mayor
que 0.7, esto nos dice que la recta ajustada de mi modelo explica el 82%, es decir, este
es el porcentaje de variabilidad que mi modelo es capaz de explicar.
En el Intervalo de Confianza, no se encuentra el 0, por tanto 0 0, 1 0 y 2
0, es decir, el modelo es bueno.
Segn la Tabla Anova, puedo rechazar la H0: 0= 1= 2= 0, porque el Pr(>F) es
inferior a 0.05 y estadsticamente significativo. Tambin puedo concluir, que los
residuos son mayores que las variables explicativas, por tanto la variabilidad explicada
es menor a la que queda por explicar, es decir, lo que queda por explicar es mayor que
lo que mi modelo explica, esto ya lo habamos deducido anteriormente con el R2ajustado.
A la vista de estas conclusiones, mi modelo ha superado el proceso de Bondad, por tanto
ahora voy a realizar el proceso de diagnstico:
13. Para comenzar con el diagnstico, aado las estadsticas a las observaciones y
selecciono residuos studentizados.
14. El proceso de diagnstico comienza con el anlisis de Normalidad, para ello utilizo
el Test de Normalidad de Shapiro-Wilk, el cual me muestra que hay normalidad,
porque el p-valor es mayor que 0.05.
Para asegurarme de que hay normalidad, realizo la grfica de comparacin de
cuantiles y observo que no hay ningn punto fuera de las bandas, con lo cual afirmo
que hay normalidad.
15. Como he visto que hay normalidad, contino con el proceso de diagnstico.
Ahora realizo el anlisis de la Homogeneidad de Varianzas, para ello utilizo el Test de
Breusch-Pagan, el cual me muestra que hay homogeneidad de varianzas, porque el pvalor es mayor que 0.05.
Para asegurarme de que hay homogeneidad de varianzas, realizo el grfico XY y
observo que los puntos no muestran una tendencia, estn dispersos entre dos lneas
paralelas, con lo cual afirmo que hay homogeneidad de varianzas.

16. Como he visto que hay normalidad y Homogeneidad de Varianzas, contino con el
proceso de diagnstico.
Ahora realizo el anlisis de la Autocorrelacin, para ello utilizo el Test de DurbinWatson, el cual me muestra que no hay autocorrelacin, es decir, los datos son
independientes, porque el p-valor es mayor que 0.05.
Para asegurarme de que no hay autocorrelacin, realizo el grfico de la
autocorrelacin (pacf) y observo que todos los datos estn dentro de las lneas
paralelas, por tanto afirmo que los datos son independientes, ya que no existe
autocorrelacin entre ellos.
A la vista de estas conclusiones, mi modelo ha superado el proceso de Bondad y de
Diagnstico, por tanto ahora voy a realizar el Anlisis de Influencia.
17. En el Anlisis de Influencia, observo que hay dos observaciones influyentes en el
modelo, la 30 y 42, ambas influyen en la variabilidad y la 42 adems, influye en SIZE y
segn el estadstico deffits. Pero respecto a esta influencia, no modifico nada en mi
modelo, porque ha superado todo el proceso y considero que es un buen modelo para mi
estudio.
Despus de todo este proceso, ya dispongo del modelo adecuado para poder predecir,
por tanto voy a estimar la contribucin en donativos, por parte de las corporaciones a
sociedades de beneficencia.
18. Para comenzar con la prediccin, realizo un resumen numrico, donde me muestra
el mximo, el mnimo, la media y los cuantiles de los datos de mis variables
explicativas, porque la prediccin la voy a realizar sobre dichos datos.
A continuacin, elaboro una sintaxis para predecir con mis variables, mi modelo y mis
datos; al ejecutar dicha sintaxis, obtengo la prediccin para mi modelo con la variable
explicada transformada, pero como yo quiero quitar la transformacin escribo:
(pred.m$fit)^(1/0.5); entonces obtengo la estimacin de los Donativos (en millones de
euros), para los datos obtenidos en el Resumen numrico, que son los Ingresos antes de
impuestos (en millones de dlares) y el nmero de empleados (en miles de empleados).

F. Conclusiones y Recomendaciones
Despus de haber revisado cuidadosamente todas las variables de inters y la
combinacin de todos los modelos posibles, llego a la conclusin de que el mejor
modelo para estimar una cantidad en euros de donativos es:
CONTRIB2 = 0.305101 + 0.013096*INCOME + 0.031056*SIZE.
Y las variables independientes que nos determinan mejor dicha cantidad, son los
Ingresos antes de impuestos y el nmero de empleados en las distintas corporaciones, ya
que estas variables son las que ms influyen en la cantidad de donativos.
Con este modelo he realizado una serie de estimaciones de los donativos en euros y
elaborado esta tabla:

Ingresos
antes de
impuestos
Nmero de
empleados
Contribuci
n media
Intervalo
contribucin
(desde.
hasta.)

7.200.000$

28.075.000$

33.250.000$

43.650.000$

63.400.000$

800

2.775

3.500

4.525

10.900

179.97770

576.01370 721.21520 1.034.85120

2.172.40380

122.91480
a
247.888

522.04970 668.75470
a 632.631
a 775.656
40
50

1.795.84520
a
2.584.77590

963.38670
a 1.108.872
40

A la vista de las estimaciones que hay en la tabla, puedo determinar cuales son las
cantidades determinantes, que influyen en la contribucin de donativos, por parte de las
corporaciones a las sociedades de beneficencia. Podemos observar que comienzan a
contribuir con una cantidad media de 179.97770 , a partir de unos Ingresos antes de
impuestos de 7.200.000$ y un Nmero de empleados de 800 personas. Tambin
observamos que la contribucin va aumentando ha medida que aumentan los Ingresos
antes de impuestos y el Nmero de empleados.

SEGUNDO ESTUDIO:
A. Resumen Ejecutivo
Tras este cuidadoso estudio sobre los donativos de las corporaciones a sociedades de
beneficencia, he realizado otro estudio, tambin sobre dicho tema, pero ahora teniendo
en cuenta otra variable respuesta, calculada a partir de mi variables de estudio
CONTRIB e INCOME. Con los resultados obtenidos en este segundo estudio, tambin
he elaborado una tabla donde se estima la cantidad media destinada a donativos que
procede directamente de los Ingresos antes de impuestos y el intervalo por el que oscila
dicha cantidad
Nmero de
empleados
Contribucin
media
Intervalo
contribucin
(desde.
hasta.)

800

2.800

3.800

4.800

10.800

18.85589

21.40947

22.68625

23.96304

31.62375

15.63633
a
22.07546

19.43371
a
23.38522

20.95985
a
24.41265

22.06675
a
25.85932

25.33103
a
37.91648

Para realizar dicho estudio, me he basado en la misma informacin obtenida para el


estudio anterior. Al igual que en el estudio anterior, tambin he decidido que las
variables ms relevantes para realizar el estudio son:
- CONTRIB Millones de euros en donativos.
- INCOME Ingresos antes de impuestos, en millones de dlares.
- SIZE Nmero de empleados en miles.
- FIRM Tipo de empresa: BD Bases de datos; ELE Electrnica; QUI
Qumica; OTH Otro tipo.
- EDLEVEL Proporcin de ejecutivos que tienen un grado de educacin superior.
- MATCHIND: Si, si la compaa equipara sus donativos con los de sus empleados.
NO, en otro caso.
B. Introduccin
Como dije en el estudio anterior, a lo largo de la historia, las grandes corporaciones
siempre han estado muy interesadas por sociedades de beneficencia, escuelas e
instituciones culturales, las cuales continuamente estn realizando aportaciones
econmicas. Por tanto, resulta muy interesante hacer otro estudio, modificando la
variable respuesta, para determinar la cantidad en euros procedente de los Ingresos antes
de impuestos, destinada a dichas aportaciones econmicas.
C. Metodologa
Para realizar este estudio, utilizar las variables nombradas anteriormente, con las que
ajustar un modelo adecuado para estimar la parte de la contribucin en donativos,
procedente de los Ingresos antes de impuestos.

En este caso, a diferencia del anterior, voy a calcular la variable dependiente o respuesta
mediante las variables CONTRIB e INCOME. Con lo cual, voy a crear una nueva
variable denominada CONTRIBINCOME, para ello voy a realizar el siguiente clculo:
CONTRIB/INCOME.
Entonces el estudio lo voy a realizar con la variable respuesta: CONTRIBINCOME y
varias variables independientes o predictoras, dentro de las cuales distingo dos tipos:
Continuas, donde se engloban SIZE y EDLEVEL; y Discretas, donde se engloban
FIRM y MATCHIND. Por tanto, el modelo que voy a ajustar es un modelo ANCOVA.
Para llegar a la conclusin de que el mejor modelo, para estimar la contribucin en
donativos, es: CONTRIBINCOME = 0.0178345 + 0.0012768*SIZE
he tenido que seguir una serie de pasos:
1 Representacin de los datos.
2 Ajuste, inferencia y bondad del ajuste del modelo.
3 Seleccin de modelos.
4 Diagnstico del modelo.
5 Prediccin.
D. Hallazgos
Matriz de Diagrama de dispersin
0.1

0.2 0.3

0.4 0.5 0.6

0.1 0.2 0.3 0.4 0.5 0.6

0.010

0.020

Frequency

0.030

CONTRIBINCOME

EDLEVEL

10

Frequency

SIZE

Frequency

0.010

0.020

0.030

10

Correlacin Parcial de todas las variables


CONTRIBINCOME
CONTRIBINCOME
0.00000000
EDLEVEL
-0.09177547
SIZE
0.40738783

EDLEVEL
-0.09177547
0.00000000
0.38074415

SIZE
0.4073878
0.3807441
0.0000000

Ajuste del Modelo 1b


Resumen del Modelo 1b:
Call:
lm(formula = CONTRIBINCOME ~ EDLEVEL + FIRM + MATCHING + SIZE,
data = MLG11B)
Residuals:
Min
1Q
Median
3Q
Max
-0.0145673 -0.0038224 -0.0003914 0.0045963 0.0108114
Coefficients:
Estimate Std. Error
t value Pr(>|t|)
(Intercept)
0.0204904 0.0058243 3.518 0.00112 **
EDLEVEL
-0.0134180 0.0159000 -0.844 0.40387
FIRM[T.ELE]
0.0037397 0.0036821 1.016 0.31606
FIRM[T.OTH]
-0.0017108 0.0047089 -0.363 0.71833
FIRM[T.QUI]
-0.0006721 0.0043612 -0.154 0.87833
MATCHING[T.Si] 0.0010154 0.0020480 0.496 0.62282
SIZE
0.0013835 0.0006484 2.134 0.03923 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.006043 on 39 degrees of freedom
Multiple R-squared: 0.1959, Adjusted R-squared: 0.07224
F-statistic: 1.584 on 6 and 39 DF, p-value: 0.1778
Step:Modelo1b
Proceso de seleccin de modelos:
Start: AIC=-463.61
CONTRIBINCOME ~ EDLEVEL + FIRM + MATCHING + SIZE
- FIRM
- MATCHING
- EDLEVEL
<none>
- SIZE

Df Sum of Sq RSS AIC


3 4.175e-05 1.466e-03 -468.28
1 8.976e-06 1.433e-03 -465.32
1 2.601e-05 1.450e-03 -464.78
1.424e-03 -463.61
1 1.662e-04 1.590e-03 -460.53

Step: AIC=-468.28
CONTRIBINCOME ~ EDLEVEL + MATCHING + SIZE
Df Sum of Sq
RSS AIC
- MATCHING 1 3.042e-06 1.469e-03 -470.19
- EDLEVEL 1 1.053e-05 1.476e-03 -469.95
<none>
1.466e-03 -468.28
- SIZE
1 2.371e-04 1.703e-03 -463.39
Step: AIC=-470.19

CONTRIBINCOME ~ EDLEVEL + SIZE


Df Sum of Sq RSS AIC
- EDLEVEL 1 1.248e-05 1.481e-03 -471.80
<none>
1.469e-03 -470.19
- SIZE
1 2.923e-04 1.761e-03 -463.84
Step: AIC=-471.8
CONTRIBINCOME ~ SIZE
Df Sum of Sq
RSS
AIC
<none>
0.0014814 -471.80
- SIZE 1 0.0002898 0.0017712 -465.58
Call:
lm(formula = CONTRIBINCOME ~ SIZE, data = MLG11B)
Coefficients:
(Intercept)
SIZE
0.017834 0.001277
Ajuste del Modelo 2b
Resumen del Modelo 2b:
Call:
lm(formula = CONTRIBINCOME ~ SIZE, data = MLG11B)
Residuals:
Min
1Q
Median
3Q
Max
-0.0150918 -0.0040745 -0.0004604 0.0047512 0.0110266
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0178345 0.0019007 9.383 4.59e-12 ***
SIZE
0.0012768 0.0004352 2.934 0.0053 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.005802 on 44 degrees of freedom
Multiple R-squared: 0.1636, Adjusted R-squared: 0.1446
F-statistic: 8.607 on 1 and 44 DF, p-value: 0.005301
Intervalo de Confianza
2.5 %
97.5 %
(Intercept) 0.0140038543 0.021665074
SIZE
0.0003996984 0.002153874

Tabla ANOVA
Response: CONTRIBINCOME
Sum Sq Df F value Pr(>F)
SIZE
0.00028978 1 8.6071 0.005301 **
Residuals 0.00148137 44
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de Shapiro-Wilk
Shapiro-Wilk normality test
data: MLG11B$rstudent.Modelo2b
W = 0.981, p-value = 0.6473

0
-1
-3

-2

MLG11B$rstudent.Modelo2b

Grfico de Comparacin de Cuantiles

-2

-1

norm quantiles

Test Breusch-Pagan
data: MLG11B$CONTRIBINCOME ~ MLG11B$SIZE
BP = 0.5779, df = 1, p-value = 0.4471

Grfico XY
2

rstudent.Modelo2b

-1

-2

-3
0.020

0.025

0.030

fitted.Modelo2b

Test de Durbin-Watson
data: CONTRIBINCOME ~ SIZE
DW = 1.3492, p-value = 0.02013
alternative hypothesis: true autocorelation is not 0

0.0
-0.1
-0.2
-0.3

Partial ACF

0.1

0.2

0.3

Series MLG11B$rstudent.Modelo2b

10
Lag

15

Variables con influencia en el Modelo 2


Resumen de la Influencia:
Potentially influential observations of
lm(formula = CONTRIBINCOME ~ SIZE, data = MLG11B) :
dfb.1_ dfb.SIZE dffit
42 -0.15 0.20 0.21
44 0.56 -0.74 -0.78_*
45 -0.38 0.22 -0.48

cov.r cook.d hat


1.48_* 0.02 0.30_*
1.29_* 0.30 0.25_*
0.76_* 0.10 0.03

Resumen numrico
mean
sd
0% 25% 50% 75% 100% n
3.9 1.987517 0.8 2.8 3.5 4.775 10.9 46
Prediccin:
fit
lwr
upr
1 0.8 0.01885589 0.01563633 0.02207546
2 1.3 0.01949429 0.01663542 0.02235315
3 1.8 0.02013268 0.01760972 0.02265564
4 2.3 0.02077107 0.01854798 0.02299416
5 2.8 0.02140947 0.01943371 0.02338522
6 3.3 0.02204786 0.02024516 0.02385056
7 3.8 0.02268625 0.02095985 0.02441265
8 4.3 0.02332464 0.02156514 0.02508415
9 4.8 0.02396304 0.02206675 0.02585932
10 5.3 0.02460143 0.02248469 0.02671817
11 5.8 0.02523982 0.02284193 0.02763772
12 6.3 0.02587822 0.02315722 0.02859922
13 6.8 0.02651661 0.02344375 0.02958947
14 7.3 0.02715500 0.02371034 0.03059966
15 7.8 0.02779340 0.02396279 0.03162401
16 8.3 0.02843179 0.02420496 0.03265862
17 8.8 0.02907018 0.02443950 0.03370087
18 9.3 0.02970857 0.02466823 0.03474892
19 9.8 0.03034697 0.02489247 0.03580146
20 10.3 0.03098536 0.02511317 0.03685755
21 10.8 0.03162375 0.02533103 0.03791648

0.030
0.025
0.015

0.020

CONTRIBINCOME

0.035

Grfico de la Prediccin

10

SIZE

E. Discusin e Interpretacin
1. Realizo la representacin grfica de todas las variables, mediante la matriz de
diagrama de dispersin. En el grfico observo que los histogramas de las variables
EDLEVEL y SIZE no tienen la forma de la Campana de Gauss, por tanto a simple vista
no muestran normalidad, en cambio, el histograma de la variable CONTRIBINCOME si
que tiene la forma de la Campana de Gauss, por tanto est variable si muestra
normalidad; tambin observo que el grfico de CONTRIB y EDLEVEL muestra una
tendencia casi horizontal; y el de CONTRIB e SIZE muestra una tendencia positiva,
pero posee un altibajo, debido a algunos puntos.
2. Realizo la Correlacin Parcial de todas las variables, donde observo que la
correlacin entre CONTRIB y EDLEVEL es muy baja y negativa, y entre CONTRIB y
SIZE es buena y positiva. Con lo cual las variables que mejor estn correlacionadas son
CONTRIB e INCOME.
3. Realizo el ajuste del modelo con todas las variables y obtengo este Modelo 1b:
CONTRIBINCOME = 0.0204904 - 0.0134180*EDLEVEL + 0.0037397*FIRM[T.ELE]
- 0.0017108*FIRM[T.OTH] - 0.0006721*FIRM[T.QUI] +
0.0010154*MATCHING[T.Si] + 0.0013835*SIZE
En los resultados del ajuste, observo que tan slo las variables INCOME y 0 son
estadsticamente significativas; tambin observo que el p-valor es menor que 0.05; y el
R2ajustado nos muestra que el modelo es muy malo, porque es menor que 0.4, esto nos dice
que la recta ajustada de mi modelo explica el 7%, es decir, este es el porcentaje de
variabilidad que mi modelo es capaz de explicar.

En el Intervalo de confianza se encuentra el 0, por tanto 0=0 y el resto de variables


tambin son 0, es decir, el modelo no es bueno.
Segn la Tabla Anova, No puedo rechazar la H0: 0= EDLEVEL = FIRM =
MATCHING = SIZE = 0, porque Pr(>F) es superior a 0.05, por tanto mi modelo no es
bueno.
4. Como he visto que el Modelo 1 no es adecuado, he realizado el step, es decir, el
proceso de seleccin de modelos, para que el programa R me muestre el modelo que
considera adecuado. Dicho modelo es:
CONTRIBINCOME = 0.017834 + 0.001277*SIZE
5. Realizo el ajuste del modelo que me ha mostrado el step y obtengo este Modelo 2b:
CONTRIBINCOME = 0.0178345 + 0.0012768*SIZE
En los resultados del ajuste, observo que todas las variables son estadsticamente
significativas; tambin observo que el p-valor es menor que 0.05, por tanto, puedo
concluir que 0 0; pero el R2ajustado nos muestra que el modelo es muy malo, porque es
menor que 0.4, esto nos dice que la recta ajustada de mi modelo explica el 14%, es
decir, este es el porcentaje de variabilidad que mi modelo es capaz de explicar, que es
muy bajo, por eso segn esto el modelo es muy malo, pero es el modelo que tenemos.
En el Intervalo de Confianza, no se encuentra el 0, por tanto
decir, segn esto, el modelo es bueno.

0 y 1 0, es

Segn la Tabla Anova, puedo rechazar la H0: 0= 1= 2= 0, porque el Pr(>F) es


inferior a 0.05 y estadsticamente significativo. Tambin puedo concluir, que los
residuos son mayores que las variables explicativas, por tanto la variabilidad explicada
es menor a la que queda por explicar, es decir, lo que queda por explicar es mayor que
lo que mi modelo explica, esto ya lo habamos deducido anteriormente con el R2ajustado.
A la vista de estas conclusiones, mi modelo ha superado el proceso de Bondad, aunque
el R2ajustado nos muestre que la variabilidad que mi modelo es capaz de detectar es muy
baja, es el modelo que tenemos y por tanto ahora voy a realizar el proceso de
diagnstico:
13. Para comenzar con el diagnstico, aado las estadsticas a las observaciones y
selecciono residuos studentizados.
14. El proceso de diagnstico comienza con el anlisis de Normalidad, para ello utilizo
el Test de Normalidad de Shapiro-Wilk, el cual me muestra que hay normalidad,
porque el p-valor es mayor que 0.05.
Para asegurarme de que hay normalidad, realizo la grfica de comparacin de
cuantiles y observo que no hay ningn punto fuera de las bandas, con lo cual afirmo
que hay normalidad.

15. Como he visto que hay normalidad, contino con el proceso de diagnstico.
Ahora realizo el anlisis de la Homogeneidad de Varianzas, para ello utilizo el Test de
Breusch-Pagan, el cual me muestra que hay homogeneidad de varianzas, porque el pvalor es mayor que 0.05.
Para asegurarme de que hay homogeneidad de varianzas, realizo el grfico XY y
observo que los puntos estn dispersos, aunque se centran en la parte derecha del
grfico, no tienen tendencia, por tanto hay homogeneidad de varianzas.
16. Como he visto que hay Normalidad y Homogeneidad de Varianzas, contino con el
proceso de diagnstico.
Ahora realizo el anlisis de la Autocorrelacin, para ello utilizo el Test de DurbinWatson, el cual me muestra que hay autocorrelacin, es decir, los datos no son
totalmente independientes, porque el p-valor es menor que 0.05.
Para asegurarme de que hay autocorrelacin, realizo el grfico de la autocorrelacin
(pacf) y observo que todos los datos estn dentro de las lneas paralelas, excepto el
primero, con lo cual esto nos muestra que los datos no son independientes, porque el
primero muestra relacin con el anterior; pero como este problema no lo podemos
solucionar y el resto de anlisis nos muestra que el modelo es bueno continuamos con
este.
A la vista de estas conclusiones, mi modelo ha superado el proceso de Bondad y de
Diagnstico, por tanto ahora voy a realizar el Anlisis de Influencia.
17. En el Anlisis de Influencia, observo que hay dos observaciones influyentes en el
modelo, la 42, 44 y 45, las tres influyen en la variabilidad y la 44 adems, influye segn
el estadstico deffits. Pero respecto a esta influencia, no modifico nada en mi modelo,
porque ha superado todo el proceso y considero que es un buen modelo para mi estudio.
Despus de todo este proceso, ya dispongo del modelo para poder predecir, por tanto
voy a estimar la cantidad procedente de los Ingresos antes de impuestos, destinada a
Donativos, por parte de las corporaciones a sociedades de beneficencia.
18. Para comenzar con la prediccin, realizo un resumen numrico, donde me muestra
el mximo, el mnimo, la media y los cuantiles de los datos de mis variables
explicativas, porque, aunque la prediccin la voy hacer de la respuesta media, mi tabla
de estimaciones la voy a realizar con los resultados obtenidos correspondientes a estos
datos.
A continuacin, elaboro una sintaxis para predecir con mis variables, mi modelo y mis
datos; al ejecutar dicha sintaxis, obtengo la prediccin para mi modelo y el grfico que
se corresponde con la prediccin.
En la prediccin obtengo, la estimacin de la cantidad procedente de los Ingresos antes
de impuestos, destinada a Donativos, dependiendo del nmero de empleados. Y en el
grfico podemos apreciar la cantidad procedente de los Ingresos antes de impuestos,
destinada a Donativos, (que son los puntos); la prediccin de la cantidad media, (que es
la lnea continua) y el intervalo por el que debera oscilar la cantidad, (que son las
bandas discontinuas).
F. Conclusiones y Recomendaciones

Despus de haber revisado los modelos posibles, llego a la conclusin de que el mejor
modelo, para estimar la cantidad procedente de los Ingresos antes de Impuestos
destinada a donativos es:
CONTRIBINCOME = 0.0178345 + 0.0012768*SIZE
Segn este modelo, con la variable respuesta calculada anteriormente, la variable
independiente que nos determina la cantidad, es el nmero de empleados en las distintas
corporaciones, ya que esta variable es la que ms influye en la cantidad destinada a
donativos.
Con este modelo he realizado una serie de estimaciones de la cantidad procedente de
los Ingresos antes de Impuestos destinada a donativos y he elaborado esta tabla:
Nmero de
empleados
Contribucin
media
Intervalo
contribucin
(desde.
hasta.)

800

2.800

3.800

4.800

10.800

18.85589

21.40947

22.68625

23.96304

31.62375

15.63633
a
22.07546

19.43371
a
23.38522

20.95985
a
24.41265

22.06675
a
25.85932

25.33103
a
37.91648

A la vista de las estimaciones que hay en la tabla, puedo determinar cuales son las
cantidades determinantes, que influyen en la cantidad destinada a la contribucin de
donativos, procedente de los Ingresos antes de Impuestos, por parte de las corporaciones
a las sociedades de beneficencia. Podemos observar que comienzan a contribuir con una
cantidad media de 18.85589 , a partir de un Nmero de empleados de 800 personas.
Tambin observamos que la contribucin va aumentando ha medida que aumentan el
Nmero de empleados.

También podría gustarte