Estudio Estadístico Sobre Los Ingresos en El Diseño de Software de La Empresa FREE BALANCES Ubicada en Los Robles, Managua en El Año 2021

Estudio estadístico sobre los ingresos en
el diseño de software de la empresa FREE

BALANCES ubicada en los Robles,
Managua en el año 2021.



P á g i n a 1 | 73
Contenido
Introducción .....................................................................................................................4
Justificación .....................................................................................................................6
Tema..................................................................................................................................7
Objetivo general ..............................................................................................................8
Objetivos específicos ..................................................................................................8
Marco Teórico ..................................................................................................................9
Análisis de Regresión Lineal Múltiple ..........................................................................9
Modelo de regresión múltiple ...................................................................................... 10
Modelo de regresión lineal en el que se utilizan matrices ....................................... 13
Análisis de correlación ................................................................................................. 15
Prueba de Hipótesis ...................................................................................................... 17
Fórmulas para la prueba de hipótesis .................................................................... 17
Tabla ANOVA ................................................................................................................. 20
Pasos para calcular la Tabla ANOVA ...................................................................... 20
Representación de la Tabla ANOVA ........................................................................ 21
Grados de libertad (GL) ................................................................................................ 22
Fórmula ....................................................................................................................... 22
Notación .................................................................................................................. 22
Suma de los cuadrados (SC) ....................................................................................... 23
Cuadrados medios (CM) ............................................................................................... 24
Valor F ............................................................................................................................. 25
Valor p ............................................................................................................................. 25
R-cuadrado. .................................................................................................................... 26
Inferencias en la regresión lineal múltiple ................................................................. 27
Coeficiente de determinación múltiple o R2 .............................................................. 28
Coeficiente de determinación Múltiple o R2 ....................................................... 28
Diseño Factorial (Diseño de 3 Factores) .................................................................... 29
Formulas del Diseño Factorial de 3 Factores ........................................................ 30
Tabla ANOVA de 3 Factores: ....................................................................................... 33
Modelo para Experimento de 3 Factores .................................................................... 34
Pruebas no paramétricas ............................................................................................. 35
Prueba de Kruskal-Wallis ......................................................................................... 36
Prueba de signo ......................................................................................................... 37
P á g i n a 2 | 73
Planteamiento de la Hipótesis.................................................................................. 38
Desarrollo ....................................................................................................................... 39
Capítulo 1: Análisis de Regresión Múltiple de los costos de producción con
respecto a la cantidad de software elaborados, ingresos mensuales y costo de
mano de obra directa. ................................................................................................... 39
1.1 Modelo de Regresión Lineal múltiple................................................................ 41
1.2 Diagrama de dispersión ...................................................................................... 42
1.3 Análisis de correlacion ....................................................................................... 43
1.4 Análisis de varianza ............................................................................................ 45
1.5 Coeficientes.......................................................................................................... 46
1.6 Prueba de significancia del modelo ................................................................. 48
Capítulo 2: Análisis de varianza de tres factores para conocer si los costos
indirectos de fabricación, mano de obra directa y costos de desarrollo afectan
significativamente los costos de producción de software. ..................................... 50
2.1 Tabla de diseño factorial de tres factores ........................................................ 55
2.2 Suma de las interacciones de los efectos. ....................................................... 56
2.3 Tabla de Análisis de Varianza ............................................................................ 59
2.4 Prueba de hipótesis para conocer si los costos indirectos de fabricación,
mano de obra directa y costos de desarrollo tienen un efecto significativo en
los costos de producción para la elaboración de software. ................................ 60
Capítulo 3: Prueba de Kruskal-Wallis para conocer si el número de trabajadores
para la elaboración de los softwares de contabilidad, videojuegos y estadísticos
es el mismo o difieren por tipo de software............................................................... 61
3.1 Tabla con los datos ............................................................................................. 62
3.1.1 Calculando “n” y sus rangos ...................................................................... 63
3.2 Prueba de Hipótesis para determinar cuál de tres diferentes tipos de
software, contable, videojuegos y estadístico requiere mayor número de
trabajadores para su elaboración. ........................................................................... 63
Capítulo 4: Aplicar la prueba de signo para determinar si la elaboración de
softwares tarda 90 días o más. ........................................................................................... 66
Conclusiones........................................................................................................................... 69
Recomendaciones ................................................................................................................. 70
Anexo......................................................................................................................................... 70
Bibliografías............................................................................................................................. 73
P á g i n a 3 | 73
Introducción
Desde siglos anteriores se ha dejado en evidencia que es indispensable

el desarrollo de técnicas de regresión que permitieran determinar el grado de
incidencia de variables independientes o predictoras a partir de una variable
dependiente o predicha.
Los métodos de regresión siguen siendo un área de investigación activa.

En las últimas décadas nuevos métodos han sido desarrollados para regresión
robusta, debido a la ineficiencia que presentaron las primeras técnicas de
regresión, el cual podía tomar hasta 24 horas recibir el resultado de una
regresión en áreas biológicas, económicas y cualquier ámbito.
El desarrollo en la sociedad es inminente, es un crecimiento constante a

nivel tecnológico, empresas u organizaciones se ven en la necesidad de
optimizar sus procesos existentes y eliminar defectos, por ello utiliza análisis de
regresión que les permite medir si los resultados se alinean con lo que se espera
cuando se cambia una variable en un proceso.
Comprender la regresión lineal es importante porque proporciona un

cálculo científico para identificar y predecir resultados futuros. La capacidad de
encontrar predicciones y evaluarlas puede ayudar a brindar beneficios a muchas
empresas e individuos, como operaciones optimizadas y materiales de
investigación detallados.
La técnica de regresión lineal múltiple es una técnica estadística que la

utilizaremos para analizar la relación entre una sola variable dependiente y varias
variables independientes.
La empresa desarrolladora de software FREE BALANCES ubicada en la

ciudad de Managua exactamente en el residencial Los robles, ofrece servicios
de desarrollo de Software en el área de Sistemas de ventas y de Estadísticas.
P á g i n a 4 | 73
El problema principal del proyecto estadístico de la empresa FREE
BALANCES, es que actualmente no llevan un control de cada uno de los
procesos que se realizan, debido a que la mayoría de veces les que ocasiona
reclamos de los clientes debido a la demora en el tiempo y en muchas ocasiones
no se lleva un control de los ingresos, en vista se requiere que los procesos
internos sean correctamente estructurados.
Con el propósito de resolver la problemática presentada anteriormente se

plantea como solución un estudio estadístico, que permita llevar un control de
los procesos que se llevan dentro de dicha empresa. Con el propósito de obtener
un orden en la administración de los datos e información que se realizan a diarios
dentro de la empresa a fin de, brindar a los clientes, desarrolladores y
trabajadores un servicio integro.
Con este proyecto se pretende brindar una solución al problema planteado

anteriormente. Principalmente con el estudio estadístico, La empresa se
posicionará en una forma más competitiva en el sector de servicios de
informática en Managua y permitirá proporcionar un control adecuado en cada
uno de los procesos que se llevaran a cabo durante la prestación de servicios a
los clientes. Igualmente permitirá realizar seguimientos más detallados de todos
los procesos realizado en la empresa con toda seguridad, confianza y respaldo.
Con la finalidad de proporcionar una adecuada administración de los datos e
información de esta manera, tener acceso rápido y seguro de este modo, no
perder tiempo y dinero.
P á g i n a 5 | 73
Justificación
Este proyecto se hace necesario realizarlo con el propósito de automatizar

los procesos en la empresa FREE BALANCES, con el estudio estadístico se
disminuirá el gasto de papelería, además brindara agilidad en el servicio para el
cliente, búsqueda de documentos y en las cuentas de cobro con resultados
confiables, mejorara el acceso rápido y seguro a los datos beneficiando
enormemente a la empresa, causando facilidad y eficiencia a los trabajadores
asimismo a los desarrolladores de la misma manera, a los clientes por su agilidad
en la atención al cliente.
Es un proyecto importante que debe tener derecho a ser desarrollado e

implementado, del cual se pueden obtener una gran ayuda económica dado que
la gerencia de la empresa encontraría en este estudio un gran instrumento de
perseverancia y éxito para la empresa.
P á g i n a 6 | 73
Tema
Estudio estadístico sobre los ingresos en el diseño de software de la empresa

FREE BALANCES ubicada en los Robles, Managua en el año 2021.
P á g i n a 7 | 73
Objetivo general
Realizar un estudio estadístico sobre los ingresos en el diseño de software de la

empresa FREE BALANCES ubicada en Los Robles, Managua en el año 2021.
Objetivos específicos
 Desarrollar un Análisis de Regresión Múltiple de los ingresos con respecto

a la cantidad de software elaborados, costos de producción y costos de
mano de obra directa.
 Determinar si los costos indirectos de fabricación, mano de obra directa y

costos de desarrollo afectan significativamente los costos de producción
de software aplicando un análisis de varianza de tres factores.
 Utilizar la prueba de Kruskal–Wallis para conocer si el número de

trabajadores para la elaboración de los softwares de contabilidad,
videojuegos y estadísticos es el mismo o difieren por tipo de software.
 Aplicar la prueba de signo para determinar si la elaboración de softwares

tarda 90 días o más.
P á g i n a 8 | 73
Marco Teórico
Análisis de Regresión Lineal Múltiple
La regresión lineal es una técnica estadística destinada a analizar por qué pasan
las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir
de los análisis de regresión lineal múltiple podemos:
 Identificar que variables independientes (explicativas) que explican una

variable dependiente (resultado).
 Comparar y comprobar modelos explicativos.
 Predecir valores de una variable, es decir, a partir de unas características

predecir de forma aproximada un comportamiento o estado.
(Ronald, 2012)
¿Para qué sirve el análisis de regresión lineal múltiple?
Un modelo de regresión lineal múltiple es un modelo estadístico versátil para

evaluar las relaciones entre un destino continuo y los predictores.
Los predictores pueden ser campos continuos, categóricos o derivados, de modo

que las relaciones no lineales también estén soportadas. El modelo es lineal
porque consiste en términos de aditivos en los que cada término es un predictor
que se multiplica por un coeficiente estimado. El término de constante
(intercepción) también se añade normalmente al modelo.
La regresión lineal se utiliza para generar conocimientos para los gráficos que
contienen al menos dos campos continuos con uno identificado como el destino
y el otro como un predictor. Además, se puede especificar un predictor categórico
y dos campos continuos auxiliares en un gráfico y se pueden utilizar para generar
un modelo de regresión adecuado. (Ronald, 2012)
P á g i n a 9 | 73
¿Qué son las variables dependientes?
La variable dependiente es la variable inestable susceptible de ser modificada.
¿Qué son las Variables independientes?
La variable independiente es aquella que no se ve afectada, por tanto, no variará

durante toda la experimentación.
Por último, las independientes son las variables que sirven para estudiar las
dependientes.
Modelo de regresión múltiple

En la mayoría de los problemas de investigación en los que se aplica el
análisis de regresión se necesita más de una variable independiente para el
modelo de regresión. La complejidad de la mayoría de mecanismos científicos
es tal que, con el fin de predecir una respuesta importante, se requiere un modelo
de regresión múltiple. Cuando un modelo es lineal en los coeficientes se
denomina modelo de regresión lineal múltiple. Para el caso de k variables
independientes, el modelo que da x1, x2,..., xk, la media de Y |x1, x2,..., xk es el
modelo de regresión lineal múltiple. (Ronald, 2012)
μY |x1, x2,..., xk = β0 + β1 x 1 + ··· + βk x k
Y la respuesta estimada se obtiene a partir de la ecuación de regresión muestral
= b0 + b1 x1 + ··· + bk x k,
Donde cada coeficiente de regresión βi se estima por medio de bi, a partir

de los datos muestrales, usando el método de los mínimos cuadrados. Como
ocurre en el caso de una sola variable independiente, a menudo el modelo de
regresión lineal múltiple es una representación adecuada de una estructura más
complicada dentro de ciertos rangos de las variables independientes.
P á g i n a 10 | 73
También se pueden aplicar técnicas similares de mínimos cuadrados para
estimar los coeficientes cuando el modelo lineal incluye, por ejemplo, potencias
y productos de las variables independientes. Un ejemplo de esto se presentaría
cuando k = 1, en cuyo caso el experimentador podría pensar que las medias μY|x
no caen sobre una línea recta, sino que se describen de manera más adecuada
mediante el modelo de regresión polinomial.
μ |x = β0 + β1 x + β2x 2 + ··· + βr x r, Y
Y la respuesta estimada se obtiene de la ecuación de regresión polinomial
𝑌̂ = b0 + b1 x + b2x 2 + ··· + br x r
Estimación de los coeficientes
En esta sección se calculan los estimadores de mínimos cuadrados de los

parámetros β0, β1,..., βk mediante el ajuste del modelo de regresión lineal
múltiple. (Ronald, 2012)
μY |x 1, x 2,..., x k = β0 + β1 x 1 + ··· + βk x k
A los puntos de los datos:
{(X 1i, x 2i,..., x ki, yi); i = 1, 2,. . ., n y n > k},
Donde yi es la respuesta observada a los valores x1i, x2i,..., xki de las k variables
independientes x1, x2,..., xk. Se supone que cada observación (x1i, x2i,..., xki,
yi) satisface la siguiente ecuación:
yi = β0 + β1 x 1i + β2 x 2i + ··· + βk x ki + i
o bien,
yi = 𝑌̂i + ei = b0 + b1 x 1i + b2 x 2i + ··· + bk x ki + ei,
Donde i y ei son el error aleatorio y el residual, respectivamente, asociados con

la respuesta yi y con el valor ajustado yˆi.
P á g i n a 11 | 73
Como en el caso de la regresión lineal simple, se supone que las i son
independientes y están distribuidos en forma idéntica con media cero y varianza
común σ 2. Si usamos el concepto de mínimos cuadrados para obtener los
estimados b0, b1,..., bk, minimizamos la expresión.
𝑛 𝑛
∑ 𝑒 2 = ∑( yi − b0 − b1x1i − b2x2i − bkxki)2

𝑖=1 𝑖=1
Si, a su vez, diferenciamos la SCE respecto a b0, b1,..., bk e igualamos el

resultado a cero, generamos el conjunto de k + 1 ecuaciones normales para la
regresión lineal múltiple.
(Ronald, 2012)
Estas ecuaciones se pueden resolver para b0, b1, b2,..., bk utilizando cualquier
método apropiado que permita resolver sistemas de ecuaciones lineales. Casi
todos los programas estadísticos de cómputo se pueden utilizar para obtener
soluciones numéricas de las ecuaciones anteriores. (Ronald, 2012)
P á g i n a 12 | 73
Modelo de regresión lineal en el que se utilizan matrices
Al ajustar un modelo de regresión lineal múltiple, en particular cuando contiene

más de dos variables, tener conocimientos sobre la teoría de matrices facilita
considerablemente el manejo de las matemáticas. Suponga que el
experimentador tiene k variables independientes x1, x2,..., xk y n observaciones
y1, y2,..., yn, cada una de las cuales se puede expresar con la ecuación. (Ronald,
2012)
yi = β0 + β1 x 1i + β2x 2i + ··· + βk x ki + i.
Este modelo representa en esencia a n ecuaciones que describen cómo

se generan los valores de la respuesta durante el proceso científico. Si usamos
la notación de matrices, podemos escribir la ecuación siguiente
(Ronald, 2012)
Después, el método de mínimos cuadrados para la estimación de β, que se

estudió en la sección 12.2, implica calcular b, para lo cual
SCE = (y − Xb) (y – Xb)
se minimiza. Este proceso de minimización implica resolver para b en la ecuación
𝜕
(𝑆𝐶𝐸) = 0
𝜕𝑏
Aquí no presentaremos los detalles respecto a cómo se resuelven las ecuaciones

anteriores. El resultado se reduce a la solución de b en
(X X) b = X y.
P á g i n a 13 | 73
Naturaleza de la matriz X. Además del elemento inicial, el i-ésimo renglón
representa los valores de x que dan lugar a la respuesta yi. .
(Ronald, 2012)
Nos permite escribir las ecuaciones normales en la forma de matriz
Ab = g
Si la matriz A es no singular, la solución para los coeficientes de regresión se

escribe como:
b = A −1 g = (X X) −1 X y.
De esta manera, obtenemos la ecuación de predicción o regresión resolviendo

un conjunto de k + 1 ecuaciones con un número igual de incógnitas. Esto implica
el invertir la matriz X X de orden k + 1 por k + 1. En la mayoría de libros que
tratan sobre determinantes y matrices elementales se explican las técnicas para
invertir matrices. Por supuesto, existen muchos paquetes de cómputo veloces
para resolver problemas de regresión múltiple, los cuales no sólo proporcionan
estimados de los coeficientes de regresión, sino que también ofrecen otra clase
de información relevante para hacer inferencias acerca de la ecuación de
regresión.
P á g i n a 14 | 73
Análisis de correlación
El análisis de correlación consiste en un procedimiento estadístico para
determinar si dos variables están relacionadas o no. El resultado del análisis es
un coeficiente de correlación que puede tomar valores entre -1 y +1. El signo
indica el tipo de correlación entre las dos variables. Un signo positivo indica que
existe una relación positiva entre las dos variables; es decir, cuando la magnitud
de una incrementa, la otra también. Un signo negativo indica que existe una
relación negativa entre las dos variables. Mientras los valores de una
incrementan, los de la segunda variable disminuyen. Si dos variables son
independientes, el coeficiente de correlación es de magnitud cero. La fuerza de
la relación lineal incrementa a medida que el coeficiente de correlación se
aproxima a -1 o a +1. (Ronald, 2012)
Para qué sirve el análisis de correlación
Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo
indicarnos si existe relación entre dos eventos, es decir, variables, un poco sobre
la naturaleza de dicha relación, y su fuerza.
Fórmula para calcular el análisis de correlación
La fórmula general para calcular el coeficiente de correlación entre dos variables

es:
r=Covxy / SxxSyy
El coeficiente de correlación es el resultado de dividir la covarianza entre las

variables X y Y entre la raíz cuadrada del producto de la varianza de X y la de Y.
P á g i n a 15 | 73
Para calcular la covarianza entre la variable X y la variable Y (entre las dos
columnas de la matriz) de acuerdo a la siguiente fórmula:
∑𝑖=1 𝑛 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − ̅̅̅

𝑦)
𝐶𝑜𝑣𝑥𝑦 =
𝑁
Se calcula la media de todos los valores de X y de Y Se realiza la sumatoria del

producto de las diferencias entre cada observación de cada variable y su media
correspondiente. La sumatoria calculada anteriormente se divide entre el número
total de observaciones menos 1
1. Calcular la varianza de la variable X y la varianza de la variable Y y obtener

la raíz cuadrada de cada una:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̃)2 ∑𝑛 (𝑦𝑖 − 𝑦̃)2

√( √( 𝑖=1
𝑁 𝑁
Para cada variable se calcula la desviación estándar y se multiplican
P á g i n a 16 | 73
Prueba de Hipótesis
Una prueba de hipótesis es una regla que especifica cuando se puede
aceptar o rechazar una afirmación sobre una población dependiendo de la
evidencia proporcionada por una muestra de datos. (Ronald, 2012)
Una prueba de hipótesis examina dos hipótesis opuestas sobre una

población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es la
afirmación que se está comprobando. Normalmente la hipótesis nula es una
afirmación de "sin efecto" o "sin diferencia". La hipótesis alternativa es la
afirmación que se desea ser capaz de concluir que es verdadera basándose en
la evidencia proporcionada por los datos de la muestra. (Ronald, 2012)
Basándose en los datos de la muestra, la prueba determina cuando

rechazar la hipótesis nula. Se utiliza un p-valor, para realizar esa determinación.
Si el p-valor es menos que el nivel de significación (conocido como α o alfa),
entonces se puede rechazar la hipótesis nula.
Para que nos sirven las Pruebas de Hipótesis en estadísticas
Las pruebas de hipótesis evalúan la probabilidad asociada a la hipótesis

nula (H0) de que no hay efecto o diferencia. El valor de p obtenido refleja la
probabilidad de rechazar la H0 siendo esta verdadera; en ningún caso prueba
que la hipótesis alternativa, de que, si hay efecto o diferencia, sea verdadera.
(Ronald, 2012)
Fórmulas para la prueba de hipótesis
1. Formular la hipótesis y su alternativa. Normalmente la hipótesis de trabajo

(por ejemplo, tal tratamiento es mejor que el control o tal procedimiento tiene
menos morbilidad) es contrastada con una hipótesis estadística que supone
que no existe tal efecto o tal diferencia.
La razón para hacer esto es que se puede calcular de antemano la

distribución de probabilidades asociadas con tal situación. Esta hipótesis se
conoce con el nombre de hipótesis nula que se abrevia como H0 (Nullus:
P á g i n a 17 | 73
Nula, falto de valor y fuerza para obligar o tener efecto). La hipótesis
alternativa es que el efecto sí existe, que es distinto de cero, y que en algunos
casos se puede especificar el signo de esa diferencia. Normalmente
corresponde a la hipótesis de trabajo, se abrevia como H1 y tiene tres
alternativas: µ 1≠ µ 2, µ 1< µ 2 o bien µ 1> µ 2.
2. Elegir la prueba estadística apropiada de acuerdo al diseño experimental, el

tipo de datos y el número de grupos que se comparan. La cifra que resulta de
usar la prueba (aplicar la o las fórmulas) en los datos recolectados se conoce
como el estadístico del test en cuestión: z; estadístico t o de Student, la r de
Pearson, F del análisis de varianza. La distribución del estadístico puede ser
calculada de antemano cuando la H0 es verdadera y por lo tanto conocer los
valores que delimitarán distintas porciones del área bajo la curva de esa
distribución; éstas se conocen como distribuciones de muestreo. Vale la pena
decir aquí, y lo reiteraremos luego, que las pruebas de hipótesis en ningún
caso prueban la veracidad de la hipótesis alternativa o de trabajo, limitándose
a decir que no hay suficiente evidencia para rechazar la hipótesis nula
basándose en un nivel preestablecido de probabilidades.
3. Elegir el nivel de significación α de la prueba, el límite para rechazar H0. En

general, se acepta α = 0,01 ó 0,05, cifras que implican un 1%, o un 5%
respectivamente, de posibilidades de equivocarse cuando se rechaza H0, de
decir que hay una diferencia cuando en realidad no la hay. Este es el llamado
error tipo I.
4. Calcular el valor de P. Esta es la probabilidad de obtener los resultados

observados u otros más extremos si la H0 es verdadera, cifra que es
determinada por el área de la distribución que queda más allá del valor
calculado.
P á g i n a 18 | 73
5. Si p es menor que α, rechazar H0 y aceptar la alternativa; en caso contrario,
se acepta la hipótesis nula. El conjunto de valores que resultarían en el
rechazo de H0 – calculados conociendo la prueba usada, α y el número de
observaciones – se conoce con el nombre de región crítica. Este punto puede
representarse así: se rechaza la H0 si el estadístico cae en la región crítica.
En los apéndices de los textos de estadística aparecen tablas con la
distribución de estos estadísticos, dando el valor de p y donde el tamaño de
la muestra se considera en los grados de libertad.
(Ronald, 2012)
P á g i n a 19 | 73
Tabla ANOVA
La tabla del análisis de la varianza (también conocida como Tabla
ANOVA), fue desarrollada a principios de 1930 por el estadístico británico Ronald
Aylmer Fisher, y es por ello que a veces también se conoce a esta prueba
estadística como «ANOVA de Fisher» o «análisis de varianza de Fisher «.
(Ronald, 2012)
Para que nos sirve la Tabla ANOVA
El test ANOVA nos permite medir el efecto de un factor (o varios factores)

sobre la media de una variable continua, motivo por el cual, es utilizado de forma
habitual para realizar comparaciones de medias entre dos o más grupos.
Esta prueba estadística puede utilizarse también para medir el efecto de

los factores sobre la varianza de una determinada variable, sirviendo este test
como prueba de medición de la significatividad de una variable sobre otra.
La prueba de contraste estadístico se basa en la distribución F, también

conocida como distribución F de Snedecor (en honor a George Snedecor) o
distribución F de Fisher-Snedecor (también por Ronald Fisher). (Ronald, 2012)
Pasos para calcular la Tabla ANOVA
El ANOVA de un factor es un método estadístico para probar la hipótesis

nula (H0) de que tres o más medias poblacionales son iguales frente a la
hipótesis alternativa (Ha) de que al menos una de las medias es diferente.
Usando la notación formal de las hipótesis estadísticas con k medias,
escribiríamos. (Ronald, 2012)
H0: μ1=μ2=⋯=μk
H1: no todas las medias son iguales
Aquí μi es la media del i-ésimo nivel del factor.
P á g i n a 20 | 73
Representación de la Tabla ANOVA
Fuentes de Suma Grados CM Fo Valor - p

Variación Cuadrado Libertad
Regresión SSR K MSR =
𝑆𝑆𝑅 𝑀𝑆𝑟⁄
𝐾 𝑀𝑆𝑟𝑒𝑠
Residuos SSRES N–k-1 𝑆𝑆𝑅𝐸𝑆
MSRES = 𝑁−𝐾−1
Total SST N-1
(∑ 𝑌𝑖)2
SST = ∑ 𝑦𝑖 2 −
𝑛
(∑ 𝑌𝑖)2
SSR = β̃𝑇 𝑋 𝑇 𝑦 −
𝑛
SSRES = SST - SSR
P á g i n a 21 | 73
Grados de libertad (GL)
Los grados de libertad se definen frecuentemente como el número de
observaciones (piezas de información) en los datos que pueden variar libremente
al estimar parámetros estadísticos. (Ronald, 2012)
Fórmula
Indica el número de elementos independientes en la suma de cuadrados. Los
grados de libertad para cada componente del modelo son:
 (Factor) GL = r – 1
 Error GL = nT – r
 Total = nT – 1
Notación
Término Descripción
nT número total de observaciones
R Número de niveles de factor
P á g i n a 22 | 73
Suma de los cuadrados (SC)
La suma de las distancias al cuadrado. La SC Total es la variación total
en los datos. El SC (Factor) es la desviación de la media del nivel de factor
estimado alrededor de la media general. Esto se conoce también como la suma
de los cuadrados entre los tratamientos. El error SC es la desviación de una
observación desde su media de nivel de factor correspondiente. Esto se conoce
también como error en los tratamientos. (Ronald, 2012)
Los cálculos son:
̅̅̅2
Factor SC = ∑ 𝑖 ∑ 𝑗 (𝑌̅𝑖 − 𝑌)
̅̅̅̅2
Error SC = ∑ 𝑖 ∑ 𝑗 (𝑌𝑖𝑗 − 𝑌𝑖)
̅̅̅2
SC Total = ∑ 𝑖 ∑ 𝑗 (𝑌𝑖𝑗 − 𝑌)
Notación
y̅i . media de observaciones en el i ésimo nivel del factor
y̅... media de todas las observaciones
yij valor de la j ésima observación al i ésimo nivel del factor
P á g i n a 23 | 73
Cuadrados medios (CM)
Los cuadrados medios esperados son calculados de acuerdo con el tipo
de factor replicación e interacción; sirven para ver la variación entre grupos y
para establecer la variación dentro de los grupos considerados en un proceso
investigativo mediante la utilización del diseño experimental. (Ronald, 2012)
Fórmula
El cálculo del cuadrado medio del factor sigue:
𝑭𝑨𝑪𝑻𝑶𝑹 𝑺𝑪
Factor CM = 𝑭𝑨𝑪𝑻𝑶𝑹 𝑮𝑳
El cálculo del cuadrado medio del error sigue:
𝑬𝑹𝑹𝑶𝑹 𝑺𝑪
ERROR CM = 𝑬𝑹𝑹𝑶𝑹 𝑮𝑳
Notación
CM Cuadrado medio
SC Suma de los cuadrados
GL Grados de libertad
P á g i n a 24 | 73
Valor F
La estadística F es simplemente un cociente de dos varianzas. Las
varianzas son una medida de dispersión, es decir, qué tan dispersos están los
datos con respecto a la media. Los valores más altos representan mayor
dispersión. La varianza es el cuadrado de la desviación estándar. (Ronald, 2012)
Fórmula
𝑪𝑴 (𝑭𝑨𝑪𝑻𝑶𝑹)
F= 𝑪𝑴 (𝑬𝑹𝑹𝑶𝑹)
Los grados de libertad del numerador son r – 1. Los grados de libertad del
denominador son nT – r.
Notación
nT número total de observaciones
R número de niveles del factor
Valor p
Se utiliza en las pruebas de hipótesis como ayuda para decidir si se puede
rechazar o no una hipótesis nula. El valor p es la probabilidad de obtener una
estadística de prueba que sea por lo menos tan extrema como el valor calculado
real, si la hipótesis nula es verdadera. Un valor de corte comúnmente utilizado
para el valor p calculado es 0.05. Por ejemplo, si el valor p de una estadística de
prueba es menor que 0.05, rechace la hipótesis nula. (Ronald, 2012)
Un estimado de σ, la medida de la desviación estándar dentro de una

muestra. Observe que S2 = Error de CM. Esto es equivalente a la desviación
estándar agrupada usada en el cálculo de los intervalos de confianza
individuales. (Ronald, 2012)
P á g i n a 25 | 73
R-cuadrado.
En estadística, el coeficiente de determinación, denominado R², es un
estadístico usado en el contexto de un modelo estadístico cuyo principal
propósito es predecir futuros resultados o probar una hipótesis. (Ronald, 2012)
𝑬𝑹𝑹𝑶𝑹 𝑺𝑪
1- 𝑺𝑪 𝑻𝑶𝑻𝑨𝑳
Otra presentación de la fórmula es:

𝑺𝑪 𝑫𝑬𝑳 𝑭𝑨𝑪𝑻𝑶𝑹
𝑺𝑪 𝑻𝑶𝑻𝑨𝑳
R2 también se puede calcular como la correlación cuadrada de y y.
Notación
SC Suma de los cuadrados
Y variable de respuesta
variable de respuesta ajustada
P á g i n a 26 | 73
Inferencias en la regresión lineal múltiple
El conocimiento de la distribución de los estimadores del coeficiente
individual facilita al experimentador construir intervalos de confianza para los
coeficientes y hacer pruebas de hipótesis acerca de ellos. Recuerde que en la
sección 12.4 estudiamos que bj (j = 0, 1, 2,..., k) se distribuyen de forma normal
con media βj y varianza cjjσ 2. De esta manera, se puede utilizar el estadístico.
(Ronald, 2012)
𝑩𝑱− 𝜷𝑱𝟎
T=
𝒔√𝒄𝑱𝑱
Con n - k - 1 grados de libertad para probar hipótesis y construir intervalos de

confianza sobre βj. Por ejemplo, si queremos probar
H0: βj = βj 0,
H1: βj ≠ βj 0,
Se calcula el estadístico t anterior y no se rechaza H0 si -t α/2 < t < t α/2, donde

t α/2 tiene n - k - 1 grados de libertad.
P á g i n a 27 | 73
Coeficiente de determinación múltiple o R2
En muchas situaciones de regresión los coeficientes individuales revisten

importancia para el experimentador. Por ejemplo, en una aplicación de
economía, β1, β2,... podrían tener un significado en particular, por lo que el
economista tendría un interés especial en los intervalos de confianza y en las
pruebas de hipótesis sobre dichos parámetros. Sin embargo, considere una
situación de química industrial en la que el modelo propuesto supone que el
producto de la reacción depende linealmente de la temperatura y concentración
de la reacción de cierto catalizador. Es probable que se sepa que éste no es el
verdadero modelo, sino una aproximación adecuada; de manera que el interés
no estribaría en los parámetros individuales, sino en la capacidad de la función
en su conjunto para predecir la respuesta verdadera en el rango de las variables
consideradas. Por lo tanto, en esta situación, se pondría más énfasis en ˆ 2 σY,
los intervalos de confianza de la respuesta media, y así sucesivamente, y
disminuiría el interés en las inferencias sobre los parámetros individuales.
(Ronald, 2012)
El experimentador que utiliza análisis de regresión también está

interesado en eliminar variables cuando la situación impone que, además de
llegar a una ecuación de pronóstico funcional, debe encontrar la “mejor
regresión” que implique sólo variables que sean predictores útiles. Se dispone
de varios programas de cómputo que llegan en secuencia a la denominada mejor
ecuación de regresión, dependiendo de ciertos criterios. En la sección 12.9
profundizaremos en el estudio de esto. (Ronald, 2012)
Un criterio que suele utilizarse para ilustrar lo adecuado de un modelo ajustado

de regresión es el coeficiente de determinación múltiple o R2
Coeficiente de determinación Múltiple o R2
𝑆𝐶𝑅 ∑𝑁 ̌ ̅2)
𝐼=1(𝑌𝑖 − 𝑦 𝑆𝐶𝐸
𝑅2 = = 𝑛 =1−
𝑆𝑇𝐶𝐶 ̌ − 𝑦̅2)
∑𝑖=1(𝑌𝑖 𝑆𝑇𝐶𝐶
P á g i n a 28 | 73
Diseño Factorial (Diseño de 3 Factores)
El estudio factorial de 3 factores A, B y C permite estudiar los efectos A,

B, C (Los efectos principales), AB, AC, BC (Efecto de las interacciones de a dos
factores) y ABC (La triple interacción), donde el grado de detalle con el que se
puede estudiar depende del número de niveles usados a cada factor. (Ronald,
2012)
¿Para qué sirve el Diseño Factorial de 3 Factores?
Este tipo de diseño se utiliza para experimentos con dos o más factores,
dado que en general son los más eficientes para ellos. En este diseño se
investiga todas las combinaciones posibles entre los niveles de los factores.
(Ronald, 2012)
Utilidad del Diseño Factorial de 3 Factores
Este tipo de diseño se utiliza para experimentos con dos o más factores,
dado que en general son los más eficientes para ellos. En este diseño se
investiga todas las combinaciones posibles entre los niveles de los factores.
(Ronald, 2012)
P á g i n a 29 | 73
Formulas del Diseño Factorial de 3 Factores
Suma de cuadrados (E3F)
SCA = bcn ∑𝒊=𝟏(𝒚 ̌ )𝟐

̌𝒊 − 𝒚 ̌ − 𝑌𝑗
SC (AB) = CN ∑ 𝑖 ∑ 𝑗 (𝑌𝑖𝑗 ̌ + 𝑌̌)2
̌ − 𝑌𝑘
SC (AC) = BN ∑ 𝑖 ∑ 𝑘 (𝑌𝑖𝑘 ̌ + 𝑌̌)2
SCB = acn ∑𝒃𝒋=𝟏(𝒚 ̌ )𝟐
̌𝒋 − 𝒚
̌ − 𝑌𝑘
SC (BC) = AN ∑ 𝑗 ∑ 𝑘 (𝑌𝑗𝑘 ̌ + 𝑌̌)2
̌𝒌 − 𝒚
SCC = abn ∑𝒄𝒌=𝟏(𝒚 ̌ )𝟐
STC = n ∑ 𝒊 ∑ 𝒊 ∑ 𝒋 ∑ 𝒌 (𝒚 ̌ )𝟐
̌− 𝒚
̌ − 𝒚
SCE = ∑ 𝒊 ∑ 𝒊 ∑ 𝒋 ∑ 𝒌 (𝒚𝒊𝒋𝒌𝒍 ̌𝒊𝒋𝒌)𝟐
P á g i n a 30 | 73
Suma de cuadrados
Otras alternativas para realizar la suma de cuadrados en experimentos de tres
factores.
𝑌2
SCT = ∑𝑖=1 𝑎 ∑𝑗=1 𝑏 ∑𝑘=1 𝑐 ∑𝑙=1 𝑛 𝑌 2 𝑖𝑗𝑘𝑙 −
𝑁
𝒀𝟐 𝒀𝟐 𝒀𝟐 𝒀𝟐 𝒀𝟐 𝒚𝟐
SCa = ∑𝒊=𝟏 𝒂 − : 𝑺𝑪𝒃 = − : 𝑺𝑪𝒄 = ∑𝒍=𝟏 𝒄 −
𝒃𝒄𝒏 𝑵 𝒂𝒄𝒏 𝑵 𝒂𝒃𝒏 𝑵
𝒀𝟐 𝒀𝟐
SCab = ∑𝒊=𝟏 𝒂 ∑𝒋=𝟏 𝒃 − − 𝑺𝑪𝒂 − 𝑺𝑪𝒃
𝑪𝑵 𝑵
𝒀𝟐 𝒀𝟐
SCac = ∑𝒊=𝟏 𝒂 ∑𝒋=𝟏 𝒄 − − 𝑺𝑪𝒂 − 𝑺𝑪𝒄
𝑩𝑵 𝑵
𝒀𝟐 𝒀𝟐
SCbc = ∑𝒊=𝟏 𝒃 ∑𝒋=𝟏 𝒄 − − 𝑺𝑪𝒃 − 𝑺𝑪𝒄
𝑨𝑵 𝑵
𝟐 𝒀𝟐
SCabc = ∑𝒊=𝟏 𝒂 ∑𝒋=𝟏 𝒃 ∑𝒌=𝟏 𝒄 𝒀𝒏 −
𝑵
− 𝑺𝑪𝒂𝒃 − 𝑺𝑪𝒂𝒄 − 𝑺𝑪𝒃𝒄
SCE = SCT – SCA – SCB – SCC – SCAB – SCAC – SCBC - SCABC
P á g i n a 31 | 73
Los Promedios en la Formula se definen como:
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒕𝒐𝒅𝒂𝒔 𝒍𝒂𝒔 𝒂𝒃𝒄𝒏 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔.

𝒀
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒆𝒍 𝒊 − é𝒔𝒊𝒎𝒐 𝒏𝒊𝒗𝒆𝒍 𝒅𝒆𝒍 𝒇𝒂𝒄𝒕𝒐𝒓 𝑨

𝒀𝒊
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒆𝒍 𝒋 − é𝒔𝒊𝒎𝒐 𝒅𝒆𝒍 𝒇𝒂𝒄𝒕𝒐𝒓 𝑩

𝒀𝒋
̌ 𝒌 = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒆𝒍 𝒌 − é𝒔𝒊𝒎𝒐 𝒅𝒆𝒍 𝒇𝒂𝒄𝒕𝒐𝒓 𝑪

𝒀
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒆𝒍 𝒊 − é𝒔𝒊𝒎𝒐 𝒅𝒆 𝑨 𝒚 𝒆𝒍 𝒋 − é𝒔𝒊𝒎𝒐 𝒏𝒖𝒗𝒆𝒍 𝒅𝒆 𝑩

𝒀𝒊𝒋
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒆𝒍 𝒊 − é𝒔𝒊𝒎𝒐 𝒅𝒆 𝑨 𝒚 𝒆𝒍 𝒌 − é𝒔𝒊𝒎𝒐 𝒏𝒖𝒗𝒆𝒍 𝒅𝒆 𝑪

𝒀𝒊𝒌
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒆𝒍 𝒊 − é𝒔𝒊𝒎𝒐 𝒅𝒆 𝑩 𝒚 𝒆𝒍 𝑲 − é𝒔𝒊𝒎𝒐 𝒏𝒖𝒗𝒆𝒍 𝒅𝒆 𝑪

𝒀𝒋𝒌
̌ = 𝑷𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒍𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝒑𝒂𝒓𝒂 𝒍𝒂 (𝒊𝒋𝒌) − é𝒔𝒊𝒎𝒂 𝒄𝒐𝒎𝒃𝒊𝒏𝒂𝒄𝒊𝒐𝒏 𝒅𝒆 𝒕𝒓𝒂𝒕𝒂𝒎𝒊𝒆𝒏𝒕𝒐𝒔

𝒀𝒊𝒋𝒌
P á g i n a 32 | 73
Tabla ANOVA de 3 Factores:
(Ronald, 2012)
CM = SUMACUADRADO/GRADOS DE LIBERTAD
FCAL= CM/CME
P á g i n a 33 | 73
Modelo para Experimento de 3 Factores
Yijkl = μ + α + βj + Yk + (αβ)ij + (αY)ik + (βy)jk + (αβy)ijk + €ijkl
I = 1,2 a; j = 1,2 b; 1,2 c; y L =1,2 n, donde α,β,y,yk son los efectos principales y
(αβ)ij, (αy)ik, y (βy)jk son los efectos de interacción de 2 factores que tienen la
misma interpretación que en el experimento de 2 factores.
Conclusiones de FCrítica
Si aceptamos h0: No hay influencia del factor o el efecto.
Si rechazamos h0: hay influencia del factor o el efecto en la variable de

respuesta.
P á g i n a 34 | 73
Pruebas no paramétricas
¿Qué son las pruebas no paramétricas?

Las pruebas no paramétricas son pruebas estadísticas que no hacen
suposiciones sobre la constitución de los datos de la población. Por lo general
las pruebas paramétricas son más poderosas que las pruebas no paramétricas
y deben usarse siempre que sea posible.
Es importante observar, que, aunque las pruebas no paramétricas no hacen sus

opciones sobre la distribución de la población que se muestrea, muchas veces
se apoyan en distribuciones muestrales como la normal. (Ronald, 2012)
Ventajas de las pruebas no paramétricas.
 Puede utilizarse en diferentes situaciones, y a que no deben de cumplir

con parámetros estrictos.
 Generalmente, sus métodos son más sencillos, lo que las hace más fácil
de entender.
 Se pueden aplicar en datos no numéricos (ósea que son cualitativas).
 Facilita la obtención de información particular más importante y adecuada
para el proceso de investigación.
Desventajas de las pruebas no paramétricas
 No son pruebas sistemáticas.

 La distribución varía.
 Los formatos de aplicación son diferentes y provoca la confusión.
P á g i n a 35 | 73
Prueba de Kruskal-Wallis
La prueba H de Kruskal-Wallis es una prueba no paramétrica basada en

el rango que puede utilizarse para corroborar si existen diferencias relevantes a
nivel estadístico entre dos o más grupos de una variable independiente en una
variable dependiente ordinal o continua. (Ronald, 2012)
¿Cuál es la importancia del test de Kruskal-Wallis?
Al ser no paramétrica, la prueba no asume que los datos provienen de una

distribución particular. La prueba de Kruskal-Wallis te dirá si hay una diferencia
significativa entre los grupos. Sin embargo, no te dirá qué grupos son diferentes.
La prueba de Kruskal-Wallis se considera la alternativa no paramétrica al ANOVA

unidireccional, y una extensión de la prueba U de Mann-Whitney para permitir la
comparación de más de dos grupos independientes. (Ronald, 2012)
¿Cuándo se puede utilizar la prueba de Kruskal-Wallis?
Cuando decidas analizar tus datos mediante una prueba H de Kruskal-Wallis,

parte del proceso consiste en comprobar que los datos que se desean analizar
pueden realmente analizarse mediante una prueba H de Kruskal-Wallis.
(Ronald, 2012)
¿Qué determina esta prueba?
La prueba determina si las medianas de dos o más grupos son diferentes. De

esta forma, calcula un estadístico de prueba y lo compara con un punto de corte
de la distribución. (Ronald, 2012)
El estadístico de prueba utilizado se denomina estadístico H. Las hipótesis de la

prueba son:
 H0: las medianas de la población son iguales.

 H1: las medianas de la población no son iguales.
P á g i n a 36 | 73
Prueba de signo
La prueba de signo se utiliza para probar hipótesis sobre una mediana de la

población.
En el caso de muchos de los procedimientos no paramétricos, la media es

reemplazada
Por la mediana como el parámetro de ubicación pertinente a probar.
El estadístico de prueba adecuado para la prueba de signo es la variable

aleatoria binomial X, que representa el número de signos más en la muestra
aleatoria. Si la hipótesis nula de que μ-= μ-0 es verdadera, la probabilidad de que
un valor muestral dé como resultado un signo más o uno menos es igual a 1/2.
Por lo tanto, para probar la hipótesis nula de que μ- = μ-0, en realidad probamos
la hipótesis nula de que el número de signos más es un valor de una variable
aleatoria que tiene una distribución binomial con el parámetro p = 1/2. Por lo
tanto, los valores P para las alternativas unilateral y bilateral se pueden calcular
usando esta distribución binomial. (Ronald, 2012)
̃ =μ
H0: μ ̃,0
̌,
H1: µ̃ < µ0
Se rechaza H0 a favor de H1 sólo si la proporción de signos más es lo

suficientemente menor que 1/2, es decir, cuando el valor x de la variable aleatoria
es pequeño. Por lo tanto, si el valor P que se calcula
P = P (X ≤ x cuando p = 1/2)
Es menor o igual que algún nivel de significancia α preseleccionado, se rechaza

H0 a favor de H1.
P á g i n a 37 | 73
Planteamiento de la Hipótesis
Las pruebas de hipótesis evalúan la probabilidad asociada a la hipótesis

nula (H0) de que no hay efecto o diferencia. El valor de p obtenido refleja la
probabilidad de rechazar la H0 siendo esta verdadera; en ningún caso prueba
que la hipótesis alternativa, de que, si hay efecto o diferencia, sea verdadera.
En primer lugar, veremos cómo se escribirían las hipótesis que queremos

contrastar:
 H0 se llama hipótesis nula y es lo contrario de lo que sospechamos que

va a ocurrir (suele llevar los signos igual, mayor o igual y menor o igual)
 H1 se llama hipótesis alternativa y es lo que sospechamos que va a ser

cierto (suele llevar los signos distinto, mayor y menor)
Los contrastes de hipótesis pueden ser de dos tipos:
 Bilateral: En la hipótesis alternativa aparece el signo distinto.

 Unilateral: En la hipótesis alternativa aparece o el signo > o el signo <.
Podemos aceptar una hipótesis cuando en realidad no es cierta, entonces

cometeremos unos errores, que podrán ser de dos tipos:
 Error de tipo I: Consiste en aceptar la hipótesis alternativa cuando la

cierta es la nula.
 Error de tipo II: Consiste en aceptar la hipótesis nula cuando la cierta es
la alternativa.
Estos errores los aceptaremos si no son muy grandes o si no nos importa

que sean muy grandes.
 alfa: Es la probabilidad de cometer un error de tipo I.
 beta: Es la probabilidad de cometer un error de tipo II.
De los dos, el más importante es alfa que llamaremos nivel de significación y nos
informa de la probabilidad que tenemos de estar equivocados si aceptamos la
hipótesis alternativa. (Ronald, 2012)
P á g i n a 38 | 73
Desarrollo
Capítulo 1: Análisis de Regresión Múltiple de los ingresos con

respecto a la cantidad de software elaborados, costos de
producción y costo de mano de obra directa.
En la empresa FREE BALANCES se pretende realizar un análisis de

regresión para conocer los ingresos del próximo año con respecto a la cantidad
de software elaborados, costo de producción y costo de mano de obra directa, a
través de datos recolectados mensualmente en el año 2021. Gracias a este
análisis de regresión lineal múltiple serán capaz de tomar decisiones importantes
en la empresa.
Las cantidades presentadas en este estudio se dividirán entre mil para

trabajar con cifras más pequeñas, una vez obtenido el valor predicho se
multiplicara por mil para obtener el valor real.
Variable de estudio
Y = Ingresos en $.
Predecir los ingresos un importante para una organización ya que de ello

dependerá la toma de decisiones paras futuras actividades productivas de la
empresa.
Variables Independientes
X1: Cantidad de softwares elaborados.
Se han escogido estas variables independientes porque en toda empresa se

debe de conocer la cantidad de producción, en este caso los softwares que la
empresa FREE BALANCE produce mensualmente.
X2: Costo de producción.
Se han escogido los costos de producción porque es un dato indispensable a

tener en cuenta cuando se habla de ingresos, los ingresos de toda empresa
P á g i n a 39 | 73
dependen en parte del nivel de producción que esta tenga, en este caso se
evalúa el costo de producción mensual de la empresa FREE BALANCE para la
elaboración de softwares.
X3: Costo de mano de obra directa.
Se ha seleccionado como tercera variable independiente el costo de mano de

obra directo debido a que no podemos hablar de producción, ni de ingresos sin
antes tener un personal que se encargue de la producción directa de dichos
productos, se toman los costos de mano de obra directa de la empresa FREE
BALANCES mensualmente para la elaboración de softwares.
Datos expresados en miles.
X1 X2 X3 Y
Mes Cantidad de Costos de Costos de mano Ingresos
software producción de obra directa
elaborado
Enero 10 $25.00 $10.00 $52.00
Febrero 14 $36.00 $13.00 $64.00
Marzo 20 $70.00 $17.00 $110.00
Abril 16 $48.00 $13.00 $80.00
Mayo 13 $33.00 $12.00 $60.00
Junio 18 $52.00 $15.00 $100.00
Julio 15 $46.00 $14.50 $75.00
Agosto 21 $74.00 $19.00 $120.00
Septiembre 16 $48.00 $15.00 $88.00
Octubre 20 $70.00 $18.00 $110.00
Noviembre 16 $48.00 $14.80 $80.00
Diciembre 21 $85.00 $20.00 $120.00
Total 200 $635.00 $181.30 $1,059.00
P á g i n a 40 | 73
1.1 Modelo de Regresión Lineal múltiple
Con los datos previamente recolectados, utilizando el programa Excel se

encuentran los siguientes resultados.
Coeficientes
Intercepcion -11.6283
Cantidad de software elaborado 4.8425
Costos de producción 0.3760
Costos de mano de obra directa -0.0481
De aquí el modelo es
𝑌 = − 11.6283 + 4.8425𝑥1 + 0.3760𝑥2 − 0.0481𝑥3
−11.6283 (B0) es la cantidad media de ingresos que corresponde cuando la

cantidad de software elaborado, costos de producción y los costos de mano de
obra directa toman un porcentaje de cero.
Cada una de las pendientes de este modelo representan que por cada unidad
que aumente la cantidad de software elaborado, los costos de producción y los
costos de mano de obra directa, los ingresos varían en promedio tantas unidades
como indica la pendiente.
El modelo de regresión dado indica que cuando la cantidad de software

elaborado, los costos de producción y costos de mano de obra directa sean 0,
los ingresos serán de $ -11.6283, es decir obtendríamos pérdida monetaria.
Predicción de los ingresos con respecto a la cantidad de software

elaborado, costos de producción y costos de mano de obra directa.
𝑌 = − 11.6283 + 4.8425(25) + 0.3760(82.50) − 0.0481(24.00)
Y = $139.30.
P á g i n a 41 | 73
Una vez interpretados los resultados se pueden predecir los ingresos de la
empresa FREE BALANCES cuando la cantidad de software elaborado es de 25,
los costos de producción son de $25 y los costos de mano de obra directa son
de $24, resultando en que la empresa obtendria ingresos $139.30.
1.2 Diagrama de dispersión
A continuacion se va a percibir la fuerza y la direccion de la relacion entre

la cantidad de software elaborado, costos de produccion, costos de mano
de obra directa y los ingresos.
Para ello se realizara un diagrama de dispersion en el programa de excel.
Diagrama de dispersión
150
Ingresos
100
50
0
0 20 40 60 80 100 120
Muestra percentil
P á g i n a 42 | 73
1.3 Análisis de correlacion
Ahora se va a conocer la correlacion que existe entre la cantidad de

software elaborado, costos de produccion, costos de mano de obra directa y los
ingresos; para ello se procedera a hacer un analisis de correlacion, el coeficiente
de correlacion multiple encontrado por excel es:
Estadisticas de la regresion
Coeficiente de correlacion multiple 0.986065703
Coeficiente de determinacion R^2 0.972325571
R^2 ajustado 0.96194766
Error tipico 4.598274554
Observaciones 12
Coeficiente de correlación múltiple
Es una medida de qué tan juntas se mueven las variables de la regresión. Va

entre -1 y 1. Si el valor ese cercano a 1, significa que las variables se mueven
de manera similar. Si el valor es cercano a -1, significa que las variables se
mueven de manera opuesta. Si el valor es cero, significa que no hay relación
alguna entre las variables.
En este caso, la correlación es de 0.986 aproximadamente, por lo que las

variables mueven en el mismo sentido. Considerando la forma simplificada en
el diagrama de dispersión, que considera la relación entre la cantidad de
software elaborado, costos de producción, los costos de mano de obra directa
y los ingresos, significa que la pendiente será positiva.
P á g i n a 43 | 73
El coeficiente de determinación R2
Esta es una medida mucho más usada e indica que tan bien se ajusta el modelo.
Significa que tanto explican la cantidad de software elaborado, costos de
producción y los costos de mano de obra directa, en conjunto, lo que ocurre en
los ingresos. Su valor va entre 0 y 1, y mientras más cercano a 1, la cantidad de
software elaborado, costos de producción y los costos de mano de obra directa
explican una mayor variación de los ingresos. En este caso R2 es alto, de 0.972.
Esto indica un ajuste casi perfecto y, por tanto, un modelo muy fiable para las
previsiones futuras.
R2 ajustado
Tal como indica su nombre, es similar al R2 pero este se ajusta por la cantidad
de variables que tiene la regresión. Esto ocurre porque si se agregan la suficiente
cantidad de variables al modelo, entonces R2 se acercara cada vez más a 1, aun
cuando esas variables sean totalmente irrelevantes. Luego R2 “castiga” por la
cantidad de variables que tiene la regresión, siendo una medida más estricta de
que tan bueno está el modelo. En este caso, es casi igual que el R 2 ya que el
modelo tiene en cuenta la cantidad de software elaborado, costos de producción
y los costos de mano de obra directa.
Error típico
También se le conoce como error estándar y nos indica cuanto se desvían las
variables de la predicción que realiza la regresión, es decir, es la distancia que
tienen los puntitos (que son las observaciones) a la recta de regresión.
Observaciones
Simplemente, la cantidad de filas que tiene la planilla con datos.
P á g i n a 44 | 73
1.4 Análisis de varianza
La segunda tabla de resultados de regresión, Análisis de varianza,

contiene los elementos que analizan la variación de la regresión.
ANOVA
GL SC CM Fca. Valor crítico de F
Regresión 3 5943.096969 1981.032323 93.69183923 1.42742E-06
Residuos 8 169.153031 21.14412887
Total 11 6112.25
Grados de libertad
Los grados de libertad de una prueba estadística son el número de datos que
son libres de variar cuando se calcula tal prueba.
Los cuales se utilizan para el cálculo de la suma de cuadrado.
La suma de cuadrados
Nos ayuda a expresar la variación total que se puede atribuir a diferentes

factores.
Cuadrado medio
Sirven para ver la variación entre los grupos y para ver la variación entre grupos
y establecer la variación dentro de los grupos considerados en un proceso
investigativo mediante la utilización del diseño experimental.
P á g i n a 45 | 73
F calculada y F crítica
Es igual a 93.6918. Este estadístico indica si todos los coeficientes de la

regresión, conjuntamente, son distintos de cero. Es decir, indica si el coeficiente
que acompaña a cantidad de software elaborado, costos de producción y costos
de mano de obra directa son distintos de cero, es decir son conjuntamente
significativos. Siempre se busca que el estadístico F sea lo más grande posible,
o que el “Valor crítico” sea lo más pequeño posible. En este caso, tenemos que
el estadístico F es 93.6918 y que su valor critico es prácticamente cero, por lo
que si podemos decir que los coeficientes son conjuntamente significativos.
1.5 Coeficientes
Esta tabla contiene la estimación puntual de los coeficientes y su

significancia escrita en distintas formas.
Error Estadístico Inferior Superior Inferior Superior

Coeficientes Probabilidad
típico t 95% 95% 95.0% 95.0%
-
Intercepción -11.6283 17.0630 -0.6815 0.5148 -50.9758 27.7191 27.7191
50.9758
Cantidad de
software 4.8425 1.6985 2.8510 0.0214 0.9257 8.7592 0.9257 8.7592
elaborado
Costos de
0.3760 0.4144 0.9074 0.3907 -0.5796 1.3316 -0.5796 1.3316
producción
Costos de
mano de -0.0481 2.2415 -0.0215 0.9834 -5.2170 5.1208 -5.2170 5.1208
obra directa
Intercepción
Indica cual es la estimación de los ingresos cuando la cantidad de software

elaborado, costos de producción y costos de mano de obra directa son iguales a
cero. En este caso, si la cantidad de software elaborado, costos de producción y
costos de mano de obra directa son cero, entonces se estima que los ingresos
P á g i n a 46 | 73
serían de $ -11.828. Aunque este número puede no tener un sentido práctico, es
clave entender su significado en una regresión.
Coeficiente de “cantidad de software elaborado”.
Este coeficiente indica que por cada unidad de software elaborado, el salario
aumenta en $ 4.8425.
Coeficiente de “costos de producción ($)”.
Este coeficiente indica que por cada dólar de costo de producción, el salario
aumenta en $0.3760.
Coeficiente de “costos de mano de obra directa ($)”.
Similar al anterior, este coeficiente indica que por cada unidad de costo de mano
de obra directa, el salario aumentar $ -0.0481.
Error típico
Este error indica la variación que tiene la estimación del coeficiente. Sera muy
importante al momento de determinar la significancia.
Estadístico t
Es el resultado de la división entre el coeficiente y su error estándar. Es una de

las medidas de significancia de los coeficientes. Se buscan estadísticos t que
sean grandes en valor absoluto, es decir, muy positivos o muy negativos. Con un
estadístico t grande (en general mayor a 2), se puede decir que el coeficiente
estimado es distinto de cero, por lo tanto, es significativo.
Probabilidad
Más conocido como valor-p, es la probabilidad de que el coeficiente sea igual a

cero. En general, queremos que el valor-p sea lo más pequeño posible,
P á g i n a 47 | 73
específicamente menor a 0.05. En nuestro caso, todos los valores-p del
coeficiente de la regresión son muy cercanos a cero, por lo que, nuevamente se
dice que son distintos a cero.
Las columnas “Inferior 95% y “Superior 95%”
Corresponden a los intervalos de confianza de los coeficientes. Es decir, dada la

estimación puntual y su error típico, el coeficiente se mueve entre esos dos
valores. Por ejemplo, podemos decir que el coeficiente de la cantidad de software
elaborado se mueve entre 0.9257 y 8.7592.
1.6 Prueba de significancia del modelo
Prueba de hipótesis para saber si hay un efecto significativo lineal entre

los ingresos y las variables: Cantidad de software elaborado, costos de
producción y costos de mano de obra directa.
Si es rechazada la hipótesis, hay evidencia suficiente para coincidir que uno

o más de los parámetros son diferentes de 0 y que la relación global entre la
variable dependiente y las variables independientes es muy significativa.
1) Planteamiento de la Hipótesis
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝛽𝑖 ≠ 0
2) Estadístico de Prueba
F = CMR/ CME ∼F (k, n-k-1)
3) Cálculo
Fcal = 93.6918
P á g i n a 48 | 73
4) Regla de decisión
Donde α = 0.05
Fcrítico = F (1 - α, k, n - k - 1) = F (0.95, 3,8)
Fcrítico = 4.07
Se rechaza H0 si Fcal > 4.07.

No se rechaza H0 si Fcal ≤ 4.07.
5) Conclusión
Como 93.69 > 4.07, con 95% de confianza se rechaza la H0 y se concluye que
existe una relación significativa entre los ingresos y las tres variables
independientes, cantidad de software elaborado, costos de producción y costos
de mano de obra directa.
Por lo que el pronóstico de que elaborando 25 softwares, con un costo de

producción de $82.50 y costo de mano de obra directa $24.00, es altamente
confiable la conclusión de que los ingresos percibidos sean $106.50.
P á g i n a 49 | 73
Capítulo 2: Análisis de varianza de tres factores para conocer
si los costos indirectos de fabricación, mano de obra directa y
costos de desarrollo afectan significativamente los costos de
producción de software.
Los costos de producción son los gastos necesarios para mantener un

proyecto, línea de procesamiento o un equipo en funcionamiento, es por eso que
la empresa FREE BALANCES desea determinar si los costos indirectos de
fabricación, mano de obra directa y costos de desarrollo afectan
significativamente los costos de producción de software aplicando un análisis de
varianza de tres factores.
Se toman los costos indirectos de fabricación más relevantes a tener en

cuenta en el proceso productivo como lo son:
Factor A (CIF)
A1: A2: A3:
Luz Mantenimiento de Salario Personal
equipo Administrativo
 Luz que es un recurso indispensable para la elaboración de softwares desde

diferentes ámbitos tanto para la seguridad y comodidad de los trabajadores
y así aumentar la producción.
Estudios indican que una buena iluminación es capaz de aumentar hasta el

20% el rendimiento de los trabajadores, además de reducir las bajas laborales y
los problemas de salud derivados del cansancio y la fatiga visual por no poder
ver por falta de claridad en las áreas de producción u oficinas de trabajo.
P á g i n a 50 | 73
 El mantenimiento de equipo de trabajo: Consiste en realizar todas aquellas
actuaciones y acciones necesarias en ellos para evitar fallos y averías. Con
el objetivo de asegurar el funcionamiento y disponibilidad de dichos equipos
para la producción.
 El salario del personal administrativo: El cual es un factor importante para

la empresa, de esta manera se mantiene un equilibrio entre los intereses
financieros de la organización y su política de relaciones con los empleados.
La administración de los trabajadores busca determinados objetivos, y
cumplir con ellos es la razón de su existencia.
Aquellos operarios que no intervienen expresamente en la elaboración del
producto pero son necesarios de alguna manera, constituyen la mano de obra
indirecta como los: supervisores, cuerpo de protección física (CPF), etc…
Los costos de mano de obra directa son un componente importante del

mercado laboral, representa un costo en el proceso de producción, porque si
queremos incorporar trabajadores al proceso de producción se le debe pagar.
Factor B (Costos de mano de obra directa)

A1: A2:
Planificación de proyecto de software Prestación de Servicios
 La correcta planificación de proyectos de software: Nos ayuda a

establecer la prioridad de cada una de las actividades y a tener un mejor
control del tiempo para ejecutar un proyecto con calidad deseada y con éxito.
Es por ello que la empresa FREE BALANCES contrata personal

específicamente para llevar a cabo la planificación de estos proyectos, y de esta
manera los programadores prosigan con el desarrollo de dicho software.
 Prestación de servicios: Como bien sabemos sin mano de obra no hay

producción, y sin producción no podríamos satisfacer las necesidades de la
sociedad. Absolutamente todo tiene un proceso de creación que implica
mano de obra directa.
La empresa FREE BALANCES realiza contratos de prestación de servicios a
especialistas en algún área, se obliga con respecto a otra a realizar una serie de
servicios a cambio de un precio. Señalando que el pago del contrato es dirigido
al cumplimiento de metas, horas, objetivos y proyectos.
P á g i n a 51 | 73
La estimación de los costos de desarrollo de software es un factor muy
importante en el análisis de proyectos informáticos, constituye un tema
estratégico contar con indicadores para medir el costo de los mismos,
garantizando la eficiencia, excelencia, calidad y la competitividad.
Factor C (Costos de desarrollo)

A1: A2:
Impuestos Licencias de Software
Todas las empresas se ven en la obligación de pagar impuestos, aunque

la situación de cada empresa es particular.
Existen cinco tipos de impuestos obligatorios para cualquier compañía. Impuesto

sobre Actividades Económicas (IAE), Impuesto sobre Sociedades (IS), Impuesto
sobre el Valor Añadido (IVA), las cotizaciones a la Seguridad Social y los
impuestos regionales y locales.
 Las licencias de software: Son sumamente importante para la elaboración

exitosa de los softwares.
Una licencia de software es un contrato entre el licenciante, es decir autor de

los derechos de distribución y el licenciatario del programa informático, para
utilizarlo cumpliendo una serie de términos y condiciones establecidas dentro de
sus cláusulas.
Es decir, el conjunto de permisos que un desarrollador le requiere para la

elaboración de sus softwares u otorgarles permisos a un usuario en los que tiene
la posibilidad de distribuir, usar o modificar el producto bajo una licencia
determinada.
Las cuales se le deben definir plazos de duración, el territorio donde se aplica

la licencia, debido a que cada país o región soporta leyes particulares.
P á g i n a 52 | 73
Para la obtención de datos, se realizó la suma de todas las posibles
combinaciones entre todos los tipos de factores mostrados en la tabla
siguiente.
Mencionando que se utilizaron valores aproximados mostrados en las

tablas para la obtención de los datos.
Luz $5,633.80
Mantenimiento $35,000.00
Salario $100,000.00
Impuestos $24,960,000.00
Licencias $15,000.00
proceso de producción $150,000.00
prestación de servicios $40,000.00
P á g i n a 53 | 73
Una vez explicado cada uno de los factores involucrados se procede a
aplicar el diseño para investigar el efecto de los costos indirectos de
fabricación (A), mano de obra directa (B) y costos de desarrollo (C) con
respecto a los costos de producción para la elaboración de software de la
empresa FREE BALANCES (Y), para ello se decide correr un experimento
factorial 3x2x2 con seis replicas y las observaciones obtenidas en las 72
corridas experimentales que se muestran en la tabla.
P á g i n a 54 | 73
2.1 Tabla de diseño factorial de tres factores
Luz (A1) Mantenimiento de equipo (A2) Salario personal Administrativo (A3)

Planificación de proyecto de Planificación de proyecto de Planificación de proyecto de
software (B1) Prestación de servicios (B2) software (B1) Prestación de servicios (B2) software (B1) Prestación de servicios (B2)
2543
25115.6 21243.5 23615.6 25005.6 23423.5 23423.5 209960.0 205234.4 209002.4 25035.0 22034.2 5.436 22354.2 23354.3 25100.0 22434.3 25435.76
338 423 338 338 465 465 000 512 322 000 345 5 25210.0000 344 42 000 454 44
2253
Impuesto 24965.6 22770.5 23470.5 25460.5 21435.3 21435.3 210435.4 210354.2 210344.6 24674.9 21234.9 4.764 23444.2 25768.4 23546.4 24500.2 24000.43
s (C1) 338 423 423 300 255 255 354 354 540 996 342 4 26434.2343 354 33 365 341 11 1969228.7046
170.633 150.523 160.543 200000.0 200549.2 202349.4 89.34 250.764 236.542 155.000 143.234
8 5 2 60.6338 63.5432 61.9054 000 333 565 90.0000 90.2347 22 265.0000 3 3 0 5 148.5433
Licencias
de
software 158.633 142.432 143.452 201123.9 205234.2 203515.3 90.05 270.235 268.054 149.999 134.234
(C2) 4 1 1 61.5423 62.1249 62.3259 832 314 212 91.5464 87.8645 46 268.5435 4 5 6 5 156.4345 1217056.1479
282663.7297 2609591.845 294029.2775 3186284.8525
P á g i n a 55 | 73
2.2 Suma de las interacciones de los efectos.
Datos
a= 3
b= 2
c= 2
n= 6
N= 72
Costos indirectos de fabricación (EFECTO A)

Luz (A1) Mantenimiento de Salario de Personal
Equipo (A2) Administrativo
282663.7297 2609591.845 294029.2775
Costos de mano de obra directa (EFECTO B)

B1 B2
2758335.7998 427949.0527
Costos de desarrollo (Efecto C)
Impuestos (C1) 1969228.705
Licencias de software (C2) 1217056.148
P á g i n a 56 | 73
Efecto AB
A1 A2 A3
B1 B2 B1 B2 B1 B2
142107.7464 140555.9833 2468103.4338 141488.4116 148124.6196 145904.6579
Efecto AC
A1 A3 A4
C1 281365.4361 1396280.5774 291582.6911
C2 1298.2936 1213311.2680 2446.5864
Efecto BC
B1 B2
C1 1543078.2161 426150.4885
C2 1215257.5837 1798.5643
P á g i n a 57 | 73
Efecto ABC
A1 A2 A3
B1 B2 B1 B2 B1 B2
C1 141181.5283 140183.9078 1255331.2082 140949.3692 146565.4796 145017.2115
C2 926.2181 372.0755 1212772.2256 539.0424 1559.1400 887.4464
P á g i n a 58 | 73
2.3 Tabla de Análisis de Varianza
ANOVA
Grados
Suma de Cuadrado
Fuente de Variación de Fcal Fcritica Valor P
cuadrado Medio
libertad
Se
4.90081E-
Efecto A 1.49674E+11 2 74837178035 45063.33245 0.051337169 rechaza
96
H0.
Se
4.18588E-
Efecto B 75426422094 1 75426422094 45418.14675 0.003965174 rechaza
88
H0.
Se
8.78644E-
Efecto C 7857827152 1 7857827152 4731.603817 0.003965174 rechaza
59
H0.
Se
4.48175E-
Efecto AB 1.50121E+11 2 75060638909 45197.88979 0.051337169 rechaza
96
H0.
Se
1.90166E-
Efecto AC 288633662.8 2 144316831.4 86.90062241 0.051337169 rechaza
18
H0.
Se
1.92523E-
Efecto BC 129420698.5 1 129420698.5 77.93089095 0.003965174 rechaza
12
H0.
Se
8.60903E-
Efecto ABC 269573077 2 134786538.5 81.16194053 0.051337169 rechaza
18
H0.
Error 99642668.18 60 1660711.136
Total 3.83867E+11 71
P á g i n a 59 | 73
2.4 Prueba de hipótesis para conocer si los costos indirectos
de fabricación, mano de obra directa y costos de desarrollo
tienen un efecto significativo en los costos de producción para
la elaboración de software.
Si aceptamos H0 no hay influencia de los costos indirectos de fabricación, mano

de obra directa y costos de desarrollo en nuestra variable de estudio, costos de
producción para la elaboración de software.
Si rechazamos H0 hay influencia de los costos indirectos de fabricación, costos

de mano de obra directa y costos de desarrollo en nuestra variable de estudio,
costos de producción para la elaboración de software.
Se deja en evidencia que los efectos principales tanto de los costos indirectos de
fabricación, costos de mano de obra directa y costos de desarrollo son muy
significativos. Así mismo, las interacciones de dos factores como lo son, los
costos indirectos de fabricación y su interacción con los costos de mano de obra
directa, los costos indirectos de fabricación y su interacción con los costos de
desarrollo, los costos de mano de obra directa y su interacción con los costos de
desarrollo y la interacción de los tres factores, costos indirectos de fabricación,
costos de mano de obra directa y costos de desarrollo también son significativas.
Interpretación
Los costos de producción para la elaboración de softwares de la empresa FREE

BALANCES no es un dato que se obtiene al azar, va a depender de los costos
indirectos de fabricación, costos de mano de obra directa, costos de desarrollo y
todas las posibles interacciones entre ellos mencionadas previamente.
P á g i n a 60 | 73
Capítulo 3: Prueba de Kruskal-Wallis para conocer si el número
de trabajadores para la elaboración de los softwares de
contabilidad, videojuegos y estadísticos es el mismo o difieren
por tipo de software.
En toda empresa, el recurso más valioso son los trabajadores. Gracias a

ellos, a su esfuerzo, talento y conocimientos, es posible lograr los objetivos y
resultados que las organizaciones esperan, además de crecer y posicionarse de
forma exitosa.
Para realizar esta prueba de Kruskal-Wallis, se utilizan los datos

recolectados en año 2021, que muestran la cantidad de software que se
realizaron y el número de trabajadores necesarios para su elaboración.
Se tienen en cuenta tres tipos de softwares representados de la siguiente

manera:
Tipo A: Softwares contables.
Tipo B: Softwares de videojuegos.
Tipo C: Softwares estadísticos.
P á g i n a 61 | 73
Se desea realizar un experimento para determinar cuál de tres
diferentes tipos de software, contable, videojuegos y estadístico requiere
mayor número de trabajadores para su elaboración, se mide el número de
trabajadores necesarios para desarrollar cada uno de los softwares que se
han realizado, se presentan en la siguiente tabla. Se utiliza la prueba de
Kruskal-Wallis y un nivel de significancia de 0.05 para probar la hipótesis
de que el número de trabajadores para la elaboración de cada software son
iguales para los tres tipos.
3.1 Tabla con los datos
Prueba de Kruskal-Wallis
Software
A B C
10 20 18
7 16 16
15 7 7
8 9 4
11 12 15
19 17
P á g i n a 62 | 73
3.1.1 Calculando “n” y sus rangos
Software
A B C
7 (3) 7 (3) 4 (1)
8 (5) 9 (6) 7 (3)
10 (7) 12 (9) 15 (10.5)
11 (8) 16 (12.5) 16 (12.5)
15 (10.5) 19 (16) 17 (14)
20 (17) 18 (15)
r1= 33.5 r2= 63.5 r3= 56
n1 = 5 n2 = 6 n3 = 6
3.2 Prueba de Hipótesis para determinar cuál de tres diferentes

tipos de software, contable, videojuegos y estadístico requiere
mayor número de trabajadores para su elaboración.
 Plantear las hipótesis

H0: μ1 = μ1 = μ3
H1: μ1 ≠ μ2 ≠ μ3
 Nivel de significancia
α = 0.05
P á g i n a 63 | 73
 Estadístico de prueba
𝟏𝟐 𝒓𝟏 𝟐 𝒓𝟐 𝟐 (𝒓𝟑 𝟐 )
𝑯= [( ) + ( ) + ( ) ] − 𝟑 (𝑵 + 𝟏)
𝑵(𝑵 + 𝟏) 𝒏𝟏 𝒏𝟐 𝒏𝟑
𝟏𝟐 𝟑𝟑. 𝟓𝟐 𝟔𝟑. 𝟓𝟐 (𝟓𝟔𝟐 )

𝑯= [( )+( )+( ) ] − 𝟑 (𝟏𝟕 + 𝟏)
𝟏𝟕(𝟏𝟕 + 𝟏) 𝟓 𝟔 𝟔
Hcal = 1.631
 Reglas de decisión
Hcal > Hα Se rechaza H0.
Hcal ≤ Hα Se acepta H0.
 Calculando Hcritica, usando tabla Chi cuadrada
V = # de columnas – 1
3-1=2
α = 0.05
Hcritica = 5.991
 Conclusión
1.631 < 5.991
Se acepta H0 ∴ Se rechaza H1.
P á g i n a 64 | 73
Como Hcal = 1.631 no cae en la región crítica h > 5.991, no hay evidencia
suficiente para rechazar la hipótesis de que el número de trabajadores
necesarios para el desarrollo de software son iguales para los tres tipos
softwares, ya sea software contable, software de videojuegos y software
estadístico.
Es decir, que el número de trabajadores necesarios para desarrollar softwares

contables, de videojuegos y estadísticos son iguales para los tres tipos de
softwares. Según los datos recopilados de la empresa FREE BALANCES en el
año 2021.
P á g i n a 65 | 73
Capítulo 4: Aplicar la prueba de signo para determinar si la
elaboración de softwares tarda 90 días o más.
Conocer con precisión la duración del desarrollo de un software es indispensable

para las empresas, la importancia radica principalmente en entregar productos
de calidad esperada, en donde se previenen riesgos a futuro.
Así mismo, todo software puede tener fallos que terminen siendo responsables
de grandes pérdidas de dinero para la empresa.
Para la realización de esta prueba se toma en cuenta la siguiente situación

presentada en la Empresa FREE BALANCES.
Situación 1:
Un programador que ha realizado 12 softwares previamente se queja con el

gerente diciendo que la realización de dichos softwares se tarda 90 días o más.
Situación 2:
El gerente afirma que realizar los softwares tarda menos de 90 días.
P á g i n a 66 | 73
La empresa FREE BALANCES realiza la prueba de signo para
determinar quién tiene la razón, con respecto a las situaciones
presentadas previamente.
Plantear las hipótesis
H0: μ = 90 días.
H1: μ < 90 días.
Nivel de significancia
α= 0.05
Datos
86 -
115 +
100 +
80 -
98 +
95 +
90 Eliminado
82 -
118 +
90 Eliminado
97 +
94 +
P á g i n a 67 | 73
X (Todos los signos positivos) = 7.
n (Todos los signos positivos y negativos) = 10.
p=½
q=½
μ: n*p
Ztabla: 1.64
Fórmula para prueba de signos
(𝑥 ± 0.5) − µ
Zcal =
√𝑛 𝑝 𝑞
( 7+ 0.5) −5
Zcal = 11
√10 2 2
Zcal = 1.58113883
Conclusión
No se rechaza H0 ∴ se rechaza H1.
Interpretación
Aceptamos que el programador tiene la razón, es decir, se acepta
que el promedio de días que el programador tarda en la realización
de softwares es igual o mayor a 90 días.
Debido a que los programadores necesitan tiempo para investigar el
proceso a desarrollar, entrevistar a gente que domina el proceso para
crear los algoritmos del software propuesto, deben de tener tiempo
para realizar pruebas al software que muchas veces se tiene que
buscar la disponibilidad para implementar la aplicación.
P á g i n a 68 | 73
Conclusiones
Tras el análisis expuesto, podemos afirmar que el estudio estadístico realizado

en la empresa FREE BALANCES nos provee la información necesaria y
suficiente para la toma de decisiones en las diferentes situaciones presentadas.
El análisis presentado en el capítulo 1 de este informe, demuestra de manera

concluyente que si hay un efecto significativo lineal entre la cantidad de
software elaborado, costos de producción y costos de mano de obra directa
con respecto a los ingresos percibidos por la empresa.
Como consecuencia del análisis realizado en el capítulo 2, podemos deducir

que los costos de producción para la elaboración de softwares de la empresa
FREE BALANCES varían en torno a los costos indirectos de fabricación, costos
de mano de obra directa y costos de desarrollo.
A partir del análisis precedente en el capítulo 3, es posible afirmar que la

empresa FREE BALANCE necesita la misma cantidad de trabajadores para
elaborar softwares contables, de videojuegos y estadísticos, según datos
recolectados en el año 2021.
Como se ha podido observar, la prueba de hipótesis que se realizó en el

capítulo 4 indica que el programador tiene la razón y que la cantidad de
días promedios que el programador tarda en la realización de softwares
es igual o mayor a 90 días.
A modo de cierre diremos un estudio estadístico en una empresa nos

permite ver donde estamos, hacia donde vamos y lo que tenemos que
mejorar para la toma de decisiones.
P á g i n a 69 | 73
Recomendaciones
Se le recomienda a la empresa que cuando se encuentre en situaciones en las

cuales las finanzas de sus costos de diseño de softwares realicen un estudio en
el cual debe tener en cuenta todos los factores que afectan en el mismo para
que ellos puedan corregir sus problemas y poder seguir con las actividades
cotidianas de la empresa.
 Llevar un control exacto de las variables que afectan el desarrollo de

softwares.
 Trabajar en mejorar los modelos empleados en este estudio para un

funcionamiento óptimo de la empresa.
 Extender los estudios planteados en este proyecto para el crecimiento de

la empresa a nivel nacional.
P á g i n a 70 | 73
Anexo
Tabla de área bajo la curva normal
P á g i n a 71 | 73
Tabla de Valores Críticos de la distribución F
P á g i n a 72 | 73
Bibliografías
 Bartlett, M. S. y Kendall, D. G. (1946). “The Statistical Analysis of Variance

Heterogeneity and Logarithmic Transformation”, Journal of the Royal Statistical
Society, Ser. B. 8, 128-138.
 Bowker, A. H. y Lieberman, G. J. (1972). Engineering Statistics, 2.a, ed. Upper Saddle

River, N.J.: Prentice Hall
 (Ronald, 2012)
 https://youtu.be/AAtNl-c2Qn0
 https://youtu.be/ofTOldXbTro
P á g i n a 73 | 73

Estudio Estadístico Sobre Los Ingresos en El Diseño de Software de La Empresa FREE BALANCES Ubicada en Los Robles, Managua en El Año 2021

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estudio Estadístico Sobre Los Ingresos en El Diseño de Software de La Empresa FREE BALANCES Ubicada en Los Robles, Managua en El Año 2021

Cargado por

Copyright:

Formatos disponibles

Estudio estadístico sobre los ingresos en

el diseño de software de la empresa FREE

Desde siglos anteriores se ha dejado en evidencia que es indispensable

Los métodos de regresión siguen siendo un área de investigación activa.

El desarrollo en la sociedad es inminente, es un crecimiento constante a

Comprender la regresión lineal es importante porque proporciona un

La técnica de regresión lineal múltiple es una técnica estadística que la

La empresa desarrolladora de software FREE BALANCES ubicada en la

Con el propósito de resolver la problemática presentada anteriormente se

Con este proyecto se pretende brindar una solución al problema planteado

Este proyecto se hace necesario realizarlo con el propósito de automatizar

Es un proyecto importante que debe tener derecho a ser desarrollado e

Estudio estadístico sobre los ingresos en el diseño de software de la empresa

Realizar un estudio estadístico sobre los ingresos en el diseño de software de la

 Desarrollar un Análisis de Regresión Múltiple de los ingresos con respecto

 Determinar si los costos indirectos de fabricación, mano de obra directa y

 Utilizar la prueba de Kruskal–Wallis para conocer si el número de

 Aplicar la prueba de signo para determinar si la elaboración de softwares

Análisis de Regresión Lineal Múltiple

 Identificar que variables independientes (explicativas) que explican una

 Comparar y comprobar modelos explicativos.

 Predecir valores de una variable, es decir, a partir de unas características

¿Para qué sirve el análisis de regresión lineal múltiple?

Un modelo de regresión lineal múltiple es un modelo estadístico versátil para

Los predictores pueden ser campos continuos, categóricos o derivados, de modo

La variable dependiente es la variable inestable susceptible de ser modificada.

¿Qué son las Variables independientes?

La variable independiente es aquella que no se ve afectada, por tanto, no variará

Modelo de regresión múltiple

μY |x1, x2,..., xk = β0 + β1 x 1 + ··· + βk x k

Y la respuesta estimada se obtiene a partir de la ecuación de regresión muestral

Donde cada coeficiente de regresión βi se estima por medio de bi, a partir

Y la respuesta estimada se obtiene de la ecuación de regresión polinomial

Estimación de los coeficientes

En esta sección se calculan los estimadores de mínimos cuadrados de los

A los puntos de los datos:

{(X 1i, x 2i,..., x ki, yi); i = 1, 2,. . ., n y n > k},

yi = 𝑌̂i + ei = b0 + b1 x 1i + b2 x 2i + ··· + bk x ki + ei,

Donde i y ei son el error aleatorio y el residual, respectivamente, asociados con

∑ 𝑒 2 = ∑( yi − b0 − b1x1i − b2x2i − bkxki)2

Si, a su vez, diferenciamos la SCE respecto a b0, b1,..., bk e igualamos el

Al ajustar un modelo de regresión lineal múltiple, en particular cuando contiene

Este modelo representa en esencia a n ecuaciones que describen cómo

Después, el método de mínimos cuadrados para la estimación de β, que se

SCE = (y − Xb) (y – Xb)

se minimiza. Este proceso de minimización implica resolver para b en la ecuación

Aquí no presentaremos los detalles respecto a cómo se resuelven las ecuaciones

Nos permite escribir las ecuaciones normales en la forma de matriz

Si la matriz A es no singular, la solución para los coeficientes de regresión se

De esta manera, obtenemos la ecuación de predicción o regresión resolviendo

Para qué sirve el análisis de correlación

Fórmula para calcular el análisis de correlación

La fórmula general para calcular el coeficiente de correlación entre dos variables

El coeficiente de correlación es el resultado de dividir la covarianza entre las

∑𝑖=1 𝑛 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − ̅̅̅

Se calcula la media de todos los valores de X y de Y Se realiza la sumatoria del

1. Calcular la varianza de la variable X y la varianza de la variable Y y obtener

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̃)2 ∑𝑛 (𝑦𝑖 − 𝑦̃)2

Para cada variable se calcula la desviación estándar y se multiplican

Una prueba de hipótesis examina dos hipótesis opuestas sobre una

Basándose en los datos de la muestra, la prueba determina cuando

Para que nos sirven las Pruebas de Hipótesis en estadísticas