Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MANTENIMIENTO INDUSTRIAL
GRADO Y GRUPO:
3° “A”
ASIGNATURA:
PROBABILIDAD Y ESTADÍSTICA
UNIDAD:
OBJETIVO DE LA UNIDAD:
TRABAJO:
ALUMNOS:
FACILITADOR:
- DESARROLLO
ESTADÍSTICA INFERENCIAL
La estadística se ocupa de los métodos científicos que se utilizan para recolectar, organizar, resumir,
presentar y analizar datos así como para obtener conclusiones válidas y tomar decisiones razonables
con base en este análisis. El término estadística también se usa para denotar los datos o los números
que se obtienen de esos datos; por ejemplo, los promedios. Así, se habla de estadísticas de empleo,
estadísticas de accidentes, etcétera.
Cuando se recolectan datos sobre las características de un grupo de individuos o de objetos, por
ejemplo, estatura y peso de los estudiantes de una universidad o cantidad de pernos defectuosos y
no defectuosos producidos en determinado día en una fábrica, suele ser imposible o poco práctico
observar todo el grupo, en especial si se trata de un grupo grande. En vez de examinar todo el grupo,
al que se le conoce como población o universo, se examina sólo una pequeña parte del grupo, al que
se le llama muestra. Las poblaciones pueden ser finitas o infinitas. Si la muestra es representativa de
la población, el análisis de la muestra permite inferir conclusiones válidas acerca de la población. A
la parte de la estadística que se ocupa de las condiciones bajo la cuales tales inferencias son válidas
se le llama estadística inductiva o inferencial. Como estas inferencias no pueden ser absolutamente
ciertas, para presentar estas conclusiones se emplea el lenguaje de la probabilidad.
La estadística inferencial proporciona las técnicas para formular proposiciones acerca de la población,
incluyendo una medida para determinar el riesgo de la afirmación.
1. ESTIMACIÓN
La Estadística descriptiva y la teoría de la Probabilidad van a ser los pilares de un nuevo procedimiento
(Estadística Inferencial) con los que se va a estudiar el comportamiento global de un fenómeno. La
probabilidad y los modelos de distribución junto con las técnicas descriptivas, constituyen la base de
una nueva forma de interpretar la información suministrada por una parcela de la realidad que interesa
investigar.
Los métodos básicos de la estadística inferencial son la estimación y el contraste de hipótesis, que
juegan un papel fundamental en la investigación.
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos
de la población ya sea por el coste que supondría, o por la imposibilidad de acceder a ello. Mediante
la técnica inferencial obtendremos conclusiones para una población no observada en su totalidad, a
partir de estimaciones o resúmenes numéricos efectuados sobre la base informativa extraída de una
muestra de dicha población.
En definitiva, la idea es, a partir de una población se extrae una muestra por algunos de los métodos
existentes, con la que se generan datos numéricos que se van a utilizar para generar estadísticos con
los que realizar estimaciones o contrastes poblacionales.
Existen dos formas de estimar parámetros: la estimación puntual y la estimación por intervalo de
confianza. En la primera se busca, con base en los datos muestrales, un único valor estimado para el
parámetro. Para la segunda, se determina un intervalo dentro del cual se encuentra el valor del
parámetro, con una probabilidad determinada. Si el objetivo del tratamiento estadístico inferencial,
es efectuar generalizaciones acerca de la estructura, composición o comportamiento de las
poblaciones no observadas, a partir de una parte de la población, será necesario que la parcela de
población examinada sea representativa del total. Por ello, la selección de la muestra requiere unos
requisitos que lo garanticen, debe ser representativa y aleatoria.
Además, la cantidad de elementos que integran la muestra (el tamaño de la muestra) depende de
múltiples factores, como el dinero y el tiempo disponibles para el estudio, la importancia del tema
analizado, la confiabilidad que se espera de los resultados, las características propias del fenómeno
analizado, etcétera. Así, a partir de la muestra seleccionada se realizan algunos cálculos y se estima
el valor de los parámetros de la población tales como la media, la varianza, la desviación estándar, o
la forma de la distribución, etc.
En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
Desde el punto de vista práctico, suele ser más importante poder inferir información acerca de una
población a partir de muestras obtenidas de ella. De estos problemas se ocupa la inferencia
estadística en la que se usan los principios de la teoría del muestreo. Un problema importante de la
inferencia estadística es la estimación de parámetros poblacionales, o simplemente parámetros
(como, por ejemplo, la media y la varianza poblacionales), a partir de los correspondientes
estadísticos muestrales, o simplemente estadísticos (por ejemplo, la media y la varianza muestrales).
Estimación: Este término indica que a partir de lo observado en una muestra (un resumen estadístico
con las medidas que conocemos de Descriptiva) se extrapola o generaliza dicho resultado muestral
a la población total, de modo que lo estimado es el valor generalizado a la población. Consiste en la
búsqueda del valor de los parámetros poblacionales objeto de estudio. Puede ser puntual o por
intervalo de confianza:
Distinguiendo entre estimación puntual, procedimiento mediante el cual se estima el valor del
parámetro poblacional basándose en los datos muestrales mediante el uso de un estadístico, y
estimación por intervalos, en el cual para realizar la estimación del parámetro poblacional se
determina un intervalo en el que de forma probable se encuentra el valor del parámetro. Dicho
intervalo recibirá el nombre de intervalo de confianza.
1.2.1 PUNTUAL
Se trata de determinar la distancia, o error máximo entre la estimación puntual θ´ y el valor del
parámetro θ que se desea estimar, con algún nivel de certeza especificado.
Ejemplo:
Si se dice que en la medición de una distancia se obtuvo como resultado 5.28 metros (m), se está
dando una estimación puntual. En cambio, si se dice que la distancia es 5.28 ± 0.03 m (es decir, que
la distancia está entre 5.25 y 5.31 m), se está dando una estimación por intervalo.
Con el valor θ´ de estimador Θ se construye un intervalo que contenga el valor del parámetro θ que
se desea estimar, con algún nivel de certeza especificado.
En la tabla se presentan los valores de zc que corresponden a varios niveles de confianza que se
usan en la práctica. Los valores de zc para niveles de confianza que no estén en esta tabla se pueden
encontrar en las tablas de áreas de la curva normal.
2. PRUEBA DE HIPÓTESIS
Se formula una hipótesis acerca del parámetro θ asignándole un valor supuesto θ0 y con el valor θ´
del estimador Θ se realiza una prueba para aceptar o rechazar la hipótesis propuesta con algún nivel
de certeza especificado.
Esta técnica estadística es muy utilizada como soporte a la investigación sistemática y científica.
Consiste en suponer algún valor para el parámetro de interés y usar los datos de la muestra para
aceptar o rechazar esta afirmación.
Es importante entender las diferentes situaciones que pueden ocurrir al probar estadísticamente una
hipótesis.
Suponer que se dispone de datos y que se realiza una prueba estadística para verificar la hipótesis.
Entonces pueden ocurrir las siguientes situaciones al tomar una decisión:
Suponer que la propuesta Ho es verdadera, pero la prueba estadística dice que Ho es falsa,
entonces al rechazar la hipótesis propuesta cometemos el Error tipo I.
Suponer que la hipótesis propuesta Ho es falsa, pero la prueba estadística dice que Ho es verdadera,
entonces al aceptar la hipótesis propuesta cometemos el Error tipo II.
Ambos errores pueden tener consecuencias importantes al tomar una decisión en una situación real.
Por lo tanto es necesario cuantificar la probabilidad de cometer cada tipo de error.
2.1.1 HIPÓTESIS
Una hipótesis estadística es una aseveración o conjetura con respecto a una o más poblaciones.
La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta certidumbre, a menos
que examinemos toda la población, lo cual, por supuesto, sería poco práctico en la mayoría de las
situaciones. En cambio, tomamos una muestra aleatoria de la población de interés, y utilizamos los
datos contenidos en esta muestra para proporcionar evidencia que apoye o no la hipótesis. La
evidencia de la muestra que sea inconsistente con la hipótesis que se establece conduce al rechazo
de ésta.
En muchas ocasiones se formula una hipótesis estadística con la única finalidad de refutarla o
anularla. Por ejemplo, si se quiere decidir si una moneda está cargada o no, se formula la hipótesis
de que no está cargada (es decir, p = 0.5, donde p es la probabilidad de cara). También, si se quiere
decidir si un método es mejor que otro, se formula la hipótesis de que no hay diferencia entre los dos
(es decir, que cualquier diferencia que se observe se debe sólo a las fluctuaciones del muestreo de
una misma población). A estas hipótesis se les llama hipótesis nula y se denota H0.
A toda hipótesis que difiera de la hipótesis dada se le llama hipótesis alternativa. Por ejemplo, si una
hipótesis es p = 0.5, la hipótesis alternativa puede ser p = 0.7, p 0.5 o p > 0.5. La hipótesis alternativa
a la hipótesis nula se denota H1.
Generalmente es de interés probar Ha, por lo que se plantea Ho con la esperanza de que sea
rechazada mediante la información contenida en la muestra.
Si se rechaza una hipótesis que debería aceptarse se dice que se comete un error tipo I. Si por otro
lado, se acepta una hipótesis que debería rechazarse, se comete un error tipo II. En cualquiera de los
casos ha habido una decisión errónea o se ha hecho un juicio erróneo. Para que las reglas de decisión
(o pruebas de hipótesis) sean buenas, deben diseñarse de manera que se minimicen los errores de
decisión. Esto no es sencillo, ya que para cualquier tamaño dado de muestra, al tratar de disminuir
un tipo de error suele incrementarse el otro tipo de error. En la práctica, un tipo de error puede ser
más importante que otro y habrá que sacrificar uno con objeto de limitar al más notable. La única
manera de reducir los dos tipos de error es aumentando el tamaño de la muestra, lo que no siempre
es posible.
El valor α se denomina nivel de significancia de la prueba y puede darse como un dato para
realizar la prueba.
- Tipos de pruebas
Al plantear una prueba de hipótesis, usted debe decidir si desea realizar una prueba de dos colas o
bilateral o por el contrario desea hacer una prueba de una cola (superior o inferior). A continuación se
explica en qué consiste cada una de ellas.
En este caso interesa determinar si el valor del estimador (muestra) es diferente al valor del parámetro
(e.g. μ); sin importar si es mayor o menor. Este tipo de prueba se denomina también de dos colas o
bilateral; ya que Ho se rechazará si el valor del estadístico de prueba se ubica en cualquiera de las
zonas de rechazo de Ho como se muestra a continuación.
En una prueba de hipótesis no direccionada solo nos interesa saber si el valor muestral no se ubica
en la zona de aceptación de Ho; lo cual permite concluir que es diferente al parámetro.
En este caso, a diferencia del anterior, sí estamos interesados en determinar si el valor del estimador
(muestra) es mayor o menor que el valor del parámetro (e.g. μ). Por esta razón este tipo de prueba
se denomina también de una cola o unilateral; ya que Ho se rechazará si el valor del estadístico de
prueba se ubica en la cola inferior o superior de la distribución muestral como se ilustra a continuación:
En una prueba de hipótesis direccionada nos interesa saber si el valor muestral se ubica en la cola
superior o inferior de la distribución y no solo si es diferente del parámetro.
Para conocer el procedimiento para la prueba de hipótesis, se describe la prueba relacionada con la
media, sin embrago, la técnica es aplicable para pruebas con otros parámetros.
Procedimiento:
Paso 5: Calcular el valor del estadístico de prueba con los datos de muestra.
Paso 6: Tomar una decisión.
Si el valor del estadístico de prueba cae en la región de rechazo, la decisión es rechazar Ho
en favor de Ha. Pero, si el valor no cae en esta región critica, se dice que no hay evidencia
suficiente para rechazar Ho. En este caso es preferible abstenerse de aceptar como
verdadera Ho pues esto puede introducir el Error tipo II.
El análisis anterior permite interpretar las otras dos situaciones para la hipótesis alterna:
Es un instrumento que permite decidir la verdad o falsedad de una hipótesis de una población
mediante los resultados de una muestra basada en la teoría de la probabilidad (si son simples
fluctuaciones debidas al azar, o bien son de tal importancia que requieren una explicación distinta).
- No paramétricas: La hipótesis se hace sobre otros criterios, como test de los signos, test de
los cuartiles, etc.
Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se
utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si puede
rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera bajo la
hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.
Un estadístico de prueba mide el grado de concordancia entre una muestra de datos y la hipótesis
nula. Su valor observado cambia aleatoriamente de una muestra aleatoria a una muestra diferente.
Un estadístico de prueba contiene información acerca de los datos que es relevante para decidir si se
puede rechazar la hipótesis nula. La distribución del muestreo del estadístico de prueba bajo la
hipótesis nula se denomina distribución nula. Cuando los datos muestran evidencia clara en contra de
los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve demasiado grande
o demasiado pequeña dependiendo de la hipótesis alternativa. Esto hace que el valor p de la prueba
se vuelva lo suficientemente pequeño como para rechazar la hipótesis nula.
Por ejemplo, el estadístico de prueba para una prueba Z es el estadístico Z, que sigue la distribución
normal estándar bajo la hipótesis nula. Supongamos que usted realiza una prueba Z de dos colas con
un nivel de significancia (α) de 0.05 y un obtiene un estadístico Z (también denominado valor Z) de 2.5
basado en sus datos. Este valor Z corresponde a un valor p de 0.0124. Puesto que este valor p es
menor que α, usted declara significancia estadística y rechaza la hipótesis nula.
Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según el modelo de
probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus respectivos estadísticos de
prueba incluyen:
La regresión y a la correlación son dos técnicas estrechamente relacionadas y comprenden una forma
de estimación.
Correlación
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos
muestrales para saber qué es y cómo se relacionan entre si dos o más variables en una población. El
análisis de correlación produce un número que resume el grado de la correlación entre dos variables;
y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática
lineal que describe la reacción entre dos variables.
La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa,
o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre
lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los
valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en
término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis
de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión
ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
La regresión, o estimación de una variable (la variable dependiente) a partir de una o más variables
(las variables independientes). Se hará referencia a un problema relacionado con el de la correlación
o grado de relación entre las variables, en el que se busca determinar qué tan bien una ecuación
lineal, o de otro tipo, describe o explica la relación entre las variables. Si todos los valores de las
variables satisfacen con exactitud una ecuación, se dice que las variables están en perfecta
correlación o que hay una correlación perfecta entre ellas. Así, las circunferencias C y los radios r de
todos los círculos están perfectamente correlacionados, ya que C = 2πr. Cuando se lanzan 100 veces
dos dados en forma simultánea entre los puntos que aparecen en cada uno de ellos no hay relación
alguna (a menos que estén cargados); es decir, no están correlacionados. Sin embargo, variables
como el peso y la estatura de una persona muestran cierta correlación. Cuando intervienen sólo dos
variables se habla de correlación simple y de regresión simple. Cuando intervienen más de dos
variables, se habla de correlación múltiple y de regresión múltiple.
El diagrama de dispersión consiste básicamente en una gráfica que incluye al atributo de calidad que
se desea controlar (variable dependiente) y él o los factores de producción que se presume lo causan
(variables independientes). Este texto maneja únicamente la relación de tipo lineal, es decir
proporcional.
- 1. Recoger y ordenar los datos que se cree que tienen una posible correlación.
Los datos son recogidos en una tabla, indicando el número de muestras y los valores de las
características que se quiere investigar. Es conveniente que el número de mediciones sea de al
menos 30.
Ejemplo:
Una empresa se plantea cambiar la composición de uno de sus productos utilizando un nuevo
material. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la
posible relación entre la utilización de dicho material y el número de defectos. Para ello analiza
lotes con diferentes porcentajes del nuevo material y toma los siguientes datos:
Si dos o más pares de datos caen en el mismo punto, dibujar círculos concéntricos alrededor
del punto individualizado.
Ejemplo:
La figura siguiente muestra la representación gráfica de los datos:
- 3. Una vez construido el diagrama se analiza la forma que tiene la nube de puntos obtenida, para
así determinar las relaciones entre los dos tipos de datos. Este análisis puede efectuarse por técnicas
estadísticas que permitan determinar si existe o no relación, y el grado de existencia en su caso. Las
herramientas utilizadas son:
La recta de regresión
El coeficiente de la correlación lineal
La recta de regresión
La recta de regresión es la línea que mejor representa a un conjunto de puntos. La función que
aproxima la recta es: y= a+bx
Donde:
a: ordenada en el origen
Donde:
Ejemplo:
Coeficiente de correlación
Toma valores comprendidos entre -1 y 1. Cuanto más próximo a 0 sea r menor será la relación
entre los datos, y cuanto más próximo a 1 (en valor absoluto) mayor será dicha relación. Su signo
indica si se da una relación positiva o negativa entre las variables x e y.
Ejemplo:
El valor obtenido es muy próximo a 1, lo que nos confirma que la correlación es fuertemente
positiva.
Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos variables,
el análisis de correlación es la herramienta estadística que podemos usar para describir el grado o
fuerza en el que una variable esta linealmente relacionada con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente se
mueven dos variables, y por lo tanto, con cuanta confiabilidad se puede estimar una variable con
ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo número, una medida de
la fuerza de asociación entre dos variables de interés, se llama análisis de correlación simple.
El análisis de correlación es la herramienta estadística de que nos valemos para describir el grado
de relación que hay entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión lineal simple
para medir la eficacia con que la línea de regresión explica la variación de la variable dependiente, Y.
Existen dos medidas para describir la correlación entre dos variables: el coeficiente de determinación
y el coeficiente de correlación.
La raíz cuadrada del coeficiente de determinación muestral , es un índice alternativo común del
grado de asociación entre dos variables cuantitativas. Esta mediad se llama coeficiente de
correlación muestral (r) y es un estimador puntual del coeficiente de correlación poblacional (ρ).
El coeficiente de correlación muestral es la segunda medida con que puede describirse la eficacia con
que una variable es explicada por otra, así pues el signo de r indica la dirección de la relación entre
las dos variables X y Y.
El cálculo del coeficiente de correlación muestral se lleva a cabo con la siguiente formula:
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta
de una dispersión de puntos tal que cada punto representa un valor de la variable independiente
(medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo
largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información,
visualmente se pueden determinar los patrones que indican como las variables están relacionadas
(lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase de
línea o ecuación de estimación que describe a dicha relación.
y varía entre −1 y +1. Los signos + y − se usan para correlación lineal positiva y correlación lineal
negativa, respectivamente. Obsérvese que r es una cantidad adimensional; es decir, no depende de
las unidades que se empleen. Utilizando las ecuaciones (8) y (11) y el hecho de que la desviación
estándar de Y es:
Para determinar el tipo de relación lineal entre las variables X y Y del modelo de regresión lineal se
usa el coeficiente de correlación lineal que se define a continuación:
- Si el valor de r es cercano a 1 significa que hay una fuerte relación lineal positiva entre x y y.
- Si el valor de r es cercano a -1 significa que hay una fuerte relación lineal entre negativa entre
x y y.
- Si el valor de r es cercano a 0 significa que hay poca relación lineal entre x y y.
El estudio del grado de dependencia existente entre las variables queda recorrido en la teoría de la
correlación.
Una vez determinada la estructura de esta dependencia la finalidad última de la regresión es llegar a
poder asignar el valor que toma la variable Y en un individuo del que conocemos que toma un
determinado valor para la variable X (para las variables X1, X2…Xn).
En el caso bidimensional, dadas dos variables X e Y con una distribución conjunta de frecuencias (xi,
ji, nij), llamaremos regresión de Y sobre X (Y/X) a una función que explique la variable Y para cada
valor de X, y llamaremos regresión de X sobre Y (X/Y) a una función que nos explique la variable X
para cada valor de Y.
El método de regresión lineal es una práctica estadística ampliamente utilizada para analizar la
relación entre variables, teniendo gran variedad de aplicaciones en las diversas áreas económicas,
políticas y sociales. Actualmente, muchos software econométricos y estadísticos han sido
desarrollados para agilizar y favorecer el proceso de análisis y manejo de los datos, brindando cada
vez más herramientas novedosas y haciendo que la aplicación de los métodos por parte del
investigador se base principalmente en la interpretación de resultados.
En primera instancia se van a considerar los supuestos que tienen que ver con la estructura del
modelo de regresión, entre los cuales se encuentran las hipótesis de Muestras pequeñas, Cambio
Estructural, Especificación errónea y Multicolinealidad. El hecho de que el modelo no cumpla con
cada uno de estos supuestos produce consecuencias negativas sobre la exactitud de la estimación,
haciendo que el modelo se aleje más de la realidad, por ende es necesario evitar y corregir en lo
posible su violación.
STATA
Luego de haber cargado los datos en Stata se puede proceder directamente a realizar la regresión.
La instrucción a ejecutar es reg o regres y debe ir seguida por la variable dependiente y las variables
independientes en orden respectivo. Para la base de datos que estamos utilizando se obtuvieron los
siguientes resultados:
Los resultados muestran los coeficientes de los diferentes parámetros, su error estándar, el estadístico
t, el valor P (probabilidad), los intervalos de confianza y otros valores importantes como el R-cuadrado
y la prueba F para significancia global de los parámetros. Adicionalmente l atabla que se encuentra en
l pate superior izquierda se conoce como ANOVA y contiene la suma de residuos al cuadrado (SS),
los grados de libertad (df) y el promedio de la suma de residuos al cuadrado (MS).
El proceso se puede realizar igualmente a través de las pestañas del software. En la pestaña
Statistics>Linear Models and related>Linear Regression. Aparecerá una ventana en la cual deberá
especificar los argumentos para la regresión: variable dependiente y variables independientes.
R- Project
Para correr una regresión en R, el comando utilizado es lm (), el cual sirve en términos generales para
ajustar modelos lineales (lineal models) lo que significa que no es útil únicamente para hacer regresión
lineal, sino también análisis de varianza y covarianza. El comando lleva dentro del paréntesis la
variable endógena acompañada del símbolo ~, seguido de las variables exógenas separadas por el
signo + y por último, separado por una coma, el nombre que se le dio al archivo sobre el cual se
trabaja. En el ejemplo a seguir, el comando se empleó según la ilustración:
Ilustración 3. Regresión – R
Cuando se llama el objeto, el resultado inmediato que presenta el software son los coeficientes que
acompañan a cada variable de la regresión. Sin embargo, como se dijo anteriormente, a través del
comando summary () se puede obtener información más detallada.
Con esto se especifican por un lado algunos datos estadísticos sobre los residuos del modelo
estimado; por otro lado, además de los coeficientes anteriormente obtenidos, muestra el error
estándar, el valor t de la distribución y el valor p o la probabilidad que resulta muy útil a la hora de
hacer pruebas de hipótesis y de significancia individual y global (Es importante resaltar que R incluye
las convenciones para evaluar la significancia respecto a ciertos niveles). Y en último lugar enseña el
R-cuadrado (o coeficiente de determinación), el cual mide en qué porcentaje los variables exógenas
del modelo explican la variabilidad de la variable endógena, y el R-cuadrado ajustado el cual se usa
de forma específica para comparar modelos alternativos.
WinRATS 7.2
Los resultados expuestos por RATS con muy similares a los expuestos por los anteriores softwares
expuestos, la diferencia más significativa es la organización de la información: en la parte superior se
encuentra una lista compuesta sobre información y estadísticos básicos de la regresión y después una
tabla dedicada específicamente a mostrar los valores de los estimadores y su significancia.
SPSS
En la parte izquierda se encuentra la lista de variables y en el medio los campos para agregar dichas
variables de acuerdo a su función: dependientes, independientes. SPSS ofrece adicionalmente la
utilización de tres campos ubicados en la parte inferior de la ventana, los cuales permiten en su
respectivo orden: elegir una variable de selección para limitar el análisis a un subconjunto de casos,
seleccionar una variable de identificación de casos para identificar los puntos en los diagramas y
seleccione una variable numérica de Ponderación MCP para el análisis de mínimos cuadrados
ponderados.
En la parte derecha de la ventana, aparecen unos botones que nos permiten agregarle detalles y
estadísticos importantes a nuestra regresión. En Estadísticos podrá agregar elementos como
intervalos de confianza, matriz de covarianzas y otros importantes para el análisis de los parámetros;
por medio de las opciones Gráficos y Opciones es posible generar variedad de gráficos para cada
variable y configurar pequeños valores de los estadísticos.
El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una variable
aleatoria a cuando b toma un valor específico. La aplicación de este método implica un supuesto de
linealidad cuando la demanda presenta un comportamiento creciente o decreciente, por tal razón, se
hace indispensable que previo a la selección de este método exista un análisis de regresión que
determine la intensidad de las relaciones entre las variables que componen el modelo.
El pronóstico de regresión lineal simple es un modelo óptimo para patrones de demanda con
tendencia (creciente o decreciente), es decir, patrones que presenten una relación de linealidad entre
la demanda y el tiempo.
Existen medidas de la intensidad de la relación que presentan las variables que son fundamentales
para determinar en qué momento es conveniente utilizar regresión lineal.
4. DISEÑO DE EXPERIMENTOS
El diseño de experimentos se define como un conjunto de técnicas activas que manipulan un proceso
para inducirlo a proporcionar la información que se requiere para mejorarlo mediante los cambios en
sus variables y su interacción o secuencia de ejecución.
3. Control del diseño. Por control del diseño nos referimos a la consideración de otros
elementos que tiene por objeto reducir el error experimental.
Para reducir el error experimental (es decir, para que las conclusiones de las comparaciones
estadísticas sean más precisas), hay que considerar:
cuando se concluye que los tratamientos tienen efecto (figura 3.1b), o dicho de otra manera, las
medias son diferentes. Cuando los tratamientos no dominan contribuyen igual o menos que el error,
por lo que se concluye que las medias son iguales (figura 3.1a). Antes de comenzar con el análisis
del DCA se introduce alguna notación que simplifica la escritura de las expresiones involucradas en
dicho análisis.
- Notación de puntos
Sirve para representar de manera abreviada cantidades numéricas que se pueden calcular a partir de
los datos experimentales, donde Yij representa la j-ésima observación en el tratamiento i, con i = 1,
2, …, k y j = 1, 2, …, ni. Las cantidades de interés son las siguientes:
Note que el punto indica la suma sobre el correspondiente subíndice. Así, algunas relaciones válidas
son:
- ANOVA
El objetivo del análisis de varianza en el DCA es probar la hipótesis de igualdad de los tratamientos
con respecto a la media de la correspondiente variable de respuesta:
La equivalencia de las hipótesis (3.3) y (3.4) se deduce directamente del modelo asociado al diseño
(ecuación 3.2)² pero se observa más fácilmente en la figura 3.2, que es una manera de representar
Para probar la hipótesis dada por las relaciones (3.3) o (3.4) mediante la técnica de ANOVA, lo
primero es descomponer la variabilidad total de los datos en sus dos componentes: la variabilidad
debida a tratamientos y la que corresponde al error aleatorio, como se hace a continuación.
Una medida de la variabilidad total presente en las observaciones de la tabla 3.3 es la suma total de
cuadrados dada por:
En forma abreviada, esta descomposición de la suma total de cuadrados se puede escribir como:
Las sumas de cuadrados divididas entre sus respectivos grados de libertad se llaman cuadrados
medios. Los dos que más interesan son el cuadrado medio de tratamientos y el cuadrado medio del
error, que se denotan por:
En estas expresiones se aprecia que cuando la hipótesis nula es verdadera, ambos cuadrados medios
estiman la varianza ya que el segundo término de la expresión para el E (CMTRAT) sería igual a cero.
Con base en este hecho se construye el estadístico de prueba como sigue: se sabe que SC E y SCTRAT
son independientes, por lo que son dos variables aleatorias independientes con
distribución ji-cuadrada con N – k y k – 1 grados de libertad, respectivamente. Entonces, bajo el
supuesto de que la hipótesis H0 (relaciones 3.3 y 3.4) es verdadera, el estadístico
Toda la información necesaria para calcular el estadístico F0 hasta llegar al valor-p se escribe en la
llamada tabla de análisis de varianza (ANOVA) que se muestra en la tabla 3.4. En esta tabla, las
abreviaturas significan lo siguiente: FV = fuente de variabilidad (efecto), SC = suma de cuadrados, GL
= grados de libertad, CM = cuadrado medio, F0 = estadístico de prueba, valor-p = significancia
observada.
Debemos señalar que el caso particular de comparar dos tratamientos suponiendo varianzas
desconocidas pero iguales también se puede analizar con el ANOVA y se obtiene el mismo valor del
valor-p que con la prueba T. Es fácil comprobar que el estadístico t0 de la prueba T elevado al cuadrado
es igual al estadístico F0 (3.7) de la prueba F del ANOVA. Por último, es importante resaltar que el
ANOVA supone que la variable de respuesta se distribuye normal, con varianza constante (los
tratamientos tienen varianza similar) y que las mediciones son independientes entre sí. Estos
supuestos deben verificarse para estar más seguros de las conclusiones obtenidas.
La interrogante que se planteó en el problema de la comparación entre los cuatro tipos de cuero fue:
¿existen diferencias entre el desgaste promedio de los diferentes tipos de cuero? La respuesta a esta
pregunta es el resultado de contrastar las hipótesis:
En la tabla 3.5 se muestra el análisis de varianza para este ejemplo. Como el valor-p = 0.0000 es
menor que la significancia prefijada a = 0.05, se rechaza H0 y se acepta que al menos un par de tipos
de cuero tienen un desgaste promedio diferente.
Si al menos un tipo de cuero se desgasta de forma diferente de otro, entonces ¿cuáles tipos de cuero
son diferentes entre sí? Para responder esta pregunta se realizan todas las comparaciones posibles,
dos a dos entre las medias de tratamientos, para lo cual existen varios métodos de prueba conocidos
genéricamente como métodos de comparaciones múltiples.
Además de la tabla 3.5 del ANOVA se observa que la variación total en 24 datos de este experimento
fue de 9 101. De esta cantidad, 7 072 se debe a las diferencias entre los tipos de cuero y 2 029
corresponde a la diferencia entre los cueros del mismo tipo. Al ponderar esto por los correspondientes
grados de libertad, se obtienen los cuadrados medios que reflejan la magnitud real de cada fuente de
variación. Así, vemos que las diferencias debido al tipo de cuero es de 2 357 y que el error es de 101;
por lo tanto, la primera es 23.2 veces más grande que la segunda, lo cual indica que las diferencias
observadas entre los tipos de cuero son significativas y que no se deben a pequeñas variaciones
muestrales (error).
Como cualquier otro proceso, un sistema de medición está sujeto tanto a variación por causa común
como a variación por causa especial. Para controlar la variación del sistema de medición, primero
debe identificar las fuentes de la variación y, luego, debe eliminar o reducir las diversas causas. La
variación del sistema de medición se divide en dos fuentes:
- Repetibilidad
La repetibilidad es la variación causada por el dispositivo de medición. Es la variación que se observa
cuando el mismo operador mide la misma parte muchas veces, usando el mismo sistema de medición,
bajo las mismas condiciones.
- Reproducibilidad
La reproducibilidad es la variación causada por el sistema de medición. Es la variación que se observa
cuando diferentes operadores miden la misma parte muchas veces, usando el mismo sistema de
medición, bajo las mismas condiciones.
La suma de cuadrados representa una medida de variación o desviación con respecto a la media. Se
calcula como una suma de los cuadrados de las diferencias con respecto a la media. El cálculo de la
suma total de los cuadrados considera tanto la suma de los cuadrados de los factores como la de
aleatoriedad o error.
En el análisis de varianza (ANOVA), la suma total de los cuadrados ayuda a expresar la variación total
que se puede atribuir a diferentes factores. Por ejemplo, usted hace un experimento para probar la
efectividad de tres detergentes para ropa.
La suma total de los cuadrados = suma de los cuadrados del tratamiento (SST) + suma de los
cuadrados del error residual (SSE)
La suma de los cuadrados del tratamiento es la variación atribuida a, o en este caso entre, los
detergentes para ropa. La suma de los cuadrados del error residual es la variación atribuida al error.
El convertir la suma de los cuadrados en cuadrados medios al dividir entre los grados de libertad le
permitirá comparar estas relaciones y determinar si existe una diferencia significativa debido al
detergente. Mientras mayor sea esta relación, más afectarán los tratamientos el resultado.
En la regresión, la suma total de los cuadrados ayuda a expresar la variación total de las Y. Por
ejemplo, usted recoge datos para determinar un modelo que explique las ventas generales en
función de su presupuesto de publicidad.
La suma total de los cuadrados = suma de los cuadrados de la regresión (SSR) + suma de los
cuadrados del error residual (SSE)
La suma de los cuadrados de la regresión es la variación atribuida a la relación entre las X y las Y o,
en este caso, entre el presupuesto de publicidad y las ventas. La suma de los cuadrados del error
residual es la variación atribuida al error.
Al comparar la suma de los cuadrados de la regresión con la suma total de los cuadrados, se determina
la proporción de la variación total que es explicada por el modelo de regresión (R 2, el coeficiente de
determinación). Mientras más grande sea este valor, mejor será la relación que explique las ventas en
función del presupuesto de publicidad.
- ANOVA
En ANOVA, los cuadrados medios se utilizan para determinar si los factores (tratamientos) son
significativos.
- El cuadrado medio del tratamiento se obtiene dividiendo la suma de los cuadrados del
tratamiento entre los grados de libertad. El cuadrado medio del tratamiento representa la
variación entre las medias de las muestras.
- El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados del error
residual entre los grados de libertad. El MSE representa la variación dentro de las muestras.
Por ejemplo, usted hace un experimento para probar la efectividad de tres detergentes para ropa.
Recolecta 20 observaciones para cada detergente. La variación entre las medias de Detergente 1,
Detergente 2 y Detergente 3 es representada por el cuadrado medio del tratamiento. La variación
dentro de las muestras es representada por el cuadrado medio del error.
- REGRESIÓN
En regresión, los cuadrados medios se utilizan para determinar si los términos de un modelo son
significativos.
- El cuadrado medio del término se obtiene dividiendo la suma de los cuadrados del término
entre los grados de libertad.
- El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados del error
residual entre los grados de libertad. El MSE es la varianza (s2) en torno a la línea de regresión
ajustada.
Al dividir el MS (término) entre el MSE, se obtiene F, que sigue la distribución F con grados de libertad
para el término y grados de libertad para el error.
Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se
utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si puede
rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera bajo la
hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.
Un estadístico de prueba mide el grado de concordancia entre una muestra de datos y la hipótesis
nula. Su valor observado cambia aleatoriamente de una muestra aleatoria a una muestra diferente.
Un estadístico de prueba contiene información acerca de los datos que es relevante para decidir si se
puede rechazar la hipótesis nula. La distribución del muestreo del estadístico de prueba bajo la
hipótesis nula se denomina distribución nula. Cuando los datos muestran evidencia clara en contra de
los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve demasiado grande
o demasiado pequeña dependiendo de la hipótesis alternativa. Esto hace que el valor p de la prueba
se vuelva lo suficientemente pequeño como para rechazar la hipótesis nula.
Por ejemplo, el estadístico de prueba para una prueba Z es el estadístico Z, que sigue la distribución
normal estándar bajo la hipótesis nula. Supongamos que usted realiza una prueba Z de dos colas con
un nivel de significancia (α) de 0.05 y un obtiene un estadístico Z (también denominado valor Z) de 2.5
basado en sus datos. Este valor Z corresponde a un valor p de 0.0124. Puesto que este valor p es
menor que α, usted declara significancia estadística y rechaza la hipótesis nula.
Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según el modelo de
probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus respectivos estadísticos de
prueba incluyen:
- Análisis de varianza
Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con medias
iguales, cuando hay más de dos poblaciones en estudio.
El análisis de varianza (ANOVA) permite comparar simultáneamente todas las medias, evitando tener
que realizar pruebas en grupos de dos.
Todos estos resultados se los ordena en un cuadro denominado tabla de análisis de varianza.
El último cociente es el valor de una variable que tiene distribución F. Este estadístico se usa para la
prueba de hipótesis.
SRC tiene 1 grado de libertad (varianza ponderada con el modelo de dos parámetros)
SCE tiene n-2 grados de libertad (existen n datos y dos parámetros en el modelo)
SCT tiene n-1 grados de libertad (suma de grados de libertad de SCR y SCT)
Si cada uno se divide por el número de grados de libertad se obtienen los cuadrados medios.
Todos esto resultados se los ordena en un cuadro denominado tabla de análisis de varianza o tabla
ANOVA.
- CONCLUSIONES
Los conceptos descritos en este documento están relacionados con la estadística inferencial, y forman
parte de su estudio, como es la estimación, que no es más que establecer un valor que debe tener
un parámetro mediante deducciones sacadas de un resultado muestral de una población, así mismo
pueden haber clasificaciones de estimaciones; por otra parte en el concepto de prueba hipótesis, se
concluye que es un procedimiento que se lleva a cabo entre el estadístico de muestra y el valor
planteado del parámetro, así como también se describen los tipos de hipótesis y los errores que
pueden presentarse en su estudio.
Para finalizar, los temas expuestos en este documento, nos sirven para tener conocimiento acerca de
la estadística inferencial, así como de todos los conceptos que se relacionan con ella en el momento
en el que es empleada para un estudio de muestras y poblaciones, conociendo de igual manera, el
modo o procedimiento en el que se basa la estadística inferencial.
- FUENTES DE INFORMACIÓN
Spiegel, M. R., Stephens L.J. (2009). ESTADÍSTICA (4ta. Ed.). México. McGraw-Hill/ INTERAMERICANA
EDITORES. ISBN-13: 978-970-10-6887-8
Walpole R.E, Myers R. H., Myers S.L., Ye k. (2007). PROBABILIDAD Y ESTADÍSTICA PARA INGENIERÍA Y
CIENCIAS. (8va. Ed.). México. Pearson Educación. ISBN 10: 970-26-0936-4
Canavos G. C. (1988). PROBABILIDAD Y ESTADÍSTICA, APLICACIONES Y MÉTODOS. México. McGraw-Hill/
INTERAMERICANA EDITORES. ISBN 968-451-856-0
Ojeda R.L. (2007). PROBABILIDAD Y ESTADPISTICA BÁSICA PARA INGENIEROS. Guayaquil, Ecuador.
Instituto de Ciencias Matemáticas ESPOL. ISBN 978-9942-922-02-1
Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. 4ª ed. Springer, New York.
http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_ESTA
DISTICA/DOC_%20INFERENCIA/TEMA%204/09%20REGRESION%20Y%20CORRELACION%20LINEAL%2
0SIMPLE.pdf
http://cursos.aiu.edu/Fundamentos%20de%20Estad%C3%ADstica/pdf/Tema%205.pdf
http://www.jomaneliga.es/PDF/Administrativo/Calidad/Diagrama_Correlacion_Dispersion.pdf
https://ingenioempresa.com/diagrama-de-
dispersion/#Como_hacer_un_diagrama_de_dispersion_paso_a_paso
https://www.uv.es/ceaces/pdf/regre.pdf
http://www.fce.unal.edu.co/media/files/UIFCE/Economia/Herramientas_de_Software_Aplicadas_al_Metodo_de
_Regresion_Lineal.pdf
https://www.ingenieriaindustrialonline.com/pronostico-de-la-demanda/regresion-lineal/
https://support.minitab.com/es-mx/minitab/19/help-and-how-to/quality-and-process-
improvement/measurement-system-analysis/supporting-topics/basics/sources-of-process-
variation/#:~:text=La%20variaci%C3%B3n%20observada%20del%20proceso,mediciones%20entre%20las%2
0diferentes%20partes.&text=Es%20la%20variaci%C3%B3n%20que%20se%20observa%20cuando%20diferen
tes%20operadores%20miden,medici%C3%B3n%2C%20bajo%20las%20mismas%20condiciones.
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-
topics/anova-statistics/understanding-sums-of-
squares/#:~:text=La%20suma%20de%20cuadrados%20representa,la%20de%20aleatoriedad%20o%20error.
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-
topics/anova-statistics/understanding-mean-squares/