Act 1 - U3 - Investigación - 3a

UNIVERSIDAD TECNOLOGICA DE CAMPECHE.
MANTENIMIENTO INDUSTRIAL
TSU EN MANTENIMIENTO INDUSTRIAL
SEPTIEMBRE – DICIEMBRE 2020
GRADO Y GRUPO:
3° “A”
ASIGNATURA:
PROBABILIDAD Y ESTADÍSTICA
UNIDAD:
UNIDAD 3: ESTADÍSTICA INFERENCIAL
OBJETIVO DE LA UNIDAD:
COMPRENDER LAS ESTIMACIONES DE DATOS ESTADÍSTICOS PARA CONTRIBUIR A LA

TOMA DE DECISIONES.
TRABAJO:
ACTIVIDAD 1. INVESTIGACIÓN: ESTADÍSTICA INFERENCIAL.
ALUMNOS:
• ARIAS MAY THAILY

• RUIZ HERNÁNDEZ ABIGAIL
• OLÁN GERONIMO JORGE EMMANUEL
• PIÑA QUI AARÓN
FACILITADOR:
ING. JOSÉ FELIPE BAQUEIRO HIDALGO
SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

- DESARROLLO
ESTADÍSTICA INFERENCIAL
La estadística se ocupa de los métodos científicos que se utilizan para recolectar, organizar, resumir,
presentar y analizar datos así como para obtener conclusiones válidas y tomar decisiones razonables
con base en este análisis. El término estadística también se usa para denotar los datos o los números
que se obtienen de esos datos; por ejemplo, los promedios. Así, se habla de estadísticas de empleo,
estadísticas de accidentes, etcétera.
Cuando se recolectan datos sobre las características de un grupo de individuos o de objetos, por
ejemplo, estatura y peso de los estudiantes de una universidad o cantidad de pernos defectuosos y
no defectuosos producidos en determinado día en una fábrica, suele ser imposible o poco práctico
observar todo el grupo, en especial si se trata de un grupo grande. En vez de examinar todo el grupo,
al que se le conoce como población o universo, se examina sólo una pequeña parte del grupo, al que
se le llama muestra. Las poblaciones pueden ser finitas o infinitas. Si la muestra es representativa de
la población, el análisis de la muestra permite inferir conclusiones válidas acerca de la población. A
la parte de la estadística que se ocupa de las condiciones bajo la cuales tales inferencias son válidas
se le llama estadística inductiva o inferencial. Como estas inferencias no pueden ser absolutamente
ciertas, para presentar estas conclusiones se emplea el lenguaje de la probabilidad.
La estadística inferencial proporciona las técnicas para formular proposiciones acerca de la población,
incluyendo una medida para determinar el riesgo de la afirmación.
1. ESTIMACIÓN
La Estadística descriptiva y la teoría de la Probabilidad van a ser los pilares de un nuevo procedimiento
(Estadística Inferencial) con los que se va a estudiar el comportamiento global de un fenómeno. La
probabilidad y los modelos de distribución junto con las técnicas descriptivas, constituyen la base de
una nueva forma de interpretar la información suministrada por una parcela de la realidad que interesa
investigar.

Los métodos básicos de la estadística inferencial son la estimación y el contraste de hipótesis, que
juegan un papel fundamental en la investigación.
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos
de la población ya sea por el coste que supondría, o por la imposibilidad de acceder a ello. Mediante
la técnica inferencial obtendremos conclusiones para una población no observada en su totalidad, a
partir de estimaciones o resúmenes numéricos efectuados sobre la base informativa extraída de una
muestra de dicha población.
En definitiva, la idea es, a partir de una población se extrae una muestra por algunos de los métodos
existentes, con la que se generan datos numéricos que se van a utilizar para generar estadísticos con
los que realizar estimaciones o contrastes poblacionales.

Existen dos formas de estimar parámetros: la estimación puntual y la estimación por intervalo de
confianza. En la primera se busca, con base en los datos muestrales, un único valor estimado para el
parámetro. Para la segunda, se determina un intervalo dentro del cual se encuentra el valor del
parámetro, con una probabilidad determinada. Si el objetivo del tratamiento estadístico inferencial,
es efectuar generalizaciones acerca de la estructura, composición o comportamiento de las
poblaciones no observadas, a partir de una parte de la población, será necesario que la parcela de
población examinada sea representativa del total. Por ello, la selección de la muestra requiere unos
requisitos que lo garanticen, debe ser representativa y aleatoria.
Además, la cantidad de elementos que integran la muestra (el tamaño de la muestra) depende de
múltiples factores, como el dinero y el tiempo disponibles para el estudio, la importancia del tema
analizado, la confiabilidad que se espera de los resultados, las características propias del fenómeno
analizado, etcétera. Así, a partir de la muestra seleccionada se realizan algunos cálculos y se estima
el valor de los parámetros de la población tales como la media, la varianza, la desviación estándar, o
la forma de la distribución, etc.
1.1 DEFINIR EL CONCEPTO DE ESTIMACIÓN
En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
Desde el punto de vista práctico, suele ser más importante poder inferir información acerca de una
población a partir de muestras obtenidas de ella. De estos problemas se ocupa la inferencia
estadística en la que se usan los principios de la teoría del muestreo. Un problema importante de la
inferencia estadística es la estimación de parámetros poblacionales, o simplemente parámetros
(como, por ejemplo, la media y la varianza poblacionales), a partir de los correspondientes
estadísticos muestrales, o simplemente estadísticos (por ejemplo, la media y la varianza muestrales).
Estimación: Este término indica que a partir de lo observado en una muestra (un resumen estadístico
con las medidas que conocemos de Descriptiva) se extrapola o generaliza dicho resultado muestral
a la población total, de modo que lo estimado es el valor generalizado a la población. Consiste en la

búsqueda del valor de los parámetros poblacionales objeto de estudio. Puede ser puntual o por
intervalo de confianza:
 Puntual: cuando buscamos un valor concreto.

 Intervalo de confianza: cuando determinamos un intervalo, dentro del cual se supone que va
a estar el valor del parámetro que se busca con una cierta probabilidad.
1.2 EXPLICAR LOS TIPOS DE ESTIMACIÓN Y MEDIAS PROPORCIONES:
Distinguiendo entre estimación puntual, procedimiento mediante el cual se estima el valor del
parámetro poblacional basándose en los datos muestrales mediante el uso de un estadístico, y
estimación por intervalos, en el cual para realizar la estimación del parámetro poblacional se
determina un intervalo en el que de forma probable se encuentra el valor del parámetro. Dicho
intervalo recibirá el nombre de intervalo de confianza.
1.2.1 PUNTUAL
Se trata de determinar la distancia, o error máximo entre la estimación puntual θ´ y el valor del
parámetro θ que se desea estimar, con algún nivel de certeza especificado.
A una estimación de un parámetro poblacional que se da mediante un solo número se le llama

estimación puntual del parámetro. A una estimación de un parámetro poblacional que se da mediante
dos números, entre los cuales se considera que debe estar el parámetro en cuestión, se le llama
estimación por intervalo del parámetro en cuestión. Las estimaciones por intervalo dan la precisión, o
exactitud, de la estimación, y por esto se prefieren a las estimaciones puntuales.
 Ejemplo:
Si se dice que en la medición de una distancia se obtuvo como resultado 5.28 metros (m), se está
dando una estimación puntual. En cambio, si se dice que la distancia es 5.28 ± 0.03 m (es decir, que
la distancia está entre 5.25 y 5.31 m), se está dando una estimación por intervalo.
La información sobre el error (o precisión) de una estimación es su confiabilidad.

1.2.2 POR INTERVALO
Con el valor θ´ de estimador Θ se construye un intervalo que contenga el valor del parámetro θ que
se desea estimar, con algún nivel de certeza especificado.
Donde Li y Ls son los limites inferior y superior.
Sean µS y σS la media y la desviación estándar (error estándar), respectivamente, de la distribución

muestral de un estadístico S. Entonces, si la distribución muestral de S es aproximadamente normal
(lo que se sabe que es así para muchos estadísticos si el tamaño de la muestra es N ≥ 30), se puede
esperar que exista un estadístico muestral S que se encuentre en los intervalos µS − σS a µS + σS,
µS − 2σS a µS + 2σS o µS − 3σS a µS + 3σS, a 68.27%, 95.45% y 99.73% de las veces,
respectivamente. De igual manera, se puede hallar (o se puede tener confianza de hallar) µS en los
intervalos S − σS a S + σS, S − 2 σS a S + 2σS o S − 3σS a S + 3σS a 68.27, 95.45 y 99.73% de las
veces, respectivamente. Debido a ello, a estos intervalos se les llama intervalos de confianza de
68.27%, 95.45% y 99.73% para estimar µS. A los números de los extremos de estos intervalos (S ±
σS, S ± 2σS y S ± 3σS) se les llama límites de confianza o límites fiduciales. De igual manera, S ±
1.96σS y S ± 2.58σS son los límites de confianza de 95% y de 99% (o de 0.95 y 0.99) para S. Al
porcentaje de confianza se le suele llamar nivel de confianza. A los números 1.96, 2.58, etc., que
aparecen en los límites de confianza, se les llama coeficientes de confianza o valores críticos y se
denotan zc. A partir de los niveles de confianza se pueden encontrar los coeficientes de confianza y
viceversa.
En la tabla se presentan los valores de zc que corresponden a varios niveles de confianza que se
usan en la práctica. Los valores de zc para niveles de confianza que no estén en esta tabla se pueden
encontrar en las tablas de áreas de la curva normal.

2. PRUEBA DE HIPÓTESIS
Se formula una hipótesis acerca del parámetro θ asignándole un valor supuesto θ0 y con el valor θ´
del estimador Θ se realiza una prueba para aceptar o rechazar la hipótesis propuesta con algún nivel
de certeza especificado.
Esta técnica estadística es muy utilizada como soporte a la investigación sistemática y científica.
Consiste en suponer algún valor para el parámetro de interés y usar los datos de la muestra para
aceptar o rechazar esta afirmación.
Es importante entender las diferentes situaciones que pueden ocurrir al probar estadísticamente una
hipótesis.
Sea Ho: alguna hipótesis que se propone para el parámetro de interés.
Suponer que se dispone de datos y que se realiza una prueba estadística para verificar la hipótesis.
Entonces pueden ocurrir las siguientes situaciones al tomar una decisión:
Suponer que la propuesta Ho es verdadera, pero la prueba estadística dice que Ho es falsa,
entonces al rechazar la hipótesis propuesta cometemos el Error tipo I.

Suponer que la hipótesis propuesta Ho es falsa, pero la prueba estadística dice que Ho es verdadera,
entonces al aceptar la hipótesis propuesta cometemos el Error tipo II.
Ambos errores pueden tener consecuencias importantes al tomar una decisión en una situación real.
Por lo tanto es necesario cuantificar la probabilidad de cometer cada tipo de error.
2.1 DEFINIR LOS CONCEPTOS DE:
2.1.1 HIPÓTESIS
Una hipótesis estadística es una aseveración o conjetura con respecto a una o más poblaciones.
La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta certidumbre, a menos
que examinemos toda la población, lo cual, por supuesto, sería poco práctico en la mayoría de las
situaciones. En cambio, tomamos una muestra aleatoria de la población de interés, y utilizamos los
datos contenidos en esta muestra para proporcionar evidencia que apoye o no la hipótesis. La
evidencia de la muestra que sea inconsistente con la hipótesis que se establece conduce al rechazo
de ésta.
Un procedimiento de decisión debe hacerse con la noción de la probabilidad de una conclusión

errónea. Por ejemplo, suponga que la hipótesis que postuló el ingeniero es que la fracción p de
defectuosos en cierto proceso es 0.10. El experimento es la observación de una muestra aleatoria del
producto en cuestión. Suponga que se prueban 100 artículos y se encuentran 12 defectuosos. Es
razonable concluir que esta evidencia no rechaza la condición p = 0.10, y por ello puede conducir a
la aceptación de la hipótesis. Sin embargo, tampoco rechaza p = 0.12 o quizá incluso p = 0.15. Como
resultado, el lector se debe acostumbrar a comprender que el rechazo de una hipótesis simplemente
implica que la evidencia de la muestra la refuta. Por otro lado, el rechazo significa que hay una
pequeña probabilidad de obtener la información muestral observada cuando, de hecho, la hipótesis
es verdadera. En otras palabras, el rechazo de una hipótesis tiende a casi “descartar” la hipótesis.
Por otro lado, es muy importante enfatizar que la aceptación o, más bien, la falla al rechazo no
excluyen otras posibilidades.

2.1.2 HIPÓTESIS NULA
En muchas ocasiones se formula una hipótesis estadística con la única finalidad de refutarla o
anularla. Por ejemplo, si se quiere decidir si una moneda está cargada o no, se formula la hipótesis
de que no está cargada (es decir, p = 0.5, donde p es la probabilidad de cara). También, si se quiere
decidir si un método es mejor que otro, se formula la hipótesis de que no hay diferencia entre los dos
(es decir, que cualquier diferencia que se observe se debe sólo a las fluctuaciones del muestreo de
una misma población). A estas hipótesis se les llama hipótesis nula y se denota H0.
2.1.3 HIPÓTESIS ALTERNATIVA
A toda hipótesis que difiera de la hipótesis dada se le llama hipótesis alternativa. Por ejemplo, si una
hipótesis es p = 0.5, la hipótesis alternativa puede ser p = 0.7, p 0.5 o p > 0.5. La hipótesis alternativa
a la hipótesis nula se denota H1.
Generalmente es de interés probar Ha, por lo que se plantea Ho con la esperanza de que sea
rechazada mediante la información contenida en la muestra.

2.1.4 ERROR TIPO I Y II
Si se rechaza una hipótesis que debería aceptarse se dice que se comete un error tipo I. Si por otro
lado, se acepta una hipótesis que debería rechazarse, se comete un error tipo II. En cualquiera de los
casos ha habido una decisión errónea o se ha hecho un juicio erróneo. Para que las reglas de decisión
(o pruebas de hipótesis) sean buenas, deben diseñarse de manera que se minimicen los errores de
decisión. Esto no es sencillo, ya que para cualquier tamaño dado de muestra, al tratar de disminuir
un tipo de error suele incrementarse el otro tipo de error. En la práctica, un tipo de error puede ser
más importante que otro y habrá que sacrificar uno con objeto de limitar al más notable. La única
manera de reducir los dos tipos de error es aumentando el tamaño de la muestra, lo que no siempre
es posible.
El valor α se denomina nivel de significancia de la prueba y puede darse como un dato para
realizar la prueba.
Algunos valores típicos para α son: 10%, 5%, 2%, 1%.
2.2 EXPLICAR EL MÉTODO DE LA PRUEBA DE HIPÓTESIS CON UNA Y DOS

MUESTRAS DE MEDIA Y VARIANZA:
- Tipos de pruebas

Al plantear una prueba de hipótesis, usted debe decidir si desea realizar una prueba de dos colas o
bilateral o por el contrario desea hacer una prueba de una cola (superior o inferior). A continuación se
explica en qué consiste cada una de ellas.
- Prueba de hipótesis no direccionada, de dos colas o bilateral.
En este caso interesa determinar si el valor del estimador (muestra) es diferente al valor del parámetro
(e.g. μ); sin importar si es mayor o menor. Este tipo de prueba se denomina también de dos colas o
bilateral; ya que Ho se rechazará si el valor del estadístico de prueba se ubica en cualquiera de las
zonas de rechazo de Ho como se muestra a continuación.
En una prueba de hipótesis no direccionada solo nos interesa saber si el valor muestral no se ubica
en la zona de aceptación de Ho; lo cual permite concluir que es diferente al parámetro.
- Prueba de hipótesis direccionada, de una cola o unilateral
En este caso, a diferencia del anterior, sí estamos interesados en determinar si el valor del estimador
(muestra) es mayor o menor que el valor del parámetro (e.g. μ). Por esta razón este tipo de prueba
se denomina también de una cola o unilateral; ya que Ho se rechazará si el valor del estadístico de
prueba se ubica en la cola inferior o superior de la distribución muestral como se ilustra a continuación:

En una prueba de hipótesis direccionada nos interesa saber si el valor muestral se ubica en la cola
superior o inferior de la distribución y no solo si es diferente del parámetro.
- Procedimiento para realizar una prueba de hipótesis
Para conocer el procedimiento para la prueba de hipótesis, se describe la prueba relacionada con la
media, sin embrago, la técnica es aplicable para pruebas con otros parámetros.
- Prueba de hipótesis relacionada con la media
Caso n>30 (Muestra grande)
Procedimiento:
 Paso 1: Formular la hipótesis nula:
 Paso 2: Formular una hipótesis alterna:

 Paso 3: Especificar el nivel de significancia de la prueba: α

 Paso 4: Seleccionar el estadístico de prueba y definir la región de rechazo de Ho. En este
caso por el teorema de límite central, el estadístico tiene distribución
normal estándar aproximadamente.
La región de rechazo depende de la hipótesis alterna elegida Ha y está determinada por el
valor α especificado. Se analiza la primera situación

 Paso 5: Calcular el valor del estadístico de prueba con los datos de muestra.
 Paso 6: Tomar una decisión.
Si el valor del estadístico de prueba cae en la región de rechazo, la decisión es rechazar Ho
en favor de Ha. Pero, si el valor no cae en esta región critica, se dice que no hay evidencia
suficiente para rechazar Ho. En este caso es preferible abstenerse de aceptar como
verdadera Ho pues esto puede introducir el Error tipo II.

El análisis anterior permite interpretar las otras dos situaciones para la hipótesis alterna:
2.2.1 ESTABLECIMIENTO DE HIPÓTESIS
Un procedimiento de decisión debe hacerse con la noción de la probabilidad de una conclusión

errónea. Por ejemplo, suponga que la hipótesis que postuló el ingeniero es que la fracción p de
defectuosos en cierto proceso es 0.10. El experimento es la observación de una muestra aleatoria del
producto en cuestión. Suponga que se prueban 100 artículos y se encuentran 12 defectuosos. Es
razonable concluir que esta evidencia no rechaza la condición p = 0.10, y por ello puede conducir a
la aceptación de la hipótesis. Sin embargo, tampoco rechaza p = 0.12 o quizá incluso p = 0.15. Como
resultado, el lector se debe acostumbrar a comprender que el rechazo de una hipótesis simplemente
implica que la evidencia de la muestra la refuta. Por otro lado, el rechazo significa que hay una
pequeña probabilidad de obtener la información muestral observada cuando, de hecho, la hipótesis
es verdadera. Por ejemplo, en nuestra hipótesis de la proporción de defectuosos, una muestra de 100
que revela 20 artículos defectuosos es ciertamente evidencia de rechazo. ¿Por qué? Si, en realidad,

p = 0.10, la probabilidad de obtener 20 o más defectuosos es aproximadamente 0.002. Con el

pequeño riesgo resultante de una conclusión errónea, parecería seguro rechazar la hipótesis de que
p = 0.10. En otras palabras, el rechazo de una hipótesis tiende a casi “descartar” la hipótesis. Por otro
lado, es muy importante enfatizar que la aceptación o, más bien, la falla al rechazo no excluyen otras
posibilidades.
2.2.2 CRITERIO DE ACEPTACIÓN
Es un instrumento que permite decidir la verdad o falsedad de una hipótesis de una población
mediante los resultados de una muestra basada en la teoría de la probabilidad (si son simples
fluctuaciones debidas al azar, o bien son de tal importancia que requieren una explicación distinta).
Un contraste de hipótesis no establece la verdad de las hipótesis, sino un criterio de aceptación de la

misma, y la decisión se toma a partir de una muestra.
Las hipótesis estadísticas pueden ser de dos tipos:
- Paramétricas: La hipótesis se realiza sobre los valores de un parámetro de la población,

como media, diferencia de medias, proporción, etc.
- No paramétricas: La hipótesis se hace sobre otros criterios, como test de los signos, test de
los cuartiles, etc.
2.2.3 ESTADÍSTICO DE PRUEBA
Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se
utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si puede
rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera bajo la
hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.
Un estadístico de prueba mide el grado de concordancia entre una muestra de datos y la hipótesis
nula. Su valor observado cambia aleatoriamente de una muestra aleatoria a una muestra diferente.
Un estadístico de prueba contiene información acerca de los datos que es relevante para decidir si se
puede rechazar la hipótesis nula. La distribución del muestreo del estadístico de prueba bajo la
hipótesis nula se denomina distribución nula. Cuando los datos muestran evidencia clara en contra de

los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve demasiado grande
o demasiado pequeña dependiendo de la hipótesis alternativa. Esto hace que el valor p de la prueba
se vuelva lo suficientemente pequeño como para rechazar la hipótesis nula.
Por ejemplo, el estadístico de prueba para una prueba Z es el estadístico Z, que sigue la distribución
normal estándar bajo la hipótesis nula. Supongamos que usted realiza una prueba Z de dos colas con
un nivel de significancia (α) de 0.05 y un obtiene un estadístico Z (también denominado valor Z) de 2.5
basado en sus datos. Este valor Z corresponde a un valor p de 0.0124. Puesto que este valor p es
menor que α, usted declara significancia estadística y rechaza la hipótesis nula.
Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según el modelo de
probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus respectivos estadísticos de
prueba incluyen:
3. REGRESIÓN LINEAL Y CORRELACIÓN
La regresión y a la correlación son dos técnicas estrechamente relacionadas y comprenden una forma
de estimación.
Correlación
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos
muestrales para saber qué es y cómo se relacionan entre si dos o más variables en una población. El
análisis de correlación produce un número que resume el grado de la correlación entre dos variables;
y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un

investigador o analista trata de determinar que variables son potenciales importantes, el interés radica

básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la

regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de

variables relacionadas.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática
lineal que describe la reacción entre dos variables.
La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa,
o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre
lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los
valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en
término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis
de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión
ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
La regresión, o estimación de una variable (la variable dependiente) a partir de una o más variables
(las variables independientes). Se hará referencia a un problema relacionado con el de la correlación
o grado de relación entre las variables, en el que se busca determinar qué tan bien una ecuación
lineal, o de otro tipo, describe o explica la relación entre las variables. Si todos los valores de las
variables satisfacen con exactitud una ecuación, se dice que las variables están en perfecta
correlación o que hay una correlación perfecta entre ellas. Así, las circunferencias C y los radios r de
todos los círculos están perfectamente correlacionados, ya que C = 2πr. Cuando se lanzan 100 veces
dos dados en forma simultánea entre los puntos que aparecen en cada uno de ellos no hay relación
alguna (a menos que estén cargados); es decir, no están correlacionados. Sin embargo, variables
como el peso y la estatura de una persona muestran cierta correlación. Cuando intervienen sólo dos

variables se habla de correlación simple y de regresión simple. Cuando intervienen más de dos
variables, se habla de correlación múltiple y de regresión múltiple.
3.1 IDENTIFICAR EL PROCESO DE CONSTRUCCIÓN DEL DIAGRAMA DE

DISPERSIÓN
El diagrama de dispersión consiste básicamente en una gráfica que incluye al atributo de calidad que
se desea controlar (variable dependiente) y él o los factores de producción que se presume lo causan
(variables independientes). Este texto maneja únicamente la relación de tipo lineal, es decir
proporcional.
La secuencia a seguir para realizar un diagrama de dispersión es:
- 1. Recoger y ordenar los datos que se cree que tienen una posible correlación.
Los datos son recogidos en una tabla, indicando el número de muestras y los valores de las
características que se quiere investigar. Es conveniente que el número de mediciones sea de al
menos 30.
Ejemplo:
Una empresa se plantea cambiar la composición de uno de sus productos utilizando un nuevo
material. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la
posible relación entre la utilización de dicho material y el número de defectos. Para ello analiza
lotes con diferentes porcentajes del nuevo material y toma los siguientes datos:

- 2. Representar gráficamente los datos:
 Dibujar, en un diagrama cartesiano, los ejes vertical y horizontal de la misma longitud.

Observar los valores máximo y mínimo de los grupos de datos, para escoger la escala de
representación adecuada a los mismos y evitar así errores de interpretación.
 Representar en el diagrama mediante puntos cada par de datos, reflejando los valores de la
clase de datos que se considera dependiente (causa) sobre el eje horizontal X y los valores
de la clase de datos que se considera independiente (efecto) sobre el eje vertical Y.
 Si dos o más pares de datos caen en el mismo punto, dibujar círculos concéntricos alrededor
del punto individualizado.
Ejemplo:
La figura siguiente muestra la representación gráfica de los datos:
- 3. Una vez construido el diagrama se analiza la forma que tiene la nube de puntos obtenida, para
así determinar las relaciones entre los dos tipos de datos. Este análisis puede efectuarse por técnicas
estadísticas que permitan determinar si existe o no relación, y el grado de existencia en su caso. Las
herramientas utilizadas son:
 La recta de regresión
 El coeficiente de la correlación lineal

La recta de regresión
La recta de regresión es la línea que mejor representa a un conjunto de puntos. La función que
aproxima la recta es: y= a+bx
Donde:
y: variable independiente (causa)
a: ordenada en el origen
b: pendiente de la recta de regresión
x: variable independiente (efecto)
La pendiente se haya mediante la expresión:
Donde:
x: valores de la variable independiente
y: valores de la variable dependiente
x: media de los valores de x
y: media de los valores de y
n: numero de observaciones o pares de datos
La ordenada en el origen se calcula como:
Ejemplo:
Calculamos la recta de regresion a partir de los siguientes datos:

Representamos en el grafico la recta de regresion:
Observamos que existe una correlación entre los datos.
Coeficiente de correlación
El coeficiente de correlación lineal r, viene determinado por la expresión:
Toma valores comprendidos entre -1 y 1. Cuanto más próximo a 0 sea r menor será la relación
entre los datos, y cuanto más próximo a 1 (en valor absoluto) mayor será dicha relación. Su signo
indica si se da una relación positiva o negativa entre las variables x e y.
Ejemplo:
Calculamos el coeficiente de correlación:
El valor obtenido es muy próximo a 1, lo que nos confirma que la correlación es fuertemente
positiva.

3.2 IDENTIFICAR EL CONCEPTO DE COEFICIENTE DE CORRELACIÓN
Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos variables,
el análisis de correlación es la herramienta estadística que podemos usar para describir el grado o
fuerza en el que una variable esta linealmente relacionada con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente se
mueven dos variables, y por lo tanto, con cuanta confiabilidad se puede estimar una variable con
ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo número, una medida de
la fuerza de asociación entre dos variables de interés, se llama análisis de correlación simple.
El análisis de correlación es la herramienta estadística de que nos valemos para describir el grado
de relación que hay entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión lineal simple
para medir la eficacia con que la línea de regresión explica la variación de la variable dependiente, Y.
Diagramas de dispersión con correlación débil y fuerte:
Existen dos medidas para describir la correlación entre dos variables: el coeficiente de determinación
y el coeficiente de correlación.

COEFICIENTE MUESTRAL DE CORRELACIÓN
La raíz cuadrada del coeficiente de determinación muestral , es un índice alternativo común del
grado de asociación entre dos variables cuantitativas. Esta mediad se llama coeficiente de
correlación muestral (r) y es un estimador puntual del coeficiente de correlación poblacional (ρ).
El coeficiente de correlación muestral es la segunda medida con que puede describirse la eficacia con
que una variable es explicada por otra, así pues el signo de r indica la dirección de la relación entre
las dos variables X y Y.
El siguiente esquema representa adecuadamente la intensidad y la dirección del coeficiente de

correlación muestral.
El cálculo del coeficiente de correlación muestral se lleva a cabo con la siguiente formula:
3.3 EXPLICAR EL PROCESO DE REGRESIÓN LINEAL Y SU INTERPRETACIÓN:
3.3.1 DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta
de una dispersión de puntos tal que cada punto representa un valor de la variable independiente
(medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo
largo del eje vertical).

El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información,
visualmente se pueden determinar los patrones que indican como las variables están relacionadas
(lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase de
línea o ecuación de estimación que describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de dispersión:

3.3.2 COEFICIENTE DE CORRELACIÓN
Al cociente de la variación explicada entre la variación total se le llama coeficiente de determinación.

Si hay cero variación explicada (es decir, si la variación total es sólo variación no explicada), este
cociente es 0. Si hay 0 variación no explicada (es decir, si la variación total es sólo variación
explicada), este cociente es 1. En los demás casos, este cociente se encuentra entre 0 y 1; como
siempre es no negativo, se denota r2. A la cantidad r se le llama coeficiente de correlación; está dado
por:
y varía entre −1 y +1. Los signos + y − se usan para correlación lineal positiva y correlación lineal
negativa, respectivamente. Obsérvese que r es una cantidad adimensional; es decir, no depende de
las unidades que se empleen. Utilizando las ecuaciones (8) y (11) y el hecho de que la desviación
estándar de Y es:
En el caso de la correlación lineal, la cantidad r es la misma, ya sea que se considere a X o a Y como

la variable independiente. Por lo tanto r es una muy buena medida de la correlación lineal entre dos
variables.
Para determinar el tipo de relación lineal entre las variables X y Y del modelo de regresión lineal se
usa el coeficiente de correlación lineal que se define a continuación:
Para simplificar la escritura se establecen las siguientes definiciones:

Definición de coeficiente de correlación:
El signo de r es igual al signo de la pendiente de la recta de regresión lineal.
- Si el valor de r es cercano a 1 significa que hay una fuerte relación lineal positiva entre x y y.
- Si el valor de r es cercano a -1 significa que hay una fuerte relación lineal entre negativa entre
x y y.
- Si el valor de r es cercano a 0 significa que hay poca relación lineal entre x y y.

Ejemplos de correlación entre dos variables
3.3.3 ECUACIÓN DE REGRESIÓN
El estudio del grado de dependencia existente entre las variables queda recorrido en la teoría de la
correlación.
La determinación de la estructura de dependencia que mejor exprese la relación, lo que es analizado

a través de la regresión.
Una vez determinada la estructura de esta dependencia la finalidad última de la regresión es llegar a
poder asignar el valor que toma la variable Y en un individuo del que conocemos que toma un
determinado valor para la variable X (para las variables X1, X2…Xn).
En el caso bidimensional, dadas dos variables X e Y con una distribución conjunta de frecuencias (xi,
ji, nij), llamaremos regresión de Y sobre X (Y/X) a una función que explique la variable Y para cada
valor de X, y llamaremos regresión de X sobre Y (X/Y) a una función que nos explique la variable X
para cada valor de Y.

3.4 EXPLICAR EL PROCESO DE REGRESIÓN LINEAL EN SOFTWARE
El método de regresión lineal es una práctica estadística ampliamente utilizada para analizar la
relación entre variables, teniendo gran variedad de aplicaciones en las diversas áreas económicas,
políticas y sociales. Actualmente, muchos software econométricos y estadísticos han sido
desarrollados para agilizar y favorecer el proceso de análisis y manejo de los datos, brindando cada
vez más herramientas novedosas y haciendo que la aplicación de los métodos por parte del
investigador se base principalmente en la interpretación de resultados.
SOFTWARE TOOLS APPLIED TO THE LINEAR REGRESSION METHOD
En primera instancia se van a considerar los supuestos que tienen que ver con la estructura del
modelo de regresión, entre los cuales se encuentran las hipótesis de Muestras pequeñas, Cambio
Estructural, Especificación errónea y Multicolinealidad. El hecho de que el modelo no cumpla con
cada uno de estos supuestos produce consecuencias negativas sobre la exactitud de la estimación,
haciendo que el modelo se aleje más de la realidad, por ende es necesario evitar y corregir en lo
posible su violación.
DESARROLLO DEL MÉTODO DE REGRESIÓN EN STATA, R-PROJECT, RATS Y SPSS
 STATA
Luego de haber cargado los datos en Stata se puede proceder directamente a realizar la regresión.
La instrucción a ejecutar es reg o regres y debe ir seguida por la variable dependiente y las variables
independientes en orden respectivo. Para la base de datos que estamos utilizando se obtuvieron los
siguientes resultados:

Ilustración 1. Regresión Stata
Los resultados muestran los coeficientes de los diferentes parámetros, su error estándar, el estadístico
t, el valor P (probabilidad), los intervalos de confianza y otros valores importantes como el R-cuadrado
y la prueba F para significancia global de los parámetros. Adicionalmente l atabla que se encuentra en
l pate superior izquierda se conoce como ANOVA y contiene la suma de residuos al cuadrado (SS),
los grados de libertad (df) y el promedio de la suma de residuos al cuadrado (MS).
El proceso se puede realizar igualmente a través de las pestañas del software. En la pestaña
Statistics>Linear Models and related>Linear Regression. Aparecerá una ventana en la cual deberá
especificar los argumentos para la regresión: variable dependiente y variables independientes.
Ilustración 2. Regresión alterna Stata.
 R- Project
Para correr una regresión en R, el comando utilizado es lm (), el cual sirve en términos generales para
ajustar modelos lineales (lineal models) lo que significa que no es útil únicamente para hacer regresión
lineal, sino también análisis de varianza y covarianza. El comando lleva dentro del paréntesis la
variable endógena acompañada del símbolo ~, seguido de las variables exógenas separadas por el

signo + y por último, separado por una coma, el nombre que se le dio al archivo sobre el cual se
trabaja. En el ejemplo a seguir, el comando se empleó según la ilustración:
Ilustración 3. Regresión – R
Cuando se llama el objeto, el resultado inmediato que presenta el software son los coeficientes que
acompañan a cada variable de la regresión. Sin embargo, como se dijo anteriormente, a través del
comando summary () se puede obtener información más detallada.
Ilustración 4. Resumen de regresión – R
Con esto se especifican por un lado algunos datos estadísticos sobre los residuos del modelo
estimado; por otro lado, además de los coeficientes anteriormente obtenidos, muestra el error
estándar, el valor t de la distribución y el valor p o la probabilidad que resulta muy útil a la hora de
hacer pruebas de hipótesis y de significancia individual y global (Es importante resaltar que R incluye
las convenciones para evaluar la significancia respecto a ciertos niveles). Y en último lugar enseña el
R-cuadrado (o coeficiente de determinación), el cual mide en qué porcentaje los variables exógenas

del modelo explican la variabilidad de la variable endógena, y el R-cuadrado ajustado el cual se usa
de forma específica para comparar modelos alternativos.
 WinRATS 7.2
El comando a utilizar en este software está especificado de la siguiente manera:
El comando propiamente es linreg y va acompañado al lado derecho por la variable dependiente y

otro término que permite visualizar información sobre los errores del modelo. En la parte inferior, se
encuentran las variables explicativas del modelo al lado del símbolo # el cual representa los
argumentos que se incluyen en la acción a desarrollar; esta última parte es conocida como una carta
suplementaria.
Ilustración 5. Regresión – RATS

Los resultados expuestos por RATS con muy similares a los expuestos por los anteriores softwares
expuestos, la diferencia más significativa es la organización de la información: en la parte superior se
encuentra una lista compuesta sobre información y estadísticos básicos de la regresión y después una
tabla dedicada específicamente a mostrar los valores de los estimadores y su significancia.
 SPSS
El desarrollo de la regresión en SPSS se hace sin utilización de códigos, simplemente mediante

selecciones de pestañas y botones. En la pestaña Analizar se encuentra la opción Regresión y dentro
de ésta el ícono . Luego de seleccionar el ícono, emerge una ventana solicitando
los argumentos de la regresión.
Ilustración 6. Regresión – SPSS
En la parte izquierda se encuentra la lista de variables y en el medio los campos para agregar dichas
variables de acuerdo a su función: dependientes, independientes. SPSS ofrece adicionalmente la
utilización de tres campos ubicados en la parte inferior de la ventana, los cuales permiten en su
respectivo orden: elegir una variable de selección para limitar el análisis a un subconjunto de casos,
seleccionar una variable de identificación de casos para identificar los puntos en los diagramas y
seleccione una variable numérica de Ponderación MCP para el análisis de mínimos cuadrados
ponderados.

En la parte derecha de la ventana, aparecen unos botones que nos permiten agregarle detalles y
estadísticos importantes a nuestra regresión. En Estadísticos podrá agregar elementos como
intervalos de confianza, matriz de covarianzas y otros importantes para el análisis de los parámetros;
por medio de las opciones Gráficos y Opciones es posible generar variedad de gráficos para cada
variable y configurar pequeños valores de los estadísticos.
La regresión observada en la ventana de resultados se encuentra organizada por tablas que

representan el resumen del modelo, la ANOVA (Análisis de Varianzas), los coeficientes y la correlación
entre ellos. En este caso nos interesa únicamente observar la composición del resumen del modelo y
los coeficientes.
Ilustración 7. Output Regresión – SPSS
En la Ilustración encontramos más detalladamente los resultados de la regresión: los coeficientes de

los estimadores y los estadísticos que permiten hacer conclusiones sobre su significancia individual.
3.5 EXPLICAR EL CONCEPTO DE PRONÓSTICO EN REGRESIÓN LINEAL
El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una variable
aleatoria a cuando b toma un valor específico. La aplicación de este método implica un supuesto de
linealidad cuando la demanda presenta un comportamiento creciente o decreciente, por tal razón, se
hace indispensable que previo a la selección de este método exista un análisis de regresión que
determine la intensidad de las relaciones entre las variables que componen el modelo.

- ¿Cuándo utilizar un pronóstico de regresión lineal?
El pronóstico de regresión lineal simple es un modelo óptimo para patrones de demanda con
tendencia (creciente o decreciente), es decir, patrones que presenten una relación de linealidad entre
la demanda y el tiempo.
Existen medidas de la intensidad de la relación que presentan las variables que son fundamentales
para determinar en qué momento es conveniente utilizar regresión lineal.
4. DISEÑO DE EXPERIMENTOS
El diseño de experimentos se define como un conjunto de técnicas activas que manipulan un proceso
para inducirlo a proporcionar la información que se requiere para mejorarlo mediante los cambios en
sus variables y su interacción o secuencia de ejecución.
4.1 EXPLICAR EL CONCEPTO DE DISEÑO DE EXPERIMENTOS
Un experimento estadístico es un procedimiento que se realiza con el propósito de obtener

observaciones para algún estudio de interés. Un experimento requiere realizar pruebas o ensayos
para obtener resultado.
Un experimento estadístico tiene las siguientes características:
1. Se conocen todos los resultados posibles antes de realizar el experimento.
2. No se puede predecir el resultado de cada ensayo realizado (propiedad de aleatoriedad).
3. Debe poderse reproducir o repetir el experimento en condiciones similares.
4. Se puede establecer un patrón predecible a lo largo de muchas ejecuciones del

experimento. Esta propiedad se denomina regularidad estadística.

En sentido estricto, un experimento es un procedimiento de investigación en el que todos los factores

ambientales están bajo control. Como consecuencia es imprescindible manipular las condiciones en
las que se realiza el estudio: hablamos de experimentos “manipulativos” o estudios experimentales.
No obstante, muchas investigaciones utilizan procedimientos de obtención de la información “no
manipulativos” que reciben la denominación de muestreos. El muestreo es un procedimiento de
observación y medida exclusivamente: hablamos de estudios observacionales, “experimentos”
mensurativos, o “experimentos naturales”. Generalmente el tratamiento estadístico en ambos casos
es idéntico, pero la diferencia radica en la confianza y generalidad que podemos atribuir a las
conclusiones derivadas del estudio. En cualquier caso, los principios generales del diseño
experimental deben ser igualmente aplicados.
Elementos clave en el diseño experimental:
1. Replicación y pseudorreplicación. Replicar consiste en disponer al menos de dos

unidades experimentales por cada tipo de tratamiento. La incorrecta consideración de lo que
constituye una unidad experimental se conoce como pseudorreplicación.
2. Aleatorización y espaciamiento. Otro aspecto fundamental es la distribución de las

réplicas en el espacio: un esquema de disposición espacial aceptable debe considerar la
adecuada separación o espaciamiento (interspersion) de aquellas unidades experimentales
con el mismo tratamiento. Lo ideal es una distribución aleatoria.

3. Control del diseño. Por control del diseño nos referimos a la consideración de otros
elementos que tiene por objeto reducir el error experimental.
Para reducir el error experimental (es decir, para que las conclusiones de las comparaciones
estadísticas sean más precisas), hay que considerar:
a) usar unidades experimentales más homogéneas
b) usar información de variables adicionales medidas en cada unidad experimental (análisis

de la covarianza)
c) usar más réplicas
d) usar un diseño experimental más eficiente: diseños equilibrados o “balanceados”

(balancing) y uso de bloques (blocking).
4.2 IDENTIFICAR LOS ELEMENTOS DE ANOVA (ANÁLISIS DE VARIANZA):
El análisis de varianza (ANOVA) es la técnica central en el análisis de datos experimentales. La idea

general de esta técnica es separar la variación total en las partes con las que contribuye cada fuente
de variación en el experimento. En el caso del DCA se separan la variabilidad debida a los
tratamientos y la debida al error. Cuando la primera predomina “claramente” sobre la segunda, es

cuando se concluye que los tratamientos tienen efecto (figura 3.1b), o dicho de otra manera, las
medias son diferentes. Cuando los tratamientos no dominan contribuyen igual o menos que el error,
por lo que se concluye que las medias son iguales (figura 3.1a). Antes de comenzar con el análisis
del DCA se introduce alguna notación que simplifica la escritura de las expresiones involucradas en
dicho análisis.
- Notación de puntos
Sirve para representar de manera abreviada cantidades numéricas que se pueden calcular a partir de
los datos experimentales, donde Yij representa la j-ésima observación en el tratamiento i, con i = 1,
2, …, k y j = 1, 2, …, ni. Las cantidades de interés son las siguientes:

Note que el punto indica la suma sobre el correspondiente subíndice. Así, algunas relaciones válidas
son:
Donde es el total de observaciones.
- ANOVA
El objetivo del análisis de varianza en el DCA es probar la hipótesis de igualdad de los tratamientos
con respecto a la media de la correspondiente variable de respuesta:
La cual se puede escribir en forma equivalente como:
Donde es el efecto del tratamiento i sobre la variable de respuesta. Si se acepta H0 se confirma

que los efectos sobre la respuesta de los k tratamientos son estadísticamente nulos (iguales a cero),
y en caso de rechazar se estaría concluyendo que al menos un efecto es diferente de cero.
La equivalencia de las hipótesis (3.3) y (3.4) se deduce directamente del modelo asociado al diseño
(ecuación 3.2)² pero se observa más fácilmente en la figura 3.2, que es una manera de representar

el diseño completamente al azar. En dicha figura se ve que , el efecto del tratamiento i,

es la distancia entre la respuesta media del tratamiento, y la respuesta media global, y cuando
un efecto es igual a cero equivale a decir que la media del tratamiento correspondiente es igual a la
media global. Así, se observa que para que todas las respuestas medias de tratamientos sean
iguales a la respuesta media global , representada por la línea horizontal, se requiere que todos
los efectos sean iguales a cero.
Para probar la hipótesis dada por las relaciones (3.3) o (3.4) mediante la técnica de ANOVA, lo
primero es descomponer la variabilidad total de los datos en sus dos componentes: la variabilidad
debida a tratamientos y la que corresponde al error aleatorio, como se hace a continuación.
Una medida de la variabilidad total presente en las observaciones de la tabla 3.3 es la suma total de
cuadrados dada por:
donde el primer componente es la suma de cuadrados de tratamientos (SC TRAT) y el segundo es la

suma de cuadrados del error (SCE). Al observar con detalle estas sumas de cuadrados se aprecia que
la SCTRAT mide la variación o diferencias entre tratamientos, ya que si éstos son muy diferentes entre
sí, entonces la diferencia tenderá a ser grande en valor absoluto, y con ello también será grande
la SCTRAT. Mientras que la SCE mide la variación dentro de tratamientos, ya que si hay mucha variación
entre las observaciones de cada tratamiento entonces tenderá a ser grande en valor absoluto.

En forma abreviada, esta descomposición de la suma total de cuadrados se puede escribir como:
Como hay un total de observaciones, la SCT tiene N – 1 grados de libertad. Hay k

tratamientos o niveles del factor de interés, así que SCTRAT tiene k – 1 grados de libertad, mientras que
la SCE tiene N – k. Los grados de libertad que corresponden a los términos de la igualdad (3.5)
cumplen una relación similar dada por:
Las sumas de cuadrados divididas entre sus respectivos grados de libertad se llaman cuadrados
medios. Los dos que más interesan son el cuadrado medio de tratamientos y el cuadrado medio del
error, que se denotan por:
Los valores esperados de los cuadrados medios están dados por:
En estas expresiones se aprecia que cuando la hipótesis nula es verdadera, ambos cuadrados medios
estiman la varianza ya que el segundo término de la expresión para el E (CMTRAT) sería igual a cero.
Con base en este hecho se construye el estadístico de prueba como sigue: se sabe que SC E y SCTRAT
son independientes, por lo que son dos variables aleatorias independientes con
distribución ji-cuadrada con N – k y k – 1 grados de libertad, respectivamente. Entonces, bajo el
supuesto de que la hipótesis H0 (relaciones 3.3 y 3.4) es verdadera, el estadístico

sigue una distribución F con (k – 1) grados de libertad en el numerador y (N – k) grados de libertad en

el denominador. De las ecuaciones (3.6) y (3.7) se deduce que si F0 es grande, se contradice la
hipótesis de que no hay efectos de tratamientos; en cambio, si F 0 es pequeño se confirma la validez
de H0. Así, para un nivel de significancia α prefijado, se rechaza H0 si , donde
es el percentil (1 – α) × 100 de la distribución F. También se rechaza H0 si el valor-p < α, donde el
valor-p es el área bajo la distribución a la derecha del estadístico F0, es decir, el valor-p =
.
Toda la información necesaria para calcular el estadístico F0 hasta llegar al valor-p se escribe en la
llamada tabla de análisis de varianza (ANOVA) que se muestra en la tabla 3.4. En esta tabla, las
abreviaturas significan lo siguiente: FV = fuente de variabilidad (efecto), SC = suma de cuadrados, GL
= grados de libertad, CM = cuadrado medio, F0 = estadístico de prueba, valor-p = significancia
observada.
Debemos señalar que el caso particular de comparar dos tratamientos suponiendo varianzas
desconocidas pero iguales también se puede analizar con el ANOVA y se obtiene el mismo valor del
valor-p que con la prueba T. Es fácil comprobar que el estadístico t0 de la prueba T elevado al cuadrado
es igual al estadístico F0 (3.7) de la prueba F del ANOVA. Por último, es importante resaltar que el
ANOVA supone que la variable de respuesta se distribuye normal, con varianza constante (los
tratamientos tienen varianza similar) y que las mediciones son independientes entre sí. Estos
supuestos deben verificarse para estar más seguros de las conclusiones obtenidas.
Análisis del ejemplo (Comparación de cuatro tipos de cuero)
La interrogante que se planteó en el problema de la comparación entre los cuatro tipos de cuero fue:
¿existen diferencias entre el desgaste promedio de los diferentes tipos de cuero? La respuesta a esta
pregunta es el resultado de contrastar las hipótesis:

En la tabla 3.5 se muestra el análisis de varianza para este ejemplo. Como el valor-p = 0.0000 es
menor que la significancia prefijada a = 0.05, se rechaza H0 y se acepta que al menos un par de tipos
de cuero tienen un desgaste promedio diferente.
Si al menos un tipo de cuero se desgasta de forma diferente de otro, entonces ¿cuáles tipos de cuero
son diferentes entre sí? Para responder esta pregunta se realizan todas las comparaciones posibles,
dos a dos entre las medias de tratamientos, para lo cual existen varios métodos de prueba conocidos
genéricamente como métodos de comparaciones múltiples.
Además de la tabla 3.5 del ANOVA se observa que la variación total en 24 datos de este experimento
fue de 9 101. De esta cantidad, 7 072 se debe a las diferencias entre los tipos de cuero y 2 029
corresponde a la diferencia entre los cueros del mismo tipo. Al ponderar esto por los correspondientes
grados de libertad, se obtienen los cuadrados medios que reflejan la magnitud real de cada fuente de
variación. Así, vemos que las diferencias debido al tipo de cuero es de 2 357 y que el error es de 101;
por lo tanto, la primera es 23.2 veces más grande que la segunda, lo cual indica que las diferencias
observadas entre los tipos de cuero son significativas y que no se deben a pequeñas variaciones
muestrales (error).

4.2.1 FUENTES DE VARIACIÓN
La variación observada del proceso se divide en dos fuentes:
- Variación entre las partes

La variabilidad en las mediciones entre las diferentes partes. Lo ideal sería que las diferencias de una
parte a otra (Entre las partes) explicaran la mayor parte de la variabilidad.
- Variación del sistema de medición

La variación del sistema de medición es toda la variación asociada con un proceso de medición. Las
fuentes potenciales de variación incluyen los dispositivos de medición, las normas, los procedimientos,
el software, los componentes del ambiente, etc.
Como cualquier otro proceso, un sistema de medición está sujeto tanto a variación por causa común
como a variación por causa especial. Para controlar la variación del sistema de medición, primero
debe identificar las fuentes de la variación y, luego, debe eliminar o reducir las diversas causas. La
variación del sistema de medición se divide en dos fuentes:
- Repetibilidad
La repetibilidad es la variación causada por el dispositivo de medición. Es la variación que se observa
cuando el mismo operador mide la misma parte muchas veces, usando el mismo sistema de medición,
bajo las mismas condiciones.
- Reproducibilidad
La reproducibilidad es la variación causada por el sistema de medición. Es la variación que se observa
cuando diferentes operadores miden la misma parte muchas veces, usando el mismo sistema de
medición, bajo las mismas condiciones.
La reproducibilidad se puede dividir en dos fuentes:
 Operador: La variabilidad de las mediciones debido a los diferentes operadores.

 Operador por parte: La variabilidad de las mediciones debido a diferentes

combinaciones de operador/parte después de considerar la parte y el operador por
separado.
4.2.2 SUMA DE CUADRADOS
La suma de cuadrados representa una medida de variación o desviación con respecto a la media. Se
calcula como una suma de los cuadrados de las diferencias con respecto a la media. El cálculo de la
suma total de los cuadrados considera tanto la suma de los cuadrados de los factores como la de
aleatoriedad o error.
- SUMA DE CUADRADOS EN ANOVA
En el análisis de varianza (ANOVA), la suma total de los cuadrados ayuda a expresar la variación total
que se puede atribuir a diferentes factores. Por ejemplo, usted hace un experimento para probar la
efectividad de tres detergentes para ropa.
La suma total de los cuadrados = suma de los cuadrados del tratamiento (SST) + suma de los
cuadrados del error residual (SSE)
La suma de los cuadrados del tratamiento es la variación atribuida a, o en este caso entre, los
detergentes para ropa. La suma de los cuadrados del error residual es la variación atribuida al error.
El convertir la suma de los cuadrados en cuadrados medios al dividir entre los grados de libertad le
permitirá comparar estas relaciones y determinar si existe una diferencia significativa debido al
detergente. Mientras mayor sea esta relación, más afectarán los tratamientos el resultado.
- SUMA DE CUADRADOS EN REGRESIÓN
En la regresión, la suma total de los cuadrados ayuda a expresar la variación total de las Y. Por
ejemplo, usted recoge datos para determinar un modelo que explique las ventas generales en
función de su presupuesto de publicidad.
La suma total de los cuadrados = suma de los cuadrados de la regresión (SSR) + suma de los
cuadrados del error residual (SSE)

La suma de los cuadrados de la regresión es la variación atribuida a la relación entre las X y las Y o,
en este caso, entre el presupuesto de publicidad y las ventas. La suma de los cuadrados del error
residual es la variación atribuida al error.
Al comparar la suma de los cuadrados de la regresión con la suma total de los cuadrados, se determina
la proporción de la variación total que es explicada por el modelo de regresión (R 2, el coeficiente de
determinación). Mientras más grande sea este valor, mejor será la relación que explique las ventas en
función del presupuesto de publicidad.
4.2.3 CUADRADOS MEDIOS
Los cuadrados medios representan una estimación de la varianza de la población. Se calculan

dividiendo la suma correspondiente de los cuadrados entre los grados de libertad.
- ANOVA
En ANOVA, los cuadrados medios se utilizan para determinar si los factores (tratamientos) son
significativos.
- El cuadrado medio del tratamiento se obtiene dividiendo la suma de los cuadrados del
tratamiento entre los grados de libertad. El cuadrado medio del tratamiento representa la
variación entre las medias de las muestras.
- El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados del error
residual entre los grados de libertad. El MSE representa la variación dentro de las muestras.
Por ejemplo, usted hace un experimento para probar la efectividad de tres detergentes para ropa.
Recolecta 20 observaciones para cada detergente. La variación entre las medias de Detergente 1,
Detergente 2 y Detergente 3 es representada por el cuadrado medio del tratamiento. La variación
dentro de las muestras es representada por el cuadrado medio del error.

- REGRESIÓN
En regresión, los cuadrados medios se utilizan para determinar si los términos de un modelo son
significativos.
- El cuadrado medio del término se obtiene dividiendo la suma de los cuadrados del término
entre los grados de libertad.
- El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados del error
residual entre los grados de libertad. El MSE es la varianza (s2) en torno a la línea de regresión
ajustada.
Al dividir el MS (término) entre el MSE, se obtiene F, que sigue la distribución F con grados de libertad
para el término y grados de libertad para el error.
4.2.4 ESTADÍSTICO DE PRUEBA
Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se
utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si puede
rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera bajo la
hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.
Un estadístico de prueba mide el grado de concordancia entre una muestra de datos y la hipótesis
nula. Su valor observado cambia aleatoriamente de una muestra aleatoria a una muestra diferente.
Un estadístico de prueba contiene información acerca de los datos que es relevante para decidir si se
puede rechazar la hipótesis nula. La distribución del muestreo del estadístico de prueba bajo la
hipótesis nula se denomina distribución nula. Cuando los datos muestran evidencia clara en contra de
los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve demasiado grande
o demasiado pequeña dependiendo de la hipótesis alternativa. Esto hace que el valor p de la prueba
se vuelva lo suficientemente pequeño como para rechazar la hipótesis nula.
Por ejemplo, el estadístico de prueba para una prueba Z es el estadístico Z, que sigue la distribución
normal estándar bajo la hipótesis nula. Supongamos que usted realiza una prueba Z de dos colas con
un nivel de significancia (α) de 0.05 y un obtiene un estadístico Z (también denominado valor Z) de 2.5

basado en sus datos. Este valor Z corresponde a un valor p de 0.0124. Puesto que este valor p es
menor que α, usted declara significancia estadística y rechaza la hipótesis nula.
Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según el modelo de
probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus respectivos estadísticos de
prueba incluyen:
4.3 EXPLICAR EL PROCESO DE CONSTRUCCIÓN E INTERPRETACIÓN DE LA TABLA

ANOVA
- Análisis de varianza
Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con medias
iguales, cuando hay más de dos poblaciones en estudio.
El análisis de varianza (ANOVA) permite comparar simultáneamente todas las medias, evitando tener
que realizar pruebas en grupos de dos.
La comparación de las medias muestrales se basa en las varianzas muestrales.
Suposiciones para el análisis de varianza:
1) Las poblaciones tienen distribución normal.
2) Las poblaciones tienen varianzas iguales.
3) Las muestras son independientes.

Todos estos resultados se los ordena en un cuadro denominado tabla de análisis de varianza.

El último cociente es el valor de una variable que tiene distribución F. Este estadístico se usa para la
prueba de hipótesis.
- Tabla de análisis de varianza
En la ecuación SCT = SCR + SCE
SRC tiene 1 grado de libertad (varianza ponderada con el modelo de dos parámetros)
SCE tiene n-2 grados de libertad (existen n datos y dos parámetros en el modelo)
SCT tiene n-1 grados de libertad (suma de grados de libertad de SCR y SCT)
Si cada uno se divide por el número de grados de libertad se obtienen los cuadrados medios.
Todos esto resultados se los ordena en un cuadro denominado tabla de análisis de varianza o tabla
ANOVA.

- CONCLUSIONES
En conclusión, la estadística inferencial es la que se encarga de estudiar cómo obtener conclusiones

generales acerca de una población, basándose en el estudio de una muestra de la misma población,
así como también estudia qué tan confiable puede ser la conclusión sacada y lo que significan o cómo
se interpretan los resultados obtenidos.
Los conceptos descritos en este documento están relacionados con la estadística inferencial, y forman
parte de su estudio, como es la estimación, que no es más que establecer un valor que debe tener
un parámetro mediante deducciones sacadas de un resultado muestral de una población, así mismo
pueden haber clasificaciones de estimaciones; por otra parte en el concepto de prueba hipótesis, se
concluye que es un procedimiento que se lleva a cabo entre el estadístico de muestra y el valor
planteado del parámetro, así como también se describen los tipos de hipótesis y los errores que
pueden presentarse en su estudio.
Para finalizar, los temas expuestos en este documento, nos sirven para tener conocimiento acerca de
la estadística inferencial, así como de todos los conceptos que se relacionan con ella en el momento
en el que es empleada para un estudio de muestras y poblaciones, conociendo de igual manera, el
modo o procedimiento en el que se basa la estadística inferencial.

- FUENTES DE INFORMACIÓN
 Spiegel, M. R., Stephens L.J. (2009). ESTADÍSTICA (4ta. Ed.). México. McGraw-Hill/ INTERAMERICANA
EDITORES. ISBN-13: 978-970-10-6887-8
 Walpole R.E, Myers R. H., Myers S.L., Ye k. (2007). PROBABILIDAD Y ESTADÍSTICA PARA INGENIERÍA Y
CIENCIAS. (8va. Ed.). México. Pearson Educación. ISBN 10: 970-26-0936-4
 Canavos G. C. (1988). PROBABILIDAD Y ESTADÍSTICA, APLICACIONES Y MÉTODOS. México. McGraw-Hill/
INTERAMERICANA EDITORES. ISBN 968-451-856-0
 Ojeda R.L. (2007). PROBABILIDAD Y ESTADPISTICA BÁSICA PARA INGENIEROS. Guayaquil, Ecuador.
Instituto de Ciencias Matemáticas ESPOL. ISBN 978-9942-922-02-1
 Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. 4ª ed. Springer, New York.
 http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_ESTA
DISTICA/DOC_%20INFERENCIA/TEMA%204/09%20REGRESION%20Y%20CORRELACION%20LINEAL%2
0SIMPLE.pdf
 http://cursos.aiu.edu/Fundamentos%20de%20Estad%C3%ADstica/pdf/Tema%205.pdf
 http://www.jomaneliga.es/PDF/Administrativo/Calidad/Diagrama_Correlacion_Dispersion.pdf
 https://ingenioempresa.com/diagrama-de-
dispersion/#Como_hacer_un_diagrama_de_dispersion_paso_a_paso
 https://www.uv.es/ceaces/pdf/regre.pdf
 http://www.fce.unal.edu.co/media/files/UIFCE/Economia/Herramientas_de_Software_Aplicadas_al_Metodo_de
_Regresion_Lineal.pdf
 https://www.ingenieriaindustrialonline.com/pronostico-de-la-demanda/regresion-lineal/
 https://support.minitab.com/es-mx/minitab/19/help-and-how-to/quality-and-process-
improvement/measurement-system-analysis/supporting-topics/basics/sources-of-process-
variation/#:~:text=La%20variaci%C3%B3n%20observada%20del%20proceso,mediciones%20entre%20las%2
0diferentes%20partes.&text=Es%20la%20variaci%C3%B3n%20que%20se%20observa%20cuando%20diferen
tes%20operadores%20miden,medici%C3%B3n%2C%20bajo%20las%20mismas%20condiciones.
 https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-
topics/anova-statistics/understanding-sums-of-
squares/#:~:text=La%20suma%20de%20cuadrados%20representa,la%20de%20aleatoriedad%20o%20error.
 https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-
topics/anova-statistics/understanding-mean-squares/

Act 1 - U3 - Investigación - 3a

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Act 1 - U3 - Investigación - 3a

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD TECNOLOGICA DE CAMPECHE.

TSU EN MANTENIMIENTO INDUSTRIAL

SEPTIEMBRE – DICIEMBRE 2020

UNIDAD 3: ESTADÍSTICA INFERENCIAL

COMPRENDER LAS ESTIMACIONES DE DATOS ESTADÍSTICOS PARA CONTRIBUIR A LA

ACTIVIDAD 1. INVESTIGACIÓN: ESTADÍSTICA INFERENCIAL.

• ARIAS MAY THAILY

ING. JOSÉ FELIPE BAQUEIRO HIDALGO

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

1.1 DEFINIR EL CONCEPTO DE ESTIMACIÓN

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

 Puntual: cuando buscamos un valor concreto.

1.2 EXPLICAR LOS TIPOS DE ESTIMACIÓN Y MEDIAS PROPORCIONES:

A una estimación de un parámetro poblacional que se da mediante un solo número se le llama

La información sobre el error (o precisión) de una estimación es su confiabilidad.

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

1.2.2 POR INTERVALO

Donde Li y Ls son los limites inferior y superior.

Sean µS y σS la media y la desviación estándar (error estándar), respectivamente, de la distribución

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

Sea Ho: alguna hipótesis que se propone para el parámetro de interés.

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

2.1 DEFINIR LOS CONCEPTOS DE:

Un procedimiento de decisión debe hacerse con la noción de la probabilidad de una conclusión

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

2.1.2 HIPÓTESIS NULA

2.1.3 HIPÓTESIS ALTERNATIVA

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

2.1.4 ERROR TIPO I Y II

Algunos valores típicos para α son: 10%, 5%, 2%, 1%.

2.2 EXPLICAR EL MÉTODO DE LA PRUEBA DE HIPÓTESIS CON UNA Y DOS

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

- Prueba de hipótesis no direccionada, de dos colas o bilateral.

- Prueba de hipótesis direccionada, de una cola o unilateral

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

- Procedimiento para realizar una prueba de hipótesis

- Prueba de hipótesis relacionada con la media

Caso n>30 (Muestra grande)

 Paso 1: Formular la hipótesis nula:

 Paso 2: Formular una hipótesis alterna:

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

 Paso 3: Especificar el nivel de significancia de la prueba: α

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

2.2.1 ESTABLECIMIENTO DE HIPÓTESIS

Un procedimiento de decisión debe hacerse con la noción de la probabilidad de una conclusión

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

p = 0.10, la probabilidad de obtener 20 o más defectuosos es aproximadamente 0.002. Con el

2.2.2 CRITERIO DE ACEPTACIÓN

Un contraste de hipótesis no establece la verdad de las hipótesis, sino un criterio de aceptación de la

Las hipótesis estadísticas pueden ser de dos tipos:

- Paramétricas: La hipótesis se realiza sobre los valores de un parámetro de la población,

2.2.3 ESTADÍSTICO DE PRUEBA

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

3. REGRESIÓN LINEAL Y CORRELACIÓN

El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la

Los datos necesarios para análisis de regresión y correlación provienen de observaciones de

SAN ANTONIO CÁRDENAS, CARMEN, CAMPECHE A 7 DE DICIEMBRE DE 2020

3.1 IDENTIFICAR EL PROCESO DE CONSTRUCCIÓN DEL DIAGRAMA DE