Proyecto Angel

UNIVERSIDAD TECNOLÓGICA LINARES
TECNICO SUPERIOR UNIVERSITARIO EN

MANTENMIENTO DE ÁREA INDUSTRIAL
PROBABILIDAD Y ESTADISTICAS
PROYECTO 2
MAI03-A
ANGEL JESUS SILVA MORENO
EMILY GUADALUPE SANCHEZ MATA
13 AGOSTO 2023
INTRODUCCION
A continuación en este tema hablaremos sobre los temas de estadística El

diagrama de dispersión, o gráfico de dispersión, es un tipo de diagrama estadístico
en el que se representa gráficamente un conjunto de datos de dos variables en
dos ejes de coordenadas cartesianas. Por lo tanto, los diagramas de dispersión
sirven para analizar la relación entre dos variables estadísticas
Los gráficos de dispersión muestran cómo están relacionadas dos variables

continúas poniendo una variable en el eje x y una segunda, en el eje y.
Un gráfico de dispersión para regresión incluye la variable de respuesta en el eje

y y la de entrada en el eje x.
Cabe destacar que el diagrama de dispersión se considera como una de las
herramientas básicas de control de calidad, junto con el diagrama de Pareto,

el diagrama de causa-efecto, el diagrama de flujo, etc.
¿Qué es un diagrama de dispersión?
El diagrama de dispersión, o gráfico de dispersión, es un tipo de diagrama

estadístico en el que se representa gráficamente un conjunto de datos de dos
variables en dos ejes de coordenadas cartesianas.
Por lo tanto, los diagramas de dispersión sirven para analizar la relación entre dos
variables estadísticas.
El diagrama de dispersión y la correlación
A partir de un diagrama de dispersión se puede identificar qué tipo de correlación

tienen dos variables:
 Correlación directa (o correlación positiva): una variable aumenta

cuando la otra también aumenta.
o Correlación inversa (o correlación negativa): cuando una variable

aumenta la otra disminuye, y al revés, si una variable disminuye la
otra aumenta.
 Correlación nula (sin correlación): no existe ninguna relación entre las
dos variables.
Asimismo, independientemente de si la correlación entre las dos variables es
directa o inversa, la correlación también se puede clasificar en función de cuanto
de fuerte o débil es la relación entre ambas variables.
 Correlación fuerte: las dos variables están muy relacionadas. Los puntos

están muy juntos entre sí en el diagrama de dispersión. En consecuencia,
resulta más fácil identificar la relación entre las variables.
 Correlación débil: existe una relación entre las dos variables, pero resulta
difícil de identificar. Los puntos están muy separados en el diagrama de
dispersión.
Por otro lado, la correlación también se puede calcular numéricamente mediante
una fórmula, así se puede saber matemáticamente cuánto de relacionadas están
dos variables diferentes
Ventajas y desventajas del diagrama de dispersión
Debido a las características del diagrama de dispersión, este tipo de gráficos

estadísticos tienen sus ventajas y sus desventajas.
Ventajas:
 Resulta bastante fácil representar una serie de datos en un diagrama

de dispersión.
 El diagrama de dispersión permite analizar de manera visual la

relación entre dos variables, lo que facilita extraer conclusiones.
 Los gráficos de dispersión también pueden utilizarse en un estudio

estadístico exhaustivo como una exploración previa de los datos.
Desventajas:
 Este tipo de diagramas no son útiles para representar variables

cualitativas.
 La interpretación de un diagrama de dispersión puede llevar a una

conclusión errónea de causa-efecto entre dos variables.
 Los diagramas de dispersión no permiten analizar la relación entre

más de dos variables.
¿QUÉ ES EL ANÁLISIS DE REGRESIÓN LINEAL?
La regresión lineal es, sin duda, uno de los métodos de modelización

estadística los más utilizados. Se suele distinguir entre regresión simple (con una
sola variable explicativa) y regresión múltiple (varias variables explicativas),
aunque el concepto general y los métodos de cálculo son idénticos.
El principio de la regresión lineal consiste en modelizar una variable dependiente

cuantitativa Y mediante una combinación lineal de p variables explicativas
cuantitativas, X1, X2, ..., Xp. La ecuación de regresión lineal se escribe para la
observación i como sigue
donde y_i es el valor observado de la variable dependiente para la observación i,

x_{ki} es el valor que toma la variable k para la observación i, y e_i es el error del
modelo.
Dado que el modelo se encuentra utilizando el método de mínimos cuadrados

ordinarios (OLS) (se minimiza la suma de errores cuadrados e_i²), muchos se
preguntan: ¿es OLS lo mismo que la regresión lineal? En realidad no, OLS
simplemente es el nombre del método que nos permite encontrar la ecuación de la
línea de regresión.
Las hipótesis de la regresión lineal son que los errores e_i siguen la misma
distribución normal N(0,s) y son independientes.
IR MÁS ALLÁ: SELECCIÓN DE VARIABLES EN LA REGRESIÓN LINEAL

No todas las variables son importantes o significativas en el modelo de regresión
lineal. Es posible seleccionar solo las más importantes utilizando uno de los cuatro
métodos disponibles en XLSTAT:
 Mejor modelo: Este método permite seleccionar el mejor modo entre todos
los modelos que pueden manejar un número de variables que varía de
"Variables mínimas" a "Variables máximas". Además, el usuario puede
elegir varios "criterios" para determinar el mejor modelo: R² ajustado,
cuadrado medio de los errores (MSE), Cp de Mallows, AIC de Akaike, SBC
de Schwarz, PC de Amemiya.
 El proceso de selección comienza añadiendo la variable con la mayor
contribución al modelo (el criterio utilizado es el estadístico t de Student). Si
una segunda variable es tal que la probabilidad asociada a su t es menor
que la "Probabilidad de entrada", se añade al modelo. Lo mismo ocurre con
una tercera variable. Una vez añadida la tercera variable, se evalúa el
impacto de la eliminación de cada variable presente en el modelo después
de haberla añadido (siempre utilizando el estadístico t). Si la probabilidad es
mayor que la "Probabilidad de eliminación", se elimina la variable. El
procedimiento continúa hasta que no se puedan añadir o eliminar más
variables.
 Hacia adelante: El procedimiento es el mismo que para la selección por

pasos, excepto que las variables solo se añaden y nunca se eliminan.
 Hacia atrás: El procedimiento comienza añadiendo simultáneamente todas

las variables. A continuación, las variables se eliminan del modelo utilizando
el mismo procedimiento que para la selección por pasos.
¿Qué es el diseño de experimentos?
El diseño de experimentos se define como una rama de la estadística aplicada que
se ocupa de la planificación, realización, análisis e interpretación de pruebas
controladas para evaluar los factores que controlan el valor de un parámetro o
grupo de parámetros.
El diseño de experimentos es una poderosa herramienta de recopilación y análisis

de datos que se puede utilizar en una variedad de situaciones experimentales.
Variables en los diseños experimentales
En el diseño de experimentos, es fundamental tener claro cuáles son las variables

a medir.
La variable independiente es aquella que se modifica en el experimento, mientras

que la variable dependiente es la que se mide como respuesta a la variable
independiente.
Además, existen variables que deben mantenerse constantes durante el

experimento, conocidas como variables de control.
Análisis de resultados
Una vez que se ha llevado a cabo el experimento, se procede al análisis de los

resultados.
Para ello, se utilizan técnicas estadísticas que permiten determinar si existe una
relación significativa entre las variables medidas.
Uno de los análisis más utilizados es el análisis de varianza (ANOVA), que

compara las medias de dos o más grupos.
En síntesis, el diseño de experimentos es una herramienta fundamental en la

investigación científica que permite determinar la relación entre las variables
independientes y dependientes.
Para ello, es importante tener claras las variables a medir y utilizar el diseño
experimental adecuado. Además, el análisis de resultados es fundamental para
determinar si existe una relación significativa entre las variables.
Posteriormente, será necesario presentar el informe de

experimento correspondiente donde se describen las variables, el proceso y los
hallazgos, entre otras cosas.
Tipos de diseños experimentales
A continuación, se detallarán los tipos de diseños experimentales más comunes:
Diseño completamente aleatorizado
En este diseño experimental, los sujetos son asignados aleatoriamente a uno de

los grupos experimentales o al grupo de control.
Este diseño se utiliza cuando se quiere controlar la variabilidad de las variables

que no se están midiendo y se tienen pocas variables independientes.
Es importante que la asignación a los grupos sea completamente aleatoria para

evitar sesgos en los resultados.
Diseño factorial
El diseño factorial es utilizado cuando se quiere estudiar el efecto de dos o más

variables independientes en una variable dependiente.
Este diseño permite estudiar el efecto de cada variable independiente de forma

individual y en combinación con otras variables independientes.
Además, es posible estudiar interacciones entre las variables independientes.
En este diseño, se pueden tener varias combinaciones de niveles de las variables

independientes y se deben controlar las variables de confusión.
Diseño de bloques al azar
El diseño de bloques al azar se utiliza cuando se quiere controlar una variable que
puede afectar los resultados y que no se quiere medir como variable
independiente.
En este diseño, los sujetos se agrupan en bloques de acuerdo a la variable de

control y dentro de cada bloque, se asignan aleatoriamente a los grupos
experimentales o al grupo de control.
Diseño cuasi-experimental
En este diseño experimental, no se utiliza asignación aleatoria a los grupos

experimentales y control. Por lo que, se considera como un tipo de investigación
impuro, es decir, se aleja un poco de lo que es un diseño de experimento.
Este diseño se utiliza cuando no es ético o posible utilizar la asignación aleatoria,

como en estudios que involucran intervenciones en poblaciones completas o en
casos de estudios observacionales.
El diseño requiere un análisis cuidadoso de las variables que pueden afectar los
resultados.
En conclusión, la elección del diseño experimental adecuado dependerá de los
objetivos del experimento y de la cantidad de variables involucradas.
Es importante tener en cuenta que cada diseño experimental tiene sus fortalezas y
debilidades y que es importante seleccionar el diseño más adecuado para obtener
resultados precisos y confiables.
Aplicaciones del diseño de experimento
El diseño de experimento es una herramienta fundamental en la investigación

científica, pero también se utiliza en otras áreas como la industria, la medicina, la
psicología, la agricultura, entre otras.
A continuación, se detallarán algunas de las aplicaciones más comunes del diseño

experimental:
Investigación científica
El diseño experimental se utiliza en la investigación científica para establecer

relaciones causales entre las variables independientes y la variable dependiente.
Este tipo de investigación se utiliza para descubrir nuevos conocimientos, probar

hipótesis y mejorar la comprensión de procesos naturales o sociales.
Control de calidad
En la industria, el diseño experimental se utiliza para controlar la calidad de los

productos y procesos.
Por ejemplo, se puede utilizar el diseño factorial para estudiar el efecto de

diferentes variables en la calidad de un producto y determinar las condiciones
óptimas de producción.
Evaluación de tratamientos médicos
El diseño experimental se utiliza en la medicina para evaluar la eficacia y

seguridad de tratamientos médicos.Por ejemplo, se puede utilizar un diseño de
ensayo clínico aleatorizado para evaluar la efectividad de un nuevo medicamento
en comparación con un placebo o un medicamento existente.
Mejora de la producción agrícola
El diseño experimental se utiliza en la agricultura para mejorar la producción de

cultivos.
Por ejemplo, se puede utilizar el diseño factorial para estudiar el efecto de

diferentes niveles de fertilizantes, agua y luz en la producción de un cultivo y
determinar las condiciones óptimas para su crecimiento.
Psicología y ciencias sociales
El diseño experimental se utiliza en la psicología y ciencias sociales para estudiar

el comportamiento humano y las relaciones entre las variables.
Por ejemplo, se puede utilizar un diseño factorial para estudiar el efecto de

diferentes niveles de estrés y apoyo social en la salud mental de una población.
El diseño experimental tiene aplicaciones en diversas áreas, desde la

investigación científica hasta la industria y la agricultura. El diseño experimental
permite controlar las variables y establecer relaciones causales entre las variables
independientes y la variable dependiente, lo que lo convierte en una herramienta
valiosa para la toma de decisiones y la mejora de procesos.
Conclusiones
En conclusión, el diseño de experimentos es una herramienta fundamental en la

investigación científica y tiene diversas aplicaciones en la industria, la medicina, la
psicología, la agricultura y otras áreas.
Es importante tener en cuenta los conceptos básicos del diseño de experimentos,
como la identificación de las variables y el uso del diseño experimental adecuado.
Los diseños experimentales más comunes incluyen el diseño completamente

aleatorizado, el diseño factorial, el diseño de bloques al azar y el diseño cuasi-
experimental.
El análisis de los resultados es fundamental para determinar si existe una relación

significativa entre las variables y se utilizan técnicas estadísticas como el análisis
de varianza (ANOVA) para ello.
La elección del diseño experimental adecuado dependerá de los objetivos del

experimento y de la cantidad de variables involucradas.
En general, el diseño experimental es una herramienta poderosa para controlar

variables y establecer relaciones causales entre las variables independientes y la
variable dependiente.
Su uso adecuado permite obtener resultados precisos y confiables, lo que facilita

la toma de decisiones y la mejora de procesos en diferentes áreas del
conocimiento.
¿Qué es la Variabilidad en Estadística?
La variabilidad (también llamada propagación o dispersión ) se refiere a qué

tan disperso está un conjunto de datos. La variabilidad le brinda una manera
de describir cuánto varían los conjuntos de datos y le permite usar
estadísticas para comparar sus datos con otros conjuntos de datos. Las
cuatro formas principales de describir la variabilidad en un conjunto de datos
son:
 Rango intercuartil
 Diferencia
 Desviación estándar .
Distancia
El rango es la cantidad entre el artículo más pequeño y el más grande del

conjunto. Puedes encontrar el rango restando el número más pequeño del
más grande. Por ejemplo, digamos que ganó $250 una semana, $30 la
semana siguiente y $800 la tercera semana. El rango de su pago (es decir,
cuánto varía) es de $30 a $800.
Rango Inter cuartil

El rango intercuartílico es casi lo mismo que el rango, solo que en lugar de
indicar el rango para todo el conjunto de datos, está dando la cantidad para
los » cincuenta del medio «. A veces es más útil que el rango porque le dice
dónde se encuentran la mayoría de sus valores. La fórmula es IQR = Q3 –
Q1, donde Q3 es el tercer cuartil y Q1 es el primer cuartil. Básicamente,
toma uno de los valores más pequeños (en el percentil 25) y lo resta de uno
de los valores más grandes (en el percentil 75). La siguiente gráfica de caja
muestra el rango intercuartílico, representado por la caja. Los bigotes (las
líneas que salen de cada lado de la caja) representan el primer cuarto de los
datos y el último cuarto.
Diferencia
La varianza de un conjunto de datos le da una idea aproximada de cuán

dispersos están sus datos. Un número pequeño para la varianza significa
que su conjunto de datos está muy agrupado y un número grande significa
que los valores están más dispersos. La varianza rara vez es útil excepto
para calcular la desviación estándar.
Desviación Estándar
La desviación estándar le indica qué tan estrechamente se agrupan sus
datos alrededor de la media (el promedio ). Una SD pequeña indica que sus
datos están muy agrupados; también tendrá una curva de campana más
alta ; una SD grande le dice que sus datos están más dispersos.
¿Qué es la suma de cuadrados?
Los estadísticos y los científicos utilizan la suma de cuadrados (SS) para

evaluar la variación global de un conjunto de datos con respecto a su media.
Esta medida estadística indica lo bien que se ajustan los datos a su modelo,
especialmente en el análisis de regresión.
Como uno de los resultados más importantes del análisis de regresión, la

SS se utiliza para mostrar la variación de los datos, de forma que una suma
de cuadrados más pequeña muestra un modelo mejor y una suma de
cuadrados más grande muestra un modelo menor. Cuanto menor o mayor
sea la suma, menos o más puntos de datos individuales fluctúan respecto a
la media. Si la suma es cero, su modelo es un ajuste perfecto.
Fórmula de la suma de los cuadrados
La fórmula de la suma de cuadrados es una forma matemática de encontrar

el modelo que varía menos de los datos. Es útil tener en cuenta que los
profesionales a veces se refieren a la suma de cuadrados como «la
variación.» Aquí está la fórmula utilizada para encontrar la suma total de
cuadrados, la variación más común de este cálculo:
En esta ecuación:
 Yi = Eli en el conjunto
 ȳ = la media de todos los elementos del conjunto
¿Qué son los cuadrados medios?
Los cuadrados medios representan una estimación de la varianza de la población. Se

calculan dividiendo la suma correspondiente de los cuadrados entre los grados de
libertad.
Regresión
En regresión, los cuadrados medios se utilizan para determinar si los términos de un

modelo son significativos.
 El cuadrado medio del término se obtiene dividiendo la suma de los cuadrados

del término entre los grados de libertad.
 El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los

cuadrados del error residual entre los grados de libertad. El MSE es la varianza
(s2) en torno a la línea de regresión ajustada.
Al dividir el MS (término) entre el MSE, se obtiene F, que sigue la distribución F con

grados de libertad para el término y grados de libertad para el error.
ANOVA
En ANOVA, los cuadrados medios se utilizan para determinar si los factores

(tratamientos) son significativos.
 El cuadrado medio del tratamiento se obtiene dividiendo la suma de los

cuadrados del tratamiento entre los grados de libertad. El cuadrado medio del
tratamiento representa la variación entre las medias de las muestras.
 El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los

cuadrados del error residual entre los grados de libertad. El MSE representa la
variación dentro de las muestras.
Por ejemplo, usted hace un experimento para probar la efectividad de tres detergentes
para ropa. Recolecta 20 observaciones para cada detergente. La variación entre las
medias de Detergente 1, Detergente 2 y Detergente 3 es representada por el
cuadrado medio del tratamiento. La variación dentro de las muestras es representada
por el cuadrado medio del error.
¿Qué son los cuadrados medios ajustados?
Los cuadrados medios ajustados se calculan dividiendo la suma ajustada de los

cuadrados entre los grados de libertad. La suma ajustada de los cuadrados no
depende del orden en que los factores se ingresan en el modelo. Es la porción única
de SC Regresión explicada por un factor, si todos los demás factores están en el
modelo, independientemente del orden en que se ingresaron en el mismo.
¿Qué son los cuadrados medios esperados?
Si usted no especifica que los factores son aleatorios, Minitab presupondrá que se
trata de factores fijos. En este caso, el denominador para los estadísticos F será el
MSE. Sin embargo, para los modelos que incluyen términos aleatorios, el MSE no
siempre es el término de error correcto. Puede examinar los cuadrados medios
esperados para determinar el término de error que se utilizó en la prueba F.
Cuando usted ejecuta Modelo lineal general, Minitab muestra una tabla de
cuadrados medios esperados, componentes estimados de la varianza y el término de
error (los cuadrados medios del denominador) utilizados en cada prueba F de forma
predeterminada. Los cuadrados medios esperados son los valores esperados de
estos términos con el modelo especificado. Si no hay una prueba F exacta para un
término, Minitab calcula el término de error apropiado para construir una prueba F
aproximada. Esta prueba se denomina prueba sintetizada.
Las estimaciones de los componentes de la varianza son las estimaciones sin sesgo
del ANOVA. Se obtienen al establecer cada cuadrado medio calculado en su
cuadrado medio esperado, lo cual proporciona un sistema de ecuaciones lineales en
los componentes desconocidos de la varianza, que luego se resuelve.
Desafortunadamente, este método puede generar estimaciones negativas, que deben
establecerse en cero. Sin embargo, Minitab muestra las estimaciones negativas
porque algunas veces indican que el modelo que se está ajustando no es apropiado
para los datos. Los componentes de la varianza no se calculan para los términos fijos.
CONCLUSION
La estadística tiene como función recabar datos y luego mostrarlos a la población.

Dependiendo de que datos se trata se puede organizar de diversas formas por lo que la
conclusión sería destacar lo que se quería demostrar y los resultados . La validez de las
1
conclusiones estadísticas se da cuando las conclusiones de un estudio de investigación

se fundamentan en un análisis adecuado de los datos La Validez de la Conclusión
Estadística (SCV) es una medida de cuán razonable es una

Proyecto Angel

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proyecto Angel

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD TECNOLÓGICA LINARES

TECNICO SUPERIOR UNIVERSITARIO EN

ANGEL JESUS SILVA MORENO

EMILY GUADALUPE SANCHEZ MATA

A continuación en este tema hablaremos sobre los temas de estadística El

Los gráficos de dispersión muestran cómo están relacionadas dos variables

Un gráfico de dispersión para regresión incluye la variable de respuesta en el eje

Cabe destacar que el diagrama de dispersión se considera como una de las

herramientas básicas de control de calidad, junto con el diagrama de Pareto,

El diagrama de dispersión, o gráfico de dispersión, es un tipo de diagrama

El diagrama de dispersión y la correlación

A partir de un diagrama de dispersión se puede identificar qué tipo de correlación

 Correlación directa (o correlación positiva): una variable aumenta

o Correlación inversa (o correlación negativa): cuando una variable

 Correlación fuerte: las dos variables están muy relacionadas. Los puntos

Ventajas y desventajas del diagrama de dispersión

Debido a las características del diagrama de dispersión, este tipo de gráficos

 Resulta bastante fácil representar una serie de datos en un diagrama

 El diagrama de dispersión permite analizar de manera visual la

 Los gráficos de dispersión también pueden utilizarse en un estudio

 Este tipo de diagramas no son útiles para representar variables

 La interpretación de un diagrama de dispersión puede llevar a una

 Los diagramas de dispersión no permiten analizar la relación entre

La regresión lineal es, sin duda, uno de los métodos de modelización

El principio de la regresión lineal consiste en modelizar una variable dependiente

donde y_i es el valor observado de la variable dependiente para la observación i,

Dado que el modelo se encuentra utilizando el método de mínimos cuadrados

IR MÁS ALLÁ: SELECCIÓN DE VARIABLES EN LA REGRESIÓN LINEAL

 Hacia adelante: El procedimiento es el mismo que para la selección por

 Hacia atrás: El procedimiento comienza añadiendo simultáneamente todas

El diseño de experimentos es una poderosa herramienta de recopilación y análisis

Variables en los diseños experimentales

En el diseño de experimentos, es fundamental tener claro cuáles son las variables

La variable independiente es aquella que se modifica en el experimento, mientras

Además, existen variables que deben mantenerse constantes durante el

Una vez que se ha llevado a cabo el experimento, se procede al análisis de los

Uno de los análisis más utilizados es el análisis de varianza (ANOVA), que

En síntesis, el diseño de experimentos es una herramienta fundamental en la

Posteriormente, será necesario presentar el informe de

Tipos de diseños experimentales

A continuación, se detallarán los tipos de diseños experimentales más comunes:

Diseño completamente aleatorizado

En este diseño experimental, los sujetos son asignados aleatoriamente a uno de

Este diseño se utiliza cuando se quiere controlar la variabilidad de las variables

Es importante que la asignación a los grupos sea completamente aleatoria para

El diseño factorial es utilizado cuando se quiere estudiar el efecto de dos o más

Este diseño permite estudiar el efecto de cada variable independiente de forma

Además, es posible estudiar interacciones entre las variables independientes.

En este diseño, se pueden tener varias combinaciones de niveles de las variables

Diseño de bloques al azar

En este diseño, los sujetos se agrupan en bloques de acuerdo a la variable de

En este diseño experimental, no se utiliza asignación aleatoria a los grupos

Este diseño se utiliza cuando no es ético o posible utilizar la asignación aleatoria,

Aplicaciones del diseño de experimento

El diseño de experimento es una herramienta fundamental en la investigación

A continuación, se detallarán algunas de las aplicaciones más comunes del diseño

El diseño experimental se utiliza en la investigación científica para establecer

Este tipo de investigación se utiliza para descubrir nuevos conocimientos, probar

En la industria, el diseño experimental se utiliza para controlar la calidad de los

Por ejemplo, se puede utilizar el diseño factorial para estudiar el efecto de

El diseño experimental se utiliza en la medicina para evaluar la eficacia y

Mejora de la producción agrícola

El diseño experimental se utiliza en la agricultura para mejorar la producción de