Está en la página 1de 19

UNIVERSIDAD TECNOLÓGICA LINARES

TECNICO SUPERIOR UNIVERSITARIO EN


MANTENMIENTO DE ÁREA INDUSTRIAL

PROBABILIDAD Y ESTADISTICAS

PROYECTO 2

MAI03-A

ANGEL JESUS SILVA MORENO

EMILY GUADALUPE SANCHEZ MATA

13 AGOSTO 2023
INTRODUCCION

A continuación en este tema hablaremos sobre los temas de estadística El


diagrama de dispersión, o gráfico de dispersión, es un tipo de diagrama estadístico
en el que se representa gráficamente un conjunto de datos de dos variables en
dos ejes de coordenadas cartesianas. Por lo tanto, los diagramas de dispersión
sirven para analizar la relación entre dos variables estadísticas

Los gráficos de dispersión muestran cómo están relacionadas dos variables


continúas poniendo una variable en el eje x y una segunda, en el eje y.

Un gráfico de dispersión para regresión incluye la variable de respuesta en el eje


y y la de entrada en el eje x. 

Cabe destacar que el diagrama de dispersión se considera como una de las

herramientas básicas de control de calidad, junto con el diagrama de Pareto,


el diagrama de causa-efecto, el diagrama de flujo, etc.
¿Qué es un diagrama de dispersión?

El diagrama de dispersión, o gráfico de dispersión, es un tipo de diagrama


estadístico en el que se representa gráficamente un conjunto de datos de dos
variables en dos ejes de coordenadas cartesianas.

Por lo tanto, los diagramas de dispersión sirven para analizar la relación entre dos
variables estadísticas.

El diagrama de dispersión y la correlación

A partir de un diagrama de dispersión se puede identificar qué tipo de correlación


tienen dos variables:

 Correlación directa (o correlación positiva): una variable aumenta


cuando la otra también aumenta.

o Correlación inversa (o correlación negativa): cuando una variable


aumenta la otra disminuye, y al revés, si una variable disminuye la
otra aumenta.
 Correlación nula (sin correlación): no existe ninguna relación entre las
dos variables.
Asimismo, independientemente de si la correlación entre las dos variables es
directa o inversa, la correlación también se puede clasificar en función de cuanto
de fuerte o débil es la relación entre ambas variables.

 Correlación fuerte: las dos variables están muy relacionadas. Los puntos


están muy juntos entre sí en el diagrama de dispersión. En consecuencia,
resulta más fácil identificar la relación entre las variables.

 Correlación débil: existe una relación entre las dos variables, pero resulta
difícil de identificar. Los puntos están muy separados en el diagrama de
dispersión.
Por otro lado, la correlación también se puede calcular numéricamente mediante
una fórmula, así se puede saber matemáticamente cuánto de relacionadas están
dos variables diferentes

Ventajas y desventajas del diagrama de dispersión

Debido a las características del diagrama de dispersión, este tipo de gráficos


estadísticos tienen sus ventajas y sus desventajas.

Ventajas:

 Resulta bastante fácil representar una serie de datos en un diagrama


de dispersión.

 El diagrama de dispersión permite analizar de manera visual la


relación entre dos variables, lo que facilita extraer conclusiones.

 Los gráficos de dispersión también pueden utilizarse en un estudio


estadístico exhaustivo como una exploración previa de los datos.
Desventajas:

 Este tipo de diagramas no son útiles para representar variables


cualitativas.

 La interpretación de un diagrama de dispersión puede llevar a una


conclusión errónea de causa-efecto entre dos variables.

 Los diagramas de dispersión no permiten analizar la relación entre


más de dos variables.
¿QUÉ ES EL ANÁLISIS DE REGRESIÓN LINEAL?

La regresión lineal es, sin duda, uno de los métodos de modelización


estadística los más utilizados. Se suele distinguir entre regresión simple (con una
sola variable explicativa) y regresión múltiple (varias variables explicativas),
aunque el concepto general y los métodos de cálculo son idénticos.

El principio de la regresión lineal consiste en modelizar una variable dependiente


cuantitativa Y mediante una combinación lineal de p variables explicativas
cuantitativas, X1, X2, ..., Xp. La ecuación de regresión lineal se escribe para la
observación i como sigue

donde y_i es el valor observado de la variable dependiente para la observación i,


x_{ki} es el valor que toma la variable k para la observación i, y e_i es el error del
modelo.

Dado que el modelo se encuentra utilizando el método de mínimos cuadrados


ordinarios (OLS) (se minimiza la suma de errores cuadrados e_i²), muchos se
preguntan: ¿es OLS lo mismo que la regresión lineal? En realidad no, OLS
simplemente es el nombre del método que nos permite encontrar la ecuación de la
línea de regresión.

Las hipótesis de la regresión lineal son que los errores e_i siguen la misma
distribución normal N(0,s) y son independientes.

IR MÁS ALLÁ: SELECCIÓN DE VARIABLES EN LA REGRESIÓN LINEAL


No todas las variables son importantes o significativas en el modelo de regresión
lineal. Es posible seleccionar solo las más importantes utilizando uno de los cuatro
métodos disponibles en XLSTAT:
 Mejor modelo: Este método permite seleccionar el mejor modo entre todos
los modelos que pueden manejar un número de variables que varía de
"Variables mínimas" a "Variables máximas". Además, el usuario puede
elegir varios "criterios" para determinar el mejor modelo: R² ajustado,
cuadrado medio de los errores (MSE), Cp de Mallows, AIC de Akaike, SBC
de Schwarz, PC de Amemiya.
 El proceso de selección comienza añadiendo la variable con la mayor
contribución al modelo (el criterio utilizado es el estadístico t de Student). Si
una segunda variable es tal que la probabilidad asociada a su t es menor
que la "Probabilidad de entrada", se añade al modelo. Lo mismo ocurre con
una tercera variable. Una vez añadida la tercera variable, se evalúa el
impacto de la eliminación de cada variable presente en el modelo después
de haberla añadido (siempre utilizando el estadístico t). Si la probabilidad es
mayor que la "Probabilidad de eliminación", se elimina la variable. El
procedimiento continúa hasta que no se puedan añadir o eliminar más
variables.

 Hacia adelante: El procedimiento es el mismo que para la selección por


pasos, excepto que las variables solo se añaden y nunca se eliminan.

 Hacia atrás: El procedimiento comienza añadiendo simultáneamente todas


las variables. A continuación, las variables se eliminan del modelo utilizando
el mismo procedimiento que para la selección por pasos.
¿Qué es el diseño de experimentos?
El diseño de experimentos se define como una rama de la estadística aplicada que
se ocupa de la planificación, realización, análisis e interpretación de pruebas
controladas para evaluar los factores que controlan el valor de un parámetro o
grupo de parámetros.

El diseño de experimentos es una poderosa herramienta de recopilación y análisis


de datos que se puede utilizar en una variedad de situaciones experimentales.

Variables en los diseños experimentales

En el diseño de experimentos, es fundamental tener claro cuáles son las variables


a medir.

La variable independiente es aquella que se modifica en el experimento, mientras


que la variable dependiente es la que se mide como respuesta a la variable
independiente.

Además, existen variables que deben mantenerse constantes durante el


experimento, conocidas como variables de control.

Análisis de resultados

Una vez que se ha llevado a cabo el experimento, se procede al análisis de los


resultados.
Para ello, se utilizan técnicas estadísticas que permiten determinar si existe una
relación significativa entre las variables medidas.

Uno de los análisis más utilizados es el análisis de varianza (ANOVA), que


compara las medias de dos o más grupos.

En síntesis, el diseño de experimentos es una herramienta fundamental en la


investigación científica que permite determinar la relación entre las variables
independientes y dependientes.

Para ello, es importante tener claras las variables a medir y utilizar el diseño
experimental adecuado. Además, el análisis de resultados es fundamental para
determinar si existe una relación significativa entre las variables.

Posteriormente, será necesario presentar el informe de


experimento correspondiente donde se describen las variables, el proceso y los
hallazgos, entre otras cosas.

Tipos de diseños experimentales

A continuación, se detallarán los tipos de diseños experimentales más comunes:

Diseño completamente aleatorizado

En este diseño experimental, los sujetos son asignados aleatoriamente a uno de


los grupos experimentales o al grupo de control.

Este diseño se utiliza cuando se quiere controlar la variabilidad de las variables


que no se están midiendo y se tienen pocas variables independientes.

Es importante que la asignación a los grupos sea completamente aleatoria para


evitar sesgos en los resultados.
Diseño factorial

El diseño factorial es utilizado cuando se quiere estudiar el efecto de dos o más


variables independientes en una variable dependiente.

Este diseño permite estudiar el efecto de cada variable independiente de forma


individual y en combinación con otras variables independientes.

Además, es posible estudiar interacciones entre las variables independientes.

En este diseño, se pueden tener varias combinaciones de niveles de las variables


independientes y se deben controlar las variables de confusión.

Diseño de bloques al azar

El diseño de bloques al azar se utiliza cuando se quiere controlar una variable que
puede afectar los resultados y que no se quiere medir como variable
independiente.

En este diseño, los sujetos se agrupan en bloques de acuerdo a la variable de


control y dentro de cada bloque, se asignan aleatoriamente a los grupos
experimentales o al grupo de control.

Diseño cuasi-experimental

En este diseño experimental, no se utiliza asignación aleatoria a los grupos


experimentales y control. Por lo que, se considera como un tipo de investigación
impuro, es decir, se aleja un poco de lo que es un diseño de experimento.

Este diseño se utiliza cuando no es ético o posible utilizar la asignación aleatoria,


como en estudios que involucran intervenciones en poblaciones completas o en
casos de estudios observacionales.

El diseño requiere un análisis cuidadoso de las variables que pueden afectar los
resultados.
En conclusión, la elección del diseño experimental adecuado dependerá de los
objetivos del experimento y de la cantidad de variables involucradas.

Es importante tener en cuenta que cada diseño experimental tiene sus fortalezas y
debilidades y que es importante seleccionar el diseño más adecuado para obtener
resultados precisos y confiables.

Aplicaciones del diseño de experimento

El diseño de experimento es una herramienta fundamental en la investigación


científica, pero también se utiliza en otras áreas como la industria, la medicina, la
psicología, la agricultura, entre otras.

A continuación, se detallarán algunas de las aplicaciones más comunes del diseño


experimental:

Investigación científica

El diseño experimental se utiliza en la investigación científica para establecer


relaciones causales entre las variables independientes y la variable dependiente.

Este tipo de investigación se utiliza para descubrir nuevos conocimientos, probar


hipótesis y mejorar la comprensión de procesos naturales o sociales.

Control de calidad

En la industria, el diseño experimental se utiliza para controlar la calidad de los


productos y procesos.

Por ejemplo, se puede utilizar el diseño factorial para estudiar el efecto de


diferentes variables en la calidad de un producto y determinar las condiciones
óptimas de producción.
Evaluación de tratamientos médicos

El diseño experimental se utiliza en la medicina para evaluar la eficacia y


seguridad de tratamientos médicos.Por ejemplo, se puede utilizar un diseño de
ensayo clínico aleatorizado para evaluar la efectividad de un nuevo medicamento
en comparación con un placebo o un medicamento existente.

Mejora de la producción agrícola

El diseño experimental se utiliza en la agricultura para mejorar la producción de


cultivos.

Por ejemplo, se puede utilizar el diseño factorial para estudiar el efecto de


diferentes niveles de fertilizantes, agua y luz en la producción de un cultivo y
determinar las condiciones óptimas para su crecimiento.

Psicología y ciencias sociales

El diseño experimental se utiliza en la psicología y ciencias sociales para estudiar


el comportamiento humano y las relaciones entre las variables.

Por ejemplo, se puede utilizar un diseño factorial para estudiar el efecto de


diferentes niveles de estrés y apoyo social en la salud mental de una población.

El diseño experimental tiene aplicaciones en diversas áreas, desde la


investigación científica hasta la industria y la agricultura. El diseño experimental
permite controlar las variables y establecer relaciones causales entre las variables
independientes y la variable dependiente, lo que lo convierte en una herramienta
valiosa para la toma de decisiones y la mejora de procesos.

Conclusiones

En conclusión, el diseño de experimentos es una herramienta fundamental en la


investigación científica y tiene diversas aplicaciones en la industria, la medicina, la
psicología, la agricultura y otras áreas.
Es importante tener en cuenta los conceptos básicos del diseño de experimentos,
como la identificación de las variables y el uso del diseño experimental adecuado.

Los diseños experimentales más comunes incluyen el diseño completamente


aleatorizado, el diseño factorial, el diseño de bloques al azar y el diseño cuasi-
experimental.

El análisis de los resultados es fundamental para determinar si existe una relación


significativa entre las variables y se utilizan técnicas estadísticas como el análisis
de varianza (ANOVA) para ello.

La elección del diseño experimental adecuado dependerá de los objetivos del


experimento y de la cantidad de variables involucradas.

En general, el diseño experimental es una herramienta poderosa para controlar


variables y establecer relaciones causales entre las variables independientes y la
variable dependiente.

Su uso adecuado permite obtener resultados precisos y confiables, lo que facilita


la toma de decisiones y la mejora de procesos en diferentes áreas del
conocimiento.

¿Qué es la Variabilidad en Estadística?

La variabilidad (también llamada propagación o dispersión ) se refiere a qué


tan disperso está un conjunto de datos. La variabilidad le brinda una manera
de describir cuánto varían los conjuntos de datos y le permite usar
estadísticas para comparar sus datos con otros conjuntos de datos. Las
cuatro formas principales de describir la variabilidad en un conjunto de datos
son:

 Rango intercuartil
 Diferencia
 Desviación estándar .
Distancia

El rango es la cantidad entre el artículo más pequeño y el más grande del


conjunto. Puedes encontrar el rango restando el número más pequeño del
más grande. Por ejemplo, digamos que ganó $250 una semana, $30 la
semana siguiente y $800 la tercera semana. El rango de su pago (es decir,
cuánto varía) es de $30 a $800.

Rango Inter cuartil


El rango intercuartílico es casi lo mismo que el rango, solo que en lugar de
indicar el rango para todo el conjunto de datos, está dando la cantidad para
los » cincuenta del medio «. A veces es más útil que el rango porque le dice
dónde se encuentran la mayoría de sus valores. La fórmula es IQR = Q3 –
Q1, donde Q3 es el tercer cuartil y Q1 es el primer cuartil. Básicamente,
toma uno de los valores más pequeños (en el percentil 25) y lo resta de uno
de los valores más grandes (en el percentil 75). La siguiente gráfica de caja
muestra el rango intercuartílico, representado por la caja. Los bigotes (las
líneas que salen de cada lado de la caja) representan el primer cuarto de los
datos y el último cuarto.

Diferencia

La varianza de un conjunto de datos le da una idea aproximada de cuán


dispersos están sus datos. Un número pequeño para la varianza significa
que su conjunto de datos está muy agrupado y un número grande significa
que los valores están más dispersos. La varianza rara vez es útil excepto
para calcular la desviación estándar.

Desviación Estándar
La desviación estándar le indica qué tan estrechamente se agrupan sus
datos alrededor de la media (el promedio ). Una SD pequeña indica que sus
datos están muy agrupados; también tendrá una curva de campana más
alta ; una SD grande le dice que sus datos están más dispersos.

¿Qué es la suma de cuadrados?

Los estadísticos y los científicos utilizan la suma de cuadrados (SS) para


evaluar la variación global de un conjunto de datos con respecto a su media.
Esta medida estadística indica lo bien que se ajustan los datos a su modelo,
especialmente en el análisis de regresión.

Como uno de los resultados más importantes del análisis de regresión, la


SS se utiliza para mostrar la variación de los datos, de forma que una suma
de cuadrados más pequeña muestra un modelo mejor y una suma de
cuadrados más grande muestra un modelo menor. Cuanto menor o mayor
sea la suma, menos o más puntos de datos individuales fluctúan respecto a
la media. Si la suma es cero, su modelo es un ajuste perfecto.
Fórmula de la suma de los cuadrados

La fórmula de la suma de cuadrados es una forma matemática de encontrar


el modelo que varía menos de los datos. Es útil tener en cuenta que los
profesionales a veces se refieren a la suma de cuadrados como «la
variación.» Aquí está la fórmula utilizada para encontrar la suma total de
cuadrados, la variación más común de este cálculo:

En esta ecuación:

 Yi = Eli en el conjunto
 ȳ = la media de todos los elementos del conjunto
¿Qué son los cuadrados medios?

Los cuadrados medios representan una estimación de la varianza de la población. Se


calculan dividiendo la suma correspondiente de los cuadrados entre los grados de
libertad.

Regresión

En regresión, los cuadrados medios se utilizan para determinar si los términos de un


modelo son significativos.

 El cuadrado medio del término se obtiene dividiendo la suma de los cuadrados


del término entre los grados de libertad.

 El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los


cuadrados del error residual entre los grados de libertad. El MSE es la varianza
(s2) en torno a la línea de regresión ajustada.

Al dividir el MS (término) entre el MSE, se obtiene F, que sigue la distribución F con


grados de libertad para el término y grados de libertad para el error.
ANOVA

En ANOVA, los cuadrados medios se utilizan para determinar si los factores


(tratamientos) son significativos.

 El cuadrado medio del tratamiento se obtiene dividiendo la suma de los


cuadrados del tratamiento entre los grados de libertad. El cuadrado medio del
tratamiento representa la variación entre las medias de las muestras.

 El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los


cuadrados del error residual entre los grados de libertad. El MSE representa la
variación dentro de las muestras.

Por ejemplo, usted hace un experimento para probar la efectividad de tres detergentes
para ropa. Recolecta 20 observaciones para cada detergente. La variación entre las
medias de Detergente 1, Detergente 2 y Detergente 3 es representada por el
cuadrado medio del tratamiento. La variación dentro de las muestras es representada
por el cuadrado medio del error.

¿Qué son los cuadrados medios ajustados?

Los cuadrados medios ajustados se calculan dividiendo la suma ajustada de los


cuadrados entre los grados de libertad. La suma ajustada de los cuadrados no
depende del orden en que los factores se ingresan en el modelo. Es la porción única
de SC Regresión explicada por un factor, si todos los demás factores están en el
modelo, independientemente del orden en que se ingresaron en el mismo.

¿Qué son los cuadrados medios esperados?

Si usted no especifica que los factores son aleatorios, Minitab presupondrá que se
trata de factores fijos. En este caso, el denominador para los estadísticos F será el
MSE. Sin embargo, para los modelos que incluyen términos aleatorios, el MSE no
siempre es el término de error correcto. Puede examinar los cuadrados medios
esperados para determinar el término de error que se utilizó en la prueba F.
Cuando usted ejecuta Modelo lineal general, Minitab muestra una tabla de
cuadrados medios esperados, componentes estimados de la varianza y el término de
error (los cuadrados medios del denominador) utilizados en cada prueba F de forma
predeterminada. Los cuadrados medios esperados son los valores esperados de
estos términos con el modelo especificado. Si no hay una prueba F exacta para un
término, Minitab calcula el término de error apropiado para construir una prueba F
aproximada. Esta prueba se denomina prueba sintetizada.

Las estimaciones de los componentes de la varianza son las estimaciones sin sesgo
del ANOVA. Se obtienen al establecer cada cuadrado medio calculado en su
cuadrado medio esperado, lo cual proporciona un sistema de ecuaciones lineales en
los componentes desconocidos de la varianza, que luego se resuelve.
Desafortunadamente, este método puede generar estimaciones negativas, que deben
establecerse en cero. Sin embargo, Minitab muestra las estimaciones negativas
porque algunas veces indican que el modelo que se está ajustando no es apropiado
para los datos. Los componentes de la varianza no se calculan para los términos fijos.
CONCLUSION

La estadística tiene como función recabar datos y luego mostrarlos a la población.


Dependiendo de que datos se trata se puede organizar de diversas formas por lo que la
conclusión sería destacar lo que se quería demostrar y los resultados . La validez de las
1

conclusiones estadísticas se da cuando las conclusiones de un estudio de investigación


se fundamentan en un análisis adecuado de los datos La Validez de la Conclusión
Estadística (SCV) es una medida de cuán razonable es una

También podría gustarte