Distribuciones, Regresión Lineal y Correlación

“ Distribuciones, Regresión Lineal y Correlación”
Probabilidad y Estadística
Diciembre de 2020
ÍNDICE
INTRODUCCIÓN............................................................................................................................. 1
DESARROLLO ................................................................................................................................. 2
DISTRIBUCIONES ............................................................................................................... 2
DISCRETAS ............................................................................................................... 2
CONTINUAS ............................................................................................................. 5
REGRESIÓN LINEAL .......................................................................................................... 9
CORRELACIÓN.................................................................................................................. 11
CONCLUSION ................................................................................................................................ 14
REFERENCIAS .............................................................................................................................. 15
INDICE DE ECUACIONES
Ecuación 1. Distribución Binomial ..................................................................................................... 3

Ecuación 2. Distribución de Poisson ................................................................................................... 4
Ecuación 3. Distribución Normal ........................................................................................................ 6
Ecuación 4. Distribución Gamma ....................................................................................................... 6
Ecuación 5. Distribución Exponencial ................................................................................................ 7
Ecuación 6. Distribución de Weibull .................................................................................................. 8
Ecuación 7. Coeficiente de correlación ............................................................................................. 12
Ecuación 8. Coeficiente de determinación ........................................................................................ 12
INDICE DE FIGURAS
Figura 1. Ejemplo de diagrama de dispersión. .................................................................................... 9

INTRODUCCIÓN
Todos los día se amplía el campo de trabajo de los ingenieros. El desarrollo de nuevos productos, el
diseño de prototipos, el perfeccionamiento de herramientas, máquinas y procesos, el mantenimiento,
la localización y reparación de averías, son ejemplos simples del amplio quehacer ingenieril. En cada
una de estas funciones los ingenieros deben coleccionan y analizan datos. Al respecto Bisgaard [1],
ha señalado que: “[…] hayan aprendido o no estadística, ellos harán estadística. Por tanto, el asunto
no es si utilizan estadística o no, sino cuán bien deben hacerlo”. Por tal motivo, el aprendizaje de
contenidos estadísticos constituye un aspecto importante en la formación universitaria de estos
profesionales.
Se ha reportado que, a la altura de la culminación de estudios, los estudiantes de ingeniería vienen a

comprender la importancia de la estadística en su formación profesional, pero la perdurabilidad y
solidez del conocimiento resulta insuficiente.
Un concepto de vital importancia en el aprendizaje de los contenidos estadísticos es el concepto de

distribución, el cual, un poco erróneamente está asociado a la idea primaria de variabilidad.
Las distribuciones de probabilidad constituyen un tema en el que confluyen tanto conceptos de

estadística como de probabilidad. De hecho, son un puente que conecta estas dos importantes áreas,
y son la puerta de entrada a la inferencia estadística. En estadística se estudian distribuciones de datos,
que se describen mediante medidas de tendencia central y variabilidad. Sin embargo, en las
aplicaciones más frecuentes de la estadística los datos son tomados de muestras de una población o
de experimentos aleatorizados, por lo que están sujetos a incertidumbre.
Se requiere, por lo tanto, establecer medidas probabilísticas de confiabilidad para hacer

generalizaciones y obtener conclusiones válidas. Las distribuciones de probabilidad desempeñan un
papel muy importante para lo anterior, ya que permiten conocer todos los valores posibles de una
variable aleatoria y sus respectivas probabilidades.
Con frecuencia el estudio de la probabilidad se ve como un aspecto separado de la estadística, sin

embargo, existen importantes conexiones entre diversas situaciones cotidianas con la probabilidad y
la estadística.
En el presente trabajo se abordaran situaciones que provienen de un contexto estadístico tal es el caso
de diferentes distribuciones demás de la regresión lineal y correlación.
1
DESARROLLO
DISTRIBUCIONES
Una distribución de probabilidad nos indica todos los resultados posibles de un evento, así como su
posibilidad de ocurrencia.
La distribución de los datos que provienen de una variable estadística nos permite identificar qué
valores toma y con qué frecuencia se presenta cada valor. Los datos también pueden derivarse de la
observación de un fenómeno o experimento aleatorio. En este caso particular, la variable recibe el
nombre de variable aleatoria.
DISCRETAS
Para tomar en cuenta. Una variable aleatoria discreta puede tomar un número finito o infinito contable
de valores. Por lo general estas variables se asocian a procesos de contar, por lo que pueden tomar
valores como 0, 1, 2, 3, . . . Por ejemplo: el número de hijos por familia, la cantidad de bacterias por
unidad de área en un alimento, los años de vida de un ser humano, etcétera.[2]
Binomial
Planteada por el matemático suizo Jacob Bernoulli (1654-1705), ésta es la más sencilla de todas las
distribuciones, pues sólo estudia procesos en los cuales los resultados posibles son sólo dos, éxito o
fracaso, tienen probabilidades constantes y son independientes entre sí, la variedad de casos en los
cuales es apropiada la distribución binomial es muy amplia.[3]
Aplicabilidad:
- Sólo son posibles dos resultados mutuamente excluyentes.

- La probabilidad de éxito permanece constante durante todas .
- EI total de observaciones posibles (o población) es muy grande o infinito, en relación con el
número de observaciones (o muestra) que se realiza.
- Los resultados son independientes entre sí.
2
La probabilidad de que un evento ocurra exactamente ”x” veces al realizar "n” veces un proceso de
Bernoulli, en la cual la probabilidad de éxito es ”p" y, en consecuencia, la probabilidad de fracaso es
1 − 𝑝 (conocida como ”q”), está dada por la siguiente expresión:
𝑷(𝒙) = 𝒏𝑪𝒙 ∙ 𝒑𝒙 𝒒𝒏−𝒙 Ecuación 1. Distribución Binomial
𝑃(𝑥) = es la probabilidad de que sucedan exactamente “x” éxitos de “n” intentos.
𝑛𝐶𝑥 = es la combinación del total de intentos y número de éxitos.
𝑥 = número de éxitos esperados, pueden ser todos los valores enteros entre 0 y n.
𝑛 = número de veces que se realiza la operación.
𝑝 = probabilidad de obtener éxito.
𝑞 = Probabilidad de obtener un fracaso, es decir, es el complemento de éxito 𝑞 = 1 − 𝑝
Tratándose de distribución binomial, los parámetros son 𝒏 y 𝒑. Lo anterior se acostumbra a expresar

simbólicamente de la siguiente manera: 𝑋~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛, 𝑝). [3]
La media y la varianza de una distribución binomial son dos medidas de gran utilidad, sobre todo si
se considera que una aplicación típica de la distribución binomial puede resolverse por medio de otra
distribución más general. Las fórmulas que se utilizan para calcular la media y la varianza de una
distribución binomial son útiles cuando la muestra proviene de una población infinita, o cuando la
muestra no excede del 5% de la población total.[4]
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠; 𝑝 = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 é𝑥𝑖𝑡𝑜
𝑴𝒆𝒅𝒊𝒂 = 𝝁 = 𝒏𝒑
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝒏𝒑(𝟏 − 𝒑)
Nótese que la varianza es máxima cuando 𝑝 = 𝑞 = 1/2.
La distribución binomial se puede expresar de forma gráfica, y es que en realidad consiste en un

diagrama de barras, similar a los obtenidos en la función de probabilidad pero que van a ir variando
su forma en función de los valores de 𝑛 y de 𝑝 al modificarse las probabilidades de los distintos
posibles valores de 𝑃(𝑋 = 𝑥). La gráfica es simétrica para 𝑝 = 0.5. Si 𝑝 < 0.5 presenta asimetría
positiva y si 𝑝 > 0.5 presenta asimetría negativa.
3
Esta distribución se ha utilizado y comprobado su gran utilidad en control de calidad, y problemas de
muestreo y encuestas, casos que, por supuesto están dentro de la ingeniería, por ejemplo, control de
calidad está dentro de la ingeniería química y/o de alimentos.
Poisson
La distribución de Poisson surge cuando un evento o suceso ”raro” ocurre aleatoriamente en

intervalos que pueden ser temporales, espaciales o de cualquier otro tipo. Por ejemplo, el número de
llamadas telefónicas por minuto en algún tablero de interruptores, el número de errores de impresión
por página en un texto grande, el número de partículas emitidas por una sustancia radiactiva,
etcétera.[5]
El concepto de evento ”raro” o poco frecuente debe entenderse en el sentido de que la probabilidad
de observar 𝑘 eventos decrece rápidamente a medida que 𝑘 aumenta. Para que una variable recuento
siga una distribución de Poisson deben cumplirse las condiciones siguientes:
1. En un intervalo muy pequeño (p.e. un milisegundo) la probabilidad de que ocurra un evento

es proporcional al tamaño del intervalo.
2. La probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida
que, a efectos prácticos, se puede considerar nula.
3. El número de ocurrencias en un intervalo pequeño no depende de lo que ocurra en cualquier

otro intervalo pequeño que no se solape con aquél.
Formalmente, la v.a. de Poisson, 𝑋~𝑃(𝜆), es la que describe el número de éxitos ocurridos en un

intervalo de tiempo o de espacio determinado. Su parámetro λ o tasa de ocurrencia, es el número
medio de ocurrencias del suceso observado en un intervalo unidad, y su función de masa es:
𝝀𝒙
𝑷(𝒙) = Ecuación 2. Distribución de Poisson
𝒙! 𝒆𝝀
𝑥 = número de éxitos.
𝜆 = promedio de ocurrencia de un evento
𝑒 = base del logaritmo natural, cuyo valor es 2.7182
Esta distribución, que debe su nombre al matemático francés Simeón Denis Poisson (1781- 1840), ya
había sido introducida en 1718 por Abraham De Moivre como una forma límite de la distribución
binomial que surge cuando se observa un evento raro después de un gran número de repeticiones.[5]
4
De acuerdo con Obando López y Arango Londoño [7], la media y varianza de la distribución de
Poisson se obtienen según:
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜;
𝑴𝒆𝒅𝒊𝒂 = 𝝁 = 𝒏
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝒏
Hay muchos fenómenos aleatorios interesantes en las ciencias que satisfacen las condiciones de la
densidad de probabilidad de Poisson, problemas típicos en los que la probabilidad 𝑝 de que el evento
ocurra es relativamente pequeña y el número de observaciones 𝑛 es grande son aquellos problemas
que están relacionados con ocurrencias raras de eventos en un intervalo de tiempo.[6]
Esta distribución se puede expresar de forma gráfica, pues consiste en un diagrama de barras con
forma asimétrica positiva (como sucede con la distribución binomial). Sin embargo, al ir aumentando
los valores de 𝜆, va adquiriendo la típica forma de la campana de Gauss, pudiendo deducirse, que
conforme aumenta 𝜆, las variables de Poisson van a poder aproximarse a la distribución normal. La
aproximación se considera buena para valores de 𝜆 iguales o superiores a nueve.
La distribución de Poisson se aplica en algunas ingenierías como industrial e informática, además, se

utiliza para conteo de eventos de interés cuando se puede en principio, contar cualquier número de
eventos. El lapso de observación suele ser tiempo, pero también aplica en espacios físicos (p. ej. núm.
de defectos por metro lineal en un cable, o el número de defectos por 𝑚2 , etc.)
CONTINUAS
Para tomar en cuenta. Una variable aleatoria continua puede tomar cualquier valor entre un intervalo
dado, por tal motivo es común que se expresen mediante rangos de valores. Por lo común estas
variables se asocian a procesos de medir.[3] Por ejemplo: la temperatura de una ciudad durante el día,
el peso de una muestra de personas sujetas a un tratamiento dietético, la calificación de un examen.
Normal
La distribución normal es la más importante tanto en la probabilidad y en la estadística. Muchas

poblaciones numéricas tienen distribuciones que pueden ser representadas muy fielmente mediante
una curva normal apropiada. los ejemplos incluyen estaturas, pesos y otras características físicas,
errores de medición en experimentos científicos, mediciones antropométricas en fósiles, tiempos de
5
reacción en experimentos psicológicos, mediciones de inteligencia y aptitud, calificaciones en varios
exámenes y numerosas medidas e indicadores económicos.[8]
Se dice que una variable aleatoria continua “x” tiene una distribución normal con parámetros 𝝁 y 𝝈
(o 𝝁 y 𝝈𝟐), dónde −∞ < 𝜇 < ∞ y 0 < 𝜎 , si la función de densidad de probabilidad de 𝑥 es:
𝟏 𝟐 /(𝟐𝝈𝟐 )
𝒇(𝒙; 𝝁, 𝝈) = 𝒆−(𝒙−𝝁) Ecuación 3. Distribución Normal
√𝟐𝝅𝝈
De nuevo, 𝑒 denota la base del sistema de logaritmos naturales y es aproximadamente igual a 2.7182
y 𝜋 representa la conocida constante matemática con un valor aproximado de 3.14159.
La media y varianza de la distribución normal se obtienen normalmente, con:
𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟;
𝑴𝒆𝒅𝒊𝒂 = 𝝁
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝝈𝟐
Si se tratase de una distribución normal estándar, la media es igual a 0, y la varianza igual a 1.
La gráfica correspondiente a la distribución normal se denomina campana de Gauss o gaussiana, en

honor a Carl Friedrich Gauss, quién fue el primero en estudiar la distribución normal.
Gamma
Según Rosenthal y Evans [9], podemos utilizar la función gamma para definir la densidad de la
distribución Gamma (𝑥, 𝜆) de la siguiente manera. Sean 𝛼 > 0, 𝜆 > 0 y 𝑓 una función definida por:
𝒙𝜶−𝟏 −𝝀𝒙
𝒇(𝒙) = 𝒆 Ecuación 4. Distribución Gamma
𝝀𝜶 𝚪(𝜶)
Una variable aleatoria 𝑋 que tiene una función densidad 𝑓 definida por la ecuación anterior se dice
que sigue una distribución Gamma con parámetros 𝜶 y 𝝀, lo que representamos por
𝑋~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝜆).
De acuerdo con Obando López y Arango Londoño [7], el valor esperado (media) de la distribución
𝝀𝜶 ∞
Gamma es:𝝁(𝒙) = ∫
𝚪(𝜶) 𝟎
𝒙𝒙𝜶−𝟏 𝒆−𝝀𝒙 𝒅𝒙 = 𝜶𝝀, y la varianza es: 𝝈𝟐 (𝒙) = 𝝁𝒙𝟐 − (𝝁𝒙)𝟐 = 𝜶𝝀𝟐 .
6
En general, la distribución gamma es una distribución flexible para modelizar las formas de la
asimetría positiva, de las más concentradas y puntiagudas, a las más dispersas y achatadas. Lo anterior
es debido a sus parámetros (𝛼 y 𝜆), por ejemplo, el primer parámetro (𝛼) sitúa la máxima intensidad
de probabilidad y por este motivo es denominada la forma de la distribución. Cuando se toman valores
próximos a cero aparece entonces un dibujo muy similar al de la distribución exponencial. Cuando se
toman valores grandes de 𝛼, el centro de la distribución se desplaza a la derecha, por lo que va
apareciendo la forma de la campana de Gauss con asimetría positiva.
Esta distribución es útil en ingenierías que conllevan situaciones donde el tiempo relevante es el de
espera a que ocurra un número entero de eventos. Se ha aplicado en problemas de confiabilidad, en
teoría de colas y para modelar precipitación pluvial diaria en varias regiones del mundo.
Exponencial
Como menciona Llinás Solano [6], realmente esta distribución se puede considerar como un caso
especial de la distribución gamma cuando en la fórmula tomamos 𝛼 = 1.
Una variable aleatoria 𝑋, tiene distribución exponencial, en símbolos y con un parámetro 𝝀,

𝑋 = exp(𝜆), si para todo 𝜆 > 0 su densidad es:
𝟎, 𝒑𝒂𝒓𝒂 𝒙 < 𝟎
𝒇(𝒙): = 𝒇(𝒙; 𝝀) = { −𝝀𝒙 Ecuación 5. Distribución Exponencial
𝝀𝒆 , 𝒙≥𝟎
Según Devore [8], para obtener la media y la varianza para la distribución exponencial, se utilizan:
𝟏
𝑴𝒆𝒅𝒊𝒂 = 𝝁 =
𝝀
𝟏
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝝈𝟐 =
𝝀𝟐
Al tratarse de una distribución exponencial, su forma típica de comportamiento es al de la función

exponencial, y al ser un caso especial de la distribución gamma, su comportamiento es similar a ésta
también.
La distribuciones exponencial juega un papel importante tanto en teoría de colas como en problemas
de confiabilidad. Para un ingeniero eléctrico o electromecánico, el tiempo entre las llegadas en las
instalaciones de servicio y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente
involucran la distribución exponencial. En muchas aplicaciones, el período o la cantidad de espacio
7
es la variable aleatoria. Por ejemplo, un ingeniero industrial puede interesarse en el tiempo T entre
llegadas en una intersección congestionada durante la hora de salida de trabajo en una gran ciudad.
Weibull
El físico sueco Waloddi Weibull introdujo la familia de distribuciones Weibull en 1939; su artículo
de 1951 “A Statiscal Distribution Function of Wide Applicability” aborda varias aplicaciones.[8]
De acuerdo con Llinás Solano [6], una variable aleatoria 𝑋 tiene distribución de Weibull con
parámetros 𝛼, 𝛽, 𝛾 > 0, en símbolos, 𝑋 = 𝑊(𝛼, 𝛽, 𝛾), si su densidad de probabilidad está dada por:
𝜷
𝜷 𝒙 − 𝜸 𝜷−𝟏 (𝒙 − 𝜸)
( ) 𝒆𝒙𝒑 {− [ ] } 𝒔𝒊 𝒙 > 𝜸 Ecuación 6. Distribución de
𝒇(𝒙) = {𝜶 𝜶 𝜶
Weibull
𝟎, 𝒅𝒆 𝒐𝒕𝒓𝒐 𝒎𝒐𝒅𝒐
Los tres parámetros, 𝜶, 𝜷, 𝜸, que describen completamente a la densidad de Weibull son de mucha
importancia. Aquí 𝛼 es un parámetro de escala, 𝛽 es un parámetro de forma y 𝛾 es el parámetro de
localización.
Por otra parte, para Obando López y Arango Londoño [7], una variable aleatoria 𝑋~𝑊𝑒𝑖𝑏𝑢𝑙𝑙(𝛼, 𝛽)
si la función de densidad de X está dada por:
𝛽
𝑓(𝑥) = 𝛼𝛽𝑥 𝛽−1 𝑒 −𝛼𝑥 𝑥>0
El valor esperado (media) de la distribución de Weibull es:
𝟏 𝟏
−
𝝁(𝒙) = 𝜶 𝜷 𝚪 (𝟏 + )
𝜷
La varianza se conoce mediante:
𝟐
𝟐 𝟏
𝑽𝒂𝒓(𝒙) = 𝜶−𝟐/𝜷 {𝚪 (𝟏 + ) − [𝚪 (𝟏 + )] }
𝜷 𝜷
El comportamiento gráfico de esta distribución muestra cómo varía 𝑓(𝑥) respecto al tiempo (o en
otro caso el número de ciclos); una vez hecho el gráfico, puede pasar que salga directamente a una
línea recta (en cuyo caso 𝛾 = 0) o que salga una curva (𝛾 ≠ 0). En este segundo caso existe un
periodo de tiempo entre en que ningún componente falla (si 𝛾 es positivo) o parte de las muestras
8
fallan antes de ensayarlas (caso de 𝛾 negativo). El parámetro 𝛾 es aquel valor que se le tiene que restar
a todos los tiempos para que los puntos representados sigan una recta.
Es una de las distribuciones más utilizadas en estudios de confiabilidad de equipos y de sistemas.

Algunos ejemplos de importantes aplicaciones son:
• Zobeck, Gill, y Popham [10], usaron una distribución Weibull para describir el tamaño de
partículas de polvo en el aire.
• Jiang, y Murthy [11], revisaron el uso de distribuciones Weibull en estudios de confiabilidad
para modelar tiempos de vida, edades de reemplazo y vida residual en equipos y
componentes.
• Razali, Abidin, Zaharim, y Sopian [12], modelaron datos de velocidades de vientos con una
distribución Weibull.
REGRESIÓN LINEAL
Según, Gorgas García, Cardial López y Zamorano Calvo [13], dentro del estudio de las variables
estadísticas bidimensionales se aborda el análisis de la existencia de relaciones o dependencias entre
las dos variables x e y que forman la variable bidimensional.
El primer paso para el estudio de la relación entre las variables consiste en la construcción y
observación de un diagrama de dispersión (Figura 1). El problema de la regresión se concreta entonces
en ajustar una función a la nube de puntos representada en dicho diagrama. Esta función permitirá
entonces obtener, al menos de forma aproximada, una estimación del valor de una de las variables a
partir del valor que tome la otra.[13]
Figura 1. Ejemplo de diagrama de dispersión.

Fuente: [13]
9
Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la nube de
puntos del diagrama de dispersión. Un primer problema para el estudio de la regresión es la elección
del tipo de línea de regresión. Efectivamente, ésta podrá adoptar diferentes formas funcionales, y el
tipo de línea se elegirá a partir de la forma de la nube de puntos. Cuando dicha nube se distribuya
aproximadamente a lo largo de una línea recta ajustaremos una recta de regresión. Será el caso
particular de la regresión lineal. En este caso importante, la regresión de y sobre x vendrá dada
entonces por: 𝑦 = 𝑎 + 𝑏𝑥, donde 𝑎 y 𝑏 son dos parámetros que hay que determinar. Gráficamente 𝑎
será la ordenada de la recta en el origen (es decir el valor de 𝑦 para x 𝑥 = 0) y 𝑏 la pendiente de
ésta.[13]
Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa el método de mínimos
cuadrados. Gorgas García, Cardial López y Zamorano Calvo [13], muestran (a continuación) en qué
consiste.
Sea una muestra de tamaño n en que la variable estadística bidimensional toma los valores
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ).
A cada valor 𝑥𝑖 de la variable 𝑥 le corresponde entonces un valor 𝑦𝑖 de la variable 𝑦, pudiendo,

además asociársele un valor 𝑦𝑖∗ , que sería el dado por la recta que queremos calcular. Es decir:
𝑦𝑖∗ = 𝑎 + 𝑏𝑥𝑖
Llamemos 𝑑𝑖 a la diferencia entre los dos valores, observado y dado por la recta, de la variable 𝑦 en
cada punto: 𝑑𝑖 = 𝑦𝑖∗ − 𝑦𝑖
Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre todas las rectas
posibles, dichas distancias 𝑑𝑖 deberán ser lo más pequeñas posible. Es decir, hay que minimizar los
𝑑𝑖 . Para ello es conveniente tomar los cuadrados de las distancias, para que así no se anulen
desviaciones positivas y negativas. De esta forma, el problema se reduce a minimizar la expresión:
𝑛 𝑛 𝑛
𝑀= ∑ 𝑑𝑖2 = ∑(𝑦𝑖∗ − 𝑦𝑖 )2 𝑜, 𝑑𝑖𝑐ℎ𝑜 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑓𝑜𝑟𝑚𝑎, 𝑀 = ∑(𝑎 + 𝑏𝑥𝑖 − 𝑦𝑖 )2

𝑖=1 𝑖=1 𝑖=1
Para encontrar los valores de 𝑎 y 𝑏 que hacen mínima esa expresión se deriva M respecto a esos dos
parámetros y se igualan las derivadas a 0 (a partir de aquí se simplifica la notación de los sumatorios
y no se indica que el índice va desde 𝑖 = 1 hasta 𝑛).
10
Desarrollando los sumatorios se obtiene un sistema sencillo de ecuaciones, conocidas como
ecuaciones normales, el cual se puede resolver por el método de Cramer, calculando en primer lugar
el determinante y cada uno de los parámetros:
1 ∑ 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖2 ∑ 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑥𝑖 , 𝑦𝑖
𝑎= | |=
∆ ∑𝑥 ,𝑦 ∑ 𝑥2 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
𝑖 𝑖 𝑖
1 𝑛 ∑ 𝑦𝑖 𝑛 ∑ 𝑥𝑖 , 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏= | |=
∆ ∑𝑥 ∑ 𝑥𝑖 , 𝑦𝑖 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
𝑖
Estas expresiones para los parámetros de la recta se pueden simplificar introduciendo las definiciones
de media:
∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑥̅ = y 𝑦̅ =
𝑛 𝑛
Dividiendo por 𝑛2 en el numerador y denominador de la expresión para 𝑏, ésta queda:
1
∑ 𝑥𝑖 , 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑏= 𝑛
1
∑ 2 2
𝑛 𝑥𝑖 − 𝑥̅
Por otra parte, se tiene 𝑦̅ = 𝑎 + 𝑏𝑥̅ , que indica que la recta de regresión debe pasar por (𝑥̅ , 𝑦̅), es
decir, por el centro de la nube de puntos.
Y una vez calculado 𝑏, 𝑎 se puede calcular de forma inmediata por 𝑎 = 𝑦̅ − 𝑏𝑥̅ .
CORRELACIÓN
De acuerdo con Johnson [14], un diagrama de dispersión ofrece una impresión visual de la relación
entre los valores 𝑥 y 𝑦 en un conjunto de datos bivariado. A menudo, los puntos parecen dispersarse
en torno a una recta. La cercanía de la dispersión a una línea recta se expresa numéricamente en
términos del coeficiente de correlación. La mejor interpretación del coeficiente de correlación
muestral está en términos de las observaciones estandarizadas:
𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑥𝑖 − 𝑥̅

=
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑆𝑥
donde el subíndice 𝑥 en 𝑆 distingue la varianza muestral de las observaciones 𝑥,
11
𝑛
𝑆𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2 /(𝑛 − 1) = 𝑆𝑥𝑥 /(𝑛 − 1)

𝑖=1
de la varianza muestral de las observaciones de 𝑦.
El coeficiente de correlación muestral 𝑟 es la suma de productos de las variables estandarizadas

dividida entre 𝑛 − 1, el mismo divisor usado para varianza muestral.
𝑛
1 𝑥𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅ Ecuación 7. Coeficiente de
𝑟= ∑( )( )
𝑛−1 𝑠𝑥 𝑠𝑦 correlación
𝑖=1
➢ La magnitud de 𝑟 describe la fortaleza de una relación lineal, mientras su signo indica la

dirección.
𝑟 = +1 si todos los pares 𝑓(𝑥, 𝑦) caen exactamente sobre una línea recta que tenga una pendiente
positiva.
𝑟 > 0 si el patrón en el gráfico de dispersión va del extremo inferior izquierdo al superior derecho.
𝑟 < 0 si el patrón en el gráfico de dispersión va del extremo superior izquierdo al inferior derecho.
𝑟 = −1 si todos los pares 𝑓(𝑥, 𝑦) yacen exactamente sobre una línea recta que tenga una
pendiente negativa.
Un valor de 𝑟 cercano a −1 o +1 describe una relación lineal fuerte.
➢ Un valor de 𝑟 cercano a cero implica que la asociación lineal es débil. Todavía puede existir
una asociación fuerte a lo largo de la curva.
Existe también, una fórmula de cálculo más sencilla para 𝑟, teniendo en cuenta las definiciones de
𝑆𝑥𝑥 , 𝑆𝑥𝑦 y 𝑆𝑦𝑦 .
𝑆𝑥𝑦
𝑟=
√𝑆𝑥𝑥 ∗ 𝑆𝑦𝑦
Por último, para Hernández Garciadiego, Hernández Garciadiego y de Oteyza [4], cuando se hacen
estudios de correlación lineal entre 2 variables, otro dato que suele reportarse es el cuadrado del
coeficiente de correlación:
2 Ecuación 8. Coeficiente de
𝑅 2 = (𝑟𝑥𝑦 )
determinación
que es el coeficiente de determinación, pero se le conoce simplemente como R cuadrada.
12
Dado que 𝑅 es un número entre −1 y 1, su cuadrado, 𝑅 2 es un número entre 0 y 1, y se interpreta
como la parte de la variable que se encuentra en el eje 𝑦 que puede explicarse a través de la variable
del eje 𝑥.
Para una forma distinta de expresar el coeficiente de determinación, Gamero Burón [15], partiendo
de una igualdad de varianzas, define el coeficiente de determinación (𝑅 2) como la proporción o
porcentaje de la variación total de la variable dependiente que viene explicada por el modelo
matemático:
𝑆𝑦2∗
𝑅2 =
𝑆𝑦2
Algunas propiedades de 𝑅 2 son:
➢ 𝑅 2 es adimensional: es el cociente de 2 varianzas que se expresan en la misma unidad de

medida.
➢ 𝑅 2 está acotado, en concreto 0 ≤ 𝑅 2 ≤ 1
Por otro lado, en cuanto a su interpretación, se tiene que cuanto mayor sea 𝑅 2 mejor será el ajuste, y
viceversa. 𝑅 2 = 1 implica 𝑆𝑒2 = 0 y, por lo tanto, que el ajuste es perfecto (la dependencia estadística
es una dependencia matemática). Por el contrario, si 𝑅 2 = 0, entonces 𝑆𝑒2 = 𝑆𝑦2 de manera que el
modelo lineal resulta totalmente inadecuado.
13
CONCLUSION
La disciplina de la Estadística para un estudiante de Ingeniería enseña cómo razonar de manera lógica
y tomar decisiones en presencia de incertidumbre. De esta forma, la Estadística se configura como
una herramienta de gran valor para los ingenieros ya que ayuda al diseño de nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos de producción.
Gracias a la investigación realizada, se pudo reforzar y aminorar un poco de la situación descrita en

la introducción, donde se mencionó que “a la altura de la culminación de estudios, los estudiantes de
ingeniería vienen a comprender la importancia de la estadística en su formación profesional, pero la
perdurabilidad y solidez del conocimiento resulta insuficiente”, es verdad que muchos de los
estudiantes no le damos la importancia real a la probabilidad y la estadística, normalmente la vemos
como una experiencia educativa obligatoria básica, pero la verdad es que es una herramienta
significativamente útil para un ingeniero, conocer lo mayor posible, más de lo que contempla el plan
de estudios o de lo que da tiempo ver en clase, es necesario para tener un mejor desempeño como
ingenieros en el futuro.
14
REFERENCIAS
[1] S. Bisgaard, Teaching statistics to engineers. The American Statistician, Alexandria, v. 45,
n. 4, 1991, p. 274-283.
[2] E. A. Sánchez Sánchez, Probabilidad y estadística II. México D.F: Grupo Editorial Patria,
2015. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/40387?
[3] C. A. Islas Salomón, M. P. Colín Uribe y F. Morales Téllez, Probabilidad y estadística.

Grupo Editorial Éxodo, 2018. [En Línea] Disponible en:
https://elibro.net/es/ereader/bibliotecauv/128557?
[4] C. Hernández Garciadiego, C. Hernández Garciadiego y E. de Oteyza, Probabilidad y

estadística. México D.F: Pearson Educación, 2015. [En Línea] Disponible en:
[5] A. M. Juan González, Probabilidad. Almería: Editorial Universidad de Almería, 2016. [En
Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/44558?
[6] H. Llinás Solano, Introducción a la teoría de probabilidad. Barranquilla: Universidad del

Norte, 2018. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/70067?
[7] J. Obando López y N. Arango Londoño, Probabilidad y estadística. Fondo Editorial EIA,
2019. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/125705?
[8] J. L. Devore, Probabilidad y estadística para ingeniería y ciencias (9a. ed.). México:
Cengage Learning, 2016. [En Línea] Disponible en:
[9] J. S. Rosenthal y M. J. Evans, Probabilidad y estadística: la ciencia de incertidumbre.

Barcelona: Editorial Reverté, 2015. [En Línea] Disponible en:
[10] T. M. Zobeck, T. E.Gill, y T. W. Popham, A two‐parameter Weibull function to describe

airborne dust particle size distributions. Wiley Online library, 1999. [En Línea] Disponible
en: https://onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291096-
9837%28199909%2924:10%3C943::AID-ESP30%3E3.0.CO;2-9
[11] R. Jiang, y D.N.P. Murthy, A study of Weibull shape parameter: Properties and significance,
Reliability Engineering & System Safety.Volume 96. 2011, Pages 1619-1626. . [En Línea]
15
Disponible en:
https://www.sciencedirect.com/science/article/pii/S095183201100175X?via%3Dihub
[12] A. M. Razali, R. Z. Abidin, A. Zaharim, y K. Sopian, Fitting of Statistical Distributions to

Wind Speed Data. 4th IASME/WSEAS International Conference on ENERGY,
ENVIRONMENT, ECOSYSTEMS and SUSTAINABLE DEVELOPMENT
(EEESD'08).Algarve, Portugal, 2008. [En Línea] Disponible en:
http://www.wseas.us/elibrary/conferences/2008/algarve/EEESD/023-588-353.pdf
[13] J. Gorgas García, N. Cardial López y J. Zamorano Calvo, Estadística Básica Para
Estudiantes de Ciencia. España: Universidad Computense de Madrid, 2011. [En línea]
Disponible en:
https://webs.ucm.es/info/Astrof/users/jaz/ESTADISTICA/libro_GCZ2009.pdf
[14] R. A. Johnson, Probabilidad y estadística para ingenieros (8a. ed.). México D.F: Pearson
Educación, 2012. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/37870?
[15] C. Gamero Burón, Estadística I: elementos de estadística descriptiva y de teoría de la

probabilidad. Málaga: Servicio de Publicaciones y Divulgación Científica de la Universidad
de Málaga, 2017. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/60724?
16

Distribuciones, Regresión Lineal y Correlación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Distribuciones, Regresión Lineal y Correlación

Cargado por

Copyright:

Formatos disponibles

“ Distribuciones, Regresión Lineal y Correlación”

Ecuación 1. Distribución Binomial ..................................................................................................... 3

Figura 1. Ejemplo de diagrama de dispersión. .................................................................................... 9

Se ha reportado que, a la altura de la culminación de estudios, los estudiantes de ingeniería vienen a

Un concepto de vital importancia en el aprendizaje de los contenidos estadísticos es el concepto de

Las distribuciones de probabilidad constituyen un tema en el que confluyen tanto conceptos de

Se requiere, por lo tanto, establecer medidas probabilísticas de confiabilidad para hacer

Con frecuencia el estudio de la probabilidad se ve como un aspecto separado de la estadística, sin

- Sólo son posibles dos resultados mutuamente excluyentes.

𝑷(𝒙) = 𝒏𝑪𝒙 ∙ 𝒑𝒙 𝒒𝒏−𝒙 Ecuación 1. Distribución Binomial

𝑃(𝑥) = es la probabilidad de que sucedan exactamente “x” éxitos de “n” intentos.

𝑛𝐶𝑥 = es la combinación del total de intentos y número de éxitos.

𝑛 = número de veces que se realiza la operación.

𝑝 = probabilidad de obtener éxito.

𝑞 = Probabilidad de obtener un fracaso, es decir, es el complemento de éxito 𝑞 = 1 − 𝑝

Tratándose de distribución binomial, los parámetros son 𝒏 y 𝒑. Lo anterior se acostumbra a expresar

𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠; 𝑝 = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 é𝑥𝑖𝑡𝑜

𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝒏𝒑(𝟏 − 𝒑)

Nótese que la varianza es máxima cuando 𝑝 = 𝑞 = 1/2.

La distribución binomial se puede expresar de forma gráfica, y es que en realidad consiste en un

La distribución de Poisson surge cuando un evento o suceso ”raro” ocurre aleatoriamente en

1. En un intervalo muy pequeño (p.e. un milisegundo) la probabilidad de que ocurra un evento

3. El número de ocurrencias en un intervalo pequeño no depende de lo que ocurra en cualquier

Formalmente, la v.a. de Poisson, 𝑋~𝑃(𝜆), es la que describe el número de éxitos ocurridos en un

𝜆 = promedio de ocurrencia de un evento

𝑒 = base del logaritmo natural, cuyo valor es 2.7182

𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜;

La distribución de Poisson se aplica en algunas ingenierías como industrial e informática, además, se

La distribución normal es la más importante tanto en la probabilidad y en la estadística. Muchas

La media y varianza de la distribución normal se obtienen normalmente, con:

Si se tratase de una distribución normal estándar, la media es igual a 0, y la varianza igual a 1.

La gráfica correspondiente a la distribución normal se denomina campana de Gauss o gaussiana, en

Una variable aleatoria 𝑋, tiene distribución exponencial, en símbolos y con un parámetro 𝝀,

Al tratarse de una distribución exponencial, su forma típica de comportamiento es al de la función

El valor esperado (media) de la distribución de Weibull es:

La varianza se conoce mediante:

Es una de las distribuciones más utilizadas en estudios de confiabilidad de equipos y de sistemas.

Figura 1. Ejemplo de diagrama de dispersión.

(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ).

A cada valor 𝑥𝑖 de la variable 𝑥 le corresponde entonces un valor 𝑦𝑖 de la variable 𝑦, pudiendo,

𝑀= ∑ 𝑑𝑖2 = ∑(𝑦𝑖∗ − 𝑦𝑖 )2 𝑜, 𝑑𝑖𝑐ℎ𝑜 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑓𝑜𝑟𝑚𝑎, 𝑀 = ∑(𝑎 + 𝑏𝑥𝑖 − 𝑦𝑖 )2

Dividiendo por 𝑛2 en el numerador y denominador de la expresión para 𝑏, ésta queda:

Y una vez calculado 𝑏, 𝑎 se puede calcular de forma inmediata por 𝑎 = 𝑦̅ − 𝑏𝑥̅ .

𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑥𝑖 − 𝑥̅

donde el subíndice 𝑥 en 𝑆 distingue la varianza muestral de las observaciones 𝑥,

𝑆𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2 /(𝑛 − 1) = 𝑆𝑥𝑥 /(𝑛 − 1)

de la varianza muestral de las observaciones de 𝑦.

El coeficiente de correlación muestral 𝑟 es la suma de productos de las variables estandarizadas

➢ La magnitud de 𝑟 describe la fortaleza de una relación lineal, mientras su signo indica la

Un valor de 𝑟 cercano a −1 o +1 describe una relación lineal fuerte.

Algunas propiedades de 𝑅 2 son:

➢ 𝑅 2 es adimensional: es el cociente de 2 varianzas que se expresan en la misma unidad de

Gracias a la investigación realizada, se pudo reforzar y aminorar un poco de la situación descrita en

[3] C. A. Islas Salomón, M. P. Colín Uribe y F. Morales Téllez, Probabilidad y estadística.

[4] C. Hernández Garciadiego, C. Hernández Garciadiego y E. de Oteyza, Probabilidad y

[6] H. Llinás Solano, Introducción a la teoría de probabilidad. Barranquilla: Universidad del

[9] J. S. Rosenthal y M. J. Evans, Probabilidad y estadística: la ciencia de incertidumbre.

[10] T. M. Zobeck, T. E.Gill, y T. W. Popham, A two‐parameter Weibull function to describe

[12] A. M. Razali, R. Z. Abidin, A. Zaharim, y K. Sopian, Fitting of Statistical Distributions to

[15] C. Gamero Burón, Estadística I: elementos de estadística descriptiva y de teoría de la

También podría gustarte