Está en la página 1de 11

TECNOLOGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO DE TLAXIACO

PROBABILIDAD Y ESTADISTICA

INGENIERÍA CIVIL

TRABAJO
REPORTE
UNIDAD V
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

CATEDRATICO
LIC. LEYDI LINDA LUZ CRUZ AVENDAÑO

ALUMNO
HUGO ALBERTO RUIZ PACHECO

SEMESTRE GRUPO
CUARTO SEMESTRE V3

HEROÍCA CD. DE TLAXIACO, OAXACA A 22 DE JULIO DE 2019.


ÍNDICE

5.1 Regresión lineal simple, curvilínea y múltiple.

5.2 Correlación.

5.3 Regresión y correlación para datos agrupados.

5.4 Correlación por rangos.

5.5 Coeficiente de correlación para datos nominales.


INTRODUCCIÓN

En este reporte veremos un poco de probabilidad y estadística que nos dice que son la
ciencia y la tecnología que se desarrollan con algún grado de incertidumbre ocasionados
por los errores inherentes al humano, errores que pueden ser accidentales, sistemáticos o
producto de la casualidad, o bien por variabilidad (despreciable o no) en los resultados
obtenidos de algún proceso de producción; dichos resultados pueden considerarse iguales
a la mejor estimación disponible, gracias a una fórmula de diseño o al promedio de algún
número de valores observados; Por otra parte, existen también diferentes factores con los
que debemos relacionarnos en nuestras actividades diarias de producción: capacidades
individuales de los obreros, condiciones de rendimiento y eficiencia de máquinas y/o
instrumentos, manejo de materiales heterogéneos producidos o utilizados, condiciones
climáticas, propiedades de elasticidad o plasticidad de los materiales, destreza del
operador, etc. La Probabilidad, tiene como objetivo medir o determinar cuantitativamente la
posibilidad de que ocurra un determinado evento o suceso. La probabilidad se basa en el
estudio de la combinación. La Estadística, tienen como objetivo reunir, organizar y analizar
datos numéricos, que ayudan a resolver problemas como el diseño de experimentos y la
toma de decisiones. Francamente no es variado ni versátil el material desarrollado para el
estudio de la Probabilidad y la Estadística aplicada a la Ingeniería Civil, es por eso que el
estudiante de Ing. Civil queda con una limitada apreciación práctica de los conceptos
teóricos, razón por la que (en la medida de lo posible), los ejemplos en el presente
documento se aplican al campo de la Ingeniería Civil. Un Ingeniero Civil resuelve problemas
de interés aplicando eficientemente principios científicos; La Ingeniería Civil se relaciona
con eventos que dependen de clases de operadores humanos, materiales heterogéneos,
actitud de los trabajadores, condiciones climatológicas, etc. Los resultados esperados
muchas veces pueden ser de gran variabilidad en la ocurrencia sucesiva de dichos
fenómenos o sistemas los cuales no producen el mismo resultado; debe estudiarse cuándo
representan mayor impacto.
5. Análisis de regresión y correlación

5.1 Regresión lineal simple, curvilínea y múltiple.

Con frecuencia las decisiones gerenciales se basan en la relación entre dos o más
variables. Por ejemplo, al analizar la relación entre el gasto en publicidad y las ventas, un
gerente de marketing puede tratar de predecir las ventas correspondientes a un
determinado gasto en publicidad. En otro caso, una empresa de servicios públicos
establece la relación entre la temperatura diaria y la demanda de electricidad para predecir
la necesidad de fl uido eléctrico considerando las temperaturas diarias que se esperan para
el mes siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la
relación entre dos variables. Sin embargo, cuando los da tos están disponibles, puede
emplearse un procedimiento estadístico llamado análisis de regresión para obtener una
ecuación que indique cuál es la relación entre las variables. En la terminología que se
emplea en la regresión, la variable a predecir se llama variable dependiente, y a la variable
o variables que se usan para predecir su valor se les llama variables independientes. Por
ejemplo, al analizar el efecto de los gastos en publicidad sobre las ventas, como lo que
busca el gerente de marketing es predecir estas últimas, las ventas serán la variable
dependiente. En este capítulo se estudia el tipo más sencillo de análisis de regresión en el
que interviene una variable independiente y una variable dependiente donde la relación
entre estas variables se aproxima mediante una línea recta. A este tipo de análisis se le
conoce como regresión lineal simple.

Modelo de regresión lineal simple

Armand’s Pizza Parlors es una cadena de restaurantes de comida italiana. Sus mejores
ubicaciones son las que se encuentran cerca de los campus de las universidades. Los
gerentes creen que las ventas trimestrales de estos restaurantes (que se denotan por y)
están directamente relacionadas con el tamaño de la población estudiantil (que se denota
x); es decir, en los restaurantes que están cerca de campus que tienen una población
estudiantil grande se generan más ventas que en los restaurantes situados cerca de
campus con una población estudiantil pequeña. Empleando el análisis de regresión, se
puede obtener una ecuación que muestre cuál es la relación entre la variable dependiente
y y la variable dependiente x.

Modelo de regresión y ecuación de regresión


En el ejemplo de los restaurantes Armand’s Pizza Parlors, la población consta de todos los
restaurantes Armand. Para cada restaurante de la población, hay un valor x (población
estudiantil) y un correspondiente valor y (ventas trimestrales). A la ecuación con que se
describe cómo se relaciona y con x y en la que se da un término para el error, se le llama
modelo de regresión. El siguiente es el modelo que se emplea en la regresión lineal simple.

MODELO DE REGRESIÓN LINEAL SIMPLE

Y=B0 + B1x + E

B0 Y B1 se conocen como los parámetros del modelo, y E (la letra griega épsilon) es una
variable aleatoria que se conoce como término del error. El término del error da cuenta de
la variabilidad de y que no puede ser explicada por la relación lineal entre x y y.

La población de los restaurantes Armand’s puede verse también como una colección de
subpoblaciones, una para cada uno de los valores de x. Por ejemplo, una subpoblación está
formada por todos los campus universitarios de 8000 estudiantes; otra subpoblación consta
de todos los restaurantes Armand’s localizados cerca de los campus universitarios de 9000
estudiantes; etc. Para cada subpoblación hay una distribución de valores y. Así, hay una
distribución de valores y que corresponde a los restaurantes localizados cerca de los
campus de 8000 estudiantes; hay otra distribución de valores y que corresponde a los
restaurantes ubicados cerca de los campus de 9000 estudiantes, y así sucesivamente.
Cada una de estas distribuciones de valores y tiene su propia media o valor esperado. A la
ecuación que describe la relación entre el valor esperado de y, que se denota E(x), y x se
le llama ecuación de regresión. La siguiente es la ecuación de regresión para la regresión
lineal simple.

ECUACIÓN DE REGRESIÓN LINEAL SIMPLE

E(Y)= B0 + B1x + E

La gráfica de la ecuación de regresión lineal simple es una línea recta; B0 es la intersección


de la recta de regresión con el eje y, B1 es la pendiente y E(y) es la media o valor esperado
de y para un valor dado de x. En la figura 14.1 se presentan ejemplos de posibles rectas de
regresión. La recta de regresión de la gráfica A indica que el valor medio de y está
relacionado positivamente con x. La recta de regresión de la gráfica B indica que el valor
medio de y está relacionado negativamente con x, valores menores de E(y) corresponden
a valores mayores de x. La recta de regresión de la gráfica C muestra el caso en el que el
valor medio de y no está relacionado con x; es decir, el valor medio de y es el mismo para
todos los valores de x.

5.2 Correlación

El coeficiente de correlación como una medida descriptiva de la intensidad de la relación


lineal entre dos variables x y y. Los valores del coeficiente de correlación son valores que
van desde 1 hasta 1. El valor 1 indica que las dos variables x
y y están perfectamente relacionadas en una relación lineal positiva. Es decir, los puntos
de todos los datos se encuentran en una línea recta que tiene pendiente positiva. El valor
1 indica que x y y están perfectamente relacionadas, en una
relación lineal negativa, todos los datos se encuentran en una línea recta que tiene
pendiente negativa. Los valores del coeficiente de correlación cercanos a cero indican que
x y y no están relacionadas linealmente. En la sección 3.5 se presentó la ecuación para
calcular el coeficiente de correlación maestral. Cuando se ha realizado un análisis de
regresión y se ha calculado el coeficiente de determinación r2, el coeficiente de correlación
muestral se puede calcular como se indica a continuación.

El signo del coeficiente de regresión muestral es positivo si la ecuación de regresión tiene


pendiente positiva (b1 >0) y es negativo si la ecuación de regresión estimada tiene pendiente
negativa (b1 < 0). En el ejemplo de Armand’s Pizza Parlor, el valor del coeficiente de
determinación corres- pondiente a la ecuación de regresión estimada y= 60 + 5x es 0.9027.
Como la pendiente de la ecuación de regresión estimada es positiva, la ecuación (14.13)
indica que el coeficiente de correlación muestral es Con este coeficiente de correlación
muestral, rxy = +0.9501, se concluye que existe una relación lineal fuerte entre x y y. 0.9027
0.9501 y En el caso de una relación lineal entre dos variables, tanto el coeficiente de
determinación como el coeficiente de correlación muestral proporcionan medidas de la
intensidad de la relación. El coeficiente de determinación proporciona una medida cuyo
valor va desde cero hasta uno, mientras que el coeficiente de correlación muestral
proporciona una medida cuyo valor va desde –1 hasta +1. El coeficiente de correlación
lineal está restringido a la relación lineal entre dos variables, pero el coeficiente de
determinación puede emplearse para relaciones no lineales y para relaciones en las que
hay dos o más variables independientes. Por tanto, el coeficiente de determinación tiene un
rango más amplio de aplicaciones.

5.3 Regresión y correlación para datos agrupados


La regresión estadística o regresión a la media es la tendencia de una medición extrema a
presentarse más cercana a la media en una segunda medición. La regresión se utiliza para
predecir una medida basándonos en el conocimiento de otra.
MODELOS DE REGRESIÓN
En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la
relación entre una variable dependiente Y, las variables independientes Xi y un término
aleatorio ε. Este modelo puede ser expresado como:

Yt : variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables explicativas tienen sobre


el regresando.

donde es la intersección o término "constante", las son los parámetros respectivos


a cada variable independiente, y es el número de parámetros independientes a tener en cuenta
en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

El modelo lineal relaciona la variable dependiente Y con K variables explicativas X_k (k = 1,...K), o
cualquier transformación de éstas, que generan un hiperplano de parámetros Bk beta desconocidos:

donde E es la perturbación aleatoria que recoge todos aquellos factores de la realidad no


controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa,
el hiperplano es una recta:

El problema de la regresión consiste en elegir unos valores determinados para los


parámetros desconocidos Bk de modo que la ecuación quede completamente especificada.
Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima
(i= 1... I) se registra el comportamiento simultáneo de la variable dependiente y las variables
explicativas (las perturbaciones aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parámetros, Bk son los coeficientes de
regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso
generador. Por tanto, en

Los valores Ej son por su parte estimaciones de la perturbación aleatoria o errores.

5.4 Correlación por rangos


En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación
lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables
cuantitativas están correlacionadas cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos
variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de
B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación
de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos super variables cuantitativas queda representada mediante la línea
de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes
elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el
sentido y la forma:
La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de
puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica
que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la
relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de
A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de
B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva
monotónica o la curva no monotónica.
Distribución del coeficiente de correlación
El coeficiente de correlación muestral de una muestra es de hecho una varible aleatoria,
eso significa que si repetimos un experimento o consideramos diferentes muestras se
obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a
partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en
dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en
determinar la distribución de probabilidad para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribución
gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de
probabilidad dada por:12

Prueba de significancia de la correlación de rangos


Hasta aquí se ha visto cómo usar los resultados muéstrales para calcular el coeficiente de
correlación por rangos. Como ocurre con muchos otros procedimientos estadísticos, se
desea emplear los resultados muéstrales para hacer inferencias acerca de la correlación
por rangos poblacional ps. Para hacer una inferencia acerca de la correlación por rangos
poblacionales, se debe probar la hipótesis siguiente.
HO : PS = 0
Ha : Ps = 0
CONCLUSIÓN

Con este reporte concluimos que la estadística responde a la actividad planificadora de la


sociedad. Con la Revolución Industrial aparecen nuevos problemas, en este caso las
emisiones atmosféricas. La Estadística es un instrumento para identificar causas e impactos
que esta problemática genera en la sociedad. La estadística es el conjunto de diversos
métodos matemáticos que tienen como objetivo obtener, presentar y analizar datos (ya
sean números o cualidades) La estadística nos permite realizar estudios reales, con
poblaciones exactas; lo cual nos ayuda a mejorar nuestros proyectos. Dentro de una
planificación ambiental los datos estadísticos juegan un papel muy importante, pues nos
van a determinar en primera medida gastos y nos garantizara la eficiencia. Este trabajo
evidencia todos y cada uno de los temas vistos dentro del plan semestral del programa
ingeniería ambiental; lo aquí presentado permitió desarrollar el sentido de localización de
cada uno de los estudiantes pues fijo datos reales a temas teóricos. Llevar un buen registro
de datos estadísticos nos permite conocer de mejor manera el problema, cuando nosotros
conocemos la realidad de nuestras áreas afectadas; es más fácil dar soluciones. Los
diferentes tipos de distribuciones nos permiten prever eventos que puedan ocurrir, teniendo
en cuenta lo que ha sucedido anteriormente (datos históricos). Una de las técnicas más
utilizadas dentro de la estadística es la medición de parámetros de tendencial central, la
moda, mediana y media. Lo cual nos permite centrar el problema y plantear puntos de
referencia. Para desarrollar un buen proyecto ambiental siempre es necesario conocer las
bases estadísticas del lugar donde vayamos a trabajar. Conocer la teoría nos ayuda a
enfocar soluciones y conocer la realidad nos ayuda a contextualizar y a diferenciar
soluciones.

BIBLIOGRAFÍA
*Tomado de Robert D. Mason, Essentials of Statistics. © 1976, pág. 307. Impreso con
licencia

de Prentice-Hall, Inc., Engiewood Cliffs, NJ.

www.planetadelibr os.com

www.par adummies.es

También podría gustarte