Está en la página 1de 13

Sustentante: Katherin Cesarina González Melo

Estadística Aplicada
Practica VIII

Parte II

Favor de desarrollar los siguientes conceptos sobre el análisis bivariado

¿Qué es análisis bivariado?


Los datos binarios son datos cuya unidad puede tomar solo dos estados posibles,
tradicionalmente etiquetados como 0 y 1 de acuerdo con el sistema de numeración
binario y el álgebra de Boole.

Los datos binarios se producen en muchos campos técnicos y científicos diferentes,


donde pueden llamarse con diferentes nombres:

"Bit" (dígito binario) en informática,


"Valor de verdad" en lógica matemática y dominios relacionados.
"Variable binaria" en estadísticas.

¿Cuál es el propósito del análisis Bivariado?


Los datos binarios representan los resultados de los ensayos de Bernoulli,
experimentos estadísticos con solo dos resultados posibles. Es un tipo de datos
categóricos, que generalmente representa experimentos con un número fijo de
resultados posibles. Los dos valores en una variable binaria, a pesar de estar
codificados numéricamente como 0 y 1, generalmente se consideran que existen en
una escala nominal, lo que significa que representan valores cualitativamente
diferentes que no se pueden comparar numéricamente. En este sentido, también, los
datos binarios son similares a los datos categóricos, pero distintos de los datos de
conteo u otros tipos de datos numéricos

¿Qué es una variable independiente, como se representa y que otros nombres


reciben esta?
Las variables independientes, también conocidas en un contexto estadístico como
regresores, representan insumos o causas, es decir, razones potenciales de variación.
En un experimento, cualquier variable que el experimentador manipule puede
denominarse variable independiente.
La variable independiente en una función se suele representar por x. La variable
independiente se representa en el eje de abscisas

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Qué es una variable dependiente, como se representa y que otros nombres


reciben esta?
Una variable dependiente es aquella cuyos valores dependen de los que tomen otra
variable.

 La variable dependiente en una función se suele representar por y.

 La variable dependiente se representa en el eje ordenadas.

 La variable y está en función de la variable x, que es la variable


independiente.

¿Cuáles son los tipos de análisis bivariado que existen en la actualidad?


El análisis univariado Consiste en el análisis de cada una de las variables
estudiadas por separado, es decir, el análisis está basado en una sola variable. Las
técnicas más frecuentes de análisis univariado son la distribución de frecuencias
para una tabla univariada y el análisis de las medidas de tendencia central de la
variable.

• El análisis bivariado es una forma evolucionada de análisis estadístico en el


cual se cuantifica a nivel descriptivo e inferencial el nivel de covarianza entre
dos variables y de esta forma se da cuenta de la relación entre dos variables.

• Análisis multivariados que consiste en estudiar más de dos variables.

¿Cuáles son los métodos estadísticos para analizar dos variables?

• Métodos de Dependencia:
Un estudio de la regresión nos permite averiguar hasta que punto una variable puede
ser prevista conociendo otra. Se utiliza para intentar predecir el comportamiento de
ciertas variables a partir de otras, como por ejemplo los beneficios de una película a
partir del gasto en márketing y del gasto en producción.
El análisis de la correlación canónica intenta analizar la posible existencia de relación
entre dos grupos de variables.
Un análisis discriminante nos puede dar una función discriminante que puede ser
utilizada para distinguir entre dos o más grupos, y de este modo tomar decisiones.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Un análisis multivariante de la varianza (MANOVA), extendiendo el análisis de la


varianza (ANOVA), cubre los casos en los que se conozca la existencia de más de una
variable dependiente sin poderse simplificar más el modelo.
La regresión logística permite la elaboración de un análisis de regresión para estimar
y probar la influencia de una variable sobre otra, cuando la variable dependiente o de
respuesta es de tipo dicotómico.

• Métodos de Interdependencia:
El análisis de los componentes principales procura determinar un sistema más pequeño
de variables que sinteticen el sistema original.

El análisis clúster clasifica una muestra de entidades (individuos o variables) en un


número pequeño de grupos de forma que las observaciones pertenecientes a un grupo
sean muy similares entre sí y muy disimilares del resto. A diferencia del Análisis
discriminante se desconoce el número y la composición de dichos grupos.
La Iconografía de las correlaciones.

• Métodos Estructurales:
Los modelos de ecuaciones estructurales analizan las relaciones existentes entre un
grupo de variables representadas por sistemas de ecuaciones simultáneas en las que
se suponen que algunas de ellas (denominadas constructos) se miden con error a partir
de otras variables observables denominadas indicadores. Los modelos utilizados
constan, por lo tanto, de dos partes: un modelo estructural que especifica las
relaciones de dependencia existente entre los constructos latentes (Componente
Estructural) y un modelo de medida que especifica como los indicadores se relacionan
con sus correspondientes constructos

¿Qué es un diagrama de dispersión?


Un diagrama de dispersión o gráfica de dispersión o gráfico de burbujas es un tipo
de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los
valores de dos variables para un conjunto de datos.
En termodinámica, se conoce como diagrama o simplemente diagrama PV) al diagrama
que refleja la presión en el eje de ordenadas y el volumen en el eje de abscisas. En el
diagrama p-v se representa el estado de un sistema termodinámico (como un punto
en el mismo) o un proceso termodinámico del sistema (como una curva en él).

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Cuáles son los elementos indispensables para realizar un diagrama de dispersión?

• Determinar cuál es la situación. Si no entendemos qué es lo que está


ocurriendo, no podremos establecer las variables a estudiar.
• Determinar las variables a estudiar. Si ya determinaste las variables a
estudiar, es porque crees que puede existir una relación entre ellas que te
permita caracterizar la situación.
• Recolectar los datos de las variables: Si ya los tienes, perfecto. Si no,
definimos un período de tiempo para conseguir los datos de las variables antes
definidas. Recuerda que los datos de las dos variables deben estar dados en el
mismo período de tiempo.
• Ubicar los valores en el eje respectivo. Por lo general, la variable independiente
es aquella que no está influenciada por la otra y se ubica en el eje x. La variable
dependiente que es la que se ve afectada por la otra variable se ubica en el eje
y. Así pues, procedemos a ubicar los valores en el plano cartesiano de acuerdo
a su variable (x, y)
• Determinar el coeficiente de correlación: El coeficiente de correlación debe
verse reflejado en la forma que toma el gráfico de dispersión. Es el cociente
de la covarianza y la multiplicación de la desviación típica de las dos variables.
Con excel logramos calcularlo de manera muy simple.
• Analizar: Con base en el coeficiente y en el gráfico, definimos cuál es la
relación de las dos variables y tomamos las decisiones pertinentes.

¿Cuál es el propósito de realizar un diagrama de dispersión?


 Obtener información para determinar si dos variables están relacionadas.
 Comprobar cómo afecta a una variable los cambios producidos en otra.
 Probar las posibles relaciones causa / efecto.

¿Qué es covarianza?
La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían de
forma conjunta respecto a sus medias.

Nos permite saber cómo se comporta una variable en función de lo que hace otra
variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues, la covarianza puede
tomar los siguientes valores:

Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una relación
negativa.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una relación
positiva.

¿Cuáles son las limitaciones del coeficiente de covarianza?


El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es próximo al
0, significa que existe poca variabilidad en los datos y es una muestra muy compacta.

¿Cuál es la diferencia entre correlación y covarianza?


Los siguientes puntos son notables en lo que respecta a la diferencia entre covarianza
y correlación:

Una medida utilizada para indicar la medida en que dos variables aleatorias cambian
en tándem se conoce como covarianza. Una medida utilizada para representar la
fuerza con la que se relacionan dos variables aleatorias conocida como correlación.
Laura covarianza no es más que una medida de correlación. Por el contrario, la
correlación se refiere a la forma escalada de covarianza. El valor de la correlación
tiene lugar entre -1 y +1. Por el contrario, el valor de la covarianza se encuentra entre
-∞ y + ∞.
La covarianza se ve afectada por el cambio en la escala, es decir, si todo el valor de
una variable se multiplica por una constante y todo el valor de otra variable se
multiplica, por una constante similar o diferente, entonces se cambia la covarianza.
En contra de esto, la correlación no está influenciada por el cambio en la escala.
La correlación no tiene dimensiones, es decir, es una medida sin unidades de la
relación entre las variables. A diferencia de la covarianza, donde el valor se obtiene
por el producto de las unidades de las dos variables.

¿Qué es correlación?
La correlación se describe como una medida en las estadísticas, que determina el
grado en que dos o más variables aleatorias se mueven en tándem. Durante el estudio
de dos variables, si se ha observado que el movimiento en una variable es
correspondido por un movimiento equivalente a otra variable, de una u otra forma, se
dice que las variables están correlacionadas.

La correlación es de dos tipos, es decir, correlación positiva o correlación negativa.


Se dice que las variables están correlacionadas de manera positiva o directa cuando
las dos variables se mueven en la misma dirección. Por el contrario, cuando las dos
variables se mueven en dirección opuesta, la correlación es negativa o inversa.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Cuál son las propiedades que debe de cumplir el coeficiente de correlación lineal
de Pearson?

El valor de la correlación se encuentra entre -1 a +1, donde los valores cercanos a +1


representan una fuerte correlación positiva y los valores cercanos a -1 son un
indicador de una fuerte correlación negativa.

¿Qué mide r?
Es un número sin dimensiones entre -1 y 1. Si las variables son independientes r=0. La
inversa no es necesariamente cierta, aunque si las variables son normales bivariantes
sí. Si las variables estuvieran relacionadas linealmente r=1

Un contraste que interesa realizar en un modelo II es H0: r=0. Como


este contraste es totalmente equivalente al realizado sobre dicho coeficiente,
aunque también hay tablas basadas en que una cierta transformación (de Fisher) de
r se distribuye aproximadamente como una normal.
Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la
regresión de tal modo que su cuadrado (coeficiente de determinación) es la
proporción de variación de la variable Y debida a la regresión. En este sentido, r2
mide el poder explicatorio del modelo lineal.

¿Qué no mide r?
No mide la magnitud de la pendiente ("fuerza de la asociación")

¿Qué es un coeficiente de correlación?


En estadística, el coeficiente de correlación de Pearson es una medida lineal entre
dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson


como un índice que puede utilizarse para medir el grado de relación de dos variables
siempre y cuando ambas sean cuantitativas y continuas.

¿Cuáles son los tipos de coeficiente de correlación existentes?


Relación directa entre las variables: un aumento en la variable independiente implica
un aumento en la variable dependiente.
Relación inversa entre las variables: un aumento en la variable independiente implica
una disminución en la variable dependiente.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Cuál es propósito del análisis de correlación?


El análisis de correlación emplea métodos para medir la significación del grado o
intensidad de asociación entre dos o más variables. Normalmente, el primer paso es
mostrar los datos en un diagrama de dispersión.

¿Cuál son los tipos de grados de correlación?


El concepto de correlación está estrechamente vinculado al concepto de regresión,
pues, para que una ecuación de regresión sea razonable los puntos muéstrales deben
estar ceñidos a la ecuación de regresión; además el coeficiente de correlación debe
ser:

Grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando es


bajo, cerca de cero.

El grado de correlación indica la proximidad que hay entre los puntos de la nube de
puntos.
Se pueden dar tres tipos:
• Correlación fuerte: La correlación será fuerte cuanto más cerca estén los
puntos.
• Correlación débil: La correlación será débil cuanto más separados estén los
puntos de la recta

Independiente de las unidades en que se miden las variables.


La correlación trata de establecer la relación o dependencia que existe entre las
dos variables que intervienen en una distribución bidimensional
Es decir, determinar si los cambios en una de las variables influyen en los cambios
de la otra. En caso de que suceda, diremos que las variables están correlacionadas o
que hay correlación entre ellas.

Tipos de correlación

 Correlación directa
La correlación directa se da cuando al aumentar una de las variables la otra
aumenta.
La recta correspondiente a la nube de puntos de la distribución es una recta
creciente.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

 Correlación inversa
La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
La recta correspondiente a la nube de puntos de la distribución es una recta
decreciente.

 Correlación nula
La correlación nula se da cuando no hay dependencia de ningún tipo entre las
variables.

Diferencia entre correlación y regresión


La Regresión y la Correlación son dos medidas que están estrechamente relacionadas,
pero son totalmente diferentes, los conceptos expuestos a continuación aclaran la
diferencia entre los dos términos.
El concepto de Correlación dice que es la medida en la cual se relacionan dos variables
diferentes por ejemplo como se relaciona la cantidad de fumadores con la cantidad
de enfermos de cáncer del pulmón o la relación que tienen las notas de cursos de
estudiantes de diferentes universidades o diferente nivel económico.
Por otra parte, la Regresión es la ecuación matemática que describe el
comportamiento de dos medidas, es decir, con la regresión podemos construir una
fórmula que nos dé el número de enfermos de cáncer de pulmón en función de los
fumadores o el número de cursos aprobados en función de la universidad o del estatus
social del estudiante.

La correlación se torna interesante cuando el analista o la persona quien está


ejecutando el análisis de la relación entre las variables necesita saber con qué fuerza
influye una variable con el comportamiento de la segunda variable, es decir, cuando
medimos la correlación nos interesa saber que tan importante es una variable y que
tanto influye en el resultado.

¿Qué es un modelo de regresión lineal simple?


Para poder hacer inferencia (IC y contrastes) sobre los parámetros, suponemos que
se verifica el siguiente modelo: Para todas las observaciones i = 1, . . . , n Yi = β0 +
β1xi + ui donde: El valor medio de los errores ui es cero.
Todos los errores ui tienen la misma varianza σ (homocedasticidad).
Las variables ui tienen distribución normal, las variables ui son independientes.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Cuáles son los tipos de modelos de regresión?

 Regresión lineal simple


La regresión lineal simple se basa en estudiar los cambios en una variable, no
aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional
entre ambas variables que puede ser establecida por una expresión lineal, es decir,
su representación gráfica es una línea recta. Es decir, se esta en presencia de una
regresión lineal simple cuando una variable independiente ejerce influencia sobre
otra variable dependiente.

Ejemplo: Y = f(x)

 Regresión lineal múltiple


La regresión lineal permite trabajar con una variable a nivel de intervalo o razón, así
también se puede comprender la relación de dos o más variables y permitirá
relacionar mediante ecuaciones, una variable en relación a otras variables llamándose
Regresión múltiple. O sea, la regresión lineal múltiple es cuando dos o más variables
independientes influyen sobre una variable dependiente.

Ejemplo: Y = f(x, w, z).

Aplicaciones de la regresión lineal


Una línea de tendencia representa una tendencia en una serie de datos obtenidos a
través de un largo período. Este tipo de líneas puede decir si un conjunto de datos en
particular (como, por ejemplo, el PBI, el precio del petróleo o el valor de las acciones)
han aumentado o decrementado en un determinado período. Las líneas de tendencia
son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de
mayor grado dependiendo de la curvatura deseada en la línea.

En Medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco


vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una
gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar
factores que pudieran producir correlaciones espurias.

En el caso del Tabaquismo, los investigadores incluyeron el estado socio-económico


para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de
su educación o posición económica. No obstante, es imposible incluir todas las
variables posibles en un estudio de regresión.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

En el ejemplo del tabaquismo, un hipotético gen podría aumentar la Mortalidad y


aumentar la propensión a adquirir enfermedades relacionadas con el consumo de
tabaco.

En la industria tiene aplicación para investigar la relación entre el rendimiento de la


producción y uno o más factores del (o de los) que depende, como la Temperatura, la
humedad ambiental, la presión, la cantidad de insumos, etc; con base en este análisis
se puede pronosticar el comportamiento de una variable que se desea estimar

¿Qué es análisis de regresión lineal simple?


En estadística, el análisis de la regresión es un proceso estadístico para estimar las
relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de
diversas variables, cuando la atención se centra en la relación entre una variable
dependiente y una o más variables independientes (o predictoras). Más
específicamente, el análisis de regresión ayuda a entender cómo el valor de la variable
dependiente varía al cambiar el valor de una de las variables independientes,
manteniendo el valor de las otras variables independientes fijas. Más comúnmente,
el análisis de regresión estima la esperanza condicional de la variable dependiente
dadas las variables independientes - es decir, el valor promedio de la variable
dependiente cuando se fijan las variables independientes.

¿Cuál son los propósitos del análisis de regresión lineal simple?


Una de las principales aplicaciones del análisis de regresión es la proyección con
diferentes escenarios. Esto, teniendo en cuenta el grado de influencia (en estadística
se conoce a esto como correlación) sobre la variable dependiente.

Es decir, el objetivo del análisis de regresión es construir una función que permita
estimar el valor futuro de la variable de estudio.

Desde otro punto de vista, la regresión permite calcular una esperanza (promedio)
condicional. Para ese fin, se toman como dados los valores de las variables
independientes.

Cabe precisar que cuando se tiene en cuenta solo una variable independiente hablamos
de regresión lineal simple. En cambio, si se incluyen más factores, se trataría de una
regresión lineal múltiple. El análisis de regresión tiene aplicaciones para la vida
cotidiana. Esto, desde el estudio de accidentes de tráfico en una determinada zona

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

geográfica hasta comprobar si un plan de estudios es recomendable según la tasa de


abandono escolar.

¿Cuáles son los tipos de regresión existentes?


En primer lugar, en función del número de variables independientes:

• Regresión simple: Cuando la variable Y depende únicamente de una única


variable X.

• Regresión múltiple: Cuando la variable Y depende de varias variables (X1, X2,


..., Xr)
• En segundo lugar, en función del tipo de función f(X):

• Regresión lineal: Cuando f(X) es una función lineal.

• Regresión no lineal: Cuando f(X) no es una función lineal.

En tercer lugar, en función de la naturaleza de la relación que exista entre las dos
variables:

La variable X puede ser la causa del valor de la variable Y. Por ejemplo, en toxicología,
si X = Dosis de la droga e Y = Mortalidad, la mortalidad se atribuye a la dosis
administrada y no a otras causas. Puede haber simplemente relación entre las dos
variables. Por ejemplo, en un estudio de medicina en que se estudian las variables X
= Peso e Y = Altura de un grupo de individuos, puede haber relación entre las dos,
aunque difícilmente una pueda considerarse causa de la otra.

¿Qué es una recta de regresión y como se representa?


La recta de regresión es la recta que mejor se ajusta a los datos de una variable
bidimensional. Pasa por el llamado centro de gravedad de la nube de puntosrecta de
regresión es la que mejor se ajusta a la nube de puntos.
La recta de regresión pasa por el punto conformado por las medias aritméticas de los
valores de {x} y {y}. El punto es llamado centro de gravedad.
La recta de regresión de {y} sobre {x} se utiliza para estimar los valores de la {y} a
partir de los de {x}.La pendiente de la recta es el cociente entre la covarianza
{s_{xy}} y la varianza {s^{2}_{x}} de la variable {x}.

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Qué es el método de los Mínimos Cuadrados?


Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la
optimización matemática, en la que, dados un conjunto de pares ordenados —variable
independiente, variable dependiente— y una familia de funciones, se intenta
encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

¿Qué son estimadores de mínimos cuadrados?


Son aquellos estimadores que minimizan la suma residual, es decir, la suma de los
cuadrados de los residuos.

¿Cuáles son los elementos que conforman una recta de regresión?


Los elementos fundamentales de la regresión lineal son la pendiente, la intersección
y el error. La pendiente (b) indica el aumento en Y por el aumento de una unidad en
X. Esto es, un incremento de una unidad en X da lugar a un cambio de b unidades en
Y. Si b es positiva, Y aumenta conforme X aumenta. La recta va, en este caso, hacia
arriba. Si b es negativa, Y disminuye conforme X aumenta. La recta va, en este caso,
hacia abajo. Si b=0, Y es constante, y la recta es horizontal. La intersección (a) es el
punto de intersección del eje Y con la recta de ajuste. El error (e) indica la diferencia
entre la Y observada y la Y que habría (llamada “ajustada”, para distinguirla de la
media de Y) para cada caso si la relación fuera perfecta, es decir si Yi cayera sobre
la línea recta. Otro nombre del error es residuo.

¿Cómo se interpretación de la ordenada en el origen a?


El término independiente, b, se llama ordenada en el origen de una recta, siendo (O,
b) el punto de corte con el eje de ordenadas, es decir el eje x. Mientras que
la ordenada al origen se encuentra pasando las variables al lado izquierdo de la
ecuación y dándole valor a las x.

¿Cómo se interpretación de la pendiente de la recta b?


La pendiente de una recta b es la tangente del ángulo que forma la recta con la
dirección positiva del eje de abscisas. En funciones no lineales, la razón de cambio
varía a lo largo de la curva. La derivada de la función en un punto dado es
la pendiente de la línea tangente en dicho punto

Matricula: 2016-3101923
Sustentante: Katherin Cesarina González Melo

¿Cuáles son los supuestos del modelo de regresión debe de cumplir?


Una de las cosas que debe cumplir son que la relación entre las variables sea
lineal, que los errores en la medición de las variables explicativas sean independientes
entre sí y que los errores tengan una esperanza matemática igual a cero (los errores
de una misma magnitud y distinto signo son equiprobables).

Matricula: 2016-3101923

También podría gustarte