Está en la página 1de 21

Práctica 3: Correlación y Regresión

Profesora: Carmen Elvira Ramos Domínguez

Profesora: Carmen Ramos Correlación y Regresión 1


Índice
 Tablas de Doble Entrada (Tabla Dinámica)
 Diagrama de Dispersión de una Variable Estadística
Bidimensional
 Medidas Estadísticas de una Variable Estadística
Bidimensional.
 Regresión Lineal con el Módulo de Análisis de
datos de LibreOffice Calc.

Profesora: Carmen Ramos Correlación y Regresión 2


Tabla Dinámica
Las tablas dinámicas permiten resumir un conjunto de
datos, atendiendo a varios criterios de agrupación. Son
dinámicas porque es posible obtener diferentes totales,
filtrar datos, cambiar la presentación de los datos,
visualizar o no los datos de origen, etc.
Pasos para crear una Tabla Dinámica:
1. Seleccionar el rango de datos de los que se desea construir la tabla,
incluidos los encabezados.
2. Elegir la pestaña Insertar  Tabla Dinámica… aparecerá entonces

Profesora: Carmen Ramos Correlación y Regresión 3


Tabla Dinámica
3. Pulsar Aceptar y se obtiene:

Profesora: Carmen Ramos Correlación y Regresión 4


Tabla Dinámica
4. De la lista de campos disponibles de tabla dinámica arrastramos
la variable que se quiere analizar y la llevamos a campo de fila o
columna. Ejemplo: Categoría a la fila y Sexo a la columna.
5. También ponemos en Campos de datos la Categoría.
6. Pulsar dos veces sobre Sum – Categoría de campo de datos y
se abre un menú contextual, donde puedes elegir lo que quieres
que muestre la tabla: suma, media, frecuencias… de los datos.
7. Seleccionar Conteo (sólo números), para que haga un recuento
de las observaciones.
De esta forma se obtiene una tabla de frecuencias de la variable
Bidimensional (Categoría, Sexo).

Profesora: Carmen Ramos Correlación y Regresión 5


Tabla Dinámica
Veamos ahora como obtener el tiempo medio dedicado a la
docencia por subgrupos.
1. Seleccionar el rango de datos incluidos los encabezados.
2. Elegir la pestaña Insertar  Tabla Dinámica…
3. Arrastrar las variables Categoría al campo de fila, Sexo al
campo de columna y Tiemdoc al campo de datos.
4. Pulsar dos veces sobre Sum-Tiemdoc y elegir promedio, para
mostrar el tiempo medio diario dedicado a la docencia dentro de
los subgrupos.

En caso de que los datos sean modificados, podemos actualizar la


tabla, seleccionándola y dentro de la pestaña Datos eligiendo el
triángulo de al lado de Tabla dinámica y pulsando en Actualizar.
6
Correlación y Regresión Lineal
Introducción
Dada la distribución de frecuencias de una variable estadística
bidimensional representada mediante su diagrama de dispersión
nos planteamos dos objetivos, de los que se ocupan las siguientes
teorías:
• Teoría de Regresión: Consiste en la búsqueda de una
función que se ajuste lo mejor posible a la nube de puntos,
para establecer la relación existente entre las variables,
con el fin de predecir una variable en función de la otra.
• Teoría de Correlación: Estudia el grado de variación (lineal,
cuadrática, exponencial,…) conjunta entre las variables,
midiendo el ajuste entre la función teórica y la nube de
puntos.
Cuando la función que liga las variables X e Y es una recta se
habla de Regresión lineal y Correlación lineal.

Profesora: Carmen Ramos Correlación y Regresión 7


Diagrama de Dispersión
Ejercicio:
Se utiliza un molino de viento para generar corriente continua. Se
reúnen datos en 15 días diferentes para determinar la relación entre
la velocidad del viento en mi/h X y la corriente en ka Y. Los datos se
presentan en la siguiente tabla:
X 4,2 1,4 6,6 4,7 2,6 5,8 1,8 5,8 7,3 7,1 6,4 4,6 1,6 2,3 4,2

Y 1,9 0,7 2,2 2,0 1,1 2,6 0,3 2,3 2,6 2,7 2,4 2,2 1,1 1,5 1,5

Veamos como construir el diagrama de dispersión, pero primero


debemos introducir los datos.
1. Se puede dar formato usando color del fondo.
2. También se le puede poner un borde para distinguir cada dato, y
centrarlos.
3. Construimos el diagrama de dispersión mediante:

Insertar  Gráfico…  XY (dispersión)  Sólo puntos

Profesora: Carmen Ramos Correlación y Regresión 8


Diagrama de Dispersión
A continuación seguimos los pasos del asistente de diagramas para
seleccionar los datos.
1. En Intervalos de datos se indican los datos a representar.
2. Seleccionamos las columnas de Velocidad del viento y Corriente
generada.
3. Se indica que la serie de datos están en columnas
4. Se selecciona que la primera fila son etiquetas
5. No se considera la primera columna como etiqueta.
Pulsamos siguiente dos veces y en Elementos del diagrama
podemos poner un título al gráfico, como Nube de puntos.

Para superponer la recta de regresión:


1. Se seleccionan los puntos y se pulsa el botón derecho del ratón
para abrir el menú contextual.
2. Se selecciona la opción: Insertar línea de tendencia…
3. En el tipo de tendencia se elige Lineal y pulsar Aceptar
Profesora: Carmen Ramos Correlación y Regresión 9
Diagrama de Dispersión
De esta forma se obtiene la recta de regresión de Y sobre X por el
método de los mínimos cuadrados:

Profesora: Carmen Ramos Correlación y Regresión 10


Medidas Estadísticas
Medidas Descriptivas de la Variable Estadística Bidimensional, que
estudian la relación entre ambas variables.
Covarianza
La covarianza es un coeficiente que sirve para indicar si las
variables varían en el mismo sentido o no.
– Si > 0  Las variables varían en el mismo sentido, si una crece
la otra también y si una decrece la otra también.
– Si < 0  Las variables varían en sentidos opuestos, si una crece
la otra decrece.

 COVARIANZA.P(): Calcula la covarianza de las dos variables.


Los argumentos son los rangos de los datos de X e Y.
Coeficiente de Correlación lineal de Pearson
El Coeficiente de Correlación lineal de Pearson es una medida del
grado de variación o asociación lineal entre las variables.

Profesora: Carmen Ramos Correlación y Regresión 11


Medidas Estadísticas
 Si ρ > 0  Correlación Directa o Positiva: Cuando una aumenta la
otra también y cuando una disminuye la otra también.
 Si ρ < 0  Correlación Inversa o Negativa: Si una aumenta la otra
disminuye y viceversa.
 Si ρ = 0  Variables Incorreladas: No existe relación lineal entre
las variables.

 COEF.DE.CORREL(): Calcula el coeficiente de Correlación lineal.


El argumento son los rangos de los datos de X y de Y.
Coeficiente de Determinación R2
Coeficiente que indica si el ajuste de la nube de puntos a la recta de
regresión es bueno o malo, dependiendo de que esté próximo a uno
o a cero, respectivamente.
 COEFICIENTE.R2(): Calcula el coeficiente de Determinación. Los
argumentos son los rangos de la variable a predecir Y, y de la
variable regresora X. Correlación y Regresión
12
Medidas Estadísticas
Regresión Lineal Simple
El Análisis de Regresión como indicamos permite construir un
modelo que exprese lo mejor posible el tipo de relación que existe
entre las variables estudiadas, con el fin de predecir los valores de
una de ellas en función de los de la otra.
En el caso de que la función de ajuste sea lineal y sólo haya una
variable regresora X y una sola variable dependiente Y, se habla de
regresión lineal simple, y el modelo sería como sigue:

Dado un valor fijo de X, el valor real de Y viene determinado por el


valor predicho por el modelo más un cierto error llamado residuo
que denotamos por e.

Profesora: Carmen Ramos Correlación y Regresión 13


Medidas Estadísticas
El método para estimar los parámetros β1 y β0 es el Método de
los mínimos cuadrados que consiste en minimizar la suma de
todos los errores o residuos al cuadrado. De esta forma se
obtiene:

Hipótesis del Análisis de Regresión:


1. Normalidad e Igualdad de Varianzas de la variable dependiente Y
para valores fijos de la independiente X.
2. Independencia de las observaciones Y.
3. Linealidad en la relación entre las variables X e Y.

Lo que se traduce en que los residuos han de ser eij ~ N(0, ),
todos al azar e independientes entre sí.

Profesora: Carmen Ramos Correlación y Regresión 14


Medidas Estadísticas
 ESTIMACION.LINEAL(): Devuelve los parámetros de la recta de
regresión de Y sobre X, la ordenada en el origen y la pendiente
, además de otras serie de medidas.
 Para ello debemos seleccionar primero un rango de 2 celdas, o si
queremos también las medidas de 10 celdas, 2 filas y 5 columnas.
 A continuación introducir la función con los siguientes argumentos:
 Los rangos de los datos de Y y de X,
 1 ó 0 para indicar que se considera distinto de 0 o no,
respectivamente .
 1 ó 0 para obtener las estadísticas de la regresión adicionales o no,
respectivamente.
Entonces pulsar la combinación de teclas CTRL + Mayúsculas +
ENTER.

Profesora: Carmen Ramos Correlación y Regresión 15


Medidas Estadísticas
Entonces muestra la siguiente Estadística de la Regresión:
1. Los coeficiente de

2. Errores típicos o estándar de .

3. El coeficiente de Determinación
4. El Error estándar de la estimación

5. El valor F del Análisis de la Varianza de la Regresión.


6. Los grados de libertad del Análisis de la Varianza
7. La Suma de Cuadrados de la Regresión.
8. La Suma de Cuadrados de los Residuos.
Profesora: Carmen Ramos Correlación y Regresión 16
Medidas Estadísticas
Análisis de la Varianza: Se basa en la descomposición de la varianza
marginal de la Y.

, , ,

Varianza Marginal de Y = Varianza Residual + Varianza Explicada


por la Regresión
Suma de cuadrados totales SCT = Suma de cuadrados de los residuos
SCE + Suma de cuadrados de la regresión SCR: son los sumatorios
anteriores que son variables de tipo Chi-Cuadrado 2 con sus
correspondientes grados de libertad: n-1;(n-2); y 1, respectivamente.
Errores Cuadráticos medios de la Regresión y de los Residuos: son
los cocientes de cada suma de cuadrados entre sus grados de
libertad. Estos son estimadores de la varianza poblacional.
F de Snedecor o Estadístico: Es el cociente de ambos errores
cuadráticos (de la regresión entre el de los residuos) para comparar
los estimadores.
Correlación y Regresión 17
Medidas Estadísticas
En el análisis de la Varianza se está contrastando:

Para decidir si se acepta o se rechaza la hipótesis nula H0 se usa el


estadístico F.
– Si el valor del estadístico es grande entonces se rechaza H0, y se
considera cierta H1 esto es, hay relación lineal y
– Si el valor del estadístico es pequeño se acepta H0. En dicho caso, no
hay relación lineal y no tiene sentido la regresión.
Para poder predecir el valor de la variable Y dado un valor conocido
de la variable X se usa:
 PRONOSTICO(): Devuelve el pronóstico Y para un valor dado X a
través la recta de regresión.

Profesora: Carmen Ramos Correlación y Regresión 18


Módulo de Análisis de Datos
Acceder desde: Datos  Estadísticas  Regresión…
Se abre el siguiente cuadro:

Seleccionar los rangos de los datos de X y de Y, activar


el campo Tanto el intervalo X como el Y tienen etiquetas,
y seleccionar el rango Resultados en y pulsar Aceptar. 19
Módulo de Análisis de Datos
Estadísticas de la Regresión:
 Salida Bruta de ESTIMACION.LINEAL
 Coeficiente de Determinación R2
∑ ( )
 Error estándar de la estimación
 Nº de variables X
 Nº de Observaciones totales
 R2 ajustado (útil cuando son varias las variables X)
 Tabla ANOVA
 Grados de Libertad: Regresión 1; Residual n-2; Total n-1;
 Suma de Cuadrados de:
 Regresión ∑ , f (y − y)
 Residual ∑ , f (y − y )
 Total ∑ , f (y − y)
 Error Cuadrático Medio de la Regresión y del Residual
 Valor del Estadístico, F de Sendecor,
 P-valor = Precisión F 20
Módulo de Análisis de Datos
 Coeficientes:
 Intersección: 𝛽 = 𝑦 − 𝛽 𝑥̅
 Pendiente: 𝛽 =

 Error estándar de la intersección 𝜎 =𝑆 + y de la pendiente


( )

𝜎 =
( )
 Estadísticos, t de Students, para contrastar si 𝛽 es 0 o no y si 𝛽 es 0 o
no.
 Los correspondientes p-valores de los contrastes.
 Intervalos de confianza para 𝛽 y 𝛽 .

 Para cada valor xi observado muestra el valor predicho por el


modelo, el valor observado y el residuo .

21

También podría gustarte