Está en la página 1de 69

13/6/2022

UNIVERSIDAD AUTÓNOMA DE SANTO DOMINGO


Facultad de Ciencias Económicas y Sociales
Escuela de Estadística

ESTADÍSTICA DESCRIPTIVA PSI

(EST-2250)

Prof. Juan Gabriel Avilés Quezada

CONTENIDO:

 Capítulo 1. Introducción.

 Capítulo 2. Organización y presentación de datos.

 Capítulo 3. Medidas de tendencia central y de posición.

 Capítulo 4. Medidas de dispersión.

 Capítulo 5. Análisis de regresión y correlación simple.

 Capítulo 6. Regresión y correlación múltiples.

 Referencias bibliográficas.

1
13/6/2022

Capítulo 1. Introducción.
Según el Dr. Mario Triola, la palabra estadística proviene del latín antiguo status (que
significa “Estado o Forma de Gobierno”). Sin embargo, los doctores Richard Levin y
David Rubin, sostiene que la palabra estadística tiene su origen en el término alemán
statistik (que significa “Ciencia del Estado”), el cual proviene de la palabra italiana
statista (que significa “Hombre de Estado o Político”).

En sus inicios, la estadística estuvo vinculada a los Estados, debido al interés de los
gobiernos por contar con datos sobre el Estado y su uso se remonta a tiempos muy
antiguos, pues la evidencia apunta a que antes de cristo, ya se realizaban censos y
se registraban datos en pieles, rocas, madera y en cuevas, para controlar el número
de personas, de animales o de ciertas mercancías.

No obstante, John Graunt en 1662 publicó un libro sobre información estadística


acerca de los nacimientos y defunciones ocurridos en Londres, el cual se considera
el punto de partida de la estadística moderna. Cabe destacar que en sus inicios, la
estadística fue utilizada como un instrumento de simple cuantificación.

Capítulo 1. Introducción.
Por otro lado, en República Dominicana, la estadística tiene sus orígenes desde los primeros
años de su descubrimiento, debido a que existen evidencias sobre informaciones
estadísticas relacionadas al repartimiento de indios en 1514 y sobre un censo que realizó el
gobernador Antonio de Osorio en 1606, el cual contiene un conteo de la población, de
esclavos, de ingenios, de puertos, etc.

No obstante, es a partir del 1935 cuando la estadística en nuestro país logra un importante
desarrollo, debido a que en ese año, el presidente Rafael Leónidas Trujillo promulga la Ley
No. 1023 que crea la Oficina Central de Estadística, siendo su primer director el señor
Vicente Tolentino Rojas, quien llevo a cabo una brillante labor al frente de la misma y por lo
tanto, es considerado como uno de los padres de la Estadística en R.D.

Otro acontecimiento importante se produce en el año 1981, cuando la UASD crea la


Licenciatura en Estadística, debido a que en los años subsiguientes, se produjeron
numerosas graduaciones de licenciados en estadística, lo que constituyó un nuevo impulso
al desarrollo de las estadísticas en la República Dominicana, ya que anteriormente, para ser
estadístico había que graduarse en el extranjero, lo que limitaba considerablemente la
cantidad de profesionales en el área.

2
13/6/2022

Capítulo 1. Introducción.
Es importante resaltar que a lo largo de la historia, muchas personas fueron
contribuyendo al desarrollo de la estadística, haciendo posible que la estadística se
desarrollara y se convirtiera en una herramienta de vital importancia en la investigación
científica que realizan la mayoría de los campos del conocimiento. En esa medida se
considera una ciencia transversal.

La estadística puede definirse como la ciencia que recolecta, organiza, presenta, analiza
e interpreta datos, que proceden de una población o de una muestra representativa de
ella, con el fin de conocer sus características relevantes, para propiciar una toma de
decisión más efectiva y pertinente. En esta definición surgen tres conceptos muy
importantes en el ámbito de la estadística: datos, población y muestra, los cuales se
explicarán más adelante.

Cabe destacar que los datos de poblaciones humanas se recolectan a través de un


censo o de una encuesta por muestreo. Un censo es una encuesta en la cual se recopila
datos o información de todos los elementos de la población, mientras que una encuesta
por muestreo es un método utilizado para recoger datos o información a través de
cuestionarios y/o entrevistas a una muestra representativa de la población.

Capítulo 1. Introducción.
• Datos: son la materia prima de la cual se nutre la estadística. Se definen como las observaciones
recolectadas.
• Población: es el conjunto de todos los elementos que estamos estudiando, que poseen
características comunes bien definidas, acerca de los cuales intentamos sacar conclusiones.
• Muestra: es un subconjunto representativo de la población. Se dice que es representativo cuando
contiene las características relevante de la población en las mismas proporciones, es decir,
cuando es una fotocopia fiel de la población.

Existe una diferencia entre estadísticas y estadística. La primera se refiere a una colección de
información numérica, mientras que la segunda se refiere a la ciencia como tal. La estadística está
muy relacionada con el método científico y su importancia se debe en gran medida a que apoya la
investigación en todas las demás disciplinas, cuando estas utilizan un enfoque cuantitativo de
investigación, que se basa en la recolección y análisis de datos para dar respuesta a las preguntas de
la investigación y con ello probar las hipótesis establecidas o formular nuevas hipótesis de
investigación. Por ejemplo, la estadística ha dado lugar a la psicometría, que es una rama de la
psicología que utiliza la estadística para medir aspectos psicológicos del ser humano, tales como: el
conocimiento, los rasgos de personalidad, las habilidades y destrezas, las actitudes y las capacidades
mentales (están ambientados en: teoría de la medición, escalamiento y teoría de los tests.)

3
13/6/2022

Capítulo 1. Introducción.
La estadística se divide en dos grandes áreas:
• Estadística descriptiva: es un conjunto de métodos y técnicas que se
utilizan para resumir y describir las características importantes de un
conjunto de datos.
• Estadística inferencial: es un conjunto de métodos y técnicas que se
utilizan para hacer inferencias sobre la población, a partir del estudio
de una muestra representativa de ella. Hacer inferencias es sacar
conclusiones, hacer predicciones o tomar decisiones.

Un parámetro es una medida numérica que describe una característica de


la población, por ejemplo: µ,σ2,σ, p, etc. Un estadístico es una medida
numérica que describe alguna característica de la muestra, por ejemplo:
xത , s2, s, 𝑝,ҧ etc.

Las unidades elementales son las personas, animales o cosas, a quienes


se les miden las variables, es decir, de ellas se obtienen las variables.

Capítulo 1. Introducción.
Las variables son características que pueden cambiar de una observación
a otra. Existen dos tipos básicos de variables:
1) Variables cualitativas: que son aquellas que representan datos
categóricos o atributos, que consisten en nombres o etiquetas. Este
tipo de datos se miden en escala nominal o en escala ordinal.

2) Variables cuantitativas: que son aquellas que representan datos


numéricos, que son el resultado de conteos o mediciones. Este tipo de
datos se miden en escala de intervalo o en escala de razón. Las variables
cuantitativas pueden ser discretas y continuas.
 Variables discretas: son aquellas que por su naturaleza no admiten
valores fraccionarios, es decir, solo admiten valores enteros, que
provienen de conteos.
 Variables continuas: son aquellas que por su naturaleza admiten
valores fraccionarios, es decir, toman cualquier valor dentro de un
intervalo especifico y este proviene de una medición.

4
13/6/2022

Capítulo 1. Introducción.
El nivel de medición de los datos rige los cálculos que se llevan a cabo con
el fin de resumir y presentar los datos. También determina las pruebas
estadísticas que se deben realizar. Existen cuatro grandes tipos de niveles o
escalas de medición:
1. Escala nominal: en ella, las observaciones acerca de una variable
cualitativa sólo se clasifican (se colocan en categorías mutuamente
excluyentes y exhaustivas) y se cuentan (frecuencia). No existe una
forma particular para ordenar las etiquetas. Para una mejor
comprensión de lectura, estos conteos suelen convertirse en
porcentajes.
2. Escala ordinal: es similar a la escala nominal, pero con la discrepancia
de que aquí, las categorías o etiquetas pueden colocarse en cierto
orden (alto, medio, bajo), porque se supone que una clasificación se
encuentra en un nivel superior a otra, no obstante, no se puede medir
la magnitud de la diferencia entre categorías, porque carecen de
significado.

Capítulo 1. Introducción.
3. Escala de intervalo: Es para variables numéricas. En ella, los datos se pueden
poner en orden y es posible encontrar diferencias significativas entre ellos.
Los datos en este nivel no tienen un punto de inicio cero natural que
signifique ausencia de la característica, lo que ocasiona que las razones no
tengan sentido. El cero es un punto más de la escala.
4. Escala de razón: contiene las propiedades de la escala de intervalo, pero con
la diferencia de que aquí, si hay un punto de inicio cero natural que significa
ausencia de la característica, por tanto, las razones tienen sentido (es
significativa). En fin los datos medidos en esta escala pueden ser sometidos
a cualquier tratamiento estadístico. Más adelante se presenta una tabla
comparativa de cosas que permite y no permite realizar cada tipo de escala.

Fuentes de datos: se refieren al lugar de procedencia de los datos. Pueden ser:


primarias (cuando los datos son recolectados directamente por las personas u
organizaciones que llevan a cabo el estudio) y secundarias (cuando los datos
han sido reunidos por otros y se nos presentan mediante publicaciones, es decir,
revistas, periódicos, libros, base de datos, etc).

5
13/6/2022

Capítulo 1. Introducción.
TABLA COMPARATIVA DE COSAS QUE PERMITEN REALIZAR LOS TIPOS DE ESCALAS.

Escala Escala Escala de Escala de


Permite:
Nominal Ordinal Intervalo Razón
Conocer el orden de los datos. ✓ ✓ ✓
Utilizar una distribución de frecuencia. ✓ ✓ ✓ ✓
Utilizar gráficas para presentar los datos. ✓ ✓ ✓ ✓
Calcular la moda. ✓ ✓ ✓ ✓
Calcular la mediana. ✓ ✓ ✓
Calcular la media aritmética. ✓ ✓
Calcular las medidas de variabilidad. ✓ ✓
Cuantificar la diferencia entre dos datos. ✓ ✓
Sumar o restar datos. ✓ ✓
Multiplicar y dividir datos. ✓

Capítulo 1. Introducción.
ETAPAS FUNDAMENTALES DE UNA INVESTIGACIÓN ESTADÍSTICA.

1) La planeación: es la etapa esencial para el éxito de una investigación.


Es preferible no llevar a cabo el estudio, si ésta no ha sido bien
planeada. Planear significa prever o anticipar lo que puede ocurrir.
Incluye la definición del problema a investigar (definiendo el qué y el
por qué), el establecimiento de los objetivos de la investigación (general
y específicos) y la creación de la estrategia general para obtener y
analizar los datos, además incluye la revisión de literatura, la
elaboración de presupuestos, el cronograma de actividades, etc.
2) La elaboración de un diseño de investigación: es la etapa en la cual se
establece el camino a seguir para alcanzar los objetivos definidos. En
esta etapa se expresan los problemas en forma de hipótesis, se
operacionalizan las variables (para convertir un concepto abstracto a
términos concretos, observables y medibles a través de un instrumento)
y se eligen los métodos que permitirán recopilar y analizar los datos.

6
13/6/2022

Capítulo 1. Introducción.
3) Diseño de la muestra (muestreo): en esta etapa se tiene que definir con
claridad y cuidado, la población que se va a estudiar, el método de
muestreo más apropiado (cuando las muestras son obtenidas por un
adecuado procedimiento estadístico, éstas tienden a representar la
población) y el tamaño adecuado de la muestra (especificando la
magnitud del error deseado, el nivel de confianza, etc.). Los
procedimientos aleatorios son la forma más confiable de selección.
4) Diseño del cuestionario: es el proceso de adaptar los diferentes objetivos
del estudio a preguntas que permitan obtener la información necesaria.
Esta etapa incluye la formulación del tipo de pregunta, número de éstas,
secuencia y los medios para mantener motivada a la persona
encuestada. Aquí es importante probar el cuestionario para evaluar las
preguntas, la calidad de la entrevistas, las posibilidades de
contradicciones que pueden surgir en la investigación, la duración de la
entrevista, etc. Un requisito obligatorio en el diseño del cuestionario es el
respecto a la dignidad y a la privacidad del entrevistado.

Capítulo 1. Introducción.
5) El trabajo de campo: en esta etapa se incluye el reclutamiento de los
entrevistadores, supervisores y otro personal de campo. Además, incluye
la capacitación del personal de campo, preparación de instrucciones
escritas para los entrevistadores sobre el uso del cuestionario, la
recopilación de los datos en el campo y el control de calidad de las
entrevistas, etc.
6) La verificación y la codificación: estos son procesos afines diseñados con
el propósito de transcribir la información registrada en los cuestionarios a
una forma adecuada para el análisis estadístico. La verificación de las
respuestas empieza cuando el entrevistador revisa cada cuestionario en
el campo y continúa con las revisiones que realizan el supervisor de
campo y el personal de oficina. Se hace con el objetivo de eliminar las
respuestas incompletas o inconsistentes, como también los errores en el
uso del cuestionario. La codificación consiste en convertir datos
cualitativos en datos numéricos que puedan ser almacenados, contados
o tabulados con rapidez y facilidad.

7
13/6/2022

Capítulo 1. Introducción.
7) La preparación para el análisis: incluye un conjunto de actividades como:
digitación de los datos, chequeos rutinarios (para descubrir las
inconsistencias en las respuestas y los errores de digitación), y un plan de
tabulación de los datos (diseñar el formato de las tablas).
8) Análisis y preparación del informe: consiste en la presentación e
interpretación de los datos recopilados en la investigación, utilizando tablas
y gráficos. También se hace uso de técnicas sencillas y complejas del
calculo estadístico y se da una interpretación teórica elaborada de los
resultados. El objetivo de esta etapa es proporcionar un resumen de los
datos, capaz de satisfacer los propósitos de la investigación, lo más breve y
comprensible posible. Cuando se prepara el informe debemos tener
presente a quien va dirigido. Si es a especialistas, éste deberá contener
mucho más información sobre los aspectos metodológicos de la
investigación, que cuando es preparado para el publico general. No
obstante, hay que prestarle atención al estilo en que se va a escribir, la
mecánica de presentación del material y la organización de los temas.

Capítulo 2. Organización y presentación de datos.


Una ordenación de datos, ya sea en orden ascendente o descendente, es la
forma más sencillas de presentarlos; sin embargo, en algunas ocasiones no
resulta útil. Una mejor forma de organizar y resumir los datos, es a través de
una distribución de frecuencias, que es una tabla en la que organizamos los
datos en clases o categorías, con sus respectivas frecuencias, para conocer
su distribución o estructura. Se le conoce como distribución de frecuencias
porque nos muestra el numero de observaciones del conjunto de datos que
caen en cada clase o categoría.

Tanto las clases (que son para variables numéricas), como las categorías
(que son para las variables cualitativas), deben ser mutuamente excluyentes
(que ningún dato puntual cae en más de una categoría) y exhaustivas (que
todos los datos caen en una u otra categoría). Es importante tener esto en
cuenta, debido a que más adelante se utilizará un tipo de intervalo de clase
que se lee “a menos de”, en el cual las clases no incluyen los datos que
coinciden con el valor de su limite superior.

8
13/6/2022

Capítulo 2. Organización y presentación de datos.


CONCEPTOS IMPORTANTES.

• Frecuencia absoluta simple (fi): es el número de elementos o mediciones


que pertenecen a cada una de las categorías o clases.
• Frecuencia relativa simple (fr): es el resultado de dividir el valor de la
frecuencia absoluta simple (fi) entre el total de datos (n). fr = fi / n.
• Porcentaje: es el resultado de multiplicar la frecuencia relativa (fr) * 100.
• Frecuencia absoluta acumulada menos de (Fi <): es una acumulación
sucesiva desde arriba hacia abajo de la frecuencia absoluta simple (fi).
• Frecuencia absoluta acumulada más de (Fi >): es una acumulación
sucesiva desde abajo hacia arriba de la frecuencia absoluta simple (fi).
• Frecuencia relativa acumulada menos de (Fr <): es una acumulación
sucesiva desde arriba hacia abajo de la frecuencia relativa simple (fr).
• Frecuencia relativa acumulada más de (Fr >): es una acumulación
sucesiva desde abajo hacia arriba de la frecuencia relativa simple (fr).

Capítulo 2. Organización y presentación de datos.


• Clases: son un grupos de intervalos de valores, que están delimitados por valores extremos o
limites de clase. En una clase, la cifra más pequeña se denomina limite inferior (Li), mientras
que la cifra más grande se denomina limite superior (Ls). Cuando uno de estos limites es
indefinido, a la clase se le denomina abierta. Si ambos limites están definidos, a la clase se le
denomina cerrada.
• Punto medioo marca de clase (Xi): es la semi-suma de los limites de clase. Xi = (Li + Ls) / 2.
• Proporción: es el número de observaciones con una característica en particular entre el total
de observaciones. El numerador siempre está incluido en el denominador. Esta puede
expresarse en porcentaje. Ej: si en un aula hay 12 estudiantes, de los cuales 9 son hombres y
3 son mujeres, la proporción de hombres sería (9/12) = 0.75, y la proporción de mujeres sería
(3/12) = 0.25.
• Razón: es el cociente de dos cantidades y posee la característica de que los valores del
numerador y del denominador son independientes, es decir, ninguno está contenido en el
otro. Ej: si en un aula hay 12 estudiantes, de los cuales 9 son hombres y 3 son mujeres, la
razón sería (9/3) = 3 y nos indica que la relación entre hombres y mujeres en esa aula fue de
3 hombres por cada mujer (3:1).
• Tasa: es un tipo de proporción que toma en cuenta la variable tiempo. Su cálculo varía según
sea el caso.

9
13/6/2022

Capítulo 2. Organización y presentación de datos.


COMPONENTES DE UNA TABLA O CUADRO ESTADÍSTICO.

 Titulo: expresa de manera resumida el contenido de la tabla y el espacio


geográfico en el cual se obtiene el dato. Un buen titulo debe responder
las siguientes preguntas: ¿Qué estamos estudiando? (personas,
animales o cosas), ¿Cómo lo vamos a presentar? (si es una tabla
cruzada, “por” variable en el encabezado, “según” variable en la columna
matriz), ¿Dónde? (el lugar donde se levantaron los datos) y ¿Cuándo? (el
tiempo al que corresponden los datos).
 Encabezado: son los diferentes subtítulos que se colocan en la parte
superior de cada columna.
 Columna matriz: es la columna principal de la tabla y se encuentra en el
lado izquierdo, en donde se coloca la variable principal bajo estudio, con
sus categorías o clases.
 Cuerpo: contiene todas las información numéricas que aparecen en la
tabla. Son las celdas restantes (que no pertenecen a la columna matriz).

Capítulo 2. Organización y presentación de datos.


 Nota aclaratoria: es opcional. Trata sobre cualquier asunto que no esta
claramente explicado en el titulo y por lo general, se refieren a unidades
de medidas en las cuales se expresan los datos que estamos
presentando. Se coloca entre el titulo y el encabezado, y debe encerrarse
entre paréntesis.
 Fuente: nos indica de donde proceden los datos. Se coloca en la parte
inferior izquierda de la tabla. En caso de que los datos que componen la
tabla, son recolectados por la propia persona o entidad que efectúa el
estudio, no es necesario señalar la fuente.
 Notas al pie: son usadas para hacer aclaraciones sobre aspectos que
aparecen en la tabla y que no han sido explicados en otra parte. Se
colocan debajo de la fuente, en caso de que apliquen.

A continuación se presenta un ejercicio sobre la elaboración de una


distribución de frecuencia para datos cualitativos.

10
13/6/2022

Capítulo 2. Organización y presentación de datos.


DISTRIBUCIÓN DE FRECUENCIA PARA DATOS CUALITATIVOS.

Los siguientes datos corresponden al sexo de una muestra de 30


estudiantes del aula RB-100 del CURCE-UASD, tomada el 10 de febrero del
2020:
F, F, M, F, F, F, M, M, F, F, F, F, F, M, F, M, F, F, F, F, M, M, M, F, F, F, F, F, F, F.

Distribución de los Estudiantes, según Sexo, en el Aula RB-100 del CURCE-UASD, 10


de febrero del 2020.
Sexo Conteo Estudiantes (fi) Porcentaje
Masculino IIII - III 8 26.67%
Femenino IIII - IIII - IIII - IIII - II 22 73.33%
Total 30 100%
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

Capítulo 2. Organización y presentación de datos.


GRÁFICOS BÁSICOS PARA DATOS CUALITATIVOS.

Gráfico de barras anchas: es el gráfico recomendado si se desea presentar las


frecuencias absolutas simples, las cuales se representan en el eje vertical,
mientras que las categorías se representan en el eje horizontal. Se caracteriza
porque las barras están separadas y tienen una anchura uniforme.
Cantidad de estudiantes (fi)

25
22

20

15

10 8

0
Masculino Femenino

Sexo

11
13/6/2022

Capítulo 2. Organización y presentación de datos.


Gráfico de pastel: es el gráfico recomendado si se desea presentar los
porcentajes. Consiste en un circulo o pastel dividido en pedazos o sectores,
los cuales representan categorías cuyo tamaño son proporcionales a su total
general. Mediante regla de tres, se calcula el equivalente de cada porcentaje
en grados de la circunferencia, para después proceder con el trazado
utilizando compás, regla y transportador.

26.67%
Masculino
Femenino
73.33%

Capítulo 2. Organización y presentación de datos.


EJEMPLO DE UNA TABLA DE DISTRIBUCIÓN DE FRECUENCIA CON
CRUZAMIENTO DE DOS VARIABLES CUALITATIVAS.

Distribución de los clientes por nacionalidad, según estado civil, en el Banco


XX, febrero del 2020.

Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

12
13/6/2022

Capítulo 2. Organización y presentación de datos.


DISTRIBUCIÓN DE FRECUENCIA PARA DATOS CUANTITATIVOS.

Los siguientes datos corresponden a la edad de una muestra de 20 clientes


del Banco XX, en febrero del 2020:
27, 48, 39, 42, 25, 44, 62, 35, 57, 40, 44, 46, 29, 65, 30, 55, 43, 36, 50, 50.

 Rango (R): es la diferencia entre el valor máximo y el valor mínimo del


conjunto de datos. R = Xmax – Xmin = 65 – 25 = 40
 Número de clases (NC): se recomienda usar entre 5 y 20 clases, así como
la formula de Sturges y redondear el resultado hacia arriba.
NC = 1 + 3.322 log n = 1 + 3.322 log (20) = 5.32 ≈ 6
 Intervalo de clase (IC): es la anchura de la clase. Si disponemos de una
distribución de frecuencia, este será igual a la diferencia entre dos limites
inferiores de clases consecutivas. En caso contrario, será igual a la
división del rango entre el número de clases. Se recomienda redondear el
resultado hacia arriba. IC = R / NC = 40 / 6 = 6.67 ≈ 7

Capítulo 2. Organización y presentación de datos.

Distribución de los Clientes, según Edad, en el Banco XX, Febrero del 2020.

Clientes
Edad (años) Conteo fr Fi < Fr < Fi > Fr > Xi
(fi)
25-32 IIII 4 0.20 4 0.20 20 1.00 28.5
32-39 II 2 0.10 6 0.30 16 0.80 35.5
39-46 IIII - I 6 0.30 12 0.60 14 0.70 42.5
46-53 IIII 4 0.20 16 0.80 8 0.40 49.5
53-60 II 2 0.10 18 0.90 4 0.20 56.5
60-67 II 2 0.10 20 1.00 2 0.10 63.5
Total 20 1.00
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

13
13/6/2022

Capítulo 2. Organización y presentación de datos.

Interpretaciones de la tercera clase:

• fi: 6 clientes tienen una edad de 39 a menos de 46 años.


• fr: El 30% de los clientes tienen una edad de 39 a menos de 46 años.
• Fi <: 12 clientes tienen una edad de menos de 46 años (o de 25 a
menos de 46 años).
• Fr <: El 60% de los clientes tienen una edad de menos de 46 años (o
de 25 a menos de 46 años).
• Fi >: 14 clientes tienen una edad mayor o igual a 39 años (o de 39 a
menos de 67 años).
• Fr >: El 70% de los clientes tienen una edad mayor o igual a 39 años
(o de 39 a menos de 67 años).
• Xi: 42.5 años es el valor que representa a todos los valores que están
incluidos en la clase de 39 a menos de 46 años.

Capítulo 2. Organización y presentación de datos.

LIMITES DE CLASES DECLARADOS Y VERDADEROS.

Los limites verdaderos o fronteras de clase son puntos específicos de la escala que
sirven para "separar clases adyacentes". En el intervalo “a menos de”, se obtienen
restando 0.5 tanto al limite inferior como al limite superior de la clase en cuestión.

14
13/6/2022

Capítulo 2. Organización y presentación de datos.


GRÁFICOS BÁSICOS PARA DATOS CUANTITATIVOS.

Histograma: es la representación gráfica por excelencia de una distribución de


frecuencias. Consiste en barras rectangulares que están unidas una a la otra
secuencialmente. La escala horizontal representa clases de valores cuantitativos,
y la escala vertical representa sus frecuencias. Las alturas de las barras
corresponden a los valores de frecuencia.

Capítulo 2. Organización y presentación de datos.


Polígono de frecuencia: es un gráfico que representa una distribución de frecuencia
absoluta o relativa. Utiliza segmentos de línea conectados a puntos que están
situados directamente encima de los puntos medios de clase. Se obtiene fácilmente
mediante la unión de los puntos medios que pueden ser proyectados encima y en el
centro de cada una de las barras de un histograma. Difiere del histograma porque
utiliza segmentos de línea en vez de barras. Para que toque el eje x, hay que añadir
dos puntos medios con frecuencia igual a cero.

15
13/6/2022

Capítulo 2. Organización y presentación de datos.


Ojiva: es un gráfico que se utiliza para presentar las frecuencias acumuladas “más
de” y/o “menos de” que se generan en un conjunto de datos. En la ojiva de menos,
en el eje horizontal se representan los limites superiores de las clases, mientras que
en el eje vertical se representan las frecuencias acumuladas menos de. En la ojiva de
más, en el eje horizontal se representan los limites inferiores de las clases, mientras
que en el eje vertical se representan las frecuencias acumuladas más de. En el eje x,
hay que dibujar un corte. Para que la línea toque el eje x, hay que añadir un limite
adicional con frecuencia cero en cada gráfico.

Capítulo 2. Organización y presentación de datos.


Gráfico lineal: este tipo de gráfico se utiliza especialmente para representar datos
clasificados por cantidad o tiempo. Permite visualizar el comportamiento de una
variable a través del tiempo, o establecer comparaciones entre dos o más variables, o
sea, se usan para representar series de tiempo o cronológicas (días, semanas,
meses, años, etc.). En el eje horizontal se representa la variable tiempo y en el eje
vertical se representa la variable a estudiar. Este es un ejemplo tomado del libro de
Mario Triola (Estadística. 12 ed., p.59):

16
13/6/2022

Capítulo 2. Organización y presentación de datos.


Diagrama de tallos y hojas: representa datos cuantitativos separando cada valor en dos
partes: el tallo (el primer digito) y las hojas (los demás dígitos que acompañan este
primer digito). La fila donde están contenidos estos valores se conoce como rama. Las
características de esta técnica exploratoria de datos son: muestra la forma de la
distribución de los datos, conserva los valores de los datos originales y los datos
muestrales aparecen ordenados. Los tallos y las hojas se ordenan de manera
creciente, no en el orden establecido por la lista original. Ej:

Xi: 27, 48, 39, 42, 25, 44, 62, 35, 57, 40, 44, 46, 29, 65, 30, 55, 43, 36, 50, 50.

Tallo Hojas
2 5 7 9
3 0 5 6 9
4 0 2 3 4 4 6 8
5 0 0 5 7
6 2 5

Capítulo 2. Organización y presentación de datos.


Gráfico de barras estrechas: si los datos de una variable discreta están ordenados en
una serie de frecuencias y deseamos representar frecuencias absolutas o relativas,
utilizaremos este tipo de gráfico. Las barras deben ser estrechas para representar el
hecho de que los valores que toma la variable son discretos. En el eje horizontal se
representa la variable discreta y en el eje vertical se representa las frecuencias. A
continuación se presenta un ejemplo de este tipo de gráfico. En la diapositiva
siguiente se muestra la serie de frecuencias que se utilizó para generarlo.

17
13/6/2022

Capítulo 2. Organización y presentación de datos.


Serie de Frecuencias: es el ordenamiento de una serie de datos relativamente pequeña
en la cuál cada término simple de la serie se hace acompañar por la cantidad de veces
que este se repite, es decir, por su frecuencia. Cuando no sea factible construir una
serie de clases y frecuencia, este método es adecuado. Ej: se tiene los siguientes datos
sobre la cantidad de hijos de una muestra de 20 personas en Bonao, Mayo, 2020. Xi: 2,
1, 3, 0, 1, 2, 0, 2, 1, 1, 2, 3, 1, 4, 1, 3, 2, 0, 1, 0.

Serie de Frecuencias de la Cantidad de Hijos de 20 personas en Bonao, Mayo, 2020.

Cantidad de hijos Personas (fi) fr (Fi <) (Fr <) (Fi >) (Fr >)

0 4 0.20 4 0.20 20 1.00


1 7 0.35 11 0.55 16 0.80
2 5 0.25 16 0.80 9 0.45
3 3 0.15 19 0.95 4 0.20
4 1 0.05 20 1.00 1 0.05
Total 20 1.00 - - - -
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.

Capítulo 2. Organización y presentación de datos.

TIPOS DE PRESENTACIÓN DE DATOS.

La presentación de los datos estadísticos pueden llevarse a cabo de cuatro


formas, algunas de las cuales ya se han abordado en este capítulo:
• Textual: consiste en ofrecer cifras numéricas insertadas a todo lo largo de
un texto. Es muy usada en periódicos, revistas y boletines.
• Semi-tabular: se aproxima a la idea de una tabla, pero no llega a reunir
las formalidades de una tabla. Su uso es muy insignificante.
• Tabular: se manifiesta mediante cuadros o tablas estadísticas, a través de
las cuales los datos son colocados en filas y columnas atendiendo a un
orden determinado. Constituye la forma más exacta de presentar las
informaciones. Anteriormente, se presentaron los requisitos de una tabla.
• Gráfica: permite presentar los datos mediante el uso de figuras o dibujos
y constituye un complemento de la presentación tabular. Su uso es
bastante amplio, puesto que permite comprender los datos con mayor
rapidez y facilidad. Anteriormente, se presentaron las más básicas.

18
13/6/2022

Capítulo 2. Organización y presentación de datos.


NOTACIÓN DE SUMATORIA SIMPLE.
Para el calculo de una gran cantidad de indicadores estadísticos, casi siempre
es necesario determinar la suma de un conjunto de valores. Para denotar una
suma, se utiliza la letra griega mayúscula conocida como sigma, que se
simboliza mediante ∑. Haciendo uso de este concepto, la expresión (x1 + x2
+ x3 + x4 + … + xn) se representa matemáticamente como:
n

෍ xi
i=1

Donde la expresión bajo de sigma (i = 1) indica el elemento que va a


sumarse (i) y el primer término de la suma (1), mientras que la (n) sobre
sigma indica el termino final de la suma. Todo esto se lee como “sumatoria
de xi, desde i=1 hasta n.” Asumiendo que x = 1, 3, 5, la sumatoria de xi será:
𝟑

෍ 𝒙𝒊 = 𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 = 𝟏 + 𝟑 + 𝟓 = 𝟗
𝒊=𝟏

Capítulo 2. Organización y presentación de datos.


A continuación se presenta las tres propiedades generales de la sumatoria
simple:
1) La sumatoria de una constante es igual al producto de la constante por el
número de veces que se presenta. Sea n = 4 y k = 5, entonces:
𝑛

෍ 𝑘𝑖 = 𝑘 ∙ 𝑛 = 5 ∗ 4 = 20
𝑖=1
4

෍ 𝑘 = 5 + 5 + 5 + 5 = 20
𝑖=1

2) La sumatoria del producto de una constante por una variable es igual al


valor de la constante por la sumatoria de la variable. Sea k = 5 y x = 1, 3, 5,
7, entonces:
𝑛 𝑛

෍ 𝑘 ∙ 𝑥𝑖 = 𝑘 ∙ ෍ 𝑥𝑖 = 5 ∗ 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 ∗ 1 + 3 + 5 + 7 = 5 ∗ 16 = 80
𝑖=1 𝑖=1

19
13/6/2022

Capítulo 2. Organización y presentación de datos.


𝑛

෍ 𝑘 ∙ 𝑥𝑖 = 5𝑥1 + 5𝑥2 + 5𝑥3 + 5𝑥4


𝑖=1
= 5 ∗ 1 + 5 ∗ 3 + 5 ∗ 5 + 5 ∗ 7 = 5 + 15 + 25 + 35 = 80

3) La sumatoria de la suma (o diferencia) de dos variables es igual a la


suma (o diferencia) de las sumatorias individuales de las dos variables.
Sean los valores de (xi = 4, 3, 5, 8) y (yi = 6, 4, 5, 7) entonces:
𝑛 𝑛 𝑛

෍(𝑥𝑖 + 𝑦𝑖 ) = ෍ 𝑥𝑖 + ෍ 𝑦𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑦1 + 𝑦2 + 𝑦3 + 𝑦4
𝑖=1 𝑖=1 𝑖=1
= 4 + 3 + 5 + 8 + 6 + 4 + 5 + 7 = 20 + 22 = 42
𝑛

෍(𝑥𝑖 + 𝑦𝑖 ) = 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + 𝑥3 + 𝑦3 + 𝑥4 + 𝑦4
𝑖=1
= 4 + 6) + (3 + 4) + (5 + 5) + (8 + 7 = 10 + 7 + 10 + 15 = 42

Capítulo 3. Medidas de Tendencia Central y de Posición.

MEDIDAS DE TENDENCIA CENTRAL .

Se definen como aquel valor que se utiliza para representar un conjunto de


datos. Se caracterizan por encontrarse localizadas en el centro de la
distribución de los datos o cerca de este. Existen diferentes métodos para
medir el centro, los más utilizados se presentan a continuación.

Media aritmética.
Es el valor más representativo de un conjunto de datos. Es la más utilizada
por los métodos estadísticos avanzados. Para encontrar la media aritmética,
sumamos los valores y dividimos el resultado entre el número de
observaciones. Su fórmula para datos simples o sueltos es:
Media poblacional Media muestral
σ xi σ xi
μ= xത =
N n

20
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Su fórmula para datos agrupados es:


Media poblacional Media muestral
σ(xi ∙ fi) σ(xi ∙ fi )
μ= xത =
N n
Aspectos destacables de la media:
• Las medias muestrales de una misma población tienden a variar menos
que otras medidas de tendencia central.
• Cada conjunto de datos posee una y sólo una media.
• La media de un conjunto de datos utiliza todos los valores de los datos.
• No se calcula si la distribución de frecuencia tiene clases abiertas.
• Puede verse afectada por valores extremos (atípicos) que no son
representativos del resto de los datos, por tanto, si existen valores
extremos en los datos, no se recomienda su uso. En este caso, se
recomienda el uso de la mediana.

Capítulo 3. Medidas de Tendencia Central y de Posición.

Mediana.
Es el indicador que divide al conjunto de datos en dos partes iguales, de
manera que el 50% de los datos será inferior a la mediana y el 50% restante
es superior a la mediana. Es el punto medio de los valores una vez que se
han ordenado de menor a mayor o de mayor a menor. Su procedimiento de
cálculo para datos simples o sueltos es:
1) Se ordenan los datos. 𝐧+𝟏
𝐏𝐦𝐞 =
2) Se localiza la posición donde está ubicada la mediana: 𝟐
3) La mediana será igual al dato que ocupe ese lugar en el paso 1. Si la
posición fuera un numero decimal, entonces la mediana será igual al
promedio de los dos datos mas centrales.

Su procedimiento de cálculo para datos agrupados es:


1) Calcular la Fi “menos de”.
𝐧
2) Calcular la posición de la mediana: 𝐏𝐨𝐬𝐢𝐜𝐢ó𝐧 =
𝟐

21
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

3) Localizar la clase mediana, buscando en la columna de las Fi “menos de”


un valor igual al valor de la posición calculada y si no aparece ese valor,
entonces elegir el valor inmediatamente superior al valor de la posición
calculada.
4) Determinar el valor de la mediana utilizando la siguiente formula:
𝐏𝐨𝐬𝐢𝐜𝐢ó𝐧 − 𝐅𝐢 "𝐦𝐞𝐧𝐨𝐬 𝐝𝐞" 𝐚𝐧𝐭𝐞𝐫𝐢𝐨𝐫
𝐌𝐞 = 𝐋𝐢 + ∗ 𝐈𝐂
𝐟𝐢

Aspectos destacables de la mediana:


• No se afecta por los valores extremos, sino por el orden que tienen
dichos valores, por tanto, se utiliza si la distribución es asimétrica.
• Puede calcularse si la distribución de frecuencia tiene clases abiertas.
• Ciertos procedimientos estadísticos que utilizan la mediana son más
complejos que aquellos que utilizan la media.
• Resulta tediosa si debemos ordenar grandes cantidades de datos de
forma manual.

Capítulo 3. Medidas de Tendencia Central y de Posición.

Moda.
Es el valor que más se repite en el conjunto de datos. Cuando un único valor
de datos ocurre con más frecuencia que los demás, ese valor es la moda y
se dice que el conjunto de datos es unimodal. Cuando dos valores de datos
ocurren con la misma mayor frecuencia, cada uno es una moda y se dice
que el conjunto de datos es bimodal. Cuando más de dos valores de datos
ocurren con la misma mayor frecuencia, cada uno es una moda y se dice
que el conjunto de datos es multimodal. Cuando ningún valor de datos se
repite, se dice que no hay moda.

Su procedimiento de cálculo para datos agrupados es:


1) Se localiza la clase modal, que es la de mayor frecuencia (fi).
2) Determinar el valor de la moda utilizando la siguiente formula:
. 𝐝 𝟏
𝐌𝐨 = 𝐋𝐢 + ∗ 𝐈𝐂
𝐝𝟏 + 𝐝𝟐

22
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.


Donde:
d1 = frecuencia simple (fi) de la clase modal menos la anterior.
d2 = frecuencia simple (fi) de la clase modal menos la posterior.

Aspectos destacables de la moda:


• Es muy fácil de obtener.
• Puede ser calculada en datos cualitativos.
• No se afecta por los valores extremos.
• Puede calcularse si la distribución de frecuencia tiene clases abiertas.
• Un conjunto de datos puede tener una moda, o múltiples modas, o no tener
ninguna.
• Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil
interpretarlos y compararlos.

Relación entre media, mediana y moda: si la distribución es simétrica, estos tres


indicadores siempre serán iguales. No obstantes, en una distribución con sesgo
positivo, la media > la mediana > la moda, mientras que en una distribución con
sesgo negativo, la media < la mediana < la moda.

Capítulo 3. Medidas de Tendencia Central y de Posición.

En las imágenes se puede apreciar mejor la relación entre media, moda y mediana
en cada caso. Cabe destacar que esta relación solo permite tener una idea del tipo
de asimetría de la distribución, pero lo que realmente determinará si la distribución es
simétrica, sesgada a la izquierda o sesgada a la derecha será el resultado de la
fórmula del coeficiente de asimetría de Fisher, que es el más utilizado en estadística
ya que es más preciso que el coeficiente de asimetría de Pearson y que el coeficiente
de asimetría de Bowley. A continuación se presenta un ejemplo de una variable que
se distribuye de esa manera.

23
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Un ejemplo de una variable cuya distribución es simétrica, es la variable


coeficiente de inteligencia, pues en ambos extremos de la distribución se
concentrarán una cantidad reducida de datos (los muy inteligentes a la
derecha y los poco inteligentes a la izquierda), mientras que la gran
mayoría se concentrarán en el centro de la distribución.

Un ejemplo de una variable cuya distribución está sesgada a la izquierda,


es la variable Cantidad de personas con Alzheimer por grupos de edad,
pues a medida que aumentan los grupos de edad, aumenta la cantidad
de personas con esta enfermedad.

Un ejemplo de una variable cuya distribución está sesgada a la derecha,


es la variable los ingresos de las personas, pues a medida que aumentan
los salarios, disminuye considerablemente la cantidad de empleados
públicos que lo ostentan.

Capítulo 3. Medidas de Tendencia Central y de Posición.

Media geométrica.
Es la raíz n-esima del producto de todos los números. Es recomendada para
datos de progresión geométrica, para promediar razones, interés compuesto y
índices; en fin, se usa siempre que se desee calcular el cambio porcentual
promedio en el tiempo para alguna variable. Sus fórmulas para datos simples son:
𝐧
σ 𝐥𝐨𝐠 𝐱 𝐢
𝐆= 𝐱𝟏 ∗ 𝐱 𝟐 ∗ 𝐱 𝟑 ∗ ⋯ ∗ 𝐱 𝐧 ó 𝐆 = 𝐚𝐧𝐭𝐢𝐥𝐨𝐠𝐚𝐫𝐢𝐭𝐦𝐨
𝐧

Sus fórmulas para datos agrupados son:


𝐧 σ (𝐟𝐢 ∙ 𝐥𝐨𝐠 𝐱𝐢 )
𝐆= 𝐱 𝟏 𝐟𝟏 ∗ 𝐱 𝟐 𝐟𝟐 ∗ 𝐱 𝟑 𝐟𝟑 ∗ ⋯ ∗ 𝐱 𝐤 𝐟𝐤 ó 𝐆 = 𝐚𝐧𝐭𝐢𝐥𝐨𝐠𝐚𝐫𝐢𝐭𝐦𝐨
𝐧

Aspectos destacables de la media geométrica:


• La media geométrica siempre es menor o igual (nunca mayor) que la media
aritmética. Pero a su vez siempre es mayor o igual que la media armónica.
• Necesita que todos los datos sean positivos.
• Se ve afectada por clases abiertas.

24
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Media Armónica.
Se define como el reciproco o inverso de la media aritmética de los recíprocos de los
valores que componen una serie. Es de gran utilidad cuando estamos frente a
variables relacionadas con tasas de cambio: velocidades, producción, tiempos,
rendimientos, etc. Se encuentra al dividir el número de valores (n) entre la sumatoria
de los recíprocos de todos los valores. Sus fórmulas son:
Para datos simples: Para datos agrupados:
𝐧 𝐧 𝐧 𝐧
𝐇= = 𝐇= =
𝟏 𝟏 𝟏 𝟏 𝟏 𝐟𝐢 𝐟𝟏 𝐟𝟐 𝐟𝟑 𝐟
σ + + + ⋯+
𝐱𝐢 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧
σ + + + ⋯+ 𝐧
𝐱𝐢 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧

Aspectos destacables de la media armónica:


• Es poca influenciada por la presencia de valores muy grandes, pero es
notablemente sensible frente a valores muy pequeños.
• Esta siempre es menor o igual (nunca mayor) que la media geométrica.
• Necesita que todos los valores sean diferentes de cero.
• Se ve afectada por clases abiertas.

Capítulo 3. Medidas de Tendencia Central y de Posición.

EJERCICIOS PARA DATOS SIMPLES O SUELTOS:


1) El precio hipotético de la funda de leche Milex de 2,200 gramos en una muestra de
6 supermercados de la ciudad de Bonao, en enero 2019, se presenta a continuación:
Xi: 1,100.00 1,000.00 980.00 975.00 980.00 1,050.00

Media aritmética:
σ xi 1100 + 1000 + 980 + 975 + 980 + 1050 6085
xത = = = = 1,014.17 pesos.
n 6 6
El precio promedio de la funda de leche Milex de 2200 gramos en esa muestra de 6
supermercados de la ciudad de Bonao se estima en 1,014.17 pesos.

Mediana: El 50% de las fundas de


1) Ordenar: 975, 980, 980, 1000, 1050, 1100. leche Milex de 2200 g
2) Posición: 3) Interpolar: tienen un precio inferior a
n+1 6+1 980 + 1000 1980 990 pesos, mientras que el
Pme = = Me = =
2 2 2 2 50% restante tienen un
Pme = 3.5 posición. Me = 990 pesos. precio superior a 990 pesos.

25
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Xi: 1,100.00 1,000.00 980.00 975.00 980.00 1,050.00


Moda:
Mo = 980 pesos, unimodal.
El precio más común de la funda de leche Milex de 2200 g fue de 980 pesos.

Dado que: 𝐱ത 𝟏, 𝟎𝟏𝟒. 𝟏𝟕 > 𝐌𝐞 𝟗𝟗𝟎 > 𝐌𝐨 𝟗𝟖𝟎 , la distribución del precio de la funda
de leche Milex de 2,200 gramos, esta sesgada a la derecha (asimétrica positiva).

Media geométrica:
3) Los datos siguientes corresponden a las tasas de interés pagadas por los bancos de
una ciudad en cuentas de ahorros.
Xi: 3.0% 4.8% 2.9% 4.1% 3.5%.
n 5 5
G= x1 ∗ x2 ∗ x3 ∗ ⋯ ∗ xn = 3.0 ∗ 4.8 ∗ 2.9 ∗ 4.1 ∗ 3.5 = 599.256 = 3.59%
La tasa de interés promedio pagada por los bancos en cuentas de ahorros es de 3.59%

Capítulo 3. Medidas de Tendencia Central y de Posición.

Media armónica:
5) La velocidad a la que transitaban 5 vehículos al momento de pasar por un
radar de trafico en una carretera del país, se presenta a continuación.
Determinar la velocidad media de los vehículos.

Xi: 110 km/h 121 km/h 102 km/h 108 km/h 116 km/h.
n n
H= =
1 1 1 1 1
σ + + +⋯+
x i x1 x 2 x 3 xn
5 5
H= = = 111.01 km/h
1 1 1 1 1 0.045039242
+ + + +
110 121 102 108 116

La velocidad promedio de los vehículos al pasar por el radar de tráfico de la


carretera se estima en 111.01 km/h.

26
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.


EJERCICIOS PARA DATOS AGRUPADOS:
1) Los siguientes datos corresponden a la puntuación obtenida por una muestra de
25 estudiantes en un examen parcial de estadística:
Puntuación Estudiantes (fi ) Xi Xi . fi Fi "menos de" Media aritmética:
9-11 3 10 30 3 σ(x i ∙ fi ) 348
11-13 6 12 72 9 xത = = = 13.92 puntos.
n 25
13-15 8 14 112 17
15-17 5 16 80 22
La puntuación promedio de los
17-19 3 18 54 25
estudiantes en el examen parcial de
Total 25 - 348 - estadística se estima en 13.92 puntos.

Mediana: n 25 El 50% de los estudiantes


Posición = = = 12.5
2 2 obtuvieron una puntuación
inferior a 13.88 puntos,
Posición − Fi "menos de" anterior
Me = Li + ∗ IC mientras que el 50%
fi restante obtuvieron una
12.5 − 9 puntuación superior a
Me = 13 + ∗ 2 = 13.88 puntos.
8 13.88 puntos.

Capítulo 3. Medidas de Tendencia Central y de Posición.

Moda: Puntuación Estudiantes (fi ) Xi Xi . fi Fi "menos de"


d1 = 8 – 6 = 2 9-11 3 10 30 3
d2 = 8 – 5 = 3 11-13 6 12 72 9
d1 13-15 8 14 112 17
Mo = Li + ∗ IC 15-17 5 16 80 22
d1 + d2
2 17-19 3 18 54 25
Mo = 13 + ∗2 Total 25 - 348 -
2+3
Mo = 13 + 0.4 ∗ 2 = 13 + 0.8
Dado que: 𝐱ത 𝟏𝟑. 𝟗𝟐 > 𝐌𝐞 𝟏𝟑. 𝟖𝟖 > 𝐌𝐨(𝟏𝟑. 𝟖𝟎)
Mo = 13.80 puntos
La distribución de frecuencia de las puntuaciones
La puntuación mas común obtenida de los estudiantes en el examen parcial de
por los estudiantes en el examen estadística esta sesgada a la derecha (asimétrica
parcial de estadística fue de 13.80 positiva)
puntos.

27
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Media geométrica:
2) Los siguientes datos corresponden a las tasas de crecimiento anual de las ventas
de una muestra de pequeñas empresas de Bonao:
Empresas
Tasas (%) Xi
(fi )
2-4 5 3
4-6 9 5
6-8 3 7
8-10 2 9
10-12 1 11
Total 20 -

n 20
G= x1 f1 ∗ x 2 f2 ∗ x 3 f3 ∗ ⋯ ∗ x k fk = 35 ∗ 59 ∗ 73 ∗ 92 ∗ 111 = 5.11%

La tasa promedio de crecimiento anual de las ventas de las pequeñas empresas de Bonao
se estima en 5.11%.

Capítulo 3. Medidas de Tendencia Central y de Posición.

Media armónica:
3) Los siguientes datos corresponden a la velocidad máxima registrada de los
lanzamientos que realizaron una muestra de 20 pitcher durante su primer partido
de la temporada 2019 en la MLB.

Velocidad (mph) Pichert (fi) Xi n n


H= =
fi f1 f2 f3 f
88 - 90 2 89 σ + + +⋯+ n
x i x1 x 2 x 3 xn
90 - 92 9 91 20
92 - 94 5 93 H=
2 9 5 3 1
94 - 96 3 95 + + + +
89 91 93 95 97
96 - 98 1 97 20
H= = 92.16 mph
Total 20 - 0.217024676

La velocidad máxima promedio de los lanzamientos realizados por los pitcher


durante su primer partido de la temporada 2019 en la MLB se estima en 92.16
mph.

28
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

MEDIDAS DE POSICIÓN O FRACTILES.

Son indicadores que dividen un conjunto de datos en fracciones o segmentos iguales,


según sea la magnitud que estos poseen. Se caracterizan por permitirnos
posicionarnos por debajo del centro del conjunto de datos o en el mismo centro o por
encima de este. Su procedimiento de cálculo es similar al de la mediana, tanto para
datos simples, como para datos agrupados, con la diferencia de que la fórmula de la
posición se ajusta según sea el número de partes iguales en que el fractil divide los
datos. También son indicadores tales que, un porcentaje determinado de los datos
es inferior a ellos y el otro porcentaje restante, es superior a ellos. El ultimo orden de
cada fractil no se calcula, por tanto, se asume que es igual al valor máximo del
conjunto de datos. Los más usados son: cuartiles, deciles y percentiles.

Cuartiles.
Son indicadores que dividen el conjunto de datos en cuatro partes iguales, de
manera que, cada parte equivale aproximadamente a un 25% de los datos. Se
identifican como Qk, que se lee cuartil de orden k. CUARTILES Q1 Q2 Q3 Q4
% de datos ≤ Qk 25% 50% 75% 100%

Capítulo 3. Medidas de Tendencia Central y de Posición.


Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧 + 𝟏) 𝐤(𝐧)
𝐏𝐐𝐤 = 𝐏𝐐𝐤 =
𝟒 𝟒

Deciles.
Son indicadores que dividen el conjunto de datos en diez partes iguales, de manera
que, cada parte equivale aproximadamente a un 10% de los datos. Se identifican
como Dk, que se lee decil de orden k.
𝐤(𝐧 + 𝟏)
𝐏𝐃𝐤 =
𝟏𝟎
Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧)
DECILES D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 𝐏𝐃𝐤 =
𝟏𝟎
% de datos ≤ Dk 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentiles.
Son indicadores que dividen el conjunto de datos en cien partes iguales, de manera
que, cada parte equivale aproximadamente a un 1% de los datos. Se identifican como
Pk, que se lee percentil de orden k.

29
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.


Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧 + 𝟏) 𝐤(𝐧)
𝐏𝐏𝐤 = 𝐏𝐏𝐤 =
𝟏𝟎𝟎 𝟏𝟎𝟎

PERCENTILES P1 P2 P3 P4 ... P37 … P56 … P79 … P88 … P97 P98 P99 P100
% de datos ≤ Pk 1% 2% 3% 4% ... 37% ... 56% ... 79% ... 88% ... 97% 98% 99% 100%
Método de interpolar: si al calcular la posición del fractil deseado, obtenemos un
número decimal, entonces el valor del fractil deseado se determinará mediante el
método de la interpolación, dando los siguientes pasos:
1. Se divide la posición calculada en dos partes, una parte entera y una parte
decimal (que es un valor entre cero y uno).
2. En los datos ordenados, se ubica la posición calculada y traza una pequeña línea
vertical en ese punto, es decir, si la posición calculada es 5.37, entre la posición 5
y la posición 6 se coloca una línea vertical.
3. El valor del fractil será igual al dato que está a la izquierda de la línea, más la
parte decimal de la posición calculada multiplicada por la diferencia del dato que
esta a la derecha de la línea y el dato que está a la izquierda de la línea:
Posición 5 + 0.37 (Posición 6 – Posición 5)

Capítulo 3. Medidas de Tendencia Central y de Posición.


EJERCICIO PARA DATOS SIMPLES O SUELTOS:
La puntuación obtenida por los empleados de una empresa en una prueba de
inteligencia emocional se muestra a continuación:
Xi: 65 70 78 94 91 90 88 80 83 77 91 48 51 55 67 81 59 79 66 74.

Cuartil de orden 1 :

Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94

Posición: Interpolar:
k(n + 1) 1(20 + 1) 21 Q1 = 65 + 0.25 66 − 65
PQk = ; PQ1 = = = 5.25 posición.
4 4 4 Q1 = 65.25 puntos.

El 25% de los empleados obtuvieron una puntuación menor o igual a 65.25 puntos en la
prueba de inteligencia emocional y el 75% restante, obtuvieron una puntuación mayor a
65.25 puntos.

30
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Decil de orden 7 :

Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94

Posición:
k(n + 1) 7(20 + 1) 147
PDk = ; PD7 = = = 14.7 posición.
10 10 10

Interpolar:
D7 = 81 + 0.7 83 − 81 = 82.4 puntos.

El 70% de los empleados obtuvieron una puntuación menor o igual a 82.4 puntos,
mientras que el 30% restante, obtuvieron una puntuación mayor a 82.4 puntos.

Capítulo 3. Medidas de Tendencia Central y de Posición.

Percentil de orden 43:

Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94

Posición:
k(n + 1) 43(20 + 1) 903
PPk = ; P43 = = = 9.03 posición.
100 100 100

Interpolar:
P43 = 74 + 0.03 77 − 74 = 74.09 puntos.

El 43% de los empleados obtuvieron una puntuación menor o igual a 74.09 puntos,
mientras que el 57% restante, obtuvieron una puntuación mayor a 74.09 puntos.

31
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.


EJERCICIO PARA DATOS AGRUPADOS:
Los siguientes datos corresponden a la puntuación obtenida por una muestra de 25
estudiantes en un examen parcial de estadística:
Puntuación Estudiantes (fi) Fi "menos de" Interpretación: El 75% de los estudiantes
9 - 11 3 3 obtuvieron una puntuación inferior o igual
11 - 13 6 9
a 15.7 puntos, mientras que el 25%
restante obtuvieron una puntuación
13 - 15 8 17
superior a 15.7 puntos.
15 - 17 5 22
17 - 19 3 25
Total 25 -

Cuartil de orden 3 :
Posición − Fi "menos de" anterior
k(n) Q𝑘 = Li + ∗ IC
PQk = fi
4 18.75 − 17
Q3 = 15 + ∗ 2 = 15 + 0.35 ∗ 2
3(25) 75 5
PQ3 = = = 18.75 posición. Q3 = 15 + 0.7 = 15.7 puntos.
4 4

Capítulo 3. Medidas de Tendencia Central y de Posición.

Puntuación Estudiantes (fi) Fi "menos de" Interpretación: El 20% de los


estudiantes obtuvieron una
9 - 11 3 3 puntuación inferior o igual a
11 - 13 6 9 11.67 puntos, mientras que el
13 - 15 8 17 80% restante obtuvieron una
15 - 17 5 22 puntuación superior a 11.67
17 - 19 3 25 puntos.

Total 25 -

Decil de orden 2:
Posición − Fi "menos de" anterior
k(n) Dk = Li + ∗ IC
PDk = fi
10
5−3
D2 = 11 + ∗ 2 = 11 + 0.3333 ∗ 2
2(25) 50 6
PD2 = = = 5 posición. D2 = 11 + 0.6666 = 11.67 puntos.
10 10

32
13/6/2022

Capítulo 3. Medidas de Tendencia Central y de Posición.

Puntuación Estudiantes (fi) Fi "menos de" Interpretación: El 8% de los


estudiantes obtuvieron una
9 - 11 3 3 puntuación inferior o igual a
11 - 13 6 9 10.33 puntos, mientras que el
13 - 15 8 17 92% restante obtuvieron una
15 - 17 5 22 puntuación superior a 10.33
17 - 19 3 25 puntos.
Total 25 -

Percentil de orden 8 :
Posición − Fi "menos de" anterior
k(n) Pk = Li + ∗ IC
PPk = fi
100
2−0
P8 = 9 + ∗ 2 = 9 + 0.6667 ∗ 2 = 9 + 1.3334
8(25) 200 3
PP8 = = = 2 posición. P8 = 10.33 puntos.
100 100

Capítulo 4. Medidas de Dispersión.


Si se observa con detenimiento la
siguiente figura, notará que la media de
las tres curvas es la misma, pero la
curva A tiene menor separación (o
variabilidad) que la curva B, y ésta tiene
menor variabilidad que la C. Si medimos
sólo la media de estas tres
distribuciones, estaremos pasando por
alto una diferencia importante que
existe entre las tres curvas. Al igual que
sucede con cualquier conjunto de datos, Una medida de dispersión pequeña
la media, la mediana y la moda sólo nos indica que los datos se acumulan con
revelan una parte de la información que proximidad alrededor de la media
debemos conocer acerca de las aritmética. Por consiguiente, la media se
características de los datos. Para considera representativa de los datos.
aumentar nuestro entendimiento del Por el contrario, una medida grande de
patrón de los datos, debemos medir dispersión indica que la media no es
también su dispersión. confiable.

33
13/6/2022

Capítulo 4. Medidas de Dispersión.


MEDIDAS DE DISPERSIÓN.
Son indicadores que permiten medir la variabilidad de los datos en una distribución,
es decir, el grado en que las observaciones se separan. Su importancia radica en
que nos ayudan a medir la confiabilidad de las medidas de tendencia central y
además nos permiten comparar las dispersiones de diferentes muestras, para evitar
elegir distribuciones que tengan las dispersiones más grandes.

Rango: es un indicador que mide la diferencia entre el valor máximo y el valor


mínimo de un conjunto de datos. Para datos simples o sueltos, su fórmula es:
R = Xmax – Xmin ; para datos agrupados su fórmula es: R = Limite superior de la
última clase – Limite inferior de la primera clase.

Rango interfractiles (RI): mide la diferencia entre dos medidas de posición. Es más
completo que la desviación intercuartílica (DI) = Q3 – Q1, porque con este indicador
se puede calcular el rango entre dos medidas de posición cualquiera.

Desviación media: mide la variabilidad absoluta promedio de un conjunto de datos.


Su valor siempre es menor que el de la desviación estándar.

Capítulo 4. Medidas de Dispersión.

Sus fórmulas son las siguientes:


Datos simples Datos agrupados
σ xi − xത σ xi − xത ∙ fi
DM = DM =
n n
Varianza: mide la variabilidad cuadrática promedio de un conjunto de datos. Al
elevar al cuadrado cada distancia, logramos que todos los números sean positivos y,
al mismo tiempo, asignamos más peso a las desviaciones más grandes (desviación
es la distancia entre la media y un valor).

Este indicador presenta un inconveniente y es que para la varianza las unidades son
el cuadrado de las unidades de los datos; por ejemplo, “dólares al cuadrado”. Estas
unidades no son muy claras o fáciles de interpretar, por ello surgió un indicador
denominado desviación típica o estándar que resuelve este problema. Su formula
para la población y para la muestra, tanto para datos simples, como para datos
agrupados se presenta a continuación.

34
13/6/2022

Capítulo 4. Medidas de Dispersión.


Datos simples Datos agrupados
σ xi − μ 2 σ xi − μ 2 ∙ fi
Población σ2 = σ2 =
N N
σ x 2 σ xത 2 ∙ fi
i−xത x i −
Muestra S2 = S2 =
n−1 n−1
Desviación típica o estándar: mide la variabilidad promedio de un conjunto de datos. Es la
raíz cuadrada de la varianza y se calcula con el propósito de que los valores que fueron
elevados al cuadrado retornen a su unidad original, resolviendo así el inconveniente de la
varianza. Su variedad de formulas son:
Datos simples Datos agrupados Varianza conocida

σ 𝐱𝐢 − 𝛍 𝟐 σ 𝐱𝐢 − 𝛍 𝟐 ∙ 𝐟𝐢
Población 𝛔= 𝛔= 𝛔 = 𝛔𝟐
𝐍 𝐍

σ 𝐱 𝐢 − 𝐱ത 𝟐 σ 𝐱 𝐢 − 𝐱ത 𝟐 ∙ 𝐟𝐢
Muestra 𝐒= 𝐒= 𝐒= 𝑺𝟐
𝐧−𝟏 𝐧−𝟏

Capítulo 4. Medidas de Dispersión.


Coeficiente de variación: es una medida relativa de dispersión que relaciona la desviación
estándar y la media, expresando la desviación estándar como porcentaje de la media. La
unidad de medida es “porcentaje”, en lugar de las unidades de medida de los datos
originales, lo que permite comparar fácilmente la dispersión de dos o más conjuntos de
datos sin importar sus unidades de medida. Sus formulas son:

Población Muestra
σ S
CV = ∗ 100 CV = ∗ 100
μ xത
Interpretación del coeficiente.
VALOR DEL CV VARIABILIDAD ESTABILIDAD
Nota: no hay criterios universales para
decir que un valor del CV es “bajo” o CV = 0% Nula Muy alta
“moderado” o “alto”, no obstante, el Mtro. 0% < CV ≤ 20% Baja Alta
Alberto Estrella (exdirector de la Cátedra 20% < CV ≤ 60% Moderada Moderada
de Estadística Especializada de la 60% < CV ≤ 90% Alta Baja
UASD), nos proporciona la siguiente guía.
CV > 90% Muy alta Nula

35
13/6/2022

Capítulo 4. Medidas de Dispersión.


EJERCICIO DE MEDIDAS DE DISPERSIÓN PARA DATOS SIMPLES :
Los años de antigüedad de una muestra de vehículos SUV compactos, en el
Residencial Granados, en Bonao, Marzo, 2020, se presentan a continuación:
Xi: 5 7 6 3 4 7 3.
Rango:
R = Xmax – Xmin= 7 – 3 = 4 años.
La diferencia de años entre el SUV compacto más antiguo y el más reciente en el
Residencial Granados, en Bonao, es de 4 años.

Rango interfractil (Q1 y Q3):


Ordenar: 3 3 4 5 6 7 7
𝑘(𝑛 + 1) 1(7 + 1) 8 3(7 + 1) 24
𝑃𝑄𝑘 = ; 𝑃𝑄1 = = = 2 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛. 𝑃𝑄3 = = = 6 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛.
4 4 4 4 4
Q1 = 3 años. Q3 = 7 años.
La distancia que hay entre el cuartil 3 y el
RI = Q3 – Q1 = 7 – 3 = 4 años.
cuartil 1 es de 4 años de antigüedad.

Capítulo 4. Medidas de Dispersión.

Desviación media: |5 - 5| = 0
|7 - 5| = 2
σ xi 5 + 7 + 6 + 3 + 4 + 7 + 3 35
xത = = = = 5 años. |6 - 5| = 1
n 7 7 |3 - 5| = 2
σ xi − xത 10 |4 - 5| = 1
DM = = = 1.43 años. |7 - 5| = 2
n 7
|3 - 5| = 2
La variabilidad absoluta promedio de los años de antigüedad de ෍ xi − xത = 10
los SUV compactos se estima en 1.43 años de antigüedad.

(5 - 5)^2 = 0
Varianza: (7 - 5)^2 = 4
(6 - 5)^2 = 1
σ xi − xത 2
18 18 (3 - 5)^2 = 4
S2 = = = = 3 años2 .
n−1 7−1 6 (4 - 5)^2 = 1
(7 - 5)^2 = 4
La variabilidad cuadrática promedio de los años de antigüedad (3 - 5)^2 = 4
de los SUV compactos se estima en 3 años de antigüedad 2. ෍ 𝑥𝑖 − 𝑥 ҧ 2 = 18

36
13/6/2022

Capítulo 4. Medidas de Dispersión.

Desviación estándar:
S= S2 = 3 años 2 = 1.73 años. S2 = 3 años 2.

La variabilidad promedio de los años de antigüedad de los SUV compactos se estima


en 1.73 años de antigüedad.

Coeficiente de variación:
S 1.73 xത = 5 años.
CV = ∗ 100 = ∗ 100 = 34.6 %
xത 5

El tamaño relativo de la variabilidad promedio de los años de antigüedad de los SUV


compactos con relación a la media se estima en 34.6%. Este valor indica que la
variabilidad de los datos, así como su estabilidad, se consideran moderada.

Capítulo 4. Medidas de Dispersión.


EJERCICIO DE MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS:

Los siguientes datos corresponden al precio por libra de un producto en una muestra
de supermercados del gran santo domingo, en Marzo, 2020:
Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740

Rango:
R = LS (ultima clase) – LI (primera clase) = 20 – 10 = 10 pesos.
La diferencia en pesos entre el precio más caro y el precio más barato del producto,
en la muestra de supermercado del gran santo domingo es de 10 pesos.

37
13/6/2022

Capítulo 4. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740

Rango interfractil (Q1 y Q3):


k(n) 1(20) 20 3(20) 60
PQk = ; PQ1 = = = 5 posición. PQ3 = = = 15 posición.
4 4 4 4 4
Posición − Fi "menos de" anterior 15 − 6
Q1 = Li + ∗ IC Q3 = 14 + ∗ 2 = 16 pesos.
fi 9
5−1
Q1 = 12 + ∗ 2 = 13.6 pesos.
5
La distancia que hay entre el cuartil
RI = Q3 – Q1 = 16 – 13.6 = 2.4 pesos.
3 y el cuartil 1 es de 2.4 pesos.

Capítulo 4. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740

σ xi ∙ fi 298
xത = = = 14.9 𝑝𝑒𝑠𝑜𝑠.
n 20
Desviación media:
σ xi − xത ∙ fi 26.8
DM = = = 1.34 pesos.
n 20

La variabilidad absoluta promedio del precio del producto en la muestra de


supermercados de gran santo domingo se estima en 1.34 pesos.

38
13/6/2022

Capítulo 4. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
σ x i ∙ fi 298
xത = = = 14.9 𝑝𝑒𝑠𝑜𝑠.
n 20

Varianza:
σ xi − xത 2 ∙ fi 67.80 67.80
S2 = = = = 3.57 pesos2 .
n−1 20 − 1 19
La variabilidad cuadrática promedio del precio del producto en la muestra de
supermercados de gran santo domingo se estima en 3.57 pesos2.

Capítulo 4. Medidas de Dispersión.

Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
S2 = 3.57 pesos2.

Desviación estándar:
S= S2 = 3.57 pesos 2 = 1.89 pesos.

La variabilidad promedio del precio del producto en la muestra de supermercados de


gran santo domingo se estima en 1.89 pesos.

39
13/6/2022

Capítulo 4. Medidas de Dispersión.


Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
xത = 14.9 𝑝𝑒𝑠𝑜𝑠.

S = 1.89 pesos.
Coeficiente de variación:
S 1.89
CV = ∗ 100 = ∗ 100 = 12.68 %
xത 14.9
El tamaño relativo de la variabilidad promedio del precio del producto con relación a
la media se estima en 12.68%. Este valor indica que la variabilidad de los datos es
baja y la estabilidad es alta.

Capítulo 5. Análisis de Regresión y Correlación Simple.

REGRESIÓN LINEAL SIMPLE.


Con frecuencia las decisiones gerenciales se basan en la relación entre dos o
más variables. Cuando los datos están disponibles, puede emplearse un
procedimiento estadístico llamado análisis de regresión para obtener una
ecuación que indique cuál es la relación entre las variables. En la
terminología que se emplea en la regresión, la variable a predecir se llama
variable dependiente o variable respuesta, y a la variable o variables que se
usan para predecir su valor se les llama variables independientes.
Regresión lineal simple: es un análisis de regresión en el que interviene una
variable independiente y una variable dependiente, donde la relación entre
estas variables se aproxima mediante una línea recta. La ecuación que
describe cómo se relaciona y con x, y se da un término para el error, se llama
modelo de regresión. El siguiente es el modelo de regresión lineal simple:
𝐲 = 𝛃𝟎 + 𝛃𝟏 𝐱 + ∈ Donde: β0 y β1 se conocen como los parámetros del modelo, y ϵ
(épsilon) es una variable aleatoria denominada término del error.

40
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


A la ecuación que describe la relación entre el valor esperado de y, que se
denota E(y), y x se le llama ecuación de regresión. La siguiente es la
ecuación de regresión, para la regresión lineal simple: 𝐄(𝐲) = 𝛃𝟎 + 𝛃𝟏 𝐱

La gráfica de esta ecuación es una línea recta, donde:β0 es la intersección


de la recta de regresión con el eje y, β1 es la pendiente y E(y) es la media
o valor esperado de y para un valor dado de x.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Ecuación de regresión estimada.
Si se conocieran los valores de los parámetros poblacionales β0 y β1, se
podría emplear la ecuación de regresión anteriormente descrita, para
calcular el valor medio de y para un valor dado de x. Sin embargo, en la
práctica no se conocen los valores de estos parámetros y es necesario
estimarlos usando datos muestrales. Se calculan estadísticos muestrales
(que se denotan como b0 y b1) para estimar los parámetros poblacionales
β0 y β1. Al sustituir b0 y b1 por β0 y β1 en la ecuación de regresión, se
obtiene la ecuación de regresión estimada. La ecuación de regresión
estimada de una regresión lineal simple es: ŷ = 𝐛𝟎 + 𝐛𝟏 𝐱

A la gráfica de la ecuación de regresión lineal simple estimada se le llama


recta de regresión estimada, donde: b0 es la intersección con el eje y (es el
valor estimado de y cuando x = 0.), b1 es la pendiente de la recta, x es
cualquier valor de la variable independiente y, ŷ (que se lee y prima) es el
valor estimado de y.

41
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Diagramas de dispersión.
Debido a que siempre conviene explorar los datos muestrales
antes de aplicar un procedimiento estadístico formal, deberíamos
usar un diagrama de dispersión para explorar visualmente los
datos pareados. Los diagramas de dispersión para el análisis de
regresión se trazan colocando la variable independiente x en el eje
horizontal y la variable dependiente y en el eje vertical. Este
diagrama permite observar gráficamente los datos y obtener
conclusiones acerca de la relación entre las variables.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Principio de los mínimos cuadrados.
El método de mínimos cuadrados es un procedimiento en el que se usan los
datos muestrales para encontrar la ecuación de regresión estimada que mejor
represente la relación entre las dos variables y que proporciona lo que
comúnmente se conoce como “recta del mejor ajuste”.

Este procedimiento determina una ecuación de regresión al minimizar la suma


de los cuadrados debido al error (SCE). En conclusión, el criterio de mínimos
cuadrados permite elegir la ecuación de mejor ajuste. Si se empleara otro
criterio, como minimizar la suma de las desviaciones absolutas entre yi y ŷi, se
obtendría una ecuación diferente. En la práctica el método de mínimos
cuadrados es el más utilizado. El criterio de mínimos cuadrados es:
𝐋𝐚 𝐫𝐞𝐜𝐭𝐚 𝐝𝐞 𝐦𝐞𝐣𝐨𝐫 𝐚𝐣𝐮𝐬𝐭𝐞 = 𝐦𝐢𝐧 ෍ 𝐲𝐢 − ŷ𝐢 𝟐

Donde:
yi = valor observado de la variable dependiente en la observación iésima.
ŷi = valor estimado de la variable dependiente en la observación iésima.

42
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Para ilustrar este concepto, se trazan los mismos datos en las tres gráficas
siguientes. Los puntos son los valores reales u observados de y, y los
asteriscos son los valores predichos u estimados de y para un valor dado de
x. La recta de regresión de la gráfica 13-9 se determinó con el método de los
mínimos cuadrados. Es la recta de mejor ajuste porque la suma de los
cuadrados de las desviaciones verticales respecto de sí misma es la mínima.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Estimación de los parámetros en el modelo por mínimos cuadrados.
𝒃𝟎 = ഥ
𝒚 − 𝒃𝟏 ഥ
𝒙 σ 𝒙𝒊 − ഥ
𝒙 𝒚𝒊 − ഥ
𝒚
𝒃𝟏 =
𝒙 𝟐
σ 𝒙𝒊 − ഥ

Donde:
xi = valor de la variable independiente en la observación iésima.
yi = valor de la variable dependiente en la observación iésima.
xത = media de la variable independiente.
yത = media de la variable dependiente.

Relación entre STC, SCR y SCE.


Se denomina residuales, o valores de error, a la
diferencia entre los valores reales y los valores 𝑺𝑪𝑬 = ෍ 𝒚𝒊 − ŷ𝒊 𝟐

pronosticados (𝒚𝒊 − ŷ𝒊 ) . El valor de la suma de


cuadrados debido al error (SCE) es una medida de la
variabilidad de las observaciones reales respecto de la
línea de regresión estimada. Su fórmula es:

43
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Se puede entender la SCE como una medida de cuánto se agrupan las
observaciones en torno de la recta ŷ𝑖 . Mientras que la suma total de cuadrados
(STC) se puede entender como una medida de cuánto se agrupan las
observaciones en torno a la línea 𝑦.

𝑺𝑻𝑪 = ෍ 𝒚𝒊 − ഥ 𝒚 𝟐

Para medir cuánto se desvían de 𝑦, ത los valores ŷ𝑖 en la recta de regresión, se


calcula otra suma de cuadrados, la cual se llama suma de cuadrados debido a la
regresión y se denota como SCR.
𝑺𝑪𝑹 = ෍ ŷ𝒊 − ഥ 𝒚 𝟐

Por lo antes dicho, se esperaría que hubiera alguna relación entre STC, SCR y SCE.
En efecto, la relación entre estas tres sumas de cuadrados constituye uno de los
resultados más importantes de la estadística. 𝑺𝑻𝑪 = 𝑺𝑪𝑹 + 𝑺𝑪𝑬

Por consiguiente, si se conocen los valores de dos de estas sumas, es fácil calcular
la tercera suma de cuadrados.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Estimación del coeficiente de determinación.
El coeficiente de determinación proporciona una medida de la bondad de ajuste
para la ecuación de regresión estimada. Indica la proporción de la variación
total de la variable dependiente y que se explica, o contabiliza, por la variación
de la variable independiente x. Este es el coeficiente de correlación al cuadrado,
por lo tanto, también se usa el termino r2. Se calcula mediante la siguiente
formula: 𝟐
𝑺𝑪𝑹
𝒓 =
𝑺𝑻𝑪

Prueba de significancia de la pendiente.


Consiste en determinar si la pendiente de la recta de regresión es distinta a
cero, utilizando el método de prueba de hipótesis (prueba t de student).

La importancia de esto radica en que, si no podemos demostrar que la


pendiente de la recta es distinta de cero, podríamos utilizar la media de la
variable dependiente como factor de predicción, en vez de usar la ecuación de
regresión.

44
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Desviación estándar estimada de b1 .

El error cuadrado medio (ECM) o cuadrado medio del error, proporciona una
estimación de σ2, su fórmula es: 𝟐
𝑺𝑪𝑬
𝒔 = 𝑬𝑪𝑴 =
𝒏−𝟐

Para estimar σ se calcula la raíz cuadrada de s2. Al valor que se obtiene, s,


se le conoce como error estándar de estimación. Su fórmula es:
𝑺𝑪𝑬
𝒔 = 𝑬𝑪𝑴 =
𝒏−𝟐

Como no se conoce el valor de σ, se obtiene una estimación de 𝜎𝑏1 , que


se denota 𝑠𝑏1 , estimando σ mediante la siguiente ecuación:
𝒔
𝒔𝒃𝟏 =
σ 𝒙𝒊 − ഥ
𝒙 𝟐

45
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Probar la significación de la regresión.
Una prueba F basada en la distribución de probabilidad F, también puede
emplearse para probar la significancia en la regresión. Cuando sólo se tiene
una variable independiente, la prueba F lleva a la misma conclusión que la
prueba t; es decir, si la prueba t indica que β1 ≠ 0 y por tanto existe una
relación significativa, la prueba F también indicará que existe esta relación.
Pero cuando hay más de una variable independiente, sólo la prueba F
puede usarse para probar que existe una relación significativa general.

Si la hipótesis nula H0: β1 = 0 es verdadera, la suma de cuadrados debido


a la regresión, SCR, dividida entre sus grados de libertad proporciona otra
estimación independiente de σ2. A esta estimación se le llama cuadrado
medio debido a la regresión, y se denota como CMR.
𝑺𝑪𝑹
𝑪𝑴𝑹 =
𝑵𝒖𝒎𝒆𝒓𝒐 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆𝒔

Capítulo 5. Análisis de Regresión y Correlación Simple.

46
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Ejemplo: Armand’s Pizza Parlors es una cadena de restaurantes de comida
italiana que abarca un área de cinco estados. Las ubicaciones con mayor
éxito se encuentran cerca de los campus universitarios. Los gerentes creen
que las ventas trimestrales de estos restaurantes (denotadas por y) están
directamente relacionadas con el tamaño de la población estudiantil
(denotada por x); es decir, en los establecimientos que están cerca de
algún campus con una población estudiantil grande se generan más ventas
que en aquellos situados cerca de algún campus con una población
estudiantil pequeña.

La población de restaurantes de esta cadena, puede verse también como


un conjunto de subpoblaciones, una para cada uno de los valores de x, es
decir, una subpoblación está formada por todos los restaurantes Armand’s
localizados cerca de los campus universitarios con 8,000 estudiantes, y así
sucesivamente. A continuación, se presentan los datos de una muestra
aleatoria de 10 restaurantes de la cadena Armand’s Pizza Parlors:

47
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Población de estudiantes Ventas trimestrales
Restaurantes
en miles en miles
(i)
(xi) (yi)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

Primer paso: se empieza por hacer un supuesto acerca del modelo apropiado, para
la relación entre las variables dependientes e independientes. Para comprobar si la
relación entre las variables es lineal o no lineal, se realiza un diagrama de dispersión
para observar gráficamente los datos y obtener conclusiones acerca de la relación
entre las variables. En el caso de la regresión lineal simple, se supone que el modelo
de regresión es: 𝑦 = 𝛽0 + 𝛽1 𝑥 + ∈

Capítulo 5. Análisis de Regresión y Correlación Simple.


Segundo paso: empleando el método de mínimos cuadrados, se usan los datos
muestrales para obtener los valores de b0 y b1, que son las estimaciones de los
parámetros del modelo β0 y β1, respectivamente.

σ 𝑥𝑖 140 σ 𝑦𝑖 1,300 σ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑥ҧ = = = 14 𝑦ത = = = $ 130 𝑏1 =
𝑛 10 𝑛 10 σ 𝑥𝑖 − 𝑥ҧ 2
2840
𝒃𝟎 = 𝑦ത − 𝑏1 𝑥ҧ = 130 − 5 14 = 𝟔𝟎 𝒃𝟏 = =𝟓
568

48
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Tercer paso: determinar la ecuación de regresión estimada: ŷ = 𝑏0 + 𝑏1 𝑥
ŷ = 𝟔𝟎 + 𝟓 𝒙
La constante de la ecuación de regresión estimada (b0 = 60) es positiva y nos indica
que un restaurante ubicado en un área con una población estudiantil cero, podría
vender trimestralmente un promedio de $ 60,000 dólares.

La pendiente de la ecuación de regresión estimada (b1 = 5) es positiva, lo que implica


que a medida que aumenta el tamaño de la población de estudiantes, las ventas se
incrementan. Se concluye que (con base en las ventas dadas en miles de dólares y el
tamaño de la población en miles estudiantes), un aumento de 1,000 en el tamaño de
la población de estudiantes corresponde a un incremento de $ 5,000 en las ventas
esperadas; es decir, se prevé que las ventas trimestrales se incrementen $5 por cada
estudiante.

La ecuación de regresión estimada nos indica que, a cada valor de la población de


estudiantil, le corresponde un pronóstico de venta trimestral basado en un incremento
constante de $ 60,000 dólares, más 5 veces el valor de la población estudiantil.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Cuarto paso: se calcula el coeficiente de determinación para saber ¿qué tan bien se
ajusta a los datos la ecuación de regresión estimada?
𝑺𝑪𝑹 = 𝑺𝑻𝑪 − 𝑺𝑪𝑬 = 𝟏𝟓, 𝟕𝟑𝟎 − 𝟏, 𝟓𝟑𝟎 = 𝟏𝟒, 𝟐𝟎𝟎

𝑺𝑪𝑹 𝟏𝟒, 𝟐𝟎𝟎


𝒓𝟐 = = = 𝟎. 𝟗𝟎𝟐𝟕
𝑺𝑻𝑪 𝟏𝟓, 𝟕𝟑𝟎

El r2 nos indica que el 90.27% de la suma total de cuadrados se explica mediante el


uso de la ecuación de regresión estimada, por tanto, se concluye que el 90.27% de la
variabilidad en las ventas trimestrales, se explica por la relación lineal que existe entre
esta variable y el tamaño de la población de estudiantes.

Quinto paso: se realiza un análisis para determinar si el modelo estimado es


apropiado, utilizando para ello, un nivel de significación de 5%. Este análisis incluye
probar los supuestos del modelo de regresión lineal simple, pero estos se omitirán por
la dificultad que representa calcularlos a mano. En la parte de anexos del folleto, se
presentan esas pruebas de supuestos realizadas con el software estadístico
INFOSTAT, versión 2017.

49
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.

Prueba de significancia de la pendiente del modelo.

𝑺𝑪𝑬 𝟏𝟓𝟑𝟎 𝒔 𝟏𝟑. 𝟖𝟐𝟗


𝒔= = = 𝟏𝟗𝟏. 𝟐𝟓 = 𝟏𝟑. 𝟖𝟐𝟗 𝒔 𝒃𝟏 = = = 𝟎. 𝟓𝟖𝟎𝟑
σ 𝒙𝒊 − ഥ
𝒙 𝟐 𝟓𝟔𝟖
𝒏−𝟐 𝟏𝟎 − 𝟐

Hipótesis:
H0: β1 = 0 (la pendiente del modelo de regresión es igual a cero)
Ha: β1 ≠ 0 (la pendiente del modelo de regresión es diferente de cero)

Estadístico de prueba:
𝒃𝟏 𝟓
𝒕= = = 𝟖. 𝟔𝟐 Grados de libertad (gl) = n – 2 = 10 – 2 = 8
𝒔𝒃𝟏 𝟎. 𝟓𝟖𝟎𝟑

Regla de decisión: rechazar la hipótesis nula si el valor calculado del estadístico de


prueba es mayor o igual al valor crítico, que es de 2.306 (para unα(0.05/2) = 0.025 y 8 gl).
Conclusión: como el valor calculado (8.62) ≥ al valor critico de la prueba (2.306), se rechaza la
hipótesis nula (H0) y se concluye que la pendiente del modelo es diferente de cero.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Prueba de significancia del modelo de regresión.
𝑺𝑪𝑹 𝟏𝟒, 𝟐𝟎𝟎
𝑪𝑴𝑹 = = = 𝟏𝟒, 𝟐𝟎𝟎
𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆𝒔 𝟏
Hipótesis:
H0: β1 = 0 (Entre estas variables no existe una relación lineal significativa).
Ha: β1 ≠ 0 (Entre estas variables existe una relación lineal significativa).
Estadístico de prueba:
𝑪𝒖𝒂𝒅𝒓𝒂𝒅𝒐 𝒎𝒆𝒅𝒊𝒐 𝒅𝒆𝒃𝒊𝒅𝒐 𝒂 𝒍𝒂 𝒓𝒆𝒈𝒓𝒆𝒔𝒊𝒐𝒏 (𝑪𝑴𝑹) 𝟏𝟒, 𝟐𝟎𝟎
𝑭= = = 𝟕𝟒. 𝟐𝟓
𝑬𝒓𝒓𝒐𝒓 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐 𝒎𝒆𝒅𝒊𝒐 (𝑬𝑪𝑴) 𝟏𝟗𝟏. 𝟐𝟓
Grados de libertad (gl) en el numerador = número de variables independientes = 1
Grados de libertad (gl) en el denominador = n – 2 = 10 – 2 = 8
Regla de decisión: rechazar la hipótesis nula si F calculado es mayor o igual al valor critico de la
prueba, que es de 7.57 (para un α(0.05/2) = 0.025; 1 gl en el numerador y 8 gl en el denominador).
Conclusión: como el valor calculado (74.25) ≥ al valor critico de la prueba (7.57), se rechaza la
hipótesis nula (H0) y se concluye que 𝛽1 ≠ 0, lo que implica que entre el tamaño de la población
de estudiantes y las ventas trimestrales existe una relación significativa.

50
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Sexto paso: si el modelo empleado es apropiado, se utiliza la ecuación de regresión
estimada a fin de pronosticar el valor de y para un valor dado de x.

Dado que el modelo de regresión cumple todos los supuestos y es significativo, se


considera apropiado a fin de realizar pronósticos, por tanto, si se quisieran predecir
las ventas trimestrales de un restaurante ubicado cerca de un campus de 16,000
estudiantes, se calcularía, como sigue: ŷ = 60 + 5 16 = $ 140 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑑𝑜𝑙𝑎𝑟𝑒𝑠)
De manera que las ventas trimestrales pronosticadas para este restaurante serían de
$140,000 dólares.

ANÁLISIS DE CORRELACIÓN SIMPLE.


Se denomina análisis de correlación simple a un grupo de técnicas para medir la
asociación entre dos variables, una variable independiente y la variable dependiente.
Por lo general, el primer paso es trazar los datos en un diagrama de dispersión para
obtener una representación visual de la relación entre las variables. Después se
calcula el coeficiente de correlación, que brinda una medida cuantitativa de la fuerza
de la relación entre dos variables.

Capítulo 5. Análisis de Regresión y Correlación Simple.


La fórmula para calcular el coeficiente de correlación de Pearson para datos
muestrales (rxy) es:
𝒔𝒙𝒚 Donde: 𝒔𝒙𝒚 = covarianza muestral; 𝒔𝒙 = desviación estándar muestral de x.
𝒓𝒙𝒚 =
𝒔𝒙 𝒔𝒚 𝒔𝒚 = desviación estándar muestral de y.

La fórmula para calcular el coeficiente de correlación de Pearson para datos


poblacionales (ρxy), letra griega que se lee (ro), es:
𝝈𝒙𝒚 Donde: 𝝈𝒙𝒚 = covarianza poblacional; 𝝈𝒙 = desviación estándar poblacional de x.
𝝆𝒙𝒚 =
𝝈𝒙 𝝈𝒚 𝝈𝒚 = desviación estándar poblacional de y.

Es importante destacar que cuando se ha realizado un análisis de regresión y


calculado el coeficiente de determinación r2, el coeficiente de correlación muestral se
puede obtener como se indica a continuación:
𝒓𝒙𝒚 = (𝒔𝒊𝒈𝒏𝒐 𝒅𝒆 𝒃𝟏 ) 𝒓𝟐
La covarianza es una medida descriptiva de la asociación lineal entre dos variables.
Un problema con la covarianza como medida de la solidez de una relación lineal
estriba en que su valor depende de las unidades de medida para x y y.

51
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


Por ejemplo, suponga que estamos interesados en la relación entre la estatura x y el
peso y de las personas. Desde luego, la solidez de la relación debe ser la misma, ya
sea que la estatura se mida en pies o pulgadas. Sin embargo, con la altura medida en
pulgadas se obtendría una covarianza mayor que la obtenida si la altura se midiera en
pies, cuando de hecho la relación no cambia, es decir, se afecta por la unidad de
medida, situación que no ocurre con el coeficiente de correlación, que es una medida
de la relación entre dos variables que no se ve afectada por las unidades de medición.

La fórmula de la covarianza muestral (sxy) y de la covarianza poblacional (σxy) se


presenta a continuación: σ 𝒙𝒊 − ഥ
𝒙 𝒚𝒊 − ഥ 𝒚 σ 𝒙𝒊 − 𝝁 𝒙 𝒚 𝒊 − 𝝁 𝒚
𝒔𝒙𝒚 = 𝝈𝒙𝒚 =
𝒏−𝟏 𝑵
Antes de calcular el coeficiente de correlación para datos muestrales, se debe
también estimar las desviaciones estándar muestrales para las dos variables,
utilizando las fórmulas siguientes:
𝒙 𝟐
σ 𝒙𝒊 − ഥ σ 𝒚𝒊 − ഥ𝒚 𝟐
𝒔𝒙 = 𝒔𝒚 =
𝒏−𝟏 𝒏−𝟏

Capítulo 5. Análisis de Regresión y Correlación Simple.


En caso de que se vaya a calcular el coeficiente de correlación para datos
poblacionales, se debe también calcular las desviaciones estándar poblacionales para
las dos variables, utilizando las fórmulas siguientes:

𝟐 𝟐
σ 𝒙𝒊 − 𝝁 𝒙 σ 𝒚𝒊 − 𝝁 𝒚
𝝈𝒙 = 𝝈𝒚 =
𝑵 𝑵

El coeficiente de correlación muestral rxy proporciona una estimación del coeficiente


de correlación poblacional ρxy.

Interpretación del coeficiente de correlación.


El coeficiente de correlación varía de -1 a +1. un coeficiente de correlación muestral
de +1 corresponde a una relación lineal positiva perfecta entre x y y. Por otra parte, si
los puntos del conjunto de datos caen en una recta con pendiente negativa, el valor
del coeficiente de correlación muestral es -1; es decir, corresponde a una relación
lineal negativa perfecta entre x y y. Los valores cercanos a -1 ó a +1 indican una
relación lineal sólida. Entre más se acerque la correlación a cero, más débil es la relación.

52
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.


En resumen, se observa que la correlación proporciona una medida de asociación
lineal y no necesariamente de causalidad. Una correlación alta entre dos variables no
significa que los cambios en una variable ocasionarán cambios en la otra. Por
ejemplo, podemos encontrar que la calificación de calidad y el precio típico de la
comida en los restaurantes se correlacionan de manera positiva. Sin embargo, un
simple incremento en el precio de la comida no causará que la calificación de la calidad aumente.

Prueba de significación del coeficiente de correlación.


¿Puede ser que la correlación entre la población sea 0? Esto significaría que la
correlación calculada se debió a la casualidad. Resolver este dilema requiere una
prueba para responder la pregunta obvia: ¿puede haber una correlación cero entre la
población de la cual se seleccionó la muestra? En otras palabras, ¿proviene el valor r
calculado de una población de observaciones pareadas con correlación cero?, para
responder a esta pregunta se plantea la siguiente prueba de hipótesis.

Hipótesis:
H0: 𝜌𝑥𝑦 = 0 (La correlación entre la población es cero)
Ha: 𝜌𝑥𝑦 ≠ 0 (La correlación entre la población es diferente de cero)

Capítulo 5. Análisis de Regresión y Correlación Simple.

Estadístico de prueba:

𝒓 𝒏−𝟐
𝒕=
𝟏 − 𝒓𝟐

En el caso de una relación lineal entre dos variables, tanto el coeficiente de


determinación como el coeficiente de correlación muestral proporcionan medidas de la
fuerza de la relación. El primero provee una medida entre 0 y 1, mientras que el
segundo proporciona una medida entre -1 y +1. Aunque el coeficiente de correlación
muestral está restringido a la relación lineal entre dos variables, el coeficiente de
determinación puede emplearse para relaciones no lineales y para otras en las que
hay dos o más variables independientes. Por tanto, ofrece un rango de aplicación más
amplio.

53
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.

Ejemplo: realizar un análisis de correlación simple al ejercicio de Armand’s Pizza


Parlor.

A simple vista parece existir una relación lineal positiva entre ambas las variables.
Conforme aumenta la población estudiantil, aumentan las ventas trimestrales.

Capítulo 5. Análisis de Regresión y Correlación Simple.


Restaurantes
ഥ )𝟐 ഥ )𝟐
(i)
𝒙𝒊 𝒚𝒊 ഥ (𝒙𝒊 − 𝒙
ഥ 𝒚𝒊 − 𝒚
𝒙𝒊 − 𝒙 ഥ)(𝒚𝒊 − 𝒚
ഥ) (𝒙𝒊 − 𝒙 (𝒚𝒊 − 𝒚
La media muestral de x es igual a:
1 2 58 -12 -72 864 144 5,184
2 6 105 -8 -25 200 64 625 σ 𝑥𝑖 140
3 8 88 -6 -42 252 36 1,764 𝑥ҧ = = = 14
4 8 118 -6 -12 72 36 144 𝑛 10
5 12 117 -2 -13 26 4 169
6
7
16
20
137
157
2
6
7
27
14
162
4
36
49
729
La media muestral de y es igual a:
8 20 169 6 39 234 36 1,521
9 22 149 8 19 152 64 361
σ 𝑦𝑖 1,300
10 26 202 12 72 864 144 5,184 𝑦ത = = = $ 130
𝑛 10
TOTALES 140 1,300 - - 2,840 568 15,730

La covarianza muestral es igual a: La desviación estándar muestral de x es igual a:


σ xi − xത yi − yത 2840 2
sxy = = = 315.5556 σ xi − xത 568
n−1 9 sx = = = 7.9443
n−1 9
La desviación estándar muestral de y es igual a:
El coeficientede correlaciónmuestralseráigual a:
σ yi − yത 2 15730 𝒔𝒙𝒚 𝟑𝟏𝟓. 𝟓𝟓𝟓𝟔
sy = = = 41.8064 𝒓𝒙𝒚 = = = 𝟎. 𝟗𝟓𝟎𝟏
n−1 9 𝒔𝒙 𝒔𝒚 𝟕. 𝟗𝟒𝟒𝟑 ∗ 𝟒𝟏. 𝟖𝟎𝟔𝟒

54
13/6/2022

Capítulo 5. Análisis de Regresión y Correlación Simple.

Concluimos que existe una fuerte relación lineal positiva entre las ventas trimestrales
(yi) y la población estudiantil (xi).

Como primeramente ya se había realizado un análisis de regresión lineal simple y se


había calculado el coeficiente de determinación r2, el coeficiente de correlación
muestral también se puede obtener de la siguiente manera:
• La ecuación de regresión estimada era: ŷ = 60 + 5𝑥
• El coeficiente de determinación 𝑟 2 = 0.9027

Como la pendiente de esta ecuación es positiva, el coeficiente de correlación muestral


es también positivo, y será igual a:

𝒓𝒙𝒚 = 𝒔𝒊𝒈𝒏𝒐 𝒅𝒆 𝒃𝟏 𝒓𝟐 = + 𝟎. 𝟗𝟎𝟐𝟕 = +𝟎. 𝟗𝟓𝟎𝟏 = 𝟎. 𝟗𝟓𝟎𝟏

Podemos comprobar que se obtiene el mismo resultado por ambos métodos, ahora
toca probar la significancia de este coeficiente de correlación, utilizando un nivel de
significancia de 5%.

Capítulo 5. Análisis de Regresión y Correlación Simple.

Hipótesis:
H0: 𝜌𝑥𝑦 = 0 (La correlación entre la población es cero)
Ha: 𝜌𝑥𝑦 ≠ 0 (La correlación entre la población es diferente de cero)

Estadístico de prueba:

𝒓 𝒏−𝟐 𝟎. 𝟗𝟓𝟎𝟏 𝟏𝟎 − 𝟐 𝟐. 𝟔𝟖𝟕𝟑 Grados de libertad (gl) = n – 2


𝒕= = = = 𝟖. 𝟔𝟐
𝟏− 𝒓𝟐 𝟏− (𝟎. 𝟗𝟓𝟎𝟏𝟐 ) 𝟎. 𝟑𝟏𝟏𝟗 = 10 – 2 = 8

Regla de decisión: como el valor t calculado es positivo, rechazar la hipótesis nula si


este valor es mayor o igual al valor critico de la prueba que es de 2.306 (para un
α(0.05/2) = 0.025 y 8 gl).

Como el valor t calculado (8.62) ≥ al valor critico de la prueba (2.306), se rechaza la


hipótesis nula (H0) a un nivel de significancia de 0.05, y se concluye que la correlación
entre la población es diferente de cero. Desde el punto de vista práctico, esto indica
que el coeficiente de correlación calculado no se debió a la casualidad y, por tanto,
hay una correlación simple entre las ventas trimestrales y la población estudiantil.

55
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


REGRESIÓN MÚLTIPLE.
El análisis de regresión múltiple estudia la relación de una variable dependiente y dos
o más variables independientes. En términos generales, suele utilizarse p para
denotar el número de estas últimas. A la ecuación que describe cómo está
relacionada la variable dependiente y con las variables independientes 𝑥1 , 𝑥2 , … . , 𝑥𝑝 y
un término de error se le conoce como modelo de regresión múltiple. Se inicia con el
supuesto de que este modelo toma la forma siguiente:
𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒑 𝒙𝒑 +∈

Donde: β0 , β1 , β2 ,…, βp son los parámetros del modelo, y ϵ (la letra griega épsilon) es una
variable aleatoria denominada término del error. Este último corresponde a la variabilidad en y que
no puede ser explicada por el efecto lineal de las p variables independientes.

A la ecuación que describe cómo está relacionado el valor medio de y con


x1 , x2 , … . , xp se le conoce como ecuación de regresión múltiple. La siguiente es la
ecuación de regresión múltiple: 𝑬(𝒚) = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒑 𝒙𝒑

Capítulo 6. Regresión y Correlación Múltiples.


Ecuación de regresión estimada.
Si se conocieran los valores de los parámetros poblacionales β0 , β1 , β2 ,…, βp, se
podría emplear la ecuación de regresión anteriormente descrita, para calcular el valor
medio de y para valores dados de x1 , x2 , … . , x p. Desafortunadamente, los valores de
estos parámetros suelen en general no conocerse y es necesario estimarlos a partir
de datos muestrales. Para calcular los valores de los estadísticos muestrales b0, b1,
b2, . . . , bp, que se usan como estimadores puntuales de los parámetros β0 , β1 , β2
,…, βp, se emplea una muestra aleatoria simple. Con los estadísticos muestrales se
obtiene la siguiente ecuación de regresión múltiple estimada:
ŷ = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ + 𝒃𝒑 𝒙𝒑

Principio de los mínimos cuadrados.


En la regresión lineal simple usó el método de mínimos cuadrados para obtener la
ecuación de regresión estimada que permitía aproximar mejor la relación lineal entre
las variables dependiente e independiente. Con este método también se desarrolla la
ecuación de regresión múltiple estimada. El criterio en el método de mínimos cuadrados,
como ya se dijo, es el siguiente.

56
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.

𝑳𝒂 𝒓𝒆𝒄𝒕𝒂 𝒅𝒆 𝒎𝒆𝒋𝒐𝒓 𝒂𝒋𝒖𝒔𝒕𝒆 = 𝒎𝒊𝒏 ෍ 𝒚𝒊 − ŷ𝒊 𝟐

Donde:
yi = valor observado de la variable dependiente en la observación iésima.
ŷi = valor estimado de la variable dependiente en la observación iésima.

Para la regresión lineal simple se proporcionaron las fórmulas para calcular los
estimadores b0 y b1 que se necesitan en la ecuación de regresión lineal simple
estimada, empleando el método de mínimos cuadrados. Con conjuntos de datos
relativamente pequeños fue posible usar esas fórmulas para obtener b0 y b1 mediante
cálculos manuales. En la regresión múltiple, en cambio, las fórmulas para los
coeficientes de regresión b0, b1, b2, . . . , bp utilizan álgebra matricial y quedan fuera
del alcance de este documento. Por esta razón, el estudio de la regresión múltiple
centrará la atención en el uso de software para obtener la ecuación de regresión
estimada y alguna otra información. Se hará énfasis en la interpretación de los
resultados que proporciona este software y no en cómo efectuar los cálculos para la
regresión múltiple.

Capítulo 6. Regresión y Correlación Múltiples.


Relación entre STC, SCR y SCE. 𝑺𝑻𝑪 = 𝑺𝑪𝑹 + 𝑺𝑪𝑬

Donde:

𝑆𝑇𝐶 = 𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 = ෍ 𝑦𝑖 − 𝑦ത 2

𝑆𝐶𝑅 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛 = ෍ ŷ𝑖 − 𝑦ത 2

𝑆𝐶𝐸 = 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎𝑙 𝑒𝑟𝑟𝑜𝑟 = ෍ 𝑦𝑖 − ŷ𝑖 2

Dado lo complejo de los cálculos de estas tres sumas de cuadrados, es necesario


emplear un software para realizarlos. El valor de la STC no depende de ŷ, por tanto, al
agregar otra variable independiente al modelo, la STC no varía, la SCR aumenta y la
SCE disminuye. Esto tiene como consecuencia que la ecuación de regresión estimada
tenga un mejor ajuste para los datos observados.

57
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


El coeficiente de determinación múltiple.
El mismo concepto es válido en la regresión múltiple. El término coeficiente de determinación
múltiple indica que se mide la bondad de ajuste de la ecuación de regresión múltiple estimada. El
coeficiente de determinación múltiple, que se denota r2, se calcula como sigue: 𝟐
𝑺𝑪𝑹
𝒓 =
𝑺𝑻𝑪
Este coeficiente puede interpretarse como la proporción de la variabilidad en la variable
dependiente que es explicada por la ecuación de regresión estimada. Por tanto, el producto de
este coeficiente por 100 se interpreta como el porcentaje de la variabilidad en y que es explicada
por la ecuación de regresión estimada.

Siempre que se añade una variable independiente al modelo, r2 aumenta, por tanto, muchos
analistas prefieren ajustarlo al número de variables independientes para evitar sobreestimar el
efecto que tiene agregar una variable independiente sobre la cantidad de la variabilidad explicada
por la ecuación de regresión estimada. Siendo n el número de observaciones y p el número de
variables independientes, el coeficiente de determinación múltiple ajustado se calcula como sigue:
𝒏−𝟏
𝒓𝟐𝒂 = 𝟏 − (𝟏 − 𝒓𝟐 )
𝒏−𝒑−𝟏

Capítulo 6. Regresión y Correlación Múltiples.


Supuestos del modelo de
regresión múltiple.

Los supuestos acerca del término


del error ϵ en el modelo de
regresión múltiple son similares a
los supuestos en el modelo de
regresión lineal simple.

En el análisis de regresión suele


emplearse el término de variable
respuesta en lugar de variable
dependiente. Además, como la
ecuación de regresión múltiple
genera un plano o superficie, a su
gráfica se le llama superficie de
respuesta.

58
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


Pruebade significanciadelmodelo.
En la regresión múltiple, la prueba t
y la prueba F tienen propósitos
diferentes:
1. La prueba F determina si existe
una relación de significancia entre la
variable dependiente y el conjunto
de todas las variables
independientes; a esta prueba F se
le llama prueba de significancia
global.
2. Si la prueba F indica que hay
significancia global, se usa la
prueba t para identificar si cada una
de las variables individuales es
significativa. Para cada una de las
variables independientes del
modelo se realiza una prueba t, y a
cada cual se le refiere como prueba
de significancia individual.

Capítulo 6. Regresión y Correlación Múltiples.


Prueba de significancia de cada uno de los
parámetros.
Si la prueba F indica que la relación de
regresión múltiple es significativa, entonces
podemos realizar una prueba t para
determinar la significancia de cada uno de
los parámetros. A continuación, se presenta
la prueba t de significancia para el efecto.

El error cuadrado medio (ECM) proporciona


una estimación de σ2. La raíz cuadrada del
ECM es la estimación de la desviación del
término del error. Como se definió en la
regresión lineal simple, esta desviación es el
error estándar de estimación que se denota
s. En el estadístico de prueba, sbi es la
estimación de la desviación estándar de bi .
El software proporciona el valor de sbi . El
error estándar de estimación múltiple se
calcula de la siguiente manera:

59
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


También utilizando la información de la tabla ANOVA, se puede usar para calcular el
error estándar de estimación múltiple, utilizando la fórmula:
𝒔𝒀.𝟏𝟐𝟑…𝑲 = 𝑪𝑴𝑬
Suponiendo que se desarrolló un modelo de regresión múltiple para pronosticar una
variable dependiente referente a un costo (dólares), ¿Cómo interpretar el error
estándar de estimación si su valor fuera de 51.05? Recuerde que es el “error” típico o
estándar cuando se emplea la ecuación para predecir el costo. Primero, las unidades
son las mismas que en la variable dependiente, por lo cual el error estándar es en
dólares ($51.05). Segundo, se espera que los residuos sean aproximados a una
distribución más o menos normal, por lo que alrededor de 68% de ellos estará dentro
de ±$51.05 y cerca de 95% dentro de ±2(51.05) = ±$102.10; En fin, un error
estándar múltiple indica una mejor ecuación de predicción o más eficiente.

Multicolinealidad.
En el análisis de regresión se recurre al término variable independiente para referirse
a cualquier variable utilizada para predecir o explicar el valor de la variable
dependiente.

Capítulo 6. Regresión y Correlación Múltiples.


Sin embargo, este término no significa que tales variables sean independientes
entre ellas en sentido estadístico. Al contrario, en un problema de regresión
múltiple la mayoría de las variables independientes están, en cierto grado,
correlacionadas unas con otras. En el análisis de regresión múltiple, la
multicolinealidad expresa la correlación entre las variables independientes.

Cuando las variables independientes están fuertemente correlacionadas, es


imposible determinar por separado el efecto de cada una de las variables
independientes sobre la variable dependiente, por tanto, si existe una fuerte
multicolinealidad, podrá tenerse poca confianza en los coeficientes.

En resumen, en las pruebas t para la significancia de cada uno de los parámetros,


la dificultad ocasionada por la multicolinealidad lleva a concluir que ninguno de los
parámetros es significativamente distinto de cero, cuando la prueba F sobre la
ecuación de regresión múltiple general indica que hay una relación significativa.
Este problema se evita cuando existe poca correlación entre las variables
independientes.

60
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


Se han desarrollado diversas pruebas a efecto de determinar si la multicolinealidad es
lo suficientemente alta para ocasionar problemas. Con base en una regla práctica, la
multicolinealidad es un problema potencial si el valor absoluto del coeficiente de
correlación muestral es mayor de 0.7 para cualquier par de variables independientes.

En conclusión, siempre que sea posible, debe evitarse incluir variables independientes
fuertemente correlacionadas.

Variable independiente cualitativa en la regresión.


En caso de que se necesite trabajar con una variable independiente cualitativa en el
análisis de regresión, entonces si esta tiene dos categorías se deben codificar con
cero y uno, creando lo que se conoce como una variable ficticia (variable en la que
sólo existen dos resultados posibles). Si la variable independiente cualitativa tiene
más de dos categorías, entonces habrá que tener cuidado tanto al definir como al
interpretar las variables ficticias que deberán ser creadas, utilizando como regla
general que si una variable cualitativa tiene k niveles, se necesitan k - 1 variables
ficticias, cada una de las cuales tomará el valor 0 o 1.

Capítulo 6. Regresión y Correlación Múltiples.


Suponga, por ejemplo, que un fabricante de fotocopiadoras divide un estado en tres
regiones de ventas: A, B y C. Sus gerentes desean aplicar el análisis de regresión para
predecir las ventas semanales. Utilizando como variable dependiente el número de
fotocopiadoras vendidas, están considerando diversas variables independientes
(número de vendedores, gastos en publicidad, etc.). Suponga que los gerentes
piensan que la región de ventas puede ser también un factor importante en la
predicción del número de unidades vendidas. Como región es una variable cualitativa
que tiene tres niveles, A, B y C, para representar la región de ventas se necesitarán 3
- 1 = 2 variables ficticias, cada una de las cuales tomará los valores 0 ó 1.

61
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.

Capítulo 6. Regresión y Correlación Múltiples.


ANÁLISIS DE CORRELACIÓN MÚLTIPLE.

El coeficiente de correlación múltiple mide la asociación entre varias variables


independientes y una dependiente. Este se puede definir de manera general como
la raíz cuadrada de la suma de los cuadrados explicados por la regresión sobre la
suma de los cuadrados totales.

Si hay tres variables, habrá tres correlaciones simples entre ellas, ρ12, ρ13 y
ρ23. Estos coeficientes miden la relación lineal que existen entre estas variables,
dos a dos, sin tener en cuenta la posible influencia de la tercera.

Este coeficiente tiene una desventaja, su valor se incrementa cuando se introducen


nuevas variables independientes en el modelo, por tanto, resulta engañoso para el
análisis. El coeficiente de correlación múltiple se aplica a la situación en que una
variable, a la que se puede seguir llamando y, ha sido aislada para examinar su
relación con el conjunto de las otras variables. Este coeficiente de correlación
múltiple (r 1.23) viene determinado por la expresión:

62
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


𝒓𝟐(𝟏,𝟐) + 𝒓𝟐(𝟏,𝟑) − 𝟐 𝒓(𝟏,𝟐) 𝒓(𝟏,𝟑) 𝒓(𝟐,𝟑)
𝒓𝟏.𝟐𝟑 =
𝟏 − 𝒓𝟐(𝟐,𝟑)

Donde:
r(1,2) = la correlación simple entre la variable dependiente y la 1era variable independiente.
r(1,3) = la correlación simple entre la variable dependiente y la 2da variable independiente.
r(2,3) = la correlación simple entre la 1era variable independiente y la 2da variable independiente.

El valor de un coeficiente de correlación múltiple (r), se encuentra entre cero y uno.


Cuanto más se acerque a uno, mayor es el grado de asociación entre las variables.
Y cuanto más se acerca a 0, la relación lineal es peor.

Es importante destacar que si ya se ha realizado un análisis de regresión múltiple y


por tanto, se tiene el coeficiente de determinación múltiple (r2), el coeficiente de
correlación múltiple se puede obtener también mediante la raíz cuadrada del r2
múltiple.

Capítulo 6. Regresión y Correlación Múltiples.


Ejemplo de la regresión lineal múltiple.
Supongamos que tenemos Sujetos Inteligencia Motivación Calificación final
(i) (x1) (x2) (yi)
los siguientes datos en un 1 85 10 4
estudio de la relación sobre 2 100 20 5
3 95 35 8
la inteligencia y la motivación, 4 80 30 7
como predictores de la 5 180 45 10
6 90 25 6
calificación final obtenida en 7 110 10 6
el bachillerato, en una 8 120 15 7
muestra aleatoria de 12 9
10
80
95
10
15
4
4
sujetos. Utilizar un nivel de 11 160 15 6
significancia del 0.05 12 150 45 9

Primer paso: se empieza por desarrollar una matriz de correlación que mostrará la
relación entre las variables independientes y la variable dependiente. Esto ayudará a
identificar las variables independientes que se relacionan más con la variable
dependiente. La matriz de correlación revelará también aquellas variables independientes que
están altamente relacionadas y que son posiblemente redundantes.

63
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


La matriz de correlación se muestra a continuación:
Correlación de Pearson.
Variable(1) Variable(2) n Pearson p-valor
Calificación Inteligencia 12 0.68 0.0160
Calificación Motivación 12 0.88 0.0002
Inteligencia Motivación 12 0.49 0.1036

Podemos notar que la calificación esta fuertemente relacionada con la motivación y


en menor medida está relacionada con la inteligencia, pues en ambos casos el valor
p < (α=0.05), lo que significa que ambos coeficientes de correlación son
significativos y que la correlación calculada no se debe a la casualidad.

En cuanto a la correlación entre las variables independientes, nuestro estándar es


buscar correlaciones que excedan un valor absoluto de 0.700. Podemos notar que el
coeficiente de correlación entre las variables independientes es 0.49 y no es
estadísticamente significativo (el valor p < α=0.05), lo cual indica que estas no están
correlacionadas y que la correlación calculada se debió a la casualidad. Esto nos
indica que no hay probabilidad de multicolinealidad.

Capítulo 6. Regresión y Correlación Múltiples.


Segundo paso: calculamos la ecuación de la regresión múltiple.

Análisis de regresión lineal utilizando INFOSTAT.


Variable N R² R² Aj ECMP AIC BIC
Calificación 12 0.85 0.82 1.09 34.56 36.50

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF
Constante 1.74 0.88 -0.26 3.74 1.96 0.0812
Inteligencia 0.02 0.01 -9.5E-04 0.04 2.15 0.0597 5.64 1.32
Motivación 0.11 0.02 0.06 0.16 4.85 0.0009 24.49 1.32

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 36.24 2 18.12 25.37 0.0002
Inteligencia 3.31 1 3.31 4.64 0.0597
Motivación 16.78 1 16.78 23.49 0.0009
Error 6.43 9 0.71
Total 42.67 11 _______

64
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


El r2 ajustado indica que las dos variables independientes explican el 82% de la
varianza de las calificaciones, es decir, que el 82% de la variabilidad de las
calificaciones, se explica por las variables independientes o predictoras contempladas
en el modelo. El ajuste del modelo puede considerarse según este dato bastante alto.
La ecuación de regresión estimada es:
ŷ = 𝟏. 𝟕𝟒 + (𝟎. 𝟎𝟐 ∗ 𝒊𝒏𝒕𝒆𝒍𝒊𝒈𝒆𝒏𝒄𝒊𝒂) + (𝟎. 𝟏𝟏 ∗ 𝒎𝒐𝒕𝒊𝒗𝒂𝒄𝒊ó𝒏)

Lo cual refleja que por un punto más en la variable inteligencia, se incrementa la


calificación en 0.02 puntos. Respecto a la motivación, la calificación sube 0.11 puntos
por cada unidad más puntuada en esta última variable. Por último, la calificación
prevista en ausencia de motivación y de inteligencia alguna, es de 1.74 puntos.

El factor de inflación de la varianza (VIF) es de 1.32 en ambos casos y por tanto, es


menor que el límite superior de la prueba que es 10, lo que indica que las variables
independientes no están muy correlacionadas.

Tercer paso: realizar la prueba de la hipótesis global.


𝐻0 : 𝛽1 = 𝛽2 = 0 ; 𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝛽𝑖 𝑛𝑜 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑐𝑒𝑟𝑜.

Capítulo 6. Regresión y Correlación Múltiples.


El valor p del modelo de regresión es 0.0002. Como el valor p es menor al nivel de significancia
(α=0.05), rechazamos la hipótesis nula y concluimos que al menos uno de los coeficientes de
regresión no es igual a cero. Esto indica que el modelo se muestra claramente valido para
representar los datos y que las variaciones en la variable calificación se explican significativamente
por el conjunto de efectos predictivos identificados.

Cuarto paso: evaluar los coeficientes individuales de regresión para determinar si no todos ellos
resultan igualmente relevantes. Si es así, quizás sea conveniente llevar a cabo una depuración del
modelo de regresión múltiple eliminando aquellos regresores que por sus poderes predictivos –no
significativos- no expliquen mucho más sobre y, que lo que ya explican aquellos que sí lo son.
Veamos a continuación cómo puede llevarse a cabo esta tarea. 𝐻0: 𝛽𝑖 = 0 ; 𝐻1: 𝛽𝑖 ≠ 0

El valor p del coeficiente de regresión de la motivación (0.0009) < 0.05, por tanto, se concluye que
este coeficiente de regresión es diferente de 0 y es un factor de predicción significativo de la
calificación. En el caso de la inteligencia, el valor P (0.0597) > 0.05, así que no rechazamos la
hipótesis nula y se concluye que el coeficiente de regresión de esta variable no difiere de cero, es
decir, que la inteligencia no es un factor de predicción eficaz de la calificación y por tanto, esta
variable se podría retirar del modelo, para tener un modelo más sencillo y fácil de interpretar.

65
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


Quinto paso: retirar una variable independiente a la vez (en caso de existir varias que no sean
significativas) y rehacer el análisis para evaluar el efecto general de quitar dicha variable.
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Calificación 12 0.77 0.75 1.35 37.55 39.00

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows VIF
Constante 3.29 0.60 1.97 4.62 5.54 0.0002
Motivación 0.13 0.02 0.08 0.18 5.81 0.0002 33.81 1.00

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 32.93 1 32.93 33.81 0.0002
Motivación 32.93 1 32.93 33.81 0.0002
Error 9.74 10 0.97
Lack of Fit 1.91 5 0.38 0.24 0.9265
Error Puro 7.83 5 1.57
Total 42.67 11 ______

Capítulo 6. Regresión y Correlación Múltiples.


Se observa que los valores r2 y r2 ajustado han disminuido, pero sólo ligeramente.
Utilizando las dos variables independientes, el valor R2 fue de 0.85, mientras que el R2
ajustado fue de 0.82. Al quitar la variable no significativa, los valores r2 y r2 ajustado
son 0.77 y 0.75 respectivamente. Preferimos tener la ecuación con el menor número
de variables independientes, porque es más fácil de interpretar.

El valor p del modelo de regresión es 0.0002. Como el valor p es menor al nivel de


significancia (α=0.05), rechazamos la hipótesis nula y concluimos que al menos uno
de los coeficientes de regresión no es igual a cero. Esto indica que el modelo se
muestra claramente valido para representar los datos y que la calificación está
afectada significativamente por la variable motivación.

El valor p del coeficiente de regresión de la motivación (0.0002) es menor que 0.05,


por tanto, se concluye que este coeficiente de regresión es diferente de 0 y es un
factor de predicción significativo de la calificación. La nueva ecuación de regresión
estimada es:
ŷ = 𝟑. 𝟐𝟗 + (𝟎. 𝟏𝟑 ∗ 𝒎𝒐𝒕𝒊𝒗𝒂𝒄𝒊ó𝒏)

66
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


Esta ecuación explica 75% de la variabilidad de las calificaciones y nos indica que, a cada
valor de la motivación, le corresponde un pronostico de calificaciones basado en un
incremento constante de 3.29 puntos, más 0.13 veces el valor de la variable motivación.

Sexto paso: el paso final es examinar las suposiciones de regresión.

Prueba del supuesto de normalidad.

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RDUO Calificación 12 0.00 0.94 0.91 0.3526
H0: Los residuos del modelo de regresión tienen distribución normal.
H1: Los residuos del modelo de regresión no tienen distribución normal.
Se aprecia en la prueba de normalidad de Shapiro-Wilks que no hay evidencia para
rechazar el supuesto de distribución normal (p=0.3526) > (α=0.05), por tanto, se
acepta la hipótesis nula y se sostiene la idea de que los residuos del modelo de
regresión tienen una distribución normal.

Capítulo 6. Regresión y Correlación Múltiples.


Prueba del supuesto de homogeneidad de las varianzas.
Variable N R² R² Aj CV
RABS Calif 12 0.62 0.17 58.16

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 1.64 6 0.27 1.37 0.3749
Motivación 1.64 6 0.27 1.37 0.3749
Error 1.00 5 0.20
Total 2.64 11
H0: La varianza de ϵ (término del error), es la misma para todos los valores de x.
H1: Al menos dos varianzas son distintas.

Se puede apreciar en la prueba de Levene para el modelo de regresión, que


(p=0.3749) > (α=0.05) para los grupos, por tanto, no hay evidencias para rechazar
el supuesto de igualdad de varianzas, por lo que se acepta la hipótesis nula y se
sostiene la idea de que las varianzas de ϵ (término del error) son homogéneas.

67
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


Prueba del supuesto de independencia.
Si las observaciones con las que contamos fueron producto de haber tomado una
muestra aleatoria de sujetos de alguna población, entonces en principio, tendremos
observaciones independientes, por tanto, como los datos proceden de una muestra
aleatoria de 12 sujetos tomada en el bachillerato, podemos asumir que se cumple el
supuesto de independencia, y se concluye que los valores de ϵ (término del error) son
independientes.
Ajuste del modelo: según Di Rienzo (Manual de
INFOSTAT, 2011, p.36): “si el modelo está bien
ajustado y los supuestos del modelo (normalidad,
homoscedasticidad e independencia se cumplen), el
95% de los residuos estudentizados estarán entre -2
y 2”. En el gráfico anterior se aprecia que el 100% de
los residuos estudentizados se encuentra dentro del
rango -2 y 2, que está encerrado por líneas rojas, por
tanto, se sostiene la idea de que el modelo está bien
ajustado. Además la prueba de error puro tiene un
valor P de 0.9265 > 0.05, por tanto, apoya la idea de
que el modelo tiene un buen ajuste.

Capítulo 6. Regresión y Correlación Múltiples.


La grafica del modelo de regresión lineal simple es:

68
13/6/2022

Capítulo 6. Regresión y Correlación Múltiples.


Ejemplo del cálculo del coeficiente de correlación múltiple en el ejercicio anterior.

Correlación de Pearson
Variable(1) Variable(2) n Pearson p-valor
Calificación (1) Inteligencia (2) 12 0.68 0.0160
Calificación (1) Motivación (3) 12 0.88 0.0002
Inteligencia (2) Motivación (3) 12 0.49 0.1036

𝒓𝟐(𝟏,𝟐) + 𝒓𝟐(𝟏,𝟑) − 𝟐 𝒓(𝟏,𝟐) 𝒓(𝟏,𝟑) 𝒓(𝟐,𝟑) 0.682 + 0.882 − 2 (0.68 ∗ 0.88 ∗ 0.49)
𝒓𝟏.𝟐𝟑 = =
𝟏 − 𝒓𝟐(𝟐,𝟑) 1 − 0.492

1.2368 − 0.586432
𝒓𝟏.𝟐𝟑 = = 0.85585998 = 𝟎. 𝟗𝟐𝟓𝟏
0.7599

Vemos que se obtiene un resultado similar si también se le calcula la raíz cuadrada al


r2 del modelo de regresión múltiple dado anteriormente, es decir, 0.85 = 0.9220 e
indica que el grado de asociación entre las variables predictoras (motivación y
inteligencia) y la variable dependiente (calificación) es muy fuerte.

REFERENCIAS BIBLIOGRÁFICAS

 Anderson, D., Sweeney, D., y Williams, T. (2012). Estadística para negocios y


economía. 11 ed. México D.F. México.
 Custodio, C. (2007). Estadística Básica. 4 ed. Santo Domingo, R.D.
 Familia, C. (2016). Introducción a la Estadística Elemental Aplicada (Tomo I). Santo
Domingo, R.D.
 Levin, R. y Rubin, D. (2010). Estadística para Administración y Economía. 7ed. Ciudad
de México, México.
 Lind, D., Marchal, W., y Wathen, S. (2012). Estadística Aplicada a los Negocios y la
Economía. 15 ed. Ciudad de México, México.
 Triola, M. (2018). Estadística. 12 ed. Ciudad de México, México.

69

También podría gustarte