Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(EST-2250)
CONTENIDO:
Capítulo 1. Introducción.
Referencias bibliográficas.
1
13/6/2022
Capítulo 1. Introducción.
Según el Dr. Mario Triola, la palabra estadística proviene del latín antiguo status (que
significa “Estado o Forma de Gobierno”). Sin embargo, los doctores Richard Levin y
David Rubin, sostiene que la palabra estadística tiene su origen en el término alemán
statistik (que significa “Ciencia del Estado”), el cual proviene de la palabra italiana
statista (que significa “Hombre de Estado o Político”).
En sus inicios, la estadística estuvo vinculada a los Estados, debido al interés de los
gobiernos por contar con datos sobre el Estado y su uso se remonta a tiempos muy
antiguos, pues la evidencia apunta a que antes de cristo, ya se realizaban censos y
se registraban datos en pieles, rocas, madera y en cuevas, para controlar el número
de personas, de animales o de ciertas mercancías.
Capítulo 1. Introducción.
Por otro lado, en República Dominicana, la estadística tiene sus orígenes desde los primeros
años de su descubrimiento, debido a que existen evidencias sobre informaciones
estadísticas relacionadas al repartimiento de indios en 1514 y sobre un censo que realizó el
gobernador Antonio de Osorio en 1606, el cual contiene un conteo de la población, de
esclavos, de ingenios, de puertos, etc.
No obstante, es a partir del 1935 cuando la estadística en nuestro país logra un importante
desarrollo, debido a que en ese año, el presidente Rafael Leónidas Trujillo promulga la Ley
No. 1023 que crea la Oficina Central de Estadística, siendo su primer director el señor
Vicente Tolentino Rojas, quien llevo a cabo una brillante labor al frente de la misma y por lo
tanto, es considerado como uno de los padres de la Estadística en R.D.
2
13/6/2022
Capítulo 1. Introducción.
Es importante resaltar que a lo largo de la historia, muchas personas fueron
contribuyendo al desarrollo de la estadística, haciendo posible que la estadística se
desarrollara y se convirtiera en una herramienta de vital importancia en la investigación
científica que realizan la mayoría de los campos del conocimiento. En esa medida se
considera una ciencia transversal.
La estadística puede definirse como la ciencia que recolecta, organiza, presenta, analiza
e interpreta datos, que proceden de una población o de una muestra representativa de
ella, con el fin de conocer sus características relevantes, para propiciar una toma de
decisión más efectiva y pertinente. En esta definición surgen tres conceptos muy
importantes en el ámbito de la estadística: datos, población y muestra, los cuales se
explicarán más adelante.
Capítulo 1. Introducción.
• Datos: son la materia prima de la cual se nutre la estadística. Se definen como las observaciones
recolectadas.
• Población: es el conjunto de todos los elementos que estamos estudiando, que poseen
características comunes bien definidas, acerca de los cuales intentamos sacar conclusiones.
• Muestra: es un subconjunto representativo de la población. Se dice que es representativo cuando
contiene las características relevante de la población en las mismas proporciones, es decir,
cuando es una fotocopia fiel de la población.
Existe una diferencia entre estadísticas y estadística. La primera se refiere a una colección de
información numérica, mientras que la segunda se refiere a la ciencia como tal. La estadística está
muy relacionada con el método científico y su importancia se debe en gran medida a que apoya la
investigación en todas las demás disciplinas, cuando estas utilizan un enfoque cuantitativo de
investigación, que se basa en la recolección y análisis de datos para dar respuesta a las preguntas de
la investigación y con ello probar las hipótesis establecidas o formular nuevas hipótesis de
investigación. Por ejemplo, la estadística ha dado lugar a la psicometría, que es una rama de la
psicología que utiliza la estadística para medir aspectos psicológicos del ser humano, tales como: el
conocimiento, los rasgos de personalidad, las habilidades y destrezas, las actitudes y las capacidades
mentales (están ambientados en: teoría de la medición, escalamiento y teoría de los tests.)
3
13/6/2022
Capítulo 1. Introducción.
La estadística se divide en dos grandes áreas:
• Estadística descriptiva: es un conjunto de métodos y técnicas que se
utilizan para resumir y describir las características importantes de un
conjunto de datos.
• Estadística inferencial: es un conjunto de métodos y técnicas que se
utilizan para hacer inferencias sobre la población, a partir del estudio
de una muestra representativa de ella. Hacer inferencias es sacar
conclusiones, hacer predicciones o tomar decisiones.
Capítulo 1. Introducción.
Las variables son características que pueden cambiar de una observación
a otra. Existen dos tipos básicos de variables:
1) Variables cualitativas: que son aquellas que representan datos
categóricos o atributos, que consisten en nombres o etiquetas. Este
tipo de datos se miden en escala nominal o en escala ordinal.
4
13/6/2022
Capítulo 1. Introducción.
El nivel de medición de los datos rige los cálculos que se llevan a cabo con
el fin de resumir y presentar los datos. También determina las pruebas
estadísticas que se deben realizar. Existen cuatro grandes tipos de niveles o
escalas de medición:
1. Escala nominal: en ella, las observaciones acerca de una variable
cualitativa sólo se clasifican (se colocan en categorías mutuamente
excluyentes y exhaustivas) y se cuentan (frecuencia). No existe una
forma particular para ordenar las etiquetas. Para una mejor
comprensión de lectura, estos conteos suelen convertirse en
porcentajes.
2. Escala ordinal: es similar a la escala nominal, pero con la discrepancia
de que aquí, las categorías o etiquetas pueden colocarse en cierto
orden (alto, medio, bajo), porque se supone que una clasificación se
encuentra en un nivel superior a otra, no obstante, no se puede medir
la magnitud de la diferencia entre categorías, porque carecen de
significado.
Capítulo 1. Introducción.
3. Escala de intervalo: Es para variables numéricas. En ella, los datos se pueden
poner en orden y es posible encontrar diferencias significativas entre ellos.
Los datos en este nivel no tienen un punto de inicio cero natural que
signifique ausencia de la característica, lo que ocasiona que las razones no
tengan sentido. El cero es un punto más de la escala.
4. Escala de razón: contiene las propiedades de la escala de intervalo, pero con
la diferencia de que aquí, si hay un punto de inicio cero natural que significa
ausencia de la característica, por tanto, las razones tienen sentido (es
significativa). En fin los datos medidos en esta escala pueden ser sometidos
a cualquier tratamiento estadístico. Más adelante se presenta una tabla
comparativa de cosas que permite y no permite realizar cada tipo de escala.
5
13/6/2022
Capítulo 1. Introducción.
TABLA COMPARATIVA DE COSAS QUE PERMITEN REALIZAR LOS TIPOS DE ESCALAS.
Capítulo 1. Introducción.
ETAPAS FUNDAMENTALES DE UNA INVESTIGACIÓN ESTADÍSTICA.
6
13/6/2022
Capítulo 1. Introducción.
3) Diseño de la muestra (muestreo): en esta etapa se tiene que definir con
claridad y cuidado, la población que se va a estudiar, el método de
muestreo más apropiado (cuando las muestras son obtenidas por un
adecuado procedimiento estadístico, éstas tienden a representar la
población) y el tamaño adecuado de la muestra (especificando la
magnitud del error deseado, el nivel de confianza, etc.). Los
procedimientos aleatorios son la forma más confiable de selección.
4) Diseño del cuestionario: es el proceso de adaptar los diferentes objetivos
del estudio a preguntas que permitan obtener la información necesaria.
Esta etapa incluye la formulación del tipo de pregunta, número de éstas,
secuencia y los medios para mantener motivada a la persona
encuestada. Aquí es importante probar el cuestionario para evaluar las
preguntas, la calidad de la entrevistas, las posibilidades de
contradicciones que pueden surgir en la investigación, la duración de la
entrevista, etc. Un requisito obligatorio en el diseño del cuestionario es el
respecto a la dignidad y a la privacidad del entrevistado.
Capítulo 1. Introducción.
5) El trabajo de campo: en esta etapa se incluye el reclutamiento de los
entrevistadores, supervisores y otro personal de campo. Además, incluye
la capacitación del personal de campo, preparación de instrucciones
escritas para los entrevistadores sobre el uso del cuestionario, la
recopilación de los datos en el campo y el control de calidad de las
entrevistas, etc.
6) La verificación y la codificación: estos son procesos afines diseñados con
el propósito de transcribir la información registrada en los cuestionarios a
una forma adecuada para el análisis estadístico. La verificación de las
respuestas empieza cuando el entrevistador revisa cada cuestionario en
el campo y continúa con las revisiones que realizan el supervisor de
campo y el personal de oficina. Se hace con el objetivo de eliminar las
respuestas incompletas o inconsistentes, como también los errores en el
uso del cuestionario. La codificación consiste en convertir datos
cualitativos en datos numéricos que puedan ser almacenados, contados
o tabulados con rapidez y facilidad.
7
13/6/2022
Capítulo 1. Introducción.
7) La preparación para el análisis: incluye un conjunto de actividades como:
digitación de los datos, chequeos rutinarios (para descubrir las
inconsistencias en las respuestas y los errores de digitación), y un plan de
tabulación de los datos (diseñar el formato de las tablas).
8) Análisis y preparación del informe: consiste en la presentación e
interpretación de los datos recopilados en la investigación, utilizando tablas
y gráficos. También se hace uso de técnicas sencillas y complejas del
calculo estadístico y se da una interpretación teórica elaborada de los
resultados. El objetivo de esta etapa es proporcionar un resumen de los
datos, capaz de satisfacer los propósitos de la investigación, lo más breve y
comprensible posible. Cuando se prepara el informe debemos tener
presente a quien va dirigido. Si es a especialistas, éste deberá contener
mucho más información sobre los aspectos metodológicos de la
investigación, que cuando es preparado para el publico general. No
obstante, hay que prestarle atención al estilo en que se va a escribir, la
mecánica de presentación del material y la organización de los temas.
Tanto las clases (que son para variables numéricas), como las categorías
(que son para las variables cualitativas), deben ser mutuamente excluyentes
(que ningún dato puntual cae en más de una categoría) y exhaustivas (que
todos los datos caen en una u otra categoría). Es importante tener esto en
cuenta, debido a que más adelante se utilizará un tipo de intervalo de clase
que se lee “a menos de”, en el cual las clases no incluyen los datos que
coinciden con el valor de su limite superior.
8
13/6/2022
9
13/6/2022
10
13/6/2022
25
22
20
15
10 8
0
Masculino Femenino
Sexo
11
13/6/2022
26.67%
Masculino
Femenino
73.33%
12
13/6/2022
Distribución de los Clientes, según Edad, en el Banco XX, Febrero del 2020.
Clientes
Edad (años) Conteo fr Fi < Fr < Fi > Fr > Xi
(fi)
25-32 IIII 4 0.20 4 0.20 20 1.00 28.5
32-39 II 2 0.10 6 0.30 16 0.80 35.5
39-46 IIII - I 6 0.30 12 0.60 14 0.70 42.5
46-53 IIII 4 0.20 16 0.80 8 0.40 49.5
53-60 II 2 0.10 18 0.90 4 0.20 56.5
60-67 II 2 0.10 20 1.00 2 0.10 63.5
Total 20 1.00
Fuente: Mtro. Juan Gabriel Avilés Quezada, profesor de estadística de la UASD.
13
13/6/2022
Los limites verdaderos o fronteras de clase son puntos específicos de la escala que
sirven para "separar clases adyacentes". En el intervalo “a menos de”, se obtienen
restando 0.5 tanto al limite inferior como al limite superior de la clase en cuestión.
14
13/6/2022
15
13/6/2022
16
13/6/2022
Xi: 27, 48, 39, 42, 25, 44, 62, 35, 57, 40, 44, 46, 29, 65, 30, 55, 43, 36, 50, 50.
Tallo Hojas
2 5 7 9
3 0 5 6 9
4 0 2 3 4 4 6 8
5 0 0 5 7
6 2 5
17
13/6/2022
Cantidad de hijos Personas (fi) fr (Fi <) (Fr <) (Fi >) (Fr >)
18
13/6/2022
xi
i=1
𝒙𝒊 = 𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 = 𝟏 + 𝟑 + 𝟓 = 𝟗
𝒊=𝟏
𝑘𝑖 = 𝑘 ∙ 𝑛 = 5 ∗ 4 = 20
𝑖=1
4
𝑘 = 5 + 5 + 5 + 5 = 20
𝑖=1
𝑘 ∙ 𝑥𝑖 = 𝑘 ∙ 𝑥𝑖 = 5 ∗ 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 ∗ 1 + 3 + 5 + 7 = 5 ∗ 16 = 80
𝑖=1 𝑖=1
19
13/6/2022
(𝑥𝑖 + 𝑦𝑖 ) = 𝑥𝑖 + 𝑦𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑦1 + 𝑦2 + 𝑦3 + 𝑦4
𝑖=1 𝑖=1 𝑖=1
= 4 + 3 + 5 + 8 + 6 + 4 + 5 + 7 = 20 + 22 = 42
𝑛
(𝑥𝑖 + 𝑦𝑖 ) = 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + 𝑥3 + 𝑦3 + 𝑥4 + 𝑦4
𝑖=1
= 4 + 6) + (3 + 4) + (5 + 5) + (8 + 7 = 10 + 7 + 10 + 15 = 42
Media aritmética.
Es el valor más representativo de un conjunto de datos. Es la más utilizada
por los métodos estadísticos avanzados. Para encontrar la media aritmética,
sumamos los valores y dividimos el resultado entre el número de
observaciones. Su fórmula para datos simples o sueltos es:
Media poblacional Media muestral
σ xi σ xi
μ= xത =
N n
20
13/6/2022
Mediana.
Es el indicador que divide al conjunto de datos en dos partes iguales, de
manera que el 50% de los datos será inferior a la mediana y el 50% restante
es superior a la mediana. Es el punto medio de los valores una vez que se
han ordenado de menor a mayor o de mayor a menor. Su procedimiento de
cálculo para datos simples o sueltos es:
1) Se ordenan los datos. 𝐧+𝟏
𝐏𝐦𝐞 =
2) Se localiza la posición donde está ubicada la mediana: 𝟐
3) La mediana será igual al dato que ocupe ese lugar en el paso 1. Si la
posición fuera un numero decimal, entonces la mediana será igual al
promedio de los dos datos mas centrales.
21
13/6/2022
Moda.
Es el valor que más se repite en el conjunto de datos. Cuando un único valor
de datos ocurre con más frecuencia que los demás, ese valor es la moda y
se dice que el conjunto de datos es unimodal. Cuando dos valores de datos
ocurren con la misma mayor frecuencia, cada uno es una moda y se dice
que el conjunto de datos es bimodal. Cuando más de dos valores de datos
ocurren con la misma mayor frecuencia, cada uno es una moda y se dice
que el conjunto de datos es multimodal. Cuando ningún valor de datos se
repite, se dice que no hay moda.
22
13/6/2022
En las imágenes se puede apreciar mejor la relación entre media, moda y mediana
en cada caso. Cabe destacar que esta relación solo permite tener una idea del tipo
de asimetría de la distribución, pero lo que realmente determinará si la distribución es
simétrica, sesgada a la izquierda o sesgada a la derecha será el resultado de la
fórmula del coeficiente de asimetría de Fisher, que es el más utilizado en estadística
ya que es más preciso que el coeficiente de asimetría de Pearson y que el coeficiente
de asimetría de Bowley. A continuación se presenta un ejemplo de una variable que
se distribuye de esa manera.
23
13/6/2022
Media geométrica.
Es la raíz n-esima del producto de todos los números. Es recomendada para
datos de progresión geométrica, para promediar razones, interés compuesto y
índices; en fin, se usa siempre que se desee calcular el cambio porcentual
promedio en el tiempo para alguna variable. Sus fórmulas para datos simples son:
𝐧
σ 𝐥𝐨𝐠 𝐱 𝐢
𝐆= 𝐱𝟏 ∗ 𝐱 𝟐 ∗ 𝐱 𝟑 ∗ ⋯ ∗ 𝐱 𝐧 ó 𝐆 = 𝐚𝐧𝐭𝐢𝐥𝐨𝐠𝐚𝐫𝐢𝐭𝐦𝐨
𝐧
24
13/6/2022
Media Armónica.
Se define como el reciproco o inverso de la media aritmética de los recíprocos de los
valores que componen una serie. Es de gran utilidad cuando estamos frente a
variables relacionadas con tasas de cambio: velocidades, producción, tiempos,
rendimientos, etc. Se encuentra al dividir el número de valores (n) entre la sumatoria
de los recíprocos de todos los valores. Sus fórmulas son:
Para datos simples: Para datos agrupados:
𝐧 𝐧 𝐧 𝐧
𝐇= = 𝐇= =
𝟏 𝟏 𝟏 𝟏 𝟏 𝐟𝐢 𝐟𝟏 𝐟𝟐 𝐟𝟑 𝐟
σ + + + ⋯+
𝐱𝐢 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧
σ + + + ⋯+ 𝐧
𝐱𝐢 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧
Media aritmética:
σ xi 1100 + 1000 + 980 + 975 + 980 + 1050 6085
xത = = = = 1,014.17 pesos.
n 6 6
El precio promedio de la funda de leche Milex de 2200 gramos en esa muestra de 6
supermercados de la ciudad de Bonao se estima en 1,014.17 pesos.
25
13/6/2022
Dado que: 𝐱ത 𝟏, 𝟎𝟏𝟒. 𝟏𝟕 > 𝐌𝐞 𝟗𝟗𝟎 > 𝐌𝐨 𝟗𝟖𝟎 , la distribución del precio de la funda
de leche Milex de 2,200 gramos, esta sesgada a la derecha (asimétrica positiva).
Media geométrica:
3) Los datos siguientes corresponden a las tasas de interés pagadas por los bancos de
una ciudad en cuentas de ahorros.
Xi: 3.0% 4.8% 2.9% 4.1% 3.5%.
n 5 5
G= x1 ∗ x2 ∗ x3 ∗ ⋯ ∗ xn = 3.0 ∗ 4.8 ∗ 2.9 ∗ 4.1 ∗ 3.5 = 599.256 = 3.59%
La tasa de interés promedio pagada por los bancos en cuentas de ahorros es de 3.59%
Media armónica:
5) La velocidad a la que transitaban 5 vehículos al momento de pasar por un
radar de trafico en una carretera del país, se presenta a continuación.
Determinar la velocidad media de los vehículos.
Xi: 110 km/h 121 km/h 102 km/h 108 km/h 116 km/h.
n n
H= =
1 1 1 1 1
σ + + +⋯+
x i x1 x 2 x 3 xn
5 5
H= = = 111.01 km/h
1 1 1 1 1 0.045039242
+ + + +
110 121 102 108 116
26
13/6/2022
27
13/6/2022
Media geométrica:
2) Los siguientes datos corresponden a las tasas de crecimiento anual de las ventas
de una muestra de pequeñas empresas de Bonao:
Empresas
Tasas (%) Xi
(fi )
2-4 5 3
4-6 9 5
6-8 3 7
8-10 2 9
10-12 1 11
Total 20 -
n 20
G= x1 f1 ∗ x 2 f2 ∗ x 3 f3 ∗ ⋯ ∗ x k fk = 35 ∗ 59 ∗ 73 ∗ 92 ∗ 111 = 5.11%
La tasa promedio de crecimiento anual de las ventas de las pequeñas empresas de Bonao
se estima en 5.11%.
Media armónica:
3) Los siguientes datos corresponden a la velocidad máxima registrada de los
lanzamientos que realizaron una muestra de 20 pitcher durante su primer partido
de la temporada 2019 en la MLB.
28
13/6/2022
Cuartiles.
Son indicadores que dividen el conjunto de datos en cuatro partes iguales, de
manera que, cada parte equivale aproximadamente a un 25% de los datos. Se
identifican como Qk, que se lee cuartil de orden k. CUARTILES Q1 Q2 Q3 Q4
% de datos ≤ Qk 25% 50% 75% 100%
Deciles.
Son indicadores que dividen el conjunto de datos en diez partes iguales, de manera
que, cada parte equivale aproximadamente a un 10% de los datos. Se identifican
como Dk, que se lee decil de orden k.
𝐤(𝐧 + 𝟏)
𝐏𝐃𝐤 =
𝟏𝟎
Posición para datos simples. Posición para datos agrupados.
𝐤(𝐧)
DECILES D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 𝐏𝐃𝐤 =
𝟏𝟎
% de datos ≤ Dk 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Percentiles.
Son indicadores que dividen el conjunto de datos en cien partes iguales, de manera
que, cada parte equivale aproximadamente a un 1% de los datos. Se identifican como
Pk, que se lee percentil de orden k.
29
13/6/2022
PERCENTILES P1 P2 P3 P4 ... P37 … P56 … P79 … P88 … P97 P98 P99 P100
% de datos ≤ Pk 1% 2% 3% 4% ... 37% ... 56% ... 79% ... 88% ... 97% 98% 99% 100%
Método de interpolar: si al calcular la posición del fractil deseado, obtenemos un
número decimal, entonces el valor del fractil deseado se determinará mediante el
método de la interpolación, dando los siguientes pasos:
1. Se divide la posición calculada en dos partes, una parte entera y una parte
decimal (que es un valor entre cero y uno).
2. En los datos ordenados, se ubica la posición calculada y traza una pequeña línea
vertical en ese punto, es decir, si la posición calculada es 5.37, entre la posición 5
y la posición 6 se coloca una línea vertical.
3. El valor del fractil será igual al dato que está a la izquierda de la línea, más la
parte decimal de la posición calculada multiplicada por la diferencia del dato que
esta a la derecha de la línea y el dato que está a la izquierda de la línea:
Posición 5 + 0.37 (Posición 6 – Posición 5)
Cuartil de orden 1 :
Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94
Posición: Interpolar:
k(n + 1) 1(20 + 1) 21 Q1 = 65 + 0.25 66 − 65
PQk = ; PQ1 = = = 5.25 posición.
4 4 4 Q1 = 65.25 puntos.
El 25% de los empleados obtuvieron una puntuación menor o igual a 65.25 puntos en la
prueba de inteligencia emocional y el 75% restante, obtuvieron una puntuación mayor a
65.25 puntos.
30
13/6/2022
Decil de orden 7 :
Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94
Posición:
k(n + 1) 7(20 + 1) 147
PDk = ; PD7 = = = 14.7 posición.
10 10 10
Interpolar:
D7 = 81 + 0.7 83 − 81 = 82.4 puntos.
El 70% de los empleados obtuvieron una puntuación menor o igual a 82.4 puntos,
mientras que el 30% restante, obtuvieron una puntuación mayor a 82.4 puntos.
Ordenar:
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 48 51 55 59 65 66 67 70 74 77 78 79 80 81 83 88 90 91 91 94
Posición:
k(n + 1) 43(20 + 1) 903
PPk = ; P43 = = = 9.03 posición.
100 100 100
Interpolar:
P43 = 74 + 0.03 77 − 74 = 74.09 puntos.
El 43% de los empleados obtuvieron una puntuación menor o igual a 74.09 puntos,
mientras que el 57% restante, obtuvieron una puntuación mayor a 74.09 puntos.
31
13/6/2022
Cuartil de orden 3 :
Posición − Fi "menos de" anterior
k(n) Q𝑘 = Li + ∗ IC
PQk = fi
4 18.75 − 17
Q3 = 15 + ∗ 2 = 15 + 0.35 ∗ 2
3(25) 75 5
PQ3 = = = 18.75 posición. Q3 = 15 + 0.7 = 15.7 puntos.
4 4
Total 25 -
Decil de orden 2:
Posición − Fi "menos de" anterior
k(n) Dk = Li + ∗ IC
PDk = fi
10
5−3
D2 = 11 + ∗ 2 = 11 + 0.3333 ∗ 2
2(25) 50 6
PD2 = = = 5 posición. D2 = 11 + 0.6666 = 11.67 puntos.
10 10
32
13/6/2022
Percentil de orden 8 :
Posición − Fi "menos de" anterior
k(n) Pk = Li + ∗ IC
PPk = fi
100
2−0
P8 = 9 + ∗ 2 = 9 + 0.6667 ∗ 2 = 9 + 1.3334
8(25) 200 3
PP8 = = = 2 posición. P8 = 10.33 puntos.
100 100
33
13/6/2022
Rango interfractiles (RI): mide la diferencia entre dos medidas de posición. Es más
completo que la desviación intercuartílica (DI) = Q3 – Q1, porque con este indicador
se puede calcular el rango entre dos medidas de posición cualquiera.
Este indicador presenta un inconveniente y es que para la varianza las unidades son
el cuadrado de las unidades de los datos; por ejemplo, “dólares al cuadrado”. Estas
unidades no son muy claras o fáciles de interpretar, por ello surgió un indicador
denominado desviación típica o estándar que resuelve este problema. Su formula
para la población y para la muestra, tanto para datos simples, como para datos
agrupados se presenta a continuación.
34
13/6/2022
σ 𝐱𝐢 − 𝛍 𝟐 σ 𝐱𝐢 − 𝛍 𝟐 ∙ 𝐟𝐢
Población 𝛔= 𝛔= 𝛔 = 𝛔𝟐
𝐍 𝐍
σ 𝐱 𝐢 − 𝐱ത 𝟐 σ 𝐱 𝐢 − 𝐱ത 𝟐 ∙ 𝐟𝐢
Muestra 𝐒= 𝐒= 𝐒= 𝑺𝟐
𝐧−𝟏 𝐧−𝟏
Población Muestra
σ S
CV = ∗ 100 CV = ∗ 100
μ xത
Interpretación del coeficiente.
VALOR DEL CV VARIABILIDAD ESTABILIDAD
Nota: no hay criterios universales para
decir que un valor del CV es “bajo” o CV = 0% Nula Muy alta
“moderado” o “alto”, no obstante, el Mtro. 0% < CV ≤ 20% Baja Alta
Alberto Estrella (exdirector de la Cátedra 20% < CV ≤ 60% Moderada Moderada
de Estadística Especializada de la 60% < CV ≤ 90% Alta Baja
UASD), nos proporciona la siguiente guía.
CV > 90% Muy alta Nula
35
13/6/2022
Desviación media: |5 - 5| = 0
|7 - 5| = 2
σ xi 5 + 7 + 6 + 3 + 4 + 7 + 3 35
xത = = = = 5 años. |6 - 5| = 1
n 7 7 |3 - 5| = 2
σ xi − xത 10 |4 - 5| = 1
DM = = = 1.43 años. |7 - 5| = 2
n 7
|3 - 5| = 2
La variabilidad absoluta promedio de los años de antigüedad de xi − xത = 10
los SUV compactos se estima en 1.43 años de antigüedad.
(5 - 5)^2 = 0
Varianza: (7 - 5)^2 = 4
(6 - 5)^2 = 1
σ xi − xത 2
18 18 (3 - 5)^2 = 4
S2 = = = = 3 años2 .
n−1 7−1 6 (4 - 5)^2 = 1
(7 - 5)^2 = 4
La variabilidad cuadrática promedio de los años de antigüedad (3 - 5)^2 = 4
de los SUV compactos se estima en 3 años de antigüedad 2. 𝑥𝑖 − 𝑥 ҧ 2 = 18
36
13/6/2022
Desviación estándar:
S= S2 = 3 años 2 = 1.73 años. S2 = 3 años 2.
Coeficiente de variación:
S 1.73 xത = 5 años.
CV = ∗ 100 = ∗ 100 = 34.6 %
xത 5
Los siguientes datos corresponden al precio por libra de un producto en una muestra
de supermercados del gran santo domingo, en Marzo, 2020:
Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
Rango:
R = LS (ultima clase) – LI (primera clase) = 20 – 10 = 10 pesos.
La diferencia en pesos entre el precio más caro y el precio más barato del producto,
en la muestra de supermercado del gran santo domingo es de 10 pesos.
37
13/6/2022
σ xi ∙ fi 298
xത = = = 14.9 𝑝𝑒𝑠𝑜𝑠.
n 20
Desviación media:
σ xi − xത ∙ fi 26.8
DM = = = 1.34 pesos.
n 20
38
13/6/2022
Varianza:
σ xi − xത 2 ∙ fi 67.80 67.80
S2 = = = = 3.57 pesos2 .
n−1 20 − 1 19
La variabilidad cuadrática promedio del precio del producto en la muestra de
supermercados de gran santo domingo se estima en 3.57 pesos2.
Supermercados Fi "menos (𝐱 𝐢 − 𝐱ത 𝟑 ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟒 ∗ 𝐟𝐢
Precios (RD$) Xi 𝐱 𝐢 ∗ 𝐟𝐢 𝐱 𝐢 − 𝐱ത ∗ 𝐟𝐢 (𝐱 𝐢 − 𝐱ത 𝟐 ∗ 𝐟𝐢
(fi) de"
10 - 12 1 1 11 11 3.9 15.21 -59.319 231.3441
12 - 14 5 6 13 65 9.5 18.05 -34.295 65.1605
14 - 16 9 15 15 135 0.9 0.09 0.009 0.0009
16 - 18 4 19 17 68 8.4 17.64 37.044 77.7924
18 - 20 1 20 19 19 4.1 16.81 68.921 282.5761
Total 20 - - 298 26.8 67.80 12.360 656.8740
S2 = 3.57 pesos2.
Desviación estándar:
S= S2 = 3.57 pesos 2 = 1.89 pesos.
39
13/6/2022
S = 1.89 pesos.
Coeficiente de variación:
S 1.89
CV = ∗ 100 = ∗ 100 = 12.68 %
xത 14.9
El tamaño relativo de la variabilidad promedio del precio del producto con relación a
la media se estima en 12.68%. Este valor indica que la variabilidad de los datos es
baja y la estabilidad es alta.
40
13/6/2022
41
13/6/2022
Donde:
yi = valor observado de la variable dependiente en la observación iésima.
ŷi = valor estimado de la variable dependiente en la observación iésima.
42
13/6/2022
Donde:
xi = valor de la variable independiente en la observación iésima.
yi = valor de la variable dependiente en la observación iésima.
xത = media de la variable independiente.
yത = media de la variable dependiente.
43
13/6/2022
Por lo antes dicho, se esperaría que hubiera alguna relación entre STC, SCR y SCE.
En efecto, la relación entre estas tres sumas de cuadrados constituye uno de los
resultados más importantes de la estadística. 𝑺𝑻𝑪 = 𝑺𝑪𝑹 + 𝑺𝑪𝑬
Por consiguiente, si se conocen los valores de dos de estas sumas, es fácil calcular
la tercera suma de cuadrados.
44
13/6/2022
El error cuadrado medio (ECM) o cuadrado medio del error, proporciona una
estimación de σ2, su fórmula es: 𝟐
𝑺𝑪𝑬
𝒔 = 𝑬𝑪𝑴 =
𝒏−𝟐
45
13/6/2022
46
13/6/2022
47
13/6/2022
Primer paso: se empieza por hacer un supuesto acerca del modelo apropiado, para
la relación entre las variables dependientes e independientes. Para comprobar si la
relación entre las variables es lineal o no lineal, se realiza un diagrama de dispersión
para observar gráficamente los datos y obtener conclusiones acerca de la relación
entre las variables. En el caso de la regresión lineal simple, se supone que el modelo
de regresión es: 𝑦 = 𝛽0 + 𝛽1 𝑥 + ∈
σ 𝑥𝑖 140 σ 𝑦𝑖 1,300 σ 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
𝑥ҧ = = = 14 𝑦ത = = = $ 130 𝑏1 =
𝑛 10 𝑛 10 σ 𝑥𝑖 − 𝑥ҧ 2
2840
𝒃𝟎 = 𝑦ത − 𝑏1 𝑥ҧ = 130 − 5 14 = 𝟔𝟎 𝒃𝟏 = =𝟓
568
48
13/6/2022
49
13/6/2022
Hipótesis:
H0: β1 = 0 (la pendiente del modelo de regresión es igual a cero)
Ha: β1 ≠ 0 (la pendiente del modelo de regresión es diferente de cero)
Estadístico de prueba:
𝒃𝟏 𝟓
𝒕= = = 𝟖. 𝟔𝟐 Grados de libertad (gl) = n – 2 = 10 – 2 = 8
𝒔𝒃𝟏 𝟎. 𝟓𝟖𝟎𝟑
50
13/6/2022
51
13/6/2022
𝟐 𝟐
σ 𝒙𝒊 − 𝝁 𝒙 σ 𝒚𝒊 − 𝝁 𝒚
𝝈𝒙 = 𝝈𝒚 =
𝑵 𝑵
52
13/6/2022
Hipótesis:
H0: 𝜌𝑥𝑦 = 0 (La correlación entre la población es cero)
Ha: 𝜌𝑥𝑦 ≠ 0 (La correlación entre la población es diferente de cero)
Estadístico de prueba:
𝒓 𝒏−𝟐
𝒕=
𝟏 − 𝒓𝟐
53
13/6/2022
A simple vista parece existir una relación lineal positiva entre ambas las variables.
Conforme aumenta la población estudiantil, aumentan las ventas trimestrales.
54
13/6/2022
Concluimos que existe una fuerte relación lineal positiva entre las ventas trimestrales
(yi) y la población estudiantil (xi).
Podemos comprobar que se obtiene el mismo resultado por ambos métodos, ahora
toca probar la significancia de este coeficiente de correlación, utilizando un nivel de
significancia de 5%.
Hipótesis:
H0: 𝜌𝑥𝑦 = 0 (La correlación entre la población es cero)
Ha: 𝜌𝑥𝑦 ≠ 0 (La correlación entre la población es diferente de cero)
Estadístico de prueba:
55
13/6/2022
Donde: β0 , β1 , β2 ,…, βp son los parámetros del modelo, y ϵ (la letra griega épsilon) es una
variable aleatoria denominada término del error. Este último corresponde a la variabilidad en y que
no puede ser explicada por el efecto lineal de las p variables independientes.
56
13/6/2022
Donde:
yi = valor observado de la variable dependiente en la observación iésima.
ŷi = valor estimado de la variable dependiente en la observación iésima.
Para la regresión lineal simple se proporcionaron las fórmulas para calcular los
estimadores b0 y b1 que se necesitan en la ecuación de regresión lineal simple
estimada, empleando el método de mínimos cuadrados. Con conjuntos de datos
relativamente pequeños fue posible usar esas fórmulas para obtener b0 y b1 mediante
cálculos manuales. En la regresión múltiple, en cambio, las fórmulas para los
coeficientes de regresión b0, b1, b2, . . . , bp utilizan álgebra matricial y quedan fuera
del alcance de este documento. Por esta razón, el estudio de la regresión múltiple
centrará la atención en el uso de software para obtener la ecuación de regresión
estimada y alguna otra información. Se hará énfasis en la interpretación de los
resultados que proporciona este software y no en cómo efectuar los cálculos para la
regresión múltiple.
Donde:
57
13/6/2022
Siempre que se añade una variable independiente al modelo, r2 aumenta, por tanto, muchos
analistas prefieren ajustarlo al número de variables independientes para evitar sobreestimar el
efecto que tiene agregar una variable independiente sobre la cantidad de la variabilidad explicada
por la ecuación de regresión estimada. Siendo n el número de observaciones y p el número de
variables independientes, el coeficiente de determinación múltiple ajustado se calcula como sigue:
𝒏−𝟏
𝒓𝟐𝒂 = 𝟏 − (𝟏 − 𝒓𝟐 )
𝒏−𝒑−𝟏
58
13/6/2022
59
13/6/2022
Multicolinealidad.
En el análisis de regresión se recurre al término variable independiente para referirse
a cualquier variable utilizada para predecir o explicar el valor de la variable
dependiente.
60
13/6/2022
En conclusión, siempre que sea posible, debe evitarse incluir variables independientes
fuertemente correlacionadas.
61
13/6/2022
Si hay tres variables, habrá tres correlaciones simples entre ellas, ρ12, ρ13 y
ρ23. Estos coeficientes miden la relación lineal que existen entre estas variables,
dos a dos, sin tener en cuenta la posible influencia de la tercera.
62
13/6/2022
Donde:
r(1,2) = la correlación simple entre la variable dependiente y la 1era variable independiente.
r(1,3) = la correlación simple entre la variable dependiente y la 2da variable independiente.
r(2,3) = la correlación simple entre la 1era variable independiente y la 2da variable independiente.
Primer paso: se empieza por desarrollar una matriz de correlación que mostrará la
relación entre las variables independientes y la variable dependiente. Esto ayudará a
identificar las variables independientes que se relacionan más con la variable
dependiente. La matriz de correlación revelará también aquellas variables independientes que
están altamente relacionadas y que son posiblemente redundantes.
63
13/6/2022
64
13/6/2022
Cuarto paso: evaluar los coeficientes individuales de regresión para determinar si no todos ellos
resultan igualmente relevantes. Si es así, quizás sea conveniente llevar a cabo una depuración del
modelo de regresión múltiple eliminando aquellos regresores que por sus poderes predictivos –no
significativos- no expliquen mucho más sobre y, que lo que ya explican aquellos que sí lo son.
Veamos a continuación cómo puede llevarse a cabo esta tarea. 𝐻0: 𝛽𝑖 = 0 ; 𝐻1: 𝛽𝑖 ≠ 0
El valor p del coeficiente de regresión de la motivación (0.0009) < 0.05, por tanto, se concluye que
este coeficiente de regresión es diferente de 0 y es un factor de predicción significativo de la
calificación. En el caso de la inteligencia, el valor P (0.0597) > 0.05, así que no rechazamos la
hipótesis nula y se concluye que el coeficiente de regresión de esta variable no difiere de cero, es
decir, que la inteligencia no es un factor de predicción eficaz de la calificación y por tanto, esta
variable se podría retirar del modelo, para tener un modelo más sencillo y fácil de interpretar.
65
13/6/2022
66
13/6/2022
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RDUO Calificación 12 0.00 0.94 0.91 0.3526
H0: Los residuos del modelo de regresión tienen distribución normal.
H1: Los residuos del modelo de regresión no tienen distribución normal.
Se aprecia en la prueba de normalidad de Shapiro-Wilks que no hay evidencia para
rechazar el supuesto de distribución normal (p=0.3526) > (α=0.05), por tanto, se
acepta la hipótesis nula y se sostiene la idea de que los residuos del modelo de
regresión tienen una distribución normal.
67
13/6/2022
68
13/6/2022
Correlación de Pearson
Variable(1) Variable(2) n Pearson p-valor
Calificación (1) Inteligencia (2) 12 0.68 0.0160
Calificación (1) Motivación (3) 12 0.88 0.0002
Inteligencia (2) Motivación (3) 12 0.49 0.1036
𝒓𝟐(𝟏,𝟐) + 𝒓𝟐(𝟏,𝟑) − 𝟐 𝒓(𝟏,𝟐) 𝒓(𝟏,𝟑) 𝒓(𝟐,𝟑) 0.682 + 0.882 − 2 (0.68 ∗ 0.88 ∗ 0.49)
𝒓𝟏.𝟐𝟑 = =
𝟏 − 𝒓𝟐(𝟐,𝟑) 1 − 0.492
1.2368 − 0.586432
𝒓𝟏.𝟐𝟑 = = 0.85585998 = 𝟎. 𝟗𝟐𝟓𝟏
0.7599
REFERENCIAS BIBLIOGRÁFICAS
69