Está en la página 1de 34

Ing. Vianna M.

Núñez

PUCMM
MÉTODOS CUANTITATIVOS I
GUÍA DE ESTUDIO PRIMER PARCIAL

UNIDAD 1.
INTRODUCCIÓN A LA ESTADÍSTICA

La Estadística que estudia la recolección, análisis e interpretación de datos, ya


sea para ayudar en la resolución de la toma de decisiones o para explicar
condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de
ocurrencia en forma aleatoria o condicional, es, además, el vehículo que permite
llevar a cabo el proceso relacionado con la investigación científica.

El término alemán statistik, que fue primeramente introducido por Gottfried


Achenwall en 1749, designaba originalmente el análisis de datos del Estado, es
decir, la "ciencia del Estado" (también llamada aritmética política de su
traducción directa del inglés). No fue hasta el siglo XIX cuando el termino
estadística adquirió el significado de recolectar y clasificar datos. Este concepto
fue introducido por el inglés John Sinclair. En su origen, por tanto, la Estadística
estuvo asociada a los Estados, para ser utilizados por el gobierno y cuerpos
administrativos (a menudo centralizados). La colección de datos acerca de
estados y localidades continua ampliamente a través de los servicios de
estadísticas nacionales e internacionales. En particular, los censos suministran
información regular acerca de la población.

Es necesario tener en cuenta que la estadística se ha propuesto como un


instrumento de investigación y la investigación puede ser en genética, nutrición,
agronomía, medio ambiente, psicología, educación, mercadeo, negocios, salud,
etc.

La estadística es transversal a una amplia variedad de disciplinas, desde la física


hasta las ciencias sociales, desde las ciencias de la salud hasta el control de
calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones
gubernamentales.

La estadística se divide en dos grandes áreas:

• Estadística descriptiva: Se dedica a los métodos de recolección,


descripción, visualización y resumen de datos originados a partir de los
fenómenos de estudio. Los datos pueden ser resumidos numérica o
gráficamente. Ejemplos básicos de parámetros estadísticos son: la media
y la desviación estándar. Algunos ejemplos gráficos son: histograma,
pirámide poblacional, clústers, entre otros.

• Estadística inferencial: Se dedica a la generación de los modelos,


inferencias y predicciones asociadas a los fenómenos en cuestión
teniendo en cuenta la aleatoriedad de las observaciones. Se usa para
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

modelar patrones en los datos y extraer inferencias acerca de la población


bajo estudio. Estas inferencias pueden tomar la forma de respuestas a
preguntas si/no (prueba de hipótesis), estimaciones de características
numéricas (estimación), pronósticos de futuras observaciones,
descripciones de asociación (correlación) o modelamiento de relaciones
entre variables (análisis de regresión). Otras técnicas de modelamiento
incluyen anova, series de tiempo y minería de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay


también una disciplina llamada estadística matemática, a la que se refiere a las
bases teóricas de la materia. La palabra “estadística” también se refiere al
resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en
estadísticas económicas, estadísticas criminales, entre otros.

La estadística descriptiva es la rama de la estadística que recolecta, analiza


y caracteriza un conjunto de datos (peso de la población, beneficios diarios
de una empresa, temperatura mensual, …) con el objetivo de describir las
características y comportamientos de este conjunto mediante medidas de
resumen, tablas o gráficos.

Una variable estadística es el conjunto de valores que puede tomar cierta


característica de la población sobre la que se realiza el estudio estadístico
y sobre la que es posible su medición. Estas variables pueden ser: la edad, el
peso, las notas de un examen, los ingresos mensuales, las horas de sueño de
un paciente en una semana, el precio medio del alquiler en las viviendas de un
barrio de una ciudad, etc. Al conjunto de los distintos valores numéricos que
adopta un carácter cuantitativo se llama variable estadística.

Las variables pueden ser de dos tipos:

• Variables cualitativas o categóricas: No se pueden medir


numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).

• Variables cuantitativas: Tienen valor numérico (edad, precio de un


producto, ingresos anuales).

Las variables también se pueden clasificar en:

• Variables unidimensionales: Solo recogen información sobre una


característica (por ejemplo: edad de los alumnos de una clase).

• Variables bidimensionales: Recogen información sobre dos


características de la población (por ejemplo: edad y altura de los alumnos
de una clase).

2
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

• Variables pluridimensionales: Recogen información sobre tres o más


características (por ejemplo: edad, altura y peso de los alumnos de una
clase).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y


continuas:

• Discretas: solo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: número de hermanos (puede ser 1, 2, 3…, etc., pero, por
ejemplo, nunca podrá ser 3.45).

• Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por


ejemplo, la velocidad de un vehículo puede ser 90.4 km/h, 94.57
km/h.…etc.

Cuando se estudia el comportamiento de una variable hay que distinguir los


siguientes conceptos:

• Individuo: Cualquier elemento que porte información sobre el fenómeno


que se estudia. Así, si estudiamos la altura de los niños de una clase,
cada alumno es un individuo; si se estudia el precio de la vivienda, cada
vivienda es un individuo.

• Población: Conjunto de todos los individuos (personas, objetos,


animales, etc.) que porten información sobre el fenómeno que se estudia.
Por ejemplo, si se estudia el precio de la vivienda en una ciudad, la
población será el total de las viviendas de dicha ciudad.

• Muestra: Subconjunto que seleccionado de una población. Por ejemplo,


si se estudia el precio de la vivienda de una ciudad, lo normal será no
recoger información sobre todas las viviendas de la ciudad (sería una
labor muy compleja), sino que se suele seleccionar un subgrupo (muestra)
que se entienda que es suficientemente representativo.

Diferencias entre las reglas de medida

Todas las reglas de medir variables no son igualmente buenas, éstas difieren
de formas importantes.

1. Validez: La validez se refiere a que también la regla de medida


realmente mide la variable en consideración y en contraposición a
alguna otra variable.
2. Confiabilidad: La fiabilidad es un índice de que tan consistentemente la
regla asigna el mismo número a la misma observación.
3. Propiedad de números usados como medidas: Cuando las medidas
son números, los mismos pueden tener cuatro propiedades: categórica,
ordinal, intervalos iguales y el cero absoluto.
3
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Niveles de Medición de Datos.

La medición de las variables puede realizarse por medio de cuatro escalas


de medición: la nominal, ordinal, de intervalo y de razón. Se utilizan para
ayudar en la clasificación de las variables, el diseño de las preguntas para medir
variables, e incluso indican el tipo de análisis estadístico apropiado para el
tratamiento de los datos.

Una característica esencial de la medición es la dependencia que tiene de la


posibilidad de variación. La validez y la confiabilidad de la medición de una
variable depende de las decisiones que se tomen para operarla y lograr una
adecuada comprensión del concepto evitando imprecisiones y ambigüedades,
en caso contrario, la variable corre el riesgo inherente de ser invalidada debido
a que no produce información confiable.

a) Medición Nominal: En este nivel de medición se establecen categorías


distintivas que no implican un orden especifico. Por ejemplo, si la unidad
de análisis es un grupo de personas, para clasificarlas se puede
establecer la categoría sexo con dos niveles, masculino (M) y femenino
(F), los encuestados solo tienen que señalar su género, no se requiere de
un orden real. Así, se pueden asignar números a estas categorías para
su identificación: 1=M, 2=F o bien, se pueden invertir los números sin que
afecte la medición: 1=F y 2=M. En resumen, en la escala nominal se
asignan números a eventos con el propósito de identificarlos.

b) Medición Ordinal: Se establecen categorías con dos o más niveles que


implican un orden inherente entre sí. La escala de medición ordinal es
cuantitativa porque permite ordenar a los eventos en función de la mayor
o menor posesión de un atributo o característica. Por ejemplo, en las
instituciones escolares de nivel básico suelen formar por estatura a los
estudiantes, se desarrolla un orden cuantitativo, pero no suministra
medidas de los sujetos. Estas escalas admiten la asignación de números
en función de un orden prescrito. Las formas más comunes de variables
ordinales son ítems (reactivos) actitudinales estableciendo una serie de
niveles que expresan una actitud de acuerdo o desacuerdo con respecto
a algún referente.

c) Medición de Intervalo: La medición de intervalo posee las características


de la medición nominal y ordinal. Establece la distancia entre una medida
y otra. La escala de intervalo se aplica a variables continuas, pero carece
de un punto cero absolutos. El ejemplo más representativo de este tipo de
medición es un termómetro, cuando registra cero grados centígrados de
temperatura indica el nivel de congelación del agua y cuando registra 100
grados centígrados indica el nivel de ebullición, el punto cero es arbitrario
no real, lo que significa que en este punto no hay ausencia de
temperatura.

d) Medición de Razón: Una escala de medición de razón incluye las


características de los tres anteriores niveles de medición (nominal, ordinal

4
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

e intervalo). Determina la distancia exacta entre los intervalos de una


categoría. Adicionalmente tiene un punto cero absolutos, es decir, en el
punto cero no existe la característica o atributo que se mide. Las variables
de ingreso, edad, número de hijos, etc. son ejemplos de este tipo de
escala. El nivel de medición de razón se aplica tanto a variables continuas
como discretas.

Diferencia entre población y muestra.

a) Población. Es el conjunto de personas u objetos de los que se desea


conocer algo en una investigación. "El universo o población puede estar
constituido por personas, animales, registros médicos, los nacimientos,
las muestras de laboratorio, los accidentes viales entre otros". (PINEDA
et al 1994:108) En nuestro campo pueden ser artículos de prensa,
editoriales, películas, videos, novelas, series de televisión, programas
radiales y por supuesto personas.

b) Muestra. Es un subconjunto o parte del universo o población en que se


llevara a cabo la investigación. Hay procedimientos para obtener la
cantidad de los componentes de la muestra como formulas, lógica y otros
que se verá más adelante. La muestra es una parte representativa de la
población.

c) Muestreo. Es el método utilizado para seleccionar a los componentes de


la muestra del total de la población. "Consiste en un conjunto de reglas,
procedimientos y criterios mediante los cuales se selecciona un conjunto
de elementos de una población que representan lo que sucede en toda
esa población".(MATA et al, 1997:19) El realizar el diseño muestral es
importante porque:

a. Permite que el estudio se realice en menor tiempo.


b. Se incurre en menos gastos.
c. Posibilita profundizar en el análisis de las variables.
d. Permite tener mayor control de las variables a estudiar.

La elección de la muestra es muy importante para que los resultados que se


extraigan de ella se puedan generalizar a toda la población. Debe haber
pocos individuos, para que no sea muy costosa su realización, pero elegidos
de forma que aparezcan todos los estratos diferentes que forman la
población. Por ejemplo, si quisiéramos saber los gustos culinarios de la
juventud actual; no bastaría preguntar a las puertas de una pizzería, pues hay
una parte de jóvenes que prefieren otro tipo de comidas y no visitan este tipo
de establecimientos. Si lo hiciéramos, la muestra seleccionada no sería
representativa de toda la población a estudiar.

5
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Agrupación de Datos:

• Ordenación: Una ordenación es una colocación de los datos numéricos


tomados en orden creciente o decreciente de magnitud.
• Distribución de Frecuencias: es un formato tabular en la que se
organizan los datos en categorías o en clases, es decir, en grupos de
valores que describen una característica de los [datos] y muestra el
número de observaciones del conjunto de datos que caen en cada una de
las clases
• Frecuencia Absoluta (f): es el número de veces que aparece un
determinado valor en un estudio estadístico. Es una tabulación del
número de ocurrencias de cada valor (puntuación).
• Frecuencia Relativa de un valor (h): Es la proporción de observación en
la distribución en ese valor. Una distribución de frecuencia relativa es un
listado de las frecuencias relativas de cada valor.
• Distribución de Frecuencia Acumulada (F): Es una tabulación de la
frecuencia de todas las medidas a o bajo un valor dado.
• Distribución de Frecuencia Relativa Acumulada (H): Es una tabulación
de las frecuencias relativas de todas las medidas a o bajo un valor dado.

Frecuencias.

La frecuencia es una medida que sirve para comparar la aparición de un


elemento Xien un conjunto de elementos (X1, X2, …, XN). Mediante tablas de
distribuciones de frecuencia se puede presentar organizadamente el
recuento de datos.

Las frecuencias de cada elemento se pueden expresar tanto absolutas (número


total de apariciones) como relativas (proporción de apariciones).

Las Tablas de frecuencias son herramientas de Estadística donde se


colocan los datos en columnas representando los distintos valores
recogidos en la muestra y las frecuencias (las veces) en que ocurren.
Procedimiento para construir una tabla de distribución de frecuencias.

a) Verificar que el conjunto de datos posee veinte o más elementos.


b) Determinar el número de intervalos de clase. Fijar el valor de la
longitud.
c) En general, el juicio personal puede influir en el número de clases. Sin
embargo, demasiadas o muy pocas clases podrían no revelar la forma
básica de la distribución. Como regla general, no deben utilizarse
menos de 5 ni más de 15 clases en la elaboración de una distribución
de frecuencias. Hay otros que recomiendan que el número de
intervalos debe ser mayor o igual que 5 y menor o igual que 20.
d) Definir los intervalos de clase.
e) Determinar el valor de la frecuencia que corresponde a la distribución
que se desea mostrar.

6
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Frecuencia absoluta.

La frecuencia absoluta es una medida estadística que nos da información


acerca de la cantidad de veces que se repite un suceso al realizar un
número determinado de experimentos aleatorios. Esta se representa
mediante las letras fi. La letra f se refiere a la palabra frecuencia y la letra i se
refiere a la realización i-esima del experimento aleatorio.

La frecuencia absoluta es muy utilizada en estadística descriptiva y es útil para


saber acerca de las características de una población y/o muestra. Esta se puede
utilizar con variables cualitativas o cuantitativas siempre que estas se puedan
ordenar. La frecuencia absoluta se puede utilizar para variables discretas (las
variables se ordenan de menor a mayor) y para variables continuas (las variables
se ordenan de menor a mayor agrupadas por intervalos).

La frecuencia absoluta se utiliza para calcular la frecuencia relativa.


La frecuencia absoluta (ni) de un valor Xi es el número de veces que el valor está
en el conjunto (X1, X2,…, XN).

La suma de las frecuencias absolutas de todos los elementos diferentes del


conjunto debe ser el número total de sujetos N. Si el conjunto tiene k números (o
categorías) diferentes, entonces:

Frecuencia absoluta acumulada.

La frecuencia absoluta acumulada es el resultado de ir sumando las


frecuencias absolutas de las observaciones o valores de una población o
muestra. Esta se representa por las siglas Fi.

Para calcular la frecuencia absoluta acumulada, hay que calcular primero la


frecuencia absoluta (fi) de la población o muestra. Para ello, los datos se ordenan
de menor a mayor y se colocan en una tabla.

Una vez hecho esto, la frecuencia absoluta acumulada se obtiene de ir sumando


las frecuencias absolutas de una clase o grupo de la muestra con la anterior
(primer grupo + segundo grupo, primer grupo + segundo grupo + tercer grupo y
así sucesivamente hasta llegar a acumular del primer grupo al último).

La frecuencia absoluta acumulada (Ni) de un valor Xi del conjunto (X1, X2,…, XN)
es la suma de las frecuencias absolutas de los valores menores o iguales a Xi,
es decir:

7
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Frecuencia relativa.

Es el resultado de dividir la frecuencia absoluta de un determinado valor entre el


número total de datos, se representa por. La suma de las frecuencias relativas
es igual a. Lo cual puede verse fácilmente si se factoriza.

La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi


en el conjunto de datos (X1, X2…, XN). Es decir, la frecuencia relativa es la
frecuencia absoluta dividida por el numero total de elementos N:

Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de las


frecuencias relativas de todos los sujetos da 1. Supongamos que en el conjunto
tenemos k números (o categorías) diferentes, entonces:

Si se multiplica la frecuencia relativa por cien se obtiene el porcentaje (tanto por


cien %).

Frecuencia relativa acumulada.

Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como la proporción


de valores iguales o menores a Xi en el conjunto de datos (X1, X2…, XN). Es decir,
la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividida
por el número total de sujetos N:

La frecuencia relativa acumulada de cada valor siempre es mayor que la


frecuencia relativa. De hecho, la frecuencia relativa acumulada de un elemento
es la suma de las frecuencias relativas de los elementos menores o iguales a él,
es decir:

8
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Construcción de una distribución de frecuencia

Caso discreto: (Se utiliza cuando tenemos una variable discreta). Supongamos
que tenemos un conjunto de n- observaciones de una variable discreta que toma
k- valores diferentes.

• Primer Paso: Tabulación de los datos (determinar valor mínimo y valor


máximo).
• Segundo Paso: Asociar el número de veces que se presentó la variable
con cada caso.

Gráficos estadísticos.

Un gráfico (o grafica) es el recurso de representar los datos numéricos por medio


de líneas, diagramas, dibujos, etc. La representación gráfica es un importante
suplemento al análisis y estudio estadístico.

Los datos numéricos obtenidos en un estudio estadístico pueden presentarse de


forma visual a través de graficas estadísticas, lo que hace que sean más
fácilmente comprensibles.

9
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Hay muchos tipos de gráficas, las más comunes son:

• Diagrama de barras
• Diagrama de líneas (polígono de frecuencias).
• Diagrama de sectores

Los gráficos llaman la atención del lector y hacen que de un vistazo este tenga
una mayor comprensión de los datos. Un buen grafico puede captar al lector para
que a continuación lea todo el estudio. Si un estudio se compone únicamente de
texto y tablas, posiblemente no todos los lectores lean el estudio.

Gráfico Lineal.

El grafico lineal (gráfico de líneas o diagrama lineal) se compone de una serie de


datos representados por puntos, unidos por segmentos lineales. Mediante este
grafico se puede comprobar rápidamente el cambio de tendencia de los datos.

El diagrama lineal se suele utilizar con variables cuantitativas, para ver su


comportamiento en el transcurso del tiempo. Por ejemplo, en las series
temporales mensuales, anuales, trimestrales, etc.

Pictogramas.

Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo
tamaño es proporcional a las frecuencias que representan. Se emplean para
representar diferencias cuantitativas simples entre grupos. Los símbolos
utilizados para representar valores idénticos deben ser de igual dimensión.

Un pictograma es un tipo de grafico que representa mediante dibujos la


característica estudiada. Estos representan las frecuencias relativas o absolutas
de una variable cualitativa o discreta.

10
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Actualmente muchos medios de comunicación masiva utilizan gráficos para


ilustrar resultados de alguna investigación. Regularmente se utilizan dibujos
llamativos para captar el interés del público.

Ejemplo.

El pictograma siguiente representa la población de los Estados Unidos de 1930


a 1990 (cada figura representa a dos millones de habitantes).

Diagrama de barras.

El diagrama de barras es un gráfico que se utiliza para representar datos de


variables cualitativas o discretas. Está formado por barras rectangulares cuya
altura es proporcional a la frecuencia de cada uno de los valores de la variable.

11
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Diagrama Circular.

El diagrama circular (también llamado diagrama de sectores o diagrama de


pastel) sirve para representar variables cualitativas o discretas. Se utiliza para
representar la proporción de elementos de cada uno de los valores de la variable.
Consiste en partir el circulo en porciones proporcionales a la frecuencia relativa.
Entiéndase como porción la parte del circulo que representa a cada valor que
toma la variable.

Histograma.

Un histograma es una representación gráfica de datos agrupados mediante


intervalos. Los datos provienen de unas variables cuantitativas continuas.
Gracias a él puedes hacerte rápidamente una idea de la distribución de los datos
o muestra.

También cabe emplear variables cualitativas ordinales, siendo necesario que el


número de datos sea alto. Un histograma es un conjunto de rectángulos que
representan las frecuencias absolutas de cada uno de los intervalos. Los
intervalos abarcan todo el conjunto sin cortarse, de manera que un elemento está
solo en un intervalo.

12
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Polígono de frecuencias.

El polígono de frecuencias es un gráfico que permite la rápida visualización de


las frecuencias de cada una de las categorías del estudio. Normalmente se utiliza
el polígono de frecuencias con frecuencias absolutas, pero también se utiliza con
frecuencias relativas.

Ejemplo de gráfico 1.
7

5
Frecuencias absolutas

0
1 2 3 4 5 6
Variables

13
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Con el siguiente cuadro:


Determine la frecuencia relativa de cada clase.
CURSO FRECUENCIA FRECUENCIA
(fi) RELATIVA
(hi)
Sociología 25 0.25
Economía 42 0.42
Historia 8 0.08
Psicología 13 0.13
Cálculo 12 0.12
Total 100 1

Diagrama de tallo y hojas

John Tukey lo creó como una alternativa para que el histograma proporcione una
impresión visual rápida sobre el número de observaciones en cada clase. En una
colección de datos de dos dígitos, se toma el dígito de las decenas como tallo y
las unidades como hojas. Un tallo se puede subdividir en dos, tomando el primero
para las unidades del 0 al 4 y el segundo para las unidades del 5 al 9.

Ejemplo:
Se midió la estatura en pulgadas de 30 niños de pre-escolar y se obtuvieron los
resultados siguientes:

Xmin = 40
Xmax = 54
N= 30

Frecuencia Tallo HOJAS


8 4 (0 a 4) 4 2 0 3 3 4 0 1
13 4 (5 a 9) 8 6 8 5 7 9 5 6 7 5 7 6 5
9 5 (0 a 4) 4 1 0 2 2 1 1 0 0
TOTAL: 30

14
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

UNIDAD 2.
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central (o de centralización) son medidas que tienden
a localizar en qué punto se encuentra la parte central de un conjunto ordenado
de datos de una variable cuantitativa.

Las medidas de tendencia central son medidas estadísticas que pretenden


resumir en un solo valor a un conjunto de valores. Representan un centro
en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas
de tendencia central más utilizadas son: media, mediana y moda. Las medidas
de dispersión en cambio miden el grado de dispersión de los valores de la
variable. Dicho en otros términos las medidas de dispersión pretenden evaluar
en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas
usadas en conjunto permiten describir un conjunto de datos entregando
información acerca de su posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren levemente


dependiendo de la forma en que se encuentren los datos. Si los datos se
encuentran ordenados en una tabla estadística diremos que se encuentran
“agrupados” y si los datos no están en una tabla hablaremos de datos “no
agrupados”.

Media, Moda y Mediana para datos sueltos:

MEDIA.

La medida de tendencia central más conocida y utilizada es la media o


promedio aritméticos. Se representa por la letra griega μ cuando se trata del
promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del
promedio de la muestra. Es importante destacar que μ es una cantidad fija
mientras que el promedio de la muestra es variable puesto que diferentes
muestras extraídas de la misma población tienden a tener diferentes medias. La
media se expresa en la misma unidad que los datos originales: centímetros,
horas, gramos, etc.

Definimos media (también llamada promedio o media aritmética) de un conjunto


de datos (X1,X2,…,XN) al valor característico de una serie de datos resultado de
la suma de todas las observaciones dividido por el número total de datos.

Es decir:

15
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Visto desde un punto de vista más conceptual, la media aritmética es el centro


de los datos en el sentido numérico, ya que intenta equilibrarlos por exceso y por
defecto. Es decir, si sumamos todas las diferencias de los datos a la media da
cero.

Ejemplo: Sacar la media a los siguientes datos:

N = 15

Solución en clases:

54 + 48 + 51 + 46 + 48 + 40 + 47 + 52 + 49+ 43 + 45 + 46 + 47 + 45 + 40
15

= 46. 7

Media ponderada

La media ponderada (MP) es una medida de centralización. Consiste en otorgar


a cada observación del conjunto de datos (X1, X2, …, XN) unos pesos
(p1,p2,…,pN) según la importancia de cada elemento.

Cuanto más grande sea el peso de un elemento, más importante se considera


que es este.

Xp = (30x85) + (40x82) + (42x78) = 81.30


30 + 40 + 42

16
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

MODA.

Es el valor que ocurre más frecuentemente en un conjunto de valores. A esta


distribución se le conoce como unimodal. Un conjunto pequeño de datos en el
que no se repiten valores medidos carece de moda. Cuando dos valores no
adyacentes son casi iguales en cuanto a frecuencias máximas asociadas con
ellos, la distribución se llama bimodal.

Las distribuciones de medidas con varias modas se llaman multimodales. La


moda tiene la ventaja de no ser afectada por valores extremos. Al igual que la
mediana, puede ser calculada en distribuciones con intervalos abiertos. La moda
(Mo(X)) es el valor más repetido del conjunto de datos, es decir, el valor cuya
frecuencia relativa es mayor. En un conjunto puede haber más de una moda.

Ejemplo: Sacar la moda a los siguientes datos:

Solución en clases:

Mo = 5

MEDIANA.

La mediana de un grupo es el valor del elemento intermedio cuando todos los


elementos del grupo siguen, en términos de valor, un orden ascendente o
descendente.

Se define como el valor que divide una serie de observaciones ordenadas de


manera tal que la cantidad de elementos que la precede es igual a la cantidad
de elementos que la siguen.

La mediana (Me(X)) es el elemento de un conjunto de datos ordenados


(X1,X2,…,XN) que deja a izquierda y derecha la mitad de valores.

17
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Si el conjunto de datos no está ordenado, la mediana es el valor del conjunto tal


que el 50% de los elementos son menores o iguales y el otro 50% mayores o
iguales.

Ejemplo: Sacar la mediana a los siguientes datos:

2, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 8, 8
Solución:

Para 14 valores

Me = 5 + 5 = 5
2

Distribución de Frecuencia para Datos Agrupados

Caso continuo: (Se utiliza cuando tenemos una variable continua).

Ejemplo No. 1: Un científico (botánico) quiere analizar el efecto del hidrocloruro


de tiamina (vitamina B1) en trasplantes de vegetales. Se selecciona una muestra
aleatoria de 50 plantas de tomates tratadas con hidrocloruro de tiamina. Se
recogen las observaciones de la altura de las plantas 14 días después del
tratamiento.

Nota: Dado que las medidas son variables, es difícil aprender algo de los datos
como se presentan en dicha Tabla. La solución es agrupar los datos en racimos
llamados intervalos de clases. Un intervalo de clase es un rango de valores. Una
distribución de frecuencia agrupada es una tabulación del número de medidas
en cada intervalo de clase.

18
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Observaciones:
a) El número de intervalos (m) no debe ser muy grande o muy pequeño.
Depende del número total de medidas (datos). Se recomienda que m
esté entre 5 y 15.
b) El primero debe contener la observación mínima y el último la observación
máxima.
c) Se recomienda que todos los intervalos tengan la misma longitud (l).
d) Los intervalos deben acumular a todos los datos que se obtienen. Cada
observación sólo puede pertenecer a uno de los intervalos.
e) Se recomienda que la longitud (C) de los intervalos sea un número impar.
Usar una longitud de 2, 3, 5 ó un múltiplo de 5 (si es posible). Los puntos
medios deben tener el mismo número de cifras que los datos originales.
O por la fórmula de Sturges (1926): m = 1+3.322 (log¹º n); o también, 2ͫ >
n (n es el número de observaciones).
Además,

Desarrollo:

Sea x1, x2, ..., xn un conjunto de n observaciones de una variable x continua,


que se van a agrupar en una distribución de frecuencia de m clases o intervalos
de clases.

Sean:
xmin : la observación mínima;
xmax : la observación máximo;
lo : límite inferior de la primera clase;
lm : límite superior de la última clase;

lo que se escoge en forma arbitraria, pero suficientemente cercano a xmin.

Rango = amplitud de los datos:

R = Xmax. - Xmin.

19
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Sea m = 7,

Si n= 50
• Xmin = 21.5
• Xmax = 24.2, entonces,
• R = 24.2 – 21.5 = 2.7
• C = 2.7 = 0. 386 ~0.40
7
• lo = 21.5

Solución:

Media para datos agrupados

Frecuentemente los datos estas agrupados y presentados en forma de


distribución de frecuencias. Si esto sucede es normalmente imposible recuperar
los datos crudos originales. Por consiguiente, si queremos calcular la media u
otro estadístico es necesario estimarlo en base a la distribución de frecuencias.

Cuando se agrupan los datos en una distribución de frecuencias, se utiliza el


punto medio de cada clase como aproximación de todos los valores contenidos
en ella.

Donde:

20
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Propiedades de la Media Aritmética:

1. La suma de las desviaciones con respecto a la media es igual a cero:

2. La media es muy sensible a las mediciones extremas cuando estas


medidas no están equilibradas en ambos lados. En el caso cuando la
distribución está muy sesgada (asimétrica), la media generalmente es una
medida de tendencia central inapropiada.
3. Cuando la media (x) se calcula de una muestra aleatoria, entonces x es
un estimador no prejuiciado (no sesgado) de la media de la población (µ)
de la cual se tomó la muestra.
4. La media es difícil de interpretar cuando los datos no fueron medidos
usando una escala de intervalo o de razón.

Mediana para datos agrupados.

Cuando los datos se encuentran agrupados en una distribución de frecuencia


no se conocen los datos originales, por lo tanto, es necesario estimar la
mediana (Me) mediante los siguientes pasos:

2. Calcular el valor (n/2).


3. Localizar el intervalo de clase donde se encuentra la mediana (intervalo
mediano). Esto se hace encontrando el primer intervalo de clase donde la
frecuencia acumulada es igual o mayor que (N/2).
4. Aplicando la siguiente formula con los valores del intervalo mediano:

21
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Ejemplo:

Hallar la mediana de los pesos de 40 estudiantes de la PUCMM registrados con


aproximación de una libra, mediante (a) datos agrupados y (b) datos ordenados.

Solución:

• Sean m = 12;
• n = 40;
• Xmin = 119;
• Xmax = 176;
• R = 176 - 119 = 57;
• C = 57/12 = 4.75 ~ 5;
• lo = 118

22
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

• LRI = 142.5,
• n = 40,
• (∑f )RI = 15,
• C=5
• fmediana = 8

Med = 142.5 + 20 – 15 5
8
= 142.5 + (25/8) =
= 142.5 + 3.125 =
Med = 145.625 ~ 146

Moda para datos agrupados

Es el valor que representa la mayor frecuencia absoluta. En tablas de frecuencias


con datos agrupados, se habla de intervalo modal. Si todos los intervalos tienen
la misma amplitud, la moda (Mo) se calcula por medio de:

Solución:
Hallarla en clase.

23
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Cuartiles, Deciles y Percentiles.

• Cuartiles
Los cuartiles son tres puntos que dividen una distribución de datos en cuatro
partes iguales, cada una de las cuales incluye el 25% de los datos.

El segundo cuartil se denota por Q2 y se define como la mediana:

El primer cuartil se denota por Q1 y se define como la mediana de la primera


mitad de la distribución de datos, así:

El tercer cuartil se denota por Q3 y se define como mediana de la segunda


mitad de la distribución de datos, así:

Nota: Cuando el número de datos es impar, se considera como parte de la primera


y de la segunda mitad de los datos. Para obtener los cuartiles, primero, se ordenan
los datos.

• Deciles
Los deciles separan un conjunto de datos en 10 subconjuntos iguales. Así, por
ejemplo, el tercer decil es:

• Percentiles
Los percentiles separan un conjunto de datos en 100 partes iguales. Así, por
ejemplo, el septuagésimo percentil es:

Luego, se puede apreciar que:

Q1 = P25, Q2 = P50, Q3 = P75, D5 = Q2 = P50, etc.

Ejemplo #1:

Durante uno de los meses de verano, los ocho vendedores de una empresa
distribuidora de aires acondicionados vendieron el siguiente número de unidades
de aires acondicionados: 8, 11, 5, 14, 8, 11, 16, 11. Hallar el valor de la mediana
(o segundo cuartil), el primer y el tercer cuartil. ¿Cuál es el tercer decil?

24
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Solución:
1. Ordenados: 5, 8, 8, 11, 11, 11, 14, 16

Ejemplo #2:

Para los sueldos semanales iniciales (en RD$) de una muestra de 12 empleados
públicos en la Rep. Dom. determine el valor de la mediana, el primer cuartil y el
septuagésimo quinto percentil.

Solución:

25
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Comparación de la media, la mediana y la moda

Estas tres medidas de centralización no son típicamente el mismo valor o


puntuación. De hecho, solamente cuando la distribución es unimodal y simétrica
las tres serán la misma (si la media, la mediana y la moda coinciden, se dice que
los datos tienen distribución normal).

¿Cuál es la mejor? ¡La respuesta depende de la situación!

• Cuando los datos se miden usando una escala nominal, la moda es la


mejor medida (es la única apropiada).
• Cuando los datos se miden usando una escala ordinal, se prefiere la
mediana.
• Cuando los datos se miden usando una escala interval o de razón, se
prefiere la media porque es un estimador no sesgado de m. Sin embargo,
cuando la distribución es altamente sesgada, la mediana provee el índice
de centralización más razonable que la media.

La media es la medida más común de tendencia central. Se presta para mayor


manipulación e interpretación algebraica. Como se sugirió previamente, ésta es
afectada por valores extremos, o valores atípicos, y a diferencia de la mediana,
puede ser sesgada por las observaciones que están muy por encima o muy por
debajo de ésta.

Las medidas de tendencia central se usan de acuerdo con la naturaleza de los


datos o de la forma como serán utilizados. Cuando la media es mayor que la
mediana, los datos están sesgados hacia la derecha y cuando es menor, los
datos están sesgados hacia la izquierda.

Valores atípicos, erráticos o extremos (outliers)

Los valores atípicos, pueden ser: atípicos, simplemente; o atípicos importantes.


Un valor es atípico si está fuera de cualquier barrera, y es atípico importante, si
está fuera de las barreras exteriores. Los valores atípicos se indican por un
asterisco, y los atípicos importantes por un cerito.

26
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

UNIDAD 3.
MEDIDAS DE DISPERSIÓN
Por dispersión se entiende el hecho de que los valores de una serie difieran unos
de otros; la dispersión será, pues, mayor o menor de acuerdo con la magnitud
de esas diferencias.

La dispersión mide que tan alejados están un conjunto de valores respecto


a su media aritmética. Así, cuanto menos disperso sea el conjunto, más cerca
del valor medio se encontrarán sus valores. Este aspecto es de vital importancia
para el estudio de investigaciones.

Una vez localizado el centro de la distribución mediante la medida de tendencia


central o posición que hayamos seleccionado, el siguiente paso es determinar la
variabilidad o dispersión. La variabilidad es esencial. Si no existieran estas, la
mayoría de las medidas estadísticas serian innecesarias.

Se llaman medidas de dispersión aquellas que permiten retratar la distancia


de los valores de la variable a un cierto valor central, o que permiten
identificar la concentración de los datos en un cierto sector del recorrido
de la variable. Se trata de coeficientes para variables cuantitativas.

Las medidas de dispersión o medidas de variabilidad muestran la variabilidad de


un conjunto de datos, indicando la mayor o menor concentración de datos
respecto a las medias de centralización.

Las medidas de dispersión se dividen en dos grandes grupos:

1. Las medidas de dispersión absolutas que vienen expresadas en las


mismas unidades que identifican la serie de datos y cuyo valor se limita a
la serie misma. Ejemplo: Rango, Desviación Media, Varianza, Desviación
Estándar.
2. Las medidas de dispersión relativas, que son relaciones entre medidas de
dispersión absolutas y medidas de tendencia central. Su función es la de
determinar entre varias distribuciones la de mayor o menor dispersión.
Ejemplo: Coeficiente de Variación.

Rango.

El rango de una distribución es la diferencia entre el valor máximo (M) y el valor


mínimo (m) de la variable estadística. Para su cálculo, basta con ordenar los
valores de menor a mayor m de M.

Características del rango:

1. A medida que el rango es menor, el grado de representatividad de los


valores centrales se incrementa.
2. A medida que el rango es mayor, la distribución esta menos concentrada
o más dispersa.

27
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

3. Su cálculo es extremadamente sencillo.


4. Tiene gran aplicación en procesos de control de calidad.
5. Tiene el inconveniente de que solo depende de los valores extremos. De
esta forma basta que uno de ellos se separe mucho para que el recorrido
se vea sensiblemente afectado.

El rango (R) o recorrido estadístico es la diferencia entre el valor máximo y el


mínimo de un conjunto de elementos.

Ejemplo:

Ejemplo: Suponga que 118, 110, 130, 145, 122 es el peso de cinco personas.
Ordenados: 110, 118, 122, 130, 145

R = xmáx. - xmin. = 145 - 110 = 35

Desviación Media

La desviación es la medida de dispersión (S) asociada a la media. Mide el


promedio de las desviaciones de los datos respecto a la media en las mismas
unidades de los datos.

Observación: La importancia de la desviación media estriba en que permite


saber cuán apartado o cercano están los datos de la media.

Ejemplo:

Hallar la desviación media de los números 2, 3, 6, 8, 11.

1. Encontrar a

2.

28
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Varianza

Es la medida de dispersión más útil. La varianza de la población es el grado al


cual las puntuaciones o valores difieren de la media de la población. La varianza
(S2) mide la dispersión de los datos de una muestra respecto a la media,
calculando la media de los cuadrados de las distancias de todos los datos.

Ejemplo:

Suponer que se están investigando los efectos de fumar marihuana en la


habilidad de conducir. Aunque parece que muchos accidentes de tránsito están
asociados al abuso de las drogas, también se ha oído el reclamo conflictivo que
cantidad moderada de marihuana puede mejorar la habilidad de conducir.

En base a lo planteado previamente, las siguientes cuatro distribuciones correspondientes a


cuatro grupos (de 6 conductores cada grupo) se diferencian en la variabilidad, pero tienen la
misma media: X ABCD = 4

29
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

La varianza de una muestra (aleatoria) de una población, es un estimador de la


varianza poblacional; ésta es el estadístico que se denota por S2 y se define
como (fórmula definicional):

Dado que es muy raro que realmente se tengan todos los datos de una
población, la varianza muestral se computa mucho más a menudo que la
varianza poblacional. La fórmula computacional de la varianza muestral es:

Además, la estimación de la varianza obtenida utilizando la media muestral (x)


en lugar de la media poblacional (m) se puede hacer imparcial (no prejuiciada)
multiplicando por el factor:

30
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

lo que se conoce como la corrección de Bessel. Al estimado de s2 se le da el


símbolo de s2 y se le llama varianza estimada de una muestra, o simplemente
varianza muestral. Algunas veces la estimación es alta y algunas veces es baja,
pero la misma no mostrará prejuicio (sesgo) si las muestras se toman
aleatoriamente además de ser representativas. El resultado de la corrección de
Bessel es la siguiente:

Ejemplo:

Científicos medio ambientalistas están preocupados con la creciente tasa de


contaminación debido a derramamientos de aceite (combustibles). Estudios han
demostrado que contaminación de petróleo contribuyen al crecimiento de
algunos tipos de bacterias. El análisis de agua marítima de las costas de Alaska
luego de un gran derramamiento de petróleo muestra los siguientes
microorganismos petroleomíticos (bacterias por 100 ml) en 20 muestras de agua
marítima:

31
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Desviación Típica o Estándar (población):

La desviación típica o estándar de la población es la raíz cuadrada positiva de la


varianza poblacional. Luego,

Igual que con cómputos de es más apropiado para datos intervalares o


de razón que para datos ordinales. Es inapropiado para datos nominales.

Desviación Típica o Estándar (muestra):

La desviación típica o estándar de una serie de números x1, x2, ... xn, denotada
S, se define como:

La desviación típica para el ejemplo anterior es S = √S² = 198.99 = 14.11


bacteria.

32
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

Coeficiente de Variación o Dispersión

Este coeficiente es independiente de las unidades utilizadas y por tanto, es útil


para comparar distribuciones donde las unidades pueden ser diferentes. Sin
embargo, V deja de ser útil cuando x está próxima a cero.

Ejemplo:

Durante los meses pasados, un corredor promedió 12 millas por semana con
una desviación estándar de dos millas, mientras que otro corredor promedió 25
millas por semana con una desviación estándar de tres millas. ¿Cuál de los dos
corredores es relativamente más consistente en sus hábitos?

Coeficiente de sesgo

El coeficiente de sesgo es un número que mediante su signo se puede


determinar si los datos (la curva) tienen una distribución simétrica o sesgada. El
coeficiente de sesgo se denota y define (para datos agrupados) como:

fi = frecuencia de clase, xi = marca de clase, x = media aritmética y s = desviación


típica.
El coeficiente de sesgo se interpreta del siguiente modo:

a) Si CS = 0 ⇒ Los datos (la curva) se distribuye de manera simétrica.


b) Si CS < 0 ⇒ Los datos (la curva) son sesgados a la izquierda.
c) Si CS > 0 ⇒ Los datos (la curva) son sesgados a la derecha.

Coeficiente de curtosis

El coeficiente de curtosis es un número cuya magnitud indica si los datos se


distribuyen simétricamente de forma normal (curva mesocúrtica), más
empinados que la curva normal (curva leptocúrtica) o más aplanados que la
curva normal (curva platicúrtica). El coeficiente de curtosis se denota y define
(para datos agrupados) como:

33
Métodos Cuantitativos 1 Ing. Vianna M. Núñez

fi = frecuencia de clase, xi = marca de clase, x = media aritmética y s = desviación


típica.

El coeficiente de sesgo se interpreta del siguiente modo:

a) Si K = 0 ⇒ Los datos (la curva) presentan forma de una curva normal


estandarizada.
b) Si K < 0 ⇒ Los datos (la curva) se presentan más aplanados que los de
la normal.
c) Si K > 0 ⇒ Los datos (la curva) se presentan más empinados que los de
la normal.

Ejemplo:
Para la distribución de frecuencias de las alturas de las 50 plantas de, calcular
los coeficientes de sesgo y de curtosis.

34

También podría gustarte