Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capítulo 2 Colegio Mayor
Capítulo 2 Colegio Mayor
Pág.
CAPITULO 2 3
ESCALAS DE MEDICIÓN 3
CLASIFICACIÓN 3
ESCALA NOMINAL 3
ESCALA ORDINAL 3
ESCALA DE INTERVALO 3
ESCALA DE RAZÓN O COCIENTE 3
SE UTILIZA CUANDO LA VARIABLE ALEATORIA ES CUANTITATIVA. 3
VARIABLE ALEATORIA 3
DEFINICIÓN 3
CLASIFICACIÓN SEGÚN SU NATURALEZA 4
TIPOS DE DATOS ESTADÍSTICOS 4
DATOS ORIGINALES 4
DATOS AGRUPADOS 4
ANÁLISIS UNIVARIADO 4
DISTRIBUCIÓN DE FRECUENCIAS 4
FRECUENCIA ABSOLUTA 4
DEFINICIÓN 4
PROPIEDADES 5
FRECUENCIA RELATIVA 5
DEFINICIÓN 5
PROPIEDADES 5
NOTA 5
FRECUENCIA ABSOLUTA ACUMULADA 5
DEFINICIÓN 5
PROPIEDADES 6
FRECUENCIA RELATIVA ACUMULADA 6
DEFINICIÓN 6
PROPIEDADES 7
ANÁLISIS MULTIVARIADO EN R 2 O BIVARIADO 10
FRECUENCIA RELATIVA MARGINAL DE LA VARIABLE COLUMNA 12
DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS DE LA VARIABLE FILA CONDICIONADAS A LOS
VALORES DE LA VARIABLE COLUMNA 13
DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS DE LA VARIABLE COLUMNA CONDICIONADAS A LOS
VALORES DE LA VARIABLE FILA 13
GRÁFICAS UNIVARIADAS PARA DATOS DE CORTE TRANSVERSAL 13
1. DIAGRAMA DE LÍNEAS O GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS O
RELATIVAS 13
2. DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS O RELATIVAS ACUMULADAS 14
3. HISTOGRAMA DE FRECUENCIAS O GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS O
RELATIVAS 14
4. POLÍGONO DE FRECUENCIAS 15
5. OJIVA DE FRECUENCIAS O GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS O
RELATIVAS ACUMULADAS 15
2. DIAGRAMA DE SECCIÓN CIRCULAR O DIAGRAMA DE SECTORES (TORTA) 16
CAPITULO 2
VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE FRECUENCIAS
ESCALAS DE MEDICIÓN1
Una escala de medida es: “Una sucesión de medidas que permiten organizar datos en orden
jerárquico2
CLASIFICACIÓN
Los cuatro tipos de escalas, o niveles de medición son: nominal, ordinal de intervalo y de
razón.
Escala Nominal
Se utiliza cuando la variable aleatoria es cualitativa y no hay orden en las respuestas.
En una escala nominal:
1. Se clasifica la información y
2. Se cuenta.
Escala Ordinal
Se utiliza cuando la variable aleatoria es cualitativa y hay orden en las respuestas.
1
Para una definición más exhaustiva de cada una de las escalas diríjase a: Mendoza, H, Bautista, G. (2002). Probabilidad y Estadística. Universidad
Nacional de Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2001065/. Licencia: Creative Commons BY-NC-ND.
2
https://www.google.com.co/?gws_rd=ssl#q=que+es+una+escala+de+medicion
En una escala ordinal:
1. Se clasifica la información
2. Se cuenta y
3. Se establece un orden no numérico
Escala de Intervalo
Se utiliza cuando la variable aleatoria es cuantitativa, Temperatura.
En una escala de intervalo:
1. Se clasifica la información
2. Se cuenta y
3. Se establece un orden numérico
4. El cero en esta escala es artificial
5. La distancia entre las categorías de la escala siempre es constante.
Escala de Razón o Cociente
Se utiliza cuando la variable aleatoria es cuantitativa.
En una escala de intervalo:
1. Se clasifica la información
2. Se cuenta
3. Se establece un orden numérico
4. El cero en esta escala es real
5. La distancia entre las categorías de la escala no siempre es constante.
Nota:
Las escalas nominal u ordinal se utilizan cuando la variable aleatoria es cualitativa. La
escala nominal se diferencia de la ordinal en que en la nominal no hay orden en las
respuestas.
Las escalas de intervalo y razón se utilizan cuando la variable aleatoria es cuantitativa.
VARIABLE ALEATORIA
Definición
Una variable aleatoria es una función que asocia con cada uno de los elementos de un espacio
muestral un valor del recorrido de los números reales.
Otra definición más simple nos dice que una variable aleatoria es cada una de las preguntas
que se realiza en la investigación.
Se llaman variables porque están sujetas a cambio y son aleatorias porque no sabemos las
respuestas antes de realizar la pregunta, (a priori).
Clasificación según su naturaleza
Según su naturaleza las variables se clasifican en discretas y continuas.
Variable aleatoria discreta
Es aquella cuyo recorrido, campo de variación, es finito o infinito numerable. Es aquella
que sólo toma valores enteros.
Ejemplo: El resultados de la identificación de B. pertussis en el cultivo de secreciones
nasofaríngeas con el propósito de diagnosticar la presencia de tosferina.
Variable aleatoria continua
Es aquella cuyo campo de variación es infinito, esto es, puede tomar cualquier valor en un
intervalo. Es aquella que puede tomar valores enteros y valores decimales.
Ejemplo: La presión arterial sistólica en reposo de un grupo de pacientes con isquemia
cardiaca, o interrupción del flujo sanguíneo al corazón medida en milímetros de mercurio
(mm Hg).
3
En este curso las palabras: fuente de información, unidad de investigación estadística, unidad de observación o unidad de análisis son sinónimos, (significan lo mismo).
Datos agrupados
Son aquellos que se encuentran ordenados en una distribución de frecuencias.
Análisis univariado
Distribución de frecuencias
Es una función, tabla o gráfica, en la cual se clasifica y se cuenta la información para
facilitar su análisis descriptivo.
Frecuencia Absoluta
Definición
La frecuencia absoluta de la fila i, denotada por ni , se define como el conteo del número de
veces que se presenta cada valor clasificado de la variable.
También se puede definir diciendo que nos indica el número de elementos que hay en cada
fila. Se denotan con el símbolo ni , donde el subíndice i identifica el número de la fila.
La última fila de la tabla se denota con la letra f minúscula, f .
Propiedades
1. La frecuencia absoluta de una determinada fila siempre es un número entero positivo.
ni ϵ Z+¿ ¿
2. La suma de las frecuencias absolutas desde la primera hasta la última fila siempre es
igual al total de datos investigados4.
f
∑ ni=n
i=1
Frecuencia Relativa
Definición
La frecuencia relativa de la fila i, denotada por hi se define como la división de la
frecuencia absoluta de la fila ientre el total de datos investigados3. También se puede definir
diciendo que nos indica la proporción de elementos que hay en cada fila.
4
En la notación que utilizaremos en este capítulo suponemos que realizamos un muestreo aleatorio por lo cual el total de datos estudiados se simbolizará con n , y se le
llamará tamaño de la muestra. En el caso en que se realice un censo el símbolo del total de datos estudiados será N y se le llamará tamaño de la población.
ni
hi = , i=1,2, ⋯ , f
n
Si se nos solicita el cálculo de la frecuencia relativa de la primera fila, dividimos la
n1
frecuencia absoluta de la primera fila entre el tamaño de la muestra, es decir, h1 = , y así
n
mismo procederíamos para calcular cualquier otra frecuencia relativa. Las frecuencia
relativa nos indica la proporción de veces que se presenta cada valor de la variable o la
proporción de elementos que hay en cada fila.
Propiedades
1. La frecuencia relativa de determinada fila siempre es un valor comprendido en el
intervalo cerrado cero, uno.
0 ≤ hi ≤ 1
2. La suma de las frecuencias relativas desde la primera hasta la última fila siempre es
igual a 1.
f
∑ hi=1
i=1
Nota
Cuando una variable aleatoria es cualitativa la distribución de frecuencias solo incluye las
frecuencias absolutas y relativas. No se incluyen las frecuencias absolutas y relativas
acumuladas debido a que no debemos sumar palabras.
Frecuencia Absoluta Acumulada
Definición
La frecuencia absoluta acumulada de la fila i se define como la suma de las frecuencias
absolutas desde la primera fila hasta la fila dada f d. Se denotan N i ,i=1,2, ⋯ , f esto es
4
N 4 =∑ ni , i=1,2 , ⋯ , f
i=1
También se puede definir diciendo que nos indica el número de elementos que hay desde la
primera fila hasta la fila i.
Si nos solicitan hallar la frecuencia absoluta acumulada de la cuarta fila, la fila dada sería,
f i=4, con lo cual el cálculo sería:
4
N 4 =∑ ni =n1 +n2 +n3 + n4
i=1
N f =N f −1+ nf =n
La frecuencia absolutas acumuladas también se puede definir en términos de lo que nos
indican. En este orden de ideas la frecuencia absolutas acumuladas nos indican el número
de datos que hay desde la primera hasta una determinada fila.
Propiedades
1. La frecuencia absoluta acumulada de determinada fila siempre es un número entero
positivo.
N i ϵ Z +¿¿
2. La frecuencia absoluta acumulada de la primera fila siempre es igual a la frecuencia
absoluta de la primera fila
N 1=n1
3. La frecuencia absoluta acumulada de la última fila siempre es igual al total de datos
estudiados.
N f =n
Frecuencia Relativa Acumulada
Definición
La frecuencia relativa acumulada de la fila i, denotada por H i, se define como la división
entre la frecuencia absoluta acumulada de la fila i y el total de datos investigados.
También se puede definir diciendo que nos indica la proporción de elementos que hay
desde la primera fila hasta la fila i.
N2
H 2= , i=1,2 , ⋯ , f
n
Otra manera de obtener las frecuencias relativas acumuladas es sumando las frecuencias
absolutas desde la primera fila hasta la fila i f i, esto es:
fi
H i = ∑ hi
i=1
Si nos solicitan hallar la frecuencia relativa acumulada de la cuarta fila, la fila i, f i=4 , con
lo cual el cálculo sería:
4
H 4 =∑ hi =h1 +h2 +h3 +h 4
i=1
Observe que
n1 n2 n3 n4 n1 +n2 +n 3+ n4
h1 +h 2+ h3+ h4 = + + + =
n n n n n
Otra manera de obtener las frecuencia relativa acumulada de una determinada clase, fila,
consiste en tomar la frecuencia relativa acumulada de la clase anterior y agregarle la
frecuencia relativa de esa clase, es decir,
H i=H i−1 +hi , i=1,2 , ⋯ , f
En ese orden de ideas, la frecuencia relativa acumulada de la cuarta fila sería obtenida
como la suma de la frecuencia relativa acumulada de la tercera fila y la frecuencia relativa
de la cuarta fila, esto es,
H 4 =H 4−1 +h 4
H 4 =H 3 +h4
También observe que si nos solicitan hallar la frecuencia relativa acumulada de la última
fila f , tenemos que,
Nf n
Hf = = =1
n n
Propiedades
1. La frecuencia relativa acumulada de determinada fila siempre es un número
comprendido en el intervalo cerrado cero, uno.
0 ≤ Hi≤ 1
2. La frecuencia relativa acumulada de la primera fila siempre es igual a la frecuencia
relativa de la primera fila.
H 1=h 1
3. La frecuencia relativa acumulada de la última fila siempre es igual a la unidad.
H f =1
La estructura general de la tabla de distribución de frecuencias univariada sin intervalos es
la siguiente:
i xi ni hi Ni Hi
1 x1 n1 h1 N1 H1
2 x2 n2 h2 N2 H2
i xi ni hi Ni Hi
3 x3 n3 h3 N3 H3
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
f xf nf hf Nf Hf
Total n 1
Donde:
i=¿ Número de la fila o de la clase, i=1,2,3 , ⋯ f
f =¿ Indica el número de filas de la tabla o la última fila de la tabla
x i=¿Valor clasificado, en orden ascendente, de la variable en la fila i
ni =¿ Frecuencia absoluta en la fila i
hi =¿ Frecuencia relativa de la fila i
N i=¿ Frecuencia absoluta acumulada en la fila i
H i=¿ Frecuencia relativa acumulada de la fila i.
Los valores de la variable se clasifican en este curso en orden ascendente, de menos a
mayor, mientras no se especifique nada en contrario.
Si la variable es cualitativa sus valores, respuestas, se clasifican alfabéticamente, si las
respuestas no se han codificado, o en orden ascendente si las respuestas se han codificado.
A este tipo de tablas que no tienen intervalos es costumbre llamarlas tablas de distribución
de frecuencias para variable discreta, si la variable no puede tomar cualquier valor en un
intervalo.
Si al construir la distribución de frecuencias resultan más de 15 filas, debemos
agrupar los datos en una distribución de frecuencias con intervalos.
El primer paso en este caso consiste en determinar el número de clases o filas de la tabla.
Para determinar el número de filas de la tabla, f , se puede utilizar alguno de los siguientes
criterios:
1. Logaritmo natural del total de datos investigados dividido entre logaritmo natural de 2,
es decir,
ln ( n)
f=
ln (2)
2. Raíz cuadrada positiva del total de datos investigados, esto es,
f =+ √ n
3. Uno agregado al logaritmo en base dos del total de datos investigados, es decir,
f =1+ log2 ( n )
A este último método se le conoce con el nombre de regla de Sturges5. Este método será el
que empleemos en este curso.
Suponiendo que su calculadora no tiene la función logaritmo en base dos incorporada, pero
tiene incorporadas las funciones: logaritmo natural, ln, y logaritmo decimal, lo g, la regla
de Sturges, basado en propiedades de los logaritmos puede ser reescrita como
ln ( n ) lo g ( n )
f =1+ =1+
ln (2) lo g (2)
El segundo paso consiste en obtener la amplitud del intervalo, a la cual denotaremos por c y
definimos como el rango, al cual denotaremos por ra, dividido entre el número de filas
(filas) de la tabla, al cual denotaremos por f , esto es,
rango
amplitud del intervalo=
nú mero de filas
lo cual de acuerdo con nuestras convenciones de símbolos se puede escribir como:
ra
c=
f
max−min
5
Otros métodos para determinar el número de filas de la tabla son: Regla de Scott:
max−min
f=
[ 3,5 sn−1
3
√n ],
Regla de Freedman-Diaconis :
f=
[ 2 s n−1
3
√n ].
El rango como se verá en el capítulo 3, es una medida de dispersión que se define como la
diferencia entre el valor más grande, máximo, y el valor más pequeño, mínimo, que toma la
variable.
Al valor mínimo de la variable lo denotaremos con alguno de los siguientes símbolos:
x m í n=¿ x (1) = x '0
Donde:
i=¿ Número de la fila o de la fila, i=1,2,3 , ⋯ f
como nos referimos a la tercera columna, el subíndice j =3, y dado que tenemos cinco filas
en la taba, f =5, la anterior expresión adopta la forma:
5
h.3 =∑ h i3
i=1
4. Polígono de frecuencias
Se emplea para representar gráficamente información proveniente del análisis de variables
continuas.
La gráfica se realiza en el plano cartesiano. En el eje x ubicamos los puntos medios del
intervalo o marcas de clase, en el eje y ubicamos las frecuencias absolutas o relativas según
lo que deseemos graficar.
La gráfica se construye uniendo por medio de segmentos recta aquellos puntos cuyas
coordenadas son: en la abscisa el punto medio del intervalo o marca de clase y en la
ordenada el valor de la frecuencia absoluta o relativa asociada al respectivo intervalo.
La gráfica recibe el nombre de polígono de frecuencias o distribución de frecuencias
absolutas o relativas, dependiendo de que valores se ubicaron en el eje y.