Capítulo 2 Colegio Mayor

CONTENIDO
Pág.
CAPITULO 2 3
VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE FRECUENCIAS 3
1 ESCALAS DE MEDICIÓN 3
1.1 CLASIFICACIÓN 3
1.1.1 ESCALA NOMINAL 3
1.1.2 ESCALA ORDINAL 3
1.1.3 ESCALA DE INTERVALO 3
1.1.4 ESCALA DE RAZÓN O COCIENTE 3
SE UTILIZA CUANDO LA VARIABLE ALEATORIA ES CUANTITATIVA. 3
2 VARIABLE ALEATORIA 4
2.1 DEFINICIÓN 4
2.2 CLASIFICACIÓN SEGÚN SU NATURALEZA 4
2.2.1 VARIABLE ALEATORIA DISCRETA 4
2.2.2 VARIABLE ALEATORIA CONTINUA 4
3 TIPOS DE DATOS ESTADÍSTICOS 4
3.1 DATOS ORIGINALES 5

3.2 ARREGLO ORDENADO 5
3.3 DATOS AGRUPADOS 5
3.3.1 DISTRIBUCIÓN DE FRECUENCIAS 5
NOTA 6
3.3.2 ANÁLISIS BIVARIADO O MULTIVARIADO EN R 2 12
1
4 GRÁFICAS UNIVARIADAS PARA DATOS DE CORTE TRANSVERSAL 16
4.1 GRAFICAS PARA VARIABLES CUANTITATIVAS 16

4.1.1 REPRESENTACIÓN GRÁFICA DE LAS FRECUENCIAS ABSOLUTAS Y RELATIVAS PARA VARIABLE DISCRETA (TABLAS
SIN INTERVALOS) 16
4.1.2 REPRESENTACIÓN GRÁFICA DE LAS FRECUENCIAS ABSOLUTAS Y RELATIVAS PARA VARIABLE
CONTINUA (TABLAS CON INTERVALOS) 17
4.1.3 REPRESENTACIÓN GRÁFICA DE LAS FRECUENCIAS ABSOLUTAS Y RELATIVAS ACUMULADAS
PARA VARIABLE CONTINUA 19
4.1.4 GRAFICAS PARA VARIABLES CUALITATIVAS 20
GRÁFICA BIVARIADA 21
5 DATOS DE CORTE LONGITUDINAL 22
5.1 TABLA 22
5.2 GRAFICA 23
5.3 MEDIDAS 24
5.4 INTERPRETACIÓN 24
CAPITULO 2
VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE FRECUENCIAS
1 ESCALAS DE MEDICIÓN1
Una escala de medida es: “Una sucesión de medidas que permiten organizar datos en orden
jerárquico2
1.1 CLASIFICACIÓN
Los cuatro tipos de escalas, o niveles de medición son: nominal, ordinal de intervalo y de
razón.
1.1.1 Escala Nominal
Se utiliza cuando la variable aleatoria es cualitativa y no hay orden en las respuestas.
En una escala nominal:
1. Se clasifica la información y
2. Se cuenta.
1 Para una definición más exhaustiva de cada una de las escalas diríjase a: Mendoza, H, Bautista, G. (2002). Probabilidad y Estadística. Universidad
Nacional de Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2001065/. Licencia: Creative Commons BY-NC-ND.
2 https://www.google.com.co/?gws_rd=ssl#q=que+es+una+escala+de+medicion
2
1.1.2 Escala Ordinal
Se utiliza cuando la variable aleatoria es cualitativa y hay orden en las respuestas.
En una escala ordinal:
1. Se clasifica la información
2. Se cuenta y
3. Se establece un orden no numérico
1.1.3 Escala de Intervalo
Se utiliza cuando la variable aleatoria es cuantitativa, Temperatura.
En una escala de intervalo:
2. Se cuenta y
3. Se establece un orden numérico
4. El cero en esta escala es artificial
5. La distancia entre las categorías de la escala siempre es constante.
1.1.4 Escala de Razón o Cociente
Se utiliza cuando la variable aleatoria es cuantitativa.
En una escala de intervalo:
2. Se cuenta
3. Se establece un orden numérico
4. El cero en esta escala es real
5. La distancia entre las categorías de la escala no siempre es constante.
Nota:
Las escalas nominal u ordinal se utilizan cuando la variable aleatoria es cualitativa. La
escala nominal se diferencia de la ordinal en que en la nominal no hay orden en las
respuestas.
Las escalas de intervalo y razón se utilizan cuando la variable aleatoria es cuantitativa.
3
2 VARIABLE ALEATORIA
2.1 Definición
Una variable aleatoria es una función que asocia con cada uno de los elementos de un
espacio muestral un valor del recorrido de los números reales.
Otra definición más simple nos dice que una variable aleatoria es cada una de las preguntas
que se realiza en la investigación.
Se llaman variables porque están sujetas a cambio y son aleatorias porque no sabemos las
respuestas antes de realizar la pregunta, (a priori).
2.2 Clasificación según su naturaleza
Según su naturaleza las variables se clasifican en discretas y continuas.
2.2.1 Variable aleatoria discreta
Es aquella cuyo recorrido, campo de variación, es finito o infinito numerable. Es aquella
que sólo toma valores enteros.
Ejemplo: El resultado de la identificación de B. pertussis en el cultivo de secreciones
nasofaríngeas con el propósito de diagnosticar la presencia de tosferina.
2.2.2 Variable aleatoria continua
Es aquella cuyo campo de variación es infinito, esto es, puede tomar cualquier valor en un
intervalo. Es aquella que puede tomar valores enteros y valores decimales.
Ejemplo: La presión arterial sistólica en reposo de un grupo de pacientes con isquemia
cardiaca, o interrupción del flujo sanguíneo al corazón medida en milímetros de mercurio
(mm Hg).
3 TIPOS DE DATOS ESTADÍSTICOS
Básicamente hablamos de tres tipos de datos: datos originales, arreglo ordenado y datos
agrupados.
3.1 Datos originales
Son aquellos que recibimos directamente de la fuente de información 3, y se caracterizan por
estar en desorden, lo cual va a dificultar el análisis de estos. Para resolver este
inconveniente debemos ordenarlos.
3 En este curso las palabras: fuente de información, unidad de investigación estadística, unidad de observación o unidad de análisis son sinónimos, (significan lo mismo).
4
3.2 Arreglo ordenado
Son los datos originales ordenados en orden ascendente.
3.3 Datos agrupados
Son aquellos que se encuentran ordenados en una distribución de frecuencias.
3.3.1 Distribución de frecuencias
Es una función, tabla o gráfica, en la cual se clasifica y se cuenta la información para
facilitar su análisis descriptivo.
3.3.1.1 Frecuencia Absoluta
3.3.1.1.1 Definición
La frecuencia absoluta de la fila i, denotada por ni , se define como el conteo del número de
veces que se presenta cada valor clasificado de la variable.
También se puede definir diciendo que nos indica el número de elementos que hay en cada
fila. Se denotan con el símbolo ni , donde el subíndice i identifica el número de la fila.
La última fila de la tabla se denota con la letra f minúscula, f .
3.3.1.1.2 Propiedades
1. La frecuencia absoluta de una determinada fila siempre es un número entero
positivo.
ni ϵ Z+¿ ¿
2. La suma de las frecuencias absolutas desde la primera hasta la última fila siempre es
igual al total de datos investigados4.
f
∑ ni=n
i=1
3.3.1.2 Frecuencia Relativa
La frecuencia relativa de la fila i, denotada por hi se define como la división de la
frecuencia absoluta de la fila ientre el total de datos investigados3. También se puede definir
diciendo que nos indica la proporción de elementos que hay en cada fila.
ni
hi = , i=1,2, ⋯ , f
n
4 En la notación que utilizaremos en este capítulo suponemos que realizamos un muestreo aleatorio por lo cual el total de datos estudiados se simbolizará con n, y se le
llamará tamaño de la muestra. En el caso en que se realice un censo el símbolo del total de datos estudiados será N y se le llamará tamaño de la población.
5
Si se nos solicita el cálculo de la frecuencia relativa de la primera fila, dividimos la
n1
frecuencia absoluta de la primera fila entre el tamaño de la muestra, es decir, h1 = , y así
n
mismo procederíamos para calcular cualquier otra frecuencia relativa. La frecuencia
relativa nos indica la proporción de veces que se presenta cada valor de la variable o la
proporción de elementos que hay en cada fila.
1. La frecuencia relativa de determinada fila siempre es un valor comprendido en el
intervalo cerrado cero, uno.
0 ≤ hi ≤ 1
2. La suma de las frecuencias relativas desde la primera hasta la última fila siempre es
igual a 1.
f
∑ hi=1
i=1
Nota
Cuando una variable aleatoria es cualitativa la distribución de frecuencias solo incluye las
frecuencias absolutas y relativas. No se incluyen las frecuencias absolutas y relativas
acumuladas debido a que no debemos sumar palabras.
3.3.1.3 Frecuencia Absoluta Acumulada
La frecuencia absoluta acumulada de la fila i se define como la suma de las frecuencias
absolutas desde la primera fila hasta la fila dada f d. Se denotan N i ,i=1,2, ⋯ , f esto es
4
N 4 =∑ ni , i=1,2 , ⋯ , f
i=1
También se puede definir diciendo que nos indica el número de elementos que hay desde la
primera fila hasta la fila i.
Si nos solicitan hallar la frecuencia absoluta acumulada de la cuarta fila, la fila dada sería,
f i=4, con lo cual el cálculo sería:
6
4
N 4 =∑ ni =n1 +n2 +n3 + n4
i=1
De la misma manera se procedería para obtener cualquier otra frecuencia absoluta
acumulada.
Otra manera de obtener la frecuencia absoluta acumulada de una determinada clase, fila,
consiste en tomar la frecuencia absoluta acumulada de la clase anterior y agregarle la
frecuencia absoluta de esa clase, es decir,
N i=N i −1 +n i , i=1,2 , ⋯ , f
En ese orden de ideas, la frecuencia absoluta acumulada de la cuarta fila sería obtenida
como la suma de la frecuencia absoluta acumulada de la tercera fila y la frecuencia absoluta
de la cuarta fila. En símbolos seria:
N 4 =N 4 −1 +n 4=N 3 + n4
Observe que, si nos solicitan hallar la frecuencia absoluta acumulada de la última fila, f ,
tendremos:
f
N f =∑ N i =n1 +n2 +n3 + ⋯+n f =n
i=1
N f =N f −1+ nf =n
La frecuencia absoluta acumulada también se puede definir en términos de lo que nos
indica. En este orden de ideas la frecuencia absoluta acumulada nos indica el número de
datos que hay desde la primera hasta una determinada fila.
1. La frecuencia absoluta acumulada de determinada fila siempre es un número entero
positivo.
N i ϵ Z +¿¿
2. La frecuencia absoluta acumulada de la primera fila siempre es igual a la frecuencia
absoluta de la primera fila
N 1=n1
3. La frecuencia absoluta acumulada de la última fila siempre es igual al total de datos
estudiados.
N f =n
7
3.3.1.4 Frecuencia Relativa Acumulada
La frecuencia relativa acumulada de la fila i, denotada por H i, se define como la división
entre la frecuencia absoluta acumulada de la fila i y el total de datos investigados.
También se puede definir diciendo que nos indica la proporción de elementos que hay
desde la primera fila hasta la fila i.
N2
H 2=
, i=1,2 , ⋯ , f
n
Otra manera de obtener las frecuencias relativas acumuladas es sumando las frecuencias
absolutas desde la primera fila hasta la fila i f i, esto es:
fi
H i=∑ hi
i=1
Si nos solicitan hallar la frecuencia relativa acumulada de la cuarta fila, la fila i, f i=4 , con
lo cual el cálculo sería:
4
H 4 =∑ hi =h1 +h2 +h3 +h 4
i=1
Observe que
n1 n2 n3 n4 n1 +n2 +n 3+ n4
h1 +h 2+ h3+ h4 =
+ + + =
n n n n n
Otra manera de obtener la frecuencia relativa acumulada de una determinada clase, fila,
consiste en tomar la frecuencia relativa acumulada de la clase anterior y agregarle la
frecuencia relativa de esa clase, es decir,
H i=H i−1 +hi , i=1,2 , ⋯ , f
En ese orden de ideas, la frecuencia relativa acumulada de la cuarta fila sería obtenida
como la suma de la frecuencia relativa acumulada de la tercera fila y la frecuencia relativa
de la cuarta fila, esto es,
H 4 =H 4−1 +h 4
H 4 =H 3 +h4
También observe que si nos solicitan hallar la frecuencia relativa acumulada de la última
fila f , tenemos que,
8
Nf n
Hf = = =1
n n
1. La frecuencia relativa acumulada de determinada fila siempre es un número
comprendido en el intervalo cerrado cero, uno.
0 ≤ Hi≤ 1
2. La frecuencia relativa acumulada de la primera fila siempre es igual a la frecuencia
relativa de la primera fila.
H 1=h 1
3. La frecuencia relativa acumulada de la última fila siempre es igual a la unidad.
H f =1
La estructura general de la tabla de distribución de frecuencias univariada sin intervalos es
la siguiente:
i xi ni hi Ni Hi
1 x1 n1 h1 N1 H1
2 x2 n2 h2 N2 H2
3 x3 n3 h3 N3 H3
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
f xf nf hf Nf Hf
Total n 1
Donde:
i=¿ Número de la fila o de la clase, i=1,2,3 , ⋯ f
f =¿ Indica el número de filas de la tabla o la última fila de la tabla
x i=¿Valor clasificado, en orden ascendente, de la variable en la fila i
ni =¿ Frecuencia absoluta en la fila i
hi =¿ Frecuencia relativa de la fila i
N i=¿ Frecuencia absoluta acumulada en la fila i
H i=¿ Frecuencia relativa acumulada de la fila i.
9
Los valores de la variable se clasifican en este curso en orden ascendente, de menor a
mayor, mientras no se especifique nada en contrario.
Si la variable es cualitativa sus valores, respuestas, se clasifican alfabéticamente, si las
respuestas no se han codificado, o en orden ascendente si las respuestas se han codificado.
A este tipo de tablas que no tienen intervalos es costumbre llamarlas tablas de distribución
de frecuencias para variable discreta, si la variable no puede tomar cualquier valor en un
intervalo.
Si al construir la distribución de frecuencias resultan más de 15 filas, debemos
agrupar los datos en una distribución de frecuencias con intervalos.
El primer paso en este caso consiste en determinar el número de clases o filas de la tabla.
Para determinar el número de filas de la tabla, f , se puede utilizar alguno de los siguientes
criterios:
1. Logaritmo natural del total de datos investigados dividido entre logaritmo natural de 2,
es decir,
ln ⁡( n)
f=
ln ⁡(2)
2. Raíz cuadrada positiva del total de datos investigados, esto es,
f =+ √❑
3. Uno agregado al logaritmo en base dos del total de datos investigados, es decir,
f =1+ log2 ( n )
A este último método se le conoce con el nombre de regla de Sturges5. Este método será el
que empleemos en este curso.
Suponiendo que su calculadora no tiene la función logaritmo en base dos incorporada, pero
tiene incorporadas las funciones: logaritmo natural, ln, y logaritmo decimal, log, la regla de
Sturges, basado en propiedades de los logaritmos puede ser reescrita como
ln ( n ) log ( n )
f =1+ =1+
ln (2) log(2)
5 Otros métodos para determinar el número de filas de la tabla son: Regla de Scott: f=max-min3,5sn-13n, Regla de Freedman-Diaconis : f=max-min2sn-
13n.
10
El segundo paso consiste en obtener la amplitud del intervalo, a la cual denotaremos por c y
definimos como el rango, al cual denotaremos por ra, dividido entre el número de filas
(filas) de la tabla, al cual denotaremos por f , esto es,
rango
amplitud del intervalo=
número de filas
lo cual de acuerdo con nuestras convenciones de símbolos se puede escribir como:
ra
c=
f
El rango como se verá en el capítulo 3, es una medida de dispersión que se define como la
diferencia entre el valor más grande, máximo, y el valor más pequeño, mínimo, que toma la
variable.
Al valor mínimo de la variable lo denotaremos con alguno de los siguientes símbolos:
x mín =¿ x (1) = x '0
Al valor mínimo de la variable lo denotaremos con alguno de los siguientes símbolos:

x máx =x( n)=x 'f
con lo cual la fórmula de la amplitud de intervalo la podemos reescribir como:
x máx −x mín x( n)−x (1 ) x 'f −x '0
c= = =
f f f
La estructura general de la tabla de distribución de frecuencias univariada con intervalos es
la siguiente:
i x 'i−1 x 'i xi ni hi Ni Hi
1 x '0 x '1 x1 n1 h1 N1 H1
2 x '1 x '2 x2 n2 h2 N2 H2
3 x '2 x '3 x3 n3 h3 N3 H3
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
f x 'f −1 x 'f xf nf hf Nf Hf
Total
n 1 n 1

11
Donde:
i=¿ Número de la fila o de la fila, i=1,2,3 , ⋯ f
x 'i−1=¿ Límite inferior de la fila i
x 'i=¿ Límite superior de la fila i

x i=¿ Punto medio de la fila i o marca de clase de la fila i
ni =¿ Frecuencia absoluta en la fila i
hi =¿ Frecuencia relativa de la fila i
N i=¿ Frecuencia absoluta acumulada de la fila i.
H i=¿ Frecuencia relativa acumulada de la fila i.
A este tipo de tablas que tienen intervalos (límite inferior, límite superior y punto medio) es
costumbre llamarlas tablas de distribución de frecuencias para variable continua, si la
variable en teoría admite cualquier valor dentro de cada intervalo.
El límite superior de cualquier clase, fila, se obtiene sumándole a límite inferior de esa fila
la amplitud del intervalo, c.
Las marcas de clase se obtienen sumando el límite inferior de la respectiva clase a su límite
superior, y esta suma se divide entre dos, en otras palabras, la marca de clase es la media
aritmética de los dos límites.
Si a la marca de clase de una fila le restamos la mitad de la amplitud ( c2 ) obtendremos el límite
inferior de esa fila.
Si a la marca de clase de una fila le sumamos la mitad de la amplitud ( c2 ) obtendremos el

límite superior de esa fila.
La amplitud del intervalo debe ser grabada, con todos los decimales, en una de las
memorias de su calculadora, con el propósito de facilitar el cálculo de los dos límites y las
marcas de clase.
12
Los limites inferior, superior y las marcas de clase debe ser escritos en las tablas con
tantos decimales como el número máximo de decimales que tengan los datos
originales.
Una vez construidos los límites de cada clase o límites de cada fila, procedemos a ordenar
los datos originales en orden ascendente. A estos datos ordenados en orden ascendente, que
aún no han sido incluidos en la distribución de frecuencias algunos autores le dan el
nombre de arreglo ordenado.
Una vez ordenados los datos originales, procedemos a obtener las frecuencias absolutas, ni ,
contando el número de valores que se encuentran entre el límite inferior del intervalo y su
límite superior, teniendo en cuenta que los límites superiores son abiertos excepto el de la
última clase.
El procedimiento para hallar las frecuencias restantes es el mismo que se emplea en el caso
de tablas sin intervalos, se recomienda que vuela a consultar las definiciones previas de
frecuencias relativas, absolutas acumuladas y relativas acumuladas para llevar a cabo este
proceso en forma correcta.
3.3.2 Análisis Bivariado o Multivariado en R2
Hasta este momento hemos trabajado una sola variable es decir un análisis unidimensional
o univariado (una sola variable). Sin embargo, en la práctica es común analizar
simultáneamente dos o más variables. Por ejemplo, un pediatra podría estar interesado en
estudiar al mismo tiempo la edad y el peso de un infante (análisis bidimensional o
bivariado), o la edad, el peso y la estatura (análisis multivariado).
Al realizar un análisis bivariado o multivariado en R2, surgen los siguientes conceptos:
3.3.2.1 Frecuencia Absoluta conjunta
Nos indica el conteo de respuestas que pertenecen simultáneamente a la fila i de la
primera variable y a la columna j de la segunda variable. Se denotan
nij ,i=1,2, ⋯ , f , j=1,2 , ⋯ , c.
13
Observe que en esta notación al número de la fila de la tabla la identificamos con el
subíndice i y al número de la columna de la tabla la identificamos con el subíndice j.
La última fila de la tabla se denota con la letra f y la última columna de la tabla de denota
con la letra c.
3.3.2.2 Frecuencia relativa conjunta
Nos indica la proporción de elementos que pertenecen simultáneamente a la fila i de la
primera variable y a la columna j de la segunda variable. Se denotan
hij ,i=1,2, ⋯ , f , j=1,2 , ⋯ , c .
nij
hij =
, i=1,2 , ⋯ . f j=1,2, ⋯ ,c
n..
En esta notación el símbolo n..=n, es decir en tablas bivariadas el tamaño de la muestra se
denota n.. y no con la letra n como ocurre en el caso univariado.
3.3.2.3 Frecuencia Absoluta marginal de la variable fila
Nos indica el número de elementos que hay a la fila i de la tabla. También nos indica el
número de veces que se presentó la respuesta clasificada en la fila i de la tabla. Se denotan
ni . , i=1,2 , ⋯ , f
Observe que en esta notación al número de la fila de la tabla la identificamos con el
subíndice i .
La última fila de la tabla se denota con la letra f .
3.3.2.4 Frecuencia Absoluta marginal de la variable columna
Nos indica el número de elementos que hay a la columna j de la tabla, También nos indica
el número de veces que se presentó la respuesta clasificada en la columna j de la tabla. Se
denotan n. j , j=1,2 , ⋯ , c
Observe que en esta notación al número de la columna de la tabla la identificamos con el
subíndice j.
La última columna de la tabla se denota con la letra c.
Frecuencia relativa marginal de la variable fila
14
Cuando las frecuencias relativas que calculamos en las tablas de distribución de frecuencias
univariadas, se obtienen en una tabla de doble entrada (tabla bidimensional) reciben el
nombre de frecuencias relativas marginales, debido a que estas aparecen en el margen de la
tabla.
Las frecuencias relativas marginales de la variable fila, son los totales de las filas de la
tabla, las cuales se obtienen sumando para la fila especificada sobre todas las columnas de
la tabla. Se denotan hi . , i=1,2 , ⋯ . f .
c
hi . =∑ h ij
j=1
En la siguiente tabla bidimensional se muestra la notación que utilizaremos para las
diferentes frecuencias absolutas de la tabla:
Distribución bidimensional de frecuencias absolutas conjuntas y marginales de fila y
columna
j 1 2 3 ⋯ c
xi 1
i \ x 12 x 22 x 32 ⋯ xc 2 ni .
x j2
1 x 11 n11 n12 n13 ⋯ n1 c n1.
2 x 21 n21 n22 n23 ⋯ n2 c n2.
3 x 31 n31 n32 n33 ⋯ n3 c n3.
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
f xf 1 nf 1 nf 2 nf 3 ⋯ n fc nf .
n. j n.1 n.2 n.3 ⋯ n. c n..
En la siguiente tabla bidimensional se muestra la notación que utilizaremos para las

diferentes frecuencias relativas de la tabla:
Distribución bidimensional de frecuencias relativas conjuntas y marginales de fila y
columna
15
j 1 2 3 ⋯ c
xi 1
i \ x 12 x 22 x 32 ⋯ xc 2 hi .
x j2
1 x 11 h11 h12 h13 ⋯ h1 c h1.
2 x 21 h21 h22 h23 ⋯ h2 c h2.
3 x 31 h31 h32 h33 ⋯ h3 c h3.
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
f xf 1 hf 1 hf 2 hf 3 ⋯ h fc hf .
h. j h.1 h.2 h.3 ⋯ h. c h..=1
Estamos interesados en hallar la frecuencia relativa marginal de la primera fila

De acuerdo con nuestra definición previa tenemos:
c
hi . =∑ h ij
j=1
como nos referimos a la primera fila, el subíndice i=1, y dado que tenemos cinco columnas
en la taba, c=5 , entonces la anterior expresión adopta la forma:
5
h1. =∑ h1 j
j=1
Al expandir esta expresión tenemos:
h1. =h11 + h12+ h13+ h14 +h15
3.3.2.5 Frecuencia relativa marginal de la variable columna
Las frecuencias relativas marginales de la variable columna, son los totales de las columnas
de la tabla, las cuales se obtienen sumando para la columna especificada sobre todas las
filas de la tabla. Se denotan h. j , j=1,2 , ⋯ , c .
f
h. j=∑ hij
i=1
Utilizando los datos de la tabla, ahora estamos interesados en hallar la frecuencia relativa
marginal de la tercera columna
De acuerdo con nuestra definición previa tenemos:
16
f
h. j=∑ hij
i=1
como nos referimos a la tercera columna, el subíndice j =3, y dado que tenemos cinco filas
en la taba, f =5, la anterior expresión adopta la forma:
5
h.3 =∑ h i3
i=1
Al expandir esta expresión tenemos:
h.3 =h13 +h 23+h 33+h 43 + h53
3.3.2.6 Frecuencias relativas de la variable fila condicionadas a los valores de la
variable columna
Se define como el cociente entre la frecuencia absoluta conjunta en la celda determinada,
nij , y la frecuencia absoluta marginal de la columna j , n. j . Se denotan hi ¿. De manera
alternativa se puede definir como el cociente entre la frecuencia relativa conjunta en la
celda determinada,hij , y la frecuencia relativa marginal de la columna j, h. j .
nij hij
hi ¿ =
= ,i=1,2, ⋯ , f
n. j h . j
3.3.2.7 Frecuencias relativas de la variable columna condicionadas a los valores de la
variable fila
Se define como el cociente entre la frecuencia absoluta conjunta en la celda determinada,
nij , y la frecuencia absoluta marginal de la fila i, ni .. Se denotan h j ¿. De manera alternativa
se puede definir como el cociente entre la frecuencia relativa conjunta en la celda
determinada,hij , y la frecuencia relativa marginal de la fila i, hi .. Se denotan h j ¿
nij hij
h j ¿=
= , j=1,2, ⋯ , c
ni . h i.
4 GRÁFICAS UNIVARIADAS PARA DATOS DE CORTE TRANSVERSAL
Una alternativa de presentación de la información para facilitar su análisis es mediante la
representación gráfica.
Algunas de las gráficas tradicionales empleadas en estadística son:
17
4.1 GRAFICAS PARA VARIABLES CUANTITATIVAS
4.1.1 Representación gráfica de las frecuencias absolutas y relativas para variable
discreta (tablas sin intervalos)
4.1.1.1 Diagrama de líneas o gráfica de la distribución de frecuencias absolutas o
relativas
La gráfica se realiza en el plano cartesiano, en el eje x, ubicamos los valores de la variable,
en el eje y, ubicamos las frecuencias absolutas o relativas según lo que deseemos graficar.
La gráfica se construye trazando segmentos de recta perpendiculares al eje de las abscisas,
cuya altura viene dada por el valor de la frecuencia absoluta o relativa asociada al valor de
la variable.
Para ilustrar el tema, suponga que, al medir la presión arterial sistólica en reposo de una
muestra aleatoria de 8 pacientes con isquemia cardiaca, o interrupción del flujo sanguíneo
al corazón (milímetros de mercurio mm Hg) se obtuvo la siguiente información:
Paciente Presión
1 136,56
2 153,39
3 156,94
4 144,94
5 136,56
6 153,39
7 153,39
8 153,39
La pregunta es, construya la gráfica de las frecuencias relativas de la variable aleatoria X :
presión arterial sistólica en reposo.
18
4.1.1.2 Gráfica de escalera o distribución de frecuencias absolutas o relativas
acumuladas
La gráfica se realiza en el plano cartesiano, en el eje x ubicamos los valores de la variable,
en el eje y ubicamos las frecuencias absolutas o relativas acumulada según lo que
deseemos graficar. La gráfica se construye trazando segmentos de recta paralelos al eje x
entre dos valores consecutivos de la variable, cuya altura viene dada por el valor de la
frecuencia absoluta o relativa acumulada asociada al intervalo en cuestión.
19
4.1.2 REPRESENTACIÓN GRÁFICA DE LAS FRECUENCIAS ABSOLUTAS Y
RELATIVAS PARA VARIABLE CONTINUA (TABLAS CON
INTERVALOS)
4.1.2.1 Histograma de frecuencias o gráfica de la distribución de frecuencias
absolutas o relativas
Se emplea para representar gráficamente información proveniente del análisis de variables
continuas.
La gráfica se realiza en el plano cartesiano. En el eje x ubicamos los límites de clase, en el
eje y ubicamos las frecuencias absolutas o relativas según lo que deseemos graficar.
La gráfica se construye trazando rectángulos cuya base viene dada por el valor de la
amplitud de cada intervalo, y cuya altura viene dada por el valor de la frecuencia absoluta o
relativa asociada a ese intervalo.
20
La gráfica recibe el nombre de histograma de frecuencias o distribución de frecuencias
absolutas o relativas, dependiendo de que valores se ubicaron en el eje y.
Cuando la amplitud del intervalo no es constante, para obtener el histograma correcto, es
necesario dividir la frecuencia absoluta ente la amplitud del intervalo con el fin de obtener
la altura adecuada.
4.1.2.2 Polígono de frecuencias

continuas.
La gráfica se realiza en el plano cartesiano. En el eje x ubicamos los puntos medios del
intervalo o marcas de clase, en el eje y ubicamos las frecuencias absolutas o relativas según
lo que deseemos graficar.
21
La gráfica se construye uniendo por medio de segmentos recta aquellos puntos cuyas
coordenadas son: en la abscisa el punto medio del intervalo o marca de clase y en la
ordenada el valor de la frecuencia absoluta o relativa asociada al respectivo intervalo.
La gráfica recibe el nombre de polígono de frecuencias o distribución de frecuencias
absolutas o relativas, dependiendo de que valores se ubicaron en el eje y.
4.1.3 REPRESENTACIÓN GRÁFICA DE LAS FRECUENCIAS ABSOLUTAS Y

RELATIVAS ACUMULADAS PARA VARIABLE CONTINUA
4.1.3.1 Ojiva de frecuencias o gráfica de la distribución de frecuencias absolutas o
relativas acumuladas
La gráfica se realiza en el plano cartesiano, en el eje x ubicamos los puntos medios del
intervalo o marcas de clase, en el eje y ubicamos las frecuencias absolutas o relativas
acumuladas según lo que deseemos graficar.
22
La gráfica se construye ubicando puntos en el espacio (cuyas coordenadas viene dadas en el
eje x por el punto medio del intervalo y en el eje y por la frecuencia absoluta o relativa
acumulada, según lo que deseemos graficar). Posteriormente unimos los puntos, ubicados
en el espacio cartesiano, por medio de segmentos de recta.
La gráfica se conoce con el nombre de ojiva de frecuencias o distribución de frecuencias
absolutas o relativas acumuladas, dependiendo de que valores se ubicaron en el eje y.
4.1.4 GRAFICAS PARA VARIABLES CUALITATIVAS

Representación gráfica de las frecuencias absolutas y relativas
4.1.4.1 Diagrama de barras
cualitativas.
23
La gráfica se realiza en el plano cartesiano, en el eje de las abscisas, x , ubicamos los
valores de la variable, en el eje de la ordenada, y , ubicamos las frecuencias absolutas o
relativas según lo que deseemos graficar.
La gráfica se construye trazando barras, cuya altura viene dada por el valor de la frecuencia
absoluta o relativa asociada al valor de la variable.
4.1.4.2 Diagrama de sección circular o diagrama de sectores (Torta)
Se emplea para representar gráficamente información proveniente de atributos (variables
cualitativas).
Presenta la información por medio de un círculo o ponque, las porciones del ponque
representan el procentaje de participación de cada categoría dentro del total, o el número de
elementos incluidos en cada categoría.
24
Observe que en aquí sólo se esta gráficando las respuesta de una variable aleatoria, la
variable Navegador, es decir, se realizó un análisis univariado.
GRÁFICA BIVARIADA
En esta figura se realizó un análisis Bivariado o multivariado en R2, La localidad (variable

cualitativa) y la incidencia de las microbacterias en Bogotá D.C. (variable cuantitativa).
5 DATOS DE CORTE LONGITUDINAL
Hasta este momento del curso hemos trabajado todo el tiempo con datos de corte
transversal. En la práctica sin embargo en la mayoría de investigaciones se hace necesario
realizar un seguimiento de la evolución de una varaible aleatoria a través del tiempo, por
ejemplo de una enfermedad o de un tratamiento a través del tiempo, tal como ocurre por
ejemplo en el caso de los estudios de cohorte.
En este tipo de análisis, se ha involucrado además de la variable de interés una segunda
variable que es el tiempo (medido por ejemplo en segundos, minutos, días, semanas,
quincenas, meses, trimestres, semestres, años, etcétera). En este orden de ideas podemos
25
afirmar que el análisis de corte transversal es un análisis multivariado, debido a que
involucra al menos a dos variables, la variable de interés y el tiempo.
Si sólo estamos interesados en la evolución de una variable a través del tiempo el análisis
sería bivariado. Si estamos interesados en la evolución de dos variables aleatorias a través
del tiempo tendríamos un análisis trivariado o en R3, y así sucesivamente.
En el caso de datos de corte longitudinal, el análisis descriptivo involucra las mismas etapas
pero con las siguientes modificaciones:
5.1 Tabla
Aquí no se suele construir una distribución de frecuencias, si no una tabla que contiene el la
primera columna el tiempo y a partir de la segunda columa el nombre de la variable o
variables de interés.
La estructura de la tabla en el caso de que sólo nos interese estudiar una variable aleatoría
en general sería la siguiente:
Tiempo Variable
tiempo 1 valor en el tiempo 1
⋮ ⋮
tiempo n valor en el tiempo n

Ejemplo: Suponga que nos interesa estudiar el comportamiento de la población en
determinada región para el periodo 2010-2019. En ese caso la tabla sería:
Año Población
2010 14.721.340
2011 14.929.350
2012 15.136.394
2013 15.342.392
2014 15.547.297
2015 15.751.106
26
2016 15.952.672
2017 16.154.011
2018 16.354.510
2019 16.554.349
Total 156.443.421
5.2 Grafica
La gráfica en este caso se conoce con el nombre de gráfica de secuencia o diagrama de
dispersión.
En esta gráfica siempre en el eje x se ubica el tiempo y en el eje y se ubican los valores de
las variables aleatorias de interés.
En el ejemplo anterior la gráfica sería:
5.3 Medidas
Las medidas que se calculan son la función de autocovarianza y la función de
autocorrelación, entre otros.
27
5.4 Interpretación
La interpretación se concentra en describir el comportamiento de la variable aleatoria a
través del tiempo. Por ejemplo si se presenta una tendencia ascendente o descendente o si
por el contrario se presenta un comportamiento aleatorio en los datos.
28

Capítulo 2 Colegio Mayor

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capítulo 2 Colegio Mayor

Cargado por

Copyright:

Formatos disponibles

CONTENIDO

VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE FRECUENCIAS 3

3 TIPOS DE DATOS ESTADÍSTICOS 4

3.1 DATOS ORIGINALES 5

4.1 GRAFICAS PARA VARIABLES CUANTITATIVAS 16

5 DATOS DE CORTE LONGITUDINAL 22

Al valor mínimo de la variable lo denotaremos con alguno de los siguientes símbolos:

x 'i−1=¿ Límite inferior de la fila i

x 'i=¿ Límite superior de la fila i

Si a la marca de clase de una fila le restamos la mitad de la amplitud ( c2 ) obtendremos el límite

inferior de esa fila.

Si a la marca de clase de una fila le sumamos la mitad de la amplitud ( c2 ) obtendremos el

En la siguiente tabla bidimensional se muestra la notación que utilizaremos para las

Estamos interesados en hallar la frecuencia relativa marginal de la primera fila

4.1.2.2 Polígono de frecuencias

4.1.3 REPRESENTACIÓN GRÁFICA DE LAS FRECUENCIAS ABSOLUTAS Y

4.1.4 GRAFICAS PARA VARIABLES CUALITATIVAS

En esta figura se realizó un análisis Bivariado o multivariado en R2, La localidad (variable

tiempo 1 valor en el tiempo 1

tiempo 2 valor en el tiempo 2

tiempo 3 valor en el tiempo 3

tiempo n valor en el tiempo n

También podría gustarte