Tema 1 Organización de Datos

PROBABILIDAD Y ESTADÍSTICA I
Tema 1: ORGANIZACIÓN DE DATOS

1.- Introducción
Sin entrar en una definición de la Estadística, se puede decir que esta rama del saber
humano enseña una forma de mirar y encarar las cuestiones que plantea la realidad,
dándoles un respaldo, basado en la información del hecho o cuestión que interesa
indagar, estudiar o investigar, de forma que los resultados o conclusiones que se
obtengan no obedezcan a meras especulaciones o intuiciones, sino más bien a la
observación cuidadosa y el descubrimiento de las leyes que rigen su aparición o
existencia.
Es por lo anterior que la Estadística está presente en cualquier campo del saber humano
como una herramienta que coadyuva en su desarrollo, trátense éstas de ramas del campo
de las ciencias o de las artes. Por detrás del descubrimiento de nuevo conocimiento
siempre está presente la Estadística, en alguna de sus múltiples facetas, como factor de
respaldo y apoyo de lo que se incorpore al campo del conocimiento.
Resulta obvio comprender su enorme importancia y la necesidad que tiene todo
estudioso o investigador, en cualquier campo del saber humano, de conocer y manejar
con eficiencia, responsabilidad y ética las herramientas que la Estadística provee, para ir
en busca de cualquier tipo de desafío que se presente en la realidad en la que se
desenvuelve.
2.- Definición de la Estadística
Es bueno, para introducirse en los conceptos básicos que se usan en la Estadística, tomar
nota de alguna de las muchas definiciones que se tienen con relación a esta rama del
saber humano. Veamos ésta que parece bastante completa y que permite ubicarnos en
qué consiste y cuáles son sus aspectos sobresalientes:
“La Estadística es, a la vez, una ciencia y un arte que trata de la recolección,
presentación, análisis e interpretación de los datos referidos al hecho o fenómeno que
se desea estudiar, analizar o investigar.”
En esta definición destacan los siguientes aspectos:
- Es un arte, porque enseña la mejor forma de recopilar masas de datos y, mediante
un proceso de reducción, convertirlos en conjuntos manejables y de fácil
comprensión.
1
- Es una ciencia, porque analiza e interpreta las leyes que rigen la permanencia de los
fenómenos, mediante el uso de datos referidos a aquello que se quiere investigar.
- Su célula básica son los datos, es decir la información a partir de la cual la
Estadística cumple su cometido.
3.- Clasificación de los datos
En forma general los datos pueden clasificarse en dos grandes grupos, según sean o no
susceptibles de expresión numérica:
3.1. Datos cuantitativos, a los que se conoce también como variables, que son aquellos
datos susceptibles de expresión numérica. A su vez se clasifican en:
A.- Variables discretas, que son aquellas que sólo admiten valores enteros y el cero. Se
refieren por lo general a cosas que se pueden contar. Por ejemplo: clasificación de
familias por número de hijos, clasificación de grupos de materias por número de
alumnos inscritos, clasificación de manzanos por número de casas, etc.
B.- Variables continuas, que son aquellas que admiten cualquier valor entre dos valores
dados. Es decir, en este caso se pueden dar valores fraccionados. Se trata por lo general
de datos que resultan de medir. Por ejemplo: clasificación de alumnos por edades,
clasificación de personas por estaturas, clasificación de trabajadores por sus ingresos,
clasificación de ciudades por densidad demográfica, etc.
3.2. Datos cualitativos, a los que se conoce como atributos. Se trata de datos que no son
susceptibles de expresión numérica sino más bien de expresión de alguna cualidad que
poseen. Por ejemplo: clasificación de alumnos por lugar de nacimiento, clasificación de
trabajadores según sus cargos, clasificación de vehículos por marca, etc. El manejo de
los datos cualitativos tiene una especial connotación y, como tal, la Estadística la va
considerando a lo largo de su desarrollo.
En este punto es importante tomar en consideración un otro tipo de conformación de los

datos con los que se suele trabajar en la Estadística, que son de un uso bastante
frecuente. Se trata de lo que se conoce como:
3.3 Variables dicotómicas, que vienen a ser datos cualitativos a los que se somete a la
disyuntiva de si poseen o no cierta característica que interesa analizar. Si poseen la
característica buscada se les asigna el valor 1 y si no poseen dicha característica se les
asigna el valor 0. Es decir, solamente admiten los valores 0 y 1. De esta manera, muy
rápidamente se puede saber cuántos elementos de un conjunto estudiado poseen o no
2
dicha característica con solo sumar la variable dicotómica, es decir cuántos 1 aparecen
en el conjunto de datos estudiado.
Este particular tipo de variables tienen una especie de característica mixta, ya que son
atributos o cualidades a los que se les asignan sólo los valores 0 o 1, dan origen a un
tipo de indicador o medida que se conoce como proporción, que permite determinar el
porcentaje de datos que poseen o no una característica determinada. La utilización de las
proporciones es muy importante y extendida sobre todo en el análisis de atributos o
datos cualitativos que resultan muy frecuentes en mucho tipo de indagaciones o
investigaciones.
4.- La reducción estadística
Para el trabajo que realiza la Estadística a fin de encarar cualquier estudio, análisis o
investigación de un hecho o fenómeno, se sigue un proceso al que se conoce como
“reducción estadística”, que consiste en la transformación de grandes masas de datos en
conjuntos manejables usando tablas y gráficos de los cuales, a su vez, extrae indicadores
o medidas, a los que también se conocen como estadígrafos, que muestran las
características relevantes de la información y con los cuales se puede hacer análisis e
interpretación y, en su caso, determinar las leyes que rigen su permanencia. Entre los
indicadores o medidas más utilizados se tiene:
- Las medidas de tendencia central o de posición, como la media aritmética, la media

geométrica, la media armónica, la mediana, el modo, los cuantiles o fractiles.
- Las medidas de dispersión o variabilidad, como la varianza, la desviación típica o
estándar, la desviación mediana, el coeficiente de variación.
- Las medidas de asimetría, como los coeficientes de asimetría.
- Las medidas de apuntamiento, como los coeficientes de curtosis.
Con estos indicadores, y otro tipo de herramientas que construye la Estadística, se

realiza lo que viene a ser el análisis y la interpretación de los resultados hallados con la
información obtenida. Este proceso de reducción estadística se puede presentar,
resumidamente, de la siguiente manera:
Formas Indicadores
Masas de manejables o Análisis e
datos (tablas, estadígrafos interpretación
gráficas)
3
Proceso de reducción Proceso de reducción
El proceso de reducción estadística se inicia con la captura o recopilación de los
datos y sigue con su transformación en formas manejables que permitan resumir la
información y presentarla de manera que el que la observe entienda con facilidad lo
más representativo de ella. Posteriormente, se hace el cálculo de indicadores,
medidas o estadígrafos que resumen los aspectos relevantes de la información
referida al universo o población que se estudia y, con la ayuda de ellos, así como de
otras herramientas que provee la Estadística, se efectúa el análisis e interpretación
correspondiente.
5.- Algunos conceptos importantes
Antes de estudiar cómo se procede es bueno definir algunos conceptos y establecer
símbolos con los que se trabajará a lo largo del curso.
5.1 El universo o población
Es el conjunto total de elementos, que pueden ser personas, animales o cosas
(tangibles o intangibles) que son objeto de análisis, estudio o investigación. En esta
parte del curso simbolizaremos con la letra “n” el número total de elementos que
están siendo analizados.
Por ejemplo:
- Si se quiere indagar algo respecto a los estudiantes de la materia y estos son
50, el universo o población objeto de estudio serán los n = 50 alumnos
registrados.
- Si en una granja se tiene 250 pavos y se quiere estudiar los pesos que tienen
para probar los efectos de un régimen alimenticio aplicado a ellos, el
universo o población objeto de estudio serán los n = 250 pavos.
- Si en una plantación de 186 plantas de melón se quiere estudiar la cantidad
de melones que se cosecharán este año, el universo o población objeto de
estudio serán las n = 186 plantas de melón.
- Si en la definición de Estadística que hemos dado:
“La Estadística es, a la vez, una ciencia y un arte que trata de la recolección,
presentación, análisis e interpretación de los datos referidos al hecho o
fenómeno que se desea estudiar, analizar o investigar.”
4
Se quiere estudiar el número de palabras clasificadas por el número de letras que
contienen, el universo o población objeto de estudio son las n = 35 palabras que
conforman dicha definición.
Hay que aclarar que el tamaño del universo o población objeto de estudio puede ser
en algunos casos indeterminado, es decir se lo puede contar, pero no se sabe o no se
puede determinar cuál es su final, en esos casos se dice que la población no es finita;
mientras que, cuando se puede contar y se conoce su último valor, se dice que la
población es finita. En este curso nos dedicaremos particularmente a este tipo de
poblaciones finitas.
5.2 Las subpoblaciones y las muestras
Otra distinción, que es importante hacer en esta parte introductoria, es la que se

refiere a las subpoblaciones y las muestras.
Las subpoblaciones, como su nombre lo indica, son partes o porciones de las

poblaciones cuyos elementos tienen una característica predeterminada. Por ejemplo,
se puede clasificar a los 50 alumnos de una materia en dos subpoblaciones: hombres
y mujeres. En el caso de los pavos se los podría clasificar en tres subpoblaciones por
su peso: de menos de 3 kilogramo, de entre 3 y 4 kilogramos y de más de 4
kilogramos. En el caso de los melones se los podría clasificar según el daño que han
sufrido por una granizada en tres subpoblaciones: dañados, medianamente dañados y
sin daño. Con las palabras de la definición de Estadística podríamos conformar
subpoblaciones según el número de vocales que poseen.
En cambio, las muestras son también partes o porciones de las poblaciones sólo que
son escogidas al azar, es decir siguiendo algún procedimiento que garantice su
aleatoriedad, con el propósito de que sean representativas de ellas. Por ejemplo, en el
caso de los alumnos de una materia, se puede escoger al azar a 10 alumnos y efectuar
algún análisis con ellos. En el caso de los pavos se puede tomar una muestra aleatoria
de 25 de ellos y estudiar su peso. En el caso de los melones se podría tomar una
muestra de 18 plantas y analizar el contenido de azúcar de sus frutos.
5.3 El censo y el muestreo
Es también importante diferenciar estos conceptos. En un censo se recolectan datos

de todos y cada uno de los elementos que conforman la población objeto de estudio,
5
mientras que en el muestreo sólo se recolectan datos de los elementos de la población
que han sido seleccionados aleatoriamente para la muestra, que se busca que sea
representativa de dicha población.
6.- Recolección de los datos
La colecta de los datos es la primera fase de todo análisis, estudio o investigación que
se quiere realizar. En esta instancia inicial, para tener una comprensión adecuada de
cómo se procede, trabajaremos con poblaciones finitas de las que indagaremos una
sola característica cuantificable, es decir tendremos para el análisis una sola variable.
Llamaremos con X a la variable objeto de análisis y con x i a los valores concretos

que vaya asumiendo. De esta forma, simbolizaremos, por ejemplo, con x 3 al valor
concreto observado en el tercer elemento de la población que se estudia. Como es
lógico, el subíndice i variará desde 1 hasta n, pues comprenderá los valores que se
observen desde el primer elemento (1) hasta el último elemento que se analiza o
estudia (n).
La variable X, como ya se ha visto, puede ser discreta o continua, lo cual hay que
tener claro desde el primer momento, ya que cada uno de esos tipos de variable tiene
sus propias connotaciones y, por tanto, su forma de tratamiento.
Veamos algunos ejemplos que nos permitirán ir tomando nota de cómo se procede a
la recolección de la información.
- Se ha preguntado a un grupo de 25 familias el número de hijos que tienen y se ha

obtenido lo siguiente:
n = 25 X: Número de hijos (variable discreta)
x1 = 2 x2 = 1 x3= 3 x4 = 0 x5= 2 x6= 2 x7= 1 x8= 2 x9= 4 x10= 0
x11 = 3 x12 = 2 x13= 1 x14= 2 x15= 4 x16= 1 x17= 3 x18= 1 x19= 3 x20= 4
x21 = 1 x22 = 2 x23=3 x24= 4 x25= 3
En este caso, por ejemplo, x 4= 0 muestra que la cuarta familia en dar información indica
que tiene 0 hijos, mientras que x 15= 4 muestra que la familia 15 en dar información
indica que tiene 4 hijos.
6
- Se consulta a 40 estudiantes de Cálculo II con qué nota han vencido Cálculo I.
n = 40 X: Nota en Cálculo I (variable continua)

x1 = 53 x2 = 62 x3= 73 x4 = 60 x5= 82 x6= 92 x7= 71 x8= 57 x9= 64
x10=66
x11 = 53 x12 = 82 x13= 71 x14= 62 x15= 54 x16= 81 x17=73 x18= 82 x19= 55 x20=
65
x21= 67 x22= 77 x23= 66 x24= 78 x25=93 x26= 52 x27= 63 x28= 55 x29= 86 x30=
57
x31= 95 x32= 62 x33=84 x34= 65 x35= 72 x36= 77 x37= 90 x38= 82 x39= 60 x40=
59
En este caso, por ejemplo, x21= 67 muestra que el estudiante 21 en dar información
indica que ha vencido Calculo I con 67 de nota, mientras que x 37= 90 señala que el
alumno 37 en ser consultado dijo que ha vencido Cálculo I con 90 de nota.
Naturalmente que la forma en que se recopila y procesa la información hoy en día está
perfectamente resuelta con el uso de programas específicos de Estadística, como son
Statview, Statdisk, Minitab, SPSS y tantos otros, que permiten agilizar no sólo la
recolección sino también el procesamiento de la información, como iremos viendo a lo
largo de la materia. Por el momento, de lo que se trata es de comprender la
hermenéutica de cómo se trabaja, contando para el efecto con ejemplos que muestran
poblaciones pequeñas fáciles de manejar, de manera que si se enfrenta a poblaciones de
mayor magnitud se puede fácilmente inducir cómo se operará.
7.- Presentación de la información
Una vez que se ha recopilado la información corresponde ahora, siempre en el proceso
de reducción estadística, presentar la información de una manera resumida y
comprensible, lo cual se hace mediante la construcción de tablas y gráficos.
7.1 La construcción de tablas
También es conocida como tabulación de la información. Consiste en mostrar de un
modo ordenado la variable que se analiza determinando la parte de la población que le
corresponde a cada uno de esos valores ordenados, a los que se llaman “clases”.
7
Cuando la variable originalmente considerada X se la ordena siguiendo un criterio
ascendente o descendente, pasa a simbolizarse con la letra Y. Veamos cómo se procede
en cada uno de los tipos de variable que hemos visto.
7.1.1 Tabulación de variable discreta
En este tipo de tabulación por lo general la variable presenta pocos valores diferentes.
Se procede ordenando la variable en forma ascendente conformando tantas clases como
valores diferentes presenta la información proporcionada, luego se recuenta cuántos
datos tiene cada valor específico observado, el proceso sería así:
En el ejemplo de los 25 hogares a los que se consulta el número de sus hijos se
observaron los siguientes datos:
x1 = 2 x2 = 1 x3= 3 x4 = 0 x5= 2 x6= 2 x7= 1 x8= 2 x9= 4 x10= 0
x11 = 3 x12 = 2 x13= 1 x14= 2 x15= 4 x16= 1 x17= 3 x18= 1 x19= 3 x20=
4
x21 = 1 x22 = 2 x23=3 x24= 4 x25= 3
Cuando la variable está ordenada se la simboliza con Y. Los valores concretos,

diferentes y ordenados se simbolizan con y i, siendo que i varía desde 1 hasta m, donde
m es el número de valores distintos (o clases) que se han observado. En el caso que nos
ocupa los valores serían y1 = 0 y2 = 1 y3= 2 y4 = 3 y5= 4 los cuales se trasladan a
una columna de la tabla que, junto al recuento del número de datos que caen en cada
clase conformada, se presenta así:
yi Recuento ni
0 // 2
1 ////// 6
2 /////// 7
3 ////// 6
4 //// 4
Total 25
Los valores ni se conocen también como frecuencias de la distribución de la variable

estudiada. Desde luego que se trata de una tabla de trabajo.
Si se busca hacer una presentación de lo que se ha obtenido, para que lo entienda
cualquier persona, formalmente se debería mostrar lo anterior de la siguiente manera:
8
Número de Número de familias
hijos
0 2
1 6
2 7
3 6
4 4
Total 25
Clasificación de familias por número de hijos
Fuente: elaboración propia
7.1.2. Tabulación de variable continua

En este caso es corriente que aparezcan muchos valores diferentes y, en consecuencia,
siguiendo el criterio de formar tantas clases (m) como valores diferentes tiene la
variable observada, se debería construir una tabla muchas veces demasiado larga, por lo
que se hace necesario agrupar la información conformando subpoblaciones que sigan un
criterio numérico uniforme y predeterminado. Para ello definamos algunos conceptos
previos:
- Rango o amplitud de variación (que simbolizaremos con R), que viene a ser la
distancia que recorre la variable entre el valor más alto y el valor mínimo observados, es
decir:
R = máximo(x) – mínimo(x)
Este valor sólo puede ser ampliado, pero nunca disminuido. Dicha ampliación se puede
realizar siguiendo sólo uno de tres caminos posibles:
9
i) Ampliar el máximo(x)
ii) Disminuir el mínimo(x)
iii) Hacer ambas cosas simultáneamente (cuando es posible hacerlo)
Número de clases (que simbolizaremos con m), que es el número de subpoblaciones o
grupos de valores de la variable observada que se quiere construir. Este número es
fijado por quien construye la tabla de un modo predeterminado. Se recomienda que una
buena tabla debe tener entre 5 y 10 clases diferentes, aunque pueden darse situaciones
particulares en las que se necesita tener menos de 5 o más de 10 clases.
- Intervalo o amplitud de clase (que simbolizaremos con c i), que viene a ser la parte
del rango o amplitud de variación que le corresponde a cada clase construida.
Resulta ser:
R
ci =
m
Se recomienda que este valor sea en lo posible entero, teniendo presente que R se puede
ampliar, pero no disminuir.
Veamos cómo se procedería en el caso del ejemplo de los 40 alumnos de Cálculo II a

los que se consultó con qué nota han pasado Cálculo I. Se observaron los siguientes
datos:
x1 = 53 x2 = 62 x3= 73 x4 = 60 x5= 82 x6= 92 x7= 71 x8= 57

x9= 64 x10=66 x11 = 53 x12 = 82 x13= 71 x14= 62 x15= 54 x16= 81
x17=73 x18= 82 x19= 55 x20= 65 x21= 67 x22= 77 x23= 66 x24= 78
x25=93 x26= 52 x27= 63 x28= 55 x29= 86 x30= 57 x31= 95 x32= 62
x33=84 x34= 65 x35= 72 x36= 77 x37= 90 x38= 82 x39= 60 x40= 59
Calculamos el rango o amplitud de variación de los datos:
R = máximo(x) – mínimo(x) = 95 – 52 = 43
Supongamos que queremos que la distribución tenga 5 clases, es decir m = 5.
Hallamos el intervalo o amplitud de clase uniforme que queremos tener:
R 43
ci = = = 8.6
m 5
Este valor lo podríamos usar directamente como intervalo de clase; pero, para fines de
una presentación más comprensible, podemos buscar el entero próximo, que en este
10
caso sería ci = 9, Esto nos llevaría a tener que ampliar el rango o amplitud desde 43 hasta
45, es decir en dos unidades, lo cual podemos hacerlo por uno de estos 3 caminos:
i) Ampliar el máximo(x) de 95 a 97
ii) Disminuir el mínimo(x) de 52 a 50
iii) Hacer ambas cosas simultáneamente: ampliar el máximo(x) de 95 a 96 y
disminuir el mínimo(x) de 52 a 51
En este caso acudiremos a esta última opción, con lo que tendremos:
96−51 45
ci = = =9
5 5
Ahora, pasamos a construir la tabla de distribución de notas (variable continua),

conformando clases o subpoblaciones a partir del mínimo(x) que hemos fijado,
agregándole sucesivamente el valor ci obtenido, como mostramos a continuación:
Li Ls yi Recuento ni
51 60 55.5 /////////// 11
60 69 64.5 ///////// 9
69 78 73.5 //////// 8
78 87 82.5 //////// 8
87 96 91.5 //// 4
Total 40
En esta tabla cabe hacer algunas acotaciones para su mejor comprensión:
- Como quiera que en cada una de las 5 clases que se han formado se ha tenido que
agrupar los valores de variable. Ahora se los distingue colocando el límite inferior
de cada clase debajo de Li y el límite superior debajo de Ls.
- Se observa que el Li de cada clase coincide con el Ls de la clase anterior, lo cual
obedece a que se está trabajando con una variable continua.
- Para los casos en que un dato coincide exactamente con el Ls de una clase, y por
tanto con el Li de la clase siguiente, se lo recuenta en la clase en que figura como
Ls.
11
- Se observa una columna a la que se le asigna el símbolo y i. Viene a ser el “valor
central o marca de clase”, que no es sino el punto medio entre Li y Ls. Este valor es
utilizado como representativo de cada clase ya que al conformar la tabla se ha
perdido la individualidad de los datos. Se lo usa en los casos de manejo de variable
continua para calcular indicadores, lo cual será visto más adelante.
Finalmente, se debe tener presente que esta es una tabla de trabajo. Una presentación
formal de ella sería:
Distribución de alumnos de Cálculo II

según sus notas en Cálculo I
Notas en Cálculo I Número de
alumnos
51 a 60 11
60 a 69 9
69 a 78 8
78 a 87 8
87 a 96 4
TOTAL 40
Fuente: elaboración propia
Cabe aclarar que pueden presentarse muchas situaciones en las que se trabaja con
variables discretas que tienen muchos valores diferentes, en cuyo caso es factible
construir tablas como si se tratara de variables continuas.
7.2 Clasificación de las frecuencias
Toda tabla de distribución de una variable, para fines de análisis, puede contener
además de los valores ni, a los que hemos llamado frecuencias, otras formas de recuento
de datos que permiten complementar la comprensión de cómo se distribuye la
información obtenida. En general las frecuencias de una distribución pueden clasificarse
en:
7.2.1 Frecuencias absolutas, que son aquellas que cuentan el número de datos que hay
en una o más clases de una distribución. A su vez se clasifican en:
- Frecuencias absolutas simples (ni), que son, como ya se ha visto, las que indican el
número de datos contenidos en la clase i. De esta forma, el subíndice i varía desde 1
hasta m, siendo m el número de clases que tiene la distribución.
12
- Frecuencias absolutas acumuladas (Ni), donde también el subíndice i varía desde 1
hasta m. Este tipo de frecuencias muestran cuántos datos hay desde la clase 1 hasta
la clase para la que se calculan. Resultan ser iguales a:
j
Nj = ∑ ni (siendo j una cualquiera de las m clases de la distribución)
i=1
El valor de Nm, que es la frecuencia acumulada de la última clase, es el valor de n.
7.2.2 Frecuencias relativas, que son aquellas que muestran la proporción o porcentaje
de datos que hay en una o más clases de una distribución. A su vez se clasifican en:
- Frecuencias relativas simples (hi), que muestran la proporción o porcentaje de datos
que hay en la clase i. Resultan ser el cociente entre la frecuencia absoluta simple
correspondiente, es decir:
ni
hi= (i = 1, 2, 3, …, m)
n
Se pueden expresar como quebrado, como fracción decimal o como el porcentaje que
significan.
- Frecuencias relativas acumuladas (Hi), que indican la proporción o porcentaje de
datos que hay desde la primera clase hasta la clase i para la que se calculan.
Resultan ser iguales a:
j
Hj = ∑ hi (siendo j una cualquiera de las m clases de la distribución)
i=1
En este caso Hm, es decir la frecuencia relativa acumulada de la última clase,

viene a ser 1 o 100% porque:
m
n1 n2 n3 n n
Hm = ∑ hi = h1 +h 2+ h3 + … + h m = + + +… m = = 1 o 100%
i=1 n n n n n
Veamos cómo se construyen todos los tipos de frecuencias que se han señalado para los
ejemplos de tabulación de variable discreta y variable continua.
Para el ejemplo de los 25 hogares a los que se consulta el número de hijos, la tabla de
distribución completa (con los tipos de frecuencia vistos) se mostraría así:
yi ni Ni hi Hi
13
0 2 2 2/25=0.08 u 8% 0.08
1 6 8 6/25=0.24 o 0.32
24%
2 7 15 7/25=0.28 o 0.60
28%
3 6 21 6/25=0.24 0 0.84
24%
4 4 25 4/25=0.16 o 1.00
16%
Total 25 25/25=1 o 100%
Se trabaja con m = 5 que son los valores diferentes que se han observado. En el caso de
las frecuencias relativas simples, se han puesto las tres opciones que se señalaban; sin
embargo, hay que aclarar que sólo una de ellas se usa en las presentaciones, la cual
viene a ser en la mayoría de los casos la segunda, es decir la expresión como fracción
decimal, que muy fácilmente puede leerse en su expresión porcentual.
Veamos el caso de datos concretos de cada uno de los tipos de frecuencia que se han
construido para esta distribución:
n3 = 7 es la frecuencia absoluta simple de la tercera clase, muestra que hay 7 hogares

que tienen 2 hijos.
N4 = 21 es la frecuencia absoluta acumulada de la cuarta clase, muestra que hay 21

hogares que tienen de 0 a 3 hijos.
h2 = 0.24 es la frecuencia relativa de la segunda clase, muestra que el 24% de los

hogares tienen 1 hijo.
H4 = 0.84 es la frecuencia relativa acumulada de la cuarta clase, muestra que el 84% de

los hogares tienen de 0 a 3 hijos.
Para el ejemplo de los 40 alumnos de Cálculo II a los que se ha consultado con qué nota
han pasado en Cálculo I, la tabla completa de distribución quedaría conformada así:
Li Ls yi ni Ni hi Hi
51 a 60 55.5 1 11 11/40=0.275 o 0.275
14
1 27.5%
60 a 69 64.5 9 20 9/40=0.225 o 22.5% 0.50
69 a 78 73.5 8 28 8/40=0.20 o 20% 0.70
78 a 87 82.5 8 36 8/40=0.20 o 20% 0.90
87 a 91.5 4 40 4/40=0.10 o 10% 1.00
96
Total 4 40/40=1.00 o 100%
0
También en este caso se han construido m = 5 clases de igual amplitud. Se ha colocado
la columna de las yi, sabemos que en el caso de tablas continuas se llaman “valores
centrales o marcas de clase”. Las frecuencias relativas simples se muestran con las 3
formas alternativas de presentarlas, aunque ya se ha dicho que la que más se usa es la
que viene como fracción decimal.
Veamos el caso de datos concretos de cada uno de los tipos de frecuencia que se han
construido para esta distribución:
n3 = 8 es la frecuencia absoluta simple de la tercera clase, muestra que hay 8 alumnos

que han vencido Cálculo I con una nota entre 69 y 78 puntos.
N2 = 20 es la frecuencia absoluta acumulada de la segunda clase, muestra que hay 20

alumnos que han vencido Cálculo I con una nota entre 51 y 69 puntos.
h4 = 0.20 es la frecuencia relativa de la cuarta clase, muestra que el 20% de los alumnos
ha vencido Cálculo I con una nota entre 78 y 87 puntos.
H4 = 0.90 es la frecuencia relativa acumulada de la cuarta clase, muestra que el 90% de

los alumnos ha vencido Cálculo I con una nota entre 51 y 87 puntos.
7.3 Otros tipos de tablas
Las tablas que hemos visto hasta aquí, particularmente en el caso continuo, tienen
intervalos de clase constantes. No siempre todas las tablas tienen esta conformación.
Veamos algunos tipos de tablas que también es frecuente verlas o construirlas:
7.3.1 Tablas con intervalo de clase no constante
15
En muchos casos la amplitud o intervalo de las clases viene prefijada o es necesario que
así se la presente. Como ejemplo, veamos una distribución de personas por edad de
escolaridad.
Edades Número de
(en años) personas
4 a 6 36
6 a 12 49
12 a 18 38
18 a 24 27
TOTAL 150
7.3.2. Tablas con límites diferenciados

Es también frecuente encontrar tablas de variable continua en las que el Ls de una
clase no es igual al Li de la clase siguiente, por ejemplo, una distribución de los
pesos de 360 personas:
Pesos Número de
(en Kg) personas
50 a 59 58
60 a 69 72
70 a 79 86
80 a 89 64
90 a 99 47
100 a 120 33
TOTAL 360
7.3.3. Tablas con clases abiertas

En muchos casos se presentan tablas en las que no se conoce el Li de la primera
clase, o el Ls de la última clase o ambas cosas simultáneamente. A estas
distribuciones se las conoce con el nombre de distribuciones con clases abiertas.
Como ejemplo veamos la distribución de los 330 alumnos de una carrera según el
promedio de sus notas en el semestre pasado:
Promedio de notas Número de

alumnos
Menos de 51 32
51 a 59 94
59 a 67 86
67 a 75 64
75 a 83 36
83 a 91 13
16
Más de 91 5
TOTAL 330
7.3.4 Tablas simétricas

Se trata de tablas con c i constante en las que la disposición de las frecuencias tiene una
característica especial, ya que la frecuencia de la primera clase es igual a la de la última,
la de la segunda clase es igual a la de la penúltima, la de la tercera clase es igual a la de
la antepenúltima y así sucesivamente. En este tipo de tablas si existe un número impar
de clases y todas van cumpliendo lo antes anotado, se considera a la frecuencia de la
clase central como simétrica consigo misma.
Constituyen una situación muy particular de distribución de frecuencias que tienen
mucho que ver con la construcción de instrumentos estadísticos que serán estudiados
más adelante.
Veamos un ejemplo de distribución de pesos de 200 atletas varones que presenta las
características que se han mencionado:
Li Ls ni
60 a 65 11
65 a 70 25
70 a 75 31
75 a 80 66
80 a 85 31
85 a 90 25
90 a 95 11
TOTAL 200
Esta es una distribución de variable continua con 7 clases de igual amplitud. Se observa
que la frecuencia de la primera clase es igual a la de la séptima, la de la segunda es igual
a la de la sexta, la de la tercera es igual a la de la quinta, y la de la cuarta, al ser la de la
clase central, se considera simétrica consigo misma.
7.4. Las representaciones gráficas
Otra forma de resumir y presentar la información contenida en una masa de datos

relativa a aquello que se está estudiando, indagando o investigando, son las
representaciones gráficas, que permiten visualizar las características sobresalientes de
los conjuntos de datos con los que se trabaja. Existen diversidad de tipos de gráficos que
17
proveen los programas estadísticos y los instrumentos que brinda la computación, como
son, por ejemplo, los gráficos en figuras geométricas (de torta o circular, de barras
rectangulares, de telaraña, etc.), los cartogramas (que se realizan sobre mapas), los
pictogramas (que mediante figuras repetidas van mostrando la frecuencia de repetición
de los datos).
En el caso de esta materia nos preocuparemos de los gráficos que sirven para hacer
análisis estadístico, sin dejar de mencionar que los gráficos a los que hemos hecho
referencia tienen su propia utilidad en casos concretos y permiten, también, visualizar lo
sobresaliente de la información en cada situación en la que son empleados.
Veamos cuáles son los tipos de gráficos utilizados para el análisis estadístico, cuya
característica esencial es que trabajan en lo que se llaman “sistemas de ejes cartesianos”,
en los que se ubican en el eje de abscisas (eje X) la variable que se estudia y en el eje de
ordenadas (eje Y) las frecuencias o formas transformadas de éstas.
7.4.1 El diagrama de barras
Se lo utiliza principalmente para graficar variable discreta. En un sistema de ejes

cartesianos, en el eje de abscisas se colocan los diferentes valores observados de la
variable (y1, y2, y3, …, ym) y en el eje de ordenadas las frecuencias correspondientes.
Sobre cada valor de variable se coloca una barra, de ancho discrecional, cuya altura es
el valor de su frecuencia absoluta simple (ni). Veamos cómo sería el gráfico para la
distribución de 25 familias de nuestro ejemplo.
Distribución de familias por número de hijos

8
7
6
Nro. de familias
5
4
3
2
1
0
0 1 2 3 4
Nro. de hijos
7.4.2 El histograma de frecuencias
18
Es muy utilizado en el análisis estadístico. Sirve principalmente para graficar variable
continua. Se trata de un gráfico que muestra, mediante superficies, las frecuencias
correspondientes (en griego hystos = superficie, de ahí la denominación de histograma).
En un sistema de ejes cartesianos, en el eje de abscisas se mide la variable de modo que

se puedan distinguir sus clases y en el de ordenadas las frecuencias relativizadas. Sobre
cada clase de la distribución hay que levantar un rectángulo cuya área debe ser
equivalente a la frecuencia absoluta simple de esa clase.
Aquí, cabe puntualizar de qué se tratan esas frecuencias relativizadas. No son sino los
valores de las frecuencias absolutas simples (ni) divididos entre la amplitud o intervalo
de clase (ci) correspondientes, es decir:
ni
frecuencias relativizadas =
ci
La razón de la utilización de esta transformación radica en el hecho de que sobre cada

clase de la distribución se levanta un rectángulo cuya superficie es la frecuencia de
dicha clase. En consecuencia, se tendría:
Área del rectángulo = base x altura
ni
ni = ci x
ci
Entonces, queda claro la importancia de la frecuencia relativizada.
Veamos cómo hay que trabajar para construir el histograma de frecuencias del ejemplo
de las notas de los 40 alumnos de Cálculo II:
Li Ls ni ni
ci
51 60 11 11/9
60 69 9 9/9
69 78 8 8/9
78 87 8 8/9
87 96 4 4/9
Total 40
19
El histograma de frecuencias correspondiente será:
Se puede ver que la primera y segunda clase son las que tienen mayor número de datos
y que la última clase es la que presenta la menor cantidad de datos.
Este tipo de gráfico es muy importante porque de él se derivan dos tipos de gráficos que
son también útiles para el análisis, que los veremos a continuación.
7.4.3 El polígono de frecuencias simples
Se deriva del histograma de frecuencias. Para su construcción se siguen los siguientes

pasos:
- Se marcan los puntos medios de las caras laterales de los rectángulos

correspondientes a la primera y la última clase.
- Se marcan los puntos medios de las bases superiores de los rectángulos.
- Se unen los puntos así marcados con una línea de trazo continuo y se prolonga dicha
línea hasta tocar el eje de abscisas por ambos lados.
- La figura así formada es el “polígono de frecuencias simples”, cuya característica es
que encierra debajo de sí la misma superficie que la suma de las áreas de los
20
rectángulos del histograma. En otras palabras, su área total es el universo o
población objeto de estudio.
Veamos lo que resulta en el caso que estamos trabajando de los 40 alumnos de Cálculo
I:
7.4.4 La curva de frecuencias
Una vez que se ha construido el polígono de frecuencias simples, se procede a

“suavizarlo”, es decir, se le va dando forma continua en lugar de la forma quebrada que
posee, lo cual lleva a establecer lo que se conoce como “curva de frecuencias”, que se la
trabaja a mano alzada, que es utilizada para establecer la forma o apariencia que tiene la
distribución de los datos que se están analizando.
7.4.5 El polígono acumulativo de frecuencias
21
Sirve para graficar variable continua, tomando en consideración las frecuencias
acumuladas (Ni) de la distribución de datos. Se lo conoce también como “ojiva de
frecuencias”
En un sistema de ejes cartesianos, en el eje de abscisas se mide la variable de forma que

se puedan distinguir sus clases y en el eje de ordenadas se miden las frecuencias
absolutas acumuladas de la distribución. Sobre el límite superior de cada clase se marca
un punto cuya ordenada es el valor de la frecuencia absoluta acumulada correspondiente
a dicha clase. Partiendo del límite inferior de la primera clase, y uniendo los puntos
marcados con una línea continua, se obtiene el “polígono acumulativo de frecuencias”,
que se utiliza para ubicar indicadores muy importantes al hacer análisis de una
distribución.
8.- Las fuentes de información
Hemos visto la importancia que tienen los datos cuando se realiza un estudio o
investigación. Es importante hacer una clara distinción de las fuentes de las que se
obtiene dicha información. En general se distinguen 2 tipos de fuentes:
8.1. Fuente primaria
Se dice que se acude a una fuente primaria para recabar información cuando se va
directamente a los elementos que generan los datos y se recaba de ellos la información
que se requiere.
22
Cuando se construyen tablas o gráficos a partir de ellos, si van a ser presentados
formalmente, se debe dejar constancia como fuente de la información: “Elaboración
propia”, ya que el que las presenta es el que las ha elaborado.
8.2. Fuente secundaria
Se dice que se acude a una fuente secundaria de información cuando se acude a revistas,
periódicos, boletines, páginas web, o cualquier medio impreso o existente en el internet,
en los que se tiene la información ya elaborada. Es importante que, cuando se usan
tablas o gráficas extraídas de fuentes como las mencionadas se deje constancia, al pie de
las mismas, cuál ha sido la fuente de origen de las mismas.
9.- Clasificaciones de la Estadística
Existen muchas clasificaciones de la estadística atendiendo a diversos criterios. Nos

centraremos en aquellos criterios que nos permitan ubicar lo que será el desarrollo de la
materia a lo largo de este curso.
9.1 Atendiendo al número de variables con las que se trabaja
Se clasifica en:
9.1.1 Estadística unidimensional
Es aquella que trabaja con una sola variable (edades, estaturas, pesos, notas en una
materia, ingresos, número de miembros en las familias, etc.)
9.1.2 Estadística bidimensional
Es la que trabaja con dos variables simultáneamente (edades - estaturas, ingresos -

gastos, notas en matemáticas - notas en física, número de miembros de las familias -
edades, temperaturas mínimas - temperaturas máximas)
9.1.3 Estadística pluridimensional
Que es aquella que trabaja con tres o más variables simultáneamente (ingresos -
cantidades demandadas–precios; temperaturas mínimas – temperaturas máximas –
humedad relativa; estaturas – pesos - edades).
9.2 Atendiendo a si se usa o no el tiempo como variable de referencia
Se clasifica en:
23
9.2.1 Estadística temporal
Que es aquella en la que se usa el tiempo como variable de referencia. Ejemplos de este
tipo son las estadísticas de evolución por años de las poblaciones, la producción de
minerales, vegetales, o la variación que experimentan las ventas de un bien o servicio
durante los meses del año, etc.
9.2.2 Estadística atemporal
Que es aquella que se preocupa de mostrar la magnitud de los datos sin tomar en
consideración o fijar como referencia el periodo de tiempo en el que se producen,
aunque es sabido que todo sucede en el tiempo.
9.3 Atendiendo al alcance de sus conclusiones
La Estadística se clasifica en dos grandes campos de mucha significación y enorme

importancia:
9.3.1 Estadística descriptiva
Es aquella que, como su nombre lo indica, describe hechos o fenómenos a partir de

información obtenida de los elementos de la población que se estudia, siendo que sus
conclusiones son válidas solo para el conjunto de elementos analizado.
9.3.2 Estadística deductiva o inferencial

Se la conoce también como inferencia estadística. Es aquella que, usando partes o
porciones (n) escogidas de una población (N), infiere, usando indicadores, conclusiones
que son válidas, con ciertos niveles de probabilidad, para el total poblacional estudiado.
N
n
s
n
Las estimaciones de parámetros y las pruebas de hipótesis son las principales

preocupaciones de este campo importante de la estadística.
24
Una herramienta fundamental de la inferencia estadística es el muestreo estadístico que
enseña a escoger, de una manera lo más óptima posible, la parte o porción de la
población objetivo con la que se efectúan inferencias relacionadas a ésta.
En este curso aprenderemos cómo se trabaja con una y dos variables, haremos
estadística temporal y atemporal y veremos la estadística en su faceta descriptiva y nos
introduciremos en el campo de la probabilística, que es una base esencial para hacer
inferencia estadística.
10.- Relación de la Estadística con otras ramas del saber humano
La Estadística al ser una rama de saber humano cuya trabajo es, en esencia, el manejo
de información referida a cualquier hecho o fenómeno que se quiere indagar, estudiar o
investigar, con fines de encontrar las leyes que rigen su permanencia, está presente,
como herramienta importante, en cualquier rama del saber humano que está en la
búsqueda constante del enriquecimiento del conocimiento.
Solamente considerando lo que está ocurriendo actualmente en el mundo asolado por un
pandemia, se puede ver la enorme importancia que está jugando la Estadística,
respaldando las decisiones que se van tomando frente a algo que era absolutamente
desconocido. El manejo de información con resguardo científico permite encarar la
toma de decisiones en condiciones de incertidumbre, brindando así las más óptimas
soluciones posibles a un fenómeno insospechado.
El dinámico avance de la ciencia y la tecnología que se viene observando en el mundo
actual tiene como respaldo cierto a la Estadística y sus herramientas que marcha al ritmo
que le exige ese vertiginoso avance.
25

Tema 1 Organización de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1 Organización de Datos

Cargado por

Copyright:

Formatos disponibles

PROBABILIDAD Y ESTADÍSTICA I

Tema 1: ORGANIZACIÓN DE DATOS

En este punto es importante tomar en consideración un otro tipo de conformación de los

4.- La reducción estadística

- Las medidas de tendencia central o de posición, como la media aritmética, la media

Con estos indicadores, y otro tipo de herramientas que construye la Estadística, se

5.2 Las subpoblaciones y las muestras

Otra distinción, que es importante hacer en esta parte introductoria, es la que se

Las subpoblaciones, como su nombre lo indica, son partes o porciones de las

5.3 El censo y el muestreo

Es también importante diferenciar estos conceptos. En un censo se recolectan datos

6.- Recolección de los datos

Llamaremos con X a la variable objeto de análisis y con x i a los valores concretos

- Se ha preguntado a un grupo de 25 familias el número de hijos que tienen y se ha

n = 25 X: Número de hijos (variable discreta)

x1 = 2 x2 = 1 x3= 3 x4 = 0 x5= 2 x6= 2 x7= 1 x8= 2 x9= 4 x10= 0

x21 = 1 x22 = 2 x23=3 x24= 4 x25= 3

n = 40 X: Nota en Cálculo I (variable continua)

Cuando la variable está ordenada se la simboliza con Y. Los valores concretos,

Los valores ni se conocen también como frecuencias de la distribución de la variable

Fuente: elaboración propia

7.1.2. Tabulación de variable continua

Veamos cómo se procedería en el caso del ejemplo de los 40 alumnos de Cálculo II a

x1 = 53 x2 = 62 x3= 73 x4 = 60 x5= 82 x6= 92 x7= 71 x8= 57

Supongamos que queremos que la distribución tenga 5 clases, es decir m = 5.

Hallamos el intervalo o amplitud de clase uniforme que queremos tener:

Ahora, pasamos a construir la tabla de distribución de notas (variable continua),

En esta tabla cabe hacer algunas acotaciones para su mejor comprensión:

Distribución de alumnos de Cálculo II

7.2 Clasificación de las frecuencias

El valor de Nm, que es la frecuencia acumulada de la última clase, es el valor de n.

En este caso Hm, es decir la frecuencia relativa acumulada de la última clase,

n3 = 7 es la frecuencia absoluta simple de la tercera clase, muestra que hay 7 hogares

N4 = 21 es la frecuencia absoluta acumulada de la cuarta clase, muestra que hay 21

h2 = 0.24 es la frecuencia relativa de la segunda clase, muestra que el 24% de los

H4 = 0.84 es la frecuencia relativa acumulada de la cuarta clase, muestra que el 84% de

n3 = 8 es la frecuencia absoluta simple de la tercera clase, muestra que hay 8 alumnos

N2 = 20 es la frecuencia absoluta acumulada de la segunda clase, muestra que hay 20

H4 = 0.90 es la frecuencia relativa acumulada de la cuarta clase, muestra que el 90% de

7.3 Otros tipos de tablas

7.3.1 Tablas con intervalo de clase no constante

7.3.2. Tablas con límites diferenciados

7.3.3. Tablas con clases abiertas

Promedio de notas Número de

7.3.4 Tablas simétricas

7.4. Las representaciones gráficas

Otra forma de resumir y presentar la información contenida en una masa de datos

7.4.1 El diagrama de barras

Se lo utiliza principalmente para graficar variable discreta. En un sistema de ejes

Distribución de familias por número de hijos

7.4.2 El histograma de frecuencias

En un sistema de ejes cartesianos, en el eje de abscisas se mide la variable de modo que

La razón de la utilización de esta transformación radica en el hecho de que sobre cada

Área del rectángulo = base x altura

Entonces, queda claro la importancia de la frecuencia relativizada.

7.4.3 El polígono de frecuencias simples

Se deriva del histograma de frecuencias. Para su construcción se siguen los siguientes

- Se marcan los puntos medios de las caras laterales de los rectángulos

7.4.4 La curva de frecuencias

Una vez que se ha construido el polígono de frecuencias simples, se procede a

7.4.5 El polígono acumulativo de frecuencias

En un sistema de ejes cartesianos, en el eje de abscisas se mide la variable de forma que

8.- Las fuentes de información