Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
- Es una ciencia, porque analiza e interpreta las leyes que rigen la permanencia de los
fenómenos, mediante el uso de datos referidos a aquello que se quiere investigar.
- Su célula básica son los datos, es decir la información a partir de la cual la
Estadística cumple su cometido.
3.- Clasificación de los datos
En forma general los datos pueden clasificarse en dos grandes grupos, según sean o no
susceptibles de expresión numérica:
3.1. Datos cuantitativos, a los que se conoce también como variables, que son aquellos
datos susceptibles de expresión numérica. A su vez se clasifican en:
A.- Variables discretas, que son aquellas que sólo admiten valores enteros y el cero. Se
refieren por lo general a cosas que se pueden contar. Por ejemplo: clasificación de
familias por número de hijos, clasificación de grupos de materias por número de
alumnos inscritos, clasificación de manzanos por número de casas, etc.
B.- Variables continuas, que son aquellas que admiten cualquier valor entre dos valores
dados. Es decir, en este caso se pueden dar valores fraccionados. Se trata por lo general
de datos que resultan de medir. Por ejemplo: clasificación de alumnos por edades,
clasificación de personas por estaturas, clasificación de trabajadores por sus ingresos,
clasificación de ciudades por densidad demográfica, etc.
3.2. Datos cualitativos, a los que se conoce como atributos. Se trata de datos que no son
susceptibles de expresión numérica sino más bien de expresión de alguna cualidad que
poseen. Por ejemplo: clasificación de alumnos por lugar de nacimiento, clasificación de
trabajadores según sus cargos, clasificación de vehículos por marca, etc. El manejo de
los datos cualitativos tiene una especial connotación y, como tal, la Estadística la va
considerando a lo largo de su desarrollo.
3.3 Variables dicotómicas, que vienen a ser datos cualitativos a los que se somete a la
disyuntiva de si poseen o no cierta característica que interesa analizar. Si poseen la
característica buscada se les asigna el valor 1 y si no poseen dicha característica se les
asigna el valor 0. Es decir, solamente admiten los valores 0 y 1. De esta manera, muy
rápidamente se puede saber cuántos elementos de un conjunto estudiado poseen o no
2
dicha característica con solo sumar la variable dicotómica, es decir cuántos 1 aparecen
en el conjunto de datos estudiado.
Este particular tipo de variables tienen una especie de característica mixta, ya que son
atributos o cualidades a los que se les asignan sólo los valores 0 o 1, dan origen a un
tipo de indicador o medida que se conoce como proporción, que permite determinar el
porcentaje de datos que poseen o no una característica determinada. La utilización de las
proporciones es muy importante y extendida sobre todo en el análisis de atributos o
datos cualitativos que resultan muy frecuentes en mucho tipo de indagaciones o
investigaciones.
Para el trabajo que realiza la Estadística a fin de encarar cualquier estudio, análisis o
investigación de un hecho o fenómeno, se sigue un proceso al que se conoce como
“reducción estadística”, que consiste en la transformación de grandes masas de datos en
conjuntos manejables usando tablas y gráficos de los cuales, a su vez, extrae indicadores
o medidas, a los que también se conocen como estadígrafos, que muestran las
características relevantes de la información y con los cuales se puede hacer análisis e
interpretación y, en su caso, determinar las leyes que rigen su permanencia. Entre los
indicadores o medidas más utilizados se tiene:
3
Proceso de reducción Proceso de reducción
El proceso de reducción estadística se inicia con la captura o recopilación de los
datos y sigue con su transformación en formas manejables que permitan resumir la
información y presentarla de manera que el que la observe entienda con facilidad lo
más representativo de ella. Posteriormente, se hace el cálculo de indicadores,
medidas o estadígrafos que resumen los aspectos relevantes de la información
referida al universo o población que se estudia y, con la ayuda de ellos, así como de
otras herramientas que provee la Estadística, se efectúa el análisis e interpretación
correspondiente.
5.- Algunos conceptos importantes
Antes de estudiar cómo se procede es bueno definir algunos conceptos y establecer
símbolos con los que se trabajará a lo largo del curso.
5.1 El universo o población
Es el conjunto total de elementos, que pueden ser personas, animales o cosas
(tangibles o intangibles) que son objeto de análisis, estudio o investigación. En esta
parte del curso simbolizaremos con la letra “n” el número total de elementos que
están siendo analizados.
Por ejemplo:
- Si se quiere indagar algo respecto a los estudiantes de la materia y estos son
50, el universo o población objeto de estudio serán los n = 50 alumnos
registrados.
- Si en una granja se tiene 250 pavos y se quiere estudiar los pesos que tienen
para probar los efectos de un régimen alimenticio aplicado a ellos, el
universo o población objeto de estudio serán los n = 250 pavos.
- Si en una plantación de 186 plantas de melón se quiere estudiar la cantidad
de melones que se cosecharán este año, el universo o población objeto de
estudio serán las n = 186 plantas de melón.
- Si en la definición de Estadística que hemos dado:
“La Estadística es, a la vez, una ciencia y un arte que trata de la recolección,
presentación, análisis e interpretación de los datos referidos al hecho o
fenómeno que se desea estudiar, analizar o investigar.”
4
Se quiere estudiar el número de palabras clasificadas por el número de letras que
contienen, el universo o población objeto de estudio son las n = 35 palabras que
conforman dicha definición.
Hay que aclarar que el tamaño del universo o población objeto de estudio puede ser
en algunos casos indeterminado, es decir se lo puede contar, pero no se sabe o no se
puede determinar cuál es su final, en esos casos se dice que la población no es finita;
mientras que, cuando se puede contar y se conoce su último valor, se dice que la
población es finita. En este curso nos dedicaremos particularmente a este tipo de
poblaciones finitas.
En cambio, las muestras son también partes o porciones de las poblaciones sólo que
son escogidas al azar, es decir siguiendo algún procedimiento que garantice su
aleatoriedad, con el propósito de que sean representativas de ellas. Por ejemplo, en el
caso de los alumnos de una materia, se puede escoger al azar a 10 alumnos y efectuar
algún análisis con ellos. En el caso de los pavos se puede tomar una muestra aleatoria
de 25 de ellos y estudiar su peso. En el caso de los melones se podría tomar una
muestra de 18 plantas y analizar el contenido de azúcar de sus frutos.
5
mientras que en el muestreo sólo se recolectan datos de los elementos de la población
que han sido seleccionados aleatoriamente para la muestra, que se busca que sea
representativa de dicha población.
La colecta de los datos es la primera fase de todo análisis, estudio o investigación que
se quiere realizar. En esta instancia inicial, para tener una comprensión adecuada de
cómo se procede, trabajaremos con poblaciones finitas de las que indagaremos una
sola característica cuantificable, es decir tendremos para el análisis una sola variable.
La variable X, como ya se ha visto, puede ser discreta o continua, lo cual hay que
tener claro desde el primer momento, ya que cada uno de esos tipos de variable tiene
sus propias connotaciones y, por tanto, su forma de tratamiento.
Veamos algunos ejemplos que nos permitirán ir tomando nota de cómo se procede a
la recolección de la información.
x11 = 3 x12 = 2 x13= 1 x14= 2 x15= 4 x16= 1 x17= 3 x18= 1 x19= 3 x20= 4
En este caso, por ejemplo, x 4= 0 muestra que la cuarta familia en dar información indica
que tiene 0 hijos, mientras que x 15= 4 muestra que la familia 15 en dar información
indica que tiene 4 hijos.
6
- Se consulta a 40 estudiantes de Cálculo II con qué nota han vencido Cálculo I.
En este caso, por ejemplo, x21= 67 muestra que el estudiante 21 en dar información
indica que ha vencido Calculo I con 67 de nota, mientras que x 37= 90 señala que el
alumno 37 en ser consultado dijo que ha vencido Cálculo I con 90 de nota.
Naturalmente que la forma en que se recopila y procesa la información hoy en día está
perfectamente resuelta con el uso de programas específicos de Estadística, como son
Statview, Statdisk, Minitab, SPSS y tantos otros, que permiten agilizar no sólo la
recolección sino también el procesamiento de la información, como iremos viendo a lo
largo de la materia. Por el momento, de lo que se trata es de comprender la
hermenéutica de cómo se trabaja, contando para el efecto con ejemplos que muestran
poblaciones pequeñas fáciles de manejar, de manera que si se enfrenta a poblaciones de
mayor magnitud se puede fácilmente inducir cómo se operará.
7.- Presentación de la información
Una vez que se ha recopilado la información corresponde ahora, siempre en el proceso
de reducción estadística, presentar la información de una manera resumida y
comprensible, lo cual se hace mediante la construcción de tablas y gráficos.
7.1 La construcción de tablas
También es conocida como tabulación de la información. Consiste en mostrar de un
modo ordenado la variable que se analiza determinando la parte de la población que le
corresponde a cada uno de esos valores ordenados, a los que se llaman “clases”.
7
Cuando la variable originalmente considerada X se la ordena siguiendo un criterio
ascendente o descendente, pasa a simbolizarse con la letra Y. Veamos cómo se procede
en cada uno de los tipos de variable que hemos visto.
7.1.1 Tabulación de variable discreta
En este tipo de tabulación por lo general la variable presenta pocos valores diferentes.
Se procede ordenando la variable en forma ascendente conformando tantas clases como
valores diferentes presenta la información proporcionada, luego se recuenta cuántos
datos tiene cada valor específico observado, el proceso sería así:
En el ejemplo de los 25 hogares a los que se consulta el número de sus hijos se
observaron los siguientes datos:
x1 = 2 x2 = 1 x3= 3 x4 = 0 x5= 2 x6= 2 x7= 1 x8= 2 x9= 4 x10= 0
x11 = 3 x12 = 2 x13= 1 x14= 2 x15= 4 x16= 1 x17= 3 x18= 1 x19= 3 x20=
4
x21 = 1 x22 = 2 x23=3 x24= 4 x25= 3
yi Recuento ni
0 // 2
1 ////// 6
2 /////// 7
3 ////// 6
4 //// 4
Total 25
8
Número de Número de familias
hijos
0 2
1 6
2 7
3 6
4 4
Total 25
Clasificación de familias por número de hijos
- Rango o amplitud de variación (que simbolizaremos con R), que viene a ser la
distancia que recorre la variable entre el valor más alto y el valor mínimo observados, es
decir:
R = máximo(x) – mínimo(x)
Este valor sólo puede ser ampliado, pero nunca disminuido. Dicha ampliación se puede
realizar siguiendo sólo uno de tres caminos posibles:
9
i) Ampliar el máximo(x)
ii) Disminuir el mínimo(x)
iii) Hacer ambas cosas simultáneamente (cuando es posible hacerlo)
Número de clases (que simbolizaremos con m), que es el número de subpoblaciones o
grupos de valores de la variable observada que se quiere construir. Este número es
fijado por quien construye la tabla de un modo predeterminado. Se recomienda que una
buena tabla debe tener entre 5 y 10 clases diferentes, aunque pueden darse situaciones
particulares en las que se necesita tener menos de 5 o más de 10 clases.
- Intervalo o amplitud de clase (que simbolizaremos con c i), que viene a ser la parte
del rango o amplitud de variación que le corresponde a cada clase construida.
Resulta ser:
R
ci =
m
Se recomienda que este valor sea en lo posible entero, teniendo presente que R se puede
ampliar, pero no disminuir.
R = máximo(x) – mínimo(x) = 95 – 52 = 43
R 43
ci = = = 8.6
m 5
Este valor lo podríamos usar directamente como intervalo de clase; pero, para fines de
una presentación más comprensible, podemos buscar el entero próximo, que en este
10
caso sería ci = 9, Esto nos llevaría a tener que ampliar el rango o amplitud desde 43 hasta
45, es decir en dos unidades, lo cual podemos hacerlo por uno de estos 3 caminos:
i) Ampliar el máximo(x) de 95 a 97
ii) Disminuir el mínimo(x) de 52 a 50
iii) Hacer ambas cosas simultáneamente: ampliar el máximo(x) de 95 a 96 y
disminuir el mínimo(x) de 52 a 51
En este caso acudiremos a esta última opción, con lo que tendremos:
96−51 45
ci = = =9
5 5
Li Ls yi Recuento ni
51 60 55.5 /////////// 11
60 69 64.5 ///////// 9
69 78 73.5 //////// 8
78 87 82.5 //////// 8
87 96 91.5 //// 4
Total 40
- Como quiera que en cada una de las 5 clases que se han formado se ha tenido que
agrupar los valores de variable. Ahora se los distingue colocando el límite inferior
de cada clase debajo de Li y el límite superior debajo de Ls.
- Se observa que el Li de cada clase coincide con el Ls de la clase anterior, lo cual
obedece a que se está trabajando con una variable continua.
- Para los casos en que un dato coincide exactamente con el Ls de una clase, y por
tanto con el Li de la clase siguiente, se lo recuenta en la clase en que figura como
Ls.
11
- Se observa una columna a la que se le asigna el símbolo y i. Viene a ser el “valor
central o marca de clase”, que no es sino el punto medio entre Li y Ls. Este valor es
utilizado como representativo de cada clase ya que al conformar la tabla se ha
perdido la individualidad de los datos. Se lo usa en los casos de manejo de variable
continua para calcular indicadores, lo cual será visto más adelante.
Finalmente, se debe tener presente que esta es una tabla de trabajo. Una presentación
formal de ella sería:
Toda tabla de distribución de una variable, para fines de análisis, puede contener
además de los valores ni, a los que hemos llamado frecuencias, otras formas de recuento
de datos que permiten complementar la comprensión de cómo se distribuye la
información obtenida. En general las frecuencias de una distribución pueden clasificarse
en:
7.2.1 Frecuencias absolutas, que son aquellas que cuentan el número de datos que hay
en una o más clases de una distribución. A su vez se clasifican en:
- Frecuencias absolutas simples (ni), que son, como ya se ha visto, las que indican el
número de datos contenidos en la clase i. De esta forma, el subíndice i varía desde 1
hasta m, siendo m el número de clases que tiene la distribución.
12
- Frecuencias absolutas acumuladas (Ni), donde también el subíndice i varía desde 1
hasta m. Este tipo de frecuencias muestran cuántos datos hay desde la clase 1 hasta
la clase para la que se calculan. Resultan ser iguales a:
j
Nj = ∑ ni (siendo j una cualquiera de las m clases de la distribución)
i=1
7.2.2 Frecuencias relativas, que son aquellas que muestran la proporción o porcentaje
de datos que hay en una o más clases de una distribución. A su vez se clasifican en:
- Frecuencias relativas simples (hi), que muestran la proporción o porcentaje de datos
que hay en la clase i. Resultan ser el cociente entre la frecuencia absoluta simple
correspondiente, es decir:
ni
hi= (i = 1, 2, 3, …, m)
n
Se pueden expresar como quebrado, como fracción decimal o como el porcentaje que
significan.
- Frecuencias relativas acumuladas (Hi), que indican la proporción o porcentaje de
datos que hay desde la primera clase hasta la clase i para la que se calculan.
Resultan ser iguales a:
j
Hj = ∑ hi (siendo j una cualquiera de las m clases de la distribución)
i=1
m
n1 n2 n3 n n
Hm = ∑ hi = h1 +h 2+ h3 + … + h m = + + +… m = = 1 o 100%
i=1 n n n n n
Veamos cómo se construyen todos los tipos de frecuencias que se han señalado para los
ejemplos de tabulación de variable discreta y variable continua.
Para el ejemplo de los 25 hogares a los que se consulta el número de hijos, la tabla de
distribución completa (con los tipos de frecuencia vistos) se mostraría así:
yi ni Ni hi Hi
13
0 2 2 2/25=0.08 u 8% 0.08
1 6 8 6/25=0.24 o 0.32
24%
2 7 15 7/25=0.28 o 0.60
28%
3 6 21 6/25=0.24 0 0.84
24%
4 4 25 4/25=0.16 o 1.00
16%
Total 25 25/25=1 o 100%
Se trabaja con m = 5 que son los valores diferentes que se han observado. En el caso de
las frecuencias relativas simples, se han puesto las tres opciones que se señalaban; sin
embargo, hay que aclarar que sólo una de ellas se usa en las presentaciones, la cual
viene a ser en la mayoría de los casos la segunda, es decir la expresión como fracción
decimal, que muy fácilmente puede leerse en su expresión porcentual.
Veamos el caso de datos concretos de cada uno de los tipos de frecuencia que se han
construido para esta distribución:
Para el ejemplo de los 40 alumnos de Cálculo II a los que se ha consultado con qué nota
han pasado en Cálculo I, la tabla completa de distribución quedaría conformada así:
Li Ls yi ni Ni hi Hi
51 a 60 55.5 1 11 11/40=0.275 o 0.275
14
1 27.5%
60 a 69 64.5 9 20 9/40=0.225 o 22.5% 0.50
69 a 78 73.5 8 28 8/40=0.20 o 20% 0.70
78 a 87 82.5 8 36 8/40=0.20 o 20% 0.90
87 a 91.5 4 40 4/40=0.10 o 10% 1.00
96
Total 4 40/40=1.00 o 100%
0
También en este caso se han construido m = 5 clases de igual amplitud. Se ha colocado
la columna de las yi, sabemos que en el caso de tablas continuas se llaman “valores
centrales o marcas de clase”. Las frecuencias relativas simples se muestran con las 3
formas alternativas de presentarlas, aunque ya se ha dicho que la que más se usa es la
que viene como fracción decimal.
Veamos el caso de datos concretos de cada uno de los tipos de frecuencia que se han
construido para esta distribución:
h4 = 0.20 es la frecuencia relativa de la cuarta clase, muestra que el 20% de los alumnos
ha vencido Cálculo I con una nota entre 78 y 87 puntos.
Las tablas que hemos visto hasta aquí, particularmente en el caso continuo, tienen
intervalos de clase constantes. No siempre todas las tablas tienen esta conformación.
Veamos algunos tipos de tablas que también es frecuente verlas o construirlas:
15
En muchos casos la amplitud o intervalo de las clases viene prefijada o es necesario que
así se la presente. Como ejemplo, veamos una distribución de personas por edad de
escolaridad.
Edades Número de
(en años) personas
4 a 6 36
6 a 12 49
12 a 18 38
18 a 24 27
TOTAL 150
Pesos Número de
(en Kg) personas
50 a 59 58
60 a 69 72
70 a 79 86
80 a 89 64
90 a 99 47
100 a 120 33
TOTAL 360
16
Más de 91 5
TOTAL 330
Li Ls ni
60 a 65 11
65 a 70 25
70 a 75 31
75 a 80 66
80 a 85 31
85 a 90 25
90 a 95 11
TOTAL 200
Esta es una distribución de variable continua con 7 clases de igual amplitud. Se observa
que la frecuencia de la primera clase es igual a la de la séptima, la de la segunda es igual
a la de la sexta, la de la tercera es igual a la de la quinta, y la de la cuarta, al ser la de la
clase central, se considera simétrica consigo misma.
17
proveen los programas estadísticos y los instrumentos que brinda la computación, como
son, por ejemplo, los gráficos en figuras geométricas (de torta o circular, de barras
rectangulares, de telaraña, etc.), los cartogramas (que se realizan sobre mapas), los
pictogramas (que mediante figuras repetidas van mostrando la frecuencia de repetición
de los datos).
En el caso de esta materia nos preocuparemos de los gráficos que sirven para hacer
análisis estadístico, sin dejar de mencionar que los gráficos a los que hemos hecho
referencia tienen su propia utilidad en casos concretos y permiten, también, visualizar lo
sobresaliente de la información en cada situación en la que son empleados.
Veamos cuáles son los tipos de gráficos utilizados para el análisis estadístico, cuya
característica esencial es que trabajan en lo que se llaman “sistemas de ejes cartesianos”,
en los que se ubican en el eje de abscisas (eje X) la variable que se estudia y en el eje de
ordenadas (eje Y) las frecuencias o formas transformadas de éstas.
5
4
3
2
1
0
0 1 2 3 4
Nro. de hijos
18
Es muy utilizado en el análisis estadístico. Sirve principalmente para graficar variable
continua. Se trata de un gráfico que muestra, mediante superficies, las frecuencias
correspondientes (en griego hystos = superficie, de ahí la denominación de histograma).
Aquí, cabe puntualizar de qué se tratan esas frecuencias relativizadas. No son sino los
valores de las frecuencias absolutas simples (ni) divididos entre la amplitud o intervalo
de clase (ci) correspondientes, es decir:
ni
frecuencias relativizadas =
ci
ni
ni = ci x
ci
Veamos cómo hay que trabajar para construir el histograma de frecuencias del ejemplo
de las notas de los 40 alumnos de Cálculo II:
Li Ls ni ni
ci
51 60 11 11/9
60 69 9 9/9
69 78 8 8/9
78 87 8 8/9
87 96 4 4/9
Total 40
19
El histograma de frecuencias correspondiente será:
Se puede ver que la primera y segunda clase son las que tienen mayor número de datos
y que la última clase es la que presenta la menor cantidad de datos.
Este tipo de gráfico es muy importante porque de él se derivan dos tipos de gráficos que
son también útiles para el análisis, que los veremos a continuación.
20
rectángulos del histograma. En otras palabras, su área total es el universo o
población objeto de estudio.
Veamos lo que resulta en el caso que estamos trabajando de los 40 alumnos de Cálculo
I:
21
Sirve para graficar variable continua, tomando en consideración las frecuencias
acumuladas (Ni) de la distribución de datos. Se lo conoce también como “ojiva de
frecuencias”
Hemos visto la importancia que tienen los datos cuando se realiza un estudio o
investigación. Es importante hacer una clara distinción de las fuentes de las que se
obtiene dicha información. En general se distinguen 2 tipos de fuentes:
Se dice que se acude a una fuente primaria para recabar información cuando se va
directamente a los elementos que generan los datos y se recaba de ellos la información
que se requiere.
22
Cuando se construyen tablas o gráficos a partir de ellos, si van a ser presentados
formalmente, se debe dejar constancia como fuente de la información: “Elaboración
propia”, ya que el que las presenta es el que las ha elaborado.
Se dice que se acude a una fuente secundaria de información cuando se acude a revistas,
periódicos, boletines, páginas web, o cualquier medio impreso o existente en el internet,
en los que se tiene la información ya elaborada. Es importante que, cuando se usan
tablas o gráficas extraídas de fuentes como las mencionadas se deje constancia, al pie de
las mismas, cuál ha sido la fuente de origen de las mismas.
Se clasifica en:
Es aquella que trabaja con una sola variable (edades, estaturas, pesos, notas en una
materia, ingresos, número de miembros en las familias, etc.)
Que es aquella que trabaja con tres o más variables simultáneamente (ingresos -
cantidades demandadas–precios; temperaturas mínimas – temperaturas máximas –
humedad relativa; estaturas – pesos - edades).
Se clasifica en:
23
9.2.1 Estadística temporal
Que es aquella en la que se usa el tiempo como variable de referencia. Ejemplos de este
tipo son las estadísticas de evolución por años de las poblaciones, la producción de
minerales, vegetales, o la variación que experimentan las ventas de un bien o servicio
durante los meses del año, etc.
Que es aquella que se preocupa de mostrar la magnitud de los datos sin tomar en
consideración o fijar como referencia el periodo de tiempo en el que se producen,
aunque es sabido que todo sucede en el tiempo.
N
n
s
n
24
Una herramienta fundamental de la inferencia estadística es el muestreo estadístico que
enseña a escoger, de una manera lo más óptima posible, la parte o porción de la
población objetivo con la que se efectúan inferencias relacionadas a ésta.
En este curso aprenderemos cómo se trabaja con una y dos variables, haremos
estadística temporal y atemporal y veremos la estadística en su faceta descriptiva y nos
introduciremos en el campo de la probabilística, que es una base esencial para hacer
inferencia estadística.
10.- Relación de la Estadística con otras ramas del saber humano
La Estadística al ser una rama de saber humano cuya trabajo es, en esencia, el manejo
de información referida a cualquier hecho o fenómeno que se quiere indagar, estudiar o
investigar, con fines de encontrar las leyes que rigen su permanencia, está presente,
como herramienta importante, en cualquier rama del saber humano que está en la
búsqueda constante del enriquecimiento del conocimiento.
Solamente considerando lo que está ocurriendo actualmente en el mundo asolado por un
pandemia, se puede ver la enorme importancia que está jugando la Estadística,
respaldando las decisiones que se van tomando frente a algo que era absolutamente
desconocido. El manejo de información con resguardo científico permite encarar la
toma de decisiones en condiciones de incertidumbre, brindando así las más óptimas
soluciones posibles a un fenómeno insospechado.
El dinámico avance de la ciencia y la tecnología que se viene observando en el mundo
actual tiene como respaldo cierto a la Estadística y sus herramientas que marcha al ritmo
que le exige ese vertiginoso avance.
25