Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Conviene efectuar una distinción entre estadística descriptiva y estadística inferencial. La estadística descriptiva es
un conjunto de procedimientos para describir, resumir y analizar datos referentes a un determinado aspecto de la
realidad, de modo que estos datos se pueden emplear mejor o de una forma más útil o significativa. Utilizamos
conceptos de la estadística descriptiva toda vez que hablamos de: número promedio de años de escolarización de
una población, la proporción de población de entre 6 y14 años que está escolarizada, la incidencia de la desnutrición
en la población escolar de nuestro medio, los porcentajes de alumnos que abandonan la escuela primaria antes de
completar el ciclo, el porcentaje de alumnos repetidores o de analfabetos, tasas de alcoholismo, cociente intelectual,
entre otros.
En la estadística inferencial se estudia un conjunto de procedimientos para extender las conclusiones que se
obtienen en una muestra a la población general que es objeto de estudio. Por ejemplo, se desea conocer qué
proporción de los alumnos que cursan el primer grado de la escuela primaria de nuestra ciudad son repetidores
(repiten de grado) La totalidad de alumnos inscriptos en primer grado en nuestra ciudad es la población de interés
en el estudio. Observar cada uno de estos niños para determinar si repite o no de grado es un proceso largo y
costoso que se puede obviar gracias a los procedimientos de muestreo que ofrece la estadística inferencial Es posible
considerar solo una parte de la población, esta parte se denomina muestra, y puede ser mucho menor que la
población. Luego observamos la proporción de alumnos repetidores en la muestra, y si se dan ciertas condiciones, es
posible demostrar que muy probablemente, la proporción de repetidores en la población se halla entre un cierto
valor mínimo y un valor máximo. En estadística inferencial se emplea siempre el lenguaje de la probabilidad.
VARIABLES: Una variable es un símbolo, por ejemplo X, Y H o B, que puede tomar cualquiera de los valores de
determinado conjunto al que se le conoce como dominio de la variable. Una variable es un hecho o situación que se
modifica a través del tiempo. Existen dos tipos de variables: las variables cualitativas no tienen valor numérico y se
caracterizan por ser exhaustivas (para todos los sujetos en observación, existe una categoría en que pueden ser
incluidos) y excluyentes (deben ser tales que ningún sujeto puede ser incluido en dos de ellas). Por ejemplo: sexo,
estado civil, trabajo, estudios. Las variables cuantitativas son aquellas que sí tienen valor numérico (edad, peso)
VARIABLES CUALITATIVAS:
✔ Escala nominal: una escala nominal es un sistema de clasificación cuyas categorías difieren entre sí
cualitativamente y no en grados. Las categorías deben ser mutuamente excluyentes y exhaustivas. Ejemplos
de escalas nominales: Área de residencia: 1-rural, 2-urbano; Estado civil: 1-soltero, 2-casado, 3-divorciado, 4-
viudo; maestros de enseñanza especial: 1-de oligofrénicos, 2-de ciegos, 2-de sordos. Los símbolos numéricos
de una escala nominal solo sirven para designar categorías. Por lo tanto, ellos no expresan orden ni puede
con ellos efectuarse operaciones aritméticas.
VARIABLES CUANTITATIVAS:
✔ Escala ordinal: Las categorías de tal escala no sólo difieren entre sí, sino que es posible ordenarlas. En otras
palabras, tiene la cualidad de que sus categorías están ordenadas por rango; cada clase posee una misma
relación posicional con la siguiente; es decir, la escala muestra situaciones escalonadas. Por ejemplo el nivel
socioeconómico: clase baja, clase media y clase alta. Otros son los sistemas de jerarquías eclesiásticas,
militares, administrativas, etc; la posición que ocupan, al finalizar un torneo, equipos o jugadores
individuales. Los sistemas de calificación escolar, ya sea con notas de 0 a 10 o con ‘’conceptos’’ como:
Excelente, Muy Bueno, Bueno, Satisfactorio.
✔ Escala intervalar: Los valores asignados a las unidades estadísticas no solo permiten ordenarlas, sino que
además, se pueden agrupar las categorías de la variable en intervalos. En ellas, el 0 no indica ausencia del
1
atributo sino que es un punto de origen de la medición arbitrariamente fijado y convencionalmente
aceptado. Se dice que es un 0 arbitrario o relativo. Algunos ejemplos son la temperatura medida por el
termómetro común en escalas Celsius (centígrada) o Fahrenheit, pruebas de coeficiente intelectual,
académicas.
✔ Escala proporcional: Se parte de un cero absoluto, es decir, el valor cero representa ausencia de la
característica o atributo. Claros ejemplos de esta escala son la distancia, altura, masa, peso, estatura, entre
otros.
Las medidas de tendencia central son índices estadísticos que describen una distribución de frecuencias señalando lo
que es más típico o característico del conjunto de datos. Medida de tendencia central es un valor o categoría de la
variable que representa bien al conjunto total de observaciones.
✔ El modo (simbolizado Mo) se define como: el valor o categoría de la variable que se presenta con mayor
frecuencia, que se observa más veces o que se repite más veces. El modo se identifica fácilmente
observando cuál es la categoría a que corresponde la frecuencia absoluta o relativa más alta, u observando
en un diagrama de arras cuál es la categoría a que corresponde la barra más alta. No se requiere ningún
cálculo. Puede no haber moda y cuando la hay, puede no ser única: bimodal.
✔ La mediana es un valor de la variable que deja por debajo y por encima de él la misma cantidad de casos, o
bien podemos decir que mediana (simbolizada Mdn) es aquel valor de la variable que deja la mitad de los
casos por encima de él y la otra mitad por debajo. Para determinar la mediana primero hay que ordenar los
datos de menor a mayor o a la inversa: 3 4 5 6 6 7 8 8 8 10 20. La mediana es 7 porque el valor 7 deja por
encima igual cantidad de casos que por debajo. Sin embargo cuando se tienen pocos casos, a veces se
presentan dificultades para determinar la mediana. Por ejemplo, puede ocurrir que el número de
observaciones sea par, como en los siguientes datos: 6 8 8 9 12 13 20 20. Luego la mediana se encuentra
entre los dos valores centrales y se la toma igual a un valor que equidista de los dos que ocupan un lugar
central en el ordenamiento. En el ejemplo: Mdn= (9+12) / 2= 10,5. La mediana NO PUEDE CALCULARSE en
escalas nominales.
→ Escala nominal: En datos de una escala nominal, la única medida de tendencia central que puede utilizarse
es el modo.
→ Escala ordinal: en este tipo de escalas, pueden calcularse el Modo y la Mediana, pero la Media aritmética no
puede calcularse aquí.
→ Escala intervalar y proporcional: modo, mediana y media aritmética.
1. Recorrido: se presenta con R y se define como la diferencia entre el puntaje o valor máximo observado y el
puntaje o valor mínimo observado. La parte importante de la fórmula es la diferencia entre P. máximo y P.
mínimo, porque esa diferencia es la que refleja la dispersión u heterogeneidad de los datos, cuanto mayor la
variabilidad mayor esta diferencia.
2. Amplitud semi-intercuartilar: se simboliza Q y se define como: Q: Q3-Q1. Sólo puede hallarse si saqué Mdn.
2
● Q2 es un valor que deja por debajo el 50% de los casos y que por lo tanto es igual a la mediana
● Q1 es un valor que deja por debajo un 25% de los casos
● Q3 es un valor que deja por debajo un 75% de los casos.
3. Varianza y desviación estándar: son índices que reflejan fundamentalmente la medida en que las
observaciones individuales se alejan de o se acercan a la media artimética. La desviación standard es el más
utilizado en estadística descriptiva y son desviaciones con respecto a la media. Es una medida de
variabilidad; cuanto mayor sea su valor, mayor la variabilidad del conjunto de datos a que se refiere. La
varianza es una medida de variabilidad, cuanto mayor su valor, mayor la variabilidad del conjunto de datos a
que se refiere. Su fórmula es: v: s2 Sólo puede hallarse si saqué la Media. Nunca puede ser negativa. Y nunca
puede ser igual o mayor que la Media.
CUARTILES: son valores que dividen el recorrido de una variable en cuatro partes de modo que en cada una de ellas
se encuentra un 25% (N/4) del total de los casos observados. Se definen de un modo muy semejante que la mediana
y son tres:
1. El Primer Cuartil (Q1): es un valor de la variable tal que por debajo de él se encuentra una cuarta parte de los
casos, o sea, un 25% de los casos. Nunca debe ser mayor o igual que la Mediana.
3
2. El Segundo Cuartil (Q2): es un valor de la variable tal que dos cuartas partes de los casos o sea, un 50% de los
casos, exhiben valores menores que él. Por lo tanto, es igual a la Mediana.
3. El Tercer Cuartil (Q3): es un valor de la variable tal que tres cuartas partes de los casos, o sea, el 75% de los
casos, acusan valores menores que él. Nunca menor o igual que la Mediana y Media.
Los cuartiles NO dividen el recorrido de la variable en cuatro partes iguales y se pueden averiguar en los tres tipos de
escalas cuantitativas: ordinal, intervalar y proporcional.
GRÁFICOS
El gráfico adecuado para representar datos de escalas nominales es el DIAGRAMA DE BARRAS. En el eje horizontal
se expresan las categorías de la variable y en el vertical se expresan las frecuencias absolutas. Cada categoría de la
variable es representada por una ‘’barra’’ cuya altura expresa la frecuencia que corresponde a la categoría
representada. Los rectángulos no contactan entre sí para denotar que las categorías de las variables difieren entre sí
cualitativamente, no existiendo continuidad entre ellas.
Para representar una distribución de frecuencia en escala intervalar o proporcional puede recurrirse al histograma o
al polígono de frecuencias. El HISTOGRAMA es muy semejante al gráfico de barras, ya que a cada valor de la variable
le corresponde un rectángulo, cuya altura representa la frecuencia. Una diferencia es que en el histograma los
rectángulos son adyacentes, lo cual indica que se trata de categorías contiguas, que difieren de grado. El EJE
HORIZONTAL se divide proporcionalmente de modo de indicar correctamente los valores de la variable, ya sea el
punto central de las clases o sus límites exactos (LI-LS) y en el EJE VERTICAL frecuencias absolutas o relativas.
En el POLÍGONO DE FRECUENCIAS el EJE VERTICAL expresa frecuencias absolutas o relativas o porcentajes y el EJE
HORIZONTAL valores de las variables en la forma de puntos centrales de las ‘’clases’’ (punto medio del intervalo)
La OJIVA es otra representación gráfica que puede efectuarse con datos de escala intervalar o proporcional. Lleva en
el eje de las ordenadas, frecuencias acumuladas relativas o porcentajes y en el eje de las abscisas se representan
valores de la variable en la forma de límites exactos superiores de las clases. (LS) Por lo tanto se requieren los
siguientes datos: LS y cuartiles (Q1, Q2 y Q3)
4
Para estudiar relaciones entre variables con datos de escalas nominales (se usará preferentemente el término
ASOCIACIÓN para referirse a una relación entre atributos categoriales) el primer paso, luego de efectuar las
observaciones pertinentes y disponer de los datos, es elaborar una tabla que se denomina tabla de doble entrada o
tabla de contingencia. Para que una tabla de doble entrada tenga sentido, las categorías deben ser exhaustivas y
mutuamente excluyentes; es decir que las categorías agoten las posibilidades de clasificación y un sujeto sólo puede
estar ubicado en una categoría. En la asociación, dos variables se encuentran asociadas donde una de ellas es
antecedente (sexo) y otra consecuente (menor cantidad de ingresos). Las dos variables tienen que ser cualitativas, o
bien una necesariamente cualitativa y otra cuantitativa. Por ejemplo: población nacional de 50 años o más según
asistencia a la escuela y área de residencia. O bien, interés en participar en determinadas actividades comunitarias
según el sexo de los encuestados.
El estudio de la relación entre variables medidas en escalas ordinales no puede hacerse en forma tan completa
como cuando se trata de escalas intervalares o proporcionales. No será posible describir la relación con una función
matemática, ni hablar de la ‘’forma’’ de la relación (lineal o no lineal por ejemplo) ni podrá disponerse de una
expresión matemática que permita calcular valores en la variable dependiente a partir de aquellos conocidos de la
variable independiente. Hablamos de RELACIÓN para hacer referencia a la relación entre dos variables
independientes entre sí. Se emplea este término para referirse a la relación entre variables cuantitativas, bien de
escala ordinal o intervalar. (A mayor vacunas, menor cantidad de veces irá uno del médico. O test de inteligencia, por
ejemplo).
Spearman, un psicólogo, propuso un procedimiento para determinar el grado de correlación con datos de escalas
ordinales que hoy se conoce como ‘’Coeficiente de relación por rangos de Spearman’’. Se trata de: a) Convertir las
puntuaciones ordinales a posiciones de orden o rango, asignando un rango de 1 al puntaje menor, un rango de 2 al
siguiente y así sucesivamente; el puntaje mayor tendrá un rango igual a N. Esto se hace en ambas variables; b)
calcular el coeficiente de Pearson entre los rangos. El procedimiento propuesto por Spearman también es aplicable
cuando se tienen ordenamientos directos de las unidades de observación.
El coeficiente rs (Spearman) se interpreta, en cuanto a su valor, como el coeficiente de correlación de Pearson, varía
entre -1 y 1 y rs=0 indica ausencia de correlación. El procedimiento de Spearman también es adecuado para el caso
de estudiar la correlación entre una variable medida en escala ordinal y otra en escala intervalar o proporcional,
como por ejemplo, cuando se determina la correlación entre un índice de ‘’tolerancia’’ (escala ordinal) y el número
de estudiantes universitarios cada 10.000 habitantes (escala proporcional) en 10 provincias argentinas.
Cuando hablamos de CORRELACIÓN hablamos de una relación entre causa y efecto, en el caso de variables de
escalas cuantitativas continuas: intervalar o proporcional. (Por ejemplo: mayor cantidad de horas de estudio mayor
rendimiento. A menor edad, mayor rendimiento físico) Cuando se tienen datos de escalas intervalares o
proporcionales, los procedimientos de análisis de las relaciones entre variables (emplearemos la expresión
correlación entre variables en este contexto) permiten:
El segundo paso en un análisis de correlación consiste en representar los datos en un gráfico, que se denomina
DIAGRAMA DE DISPERSIÓN. Para dibujar un diagrama de dispersión se recurre al sistema de coordenadas
cartesianas. En el eje horizontal se consignan los valores de la variable independiente (X) y en el eje vertical, los de la
variable dependiente (Y). En el diagrama de dispersión, a cada unidad de observación le corresponde un punto cuyas
coordenadas son sus valores X e Y. El conjunto de puntos en el diagrama se denomina nube de puntos.
Ecuación de la recta. Sólo podemos determinarla sacando previamente el índice de correlación de Pearson; y
siempre en el caso de variables cuantitativas continuas de escalas intervalares o proporcionales. En la ecuación de la
recta, la constante M puede ser positiva (cuando la relación es directa o positiva) o negativa (cuando la relación es
inversa o negativa) También puede ser igual a cero. La otra constante de la ecuación de la recta es designada con K y
se llama ordenada al origen o intercepto. La ordenada al origen es el valor de Y cuando X vale cero o bien el valor Y
que corresponde al punto en que la recta corta al eje vertical.
Después de obtener la correlación es necesario DETERMINAR EL PESO Y LA FUERZA de una variable sobre otra:
elevar la correlación al cuadrado para determinar la probabilidad de peso o fuerza sobre la otra.
✔ Una relación es lineal cuando a una variación de un valor determinado en X le corresponde siempre una
variación de un valor determinado en Y
✔ Una relación es no lineal cuando a una determinada variación en X corresponden variaciones en Y de
diferentes valores.
✔ Una relación es de sentido directo o positiva cuando, si una variable aumenta o disminuye, la otra también
aumenta o disminuye.
✔ Una relación es de sentido inverso, inversa o negativa cuando, si una aumenta (o disminuye), la otra
disminuye (o aumenta)
6
DATOS:
Escalas intervalares: test, puntuaciones, notas de curso. Existe aun con la ausencia de elementos que lo integran.
9)
Deciles: (proporcionales) son valores que dividen el recorrido de una variable en 10 partes. Cada una se encuentra
un 10% del total de los casos observados. Son nueve. Pueden estimarse gráficamente con una ojiva. Se obtiene a
través de la frecuencia porcentual relativa. .
Percentiles: (porcentajes – centiles) son valores que dividen el recorrido de una variable en 100 partes de modo que
en cada una de ellas se encuentre un 1% de los casos observados. Los percentiles se definen como los cuartiles y los
deciles. .
Asociación:
Hay una variable antecedente (rendimiento) y una variable consecuente (tipo de estudio).
Se refiere a una relación entre atributos categoriales.
Las tables de este tipo se llaman de doble entrada porque se puede entrar en ellas desde las columnas o
desde las hileras.
Se trata de un índice estadístico que expresa el grado en que dos atributos están asociados.
Este análisis de la asociación en tablas de doble entrada se utiliza cuando ambas variables constituyen
escalas nominales y cuando solo una lo es y la otra es ordinal, intervalar o proporcional.
7
Relación:
Correlación:
La tabla de distribución de x2 presenta valores críticos de x2 para diferentes niveles de significación y diferentes
grados de libertad.