Apunte Teórico de ESTADISTICA

UCES -LICENCIATURA EN CIENCIAS POLITICAS Y SOCIALES ESTADISTICA SOCIAL
MATERIAL DE ESTUDIO
GUIA DE TRABAJOS
PRACTICOS
Prof.: Mgtr. L. Mariel Cáceres

Contenidos por Unidad Temática
Unidad temática Nº 1 Introducción a la Estadística Social:
Definición de Estadística: estadística descriptiva e inferencial. Etapas de la metodología

estadística. Población y muestra. Tipos de variables estadísticas: Cualitativas, Cuantitativas
(discretas, continuas). Escalas de medición: nominal, ordinal, intervalo y razón. Tipos de
muestreo.
Unidad temática Nº 2 Distribuciones de frecuencia y su presentación grafica.
Distribución de frecuencias. Intervalo de clases y límites de clase. Construcción de una

distribución de frecuencia: de una variable cualitativa, de una variable discreta, de una
variable continua. Representaciones gráficas: construcción y análisis.
Unidad temática Nº 3: Medidas de posición y variación
Indicadores de tendencia central. La media aritmética: la media poblacional y la media

muestral. La moda: definición y cálculo. La mediana: definición y cálculo. Posiciones relativas
de la media, la mediana y la moda. Medidas de posición no centrales: Cuartiles, deciles y
percentiles: Definiciones, cálculo. Por qué se estudia la dispersión? Rango: Definición y
calculo. Varianza y desviación estándar: definición, propiedades y cálculo. Interpretación y
uso. Coeficiente de variación.
Unidad temática Nº 4 Cálculo de Probabilidad.
Definición de Probabilidad. Nociones básicas relacionadas: experimento aleatorio, sucesos,

espacio muestral, etc. Relación entre sucesos. Cálculo de probabilidades. Principales reglas
de probabilidad. Probabilidad condicional e independiente. Principales distribuciones de
probabilidad: binomial y normal.
Unidad temática Nº 5 Análisis de relaciones bivariadas
Relaciones bivariadas con variables cualitativas: Asociación. Coeficientes de asociación y

sus aplicaciones. El uso del Chi cuadrado.
Relaciones bivariadas cuantitativas: el modelo de regresión simple: supuestos básicos,

evaluación de la ecuación de regresión, el coeficiente de determinación y su interpretación.
El modelo de correlación simple: supuestos, el coeficiente de Pearson, interpretación.
Bibliografía de lectura obligatoria:
Levin, R.; Rubin, D. Estadistica para administración y economía. Pearson. Prentice

Hall. 2004
Pérez-Tejeda, H. Estadística para las ciencias sociales, del comportamiento y de la
salud. Cengage learning Editores, México. 2008
Johnson, R.; Kuby, P. Estadistica elemental. Lo esencial. Cengage learning Editores.
2011.
Spiegel, M. R. Estadística. Editorial McGraw-Hill, Madrid, España. 1991
Cortada de Kohan, N. Diseño estadístico. Editorial Eudeba Buenos Aires. 1994.
Freund, John; Simon, Gary; Estadística Elemental. Pearson Prentice Hall. 8ª edición.
Mexico. 1994
Bibliografía complementaria
Blalock, Hubert M. Estadística social. Fondo de Cultura Económica. México. 1986.

Sierra Bravo R Técnicas de investigación social. Teoría y ejercicios 10ma. Edición Ed.
Paraninfo. Madrid.1995
Cortada de Kohan, Nuria Diseño estadístico. Editorial Eudeba Buenos Aires. 1994
Unidad 1- Introducción a la Estadística Social:
Temas: Definición de Estadística: estadística descriptiva e inferencial. Etapas de la

metodología estadística. Población y muestra. Tipos de variables estadísticas:
Cualitativas, Cuantitativas (discretas, continuas). Escalas de medición: nominal,
ordinal, intervalo y razón. Tipos de muestreo.
INTRODUCCIÓN TEÓRICA
1. Definición e Importancia de la Estadística
La Estadística es una ciencia que tiene por objeto la recolección, presentación,

análisis e interpretación de observaciones o mediciones hechas sobre un conjunto
de objetos, personas, procesos, fenómenos, etc, y deducir de ello gracias al análisis
de estos datos unos significados precisos o unas previsiones para el futuro.
Hay que tener cuidado de no confundir los demás términos asociados con las
Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra
tiene tres significados: la palabra estadística, en primer término se usa para referirse
a la información estadística; también se utiliza para referirse al conjunto de técnicas
y métodos que se utilizan para analizar la información estadística; y el término
estadístico, en singular y en masculino, se refiere a una medida derivada de una
muestra.
Dos corrientes de influencia han conducido al desarrollo de los métodos estadísticos.
Una de ellas, tenía por objeto mantener en orden registros del gobierno (de hecho,
estado y estadística vienen de la misma raíz latina, status). De ella evolucionaron las
actividades de conteo, medición, descripción, tabulación, ordenamiento y
levantamiento censal, que conforman lo
que hoy conocemos como estadística
descriptiva.
La segunda corriente de influencia se
originó en las matemáticas de los juegos
de azar y condujo al desarrollo de la
estadística inferencial o inductiva,
basada fundamentalmente en el concepto de probabilidad matemática.
Estadística Descriptiva: La estadística descriptiva está dedicada a descubrir las
regularidades o características existentes en un conjunto de datos mediante la
utilización de gráficos y de medidas numéricas de resumen. En otras palabras,
resume y transforma datos para poder interpretar la información. A través de la

cuantificación y ordenamiento de los datos intenta explicar los fenómenos
observados, por lo que resulta una herramienta de suma utilidad para la toma de
decisiones. Tienen por objeto fundamental describir y analizar las características de
un conjunto de datos, obteniéndose de esa manera conclusiones sobre las
características de dicho conjunto y sobre las
relaciones existentes con otras poblaciones, a
fin de compararlas. No obstante puede no solo
referirse a la observación de todos los
elementos de una población (observación
exhaustiva) sino también a la descripción de los
elementos de una muestra (observación
parcial).
Estadística Inductiva o Inferencial: Está fundamentada en los resultados

obtenidos del análisis de una muestra de población, con el fin de inducir o inferir el
comportamiento o característica de la población, de donde procede, por lo que recibe
también el nombre de Inferencia estadística. En resumen, son procedimientos
estadísticos que se utilizan para
deducir o inferir algo acerca de un
conjunto de datos numéricos
(población), seleccionando un grupo
menor de ellos (muestra). El objetivo
de la inferencia en investigación
científica y tecnológica radica en
conocer clases numerosas de
objetos, personas o eventos a partir
de otras relativamente pequeñas
compuestas por los mismos
elementos. La Estadística inferencial
permite, mediante la utilización de métodos estadísticos basados en la teoría de las
probabilidades y en la incertidumbre siempre presente, generalizar las conclusiones
obtenidas a partir de una muestra a la población de la que ha sido extraída. Es
importante destacar que para que las conclusiones sean válidas, se debe tratar que
la muestra sea representativa de la población.
Campos de estudio
En la actualidad se aplica en las ciencias sociales como en política y psicología, en
las ciencias naturales (física, química, metereológicas) en la industria (producción y
control de calidad) en la administración industrial (Recursos humanos, materiales,
tiempos y movimientos etc.), en la economía, en las finanzas (inversiones, bolsas de
valores) en la agricultura (periodo de siembra, calendario de lluvia) en el comercio,
en la educación, en la medicina, y en cualquier planificación experimental o de
investigación que necesite rigor científico objetivo en su estudio y en la toma de
decisiones.
2. Población y muestra
La estadística está compuesta por métodos científicos mediante los cuales

primeramente se puede recolectar datos relativos a un conjunto de individuos u
observaciones que nos permiten extraer conclusiones válidas y efectuar decisiones
lógicas basadas en dichos análisis. En cualquier trabajo en el que se aplique, la
estadística debe hacer referencia a un conjunto de sujetos u objetos de análisis,
conocido como población.
Población o Universo: Es el conjunto de entidades u objetos que satisfacen una

definición común y en los que interesa analizar una o varias características. Aquí el
término población tiene un significado mucho más amplio que el usual, ya que puede
referirse a personas, cosas, actos, áreas geográficas e incluso al tiempo.
Una población se precisa como un conjunto finito o infinito de personas que
presentan características comunes, por lo que debe estar perfectamente definida en
el tiempo y en el espacio, de modo que ante la presencia de un potencial integrante
de la misma, se pueda decidir si forma parte o no de la población bajo estudio. Por
lo tanto, al definir una población, se debe cuidar que el conjunto de elementos que
la integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando las
escuelas primarias, debemos especificar cuáles y cuándo, por ejemplo: Escuelas
primarias de Caracas, año 1995. El tamaño de una población viene dado por la
cantidad de elementos que la componen. Generalmente se simboliza esta

información con la letra N, en el caso en que sea una población finita, es decir, que
podemos contabilizar y establecer un límite de existencia. Las características de la
población se resumen en valores llamados
parámetros.
Muestra: La mayoría de los estudios estadísticos, no se realizan sobre toda la
población sino sobre un subconjunto o una parte de ella, llamada muestra, partiendo
del supuesto de que este subconjunto
presenta el mismo comportamiento y
características que la población. En
general el tamaño de la muestra es
mucho menor al tamaño de la
población. Los valores o índices que se
concluyen de una muestra se llaman
estadígrafos o estadísticos y estos
mediante métodos inferenciales o
probabilísticos, se aproximan a los
parámetros poblacionales. Las muestras están compuestas por las unidades de
análisis de una población dada. Para que este subconjunto de unidades de análisis
sea de utilidad estadística, deben reunirse ciertos requisitos en la selección de los
elementos. Las causas por la cual se seleccionan muestras son muchas. Puede
ocurrir que la población que se defina tenga tamaño infinito (incontable), y en
consecuencia, no fuera posible observar a todos sus elementos. En otras ocasiones,
el costo de la observación exhaustiva puede ser muy elevado, el extenso tiempo de
recolección de la información, o más aún, la observación de los elementos puede ser
destructiva. En todos estos casos, la única manera de estudiar la población es
obteniendo muestras de ella. El tamaño de la muestra queda determinado por el
número de elementos que la forman y se simboliza con la letra n.
El mejor resultado para un proceso estadístico sería estudiar a toda la población.

Pero esto generalmente resulta imposible, ya sea porque supone un coste
económico alto o porque requiere demasiado tiempo. Frente a la dificultad de hacer
un censo (estudio de toda la población), se examina una muestra estadística que
representará a la totalidad de los sujetos. Con los resultados obtenidos mediante la
muestra, se intentará inferir las propiedades de todos los elementos, mediante la
estadística inferencial. La muestra elegida debe ser representativa de la población.

Las muestras tienen un nivel de confianza de la bondad con la que representan a
todos los sujetos, generalmente del 95% o superior.
Por ejemplo, supongamos que se realiza un control de calidad en una fábrica que
produce dvds en el transcurso de un día. Esta empresa produce un millón de dvds
diarios por lo que sería imposible para los controladores examinarlos todos. Por ello,
se elige una muestra de cien elementos para realizar dicho control.
Pero surge la siguiente pregunta: ¿Cómo elegimos la muestra?
La muestra se selecciona mediante un método de muestreo:
En la mayoría de los casos, no es posible estudiar a toda la población, y se elige
una muestra para representar a todos los individuos. Esta muestra debe ser
representativa de todas las características de todos los elementos.
El muestreo es el método de selección de una muestra a partir de una población.
3. TIPOS DE MUESTREO
Las muestras pueden ser elegidas mediante diversas técnicas o procedimientos.
Estas técnicas se clasifican según como sean elegidos los individuos. Se dividen en
dos grandes grupos:
3.1. MUESTREO PROBABILÍSTICO (o muestreo aleatorio)
Es un proceso de selección de individuos o unidad de análisis de manera que cada
sujeto tiene probabilidad positiva e independiente de ser seleccionado. Dentro del
muestro probabilístico se tiene:
3.1.1. Muestreo aleatorio simple:
Todos los individuos tienen la misma probabilidad de ser seleccionados. Las
observaciones se realizan con reemplazamiento, de forma que la población es igual
en todas las extracciones. En el caso de que se renuncie, por azar, a volver a
seleccionar en la muestra al mismo individuo, estaremos en el caso de método
aleatorio sin reemplazamiento. Supongamos que queremos elegir
una muestra de n individuos de una población de N sujetos: cada elemento tiene
probabilidad n/N de ser elegido en la muestra.
Cuándo utilizarlo:
El método de muestreo aleatorio simple debe utilizarse cuando los individuos de
la población son homogéneos respecto a las características a estudiar (es decir, a
priori no sabemos si los resultados van a ser muy diferentes por causa de otras
variables). Es poco recomendado cuando la población es muy grande

y heterogénea (los individuos presentan características dispares).
Los individuos pueden ser seleccionados por
cualquier proceso probabilístico que otorgue a
todos los elementos la misma probabilidad de
ser elegidos.
Ejemplos:
Sacar bolillas del bolillero: Los individuos de la
población se numeran del 1 al N. Extraemos n
bolillas del bolillero y la muestra serán los individuos seleccionados.
La muestra obtenida es una tal que todos los elementos tienen la misma probabilidad
de ser seleccionados.
Números aleatorios: Uno de los métodos más comunes de

seleccionar una muestra aleatoria es mediante números
aleatorios. Como en el método anterior, numeramos todos los
individuos del 1 al N. Generamos un número aleatorio entre 0 y 1, lo multiplicamos
por N y redondeamos siempre para arriba. El número aleatorio generado indica el
elemento que se seleccionará. Repetimos este proceso hasta que tengamos
la muestra aleatoria de n individuos. Durante este proceso, cuando algún elemento
se repite, se desestima y se vuelve a generar otro número aleatorio.
3.1.2. Muestreo aleatorio estratificado:

Los individuos se dividen en grupos o estratos. Cada elemento pertenece a un único
estrato .La muestra se elige escogiendo en cada estrato un número representativo
de individuos. La muestra se elige escogiendo en cada estrato un número
representativo de individuos. La elección de los elementos en cada estrato se realiza
mediante algún método de muestreo aleatorio simple o muestreo sistemático.
Suponemos que hay k estratos de tamaños N1, N2,…, Nk, de forma que:
En cada estrato se toman n1, n2,…, nk elementos para la muestra, de manera que se
toman en total n individuos, es decir:
El número de individuos de cada estrato se puede
elegir mediante los siguientes criterios:
-Por elección simple: se toman el mismo número de sujetos de cada uno de

los k estratos. De cada estrato se seleccionarían n/k individuos. Este criterio no es
recomendable cuando los estratos tienen diferente número de individuos.
-Elección proporcional al tamaño del estrato: el tamaño de la muestra en cada
grupo es proporcional a los elementos de dicho grupo. En cada estrato se
tomarán ni elementos, calculados mediante la fórmula:
Por ejemplo, suponemos que estamos
haciendo un estudio de la vista de la
población de una ciudad. Suponemos que el
30% de la población lleva gafas y el 70% no.
Mediante este método se escogería el 30%
de la muestra de personas que lleven gafas y el 70% de los que no.
-Elección proporcional a la variabilidad del estrato: si se conoce la variabilidad
de la característica que estamos tomando en cuenta en cada estrato, se toman los
sujetos proporcionalmente a ella en cada grupo. En los grupos donde la varianza es
mayor, se toman, por tanto, más sujetos. Se sigue la fórmula siguiente:
Cuándo utilizarlo:
Se utiliza el método de muestreo estratificado cuando los elementos se dividen en
estratos y estos estratos pueden ser diferenciales para la variable que se está
estudiando.
Por ejemplo, supongamos que hacen una encuesta para las elecciones en Argentina
y se sabe que el candidato del PRO tiene mayor influencia en las mujeres que el
candidato del FRENTE RENOVADOR. La muestra de la encuesta debería
estratificarse en hombres y mujeres, puesto que sabemos que la variable género
influye en la votación.
En las encuestas conocemos datos como la edad, sexo, nivel socioeconómico.
Conviene que la muestre tenga una composición proporcional a los individuos de
cada estrato.
Si los estratos son agrupaciones naturales y la característica que estudiamos puede

ser homogénea en cada uno de los grupos, nos podemos plantear utilizar el método
de muestreo por conglomerados. El método por estratificación funciona mejor
cuando más diferentes sean los estratos. El muestreo por conglomerados es mejor
cuando los grupos son más heterogeneos.
3.1.3. Muestreo aleatorio sistemático:

Se utiliza en muestras ordenadas. Consiste en seleccionar al azar un elemento y a
partir de él, ir incrementando en un intervalo fijo, hasta seleccionar toda la muestra.
Supongamos que tenemos una población de N individuos ordenados del 1 al N.
Queremos seleccionar una muestra de tamaño n. Sea k el entero más próximo
a N/n. Escogemos al azar un número i entre 1 y k (utilizando los números aleatorios,
sacar una bolilla de un bolillero, etc.). La muestra será el elemento i y los
elementos i+k, i+2k, etc. Es decir, el elemento k y los elementos a intervalos
fijos k hasta conseguir los n sujetos:
Ejemplo: Suponemos que queremos saber la opinión sobre un profesor de una clase
de 60 personas. Dichas personas están ordenadas por orden alfabético en la lista de
alumnos de clase. Para realizar la encuesta, seleccionamos a 12 personas. Por lo
tanto, N=60 y n=12. El intervalo fijo entre sujetos es:

Ahora elegimos al azar un número entre 1 y k=5. Suponemos que nos sale i=2. La
muestra resultado mediante el muestreo sistemático será:
Cuando utilizarlo: La ventaja del método de muestreo sistemático respecto
al muestreo aleatorio simple es su sencillez. El método de muestreo sistemático.

El método de muestreo sistemático es más potente que el muestreo simple cuando
el orden de los datos influye en que los sujetos próximos son semejantes.
3.1.4. Muestreo aleatorio por conglomerados:

La población está dividida en conglomerados naturales (provincias, ciudades, etc.).
Se seleccionan algunos conglomerados y se toman en representación de toda
la población. Se utiliza cuando la población está agrupada en conglomerados
naturales.
Si se supone que los conglomerados son muestra significativa de la variable que se
está estudiando, se puede seleccionar algunos conglomerados al azar (todos los
conglomerados deben tener las mismas probabilidades de ser seleccionados) y
utilizarlos en representación de la población. Una vez seleccionados los
conglomerados, el estudio se simplifica puesto que
hay menos individuos en el análisis. El investigador
debe elegir si estudiar a todos los sujetos de los
conglomerados seleccionados o seleccionar
una muestra mediante el método de muestreo aleatorio
simple o muestreo sistemático.
Ejemplo: conglomerado geográfico
En la práctica, el conglomerado más utilizado es el geográfico. Si queremos hacer

un estudio en un país, podemos dividir el país en conglomerados como las
comunidades, provincias, ciudades, etc.
Supongamos que el Ministerio de Salud quiere realizar un estudio sobre la eficacia
deun tratamiento ayuda a prevenir el cáncer de colon en el país. Si en los datos
históricos se observa que la incidencia y comportamiento del cáncer es parecido en
todas las comunidades, podríamos dividir el país en comunidades y seleccionar
algunas. Mediante el muestreo por conglomerados se reducen notablemente los
individuos a estudiar, lo que implica reducir los costes económicos.
Cuando utilizarlo: Se utiliza el muestreo por conglomerados cuando los grupos

son muy heterogéneos y no existen muchas diferencias entre conglomerados. Se
utiliza el muestreo estratificado cuando los grupos o estratos son muy homogéneos
internamente y diferentes entre ellos. El inconveniente de este método es que se
puede suponer una heterogeneidad que no existe. Supongamos que se realiza una
encuesta de opinión en diferentes comunidades por las reformas en educación
realizadas por el gobierno en el último mes. Se podría deducir que no existirán
diferencias significativas en la opinión de las diferentes regiones, pero resulta que en

las comunidades más ricas pueden tener una opinión muy diferente a las pobres.
3.2. MUESTREO NO PROBABILÍSTICO (o muestreo no aleatorio):

La selección de los individuos se basa en el criterio del investigador. No se conoce
la probabilidad de que cada individuo sea elegido en la muestra.
4. VARIABLES
Una variable es una característica de interés que se puede observar y medir en cada
una de las unidades de análisis de la muestra o población. Esta característica debe
tener una variabilidad mínima conocida o no.
Ejemplo: Si la unidad de análisis es cada persona de una población, las variables
pueden ser: el ingreso de cada persona, el sexo, la edad, el grado de educación, el
tipo de vivienda, etc.
4.1. Tipos de variables:
Las variables se dividen de acuerdo al origen de la característica que se estudia. Se

pueden distinguir dos tipos: cualitativa si la característica es un atributo y cuantitativa
si la característica puede ser expresada por un valor numérico.
Variable cuantitativa: es aquella que toma valores numéricos. Dentro de ella, se

subdividen en:
 Continua: Los valores son generados a partir de una medición. Pueden tomar
cualquier valor dentro de un intervalo. Ej. Peso, estatura, sueldos.
 Discreta: Los valores son generados a partir de la acción de contar. Solo toma
valores enteros. Ej. N° de hijos de una familia, n° de alumnos de un curso.
Variable cualitativa: es aquella que describe cualidades o atributos. No son

numéricas y se subdividen en:
 Nominal: son cualidades sin orden. Ej. Estado civil, preferencia por
una marca, sexo, lugar de residencia.
 Ordinal: son cualidades que representan un orden y jerarquía. Ej.
Nivel educacional, días de la semana, calidad de la atención, nivel
socioeconómico.
4.2. Medición de variables. Escalas de Medición
La medición es el proceso por el cual el investigador o estadístico asigna valores

numéricos o signos predeterminados a las variables.
Ejemplos:
La variable “peso” de una persona se mide con la balanza y se le asigna el valor que
aparece en ella, ej: 65 kg. La variable “sexo”: el investigador puede asignar el símbolo
“1” si es hombre y el símbolo “2 si es mujer. La variable “nivel socioeconómico” puede
recibir el símbolo “A” si es nivel alto, “B” si es medio y “C” si es bajo.
En una medición se puede elegir distintas escalas de acuerdo con las operaciones y
métodos estadísticos que se quieran aplicar a los valores de las variables. Expresan
el grado de precisión de la variable. Existen distintas escalas entre ellas:
Escala Nominal: Es el tipo más limitado de medición que puede tener una variable.
Se emplea para hacer referencia a los datos que sólo pueden clasificarse en
categorías, es decir, se aplica a aquellas variables que no pueden medirse mediante

escalas numéricas, se pueden usar símbolos que sólo funcionaría como “etiquetas”:
Escala Ordinal: Esta escala presenta diferentes niveles de medida entre sus
categorías, una mayor que otra, de tal forma que todas tienen diferente valor
subjetivo. Si utiliza símbolos, éstos quedan ordenados de acuerdo al grado de la
categoría de la variable. Ejemplo:
Calidad del
servicio de salud
Muy bueno 1
Bueno 2
Malo 3
Escala de Intervalo: Esta escala de medición presenta las mismas características

básicas que tiene la escala ordinal, salvo que en ésta es posible establecer valores
numéricos constantes en las diversas categorías, y por ello establecer medidas o
cuantificaciones entre unas y otras. Un ejemplo de este tipo de escala es la medición
de la temperatura ambiente; una temperatura normal será para un determinado lugar
23°C, pero bien podría estar en un intervalo entre 25°C y 28°C. Observe que el cero
(0°C) en este tipo de escala es arbitrario, ya que 0°C en el ambiente no significa que
no haya temperatura, sino sólo un determinado estado de calor o sensación de frío.
Escala de razón: Es el nivel de medición más alto. Esta escala tiene todas las
características que presenta la escala de intervalo, es decir, las categorías se
especifican con números.
Su gran diferencia con respecto a la escala de intervalo es, por un
lado, que en la escala de razón el punto cero sí es significativo, y por otro, el
cociente o razón entre dos números de la escala también lo es.
Ejemplo: La variable gasto diario en transporte de un alumno de la universidad, en
esta escala el 0 significa que no hizo gastos y se puede decir si un alumno gasta el
doble o la mitad de otro.
Las escalas están íntimamente relacionadas con el tipo de variable, indicando las
posibilidades de medición de cada una. Esto se puede ver en el siguiente gráfico:
UNIDAD 2: Estadística Descriptiva
Temas: Tablas de Frecuencias para variables cualitativas y cuantitativas.
Hasta ahora hemos aprendido a diferenciar distintos tipos de variables y su escala

de medición, además reconocer la estructura cuatripartita de un dato. Una vez que
contamos con los datos observados, la estadística nos provee de herramientas para
organizarlos y presentarlos de una forma clara y simple.
Supongamos que se realiza una encuesta a 150 personas y en el cuestionario

utilizado una de las preguntas era el sexo de las personas que habitan la vivienda:
Sexo 1 femenino
2 masculino
Con la información obtenida se realiza el siguiente cuadro:
Sexo fi fr fr% =fr*100
Femenino 86 0,57 57
masculino 64 0,43 43
n (Total) 150 1,00 100
Como sabemos la variable analizada es de tipo cualitativa nominal. El cuadro

confeccionado posee cuatro columnas. En la primera, se coloca el nombre de la
variable y en las filas debajo de él, los valores que puede tomar (observar que
también se podría colocar el valor “1” que correspondería al valor “femenino” y el “2”
que correspondería a “masculino”). En la siguiente columna observamos una “f” que
es el símbolo de “frecuencia absoluta”:
La frecuencia absoluta “fi” es la cantidad de casos que se encuentran o repite del

valor de la variable.
Aclaración: el subíndice “i” indica cada una de las frecuencias absolutas que
corresponden a cada valor de la variable.
Decimos entonces que 86 personas contestaron ser de sexo “femenino” y 64

personas contestaron ser de sexo “masculino”. Si sumamos esos valores da como
resultado el total de personas encuestadas, es decir 150, a este valor llamamos “n”,
que vendría a ser la cantidad de unidad de análisis que conforman nuestra muestra.
La columna que sigue simbolizada por “fr” es la frecuencia relativa, se calcula con la
siguiente fórmula:
𝑓𝑖
𝑓𝑟 =
𝑛
Y muestra la proporción de personas que son de cada sexo. En la siguiente columna

agregamos a “fr%” que se calcula multiplicando cada valor de fr por 100. Y nos aclara
un poco más informándonos el porcentaje de personas que corresponden a cada
sexo. Observar que las sumas de las fr deben dar como resultado al entero “1” ya
que son partes de un todo, y la suma de las fr% debe ser 100%. Estas sumas también
son verificaciones que se debe hacer en la tabla.
También se realiza la primera verificación en la tabla: la suma de todas las

frecuencias absolutas debe ser igual al total de personas encuestadas o muestra
analizada, simbolizada por n, es decir:
En este caso la sumatoria de todas las fi tendría que ser igual a 150. Se coloca esta
suma en la última fila de las fi.
Luego de completar esta tabla denominada de frecuencias, se pueden representar

los datos utilizando gráficos:
Sexo
43% Femenino
57%
masculino
Gráfico de barras Gráfico de torta
El primer gráfico se denomina de barras, se grafica sobre un sistema de ejes

cartesianos, donde el eje vertical o eje de las “y” corresponde a las frecuencias
absolutas y el eje horizontal o eje de las “x” corresponde a la variable. Entonces se
fijan los valores de las frecuencias absolutas con una escala acorde en el eje vertical
y se escriben los valores que toma la variable en el eje horizontal. Luego se levanta
en cada valor de la variable unas barras rectangulares hasta una altura indicativa de
la frecuencia absoluta correspondiente.
Otro gráfico que se puede elaborar es el circular o de torta, que también es muy
utilizado para las variables cualitativas, generalmente se indica en él las frecuencias
relativas porcentuales.
Lo importante de un gráfico es que se puede ver la información de la tabla de

frecuencias de forma más clara y rápidamente entendible, cualquiera puede notar a
simple vista que en el estudio de esta variable, hay más personas de sexo femenino
que masculino en la muestra analizada.
Para variables cuantitativas: Caso de valores sin agrupar
También en la misma encuesta se puede pedir al encuestado que escriba la cantidad

de personas que viven en la vivienda, y con los datos recopilados se elabora la
siguiente tabla:
Tabla: Distribución de frecuencias de encuestados según número de personas
Número de
personas en
f fr fr% =fr*100
la
vivienda
1 4 0,03 3
2 10 0,07 7
3 13 0,09 9
4 41 0,27 27
5 24 0,16 16
6 26 0,17 17
7 32 0,21 21
n (total) 150 1,00 100
Como sabemos, la clasificación de la variable estudiada “número de personas que

vive en la vivienda” es cuantitativa discreta, los valores son solo enteros, no hay
fracciones de personas para contar. En este estudio se escriben los valores de la
variable sin agrupar y de forma ordenada de menor a mayor. En las siguientes
columnas se observan las frecuencias ya vistas anteriormente y con el mismo
significado.
Caso de valores agrupados
Generalmente los valores de las variables cuantitativas no suelen ser tan pocos
como en la tabla anterior. Y se complica más si la variable es cuantitativa continua,
ya que es casi imposible que dos valores sean iguales y tendríamos tantos valores
como personas encuestadas (ejemplo si se le preguntara la altura de cada una). Para
ello se utiliza la tabla de frecuencias con valores agrupados en clases o intervalos.
La tabla anterior podría escribirse:
Tabla: distribución de frecuencias con datos agrupados
Número de
personas en
fi xi fr fr% =fr*100
la
vivienda
1-2 4 1,5 0,03 3 Valores ≥ 1
Amplitud
2-3 10 2,5 0,07 7 y<2
=1
3-4 13 3,5 0,09 9
4-5 41 4,5 0,27 27
5-6 24 5,5 0,16 16
6-7 26 6,5 0,17 17
7-8 31 7,5 0,21 21
n (total) 150 1,00 100
Donde cada valor de la variable es un intervalo con un “límite inferior” y un “límite

superior”. En la primer clase o intervalo los valores que tomaría la variable serían:
todos aquellos mayores o iguales a 1 y menores que 2. En el siguiente intervalo
sería: los valores mayores o iguales que 2 y menores que 3, y así sucesivamente
hasta llegar al último intervalo donde el mayor valor sería menor a 8. Esta forma de
elaborar las clases posee un límite inferior “cerrado” y un límite superior “abierto”
porque la variable nunca toma el valor del límite superior en cada clase. Sirve tanto
para variables cuantitativas discretas como continuas.
Cuando elaboramos una tabla de frecuencias con datos agrupados agregamos

también una columna con el valor medio del intervalo de clase o marca de clase, la
simbolizamos con “xi”. Para calcularla se suman dos limites inferiores consecutivos
y se divide el resultado por 2.
Vemos también que hay una amplitud de intervalo, es decir la distancia que existe
entre un intervalo y otro, en este ejemplo la amplitud es de 1 unidad. Se calcula como
la diferencia entre un límite inferior y otro consecutivo.
El gráfico que se utiliza en este caso de variables cuantitativas con datos agrupados
es el histograma:
En este gráfico las barras “se tocan” indicando los intervalos de clases.
Bibliografía:
Johnson, R. y Kuby, P. (2012). Estadística Elemental. 11ª Ed. Cengage Learning. Mexico
DF
Perez Tejada, H. E. (2008). Estadística para las Ciencias Sociales, del comportamiento.
3°ed. Cengage Learning. Mexico DF.
UNIDAD 3: Medidas de posición y variación

Temas: Indicadores de tendencia central. La media aritmética: la media poblacional y la
media muestral. La moda: definición y cálculo. La mediana: definición y cálculo. Posiciones
relativas de la media, la mediana y la moda. Medidas de posición no centrales: Cuartiles,
deciles y percentiles: Definiciones, cálculo. Por qué se estudia la dispersión? Rango:
Definición y calculo. Varianza y desviación estándar: definición, propiedades y cálculo.
Interpretación y uso. Coeficiente de variación.
Hemos realizado hasta ahora la organización y la representación de datos

recopilados. La estadística en este momento nos presentará las herramientas
necesarias para el resumen de la información. Muchas veces necesitamos comparar
muestras, por ejemplo “niveles de lectura” de distintos grupos de alumnos, o
“edades” en las que son preponderantes ciertos estados de ansiedad. Sería muy
difícil si analizáramos los valores uno por uno, no podríamos llegar a alguna
conclusión. Lo que comúnmente se hace es comparar el promedio de los valores
entre cada grupo (lo que hacen ustedes cuando promedian sus notas de los
exámenes). Estadísticamente sería calcular un estadístico que nos permita
determinar la posición de un grupo y otro de la variable analizada. Este tipo de
estadísticos se utiliza para darnos idea de alrededor de qué valores de la variable se
halla la muestra, es decir que el estadístico estará situado en el centro de los valores
de la muestra. Algunos de las medidas de tendencia central son la media aritmética,
mediana y moda. Hay otras, pero nosotros solo estudiaremos estas 3, primeramente
para datos sin agrupar y luego para datos agrupados en una tabla de frecuencias.
1. Para datos sin agrupar:
Media aritmética
La media aritmética o solamente “media” y simbolizada por 𝑥̅ puede calcularse,

para datos sin agrupar, realizando la suma de todos los valores y dividiendo este
resultado por la cantidad de datos (como realizas el promedio de tus notas). En
símbolos matemáticos sería:
∑ 𝑥𝑖
𝑥̅ =
𝑛
Donde xi representa a cada uno de los datos observados en la muestra y el
símbolo ∑ indica la sumatoria de todos esos valores (desde i hasta n).
Por ejemplo si tenemos 4 niños cuyas edades son: 4, 3, 2, 4.

∑ 𝑥𝑖 4+3+2+4 14
La media sería: 𝑥̅ = = = = 3,5 𝑎ñ𝑜𝑠
𝑛 4 4
Mediana:
La mediana se define como el valor de la variable que se encuentra en la mitad de

la cantidad de las observaciones, es decir aquel que por encima y debajo del cual
hay la misma cantidad de observaciones. También se dice que es aquel deja el 50%
de los datos hacia un lado y el otro. Primeramente para calcularla hay que ordenar
los datos de menor a mayor o de mayor a menor, aunque nosotros siempre lo
haremos de la primera forma. Si tomamos los datos del ejemplo anterior, las edades
de los niños ordenadas quedarían: 2,3,4,4. Observamos que si algún dato está
repetido se lo escribe tantas veces como se repite. Ahora buscamos el dato que se
encuentra en la mitad, como la cantidad de datos en par, no podemos elegir un valor
que deje por encima y por dabajo la misma cantidad de valores, entonces elegimos
los dos que están en la mitad y calculamos su promedio:
Me=(3+4) / 2= 7/2= 3,5 años
2, 3, 4, 4
Al tomar los dos valores del medio, quedan un valor (el 2) hacia la izquierda, y un
valor (el 4) hacia la derecha. En este caso la mediana, que simbolizamos con “Me”
coincidió en valor con la media, no es necesario que lo haga. Si tuviéramos una
cantidad impar de valores encontraríamos un valor solo que dejaría hacia un lado y
otro la misma cantidad de observaciones y no calcularíamos el promedio.
Gráficamente la Mediana es como la línea central que divide al campo de juego en

dos partes iguales:
Moda o Modo
El Modo o moda que simbolizamos como “Mo” es el valor que más se repite dentro
de la muestra, en nuestro ejemplo: 2, 3, 4, 4
Vemos que el valor 4 se repite dos veces, entonces es nuestra Moda.
2. Para datos agrupados (para profundizar):
Media:
Si tenemos datos agrupados como en el ejemplo de la cantidad de personas en una

vivienda, cuya tabla de frecuencias había sido:
Tabla: distribución de frecuencias
Número de
personas en
fi xi fr fr% = fr*100 fi * xi
la
vivienda
1-2 4 1,5 0,03 3 6 4 x 1,5 = 6
2-3 10 2,5 0,07 7 25
3-4 13 3,5 0,09 9 45,5
4-5 41 4,5 0,27 27 184,5
5-6 24 5,5 0,16 16 132
6-7 26 6,5 0,17 17 169
7-8 31 7,5 0,21 21 232,5
n (total) 150 1,00 100 794,5
Cuando tenemos los datos agrupados, veremos que ya no podemos trabajar con los
valores del intervalo (límite inferior y superior) para ello habíamos calculado la marca
de clase xi. Este valor de ahora en más representa a cada intervalo o clase. Entonces
para calcular la media usaremos este valor y su correspondiente frecuencia absoluta.
En esta tabla agregamos una columna a la derecha donde calcularemos los
productos entre fi y xi. Luego realizamos la suma de esos valores y lo dividimos por
la cantidad de datos n, en símbolos matemáticos sería:
∑(𝑓𝑖 ∗ 𝑥𝑖) 794,5

𝑥̅ = = = 5,293 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑣𝑖𝑣𝑖𝑒𝑛𝑑𝑎
𝑛 150
Este valor de la media nos dice que en promedio hay 5,293 personas en cada
vivienda. El valor puede redondearse a 5,3. Es un valor de tendencia central, es decir
que en algunas viviendas puede haber más o menos personas que ese valor.
Mediana
La mediana de valores agrupados la determinamos de la siguiente forma, en la tabla

anterior agregamos una columna donde calculamos las frecuencias acumuladas Fi:
Tabla: distribución de frecuencias
Número de
personas en
fi xi fr fr% = fr*100 fi * xi Fi
la
vivienda
1-2 4 1,5 0,03 3 6 4
2-3 10 2,5 0,07 7 25 14
3-4 13 3,5 0,09 9 45,5 27
4-5 41 4,5 0,27 27 184,5 68
5-6 24 5,5 0,16 16 132 92
6-7 26 6,5 0,17 17 169 118
Debe ser
7-8 32 7,5 0,21 21 240 150 igual a n
n (total) 150 1,00 100 802
Primero se escribe en la primera fila de las Fi el primer valor de fi (el 4 en el ejemplo)
luego en las siguientes filas se van sumando consecutivamente cada valor de fi
correspondiente: por ejemplo, en la segunda fila de las Fi sumamos al valor anterior

(el 4) el fi correspondiente al segundo intervalo (el 10), y así continuamos hasta
completar. Una verificación es que el ultimo valor de Fi debe ser igual a n, ya que
acumulamos todas las frecuencias absolutas.
Una vez completada esta columna, nos servirá para ubicar a la mediana. Sabemos
que la Me se ubica en la mitad de la cantidad de la muestra. Si dividimos por 2 el
valor de n, en este caso: 150/2= 75, en la ubicación 75 tendría que estar el valor de
la Mediana. Si observamos la tabla el valor que se ubica en la posición 75 lo
encontraremos en las frecuencias acumuladas Fi, buscamos al intervalo que
contenga por primera vez este valor, vemos que es el que contiene hasta la posición
92, ya que el anterior solo contiene hasta la ubicación 68. Elegimos el valor 92 y
observamos qué valor de xi lo representa, vemos que es 5,5 personas en la vivienda,
entonces este valor es la Mediana aproximada. También podemos decir que la
Mediana se encuentra en el intervalo que corresponde al valor de Fi elegido; en este
caso sería el intervalo 5-6.
Moda
Como sabemos el concepto de moda es aquel valor de la variable al que le

corresponde la mayor frecuencia absoluta. Observamos la tabla anterior y buscamos
el mayor valor de fi, en este caso es el fi=41. Buscamos entonces el valor de xi que
corresponde a esta frecuencia absoluta y vemos que es el 4,5. Decimos entonces
que la moda aproximada es 4,5 personas en la vivienda. También se puede decir
que la moda se ubica en el intervalo que corresponde al valor fi=41, en este caso
sería el intervalo 4-5.
Es importante aclarar que al calcular las medidas de tendencia central de datos

agrupados, estos resultados son todos aproximados, ya que no trabajamos más con
los valores originales recopilados, sino agrupados en intervalos de clase. Si
graficamos nuevamente el histograma de este ejemplo, podremos colocar en él las
medidas de posición central:
Mo= 𝑥ҧ = 5,3 Me= 5,5

4,5
Gráfico: Histograma con la distribución de frecuencias y la ubicación de las medidas de posición central
Para variables cualitativas
La única medida de posición que determinaremos para este tipo de variable es la

Moda, se puede también en algunos casos identificar la Mediana, pero nosotros solo
utilizaremos la primera. En el ejemplo del sexo de las personas encuestadas
teníamos la tabla de frecuencias:
Tabla: de distribución de frecuencias según sexo
Sexo fi fr fr% =fr*100
Femenino 86 0,57 57
masculino 64 0,43 43
n (Total) 150 1,00 100
Donde ubicaremos a la Moda identificando, como en el caso anterior, la mayor

frecuencia absoluta, en este caso el 86, que corresponde al valor de la variable
“Femenino”. Entonces decimos que la Moda en el ejemplo es “Femenino” ya que es
el valor que más se repite.
Asimetría
Una distribución es simétrica si las medidas de posición coinciden, en especial si la

media coincide con la mediana. En distribuciones asimétricas la media y la mediana
no coinciden. La asimetría determina si las frecuencias absolutas se concentran más
hacia valores bajos de la variable, llamada asimetría positiva o hacia la izquierda, o
hacia los valores altos de la variable llamada asimetría negativa o hacia la derecha.
Además podemos identificar de forma aproximada una asimetría de la siguiente
manera:
Posición relativa de la Media y Asimetría de la distribución

Mediana
𝑥ҧ = 𝑀𝑒 Simétrica
𝑥ҧ < 𝑀𝑒 Asimetría a la izquierda
𝑥ҧ > 𝑀𝑒 Asimetría a la derecha
Análisis descriptivo de datos utilizando software
Vamos a utilizar el programa Excel para realizar un resumen estadístico descriptivo.

Puedes utilizar cualquier equipo (notebook, tableta, celular).
Ejemplo: A partir de los valores del problema del número de personas en la

vivienda:
1. Abrimos una hoja de Excel en el equipo

2. Escribimos en una columna el nombre de la variable y debajo todos los valores

de la misma:
3. Luego vamos a la pestaña “Datos” y a “Análisis de Datos”:
4. Al hacer click sobre “Análisis de Datos” se abre una ficha, buscar “estadística
descriptiva”:
5. Al dar “aceptar” en estadística descriptiva se abre otra ficha, donde vamos a

incorporar los datos que hemos cargado, en “Rango de entrada” tomamos los
datos desde el titulo sombrando hasta el último dato. Quedan cargadas las celdas
donde se encuentran todos los datos:
Datos cargados
Tildar
Tildar
6. Dar Aceptar y los resultados aparecerán en una hoja nueva:
7. Comparar con los resultados obtenidos antes.
Bibliografía:
Johnson, R. y Kuby, P. (2012). Estadística Elemental. 11ª Ed. Cengage Learning. Mexico DF
Spiegel, M. R. Estadística. (1991). Editorial McGraw-Hill. España.
Pérez-Tejeda, H. (2008). Estadística para las ciencias sociales, del comportamiento y de la
salud. Cengage learning. México.
Unidad temática 4: Cálculo de Probabilidad.
Temas: Definición de Probabilidad. Nociones básicas relacionadas: experimento

aleatorio, sucesos, espacio muestral, etc. Relación entre sucesos. Cálculo de
probabilidades. Principales reglas de probabilidad. Probabilidad condicional e
independiente. Principales distribuciones de probabilidad: binomial y normal.
La historia de la probabilidad comienza con los juegos de azar (siglo XVII) con los
primeros cálculos sobre la probabilidad de ganar una partida. Pero la idea de
probabilidad no solo está ligada a los juegos sino al azar mismo de los sucesos como
encuestas, censos, votaciones. Actualmente se la considera una ciencia aplicable a
todo conocimiento humano aportando la incertidumbre, indispensable y necesaria
para tomar decisiones en cualquier ámbito.
Comenzamos con un ejemplo para su cálculo: podemos estudiar la cantidad de

ciudadanos de un grupo de 30 que tienen casa propia. Los resultados son los
presentados en el siguiente cuadro.
Tienen Cant. de
casa propia ciudadanos
(fi)
SI 12
NO 18
Total 30
Escritos de esta manera nos recuerda a la tabla de frecuencias, donde vemos las
frecuencias absolutas de los ciudadanos que tienen casa propia y los que no.
Podemos también agregar la frecuencia relativa y la relativa porcentual:
Tienen Cant. de h h%
casa propia ciudadanos
(fi)
SI 12 0,4 40
NO 18 0,6 60
Total 30 1 100
Y decimos que en la muestra el 40% de los ciudadanos tienen casa propia. También
podemos decir que en esta muestra de 30 ciudadanos es más probable que haya
personas sin casa propia (ya que el porcentaje de los que no son propietarios es
mayor). Esta noción de probabilidad está relacionada con la frecuencia relativa, ya
que podemos definir a la probabilidad como:
𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑓𝑖
𝑝= =
𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 𝑛
La probabilidad (p) es la relación entre los casos favorables (frecuencia absoluta fi)
y los casos posibles (total de la muestra n). Esta probabilidad se llama “a posteriori”
o “frecuencial” ya que se relaciona con la frecuencia relativa antes calculada. Esta
frecuencia se calcula luego de ocurrido el hecho o experimentación, por eso se llama
“a posteriori”.
Otra definición de la probabilidad es la llamada “a priori” o probabilidad clásica, se

usa generalmente en los juegos de azar. Por ejemplo si se tiene un dado la
probabilidad de que salga un 2 sería:
p= 1/6 = 0,1667
Es decir hay un caso favorable (el dado tiene una cara con un 2) entre 6 posibles (el
dado tiene 6 caras en total). Esta probabilidad se puede calcular antes de realizar el
hecho ya que se sabe de anticipado el caso favorable y los posibles.
Este tipo de probabilidad solo se calcula como una anticipación al hecho, veamos
otro ejemplo: cuál es la probabilidad de que una mujer embarazada tengo un hijo
varón?, biológicamente podrá tener dos tipos de sexo, por lo que la probabilidad es
de 0,5 para cada uno. Pero si calculamos la probabilidad frecuencial de que nazcan
mujeres o varones (es decir luego de que hayan nacido), esta probabilidad puede
ser distinta.
La probabilidad debe cumplir ciertas leyes: (Reglas de Lapace)

1.- La probabilidad es un valor que se encuentra entre 0 y 1, en símbolos

matemáticos:
0≥p≤1
Asume el valor 0, cuando el suceso es imposible, y el valor 1 cuando el suceso es

seguro que ocurra.
2.- Regla de la suma: si dos sucesos A y B son excluyentes es decir no pueden

ocurrir a la vez, entonces la probabilidad de obtener A o B es:
P(AóB)= p(A)+p(B)
En nuestro ejemplo anterior:
Si llamamos suceso A= el alumno puede resolver el problema matemático,
Y suceso B= el alumno no puede resolver el problema matemático.Entonces:
p(AóB)= o,4+o,6= 1
Se dice que los sucesos A y B son excluyentes, ya que no pueden ocurrir

simultáneamente en un mismo alumno.
También comprobamos la ley de cierre en este caso: la suma de las probabilidades

de todos los sucesos excluyentes posibles debe ser igual a 1.
3.- Regla de la multiplicación: para dos sucesos A y B compatibles, la probabilidad

de que ocurra A y B:
P(AyB)= p(A)* p(B)
Y para sucesos condicionales, la probabilidad de que ocurra A, dado que ya ocurrió

B es:
P(A/B)= p(AyB) / p(B)
Parte II: Distribuciones de probabilidad
a.- Distribución Binomial (para variables discretas)

Se aplica en situaciones donde los sucesos solo tienen dos posibles resultados: uno
llamado éxito y otro fracaso. Por ejemplo un paciente puede ser varón o mujer, puede
aprobar o no un examen, puede tener conducta agresiva o no. Es muy común la
respuesta SI-NO, todas ellas pueden ser analizadas como distribución binomial. La
probabilidad de éxito la simbolizamos como p y la de fracaso con la letra q. Como
son sucesos excluyentes, sabemos que: p+q=1. Y podemos calcular la probabilidad
de que un hecho ocurra x veces en n pruebas de la siguiente manera:
𝑝(𝑥) = 𝐶𝑛𝑥 𝑝 𝑥 𝑞 𝑛−𝑥
El símbolo 𝐶𝑛𝑥 es la combinatoria de x elementos tomados de a n.
Por ejemplo: ¿Cuál es la probabilidad de que en 6 nacimientos en un sanatorio

nazcan dos mujeres?
La probabilidad de éxito de que nazca una niña es la probabilidad a priori p=0,5;

por lo que q= 1-0,5= 0,5. Entonces quedaría:
𝑝(𝑥) = 𝐶62 ∗ 0,52 ∗ 0,56−2
Calculamos 𝐶62 en la calculadora científica, con la tecla 𝐶𝑛𝑟 y luego las demás
potencias y productos, lo tecleamos todo en la calculadora:
𝑝(𝑥) = 𝐶62 ∗ 0,52 ∗ 0,56−2 = 0,234 =
La probabilidad de que nazcan dos niñas en 6 nacimientos es de 0,234.
b.- Distribución Normal (para variables continuas):
Las distribuciones de frecuencias de muchas variables psicológicas (como los

valores de un test) se distribuyen normalmente, es decir alrededor de una curva muy
conocida llamada curva normal o curva de Gauss, como se ve en el siguiente ejemplo
de medición de alturas de 1000 personas:
La curva de distribución normal es una gráfica de una función matemática que nos
sirve de modelo, cuyo eje horizontal corresponde a los valores de la variable
estandarizada z:
Esta gráfica tiene propiedades que la hacen especial:
 Sirve para cualquier variable continua, transformando sus valores en

puntuaciones z.
 Es simétrica respecto a un eje vertical que pasa por su media z=0
 El área total bajo su curva es igual a 1.
 Los valores de las áreas entre un valor de z cualquiera y z=0 están tabulados
(tabla de probabilidad normal: ver Anexo1)
La utilidad de esta gráfica es que el área debajo de la curva indica la probabilidad de

encontrar una puntuación menor o igual a zA:
El área sombreada bajo la curva representa la probabilidad de encontrar la puntuación de valor zA
Para resolver los problemas de distribución normal de probabilidad se puede utilizar

la tabla de distribución z o realizarlo en calculadoras forma online (ver páginas en
Bibliografía)
Bibliografía:
Johnson, R. y Kuby, P. (2012). Estadística Elemental. 11ª Ed. Cengage
Learning. Mexico DF
Pérez-Tejeda, H. (2008). Estadística para las ciencias sociales, del
comportamiento y de la salud. Cengage learning. México.
Calculadora online distribución continua de probabilidad (tabla z):
https://calculadorasonline.com/calculadora-de-distribucion-nomal-campana-de-gauss/
Unidad 5: Análisis Multivariado
Temas: Estudio conjunto de dos o más variables. Relación entre variables. Valores
directos y valores teóricos de las variables. Correlación de variables. Cruzamiento
de variables. Coeficiente de correlación de Pearson. Covarianza. Relación entre
variables ordinales. Relación entre variables nominales. Relación entre variables
dicotómicas.
En las Ciencias Sociales es importante buscar relaciones entre dos o más variables:
si realizamos una encuesta por ejemplo del nivel de alfabetización de una ciudad y
además preguntamos su nivel socioeconomico, si trabaja o no, si si tiene casa propia,
si tiene hijos, etc. Y luego si alguna de estas variables influye en la alfabetización.
Todo el análisis previo que realizamos de una variable a la vez nos sirve para estudiar
estas relaciones. Lo que buscamos son explicaciones de algo que observamos:
necesitamos explicar de qué manera se relacionan y si es que existe esa relación
entre dos variables (también se pueden relacionar entre más cantidad, pero solo
estudiaremos relaciones bivariadas).
En una relación bivariada buscamos establecer de manera hipotética una relación

entre dos variables donde se pueda afirmar que los cambios de una de ellas van
acompañados a los cambios de la otra.
En este tipo de estudio no nos interesa las relaciones causales donde se observa
una secuencia cronológica y se distingue un fenómeno antes que el otro. Solo
buscamos relaciones entre dos variables observadas sin preguntar su cronología.
a.-Relaciones entre variables cualitativas:
Este tipo de análisis sirve para variables cualitativas nominales y ordinales, o

cualquier otra variable cuyos valores puedan ser representados en categorías.
La metodología que utilizaremos es la representación en tablas de contingencia de

los valores o frecuencias observadas, ya vistas anteriormente (simbolizaremos esta
frecuencia con la letra O). Luego determinaremos si existe relación y cuál es su
intensidad (es decir la fortaleza de la relación) calculando las frecuencias esperadas
(E). Estas frecuencias serían las que se esperaría si las variables fueran
independientes, o no tuvieran relación entre ellas. La forma de cálculo la veremos a
través de un ejemplo:
Se realiza una encuesta a 300 alumnos de una facultad y se pregunta su rendimiento

académico (alto, medio y bajo: de acuerdo con la cantidad de materias aprobadas) y
se quiere saber si se relaciona con el estado civil (casado o soltero). Las frecuencias
observadas se representan en la siguiente tabla de contingencia:
Ahora calculamos las frecuencias esperadas para cada frecuencia observada no

marginal, y las escribimos entre paréntesis en la celda correspondiente, en
símbolos sería:
En Valores redondeados al entero:
Al comparar las frecuencias, si las esperadas son muy similares a las observadas se
podría decir que las variables son independientes, no tienen relación. Para medir la
distancia que existe entre ellas de forma objetiva se utiliza una operación matemática
con los valores que hemos calculado, cuyo resultado nos da un puntaje llamado chi
cuadrado, en símbolos matemáticos:
Es decir vamos realizando la diferencia entre cada frecuencia observada y su

esperada y al resultado lo elevamos al cuadrado y luego lo dividimos por la esperada
correspondiente. Esta operación para cada celda, luego sumamos todos los valores
obtenidos y obtendremos el valor de chi cuadrado:
2
(𝟖𝟎−𝟕𝟎)𝟐 (𝟑𝟎−𝟒𝟎)𝟐 (𝟕𝟎−𝟓𝟕)𝟐 (𝟐𝟎−𝟑𝟑)𝟐 (𝟒𝟎−𝟔𝟑)𝟐 (𝟔𝟎−𝟑𝟔)𝟐
X = + + + + + = 36,41
𝟕𝟎 𝟒𝟎 𝟓𝟕 𝟑𝟑 𝟔𝟑 𝟑𝟔
Este puntaje no puede ser negativo, ya que proviene de sumas de cuadrados,

tampoco nos dice mucho, ya que su valor depende de los valores de las frecuencias.
Para poder llegar a alguna conclusión tendremos que calcular otro coeficiente,
llamado de Cramer (V) de la siguiente manera:
No es difícil de calcularlo: nos fijamos en la cantidad de filas y columnas que tiene

nuestra tabla de contingencia y le restamos 1 unidad a cada valor, en nuestro caso
sería:
f-1= 3-1= 2
c-1= 2-1= 1
n= 300 (total de casos)
Ahora nos fijamos cuál de los dos resultados es el menor, sería el 1 correspondiente
a c-1, reemplazamos ahora en la fórmula anterior:
36,41
𝑉 = √300∗1= 0,35
El coeficiente V de Cramer puede variar entre 0 y 1. Cuanto más cercano a 1 es el

valor, mayor es la intensidad de la relación. En nuestro caso el V=0,35 por lo que la
relación es moderada a baja. Podemos concluir que hay poca relación entre el
rendimiento académico de estos alumnos y su estado civil.
También se puede realizar una prueba de chi cuadrado de forma on line, ver en
bibliografía.
Para variables cuantitativas:
Las variables cuantitativas también puedes ser tratadas con la metodología anterior
si se representan sus valores en forma de intervalos, pero de esta manera se pierde
mucha información. Para no agrupar los valores y representarlos de una manera
gráfica sencilla se utilizan los diagramas de dispersión. Lo vemos a través de un
ejemplo:
A familias de un barrio de la ciudad de Resistencia se realizó una encuesta para

estudiar si existe relación entre los kw de luz utilizados de acuerdo con el salario que
se percibe en la familia. Se tomó al azar la muestra y los datos obtenidos se muestran
en la siguiente tabla:
kw utilizados (en
Salario (en miles de $)
cientos)
80 6
20 1
40 4
70 6
30 3
60 5
Graficamos los datos en un diagrama de dispersión, en este caso colocaremos los

valores de salario en las x (eje horizontal o abscisas) y de kw utilizados en las y (eje
vertical o de ordenadas):
De esta manera ya podemos observar que existe un tipo de relación entre las
variables, podemos decir que a medida que aumenta el salario también lo hacen los
kw gastados. Hay una relación creciente entre ambas (también llamada relación
directa o positiva). Además podemos observar que los puntos se acomodan como si
estuvieran en una línea recta imaginaria, esto es porque la relación es lineal. Hay
otros tipos de relaciones no lineales pero no es objetivo de nuestro estudio.
Ahora nos interesa saber la intensidad de esta relación lineal, como lo hicimos para
las variables cualitativas, para ello calculamos el coeficiente de correlación de
Pearson (r). Este coeficiente puede tomar valores entre -1 y 1, dependiendo del tipo
de relación entre las variables, veamos algunas representaciones:
Ejemplos de diagramas de dispersión y recta de regresión lineal con distintos valores de coeficiente r
El coeficiente r lo calculamos de la siguiente manera:

𝑆𝑥𝑦 𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑥 𝑒 𝑦
𝑟=𝑆 =
𝑥 𝑆𝑦 𝐷𝑒𝑠𝑣𝑖𝑜 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑥∗𝐷𝑒𝑠𝑣𝑖𝑜 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑦
Este cálculo se puede hacer de forma manual (ya hemos visto cada término de la
fórmula en la primera parte de estadística descriptiva). Pero a no preocuparse que
también se puede realizar con calculadora (ver bibliografía al final, videos
explicativos de uso de calculadora). Y aún más sencillo si utilizamos el software Excel
tanto en una tablet como en un celular.
Veamos los pasos a seguir para el cálculo del coeficiente r en Excel:
1. Abrir el Excel en el celular

2. Cargar datos con editar
3. Sombrear los datos
4. Ir al lápiz e Inicio /insertar / grafico/ xy dispersión
5. Luego ir a diseño/ buscar hacia abajo el gráfico con la recta y la ecuación
6. Leer el R2 y calcular su raíz cuadrada
En nuestro ejemplo se vería:

Calculamos el r a partir del R2
𝑟 = √0,9178 = 0,96
Análisis del valor de r obtenido: el valor

calculado de esta forma será siempre
positivo, pero hay que recordar que el
resultado de una raiz puede ser
positivo o negativo, por lo que el signo
lo agregamos de acuerdo al diagrama
obtenido. En este caso la línea recta es positiva (pendiente hacia arriba o creciente).
Por otro lado es bastante cercano a 1, por lo que se dice que la intensidad de la
relacion es muy fuerte.
En las ciencias sociales se establecen valores de referencia, según los cuales la

relación lineal entre las variables es nula si r<0,1, pequeña si 0,1≤r<0,3; media si
0,3≤ r ≤0,5 y grande si r > 0,5; pero por supuesto esto es solo un criterio, y se debe
tener en cuenta el contexto.
Cuando una variable opera como antecedente y la otra como consecuente, es decir
una relacion de causa-efecto, la variable antecedente o variable explicativa (o
tambien llamada independiente) se coloca en el eje horizontal y la variable
consecuente en el vertical (o tambien llamada variable dependiente). En este caso
ocuparemos el coeficiente R2 o coeficiente de determinación para ver el porcentaje
de variación que puede ser explicado por la variable independiente.
En nuestro caso R2 = 0,9178, transformando este valor en porcentaje: se tiene que

el 91,78% de la variación total observada en los kw utilizados es explicada por el
salario familiar. Esto solo es posible si la variable salarios utilizados puede explicar
a la variable kw utilizados, es decir si una depende de la otra. No se debe tener en
cuenta este coeficiente para variables que no son antecedente y consecuente.
Para completar el estudio de este tipo de variables, nos interesa saber la ecuación
que modela los valores de kw usados con los valores de salario. En el gráfico
obtenido en Excel de nuestro ejemplo observamos que nos da la ecuacion de una
recta:
y = 0,08x + 0,24 (con valores redondeados)
en esta ecuación, “y” representa a los kw utilizados y “x” es el salario familiar, el

coeficiente de x es la pendiente de la recta, y el ultimo termino positivo es la ordenada
al origen. En este caso se lee que por cada punto que aumenta el salario (en miles
de pesos), se espera que aumente en 0,8 unidades el puntaje en kw consumidos (en
cientos de kw). Y decimos esto ya que el coeficiente de la x es un valor positivo, lo
que está acorde con la relación positiva o crenciente entre las variables. El valor 0,24
es el valor de puntaje de kw consumidos que tomaría si no hubiera salario en la
familia.
De nuevo aclaramos todo este analisis se puede dar si sabemos que el salario puede
ser una variable explicativa de los kw consumidos. Tambien aclaramos que los
valores de la pendiente y la ordenada al origen se pueden determinar por el método
de mínimos cuadrados (no mostrado, ya que no es el alcance de nuestro estudio) y
con calculadora (ver el video de la bibliografía).
Bibliografía:
Johnson, R. y Kuby, P. (2012). Estadística Elemental. 11ª Ed. Cengage Learning. Mexico DF
Pérez-Tejeda, H. (2008). Estadística para las ciencias sociales, del comportamiento y de la
salud. Cengage learning. México.
Videos explicativos:
https://youtu.be/l85tUR7LFyg
https://youtu.be/4cQe6J7RzAI
Pagina para chi cuadrado: http://vassarstats.net/newcs.html

Apunte Teórico de ESTADISTICA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Teórico de ESTADISTICA

Cargado por

Copyright:

Formatos disponibles

UCES -LICENCIATURA EN CIENCIAS POLITICAS Y SOCIALES ESTADISTICA SOCIAL

Prof.: Mgtr. L. Mariel Cáceres

Contenidos por Unidad Temática

Unidad temática Nº 1 Introducción a la Estadística Social:

Definición de Estadística: estadística descriptiva e inferencial. Etapas de la metodología

Unidad temática Nº 2 Distribuciones de frecuencia y su presentación grafica.

Distribución de frecuencias. Intervalo de clases y límites de clase. Construcción de una

Unidad temática Nº 3: Medidas de posición y variación

Indicadores de tendencia central. La media aritmética: la media poblacional y la media

Unidad temática Nº 4 Cálculo de Probabilidad.

Definición de Probabilidad. Nociones básicas relacionadas: experimento aleatorio, sucesos,

Unidad temática Nº 5 Análisis de relaciones bivariadas

Relaciones bivariadas con variables cualitativas: Asociación. Coeficientes de asociación y

Relaciones bivariadas cuantitativas: el modelo de regresión simple: supuestos básicos,

Bibliografía de lectura obligatoria:

Levin, R.; Rubin, D. Estadistica para administración y economía. Pearson. Prentice

Blalock, Hubert M. Estadística social. Fondo de Cultura Económica. México. 1986.

Unidad 1- Introducción a la Estadística Social:

Temas: Definición de Estadística: estadística descriptiva e inferencial. Etapas de la

1. Definición e Importancia de la Estadística

La Estadística es una ciencia que tiene por objeto la recolección, presentación,

resume y transforma datos para poder interpretar la información. A través de la

Estadística Inductiva o Inferencial: Está fundamentada en los resultados

La estadística está compuesta por métodos científicos mediante los cuales

Población o Universo: Es el conjunto de entidades u objetos que satisfacen una

cantidad de elementos que la componen. Generalmente se simboliza esta

El mejor resultado para un proceso estadístico sería estudiar a toda la población.

estadística inferencial. La muestra elegida debe ser representativa de la población.

variables). Es poco recomendado cuando la población es muy grande

Números aleatorios: Uno de los métodos más comunes de

3.1.2. Muestreo aleatorio estratificado:

-Por elección simple: se toman el mismo número de sujetos de cada uno de

Si los estratos son agrupaciones naturales y la característica que estudiamos puede

3.1.3. Muestreo aleatorio sistemático:

tanto, N=60 y n=12. El intervalo fijo entre sujetos es:

al muestreo aleatorio simple es su sencillez. El método de muestreo sistemático.

3.1.4. Muestreo aleatorio por conglomerados:

En la práctica, el conglomerado más utilizado es el geográfico. Si queremos hacer

Cuando utilizarlo: Se utiliza el muestreo por conglomerados cuando los grupos

diferencias significativas en la opinión de las diferentes regiones, pero resulta que en

3.2. MUESTREO NO PROBABILÍSTICO (o muestreo no aleatorio):

4.1. Tipos de variables:

Las variables se dividen de acuerdo al origen de la característica que se estudia. Se

Variable cuantitativa: es aquella que toma valores numéricos. Dentro de ella, se

Variable cualitativa: es aquella que describe cualidades o atributos. No son

4.2. Medición de variables. Escalas de Medición

La medición es el proceso por el cual el investigador o estadístico asigna valores

categorías, es decir, se aplica a aquellas variables que no pueden medirse mediante

Escala de Intervalo: Esta escala de medición presenta las mismas características

UNIDAD 2: Estadística Descriptiva

Temas: Tablas de Frecuencias para variables cualitativas y cuantitativas.

Hasta ahora hemos aprendido a diferenciar distintos tipos de variables y su escala

Supongamos que se realiza una encuesta a 150 personas y en el cuestionario

Con la información obtenida se realiza el siguiente cuadro:

Sexo fi fr fr% =fr*100

Como sabemos la variable analizada es de tipo cualitativa nominal. El cuadro

La frecuencia absoluta “fi” es la cantidad de casos que se encuentran o repite del

Decimos entonces que 86 personas contestaron ser de sexo “femenino” y 64

Y muestra la proporción de personas que son de cada sexo. En la siguiente columna

También se realiza la primera verificación en la tabla: la suma de todas las

Luego de completar esta tabla denominada de frecuencias, se pueden representar

Gráfico de barras Gráfico de torta

El primer gráfico se denomina de barras, se grafica sobre un sistema de ejes