Conceptos Estadísticos Básicos

1.
Conceptos básicos, presentación de información, medidas de tendencia central

y dispersión
2. Fundamentos de probabilidad
3. Distribuciones de probabilidad
4. Tipos de muestreo
5. Análisis de regresión
6. Bibliografía
UNIDAD 1 CONCEPTOS BÁSICOS, PRESENTACIÓN DE INFORMACIÓN,

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.
1. CONCEPTOS BÁSICOS
1. SIGNIFICADO DE ESTADÍSTICA
La estadística es una rama de las matemáticas que conjunta herramientas para recolectar,
organizar, presentar y analizar datos numéricos u observacionales. Presenta números que
describen una característica de una muestra. Resulta de la manipulación de datos de la
muestra según ciertos procedimientos especificados.
Procedimiento:
1. Obtención de datos
2. Clasificación
3. Presentación
4. Interpretación
5. Descripción
6. Generalizaciones
7. Comprobación de hipótesis por su aplicación.
8. Toma de decisiones
Términos comunes.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten
información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos la edad de los
habitantes en una ciudad, la población será el total de los habitantes de dicha ciudad.
Muestra: Subconjunto de la población seleccionado de acuerdo con un criterio, y que sea

representativo de la población. Por ejemplo, elegir 30 personas por cada colonia de la
ciudad para saber sus edades, y este será representativo para la ciudad.
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia.
Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si
estudiamos la edad de cada habitante, cada habitante es un individuo.
Variable: Fenómeno que puede tomar diversos valores. Las variables pueden ser de dos
tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto,

ingresos anuales
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo:
número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca
podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por

ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Las variables también se pueden clasificar en:
Variables unidimensionales: sólo recogen información sobre una

característica (por ejemplo: edad de los alunmos de una clase).
Variables bidimensionales: recogen información sobre dos características de

la población (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen información sobre tres o más

características (por ejemplo: edad, altura y peso de los alumnos de una
clase).
1. CONCEPTO Y CLASIFICACIÓN DE DATOS
DATOS
Características o números que son recolectados por observación. No son otra cosa que el
producto de las observaciones efectuadas en las personas y objetos en los cuales se produce
el fenómeno que queremos estudiar
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y

geográficos
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase
y no de cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan la materia de
estadística I por su estado civil, observamos que pueden existir solteros, casados,
divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes,
decimos que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del Núcleo San
Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan
diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o
períodos de tiempo, los datos son reconocidos como cronológicos. Ejemplo: Al registrar los
promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes
semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que
son datos geográficos. Ejemplo: El número de estudiantes de educación superior en las
distintas regiones del país
1.
2. PRESENTACION DE INFORMACIÓN
1.2.1 DISTRIBUCION DE TABLAS DE FRECUENCIAS
Estadística Descriptiva:
Tienen por objeto fundamental describir y analizar las características de un conjunto de

datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto
y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. No obstante
puede no solo referirse a la observación de todos los elementos de una población
(observación exhaustiva) sino también a la descripción de los elementos de una muestra
(observación parcial).
En relación a la estadística descriptiva, Ernesto Rivas Gonzáles dice; "Para el estudio de

estas muestras, la estadística descriptiva nos provee de todos sus medidas; medidas que
cuando quieran ser aplicadas al universo total, no tendrán la misma exactitud que tienen
para la muestra, es decir al estimarse para el universo vendrá dada con cierto margen de
error; esto significa que el valor de la medida calculada para la muestra, en el oscilará
dentro de cierto límite de confianza, que casi siempre es de un 95 a 99% de los casos.
Distribución de frecuencias: muestra el número de veces que ocurre cada observación.
Ejemplo: Se elaboró una encuesta en un jardín de niños y ésta informó que las mascotas
más comunes que tiene un niño son perros, gatos, peces, hámsteres y pájaros
perro gato perro hamster

pájaro hamster gato perro
hámster gato pájaro gato
perro perro hámster pájaro
perro perro pájaro gato
A continuación se muestra la distribución de frecuencias absolutas, relativas y porcentuales

de las mascotas mas comunes de los niños.
Mascota Frecuencia absoluta Frecuencia relativa Frecuencia

acumulada
Perro 7 .35 35 %
Pajaro 4 .20 20 %
Hamster 4 .20 20 %
gato 5 .25 25 %
Estos datos se pueden representar en una gráfica de barras o en una gráfica de pastel:
Gráfica de barras
Gráfica de pastel
NOTA :Para calcular:..
Frecuencia absoluta: se cuenta la cantidad de veces que ocurre el evento, en este caso, las
mascotas.
Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de

eventos.
Frecuencia porcentual: se multiplica la frecuencia relativa por 100.
1.2.2 CONSTRUCCION DE TABLAS ESTADÍSTICAS
Distribución agrupada de frecuencias: Distribución de frecuencias en la que los valores

de la variable se han agrupado en clases. Esto se debe principalmente a la disposición de
gran número de datos. Las razones por las que se elaboran este tipo de agrupación de datos
es por economía, practicidad, y baja frecuencia de algunos puntajes.
Agrupación de datos: para elaborar las tablas estadísticas, se debe seguir un procedimiento
preciso:
1. Toma de datos.- es la obtención de una colección de datos por medio de encuestas,

preguntas, sondeos etc. Que no han sido ordenados numéricamente y que dicha
información se extrae al azar, es decir, de tal forma que cada miembro de la
población tenga la misma oportunidad de ser elegida o seleccionada.
Estos son algunos métodos para obtener datos:
Censo: Se entiende por censo aquella numeración que se efectúa a todos y cada uno
de los caracteres componentes de una población. Para Levin & Rubin (1996)
"Algunas veces es posible y práctico examinar a cada persona o elemento de la
población que deseamos describir. A esto lo llamamos una numeración completa o
censo. Utilizamos el muestre cuando no es posible contar o medir todos los
elementos de la población. Si es posible listar (o enumerar) y observar cada
elemento de la población, los censos se utilizan rara vez porque a menudo su
compilación es bastante difícil, consume mucho tiempo por lo que resulta
demasiado costoso.
Encuesta: Se entiende por encuesta las observaciones realizadas por muestreo, es

decir son observaciones parciales. El diseño de encuestas es exclusivo de las
ciencias sociales y parte de la premisa de que si queremos conocer algo sobre el
comportamiento de las personas, lo mejor, más directo y simple es preguntárselo
directamente a ellas. (Cadenas, 1974). Según Antonio Napolitano "La encuesta, es
un método mediante el cual se quiere averiguar. Se efectúa a través de cuestionarios
verbales o escritos que son aplicados a un gran número de personas".
2. Ordenación de datos: es una colocación de los datos numéricos tomados en orden

creciente a decreciente de magnitud. La diferencia entre el mayor y el menor de los
números se llama rango o recorrido de datos.
3. Cálculo de tamaño de clase: para calcular el tamaño de clase es necesario calcular
primeramente el número de clases utilizando la regla de Sturges y despés se obtiene
el tamaño de clase dividiendo el rango entre el número de clases.
*No. De clases (Regla de Sturges): 1 + 3.332 log N
*Tamaño de clase = Rango / No. De clases

4. Límites de clase: representan el tamaño de cada clase. El límite inferior de la primer
clase toma el valor de el dato menor de la colección de datos, para obtener el límite
inferior de la clase siguente, se suma al límite inferior de la case anterior el tamaño
de clase.
5. Límites reales de clase: se obtienen sumando al LS de la clase el Lide la clase
contigua superior y dividiendo entre dos.
6. Marca de clase : Es el punto medio de la clase y se obtiene sumando los LI y LS de
la clase y dividiendo entre 2. La marca de clase también se llama punto medio de la
clase.
Ejemplo de tablas estadísticas:
AUTOBUSES FORANEOS
1) Toma de datos
Los siguientes datos corresponden a la cantidad de asientos vacíos que reportaron 50

autobuses foráneos en un domingo.
12 11 4 6 6 11 3 10 12 4
10 1 1 2 4 5 2 4 4 8
8 7 8 4 10 4 2 6 2 9
5 6 6 4 12 8 1 12 1 7
7 6 8 4 6 9 3 7 7 5
2) Ordenación de datos
1 2 4 4 5 6 7 8 9 11
1 2 4 4 5 6 7 8 10 12
1 2 4 4 6 6 7 8 10 12
1 3 4 4 6 6 7 8 10 12
2 3 4 5 6 7 8 9 11 12
Rango = 12-1 = 11
3) Tamaño de clase
No de clases = 1 + 3.332log (50) = 6
Tamaño de clase = 11/6 = 2
4) Límites de clase
5) Límites reales de clase
6) Marca de clase
Clase Intervalo LRI LRS Frec. Frec. Frec. X
LI LS Absoluta Relat Porcentual
1 1 2.9 0.95 2.95 8 .16 16 % 1.95
2 3 4.9 2.95 4.95 11 .22 22 % 3.95
3 5 6.9 4.95 6.95 10 .20 20 % 5.95
4 7 8.9 6.95 8.95 10 .20 20 % 7.95
5 9 10.9 8.95 10.95 5 .10 10 % 9.95
6 11 12.9 10.95 12.95 6 .12 12 % 11.95
total 50 1 100 %
Representación gráfica de datos.
Se tomará el ejemplo anterior para demostrar el uso de diferentes gráficas.
Histograma: forma gráfica de barras que emplea variables con escala de intervalos o de
proporciones. Para realizarla, se toma en cuenta para el eje X, los Límites reales, y para el
eje Y, las frecuencias absolutas.
Polígono de frecuencias: Forma gráfica que representa una distribución de frecuncias en la

forma de una línea continua que traza un histograma. Para su elaboración, se consideran las
marcas de clase en el eje X y las frecuencias absolutas en el eje Y.
Gráfica de barras: la gráfica de barras es una forma de gráfica que utiliza barras para
indicar la frecuencia de ocurrencia de las observaciones. Para construirla se constituye el
eje y por las frecuencias absolutas y el eje X por los límites inferior y superior de cada
clase, dejando un espacio entre barra y barra.
1.3 CALCULO DE LA MEDIA MEDIANA Y MODA
Medidas de tendencia central:
La tendencia central se refiere al punto medio de una distribución. Las

medidas de tendencia central se conocen como medidas de posición.
Media
La media es el punto en una distribución de medidas, alrededor del cual las desviaciones
sumadas son iguales a cero. Es el valor promedio de una muestra o población. La media es
muy sensible a mediciones extremas que no estén balanceadas en ambos lados. Se pueden
calcular diversos tipos de media, siendo las más utilizadas:
a. Media aritmética: se calcula multiplicando cada valor por el número de veces que
se repite. La suma de todos estos productos se divide por el total de datos de la
muestra:
b) Media geométrica: se eleva cada valor al número de veces que se ha repetido.

Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n"
(siendo "n" el total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la
media aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos

de interés anuales, inflación, etc., donde el valor de cada año tiene un
efecto multiplicativo sobre el de los años anteriores. En todo caso, la
media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los

valores de la serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso

de la media aritmética como geométrica) se puede ver muy influido
por valores extremos, que se aparten en exceso del resto de la serie.
Estos valores anómalos podrían condicionar en gran medida el valor
de la media, perdiendo ésta representatividad.
Mediana
Observación u observación potencial en un conjunto que divide el

conjunto, de modo que el mismo número de observaciones estén en
cada uno de sus lados. Para un número impar de valores, es el valor
de en medio; para un número par es el promedio de los dos medios.
Para un conjunto con un número par de números, la mediana será el
promedio aritmético de los dos números medios.
Ejemplo:
Calcule la mediana para los siguientes datos.
La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25.
La mediana es 21.
La mediana de una muestra de datos organizados en una distribución de frecuencias se

calcula mediante la siguiente fórmula:
Mediana = LRI + [(n/2 - FA)/f] c
donde L es el límite inferior de la clase que contiene a la mediana, FA es la frecuencia

acumulada que precede a la clase de la mediana, f es la frecuencia de clase de la mediana e
i es el intervalo de clase de la mediana.
MODA
La moda es el valor de la observación que aparece con más frecuencia.
Ejemplo:
las calificaciones de un examen de diez estudiantes son:
81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
Como la calificación 81 es la que más ocurre, la calificación modal es 81
La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la
frecuencia de clase mayor.
Cuando dos valores ocurren una gran cantidad de veces, la distribución se llama bimodal,
como en dicho ejemplo.
Ejemplo de cálculo de media mediana y moda. Para ejemplificar, tomaremos el ejemplo de

autobuses foráneos de la pagina 6.
Clase Intervalo LRI LRS Frec. Frec. Frec. X fx

LI LS Absoluta Relat Porcentual
1 1 2.9 0.95 2.95 8 .16 16 % 1.95 15.60
2 3 4.9 2.95 4.95 11 .22 22 % 3.95 43.45
3 5 6.9 4.95 6.95 10 .20 20 % 5.95 59.50
4 7 8.9 6.95 8.95 10 .20 20 % 7.95 79.50
5 9 10.9 8.95 10.95 5 .10 10 % 9.95 49.75
6 11 12.9 10.95 12.95 6 .12 12 % 11.95 71.70
total 50 1 100 % 319.50
1. CÁLCULO DE VARIANZA, DESVIACIÓN ESTÁNDAR Y

COEFICIENTE DE VARIACIÓN.
Medidas de dispersión: Estudia la distribución de los valores de la serie, analizando si

estos se encuentran más o menos concentrados, o más o menos dispersos
Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas
por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por
el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras
mayor sea la varianza, más dispersos están.
Desviación estándar: Se calcula como raíz cuadrada de la varianza.
Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y

la media de la muestra
Continuando con el caso de los autobuses foráneos, se realizará el ejemplo de medidas de

dispersión.
Clase Intervalo LRI LRS Frec. Frec. Frec. X fx

Absoluta Relat Porcentual f(x-x)2
LI LS
1 1 2.9 0.95 2.95 8 .16 16 % 1.95 15.60 157.71
2 3 4.9 2.95 4.95 11 .22 22 % 3.95 43.45 171.63
3 5 6.9 4.95 6.95 10 .20 20 % 5.95 59.50 354.03
4 7 8.9 6.95 8.95 10 .20 20 % 7.95 79.50 632.03
5 9 10.9 8.95 10.95 5 .10 10 % 9.95 49.75 495.01
6 11 12.9 10.95 12.95 6 .12 12 % 11.95 71.70 856.82
total 50 1 100 % 319.50 2667.21
UNIDAD II FUNDAMENTOS DE PROBABILIDAD
2.1 CONCEPTOS BÁSICOS
Probabilidad: valor entre cero y uno, inclusive, que describe la posibilidad relativa de que
ocurra un evento.
Experimento: proceso que conduce a la ocurrencia de una de varias observaciones

posibles.
Resultado: lo que resulta en particular de un experimento.
Evento: conjunto de uno o más resultados de un experimento.
Espacio muestral: son todos los posibles resultados de un experimento. Cualquier

resultado experimental particular se llama punto muestral y es un elemento del espacio
muestral.
Tipos de sucesos
 Exhaustivo: se dice que dos o más sucesos son exhaustivos si se consideran todos
los posibles resultados.
Simbólicamente: p (A o B o...) = 1
 No exhaustivos: se dice que dos o más sucesos son exhaustivos si no cubren todos
los posibles resultados.
 Mutuamente excluyentes: sucesos que no pueden ocurrir en forma simultánea:
P(A y B) = 0 y p(A o B) = p(A) + p (B)
Ejemplo: hombres, mujeres
 No mutuamente excluyentes: sucesos que pueden ocurrir en forma simultánea:
P (A o B) = p (A) + p (B) – p (A y B )
Ejemplo: hombres, ojos cafés
 Independientes: Sucesos cuya probabilidad no se ve afectada por la ocurrencia o no

ocurrencia del otro :
P ( AI B ) = P ( A ); P ( BIA ) = P (B) Y P (A
Y B) = P(A) P(B)
Ejemplo: sexo y color de ojos
 Dependientes: sucesos cuya probabilidad cambia dependiendo de la ocurrencia o no

ocurrencia del otro:
P ( AI B ) difiere de p (A); P ( BIA ) difiere de
P(B);
y P (A Y B)= P ( A ) P ( BIA )= P (B) P ( AI

B)
Ejemplo: raza y color de ojos
Probabilidades conjuntas: probabilidad de que dos sucesos o más, ocurran

simultáneamente
Probabilidades marginales: o probabilidades incondicionales = suma de probabilidades.
Enfoques de la probabilidad
Probabilidad clásica se basa en la consideración de que los resultados de un experimento

son igualmente posibles.
Utilizando el punto de vista clásico,
Probabilidad de un evento = no. de resultados probables no. De resultados posibles
Ejemplo
Considere el experimento de lanzar dos monedas al mismo tiempo.
El espacio muestral S = {HH, HT, TH, TT}
Considere el evento de una cara.
Probabilidad de una cara = 2/4 = 1/2.
Distribución muestral
El diagrama de árbol es muy útil para visualizar las probabilidades

condicional y conjunta y en particular para el análisis de decisiones
administrativas que involucran varias etapas.
EJEMPLO: una bolsa contiene 7 fichas rojas (R) y 5 azules (B), se escogen
2 fichas, una después de la otra sin reemplazo. Construya el diagrama de
árbol con esta información.
2.2 AXIOMAS DE PROBABILIDAD
Primer axioma : La probabilidad de un suceso A es un número real entre 0 y 1.
Segundo axioma :Ocurre un suceso de la muestra de todos los sucesos o espacio de

sucesos Ω con probabilidad 1.
Tercer axioma Si A1, A2 ... son sucesos mutuamente excluyentes
2.3 PROBABILIDAD CONDICIONAL
Probabilidad condicional es la probabilidad de que ocurra un evento en particular, dado que

ocurrió otro evento.
Nota: la probabilidad de que ocurra el evento A dado que ya ocurrió B se denota como
P(A|B).
Reglas básicas de probabilidad

Si los eventos son mutuamente excluyentes, la ocurrencia de cualquier evento impide que
otro eventos ocurra.
Reglas de adición: si dos eventos A y B son mutuamente excluyentes, la regla especial de

adición indica que la probabilidad de que ocurra A o B es igual a la suma de sus
probabilidades respectivas:
P(A o B) = P(A) + P(B)
Ejemplo
Llegada Frecuencia
Antes de tiempo 100
A tiempo 800
Demorado 75
Cancelado 25
Total 1000
Aerolíneas Argentinas acaba de proporcionar la siguiente información de sus vuelos de
Buenos Aires a Rosario:
Ejemplo
Si A es el evento de que un vuelo llegue antes de tiempo, entonces
P(A) = 100 /1000 = 0.1.
Si B es el evento de que un vuelo llegue demorado, entonces
P(B) = 75 /1000 = 0.075.
La probabilidad de que un vuelo llegue antes de tiempo o demorado es
P(A o B) = P(A) + P(B) = .1 + .075 = 0.175.
UNIDAD III DISTRIBUCIONES DE PROBABILIDAD
3.1 VARIABLES ALEATORIAS
Las variables aleatorias son una transformación o función que asignan uny sólo un valor
numérico a cada resultado de un experimento.
Variables aleatorias discretas: comprenden reglas o modelos de probabilidad para asignar

o generar sólo valores diversos (no mediciones fraccionarias).
Variables aleatorias continuas:
3.2 DISTRIBUCION BINOMIAL
Una distribución de probabilidad ampliamente utilizada de una variable aleatoria discreta es

la distribución binomial. Esta describe varios procesos de interés para los administradores.
Describe datos discretos, resultantes de un experimento denominado proceso de Bernoulli

en honor del matemático suizo Jacob Bernoulli, quien vivió en el siglo XVII.
Empleo del proceso de Bernoulli.
Podemos servirnos de los resultados de un número fijo de lanzamientos de una moneda

como ejemplo de un proceso de Bernoulli. Este proceso lo describimos así:
1. Cada ensayo ( cada lanzamiento, en nuestro caso) tiene sólo dos resultados posibles: lado
A o lado B, sí o no, éxito o fracaso.
2. La probabilidad del resultado de cualquier ensayo (lanzamiento) permanece fija con el

tiempo. Tratándose de una moneda la probabilidad de que salga de el lado A sigue siendo
de 0.5 en cada lanzamiento, cualquiera que sea el número de veces que la moneda sea
arrojada.
3. Los ensayos son estadísticamente independientes, es decir, el resultado de un

lanzamiento no afecta al de cualquier otro lanzamiento.
Cada proceso de Bernoulli tiene su propia probabilidad característica. Pongamos el caso en

que siete décimas partes de las personas que solicitaron cierto tipo de empleo pasaron la
prueba. Diremos entonces que la probabilidad característica fue de 0.7 pero podemos
describir los resultados de la prueba como un proceso de Bernoulli sólo si tenemos la
seguridad de que la proporción de los que fueron aprobados permaneció constante con el
tiempo.
Des de luego, la otra característica del proceso de Bernoulli también deberá ser satisfecha.
Cada prueba deberá arrojar tan sólo dos resultados (éxito o fracaso= y los resultados de las
pruebas habrán de ser estadísticamente independientes.
En un lenguaje más formal, el símbolo p representa la probabilidad de un éxito y el símbolo

q ( 1- p ) representa la probabilidad de un fracaso. Para representar cierto número de éxitos,
utilizaremos el símbolo r y para simbolizar el número total de ensayos emplearemos el
símbolo n.
Entonces tenemos que :
P Probabilidad de éxito.
Q Probabilidad de fracaso.
r Número de éxitos deseados.
n Número de ensayos efectuados.
Existe una fórmula binomial:
Probabilidad de r éxitos en n ensayos es :
N! / R! (N-R)! PR QN-R
Recordemos que el símbolo factorial! Significa por ejemplo que es 3! = 3*2*1 = 6

Los matemáticos definen 0! = 1.
3.3 DISTRIBUCION NORMAL
La Distribución Normal: una distribución de una variable aleatoria continua.
Una muy importante distribución continua de probabilidad es la distribución normal.

Varios matemáticos intervinieron en su desarrollo entre ellos figura el astrónomo del siglo
XVIII Karl Gauss, a veces es llamada en sus honor la distribución de Gauss.
Características de la distribución normal de la probabilidad.
1. La curva tiene un solo pico, por consiguiente es unimodal. Presenta una forma de
campana.
2. La media de una población distribuida normalmente se encuentra en el centro de su curva

normal.
3. A causa de la simetría de la distribución normal de probabilidad, la mediana y la moda

de la distribución también se hallan en el centro, por tanto en una curva normal, la media, la
mediana y la moda poseen el mismo valor.
4. Las dos colas (extremos) de una distribución normal de probabilidad se extienden de

manera indefinida y nunca tocan el eje horizontal.
Áreas bajo la curva normal.
El área total bajo la curva normal será de 1.00 por lo cual podemos considerar que las áreas
bajo la curva son probabilidades.
El valor de Z.
Z= Número de desviaciones estándar de x respecto a la media de esta distribución.
Z= x- / 
X=valor de la variable aleatoria que nos interesa.
 = media de la distribución de esta variable aleatoria.
 = desviación estándar de esta distribución.
Las variables aleatorias distribuidas en forma normal asumen muchas unidades diferentes
de medición, por lo que hablaremos de forma estándar y les daremos el símbolo de Z.
UNIDAD IV TIPOS DE MUESTREO
4.1 TIPOS DE MUESTREO

Los autores proponen diferentes criterios de clasificación de los diferentes tipos de
muestreo, aunque en general pueden dividirse en dos grandes grupos:
métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de

equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas
las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos
métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra
extraída y son, por tanto, los más recomendables.
Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la

población, y dicha probabilidad no es nula para ningún elemento.
Los métodos de muestreo no probabilísticos no garantizan la representatividad de la

muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población.
(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver

los problemas de representatividad aun en situaciones de muestreo no probabilistico, por
ejemplo los estudios de caso−control, donde los casos no son seleccionados aleatoriamente
de la población.)
Entre los métodos de muestreo probabilísticos más utilizados en investigación

encontramos:
 Muestreo aleatorio simple:
El procedimiento empleado es el siguiente:
1. Se asigna un número a cada individuo de la población

2. A través de algún medio mecánico (bolas dentro de una bolsa, tablas de
números aleatorios, números aleatorios
generados con una calculadora u ordenador, etc.) se eligen tantos sujetos

como sea necesario para completar el tamaño de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad

práctica cuando la población que estamos manejando es muy grande.
Ejemplo: formar el equipo de fútbol de la universidad seleccionando 11

boletas de una urna con el nombre de todos los alumnos de la universidad.
 Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los elementos de
la población, pero en lugar de extraer n números aleatorios sólo se extrae
uno. Se parte de ese número aleatorio i, que es un número elegido
al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n−1)k, es
decir se toman los individuos de k en k, siendo k el resultado de dividir el

tamaño de la población entre el tamaño de la muestra: k= N/n. El número i
que empleamos como punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan

periodicidades en la población ya que al elegir a los miembros de la muestra
con una periodicidad constante (k) podemos introducir una homogeneidad
que no se da en la población.
Imaginemos que estamos seleccionando una muestra sobre listas de 10

individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si
empleamos un muestreo aleatorio sistemático con k=10 siempre
seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
representación de los
dos sexos.
 Muestreo aleatorio estratificado:
Trata de obviar las dificultades que presentan los anteriores ya que

simplifican los procesos y suelen reducir el error muestral para un tamaño
dado de la muestra. Consiste en considerar categorías típicas diferentes entre
sí (estratos) que poseen gran homogeneidad respecto a alguna característica
(se puede estratificar, por ejemplo, según la profesión, el municipio de
residencia, el sexo, el estado civil, etc.).
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los
estratos de interés estarán representados adecuadamente en la
muestra. Cada estrato funciona independientemente, pudiendo aplicarse

dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los
elementos concretos que formarán parte de la muestra. En ocasiones las
dificultades que plantean son demasiado grandes, pues exige un
conocimiento detallado de la población.
(Tamaño geográfico, sexos, edades,...).
La distribución de la muestra en función de los diferentes estratos se

denomina afijación, y puede ser de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número de elementos

muéstrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso
(tamaño) de la población en cada estrato.
Afijación Optima: Se tiene en cuenta la previsible dispersión de los

resultados, de modo que se considera la proporción y la desviación típica.
Tiene poca aplicación ya que no se suele conocer la desviación.
 Muestreo aleatorio por conglomerados:
Los métodos presentados hasta ahora están pensados para seleccionar

directamente los elementos de la población, es decir, que las unidades
muéstrales son los elementos de la población.
En el muestreo por conglomerados la unidad muestral es un grupo de

elementos de la población que forman una unidad, a la que llamamos
conglomerado. Las unidades hospitalarias, los departamentos universitarios,
una caja de determinado producto, etc., son conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por

ejemplo, las urnas electorales. Cuando los conglomerados son áreas
geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un

cierto numero de conglomerados (el necesario para alcanzar el tamaño
muestral establecido) y en investigar después todos los elementos
pertenecientes a los conglomerados elegidos.
Métodos de muestreo no probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente

costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven
para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de
se elegidos.
En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la

muestra sea representativa.
Muestreo por cuotas:
También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de

un buen
conocimiento de los estratos de la población y/o de los individuos más "representativos"

"adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el
muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos
que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de
sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros
que se encuentren que cumplan esas características. Este método se utiliza mucho en las
encuestas de opinión.
Muestreo opinático o intencional:
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras

"representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es
muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.
Muestreo casual o incidental:
Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los

individuos de la población. El caso más frecuente de este procedimiento el utilizar como
muestra los individuos a los que se tiene fácil acceso (los profesores de universidad
emplean con mucha frecuencia a sus propios alumnos).
Bola de nieve:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen
estudios con poblaciones
4.2 ESTIMACIÓN DE LÍMITES
Para una población con media σ y variancia σ 2, la distribución de muestreo de las medias
de todas las muestras posibles de tamaño n obtenidas de una población tendrá una
distribución normal aproximada —con la media de la distribución de muestreo igual a σ y
la variancia igual a σ 2/ n —si se supone que el tamaño de la muestra es suficientemente
grande.
4.3 PRUEBA DE HIPÓTESIS PARA UNA MEDIA
Qué es una hipótesis?
Hipótesis: enunciado acerca de una población elaborada con el propósito de

ponerse a prueba.
Ejemplos de hipótesis acerca de un parámetro de población son:
la media mensual de ingresos para analistas de sistemas es $3625,
el 20% de los delincuentes juveniles son capturados y sentenciados a
prisión.
CONCEPTO DE PRUEBA DE HIPÓTESIS
Afirmación acerca de los parámetros de la población.
Etapas Básicas en Pruebas de Hipótesis.

Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro
poblacional. Después de recolectar una muestra aleatoria, se compara la estadística
muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta
media poblacional (). Después se acepta o se rechaza el valor hipotético, según proceda. Se
rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando
la hipótesis es cierta.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el
valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco
probable cuando la hipótesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia

del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan
diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir
aleatoria mente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística
muestral (el estimador no segado del parámetro que se prueba) o una versión transformada
de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media
poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces
es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística
de prueba.
Definiciones
Hipótesis nula H0: afirmación acerca del valor de un parámetro poblacional.
Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales proporcionan
evidencia de que la hipótesis nula es falsa.
Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es verdadera.
Error Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera.
Error Tipo II: aceptar la hipótesis nula cuando en realidad es falsa.
Estadístico de prueba: valor obtenido a partir de la información muestral, se utiliza para

determinar si se rechaza o no la hipótesis.
Valor crítico: el punto que divide la región de aceptación y la región de rechazo de la

hipótesis nula.
Valor p en la prueba de hipótesis

Valor p: es la probabilidad de observar un valor muestral tan extremo o más que el valor
observado, dado que la hipótesis nula es verdadera.
Si el valor p es menor que el nivel de significancia, H0 se rechaza.
Si el valor p es mayor que el nivel de significancia, H0 no se rechaza
UNIDAD V ANÁLISIS DE REGRESIÓN

5.1 CONCEPTOS BÁSICOS DE SERIES DE TIEMPO
Se llama Series de Tiempo a un conjunto de mediciones de cierto fenómeno o experimento

registrado secuencialmente en el tiempo. El primer paso para analizar una serie de tiempo
es graficarla, esto permite: identificar la tendencia, la estacionalidad, las variaciones
irregulares (componente aleatoria). Un modelo clásico para una serie de tiempo, puede ser
expresada como suma o producto de tres componentes: tendencia, estacional y un término
de error aleatorio.
En adelante se estudiará como construir un modelo para explicar la estructura y prever la

evolución de una variable que observamos a lo largo del tiempo.
5.2 METODO DE MINIMOS CUADRADOS
Modelo de minimos cuadrados ordinarios
El análisis de regresión trata de la dependencia de las variables explicativas, con el objeto

de estimar y/o predecir la media o valor promedio poblacional de la variable dependiente en
términos de los valores conocidos o fijos de las variables explicativas.
Se trata de encontrar una método para hallar una recta que se ajuste de una manera
adecuada a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi).
Este método de estimación se fundamenta en una serie de supuestos, los que hacen posible
que los
estimadores poblacionales que se obtienen a partir de una muestra, adquieran propiedades

que permitan señalar que los estimadores obtenidos sean los mejores.
Pues bien, el método de los mínimos cuadrados ordinarios consiste en hacer mínima la
suma de los cuadrados residuales, es decir lo que tenemos que hacer es hallar los
estimadores que hagan que esta suma sea lo más pequeña posible.
Los supuestos del método MCO son los que se presentan a continuación:
Supuesto 1
El modelo de regresión es lineal en los parámetros:
Yi = _ + _*Xi +_i
La linealidad de los parámetros se refiere a que los _´s son elevados solamente a la primera
potencia.
Supuesto 2
Los valores que toma el regresor X son considerados fijos en muestreo repetido. Esto
quiere decir que la variable X se considera no estocástica. Este supuesto implica que el
análisis de regresión es un análisis condicionado a los valores dados del (los) regresores.
Supuesto 3
Dado el valor de X, el valor esperado del término aleatorio de perturbación _i es cero.
E ( _i/Xi ) = 0
Cada población de Y corresponde a un X dado, está distribuida alrededor de los valores de

su media con algunos valores de Y por encima y otros por debajo de ésta. Las distancias
por encima y por debajo de los valores medios son los errores, y la ecuación antes señalada
requiere que en promedio estos valores sean cero.
Supuesto 4
Homoscedasticidad. Dado el valor de X, la varianza de _i es la misma para todas las

observaciones.
Var (_i/Xi ) = E (_i − E(_i)/ Xi)2
= E (_i2/Xi )
=_
Esta ecuación señala que la varianza de las perturbaciones para cada Xi es algún número
positivo igual a _. Homoscedastidad significa igual dispersión, en otras palabras significa
que las poblaciones Y correspondientes a diversos valores de X tienen la misma varianza.
Por el contrario, se dice que existe heteroscedasticidad cuando la varianza poblacional, ya
no es la misma en cada muestra. El supuesto de homoscedasticidad está indicando que
todos los valores de Y correspondientes a diversos valores de X son igualmente
importantes.
Supuesto 5
Dados dos valores cualquiera de X, Xi y Xj ( i " j ), la correlación entre _i y _j cualquiera (

i " j ) es cero.
Cov ( _i, _j / Xi, Xj ) = E (_i − E(_i)/ Xi) (_j − E (_j/Xj ))
= E (_i/Xi ) (_j/Xj )
=0
Este supuesto indica que las perturbaciones no están correlacionadas. Esto significa que los
errores no siguen patrones sistemáticos. La implicancia del no cumplimiento de este
supuesto (existencia de autocorrelación) implicaría que Yt no depende tan sólo de Xt sino
también de _t−1, puesto que _t−1 determina en cierta forma a _t.
Supuesto 6
La covarianza entre _i y Xi es cero, formalmente:

Cov (_i/Xi ) = E (_i − E(_i)) (Xi − E(Xi))
= E (_i (Xi − E(Xi)))
= E (_i Xi − E(Xi) E(_i))
= E (_i Xi)
=0
Este supuesto indica que la variable X y las perturbaciones no están correlacionadas. Si X y

_ estuvieran relacionadas, no podrían realizarse inferencias sobre el comportamiento de la
variable endógena ante cambios en las variables explicativas.
Supuesto 7
El número de observaciones debe ser mayor que el número de parámetros a estimar.
Supuesto 8
Debe existir variabilidad en los valores de X. No todos los valores de una muestra dada
deben ser
iguales.Técnicamente la varianza de X debe ser un número finito positivo. Si todos los

valores de X son idénticos entonces se hace imposible la estimación de los parámetros.
Supuesto 9
El modelo de regresión debe ser correctamente especificado, esto indica que no existe
ningún en el modelo a estimar. La especificación incorrecta o la omisión de variables
importantes, harán muy cuestionable la validez de la interpretación de la regresión
estimada.
Supuesto 10
No hay relaciones perfectamente lineales entre las variables explicativas. No existe

multicolinealidad perfecta. Aunque todas las variables económicas muestran algún grado de
relación entre sí, ello no produce excesivas dificultades, excepto cuando se llega a una
situación de dependencia total, que es lo que se excluyó al afirmar que las variables
explicativas son
ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA
INTRODUCCIÓN:
El nombre de Estadística alude al enorme interés de esta rama matemática para los
asuntos del Estado y su introducción en el mundo científico se debe a la importancia
indiscutible para el desarrollo de las ciencias sociales y humanas.
La Estadística trata, en primer lugar, de acumular la masa de datos numéricos

provenientes de la observación de multitud de fenómenos, procesándolos de forma
razonable. Mediante la teoría de la probabilidad analiza y explora la estructura matemática
subyacente al fenómeno del que estos datos provienen y, mediante el conocimiento de tal
estructura, trata de sacar conclusiones y predicciones que ayuden al mejor aprovechamiento
del fenómeno para los fines que de él se pueden pretender.
La tarea de describir y procesar de modo adecuado la masa de datos, provenientes

de las observaciones y experimentos, es el objeto de la estadística descriptiva. El análisis
de estos datos se realiza mediante la teoría de la probabilidad. Finalmente, el arte de
obtener con confianza conclusiones sobre el modo de proceder respecto del fenómeno que
se estudia es el objeto de las diversas técnicas existentes de inferencia estadística.
En esta página trataremos sólo de la Estadística descriptiva. Si necesitas

ampliar el tema o más temas de Estadística y Probabilidad visita el siguiente
enlace ESTADÍSTICA
I n t r o d u c c i ó n a l a E s t a d í s t i c a
INTRODUCCIÓN:
La Estadística descriptiva es una parte de la Estadística cuyo objetivo es examinar a todos

los individuos de un conjunto para luego describir e interpretar numéricamente la información
obtenida.
Sus métodos están basados en la observación y el recuento. Se pretende, una vez realizados,
poder simplificar los datos observados para obtener de ellos una información lo más completa
posible del total de la población.
En estadística descriptiva el material de trabajo lo constituyen los datos, que son los
resultados de las observaciones. Una vez obtenidos los datos hay que ordenarlos y clasificarlos
mediante algún criterio racional de modo que sea posible una visión crítica de los mismos.
En general, este tratamiento previo de los datos será de alguno de estos tres tipos:
1) Construcción de tablas para ordenar y clasificar los datos.
2) Realización de gráficos para representar físicamente los datos.
3) Obtención de estadísticos o funciones de los valores de los datos, que pretenden poner
de manifiesto ciertas propiedades de los mismos.
1. Conceptos básicos.
Cualquier elemento o ente que sea portador de información sobre alguna propiedad en la
cual se está interesado se denomina individuo.
El conjunto de todos los individuos en los que se desea estudiar alguna propiedad o
característica se llama población.
Todo subconjunto finito de la población sobre el que se realice el estudio de la propiedad

deseada, es una muestra. Al número de individuos de este subconjunto se le llama tamaño de la
muestra.
Ejemplo 1. Para estudiar la evolución del cáncer de mama en la población femenina

de un país, se puede considerar que individuo es cada una de las mujeres residentes en el
mismo, población es el conjunto de todas ellas y una muestra se obtiene al observar el 1%
del censo.
Con mucha frecuencia se consideran como población y muestra, no los conjuntos de

individuos, sino las medidas de la característica asociadas a esos individuos.
Ejemplo 2. En un banco de sangre se experimenta un nuevo sistema para aumentar

el período de conservación de la misma. En este caso cada bolsa de sangre es un individuo;
la población es el conjunto de todas las bolsas del banco y una muestra se obtiene tomando
un cierto número de bolsas para su análisis.
Obsérvese que el concepto de individuo no va asociado necesariamente con el de persona,

sino que puede ser algo de naturaleza más abstracta.
2. Clasificación de los datos.
Conviene también observar que todos los datos no son del mismo tipo. Cuando los datos, es
decir los resultados de las observaciones, no son magnitudes medibles numéricamente, sino
cualidades o atributos, se dice que se trata de datos cualitativos, mientras que en caso contrario se
habla de datos cuantitativos.
Ejemplo 3. Se observan las causas de muerte de 16 individuos de una cierta

población, agrupándolas en las cuatro siguientes: enfermedades cardiovasculares (EC),
cáncer UN SOLO, accidentes (A) y otras causas (O), habiéndose obtenido los siguientes
datos:
EC, EC, A, C, O, A, EC, A, O, C,EC, C, O, C y EC.
Como los resultados no son medibles numéricamente, los datos son cualitativos.
Ejemplo 4. Las notas obtenidas en Matemáticas en una clase de COU han sido:
2, 7, 4, 6, 5, 0, 3, 9, 8, 4, 3, 6, 5 y 8.5.
Se trata de datos cuantitativos.
A su vez los datos cuantitativos se denominan continuos si los resultados pueden tomar
cualquier valor real dentro de un cierto intervalo, o discretos, si sólo pueden tomar ciertos valores
particulares.
Ejemplo 5. Del estudio de la estatura de un cierto núcleo de población se han

obtenido los siguientes datos:
1.62, 1.78, 1.75, 1.58, 1.83, 1.68 y 1.81metros.
Son datos continuos, pues los individuos de una población pueden tener como
estatura cualquier número real en un cierto intervalo.
Ejemplo 6. Del alumbramiento de un conjunto de ratas se ha observado el número

de crías, obteniéndose los siguientes valores numéricos:
5, 3, 1, 5, 3, 6, 4, 2, 5, 6, 3, 6, 5, 2, 6, 7 y 3.
Por no ser posibles números no naturales, es evidente que se trata de datos

cuantitativos discretos.
Es decir los datos se clasifican:

Los datos pueden provenir del estudio de un solo carácter o propiedad (caso
unidimensional) o de varios simultáneamente (caso multidimensional). En este primer tema
estudiaremos sólo los datos unidimensionales.
3. Características de una muestra representativa
La observación de un determinado carácter en una población puede realizarse de

varias formas:
a) Observación exhaustiva: si se considera a la totalidad de los individuos.
b) Observación parcial: si se utiliza una muestra.
En los casos en que el tamaño de la población es muy grande el estudio estadístico se

realiza sobre muestras.
Para seleccionar una muestra han de respetarse dos tipos de criterios:
- De carácter cuantitativo, es decir ¿cuál es le tamaño adecuado de una muestra?
- De carácter cualitativo, o, lo que es lo mismo, ¿cómo debe elegirse la muestra?
Hay múltiples formas de realizar un muestreo estadístico, entre otras:
a) Muestreo aleatorio simple; se basa en suponer que todos los elementos de la población
tienen asignada la misma probabilidad de ser elegidos. Si se numeran los elementos de la población,
una tabla de números aleatorios puede facilitar la tarea de selección.
b) Muestreo por estratos: Consiste en clasificar previamente a la población en clases o

estratos y de ellos obtener muestras aleatorias.
c) Muestreo por conglomerados: es en esencia el mismo sistema que el anterior con la

diferencia de que ahora la población se divide en clases con determinados caracteres comunes entre
ellas (conglomerados).
Nota. De la obtención de muestras de las que se pueden sacar conclusiones válidas para la
totalidad de la población se ocupa la Teoría de muestras.
4. Variables estadísticas. Frecuencias.
Los caracteres estadísticos de una población son las propiedades o cualidades de los
individuos que nos interesa estudiar. Un carácter estadístico divide a la población en clases. A cada
una de estas clases se la denomina modalidad.
Cuando el carácter es cuantitativo sus diversas modalidades son medibles, es decir se les
puede asignar un número.
Definición 1. Se llama variable estadística a la aplicación que a cada modalidad le

hace corresponder ese número, es decir su medida.
Ejemplo 7. En el ejemplo 6 la variable estadística toma los valores: 1, 2, 3, 4, 5, 6 y
7.
La variable estadística será discreta cuando sólo pueda tomar un nº finito de valores
y continua cuando pueda tomar todos los valores de un cierto intervalo.
Ejemplo 8. La variable estadística del ejemplo 5 es continua y discreta la del

ejemplo 6.
Definición 2. Se llama frecuencia absoluta al número de individuos que toman un

determinado valor de una variable estadística (o una modalidad de un atributo).
Para variables estadísticas (es decir, datos cuantitativos) puede definir:
Definición 3. Se llama frecuencia absoluta acumulada de un valor a la suma de las

frecuencias absolutas de todos los valores menores o iguales que él.
Ejemplo 9. En el ejemplo 6 la frecuencia absoluta del 5 (tener 5 crías) es 4. La

frecuencia absoluta acumulada del 2 es 3.
Definición 4. Se llama frecuencia relativa a la razón entre la frecuencia absoluta y

el número total de datos o tamaño de la población.
Definición 5. Se llama frecuencia relativa acumulada de un valor de una variable

estadística a la suma de las frecuencias relativas de todos los valores menores o iguales que
él.
Ejemplo 10. La frecuencia relativa del 5 es 4/17 y la relativa acumulada del 2 es

3/17.
5. Representación de datos: Tablas.
Las dos formas más comunes de representar los datos son las tablas y los gráficos.
Tablas estadísticas
Las tablas estadísticas aparecen por todas partes y consisten en masas estructuradas de
datos.
Están confeccionadas de tal modo que resultan muy fáciles de leer y de interpretar. Hay que
utilizar, fundamentalmente, el sentido común.
Para la construcción de tablas de datos cuantitativos pueden tratarse éstos individualmente

o agrupándolos en clases
1) Tratamiento individual
Para variable discreta, o que siendo continua tengamos pocos datos.

Si tenemos una muestra de tamaño N, la tabla se estructura así:
Variable Frecuencias absolutas Frecuencias relativas

estadística : xi puntuales acumuladas puntuales acumuladas
x1 n1 N1= n1 f1= n1/N F1= N1/N
x2 n2 N2= n1 + n2 f2=n2/N F2=N2/N
...... ..... …... …... …...
xk nk Nk= n1 + n2 +..+ nk fk= nk/N Fk= Nk/N
=N
Ejemplo 11. Las notas de los 20 alumnos de una clase son:
4, 3, 3, 5, 6, 7, 9, 0, 5, 4, 9, 10, 2, 7, 2, 2, 5, 6, 5, 0
Vamos a calcular una tabla:

Variable Frecuencias absolutas Frecuencias relativas
estadística : xi puntuales ni acumuladas Ni puntuales fi acumuladas
Fi
0 2 2 1/10 1/10
2 3 5 3/20 5/20=1/4
3 2 7 1/10 7/20
4 2 9 1/10 9/20
5 5 14 1/4 14/20=7/10
7 3 17 3/20 17/20
9 3 20 3/20 20/20=1
Ejercicio 1. En un Instituto hay matriculados 2200 alumnos que se distribuyen por edades
en la forma siguiente: 215 de 14 años, 437 de 15, 421 de 16, 396 de 17, 512 de 18, 124 de 19 y 95
de 20. Formar la tabla de distribución y de frecuencias, que incluya frecuencias acumuladas.
2) Tratamiento por clases
Cuando en la población o muestra que estudiamos existen muchos valores diferentes, es

conveniente, aún a costa de perder algo de información, dividir el intervalo de variación en una
serie de subintervalos que cubran el total; a cada uno de ellos se le llama una clase, a sus extremos,
extremos de clase, al punto medio de cada clase, marca de clase y a la diferencia entre sus
extremos, amplitud de la clase.
En estos casos la tabla adopta una estructura como la del cuadro siguiente:
Clases Marcas de Frecuencias Frecuencias

clase (mi) absolutas...... relativas...
(intervalos)
de clase  acumuladas de clase  acumuladas
Mientras que en el caso del tratamiento individual la tabla quedaba perfectamente
determinada por los posibles valores de los datos, en el de clases está claro que no sucede así, pues
hay libertad para elegir el número de clase y los extremos de las mismas.
Los intervalos, en general, deben tener la misma amplitud.
Para decidir el nº de clases que se deben tomar conviene tener en cuenta que si éste es
excesivo con respecto al número de datos, pueden aparecer irregularidades accidentales
provenientes de pocas observaciones en algunas clases. Sin embargo, si se toma el número de clases
demasiado reducido se producirá una pérdida importante de información.
Un criterio orientativo para decidir cuántas clases se deben tomar lo proporciona la

siguiente fórmula empírica debida a Sturges: k = 1 + 3.3 log n
Ejemplo 12. Se ha pasado un test de 79 preguntas a 600 personas. El número de

respuestas correctas se refleja en la siguiente tabla:
intervalos mi f.absoluta. f.absoluta f.relativa. f.relativa.

puntual acumulada puntual acumulado
[0, 10) 5 40 40 1/15 1/15
[10, 20) 15 60 100 1/10 1/6
[20. 30) 25 75 175 1/8 7/24
[30, 40) 35 90 265 3/20 53/120
[40, 50) 45 105 370 7/40 37/60
[50, 60) 55 85 455 17/120 91/120
[60, 70) 65 80 535 2/15 107/120
[70, 80) 75 65 600 13/120 1
600 1
Ejemplo 13. En una Caja de Reclutamiento se toma una muestra de tamaño 30 de
los pesos de los mozos correspondientes a un cierto reemplazo, obteniéndose los siguientes
datos medidos en kg:
71.9, 63.9, 62.3, 72.5, 78.0, 70.7, 71.4, 60.5, 60.9, 68.2, 88.5, 76.1, 82.1, 63.7, 79.8,
67.5, 50.1, 69.5, 66.1, 47.3, 72.1, 59.8, 93.7, 80.7, 61.2, 64.3, 53.7, 74.7, 96.3, 73.2.
Construir una tabla de frecuencias agrupando los datos en clases de la misma

amplitud.
Solución
Si bien no es estrictamente necesario, en general, es conveniente ordenar los datos

de menor a mayor. A continuación se presenta la misma muestra ordenada:
47.3, 50.1, 53.7, 59.8, 60.5, 60.9, 61.2, 62.3, 63.7, 63.9, 64.3, 66.1, 67.5, 68.2, 69.5,
70.7, 71.4, 71.9, 72.1, 72.5, 73.2, 74.7, 76.1, 78.0, 79.8, 80.7, 82.1, 88.5, 93.7, 96.3.
Como los valores extremos son 47.3 y 96.3 y el número de clases aconsejado para
estos datos es 6 (aplicando la fórmula de Sturges), tomaremos 6 intervalos de amplitud 10,
la tabla queda estructurada de la siguiente manera:
clases Marcas de frecuencias absolutas Frecuencias relativas
clase
de clase acumuladas de clase acumuladas
45 -55 50 3 3 0.1 0.1
55 -65 60 8 11 0.266 0.366
65 -75 70 11 22 0.366 0.733
75 -85 80 5 27 0.166 0.900
85 -95 90 2 29 0.066 0.966
95 -105 100 1 30 0.033 1
30 0.9971
Intervalos no solapados.
Si los datos recogidos están ya agrupados en intervalos no solapados, como por ejemplo:
Intervalo ni
120-139 32
140-149 37
150-159 23
160-169 19
Es conveniente tomar unos intervalos que contengan a éstos, pero sin modificar las
frecuencias. Esto es:
Intervalo ni
[119,5-139,5) 32
[139,5-149,5) 37
[149,5-159,5) 23
[159,5-169,5) 19
Estos nuevos valores se llaman límites reales de la clase.
Observación. Las tablas nos dan una visión, de la característica que se está
estudiando, mucho más clara que la que da la muestra, tal cómo se presenta inicialmente.
Ejercicio 2. El número de personas que viven en cada uno de los portales de una gran
barriada es:
63, 58, 70, 47, 120, 76, 80, 59, 80, 70, 63, 77, 104, 97, 78, 90, 112, 88, 67, 58, 87, 94, 100,
74, 55, 80, 75, 49, 98, 67, 84, 73, 95, 121, 58, 71, 66, 87, 76, 56, 77, 82, 93, 102, 56, 46, 78,
67, 65, 95, 69, 90, 58, 76, 54, 76, 98, 49, 87, 69, 80, 64, 65, 56, 69, 68, 99, 106.
Construye una tabla de frecuencias[1].
Series cronológicas
Se Llaman series cronológicas a unas tablas estadísticas que recogen observaciones hechas
a lo largo del tiempo, normalmente a intervalos iguales. Es por tanto una serie estadística en que la
variable independiente es el tiempo.
Ejemplo 14. El número de médicos colegiados en España en el período de 1984 –

1992:
1984 1985 1986 1987 1988 1989 1990 1991 1992
99730 107503 119890 123543 129897 138967 147978 152943 156748
Ejercicio 3. La producción editorial española de libros de sociología y Estadística, en los

años que se indica es:
Años 1991 1992 1993 1994 1995 1996 1997

nº 345 487 589 376 479 652 741
Hacer una tabla de frecuencias absolutas y relativas puntuales. Expresar la relativa en
porcentajes.
6. Representación de datos: Gráficos.
Los gráficos no son más que traducciones a un dibujo del contenido de las tablas. La
finalidad de los gráficos estadísticos es que la información esté al alcance de personas no expertas,
que entre por los ojos. Los hay de muy diversos tipos pero todos son muy fáciles de interpretar.
¶ Variables cualitativas
Los más usados son los diagramas de rectángulos y los de sectores.
Ejercicio 4. El censo, en miles de cabezas, del ganado en el territorio español, en 1994

fue:
Ganado Número de cabezas
Bovino 5300
Ovino 18047
Caprino 2601
Porcino 12308
Caballar 264
Mular 153
Asnar 164
Dibujar un diagrama de sectores y otro de rectángulos.
· Variables cuantitativas.
Distinguiremos entre variable discreta o continua.
Tratamiento individual
Para el tratamiento individual los medios de representación más utilizados son el gráfico (o
diagrama) de barras, el polígono de frecuencias y los gráficos acumulativos.
Diagrama de barras: Se asocia a una tabla de frecuencias ya sea absoluta o relativa.
Sobre un eje horizontal se representan los valores discretos que toman los datos y
sobre cada uno de ellos se coloca una barra vertical (o un rectángulo) de longitud (altura)
proporcional a la frecuencia.
Ejemplo 15. Vamos a hacer un diagrama de barras de frecuencias absolutas para el

ejemplo 6.
En ocasiones se superponen dos o más diagramas para comparar datos:
Ejemplo 16: Producción y venta de automóviles en España:
Polígono de frecuencias: Como el anterior se asocia a una tabla de frecuencias.

Se representan en un sistema cartesiano los puntos aislados y luego se unen por
medio de segmentos (poligonal). Se usa sobre todo para frecuencias acumuladas (figura 1).
También para series cronológicas.
Ejercicio 5. La esperanza de vida al nacimiento ha evolucionado desde 1900, como se

refleja en la tabla siguiente:
Años 1900 1910 1920 1930 1940 1950 1960 1970 1980
Varones 33,9 40,9 40,3 48,3 47,1 59,8 67,4 69,6 72,6
Mujeres 35,7 42,6 42,1 51,6 53,2 64,3 72,2 75,1 78,6
Dibujar los polígonos de frecuencias superpuestos para poder compararlos.
Gráficos acumulativos: Se construye a partir del mismo eje horizontal del gráfico de
barras, llevando sobre cada valor discreto una vertical de longitud proporcional a la
frecuencia acumulada, absoluta o relativa, de dicho valor. Se suele completar el gráfico
dándole forma de una escalera de peldaños horizontales.
Ejemplo 16. Gráfico de barras acumulativo
Tratamiento por clases
Cuando las variables son continuas, o discretas agrupadas, los gráficos que más se
utilizan son: el histograma de frecuencias y los polígonos de frecuencias (absolutas o relativas)
Histogramas de frecuencias. Sobre el eje de abscisas se marcan los extremos de las
sucesivas clases y con base en cada clase se dibuja un rectángulo de altura proporcional a la
frecuencia (absoluta o relativa) observada en dicha clase[2].
Ejercicio 6. En la siguiente tabla se presenta la distribución por edades del número de

muertes registradas en España (datos hasta el 30-9-94) a causa del SIDA.
Edad en años <3 3-9 10-12 13-14 15-19 20-24 25-29 30-34 35-39 40-49 50-59 60-69
Nº de muertes 411 171 35 31 247 2888 8576 7640 3292 2552 909 544
a) Construye la tabla de frecuencias relativas agrupando los datos en las siguientes

categorías de edad: 0-9, 10-19, 20-29, 30-39, 40-49, 50-59 y 60-69 años.
b) Representa gráficamente la información obtenida en el apartado a) mediante un

histograma,
Polígono de frecuencias. Se asocia a cada clase un punto del plano cartesiano, de

abscisa el valor de la marca de clase y de ordenada la frecuencia observada en dicha clase.
Uniendo los puntos resulta una línea quebrada que se denomina polígono de frecuencias
(figura 3)
Polígono de frecuencias acumuladas.

Partiendo del valor cero en el extremo izquierdo de la primera clase, el polígono
acumulado va tomando en los sucesivos extremos derechos de las clases un valor igual a la
frecuencia acumulada. Uniendo los puntos así obtenidos resulta el polígono acumulativo de
frecuencias (figura 4).
figura 4
Ejercicio 7. Los jugadores de un determinado equipo de baloncesto se clasifican, por altura,

según la tabla siguiente:
Altura 1,70-175 1,75-1,80 1,80-185 185-190 1,90-1,95 1,95-2,00

Nº de jugadores 1 3 4 8 5 2
Dibujar el polígono de frecuencias absolutas acumulativo.
7. Parámetros estadísticos.
Las tablas estadísticas son una forma organizada de dar toda la información, todos los datos de que
disponemos.
Con las gráficas estadísticas se pierde algo de información, pero el mensaje “entra
por los ojos”, que es lo que se pretende.
En cualquiera de los dos casos, la cantidad de datos que se dan es excesiva para que sea
operativo, por ejemplo para la comparación con otras distribuciones.
Por ello se definen los parámetros estadísticos, que nos van a servir para resumir en números
aspectos relevantes de la distribución, que puedan dar una idea de la misma o permitir compararlas
con otras.
Clases de parámetros estadísticos
 Medidas de centralización: media (ya conocida), moda (el valor que se presenta con más
frecuencia) y mediana (el valor del individuo que ocuparía el lugar central sí se colocaran
ordenados de menor a mayor). Tienen como misión representar con un número a la serie
estadística bajo el punto de vista de su posición.
 Medidas de dispersión: rango o recorrido, desviación media, varianza, desviación

típica, coeficientes de Pearson... Sirven para medir el grado de alejamiento de los datos
respecto de una medida central.
 Medidas de posición: cuartiles, deciles, centiles o percentiles. Señalan la situación

de algunos valores importantes de la distribución.
En la ordenación que se hizo para la mediana se llaman cuartiles primero, segundo y

tercero a los que superan exactamente al 25%, 50% y 75% de los valores. El segundo
cuartil es la mediana. Para su obtención se usan los diagramas de cajas
Ejemplo 17. Representa mediante un diagrama de cajas las siguientes calificaciones de 20

alumnos.
0, 2, 3, ,3, 3, 4, 4, 4, 5, 5, 5,, 5, 5, 5, 7, 7, 7, 8, 8 9
Como es múltiplo de 4, 20:4 = 5, Q1. Me y Q3. , serán los valores que hay entre el 5º y 6º ,
10º y 11º, 15º y 16º, es decir:
Q1= 3,5, Me =5 y Q3 =7
Ejercicio 8. Los pesos de un grupo de alumnos de 2º Bach son:
63, 58, 70, 57, 56, 76, 80, 59, 80, 70, 63, 77, 84, 77, 78, 90, 72, 88, 67, 58, 87, 94, 80, 74,
55, 80, 75,
59, 81, 67, 84, 73, 65, 71, 58, 71, 66, 87, 76, 56, 77, 82, 73, 67, 56, 46, 78, 67, 65, 65, 69,
80, 58, 76, 54, 76,
78, 49, 87, 69, 80, 64, 65, 56, 69, 68, 69, 64.
Representa la distribución mediante un diagrama de caja.
 Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otro
lado.
 Medidas de apuntamiento o curtosis que indican si la distribución es más o menos

puntiaguda.
Para el cálculo práctico de muchos parámetros estadísticos se utilizan tablas que

facilitan dichos cálculos (Las fórmulas para hallar los parámetros estadísticos más usuales
se dan después)
TABLA 1
ni
ni
.....
TABLA 2
ni ni
.....
Ejemplo 17. Construir la tabla 1 con los datos del ejemplo 11

xi ni
ni ni
0 2 0 4,65 9,30 21,62 43,24
2 3 6 2,65 7,95 7,02 21,06
3 2 6 1,65 3,30 2,72 5,44
4 2 8 0,65 1,30 0,42 0,84
5 5 25 0,35 1,75 0,12 0,60
7 3 21 2,35 7,05 5,52 16,56
9 3 27 4,35 13,05 18,92 56,76

20 93 la media es 93/20=4,65
Ejemplo 18. Construir la tabla 2 con los datos del ejemplo 13.
Clases Marcas de clase frecuencia
xi ni
ni
45 -55 50 3 150 2500 7500
55 -65 60 8 480 3600 28800
65 -75 70 11 770 4900 53900
75 -85 80 5 400 6400 32000
85 -95 90 2 180 8100 16200
95 -105 100 1 100 10000 10000
Ejemplo 19[3]. A) Hallar la media y la varianza de la variable cuyos valores y

frecuencias absolutas vienen dadas en la tabla adjunta
Valores de la 3 5 4 2 0 8 7
variable
frecuencias 1 3 4 1 3 1 2
b) Representar gráficamente los datos en un diagrama de barras.
Solución
a)
0 3 0 0 0
2 1 2 4 4
3 1 3 9 9
4 4 16 16 64
5 3 15 25 75
7 2 14 49 98
8 1 8 64 64
15 58 314
Se tiene : (Ver fórmulas) = 5,96
b)
MEDIA ARITMÉTICA
Es el valor
Si se trabaja con datos agrupados para la fórmula an-terior, [1], se toma xi igual a las marcas de
clase.
Propiedades
1. Si sumamos una constante a todos los valores la media aumenta en el mismo número.[4] Es decir
si xi´= xi + A 
2. Análogamente, si ,entonces
3. Si zi = xi + yi 
4. La suma algebraica de las desviaciones respecto de la media es cero, es decir :

5. La suma de las desviaciones cuadráticas, , es mínima si a= .
Un inconveniente de la media es que los datos con valores extremos pueden influir
excesivamente en su evaluación.
MODA[5] Mo
Es el valor de la variable de mayor frecuencia.
La distribución puede tener varias modas
Para el caso continuo se habla del intervalo modal (el de mayor frecuencia ni).
Cálculo de la moda8
Para calcular la moda, para datos agrupados, se puede usar la fórmula
[2] (c es la ampitud de la clase modal)
MEDIANA ME Li Mo
Es el valor que ocupa el lugar central
Cálculo de la mediana
Si la distribución tiene un nº impar de datos siempre existe una única mediana y es precisamente el valor
central en la relación ordenada de menor a mayor. Si el nº de datos es par se toma como mediana la media de
los valores centrales
Para hallar la mediana, cuando los datos estén agrupados, se puede usar el polígono de frecuencias
acumuladas (Figura 1)y buscar la abscisa que corresponde a y = N/2 (por interpolación lineal).
Li
Me
La fórmula anterior [3], nos da dicho valor. En ella:
Ni-1 es la frecuencia absoluta acumulada hasta llegar a la clase mediana, ni la frecuencia absoluta de
la clase mediana, Li el límite inferior de la clase mediana y c la amplitud de dicha clase.
CUANTILES
Se llama cuantil de orden  de una distribución al valor de la variable que deja por debajo de él
al  % de los elementos de la población.
Los que más se usan son los cuartiles y los centiles o percentiles.
La mediana coincide con el cuartil segundo Q2.
Los cuartiles y centiles se calculan de forma análoga a la me diana (usando el polígono de

frecuencias acumulativo, y por interpolación lineal, que nos da la fórmula)
RANGO
También llamado recorrido, es la diferencia entre el mayor y el menor de los datos.
Cálculo del rango.
Para el caso continuo, se toma la diferencia máxima posible entre los límites de intervalos
DESVIACIÓN MEDIA
Es la media de las desvia-ciones respecto de la media.
Cálculo de la desviación media9
Como la suma de las desviaciones respecto de la media da cero lo que se toma son las diferencias en valor
absoluto.
La fómula es:
VARIANZA
Se define como la media de las desviaciones cuadráticas respecto de la media.
DESVIACIÓN TÍPICA
Se define como la ráiz cua-drada de la varianza:
Propiedades
1. Si se suma una constante a todos los valores de la variable la desviación típica no varía.
2. Si se multiplican todos los valores de la variable por el mismo número, la desviación típica queda
multiplicada por el mismo número
3. Se verifica que
fórmula que simplifica su cálculo.
COEFICIENTE DE VARIACIÓN DE PEARSON
Es la razón entre la desviación típica y la media.
No debe usarse para valores muy próximos a cero de la media.
Se utiliza para eliminar la influencia de las unidades en el valor de la dispersión y mide la

dispersión relativa de la muestra..
Por definición se calcula mediante la fórmula:
TIPIFICACIÓN
Para comparar dos series datos estadísticos se normaliza (o tipifica) la variable

Si X es una variable estadística la variable normalizada es:
Se dice que se ha tipificado la variable.
COEFICIENTES DE ASIMETRÍA Y CURTOSIS
Sirven para medir la “sime-tría” y el “apuntamiento” de las series estadídticas
Si el coeficiente de asimetría es:>0 la curva es sesgada a la derecha, y sí es<0, sesgada a la iizquierda
Cálculo de los coeficientes de asimetría y apuntamiento.
El coeficiente directo de asimetría se define así:
El de apuntamiento :
Observación. Cuando se trabaja con datos agrupados se toma xi igual a la marca de

clase.
EJERCICIOS resueltos
1. a) Completar los datos que faltan en la siguiente tabla estadística, donde f, F y f r representan,
respectivamente, la frecuencia absoluta, acumulada y relativa:
x f F fr
1 4 0,08
2 4
3 16 0,16
4 7 0,14
5 5 28
6 38
7 7 45
8
b) Calcula la media, mediana y moda de esta distribución
Solución
a) La frecuencia relativa de 1 es 0,08 = , de donde N = 50, lo que nos permite completar la

tabla.
X f F fr
1 4 4 0,08
2 4 8 0,08
3 8 16 0,16
4 7 23 0,14
5 5 28 0,10
6 10 38 0,20
7 7 45 0,14
8 5 50 0,10
b) la media x = 4,76; la mediana es 5 y la moda es 6.
2. Observados los alquileres de un conjunto de despachos se ha obtenido:
Alquileres en ni
miles de pesetas
[0,15) 17
[15,30) 130
[30,45) 180
[45,60) 30
[60,75) 10
[75,90) 5
Calcula la moda y la mediana.
Solución:
Como los datos son agrupados tenemos: para la moda la fórmula:
m0 = = 30 +
Para la mediana usamos el polígono acumulativo de frecuencias

xi ni Ni
[0,15) 17 17
[15,30) 130 147
[30,45) 180 327
[45,60) 30 357
[60,75) 10 367
[75,90) 5 372
Por interpolación lineal se llega a:
186-147= , de donde:
me =33,25. Comprobar aplicando la fórmula [2]
3. Una empresa petrolera ha tenido unos beneficios anuales de 2000 millones de pesetas. En
dicho sector la media es de 1500 millones y la desviación típica de 450 millones. Un comercio tuvo
un beneficio de 8 millones. La media del sector es de 6 millones y la desviación típica de 2,5
millones. ¿Cuál tuvo mejor beneficio respecto a su sector?.
Solución
Tipificamos las variables[6]
Para la empresa del petróleo: ; para el comercio:
Luego tuvo mayor beneficio respecto de su sector el comercio, ya que se desvió por encima
de la media en 1,3, mientras que la petrolera sólo 1,1.
4. De dos muestras la primera con media 30 y desviación típica 4 y la segunda de media 50

y desviación típica 5, ¿cuál es la que aparece más dispersa?
Solución
Calculamos el coeficiente de variación de Pearson[7], Cp = de ambas:
4/30 = 0,13 y 5/50 = 0,1, luego es más dispersa la primera.
5. Se quiere hacer una revisión médica a los empleados de una empresa. Se han escogido 3
muestras del mismo número de empleados. De la primera muestra se han revisado 6 personas por
hora, de la segunda 5 personas por hora y de la tercera 4 personas por hora. Hallar el promedio de
las revisiones.
Solución
Se trata del cociente entre las magnitudes: número de personas y números de horas. Al
calcular los cocientes se ha mantenido fijo el número de personas. Por tanto para hallar el promedio
se ha de calcular la media armónica, cuya definición es: . mh = 3/(1/6+1/5+1/4)

=4,86
6. Un profesor hace 3 exámenes considerando que el 2º es más importante que el 1º y el 3º

más importante que el 2º. Para calcular la nota del alumno que ¿ promedio te parece el más
indicado?
Solución
La media ponderada: que se define así: .
7. Se considera una distribución de datos agrupados en intervalos cuyo polígono de

frecuencias acumuladas es el de la figura.
20 40 60 80 100
Calcula:
a) Tabla de distribución de frecuencias acumuladas.
b) la media.
Solución
a)
xi ni Ni
20 3 3
40 6 9
60 5 14
80 0 14
100 6 20
b)
8. En la fabricación de un cierto tipo de clavos, aparecen un cierto nº de ellos defectuosos. Se han

estudiado 200 lotes de 500 clavos cada uno obteniendo:
Clavos defectuosos 1 2 3 4 5 6 7 8
nº de lotes 5 15 38 42 49 32 17 2
Calcular la mediana y el percentil 20.
Solución:
Se construye la tabla estadística con las columnas de las frecuencias absolutas acumuladas, siendo
ésta
Nº de piezas Nº de lotes (fa) uar. Absoluta acumulada.

5 5
1
15 20
2
38 58
3
42 100
4
49 149
5
32 181
6
17 198
7
2 200
8
200
Como es par la distribución la mediana es la media de los valores centrales

Los valores centrales son 4 y 5, por tanto la mediana es 4,5.
El percentil 20
comprendido entre las frecuencias 20 y 58 luego P20 = 3
9. En el estudio de un cierto fenómeno se obtiene la siguiente tabla:

xi 7 10 12 16 19 20 21
ni 6 7 16 17 22 19 17
Calcula los uarteles Q1 y Q3 correspondiente..
Solución
xi ni Ni
7 6 6
10 7 13
12 16 29
16 17 46
19 22 68
20 19 87
21 17 104
Se tiene: ,y , que corresponde al dato 12; 3.26=78, correspondiente al

dato 20. Luego:
Q1=12, Q3=20
10. La siguiente tabla muestra las frecuencias relativas, fi, de respuestas correctas
contestadas a un test de 24 preguntas por 50 personas.
Calcular la frecuencia absoluta en cada intervalo y el histograma de frecuencias absolutas
Solución
x 0-4 5-9 10-14 15-19 20-24

fi 5 15 15 10 5
EJERCICIOS propuestos
1 Los jugadores de un determinado equipo de baloncesto se clasifican según por altura

según la tabla siguiente:
altura 1,70-1,75 1,75-1,80 1,80-1,85 1,85-190 1,90-195 1,95-2,00

nº de jugadores 1 3 4 8 5 2
Queremos analizar la variable altura para ello se pide:
a) la media, la moda y la mediana.
b) la desviación típica.
c) los uarteles 1º y 3º.
2. Los pacientes que acuden a una consulta médica se distribuyen, según la edad, en una
tabla:
X(edad) [0, 10) [10, 20) [20,30) [30, 40) [40, 50) [50,60)
N (frecuencia) 7 10 30 18 12 3
Se pide:
a) El histograma de frecuencias.
b) La media, desviación típica, mediana y moda.
c) Porcentaje de pacientes menores de 40 años que acuden a la consulta.
3. a) Calcula la media, moda, mediana y el percentil 70 de la variable del ejercicio 6.
b) Calcular el coeficiente de variación de Pearson (Cp = )
4. En un Instituto de bachillerato existen dos grupos de COU para la asignatura de

Matemáticas II.
Las calificaciones de la 1ª evaluación para una muestra de 10 alumnos de cada grupo

fueron las siguientes:
Grupo A 0 1 1 3 5 5 6 8 8 9
Grupo B 2 2 4 4 4 5 5 6 6 8
a) ¿Qué grupo obtuvo mejores resultados?
b) ¿cuál es más homogéneo?
Razone ambas respuestas
Unidad 3. Estadística Descriptiva

1. Introducción
Una de las ramas de la Estadística más accesible a la mayoría de la población es la
Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y
tratamiento mecánico de la información para su presentación por medio de tablas y de
representaciones gráficas, así como de la obtención de algunos parámetros útiles para
la explicación de la información.
La Estadística Descriptiva es la parte que conocemos desde los cursos de educación

primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser
un análisis más profundo de la información. Es un primer acercamiento a la
información y, por esa misma razón, es la manera de presentar la información ante
cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que
carezca de metodología o algo similar, sino que, al contrario, por ser un medio
accesible a la mayoría de la población humana, resulta de suma importancia considerar
para así evitar malentendidos, tergiversaciones o errores.
2. Representación de tronco y hoja

Un método para iniciar el análisis exploratorio de los datos, previo al uso de los
métodos estadísticos tradicionales, y que además proporciona información rápida,
visual y es relativamente nueva, es la representación gráfica de tronco y hoja.
Esta representación se basa en la ordenación de los datos a manera de gráfico, pero
sin llegar a ello, utilizando las decenas y las unidades.
Esta técnica se puede encontrar en el libro de Freund y Simon, pero comentaremos su

uso a través del siguiente ejemplo que contiene las calificaciones obtenidas en una
prueba de matemáticas:
78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86
Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es
decir, el número 51 se verá como 5 | 1. De esta manera las decenas se pondrán en
una columna, en forma vertical, y las unidades a su derecha:
6 1 6 4
7 8 0 4 2 3 6 0 7
8 3 8 1 3 6
9 3 7 1
10 0
Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4
quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64.
Esta es la representación gráfica tronco y hoja, donde cada renglón es una posición
de tronco y cada dígito de la derecha es una hoja.
El procedimiento para realizarla es primero empezar con los troncos, es decir la

columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha de
la línea vertical, en el tronco correspondiente.
Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así, se
pueden ordenar las hojas en cada renglón para que la representación quede como
sigue:
6 1 4 6
7 0 0 2 3 4 6 7 8
8 1 3 3 6 8
9 1 3 7
10 0
En realidad una representación de tronco y hojas presenta la misma información que la

lista original de datos, pero de una manera mucho más compacta (especialmente si la
lista de datos es más grande) y manejable.
Sin embargo, información más compleja resulta un poco más difícil de manejar, por lo
que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar
las centenas u otras posiciones de los números para las troncos. En cada uno de esos
casos conviene hacer alguna anotación, o poner una nota, a fin que los lectores
puedan identificar las adecuaciones realizadas y así poder interpretar lo que se quiere
transmitir.
Para mostrar la información de manera más clara, es posible modificar el número de

posiciones del posiciones del tronco, aumentándola o disminuyéndola de acuerdo a las
necesidades particulares de cada problema. Por ejemplo, con los datos del examen
anterior, se pueden dividir en dos cada posición del tronco, utilizando la primera
posición para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posición para las hojas
restantes. De esta manera, se obtiene la representación gráfica de doble tronco:
6- 1 4
6+ 6
7- 0 0 2 3 4
7+ 6 7 8
8- 1 3 3
8+ 6 8
9- 1 3
9+ 7
10- 0
Con esto se han duplicado el número de posiciones del tronco, con la intención de
buscar una mayor claridad en la presentación.
Esta manera de representación inicial de los datos no la profundizaremos más, sino

que la utilizaremos más adelante en algunos casos para, precisamente, presentar una
representación inicial de la información obtenida.
3. Población y muestra
Algo importante que hay que mencionar es que no siempre se trabaja con todos los
datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por
economía.Por ejemplo, resultaría muy costoso obtener los datos de todos los seres
humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que
se funden las bombillas producidas por una cierta marca realizando la medición de
toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción
entera desaparecería.
Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos
que se estudian y que se les obtienen los datos. La población, entonces, es el total
hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de
conseguir a la población, entonces se recurre a la muestra, que viene siendo un
subconjunto de los datos de la población, pero tal subconjunto tiene que contener
datos que pueden servir para posteriores generalizaciones de las conclusiones. Un
estudio más detallado de las características de las muestras para permitir tales
generalizaciones se realizará más adelante.
3.2. Parámetros y estadísticos

Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o
poblaciones, y de sus muestras, diferenciándose entre ellas las que se refieren a las
mismas poblaciones y a las muestras.
Para el caso de las poblaciones, las medidas que las descriven se denominan
parámetros, y suelen estar representadas con letras griegas (por ejemplo  y ). Por
otro lado, para el caso de aquellas medidas que describen a una muestra se les llama
estadísticos o estimadores, y son representados por letras de nuestro alfabeto (por
ejemplo, x o s).
Tales medidas cuantitativas que describen a las poblaciones y a las muestras se

comentarán enseguida.
4. Datos sin agrupar
5. Medidas de tendencia central para datos sin agrupar
David Lane de la Universidad Rice (Rice Virtual Lab in Statistics) tiene un applet que
demuestra las propiedades básicas de la media y la mediana.
Puedes realizar un ejercicio calculando las medidas de tendencia central para una
población de tamaño 20 haciendo click en el botón de la derecha.
6. Medidas de dispersión para datos sin agrupar
Para hacer un ejercicio del cálculo de las medidas de dispersión para una población de
tamaño 20 haciendo click en el botón de la derecha.
7. Medidas de ubicación para datos sin agrupar
8. Datos agrupados
9. Distribuciones de frecuencias
10. Representaciones gráficas
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un

medio para informar basado en los datos recopilados. La eficacia con que se pueda
realizar tal proceso de información dependerá de la presentación de los datos, siendo
la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que
más pueden ser manipulados o ser malinterpretados si no se tienen algunas
precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas,
o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de
información que se está usando y los objetivos que se persiguen al presentar la
información.
Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al

momento de realizar cualquier gráfica a fin de que la información sea transmitida de la
manera más eficaz posible y sin distorsiones:
1. El eje que represente a las frecuencias de las observaciones (comúnmente el

vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría
dar impresiones erróneas al comparar la altura, longitud o posición de las
columnas, barras o líneas que representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en
la gráfica deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de
información o el objetivo que se persigue al representarla, de otra manera la
representación gráfica se convierte en un instrumento ineficaz, que produce
más confusión que otra cosa, innecesario o productor de malinterpretaciones.
Por ejemplo, si se desea representar la proporción de población masculina en
un país conviene más usar una gráfica de pastel o circular que una gráfica de
barras al compararla contra la población femenina; por un lado se puede
apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es
mayor.
Hay un punto que conviene remarcar: existe software que permite la construcción
rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no
importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una
gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver
más sobre el objetivo de estas herramientas y la Estadística: la transmisión
eficiente de la información.
Si quieres ver indicaciones de cómo hacerlas usando Excel haz click.
10.2. Tipos de gráficos
Para las distribuciones de frecuencias la representación gráfica más común es el

histograma. Un ejemplo es el que se presenta a continuación y que representa el
número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.
En el eje horizontal (o de las abscisas) se representan los intervalos de los datos,

marcándose de manera continua las fronteras entre cada uno de los éstos. De esta
manera, el histograma está compuesto rectángulos, cuyo número coincide con la
cantidad de intervalos considerados, el ancho de la base de cada uno de esos
rectángulos es la misma siempre y coincide con las fronteras de los intervalos, y la
altura corresponde a la frecuencia de cada intervalo.
Es importante observar que resulta difícil utilizar este tipo de representación cuando
existen intervalos abiertos o cuando los intervalos no son iguales entre sí.
Otra observación es la amplitud de los intervalos, que se puede establecer utilizando la

regla de Sturges, pues al cambiarla la presentación visual de un histograma puede
variar. Un applet que muestra cómo el número de clases y su ancho pueden hacer
variar fue desarrollado por Webster West de la Universidad del Sur de Carolina.
El programa Excel no permite crear de manera automática histogramas, pues

proporciona el ancho de las columnas de tal manera que quedan separadas. Sin
embargo, existe la manera de hacerlas.
Un tipo de gráfico muy parecido al histograma es la gráfica de columnas. Para este

tipo de gráfica, elaboradas con rectángulos también, se pide que sus bases sean del
mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a
diferencia del histograma, no es necesario tener una escala horizontal continua, por lo
que los rectángulos (o barras) no tienen que aparecer juntas entre sí.
Otra observación pertinente es que se pueden representar en la misma gráfica,

utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a
las mismas variables producto de varias observaciones. Esto produce una gráfica con
varias series, correspondiendo cada una de ellas a cada observación de la muestra (o
población), y teniéndose una gráfica compuesta. Es conveniente que cada serie de
datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero
distinta de las demás.
El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de

tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales)
están coloreadas con diferente color para mostrar el comportamiento tanto individual,
como de cada uno de los alumnos con respecto a los demás. Es interesante observar
que la escala horizontal no es continua (es nominal).
Existe la posibilidad, y si los recursos lo permiten, de representar gráficos compuestos

de una manera "tridimensional", es decir, con gráficos que posean no sólo dos ejes,
sino tres; y en los que los rectángulos son sustituídos por prismas de base rectangular
(ocasionalmente el software en el mercado permite utilizar prismas cuya base son
polígonos regulares de más de cuatro lados, pirámides o cilindros). Un ejemplo es el
siguiente:
donde se representa el porcentaje del PIB gastado en docencia e investigación por

cinco países en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y
Desarrollo", 1994, XIX(114):12). Es importante considerar que este tipo de
gráficos puede complicarse mucho, haciendo que la información sea menos legible.
También es posible realizar gráficas de barras horizontales, los cuales se parecen

mucho a las gráficas de columnas, con la salvedad importante de que la función de los
ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje
vertical a las clases.
Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una
población dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se
presenta es la población de un país ficticio llamado "Timbuctulandia":
A este tipo de gráficos en particular se le llama pirámide de edades por su forma.
Incluso, cuando se compara la población masculina y femenina por estratos de edades,
se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el
otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en
particular).
Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe
cierta continuidad entre las observaciones (como por ejemplo el crecimiento
poblacional, la evolución del peso o estatura de una persona a través del tiempo, el
desempeño académico de un estudiante a lo largo de su instrucción escolar, las
variaciones presentadas en la medición realizada en algún experimento cada segundo
o minuto) se pueden utilizar las gráficas de líneas, que consisten en una serie de
puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada
una, uniéndose consecutivamente con líneas:
Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos
individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las
gráficas de columnas (y de otras más) es posible presentar varias series de
observaciones (en este caso cada serie de observaciones son los pesos de un
individuo).
Otra forma de representación de un uso menos común, y muy parecida a las gráficas
de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es
que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una
antes de la primera clase con datos y otra después de la última. El resultado es que se
"sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea
separada del eje se convierte, junto con éste, en un polígono.
El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e

investigación durante el año de 1990 en cinco países (fuente: Revista "Ciencia y
Desarrollo", 1994, XIX(114):12):
El Excel no crea automáticamente polígonos de frecuencias, sino que produce gráficas

de líneas. Sin embargo, es posible arreglárselas para hacerlas.
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de

aplicar parcialmente la misma técnica a una distribución acumulativa y de igual
manera que éstas, existen las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y
por ésto la aplicación de la técnica es parcial):
1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que

sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.
2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las
fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor;
para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la
menor que, utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto
que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una
hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las
4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa
en cada frontera de clase son el número de observaciones menores que la frontera
señalada (en caso de tiempos sería el número de observaciones antes de la hora que
señala la frontera).
Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva

(mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va
del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de
usar, pero con una distribución porcentual:
En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una

llamada gráfica de áreas, la cual consiste en rellenas el área que se encuentre debajo
de las líneas que resultan de una gráfica de líneas.
El ejemplo que se presenta es la comparación del total de las especies de las familias
del orden Carnivora y las que están amenazadas, en México, (fuente: Revista
"Ciencia y Desarrollo", 1994, XIX(114):58):
Cuando lo que se desea es resaltar las proporciones que representan algunos
subconjuntos con respecto al total, es decir, cuando se está usando una escala
categórica, conviene utilizar una gráfica llamada de pastel o circular.
Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de
conocimiento en el año de 1992 se puede usar algo así como sigue (Fuente:
ANUIES,1995):
De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar
esa "rebanada" de la gráfica y separarla de las demás:
Para hacer una gráfica de este tipo en papel.
Hay que tomar algunas precauciones al utilizar este tipo de gráficos. Por un lado,
comparar dos gráficos circulares (por ejemplo, si se quisieran comparar las
proporciones de matrículas en licenciatura por áreas de conocimiento en licenciatura
para dos años distintos) resulta muy difícil y, por tanto, no es muy aconsejable.
Por otro lado, en ocasiones existen categorías con pocas frecuencias (por ejemplo, dos
o tres con frecuencias relativas menores al 1% cada una), haciendo que la gráfica
resulte "pesada" y las etiquetas se encimen. Una posible solución es juntarlas en una
sola categoría (por ejemplo, la típica "otras" o "varias"), pero entonces habría que
ponderar si se hace una gráfica extra con dichas observaciones únicamente, haciendo
la anotación pertinente, o simplemente se ignoran por no resultar significativas.
Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos

para ilustrar los datos o los resultados de alguna investigación. Regularmente se
utilizan dibujos para representar dicha información, y el tamaño o el número de estos
dibujos dentro de una gráfica queda determinado por la frecuencia correspondiente. A
este tipo de gráfica se le llama pictograma y éstos son dos ejemplos:
El de la izquierda representa la población de los Estados Unidos (cada hombrecillo
representa a dos millones de habitantes), el de la derecha representa la masa de tres
planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada
representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene más
17 veces más masa que la Tierra).
Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de
gráficas, las posteriores sí. Otros programas contemporáneos (como el Corel Draw o el
Harvard Graphics) sí son capaces.
Cuando se pretende ilustrar la dispersión de las observaciones realizadas, y así

trabajar algunas cosas como correlaciones se puede utilizar una gráfica de
dispersión. Por ejemplo, el ejemplo de la izquierda es la dispersión que se presenta al
comparar el número de tesis doctorales en ciencias exactas contra el número de total
de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990
(fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):
La gráfica de la derecha es resultado de comparar el diámetro (en miles de kilómetros)

de los planetas interiores del nuestro sistema solar contra sus densidades (en gramos
por centímetro cúbico). Es interesante observar que los puntos parecen "seguir" una
línea imaginaria que se asemeja a una recta, con excepción de un caso atípico:
Mercurio.
Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones
siguen algún patrón lineal (una línea de tendencia) o si existen valores atípicos. Para el
caso del Excel, el programa es capaz de graficar las líneas de tendencias que siguen un
conjunto de datos.
Un tipo de gráfico similar a las gráficas de dispersión son las gráficas de burbujas,
en las cuales se presenta la dispersión de las observaciones de la misma forma que
aquéllas, pero se le añade la posibilidad de visualizar otra variable representada en el
tamaño del punto, pues éstos se convierten en círculos (burbujas) con radios
proporcionales a las magnitudes que representan.
Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de
nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus órbitas, y
el tamaño de las burbujas indica la masa de cada planeta.
Además existen otros tipos de gráficos, cada uno con características particulares que
les proporcionan cierta intencionalidad para su uso, como son las gráficas de radar y
las gráficas polares.
11. Medidas de tendencia central para datos agrupados
Para hacer un ejercicio de las medidas de tendencia central con una distribución de
frecuenicas de hasta diez intervalo haz click en el botón de la derecha.
12. Medidas de dispersión para datos agrupados
Un ejercicio del cálculo de las medidas de dispersión con una distribución de

frecuenicas de hasta diez intervalo se puede acceder si das click en el botón de la
derecha.
13. Medidas de ubicación para datos agrupados
1997-1999. ViL & DDT Software'n'Web, Co.

Conceptos Estadísticos Básicos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conceptos Estadísticos Básicos

Cargado por

Copyright:

Formatos disponibles

1.

Conceptos básicos, presentación de información, medidas de tendencia central

UNIDAD 1 CONCEPTOS BÁSICOS, PRESENTACIÓN DE INFORMACIÓN,

Muestra: Subconjunto de la población seleccionado de acuerdo con un criterio, y que sea

Variables cuantitativas: tienen valor numérico (edad, precio de un producto,

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por

Las variables también se pueden clasificar en:

Variables unidimensionales: sólo recogen información sobre una

Variables bidimensionales: recogen información sobre dos características de

Variables pluridimensionales: recogen información sobre tres o más

1. CONCEPTO Y CLASIFICACIÓN DE DATOS

Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y

1.2.1 DISTRIBUCION DE TABLAS DE FRECUENCIAS

Tienen por objeto fundamental describir y analizar las características de un conjunto de

En relación a la estadística descriptiva, Ernesto Rivas Gonzáles dice; "Para el estudio de

Distribución de frecuencias: muestra el número de veces que ocurre cada observación.

perro gato perro hamster

A continuación se muestra la distribución de frecuencias absolutas, relativas y porcentuales

Mascota Frecuencia absoluta Frecuencia relativa Frecuencia

NOTA :Para calcular:..

Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de

1.2.2 CONSTRUCCION DE TABLAS ESTADÍSTICAS

Distribución agrupada de frecuencias: Distribución de frecuencias en la que los valores

1. Toma de datos.- es la obtención de una colección de datos por medio de encuestas,

Estos son algunos métodos para obtener datos:

Encuesta: Se entiende por encuesta las observaciones realizadas por muestreo, es

2. Ordenación de datos: es una colocación de los datos numéricos tomados en orden

*No. De clases (Regla de Sturges): 1 + 3.332 log N

*Tamaño de clase = Rango / No. De clases

Ejemplo de tablas estadísticas:

Los siguientes datos corresponden a la cantidad de asientos vacíos que reportaron 50

No de clases = 1 + 3.332log (50) = 6

Tamaño de clase = 11/6 = 2

5) Límites reales de clase

Representación gráfica de datos.

Se tomará el ejemplo anterior para demostrar el uso de diferentes gráficas.

Polígono de frecuencias: Forma gráfica que representa una distribución de frecuncias en la

1.3 CALCULO DE LA MEDIA MEDIANA Y MODA

Medidas de tendencia central:

La tendencia central se refiere al punto medio de una distribución. Las

b) Media geométrica: se eleva cada valor al número de veces que se ha repetido.

La media geométrica se suele utilizar en series de datos como tipos

Lo más positivo de la media es que en su cálculo se utilizan todos los

Sin embargo, presenta el problema de que su valor (tanto en el caso

Observación u observación potencial en un conjunto que divide el

Calcule la mediana para los siguientes datos.

La mediana de una muestra de datos organizados en una distribución de frecuencias se

Mediana = LRI + [(n/2 - FA)/f] c

donde L es el límite inferior de la clase que contiene a la mediana, FA es la frecuencia

las calificaciones de un examen de diez estudiantes son:

Como la calificación 81 es la que más ocurre, la calificación modal es 81

Ejemplo de cálculo de media mediana y moda. Para ejemplificar, tomaremos el ejemplo de

Clase Intervalo LRI LRS Frec. Frec. Frec. X fx

1. CÁLCULO DE VARIANZA, DESVIACIÓN ESTÁNDAR Y

Medidas de dispersión: Estudia la distribución de los valores de la serie, analizando si

Desviación estándar: Se calcula como raíz cuadrada de la varianza.

Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y

Continuando con el caso de los autobuses foráneos, se realizará el ejemplo de medidas de

Clase Intervalo LRI LRS Frec. Frec. Frec. X fx

2.1 CONCEPTOS BÁSICOS

Experimento: proceso que conduce a la ocurrencia de una de varias observaciones

Recordemos que el símbolo factorial! Significa por ejemplo que es 3! = 321 = 6