Está en la página 1de 37

UNIDADS I Y II

ESTADÍSTICA DESCRIPTIVA
1.1. CONCEPTO DE ESTADISTICA.
La estadística es una rama de la matemática aplicada que se ocupa de recolectar datos
organizarlos, representarlos y analizarlos; a partir de estos análisis extrae conclusiones
que sirven de base para tomar decisiones; la Estadística está ligada con los métodos
científicos en la toma, organización, presentación y análisis de datos, tanto para la
deducción de conclusiones, como para tomar decisiones razonables de acuerdo con los
análisis y cuando existen situaciones de incertidumbre. Algunas otras definiciones:
Ciencia dedicada al estudio sistemático de los datos. Transforma datos en información
Contribuye a la generación de conocimiento.
Es una ciencia que tiene por objeto la recolección, presentación, análisis e interpretación
de datos.
Rol de la estadística: Proporcionar métodos para evaluar y juzgar la teoría y la realidad
Usos: Ciencias naturales; ciencias económicas; ciencias políticas y sociales; medicas, etc.
Abusos:
Encuestas de opinión
Índices económicos
Pronósticos
1.2. DIVISION DE LA ESTADISTICA: La estadística se divide en dos grandes ramas:
a) Estadística Descriptiva: Describe, analiza y representa un grupo de datos utilizando
métodos numéricos y gráficos que resumen y representan la información contenida en
ellos
b) Estadística Inferencial: Apoyándose en el cálculo de probabilidades y a partir de
datos muéstrales, efectúa estimaciones, decisiones, predicciones, u otras
generalizaciones, sobre un conjunto mayor de datos.
1.3. IMPORTANCIA DE LA ESTADISTICA
La Estadística es importante , desde el punto de vista cultural en la formación general del
ciudadano, quien precisa tener cierta cultura estadística para leer e interpretar cuadros y
gráficos que con frecuencia aparecen en los medios informativos, por su utilidad en las
diferentes disciplinas como herramienta básica para la investigación en el estudio de
fenómenos complejos en los que hay que comenzar por definir el objeto de estudio y las
variables relevantes, tomar datos de los mismos, interpretarlos y analizarlos; por su aporte
en el desarrollo personal fomentando un razonamiento critico basado en la valoración de
la evidencia objetiva, es decir hemos de ser capaces de usar los datos cuantitativamente
para controlar nuestros juicios e interpretar el de los demás, es importante para adquirir
un sentido crítico de los métodos y razonamientos que permitan resolver problemas de
decisión y efectuar predicciones, porque ayuda a comprender otros temas del currículo,
tanto de la educación obligatoria como universitaria, donde con frecuencia aparecen
gráficos, resúmenes, términos o conceptos estadísticos, además de ser un buen vehículo
para alcanzar las capacidades de comunicación , tratamiento de información, resolución
de problemas, uso de ordenadores y trabajo corporativo y en grupo a los que se da
bastante importancia en los nuevos currículos.
La estadística es importante, desde una perspectiva económica y financiera por ser ella
una herramienta válida para quien formula las políticas económicas, de salud, para
quienes asesoran al presidente por ejemplo en la toma de decisiones de declarar una
cuarentena para controlar la pandemia del Covid-19 y a otros funcionarios públicos como
alcalde o gobernadores, por su ayuda inteligente en la toma de decisiones sobre tasas
tributarias, programas sociales y otros asuntos que se manejan en el área gubernamental
y empresarial, así como en el mundo de los negocios, en cuestiones de rentabilidad.
Expresa también que para los que trabajan en el área de investigación de mercados, la
estadística es de gran ayuda para determinar la reacción de los consumidores frente a
los actuales productos de una empresa y en el lanzamiento de los nuevos, como también
para evaluar las oportunidades de inversión por parte de los asesores financieros.
Desde una perspectiva industrial , la estadística es importante ya que juega un papel
importante en el proceso de transformación necesario para la sobrevivencia de la
industria nacional en concierto con la industria mundial, orientando los procesos y
productos a los consumidores, con calidad superior, rapidez, bajo precio y utilizando
nuevos recursos para cualquier otro competidor. Para lograrlo existe una necesidad crítica
de los métodos y pensamientos estadísticos para tomar decisiones no solo a nivel
operacional, sino también en los niveles de alta dirección.
En la actualidad la Estadística es considerada como una de las ciencias metodológicas
fundamentales y base del método científico experimental es por eso que como
especialista en la materia considero que la estadística es muy importante por ser una
ciencia de carácter instrumental para otras disciplinas tales como la medicina, ingeniería
comercial, contabilidad , administración , educación , etc. y que contribuye a tomar
decisiones inteligentes y significativas en condiciones de incertidumbre o duda de
acuerdo a la naturaleza del problema a resolver
1.4. LA ESTADISTICA EN EL DESARROLLO DE LA INVESTIGACION
La investigación científica consiste en la búsqueda de la verdad, de una verdad que ya
existe pero que tenemos que descubrir.
El proceso de investigación científica comienza con un problema que constituye el punto
de partida. Del análisis lógico del problema surge una hipótesis, que viene a ser una
respuesta preliminar al problema, Para comprobar la hipótesis se recolectan pruebas ,
hechos, datos , observaciones etc. , los mismos que clasificados, analizados o
interpretados permitan la demostración de la hipótesis, llegándose a la generalización, es
decir a establecer los principios o leyes.
El proceso utilizado es la investigación científica, el principio o ley que se ha obtenido es
la ciencia. La estadística está relacionada directamente con el método científico por lo
siguiente:
En el proceso de observación y los hechos a observar, además la estadística ayuda a que
las observaciones sean exactas.
En el proceso de formulación de hipótesis, la estadística permite descubrir algunas
relaciones que conducen a la formulación de la hipótesis.
En el proceso de verificación de hipótesis, la estadística permite a través de sus técnicas,
la presentación adecuada de los resultados y el uso correspondiente de las pruebas de
significación en el análisis inferencial.
1.4.1. Etapas del Método Estadístico: De acuerdo con el orden de aplicaciones de la
estadística, el método estadístico se lleva a cabo en cuatro etapas.
a) Etapa de Planificación: Esta etapa define ciertamente la naturaleza y objetivos de la
investigación, así como los detalles concernientes a la recolección, clasificación y análisis
de la información en base a lo cual se describen las características de una determinada
población o se confirma o niega una determinada hipótesis de trabajo.
b) Etapa de Recolección: Esta etapa consiste en determinar los métodos de recolección
adecuados para preparar los instrumentos de recolección, probar el método y los
instrumentos de recolección seleccionados y realizar la recolección de los datos.
c) Organización y presentación de los datos: En esta etapa se debe tratar de
asegurar la validez y confiabilidad de los datos recopilados. Luego se debe clasificar y
tabular los datos y finalmente presentarlos en cuadros estadísticos y gráficos.
d) Análisis e Interpretación de Resultados: En esta etapa se calculan indicadores y
medidas de resumen que describen el conjunto de datos.

1.5. VARIABLES.
Una variable es una característica de la población que se va a investigar y puede tomar
diferentes valores, una variable al ser medida en diferentes Individuos es susceptible de
adoptar diferentes valores. Ejemplo: el peso, la talla .Las variables se clasifican en
cuantitativas y cualitativas.
a) Variables Cuantitativas.- Aquellas que se pueden medir o cuantificar, existen dos
tipos de variables cuantitativas: Discretos y Continuos.
a.1) Variables Cuantitativas Discretas: Esta representado por todos los números
enteros; ejemplo: número de alumnos en el aula de clases, número de defunciones por
día, número de obreros en una empresa, etc.
a.2) Variables Cuantitativas Continuas: está representado por todos los números
reales, ejemplo: talla, peso, densidad, volumen, área, longitud, resistencia, temperatura.
b) Variables Cualitativas.- Se refieren a las cualidades de las cosas, es un atributo. Ej.:
sexo, color de ojos, estado civil, lugar de procedencia, ocupación, etc.
Las variables cualitativas pueden ser nominales u ordinales.
b.1) Variable Cualitativas Nominal: Es aquella que establece la distinción de los
elementos en las categorías sin implicar orden entre ellas. Ejemplo sexo. Masculino,
femenino. Etc.
b.2) Variable Cualitativa Ordinal: Es aquella que agrupa a los objetos, individuos en
categorías ordenadas para establecer relaciones comparativas. Ejemplo: Nivel de
pobreza: pobre, muy pobre. Extremadamente pobre.
1.6. TERMINOS DE ESTADISTICA.
Considerando que existe un conjunto de términos que se usan frecuentemente en
estadística, conviene precisar el significado de algunos de ellos.
a) Población (N): Es el conjunto de todos los individuos, objetos u observaciones que
poseen alguna característica observable común . Ejemplo La población de estudiantes de
la Universidad Jorge Basadre Grohmann de Tacna.
Una población puede clasificarse como finita o infinita.
a.1) Población Finita: Es aquella que tiene un número limitado de elementos. Ejemplo:
Las edades de todos los estudiantes de la Universidad Nacional Jorge Basadre
Grohmann de Tacna.(UNJBG)
a.2) Población Infinita: Es aquella que tiene un número ilimitado de elementos. Ejemplo:
El número de unidades elaboradas en un proceso de producción continúo.
b) Muestra(n): Es una parte o un subconjunto representativo de la población y al proceso
de obtener la muestra de le llama muestro. La selección y el estudio d ela muestra tiene
por objeto la extracción de conclu8siones que serán válidas para la población de la cual
se obtuvo dicha muestra. Ejemplo. Estudio de una muestra aleatoria d 150 alumnos de la
UNJBG, según su nivel socio económico.
c) Unidad Estadística: También se le conoce como unidad de observación o unidad de
análisis. Es el elemento u objeto indivisible de la población que será analizado y sobre los
cuales se obtendrán los datos. Ejemplo: Si se quiere estudiar el rendimiento académico
de los alumnos de la UNJBG, la unidad estadística serán los alumnos.
d) Datos: También se le conoce como observaciones. Son los valores recopilados como
resultado de las observaciones de una variable, es decir es el registro numérico de una
característica o variable. Ejemplo calificación de 18 al evaluar el rendimiento académico.
e) Parámetro: Es un valor obtenido para describir en forma resumida las características
pertinentes o más importantes de una población. Ejemplo. El sueldo promedio de todos
los trabajadores de la Empresa Electro sur S.A de Tacna.
f) Estadígrafo: También se le conoce como estadístico (a): Es una medida descriptiva de
una muestra. El estadígrafo sirve como estimación del parámetro. Ejemplo. El sueldo
promedio del 25% de los trabajadores de la Empresa Electro sur S.A de Tacna
g) Indicadores: Son elementos característicos que describen una situación permitiendo
su análisis. Son referentes empíricos que permiten una medición, descripción,
ordenamiento de los datos característicos en forma valida y confiable. Los indicadores no
determinan la realidad, la realidad la determina el valor del indicador. La validez y
confiabilidad del indicador depende de la validez de los datos utilizados y de la lógica de
su relación o construcción. Son indicadores los llamados índice, tasas, estadígrafos,
medidas de resume etc.
1.7 RECOLECCION DE DATOS
La recolección o recopilación de datos es el momento en el cual el investigador se pone
en contacto con los sujetos, objetos o elementos sometidos a estudio con el propósito de
obtener los datos o respuestas de las variables consideradas; a partir de estos datos se
prepara la información estadística y se calcula las medidas de resumen e indicadores
para el análisis estadístico. Para recoger la información se toma en cuenta las siguientes
modalidades; las fuentes de información, los sistemas de recolección y las técnicas de
recolección.

1.7.1. Fuentes de Información


Es el lugar, la institución o persona donde están los datos que se necesitan para cada una
de las variables o aspectos de la investigación. Las fuentes de información pueden ser:
a) Fuentes Primarias: Cuando los datos se obtienen directamente de la misma persona o
entidad utilizando ciertas técnicas. Ejemplo: Llevar a cabo una encuesta para conocer el
grado de satisfacción laboral en los trabajadores de una empresa “X”.
b) Fuentes secundarias: Cuando los datos ya han sido elaborados y procesados por
otras personas o instituciones. Ejemplo: La información estadística que publica el INEI de
los diferentes ministerios del Perú.
1.7.2 Sistemas de Recolección.
Son procedimientos que se utilizan para recoger información. Pueden ser:
a) Los Registros: Son libros, padrones en donde se anotan en forma regular permanente
y obligatoria los hechos ocurridos. Ejemplo Registros Civiles, RENIEC, Registro Públicos.
b) Las Encuestas: Son procedimientos de obtención de información estructurada según
criterios previos de sistematización que se efectúa con un propósito específico en la
población o en un sector de ella. Pueden ser:
b.1) Encuesta Censal: Cuando abarca toda la población en estudio. Ejemplo Censo de
Población y Vivienda de una localidad o país.
b.2) Encuesta Muestral: Cuando abarca una parte de la población en estudio. Ejemplo:
Llevar a cabo una encuesta de preferencia electoral.
1.7.3. Técnica de Recolección.
Son procedimientos que se utilizan para recolectar información según la naturaleza del
trabajo de investigación. Pueden ser: El cuestionario, la entrevista, el análisis de
contenido, etc.
a) La observación: Es la acción de mirar con rigor, en forma sistemática y profunda, con
el interés de descubrir la importancia de aquello que se observara.
b) El Cuestionario: Es un instrumento constituido por un conjunto de preguntas
sistemáticamente elaboradas que se formulan al encuestado o entrevistado con el
propósito de obtener datos de las variables consideradas en estudio.
d) Análisis de Contenidos: Es la técnica más elaborada y que goza de mayor prestigio
en el campo de la observación documental. El fin o propósito del análisis del contenido
consiste en determinar los puntos más importantes de un documento para observar y
reconocer el significado de los mismos en sus elementos, como palabras, frases, etc., y
en clasificarlos adecuadamente para su análisis y explicación.
Puede aplicarse a cualquier forma de comunicación, programas televisivos, programas
radiofónicos, artículos de prensa, libros, poemas, convenciones, pinturas, discursos,
cartas, melodías, etc.
1.8. ORGANIZACIÓN Y CLASIFICACION DE DATOS.
Una vez que usted ha llevado a cabo la recolección de datos es necesario organizarlos y
presentarlos adecuadamente de tal manera que facilite su comprensión, descripción y
análisis del fenómeno en estudio y obtener conclusiones válidas para la toma de
decisiones. Se considera las siguientes actividades: revisión y corrección de los datos,
construcción de tablas de distribución de fre3cuencias y representación tabular y gráfica.
1.8.1. Revisión y Corrección de Datos.
Todo análisis estadístico por acabado y seguro que sea es capaz de suministrar
respuestas inadecuadas si este se basa en una información incorrecta, es por eso que es
necesario inspeccionar la validez y confiabilidad de los datos para corregir los errores y
omisiones de acuerdo a ciertas reglas.
1.8.2. Construcción de Tablas de Distribución de Frecuencias.
Después de la revisión y corrección de los datos recopilados seguidamente se deben
ordenar y clasificar, según su magnitud y agruparlos de acuerdo a sus características en
grupos más condensados en una tabla de frecuencias. En ella se observa la frecuencia o
repetición de cada uno de los valores de la variable después de realizar la operación de
tabulación.
1.8.2.1 Distribución de Frecuencias para Variables Cuantitativas.
Son tablas de trabajo estadístico que presentan la distribución de un conjunto de datos
cuando la variable es cuantitativa ya sea discreta o continua.
Cuando la variable es discreta se llama distribución de frecuencias en puntos aislados.
Cuando la variable es continua se llama distribución de frecuencias en intervalos de
clase, para construir este tipo de tablas se deben tomar en cuenta los siguientes
elementos:
a) Valor de la variable o Intervalos de clase: También se le conoce como clase, resulta
de la clasificación de la variable y se representa por Y, a los puntos y y por Li y Ls a los
intervalos.
b) Frecuencia Absoluta: Es el número de veces que se repite un determinado valor de
una variable, en el caso de intervalo es el número de observaciones comprendidas en
dicho intervalo. se representa por fi o ni con (i = 1,2,…. m), la suma de la frecuencias
absolutas simples es igual al número total de observaciones y se representa del siguiente
modo:

f1 +f2+........+ fm =Σ fi = n

b) Frecuencia Relativa: Es el cociente de la frecuencia absoluta de cada clase entre el


número total de observaciones. Esta frecuencia se denota por hi con (i = 1,2,…. m).

Entonces: hi = frecuencia de cada clase = fi


Número Total de observaciones n
La frecuencia relativa simple toma valores comprendidos entre 0 y 1 es decir: 0 ≤ hi ≤ 1
Asimismo la suma de las frecuencias relativas simples es igual a 1 es decir:
h1+ h2 +………..+ hm = Σ hi = 1

d) Frecuencia Relativa Porcentual: Es la frecuencia relativa multiplicada por 100. Se


representa por hi % y se considera como el porcentaje de observaciones
correspondientes a cada a cada clase. La frecuencia porcentual está comprendida entre
0 y 100. Dónde : hi % = hi x 100.
e) Frecuencia Absoluta Acumulada: resulta de acumular o sumar sucesivamente las
frecuencias absolutas. Se representa por Fi, donde:
F1 = f1
F2 = f1 + f2
F3 = f1+f2+f3
.
.
Fm = f1+f2+f3+……+fm
f) Frecuencia Relativa Acumulada; resulta de acumular o sumar sucesivamente las
frecuencias relativas. Se representa pr Hi, donde:
H1 = h1
H2 = h1 + h2.
.
Hm = h1 + h2…………+hm = 1.
La frecuencia relativa acumulada toma valores entre 0 y 1 es decir: 0≤ Hi ≤1.

A. Distribución de Frecuencias de Puntos Aislados. Cuando la variable es discreta


generalmente los valores de la variable son pocos, por lo que pueden considerarse cada
uno de ellos como una clase.
La distribución de frecuencias absolutas toma la siguiente forma:
Muestra del cuadro de distribución para variable discreta.
TABLA N° 1 Distribución de Frecuencias para Datos Discretos
TITULO : (el título debe responder a las preguntas ¿Qué?¿Cómo? ¿Dónde? ¿Cuándo?)
Xi fi Fi hi Hi % = hi x 100 % = Hi x 100
X1 f1 F1 h1
X2 f2 F2 h2
. . .
. . .
. . .

Xm fm
Total n 100%
FUENTE………………………………………

Ejemplo1. Construcción de un cuadro estadístico de Variable Cuantitativa Discreta


Se hizo una entrevista directa en el salón de clases FAIA-UNJBG, se les pregunto el
número de hermanos que tienen cada estudiante y los datos se presentan a
continuación:

5 2 2 4 4 7
3 2 5 2 4 4
3 1 2 4 4 2
5 3 3 2 2 3
4 3 3 2 1 4
3 2 3 3 3
Construir un cuadro de distribución de frecuencias

Solución: lo primero que hay que observar para construir un cuadro es el tipo de variable
en este caso la variable número de hermanos es una variable cuantitativa discreta.

TABLA N° 2
Muestra de estudiantes de la FAIA-UNJBG. Observados según la cantidad de hermanos
que tienen. Datos obtenidos por entrevista directa en mayo del 2007.

Xi =Nº de fi Fi hi Hi % = hi x 100
hermanos
1 2 2 2/35 2/35 5.71%
2 10 1 10/35 12/35 28.57%
2
3 11 2 11/35 23/35 31.421%
3
4 8 3 8/35 31/35 22.85%
1
5 3 3 3/35 34/35 8.57%
4
7 1 3 1/35 35/35 = 2.85%
5 1
total n = 35 1 100%

Fuente: Datos obtenidos por entrevista directa en el salón de clases del cuarto año
B. Distribución de Frecuencias en Intervalos de Clase: Se utiliza generalmente
cuando la variable es cuantitativa continua
Pasos a seguir en la construcción de un cuadro de frecuencias.
1). Recolección de datos (Distinguir si la variable es discreta o continua)
2). Ordenar los datos: en forma ascendente o descendente, y obtener el número total de
muestra
3). Obtener el valor más pequeño o límite inferior (Y min) y el valor más grande o límite
superior (Ymax). Si es variable continua se procede con el siguiente paso:
a). Calcular el rango (R) que se obtiene restando el valor máximo y el valor minimo, cuya
fórmula es:
R= Ymax – Ymin
b). Determinar el número de intervalos (K), se emplea la fórmula de Sturges:
K= 1 + 3.32 log(n) ,
Dónde: n es el número de observaciones de la muestra o número de datos
c). calcular la amplitud interválica : C , cuya fórmula es:
C= R
K
d) Se determina los límites de Clase, de manera que cada observación se clasifique sin
ambigüedades en una sola clase
TABLA N° 3
Muestra del cuadro de distribución para variable continúa
Título:……………………………………………………………….
│Yi-1 Yi│ Yi fi F hi Hi % = hi x 100 % = Hi x 100
i

………….

Total n 100%
FUENTE…………………………………………
Dónde:
 Frecuencias absolutas simples (fi).- Esta representado por la cantidad de
veces que se repite cada valor de la variable, es el número de datos
contenidos en cada uno de los intervalos.
 Frecuencias absolutas acumuladas (Fi).- Es la suma de las frecuencias
simples en forma acumulativa.
 Frecuencias relativas simples (hi).- Se obtiene dividiendo cada una de las
frecuencias absolutas por el número total de datos así: hi = fi
n
 Frecuencias relativas acumuladas (Hi).- Se consiguen sumando sucesivamente
las frecuencias relativas simples de tal manera que la primera frecuencia
relativa acumulada es igual a la primera frecuencia relativa simple, la segunda
acumulada es igual a la suma de la primera y segunda simple. Hi = Fi
n
H1 = h1
H2 = h1 + h2.
.
.
Hm = h1 + h2…………+hm = 1.
 Frecuencias porcentuales (% = hi x 100).- En forma de porcentaje representa
la frecuencia en un intervalo.
 Frecuencias porcentuales acumuladas (% = Hi x 100).- es la suma de las
frecuencias porcentuales y representa un porcentaje acumulado del total.

Marca de clase (Yi).- es el punto medio entre los límites reales de clase así:

Yi = Yi-1 + Yi
2
Ejemplo 2. Construcción de un cuadro estadístico de Variable cuantitativa continúa
Se tienen los siguientes datos sobre las edades de los trabajadores de la SPCC. Y que
laboran en la refinería de Ilo observadas el mes de noviembre del 2004, y son las
siguientes:
20 34 60 68 32 30 34 30 47 41
42 43 46 44 53 48 55 41 57 45
23 45 38 34 29 38 55 67 46 33
Construir un cuadro de distribución de frecuencias e intérprete la marca de clase 4
Solución: la edad es una variable cuantitativa continua por que se mide en el tiempo y
este es una magnitud continua: el procedimiento a seguir es:
a). Calcular el rango (R), cuya fórmula es: R= Ymax – Ymin ; donde : Ymax = 68 y Ymin=48
R = 68 – 20 , donde R = 48
b). Determinar el número de intervalos (K), con la fórmula de Sturges: K= 1 + 3.32 log(n)
K = 1+ 3.32 log 30 = 5.9 , donde K = 6
c). Calcular la amplitud intervalica (C), cuya fórmula es: C= R /K = 48/6 = 8
TABLA N° 4
Título: Muestra de trabajadores de la SPCC. Observados según su edad, tomados
en noviembre del 2004 en la ciudad de Ilo.
[Yi-1 Yi ] Yi fi Fi hi Hi % = hx100

[20 28 > 24 2 2 2/30 2/30 6.66 %


[28 36 > 32 8 10 8/30 10/30 26.7 %
[36 44 > 40 6 16 6/30 16/30 20 %
[44 52 > 48 7 23 7/30 23/30 23.3 %
[52 60 > 56 4 27 4/30 27/30 13.3 %
[60 68 ] 64 3 30 3/30 30/30 =1 10 %
Total 30 1 100%
Fuente: Datos recogidos de los trabajadores que laboran en la refinería de Ilo.

Interpretación
Interprete usted la marca de clase 4 (Y4)
Y4 = 48: Es el promedio de edad en el intervalo cuarto
fi = 7: Existen siete trabajadores que laboran en la refinería de Ilo de la SPCC. Que tienen
edades entre 44 y menores que 52 años.
Fi = 23: Existen 23 trabajadores que laboran en la refinería de Ilo de la SPCC. Que tienen
edades entre 20 y menores que 52 años.
hi = 7/30 y se expresa en porcentaje como 23.3% : Existen 23.3% de trabajadores que
laboran en la refinería de Ilo de la SPCC. Que tienen edades entre 44 y 52 años.
1.8.2.2. Distribución de Frecuencias para Variables Cualitativas. Este tipo de
distribución se utiliza para clasificar los datos de una variable cualitativa nominal u ordinal,
también toma el nombre de distribución de frecuencias por atributos
TABLA N° 5
TITULO : …………………………………………………..
Xi fi Fi hi Hi % = hi x 100 % = Hi x 100
X1 f1 F1 h1
X2 f2 F2 h2
. . .
. . .
. . .

Xm fm
Total n 100%
FUENTE………………………………………

Ejemplo 3. Construcción de un cuadro estadístico de Variable cualitativa:


Los siguientes datos corresponden a una muestra aleatoria de 30 docentes de la
Universidad Nacional Jorge Basadre Grohmann de Tacna, según su estado civil, en
diciembre del 2013:
S C S C C D S S C C
C C D C C C S S C C
V C D S V C C C C C.
Dónde: S = “Soltero”; C = “Casado”; V = “Viudo” y D = “Divorciado”.
La información fue obtenida de la Oficina de Recursos Humanos.

TABLA N°6
Título: Distribución de docentes de la Universidad Nacional Jorge Basadre Grohmann de
Tacna, según su estado civil, en diciembre del 2013:
Estado Civil Nº de Docentes Frecuencia relativa Frecuencia relativa
porcentual.
Xi fi
hi%
Soltero 7 0.23 23
Casado 18 0.60 60
Viudo. 2 0.07 7
Divorciado 3 10
0.10
Total 30 1.00 100
FUENTE: Oficina de Recursos Humanos de la UNJBG
Interprete f2 y h2 :
Interpretando: f2 Hay 18 docentes que son casados
h2 % El 60% de los docentes son casados
1.9. REPRESENTACION TABULAR Y GRÁFICA. Una vez que se ha recolectado y
clasificado la información, resulta imprescindible representarlo de manera adecuada de tal
forma que le permita hacer un análisis útil. Existen dos tipos de presentación: Los
cuadros estadísticos y los gráficos.
1.9.1. Cuadros Estadísticos: Es un arreglo tabular de filas y columnas en donde se
representan los datos de una muestra bajo un ordenamiento convencional
predeterminado con el objeto de facilitar su lectura, análisis e interpretación.
Partes de un Cuadro Estadístico: Las partes de un cuadro estadístico son: título o
encabezado, cuerpo del cuadro y fuente.
Título: Año 2010 2011
Tipo
Quejas 18059 18782
Petitorios 5481 8038
Cuerpo
Consultas 25357 24873
TOTAL 48897 51693
Fuente: Defensoría del Pueblo (de donde se obtuvieron los datos)
1.9.2. Representación Gráfica: Un gráfico es la representación de un fenómeno
estadístico por medio de figuras geométricas (puntos, líneas, rectángulos,
paralelepípedos, etc.) cuyas dimensiones son proporcionales a la magnitud de los datos
representados. Su objetivo principal es la representación de los datos en forma gráfica,
que permite a simple vista darse cuenta del conjunto de elementos presentados y de
evidenciar sus variaciones y características. El grafico es un auxiliar del cuadro
estadístico, no lo sustituye, sino lo complementa.
Entre los gráficos más usuales tenemos: Grafico de bastones, histograma de frecuencias,
polígono de frecuencias, gráficos de barras, gráficos de sectores circulares y gráficos
lineal.
1.9.2.1. Gráficos para Variables Cualitativas. Los gráficos más usuales para
representar variables de tipo nominal son los siguientes:
a) Diagramas de barras:
Siguiendo la figura 1 representamos en el eje de ordenadas las modalidades y en
abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el
gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades, como
las mostradas en la figura 2. Cuando los tamaños de las dos poblaciones son diferentes,
es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar
engañosas.
  
Figura1: Diagrama de barras para una
variable cualitativa.
  

Figura2: Diagramas de barras para comparar una variable cualitativa en diferentes


poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al
número de observaciones (frecuencias relativas).

b) Diagramas de sectores circulares:


(También llamados tartas). Se divide un círculo en tantas porciones como clases existan,
de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia
absoluta o relativa (figura 3).
  
Figura 3 : Diagrama de sectores.

El arco de cada porción se calcula usando la regla de tres:


Ejemplo:
TABLA N ° 7
Venta de antibióticos de una semana en la botica “la abuelita” en la cuidad de Tacna
tomados en el mes de julio.
Antibióticos Fi grados %
Penicilina 20 72º 20%
Ampicilina 15 54º 15%
Ciprofloxacino 25 90º 25%
Amoxilina 40 144º 40%
TOTAL n = 100 360º 100%
Fuente: datos obtenidos del registro de ventas …

100  360º 100  100%


20  X 20  X
X = 20 x 360º X = 20 x 100%
100 100
X = 72º X = 20%
Diagrama de sectores circulares de la venta de antibióticos de una semana en la botica la
abuelita en la cuidad de Tacna tomados en el mes de julio.
Figura N° 4
Diagrama de sectores circulares de la venta de antibióticos de una semana en la botica la
abuelita en la cuidad de Tacna tomados en el mes de julio.

Penicilina 20 72º

Ampicilina 15 54º

Ciprofloxalina 25
90º
Amoxilina 40 144º

Fuente: Datos obtenidos del registro de ventas.


Figura N° 5
Diagrama de barras de la venta de antibióticos de una semana en la botica “la
abuelita” en la ciudad de Tacna tomados en el mes de Julio

45%
40%
35%
30%
25%
20% %
15%
10%
5%
0%

Fuente: Datos obtenidos del registro de ventas.


1.9.2.2. Gráficos Para Variables Cuantitativas.
Si la variable es de tipo discreto; podemos utilizar el gráfico de bastones:
c) Gráfico de Bastones: También se le conoce como diagrama de frecuencias, se utiliza
generalmente para describir datos cuando la variable es discreta y su construcción se
hace levantando segmentos perpendiculares al eje de la variable y con una altura
proporcional a su frecuencia absoluta o relativa porcentual.
Frecuencia

Variable
Figura N° 6
Ejemplo: Estudiantes de la FAIA-UNJBG. Observados según la cantidad de hermanos
que tienen. Datos obtenidos por entrevista directa en mayo del 2007
fi
11

10

3
2
1

Figura 7 Nº de hermanos
d) Histograma de Frecuencias: Estos gráficos se utilizan para describir datos cuando
una variables cuantitativa continua. Su construcción se hace levantando sobre el eje de la
variable rectángulos contiguos (pegados), que tengan como base la amplitud del intervalo
de clase y una altura proporcional a su frecuencia absoluta o relativa porcentual.
Ejemplo
Se tiene los siguientes datos sobre las edades de los trabajadores se la SPCC y que
labran en la refinería de Ilo observadas el mes de noviembre del 2013 y que son los
siguientes.
20 43 38 32 48 30 41 67 42 45
68 53 38 41 45 33 23 60 44 29
34 47 55 34 46 34 30 35 57 46
a) construir un cuadro de distribución de frecuencias.
b) construir un histograma de frecuencias y un polígono de frecuencias relativos
acumulados
Solución
Calculo del rango Ymax = 68 ; Ymin = 20 luego :R = Ymax – Ymin = 68 – 20 = 48
Hallamos el número de intervalos con la fórmula de Sturges : K = 1 + 3.32 log (n)
K = 1 + 3.32 log 30, de donde: K = 5.9 = 6
Calculamos la amplitud intervalica. : C = R/K de donde C = 48/6 , entonces C = 8.
TABLA N° 8
Trabajadores se la SPCC que labran en la refinería de Ilo observadas según su edad el
mes de noviembre del 2013 .
[Xi-1 – Xi] Xi ni Ni hi Hi hi x 100 Hi x
100
20 - 28 24 2 2 0.0666 0.0666 6.66 6.66
28 - 36 32 8 10 0.2666 0.3333 26.66 33.33
36 - 44 40 6 16 0.2000 0.5333 20.00 53.33
44 - 52 48 7 23 0.2333 0.7666 23.33 76.66
52 - 60 56 4 27 0.1333 0.9000 13.33 90.00
60 - 68 64 3 30 0.1000 1 10.00 100
Total 30 1 100
Fuente: Datos obtenidos en la Oficina de personal de la refinería de Ilo

Figura N° 8
Trabajadores se la SPCC que labran en la refinería de Ilo observadas según su edad el
mes de noviembre del 2013

8
7
6
5
4
3
2

20 28 36 44 52 60 68
FUENTE: Datos obtenidos en la Oficina de personal de la refinería de Ilo

Figura N° 8

Diagrama de polígono de frecuencias sobre las edades de los trabajadores se la SPCC y


que labran en la refinería de Ilo observadas el mes de noviembre del 2004.
POLIGONO DE FRECUENCIAS

9
8
7
6
5
fi

4
3
2
1
0
24 32 40 48 56 64

Yi-1

Figura 9
PROBLEMAS PROPUESTOS Nº 1
1-Detallar tres situaciones en las que se tenga que hacer uso de la estadística relacionada
con la carrera que está estudiando.
2.-Dar cinco ejemplos de población.
3.-Dar cinco ejemplos de muestra.
4.-En los siguientes casos ¿Cuál probablemente exija solo el uso de la Estadística
descriptiva y cual de la Estadística Inferencial?
a) Un profesor emplea diferentes métodos en cada uno de sus dos cursos a su cargo. Al
final del desarrollo del curso compara las calificaciones obtenidas por sus alumnos con el
fin de establecer cual método es más eficiente.
b) En una empresa se registra diariamente la hora de ingreso de los trabajadores
mediante el tarjeteo electrónico para a final de mes hacer los descuentos respectivos de
ley por las tardanzas.
c) Un economista registra el crecimiento de la población en una región determinada.
d) Un psicólogo estudia los efectos de las nuevas técnicas de automatización sobre el
rendimiento de la población.
e) Una universidad”X” examina las distribución de las calificaciones de su examen de
admisión para establecer el porcentaje de postulantes que obtuvieron el puntaje mínimo
de ingreso.
5. Analice si las siguientes variables son cuantitativas (discreta o continuas) y cualitativas
(Nominales u ordinales).
a) Ahorro en dólares
b) Número de hijos.
c) Tasa de criminalidad.
d) Colegios profesionales de Tacna.
e) Nivel económico de la población.
f) Método de enseñanza.
g) Número de ingresos al penal.
h) Edad en años.
i) Talla en cm.
6. dar tres ejemplos de variable cualitativa referida a su campo de estudios.
7. Dar cuatro ejemplos de variable cuantitativa discreta, referida a su campo de
estudios.
8. Dar cuatro ejemplos de variable cuantitativa continua, referida a su campo de
estudios.
9.-De tres ejemplos sobre el uso de fuentes primarias y secundarias en estudios
relacionados a su carrera profesional.
10. La siguiente distribución muestra el peso en gr de 30 paquetes de un determinado
producto.
Peso en gr [10 15 ) [15 20) [ 20 25 ) [ 25 30 ) [ 30 35 ]
hi K/2 0.17 2K K 0.13

a)¿Cuántos paquetes tienen pesos menores de 20gr?.


b) ¿Qué porcentajes de paquetes pesan 25 gr o más?
c) ¿Cuántos paquetes pesan 15 gr o más pero menos de 25 gr?
d) ¿Cuántos paquetes pesan entre 15 gr o más pero menos de 20 gr?.
1.10. MEDIDAS DE TENDENCIA CENTRAL: En esta sección definiremos una serie de
medidas o valores que tratan de representar o resumir a una distribución de frecuencias
dada, las medidas de tendencia central son valores o promedios que representan a un
conjunto de datos. Las tres medidas de tendencia central que más se utilizan son:

El promedio Aritmético o media Aritmética

La mediana
La moda

1.10.1. La Media Aritmética.- Es una medida de tendencia central que se obtiene


sumando todos los valores y dividiendo el valor obtenido entre el número de valores que

se sumaron; la media aritmética se denota por: x̄ .

Formas de Cálculo:

a) Para datos no tabulados: su fórmula de cálculo es:

n
xi Suma. . de .todas .las . .observaciones
x̄=∑ =
i=1 n Nro . total . de . . datos

Donde el signo Σ=Es sigma, letra del alfabeto griego que significa sumatoria.

Xi =Es el valor que toma cada observación.

n =Es el número total de datos u observaciones.

Ejemplo: Calcular la media aritmética de los siguientes datos:

Edad en años: 22, 20, 15, 32, 26. Remplazando en la fórmula :


n
xi 22+ 20+15+32+26 115
x̄=∑ = = =23
i =1 n 5 5

Interpretación: La edad promedio de las cinco personas es 23 años.

b) Para datos tabulados: Es decir para datos que se encuentran en un cuadro de


distribución de frecuencias.

n n
xi f i yi f i
M ( X )= x̄=∑ M (Y )= ȳ =∑
i=1 n i=1 n

Ejemplo: Calcular la media aritmética en el siguiente cuadro:

Edades Yi fi Yi fi
18 20 19 12 19x12=228
20 22 21 10 21x10=210
22 24 23 15 23x15=345
24 26 25 19 25x19=475
Total n=56 ΣYi fi =1258

n
y i f i 1258
ȳ=∑ = =22 . 46
i=1 n 56
La edad promedio de las 56 personas es de 22 .46 años.
Nota: El cálculo de la media aritmética también se puede hacer haciendo uso de la
calculadora; esto se estudiará en clase.
Propiedades de la Media Aritmética.-
1.-La suma de las desviaciones (diferencias) entre los valores de la variable x y su media

aritmética x̄ , es cero, esto es: ∑ (x i − x̄ )f i =0


2.-Para un conjunto dado de observaciones la media es única.
3.-La media es sensible (o afectada) por los valores del conjunto. Así un valor se modifica,
la media aritmética x̄ , también se modifica.
Si a los valores de una variable x se le suma o se le resta una constante C, entonces la
media aritmética x̄ , quedará aumentada o disminuida en la constante C, esto es M(x ±
C) = M(x) ± C.
5.-Si fueran multiplicados o divididos las variables por una constante C, entonces la x̄

quedará aumentada o dividida por esta constante esto es: M(C X ) = C M(X) = C x̄
La media aritmética tiene la desventaja que queda afectada fuertemente por la presencia
de valores extremos.
El promedio aritmético es de extraordinaria utilidad tanto en el análisis de una distribución
como en la comparación de las distribuciones, es fácil de comprender y se puede
interpretar.
1.10.2. La Mediana.- La mediana de un conjunto finito de valores es el valor que divide al
conjunto en dos partes iguales tales que el número de mayores o iguales que ella es igual
al número de valores iguales a ella o menores que ella.
La notación que vamos a emplear para la mediana es : Med (x), en el cálculo de la
mediana podremos considerar los tres casos siguientes:
Caso 1.- La variable de estudio es discreta y n (número de observaciones es impar). En
este caso, la mediana será el valor de la variable que ocupa la posición media (rango de

n+1
orden 2 ).
Ejemplo: Supongamos que los casos atendidos en el servicio de emergencia en los
últimos 7 meses fueron:
52, 41,37 ,82, 24, 63, 68.
Ordenamos estos valores en forma ascendente:
24, 37,41, 52, 63, 68, 82.
n+1 7 +1
=4 to
El valor de la variable que ocupa el rango 2 es 2
Luego la mediana de las observaciones es Med (x) = 52.
Caso 2.- La Mediana de estudio La variable de estudio es discreta y n (número de
observaciones es par). En este caso, no existe en la ordenación un valor de la variable
que ocupe la posición central esto es, la mediana es indeterminada, pues cualquier valor

n n
+1
comprendido entre los valores que ocupen la posición 2 y 2 , puede ser
considerado como el centro de la ordenación.
El problema es resuelto por una convención que consiste en tomar como mediana de la
ordenación la media aritmética de estos valores.

Med ( x )=
x +x
n
2
n
2
+1

2
Ejemplo: Considere las siguientes observaciones muestrales: 24, 37, 41, 63, 68, 82, en
este ejemplo no es necesario ordenar ya que están ordenados las observaciones en

n n
+1
forma ascendente. Los valores que ocupan las posiciones 2 y 2 son:

n 6 n 6
= =3 ero +1= +1=4 to
2 2 y 2 2 .
La mediana en este caso es el valor entre 41 y 63, el cual es.
41+63
Me(x )= =52
2
Caso 3.- La variable es continua, es este caso el problema consiste en determinar un
punto dentro del intervalo en que está comprendida la mediana.
Procedimiento:
n
1er paso.- Calcular la posición de orden 2 , como la variable es continua no se debe
preocupar si n es par o impar.
2do paso.- Por las frecuencias acumuladas se identifica la clase que contiene a la

n
mediana, esto es la clase para el cual se cumple que: Fk-1 ≤ 2 ≤ Fk
Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada Fk.
n
( −F k −1 )

3er paso.- Utilizar la fórmula:


Med(Y )= Y k −1 +
2
fk Ck

Dónde: Yk-1 = límite inferior de la clase que contiene a la mediana


n = tamaño de la muestra
Ck = Amplitud de la clase que contiene a la mediana
Fk-1 = Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene a la mediana
fk = frecuencia absoluta simple correspondiente a la clase que
contiene a la mediana.
Ejemplo: dada la siguiente distribución hallar la mediana.
Pacientes atendidos en el Hospital “Daniel A. Carrión” según su edad en años.
Edad Yi fi Fi
[35 - 45) 5 5
[45 - 55) 12 17² Fk-1
![55 - 65) ² fk 18 35 ² Fk Clase que contiene a la Med (Y)
[65 - 75) 14 49
[75 - 85) 6 55
[85 - 95) 3 68
Total 58
n 58
= =29 vo
Paso 1 : 2 2 lugar de posición.
Paso 2 : Se identifica la clase que contiene a la media, por la frecuencia acumulada,
esto es a través de la desigualdad:
F2 = 17 ≤ 29vo ≤ F3 = 35
En este caso la clase que contiene a la mediana es el tercero.
Paso 3: Se aplica la fórmula:
58
Med(Y )=55+
( 2
−17 )
10=61. 67
18
Interpretación: La edad mediana o promedio de los pacientes atendidos es de 62 años.
Propiedades de la Mediana.-
La mediana es afectada por las observaciones y no por el tamaño de valores extremos.
La mediana es un valor muy adecuado cuando se utiliza para describir distribuciones
cuyos valores centrales están muy próximos.
Algunas veces es un valor más representativo de un conjunto de datos que otros
promedios, gracias a su independencia de los valores extremos.
1.10.3. La Moda.- La moda denotada por Mo(X), es un valor de la variable que tiene la
más alta frecuencia, esto es, el valor más frecuente de la distribución. La moda no
siempre existe y no siempre es única.
Ejemplo 1 : Considere los pesos (en kilos) de 9 adultos:
82, 65, 59, 74, 60, 67, 71, 73, 70
Estos nueve valores no definen una moda
Ejemplo 2 : Considere la distribución de los pesos de 15 adultos
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83, 90
El valor 63 y 71 ocurren tres veces y el resto ocurre vez cada uno. Luego la moda de
estas observaciones es:
Mo (X) = 63 kilos y Mo(x) = 71 kilos
En este caso la distribución se llamará bimodal.
Si la distribución tiene una moda se llama unimodal y si tiene varias modas es decir más
de dos se llamará multimodal.
Propiedades de la Moda.-
El valor de la moda es totalmente independiente de los valores extremos.
La moda es un valor inestable porque varia si se cambia el intervalo de clase.
Es el valor típico y por ello el promedio más descriptivo.
La moda no se presta a manipulaciones algebraicas posteriores.
Su significación es limitada cuando no se dispones de un gran número de valores. A
continuación veremos el cálculo de la moda para datos agrupados en intervalos de clase.
Cálculo de la Moda.- Caso de Datos agrupados en intervalos de clase para este caso
utilizaremos la Fórmula de Czber:
Paso 1 : Se identifica la clase modal (clase de mayor frecuencia)
Paso 2 : Se aplica la fórmula.
D1
Mo(Y )= Y k−1 + D 1 +D 2 C k
dónde:
Yk-1 = límite inferior de la clase modal.
D1 = fMo - f1
f1 = frecuencia de la clase inmediata anterior a la clase modal
fMo = frecuencia de la clase modal.
D2 = fMo - f2
f2 = frecuencia de la clase inmediata posterior a la clase modal
Ck = Amplitud de la clase modal.

Ejemplo: Determinar la moda de la siguiente distribución:

Intervalos de clase fi
[ 0 1) 3
[1 2) 10
[2 3) 17
[3 4) 8
[4 5) 5
Total 43

Solución
1er paso.- El intervalo de la clase de mayor frecuencia absoluta (17) es el tercero [2 - 3)
2do paso.- Aplicando la fórmula de Czber tenemos:
7
Mo(Y )=2+ . 1=2 . 44
7+9
Dónde: D1 = 17 - 10 = 7
D2 = 17 - 8 = 9
Ck = 1
Yk-1 = 2
La moda no es una medida de tendencia central muy usual, pero se emplea cuando el
interés se centra en conocer el valor que se presenta más frecuentemente. Por ejemplo
en los negocios sirve determinar cuál es el producto de mayor demanda similarmente
para programar la producción de un medicamento; el fabricante estará interesado En cuál
es la dosis más comúnmente recetada por los médicos.
1.11. MEDIDAS DE DISPERSIÓN O CONCENTRACIÓN.-
Las medidas de dispersión son los que cuantifican el grado de concentración o de
dispersión (diseminación) de los valores de una variable en torno de un promedio o valor
central. Las medidas de dispersión se necesitan para dos propósitos básicos:
a) Para que la confiabilidad de los promedios
b) para que sirva como base para el control de la variación misma.
1.11.1. Varianza.- Sean x1, x2, x3, ... xk valores de la variable X, con frecuencias
absolutas f1, f2, f3, ... fk, respectivamente la varianza muestral de x es dado por:

k
∑ ( x 1−x )2 f i
i=1
Var ( X )=S 2 =
n−1 Varianza práctica muestral
Propiedades de la Varianza y Desviación Estándar .-
Var(X) = S² ≥ 0; la varianza de una variable X es siempre positiva y es igual a cero
cuando la variable X toma el valor constante C esto es Var(C) =0.
Var(x ± C) = Var(x)
Var(C x) = C² Var(x) , donde C = constante
Var(C x ± b) = C² Var(x) , donde C y b son constantes
Observación.- Una fórmula alternativa para la varianza muestral es:
k
∑ ( x 1−x )2 f i
i=1
S 2= =M ( x 2 )−( M ( x ))2
n−1
Que mide la dispersión de la muestra pero tiende a sobrestimar la dispersión de la
población. Si no se indica otra cosa es la fórmula que utilizaremos para el cálculo de la
varianza.
1.11.2. Desviación Estándar.- La desviación estándar o típica de los valores de la
variable x se define como la raíz cuadrada positiva de la varianza, y se denota por:
k

S= √ Var ( X )=+
√ ∑ ( x1 −x )2 f i
i=1
n−1
El valor numérico de S cuantifica el grado de dispersión de los valores de una variable con
respecto a su media.
Ejemplo: Calcular la varianza y la desviación estándar de la siguiente distribución
muestral.

xi 5 7 8 9 11
fi 2 3 5 4 2

Solución: completando la distribución de frecuencias tenemos:


Xi fi Xi fi Xi ² fi
5 2 10 50
7 3 21 147
8 5 40 320
9 4 36 324
11 2 22 242
Total 16 129 1083

2
2 ∑
( x )2 f i ∑ ( x )f i 1083 129
2
S=
n
= ( n ) =
16

16 ( )
=2 .68359375

Luego: S= √Var( x)= √2.68359375=1.63816

Para el mismo ejemplo calcularemos la varianza práctica muestral con la finalidad de


reducir el volumen de operaciones en el cálculo de la varianza muestral, podemos usar
las fórmulas alternativas:

S2 
1
n 1   x f  nX 
2
i i
2

Aplicando esta fórmula se tiene:

X=
∑ x i f i =129 =8. 1
n 16 ;

1 1 1
S 2= ( ∑ x 2i f i −n X 2 )= (1083−1049 . 76)= (33 .24 )=2. 22
n−1 15 15 Entonces: S
= 1.49
Nota: Cuando se tiene distribuciones de frecuencias en intervalos de clase se trabaja con
puntos medios o marcas de clase de cada intervalo para efectuar el cálculo de la
varianza.
1.11.3. Medida Relativa de Dispersión.- Es útil para la comparación en términos
relativos del grado de concentración en torno a la medida es el “coeficiente de variación”

S
CV ( X )= x 100
que se denota por: 100 .
Generalmente el C.V(X) se expresa en porcentaje.
En la práctica se acostumbra considerar que C.V(X)., superior a 50% indica alto grado de
dispersión y consecuentemente pequeña representatividad de la media aritmética. En
cuanto para valores inferiores a 50%, la media será tanto más representativa, cuanto
menor sea el C.V.(X)
1.12. MEDIDAS DE ASIMETRIA Y APUNTAMIENTO.
1.12.1. Medidas de Asimetría: Son medidas que miden el grado de deformación
horizontal de una distribución de frecuencias. Se dice que una distribución de frecuencias
es simétrica si los intervalos equidistantes del intervalo central tienen iguales frecuencias.
También se dice que una distribución es simétrica si su curva de frecuencias es simétrica
con respecto al centro de los datos. Si la distribución es simétrica entonces la media, la
mediana y la moda coinciden. En contraposición si estos tres promedios no coinciden la
distribución es asimétrica.

Conviene definir unos estadísticos que ayuden a interpretar la asimetría, a los que
llamaremos índices de asimetría, y que denotaremos mediante: As. Vamos a definir a
continuación algunos de los índices de asimetría más usuales
El Coeficiente de asimetría de Pearson:
Se expresa como:

Otra forma de expresar el coeficiente de asimetría de Pearson que se utiliza cuando la


distribución es unimodal es:
Índice basado en los tres cuartiles (Yule-Bowley) .-

Si una distribución es simétrica, es claro que deben haber tantas observaciones entre la
que deja por debajo de sí las tres cuartas partes de la distribución y la mediana, como
entre la mediana y la que deja por debajo de sí un quarto de todas las observaciones. De

forma abreviada esto es: .

Una pista para saber si una distribución de frecuencias es asimétrica positiva la

descubrimos observando si: . Por analogía, si es asimétrica

negativa, se tendrá si :

De otra forma, utilizamos como índice de asimetría la cantidad:

Es claro que . El número obtenido, , es


invariante ante cambios de origen de referencia y de escala.

El Coeficiente de asimetría de Fisher.


Se denota por (g1) y se representa mediante la ecuación matemática

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores,
( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuación se interpretan:
 (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe
aproximadamente la misma cantidad de valores a los dos lados de la media. Este
valor es difícil de conseguir por lo que se tiende a tomar los valores que son
cercanos ya sean positivos o negativos (± 0.5).
 (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a
reunir más en la parte izquierda que en la derecha de la media.
 (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden
a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia
que separa la aglomeración de los valores con respecto a la media.
Si al calcular el coeficiente de Asimetría As obtenemos:
As = 0 → La distribución es simétrica .Ver fig (b)
As > 0 → La distribución es asimétrica positiva (sesgada a la derecha). Ver fig(a).
As > 0 → La distribución es asimétrica negativa (sesgada a la izquierda).Ver fig(c).
NOTA:
Si As → 0, entonces se dice que la distribución es aproximadamente simétrica o
ligeramente sesgada. Sera tanto más sesgada cuanto más As, se aleje de cero.

Distribución Asimétrica (+) Distribución Simétrica Distribución Asimétrica (-)


Positiva Negativa
fig (a) fig(b) fig(c)

Ejemplo: Las edades de un grupo de personas se reflejan en la tabla siguiente:

Intervalos ni
7 -- 9 4
9 -- 11 18
11 -- 12 14
12 -- 13 27
13 -- 14 42
14 -- 15 31
15 -- 17 20
17 -- 19 1
Determinar la variabilidad de la edad mediante los estadísticos varianza, desviación típica,
coeficiente de variación y rango intercuartílico. Estudie la simetría de la variable.
Solución:
En primer lugar realizamos los cálculos necesarios a partir de la tabla de frecuencias:

Intervalos ni xi Ni xi ni xi² ni
7 -- 9 4 8 4 32 256
9 -- 11 18 10 22 180 1.800
11 -- 12 14 11,5 36 161 1.851,5
12 -- 13 27 12,5 63 337,5 4.218,75
13 -- 14 42 13,5 105 567 7.654,5
14 -- 15 31 14,5 136 449,5 6.517,75
15 -- 17 20 16 156 320 5.120
17 -- 19 1 18 157 18 324
  157     2.065 27.742,25

La media es años. La varianza la calculamos a partir de la


columna de la xi² ni como sigue:

El coeficiente de variación no posee unidades y es:

En lo que concierne a la simetría podemos utilizar el coeficiente de asimetría de Yule-


Bowley, para el cual es preciso el cálculo de los cuartiles:
Lo que nos dice que aproximadamente en un rango de años se

encuentra el central del total de observaciones. Además:

Este resultado nos indica que existe una ligera asimetría a la izquierda (negativa).
1.12.2. Medidas de Apuntamiento o Kurtosis.
Estas medidas determina el grado de deformación vertical o la concentración que
presentan los valores en la región central de la distribución. Por medio del Coeficiente de
Kurtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica),
una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
 

Coeficiente de Apuntamiento de Fisher: Se denota por ²‫ ﻻ‬o por g2


Se define el coeficiente de aplastamiento de Fisher como:

Donde m4 es el momento empírico de cuarto orden. Es éste un coeficiente adimensional,


invariante ante cambios de escala y de origen. Sirve para medir si una distribución de
frecuencias es muy apuntada o no. Para decir si la distribución es larga y estrecha, hay
que tener un patrón de referencia. El patrón de referencia es la distribución normal o
gaussiana para la que se tiene

De este modo, atendiendo a , se clasifican las distribuciones de frecuencias en


Leptocúrtica: Cuando , o sea, si la distribución de frecuencias es más
apuntada que la normal;

Mesocúrtica: Cuando , es decir, cuando la distribución de frecuencias es tan


apuntada como la normal;

Platicúrtica: Cuando , o sea, si la distribución de frecuencias es menos apuntada


que la normal;   

La fórmula en forma desarrollada es:

Donde (g2) representa el coeficiente de Kurtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni o fi ) la frecuencia absoluta simple de cada valor. Los
resultados de esta fórmula se interpretan:
 
 (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante
difícil  encontrar un coeficiente de Kurtosis de cero (0), por lo que se suelen aceptar
los valores cercanos (± 0.5 aprox.).
 (g2 > 0) la distribución es Leptocúrtica
 (g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y
un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es
de suma importancia ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente. La principal ventaja de la
distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro
de una distancia de dos desviaciones estándar de la media aritmética; es decir, si
tomamos la media y le sumamos dos veces la desviación y después le restamos a la
media dos desviaciones, el 95% de los casos se encontraría dentro del rango que
compongan estos valores.
 

También podría gustarte