Está en la página 1de 77

UNIVERSIDAD ATENAS VERACRUZANA

MAESTRÍA EN TECNOLOGÍA EDUCATIVA

R.V.O.E. S.E.P. 20080975 02/06/08

“TECNICAS ESTADISTICAS EN LA EDUACACION”

“GUADALUPE HERNANDEZ LIRA”

XALAPA DE ENRÍQUEZ, VERACRUZ. NOVIEMBRE 2011

1
PRESENTACION

El presente material del curso de Técnicas Estadísticas en la Educación, son una


recopilación de diversos libros de estadística del cual se tomaron para luego
dejarle al lector un lenguaje más amable para su entendimiento y compresión.

Este material cuenta con tres capítulos de los cuales a continuación se describen
cada uno de ellos.

El capítulo I, se presentaran las definiciones o conceptos básicos de estadísticas,


como se divide la estadística, parámetro, estadísticos, variables, así como la
escala de medición.

En el capítulo II, se explicaran como se organizan un conjunto de datos, como son


las tablas de frecuencias, así como su representación graficas (gráficos de pastel,
barras, histogramas, líneas, cajas y alambres).

En el capítulo III, se explicaran las medidas de tendencia central (media, mediana


y moda), medidas de dispersión (rango, varianza, desviación estándar), asimetría
kurtosis, así como, las medidas de posición.

2
INTRODUCCIÓN

La estadística es ampliamente aceptada como una metodología fundamental para


la investigación y los estudios técnicos en disciplinas como la biología, la
ingeniería, las ciencias administrativas, y todas aquellas áreas donde los métodos
cuantitativos han adquirido gran popularidad. Pero también ha adquirido
reconocimiento en las ciencias sociales, en la antropología, la lingüística, las
ciencias educativas y del comportamiento y hasta en otras áreas de la ciencia,
donde los procesos de cuantificación son poco usados por los investigadores y
profesionales. Lo más conocido de la estadística entre los egresados de las
diferentes profesiones es un conjunto de métodos y procedimientos básicos que
se presentan en uno, dos o hasta tres cursos incluidos en la curricula de muchas
carreras universitarias o técnicas.
En los cursos tradicionales de estadística se utiliza el enfoque, la más de las
veces, del “recetario de cocina”. En el mejor de los casos, en este tipo de cursos
se da una introducción y se motiva la presentación de una técnica; después se
hace fuerte énfasis sobre los aspectos aritméticos, y finalmente se hacen
ejercicios, que en el caso más sano se orientan en su importancia a la
interpretación de los resultados. Son realmente raros los cursos en los que se
hace uso de facilidades computacionales (software estadístico). Todo esto sucede
a pesar de que ya existen en el mercado libros de texto con enfoques más
actuales. Ante esta perspectiva de la formación de los profesionales sobre la
metodología estadística, se puede decir que en el medio profesional existe una
serie de grandes deficiencias sobre los conceptos clave de la estadística, y una
mala idea que la asocia a aspectos de obtención de cifras, elaboración de
cuadros, realizaciones de tediosas operaciones y gráficos incomprensibles. Aparte
de esto, sobre la estadística hay un estigma de “ciencia mentirosa”, sobre todo
porque la ignorancia estadística de muchos es aprovechada por algunos, que
fuera de todo principio de ética, manipulan cifras y resultados con propósitos bien
específicos. Tal práctica, ciertamente común en nuestro contexto de desarrollo
social, ha restado credibilidad a los buenos resultados estadísticos. Sigue siendo

III
popular, aquella célebre frase que dice: “Hay tres tipos de mentiras...” Más bien
habría que decir que hay mentirosos que abusan de la ignorancia estadística de la
mayoría de la gente.

La estadística se encarga, en el contexto de las investigaciones factuales, de dos


aspectos básicos: l. del diseño adecuado para la obtención de datos, y 2. del
análisis de éstos y de la interpretación de los resultados en forma apropiada.

En el primer aspecto guía al investigador en la definición de una metodología para


obtener los datos que requiere que de acuerdo a sus necesidades de información,
buscando que se colecten de la manera más rápida, barata y menos laboriosa. En
el segundo aspecto, brinda una serie de métodos y procedimientos para explotar
los datos obtenidos de manera apropiada, a fin de que se pueda extraer de ellos
información relevante de acuerdo a las preguntas de investigación. Se encarga,
así mismo, de proporcionar guías generales para el diseño de formatos de
presentación y de gráficos, además de darnos los elementos para construir juicios
inferenciales válidos.

Este material tiene el objetivo de ser un material útil para los alumnos de maestría
que se inician en el conocimiento y aplicación de la estadística, por ello se explica
desde los conceptos más básicos que se requieren antes y durante un análisis
estadístico, así como en la interpretación de los resultados.

IV
CONTENIDO PÁG.

UNIDAD 1. LOS CONCEPTOS BÁSICOS Y PANORAMA GENERAL DEL


PROCESO DE UNA INVESTIGACIÓN ESTADÍSTICA
1.1 Definición de estadística 1
1.2 Conceptos básicos 2
1.3 Escalas de medición 6
1.4 Aplicaciones de los métodos estadísticos 8
1.5 Identificación en los problemas en los que no se utiliza la estadística 9
para resolverlos
1.6 Etapas de una investigación estadística 10
1.7 Los métodos estadísticos y la computadora 11
1.8 Colectivos estadísticos 11
1.9 Tipos de estudios estadísticos 13
Autoevaluación 14

UNIDAD 2. MÉTODOS TABULARES Y GRÁFICOS PARA LA ORGANIZACIÓN


Y PRESENTACIÓN DE LOS DATOS
2.1 Introducción. 18
2.2 Método tabulares para representación de datos. 18
2.2.1 Distribución de frecuencia. 18
2.2.2 Conceptos. 19
2.2.3 Construcción de una tabla de frecuencia. 20
2.3 Método gráfico para la representación de los datos. 24
2.3.1 Gráfica de barras. 24
2.3.2 Gráfica circular. 25
2.3.3 Histograma. 26
2.3.4 Polígono de frecuencias. 28
2.3.5 Ojiva o polígono de frecuencia acumulada. 29
Autoevaluación. 31

V
CONTENIDO PÁG.

UNIDAD 3. ESTADÍSTICA DESCRIPTIVA


3.1 Medidas de tendencia central. 36
3.1.1 Media. 37
3.1.2 Mediana. 38
3.1.3 Moda. 40
3.1.4 Comparaciones de la media, mediana, moda. 41
3.1.5 Media ponderada. 43
3.2 Medidas de dispersión. 45
3.2.1 Amplitud. 47
3.2.2 Varianza. 47
3.2.3 Desviación estándar. 49
3.2.4 Coeficiente de variación. 51
3.2.5 Comparación de las medidas de dispersión. 51
3.2.6 Significado de la desviación estándar. 52
3.3 Medidas de localización. 53
3.3.1 Cuartiles. 53
3.3.2 Percentiles. 54
3.4 Coeficiente de asimetría y curtosis. 58
3.4.1 Coeficiente de asimetría. 58
3.4.2 Curtosis. 59
Autoevaluación 61
Glosario de términos 62
Bibliografía 69

VI
CRITERIOS Y PORCENTAJES DE EVALUACIÓN DEL CURSO

A continuación se darán los lineamientos para la evaluación del curso de Técnicas


Estadística en la Educación.

1) 30% Tarea 1.

2) 50% Tarea 2

3) 20% Profesor.

VII
UNIDAD I. LOS CONCEPTOS BÁSICOS Y PANORAMA GENERAL
DEL PROCESO DE UNA INVESTIGACIÓN ESTADÍSTICA

OBJETIVO:

Mostrar los conceptos básicos del lenguaje estadístico e ilustrar la aplicación de


los métodos estadísticos en los diferentes campos del conocimiento.

TEMARIO
1.1 Definición de estadística
1.2 Conceptos básicos
1.3 Escalas de medición
1.4 Aplicaciones de los métodos estadísticos
1.5 Identificación en los problemas en los que no se utiliza la estadística para
resolverlos
1.6 Etapas de una investigación estadística
1.7 Los métodos estadísticos y la computadora
1.8 Colectivos estadísticos
1.9 Tipos de estudios estadísticos

Estrategias de enseñanza por unidad de aprendizaje.


• El propio estudiante será el gestor de su propio aprendizaje guiado por el
profesor únicamente en lo que corresponde a indicar el camino que debe
recorrer y evaluando el aprendizaje adquirido.

Estrategia de aprendizaje.
• Trabajar en conjunto con el profesor, así como resolver todos y cada uno de
los ejercicios sugeridos al final de la unidad.

1
1.1 DEFINICIÓN DE ESTADÍSTICA

Aunque difícil de lograr un consenso general sobre la definición de


estadística, todos los estadísticos están de acuerdo en clasificar la materia en dos
grandes áreas; que son Estadística descriptiva y Estadística inferencial.

Estadística descriptiva

En los primeros tiempos de su desarrollo, el estudio de la estadística


consistía de técnicas para recolectar, organizar y presentar datos numéricos. El
objetivo de este tipo de tratamiento, fue el de describir las características
principales de los datos reunidos.

Estadística inferencial

El enfoque del término estadística consiste de técnicas para hacer


inferencias a partir de los datos analizados en la estadística descriptiva y a la toma
de decisiones en base a los resultados obtenidos de una muestra.

Una vez consideradas las funciones de las dos áreas en que se clasifica la
estadística, se puede resumir el concepto de estadística como se menciona a
continuación:

Estadística

La estadística es un conjunto de métodos y teorías que han sido


desarrolladas para tratar la recolección, el análisis y la descripción de datos
muestrales con el objeto de tomar decisiones en base a los resultados obtenidos.

En los conceptos previamente mencionados se observa como la estadística


evolucionó de las técnicas de recolectar, organizar y presentar los datos

2
muestrales a las técnicas de hacer inferencias en base a los resultados de una
muestra. Esta idea que se tiene de la estadística, no quiere decir, que el tema de
la estadística se haya vuelto estable e inflexible, sino por el contrario, se siguen
creando nuevas técnicas estadísticas para satisfacer necesidades específicas. Por
ejemplo, recientemente se han creado algunas nuevas técnicas descriptivas
conocidas con el nombre de "análisis exploratorio de datos". Estas técnicas
permiten antes de efectuar cualquier otro tipo de análisis, examinar de manera
preliminar el comportamiento de nuestros datos y de acuerdo con este
comportamiento ajustar a tales datos el modelo más adecuado.

1.2 CONCEPTOS BÁSICOS

En virtud de que para estudiar los métodos estadísticos es de vital


importancia el conocimiento del lenguaje estadístico, a continuación se definen
algunos de los conceptos básicos más usuales. (Estas definiciones son de
naturaleza descriptiva y no necesariamente son matemáticamente formales).

Población
Una población es un conjunto de elementos con alguna característica en
común. Una lista de los empleados de una fábrica es un ejemplo de una
población. El número de elementos de una población generalmente se denota por
N.

Muestra
Una muestra es un subconjunto de la población. El número de elementos
de una muestra lo indicaremos con n.

Parámetro
Un parámetro es una característica numérica de una población. Los
parámetros generalmente se denotan por letras griegas. Algunos parámetros

3
comúnmente de interés son: el de la media, el total, la proporción, la varianza y la
desviación estándar que se denotan respectivamente por µ, τ, ρ, σ2 y σ.

Estadístico
Medida numérica que describe la característica de una muestra.

Variable
Una variable es una característica que puede tomar diferentes valores. De
esta manera, el ingreso, la producción y el sexo son variables dado que pueden
tomar diferentes valores cuando se estudian distintos elementos de una población.
Las variables pueden ser discretas y continuas. (En métodos estadísticos como en
diseños de experimentos y regresión, las variables se clasifican en dependientes e
independientes.).

Variable discreta
Una variable discreta es aquella para la cuál sus resultados se pueden
numerar, por ejemplo, el número de clientes atendidos diariamente durante un
mes en una institución bancaria, el número de ventas efectuadas por 20 agentes
de seguros de una compañía, el número de hijos por matrimonio de cierta ciudad,
etc., obsérvese que estos valores generalmente son obtenidos a través de un
proceso de contar.

Variable continúa
Una variable continua es aquella variable que puede tomar cualquier valor
dentro de un rango de valores. Obsérvese que estos valores son obtenidos a
través de un proceso de medir, por ejemplo, el tiempo que esperan en ser
atendidos 10 personas en un consultorio médico, el consumo de energía eléctrica
de las viviendas de una colonia durante un bimestre, la altura de 100 plantas de
café sembradas en una hectárea, etc.

4
Constante
Una variable se diferencia de una constante ya que al valor de ésta última
nunca se puede alterar. Algunos ejemplos de constantes son: el número de días
del mes de mayo indistintamente del año, el número de centímetros que tiene un
metro y el número de lados que tiene un pentágono.

Dato
Un dato es un resultado de observar, contar o medir una característica
específica de interés. Generalmente existen dos tipos de datos: cualitativos y
cuantitativos.

Dato cualitativo o (atributo)


Es el resultado de un proceso que categoriza o describe un elemento de
una población. Algunos ejemplos de variables que originan datos cualitativos son:
profesión, el estado civil y la religión.

Dato cuantitativo (o numérico)


Es el resultado de un proceso que cuantifica, es decir que cuenta o mide.
Algunos ejemplos de variables que originan datos cuantitativos son: el ingreso, el
gasto y la estatura.

Observación:
El esquema siguiente ilustra los conceptos anteriores.

5
Dato

Cualitativo Cuantitativo
o o
Atributo Numérico

Discreto Continuo

1.3 ESCALAS DE MEDICIÓN

Los métodos estadísticos que se utilizan para describir un conjunto de datos


dependen de la forma en que éstos se midieron ya que su desconocimiento
conduce a serios errores en la interpretación de los resultados. A continuación se
expone la forma de clasificar los datos de acuerdo a una escala de medición.

Por lo general se acepta la existencia de cuatro escalas de medición, ellas


son: nominal, ordinal, de intervalo y de razón.

6
Escala Nominal.
Las cualidades, categorías o clases no reflejan un
orden, por eso en este tipo de escala sólo es posible
decir si son iguales o diferentes. Por ejemplo, al
registrar la profesión de un grupo de empleados se
podría obtener como resultado: Agrónomo, Biólogo,
Contador, etc.
Cualitativos

Escala Ordinal
En esta escala los datos pueden ordenarse de un modo
lógico en forma ascendente o descendente. Por
ejemplo, la calidad de un producto puede clasificarse
como malo, regular o bueno.

Datos
Escala de Intervalo.
En esta escala existe un cero arbitrario, que no indica
ausencia de medición y se puede establecer distancias
entre dos observaciones. Por ejemplo, la temperatura
medida en grados centígrados.
Cuantitativos
Escala de Razón.
En esta escala existe un cero absoluto (real), aquí el
cero indica ausencia de medición. Además de
establecer "distancias" entre dos observaciones es
posible establecer un porcentaje de diferencia entre dos
observaciones. Por ejemplo, el ingreso de un grupo de
empleados.

7
1.4 APLICACIONES DE LOS MÉTODOS ESTADÍSTICOS

En años recientes la estadística y desde luego los métodos estadísticos han


tenido un desarrollo amplio en las diferentes áreas del conocimiento, de tal
manera que es más difícil mencionar un campo en el que no se haga uso de los
métodos estadísticos que mencionar uno en el que si se haga uso de tales
métodos. Con éstos antecedentes, los métodos estadísticos encuentran su
aplicación en una variedad grande de campos, que es necesario advertir, a
manera de comentario, que en el presente apartado no pretende, ni lejanamente,
exponer el tema de manera exhaustiva; sino que el propósito principal es de
mencionar, algunos campos de aplicación que estimulen al estudiante para que se
compenetre al estudio de los métodos estadísticos.

Resumiendo, los métodos estadísticos pueden ser aplicados.

• En una investigación de mercado cuando se desea saber la proporción de


compradores potenciales que prefieren un determinado artículo.

• En ingeniería para conocer el coeficiente de dilatación térmico de un metal


o bien para comparar la resistencia de dos aleaciones.

• En la Psicología para conocer el coeficiente intelectual promedio de los


empleados de una compañía.

• En la Pedagogía para comparar la eficiencia de dos métodos de


enseñanza.

• En la Política para predecir el resultado de una cierta elección popular.

• En la Sociología para conocer la proporción de casas rurales que cuentan


con energía eléctrica.

8
• En la Industria para conocer la proporción de artículos producidos que
resultan defectuosos.

• Por el economista que quiere obtener ecuaciones de predicción que


servirán en la predicción del crecimiento económico o de alguna otra
medida de sanidad económica.

• Por el agrónomo al experimentar cual de las diferentes variedades del


cultivo de maíz recomienda para obtener una mayor producción.

• En medicina para comparar la efectividad de dos medicamentos

1.5 IDENTIFICACIÓN DE PROBLEMAS EN LOS QUE NO SE UTILIZA LA


ESTADÍSTICA PARA RESOLVERLOS

La estadística no es una panacea que nos sirva para resolver cualquier


problema. La estadística se aplica al estudio de variables; es decir, datos que se
caracterizan por su variabilidad y no tiene sentido cuando la característica es
constante.

De acuerdo a lo mencionado en el punto anterior, la estadística no es de


utilidad en problemas de física, química, etc., en los que no existe incertidumbre
en los resultados, ya que estos generalmente se obtienen al despejar la incógnita
de una ecuación.

9
1.6 ETAPAS DE UNA INVESTIGACIÓN ESTADÍSTICA

Las etapas de una investigación estadística ideal pueden citarse como


sigue:

1. Asegurarse de que se entienda el problema y de formularlo en términos


estadísticos. Aclarar los objetivos de la investigación muy cuidadosamente.

2. Planear la investigación y recopilar los datos de una manera apropiada. Es


importante lograr un equilibrio adecuado entre el esfuerzo necesario para
recopilar los datos y analizarlos; el método de recolección es esencial para los
resultados.

3. Evaluar la estructura y calidad de los datos. Revisar los datos en cuanto a


errores y valores faltantes.

4. Llevar a cabo un examen inicial de los datos para obtener un resumen de la


estadística descriptiva y así tal vez, obtener mejores ideas para un análisis más
formal.

5. Seleccionar y llevar a cabo un procedimiento estadístico formal para analizar los


datos; dicho procedimiento con frecuencias asume un modelo particular y
puede involucrar estimación de parámetros y efectuar pruebas de hipótesis.

6. Comparar los hallazgos con resultados previos y adquirir datos adicionales, si


es necesario.

7. Interpretar y comunicar los resultados. Los hallazgos deben entenderse tanto


por los estadísticos como por los no estadísticos y se requiere cuidado extra en
la presentación de las gráficas, tablas de resumen y salidas de computadora.

10
1.7 LOS MÉTODOS ESTADÍSTICOS Y LA COMPUTADORA

En años recientes la computadora ha tenido un gran efecto en casi todos


los aspectos de la vida. El campo de la estadística no es la excepción. Como se
verá, en la estadística se emplean muchas técnicas repetitivas: fórmulas utilizadas
para calcular magnitudes estadísticas descriptivas, procedimientos para obtener
representaciones gráficas de datos, y métodos para formular inferencias
estadísticas. La computadora es muy útil en la realización de tales operaciones
repetitivas. Es muy común que alguien que necesite analizar un conjunto de datos
busque la ayuda de otra persona que sepa emplear una computadora. Si en esa
computadora está instalado algún programa de análisis estadístico, será fácil
llevar a cabo los cálculos deseados. Algunos de los programas (en paquetes) más
conocidos son: SYSTAT, STATA, STATISTICA, NCSS, SPSS y SAS. En estas
notas se verán ejemplos de salidas con el paquete SPSS.

1.8 COLECTIVOS ESTADÍSTICOS

Se llama población objetivo o de referencia al colectivo del cual interesa


conocer generalmente una serie de características. Esta puede ser concreta o
hipotética.

Una población objetivo es concreta, si está delimitada e identificada en el


sentido de conocer quiénes y cuáles son sus elementos.

Ejemplo de poblaciones concretas son:

1. Los egresados de la Facultad de Estadística son la población objetivo, si se


desea hacer un estudio sobre la aplicación de la estadística en su centro de
trabajo.

11
2. Los productores del cultivo de maíz del estado de Veracruz son la población
objetivo si se desea hacer un estudio sobre este cultivo.

Nótese que en estos ejemplos la población objetivo son finitas, esto es, se
conoce el número de elementos N que la conforman.

Una población objetivo es hipotética si sus elementos se caracterizan a


través de las propiedades que los conforman. Esto es, no es necesario otra cosa
más que tener una definición clara de cómo son los elementos de dicha población.

Ejemplos de poblaciones hipotéticas son:

1. Los clientes de Súper Chedraui pueden ser la población objetivo si se desea


efectuar un estudio sobre hábitos de consumo.
2. Los ciudadanos en edad de votar del Estado de Veracruz pueden ser la
población objetivo si se desea efectuar un estudio sobre sus preferencias
electorales.

Nótese que para estos ejemplos los colectivos se caracterizan como un


conjunto U=xx es un elemento del colectivo, en el que desconocemos cuántos
elementos conforman la población. En general debe decirse que para estas
poblaciones, que se denominan hipotéticas lo importante es caracterizar con
precisión cuándo un elemento pertenece o no a ella, lo cual establece los limites
de integración. Otro aspecto importante de notar es que en este tipo de ejemplos,
no se conoce el número de elementos que conforman el colectivo, tal situación es
muy común en los estudios de mercado y de opinión pública.

12
1.9 TIPOS DE ESTUDIOS ESTADÍSTICOS

Esencialmente hay tres clases de estudios estadísticos:

• Estudios observacionales.
• Estudios experimentales.
• Estudios de muestreo.

En las tres clases de estudio se realiza la fase del diseño, que consiste en
la planeación de las actividades hasta que se han colectado los datos. En los
estudios experimentales el investigador cuenta con una serie de unidades de
estudio a las que asigna un conjunto de tratamientos (estímulos) y observa una
serie de variables respuesta. En el caso de los estudios de muestreo el
investigador selecciona de una población mayor las unidades a estudiar, y les
observa tanto las variables explicatorias como las variables respuesta. Un estudio
experimental se puede combinar con un muestreo, por ejemplo en un estudio
sobre ecología en cultivos de caña de azúcar. Aquí podríamos considerar un
experimento de fertilización sobre grandes áreas donde se prueban cuatro
diferentes fórmulas. Sin embargo, al no poder evaluar las variables respuesta
sobre las grandes extensiones, entonces se hace un muestreo por áreas, como el
que se ha especificado para el ejemplo de la diversidad vegetal presentado antes.
Por otro lado, los estudios observacionales son aquellos en los que las unidades
ya están dadas (no hay muestreo) y se observan las características de interés.
Típicos ejemplos son aquellos en los que se usan expedientes, sistemas
periódicos de información, estudios con voluntarios, etc.

13
AUTOEVALUACIÓN

1. Un fabricante de medicamentos desea conocer la proporción de personas cuya


hipertensión (aumento de presión sanguínea) puede ser controlada con nuevo
producto fabricado por la compañía. Al realizar un estudio en 5000 individuos
hipertensos, se encontró que el 80% de ellos pudo controlar su hipertensión
utilizando el nuevo medicamento. Suponiendo que esas 5000 personas son
representativas del grupo de pacientes de hipertensión, conteste las siguientes
preguntas:
a. ¿Cuál es la población?
b. ¿Cuál es la muestra?
c. Identifique el parámetro de interés.
d. Identifique el estadístico utilizado e indique cuál es su valor.
e. ¿Se conoce el valor del parámetro?

2. Un técnico de control de la calidad selecciona partes de una línea de ensamble


y anota para cada una de ellas la siguiente información:
a. Si está o no defectuosa.
b. El número de identificación de la persona que armó la pieza.
c. El peso de la pieza.
Identifica para cada inciso el tipo de dato que se obtiene.

3. Se quiere saber el costo de la educación. Uno de los gastos que hace un


estudiante es la compra de sus libros de texto. Sea X el costo de todos los libros
comprados este semestre por cada estudiante que ingreso a la Universidad
Veracruzana. Describa cuidadosamente:
a. La población. b. La variable.

4. Con respecto al ejercicio anterior, considere que desea evaluar el costo


promedio de los libros por estudiante que ingresó a la Universidad Veracruzana.
a. Describa el parámetro poblacional.

14
b. Si se seleccionaron 500 estudiantes y se les pidió que tomaran nota en sus
gastos de libros de texto y que informaran la cantidad total. Las 500
cantidades resultantes forman una muestra. Mencione el estadístico de
interés en el presente estudio.

5. El experimento llamado del "primer siete" consiste en tirar dos dados


repetidamente hasta observar que la suma de sus caras sea siete. La variable que
interesa es el número de tiradas necesarias para que caiga el primer siete.
a. ¿Cuáles son los valores posibles de la variable respuesta?
b. ¿Tal variable es discreta o continua?

6. Identifique cada uno de los siguientes casos como ejemplo de variable (1) de
atributo, (2) discreta, o (3) continúa.
a. La resistencia de la ruptura de un determinado tipo de cuerda.
b. EL color del cabello de los niños que estén viendo por televisión una película.
c. EL número de señales de tránsito en poblados con menos de 500 habitantes.
d. Si una llave de lavabo está defectuosa o no.
e. El número de preguntas contestadas correctamente en un examen.
f. El tiempo que se necesita para contestar una llamada telefónica en una oficina
de bienes raíces.

7. Identifique cada uno de los siguientes casos como ejemplo de variable: (1) de
atributo, (2) discreta o (3) continúa.
a. El resultado de la encuesta a un votante posible acerca del candidato de su
preferencia.
b. El tiempo necesario para que una herida cicatrice cuando se utiliza un nuevo
medicamento.
c. El número de llamadas telefónicas recibidas en un conmutador cada 10
minutos.
d. La distancia a la que puede llegar un balón de fútbol al ser pateado por las
jóvenes del primer grado de la Universidad Veracruzana.

15
e. El número de páginas escritas por cada trabajo en una impresora de
computadora.

8. Supóngase que un niño de doce años quiere saber la diferencia entre muestra y
población.
a. ¿Qué información daría como respuesta?
b. ¿Qué razones se le daría sobre el porqué se debe tomar una muestra en
vez de estudiar todos los miembros de la población?

9. Se quiere describir al estudiante típico de cierta Universidad. Describa una


variable que mida alguna característica de un estudiante y resulte en:
a. Datos de atributo b. Datos discretos. c. Datos continuos

10. Un candidato a ocupar un cargo público asegura que ganará la elección. Un


sondeo de opinión indica que 35 de 150 electores votarán por él, 100 favorecerán
a su oponente y 15 están indecisos.
a. ¿Cuál es el parámetro poblacional de interés?
b. ¿Cuál es la estadística muestral que debe utilizarse para estimar el
parámetro poblacional?
c. Tomando como base los resultados del sondeo, ¿cree que es cierta la
afirmación del candidato?

11. Una pequeña encuesta consta de tres preguntas:


a. ¿Cuál es su religión: cristiana, musulmana u otra?
b. ¿A cuántos ritos religiosos asiste usted anualmente?
c. ¿Cuánto dinero donó a organizaciones religiosas el año pasado?
Clasifique las respuestas a estas preguntas como datos cuantitativos o atributos,
datos de variable discreta o datos de variable continua.

16
UNIDAD II. MÉTODOS TABULARES Y GRÁFICOS PARA LA
ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

Objetivo:

• Conocer los métodos tabulares y gráficos para la organización y


presentación de los datos.

TEMARIO

2.1 Introducción.
2.2 Método tabulares para representación de datos.
2.2.1 Distribución de frecuencia.
2.2.2 Conceptos.
2.2.3 Construcción de una tabla de frecuencia.
2.3 Método gráfico para la representación de los datos.
2.3.1 Gráfica de barras.
2.3.2 Gráfica circular.
2.3.3 Histograma.
2.3.4 Polígono de frecuencias.
2.3.5 Ojiva o polígono de frecuencia acumulada.

Estrategias de enseñanza por unidad de aprendizaje.


• El propio estudiante será el gestor de su propio aprendizaje guiado por el
profesor únicamente en lo que corresponde a indicar el camino que debe
recorrer y evaluando el aprendizaje adquirido.

Estrategia de aprendizaje.
• Trabajar en conjunto con el profesor, así como resolver todos y cada uno de
los ejercicios sugeridos al final de la unidad.

17
2.1 INTRODUCCIÓN

Una vez obtenidos los datos de interés, surge la necesidad de presentarlos


en forma organizada a fin de que puedan ser analizados fácil y correctamente.

La presentación de los datos puede hacerse en forma tabular y/o gráfica.


Los métodos a seguir en ambas presentaciones serán estudiados en la presente
unidad.

2.2 MÉTODOS TABULARES PARA LA PRESENTACIÓN DE DATOS

En esta sección se estudian los métodos tabulares más usuales para


presentar un conjunto de datos.

2.2.1 DISTRIBUCIÓN DE FRECUENCIAS

Es bastante común que en muchos reportes, ya sean científicos, de


negocios o de la administración pública, así como, en revista y periódicos, los
datos se presentan por medio de tablas. La que sobresale por su sencillez y
claridad es aquella que consta únicamente de dos encabezados (columnas).

Ejemplo: A continuación se presentan en forma tabular el número de empleadores


del sexo masculino en algunas dependencias gubernamentales, durante el año
1975.

18
Tabla 2.1. Número de empleadores del sexo masculino en algunas dependencias
gubernamentales
Dependencia Total de hombres empleadores
Secretaria de Educación Pública 135,716
Secretaría de Marina 19,443
Secretaria de Obras Públicas 35,444
Secretaria de Recursos Hidráulicos 53,725
Secretaría de Salubridad y Asistencia 28,851
Secretaria de la Reforma Agraria 6,680

Esta tabla nos permite visualizar fácilmente las características de los datos.

La utilidad de este tipo de presentación es máxima cuando el número de


datos es pequeño y se acompaña la tabla de algún texto que indique el tipo de
observaciones de que se trata.

Una forma de presentación que será muy útil para nuestro propósito es el
que resulta de organizar los datos en tablas de frecuencias o tablas de distribución
de frecuencia.

2.2.2 Conceptos.

En esta sección se darán algunos conceptos necesarios para la


construcción de una tabla de frecuencias.

Intervalo de Clase: Es la amplitud o tamaño de clase.

Límite de clase: Son los puntos que limitan a cada una de las clases.

Límite Inferior de Clase: Son los valores menores que pertenece a esa clase.

19
Limite Superior de Clase: Son los valores máximos que pertenecen a cada
clase.

Punto Medio o Marca de Clase: Es el número que representa a cada una de las
clases y se obtiene dividiendo la suma de los limites de cada clase entre dos y se
denota de la siguiente forma (Vi).

Frecuencia Absoluta: Es el número de observaciones que pertenecen a una


determinada clase y se denota (fi).

Frecuencia Relativa: Es el número que resulta de dividir la frecuencia absoluta de


cada clase entre el número total de las observaciones y se denota (pi).

Frecuencia Acumulada: Es la cantidad que nos indica cuantos datos existen


cuyo valor numérico es menor o igual al del límite superior de una determinada
clase.

2.2.3 Construcción de una Tabla de Frecuencia

Los pasos necesarios para la construcción de una tabla de frecuencias se


detallan a continuación.

1. Elección del número de clase. Es arbitrario; comúnmente se establecen de


5 a 20 clases dependiendo del número de datos.
2. Cálculos del intervalo de clase se obtienen la diferencia entre el mayor y el
menor valor numérico de los datos, la cual nos indicará la distancia mínima
que debe cubrir la suma de los intervalos de clase. Esa distancia o un
número ligeramente mayor, dividido entre el número de clases nos da el
intervalo de clase.

20
3. Elección de límite inferior de la primera o superior de la última clase y
cálculo de los límites de los demás clases.
4. Calculo de los valores medios ( Vi ). Si Li es el límite inferior de la i-ésima
clase y Ls el límite superior, entonces

Li + Ls
Vi =
2

5. Calculo de las frecuencias absolutas de clase ( fi ).


6. Cálculo de las frecuencias relativas ( pi )

fi
pi =
Número total de observacio nes

7. Cálculo de las frecuencias acumuladas relativas ( Fi )

8. Cálculo de las frecuencias acumuladas absolutas. El procedimiento es


similar al descrito en el punto 7, pero usando frecuencias absolutas en vez
de relativas.

Nota: Para prevenir ambigüedades en cuanto a la clase a la que pertenece cierto


número, diremos que un dato pertenece a una determinada clase si su valor
numérico es estrictamente mayor que el límite inferior y menor o igual que el limite
superior.

21
Ejemplo 2.1. Obtener la tabla de frecuencia para los datos de la Tabla 2.1.

Tabla 2.2. Rendimiento (en kilogramos) de plantas de maíz atacadas por el barrenador
europeo.
3.81 6.81 7.49 4.56 7.16 8.61 3.86 6.78 9.02 8.65 6.72
5.26 6.90 8.64 5.47 6.07 6.48 8.72 9.16 5.85 8.51 8.96
7.44 8.82 5.88 7.62 5.67 9.00 5.60 7.64 8.82 10.08 5.64
8.26 7.90 10.27 6.65 7.25 6.26 6.43 7.71 7.52 6.68 7.98
7.64 7.17 8.06 6.66 8.26 6.67 6.25 7.63 6.73 7.60 8.14
10.34 6.91 7.82 6.76 7.75 7.36 8.52 7.23 7.63 6.95 778
6.65 6.86 7.74 6.67 7.12 4.00 7.10

Tabla 2.3 Tabla de frecuencias para los datos de la Tabla 2.2.


Punto o valor Frecuencia Frecuencia
Clase o medio de Frecuencia Frecuencia acumulada acumulada
intervalo clase ( Vi ) absoluta ( fi ) relativa ( pi ) relativa ( Fi ) absoluta
(3.8, 4.6] 4.2 4 4 73 4 73 4

(4.6, 5.4] 5.0 1 1 73 5 73 5

(5.4, 6.2] 5.8 7 7 73 12 73 12

(6.2, 7.0] 6.6 19 19 73 31 73 31

(7.0, 7.8] 7.4 20 20 73 51 73 51

(7.8, 8.6] 8.2 9 9 73 60 73 60

(8.6, 9.4] 9.0 10 10 73 70 73 70

(9.4, 10.2] 9.8 1 1 73 71 73 71

(10.2, 11.0] 10.6 2 2 73 73 73 73

22
Ejemplo 2.2. A continuación se presentan las edades de 83 investigadores en
instituciones de investigación agropecuaria en México.

Tabla 2.4. Edades de 83 investigadores en instituciones de investigación agropecuaria en


México.
29 44 27 27 26 25 27 35 27 34 28 28 32
28 30 35 28 31 47 29 33 37 33 31 30 28
39 31 37 55 31 24 32 29 33 29 28 28 28
27 26 29 26 33 57 28 36 24 31 28 31 27
27 28 43 40 36 30 45 61 30 28 26 27 55
30 30 30 28 59 32 31 46 26 27 39 34 33
34 36 30 29 31

Tabla 2.5. Tabla de frecuencias para los datos de la Tabla 2.4.


Punto o valor Frecuencia Frecuencia
Clase o medio de Frecuencia Frecuencia acumulada acumulada
intervalo clase ( Vi ) absoluta ( fi ) relativa ( pi ) relativa ( Fi ) absoluta
(20.5, 25.5] 23 3 3 83 3 83 3

(25.5, 30.5] 28 42 42 83 45 83 42

(30.5, 35.5] 33 21 21 83 66 83 66

(35.5, 40.5] 38 7 7 83 73 83 73

(40.5, 45.5 43 3 3 83 76 83 76

(45.5, 50.5] 48 2 2 83 78 83 78

(50.5, 55.5] 53 2 2 83 80 83 80

(55.5, 60.5] 58 2 2 83 82 83 82

(60.5, 65.5] 63 1 1 83 83 83 83

23
2.3 MÉTODOS GRÁFICOS PARA LA REPRESENTACIÓN DE LOS DATOS

En esta sección se presentan los métodos gráficos tradicionales para


representar un conjunto de datos, con la ayuda de un software estadístico.

2.3.1 GRÁFICO DE BARRAS

El gráfico de barras es la forma más útil para representar datos nominales u


ordinales. Este consiste en barras verticales a horizontales que representan la
frecuencia de las observaciones en categorías específicas.

Para ilustrar el gráfico de barras que proporciona el paquete, consideremos


los datos de la Tabla 2.6.

Tabla 2.6 Preferencia religiosa de 100 individuos


de cierta ciudad.
Religión Número de individuos
Católica 50
Protestante 33
Otra 17
Total 100

A continuación se muestra como se deben tener los datos de la Tabla 2.6


para obtener el gráfico de barras que se presenta en la Figura 2.1

24
60

50
Número de Individuos

40

30

20

10
CATOLICA PROTESTA OTRA

RELIGION

Figura 2.1 Preferencias religiosas de los individuos de cierta ciudad.

Se observa en la Figura 2.1, que 50 de los individuos profesan religión


católica, mientras que 33 la religión protestante y 17 de ellos otra religión.

2.3.2 GRÁFICO CIRCULAR

El gráfico circular consiste en representar proporcionalmente en un círculo


la frecuencia de cada una de las categorías.

25
El gráfico circular correspondiente a los datos de la Tabla 2.6 se presentan
en la Figura 2.2.

Figura 2.2 Preferencias religiosas de los individuos de cierta ciudad.

Se observa en la Figura 2.2 que 50% de los individuos profesan la religión


católica, mientras que el 33% la religión protestante y un 17% otra religión.

2.3.3 HISTOGRAMA

El histograma es un gráfico de barras sin espaciamiento entre ellas, esto se


debe a que los datos deben pertenecer a variables continuas. El histograma es
una de las técnicas más populares; existe una gran tradición en su uso. Se
recomienda su empleo para problemas con grandes cantidades de datos (n > 50)
y que presenten una variación que permita realizar la agrupación de datos.

Para ilustrar el histograma que se obtiene en el paquete SPSS


consideremos los datos de la Tabla 2.7

26
Tabla 2.7. Velocidad de 55 automóviles registrados en la avenida de cierta ciudad.
27 23 22 38 43 24 35 26 28 18 20
25 23 22 52 31 30 41 45 29 27 43
29 28 27 25 29 28 24 37 28 29 18
26 33 25 27 25 34 32 36 22 32 33
21 23 24 18 48 23 16 38 26 21 23

A continuación se ilustra cómo se capturan los datos de la Tabla 2.7 para


obtener el histograma que se presenta en la Figura 2.3.

Figura 2.3 Velocidad de 55 automóviles medidos en una avenida de una


ciudad.

27
Se observa que en la Figura 2.3 que la mayor parte de los automóviles
circulan a una velocidad entre 13 y 33 kms/hr., mientras que una minoría circula a
velocidades mayores de los 33 kms/hr. La distribución muestra una asimetría
positiva.

2.3.4 POLÍGONO DE FRECUENCIAS

El polígono de frecuencias, al igual que el histograma, se emplea para


representar gráficamente los datos originados de una variable continua. Este
consiste en asociar los puntos medios de cada intervalo de clase con su
frecuencia correspondiente y luego unir con líneas rectas los puntos.

El polígono de frecuencias correspondiente a los datos de la Tabla 2.7 se


presenta en la Figura 2.4.

18

16

14
Número de automóviles

12

10

0
<= 15 (15,20] (20,25] (25,30] (30,35] (35,40] (40,45] (45,50] (50,55] > 55
Velocidades

Figura 2.4 Velocidad de 55 automóviles medidos en una avenida de la


ciudad.

Se aprecia en la Figura 2.4 que la mayoría de los automóviles circulan a


una velocidad que está entre los 15 y 35 km/hr, y que la parte restante circula a
una velocidad que se encuentra entre los 35 y 55 km/hr. Se aprecia que la
velocidad registrada de los automóviles presenta una asimetría positiva.

28
2.3.5 OJIVA O POLÍGONO DE FRECUENCIAS ACUMULADAS

La ojiva o polígono de frecuencias acumuladas es otro tipo de gráfica que


se utiliza para representar variables continuas. Esta consiste en unir los puntos
que resultan al ubicar en el eje horizontal a los límites verdaderos superiores y en
el eje vertical a las frecuencias acumuladas, absolutas, relativas o porcentuales.

La ojiva correspondiente a los datos de la Tabla 2.8 se presenta en la


Figura 2.5.
Tabla 2.8 Peso de 60 alumnos elegidos al azar de una escuela
85 60 80 52 47 59 50 75 67 64
77 53 52 75 84 84 63 60 68 71
77 85 77 55 63 87 74 72 73 65
75 55 49 66 85 45 89 68 70 67
73 54 82 79 57 68 58 73 74 68
60 67 50 64 60 69 72 64 73 70

60

40

R 20
E
C.
A
C

0
40 60 80 100
PESO

Figura 2.5 Polígono de frecuencias acumuladas del peso de 60 alumnos elegidos


al azar de una escuela.

29
Se puede observar en la Figura 2.5 que aproximadamente 15 alumnos
tienen un peso menor o igual de 60 kilos, que aproximadamente 55 alumnos
tienen un peso menor o igual que 80 kilos.

30
AUTOEVALUACIÓN

1. Los datos que se presentan en la Tabla 1 representan la profesión de


42 estudiantes inscritos en un posgrado. Represente los datos en una distribución
de frecuencias absolutas y porcentuales e interprete la distribución de los datos.

Tabla 1. Profesión de 42 estudiantes inscritos en un posgrado.


Psic. C. P. Biol. C. P. Med. Med. Ped.
Ped. Biol. Biol. L. A. E. L. A. E. L. A. E. L. A. E:
Med. Eco. Eco. Eco. C. P. C. P. C. P.
C. P. Biol. Agro. Agro. Ped. Ped. Eco.
Biol. Agro. C. P. L. A. E. L. A. E. C. P. C. P:
C. P. C. P. L. A. E. Eco. Biol. Ped. Med.

2. Los datos que se presentan en la Tabla 2 representan el último dígito


del premio mayor de 50 sorteos de la lotería nacional. Represente dichos datos en
una distribución de frecuencias absolutas, acumuladas, porcentuales y
porcentuales acumuladas e interprete el comportamiento de los datos.

Tabla 2. Último dígito del premio mayor de 50 sorteos de la lotería nacional.


2 1 8 0 3 4 5 6 5 8
3 7 8 7 5 2 3 1 4 5
9 6 5 7 6 3 2 1 0 8
9 4 3 2 6 7 4 3 2 1
4 3 7 9 8 7 6 5 4 2

3. Una prueba sanguínia aplicada a los diabéticos durante sus exámenes


rutinarios de control, indica el nivel del azúcar en la sangre durante los dos o tres
meses anteriores a la prueba. Los datos que se presentan en la Tabla 3 se
obtuvieron de 50 personas diabéticas diferentes en una clínica que atiende a
pacientes de este tipo. Represente los resultados obtenidos una distribución de

31
frecuencias agrupadas que considere usted adecuada e interprete el
comportamiento de los datos.

Tabla 3. Resultados de una prueba sanguínea aplicada a 50 personas diabéticas.


6.5 5.0 5.6 7.6 4.8 8.0 7.5 7.9 5.6 9.2
6.4 6.1 5.7 6.2 5.7 9.2 8.1 8.8 6.5 6.6
5.0 8.2 6.6 6.3 6.4 6.7 7.2 5.9 4.0 5.7
7.9 6.3 5.7 5.9 6.2 7.7 6.7 7.7 8.2 9.0
6.2 5.6 6.3 5.8 9.1 8.3 8.9 6.4 5.5 6.4

4. El número de horas que se ve televisión por familia, y el horario con


mayor número de teleespectadores, son los factores que se influyen en los precios
de la publicidad televisiva. Una muestra aleatoria de 50 familias en una región
particular, produjo las estimaciones del tiempo que se dedica a ver la televisión por
familia. En la Tabla 4 se presentan los resultados obtenidos.
3.0 6.0 7.5 15.0 12.0 6.5 8.0 4.0 5.5 6.5
5.0 11.5 1.0 7.0 1.5 3.5 2.5 8.5 9.0 5.0
9.5 10.0 11.0 8.0 3.5 9.0 2.0 6.5 1.0 5.5
12.0 10.5 5.5 4.5 5.5 6.0 6.5 8.5 9.5 6.3
0.5 2.5 4.5 6.0 9.0 8.5 4.5 3.0 8.5 8.0
Represente los datos en forma tabular y gráfica que considere usted que sea la
forma más adecuada e interprete la distribución de los datos.

5. Los datos que se presentan en la Tabla 5 representan el grado máximo de


estudios de 720 votantes elegidos al azar en una encuesta de opinión política.
Represente dichos datos en un gráfico de barras y en un gráfico circular e
interprete el comportamiento de los datos.

32
Tabla 5. Grado máximo de estudios de 720 votantes elegidos al
azar en una encuesta de opinión política en la ciudad de Xalapa
Ver.
Máximo grado de estudios Número de ciudadanos
Sin estudios 44
Primaria 176
Secundaria 155
Bachillerato 177
Licenciatura 144
Otros 24
Total 720

6. Los datos que se encuentran en la Tabla 6 representan el partido político por el


que votaron 921 ciudadanos en una encuesta de opinión política en la ciudad de
Xalapa, Veracruz, represente dichos en un gráfico de barras y en un gráfico
circular e interprete el comportamiento de dichos datos.

Tabla 6. Distribución del voto en una encuesta de opinión


política en la ciudad de Xalapa, Veracruz.
Partido político Número de ciudadanos
PRI 295
PAN 187
PRD 408
OTROS 31
Total 921

7. Represente los datos del ejercicio 1 en una gráfico circular y en un gráfico de


barras e intérprete los gráficos resultantes.

8. Represente los datos del ejercicio 2 en un gráfico de barras e interprételo.

9. Represente los datos del ejercicio 3 en un Histograma, un polígono de


frecuencias y en una ojiva e intérprete los gráficos resultantes.

33
UNIDAD III. ESTADÍSTICA DESCRIPTIVA

OBJETIVOS:

• Conocer las diferentes medidas de tendencia central para describir un


conjunto de datos.
• Conocer las diferentes medidas de dispersión para describir un conjunto de
datos.
• Conocer las diferentes medidas de posición para describir un conjunto de
datos.

TEMARIO
3.1 Medidas de tendencia central.
3.1.1 Media.
3.1.2 Mediana.
3.1.3 Moda.
3.1.4 Comparaciones de la media, mediana, moda.
3.1.5 Media ponderada.
3.2 Medidas de dispersión.
3.2.1 Amplitud.
3.2.2 Varianza.
3.2.3 Desviación estándar.
3.2.4 Coeficiente de variación.
3.2.5 Comparación de las medidas de dispersión.
3.2.6 Significado de la desviación estándar.
3.3 Medidas de localización.
3.3.1 Cuartiles.
3.3.2 Percentiles.
3.4 Coeficiente de asimetría y curtosis.
3.4.1 Coeficiente de asimetría.
3.4.2 Curtosis.

34
Estrategias de enseñanza por unidad de aprendizaje.
• El propio estudiante será el gestor de su propio aprendizaje guiado por el
profesor únicamente en lo que corresponde a indicar el camino que debe
recorrer y evaluando el aprendizaje adquirido.

Estrategia de aprendizaje.
• Trabajar en conjunto con el profesor, así como resolver todos y cada uno de
los ejercicios sugeridos al final de la unidad.

35
Una vez que los datos han sido obtenidos y organizados, el investigador
está listo para realizar un análisis descriptivo. Este capítulo se muestra la forma
en que los datos obtenidos pueden condensarse en un solo valor central
alrededor del cual todos los datos muestrales se distribuyen. Por esta razón, a
menudo se denomina a un valor central como una medida de tendencia central.
Existen muchos tipos de valores centrales; las medidas utilizadas con mayor
frecuencia son la media aritmética, la mediana y la moda.

La medida de tendencia central se emplea para localizar el centro de un


conjunto de observaciones. Sin embargo, con frecuencia resulta igualmente
importante describir la forma en que las observaciones están diseminadas o
dispersas, a cada lado del centro. A esta diseminación comúnmente se le conoce
dispersión o variación. Una dispersión pequeña indica un alto grado de
uniformidad en las observaciones no tiene dispersión, todas las observaciones son
idénticas. Sin embargo, tal uniformidad perfecta virtualmente no existe. Dos
muestras de observaciones con el mismo valor central pueden tener dispersiones
bastante distintas.

3.1. MEDIDAS DE TENDENCIA CENTRAL

La mayor parte de las series de datos muestran una clara tendencia a


agruparse alrededor de un cierto punto central. Así pues, dada cualquier serie de
datos particular, por lo general es posible seleccionar algún valor o promedio típico
para describir toda la serie de datos. Este valor descriptivo típico es una medición
de tendencia central o de ubicación. Tres tipos de promedio a menudo son usados
como mediciones de tendencia central son la media aritmética, la mediana y la
moda.

36
3.1.1. LA MEDIA

La media aritmética es un promedio que quizás sea el más conocido, se


representa con x (que se lee como “ x barra” o “media muestral”). La media se
encuentra sumando todos los valores de la variable x ( la suma de los valores x
se simboliza como ∑ x y dividiendo entre el número de estos valores, n (“tamaño

de muestra”). Lo anterior se expresa con una formula como

n
∑ xi
i =1
x= 3.1
n

La media aritmética posee las siguientes dos propiedades:

La suma de las desviaciones con respecto a la media es igual a cero, esto es

n
∑ (x1 − x ) = 0
i =1

La suma de las desviaciones al cuadrado con respecto a la media es mínima que


con respecto a cualquier otro valor, esto es
n
∑ ( xi − x )2 es mínima
i =1

Ejemplo 3.1: Obtener de los datos: 2,12,9,10,7 la media aritmética.

Al aplicar la fórmula (3.1) se encuentra


2 + 12 + 9 + 10 + 7 40
x= = = 8.0
5 5
En consecuencia, la media de esta muestra es 8.0.

37
Ejemplo 2: Un conjunto de datos consta de cinco valores 6, 3, 8, 6 y 4. Encuentre
la media.

Al aplicar la fórmula (3.1) se encuentra


6 + 3 + 8 + 6 + 4 27
x= = = 5.40
5 5
En consecuencia, la media de esta muestra es 5.4.

3.1.2. LA MEDIANA.

La mediana es el valor de los datos que ocupa la posición central cuando


los datos se ordenan según su tamaño. Se representa con Me (se lee como
mediana muestral).

El procedimiento para encontrar la mediana es el siguiente:

PASO 1: Ordene los datos.


PASO 2: Determine la profundidad o posición de la mediana. La profundidad
(número de posiciones a partir de cualquier extremo), o posición, de la
mediana se determina con la siguiente formula
tamaño de la muestra + 1
Pr ofundidad de la mediana =
2
n +1
d( Me ) = (3.2)
2
La profundidad (o posición) de la mediana se encuentra al sumar la
posición del dato más pequeño (1) y del dato más grande ( n ) y dividir
el resultado entre 2. ( n es el mismo número de datos.)
PASO 3: Determine el valor de la mediana.
Contar sobre los datos ordenados, localizando el dato que está en la
d( Me ) ésima posición. La mediana será la misma sin importar a partir

38
de cuál extremo de los datos (mayor o menor) ordenados se
encuentre. De hecho, contar desde ambos extremos sirve como una
comprobación excelente

Las dos ilustraciones siguientes ejemplifican este procedimiento según se


aplica a conjuntos cuyo número de datos es impar o par.

Ejemplo 3.3. Encuentre la mediana del conjunto de datos 6, 3, 8, 5, 3.

Solución:

PASO 1: Los datos ordenados de manera creciente, son 3, 3, 5, 6 y 8.


PASO 2: n +1 5 +1
Profundidad de la mediana: d( Me ) = = = 3 (la “3a” posición)
2 2
PASO 3: Es decir, la mediana es el tercer número desde cualquier extremo en
los datos ordenados, o bien, Me = 5 .

Como se presenta en el ejemplo 3.3, cuando n es impar, la profundidad de


la mediana, d( Me ) , siempre es un entero. No obstante, cuando n es par, la
profundidad de la mediana, d( Me ) , siempre es la mitad de un número entero,
como se muestra en el ejemplo 3.4.

Ejemplo 3.4: Encontrar la mediana de la muestra 9, 6, 7, 9, 10, 8.

Solución:
PASO 1: Los datos ordenados de manera creciente, son 6, 7, 8, 9, 9 y 10.
PASO 2: n +1 6 +1
Profundidad de la mediana: d( Me ) = = = 3.5 (la “3.5ava”
2 2
posición)
PASO 3: Es decir, la mediana está a la mitad entre las porciones de datos tercera y
cuarta. Para encontrar el número situado a la mitad de dos valores

39
cualesquiera, se suman los dos valores y el resultado se divide entre 2. en
este caso se suman el tercer valor (8) y el cuarto valor (9), luego se divide
8+9
entre 2. La mediana es Me = = 8.5 , número que está a medio camino
2
entre los dos números.

3.1.3 LA MODA.

La moda de un conjunto de n observaciones se representa por Mo y


es el valor de la observación que se presenta con mayor frecuencia en un conjunto
de datos.

La moda es una medida de tendencia central poco usual, las razones se


deben a que puede ocurrir que en un conjunto de datos no exista moda, como
también puede suceder que la moda no sea un valor único; esto es, que este
compartida por dos o más observaciones.

Ejemplo 3.5: Encuentre la moda de las calificaciones obtenidas por un estudiante


en 8 exámenes del curso de Genética Aplicada son: 10, 7, 8, 7, 9, 8, 7, 9.

Solución:
Las modas son 7, 8 y 9.

Ejemplo 3.6: Encuentre la moda de los pesos de 10 individuos: 63, 52, 78, 49, 71,
62, 68, 48, 56 y 67.

Solución:
La moda no existe.

40
3.1.4 Comparaciones de la media, mediana y moda.

Cuál de ella resulta conveniente utilizar, pocas cosas pueden compararse a


ase maravilloso dispositivo matemático llamado promedio. Con un promedio es
posible tomar un puñado de cifras sobre cualquier tema: temperatura, ingreso,
velocidades, años luz, cualquier cosa susceptible de ser medida, y calcular una
cifra que represente a todo el puñado.

Sin embargo, hay algo que debe recodarse. Existen varios tipos de medidas
ordinariamente conocidas como promedios y cada una proporciona una
representación distinta de las cifras que se supone está representado.
Considere un ejemplo. A continuación se presentan los ingresos anuales de 10
familias.

$54000 $39000 $37500 $36750 $35250


$31500 $31500 $31500 $31500 $25500

¿Cuál sería el ingreso típico de este grupo? Al promediar se obtendría la repuesta,


de modo que se calculará el ingreso típico mediante el tipo más simple y de mayor
uso para obtener un promedio.

La media aritmética. Cuando alguien cita un promedio sin especificar de


qué clase es, probablemente usted suponga que dicha persona tiene en mente la
media aritmética. Se trata de la forma más común para promediar, obtenida al
sumar los artículos en la serie, y luego dividir entre el número de artículos. En
nuestro ejemplo, la suma de los 10 ingresos dividida entre 10 es igual a $35400.
La media es representativa de la serie, en el sentido de que la suma de las
cantidades por las que las cifras más alta exceden de la media, es exactamente lo
misma que la suma de las cantidades por las que las cifras inferiores quedan por
debajo de la media.

41
La mediana. Como ya habrá observado, seis familias ganan menos que la
media y cuatro ganan más que ésta. Tal vez también quiera representar este
grupo variado por medio del ingreso de la familia que está justo en medio de todo
grupo. Para lograrlo, es necesario encontrar la mediana. Sería fácil si el grupo
estuviese integrado por 11 familias. La sexta familia con respecto al valor máximo
(o sexta con respecto al mínimo) estaría a la mitad y tendría la mediana del
ingreso. Sin embargo, con 10 familias no hay familias de en medio. Así, se suman
los dos ingresos centrales ($31500 y $25500 en este caso) y se divide entre dos.
Resulta que la mediana es $33375.

La moda. Así, se tienen tres tipos de promedio y ninguna familia se


presenta realmente un ingreso que compare con tales promedios. Ahora, se desea
representar el grupo, estableciendo el ingreso que ocurre más frecuentemente.
Este tipo de representatividad se denomina moda. En este ejemplo el ingreso, el
ingreso modal sería $31500. Más familias ganan esta cantidad que cualquiera
otra.

De esta forma se han obtenido tres promedios diferentes, cada uno de los
cuales es válido, correcto e informativo. Sin embargo, ¡cuánto difieren!
Media aritmética $35400
Mediana $33375
Moda $31500

¡Y serían aún más diferentes si sólo una familia del grupo fuese millonaria; o una
estuviese desempleada!

Entonces, hay tres lecciones qué aprender de la clase de hoy sobre


promedios. Primero, cuando vea o escuche sobre un promedio, determine qué
promedio es. Así podrá saber qué tipo de representación se le está proporcionado.
Segundo, piense sobre las cifras que se han promediado, de modo que pueda
juzgar si el promedio utilizado es idóneo. Y tercero, no suponga que cada vez que

42
alguien dice “promedio” hace alusión a una cuantificación matemáticas literal. No
es así. Todo mundo dice a menudo “la persona promedio” sin querer implicar una
media, una mediana o una moda. Todo lo que intenta expresarse es la idea de
que hay personas que en gran medida se parecen bastante al resto de las demás.
La Figura 3.1 muestra las posiciones de la media, la mediana y la moda. Si
la distribución es simétrica, como se aprecia en a), las tres mediadas de tendencia
central coinciden, es decir, se verificará la igualdad x = Me = Mo . Si la distribución
es asimétrica positiva, como se observa en b), las tres medidas de tendencia
central divergen, de tal forma que se cumple la relación x > Me > Mo . Finalmente,
si la distribución es asimétrica negativa, como se aprecia en c) las tres medidas de
tendencia central divergen, verificándose en tal caso la relación x < Me < Mo . Al
respecto cabe mencionar, que si una distribución presenta dos o más modas, la
dirección de ésta se determina comparando únicamente la media y la mediana.

Figura 3.1 Posición de la media, la mediana y la moda.

3.1.5 MEDIA PONDERADA

La media ponderada de un conjunto de n observaciones x1 , x2 ,..., xn que


presentan los pesos o ponderaciones w1 , w2 ,..., wn , respectivamente, se representa
por x p y se define como

43
n

w1x1 + w2 x 2 + L + wn x n
∑ wi xi
i =1
xp = = (3.3)
w1 + w2 + L + wn n
∑ wu
i =1

La media ponderada es ampliamente utilizada en el sector agrícola para


estimar algunos parámetros, tales como el rendimiento promedio por hectárea de
los diferentes cultivos, el precio de comercialización de éstos, dosis de
fertilizantes, fungicidas y otros agroquímicos aplicados por hectárea. A
continuación se presenta un ejemplo que ilustra el empleo de la media ponderada.

Ejemplo 3.7: Supóngase que se seleccionaron al azar 5 ejidos de un municipio


con el propósito de estimar el rendimiento promedio por hectárea y el precio
promedio de comercialización del cultivo de maíz. Para tal fin, se recolecto en
cada uno de los ejidos seleccionados: la superficie cosechada (en hectáreas), el
rendimiento por hectárea (en toneladas) y el valor de la producción (en miles).
Obteniéndose los resultados que se presentan en la Tabla 3.1

Tabla 3.1 Resultados obtenidos del cultivo de maíz en 5 ejidos elegidos al azar en un
municipio.
Ejido Superficie Rendimiento Producción Precio Valor de la
cosechada (has) por ha.(tons) (tons) producción (miles)

A 50 1.200 60 1,300 78000


B 120 1.650 198 1,400 277200
C 80 1.300 104 1,350 140400
D 150 1.460 219 1,400 306600
E 40 1.050 42 1,300 54600
Total 440 623 856800

De la Tabla 3.1 obtenemos que el rendimiento por hectárea del cultivo del maíz es
de

44
50(1. 200) + 120(1. 650) + ... +40(1. 050) 623
xp = = = 1. 416 tons / ha
50 + 120 + ... +40 440

y el precio de comercialización es de

60(1300) + 198(1400)+...+42(1300) 856800 $1,375.00


xp = = = 1375
60 + 198+...+42 623

El desconocimiento de la media ponderada conduce en ocasiones a utilizar


la media en forma equivocada para representar un conjunto de datos. Para ilustrar
esto, consideremos que en el ejemplo anterior, el rendimiento por hectárea se
calculará como se indica a continuación:
1. 200 + 1. 650 + 1. 300 + 1. 460 + 1. 050
x= = 11.332 tons.
5
y el precio de comercialización en la forma

1300 + 1400 + 1350 + 1400 + 1300 6750


x= = = $1,350.00
5 5
En tal caso estaríamos utilizando engañosamente la media para representar
ambos resultados.

3.2 MEDIDAS DE DISPERSIÓN

Una vez localizado el “centro” con las medidas de tendencia central, la


investigación en busca de información a partir de los conjuntos de datos se dirige
ahora a las medidas de dispersión. Las medidas de dispersión incluyen el rango,
la varianza y la desviación estándar. Estos valores numéricos describen la
cantidad de dispersión, o variabilidad que se encuentra entre los datos: datos
bastantes agrupados poseen valores relativamente pequeños y datos más
dispersos tienen valores mayores. El agrupamiento más estrecho ocurre cuando
los datos carecen de dispersión (todos los datos tienen el mismo valor), para los

45
cuales la medida de dispersión es cero. No hay limite respecto a cuán dispersos
pueden ser los datos; en consecuencia, las medidas de dispersión pueden ser
muy grandes.

La Figura 3.2 muestra que una medida de tendencia central no es suficiente para
caracterizar dos conjuntos de datos, puesto que, es posible tener dos o más
distribuciones con la misma medida de tendencia central y pertenecer a
distribuciones muy diferentes. Por ejemplo, hay que apreciar en la Figura 2, la
diferencia en la interpretación de la observación 80. En a) se observa que la
distribución tiene menor dispersión, es decir, las observaciones están
estrechamente distribuidas alrededor de la media, tanto así, que la observación de
80 está situada casi en el extremo de la distribución y puede por lo tanto
considerarse como una observación muy alta. En b), por el contrario, las
observaciones están más dispersas alrededor de la media. En este caso, la
observación de 80 no se localiza tan al extremo de la distribución puesto que,
tiene encima de ella un buen número de observaciones, tal como lo indica el área
situada a la derecha de 80.

Figura 3.2 Dos distribuciones con la misma medida de tendencia central pero con
diferente dispersión.

46
3.2.1 AMPLITUD.

La Amplitud (A) de un conjunto de datos, es la diferencia en valor entre los datos


de mayor valor (Máx) y de menor valor (Min). La amplitud es poco usual por su
evidente inestabilidad. Esto se debe a que únicamente considera para su cálculo,
los valores extremos del conjunto de datos.

Rango: rango = máximo − mínimo (3.4)

Ejemplo 3.8: Obtener el rango de la muestra 3, 6, 8, 7 4


El rango de la muestra 3, 3, 5, 6, 8 es
rango = máximo − mínimo = 8 − 3 = 5
El rango 5 indica que todos estos valores caen en un intervalo de 5 unidades.

Ejemplo 3.9: Obtener el rango de la muestra 3, 5, 9, 4, 2, 8


El rango de la muestra 3, 5, 9, 4, 2, 8 es
rango = máximo − mínimo = 9 − 2 = 7
El rango 7 indica que todos estos valores caen en un intervalo de 7 unidades.

Las otras medidas de dispersión que estudiarán en esta unidad son


medidas de dispersión con respecto a la media. Para obtener una medida de
dispersión con respecto a la media, primero se contestara la pregunta “¿cuán lejos
está cada x de su media?”

3.2.2. LA VARIANZA.

La varianza muestral, S 2 es la media de las observaciones al cuadrado,


calculada usando como divisor a n − 1 .
Varianza de la muestra:
suma de ( desviaciones ) 2
var ianza de la muestra =
número − 1

47
∑ (x − x )2
S 2
= (3.5)
n −1
donde n es el tamaño de la muestra, es decir, el número de datos que hay en la
muestra.

La varianza muestral 6, 3, 8, 5, 3 se encuentra en la Tabla 3.2 usando la


formula (3.5).

Tabla 3.2 Cálculo de la varianza aplicando la fórmula (3.5).


Paso 1: Paso 2. Paso 3. Paso 4. Paso 5.
Encuentre ∑ x Encuentre x Encuentre cada
x −x
Encuentre Varianza muestral

∑ (x − x )
2

∑x 6−5 =1
6 ( 1) 2 = 1 ∑ (x − x )
2
x= S 2
=
3 n 3 − 5 = −2 ( −2 ) 2 = 4 n −1

8 25 8−5 = 3 ( 3)2 = 9 18
x= S2 =
5 4
5 5−5 = 0 ( 0 )2 = 0
3 x =5 3 − 5 = −2 ( −2 ) 2 = 4 S 2 = 4.5

∑ x = 25 ∑ (x − x )
2
= 18

NOTAS

1. Para encontrar x se usa la suma de todas las x .


2. En el supuesto de que se use el valor exacto de x . La suma de las
desviaciones, ∑ (x − x ) siempre es cero.
3. Si se usa un valor redondeado de x , entonces ∑ (x − x ) no siempre es

exactamente cero. No obstante, estará razonablemente próxima a cero.


4. La suma de las desviaciones al cuadrado se encuentra elevado al cuadrado
cada desviación y luego sumando los valores obtenidos.

48
3.2.3 DESVIACION ESTÁNDAR.

Desviación estándar muestral s, es la raíz cuadrada positiva de la varianza:


desviación estándar: S = raíz cuadrada de la varianza muestral .

S = S2 (3.6)
Para los ejemplos que se muestran en las Tabla 3.2, la desviación estándar es
4.5 o 2.1.

NOTA: el numerador de la varianza muestral, ∑ (x − x )2 , a menudo se denomina


“suma de cuadrados de x ” y se simboliza como SC ( x ) . Así la formula (1.5)
puede expresarse como
SC( x )
Varianza muestral: S2 = , donde SC ( x ) = ∑ (x − x )2 (3.7)
n −1
Las fórmulas de la varianza muestral pueden modificarse a otras formas
para aplicarlas más fácilmente en diversas situaciones. Por ejemplo, suponga que
se tiene la muestra 6, 3, 8, 5, 2. La varianza de esta muestra se calcula en la
Tabla 3.3

Tabla 3.3 Cálculo de la varianza aplicando la fórmula (3.5).


Paso 1: Paso 2. Paso 3. Paso 4. Paso 5.
Encuentre ∑x Encuentre x Encuentre cada
x −x
Encuentre Varianza muestral

∑ (x − x )
2

∑x 6 − 4.8 = 1.2
6 ( 1.2 ) 2 = 1.44 ∑ (x − x )
2
x= S 2
=
3 n 3 − 4.8 = −1.8 ( −1.8 ) = 3.24
2 n −1

8 24 8 − 4.8 = 3.2 ( 3.2 ) 2 = 10.24 22.80


x= S2 =
5 4
5 5 − 4.8 = 0.2 ( 0.2 ) 2 = 0.04
2 x = 4.8 2 − 4.8 = −2.8 ( −2.8 ) 2 = 7.84 S 2 = 5.7

∑ x = 24 ∑ (x − x )
2
= 22.8

49
El procedimiento aritmético para este ejemplo puede volverse más
complicado porque la media contiene dígitos diferentes de cero a la derecha del
punto decimal. No obstante, la “suma de cuadrados de x ”, el numerador de la
fórmula (3.4), puede volver a escribirse como

Suma de cuadrados: SC ( x ) = ∑ x −
(∑2x)
2

(3.8)
n
Al combinar las fórmulas (3.7) y (3.8) se obtiene la formula de atajo:

(suma de x ) −  (suma de x ) 
2
2

 número 
Varianza muestral: var ianza muestral =
número − 1

(∑ x)
2

∑x − n
2

S2 = (3.9)
n −1
Las formulas (3.8) y (3.9) se denominan “de atajos” porque ahorran el cálculo de
x . Los cálculos para SC ( x ) , S 2 y S aplicando las fórmulas (1.8), (1.9) y (1.6) se
realizan como se muestran en la tabla 3.4.

Tabla 3.4 Cálculo de la varianza aplicando la fórmula (3.9).


Paso 1: Paso 2. Paso 3. Paso 4. Paso 5.
Encuentre Encuentre Encuentre SC ( x ) Encuentre Varianza
∑x ∑x
2
∑ (x − x )
2 muestral

6 62 = 36
SC ( x ) = ∑ x −
(∑ x)
2

S 2
=
∑ (x − x )
2

3 32 = 9 n n −1

8 82 = 64
SC( x ) = 138 −
(24)2 S2 =
22.80
5 4
5 52 = 25
2 22 = 4 SC ( x ) = 138 − 115.2 S 2 = 5.7

∑ x = 24 ∑ x 2 = 138 SC ( x ) = 22.8

50
3.2.4 COEFICIENTE DE VARIACION

El coeficiente de variación se representa por C.V., y se define como la


medida de dispersión relativa de un conjunto de datos, que se obtiene dividiendo
la desviación estándar del conjunto entre su media, esto es

S
C.V . =
X

La forma más usual del coeficiente de variación es como se indica a


continuación

S
C.V . = x 100
X

Se multiplica por l00 con el propósito de expresar la dispersión de un


conjunto de datos en términos de porcentaje.

El coeficiente de variación cobra mayor importancia cuando se desea


comparar la dispersión de dos o más conjuntos de datos que tienen diferente
unidad de medida. Esto se debe a que la unidad de medida utilizada en los grupos
que se comparan se elimina, y la dispersión de los datos, se da en términos de
porcentaje.

3.2.5 COMPARACION DE LAS MEDIDAS DE DISPERSION

Por la rapidez y facilidad con que se obtiene, la amplitud se considera


simplemente como un índice preliminar o aproximado de la variación existente
entre las observaciones de un conjunto de datos. Como medida de dispersión

51
debe emplearse con precaución, puesto que su valor depende únicamente de los
dos valores extremos del conjunto.

La varianza resulta ser una medida razonablemente buena de la dispersión


debido a que si las desviaciones son grandes entonces el valor de la varianza será
grande, por el contrario, si éstos son pequeños entonces el valor de la varianza
será pequeño. La varianza puede sufrir un cambio bastante desproporcionado,
aun más que la media, por la existencia de valores extremos en el conjunto. La
varianza es una medida de dispersión en la que los resultados que se obtienen
representan unidades al cuadrado, para superar éste inconveniente de la varianza
y disponer de otra medida de dispersión que exprese las unidades en su forma
original como fueron obtenidos, se extrae la raíz cuadrada de la varianza,
obteniéndose, lo que se conoce como desviación estándar.

La desviación estándar es la más utilizada e importante de las medidas de


dispersión, esto se debe a las propiedades teóricas que posee, razón por la cual,
se constituye en la base de los métodos inferenciales.

El coeficiente de variación es una medida de dispersión independiente de la


unidad de medida, puesto que la dispersión de un conjunto de datos se obtiene en
términos de porcentaje.

3.2.6 SIGNIFICADO DE LA DESVIACION ESTANDAR

El resultado obtenido al calcular la desviación estándar de un conjunto de


datos, nos lleva a preguntar ¿Qué significa realmente ese número?. El significado
completo de la desviación estándar se comprende cuando se estudia la
distribución normal puesto que el significado depende del entendimiento de la
relación que existe entre la desviación estándar y la distribución normal. Sin

52
embargo, a manera de ilustrar el significado de la desviación estándar
consideremos el aspecto que se presenta a continuación.

Supóngase que se desea medir la distancia que hay entre las plantas de un
jardín. Se podría efectuar la medición de éstos, ya sea en metros o en
centímetros. Por ejemplo, que el rosal esta a una distancia de 3 metros del tulipán
o que la gardenia esta a 95 centímetros de la noche buena. Pero, ¿cómo medir la
anchura del eje horizontal de un polígono de frecuencias?. Del mismo modo en
que se midieron las plantas del jardín en metros o en centímetros, se puede medir
también el eje horizontal de un polígono de frecuencias en unidades de desviación
estándar. Desde este punto de vista, la desviación estándar se constituye en una
especie de "vara de medir", que nos permite comparar datos de dos o más
conjuntos.

3.3 MEDIDAS DE LOCALIZACIÒN O POSICIÓN

Las medidas de posición se usan para describir la posición que tiene el


valor de un dato específico en relación con el resto de los datos. Dos de las
medidas de posición más conocidas son los cuartiles y los percentiles.

3.3.1 CUARTILES.

Los Cuartiles son los valores de la variable que dividen en cuartos a los datos
ordenados; cada conjunto de datos posee tres cuartiles. El primer cuartil, Q1 , es

un número tal que cuando mucho el 25% de los datos es menor en valor que Q1 y

cuando mucho el 75% de los datos es mayor que Q1 . El segundo cuartil es la


mediana. El tercer cuartil, Q3 , es un número tal que cuando mucho el 75% de los

datos es menor en valor que Q3 y cuando mucho el 25% de los datos es mayor

que Q3 .

53
El procedimiento para determinar el valor de los cuartiles es el mismo que
para los percentiles y se muestra a continuación.

3.3.2. PERCENTILES.

Los Percentiles, son los valores de la variable que dividen a un conjunto de datos
en 100 subconjuntos iguales; cada conjunto de datos tiene 99 percentiles. El k-
ésimo percentil, Pk , es un valor tal que cuando mucho k% de los datos son más

pequeños en valor que Pk y cuando mucho (100 − k )% de los datos es mayor .

NOTAS:
1. El primer cuartil y 25avo percentil son iguales; es decir Q1 = P25 . También,

Q3 = P75 .
2. La mediana, el segundo cuartil, y el 50avo percentil son iguales,
Me = Q2 = P50 . Así cuando se pida encontrar P50 o Q2 , aplique el

procedimiento para encontrar la mediana.

El procedimiento para determinar el valor de cualquier k-ésimo percentil (o


cuartil) implica cuatro pasos básicos según se indica en la Figura 3.3. Este
procedimiento se muestra en el ejemplo 3.9.

54
Figura 3.3. Procedimiento para encontrar Pk

Ejemplo 3.10. Con la muestra de 50 calificaciones del examen final del curso de
Estadística I que se observa en la Tabla 3.4, determinar el primer cuartil, Q1 , el
58avo percentil P58 y el tercer cuartil, Q3 .

Tabla 3.3. Calificaciones del examen de estadística


60 82 88 67 68
90 86 64 74 88
77 90 68 70 70
58 89 55 82 72
72 50 92 91 76
47 95 72 66 98
77 58 95 72 74
39 63 97 64 70
78 44 85 83 77
86 94 80 75 78

55
Solución:
Paso 1 Ordenar los datos: puede establecerse un listado ordenado (consultar
Tabla 3.5) o puede utilizarse una representación gráfica que muestre los
datos ordenado.
Se encuentra Q1 :
Paso 2 nk nk (50 )(25)
Encontrar : = = 12.5 ( n = 50 y k = 25 , ya que Q1 = P25 ).
100 100 100
Paso 3 Encontrar la profundidad de Q1 : d(Q1 ) = 13 (debido a que 12.5 contiene

una fracción, B está más próximo al siguiente entero más grande, 13)
Paso 4 Encontrar Q1 : Q1 es el 13avo valor contando a partir del mínimo

(consulte la tabla 1.4). Q1 = 67

Encontrar P58 :
Paso 2 nk nk (50)(58)
Encontrar : = = 29 ( n = 50 y k = 58 , ya que P58 ).
100 100 100

Paso 3 Encontrar la profundidad de P58 : d(P58 ) = 29.5 [Como A = 29 (un


entero), se suma 0.5 y se usa 29.5]
Paso 4 Encontrar: P58 : P58 es el valor que está a la mitad entre los datos 29avo

y 30avo, contando a partir del mínimo (consulte la Tabla 1.4).


77 + 78
P58 = = 77.5
2

Técnica opcional: Cuando k es mayor que 50, se resta k de 100 y se usa


(100 − k ) en lugar de k en el paso 2. Luego la profundidad se cuenta a partir del
valor más alto, máximo.

Q3 se encuentra aplicando la siguiente técnica opcional:

56
Paso 2 nk nk (50)(25)
Encontrar : = = 12.5 ( n = 50 y k = 75 , ya que Q3 = P75 y
100 100 100
k > 50 ; usar 100 − k = 100 − 75 = 25 )
Paso 3 Encontrar la profundidad de Q3 a partir del máximo : d(Q3 ) = 13
Paso 4 Encontrar: Q3 : Q3 es el 13avo valor contando a partir del máximo (

(consulte la tabla 3.5). Q3 = 86

Tabla 3.5. Datos ordenados: Calificaciones del


examen de estadística.
39 64 72 78 89
13ava posición
44 66 72 80 90
a partir del Mín.
47 67 74 82 90
29ava y 30ava
50 68 74 82 91
posiciones a
55 68 75 83 92 partir del Mín.
58 70 76 85 94
58 70 77 86 95
60 70 77 86 95
63 72 77 88 97 13ava posición
a partir del Mín.
64 72 78 88 98

Ahora es posible definir una medida de tendencia central adicional; cuartil


medio.
Cuartil Medio, es el valor numérico que está a la mitad del primer cuartil y tercer
cuartil.
Q1 + Q3
cuartil medio = (3.10)
2
Ejemplo 3.11: Encontrar el cuartil medio para el conjunto de datos de 50
calificaciones del examen que se proporcionaron en el ejemplo 3.9.

Solución:
Q1 = 67 y Q3 = 86 , como se encontró en el ejemplo 1.9. Así

57
Q1 + Q3 67 + 86
cuartil medio = = = 76.5
2 2

3.4 COEFICIENTE DE ASIMETRIA Y CURTOSIS

En este apartado se estudian dos medidas que proporcionan información


útil con respecto a la forma de la distribución de un conjunto de datos.

3.4.1 Coeficiente de asimetría

El coeficiente de asimetría (ax) se utiliza para conocer si la distribución de


un conjunto de datos es asimétrica o no. Este se calcula utilizando la expresión

1 n
∑ (x − x )3
n i =1 i
ax =
Sx 3

Donde

n
∑ ( xi − x ) 2
Sx = i =1

n −1

Para las distribuciones que presentan un solo pico, si a x < 0, se dice que la

distribución es asimétrica negativa; si a x > 0, la distribución es asimétrica positiva;

y si a x =0, la distribución recibe el nombre de simétrica, los tres tipos de


distribución se ilustran en la Figura 3.4.

58
a) Asimétrica negativa b) Simétrica c)Asimétrica positiva.

Figura 3.4 Simetría y asimetría de un conjunto de datos a) Asimétrica negativa, b)


Simétrica c)Asimétrica positiva.

3.4.2 CURTOSIS

La curtosis es una medida que indica qué tan puntiaguda es la distribución


de un conjunto de datos. Esta se calcula utilizando la expresión

1 n
∑ ( x − x )4
n i =1 i
a *x =
Sx 4

Para las distribuciones que presentan un solo pico, si a *x > 3, la distribución

de los datos presenta un solo pico relativamente alto y recibe el nombre de


leptocúrtica; si a *x < 3, la distribución es relativamente plana y recibe el nombre de

platicúrtica; y si a *x = 3 la distribución presenta un pico ni muy alto ni muy bajo y

recibe el nombre de mesocúrtica. Los tres tipos de distribuciones se ilustra en la


Figura 3.5

59
Figura 3.5 Diferentes tipos de distribución de un conjunto de datos. a) Leptocúrtica
b) Platicúrtica, c) Mesocúrtica.

60
AUTOEVALUACIÓN

1. Se pidió a 15 estudiantes seleccionados aleatoriamente de una Universidad,


que dijeran el número de horas que habían dormido la noche anterior. Los datos
resultantes fueron 5, 6, 6, 8, 7, 7, 9, 5, 4, 8, 11, 6, 7, 8, 7.
a. Obtenga fue el número promedio de horas que durmieron dichos
estudiantes
b. Obtenga la mediana
c. ¿Cuántas horas durmió un estudiante si el 25% de ellos durmió más
tiempo?
d. ¿Cuántas horas durmió un estudiante si el 25% de ellos durmió menos
tiempo?
e. ¿Cuál es la amplitud?
f. ¿Cuál es la desviación estándar?
g. ¿Diga si los datos presentan simetría, asimetría negativa ó asimetría
positiva?
h. Mencione el tipo de curtosis que presentan los datos.

2. Se pidió a los reclutas de una academia de policía se sometieran a una prueba


que mide la capacidad para el ejercicio. Se midió esta capacidad de cada recluta
(en minutos), obteniéndose los siguientes resultados
25 27 30 33 30 32 30 34 30 27
26 25 29 31 31 32 34 32 33 30
Conteste los incisos del ejercicio 1 con el enunciado de este problema.

3. Los siguientes datos son rendimientos de una hortaliza en libras:


3.9 3.4 5.1 2.7 4.4 7.0 5.6 2.6 4.8 5.6
7.0 4.8 5.0 6.8 4.8 3.7 5.8 3.6 4.0 5.6
Conteste los incisos del ejercicio 1 con el enunciado de este problema.

61
GLOSARIO DE TÉRMINOS

AMPLITUD O RANGO: La diferencia entre el valor máximo y mínimo de los


valores de una variable. En la amplitud de una variable se encuentran
comprendidos el 100% de los valores muestrales

ANOVA: Análisis de la varianza. Es una técnica estadística que sirve para


decidir/determinar si las diferencias que existen entre las medias de tres o más
grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas
de ANOVA se basan en la partición de la varianza para establecer si la varianza
explicada por los grupos formados es suficientemente mayor que la varianza
residual o no explicada

ÁREA BAJO LA CURVA entre dos puntos: Si la curva viene dada por una
función de densidad teórica, representa la probabilidad de que la variable aleatoria
tome un valor dentro del intervalo determinado por esos dos puntos

COEFICIENTE DE CORRELACIÓN: Estadístico que cuantifica la correlación. Sus


valores están comprendidos entre -1 y 1

COEFICIENTE DE DETERMINACIÓN: Es el cuadrado del coeficiente de


correlación. Expresado en tanto por ciento mide el grado de información
compartida entre dos variables continuas

COEFICIENTES DE REGRESIÓN: En un modelo de regresión lineal son los


valores de a y b que determinan la expresión de la recta de regresión y = β 0 + xβ1

COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa. No tiene


unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral.
Se suele expresar en tanto por ciento

62
CONTRASTE DE HIPÓTESIS: Es el proceso estadístico que se sigue para la
toma de decisiones a partir de la información de la muestra. Comparando el valor
del estadístico experimental con le valor teórico rechazamos o no la hipótesis nula
CORRELACIÓN: Expresa la concordancia entre dos variables según el sentido de
la relación de estas en términos de aumento ó disminución

CUARTILES: Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los
valores muestrales , una vez ordenados, en cuatro partes homogéneas en cuanto
a número de observaciones. Así Q1 determina el valor que hace que haya un 25%
de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la
mediana

DESVIACIÓN ESTANDAR: Característica de una muestra o población que


cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la variable.
la desviación típica es invariante con respecto al origen de la distribución. Su
cuadrado es la varianza

DIAGRAMA DE PUNTOS: ES un gráfico bidimensional o tridimensional que


muestra la variación de los valores muestrales de dos o tres variables.

DIAGRAMAS DE BARRAS: Representación gráfica para las variables discretas

DIFERENCIAS ESTADISTICAMENTE SIGNIFICATIVAS: Las diferencias entre lo


observado y lo supuesto en la hipótesis nula no puede ser explicado por el azar

DISTRIBUCIÓN T STUDENT: Distribución teórica de probabilidad. Se usa para la


comparación de dos medias en poblaciones independientes y normales

ESCALA: La distribución de datos puede recogerse en distintas escalas: nominal,


dicotómica, discreta o continua

63
ESTADÍSTICOS: Son funciones de la muestra. Su valor variará según la muestra,
pero nos permite hacer estimaciones de parámetro poblacionales o construir
estadísticos experimentales para tomar decisiones acerca de la

ESTIMACIÓN: Técnicas estadísticas que a partir de la información de la


estadística descriptiva pretenden conocer cómo es la población en global. Existen
técnicas de estimación puntuales y por intervalos de confianza

ESTIMADO: Valor experimental que se toma como candidato al valor poblacional


desconocido

ESTIMADOR: Función de la muestra que sirve para dar valores candidatos a los
valores desconocidos poblacionales.

FRECUENCIAS: ABSOLUTAS, RELATIVAS: Las frecuencias absolutas


representan el recuento de los valores de una variable discreta de forma que su
suma nos da el tamaño muestral .Las relativas son las absolutas divididas por el
tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen
en tanto por uno o en tanto por ciento

GRADOS DE LIBERTAD: El número de datos que se pueden variar para que a un


total fijo podamos reconstruir dicho total. así la media tiene n-1 grado de libertad,
pues si conocemos el valor de esta podemos variar n-1 datos ya que restante
vendrá fijado. En una tabla 4x3 , si nos dan las frecuencias marginales podremos
variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando forzosamente
determinadas las frecuencias de las celdas restantes. Así, los grados de libertad
serían en este caso de 6

HIPÓTESIS: Cualquier teoría que formule posibles líneas de trabajo experimental.


Ver hipótesis nula y alternativa

64
HIPOTESIS ALTERNATIVA: Aquella que queremos probar. Representa la
hipótesis renovadora

HIPOTESIS NULA: Aquella que queremos rechazar. Representa a la situación


actual

HISTOGRAMAS: Es un gráfico en forma de barras de una variable continua que


se ha discretizado en intervalos, de forma que la altura de las barras en cada
intervalo indica la frecuencia relativa en éste.

INTERVALOS DE CONFIANZA: Intervalos de confianza. Intervalos fiduciales.


Incluyen una cota mínima y máxima del verdadero parámetro poblacional con un
determinado nivel de confianza

MEDIANA: Corresponde al percentil 50%. Es decir, la mediana hace que haya un


50% de valores muestrales inferiores a ella y un 50% de valores muestrales
superiores a ella.

MEDIA: Es una medida de centralización para una variable continua. Se obtiene


sumado todos los valores muestrales y dividiendo por el tamaño muestral

MÍNIMO: Es un valor muestral de forma que por debajo de este no hay valores
muestrales

MODA: Es el valor que más se repite en una variable nominal

MODELO: Intento matemático / estadístico para explicar una variable respuesta


por medio de una o más variables explicativas o factores

MUESTRAS: Subgrupos de observaciones de la población de estudio.

65
NIVEL DE CONFIANZA: Se define como 1 menos el nivel de significación. Se
suele expresar en tanto por ciento

NIVEL DE SIGNIFICACIÓN: La probabilidad de rechazar una hipótesis nula


verdadera; es decir, la probabilidad de cometer un error de tipo I

OBSERVACION: Sinónimo de caso registro e individuo

P (p- value): El nivel de significación observado en le test. Cuanto más pequeño


sea, mayor será la evidencia para rechazar la hipótesis nula

PARÁMETROS: Son valores desconocidos de características de una distribución


teórica. El objetivo de la estadística es estimarlos bien dando un valor concreto,
bien dado un intervalo confidencial

PERCENTILES: Un percentil 90% corresponde a un valor que divide a la muestra


en dos, de forma que hay un 90% de valores muestrales inferiores a éste, y un
10% de valores muestrales superiores a éste. Los percentiles 25%, 50%, 75% son
el primer, segundo y tercer cuartil respectivamente

PROBABILIDAD: Asignación de un número entre cero y uno a cada resultado


experimental.

PROPORCION: Número de individuos que verifican una condición entre el total


del tamaño muestral. Se puede expresar en tanto por uno o en tanto por cien

RANGO: Diferencia entre el valor máximo y mínimo de un muestra o población.


Solo es válido en variables continuas. Es una mala traducción de ingles "range".
Amplitud

66
RECTA DE REGRESIÓN: Es el modelo que sirve para explicar una variable
respuesta continua en términos de un único factor o variable explicativa

REGRESION: Técnica estadística que relaciona una variable dependiente (y) con
la información suministrada por otra variable independiente (x).ambas variables
deben ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal
simple. Entre las restricciones de la RLS se incluyen:
Los residuos deben ser normales
Las observaciones independientes
La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión

RESIDUOS: Residuales. Distribución de valores muestrales calculados como la


diferencia entre el valor de la variables respuesta (y) y el estimado del modelo de
regresión. La distribución de residuos es importante como indicador del
cumplimiento de las condiciones de aplicación de las técnicas de correlación, así
como de la bondad del ajuste.

SIMETRIA: Es una medida que refleja si los valores muestrales se extienden o no


de igual forma a ambos lados de la media.

TABLA DEL ANOVA: Es una forma de presentar la variabilidad observada en una


variable respuesta en términos aditivos según las distintas fuentes de variación:
modelo y residual

TAMAÑO MUESTRAL: Número de individuos u observaciones que componen la


muestra

VARIABLE: Objeto matemático que puede tomar diferentes valores.


Generalmente asociado a propiedades o características de las unidades de la
muestra. Lo contrario de variable es constante.

67
VARIABLE INDEPENDIENTES O EXPLICATIVAS: Variables que no sirven para
construir un modelo que explique el comportamiento de una o más variables
respuesta

VARIABLE RESPUESTA O DEPENDIENTE: Variable objeto del estudio y que


sus resultados se pretenden explicar por medio de las variables llamadas
explicativas o independientes

VARIABLES: Describen características en las observaciones realizadas

VARIANZA: Característica de una muestra o población que cuantifica su


dispersión o variabilidad. La varianza tiene unidades al cuadrado de la variable. Su
raíz cuadrada positiva es la desviación típica. La varianza muestral es un
estimador sesgado de la varianza poblacional

68
BIBLIOGRAFÍA

1. Infante Said (1986). Métodos Estadísticos. Trillas. México.

2. Walpole-Myers. (1994). Probabilidad y Estadística. McGraw-Hill. México.

3. Miller-Freud-Jonhson (1992). Probabilidad y Estadística para Ingenieros.


Prentice Hall. México.

4. Mendenhall William. (1990). Estadística para Administradores. Gpo. Editorial


Iberoamérica México.

5. Mendenhall William. (1993). Estadística Matemática con aplicaciones. Gpo.


Editorial Iberoamérica México.

6. Levin R. (1989). Estadística para Administradores. Prentice Hall. México.

7. Canavos C. George. (1994). Probabilidad y Estadística, Aplicaciones y


Métodos. McGraw Hill México.

8. Méndez I., Namihira D., Moreno L., sosa c. (1993). El Protocolo de


Investigación. Trillas. México.

9. Montgomory C., Runer C. (1996). Probabilidad y Estadística Aplicadas a la


Ingeniería. McGraw Hill. México.

10. Ojeda M. M. (1992). Notas de un curso de Estadística Exploratoria. Inéditas.

11. Ojeda M. M. y Martínez M. (1987). Técnicas Exploratorias; una herramienta


para el análisis de datos; en las memorias del Primer Foro Nacional de

69
Control de Calidad e Informática (Ojeda y Behar, Editors). Universidad
Veracruzana.

70

También podría gustarte