Está en la página 1de 32

ETAPAS DE UNA INVESTIGACIÓN CUANTITATIVA

Antes de iniciarnos en el área de la estadística, recordemos las etapas de una investigación


cuantitativa:

1) La idea de la investigación
2) Planteamiento del problema
3) Revisión de la literatura y desarrollo del marco teórico 4) Visualización del alcance de estudio:
a) Exploratoria
b) Descriptiva
c) Correlacional
d) Explicativa
5) Elaboración de hipótesis y definición de variables Tipos de hipótesis:
a) Hipótesis de investigación
i) Descriptivas de un valor o dato pronosticado
ii) Correlacionales iii) De diferencia de grupos
iv) Causales
b) Hipótesis nulas
c) Hipótesis alternativas
d) Hipótesis estadísticas
6) Desarrollo del diseño de investigación
Experimentales
No experimentales
7) Definición y selección de la muestra
Probabilística
No probabilística
8) Recolección de datos Instrumentos de medición
9) Análisis de los datos
Descriptiva
 Distribución de frecuencias
 Medidas de tendencia central
 Medidas de variabilidad
 Gráficas
 Puntuaciones Z
Inferencial
 Análisis paramétrico
• Coeficientes de correlación
• Regresión lineal
• Prueba t
• Prueba de la diferencia de proporciones
• Análisis de varianza
• Análisis de covarianza  Análisis no paramétrico
• Ji cuadrada
• Coeficientes de Spearman y Kendall
• Coeficientes para tabulaciones cruzadas
 Análisis multivariados
10) Elaboración del reporte de resultados

1
CONCEPTOS GENERALES SOBRE ESTADÍSTICA

Idea popular sobre estadística. La idea más común sobre lo que significa estadística es aquella que
asocia a esta disciplina con el recuento de grandes cantidades de información numérica que
tradicionalmente realiza el Estado con diversas finalidades como conocer número de habitantes,
volúmenes de cosechas, número de adultos mayores de 18 años, etc.; esta idea es solamente un
aspecto de la estadística, pero no es el único, ni el más importante.

La Estadística y el manejo de datos. Aunque la estadística efectivamente maneja relaciones de


datos, se comentó que esto solamente es una parte de ella, la organización y el manejo de los datos,
como su presentación grafica y el cálculo de valores representativos del conjunto de datos es
solamente una parte de la estadística que tiene por objeto que los aspectos sobresalientes del
conjunto de datos fueran rápida y fácilmente representados e interpretados, pero esta parte de la
materia en términos modernos describe a la Estadística Descriptiva, su estudio es de gran utilidad,
pero sin duda, no es el único aspecto que abarca la estadística.

Así definimos estadística descriptiva como el conjunto de técnicas para la organización,


presentación gráfica y cálculo de cantidades “representativas” de un grupo de datos.

Estadística e Incertidumbre. Las técnicas que utiliza la estadística descriptiva muchas veces está
limitada porque no se cuenta con la información total sobre una población determinada, sino
únicamente con una parte de ella, esto se debe a que el crecimiento de una población o de áreas de
cultivo puede ser tan rápido que no dé tiempo a que un censo abarque todos los resultados
actualizados; es por ello que la información de la que disponemos es de una parte del todo y
generalmente queremos extrapolar nuestros resultados a un conjunto mayor de elementos.

Por lo que cuando estudiamos una porción de la población y los resultados los extrapolamos a una
población mayor, cualquier conclusión a la que lleguemos contiene elementos de incertidumbre. Esta
incertidumbre está implícita en cualquier proceso en donde se extienden conclusiones a un conjunto
mayor de elementos que aquel conjunto sobre el que se obtiene información. Este tipo de
razonamiento es el razonamiento inductivo, es aquel que va de lo particular a lo general, contrario al
método deductivo que va de lo general a lo particular.

Pero la incertidumbre no únicamente la genera el razonamiento inductivo o el hecho de no tener la


información completa, sino también la variabilidad de los resultados, ya que en muchas ocasiones un
mismo experimento arroja resultados diferentes cuando se realiza en varias ocasiones, por ejemplo:
Si medimos repetidas veces los índices de glucosa en una persona es posible que obtengamos
resultados distintos.

Esta variabilidad también introduce elementos de incertidumbre pero ¿Qué relación hay entre la
estadística y la incertidumbre?

La estadística cuantifica la incertidumbre que es inseparable de las conclusiones obtenidas, esto se


logra utilizando los conceptos y técnicas de la probabilidad y es así como definimos esta otra parte de
la estadística de naturaleza inductiva que unida a la probabilidad conocemos como:

“Estadística Inductiva” o “Inferencia Estadística” y la definimos como el conjunto de técnicas que nos
permiten hacer inducciones en las que el grado de incertidumbre es cuantificable.

La estadística y el método científico. Se ha notado el papel de la estadística en la presentación y


organización de datos y en el proceso inductivo pero cabe aclarar que cualquier caracterización que

2
se haga de un conjunto de datos, también involucra un razonamiento de tipo deductivo, que va de lo
general a lo particular, aunque la generalización de las conclusiones se haga vía inducción, es
importante hacer notar que ambos tipos de razonamiento lógico aparecen mezclados en la
metodología estadística. Esto se puede apreciar cuando relacionamos a la estadística con el método
científico, pero ¿Cuáles son las características de este?

Primeramente definimos ciencia como un cuerpo de doctrina sistematizado que constituye un ramo
particular del saber humano.

En consecuencia el método científico es el procedimiento por el cual se adquieren conocimientos


para aumentar el cuerpo de doctrina de una ciencia.

La definición anterior es válida, pero es importante caracterizar el método de manera más precisa.

Podemos decir que para hacer ciencia se requieren de dos cosas: Una gran paciencia para observar
hechos y una gran audacia para formular hipótesis.

Lo anterior nos permite señalar que dos aspectos fundamentales del método científico son la
formulación de las hipótesis que expliquen hechos del mundo que nos rodea y la toma de
observaciones que apoyen o invaliden dichas hipótesis.

Hay un tercer aspecto del método científico que involucra a los dos anteriores y es la confrontación de
las observaciones con las consecuencias deducibles de las hipótesis planteadas.

En general el proceso no termina con la aceptación (provisional) o el rechazo de la (s) hipótesis, sino
que la confrontación nos conduce a hipótesis modificadas, de las cuales deducimos consecuencias
que deberán verificarse con nuevas observaciones.

Las características del método científico y su relación con la estadística son las siguientes:

a) Formulación de Hipótesis: Esta parte del trabajo científico requiere de habilidad para generarla, en
algunas ocasiones la organización de los datos sugiere hipótesis adecuadas pero no
necesariamente es así, por lo que en ocasiones hay que generar hipótesis preliminares para
obtener datos que sean relevantes al problema.
b) Obtención de datos: Para ello se requiere cumplir con los siguientes objetivos:
i) Que la información obtenida sea relevante al problema.
ii) Que las conclusiones que se extraigan tengan cierto grado de confiabilidad.

Por lo que es importante considerar que cantidad de información se requiere, la forma en que se
recabará y las técnicas para obtenerla, para que de esta manera se pueda cumplir con los objetivos
planteados. Las ramas de la estadística que se ocupan de estos aspectos son las técnicas de
muestreo y el diseño de experimentos.

c) Confrontación de la información obtenida con las consecuencias de las hipótesis postuladas:


Después de obtener los datos se procede el análisis de los mismos. Para este análisis primeramente
se organizan los datos, se grafican y se describen resaltando sus aspectos más característicos, todo
esto conforma parte de la estadística descriptiva y posteriormente la segunda parte del análisis que
es la más importante, se apoya en la primera y tiene por objeto generalizar los aspectos
característicos de la información y examinar su compatibilidad con las hipótesis sustentadas; pero
como la información es incompleta o refleja la variabilidad del fenómeno observado, el generalizar los
resultados conlleva un grado de incertidumbre que se cuantifica mediante los principios de
probabilidad.

3
Con base en las observaciones anteriores podemos definir al método científico como el proceso
mediante el cual se obtienen conocimientos para incrementar el acerbo de una disciplina científica.
Los aspectos más importantes del método son: La formulación de las hipótesis, la obtención de los
datos pertinentes al problema y la confrontación de los datos con las consecuencias de nuestras
hipótesis y son precisamente las técnicas estadísticas de fundamental importancia para el desarrollo
de los tres aspectos del método científico.

Una definición de estadística. Sin que se pretenda ser totalizador, con esta definición, sino que para
fines operativos para los estudiantes definimos estadística como el conjunto de técnicas para la
colección, manejo, descripción y análisis de información, de manera que las conclusiones obtenidas
de ellas tengan un grado de confiabilidad especificado.

Podemos decir, que la estadística se clasifica en estadística descriptiva y estadística inferencial.

Definición de Bioestadística: Cuando los datos que se analizan proceden de ciencias biológicas o
médicas se utiliza el término bioestadística.

VARIABLES Y MEDIDAS

Variable: Una característica se clasifica como variable si, tal como se observa, se encuentra que ésta
toma diferentes valores en diferentes personas, lugares o cosas.

Algunos ejemplos de variables son: Presión sanguínea diastólica, frecuencia cardiaca, estaturas de
varones adultos, peso de niños en edad preescolar, y la edad de los pacientes que consultan a un
dentista.

Variable cuantitativa: Es aquella que puede medirse numéricamente.

Ejemplos de variables cuantitativas son: La estatura de los varones adultos, el peso de los niños en
edad preescolar, la edad de los pacientes que consultan a un dentista, etc.

Variable cualitativa: Es aquella en la que la medición consiste en una clasificación. Expresan


características o cualidades y no pueden ser medidas numéricamente. Las mediciones hechas sobre
este tipo de variables contienen información respecto a los atributos.

Ejemplos de variables cualitativas son:


Cuando a una persona enferma se le da un diagnóstico médico, o cuando se determina que alguien
pertenece a un grupo étnico dado, o bien, cuando se dice que una persona, lugar o cosa poseen o no
alguna característica de interés.

Dato: Es un valor particular de la variable.

Algunos ejemplos son: una medición de 110 en presión sanguínea diastólica, una medición de 80 en
frecuencia cardiaca, una medición de 1.70 en estaturas de varones adultos, una medición de 18 en el
peso de los niños en edad preescolar, una respuesta de infección viral en diagnóstico médico, una
respuesta de femenino en género, etc.

Elemento: es un objeto en el cual se toman las mediciones.

4
Población: Es el conjunto de todos los elementos sobre los cuales se observa una o más
características de interés. Puede estar compuesta de animales, máquinas, plantas, células, etc.

Si una población de valores consiste en un número fijo de esos valores, se dice que la población es
finita.

Si una población consiste en una sucesión interminable de valores, entonces es una población
infinita.

Muestra: Es un subconjunto o una parte de la población.

Medición: Se define como la asignación de números a objetos o eventos de acuerdo con un conjunto
de reglas.

ESCALAS DE MEDICIÓN

Escala nominal: Es la escala de medición más baja. Como su nombre lo indica, consiste en designar
o "nombrar" las observaciones o clasificarlas en varias categorías. Su uso no brinda información con
respecto a la cantidad.

Ejemplos:
La práctica de utilizar números para distinguir entre diversos diagnósticos médicos constituye una
medición sobre una escala nominal. Otros ejemplos incluyen dicotomías como masculino-femenino,
sano-enfermo, menor de 65 años de edad-mayor de 65 años de edad en adelante, niño-adulto y
casado-soltero.

Escala ordinal: Es aquella en la que los datos no solo difieren de categoría a categoría sino que
además pueden clasificarse por rangos de acuerdo a algún criterio. Las clasificaciones producidas
por esta escala incorporan los atributos muy importantes de “mayor que” o “menor que”.

Ejemplos:
Los pacientes convalecientes pueden clasificarse como sin mejoría, mejorados y bastante mejorados.
Las personas pueden clasificarse de acuerdo con su estado socioeconómico como de clase baja, de
clase media o clase alta.
La inteligencia de los niños puede estar por encima del promedio, promedio o por debajo del
promedio.
Suponga que en el transcurso de un estudio sobre el manejo del dolor, se solicita a los pacientes que
clasifiquen su percepción del dolor como “ninguno”, “leve”, “moderado” o “severo”. Este esquema
clasifica a los pacientes en una de las cuatro categorías que están ordenadas en términos de
intensidad de dolor. Se ve fácilmente que la categoría “severo” representa una percepción mayor de
dolor que la categoría “moderada” y así sucesivamente.

Escala de intervalo: Es una escala ordinal, en donde no solo es posible ordenar las mediciones, sino
que también se conoce la distancia entre dos mediciones cualesquiera. El punto cero seleccionado no
es necesariamente un cero verdadero en el sentido de que no indica una ausencia total de la cantidad
que se está midiendo.

Ejemplo:
La forma en que generalmente se mide la temperatura (grados Fahrenheit o Celsius). La unidad de
medición es el grado, y el punto de comparación es el que se selecciona arbitrariamente como "cero
grados", el cual no implica una ausencia de calor, sino que fue otro punto en la escala.

5
Escala de razón: Es el nivel más alto de medición. Para esta escala es fundamental un punto cero
verdadero, entonces el resultado de multiplicar o dividir un valor de la escala por otro tiene un sentido
físico. El cero indica ausencia.

Ejemplos:
Altura, peso, longitud.

MUESTREO

¿En una investigación siempre tenemos una muestra?


No siempre, pero en la mayoría de las situaciones sí realizamos el estudio en una muestra. Solo
cuando queremos realizar un censo debemos incluir en el estudio a todos los casos (personas,
animales, plantas, objetos) del universo o la población.

¿Sobre qué o quienes se recolectarán los datos?


Aquí el interés se centra en “que o quiénes”, es decir, en los participantes, objetos, sucesos o
comunidades de estudio (las unidades de análisis), lo cual depende del planteamiento de la
investigación y de los alcances del estudio.

Por tanto, para seleccionar una muestra, lo primero que hay que hacer es definir la unidad de
análisis (individuos, organizaciones, periódicos, comunidades, situaciones, eventos, etc.). Una vez
definida la unidad de análisis se delimita la población.

Para el proceso cuantitativo la muestra es un subgrupo de la población de interés sobre el cual se


recolectaran datos, y que tiene que definirse o delimitarse de antemano con precisión, este deberá
ser representativo de dicha población. El investigador pretende que los resultados encontrados en la
muestra logren generalizarse o extrapolarse a la población.

¿Cómo se delimita una población?


Una vez que se ha definido cual será la unidad de análisis, se procede a delimitar la población que va
a ser estudiada y sobre la cual se pretende generalizar los resultados. Así, una población es el
conjunto de todos los casos que concuerdan con una serie de especificaciones.

¿Cómo seleccionar la muestra?


En este inciso hablaremos de la muestra, o mejor dicho de los tipos de muestra, con la finalidad de
poder elegir la más conveniente para un estudio.

La muestra es, en esencia, un subgrupo de la población. Digamos que es un subconjunto de


elementos que pertenecen a ese conjunto definido en sus características al que llamamos población.

6
TIPOS DE MUESTRA
Básicamente categorizamos las muestras en dos grandes ramas: las muestras no probabilísticas y
las muestras probabilísticas.

En las muestras probabilísticas todos los elementos de la población tienen la misma posibilidad de
ser escogidos y se obtienen definiendo las características de la población y el tamaño de la muestra,
y por medio de una selección aleatoria o mecánica de las unidades de análisis.

En las muestras no probabilísticas, la elección de los elementos no depende de la probabilidad,


sino de causas relacionadas con las características de la investigación o de quien hace la muestra.
Aquí el procedimiento no es mecánico ni con base en formulas de probabilidad, sino que depende del
proceso de toma de decisiones de un investigador o de un grupo de investigadores y, desde luego,
las muestras seleccionadas obedecen a otros criterios de investigación.

¿Cómo se selecciona una muestra probabilística?


La elección entre la muestra probabilística y la no probabilística se determina con base en el
planteamiento del problema, las hipótesis, el diseño de investigación y el alcance de sus
contribuciones. Las muestras probabilísticas tienen muchas ventajas, quizá la principal sea que
puede medirse el tamaño del error en nuestras predicciones. Se dice incluso que el principal objetivo
en el diseño de una muestra probabilística es reducir al mínimo este error, al que se le llama error
estándar.

Para hacer una muestra probabilística son necesarios dos procedimientos:


1) Calcular un tamaño de muestra que sea representativo de la población
2) Seleccionar los elementos muestrales (casos) de manera que al inicio todos tengan la misma
posibilidad de ser elegidos.

Cálculo del tamaño de la muestra


Cuando se hace una muestra probabilística, uno debe preguntarse: dado que una población es de N
tamaño, ¿cuál es el menor número de unidades muestrales (personas, organizaciones, capítulos de
telenovelas, etc.) que necesito para conformar una muestra n que me asegure un determinado nivel
de error estándar, digamos menor de 0.01?
La respuesta a esta pregunta busca encontrar una muestra que sea representativa del universo o
población con cierta posibilidad de error (se pretende minimizar) y nivel de confianza (maximizar), así
como probabilidad.

Muestreo Aleatorio Simple


Si se extrae una muestra de tamaño n de una población de tamaño N , de manera que cada muestra
posible de tamaño n tenga la misma probabilidad de ser seleccionada, la muestra se llama muestra
aleatoria simple.

7
Muestreo Aleatorio Estratificado
Una muestra aleatoria estratificada es la obtenida mediante la separación de los elementos de la
población en grupos que no presenten traslapes, llamados estratos, y la selección posterior de una
muestra irrestricta aleatoria simple de cada estrato.

Ejemplos:
El muestreo de pacientes hospitalizados, sujetos a cierta dieta para evaluar ganancia en peso, puede
ser más eficiente si son estratificados por sexo, ya que el varón tiende a pesar más que la mujer. Si
los gerentes de una planta manufacturera requieren estimaciones de la proporción de productos
defectuosos, se puede realizar un plan de muestreo para control de calidad estratificado por líneas de
producción.

¿Cómo seleccionamos una muestra aleatoria estratificada?


1) El primer paso es especificar claramente los estratos.
2) Después de que las unidades de muestreo han sido divididas en estratos, seleccionamos una
muestra aleatoria simple de cada estrato.

Muestreo Sistemático
Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k elementos en el
marco y después cada k -ésimo elemento, se denomina muestra sistemática de 1 en k .

¿Cómo seleccionamos una muestra sistemática?


Si el tamaño de la población N es conocido, podemos determinar un tamaño de muestra n
aproximado, y luego seleccionamos k  N /n para obtener el tamaño de muestra. El valor de k debe
ser menor o igual que N /n.

Muestreo por conglomerados


Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una
colección o conglomerado de elementos.

Ejemplo:
Supóngase que se desea estimar el ingreso promedio por hogar de una gran ciudad. Para ello,
podríamos dividir la ciudad en regiones tales como manzanas (o conglomerados de elementos) y
seleccionar una muestra aleatoria simple de ellas. Entonces se podría medir el ingreso de cada
familia dentro de cada manzana muestreada.

Muestreo por cuotas


Este tipo de muestreo no es probabilístico. La muestra por cuotas se utiliza mucho en estudios de
opinión y mercadotecnia. Por ejemplo, los encuestadores reciben instrucciones de aplicar
cuestionarios o realizar entrevistas abiertas a individuos en un lugar público (un centro comercial, una
plaza o una colonia). Al hacerlo, van llenando cuotas de acuerdo con la proporción de ciertas
variables demográficas. Así, en un estudio sobre la actitud de la ciudadanía hacia un candidato
político, se dice a los encuestadores “que vayan a determinada colonia y entrevisten a 150 personas
adultas, en edad de votar. Que 25% sean hombres mayores de 30 años, 25% mujeres mayores de 30
años, 25% hombres menores de 25 años y 25% mujeres menores de 25 años”. Estas muestras
suelen ser comunes en encuestas e indagaciones cualitativas.

Las cuotas más habituales en la investigación social vienen definidas por el sexo, la edad, la
educación, la etnia, la religión y el nivel socioeconómico, pues la mayoría de los marcos o bases
muestrales recogen estas variables.

8
Muestreo selectivo o intencional
Este tipo de muestreo no es probabilístico. Consiste en escoger aquellas unidades que pueden
proporcionar información esencial.

¿Cómo se lleva a cabo el procedimiento de selección de la muestra?


Ya hemos hablado sobre la muestra probabilística, y señalamos que los tipos de muestra dependen
de dos cosas: del tamaño de la muestra y del procedimiento de selección. De lo primero hemos
hablado con detalle, de lo segundo trataremos ahora.
Una vez determinado el tamaño de la muestra n , procederemos a seleccionar los elementos
muestrales (ya sean casos o racimos). Las unidades de análisis o los elementos muestrales se eligen
siempre aleatoriamente para asegurarnos de que cada elemento tenga la misma probabilidad de ser
elegido.

Tómbola
Consiste en numerar todos los elementos muestrales de la población, del 1 al número N . Después se
hacen fichas o papeles, uno por cada elemento, se revuelven en una caja y se van sacando n número
de fichas, según el tamaño de la muestra. Los números elegidos al azar conformaran la muestra.

Cuando nuestro muestreo es estratificado, se sigue el procedimiento anterior, pero por cada estrato.

Tabla de números aleatorios


Suponiendo que tenemos numerados todos los elementos de la población desde 1 hasta N , el
problema de elegir al azar una muestra de tamaño n se simplifica mediante el uso de tablas de
números aleatorios. Estas tablas están construidas de tal modo que los diez dígitos 0, 1, 2, 3, 4, 5, 6,
7, 8, 9, han tenido la misma oportunidad de ocupar cualquier lugar de dichas tablas. Por consiguiente,
cualquier par de los cien dígitos 00, 01, 02, …, 98, 99 han tenido la misma oportunidad de ocupar
cualquier lugar en dichas tablas. Para usar la tabla, basta con elegir al azar una fila o columna
cualquiera de la tabla y seguir escogiendo números en cualquier dirección.

Selección sistemática de elementos muestrales


Este procedimiento de selección es muy útil e implica elegir dentro de una población N un número n
de elementos a partir de un intervalo K . Este ultimo ( K ) es un intervalo que se va a determinar por el
tamaño de la población y el tamaño de la muestra. De manera que tenemos que KN /n, en donde K
=un intervalo de selección sistemática, N = tamaño de la población y n = tamaño de la
muestra.

Ejemplo:
Supongamos que se quiere hacer un estudio que pretende medir la calidad de la atención en los
servicios proporcionados por los médicos y las enfermeras de un hospital. Para tal efecto
consideremos que los investigadores consiguen grabaciones de todos los servicios efectuados
durante un periodo determinado. Supongamos que se hayan filmado 1548 servicios ( N ). Con este
dato se procede a determinar que numero de servicios necesitamos analizar para generalizar a toda
la población nuestros resultados. Si se determina que se necesitan n 307.9 servicios para evaluar
(con un error máximo de 5%, nivel de confianza del 95% y un porcentaje estimado de 50% para la
muestra ( p 0.5).
Por tanto, si necesitamos una muestra de n 308 episodios de servicio filmados, se utiliza para la
selección el intervalo K , donde:

9
N 1548
K    5.0259  5 n 308

El intervalo 1/K  5 indica que cada quinto servicio 1/K se seleccionará hasta completar n 308.
La selección sistemática de elementos muestrales 1/K se puede utilizar al elegir los elementos de n
para cada estrato o para cada racimo. La regla de probabilidad, según la cual cada elemento de la
población debe tener idéntica probabilidad de ser elegido, se cumple al empezar la selección de 1/K
al azar.
Siguiendo nuestro ejemplo, no comenzamos a elegir de los 1548 episodios, el 1, 6, 11, 16…, sino que
procuramos que el inicio sea determinado por el azar. Así, en este caso, podemos tirar unos dados y
si en sus caras muestran 1, 6, 9, iniciaremos en el servicio 169, y seguiremos 174, 179, 184, 189…
1/K … y volveremos a empezar por los primeros si es necesario.

MÉTODOS TABULARES Y GRÁFICOS PARA LA ORGANIZACIÓN Y PRESENTACIÓN DE


DATOS

Introducción. En la estadística se manejan grandes conjuntos de datos con un fin determinado y una
de sus dificultades es su interpretación de manera rápida y correcta. Es por ello que se requieren de
métodos que nos permitan organizar y presentar las observaciones de tal manera que los aspectos
más relevantes de la colección sean de rápida y fácil comprensión e interpretación.

Los métodos utilizados deben de poseer las siguientes propiedades:


Que proporcionen la máxima información contenida en los datos de forma fácil y rápida de visualizar.
Que posean sencillez operativa.
Que permitan presentar los datos de una manera estética.

Estos métodos son motivo de estudio de la estadística descriptiva y pueden dividirse en métodos
tabulares y gráficos y métodos numéricos.

Así podemos decir que los métodos tabulares y gráficos nos permiten organizar y presentar datos de
tal forma que los aspectos relevantes de los mismos son rápida y fácilmente aprehensible. En
ocasiones estos métodos nos ayudan a establecer hipótesis tentativas sobre la naturaleza del
fenómeno que se estudia

Tablas de distribución de frecuencias para uno y dos conjuntos de datos.


Normalmente cuando un grupo de datos llega a un investigador o a un estadístico, estos están
desordenados y si el conjunto de datos no es pequeño es improbable que proporcionen algún tipo de
información por lo que se requiere que se ordenen, esto generalmente se hace en forma de tablas,
porque de esta manera se hace más sencillo y claro el manejo de los datos.

Generalmente los reportes científicos, de negocios o de la administración pública que se presentan


en revistas o periódicos, lo hacen por medio de tablas. Aquellas que sobresalen por su sencillez y
claridad son las que constan de dos encabezados o columnas y se ilustra en el siguiente ejemplo.
Ejemplo: A continuación se presenta el número de empleados del sexo masculino en algunas
dependencias gubernamentales durante el año de 1975.

Número de empleados del sexo masculino en algunas dependencias gubernamentales


Dependencia Total de hombres empleados

10
Secretaría de Educación Pública 135716
Secretaría de Marina 19443
Secretaría de Obras Públicas 35444
Secretaría de Recursos Hidráulicos 53725
Secretaría de Salubridad y Asistencia 28851
Secretaría de Reforma Agraria 6680

FUENTE: Censo de Recursos Humanos del Sector Público Federal. Administración Central. 1975

Obsérvese como este arreglo es fácil de visualizar las características de los datos, como por ejemplo,
la secretaría que tiene mayor número de empleados del sexo masculino es la Secretaría de
Educación Pública y la que tubo menor fue la de reforma Agraria.
Si los datos se incrementan ya no es tan fácil visualizarlos y es entonces que vale la pena ordenarlos
como se ilustra en el siguiente ejemplo.
Ejemplo: En la siguiente tabla se muestran las calificaciones obtenidas por un grupo de estudiantes
en el examen final de Trigonometría.

50 65 75 45 80 60 75 45 75 60 35 70
60 35 100 60 95 45 65 75 60 95 65 75
50 65 60 70 35 75 35 95 60 60 65 70
70 75 60 75 35 65 70 50 70 35 75 100
60 80 35 95 70 80 45 100 70 60 60 75

Si se ordenan entonces se vería así:

Tabla de distribución de frecuencias de estudiantes que obtuvieron una calificación dada en un


examen final de Trigonometría:

Calificación Número de estudiantes


35 7
45 4
50 3
60 12
65 6
70 8
75 10
80 3
95 4
100 3

total 60

Este tipo de tablas plantean de forma concisa el número de veces que se presenta una determinada
cantidad en un conjunto de datos.

11
La utilidad de este tipo de presentación es máxima cuando el número de datos es pequeño y se
acompaña la tabla de algún texto que indique el tipo de observaciones de que se trate.

Una forma de presentación que será muy útil para nuestros propósitos es la que resulta de organizar
los datos en Tablas de Frecuencias o Tablas de Distribución de Frecuencias.

Tabla de distribución de frecuencias de doble entrada


Frecuentemente surge la necesidad de presentar dos conjuntos de datos en una tabla que resuma la
información contenida en ambos. Esta necesidad se satisface presentando las observaciones en
Tablas de Frecuencia de Doble Entrada. Un ejemplo de esto es el siguiente:

La siguiente tabla muestra los promedios de alturas y pesos de paja con granos de plantas de trigo de
la variedad Yécora F70.
Observación Altura de la Peso de paja con Observación Altura de Peso de paja
planta ( X ) grano (Y ) (kg) la planta ( X ) con grano (Y )
(cm) (cm) (kg)

1 64.6 1.123 11 65.0 1.170


2 65.2 1.138 12 63.6 1.150
3 67.0 1.190 13 65.2 1.193
4 62.2 1.156 14 66.2 1.090
5 63.0 1.144 15 63.0 1.067
6 64.6 1.305 16 60.0 0.953
7 64.4 0.797 17 62.6 0.749
8 65.0 1.121 18 64.8 0.946
9 66.0 0.838 19 67.6 1.016
10 63.4 1.015 20 63.8 0.874

FUENTE: Cortesía del M.C. Emilio Jiménez García

Ahora nos abocaremos a aprender cómo se construyen las Tablas de Distribución de Frecuencias, de
las cuales se puede extraer información estadística

El Arreglo Ordenado o Datos Ordenados


En el ejemplo de las calificaciones, se mostraba como podría llegar un conjunto de datos a un
investigador y que para ello era importante ordenarlos, generalmente de menor a mayor y a cada uno
de ellos se le asocia un número natural que llamamos la “frecuencia del dato” ( f ) y se define como el
número de veces que dicho dato figura en la colección, es de esta manera como se construye una
tabla de distribución de frecuencias de los datos.

Nótese que una vez ordenados los datos podemos observar detalles importantes:

12
Calificación Número de estudiantes
a) La calificación mínima obtenida por los alumnos fue de
35 7
35
45 4 b) Ninguno de los alumnos tuvo calificación de
50 3 90
60 12 c) La calificación obtenida por el mayor número de
alumnos fue de 60
65 6
d) 10+3+4+3=20 alumnos tuvieron calificación mayor a 70
70 8 puntos
75 10 e) Únicamente 3 alumnos obtuvieron calificación de 100
puntos.
80 3
95 4
100 3

total 60

También asociamos con cada dato de una colección otro número natural llamado “frecuencia
acumulada” ( fa ) que es igual a la suma de su frecuencia mas las frecuencias de los datos menores
que él. Así para nuestro ejemplo, si le agregamos la columna de frecuencia acumulada sería:

Calificación Frecuencia ( f ) Frecuencia acumulada ( fa )

35 7 7
45 4 11
50 3 14
60 12 26
65 6 32
70 8 40
75 10 50
80 3 53
95 4 57
100 3 60

total 60

¿Cómo se interpreta el valor de la frecuencia acumulada?


Para nuestro ejemplo el hecho de que el dato 70 tenga una frecuencia acumulada de 40 se interpreta
como que 40 de los 60 alumnos obtuvieron una calificación de 70 puntos o menor o también que
6040=20 alumnos de los 60, obtuvieron una calificación mayor a 70 puntos.

También hay otra forma de representar a la frecuencia mediante la llamada “frecuencia relativa” ( fr ),
la cual se obtiene dividiendo la frecuencia de cada dato entre el total de datos y representa la
proporción del número de veces que se repite un dato en la colección

13
Nuevamente para el ejemplo que nos ocupa si agregamos la columna de frecuencias relativas sería:

Calificación Frecuencia ( f ) Frecuencia relativa ( fr )

35 7 7/60 = 0.116 =11.6%


45 4 4/60 = 0.066 =6.7%
50 3 0.05 = 5%
60 12 0.20 = 20%
65 6 0.10 = 10%
70 8 13.33%
75 10 16.67%
80 3 5%
95 4 6.7%
100 3 5%

total 60 100%

Datos Agrupados. Cuando son una gran cantidad de datos “diferentes”, un arreglo ordenado resulta
demasiado extenso y esto dificulta la comprensión de los datos, ya que lo hace poco práctico, es
entonces cuando se aprecia la necesidad de agrupar los datos para lograr una mayor síntesis de
ellos.
Para agrupar a un conjunto de observaciones se selecciona un conjunto de intervalos contiguos que
no presenten traslapes, de manera que cada dato o valor en el conjunto de observaciones, pueda
colocarse en uno y solamente en uno de los intervalos. A estos intervalos se le llaman intervalos de
clase o clases.

El Rango (r) de una colección de datos se define como la diferencia del dato mayor menos el dato
menor y nos proporciona una idea con relación al número de datos “diferentes”, por ejemplo: si en
una colección el dato mayor es 70 y el menor es 1, el rango sería: 70-1 = 69, lo cual indica que
podrían haber hasta 69 datos diferentes en esa colección.
La forma de presentación de este tipo de datos es a través de distribución de frecuencias y uno de los
primeros puntos a considerar es cuantos intervalos (k ) van a incluirse, no es conveniente incluir
pocos intervalos ya que se pierde información y si se incluyen muchos, ya no se logra la síntesis.
Para ello es importante tener conocimiento sobre los datos, es posible que los intervalos se hallan
determinado con anterioridad para fines convenientes, pero cuando no es así una recomendación es
utilizar la formula de Sturges:
k 13.322(log10 n)

En donde: k = número de intervalos de clase n=


número de valores en el conjunto de datos.

La respuesta obtenida por la formula anterior no debe de considerarse como definitiva, sino
únicamente como una guía. Algunos autores consideran como una guía práctica para el manejo de
los intervalos dividirlos entre 5 y 20 clases.

Otro punto importante a considerar es el tamaño o amplitud del intervalo ( C ), aunque a veces es
imposible lograrlo pero los intervalos de clase deberían de tener la misma amplitud, esta amplitud se

14
puede determinar dividiendo el rango entre el número de intervalos ( k ), pero también esto no es
inflexible, ya que algunas veces se emplean diferentes tamaños de clase es solamente una guía y
podrá modificarse de acuerdo al conocimiento que se tenga de los datos.

El número de observaciones que pertenecen a una clase o intervalo es la frecuencia del intervalo,
que es un número natural que indica el número de observaciones que hay en cada intervalo. Esta
frecuencia también se puede representar en forma porcentual, definiendo así la frecuencia relativa del
intervalo, que se obtiene dividiendo cada frecuencia del intervalo entre el total de la misma y
multiplicado por 100.

También introducimos el concepto de frecuencia acumulada ( fa ) del intervalo y se obtiene sumando


la frecuencia de cada intervalo mas las frecuencias de los intervalos anteriores a él y también puede
expresarse en forma porcentual dividiendo la frecuencia acumulada de cada intervalo entre el total de
la frecuencia y le llamamos frecuencia acumulada relativa. ( far )

Los puntos que limitan a cada uno de los intervalos o clases reciben el nombre de límites de clase y
en ocasiones es necesario hablar de los límites reales del intervalo de clase que se definen como el
promedio entre el límite inferior de un intervalo y el superior del siguiente intervalo, estos son muy
útiles cuando se presentan datos que requieren precisión y para realizar gráficas, ya que el límite
inferior real ( LIR) de un intervalo será coincidente con el límite superior real ( LSR ) del siguiente
intervalo. Con el concepto de límites reales podemos observar que el tamaño amplitud del intervalo
de clase también se puede obtener restando el límite real superior menos el límite real inferior del
intervalo.

Ejemplo: La siguiente tabla muestra los pesos en onzas de tumores malignos extirpados del
abdomen de 57 personas. Obténgase cuantos intervalos deben de utilizarse, cual deberá de ser un
tamaño adecuado y obténgase sus frecuencias y límites.

68 63 42 27 30 36 28 32 79 27 22 23 24 25 44 65 43 25 74
51 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50
38 21 16 24 69 47 23 22 43 27 49 28 23 19 46 30 43 49 12

Para tener una idea del número de intervalos de clase que pueden utilizarse, aplicaremos la regla de
Sturges:

k13.322(log57)
k13.322(1.7559)
k  6.83  7 clases

Ahora para calcular el tamaño del intervalo de clase, se calcula el Rango

R 7912  67

R 67
Así el tamaño o amplitud del intervalo será: C   9.6 10
k 7

15
Utilizaremos una amplitud de 10 y dado que el valor más pequeño de la tabla anterior es 12 y el
mayor es de 79, por cuestiones prácticas iniciaremos los intervalos con el valor 10 y terminaremos
con el 79, obteniendo así los siguientes intervalos de clase:

10-19
20-29
30-39
40-49
50-59
60-69
70-79

De esta manera tenemos 7 intervalos de amplitud 10 y procederemos al conteo de valores que caen
en cada intervalo, para obtener las frecuencias de los intervalos.

La siguiente tabla muestra la distribución de frecuencias de los pesos en onzas, de los tumores
malignos extirpados del abdomen de 57 personas.

Intervalo de clase Conteo Frecuencia


10-19 // / 5
20-29 / //// ////
//// //// 19
30-39 // / /// 10
40-49 / ////
//// / /// 13

50-59 //// 4
60-69 //// 4
70-79 // 2

Total 57

Definamos un concepto que es representativo del intervalo, ya que al agruparlos en intervalos se


pierde la identidad de los datos. Así definimos la Marca de clase ( mk ) como el punto medio del
intervalo de clase y se obtiene promediando los límites reales de la clase.

Ahora construyamos la tabla de distribución de frecuencias:

La siguiente tabla muestra las frecuencias, frecuencia acumulada, frecuencia relativa, frecuencia
acumulada relativa, límites reales, y marca de clase:

Clase fk fa fr far LIRLSR mk


1 10-19 5 5 0.0877 0.0877 9.5-19.5 14.5
2 20-29 19 24 0.3333 0.4210 19.5-29.5 24.5
3 30-39 10 34 0.1754 0.5965 29.5-39.5 34.5
4 40-49 13 47 0.2281 0.8245 39.5-49.5 44.5
5 50-59 4 51 0.0702 0.8547 49.5-59.5 54.5
6 60-69 4 55 0.0702 0.9649 59.5-69.5 64.5
7 70-79 2 57 0.0351 1.0000 69.5-79.5 74.5
Total 57 1.000

16
Con esta organización de los datos podríamos responder a preguntas como:
1) ¿Cuál es el peso más frecuente?
2) ¿Qué porcentaje de tumores tienen un peso menor o igual a 59 onzas?

Así podemos establecer un resumen de pasos para construir una tabla de distribución de frecuencias:
a) Elegir el número de intervalos de clase.
b) Calcular el tamaño del intervalo de clase
c) Obtener el conteo de los valores que pertenecen a cada intervalo (frecuencia)
d) Calcular las frecuencias absolutas
e) Calcular frecuencias relativas
f) Calcular frecuencias absolutas relativas
g) Elección de los límites reales de los intervalos
h) Calcular la marca de clase.

Es importante que podamos apreciar que este tipo de tablas poseen algunas desventajas como son
la falta de precisión, porque al presentar las observaciones por intervalos, no se conoce el valor
específico del dato y también el que no existe una representación única de los datos ya que la
selección de los intervalos y sus dimensiones es arbitraria.
La representación tabular de dos conjuntos de datos resume la información contenida en ambos
conjuntos en una sola tabla que se les llama Tablas de frecuencias de doble entrada.
Para que la lectura de estas tablas no resulte complicado solo se contemplan tres elementos en las
tablas que son: La clase o intervalo, la marca de clase y la frecuencia relativa de la clase. La forma
que tienen se muestra en el siguiente ejemplo.

Ejemplo: Sea el conjunto de las alturas en centímetros ( X ) y los pesos en kilogramos (Y ) de 100
atletas de una delegación olímpica. A continuación se dan las observaciones en la siguiente tabla y
se clasificarán en una tabla de doble entrada.

La siguiente tabla muestra las alturas y pesos de 100 atletas de una delegación olímpica:
Observación Altura Peso Observación Altura Peso Observación Altura Peso Observación Altura Peso
1 160 57 26 166 62 51 168 66 76 169 68
2 160 58 27 166 62 52 168 68 77 170 69
3 161 59 28 166 66 53 168 66 78 170 68
4 162 57 29 166 63 54 168 68 79 170 68
5 162 59 30 166 67 55 168 66 80 170 68
6 163 60 31 166 64 56 168 68 81 170 70
7 163 57 32 167 63 57 168 67 82 170 68
8 163 61 33 167 67 58 168 69 83 170 72
9 163 58 34 167 65 59 168 66 84 170 69
10 163 62 35 167 63 60 168 68 85 170 72
11 164 60 36 167 68 61 168 66 86 171 68
12 164 60 37 167 64 62 168 68 87 171 69
13 164 60 38 167 63 63 168 67 88 171 73
14 164 63 39 167 67 64 168 69 89 171 75
15 164 60 40 167 66 65 168 68 90 171 74
16 164 64 41 167 64 66 169 68 91 171 76
17 165 61 42 167 68 67 169 70 92 171 73
18 165 62 43 167 66 68 169 69 93 172 72

17
19 165 65 44 167 64 69 169 68 94 172 75
20 165 61 45 167 66 70 169 70 95 173 77
21 165 62 46 168 64 71 169 68 96 173 72
22 165 61 47 168 65 72 169 71 97 173 74
23 165 65 48 168 66 73 169 69 98 173 77
24 165 62 49 168 66 74 169 68 99 174 76
25 165 64 168 67 75 169 71 100 174 77
50

En este caso se han elegido cinco intervalos de clase para la variable altura ( X ) y siete intervalos
para la variable peso (Y ) la tabla resultante se presenta a continuación, donde puede observarse la
contabilización de las frecuencias en los diferentes intervalos y como se distribuyen, así mismo se
obtienen las frecuencias relativas fi j en donde el índice i se refiere a la fila a la que pertenece y el j a
la columna.
La siguiente tabla muestra los intervalos de clase, marca de clase y frecuencias relativas:

También es posible sacar las tablas de las frecuencias de cada una de las variables, así la tabla que
corresponde a la variable X (alturas) es:

Tabla de frecuencias, frecuencia acumulada y marca de clase de la variable altura ( X ) obtenida de la


tabla de doble entrada:

Alturas
mk fr fa
160-162 161 5 5
163-165 164 18 23
166-168 167 42 65
169-171 170 27 92
172-174 173 8 100

Total 100

De manera similar se puede obtener la tabla de frecuencias de la variable Y .

18
CÁLCULO Y SELECCIÓN DE MEDIDAS DESCRIPTIVAS

Introducción. Las distribuciones de frecuencias son muy útiles y tienen varias aplicaciones pero hay
ocasiones en donde se requiere de otro tipo de resumen de los datos, en otras palabras resumir los
datos por medio de unas cuantas medidas descriptivas. Son de particular interés medidas que
localicen el “centro” de las observaciones y la dispersión o variabilidad de las mismas; las primeras se
llaman medidas de Tendencia Central y las segundas medidas de Dispersión.

Otro tipo de medidas surge cuando se consideran simultáneamente dos características y se quiere
cuantificar el grado de asociación entre ellas. Las medidas descriptivas se pueden calcular a partir de
los datos de una muestra o de una población. Para diferenciarlas se tienen las siguientes
definiciones:

1) Una medida descriptiva calculada a partir de los datos de una muestra se conoce como
estadística, estadístico o estadígrafo.
2) Una medida descriptiva calculada a partir de los datos de una población se conoce como
parámetro.

Notación de suma y reglas para su uso. Es conveniente introducir la nomenclatura utilizada para
representar conjuntos de datos, elementos y un símbolo que denote la suma de elementos del
conjunto así como las reglas básicas para el uso de este símbolo.

A los conjuntos de dato los podemos representar con letras mayúsculas y finales del alfabeto como
son X , Y o Z ; y a los elementos de dichos conjuntos de datos con las respectivas letras minúsculas
x , y o z , poniéndoles un índice que nos indique de que observación se trata.

Ejemplo: Supongamos que hemos medido el peso y la altura de cinco individuos, obteniendo los
siguientes resultados:

Individuo 1 2 3 4 5
Peso (kg.) 63 52 78 49 71
Altura (cm) 162 158 167 151 162

El conjunto de los datos de peso podremos representarlo por X y el de las alturas por Y , por lo que
cada una de las observaciones de peso pueden representarse por X1,X2,X3,X4,X5 y de manera similar
las alturas por Y1, Y2, Y3, Y4, Y5 , de esta manera podemos señalar que el peso del individuo 4 es x4 
49kg y la altura del individuo 2 es y2 158 cm.

Hay ocasiones en donde se tiene necesidad de representar los dos conjuntos de datos
simultáneamente entonces los representamos como puntos en el plano, así el peso y la altura del
tercer individuo son el par ordenado (x3, y3)  (78,167).

Para el ejemplo podremos señalar que los pesos son X1, X2,..., Xn en donde n es el número de
observaciones que para el caso es n5.

19
La notación Sigma 
En la aplicación de las técnicas estadísticas es frecuente que se requiera representar la suma de
varias observaciones y sería muy tedioso tener que escribirla con detalle, para ello se utiliza la letra

griega  (sigma) para indicar la operación suma.


n

El símbolo X i debe de leerse como “la suma de los números X i desde X1 hasta X n ” y significa:
i1 n

X  X  X  X ... X
i 1 2 3 n

i1

Observe que el índice “i ” en la parte inferior significa cual es el primer término de la suma y “ n ” en la
parte superior cual es el último término.

Propiedades del símbolo de suma


Describiremos las propiedades más importantes del símbolo de la suma.

Sean X1,X2,...,X n y Y1,Y2,...,Yn dos conjuntos de datos y sean b y c dos constantes arbitrarias,
entonces:
n n

bX  b X
i i

i1 i1
n n n

a) (X Y ) X Y


i i i i

i1 i1 i n

b) c  nc
i1
n n

c) (b  cX i )  nb  c Xi
i1 i1

Medidas de tendencia central (Localización)


Estas medidas caracterizan a una distribución de frecuencias y se definen como promedios y tienden
a situarse en el centro de la colección de datos cuando se ordenan según su magnitud, por lo que
también se les denomina “medidas de posición central o de centralización”. Las medidas de posición
central que mejor caracterizan a la distribución de frecuencias son: la media aritmética o media, la
mediana y la moda.

La media aritmética la definimos como el promedio de todos los datos de una colección de n datos

se simboliza como X o como Y , por lo que si se tienen los datos X1,X2,...,X n , entonces la media se
define así:

20
X  X1  X2n... Xn  1nin1 Xi

Ejemplo del cálculo de la media aritmética para datos enlistados


Si consideramos los pesos de los cinco individuos de la tabla anterior los valores observados serían:

x1  63kg , x2 52kg, x3  78kg, x4  49kg, x5  71kg , entonces la media de los pesos sería:

x 6352 78 49 71  62.6kg

La media aritmética posee ciertas propiedades las cuales enlistamos a continuación:

1. Unicidad, ya que para un determinado conjunto de datos existe una y solo una media
aritmética.
2. Simplicidad, la media aritmética es fácil de comprender y fácil de calcular.
3. Influencia de todos los valores, ya que todos los valores de un conjunto de datos intervienen
en el cálculo de la media, esta se afecta por cada valor, por lo que los valores extremos
influyen en la media y en ocasiones la alteran tanto, que resulta inconveniente como una
medida de tendencia central.

Ejemplo del cálculo de la media aritmética para datos ordenados

Ahora considerando que los datos pueden estar ordenados en una tabla de distribución de
frecuencias y si los valores de los datos son X1, X2,..., Xn y sus respectivas frecuencias son
f1, f2, ..., fn por la definición de media, esta se calcularía así:

X  X1f1f1 X2f2f2......fnXn fn  i1nXfiifi  1n in1 Xi fi

i1
Ejemplo. Calcular la media de la distancia (en Km) que recorren los trabajadores de una fábrica a su
centro de trabajo, los datos se encuentran en la tabla siguiente:

Distancia
recorrida frec. Xi fi
n
fi
Xi
3.5 2 7  Xf i i

4.3 4 17.2 X  i1n 10.55


10.2 3 30.6 km
12.3 5 61.5
14.8
15.9
1
3
14.8
47.7
f i

16.1 2 32.2
21
 20 211
i1

Ejemplo del cálculo de la media aritmética para datos Agrupados


Cuando los datos están agrupados en intervalos de clase, las observaciones individuales pierden su
identidad, entonces se supone que todos los valores que caen dentro de un determinado intervalo de
clase se localizan en el punto medio del intervalo. El punto medio de un intervalo se calcula como el
promedio de los límites superior e inferior del intervalo y para calcular la media se multiplica cada
punto medio por la frecuencia correspondientes, se suman estos productos y se dividen entre la suma
de las frecuencias. Así la formula sería:

 k 1
 mk fk , donde mk  LI  LS
X n

f k 2
k1

En donde n es el número de intervalos de clase, mk es el punto medio del k -ésimo intervalo y fk es la


frecuencia del intervalo.

Ejemplo: Retomemos la tabla de datos agrupados del ejemplo de las alturas en centímetros ( X ) de
los 100 atletas de la tabla de doble entrada.

Alturas mk fk Calculamos las marcas de clase mk :


mk fk
160-162 161 5 805 161, 164, 167,
163-165 164 18 2952
170 , 173
166-168 167 42 7014
La media aritmética la calculamos así:
169-171 170 27 4590 n

172-174 173 8 1384


m f k k

Total 100 16745 X  k1n 167.45


cm

f k

k1

La mediana de un conjunto de datos, ordenados de menor a mayor, es el número central en el


arreglo, o sea, el dato de enmedio. Sea X1,X2,...,X n una colección de n datos ordenados en orden de
magnitud, si n es un número impar, solo hay un valor central y ése valor es la mediana; si n es un

22
número par, hay dos valores centrales y la mediana debe tomarse como la media aritmética de estos
~
dos valores. La mediana se denota usualmente por X .

La mediana es un valor que divide a los datos en mitades, una con todas las observaciones mayores
o iguales a la mediana, y otra con aquellas menores o iguales a ella.

Para conjunto de datos asimétricos (histogramas con largas colas), es mejor medida de tendencia
central que la media.

Datos agrupados: Para calcular la mediana en una tabla de datos agrupados, se usa la siguiente
fórmula de interpolación:

X~  LCn2fm fA 

Donde los términos son tales que:


L =límite inferior real de la clase mediana.
C =tamaño de la clase mediana (o sea, diferencia entre sus límites reales) ( LSRLIR).
fA =frecuencia acumulada de la clase anterior a la clase mediana. n =número total de
datos en la distribución.
fm =frecuencia de la clase mediana.
Y la clase mediana la localizamos haciendo: n2 y buscando éste valor en la f A .

La moda es la tercera medida de posición para una colección de datos, y se define como el dato (o
los datos) que tienen la máxima frecuencia. La definición implica que si las frecuencias son tales que
la mayor de ellas solamente corresponde a un dato, entonces solamente hay una moda, pero si por el
contrario la frecuencia mayor corresponde a más de un dato, entonces hay más de una moda; por
último, si todos los datos tienen igual frecuencia (y así de hecho no hay una frecuencia mayor que las
otras) entonces se conviene en decir que los datos no tienen moda. La moda la denotaremos por Xˆ .
La moda es una medida de tendencia central que es poco usada porque (a) puede ocurrir que no
exista o (b) a menudo no es un valor único.

Datos agrupados: Si los datos están agrupados en intervalos de clase, existen varios métodos para
el cálculo de la moda.
Emplearemos un método basado en una fórmula de interpolación lineal, similar a la empleada para el
cálculo de la mediana.

d1  Xˆ  L

C d1  d2 


L =límite inferior real de la clase modal.
C =tamaño de la clase modal ( LSRLIR).
d1=diferencia de la frecuencia de la clase modal, menos la frecuencia de la clase anterior.
d2=diferencia de la frecuencia de la clase modal, menos la frecuencia de la clase siguiente.

23
clase modal=máxima frecuencia

3.4.- Medidas de dispersión. En ocasiones al describir una colección de datos no es suficiente con
las medidas de centralización, ya que otro aspecto que hay que considerar es la variabilidad de las
observaciones o la dispersión de las mismas, este concepto es muy importante, ya que hay

24
colecciones de datos que tienen los mismos promedios pero diferente “dispersión”. Estas medidas
describen la forma en que los datos están separados o dispersos con respecto al centro de la
colección.
Es posible que dos colecciones de datos tengan la misma media aritmética, la misma moda y la
misma mediana, pero la variabilidad sea diferente, para ello analicemos el siguiente ejemplo.

Ejemplo: Sean los datos del conjunto X y del conjunto Y los dados en la siguiente tabla halle las
medidas de centralización de cada colección y realice un diagrama de puntos para hacer las
observaciones pertinentes.

X fi fa fi Xi Y fi fa fiYi
-4 1 1 -4 3 2 2 6
0 2 3 0 5 2 4 10
4 1 4 4 6 2 6 12
5 3 7 15 7 2 8 14
8 5 12 40 8 3 11 24
11 3 15 33 9 2 13 18
12 1 16 12 10 2 15 20
16 2 18 32 11 2 17 22
20 1 19 20 13 2 19 26
Total 19 152 Total 19 152

La media aritmética para la colección X es: La media para la colección Y es:


n n

 fixi fiyi
X  i1n 8
Y  i1n 8

f i f i i1 i1

La mediana en ambos casos es el 10° dato


Por lo que para la colección X es: Para la colección Y es:
Mediana = 8 Mediana = 8

La moda para la colección X es: Para la colección Y es:


Moda = 8 Moda = 8

Como puede observarse las tres medidas de centralización no solamente coinciden entre sí en cada
colección de datos, sino que también son coincidentes para los dos grupos de datos, por lo que se
requiere de algo más para describirlos mejor, ya que con esta información se podría cometer el error
de que ambos grupos se comportan igual, para tener la certeza hay que ver cómo están distribuidos o
dispersos los datos, esto se logra mediante el cálculo de las correspondientes medidas de dispersión,
cuyos valores serán mayores cuando los datos estén muy separados entre sí y menores cuando
estén más cercanos entre sí.
Ahora observe los diagramas de puntos y podrá comprobar que la variabilidad del primer grupo es
mayor que la del segundo lo que hace que las colecciones sean diferentes.

-4 -2 0 2 4 6 824 10 12 14 16 18 20

-4 -2 0 2 4 6 8 10 12 14 16 18 20

La medida de dispersión más simple es el Rango o Amplitud, que se define como la diferencia entre
el dato mayor menos el dato menor. Su utilidad es limitada, ya que solo toma en cuenta dos valores
extremos por lo que resulta una medida muy pobre de la dispersión, ya que para poder tener una idea
de la variabilidad de los datos con respecto al centro del conjunto, deben de considerarse todos los
datos. Su principal ventaja es la sencillez de su cálculo.

La forma más representativa de calcular la dispersión de los datos es, calculando el promedio de las
desviaciones de los datos con respecto a la media; para cualquier grupo de datos la suma de estas
desviaciones es cero, considerando que las desviaciones de los datos con respecto a la media es la
distancia del dato respecto a su media aritmética. Existen medidas representativas de dicha
dispersión como son: La desviación media, la varianza y la desviación estándar o típica.

La desviación media (DM) de un grupo de observaciones se define como la suma de los valores
absolutos de sus desviaciones con respecto a su media aritmética, dividida entre el número de
observaciones.
1n

DM  ni1 Xi  X
Ejemplo
Los datos 6, 2, 5, 4, 7, -1, 1, y 0 tienen como media aritmética el 3 y sus desviaciones se calculan así:
x1  x  63  3 x5  x  7 3  4 x2 x  231 x6  x 134 x3  x 53 2 x7  x
13 2
x4  x  43 1 x8  x  033

Obsérvese que la suma de las desviaciones es cero. El


cálculo de la desviación media sería:

DM   3 1  2  1  4  4  2 3  2.5


La desviación media es una medida de dispersión que es útil para propósitos meramente
descriptivos, es poco usada porqué:

26
• Si el conjunto es grande su cálculo es laborioso
• La función valor absoluto, no es fácil su manejo algebraico
• Carece de ventajas teóricas que poseen otras medidas de dispersión que se definirán más
adelante.
Para calcular la desviación media cuando los datos son ordenados en tablas de distribución de
frecuencias, la fórmula es:
n

 XXf i i

DM  i1 n

f i

i1

Cuando los datos están agrupados en intervalos de clase la desviación media está en función de las
marcas de clase, en vez de los datos ya que estos no se conocen, así la formula sería:
n

 m Xf k i

DM  i1 n

f i

i1

La Varianza y la Desviación Estándar.


La varianza es otra medida de la dispersión de los datos con respecto a su media, pero para eliminar
el signo de las desviaciones, se elevan al cuadrado, por lo que la varianza se define como:

La varianza ( S2) de un conjunto de datos es la suma de los cuadrados de las desviaciones de las
observaciones con respecto a su media, dividida entre el número de observaciones menos 1.
Suponiendo que S2 es la varianza de la muestral, entonces:
n

(X i  X)2
S2  i1
n1

Datos enlistados: La fórmula para calcular la varianza cuando los datos están enlistados es:
n

(X  X) i
2

S2  i1
n 1

Datos ordenados: La fórmula para calcular la varianza cuando los datos están ordenados es:
n

 f (X  X) i i
2

27
S2  i1
n 1

Datos agrupados: La fórmula para calcular la varianza cuando los datos están agrupados es:
n

 f (m  X)
i i
2

S2  i1
n 1

Para fines prácticos del cálculo la fórmula de la varianza se puede expresar de la siguiente manera:

S2 X i2  nX 2
 n 1

Desviación estándar: La varianza representa unidades cuadradas y por lo tanto no es una medida
apropiada de dispersión cuando se desea expresar este concepto en términos de las unidades
originales. Para obtener una medida de dispersión en las unidades originales, simplemente se toma
la raíz cuadrada de la varianza y el resultado se conoce como desviación estándar o típica y la
formula es:
Para datos enlistados:
n
( X i  X )2
S  S2  i 1

n 1
Para datos ordenados:
n
fi ( X i  X )2
S  S2  
i 1
n 1

Para datos agrupados:


n
f i ( mi  X ) 2
S2   i 1

S n 1
Ejemplo
Los datos 6, 2, 5, 4, 7, -1, 1, y 0 tienen como media aritmética el 3 y sus desviaciones se calculan así:
x1  x  63  3 x5  x  7 3  4 x2 x  231 x6  x 134 x3  x 53 2 x7  x
13 2
x4  x  43 1 x8  x  033

Para calcular la varianza sería:


s2  (3)2  (1)2  (2)2  (1)2  (4)2  (4)2  (2)2  (3)2  60  8.57
(81) 7
28
Coeficiente de Variación
Las medidas de dispersión anteriores son todas medidas de variación absoluta. Una medida de la
dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el coeficiente de
variación.

Todas las medidas de dispersión vistas antes, son medidas absolutas de la variación de un conjunto
de datos, pero en muchas ocasiones estos no nos ayudan para poder comparar dos conjuntos de
datos, para ellos nos hace falta una medida relativa de la dispersión de los datos que tome en cuenta
su magnitud, esta medida es el coeficiente de variación.

Definición: El Coeficiente de Variación (C. V.) es una medida de la dispersión relativa de un conjunto
de datos, que se obtiene dividiendo la desviación estándar del conjunto entre su media aritmética.

Simbólicamente para la característica X tenemos:


SX
C.V. (X) 
X

El C. V. tiene las siguientes características:


a) No tiene unidades de medida, ya que la desviación estándar y la media tienen la misma
unidad de medida.
b) Debido a que carece de unidades de medida, resulta la medida más adecuada para comparar
la variabilidad de dos conjuntos de datos.
c) Esto nos permite comparar la precisión de un experimento previo con uno actual, comparando
los coeficientes de variación del experimento previo con el actual que se haya realizado.

Ejemplo: Los pesos ( X ) y estaturas (Y ) de 10 personas se presentan en la siguiente tabla:


Persona 1 2 3 4 5 6 7 8 9 10
Peso (en kg.) 63 52 78 49 71 62 68 48 56 67
Altura (en cm.) 162 158 167 151 162 168 167 153 152 173

Las medias y las desviaciones estándar de ambos conjuntos de datos son las siguientes:

X  61.14 SX  9.98
Y 161.3 SY  7.60

Los coeficientes de variación respectivos son:

C. V. (X)   0.1625 y C. V. (Y)   0.0471

o, expresado en porcentaje que es la forma más usual:


CV X. .() 16.25% y CV Y. .( )  4.71%

Comparando los coeficientes de variación, es lícito decir que los pesos tienen mayor variabilidad que
las estaturas en los 10 individuos considerados.

29
3.5. Selección de medidas descriptivas
Se sabe que las tres medidas de tendencia central estudiadas: media, mediana y moda tienen sus
ventajas y desventajas al utilizarlas, para elegirlas debemos de considerar los siguientes puntos:
a) Si la distribución no es muy asimétrica, la moda, la media y la mediana, tienen
aproximadamente el mismo valor, por lo que puede utilizarse cualquiera de las tres.
b) Para distribuciones asimétricas, la mediana puede ser mejor medida de tendencia central que
la media.
c) Si va a procederse a hacer estadística inductiva, la media es indispensable, por sus
excelentes propiedades teóricas.
d) Si se trata solo de describir un conjunto de datos entonces es conveniente reportar las tres
medidas, ya que cada una puede decirnos algo sobre la distribución de frecuencias.

En cuanto a las medidas de dispersión sucede lo siguiente:


a) La desviación media es poco usada por lo tedioso de su cálculo y su manipulación algebraica
es difícil.
b) El rango o amplitud tiene la gran ventaja de su rápido cálculo, pero es muy sensible a los
valores extremos y puede crecer desproporcionalmente de acuerdo al número de
observaciones.
c) La desviación estándar es la medida de dispersión más usada y comparte las ventajas y
desventajas de la media aritmética y es indispensable en estadística inductiva, para obtenerla
se requiere del cálculo de la varianza.
d) El coeficiente de variación es fundamental para comparar dos conjuntos de datos.

3.6. Descripción simultanea de dos conjuntos de datos.


Cuando se estudian dos características en un grupo de datos o en dos grupos de datos, la pregunta
obligada es si existe relación entre ellas, por ejemplo: ¿Existe relación entre la altura y el peso en un
grupo de individuos?; ¿Entre el ingreso y el consumo por familia?; ¿Entre la temperatura y los índices
pluviales de una región? etc.
Existen algunas medidas para calcular el nivel de asociación entre dos conjuntos de datos, aquí
enunciaremos la Covarianza y la Correlación.

La Covarianza es una medida de asociación entre dos características, o dos conjuntos de datos que
llamaremos X y Y .

Definiremos la covarianza (SX Y ): Sean (X1, Y1), (X2, Y2) , …, (X n , Yn ) , n pares de observaciones de
dos características X y Y y sean X y Y sus respectivas medias, entonces la covarianza entre esas dos
características es el promedio de los productos de las desviaciones de ambas características o sea:
1n

SX Y  ni1 (Xi  X)(Yi Y)


y aplicando las propiedades de sumatorias obtenemos una formula equivalente para un cálculo más
ágil, es:

 n  n  n

1n Xi Yi  XiYi nXY

SX Y   XiYi  i1 n i1  i1 n1


n1 i 1

30
 
 
Es importante señalar que a diferencia de la varianza que es necesariamente positiva por tener en su
numerador un binomio al cuadrado, la covarianza puede ser positiva o negativa. Así tendremos
covarianzas positivas cuando las desviaciones de X coincidan en signo con las desviaciones de Y , y
de modo contrario tendremos covarianzas negativas, si dichas desviaciones no coinciden en signo.
También puede decirse que cuando los valores de X aumentan (o disminuyen) con los de Y , la
covarianza será positiva y cuando los valores de X disminuyen al aumentar los de Y , o viceversa
entonces la covarianza será negativa.

De lo anterior resumimos las siguientes propiedades:


a) Cuando los valores de la variable X crecen con los de la variable Y la covarianza es positiva
b) Cuando los valores de la variable X disminuyen, al aumentar los de la variable Y la covarianza es
negativa
c) Si comparamos las ecuaciones para SX Y (covarianza entre X y Y ) y SX 2 (la varianza de
X ), podemos observar que si obtuviéramos una ecuación para la covarianza de X consigo
misma, obtendríamos la ecuación de la varianza, es decir la varianza es un caso especial de
la covarianza.

La Correlación. Una desventaja de la covarianza como medida de asociación es que su valor


depende de las unidades en que se miden las variables de interés. Por ejemplo, cuando se midió la
humedad consumida, se midió como fracción de la unidad, pero si se hubiera medido como un
porcentaje de humedad 0%, 10%, 20%, el valor de la covarianza hubiera sido muy diferente.

Para evitar esto, existe una medida de asociación entre dos características, que es independiente de
las unidades de medición esta es la Correlación y se define así:
Sean (X1, Y1), (X2, Y2) , …, (X n , Yn ) ; n pares de observaciones de dos características. Si SX Y es su
covarianza y SX y SY son sus respectivas desviaciones estándar, el coeficiente de correlación o
simplemente la correlación entre las dos variables tiene como expresión: SX Y

rX Y 
SX SY
la cual también puede escribirse como:
n  n
n i Yi )

 X
X iYi    i 1 
i 1

rX Y  
i 1

n
2 2
  
n n
 Xi   Yi 
 n 2     n 2   
 X i  i 1    Yi  i 1  

i 1 n  
i 1 n 
  

 
 

Para el ejemplo de las alturas y los pesos tenemos:
SX  9.98, SY  7.60 y SXY  58.86, por lo que:
31
58.86
rxy   0.7770
(9.98)(7.60)

La correlación es una medida de asociación entre dos variables y tiene las siguientes propiedades:
a) Es independiente de las unidades de medida de las variables.
b) Valores positivos del coeficiente de correlación, indica que las variables tienden a crecer (o
decrecer) simultáneamente y valores negativos, indican que una aumenta cuando la otra
disminuye.
c) Toma valores exclusivamente entre 1 y -1

Bibliografía:
1) Métodos Estadísticos, Un enfoque Interdisciplinario. Said Infante Gil. Edit. Colegio de
postgraduados.
2) Probabilidad y Estadística. René Torres León. Edit. Universidad Autónoma de Yucatán.
3) Introduction to Linear Regression Analysis. Douglas C. Montgomery. Edit. Wiley. 4)
Probabilidad. Seymour Lipschutz. Edit. Mc Graw Hill. Serie Schaum.
5) Probabilidad y Estadística. Murray R. Spiegel. Edit. Mc Graw Hill. Serie Schaum.
6) Introduction to the Theory of Statistics. Alexander M. Mood. Edit. Mc. Graw Hill 7)
Estadística. Murray R. Spiegel. Edit. Mc Graw Hill. Serie Schaum.
8) Metodología de la Investigación. Roberto Hernández Sampieri. 5ª. Edición. Mc. Graw Hill.
9) Bioestadística. Base para el análisis de las ciencias de la salud. Daniel. 4ª. Edición. Limusa
Wiley.
10) Elementos del muestreo. Scheaffer, Mendenhall, Ott. Grupo editorial Iberoamérica.

32

También podría gustarte