Está en la página 1de 134

PRINCIPIOS DE

ESTADISTICA
APLICADOS A LAS
CIENCIAS
AMBIENTALES Y
AGRICOLAS

Ing. Oscar Rolando Salazar Cuque


Universidad Rafael Landivar,
Escuintla, Guatemala, 2010
1
CONTENIDO DEL LIBRO:
PRINCIPIOS DE ESTADÍSTICA APLICADOS A
LAS CIENCIAS AMBIENTALES Y AGRICOLAS

Síntesis

Unidad 1 Introducción a la Estadística


I. Descripción
II. ¿Qué es la Estadística?
III. Conceptos
IV. Ramas de la Estadística
V. Historia
VI. Lógica
VI.1 Razonamiento deductivo
VI.2 Razonamiento inductivo
VI.3 El problema del investigador
VI.4 El elemento aleatorio
VI.5 Necesidad de la evaluación estadística
VII. El Método Estadístico

Unidad 2 Distribución de frecuencias


I. Introducción
II. Objetivo general
III. Objetivos específicos
IV. Metodología
IV.1 Primera fase: Obtener la información de campo
IV.2 Segunda fase: Ordenar la información
IV.3 Tercera fase: Preparar la tabla de distribución de frecuencias
IV.4 Cuarta fase: Agrupamiento por intervalos de clase

Unidad 3 Gráficos y diagramas


I. Introducción
II. Objetivos específicos
III. Gráficos para variables cualitativas
III.1 Diagramas de barras
III.2 Diagramas de sectores
III.3 Pictogramas
IV. Gráficos para variables cuantitativas
IV.1 Gráficos para variables cuantitativas continuas
V. Gráficos para variables discretas
V.1 Diagramas diferenciales
V.2 Diagramas integrales
2
V.3 Diagramas de barras
VI. Gráficos para variables continuas.
VI.1 Histogramas
VI.2 Polígonos de frecuencias
VII. Otras gráficas
VII.1 Gráficas de tallo y hojas
VII.2 Gráfica de Pareto
VII.3 Gráfica de puntos
VII.4 Diagrama de dispersión
VII.5 Gráfica de cuadro
VIII. Conclusión

Unidad 4 Medidas de tendencia central


I. Introducción
II. Objetivos específicos
III. La Media Aritmética
III.1 Características de la Media Aritmética
III.2 Metodología
III.2.1 Primer caso, utilizando los datos de campo
III.2.2 Segundo caso, utilizando la tabla de distribución de frecuencias
III.2.3 Tercer caso, utilizando frecuencias agrupadas en intervalos de
clase.
III.3 Propiedades de la media aritmética
IV. La Media Geométrica
IV.1 Metodología
IV.1.1 Primer caso, utilizando datos de campo
IV.1.2 Segundo caso, utilizando la tabla de distribución de frecuencias
IV.1.3 Tercer caso, utilizando la tabla de distribución de frecuencias
agrupadas en intervalos de clase.
V. La Media Armónica
V.1 Metodología
V.1.1 Primer caso, utilizando los datos de campo
V.1.2 Segundo caso, utilizando una tabla de distribución de frecuencias
V.1.3 Tercer caso, utilizando una tabla de distribución de frecuencias
agrupadas por intervalos de clase
VI. La Media Cuadrática
VI.1 Metodología
VI.1.1 Primer caso, utilizando los datos de campo
VI.1.2 Segundo caso, utilizando una tabla de distribución de frecuencias
VI.1.3 Tercer caso, utilizando una tabla de distribución de frecuencias
agrupadas por intervalos de clase.
VII. La Mediana

3
VII.1 Características de la Mediana
VII.2 Metodología
VII.2.1 Primer caso, utilizando datos de campo
VII.2.2 Segundo caso, utilizando una tabla de distribución de
frecuencias agrupadas por intervalos de clase.
VII.3 Propiedades de la Mediana
VIII. La Moda
VIII.1 Características de la Moda
VIII.2 Propiedades de la Moda
VIII.3 Primer caso. Utilizando datos de campo
VIII.4 Segundo caso: con datos agrupados en intervalos de frecuencia
IX Relación entre Media, Mediana y Moda

Unidad 5 Medidas de posición


I. Introducción
II. Objetivos específicos
III. Percentiles (P)
III.1 Metodología
III.1.1 Primer caso, estimar los percentiles por observación
III.1.2 Segundo caso, calcular los percentiles utilizando la tabla de
distribución de frecuencias agrupadas por intervalos de clase.
IV. Deciles (D)
IV.1 Metodología
IV.1.1 Primer caso, utilizando la interpolación lineal
IV.1.2 Segundo caso: cuartiles con variables discretas
IV.1.3 Tercer caso: cuartiles con variables continuas.
V. Quintiles (Q)
V.1 Metodología
V.1.1 Primer caso: utilizar la tabla de distribución de frecuencias simples
V.1.2 Segundo caso: utilizar la tabla de distribución de frecuencias agrupadas
en intervalos de clase
VI. Cuartiles (C)
VI.1 Metodología
VI.1.1 Primer caso: utilizar la tabla de distribución de frecuencias simples
VI.1.2 Segundo caso: utilizar la tabla de distribución de frecuencias agrupadas
en intervalos de clase

Unidad 6 Medidas de dispersión


I. Introducción
II. Objetivos específicos
III. El rango
III.1 El rango intercuartílico

4
III.2 El rango semiintercuartílico
III.3 El rango entre percentiles 10-90
IV. La desviación media
IV.1 Características de la desviación media
IV.2 Métodos
V. La Varianza
V.1 Metodología
V.1.1 Primer caso: utilizando los datos de campo
V.1.2 Segundo caso: utilizando la tabla de distribución de frecuencias simples
V.1.3 Tercer caso: utilizando una tabla de distribución de frecuencias
agrupadas en intervalos de clase
VI. La desviación típica
VI.1 Concepto
VI.2 Características de la desviación típica
VI.3 Propiedades de la desviación típica
VII. Varianza combinada
VIII. Coeficiente de variación
VIII.1 Concepto
VIII.2 Características
VIII.3 Metodología
IX Uso intenso de los programas SPSS, STADIS, EXCEL, CALCULADORA

Unidad 7 Medidas de forma


I. Introducción
II. Momentos
III. Coeficiente de asimetría de Fisher
III.1 Asimetría positiva
III.2 Asimetría negativa
III.3 Metodología
III.3.1 Coeficiente de sesgo
III.3.2 Coeficiente de sesgo utilizando cuantiles
IV. Curtosis
IV.1 Concepto
IV.2 Grados de curtosis
IV.2.1 Distribución mesocúrtica
IV.2.2 Distribución leptocúrtica
IV.2.3. Distribución platicúrtica
IV.3 Coeficientes de curtosis

5
Unidad 8 Regresión y correlación
I. Introducción
II. La línea recta
III. Método de mínimos cuadrados
IV. Recta de mínimos cuadrados
V. Regresión
a. Aplicaciones a series de tiempo
VI. Correlación
a. Correlación lineal
b. Medidas de correlación
c. Error típico de la estima
d. Variación explicada y no explicada
VII. Coeficiente de correlación
VIII. Fórmula producto-momento

BIBLIOGRAFÍA

6
Síntesis

El estudio de las ciencias ambientales y agrícolas en Guatemala proporciona las herramientas


necesarias para la adecuada administración de los recursos naturales en constante degradación
y disponibles en la finca o empresa productiva y cuya incidencia económica, social o política
no permite alcanzar las mejores utilidades, ni hacer sostenible la actividad productiva.

En la empresa, los productos esperados son de dos tipos: bienes y servicios; en el primer caso,
se refiere a la fabricación o elaboración de artículos que propician la satisfacción de
necesidades sociales, tales como, vestuario, alimentos, vivienda, útiles escolares, vehículos y
otros; mientras que los servicios comprenden estudios de impacto ambiental, finanzas,
mantenimiento de maquinaria o equipo de producción, comunicaciones y otros. Para conocer
de mejor forma el comportamiento del movimiento de los bienes y servicios es preciso
considerar que los mismos giran entorno al mercado, siendo este, las relaciones de productores
y consumidores, enlazados por los aspectos de producción, distribución y consumo en el
entorno de la demanda y la oferta, en ambos casos, la cantidad de bienes o servicios que los
consumidores están en disposición de adquirir varía en razón inversa o directa al precio y
ambos se movilizan según sus propios determinantes, siendo el más importante de ellos los
gustos y preferencias de los consumidores y la calidad del producto.

Resulta importante entonces, para el administrador de empresas agrícolas, conocer la variación


de la producción en esta rama, así como, la demanda de los servicios por parte de los
consumidores y mantener la información actualizada para tomar decisiones trascendentes, esto
puede conseguirse a través de los análisis estadísticos basados en el muestreo.

La estadística, también proporciona las herramientas para conocer y analizar el


comportamiento de la producción en determinados periodos de tiempo, así como, el consumo
de los artículos de primera necesidad en anaquel; el tiempo de espera para ser atendido en una
agencia bancaria o el tiempo de atención y el nivel de satisfacción expresado por los
cuentahabientes; el tiempo necesario para la producción de los cultivos, la cantidad de
insumos para mejorar la productividad, medición del tiempo de desplazamiento de las
máquinas productivas o del transporte de los insumos; medir la calidad por unidad producida.

Es trascendental, el uso de las herramientas estadísticas, en el mejoramiento genético de las


especies.

Y, por qué no decirlo, la estimación de posibilidades de que los “cremas” o los “rojos” ganen
el próximo campeonato¡

Para el estudiante, la estadística “entra por los dedos”, al igual que las ciencias cabalísticas
como las matemáticas; por lo tanto, se facilita la comprensión del conocimiento en la medida
que se participa activamente resolviendo casos y participando en clase. En el presente caso se
da seguimiento a un ejemplo el que mantiene su continuidad de principio a fin y es
responsabilidad del alumno continuar de forma alterna cuatro o cinco ejercicios más.

7
UNIDAD
1
INTRODUCCIÓ
N A LA
ESTADÍSTICA
I. Descripción

La Estadística, en el área de las ciencias ambientales y agrícolas, proporciona las herramientas


para el análisis de la información contenida en los elementos, individuos o la población; a la
vez, permite desarrollar métodos adecuados para la generación de conocimientos por el
manejo de datos, así como, distinguir y clasificar las características o variables en estudio; le
enseña al estudiante a organizar y tabular la información utilizando las medidas adecuadas
para la construcción de tablas de frecuencia, imágenes y, ser capaz así de mostrar resultados
según criterios y normas mínimas.

La Estadística es básica para gobernantes, médicos, psicólogos, sociólogos, pedagogos,


biólogos, arquitectos, ingenieros, químicos, gerentes y demás profesionales de las ramas del
saber; como consecuencia, las decisiones de alto nivel de los gobernantes del mundo, se toman
utilizando información estadística.
Gobierno
central

Ministerio de Ministerio de Ministerio de


Educación Economía Agricultura

8
Esta ciencia permite analizar aspectos de desarrollo humano, tales como salud, educación e
ingresos en la población utilizando la información contenida en las características de los
ciudadanos: edad, peso, tallas, estratos sociales, etc., a la vez, permite inferir sobre la situación
futura de los pueblos en periodos cortos, medianos o largos, que inciden principalmente en la
alimentación.

En la agricultura, su uso trasciende por la necesidad de analizar series de datos de la población


de cultivares (edad, peso, altura, rendimiento y otros) y llegar a conclusiones sobre estas
características o variables dependientes de la producción, alimentación o ingresos.

Si para el Estado es importante la Estadística, porque proporciona la información precisa para


decidir sobre el control de la natalidad, la delincuencia o la economía, para el profesional en
las ciencias ambientales y agrícolas también lo es, porque le permite encontrar respuesta a
grandes cuestionamientos, entre ellos ¿Cómo utilizar los estándares? ¿Cómo ayudan las
puntuaciones a la selección de las plantas? ¿Cómo agrupar los cultivos según sus
rendimientos? ¿Cómo comparar a las plantas con el resto del grupo o el país?

Los métodos estadísticos son imprescindibles en la búsqueda de información a través de la


conducción de experimentos, presentación de resultados, recomendaciones y otorgan al
maestro los mecanismos que facilitan la consecución de objetivos.

II. ¿QUE ES LA ESTADÍSTICA?

Es una ciencia que forma parte de las ramas del saber y utiliza el método científico para el
desarrollo de las investigaciones que competen a los seres vivos, plantas y animales; salud,
educación, vivienda, seguridad, etc., por lo que, se basa en la observación, planteamiento del
problema, su hipótesis, comprobación de estas y la formulación de leyes para tratar prácticas
de incertidumbre.

Es la ciencia que estudia datos masivos para sacar conclusiones


valederas y predicciones razonables.

No solamente se trata de relaciones de tablas, números y gráficas,


sino también, de probabilidad, muestreo e inferencia.

En este entorno, existen diversos puntos de vista si se trata de buscar una definición de
estadística.

III. CONCEPTOS

9
a. Ciencia que se ocupa de los métodos y procedimientos para recoger, clasificar,
resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir
de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso, formular
predicciones.

b. Ciencia que se desarrolla observando hechos, formulando leyes que los explican y
realizando experimentos para validar o rechazar dichas leyes.

c. Es la Ciencia de la sistematización, recogida, ordenación y presentación de los datos


referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico,
con objeto de deducir las leyes que rigen esos fenómenos, y poder de esa forma hacer
previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

d. Ciencia del análisis e interpretación de un conjunto de mediciones.

Originalmente tuvo su aplicación en el estudio y análisis numérico de situaciones propias del


Estado, de donde deriva su nombre (status), vocablo utilizado por primera vez en Alemania en
el siglo XVII.

La Estadística no es una más de las ciencias como


aparenta ser por su uso indiscriminado, sin embargo, es
valedera al momento de conocer la información
científica de informes de accidentes de tráfico,
deportes, turismo, tendencias políticas, estudios de
impacto ambiental; su valor se encuentra a la par de las
ciencias biológicas, médicas, agrícolas, sociales,
educativas, etc., y es la única ciencia que se utiliza en todas estas ramas para el desarrollo de
procesos de investigación. Por lo tanto, es una guía de acción para emplear la información en
casos de incertidumbre.

IV. RAMAS DE LA ESTADÍSTICA

La Estadística se divide en dos grandes ramas que son, la Estadística Descriptiva y la


Estadística Inferencial.

IV.1 Estadística Descriptiva o Deductiva, la cual resume las propiedades de un conjunto


de datos sin inferir de la muestra a la población. Analiza la información actual en los
individuos. Describe a un grupo particular de individuos que han sido
previamente observados (la Estadística Descriptiva se encuentra
comprendida en la primera parte de este curso).

10
IV.2 Estadística inferencial o inductiva, basándose en la teoría de las probabilidades,
generaliza de la muestra a la población. Analiza el efecto de la información actual sobre los
individuos en el futuro. Conforma el conjunto de técnicas para hacer estimaciones sobre las
propiedades de grupos grandes de individuos basado en los datos de las muestras de
individuos u objetos observados. Se le llama también, Estadística de Muestreo (la Estadística
Inferencial se encuentra comprendida en la segunda parte de este curso).

V. HISTORIA

De acuerdo a las investigaciones paleontológicas ha sido posible demostrar que las primeras
civilizaciones trataron de demostrar gráficamente el número de personas, animales y cosas
disponibles en la comunidad, tallando la información en pieles, rocas, maderas y las paredes
de las cuevas.

Los babilonios, 3000 años antes de Cristo, usaban pequeñas tablillas de arcilla para recopilar
datos sobre la producción agrícola, géneros vendidos o cambiados mediante trueque, el
crecimiento de la población, las milicias y sus provisiones. La Biblia describe el trabajo de un
muchacho cuyo nombre fue José, hijo de Jacob (Israel) y sus
destrezas administrativas en Egipto, analizando datos de crecimiento
de la población, renta del país, producción agrícola, antes de la
construcción de las grandes pirámides, más de 3000 años antes de
Cristo. Los libros bíblicos de Números y Crónicas describen sucesos
importantes del pueblo hebreo; el primero, contiene dos censos de la
población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En
China existían registros numéricos similares con anterioridad al año 2000 A.C. Los griegos
clásicos realizaban censos cuya información se utilizaba hacia el año 594 A.C. para cobrar
impuestos.

El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la
población, superficie y renta de todos los territorios bajo su control (Jesús nació en Belén
porque sus padres acudieron a empadronarse a Jerusalem). Durante la edad media sólo se
realizaron algunos censos exhaustivos en Europa. Los reyes carolingios, Pepino el Breve y
Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años
758 y 762, respectivamente.

Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra,


encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge
en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a
principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de

11
población, titulado Observations on the London Bills of Mortality (Comentarios sobre las
partidas de defunción en Londres).

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado


en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla
de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos
los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad
de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones
verbales.

La Estadística como ciencia, germina en épocas más recientes, a partir del siglo XVII, cuando
surgieron de forma simultánea tres escuelas:

a. La administrativa, alemana, que considera problemas de información al Estado, cuyos


principales exponentes fueron Vito de Seckendorff (1626-1689), Hermann Coring (1600-
1689) y Godofredo de Achenwall († 1772).

b. La probabilística, de origen italiano pero devenida francesa sustancialmente, con


figuras como Blaise Pascal (1623-1662), Pierre de Fermat (1601-1655), Pierre Simon,
Marqués de Laplace (1749-1827), Simeón Denis Poisson (1781-1840), los Bernoulli (Jean,
Jacques y Daniel), y el alemán Carl Friedrich Gauss (1777-1855). Considera problemas
relacionados con el azar.
 
c. La demográfica, inglesa, que considera problemas actuariales, encabezada por Petty,
Halley, King, Davenant y Graunt.

Posteriormente, continuó desarrollándose la escuela probabilística, gracias a los trabajos de


rusos como Tchebichev, Tchuprov, Markov, Kolmogorov, y franceses como Borel, Levy y
Fréchet. No obstante, es en los albores del siglo XIX cuando una segunda escuela inglesa,
preocupada por problemas de agricultura y biometría, sienta los cimientos de la ciencia
actualmente llamada Estadística, guiada por grandes de la talla de Sir Francis Galton (1822-
1911), Carl Pearson (1857-1936), Sir Ronald Fisher (1890-1962), y Gosset (Student).

Merecen mención los integrantes de la escuela escandinava Gram, Thiele, Cramer; de la


norteamericana Hotelling, Wilks, Wald, Neyman, Hoel Mood; y el indú Mahalanobis, entre
muchos otros.

No está muy claro el origen etimológico de la palabra estadística, pues algunos la derivan del
griego statera (balanza), otros del latín status (posición, estado, situación), mientras hay
quienes afirman que proviene del alemán staat (estado, situación).

12
Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra
estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que
los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz
remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o
situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística
revela el sentido cuantitativo de las más variadas situaciones.

La palabra estadística deriva del latín moderno statisticum collegium (“consejo de estado”),
del latín antiguo status (“posición”, “forma de gobierno”), de la palabra italiana moderna
statista (“estadista”, “político”) y del italiano antiguo stato (“estado”). En 1749, el alemán,
Gottfried Achenwall (1719-1792) usa el término Statistik en su libro titulado
“Staatswissenschaft der vornehmen Europäischen Reiche und Republiken”, quien
originalmente designó la palabra estadística para el análisis de los datos de un gobierno,
definiéndola como la “Ciencia del Estado”. A Gottfried Achenwall se le conoce como el
“Padre de la Estadística”.

En nuestros días, la Estadística se ha convertido en un método efectivo para describir con


exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y
físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del
experto estadígrafo no consiste ya sólo en reunir y tabular los datos, sino sobre todo, el
proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha
aumentado el alcance de las aplicaciones de la Estadística. Muchos conjuntos de datos se
pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas;
los resultados de éstas se pueden utilizar para analizar otros datos estadísticos. La probabilidad
es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la
cantidad de datos necesarios en un determinado estudio estadístico.

VI. LÓGICA

VI.1 Razonamiento deductivo

Es posible que contemos con algún principio o conjunto de principios generales frente a un
problema determinado y se nos pide averiguar lo que puede suceder bajo un conjunto de
condiciones. El razonamiento a emplear va de lo general a lo particular.

Por ejemplo, la fórmula general para conocer el área de un círculo es, A = πr2, ¿cuál es el área
de un círculo cuyo radio es de 15 centímetros? La respuesta correcta es: 706.86 cm2.

Si tenemos una moneda neutral cuya probabilidad de que caiga cara al ser lanzada al aire es de
0.5, ¿qué sucederá cuando dicha moneda sea lanzada al aire diez veces? Esperaríamos al
menos cinco caras.

13
Entonces, podemos darnos cuenta que los problemas comunes son de este tipo, la solución
requiere el razonamiento deductivo. Un maestro debe ser “versado en los fundamentos
básicos”. Esto implica que debería tener bajo su control un gran acervo de principios generales
y las habilidades del razonamiento deductivo para aplicarlos a casos específicos con sus
alumnos.

VI.2 Razonamiento inductivo

El segundo tipo de problema es opuesto al primero. Se nos dan algunos casos específicos y se
nos pide que lleguemos a algunos principios generales que serán aplicados a todos los
miembros de la clase representada por dichos casos. El razonamiento empleado va de lo
específico a lo general.

Ejemplo: dadas la áreas y los radios de diversos círculos, ¿qué fórmula general podemos dar,
expresando la relación entre las áreas y los radios de todos los círculos?

Dados los resultados de lanzar al aire una moneda diez veces ¿a qué conclusiones podemos
llegar respecto del sesgo o el insesgamiento de la moneda?

Nótese que todos los problemas de este tipo tienen algo en común: todos empiezan con un
grupo de observaciones. En algunos casos, como en la descripción de una planta, las
observaciones de fenómenos son hechas simplemente en la medida en que estos tienen lugar
en la naturaleza; sin embargo, las observaciones se podrían realizar bajo condiciones
controladas. Los factores objeto de estudio se hacen variar en alguna forma sistemática,
mediante la aplicación de tratamientos. Otros factores que pueden ejercer influencia sobre las
observaciones son minimizados hasta el punto en que la práctica lo permita. Tenemos
entonces un experimento.

VI.3 El problema del investigador

Hemos dicho que casi todos los problemas encontrados en nuestra enseñanza son del tipo que
requiere del razonamiento deductivo. Podemos afirmar también que casi todos los problemas
que afronta un maestro son aquellos que requieren del razonamiento inductivo.

¿Cuál es el problema típico que afrontan los investigadores de las ciencias agrícolas? Este
podría establecerse en los siguientes términos generales: ¿afectará la utilización de una técnica
de cultivo el resultado en algún segmento en particular de la producción? Si así fuera, ¿en qué
extensión lo haría? Puesto que estas interrogantes nunca pueden ser contestadas con un 100%
de seguridad, debemos tener en cuenta también el riesgo y el costo de una toma de decisión
incorrecta.

14
Para resolver el problema, por regla general se requiere un experimento. En el experimento
más simple, debe haber solo dos tratamientos: la nueva práctica y la vieja. Un experimento
más complicado puede incluir diversas proporciones o métodos de aplicación de la nueva
práctica. Aun más complejos son aquellos experimentos en que los efectos de diversas
prácticas se estudian simultáneamente.

VI.4 El elemento aleatorio

¿Qué se entiende por problemas en los que los datos se apartan de las leyes de la causalidad
exacta?

En el problema de encontrar el área de un círculo, no hay incertidumbre en cuanto a la


respuesta. Para cualquier radio dado, solo puede existir una respuesta.

El problema de la moneda lanzada al aire constituye algo diferente. El supuesto general es que
………la moneda es neutral; pero incluso para una sola
oportunidad, estamos inseguros en cuanto al resultado. Color del cabello de plantas de maíz

Puede obtenerse solo uno de los dos posibles, siendo 2


ambos igualmente probables. La pregunta de ¿qué Negro

sucederá cuando la moneda sea lanzada diez veces al 7 12


Rubio

aire?, tiene una respuesta aun más insegura, existiendo Castaño

Pelirrojo
para la misma diez resultados posibles según el número
de veces en que ésta caiga en cara; estos resultados
difieren en cuanto a su probabilidad de registrarse. 9

Obviamente ocurrirán casos fortuitos en esta ocasión,


para los cuales no existe una relación simple uno a uno entre causa y efecto.
Tal situación es casi universal en el campo de las ciencias ambientales y agrícolas y no
importa cuánto sepa un científico sobre nutrición, fisiología o medicina: no podrá predecir con
exactitud, por ejemplo, cuál será el alcance de la gripe AH 1N1 sobre la humanidad bajo un
conjunto de condiciones dado. Variaciones aleatorias, debidas a una multitud de causas,
siempre harán variar los resultados, sin importar la cantidad de esfuerzo desplegado para
controlar todos los factores conocidos.

Cuando el elemento aleatorio forma parte de un problema, se introducen dificultades reales.


Estas resultan mucho más serias en el campo del razonamiento inductivo que en el del
razonamiento deductivo.

El investigador no debe desesperanzarse en sus intentos por responder preguntas a través de


observaciones y experimentos: no obstante, deberá darse cuenta de que sus respuestas no serán
nunca absolutas. Deberá hacer generalizaciones con precaución y, solo después de efectuar
cuidadosas observaciones y de ejercitar los mejores sistemas de razonamiento bajo su control.

15
VI.5 Necesidad de la evaluación estadística

La mayoría de los agrónomos ven rápidamente la necesidad del análisis estadístico para sentar
una base objetiva de evaluación: algunos ejemplos pueden resultar útiles. Si contamos con dos
grupos de plantas, el rendimiento de cada uno, aun cuando cuenten con los mismos planes de
cultivo, rara vez será igual; los rendimientos de las demás plantas de la misma especie,
difícilmente son los mismos; la proporción de aumento de rendimientos o crecimiento de dos
plantas de igual edad cualesquiera que sean, casi siempre difiere. Las diferencias de este tipo,
entre rendimiento de diversas variedades de una especie, pueden ser debidas a aspectos
genéticos y ambientales más allá del control razonable de un experimentador. No hay errores
en el sentido de estar equivocados; éstos representan la variabilidad entre unidades
experimentales, denominados error experimental.

Una vez que reconocemos la existencia de esta variabilidad, entendemos la dificultad para
evaluar una nueva práctica, mediante su aplicación a una unidad experimental única y su
comparación con otra unidad que es similar, pero no tratada. El efecto de la nueva práctica se
confunde con la variabilidad no determinada. Así, un experimento con una sola réplica
suministra una medición incompleta del efecto del tratamiento; además, puesto que no existen
dos unidades experimentales igualmente tratadas, éste no suministra mediciones del error
experimental. La ciencia estadística supera estas dificultades, requiriendo la recolección de
datos experimentales que permitirán una estimación imparcial de los efectos del tratamiento y
la evaluación de las diferencias del tratamiento a través de pruebas de significación basadas en
mediciones del error experimental.

VII. EL MÉTODO ESTADÍSTICO

El método estadístico ofrece una doble vertiente. Es por un lado un proceso de pensamiento
asistido por todo el rigor de la ciencia matemática, con un enfoque peculiar de la mentalidad
científica ante la investigación y por otro lado, es la herramienta que permite obtener
conclusiones y presentar resultados con verdadero conocimiento de la confianza de
afirmaciones.

El desconocimiento de las posibilidades del Método Estadístico hace que se recurra a la


estadística al terminar la investigación, cuando se tiene una gran cantidad de datos y se
pretende analizar las consecuencias que de todo ello se pueda deducir. El método estadístico
debe estar presente desde que se inicia la etapa de planificación de la investigación. De esta
forma se evitarán graves errores, costos y esfuerzos.

El método estadístico permite valorar la influencia de la variabilidad biológica y social, ya que


no basta con el “sentido común” para obtener las mejores conclusiones de los trabajos
científicos.

16
El Método Estadístico lo proporciona la Estadística y permite reconocer los  factores causales,
así como los relevantes que reclaman atención; el mismo consta de cuatro etapas que como se
verá, están muy relacionadas con la investigación y es que se trata de aplicaciones del método
científico en ambos casos:

1. Planificación de la investigación.
2. Ejecución,
3. Elaboración y procesamiento de la información recolectada.
4. Análisis, interpretación y presentación.

1. Planificación de la investigación. Esta etapa requiere el desarrollo de los siguientes


aspectos:

Definición de los objetivos


Definición del universo y la muestra
Definición de las unidades de observación
Determinación de la información necesaria y de la fuente de obtención. En el
diseño de instrumentos de recolección
Definición de unidades de medida, de escalas de medición y de clasificación
Elaboración del plan de tabulación y análisis
Organización de la investigación

2. La ejecución estará presente en:

•       Recolección de la información


•       Revisión y clasificación
•       Recuento y presentación de datos
•       Cálculo de medidas de resumen y análisis estadístico de los resultados
•       Inferencia estadística de conclusiones respecto a la hipótesis

Tener en cuenta que se recojan estrictamente los datos necesarios ya que esto conspira en
contra de la obtención del dato real, costo, tiempo invertido y en general en contra de la
investigación. Se recogerá la información escrupulosamente evitando introducir fuentes de
error. Tener en cuenta la forma de controlar los errores, el procedimiento para obtención de la
muestra, el diseño de los formularios para obtención de la información.

Es decir, la etapa de recolección de la información significa, obtener y conservar los valores


de las variables operacionales que son objeto de estudio.

Ello supone:

17
Seleccionar un instrumento de medición
Aplicar este instrumento.
Preparar las mediciones obtenidas para analizarlos correctamente.
 
Ello conduce a identificar los principales aspectos a tener en consideración al recolectar  la
información:

Los errores que pueden cometerse en la recolección de los datos y la manera de


controlarlos estadísticamente,
Los métodos y procedimientos empleados en la recolección de la información.
El universo de la muestra, así como los procedimientos para la obtención de
esta última.
Diseño de formularios para registrar la información.

3. Elaboración y procesamiento de la información:


 
Esta etapa seguirá los siguientes pasos:

 Revisión y corrección obligatoria de la información


 Clasificación y compilación de los datos revisados.
 Presentación de la información.

4. Análisis, interpretación y presentación de la información.

En esta etapa se contrastan las hipótesis formuladas con los datos obtenidos y procesados a
través de diferentes técnicas estadísticas que se  escogen según:

Propósito del Estudio (tipo de estudio)


Tipo de Información recogida (tipo de variable)
Escala de clasificación utilizada,
Número de individuos u objetos estudiados (tamaño de la muestra).

El proceso de investigación científica es la vía principal de obtención de nuevos


conocimientos.

La investigación científica puede definirse como un conjunto de acciones planificadas que se


llevan a cabo con la finalidad de resolver, total o parcialmente un problema científico
determinado.  

Tareas complementarias para la primera unidad.


TAREA 1:

18
Utilizando la información contenida en la primera unidad, se recomienda que los grupos de
estudiantes presenten al catedrático un resumen del siguiente temario:

1. Importancia de la Estadística en la Agricultura


2. Descripción de la Estadística,
3. Historia de la Estadística,
4. El Método Científico,
5. El elemento aleatorio,

UNIDA
D2
DISTRIBUCIÓ
N DE
FRECUENCIA
S
I. Introducción

En los siguientes capítulos nos 7

ocuparemos del estudio de la p 6


lN 5
ai 4
nñ 19
3
to
as 2

s 1

0
0.95 0.96 0.97 0.99 1.01 1.02 1.03 1.04 1.05 1.06 1.08 1.09 1.10

Metros
Estadística Descriptiva que analiza series de datos obtenidos de las características o variables
de los individuos, variables que podemos identificar fácilmente, por ejemplo, altura, peso,
longitud de hojas, número de granos; estos datos se obtienen de manera desordenada y
aleatoria directamente del campo (datos de campo), los cuales son luego ordenados y
tabulados para extraer información o conclusiones sobre el comportamiento de las variables
con otros individuos (Estadística Inferencial).

Llamaremos individuos a los elementos de una población que contienen la información que
deseamos estudiar. Por ejemplo, si deseamos estudiar la altura de una población de maíz de la
variedad ICTA B-7 en un área determinada, cada planta es un individuo o elemento; si el
estudio está encaminado a analizar el precio de las viviendas en Escuintla, cada vivienda
constituye un elemento de la población.

Las variables, son las propiedades o características observadas en los individuos, unidades o
elementos de la población y que pueden adquirir distintos valores los que pueden ser medidos;
también son los estímulos estudiados en una investigación. Para ampliar la visión de este
componente adelante se describen con más detalle.

Las variables pueden ser cualitativas o cuantitativas; las variables cualitativas pueden, a la vez,
ser ordinales o nominales, mientras que las variables cuantitativas pueden ser discretas o
continuas (el estudiante puede ampliar su información leyendo el glosario de estadística que complementa el
presente curso).

Aleatorio, es un término utilizado en Estadística para expresar que los sucesos ocurren sin
seguir un patrón determinado por voluntad humana y por lo tanto, no se puede tener una
respuesta exacta de la ocurrencia del fenómeno. Por ejemplo, los niños juegan de manera
aleatoria en el campo, es decir, no se puede precisar con exactitud qué niño tomará de nuevo la
pelota. Sin embargo, el proceso puede seguir alguna distribución de probabilidad.

II. OBJETIVO GENERAL

Que los estudiantes de la carrera de ciencias ambientales y agrícolas de la Universidad


Rafael Landivar obtengan los conocimientos básicos sobre distribución de frecuencias
como parte de la estadística descriptiva y su importancia.

III. OBJETIVOS ESPECÍFICOS

1. Adquirir habilidades para la toma de datos y clasificación de la información.

20
2. Desarrollar el pensamiento proporcional en los alumnos para preparar y presentar
tablas de frecuencias y manejar ordenadamente los datos utilizando índices
descriptivos, así como, la presentación gráfica de la información.

3. Relacionar la información contenida en la tabla con el tipo de variable que se está


estudiando.

Recordemos que la estadística descriptiva se refiere a la recopilación y descripción de datos


obtenidos de un grupo de individuos, que pueden ser, uno, dos o más grupos.

El siguiente ejemplo será utilizado para la aplicación de los principios estadísticos


relacionados con la distribución de frecuencias; los datos provienen de una muestra de una
plantación de maíz comprendida de 120 plantas y la variable analizada es altura de plantas. Se
recomienda que al igual que este caso, los alumnos adquieran suficiente destreza en la toma de
datos de campo en cualquier población, sea de vegetales o animales, incluso de minerales,
identificando primeramente la variable y luego procediendo al análisis correspondiente.

Al iniciar un estudio de esta índole observaremos dos situaciones, la primera, que tomemos
sola una parte de la población, a la cual llamaremos muestra, suponiendo que la población está
compuesta de muchas plantas (recordemos que una densidad de 45 mil plantas de maíz por
manzana es aceptable y lógica), o bien, tomar a toda la población y en este caso al grupo lo
llamaremos población.

La población son todos los elementos o individuos que contienen la información que estudiaremos, mientras
que, la muestra es solo una parte de esa población.
Una población puede ser finita o infinita. Por ejemplo, la población consistente en las plantas
de maíz en una manzana de extensión de terreno, es finita, mientras que, la población
determinada por todas las plantas de maíz de un país, es infinita.

Al recoger datos relativos a las características de un grupo de individuos u objetos, sea altura
de plantas y peso de granos de maíz o, sacos de azúcar defectuosos producidos en un ingenio,
suele ser imposible o nada práctico observar a cada uno de ellos, en especial si las poblaciones
son muy grandes. En vez de examinar el grupo entero, llamado población o universo, se
examina una pequeña parte llamada muestra.

Muestra aleatoria: Es una parte de la población tomada al azar;


para que se considere propia y representativa de la población, deberá
ser tomada al azar.

Los datos obtenidos (sea de la población o muestra) se ubican en una


tabla, llamada, de distribución de frecuencias, la cual es importante porque permite:

21
Ordenar,
Agrupar y,
Resumir información.

En nuestro caso, para analizar la altura de las plantas, dividiremos el trabajo en varias partes,
cada una siguiendo una secuencia lógica, a estos procedimientos les llamaremos métodos.

IV. Metodología

IV.1. Primera fase: Obtener la información de campo

En una hoja de papel, el técnico agrícola a cargo de la investigación, toma los datos
observados de la altura de las treinta plantas de maíz; por ejemplo:

Cuadro 1. Altura de una muestra de ciento veinte plantas de maíz


Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur
a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a
(mt)
1.01 1.01 1.10 1.00 1.04 0.97 1.03 0.98 0.99 1.10 1.11 1.01
1.03 1.05 0.98 1.08 1.04 0.98 0.99 0.98 0.96 1.09 1.12 1.01
1.10 0.95 0.99 0.95 1.06 0.98 1.00 1.10 0.95 1.03 1.09 1.06
1.11 1.01 1.11 1.01 0.99 0.94 1.00 1.11 0.96 0.99 0.95 1.08
1.09 1.04 1.05 1.02 0.99 0.95 1.05 1.12 0.95 0.95 0.96 0.96
0.99 0.95 0.97 0.95 0.95 1.10 1.01 1.12 1.11 1.02 0.96 0.96
0.98 0.95 0.98 0.95 0.96 1.11 1.01 1.10 1.10 1.03 0.96 1.04
0.99 1.03 1.09 0.97 0.96 0.99 0.93 0.99 0.99 1.03 0.97 1.05
0.98 1.03 1.08 0.99 0.99 0.94 0.93 1.09 0.94 0.97 0.99 1.03
0.95 0.99 0.99 1.10 1.01 0.94 0.93 1.08 0.95 1.06 1.00 1.09
A estos valores les llamaremos datos u observaciones de campo, debido a que contienen la
información bruta o información obtenida directamente de los individuos. Es la medición de
las observaciones que realiza el investigador en el lugar donde ocurren los sucesos o eventos,
para extraer los datos.

Para llevar a cabo la toma de datos dentro del proceso de la investigación, hemos contado con
algunos materiales, entre ellos, cinta métrica, lápiz, cuaderno, cartulina, marcadores, ganchos
y otros. Es importante que al momento de plantear una investigación se describan todos los
materiales necesarios para desarrollar el trabajo.

El presente caso, se trata de una muestra compuesta de 120 plantas de maíz (individuos), los
cuales representaremos por n (ene minúscula). Las 120 plantas fueron tomadas al azar de una
población de 45 mil plantas y constituyen la muestra.

IV.2 Segunda fase: Ordenar la información

22
Viendo la hoja de campo del agrónomo, difícilmente podemos responder a cualquier análisis o
pregunta relacionada con los datos, por lo que es necesario ordenarlos. Para ello existen varios
procedimientos, en el presente caso, los colocaremos en una tabla ordenando los valores del
menor al mayor.

Cuadro 2. Ordenamiento de los datos.


Altur Altura Altura Altur Altura Altura Altur Altura Altura Altur Altura Altura
a (mt) (mt) (mt) a (mt) (mt) (mt) a (mt) (mt) (mt) a (mt) (mt) (mt)
0.93 0.95 0.95 0.97 0.98 0.99 1.00 1.01 1.03 1.06 1.09 1.10
0.93 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.03 1.06 1.09 1.11
0.93 0.95 0.96 0.97 0.98 0.99 1.00 1.02 1.04 1.06 1.09 1.11
0.94 0.95 0.96 0.97 0.99 0.99 1.01 1.02 1.04 1.08 1.10 1.11
0.94 0.95 0.96 0.97 0.99 0.99 1.01 1.03 1.04 1.08 1.10 1.11
0.94 0.95 0.96 0.98 0.99 0.99 1.01 1.03 1.04 1.08 1.10 1.11
0.94 0.95 0.96 0.98 0.99 0.99 1.01 1.03 1.05 1.08 1.10 1.11
0.95 0.95 0.96 0.98 0.99 0.99 1.01 1.03 1.05 1.09 1.10 1.12
0.95 0.95 0.96 0.98 0.99 0.99 1.01 1.03 1.05 1.09 1.10 1.12
0.95 0.95 0.96 0.98 0.99 1.00 1.01 1.03 1.05 1.09 1.10 1.12

Observando el cuadro 2, podemos darnos cuenta de lo siguiente:

Se dispone de 120 observaciones


El valor de la observación más pequeña es 0.93 metros,
El valor de la observación más alta es 1.12 metros,
Algunos valores se repiten más que otros.

Si algunos valores se repiten, entonces podemos preparar otra tabla en la cual resumimos los
mismos datos según sus repeticiones y a estas repeticiones llamaremos frecuencias.
Cuadro 3. Ordenamiento de los
Variable Variable
Repeticiones datos Frecuencias según las repeticiones o
(altura) (altura) frecuencias
0.93 3 0.93 3
0.94 4 0.94 4
0.95 14 0.95 14
0.96 9 0.96 9
0.97 5 0.97 5
0.98 8 0.98 8
0.99 16 0.99 16
1.00 4 1.00 4
1.01 9 1.01 9
1.02 2 1.02 2
1.03 8 1.03 8
1.04 4 1.04 4
1.05 4 1.05 4
1.06 3 1.06 3
1.07 0 1.07 0
1.08 4 1.08 4 23
1.09 6 1.09 6
1.10 8 1.10 8
1.11 6 1.11 6
1.12 3 1.12 3
Total 120 Total 120
Y con esta información preparamos una tabla más amplia que llamaremos tabla de
frecuencias, de utilidad para clasificar a un grupo de individuos según sus características
cualitativas o cuantitativas que facilitará el análisis estadístico.

IV.3 Tercera fase: Preparar la tabla de distribución de frecuencias

La distribución de frecuencias: es la representación estructurada en forma de tabla de toda la


información que se ha recogido sobre la variable en estudio, en este caso es la altura de las
plantas de maíz.

El término modalidad, que empezaremos a utilizar en el curso, implica las situaciones posibles
de una característica, las cuales son exhaustivas y mutuamente excluyentes; es decir, cada
elemento contiene una y solo una de las modalidades posibles. Por ejemplo, una planta de
maíz solamente puede contener una altura, en ningún caso una planta puede tener dos alturas.

Llamaremos clase, a la subdivisión de la escala de datos. Encontramos que cada modalidad


pertenece a una y sólo a una de las clases. Por ejemplo, la clase de 0.93 metros.

Al respecto de las frecuencias podemos decir, que existen dos tipos que son: a) frecuencias
absolutas, b) frecuencias proporcionales y c) frecuencias relativas; y cada uno de estos tipos de
frecuencia pueden a la vez subdividirse en, simples y acumuladas.

Frecuencias absolutas: Se refiere al número de observaciones que presentan una misma


modalidad. Es el número de veces que se repite un dato. Por ejemplo, para la modalidad de
0.94 metros, se encontraron cuatro plantas.

Frecuencia absoluta simple: Es el número de observaciones que presenta una misma


modalidad. Por ejemplo, para la modalidad de 0.93 metros, se encontraron tres plantas; para la
modalidad de 0.96 metros se encontraron nueve plantas.

Frecuencia absoluta acumulada: Frecuencia de cada observación, más la suma de los


valores anteriores a la misma. Por ejemplo, la frecuencia absoluta acumulada para la

24
modalidad de 0.94 metros será 7 (esto es, la frecuencia de la clase, que es 4 más la frecuencia
acumulada de la anterior que es 3).

Frecuencia proporcional: Es el cociente entre las frecuencias absolutas de cada clase y el


número total de observaciones, expresado en términos fraccionarios.

Frecuencia proporcional simple: Es el cociente de las frecuencias de una clase y el número


total de sus observaciones, expresadas en términos fraccionarios. Por ejemplo, la frecuencia
proporcional simple de la clase de 0.93 metros es de 3/120 y equivale a 0.0250.

Frecuencia proporcional acumulada: Es el valor de cada clase, más la suma de los


valores anteriores al mismo, expresados en términos fraccionarios. Por ejemplo, la frecuencia
proporcional acumulada de la clase de 0.94 metros es de 0.0583 (0.0250 de la clase anterior
más 0.0333 de la clase actual).

Frecuencia relativa: Es el cociente entre las frecuencias absolutas de cada clase y el número
total de observaciones, expresado en términos porcentuales.

Frecuencia relativa simple: Es el cociente de las frecuencias de una clase y el número total
de sus observaciones, expresadas en términos porcentuales. Por ejemplo, la frecuencia relativa
simple de la clase de 0.93 metros es de 3/120 y equivalente al 2.5%.

Frecuencia relativa acumulada: Es el valor de cada clase, más la suma de los valores
anteriores al mismo, expresados en términos fraccionarios o porcentuales. Por ejemplo, la
frecuencia relativa acumulada de la clase de 0.94 metros es de 5.83% (2.5% de la clase
anterior más 3.33% de la clase actual).

Con esta información podemos preparar la tabla de distribución de frecuencias siguiente:


Cuadro 4. Tabla de frecuencias de la altura de 120 plantas.

Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16

25
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

Utilizando esta tabla de frecuencias podemos presentar al catedrático o a quien interese


información descriptiva de la variable en estudio. Por ejemplo:

De acuerdo al estudio realizado con las 120 plantas de maíz, se encontró que 4
de ellas tienen una altura de 0.94 metros, equivalente al 3.33% de la población.

También se observó que de 0.93 a 0.95 metros de altura, se encontraron 21


plantas, que acumulan el 17.50% de la población en estudio.

Y así sucesivamente, las estudiantes pueden presentar información preliminar utilizando esta
tabla de distribución de frecuencias.

La variable en estudio en este caso es “altura de plantas”; generalmente las variables se


identificarán con las letras latinas x, y ó z. En el presente caso la variable la hemos identificado
con el signo X. Para cada una de las clases tomará los valores X1, X2, X3, hasta Xn.

La población total son las 120 plantas de maíz y la identificaremos con el símbolo n, porque se
trata de una muestra; si se tratara de una población la identificaríamos con la letra N y cada
frecuencia simple podría constituirse en una muestra de la población y la identificaríamos con
la letra n, de donde, cada frecuencia absoluta simple podría constituirse en una n 1, n2, n3, hasta
nn.

Esto nos permite preparar la siguiente tabla de valores estadísticos.

Cuadro 5. Distribución de variables según frecuencias.


Variable Frecuencia absoluta Frecuencia relativa
26
(valor) simple acumulada Simple (%) Acumulada (%)
X1 N1 N1 f1 = n 1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f 2
... ... ... ... ...
n1 + n2 +…+ nn-
Xn-1 nn-1 fn-1 = nn-1 / n f1 + f2 +..+ fn-1
1

Xn nn Σn fn = n n / n Σf

Siendo X  los distintos valores que puede tomar la variable. 


Siendo n  el número de veces que se repite cada valor. 
Siendo  f  el porcentaje que la repetición de cada valor supone sobre el total. 

Con los datos descritos podemos preparar también la tabla de frecuencias relativas acumuladas
de toda la población, la cual es importante para el reconocimiento de percentiles (como se verá
adelante).

Una tabla de distribución de frecuencias puede obtenerse a través de un programa de


estadística; en el presente caso se hará uso del programa SPSS contenido en la obra
ESTADÍSTICA de Mario Triola y, con el estudiante se realizarán las prácticas necesarias para
su reconocimiento.

IV.4 Cuarta fase: Agrupamiento por intervalos de clase.

Cuando los valores que toma la variable son muy diversos y cada uno de ellos se repite muy
pocas veces, entonces conviene agruparlos por intervalos, de otra manera obtendríamos una
tabla de frecuencias muy extensa que aportaría muy poco valor en la síntesis. Esto origina una
tabla de distribución de frecuencias agrupadas en intervalos de clase. Por ejemplo, si las
ciento veinte plantas en estudio tuvieran cada una, una medida distinta, tendríamos
necesariamente una tabla con ciento veinte líneas (una para cada valor) que corresponderían a
cada una de ellas y por lo tanto, cada una con una frecuencia absoluta de 1 y con una
frecuencia relativa de 0.83% que seria de poca utilidad para la presentación de la información.

IV.4.1 Intervalo de clase: Pequeña sección de la escala según la cual se agrupan los datos
de una distribución de frecuencia. Los números extremos de un intervalo se conocen como
límites de clase, el número menor es el límite inferior de la clase y el mayor, es el límite
superior. El intervalo de clase, es realmente un símbolo para la clase.

IV.4.2 Tamaño o rango de la Clase: El tamaño o anchura de un intervalo de clase es la


diferencia entre los límites reales de clase que lo forman.

27
Pero antes de continuar con el agrupamiento de las variables por intervalos de clase conviene
revisar la terminología pertinente a las variables con las que nos vamos a encontrar (ver
cuadro siguiente).

GLOSARIO:

Variable aleatoria: Variable cuyo resultado varía según la muestra y una distribución de probabilidad.

Variables cuantitativas: Son aquellas que contienen alguna información numérica que se le puede asociar a los
individuos de una población. Esta caracterización puede ser clasificada en discreta y continua.

Variable cualitativas; Son aquellas variables que como su nombre lo indica, están relacionadas con sus
características exteriores. No se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).
Cuando las modalidades posibles son de tipo nominal. Por ejemplo, una variable de color.

Variables discretas: Es una variable que puede asumir un número contable de distintos valores. Es decir, la
cantidad de valores que puede asumir una variable discreta puede contarse fácilmente (potencialmente, ya que puede
que nunca se llegue al final). Un conjunto contable es aquel en que a cada elemento puede asignarse un número
natural. Ejemplos: números que se asignan a cada niño, marca de autos que cruzan determinada intersección, sexo,
número de hojas en un cuaderno, el conjunto de números enteros, el conjunto de números naturales, etc.

Variable continua: Es una variable que puede adquirir valores en un conjunto no contable de objetos, tal
como un intervalo o la recta numérica. Ejemplos: estatura, largo, peso, distancia, tiempo, volumen, etc.

Variable dependiente: Es aquella que adquiere un valor en función de una o más variables (independientes).

Variable independiente o explicativa: Es aquella que sirve para construir un modelo que explique el
comportamiento de una o más variables respuesta.

Variables dicotómicas: Son aquellas que, por su propia naturaleza sólo pueden manifestarse según dos
modalidades.

Variables nominales: Variables que son descritas por algunas características de sus integrantes.

Variables cuasicuantitativas: Son variables nominales que a pesar de ello se pueden ordenar entre ellas,
ejemplo de ellas los pueden representar los valores que pueden tomar los corredores  en una competencia, en la
forma en que llegan a la meta, primer lugar, segundo lugar, etc...

Variables unidimensionales: Sólo recogen información sobre una característica (por ejemplo: edad de los
alumnos de una clase).

Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad,
altura y peso de los alumnos de una clase).

Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y
altura de los alumnos de una clase).

Variables aleatorias continuas: Permiten una infinidad de valores al azar dentro de un intervalo,
considerándose variables continuas precisamente por la posibilidad de poder tomar cualquier valor dentro de una
infinidad de valores.

Variables aleatorias discretas: Las variables cuya naturaleza toma un número finito de  valores enteros, tales
como: los estudiantes de la escuela de medicina de una universidad, los alumnos reprobados en la materia de
matemáticas, el número de peces en un estanque, el número de cursos que un estudiante debe cursar para graduarse,
etcétera. El conjunto de valores que podría de tomar una variable aleatoria discreta  puede ser finita o infinita
numerable

28
Para tratar lo relacionado con los intervalos de clases, primeramente es necesario elegir las
clases.

IV.4.3 Elección de las clases. Deben seguirse los siguientes criterios en función del tipo de
variable que estudiemos:

Cuando se trate de variables cualitativas o cuasicuantitativas, las clases serán de tipo nominal.
Por ejemplo, color del estigma de las mazorcas, color del grano, etc.

En el caso de variables cuantitativas, existen dos posibilidades:

* Si la variable es discreta, las clases serán valores numéricos exactos, por ejemplo, 1, 2,
4, 6, etc.

* Si la variable es continua las clases vendrán definidas mediante Intervalos, por


ejemplo: 1.01 – 2.08, 2.09 – 3.05, etc.

Un intervalo, es el espacio comprendido entre dos valores numéricos, uno de ellos menor y el
otro mayor. Por ejemplo, 0.93 – 1.01. Al valor menor le llamaremos límite inferior (li) y al
valor mayor limite superior (ls).

En este caso, las modalidades que contienen una clase son todos los valores numéricos
posibles contenidos en el intervalo.

IV.4.4 Cálculo del número de intervalos “k”

Uno de los problemas con que podemos encontrarnos es determinar el número de intervalos
para un grupo de datos. Identificaremos el número de intervalos con la letra “k” que nos
permita trabajar cómodamente y observar mejor la estructura de los datos.

Para solucionar esta dificultad tenemos dos posibilidades:

 Si los datos no son muchos, sencillamente

k = √n
Por ejemplo, si n representa a 30 plantas e igual número de observaciones, entonces

k= √ 30 = 5.47

La cantidad de intervalos será de 6 (no se recomienda utilizar el valor menor 5, porque puede
dar lugar a dejar fuera algunos datos).
29
Se recomienda aproximar el número de intervalos al entero próximo superior; este valor no
será menor a 5, ni un valor mayor a 15; en este caso la tabla estaría constituida por seis
intervalos.
 Si el número de observaciones es mayor a 30, entonces se recomienda utilizar la
regla de Sturgis, según la cual:

k = 1 + 3.322 log n

Por ejemplo, para 120 observaciones que provienen de igual número de plantas de maíz, la
cantidad de intervalos sería:

k = 1 + 3.322 log 120 = 7.91, es decir, se recomiendan 8 intervalos.

IV.4.5 Cálculo del rango, “A”

También es necesario conocer la amplitud total de los datos de la población o rango


poblacional el cual se identifica con la letra “A” y se calcula, restando del valor máximo el
valor mínimo.

A = Xmax - Xmin

Para nuestro caso, Xmax es 1.12 metros y Xmin es 0.93 metros, de donde,

A = 1.12 - 0.93 = 0.19 metros

IV.4.6 Cálculo de la amplitud del intervalo, “a”

La amplitud del intervalo lo identificaremos con la letra “a”, y se refiere a las cantidades
contenidas en cada clase y se calcula,

a = A/k, es decir, a = 0.19/8 = 0.02375 metros

Se procede entonces a preparar la tabla con los intervalos de clase sumando al valor de la
primera observación el valor de “a”, es decir, 0.93 + 0.02375, hasta concluir los ocho
intervalos.

30
Cuadro 7. Tabla de distribución de frecuencias por intervalos de clase.
frecuencias frecuencias frecuencias
absolutas proporcionales relativas (%)
li ls simple acumulada simple acumulada simple acumulada

1 0.9300 0.95375 21 21 0.18 0.1750 17.50 17.50

2 0.9538 0.97750 14 35 0.12 0.2917 11.67 29.17

3 0.9775 1.00125 28 63 0.23 0.4083 23.33 40.83


4 1.0013 1.02500 11 74 0.09 0.5250 9.17 52.50

5 1.0250 1.04875 12 86 0.10 0.6417 10.00 64.17


6 1.0488 1.07250 7 93 0.06 0.7583 5.83 75.83
7 1.0725 1.09625 10 103 0.08 0.8750 8.33 87.50

8 1.0963 1.12000 17 120 0.14 0.9917 14.17 99.17

Como puede observarse han sido utilizados los ocho intervalos que fueron calculados y no han
quedado valores fuera de la amplitud total.

Después se procede a completar la demás información que corresponde a la tabla de


frecuencias con datos agrupados, calculando el número de observaciones para cada intervalo.
Por ejemplo, para el intervalo comprendido entre 0.9300 y 0.95375 se encontraron 21
observaciones y esta es la frecuencia simple de la primera clase.

Al igual que en el caso de la tabla de frecuencias con datos no agrupados, podemos presentar
información a quien interese, como la siguiente:

 De acuerdo al estudio realizado con las ciento veinte plantas, se encontró que 21 de
ellas tienen una altura comprendida entre 0.9300 y 0.95375 metros, equivalente al
17.50% de la población.

 También se observó que de 0.9300 a 1.00125 metros de altura, se encontraron 63


plantas, que equivalen al 40.83% de la población en estudio.

Y de manera sucesiva los estudiantes pueden ampliar la presentación de la información de este


estudio.

IV.4.7 Marca de clase “c”

Llamaremos marca de clase, a un punto representativo del intervalo y lo identificaremos con


la letra “c”. Si éste es acotado, tomamos como marca de clase al punto más representativo, es

31
decir al punto medio del intervalo que se obtiene, dividiendo entre 2, la sumatoria del límite
inferior más el límite superior:

li+ls
c=
2

Para la primera clase de la tabla de distribución de frecuencias antes descrita,

c = (0.9300 + 0.95375)/2 = 0.9419 m

La marca de clase es una forma abreviada de representar un intervalo mediante uno de sus
puntos y constituye el valor representativo para todos los individuos de esa clase. Por ello
hemos tomado como representante el punto medio del mismo. Esto está plenamente
justificado si recordamos que cuando se mide una variable continua como el peso, la cantidad
con cierto número de decimales que expresa esta medición, no es el valor exacto de la
variable, sino una medida que contiene cierto margen de error, y por tanto representa a todo un
intervalo del cual ella es el centro.

IV.4.8 Límites reales de clase


Si las alturas se registran con aproximaciones, el valor de clase 0.9300 – 0.95375 incluye todas
las medidas desde 0.9250 m hasta 0.953755 m, estos números se conocen como límites reales
de clase o límites verdaderos de clase; el menor de ellos, 0.9250, es el límite real inferior, y el
mayor de ellos, 0.953755 es el límite real superior.

Para el cálculo de los límites reales de clase puede seguirse la siguiente regla:
 Si el decimal es 0,1,2,3 ó 4, redondee hacia el entero inferior.
 Si el decimal es 6,7,8,ó 9, redondee hacia el entero superior.
 Si el decimal es 5, observe la siguiente posición decimal a la derecha y, si el
número es 5 o mayor, redondee hacia el entero superior. Si no existe algún
número en esa siguiente posición decimal, deje el redondeo en ese número

TAREA 2
Que los grupos de estudiantes presenten al catedrático una tabla de distribución de frecuencias
simple y una tabla de distribución de frecuencias con datos agrupados en intervalos de clase
utilizando otro caso (a discreción del grupo) y responder a cinco preguntas para cada caso.

BIBLIOGRAFÍA:
Vergara Schmalbach, Juan Carlos; Quezada Ibarguen, Victor Manuel. ESTADÍSTICA
BÁSICA CON APLICACIONES EN MS EXCEL. Programa de Administración Industrial.
Universidad de Cartagena. Colombia. 2005. pp 18-47.

32
UNIDA
GRÁFICOS Y
I.
D 3
DIAGRAMAS Introducción

Como hemos visto, la tabla


de distribución de frecuencias resume los datos obtenidos por la medición de la altura de una
muestra de ciento veinte plantas de maíz. Esta información puede ser analizada de manera más
sistemática y resumida mediante el uso de gráficos y diagramas.

Las tablas de distribución de frecuencias y las representaciones gráficas son dos maneras
equivalentes de presentar la información. Las dos exponen ordenadamente la información
recogida en una muestra. En todo caso, se tiene la ventaja de disponer de una amplia gama de
gráficos para cada variable en estudio.

La ventaja de los gráficos con respecto a las tablas estudiadas en el capitulo anterior, es que permite una fácil interpretación y
análisis de los datos, al mostrar las frecuencias mediante símbolos, barras, polígonos y sectores.

Puede ser de utilidad para las presentaciones de los trabajos de investigación a catedráticos,
demás compañeros de estudio, gerentes de empresa, directores, parientes, etc.

III. OBJETIVOS ESPECÍFICOS

1. Conocer los diversos tipos de gráficas


disponibles para la presentación de la
información.

2. Crear en los alumnos la destreza de crear


gráficas a partir de las tablas de distribución de
frecuencias para la presentación de la
información.

3. Fomentar el uso de gráficas para ampliar la presentación de la información


obtenida en las investigaciones.

4. Utilizar adecuadamente los gráficos en las diversas variables.

5. Interpretar la información utilizando solamente las gráficas.

33
III. Gráficos para variables cualitativas

Recordemos que las variables cualitativas son aquellas que describen características de la
población (colores, olores, sabores, sexo, nacionalidad u otros); las variables cualitativas
pueden ser nominales y ordinales.

Los gráficos más usuales para representar variables de tipo nominal son:

III.1 Diagramas de barras

En el eje de las ordenadas (x) representamos las modalidades y en el eje de las abscisas (y) las
frecuencias absolutas o bien, las frecuencias relativas.

En la siguiente tabla se muestra el color de estigma encontrado en treinta plantas de maíz; al


mismo tiempo se presenta su correspondiente gráfica.

Cuadro 8. Color del estigma


Color del estigma Plantas
Negro 12
Rubio 9
Castaño 7
Pelirrojo 2
Total 30

Observando la grafica anterior podemos decir, que se encontraron doce plantas con el estigma
de color negro y dos plantas lo tienen pelirrojo.

Los diagramas de barras también nos permiten comparar una variable cualitativa en diferentes
poblaciones; en este caso, la altura de las barras es proporcional a la cantidad de observaciones
de cada variable.

También es de utilidad para comparar las mismas variables en más de una población. Por
ejemplo, se desea comparar gráficamente la variable color del estigma de la mazorca entre las
variedades del altiplano y variedades del trópico, de acuerdo a la siguiente tabla:

34
Cuadro 9. Descripción del color de estigmas encontrado en mazorcas de dos variedades de maíz y
su gráfica

Color del Plantas del Plantas del


estigma altiplano trópico
Negro 12 11
Rubio 9 6
Castaño 7 8
Pelirrojo 2 3
Total 30 28

Observando la gráfica anterior podemos decir, que doce plantas de maíz del altiplano tienen
mazorcas con estigma negro; que dos plantas de maíz del altiplano y tres plantas de maíz del
trópico lo tienen pelirrojo.

La preparación de estos gráficos es sumamente fácil cuando nos auxiliamos de una


computadora y el programa Excel o de los graficadores de otros programas de estadística u
otro programa afín (por ejemplo, el programa SPSS).

III.2. Diagramas de sectores

Los diagramas de sectores (también se le llama diagrama de pastel), pueden ser utilizados
para graficar variables cualitativas. Por ejemplo, vimos que el color del estigma de las
mazorcas de las plantas de maíz es distinto entre cada una de ellas. Utilizando la misma tabla
es posible obtener una grafica de pastel para esta característica.

Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. El arco de
cada porción se calcula usando la regla de tres:

n es a 360º
ni es a x

donde “n” son todas las unidades (n = 30) y “ni” las unidades por sector (por ejemplo, ni=12),
entonces, a ni le corresponden:

360 (12 30) = 144º

35
Cuadro 3. Descripción del color del estigma de las plantas de maíz.

Color del cabello Plantas


Negro 12
Rubio 9
Castaño 7
Pelirrojo 2
Total 30

Analizando la gráfica podemos decir que, en treinta plantas de maíz, doce tienen mazorcas con
el estigma negro.

III.3. Pictogramas

Los pictogramas utilizan símbolos para representar un conjunto de datos. La mayor frecuencia
se identifica por la mayor acumulación de símbolos. Los pictogramas se emplean sobre todo,
para hacer más amigables y entendibles los informes estadísticos. Sus características son:

- Su formato es libre.
- Emplean una secuencia de símbolos para representar frecuencias.
- Se emplean para el tratamiento de datos tanto cualitativos como cuantitativos.

Los pictogramas expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. Estos gráficos se hacen representando a diferentes escalas un
mismo dibujo.

Por ejemplo, hemos observado que la altura de las plantas de maíz varía entre 0.93 y 1.12
metros

Altura 1.0488 – 1.07250 1.0725 – 1.025 – 1.04875 1.0963 – 1.12 0.93 – 0.95375

36
1.09625 0.9775 – 1.00125
Planta 7 10 12 17 21 28
s
Otro ejemplo de pictogramas es el presentado en la gráfica 7, que demuestra el desarrollo de cerdos
que consumieron maíz con alta calidad de proteína y cerdos que consumieron maíz normal.
  
Gráfica 7: Pictograma. Las áreas son
proporcionales a las frecuencias.

Crecimiento de cerdos

Consumió maíz QPM No consumió maíz QPM

IV. Gráficos para variables cuantitativas

Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a
continuación las diferentes representaciones gráficas que pueden realizarse para cada una de
ellas así como los nombres específicos que reciben.

IV.1 Gráficos para variables cuantitativas continuas

IV.1.1 Diagrama de sectores

Utilizando la siguiente tabla de distribución de frecuencias con datos agrupados en intervalos


de clase, podemos diagramar las seis clases en que dividimos un grupo de treinta plantas según
su altura.

Cuadro 4. Altura de treinta plantas de maíz agrupadas en intervalos de clase.


Intervalo de clase Frecuencia absoluta Frecuencia relativa
Acumulada
(altura) Simple Acumulada Simple (%)
(%)
0.95 – 0.975 7 7 23.33 23.33
0.975 – 1.00 2 9 6.67 30.00
1.00 – 1.025 5 14 16.67 46.67
1.025 – 1.05 10 24 33.33 80.00
1.05 – 1.075 2 26 6.67 86.67
1.075 – 1.10 4 30 13.33 100.00
Total 30 100.00

37
Y el gráfico a obtener es el siguiente:
frecuencia simple
Para crear este tipo de gráfica, hemos
0.95 – 0.975
utilizado dos columnas, la primera, la que 4
7
contiene los intervalos de clase y la 0.975 – 1.00
2
segunda, la frecuencia absoluta simple. 1.00 – 1.025

1.025 – 1.05
Observando la grafica podemos concluir: 2
1.05 – 1.075

a. De treinta plantas de maíz, diez 10 1.075 – 1.10


5
tienen una altura que oscila entre 1.025
metros y 1.05 metros.

b. De esta población, siete plantas tiene una altura que oscila entre 0.95 y 0.975 metros.

También podemos crear una gráfica que demuestre la misma información en porcentajes.

En este caso, podemos concluir que: 13.33


23.33
0.95 – 0.975

0.975 – 1.00
6.67
a. El 33.33% de las plantas en estudio tienen 1.00 – 1.025

una altura que oscila entre 1.025 metros y 1.05 1.025 – 1.05
6.67
metros. 1.05 – 1.075

1.075 – 1.10
33.33
b. El 23.33% de las plantas tiene una altura 16.67

que oscila entre 0.95 y 0.975 metros.

IV.1.2 Pictogramas

Los pictogramas expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. Estos gráficos se hacen representando a diferentes escalas un
mismo dibujo.

Por ejemplo, hemos observado que la altura de las plantas de maíz oscila entre 0.95 y 1.10
metros

38
Altura 0.95 – 0.975 0.975 – 1.00 1.00 – 1.025 1.025 – 1.05 1.05 – 1.075 1.075 – 1.10
Planta 7 2 5 10 2 4
s

El escalamiento de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la
modalidad que representa. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean
comprendidos por el público no especializado, sin que sea necesaria una explicación compleja.

V. Gráficos para variables discretas

Para las variables cuantitativas, consideraremos dos tipos de gráficos; para realizarlos pueden
ser utilizadas las frecuencias absolutas y relativas o las frecuencias acumuladas:

V.1. Diagramas diferenciales:

Son aquellos en los que se representan frecuencias absolutas o relativas en la forma de


barras. En ellos se representa el número o porcentaje de elementos que presenta una
modalidad dada.

V.2. Diagramas integrales:

Representan el número de elementos de una modalidad inferior o igual a una dada. Se realizan
a partir de las frecuencias absolutas acumuladas, lo que da lugar a gráficos crecientes, y es
obvio que este tipo de gráficos no tiene sentido para variables cualitativas.

Cuando representamos una variable discreta, usamos el diagrama de barras cuando


pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el
valor que toma la variable. El diagrama integral o acumulado tiene, por naturaleza de la
variable, forma de escalera. Un ejemplo de diagrama de barras así como su diagrama integral
correspondiente están representados en la siguiente figura.

39
Figura: Diagrama diferencial (barras) y diagrama integral para una
variable discreta. Obsérvese que el diagrama integral (creciente)
contabiliza el número de observaciones de la variable inferiores o iguales
a cada punto del eje de abcisas.

La gráfica anterior se refiere al hecho de lanzar tres monedas al aire en 8 ocasiones y se


contabiliza el número de caras, X, obteniéndose los siguientes resultados:

Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando


las modalidades:

Ordenamos a continuación los datos en una tabla estadística, y se prepara la siguiente


representación.  

V.3 Diagrama de barras.

Se usa cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para
demostrar que los valores que toma la variable son discretos y se deja un espacio entre barras
para indicar los valores que no son posibles.

Ejemplo: El ICTA dispone, en el centro de producción “Labor Ovalle”, Quetzaltenango, de


cinco campos de producción de semilla de maíz para el altiplano alto, cada uno con un número
de plantas distinto. El siguiente cuadro, nos permite conocer esta información.

40
Cuadro 8. Población de plantas de maíz por campo

Campo Plantas 50
Plantas de maiz por campo

A 30 40
B 25

P lan tas
30
C 32
20
D 41
E 34 10

0
A B C D E
Campos de produccion

Analizando la gráfica podemos deducir:

i. En el campo A fueron encontradas treinta plantas


ii. En el campo B fueron encontradas veinticinco plantas.

V.3.1 Diagrama de barras acumulado

Un ejemplo de diagrama de barras acumulado o integral se representa abajo. Es posible


construir una gráfica para la acumulación de las variables discretas, la cual tendrá forma de
escalera; si utilizamos el ejemplo del cuadro anterior, podemos obtener la siguiente gráfica.

Cuadro 9 175
acumulado

Nivel acumulado 150


125
1 30
100
2 55 75
3 87 50
25
4 128
0
5 162 1 2 3 4 5

De acuerdo a la gráfica anterior, la acumulación de plantas desde el campo A hasta el E, es de


162 plantas. A este diagrama también se le llama acumulativo o creciente.

Décimos que una variable es discreta cuando no puede tomar ningún valor intermedio entre
dos números. Por ejemplo, en el campo A no podemos encontrar 12.5 plantas. Por el contrario,
una variable es continua cuando puede tomar diversos valores entre dos datos.

Por ejemplo, la altura de las plantas de la primera clase puede variar entre 0.95 a 0.975 m, es
decir, podemos encontrar alturas de 0.955, 0.9502, 0.959, etc.

41
VI. Gráficos para variables continuas

VI.1 Histogramas

Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo,


un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada
rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas)
de cada intervalo y el área de los mismos.

VI.2 Polígonos de frecuencias.

El polígono de frecuencias se construye fácilmente si tenemos representado previamente el


histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que
corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y
último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma
amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que
corresponden a sus marcas de clase. De este modo, el polígono de frecuencias tiene en común
con el histograma el que las áreas de las gráficas sobre un intervalo son idénticas.

El diagrama integral para una variable continua se denomina también polígono de


frecuencias acumulado, y se obtiene como la poligonal definida en abscisas a partir de los
extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas
por alturas que son proporcionales a las frecuencias acumuladas. El polígono de frecuencias
absolutas es una primitiva del histograma.

Para el ejemplo que hemos estado tratando, la grafica de histograma y polígono de frecuencias
de las clases encontradas
en la tabla de
distribución de
frecuencias es la
siguiente:

42
La base de los rectángulos está conformada por los límites de los intervalos de las clases (por
ejemplo, 0.95 a 0.975) y cada clase contiene una marca de clase, la cual se ha obtenido
sumando los dos límites de cada intervalo y dividiendo esta sumatoria entre 2 (por ejemplo,
[(0.95+0.975)/2]. La línea que se encuentra tocando cada marca de clase se denomina
polígono de frecuencias.

De igual forma puede construirse la gráfica de frecuencias acumuladas, la cual se demuestra a


continuación.

El histograma
representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin
embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas
últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los
conceptos de área y altura.

VII. Otras gráficas

VII.1 Gráficas de tallo y hojas

Una gráfica de tallo y hojas representa datos que separan cada valor en dos partes: el tallo (el
dígito ubicado en el extremo izquierdo) y la hoja (el dígito del extremo derecho).

La ilustración siguiente muestra una gráfica de tallo y hojas de la altura de una población de
plantas de maíz en un campo de producción. Dichas alturas (en centímetros) si se acomodan
en orden creciente, son 64, 64, 69, 70, 71, 71, 71, 72, 73, …120. Es fácil ver cómo el primer
valor de 64 se separa en su tallo de 6 y su hoja de 4. Cada uno de los valores restantes, lo
hacen de una manera similar. Note que las hojas se ordenaron en forma creciente y no en el
orden en que aparecen en la lista original.

Tallo (decenas) hojas (unidades)


43
6 449
7 011112334444555555666778899
8 0011122233346899
9 0024
10
11
12 0
Si colocamos la página de lado, veremos una distribución de tales datos. Una gran ventaja de
la gráfica de tallo y hojas radica en que nos permite ver la distribución de los datos y, al
mismo tiempo, retener toda la información de la lista original. En caso de ser necesario,
reconstruiríamos la lista original de valor. Otra ventaja es que la construcción de una gráfica
de tallo y hojas implica una forma fácil y rápida de ordenar datos, y algunos procedimientos
estadísticos requieren de un ordenamiento (como el calculo de una mediana o de los
percentiles).

Los renglones de datos de una gráfica de tallo y hojas son similares en naturaleza a las barras
de un histograma. Uno de los lineamientos para la construcción de histogramas es que se
pueden incluir entre 5 y 20 clases lo cual se aplica a las gráfica de tallo y hojas por las mismas
razones. Por lo general, obtenemos mejores gráficas de tallo y hojas si redondeamos primero
los valores de los datos originales. Además, este tipo de gráficas pueden expandirse para
incluir más renglones y condensarse para disminuir el número de renglones. En nuestro
ejemplo, la gráfica de tallo y hojas puede expandirse subdividiendo los renglones en otros
con hojas que incluyan dígitos de 0 al 4, así como otros dos dígitos del 5 al 9, tal como se
muestra en el siguiente diagrama.

Tallo hojas
6 44
6 9
7 01112334444
7 555555666778899
8 001112223334
8 6899
9 0024
9
10
10
11
11
12 0

Cuando hay necesidad de reducir el número de reglones, es posible condensar una gráfica de
tallo y hojas al combinar los renglones adyacentes, tal como se indica en la siguiente
ilustración. Note que insertamos un asterisco para separar los dígitos en las hojas asociadas
con los números en cada tallo. Cada renglón en la grafica condensada debe incluir
exactamente un asterisco, de modo que la forma de la gráfica no se distorsione.

44
Tallo hojas
6-7 449*01112334444555555666778899
8-9 0011122233346899*0024
10-11 *
12-13 0*

VII.2 Gráfica de Pareto

La Federal Communications Commission (FCC) verifica la calidad del servicio telefónico en


Estados Unidos. Algunas de las quejas en contra de las compañías telefónicas incluyen los
cambios, es decir, se cambió de compañía al cliente sin su consentimiento, y el cobro forzoso
de cargos no autorizados. Datos recientes de la FCC mostraron que las quejas en contra de las
compañías telefónicas estadounidenses eran las siguientes: 4473 por tarifas y servicios, 1007
por mercadeo, 766 por llamadas internacionales, 614 por cargos de acceso, 534 por servicios
de operadora, 12,478 por cambios sin consentimiento y 1214 por forzamiento. Si usted fuera
reportero de un medio impreso, ¿cómo presentaría dicha información? La simple escritura de
oraciones con datos numéricos no llevaría a una verdadera comprensión. Un mejor método
consiste en utilizar una gráfica conveniente; en este caso, la gráfica de Pareto se adecuaría
muy bien.

Una gráfica de Pareto es una gráfica de barras para datos cualitativos, donde las barras se
ordenan de acuerdo con las frecuencias. Al igual que en los histogramas, las escalas verticales
de las gráficas de Pareto representan frecuencias o frecuencias relativas. La barra más alta se
coloca a la izquierda y las más pequeñas hacia la derecha. Al ordenar las barras por
frecuencias, la gráfica enfoca la atención en las categorías más importantes. La siguiente
figura es una gráfica de Pareto que muestra con claridad que el cambio sin consentimiento, es
por mucho, el asunto más grave de las quejas de los clientes respecto de las empresas
telefónicas.
14000
12000
10000
8000
6000
4000
2000
0

Gráfica de Pareto de quejas en contra de las compañías telefónicas.

VII.3 Gráfica de puntos

45
Una gráfica de puntos consiste en una gráfica en donde se marca cada valor de un dato como
un punto a lo largo de una escala de valores. Los puntos que representan valores iguales se
amontonan. Observe la siguiente figura que representa la altura de plantas de maíz. Por
ejemplo, los dos puntos que aparecen a la izquierda representan el valor de 64 centímetros,
que ocurre dos veces en el conjunto de datos 7. En esta gráfica de puntos vemos que la altura
de 120 centímetros difiere mucho de las demás.

*
*
* **
* *** ***
* * *********** **
* **************** * *** * * *
60 70 80 90 100 110 120
Gráfica de altura de plantas de maíz

VII.4 Diagramas de dispersión

Un diagrama de dispersión es una gráfica de datos apareados (x,y)con un eje x horizontal y un


eje y vertical. Los datos se aparean de tal forma que cada valor de un conjunto de datos
corresponde a un valor de un segundo conjunto de datos. Para elaborar un diagrama de
dispersión manualmente, construya un eje horizontal para los valores de la primera variable y
un eje vertical para los valores de la segunda variable y después grafique los puntos. El patrón
de los puntos graficados suele ser útil para determinar si hay alguna relación entre las dos
variables. (Este aspecto se estudia a profundidad en el tema de la correlación). Con los datos
de peso y estatura de los alumnos del curso de Estadística de la carrera de Ciencias Agrícolas
del Cuarto Ciclo del año 2008 se genera el diagrama de dispersión que aparece a continuación.

350

300

250

200
P eso

150

100

50

0
1.4 1.5 1.6 1.7 1.8 1.9
Estatura

Diagrama de dispersión.

VII.5 Gráfica de cuadro

46
También llamada gráfica de cuadro y bigote. Una gráfica de cuadro es otro tipo de gráfica que
se utiliza a menudo. Las gráficas de cuadro son útiles para revelar la tendencia central de los
datos, su dispersión, su distribución y la presencia de datos distantes. La construcción de una
gráfica de cuadro requiere que primero se obtenga el valor mínimo, el valor máximo y los
cuartiles, como se define en el resumen de los cinco números.

El resumen de cinco números consiste en el valor mínimo, el primer cuartil, Q 1; la mediana (o


segundo cuartil Q2) el tercer cuartil, Q3; y el valor máximo.

Q1 Mediana Q3
minimo 251.5
86.5 170 maximo

0 491

0 100 200 300 400 500

Niveles de cotinina de fumadores

VIII. Conclusión

En el siguiente cuadro encontrará los principales diagramas según el tipo de variable.

Resumen de las principales gráficas utilizadas en estadística.


Tabla: Principales diagramas según el tipo de variable.
Tipo de variable Diagrama
   
V. Cualitativa Barras, sectores, pictogramas
   
V. Discreta Diferencial (barras)
  Integral (en escalera)
   
V. Continua Diferencial (histograma, polígono de frecuencias)
  Integral (diagramas acumulados)

Bibliografía :

Tripla, Mario. ESTADÍSTICA. Editorial Pearson. 2006. pp 46-59; 104-115


47
“EL CONOCIMIENTO ES EL MÁS IMPORTANTE RECURSO NATURAL”
Walter Edwards Deming
TAREA opcional

Presentar 15 gráficas del caso presentado al final de segunda unidad.

UNIDA
MEDIDAS
D 4 DE
I. TENDENCIA Introducción

Son
alrededor de
CENTRAL o mediciones
las cuales
tienden
datos.
información
a
Nos DE agruparse los
proporcionan
de los datos
que estamos
la vez, nos CENTRALIZAC analizando y a
permiten

IÓN
conocer diversas
características de esta serie
de datos.

En el análisis estadístico de los datos, generalmente se reconocen los siguientes tipos de


medidas:

 Medidas de tendencia central, son aquellas que informan sobre el centro o


promedio de las observaciones, entre ellas destacan, la media aritmética, la
mediana y la moda.

 Medidas de posición, una vez ordenados los datos informan sobre la localización
de estos, entre ellas tenemos los cuantiles: percentiles, deciles, quintiles y cuartiles.

 Medidas de dispersión, son aquellas que determinan la separación de los datos;


entre ellas encontramos, el rango intercuartílico, la desviación típica, la varianza, el
coeficiente de variación.

48
 Medidas de forma, son las que proporcionan una idea de la simetría y
apuntamiento de la distribución, tales como, coeficiente de asimetría o sesgo,
coeficiente de apuntamiento o curtosis.

En el presente capitulo nos ocuparemos de conocer y aplicar las medidas de tendencia central.

Como sabemos, los fenómenos biológicos no se rigen a constantes, por lo que es necesario que
junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una
medida que haga referencia a la variabilidad que refleje dicha fluctuación.

II. OBJETIVOS ESPECÍFICOS

1. Conocer las medidas de tendencia central utilizadas comúnmente en el análisis de


datos estadísticos.
2. Aplicar los conocimientos adquiridos de tales medidas en la búsqueda de solución a
estudios de caso.

3. Crear la metodología que facilite la comparación de datos entre grupos distintos


con la misma variable.

4. Describir las medidas de tendencia central.

Se hace necesario que el alumno conozca algunas características de la distribución de los datos
con respecto a estas medidas, entre ellas:

 Tendencia a centrarse.

 Dispersión o variación con respecto al centro

 Posiciones.

 La simetría de los datos.

49
Resulta valioso al momento de establecer un experimento, conocer los valores que marcan
posiciones características de una distribución de frecuencias, así como, su simetría y forma.

III. La Media Aritmética

Es la sumatoria de los valores de todas las observaciones dividida por el número de


∑X
observaciones.  = n

Recibe también el nombre de media aritmética o promedio. Valores muy alejados del resto
pueden modificar sustancialmente la media (en una situación así debe considerarse la
utilización de la mediana, que no es sensible a los valores extremos).

La identificaremos por el símbolo  (equis barra, si se trata de una muestra) o µ (letra griega
mu, si se trata de una población).
n
∑ xi
i=1
X̄ =
n

, es el estadístico que nos permite conocer el valor central de un conjunto de datos


provenientes de una muestra.

µ, es el parámetro que nos permite conocer el valor central de un conjunto de datos


provenientes de una población.

Existen varios procedimientos para obtener la media aritmetica; la tecnología actual, nos
facilita las operaciones mediante el uso de un programa, un computador o calculadoras
programables o sencillamente científicas. Sin embargo, resulta valioso conocer aspectos
básicos del origen de la información.

Para el efecto pueden utilizarse datos de campo o llamados también datos brutos o, una tabla
de distribución de frecuencias con datos agrupados en intervalos de clase.

Obviamente, resulta engorroso y delicado analizar datos de campo si se cuenta con muchos
miles de observaciones y se intenta ordenarlos en una tabla de distribución de frecuencias.

50
III.1. Características de la media aritmética:

1. Fácil de calcular
2. Toma en cuenta todos los valores
3. Con valores extremos no es representativa
4. No se puede calcular para caracteres cualitativos o intervalos no acotados.

III.2. Metodología

III.2.1 Primer caso: Utilizando los datos de campo.

Tomando como ejemplo los datos obtenidos de la medición de altura de las ciento
veinte plantas de maíz, tenemos:

Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur
a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a
(mt)
1.01 1.01 1.10 1.00 1.04 0.97 1.03 0.98 0.99 1.10 1.11 1.01
1.03 1.05 0.98 1.08 1.04 0.98 0.99 0.98 0.96 1.09 1.12 1.01
1.10 0.95 0.99 0.95 1.06 0.98 1.00 1.10 0.95 1.03 1.09 1.06
1.11 1.01 1.11 1.01 0.99 0.94 1.00 1.11 0.96 0.99 0.95 1.08
1.09 1.04 1.05 1.02 0.99 0.95 1.05 1.12 0.95 0.95 0.96 0.96
0.99 0.95 0.97 0.95 0.95 1.10 1.01 1.12 1.11 1.02 0.96 0.96
0.98 0.95 0.98 0.95 0.96 1.11 1.01 1.10 1.10 1.03 0.96 1.04
0.99 1.03 1.09 0.97 0.96 0.99 0.93 0.99 0.99 1.03 0.97 1.05
0.98 1.03 1.08 0.99 0.99 0.94 0.93 1.09 0.94 0.97 0.99 1.03
0.95 0.99 0.99 1.10 1.01 0.94 0.93 1.08 0.95 1.06 1.00 1.09

La , es la sumatoria de todos los datos dividida entre la cantidad de observaciones (n). Cada
observación la identificaremos como x1, x2 hasta x120, y la designaremos con la fórmula
siguiente:

x 1 + x 2 +. . . x n
X=
n
De donde,

 = 1.01 + 1.03 + 1.10 + … + 1.09


120

 = 121.61/120 = 1.0134 m

51
Como ha podido darse cuenta, no ha sido necesario ordenar los datos en una tabla colocando
los datos del menor al mayor, y tampoco utilizando una distribución de frecuencias; mediante
un procedimiento sencillo hemos procedido a sumar todos los valores (121.61) que luego
hemos dividido entre el número de observaciones (120); debe considerarse que se trata de una
población relativamente baja. Ahora podemos decir con certeza que el promedio de altura de
las ciento veinte plantas de maíz es de 1.0134 metros (se recomienda el uso de cuatro
decimales).

III.2.2 Segundo caso: Cálculo de la media utilizando una tabla de distribución de frecuencias.

Esta metodología se considera cuando la población es alta, por lo que, se procede a preparar la
tabla de distribución de frecuencias de la siguiente manera:

Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50

52
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

Para este caso tomaremos la columna de valores de la variable y la columna que contiene las
frecuencias absolutas simples.

Se procede a multiplicar cada valor de observaciones por la correspondiente frecuencia


absoluta simple, la que se suma a la siguiente clase operada de igual forma; en nuestro caso,
llegaremos a obtener veinte multiplicaciones, según el número de clases encontrado; la
sumatoria de estos valores se divide entre el numero de observaciones (n), como en el primer
caso y utilizaremos la siguiente notación matemática:

( x 1∗f 1 )+( x 2∗f 2 )+.. .( x n∗f n )


X=
N
De donde,

 = (0.93*3)+(0.94*4)+…+(1.12*3)
120

 = 121.61/120 = 1.0134 m

Podemos observar que el resultado obtenido es el mismo que al utilizar los datos de campo.

III.2.3 Tercer caso. Encontrar la media aritmética utilizando una tabla de distribución de
frecuencias con datos agrupados en intervalos de clase.

Posiblemente los resultados no sean idénticos a los obtenidos anteriormente, porque en este
caso utilizaremos la marca de clase de cada intervalo.

frecuencias frecuencias
clases Intervalo frecuencias absolutas proporcionales relativas (%) c
li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0

53
Recordemos que la marca de clase (identificada como “c”) se ha obtenido sumando los límites
de cada intervalo y dividiéndolos entre 2, por ejemplo, 0.9300 + 0.9538 = 1.3888/2 = 0.9419
metros.

Se procede al igual que en el segundo caso explicado antes, multiplicando cada marca de clase
(c), por la correspondiente frecuencia absoluta simple y dividiendo el resultado total entre el
número de observaciones, n.

(c 1∗f 1 )+(c 2∗f 2 )+. . .(c n∗f n )


X=
n
De donde,

 = (0.9419*21)+(0.9656*14)+…+(1.1081*17)
120

 = 121.6938/120 = 1.0141 metros

El resultado obtenido es satisfactorio, si se toma en cuenta lo expresado al iniciar el tercer


caso.

III.3. Propiedades de la media aritmética

III.3.1 Primera propiedad: la suma algebraica de las desviaciones de un conjunto de números


de su media aritmética es cero.

Con la siguiente serie de números demostrar la primera propiedad de la media aritmética: 6, 4,


8, 5, 2, 7.

Datos Media Operación Desviación


6 5.0 6-5 = 1 1
4 5.0 4-5 = -1 -1
8 5.0 8-5 = 3 3
5 5.0 5-5 = 0 0
4 5.0 4-5 = -1 -1
3 5.0 3-5 = -2 -2
Total 30 Total 0
Promedio = 5.0

III.3.2 Segunda propiedad: la suma de los cuadrados de las desviaciones de un conjunto de


números X de cualquier número “a” es mínima, solamente si “a” es =.
Datos Media Operación Desviación Cuadrado de las

54
desviaciones
6 5.0 6-5 = 1 1 1
4 5.0 4-5 = -1 -1 1
8 5.0 8-5 = 3 3 9
5 5.0 5-5 = 0 0 0
4 5.0 4-5 = -1 -1 1
3 5.0 3-5 = -2 -2 4
Total 30 Total 0 Total 16
Promedio = 5.0

III.3.3 Tercera propiedad: si f1 números tienen de media m1, f2 números tienen de media m2,
… fk números tienen de media mk, entonces la media de todos los números es

( f 1∗m 1 )+( f 2∗m2 )+. ..( f k∗m k )


X=
f 1 + f 2 +. .. f k
Es decir, una media aritmética ponderada de todas las medias

Por ejemplo, cuatro grupos de plantas, formados por 15, 20, 10 y 18 plantas registran una
media de altura de 112, 118, 106 y 98 centímetros, respectivamente. Hallar el peso medio de
todas las plantas.

Un procedimiento que puede facilitar las operaciones y comprensión es la preparación de la


siguiente tabla:

Grupos de plantas Peso promedio (f) * (m)


(f) por grupo (m)
15 112 1680
20 118 2360
10 106 1060
18 98 1764
63 6864

 = (15 * 112) + (20 * 118) + (10 * 106) + (18 * 98) = 6864


15 + 20 + 10 + 18 63

 = 108.95 libras

Esta media se denomina media ponderada de todas las medias.

IV. La Media Geométrica

55
Anteriormente se determinó que la media aritmética utiliza todos los valores de la distribución
para su cálculo, de manera que si en los extremos de la distribución hubiera valores con
frecuencias grandes, el valor de la media aritmética se vería muy distorsionado. Para evitar
este error que conduciría obviamente a una mala información, es aconsejable sustituir la media
aritmética por la media geométrica.

Constituye otro importante estadístico o parámetro en el análisis de la información bajo


investigación. Es de importancia en los campos económicos, sociales, educativos, de salud y
otros, para conocer tipos de interés anual, inflación, crecimiento poblacional, etc., donde el
valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores.

Denotada por g, es otra medida de tendencia central de gran importancia en los cálculos de
ingeniería.

Según los datos que obtengamos y el estudio que se realice es conveniente analizar la
posibilidad de utilizar, la media aritmética o la media geométrica.

La metodología a utilizar para encontrar la media geométrica dependerá de la información


disponible, al igual que los casos para encontrar la media aritmética.

IV.1 Metodología

IV.1.1 Primer caso: Utilizando datos de campo.

La media geométrica de una serie de números, x1, x2, x3, x4, … xn, es la raíz n-ésima del
producto de esos números, es decir, se extrae la raíz n de la multiplicación consecutiva de cada
observación. El procedimiento se facilita si no se dispone de muchos datos. Se calcula
mediante la siguiente fórmula:

N
g = √ x1∗x 2∗...x n

También se denota por

Se emplea este promedio cuando se trabaja con observaciones, donde cada una tiene una razón
aproximadamente constante respecto a la anterior, por ejemplo, al promediar tasas de
crecimiento (aumento o disminución de una población estadística).

Dado que el cálculo se puede volver laborioso en el caso de series con un gran número de
elementos (o difícil de manejar en una calculadora de poca capacidad), para calcular la media
geométrica se suele utilizar el cálculo logarítmico:

56
X g=
log x 1 +.. . log x n
=
∑ log x
log n n , es la media de los logaritmos de los valores de la
variable.

Para el ejemplo que nos ha venido ocupando,

120
X g= √. 93∗. 93∗. . .1 .12

X g = 1.0119 metros

IV.1.2 Segundo caso. Encontrar la media geométrica utilizando la tabla de distribución de


frecuencias con datos agrupados en forma simple.

En este caso, cada valor de variable se eleva a la correspondiente frecuencia (el número de
veces que se ha repetido), luego se multiplican todos estos resultados y al producto final se le
calcula la raíz n (siendo n el total de datos estudiados).

Xg =

X g = ((0.93^3)*(0.94^4)* … *(1.12^3))(1/120)

X g = 1.0119 metros

IV.1.3 Tercer caso: Obtener la media geométrica utilizando la tabla de distribución de


frecuencias agrupadas en intervalos de clase.

Cada marca de clase se eleva al valor de la frecuencia correspondiente. Se multiplican todos


estos resultados y al producto final se le calcula la raíz N (siendo N el total de datos
estudiados).

X g = (c n1*c n2*… c nn)(1/N)


1 2 n

X g = ((0.9419^21)*(0.9656^14)*…*(1.1081^17))(1/120)

X g = 1.0119 metros

57
Podemos observar que la media aritmética obtenida mediante este procedimiento fue de
1.0141 m, con lo que se aproxima significativamente a la media geométrica utilizando el
mismo procedimiento.

Ejemplo:

La mejor aproximación de la media geométrica se describe con el siguiente ejemplo.

Suponga que los porcentajes de inflación de los últimos 3 años han sido 18%, 15% y 12%.
Determine el porcentaje promedio de inflación durante ese periodo.

En virtud que los valores de inflación están referidos a la unidad, deben expresarse en
términos de factores de incremento de precios, de tal manera que 18% equivale a 1.18, de
igual manera 15% equivale a 1.15 y 12% a 1.12.

La media geométrica de los valores es el valor promedio del incremento de los precios, por lo
tanto:

3
Incremento promedio = media geométrica = X g =√ 1 . 18∗1 .15∗1 .12 = 1.1497

Por lo que, el porcentaje promedio de inflación anual es

(1.1497 – 1) X 100 = 14.97%

V. La Media Armónica

Es una importante medida de centralización utilizada para conocer el comportamiento de


grupos de individuos bajo estudio.

La media armónica es otra medida de tendencia central, aunque menos utilizada que los
promedios anteriores. Se denota por H o a y se define como el recíproco de la media
aritmética de los recíprocos de un conjunto de datos, es decir,

1 1 1
x1
+. . .+
xn ∑x
1 i n
= = =
Xa N n
∑ x1
i para datos no agrupados

58
n
1
∑ x .f i
H = i para datos agrupados

Por tanto,

V.1 Metodología

V.1.1 Primer caso: Utilizando los datos de campo.

Es decir, se obtiene dividiendo la totalidad de observaciones n entre la sumatoria de recíprocos


de cada dato (1/x). Se le identifica con la letra H.
n
1 1 1
+ +. ..+
H = x 1 x 2 xn

En nuestro caso,

H= 120 .
1/0.93+1/0.93+1/0.93 +… +1/1.12

De donde,

H = 1.0104 metros

V.1.2 Segundo caso. Cuando se dispone de una tabla de distribución de frecuencias


agrupadas en forma simple.

Si utilizamos los datos obtenidos con las mediciones de altura de las ciento veinte plantas de
maíz, tomamos la columna de valores de la variable y la columna de la frecuencia absoluta
simple.

Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50

59
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

Se divide la totalidad de observaciones (n) entre la sumatoria de recíprocos de frecuencias con


sus correspondientes valores de variable (fx/xn)

H = n .
f1/x1 + f2/x2 + … fn/xn

Es decir,

H = 120 .
3/0.93 + 4/0.94 + … + 3/1.12

De donde,

H = 1.0104 metros

V.1.3 Tercer caso: Utilizando los datos den una tabla de distribución de frecuencias
agrupadas por intervalos de clase.

clases Intervalo frecuencias absolutas frecuencias c


60
frecuencias
proporcionales relativas (%)
li ls simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
120 1.0000 100.0
0

Se procede a dividir la totalidad de observaciones (n) entre la sumatoria de recíprocos de


frecuencias absolutas simples con sus correspondientes valores de marca de clase (fx/cn)

H = n .
f1/c1 + f2/c2 + … fn/cn

Es decir,

H = 120 .
21/0.9419 + 14/0.9656+ … + 17/1.1081

De donde,

H = 1.0104 metros

Otras aplicaciones de la media armónica

a) Precio promedio. Si se compran varios tipos de productos con distintas cantidades de


unidades de cada tipo, pero gastando en ellos igual cantidad de dinero, el precio promedio por
unidad es igual a la media armónica de los precios por unidad de cada tipo de producto.

b) Rendimiento promedio de producción. En un grupo pueden haber personas con distinta


velocidad para producir un artículo o producto. Si cada una de estas personas tiene que
elaborar igual cantidad de artículos o productos, el promedio de velocidad de rendimiento de
tal grupo, es igual al promedio armónico de las velocidades de rendimiento de cada una de las
personas que lo integran.

Si v1, v2, v3 …, vn son las velocidades de rendimiento de cada una de las personas, que
aunque sea en distinta cantidad de tiempo, producen igual cantidad de artículos o productos, el
promedio de la velocidad de rendimiento del grupo de tales personas es:

61
n
1 1 1
+ +. ..+
H = v1 v 2 vn

Donde n es el número de personas aludidas.

Ejemplo para las otras aplicaciones utilizando datos simples:

Se compran 4 cajas de bolígrafos. El precio de cada lapicero de la caja 1 es de 50 centavos, el


de los contenidos en la caja 2 es de 1.00 quetzal, el de los de la caja 3 es 1.25 quetzales y el de
la caja 4 es de 2 quetzales. Las 4 cajas cuestan 20 quetzales cada una. ¿cuál es el precio
promedio por lapicero?

Solución:

Primer método
Para determinar el precio promedio, tenemos:

Precio promedio = cantidad total gastada/cantidad total de lapiceros comprados

- si cada caja cuesta Q20, en las cuatro cajas se gastará:

Total gastado = (Q20/caja)* 4 cajas = Q80 en total

- para calcular el número de lapiceros en cada caja, se procede


así:

n = precio de la caja/precio de cada lapicero


n1 = 20/0.50 = 40 lapiceros en la caja 1
n2 = 20/1.00 = 20 lapiceros en la caja 1
n3 = 20/1.25 = 16 lapiceros en la caja 1
n4 = 20/2.00 = 10 lapiceros en la caja 1

total de lapiceros comprados = 40 + 20 + 16 + 10 = 86 lapiceros

precio promedio = Q80/86 lapiceros = Q0.93/lapicero

Segundo método para ejemplo de aplicaciones:

Como las 4 cajas cuestan 20 quetzales cada una, el precio promedio de los lapiceros que
contienen es igual al promedio armónico de los precios de los lapiceros de cada caja.

62
Por lo que, se obtiene lo siguiente:

n
1 1 1
+ +. . .+
H = p1 p 2 pn

n
1 1 1 1
+ + +
H = 0 . 50 1. 00 1 . 25 2 .00 = Q0.93/lapicero

Como se obtuvo por el primer método.

VI. La media cuadrática

La media cuadrática de una serie de datos se define como la raíz cuadrada de de la media
aritmética de los cuadrados de los valores de la variable. Se denota por C y se calcula
mediante las fórmulas:

C
=

X 2 + .. . X
1
n
n
2
=
√ ∑ x i2
n para datos no agrupados

C
=
√ ∑ xi 2 . f i
n para datos agrupados

Este es un tipo de promedio que se aplica con frecuencia en la resolución de problemas


científicos.
También se reconoce como el cuadrado de la media (root main squart o RMS). Tiene utilidad
cuando se analizan datos de carácter físico, tales como gases, líquidos, fuerzas, etc.

Se obtiene extrayendo la raíz cuadrada de la sumatoria de cuadrados de los datos obtenidos y


divididos entre su correspondiente totalidad de observaciones. Se le identifica como RMS.


X 2 +. .. X 2
1 n
RMS=
n

VI.1 Metodología

VI.1.1 Primer caso. Utilizando los datos de campo.

63
RMS=
120 √
0 . 932 +. .. 1 .122

Es decir,

C =√ 1.03011 = 1.0149 metros

VI.1.2 Segundo caso. Utilizando la tabla de distribución de frecuencias con datos


agrupados en forma simple.

C
=
√ ∑ xi 2 . f i
n = √
X 2∗f 1 +.. . X 2∗f n
1
n
n

Es decir,

=
√ 0 .93 2∗4+. . .+1. 122∗3
120

De donde,

C =√ 1.03011 = 1.0149 metros


VI.1.3 Tercer caso. Utilizando una tabla de distribución de frecuencias agrupadas por
intervalos de clase y las correspondientes marcas de clase.


c 2∗f 1 +. .. c 2∗f n
1 n
RMS=
N

Es decir,

C
=
120 √
0 .9419 2∗21+. . .+1 . 10812∗17

De donde C = 1.0149 metros

Ejercicio

64
Demuestre sus habilidades matemáticas calculando la media geométrica, armónica y
cuadrática para los datos de temperatura del siguiente ejemplo.

Temperatura de secado al horno de fabricación de alambre galvanizado

clases Intervalo frecuencias absolutas c c2 c2*fs


li Ls simple acumulada
1 27.5000 32.5000 1 1 1 30.0000 900.0000 900.00
2 32.5000 37.5000 2 3 3 35.0000 1,225.0000 2,450.00
3 37.5000 42.5000 5 8 8 40.0000 1,600.0000 8,000.00
4 42.5000 47.5000 12 20 20 45.0000 2,025.0000 24,300.00
5 47.5000 52.5000 24 44 44 50.0000 2,500.0000 60,000.00
6 52.5000 57.5000 7 51 51 55.0000 3,025.0000 21,175.00
7 57.5000 62.5000 3 54 54 60.0000 3,600.0000 10,800.00
8 62.5000 67.5000 2 56 56 65.0000 4,225.0000 8,450.00
56 136,075.0000

a. Media geométrica:

X g = (c n1*c n2*… c nn)(1/N)


1 2 n

X g = (301*352*…*652)(1/56)

X g = 48.36º C

b. Media armónica:
n 56
1 1
∑ x .f i ∑ 1.170 = 47.86º C
H = i para datos agrupados =

c. Media cuadrática:

C
=
√ 302∗1+. ..+652∗2
56
=
136 ,075
56
=

49.29º C

Relación entre las medias aritmética, geométrica, armónica y


cuadrática

Entre las medias estudiadas anteriormente, se cumple siempre la siguiente relación:

65
H ≤ G ≤ C

Es decir, que el máximo valor medio de una serie de datos se tiene al calcular la media
cuadrática (C) y el mínimo valor medio se obtiene de la media armónica (H). El signo
igual solo es posible cuando todos los valores de la serie son iguales entre sí.

El significado de la media geométrica, armónica y cuadrática es equivalente al de la media


aritmética, es decir, son valores que representan la temperatura promedio de secado al horno
de una muestra de alambres galvanizados.

Para el ejemplo anterior podemos verificar esta relación ya que la media armónica es 47.8º C
la geométrica es igual a 48.36º C, mientras que la media cuadrática es igual a 49.29º C.

Ejemplo de relación entre las medias geométrica, armónica y cuadrática

Demuestre sus habilidades matemáticas calculando la media geométrica, armónica y


cuadrática para los datos de temperatura del siguiente ejemplo.

Un ingeniero ambiental obtuvo los siguientes datos en una concentración de mercurio (en
partes por millón) en ocho localidades a lo largo de un arroyo, obteniendo los siguientes
valores:

0.064, 0.071, 0.066, 0.062, 0.073, 0.065, 0.061, 0.066

Determine:

a) La concentración máxima de mercurio


b) La concentración mínima de mercurio

Solución:

La concentración máxima y mínima de mercurio, corresponden a la media cuadrática y media


armónica, ya que estos nos dan los valores extremos de la serie de datos.

C
=

0 .064 2 +. ..+0. 0662
8 = 0.066113 (máximo)

66
n 8
1 1 1 1 1
+ +. ..+ +.. .+
x
H = 1 2x x n = 0 . 064 0 .066 = 0.06577 (mínimo)

Por lo que, la concentración máxima promedio de mercurio es de 0.0661 partes por millón y la
concentración mínima promedio es de 0.0658 partes por millón.

VII. La mediana

∼X
La representaremos con el símbolo:

Es una medida de localización o tendencia central de los datos. Es el dato o valor que divide al
conjunto de datos en dos subconjuntos de igual tamaño, se sitúa justamente en el centro (un
50% de valores son inferiores y otro 50% son superiores); unos que son  menores o iguales
que la mediana y otros que son mayores o iguales que la mediana.

Primeramente se procede a ordenar los datos de menor a mayor, su valor sólo depende de la
posición que ocupa, no del valor particular observado.

En la mediana, los datos no presentan el problema de estar influidos por los valores extremos,
pero en cambio no se utiliza en su cálculo toda la información de la serie de datos (no pondera
cada valor por el número de veces que se ha repetido).

VII.1 Características de la mediana:

Es útil si la media no se puede calcular o no es representativa


No toma en cuenta todas las observaciones
Depende de la posición relativa de los datos, no de sus valores.

Mediana de una serie con datos simples (no agrupados)

Para el cálculo de la mediana de una muestra pequeña se puede utilizar el siguiente


procedimiento:
Pasos para el cálculo de la mediana
- Se ordenan los elementos en forma creciente o decreciente
- Caso impar. La mediana está dada por el dato central cuyo
valor ocupa la posición (n+1)/2
- Caso par. Cuando no existe un valor central se puede definir
como la media aritmética de los dos valores medios.

67
VII.2 Metodología

VII.2.1 Primer caso, utilizando datos de campo

Si tenemos los valores 2, 8, 3, 6, 4, 8, 3, 5, 6 (n = 9), primeramente procedemos a ordenarlos:


2, 3, 3, 4, 5, 6, 6, 8, 8. Observamos que contamos con nueve datos, es decir, son datos
impares y el valor que se encuentra en la quinta posición dividirá el conjunto de datos en dos
subconjuntos de 4 datos cada uno: 2, 3, 3, 4 5 6, 6, 8, 8, la mediana es, por lo tanto, el
número 5.

La mediana es el elemento que ocupa la posición:

n+1 9+ 1
= =5
Me = 2 2 (es decir, el 5º dato)

Por lo que, la mediana = 5

Si ahora observamos los valores 1, 6, 5, 4, 3, 4, 5, 5 (n=8), podemos darnos cuenta que son
datos pares. El primer paso consiste en ordenar los datos: 1, 3, 4, 4, 5, 5, 5, 6. Como hay 8
datos, un valor que se encuentre entre la cuarta y la quinta posición dividirá el conjunto de
datos en dos subconjuntos de 4 datos cada uno:   1, 3, 4, 4, x, 5, 5, 5, 6. En este caso, se
procede tomando los dos números centrales y dividiéndolos entre 2, esto nos permite obtener
el valor de la mediana, de este conjunto de datos que es

n+1 8+1
= =4 . 5
Me = 2 2

Significa entonces, que está comprendido entre el cuarto elemento (que es 4) y el quinto
elemento (que es 5), de manera que la mediana será el valor medio entre ambos:

4+5
=4 . 5
Me = 2

Si ordenamos los datos del ejemplo que se refiere a las 120 plantas de maíz, podemos observar
que se trata de un grupo de datos pares, encontrar la mediana.

Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
Simple acumulada acumulada Acumulada
simples simples
s s s s

68
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

n+1 120+1
= =60 . 5
Me = 2 2

Significa entonces, que la mediana está comprendida entre el 59º elemento (que es 0.99) y el
sexagesimo elemento (que es 1), de manera que la mediana será el valor medio entre ambos:

0. 99+1
=0 . 995 m
Me = 2

La mediana es 0.995 metros

VII.2.2 Segundo caso, utilizando datos agrupados en una tabla de distribución de


frecuencias con intervalos de clase

Para datos agrupados, la mediana se obtiene mediante interpolación lineal y viene dada por

69
{ }
n
−( ∑ f )1
2
Med=L1 + c
fmediana
Donde

L1 = límite real inferior de la clase mediana (es decir, la clase que contiene la mediana)
n= Número de datos, es decir, frecuencia total.
(∑f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana
f mediana = frecuencia de la clase mediana
c= Tamaño del intervalo de la clase mediana

Utilizando la tabla de distribución de frecuencias por intervalos de clase que nos ha ocupado,
procederemos a calcular la mediana mediante la fórmula antes mencionada.

Conviene ubicar la clase mediana, y es aquella donde se encuentra el 50% de los datos, en la
frecuencia relativa acumulada (en la tercera clase se encuentra hasta el 52.50% de los datos, y
se pued decir que en la misma se encuentra el 51%, el 50% o menos, hasta 29.17%).

frecuencias frecuencias
Clases Intervalo frecuencias absolutas proporcionales relativas (%) c
li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0

{ }
n
−( ∑ f )1
2
Med=L1 + c
fmediana

Donde

L1 = límite real inferior de la clase mediana (es decir, la clase que contiene la mediana) = 0.9775
N= Número total de datos, es decir, frecuencia total = 120
(∑f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana = 35
f mediana = frecuencia de la clase mediana = 28

70
c= Tamaño del intervalo de la clase mediana = 0.02375

{ }
120
−( 35 )
2
Med=0.9775+ 0 .02375
28

Med = 1.0000 metros

VII.3 Propiedades de la mediana


Entre las propiedades de la mediana, vamos a destacar las siguientes:

VII.3.1 Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la variable, sino del
orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas.

VII.3.2 Es de cálculo rápido y de interpretación sencilla.

VII.3.3 A diferencia de la media, la mediana de una variable discreta es siempre un


valor de la variable que estudiamos (ej. La mediana de la variable número de hijos toma
siempre valores enteros).

VII.3.4 Si una población está formada por dos subpoblaciones de medianas Med1 y Med2,
sólo se puede afirmar que la mediana, Med, de la población está comprendida entre Med1 y
Med2

VII.3.5 El mayor defecto de la mediana es que tiene unas propiedades matemáticas


complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística.

VII.3.6 Es función de los intervalos escogidos.

VII.3.7 Puede ser calculada aunque el intervalo inferior o el superior no tengan límites.

VII.3.8 La suma de las diferencias de los valores absolutos de n puntuaciones respecto


a su mediana es menor o igual que cualquier otro valor.

Ejemplo

Sea X, una variable discreta que ha presentado sobre una muestra las modalidades, 2, 5, 7, 9,
12, la mediana es 7.

71
Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la
mediana, pero si a la media: 2, 5, 7, 9, 125, la mediana seguirá siendo 7, pero la media ahora
será 29.6.

En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy


afectada por la observación extrema. Este no ha sido el caso para la mediana.

Ejercicio:

Demuestre sus habilidades matemáticas con el siguiente ejemplo.

Los siguientes 50 datos corresponde a los tiempos de ignición de ciertos materiales de


tapicería, expuestos al fuego a las más cercana centésima de segundo. Encuentre la mediana
utilizando una tabla de frecuencias con datos agrupados en intervalos de clase.
2.58 6.2 1.52 5.62 3.87
4.79 5.92 4.56 6.43 6.9
5.5 5.84 8.8 8.64 4.72
6.75 7.86 4.71 9.4 9.45
2.65 8.79 5.92 6.25 5.09
7.6 3.9 5.33 7.4 7.41
3.78 3.75 3.1 2.46 1.7
4.9 3.49 6.77 1.38 9.5
5.21 1.76 9.2 6.43 6.85
2.51 4.04 1.25 1.58 2.8

R: el tiempo promedio de ignición es de 5.24 segundos.

Cálculo de la mediana de forma geométrica


Figura 2: Cálculo geométrico de la mediana

72
En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de
la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos
encontrado que por debajo están el 50%de las observaciones. Entonces se obtiene la mediana a
partir de las frecuencias absolutas acumuladas, mediante interpolación lineal (teorema de
Thales) como sigue (figura 2):
 

Observación
La relación (2.2) corresponde a definir para cada posible
observación, , su frecuencia relativa acumulada, F(x), por interpolación lineal entre los valores
F(lj-1) = Fj-1 y F(lj) = Fj de forma que

De este modo, Med es el punto donde . Esto equivale a decir que la mediana divide al
histograma en dos partes de áreas iguales a1/2.

Ejemplo para desarrollar por los alumnos:

Obtener la media aritmética y la mediana en la distribución adjunta. Determinar gráficamente cuál de los dos promedios es
más significativo.

73
li-1 - li ni
0 - 10 60
10 - 20 80
20 - 30 30
30 - 100 20
100 - 500 10

Solución:

li-1 - li fi ai xi xi ni Ni

0 - 10 60 10 5 300 60 60
10 - 20 80 10 15 1.200 140 80
20 - 30 30 10 25 750 170 30
30 - 100 20 70 65 1.300 190 2,9
100 - 500 10 400 300 3.000 200 0,25

  n=200        

f = frecuencia
ai = tamaño de la clase
xi = marca de clase
Ni = frecuencia acumulada
La media aritmética es:

por tratarse de puntuaciones par, la mediana se encuentra entre los datos 99 y 100.

La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo mediano es [10;20].
Así:

Donde

L1 = límite real inferior de la clase mediana (es decir, la clase que contiene la mediana) = 10
N= Número de datos, es decir, frecuencia total = 200
(∑f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana = 60
F mediana = frecuencia de la clase mediana = 80
c= Tamaño del intervalo de la clase mediana = 10

Para ver la representatividad de ambos promedios, realizamos el histograma de la figura 2.3, y observamos que dada la forma
de la distribución, la mediana es más representativa que la media.

74
Figura 2.3: Para esta distribución de frecuencias es más representativo
usar como estadístico de tendencia central la mediana que la media.

Ejercicio: Utilizando el problema anterior, encuentre la media mediante la distribución de frecuencias


acumuladas en intervalos de clase.

VIII. La moda
o
X
Se representa por el símbolo:

La moda es el valor que se repita la mayor cantidad de veces, si la variable es discreta,


también se dice que es el valor más común, es útil cuando se requiere un cálculo rápido.
También suele ser llamada modo. Es el valor que ocurre con mayor frecuencia; es decir, el
valor más frecuente. La moda puede no existir, e incluso no ser única en caso de existir; puede
ocurrir que en una distribución haya dos o más modas (aunque es poco común que esto resulte
en el trabajo experimental), entonces, se dice que la distribución es bimodal, trimodal, etc.

En ciertas ocasiones, el promedio, la mediana y la moda, suelen coincidir, aunque


generalmente no es así. Cada uno de ellos presenta ventajas e inconvenientes.

Si los datos no están agrupados el cálculo de la moda es trivial, ya que solo se debe observar
cuál es el dato que más se repite entre ellos.

La moda es la única medida de tendencia central que se puede calcular para variables de tipo
cualitativo, por ejemplo, el grado de escolaridad (primaria, secundaria, universitaria, etc.), el
tipo de suelo (arcilloso, arenoso, etc.)
Una distribución que tiene una sola moda se llama unimodal.

75
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir,
cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior.   

VIII.1 Características de la moda:

4. Pueden existir varias modas, lo que da origen a distribuciones bimodales,


trimodales, etc.
5. No toma en cuenta todas las observaciones
6. Es menos representativa que la media
7. Se puede calcular para características cualitativas.
8. Indica el valor más típico en la distribución.
9. Puede localizarse con facilidad y tener una idea cruda del promedio.
10. Es la medida de tendencia central más fácil de calcular.

VIII.2 Propiedades de la Moda:

De la moda destacamos las siguientes propiedades:

VIII.2.1 Es muy fácil de calcular.

VIII.2.2 Puede no ser única.

VIII.2.3 Es función de los intervalos elegidos a través de su amplitud, número y límites


de los mismos.

VIII.2.4 Aunque el primero o el último de los intervalos no posean extremos inferior o


superior respectivamente, la moda puede ser calculada.

VIII.3 Primer caso: Utilizando los datos de campo o contenidos en una tabla de distribución
de frecuencias que compete a las 120 plantas de maíz analizadas en capítulos anteriores,
procederemos a analizar la moda como medida de centralización.

Para nuestro caso, el 0.99 metros se repite 16 veces, es el valor de altura de los plantas de maíz
que se repite mayormente, por lo tanto, este es el valor modal.

En el caso de datos agrupados donde se ha construido una curva de frecuencia para ajustar los
datos, la moda será el valor (o los valores) de X correspondientes al máximo (o máximos) de
la curva.

VIII.4 Segundo caso: De una distribución de frecuencias o un histograma o de datos


agrupados en intervalos de frecuencia de clase, la moda suele sacarse de la fórmula:

76
mod a=L1 +
( Δ1
Δ1 + Δ2 )
c

Donde

L1 = Límite real inferior de clase de la clase modal (es decir, la clase que contiene la moda)
Δ1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior
Δ2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior
c = tamaño del intervalo de clase modal

Si tomamos la tabla que hemos venido analizando, podemos encontrar la moda aplicando la
fórmula anterior,

frecuencias frecuencias
Clases Intervalo frecuencias absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0

Observando la frecuencia absoluta simple, encontramos que la clase modal está constituida
por el intervalo que va de 0.9775 a 1.0013.

L1 = 0.9775
Δ1 = 28-14 = 14
Δ2 = 28-11 = 17
c = 0.02375

mod a=0 . 9775+ (1414 +17 ) 0. 02375


Moda = 0.9882 metros

La moda difiere significativamente de las otras medidas, ya que para su cálculo solo se toma
en cuenta el valor más repetido, no importando los demás valores. Por otro lado, la mediana
por definición se obtiene del valor central (que en general difiere de la media aritmética) La
diferencia principal de la moda, mediana y la media aritmética estriba en que no
77
se consideran todos los datos, en otras palabras, la moda y la mediana pueden utilizarse como
un parámetro estadístico de facil cálculo; sin embargo, no siempre son representativos de la
muestra como lo es la media aritmética.

IX. Relación entre media, mediana y moda

En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la


media y la moda (incluso más cerca de la media). En distribuciones que presentan cierta
inclinación, es más aconsejable el uso de la mediana. Sin embargo en estudios relacionados
con propósitos estadísticos y de inferencia suele ser más apta la media.

Para curvas de frecuencias unimodales que sean moderadamente sesgadas (asimétricas), se


tiene la relación empírica

Media – moda = 3 (media – mediana)

En la siguiente figura se muestran las posiciones relativas de la media, mediana y moda para
una curva de frecuencias que está sesgadas a la izquierda.

Para curvas simétricas, la media, moda y mediana coinciden.

TAREAS COMPLEMENTARIAS
Resolver las hojas de trabajo utilizando los programas estadísticos.

Uso de los programas:


a. Stadis 1.05 ß
b. SPSS
c. Calculadora científica d) Excel

UNIDA
MEDIDAS DE 78

D5
POSICIÓN
I. Introducción

Las medidas de posición permiten conocer el valor de otros puntos característicos de la


distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una
serie de valores que dividen la muestra en tramos iguales. Informan sobre la localización de
los valores de los datos después de haber sido ordenados.

II. OBJETIVOS ESPECÍFICOS

 Conocer el valor de los estadísticos de posición no central, de importancia en el


estudio de casos relacionados con la agricultura

 Aplicar los conocimientos relativos a estadísticos no centrales a casos de estudio


con seres vivos.

Los estadísticos de posición suelen llamarse también cuantiles y entre ellos tenemos, los
percentiles, deciles, quintiles y cuartiles.

III. Percentiles (P)

Son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Son los
valores que dividen los datos en cien partes iguales y se representan por P1, P2, …, P99.

El quinto decil y el quincuagésimo percentil se corresponden con el valor de la mediana. Los


percentiles P25 y P75, se corresponden con el valor del primer y tercer cuartil, respectivamente.

Los valores de los percentiles pueden ubicarse por simple observación, cuando se trata de cien
observaciones, o calcularse de acuerdo a la siguiente fórmula de interpolación lineal:

{ }
x (n)
−N
100
P1= L1 + c
fP 1

L1 = límite real inferior de la clase del percentil buscado,


(x)n: número de percentil multiplicado por el total de observaciones.
N = Número de observaciones acumuladas que corresponden a las clases anteriores a la que
contiene el percentil
fP1 = Número de observaciones que corresponden a la clase que contiene el percentil
c= Tamaño de intervalo de la clase del percentil

79
III.1 Metodología

III.1.1 Primer caso. Calcular el valor de los percentiles utilizando la tabla de distribución de
frecuencias agrupadas de forma simple.

Tabla de distribución de frecuencias agrupadas de forma simple


Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00%
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

Ejemplo: calcular el valor del percentil 20 (P20) y cuántas plantas le corresponden, utilizando
la información de altura de 120 plantas de maíz (información que hemos venido utilizando).

En este caso puede utilizarse el método de interpolacion lineal, resolviendo para x en


una ecuación de primer grado para encontrar el valor del P 20; también calculamos cuántas
plantas corresponden a este percentil, porque 21 plantas son el 17.50% y les corresponde la
altura de 0.95 metros; y 30 plantas son el 25% y les corresponde 0.96 metros de altura;
¿cuántas plantas corresponden al 20%?
80
Primeramente, preparamos una gráfica que nos facilite ubicar la información y haciendo uso
de una calculadora procedemos a encontrar la función de regresión entre dos puntos:

25%
MODO 3: REG
MODO DE REGRESIÓN 1: LIN 20%

Para el presente caso contamos con los siguientes datos: 17.5%

P1: (0.95, 17.50%) P2: (0.96, 25%), donde Y = 20%


0.95 x 0.96
Estos datos se ingresan a la calculadora por pares y se procede a encontrar los valores de “A”
y “B”; la función de regresión es:

20 = -695 + 750x, resolviendo tenemos: X = 0.9533 metros

P1: (21, 17.50%) P2: (30, 25%), donde Y = 20%


Estos datos se ingresan a la calculadora por pares y encontrar la cantidad de plantas; la función
de regresión es:

Y = 0 + 0.83333x, resolviendo tenemos: X = 24 plantas

Respuesta: 24 plantas corresponden al percentil 20 de la población y miden 0.9533


metros.

III.1.2 Segundo caso. Calcular el valor de los percentiles utilizando la tabla de distribución de
frecuencias agrupadas por intervalos de clase.

Frecuencias frecuencias Frecuencias


Clases Intervalo absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
Ejemplo: encontrar el valor del P25 utilizando la tabla de distribución de frecuencias
agrupadas en intervalos de clase mostrada anteriormente.

81
Procedimiento:

a. Ubicar la clase que contiene el percentil buscado (es la clase 2)


b. Ubicar el limite inferior (0.9538 metros)
c. Número de observaciones (120)
d. Frecuencias acumuladas anteriores a la clase del percentil (21)
e. Frecuencias de la clase percentil (14)
f. Tamaño del intervalo (0.02375)
g. Planteamiento de la fórmula:

{ } { }
( x )n 25(120)
−N −21
100 100
P1= L1 + c P25=0 . 9538+ 0 . 02375
fP 1 14
=

Respuesta: el valor del P25 es 0.9691 metros y corresponde al primer cuartil; es decir, el
25% de las plantas en estudio tienen una altura de 0.9691 metros o menos.

IV. Deciles (D)

Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados; los
valores que dividen los datos en diez partes iguales se llaman deciles y se representan por D 1,
D2, … D9.

IV.1 Metodología

IV.1.1 Primer caso: por simple observación utilizando la tabla de distribución de frecuencias.

Por simple observación pueden localizarse los valores correspondientes a cada 10%; en
muchos casos, la tabla no lo permite y se hace necesario calcularlos.

IV.1.2 Segundo caso. Calcular el valor de los deciles utilizando la tabla de distribución de
frecuencias agrupadas de forma simple.

Tabla de distribución de frecuencias agrupadas de forma simple


Variabl frecuencias frecuencias frecuencias relativas
e absolutas proporcionales (%)
82
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00%
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

Ejemplo: calcular el valor del quinto decil (D5) y cuántas plantas le corresponden, utilizando la
información de la tabla anterior, altura de 120 plantas de maíz.

En este caso puede utilizarse el método de interpolacion lineal, resolviendo para x en


una ecuación de primer grado para encontrar el valor del D 4; también calculamos cuántas
plantas corresponden a este decil.

59 plantas son el 49.16% y les corresponde la altura de 0.99 metros; 72 plantas son el 60% y
les corresponde 1.01 metros de altura; ¿cuántas plantas corresponden al 50%, que es el D5?

Primeramente, preparamos una gráfica que nos facilite ubicar la información y haciendo uso
de una calculadora procedemos a encontrar la función de regresión entre dos puntos:

MODO 3: REG
MODO DE REGRESIÓN 1: LIN 60.00%

50.00% 83

49.16%

0.99 x 1.01
a. Encontrar la altura del D5; para el presente caso contamos con los siguientes datos:

P1: (0.99, 49.16%)


P2: (01.01, 60%),
donde Y = 50%

Estos datos se ingresan a la calculadora por pares y se procede a encontrar los valores de “A”
y “B”; la función de regresión es:

50 = -487.42 + 542x, resolviendo tenemos: X = 0.9915 metros

b. Encontrar la cantidad de plantas correspondientes al D5:

P1: (59, 49.16%) P2: (72, 60%), donde Y = 50%


Estos datos se ingresan a la calculadora por pares y encontrar la cantidad de plantas; la función
de regresión es:

50 = -0.037 + 0.8338x, resolviendo tenemos: X = 60 plantas

Respuesta: 60 plantas en estudio corresponden al quinto decil de la población y miden


0.9915 metros o menos.

IV.1.3 Tercer caso: utilizando la tabla de distribución de frecuencias con intervalos de clase

Para calcular su valor se aplica la fórmula:

{ }
n
−N
10
D1 =L1 + c
fD1
Donde

L1 = límite real inferior de la clase donde se encuentra el decil


n = Número total de observaciones multiplicada por el número de decil.
N= Número de observaciones acumuladas que corresponden a las clases anteriores a la que
contiene el decil
fD1 = Número de observaciones que corresponden a la clase que contiene el decil
c= Tamaño de intervalo de la clase del decil

Calcular el valor de los deciles utilizando la tabla de distribución de frecuencias agrupadas por
intervalos de clase se procede de la siguiente manera:

Clases Intervalo Frecuencias frecuencias Frecuencias c


absolutas proporcionales
84
relativas (%)
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
Ejemplo: encontrar el valor del D5 utilizando la tabla de distribución de frecuencias agrupadas
en intervalos de clase mostrada anteriormente.

Procedimiento:

a. Ubicar la clase que contiene el decil 5 (es la clase 3)


b. Ubicar el limite inferior (0.9775 metros)
c. Número de observaciones (120)
d. Frecuencias acumuladas anteriores a la clase del decil (35)
e. Frecuencias de la clase del decil 5 (28)
f. Tamaño del intervalo (0.02375)
g. Planteamiento de la fórmula:

{ }
n

{ }
−N 5(120 )
10 −35
D1 =L1 + c D5 =0 . 9775+
10
0 . 02375
fD1 28
=
Respuesta: el valor del D5 es 0.9987 metros; es decir, el 50% de las plantas en estudio
tienen una altura de 0.9987 metros o menos.

V. Quintiles (Q)

Son cuatro valores que distribuyen la serie de datos, ordenados de forma creciente o
decreciente, en cinco tramos iguales, en los que cada uno de ellos concentra el 20% de los
resultados.

Los quintiles se usan con frecuencia para dividir las poblaciones en grupos. Por ejemplo,
puede utilizar la función QUINTIL para determinar el 40 por ciento de la población infantil
que se encuentra en situación de extrema pobreza.
V.1 Metodología

V.1.1 Primer caso: Utilizando los datos agrupados en una tabla de distribución de
frecuencias agrupadas en forma simple
85
Ejemplo: calcular el segundo quintil de la serie de datos referidos a la medición de la altura de
las 120 plantas de maíz utilizando la tabla de distribución de frecuencias agrupadas de forma
simple.

Tabla de distribución de frecuencias agrupadas de forma simple


Variable frecuencias frecuencias frecuencias relativas
(altura) absolutas proporcionales (%)
simples acumuladas simples acumuladas simples Acumuladas
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00%
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  

En este caso puede utilizarse el método de interpolacion lineal, resolviendo para x en


una ecuación de primer grado para encontrar el valor del Q 2 (40% de la población) también
calculamos cuántas plantas corresponden a este quintil.

43 plantas son el 35.83% y les corresponde la altura de 0.98 metros; 63 plantas son el 52.50%
y les corresponde 1.00 metros de altura; ¿cuántas plantas corresponden al 40%, que es el Q2?

Primeramente, preparamos una gráfica que nos facilite ubicar 52.50%


la
información y haciendo uso de una calculadora procedemos a
encontrar la función de regresión entre dos puntos. 40.00%
86
35.83%

0.98 x 1.00
a. Encontrar la altura del Q2.

para el presente caso contamos con los siguientes datos:

P1: (0.98, 35.83%)


P2: (1.00, 52.50%),
donde Y = 40%

MODO 3: REG MODO DE REGRESIÓN 1: LIN

Estos datos se ingresan a la calculadora por pares y se procede a encontrar los valores de “A”
y “B”; la función de regresión es:

40 = -781 + 833.5x, resolviendo tenemos: X = 0.9850 metros

b. Encontrar la cantidad de plantas correspondientes al Q2:

P1: (43, 35.83%) P2: (63, 52.5%), donde Y = 40%


Estos datos se ingresan a la calculadora por pares y encontrar la cantidad de plantas; la función
de regresión es:

40 = -0.0105 + 0.8335x, resolviendo tenemos: X = 48 plantas

Respuesta: 48 plantas corresponden al segundo quintil de la población y miden 0.9850


metros.

V.1.2 Segundo caso: Encontrar el valor de los quintiles utilizando la tabla de distribución de
frecuencias con intervalos de clase.

Para calcular su valor se aplica la fórmula:

{ }
n
−N
5
Q1 =L1 + c
fQ1
Donde

L1 = límite real inferior de la clase donde se encuentra el quintil.


n = Número total de observaciones multiplicada por el número de quintil.
N= Número de observaciones acumuladas que corresponden a las clases anteriores a la que
contiene el quintil.
fD1 = Número de observaciones que corresponden a la clase que contiene el quintil.
c= Tamaño de intervalo de la clase del quintil.

87
Ejemplo: calcular el valor del segundo quintil utilizando la tabla de distribución de frecuencias
agrupadas por intervalos de clase de las 120 plantas de maíz en estudio.

Frecuencias frecuencias Frecuencias


Clases Intervalo absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0

Procedimiento:

a. Ubicar la clase que contiene el segundo quintil (es la clase 3)


b. Ubicar el limite inferior (0.9775 metros)
c. Número de observaciones (120)
d. Frecuencias acumuladas anteriores a la clase del segundo quintil (35)
e. Frecuencias de la clase del segundo (28)
f. Tamaño del intervalo (0.02375)
g. Planteamiento de la fórmula:

{ }
n

{ }
−N 2(120)
5 −35
Q 1 =L1 + c 5
fQ1 Q2 =0 .9775+ 0 .02375
= 28

Respuesta: el valor del Q2 es 0.9885 metros; es decir, el 40% de las plantas tienen una altura
de 0.9885 metros o menos.

III. Cuartiles (C)

Son tres valores que distribuyen la serie de datos, ordenados de forma creciente o decreciente,
en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

88
Los cuartiles se usan con frecuencia para dividir las poblaciones o analizar los ingresos en una
empresa en grupos del 25%. Por ejemplo, puede utilizar la función CUARTIL para conocer el
75% por ciento de la población estudiantil de la Universidad Rafael Landivar que proviene del
municipio de Nueva Concepción, Escuintla.

VI.1 Metodología
VI.1.1 Primer caso. Utilizando la tabla de distribución de frecuencias simples
Ejemplo: calcular el tercer cuartil de la serie de datos que corresponden a la medición de la
altura de las 120 plantas de maíz en estudio utilizando la tabla de distribución de frecuencias
agrupadas de forma simple.

Tabla de distribución de frecuencias agrupadas de forma simple


Variable frecuencias frecuencias frecuencias relativas
(altura) absolutas proporcionales (%)
simples acumuladas simples acumuladas simples Acumuladas
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00%
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1   100  
Utilizando la tabla anterior vemos que 90 plantas corresponden al tercer cuartil, es decir, el
75% de las plantas en estudio y tienen una altura de 1.05 metros.

89
Cuando es necesario calcular el cuartil, puede utilizarse el método de interpolacion
lineal, resolviendo para x en una ecuación de primer grado de acuerdo a los procedimientos
hasta ahora vistos en clase.

VI.1.2 Segundo caso: Encontrar el valor de los cuartiles utilizando la tabla de distribución de
frecuencias agrupadas en intervalos de clase.

En este caso se aplica la fórmula siguiente:

{ }
n
−N
4
C1 =L1 + c
fC 1
Donde

L1 = límite real inferior de la clase donde se encuentra el cuartil.


n = Número total de observaciones multiplicada por el número de cuartil.
N= Número de observaciones acumuladas que corresponden a las clases anteriores a la que
contiene el cuartil.
fC1 = Número de observaciones que corresponden a la clase que contiene el cuartil.
c= Tamaño de intervalo de la clase del cuartil.

Ejemplo: calcular el valor del tercer cuartil utilizando la tabla de distribución de frecuencias
agrupadas por intervalos de clase de las 120 plantas de maíz en estudio.

Frecuencias frecuencias Frecuencias


Clases Intervalo absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0

Procedimiento:

a. Ubicar la clase que contiene el tercer cuartil (es la clase 6)


b. Ubicar el limite inferior (1.0488 metros)
c. Número de observaciones (120)
d. Frecuencias acumuladas anteriores a la clase del segundo quintil (86)
e. Frecuencias de la clase del segundo (7)

90
f. Tamaño del intervalo (0.02375)
g. Planteamiento de la fórmula:

{ }
n

{ }
−N 3(120 )
4 −86
C1 =L1 + c 4
fC 1 C3 =1 . 0488+ 0 . 02375
= 7 = 1.0624 m
La cantidad de plantas correspondientes a este caso pueden calcularse utilizando la siguiente
fórmula:

Tercer cuartil (C3) = 3n/4 = 3(120)/4 = 90

Respuesta: 90 plantas de maíz corresponden al 75% de la población en estudio y miden


1.0624 metros o menos.

Ejemplo:

Dada la siguiente distribución de número de hijos de cien familias, calcular sus cuartiles.
Número de hijos Frecuencia Frecuencia
acumulada
0 14 14
1 10 24
2 15 39 (Q1)
3 26 65 (Q2)
4 20 85 (Q3)
5 15 100
Total 100

Solución:

Primer cuartil (Q1) = n/4 = 100/4 = 25.

Sin embargo, observamos que el valor de la frecuencia acumulada donde se encuentra el dato
25 es mayor a 25, es 39, y le corresponde el valor de 2 hijos. Es decir, el 25% de las familias
en estudio tienen dos hijos o menos.

Segundo cuartil (Q2) = 2n/4 = 200/4 = 50

También observamos que el valor de la frecuencia acumulada donde se encuentra el dato 50 es


mayor a 50, es 65, y le corresponde el valor de 3 hijos. Es decir, el 50% de las familias en
estudio tienen tres hijos o menos.

91
Tercer cuartil (Q3) = 3n/4 = 300/4 = 75

Al igual que los casos anteriores, observamos que el valor de la frecuencia acumulada donde
se encuentra el tercer cuartil que es 75, es mayor a 75, es 85, y le corresponde el valor de 4
hijos. Es decir, el 75% de las familias en estudio tienen cuatro hijos o menos.

Recomendación: utilizar de forma intensiva el programa estadístico SPSS

UNIDA
MEDIDAS
D 6 DE 92

DISPERSION
I. Introducción

Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de
puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores
están próximas entre sí o si por el contrario están o muy dispersas.

El análisis o estudio de las medidas de dispersión tiene como objetivo conocer la distribución
de los valores y si estos se encuentran más o menos concentrados o dispersos alrededor del
valor central.

Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar:

1. Rango: mide la amplitud de los valores, de la muestra o de la población, y se calcula


por diferencia entre el valor más elevado y el valor más bajo.

2. Desviación Media: es el valor absoluto de las desviaciones de los valores de cada clase
con respecto a su media.

3. Varianza: promedia la distancia existente entre los valores de la serie y la media. Se


calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se
divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados
estarán los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la
varianza, más dispersos se hallarán estos valores. Informa del valor de las variables al
cuadrado.

4. Desviación típica: es la raíz cuadrada de la varianza. Posee las mismas unidades que la
media. También se le conoce como desviación estándar.

5. Coeficiente de variación de Pearson: es el cociente entre la desviación típica y la


media. Es un parámetro adimensional y permite comparar series de distintas medias.

II. OBJETIVOS ESPECÍFICOS

1. Que los estudiantes de la carrera de ciencias ambientales y agrícolas conozcan los


principios relacionados con las medidas de dispersión y su importancia en la toma de
decisiones en las investigaciones de campo.
93
2. Aplicar las distintas medidas de dispersión en el estudio de casos particulares.

III. El rango

También se le conoce con el nombre de Recorrido. Es la diferencia entre el límite superior del
último intervalo y el inferior del primero.

Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto. Es fácil de
calcular y sus unidades son las mismas que las de la variable, aunque posee varios
inconvenientes:

- No utiliza todas las observaciones (sólo dos de ellas);

- Se puede ver muy afectada por alguna observación extrema;

- El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier


caso nunca disminuye.

Características:

El cálculo es sencillo pero no toma en cuenta todas las observaciones. A menos rango, menor
dispersión y mayor representatividad de las medidas centrales.

Como fue dicho, es la diferencia entre el mayor valor de la muestra (en nuestro caso es 1.12
m) y el menor valor (0.93 m). Luego el rango de esta muestra de las plantas de maíz en estudio
es: 1.12– 0.93 = 0.19 m

Esta información es importante para el cálculo de otras medidas estadísticas. A veces el rango
se da por la simple anotación de los números mayor y menor.

También pueden encontrarse los rangos: a) Semiintercuartílico y b) rango entre percentiles 10-
90, que se discuten a continuación.

III.1 Rango intercuartílico (IQR)

El rango intercuartílico C3 – C1 se emplea a veces como medida de dispersión.

Nos indica la amplitud del intervalo donde se encuentra el 50% central de la población. De
una serie de datos.

IQR = 1.050 – 0.9600 = 0.0900 m

94
En este caso, debemos reconocer que el 50% de los datos se encuentran entre el C 3 y el C1, es
decir, el 50% de las plantas (60 plantas), tienen alturas entre 0.9600 y 1.050 m.

III.2 Rango semiintercuartílico (IQR)

Utiliza el primer y tercer cuartil, es más utilizado como medida de dispersión. También se
conoce como desviación cuartílica.

Si se dispone de la información de las 120 plantas de maíz en estudio, vemos que el valor del
primer cuartil (C1) es 0.9600 metros y el valor del tercer cuartil (C3) es 1.050 metros.

Se define por:

C 3 −C1
Rango semiintercuartílico: Q = 2

Donde C1 y C3 son el primer y tercer cuartil, respectivamente.

1.05−0.96
La desviación cuartílica es: Q= 2 = 0.045

Se puede considerar como medida de centralización el valor ½ (C 1 + C3) = ½ (0.9600+1.050)


= 1.0050 m promedio de altura, como medida de centralización, es decir, promedio de altura.
De aquí sigue que el 50% de las alturas de las plantas de maíz se encuentran en el intervalo
(1.0050 ± 0.0450) m.

Respuesta:

50% de las plantas se encuentran en el intervalo 0.9600 a 1.0500 metros.

III.3 Rango entre percentiles 10-90

De una serie de datos viene definido por: Rango percentil 10-90 = P90 – P10

Donde P10 y P90 son los percentiles décimo y nonagésimo de los datos.

El rango semipercentil 10-90, ½ (P90 – P10) puede también emplearse aunque su empleo no es
corriente.

Encontrar el valor del P10

P1: (0.94, 5.83%) P2: (0.96, 25%), donde Y = 10%

10 = -895.16 + 958.5x
95
X = 0.9443 m, valor del P10

Encontrar el valor del P90


P1: (1.09, 85.83%) P2: (1.11, 97.50%), donde Y = 90%

90 = -550.185 + 583.5x
X = 1.0971 m, valor del P90

El valor del P10 = 0.9443 m


El valor del P90 = 1.0971 m

Entonces el rango entre percentiles 10-90 es = ½ (P90 – P10) = ½ (1.0971 – 0.9443) = 0.0764 m.

Puesto que ½ (P90 + P10) = ½ (1.0971 + 0.9443) = 1.0207 m y ½ (P 90 – P10) = ½ (1.0971 –


0.9443) = 0.0764 m, se puede deducir que el 80% de las plantas tienen alturas comprendidas
entre 1.0207 ± 0.0764 m

Respuesta:

El 80% de las plantas tienen alturas comprendidas entre 0.9443 y 1.0971 m.

IV. La desviación media

Es la media de las desviaciones de los valores de la variable respecto a la media de la


distribución.

IV.1 Características de la desviación media

Poco utilizada por la complicación de su cálculo.

Si la desviación media es muy pequeña, hay una gran concentración de valores entorno a la
media.

IV.2 Métodos

La desviación media o promedio de desviación, de una serie de n números X1, X2, … Xn viene
definido por:

∑ ( X −X )
Desviación media: (DM) = n

Donde  es la media aritmética de los números y ‫׀‬X -‫ ׀‬es el valor absoluto de las
desviaciones de las diferentes X de  (el valor absoluto de un número es el

96
mismo número sin asociarle signo alguno y se indica por dos barras verticales a ambos lados
del número. Así 4 = ‫׀‬4-‫׀‬

Ejemplo para variables discretas y datos no agrupados, hallar la desviación media de los
números 2, 3, 6, 8, 11. Primeramente procedemos a encontrar el valor de la media aritmética,

= 2+3+6+8+11 = 6
5
Luego, operamos para la desviación media

= ‫׀‬11-6‫ ׀‬+ ‫׀‬8-6‫ ׀‬+ ‫׀‬6-6‫ ׀‬+ ‫׀‬3-6‫ ׀‬+‫׀‬2-6‫׀‬


5

= ‫׀‬5‫ ׀‬+ ‫׀‬2‫ ׀‬+ ‫׀‬0‫ ׀‬+ ‫׀‬3-‫ ׀‬+‫׀‬4-‫׀‬ == 4+3+0+2+5 = 2.8
5 5

Encontrar la DM, utilizando variables continuas.

En nuestro caso, utilizaremos la tabla de distribución de frecuencias agrupadas en intervalos


de clase de las 120 plantas de maíz en estudio.

Frecuencias frecuencias Frecuencias


Clases Intervalo absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0

De acuerdo a la lección cuatro, sabemos que la media aritmética es 1.0141 m

Por lo que, procedemos a preparar la siguiente tabla.

Clases Li ls c ‫׀‬X - ‫׀‬ F Simple f ‫׀‬X - ‫׀‬


1 0.93 0.9538 0.9419 0.0722 21 1.5162
2 0.9538 0.9775 0.9656 0.0485 14 0.679
3 0.9775 1.0013 0.9894 0.0247 28 0.6916
4 1.0013 1.025 1.0131 0.001 11 0.011
5 1.025 1.0488 1.0369 0.0228 12
97
0.2736
6 1.0488 1.0725 1.0606 0.0465 7 0.3255
7 1.0725 1.0963 1.0844 0.0703 10 0.703
8 1.0963 1.12 1.1081 0.094 17 1.598
promedio 1.0141 120 5.7979

DM = 5.7979/1120 = 0.04832 metros

Es decir, el rango para una DM es: 1.0141 ± 0.04832 = 0.9658 a 1.06242 m


Para 2DM: 1.0141 ± 2(0.04832) = 0.9174 a 1.1107 m
Para 3DM: 1.0141 ± 3 (0.04832) = 0.8691 a 1.1590 m

Ocasionalmente la desviación media se define como desviaciones absolutas de la mediana u


otro promedio en lugar de la media. Una propiedad interesante es que la desviación media
respecto de la mediana es mínima.

Sería apropiado utilizar el término desviación media absoluta que el de desviación media.
Como se observa, la desviación media guarda las mismas dimensiones que las observaciones.

La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene
un inconveniente: Desde el punto de vista geométrico, la distancia que induce la desviación
media en el espacio de observaciones no es la natural (no permite definir ángulos entre dos
conjuntos de observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de
hacer inferencia a la población.

Cuestionamientos:

Se les recomienda a los alumnos resolver las siguientes preguntas:

¿Cuántas plantas se encuentran a una DM?


¿Cuántas plantas se encuentran a dos DM?
¿Cuántas plantas se encuentran a tres DM?

V. La varianza
2
Si las desviaciones con respecto a la media las consideramos al cuadrado, ( xi −x ) , de nuevo
obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma
de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles
de utilizar. Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del
curso: La varianza y la desviación típica.

La varianza, es una medida de la variabilidad de un conjunto de datos. Es un promedio de los


cuadrados de las diferencias de los puntos o datos con respecto a su media.

98
La Varianza promedia la distancia existente entre los valores de la serie y la media. Para
datos agrupados en forma simple, se calcula como sumatorio de las diferencias al cuadrado
entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada
valor. El sumatorio obtenido se divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados
están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la
varianza, más dispersos están.

Concepto: Media de los cuadrados de las desviaciones de los valores de la variable.

Características de la varianza

Medida que depende de todos los datos, cuyas unidades son las de la variable al cuadrado.

La varianza es positiva o nula (si todos los valores coinciden con la media). Si la dispersión es
grande, la varianza la expresa mejor que la desviación media.

También se dice que es el estadístico de dispersión que mide el grado de variabilidad y que
sintetiza el grado de homogeneidad o heterogeneidad de las diferencias individuales entre los
casos de una muestra (o de varias muestras) respecto de una o varias variables numéricas
continuas o cuantitativas

Característica de una muestra o población que cuantifica su dispersión o variabilidad. La


varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la desviación
típica. La varianza muestral es un estimador sesgado de la varianza poblacional.

Cuando es necesario distinguir la desviación típica de una población de la desviación típica de


una muestra sacada de esta población, se emplea el símbolo s para la última y σ (letra griega
sigma minúscula) para la primera. Así, σ2 y s2 representarían la varianza poblacional y la
varianza muestral, respectivamente. Si utilizamos la fórmula

Podremos encontrar la varianza de los datos de la altura de las 120 plantas en estudio.

V.1 Metodología

V.1.1 Utilizando los datos de campo.

Primeramente, es necesario recordar el valor de la media de los datos, este es, =1.0134 m
para datos no agrupados en intervalos de clase.
99
Seguidamente procederemos a sumar el valor de las diferencias de cada dato de su promedio,
elevándolo al cuadrado y dividiendo la sumatoria entre el número de observaciones.

σ2 = (0.93 – 1.0134)2 + (0.93 – 1.0134)2 + … ( 1.12 – 1.0134)2


120

σ2 = 0.0031 m2

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se
miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la medida de
dispersión sea de la misma dimensionalidad que las observaciones, bastará con tomar su raíz
cuadrada.

Las siguientes propiedades de la varianza son importantes a la hora de hacer un cambio de


origen y escala a una variable. En primer lugar, la varianza no se ve afectada si al conjunto de
valores de la variable se le añade una constante. Si además cada observación es multiplicada
por otra constante, en este caso la varianza cambia en relación al cuadrado de la constante.

Si una puntuación cambia, cambia con ella la varianza. La razón es que si miramos su
definición, la varianza es función de cada una de las puntuaciones.

V.1.2 Segundo caso, es calcular la varianza a través de los datos agrupados en una tabla de
distribución de frecuencias simples.

s
2
x
=
∑ 2
( xi −x m ) ∗f i
n

σ2 = 3(0.93 – 1.0134)2 +…+ 3( 1.12 – 1.0134)2


120

σ2 = 0.0031m2

V.1.2 Tercer caso, es calcular la varianza a través de los datos de una tabla de distribución de
frecuencias agrupadas en intervalos de clase. Es decir, cometemos cierto error en el cálculo de
la varianza cuando los datos han sido resumidos en una tabla estadística mediante intervalos,
en lugar de haber sido calculados directamente como datos no agrupados. Este error no será
importante si la elección del número de intervalos, amplitud y límites de los mismos ha sido
adecuada.
No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de
tendencia central.

Frecuencias frecuencias Frecuencias


Clases Intervalo absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple

100
acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
La media encontrada es: 1.0141 metros; para hallar la varianza procedemos:

s
2
x
=
∑ 2
( xi −x m ) ∗ni
n

s
2
x
=
[ (0 .9419−1. 0141 )2∗21+. ..+(1. 1081−1 . 0141)2∗17 ]
120

f c-m (c-m)2 (c-m)2*f f*c


21 (0.07) 0.0052 0.1096 19.7799
14 (0.05) 0.0024 0.0329 13.5184
28 (0.02) 0.0006 0.0171 27.7032
11 (0.00) 0.0000 0.0000 11.1441
12 0.02 0.0005 0.0062 12.4428
7 0.05 0.0022 0.0151 7.4242
10 0.07 0.0049 0.0494 10.844
17 0.09 0.0088 0.1502 18.8377
120 Total 0.3806 121.6943
0.0032 Varianza

s2 = 0.0032

VI. La desviación típica

VI.1 Concepto

101
Raíz cuadrada positiva de la varianza. También llamada desviación estándar. Es una medida
de la distancia de cada observación respecto a la media aritmética. A diferencia de la
desviación media, la desviación estándar no utiliza el valor absoluto sino que cada desviación
respecto a la media se eleva al cuadrado para eliminar el signo de las desviaciones negativas
convirtiendo dichos valore sen positivos.

VI.2 Características de la desviación típica

Es la medida de dispersión más utilizada en Estadística. Las unidades de la desviación típica,


son las mismas que las de la variable. A menor desviación típica, menor dispersión y mayor
representatividad de la media. También se le denomina desviación estándar.

Es la raíz cuadrada de la varianza, √s2 o, la raíz cuadrada del cuadrado medio de las
desviaciones.

En el siguiente cuadro encontrará las principales fórmulas para calcular la desviación estándar,
ya sea que se trate de muestras o de poblaciones:

Formulas para muestras Formulas para población


Para datos de campo: Para datos de campo:

s x=
√ ∑ ( x i−x m )2
n
σ x=
√ ∑ (x i −μ)2
N

Para datos agrupados de forma simple en Para datos agrupados de forma simple en
una tabla de distribución de frecuencias una tabla de distribución de frecuencias

s x=
√ ∑ f i∗( x i −x m )2
n
σ x=
√ ∑ f i∗( x i−μ )2
N

Para datos agrupados en una tabla de Para datos agrupados en una tabla de
distribución de frecuencias con intervalos de distribución de frecuencias con intervalos de
clase clase

s x=
√ ∑ f i∗( ci −x m )2
n
“c” es la marca de clase
σ x=
√ ∑ f i∗( c i−μ )2
N
“c” es la marca de clase

En nuestro caso, σ = √σ2 = √0.00312856 = 0.0559 metros

VI.3 Propiedades de la desviación típica:

VII.3.1 La desviación típica puede definirse como

102
s=
√ ∑ ( X −a )2
n

Donde “a” es un promedio que puede ser distinto de la media aritmética. De todas las
desviaciones típicas, la mínima es aquella para la que a = . Esta propiedad suministra una
razón de peso para definir la desviación típica como se ha definido anteriormente.

VII.3.1 Para distribuciones normales, resulta que:

El 68.27% de los casos están comprendidos entre  - s y  + s (es decir, el valor de la


desviación típica a ambos lados de la media)

El 95.45% de los casos están comprendidos entre  - 2s y  + 2s (es decir, el doble del valor
de la desviación típica a ambos lados de la media)

El 99.73% de los casos están comprendidos entre  - 3s y  + 3s (es decir, el triple del
valor de la desviación típica a ambos lados de la media).

Para distribuciones moderadamente asimétricas los porcentajes anteriores pueden mantenerse


aproximados.

En la estadística inductiva puede demostrarse que la desviación estándar de la muestra es un


mejor estimador de la desviación estándar de la población.

VII. Varianza combinada.

Supóngase dos series de datos de n1 y n2 números (o dos distribuciones de frecuencias con


frecuencias totales n1 y n2) cuyas variaciones vienen dadas por s12 y s22, respectivamente, y que
tienen la misma media , entonces la varianza combinada para ambas series (o ambas
distribuciones de frecuencia) está dada por

n1 s 2 + n2 s
1 22
s2=
n1 + n2

Esta es una media aritmética ponderada de las varianzas. Este resultado puede generalizarse a
tres o más series de datos.

VIII. Coeficiente de variación

VIII.1 Concepto

103
Cociente entre la desviación típica y la media. Se expresa en términos porcentuales.

Una desventaja de la desviación estándar como medida de dispersión es que depende de las
unidades de medición. Por ejemplo, los pesos de semillas pueden una desviación estándar de
0.1 onzas o 2,835 miligramos, que es lo mismo, pero ninguno de los dos valores nos indica en
realidad si existe mucha o muy poca dispersión. Si los objetos que se pesan son dispositivos
electrónicos pequeños de un computador, uno u otro número reflejará mucha dispersión, pero
éste no seria el caso si los objetos que se están pesando son cajas de 100 libras. Lo que se
necesita en una situación ésta es una medida de dispersión relativa, como el coeficiente de
variación, el cual se define como:

CV = (s/)*100
Que expresa la desviación típica como un porcentaje de la media aritmética.

VIII.2 Características:

1. Es independiente de las unidades de medida


2. No debe utilizarse si la media es próxima a cero
3. A menor coeficiente de variación, menor dispersión y mayor representatividad de la
media.
4. Si 0 < CV < 1, la distribución es homogénea
5. Si CV > 1.5, la distribución es heterogénea debida posiblemente a errores de la
medida.

También se le conoce como coeficiente de variación de Pearson y toma en cuenta que


una situación bastante habitual en una investigación consiste en analizar la asociación
existente entre dos variables continuas.

VIII.3 Metodología

Ejemplo, encontrar el coeficiente de variación de los datos estudiados con las 120 plantas de
maíz en estudio.

CV = (s/)*100

De acuerdo a nuestros cálculos (datos agrupados en forma simple), s = 0.0031 m y  =


1.0134 m

De donde, CV = 0.0559/1.0134 = 5.52%

El interés de conocer el coeficiente de variación está en que, al ser un cociente, permite


comparar el nivel de dispersión de dos muestras, independientemente de los valores que
contengan. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas
unidades que los datos de la serie.

104
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de las
plantas y otra serie con el peso de dichas plantas, no se pueden utilizar las desviaciones típicas
(una viene dada en metros y la otra en libras). En cambio, sus coeficientes de variación son
ambos proporciones (tantos por uno), por lo que, sí se pueden comparar.

Hemos visto que las medidas de centralización y dispersión nos dan información sobre una
muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos
poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones
de dos variedades de maíz, la desviación típica nos dará información útil.

¿Pero qué ocurre si lo que comparamos es la altura de plantas con respecto a su peso de grano?
Tanto la media como la desviación típica,  y s, se expresan en las mismas unidades que la
variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y
en la variable peso, la libra. Comparar una desviación (con respecto a la media) medida en
metros con otra en kilogramos no tiene ningún sentido.

El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El
mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos
poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en
quintales de una población de mil plantas de maíz con el correspondiente en onzas de una
población de 50 hormigas.

El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo,
se nos puede ocurrir medir a las hormigas con las mismas unidades que las plantas de maíz
(toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es que
la dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya
algunas que sean 1.000 veces mayores que otras!)

En los dos primeros casos mencionados anteriormente, el problema viene de la


dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de
ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas,
pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre
medias y desviación típica.

Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las
siguientes consideraciones deben ser tenidas en cuenta:

- Sólo se debe calcular para variables con todos los valores positivos. Todo índice de
variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas,
pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables
positivas, para la que tenemos con seguridad que >0.

- No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le


sumamos una cantidad positiva, b>0, para tener Y=X+b, entonces CVY < CVX, ya que la
desviación típica no es sensible ante cambios de origen, pero si la media. Lo contrario ocurre
si restamos (b<0).
105
- Es invariante a cambios de escala. Si multiplicamos X por una constante a, para
obtener Y=aX, entonces

SY SaX aS x
CV Y = = = =CVx
y ax ax

Es importante destacar que los coeficientes de variación sirven para comparar las
variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores
tipificados.
IX. Uso intenso de los programas SPSS, EXCEL, CALCULADORA.

Los alumnos contarán con acceso a los programas SPSS y realizarán las prácticas correspondientes.

UNIDA
MEDIDAS DE
D7 106

FORMA
I. Introducción

Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones de
una variable y sabemos cómo calcular la dispersión que ofrecen los mismos con respecto al
valor central. Nos proponemos dar un paso más allá en el análisis de la variable. En primer
lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto
a un valor central, o si bien la gráfica que representa la distribución de frecuencias es de una
forma diferente del lado derecho que del lado izquierdo.

Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos


apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta
distribución de frecuencias que consideramos normal (no por casualidad es éste el nombre que
recibe la distribución de referencia).

Se podría pensar que definir la simetría usando la mediana para variables continuas y usando
la media para variables discretas es una elección arbitraria. En realidad esto no es así, pues si
una variable es continua, coinciden ambos criterios de simetría (con respecto a la media y a la
mediana). Es más, se tiene que la media y la mediana coinciden para distribuciones continuas
simétricas.

Por otro lado, en el caso de variables discretas, la distribución es simétrica si el lado derecho
del diagrama se obtiene por imagen desde la media. En este caso coincide la media con la
mediana si el número de observaciones es impar.

Si la variable es continua simétrica y unimodal,


coinciden la media, la mediana y la moda y se
dice que la curva es simétrica.

II. Momentos

En mecánica, el concepto utilizado es el


X (Puntuación CI)
Puntuación baja = 1 0 0 Puntuación alta
Mdn = 100
producto de una fuerza por una distancia a un Mo = 100

punto o eje y dicho momento es el primero.

Luego también es posible obtener el segundo momento utilizando el cuadrado de esta


distancia que se asocia con los momentos de inercia.
Es Estadística, son utilizados los momentos para producir valores de utilidad en el cálculo de
las medidas de asimetría y agudez o apuntamiento.

Se distinguen tres clases de momentos:

107
a. Con respecto a un punto cualquiera “A” (m´r)
b. Con respecto al origen (Or)
c. Con respecto a la media aritmética (mr)

Un momento de orden “r” con respecto a un punto “A” es la media de las desviaciones de los
valores de la variable con respecto a ese punto “A” elevadas a la potencia “r”.

Dependiendo del punto “A” que se tome como referencia para el cálculo de las desviaciones,
la nomenclatura para los momentos puede ser la siguiente:

m´o, m´1, m´2, …, m´r: momentos con respecto a un punto “A” cualquiera de orden 0, 1, 2,…, r

mo, m1, m2, …, mr: momentos con respecto a la media aritmética, de orden 0, 1, 2,…, r

0o, 01, 02, …, 0r: momentos con respecto al origen, de orden 0, 1, 2,…, r.

Y las expresiones correspondientes que sirven para calcularlos son las siguientes.

Cálculo de momentos en Estadística


Tipo de momento Datos no agrupados Datos agrupados
Con respecto a un punto “A”
m´ r =
∑ ( x i− A )
r
m´ r =
∑ f i∗( x i −A )
r

n n
Con respecto a la media
mr =
∑ ( x i−x )
r
mr =
∑ f i∗( x i −x )
r

aritmética n n
Con respecto al origen ∑ xi r ∑ f i∗x ir
Or = Or =
n n

Casos especiales

De acuerdo a las definiciones de la tabla anterior, pueden demostrarse, que algunos momentos
equivalen a valores ya estudiados anteriormente como la media, la varianza, etc.

Momentos con respecto a la media aritmética.

m1=
∑ f i∗( x i−x )
1

n por propiedades de sumatorias


108
m=
∑ f i∗( x i−x )
2

2
n = s2 (varianza)

Momentos respecto al origen.


∑ f i∗xi 1
O1=
n =  (media aritmética)

∑ f i∗xi 2
O2 =
n = (c)2 (cuadrado de la media cuadrática)

Veamos ahora por medio de un ejemplo cómo se calcula un momento para datos no agrupados
en intervalos (datos simples)

Ejemplo 1 (momentos para datos simples)

Se le recomienda a los alumnos practicar este ejercicio.

Se examinan con cuidado 10 tractores para ver si tienen imperfecciones superficiales, antes de
enviarlos a la distribuidora. El número de imperfecciones encontradas es

2, 0, 1, 4, 0, 3, 1, 1, 0, 2
Calcular los momentos primero, segundo y tercero con respecto a:

a) el origen
b) a la media aritmética y
c) al punto 3

solución:
∑ f i∗xi 1 2+0+1+ 4+ 0+3+1+1+0+2
O1= O1=
a) n = 10 = 1.4 (este valor es la media
aritmética)

22 + 02 +12 + 4 2 +0 2 +32 +12 +12 +0 2 +22


O2 =
10 = 3.6

3 3 3 3 3 3 3 3 3 3
2 + 0 + 1 +4 + 0 +3 +1 + 1 +0 +2
O2 =
10 = 11

b) del inciso anterior  = O1 = 1.4, por lo que,

109
(2−1. 4 )+(0−1 . 4 )+(1−1. 4 )+(4−1. 4 )+(0−1 . 4 )+(3−1. 4 )+(1−1 . 4 )+(1−1 . 4 )+(0−1 . 4 )+(2−1 . 4 )
m 1=
10
=0
2 2 2 2 2 2 2 2 2 2
(2−1. 4 ) +(0−1. 4 ) +( 1−1 . 4 ) +(4−1 . 4 ) +(0−1 . 4 ) +(3−1 . 4 ) +( 1−1. 4 ) +(1−1 . 4 ) +(0−1 . 4 ) +(2−1 . 4 )
m2=
10
3 3 3 3 3 3 3 3 3 3
(2−1. 4 ) +(0−1 . 4 ) +(1−1. 4 ) +( 4−1. 4 ) +(0−1. 4 ) +(3−1. 4 ) +(1−1 . 4 ) +(1−1 . 4 ) +(0−1 . 4 ) +(2−1 . 4 )
m3 =
10
m3 = 1.368

c) con respecto al punto 3


(2−3)+(0−3 )+(1−3)+( 4−3)+( 0−3 )+(3−3 )+( 1−3 )+( 1−3 )+( 0−3 )+(2−3 )
m´ 1=
10 = 1.6
2 2 2 2 2 2 2 2 2 2
(2−3) +(0−3) +(1−3 ) +(4−3 ) +( 0−3 ) +(3−3 ) +(1−3) +(1−3 ) +(0−3 ) +(2−3 )
m´ 2=
10 = 4.2
3 3 3 3 3 3 3 3 3 3
(2−3 ) +(0−3 ) +(1−3) +( 4−3) +( 0−3) +( 3−3) +( 1−3 ) +( 1−3 ) +( 0−3 ) +(2−3 )
m´ 3=
10 = 10.6

Ejemplo 2 (momentos para datos agrupados en intervalos de clase)


La siguiente tabla corresponde a los datos de altura de 120 de maíz en estudio. Calcular los
primeros dos momentos con respecto a:
a. al origen
b. a la media aritmética
c. al punto 2
f c-m c (c-m)2 (c-m)2*f f*c f*c2

21 (0.0722) 0.9419 0.0052 0.1096 19.7799 18.6307

14 (0.0485) 0.9656 0.0024 0.0329 13.5184 13.0534

28 (0.0247) 0.9894 0.0006 0.0171 27.7032 27.4095

11 (0.0010) 1.0131 0.0000 0.0000 11.1441 11.2901

12 0.0228 1.0369 0.0005 0.0062 12.4428 12.9019

7 0.0465 1.0606 0.0022 0.0151 7.4242 7.8741

10 0.0703 1.0844 0.0049 0.0494 10.844 11.7592

17 0.0940 1.1081 0.0088 0.1502 18.8377 20.8741

120 0.0872 Total 0.3806 121.6943 123.7930


Promedio 1.01412
Solución:

a) con respecto al origen:

110
∑ f i∗c i1 121 .6943
O1= O1=
n = 120 = 1.01412 metros (es la media aritmética)

∑ f i∗c i2 123. 7930


O2 = O2=
n = 120 = 1.0316 metros

b) con respecto a la media aritmética

m=
∑ f i∗(c i−x )
1
21( 0. 9419−1. 01412)+. ..+17 (1. 1081−1 .01412 )
1 m 1=
n ; 120 = 0.0000 m

m=
∑ f i∗( c i− x )
2

m2=
2
21(0. 9419−1. 01412) +.. .+17(1 .1081−1 . 01412)
2

2
n ; 120 = 0.0032 (valor
equivalente a la varianza)

c) con respecto al punto 2:

m´ =
∑ f i∗(c i−2 )
1
21( 0. 9419−2)+. ..+17(1 . 1081−2)
1 m1=
n ; 120 = -0.9859 m

m´ =
∑ f i∗(c i−x )
2

m2=
2
21(0. 9419−1. 01412) +.. .+17(1 .1081−1 . 01412)
2

2
n ; 120 = 0.9751 m

III. Coeficiente de asimetría de Fisher

Después de trazar algunos polígonos de frecuencias, estudiados en la unidad de gráficas, se


observa que las curvas tienden a tomar formas que pueden clasificadas en varios tipos.

La medida que determina el grado de asimetría de una distribución, se llama sesgo de la


distribución, también se denomina coeficiente de asimetría. Para saber si una distribución de
frecuencias es simétrica, hay que precisar con respecto a qué. Un buen candidato es la
mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de
igual área. Podemos basarnos en ella para, de forma natural, decir que una distribución de
frecuencias es simétrica si el lado derecho de la gráfica (a partir de la mediana) es la imagen
por un espejo del lado izquierdo.
111
El sesgo es el grado de asimetría, o falta de simetría, de una distribución. Si la curva de
frecuencias (polígonos de frecuencias suavizado) de una distribución tiene una “cola” más
larga a la derecha del máximo central que a la izquierda, se dice de la distribución que está
sesgada a la derecha o que tiene sesgo positivo. Si es al contrario, se dice de la distribución
está sesgada a la izquierda o que tiene sesgo negativo.

Dentro de los tipos de asimetría, encontramos dos fundamentales:

En el caso especial en que moda = mediana = promedio, se dice que es una distribución
simétrica.

III.1 Asimetría positiva:


Moda
Mediana
Si las frecuencias más altas se encuentran en el lado izquierdo de la
Media Aritmética
media, mientras que en derecho hay frecuencias más pequeñas
(cola) se trata de un caso de asimetría positiva.

III.2 Asimetría negativa: Mdn = Q34


Mo = Q26 = Q46

Cuando la cola está en el lado izquierdo, se dice que la asimetría es Mediana


Moda

negativa.
Media Aritmética

Los resultados pueden ser los siguientes:

g1 = 0 (distribución simétrica; existe la misma concentración de = Q76 Mo = Q86


= 76 Mdn= 82 Mo = 8 6

valores a la derecha y a la izquierda de la media)


Mdn = Q82

g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha


de la media que a su izquierda)
g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la
izquierda de la media que a su derecha)

112
Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de
frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias
es simétrica si lo es de un modo aproximado. Por otro lado, aún observando cuidadosamente la
gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Conviene definir
entonces unos estadísticos que ayuden a interpretar la asimetría, a los que llamaremos índices
de asimetría, y que denotaremos mediante “As”. Vamos a definir a continuación algunos
de los índices de asimetría más usuales como son el índice basado en la distancia entre la
moda y la media o la media y la mediana.

III.3. Metodología

En distribuciones sesgadas, la media tiende a situarse con respecto a la moda al mismo lado
que la cola más larga. Así, una medida de la asimetría nos viene dada por la diferencia (Media
– Moda). Esta medida puede adimensionarse, dividiéndola por una medida de dispersión, tal
como la desviación típica, llegando a:

SK1 = media –moda =  - moda


Desviación típica s

SK1 = primer coeficiente de sesgo

II.3.1 Coeficiente de sesgo

Para evitar el empleo de la moda, se puede utilizar la fórmula empírica siguiente:

SK2 = 3 (Media – Mediana) = 3( - mediana)


Desviación típica s

SK2 = Segundo coeficiente de sesgo

Las medidas anteriores se conocen como primero y segundo coeficientes de sesgo de


Pearson, respectivamente.

III.3.2 Coeficiente de sesgo utilizando cuantiles

Los más importantes son:

a) sesgo cuartílico. Se calcula como:


SK3 = (C3 – C2) – (C2 – C1) = C3 – 2C2 + C1
C3 – C1 C3 – C1

113
b) sesgo percentílico. Se calcula como:

SK4 = (P90 – P50) – (P50 – P10) = P90 – 2P50 +P10


P90 - P10 P90 – P10

c) sesgo en función de momentos.

La fórmula que expresa el sesgo en función del momento de tercer orden con respecto a la
media, es:

m3
a3 =
s3

Es importante indicar que en distribuciones asimétricas, el signo de el coeficiente de sesgo


determina la asimetría, por lo que si:

SK1, SK2, SK3, SK4 y A3 > 0 entonces la distribución es asimétrica positiva


SK1, SK2, SK3, SK4 y A3 = 0 entonces la distribución es simétrica
SK1, SK2, SK3, SK4 y A3 < 0 entonces la distribución es asimétrica negativa

Ejemplo.
Utilizando la información obtenida en los análisis estadísticos a las alturas de las 120 plantas
de maíz en estudio, con datos no agrupados en intervalos de clase, encontrar los coeficientes
de sesgo

SK1 =
media –moda =
Desviación típica

Media = 1.0134 m
Mediana = 0.9950 m
Moda = 0.9900 m
Desviación típica = 0.0559 m

SK1 = 1.0134 – 0.9900 = 0.4186


0.0559

Calcular el segundo sesgo

114
SK2 = 3 (Media – Mediana) = 3(- mediana)
Desviación típica s
Moda
Mediana
Sesgo = 3(1.0134 – 0.9950) = 0.9874
Media Aritmética
0.0559

Puesto que los coeficientes son positivos, las distribuciones tienen


sesgo positivo, es decir, a la derecha. Mdn = Q34
Mo = Q26 = Q46

Respuesta:

El Coeficiente de asimetría de Pearson de esta muestra es positivo, lo que quiere decir que
presenta una distribución asimétrica positiva (se concentran más valores a la derecha de la
media que a su izquierda). Para comprobar ese caso, graficar un polígono de frecuencias.

TAREA opcional:
Encontrar los otros índices de simetría, los cuales se basan en los tres cuartiles y momentos de
tercer orden.

IV. Curtosis (medidas de apuntamiento)

Los polígonos de frecuencias pueden tomar un número ilimitado de formas diferentes. No


obstante, muchos de los procedimientos estadísticos suponen formas de distribución particular,
a saber, la curva normal en “forma de campana”.

Para medir el apuntamiento de una distribución se emplea la curtosis.

IV.1 Concepto:

Es el grado de apuntamiento de una distribución, se toma en relación a la distribución


normal. Una distribución que presenta un apuntamiento relativo alto, se llama leptocúrtica, si
es más achatada se llama platicúrtica. La distribución normal, que ni es muy apuntada ni
achatada, se llama mesocúrtica.

IV.2 Grados de curtosis

Se definen 3 tipos de distribuciones según su grado de curtosis:

115
IV.2.1 Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribución normal).

IV.2.2 Distribución leptocúrtica : presenta un elevado grado de


concentración alrededor de los valores centrales de la variable.

IV.2.3 Distribución platicúrtica: presenta un reducido grado de


concentración alrededor de los valores centrales de la variable.
  
Los resultados pueden ser los siguientes:

g2 = 0 (distribución mesocúrtica) .

g2 > 0 (distribución leptocúrtica ).

g2 < 0 (distribución platicúrtica) .

IV.3 Coeficientes de curtosis

La curtosis puede medirse en función de cuantiles y de momentos.

Curtosis en función de percentiles:

1
∗( C3 −C 1 )
C 2
k= =
P90 −P 10 P 90 −P10

Donde C = ½ (C3 –C1) es el rango semiintercuartílico. Se conoce como coeficiente de curtosis


percentílico.

Si K1 > 0.263: la distribución es leptocúrtica


Si K1 = 0.263: la distribución es mesocúrtica (distribución normal)
Si K1 < 0.263: la distribución es platicúrtica

Curtosis en función de momentos:

m4
a 4=
s4

Donde
a4 = coeficiente de apuntamiento o curtosis de Fisher
116
m4 = momento de cuarto orden con respecto al media aritmética
s= desviación estándar.

Si K2 > 3: la distribución es leptocúrtica


Si K2 = 3: la distribución es mesocúrtica (distribución normal)
Si K2 < 3: la distribución es platicúrtica

El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores


alrededor de la zona central de la distribución.

Ejemplo:
Calcular el Coeficiente de Curtosis Percentílico de la serie de datos referidos a la altura de 120
plantas de maíz en estudio.

Datos:

k= C
P90 – P10

Donde C = ½ (C3 – C1) es el rango semiintercuartílico.

C1 = 0.9600
C3 = 1.0500
P10 = 0.9443
P90 = 1.0971

C = ½ (1.0500 – 0.9600) = 0.0450

k= 0.0450 . = 0.2945
1.0971 – 0.9443

Por lo tanto, el Coeficiente de Curtosis de esta muestra es 0.29, lo


que quiere decir que se trata de una distribución > 0, leptocúrtica,
es decir, elevado grado de concentración de los datos alrededor de
los valores centrales de la variable.

UNIDA 117

D8
REGRESION
Y
I.
Introducción

Cuando
simultáneamente
puede existir o
se
CORRELACIO analizan
dos
no
variables,
alguna
relación entre
presente unidad N ellas.
se
En la
estudiará
cómo ajustar un modelo simple a
un conjunto de datos, mediante un análisis de regresión, el cual utiliza un modelo matemático
para obtener la estimación y la predicción de una variable dada en función de valores
conocidos de la(s) otras(s). También se estudiará el grado de correlación que existe entre dos
variables, el cual es fundamental para el análisis de regresión.

En la práctica se encuentra que existe una relación entre dos (o más) variables. Los pesos de
los bovinos dependen en cierto modo de sus alturas; las circunferencias de los círculos
dependen de sus radios, y la presión de una masa dada de gas depende de su temperatura y
volumen.

Se desea frecuentemente expresar esta relación mediante una ecuación matemática que ligue
las variables.

Para llegar a determinar una ecuación que relacione las variables, un primer paso que nos sirve
de ayuda es la colección de datos que muestren los correspondientes valores de las variables
consideradas.

Por ejemplo: supóngase que X e Y denotan la altura y peso, respectivamente de hombres


adultos; si X equivale a la altura e Y equivale al peso, en una muestra de n individuos daría las
alturas X1, X2, ... Xn y los pesos correspondiente Y1, Y2, ... , Yn

El siguiente paso consiste en representar los puntos (X 1, Y1), (X2, Y2), ... , (Xn, Yn) en un
sistema de coordenadas rectangulares. El sistema de puntos resultante se llama diagrama de
dispersión.

Luego, representar una curva que se aproxime a los


datos. Tal curva se llama curva de aproximación.
Los datos se aproximan a una línea recta y se dice
que entre las variables existe una relación lineal.
También puede existir una relación no lineal. y

118

x
El problema general de encontrar ecuaciones de curvas de aproximación que se ajusten al
conjunto de datos es el buscar la curva de ajuste.
De referencia se anotan varios tipos comunes de curvas de aproximación y sus ecuaciones.
Todas las letras distintas a X e Y representan constantes. Las variables X e Y se conocen a
menudo como la variable independiente y dependiente, respectivamente, aunque estos papeles
pueden intercambiarse.

Ecuación y curva de aproximación:


Y = ao + a1X línea recta
Y = ao + a1X + a2X Parábola o curva cuadrática
2

Y = ao + a1X + a2X2+ a3X3 Curva cúbica


Y = ao + a1X + a2X2+ a3X3 + a4X4 Curva cuártica
Y = ao + a1X + a2X2+ .......anXn Curva de grado n

Las ecuaciones anteriores se llaman polinomiales de primero, segundo, tercero, cuarto y n


grados, respectivamente.

Existen otras posibles ecuaciones (entre muchas) que en la práctica aparecen: hipérbola, curva
exponencial, curva geométrica, curva exponencial modificada, curva de Gompertz, curva
logística.

El juicio de cada uno puede servir de base para aproximar gráficamente una curva a un
conjunto de datos. Esto se llama método libre de ajuste de curvas. Si se conoce el tipo de
ecuación de esta curva, es posible obtener el valor de las constantes de la ecuación eligiendo
tantos puntos de la curva como constantes haya en la ecuación. Ejemplo, Si la curva es una
línea recta se necesitan dos puntos, si es una parábola son necesarios tres puntos. Tiene la
desventaja de que diferentes observadores obtendrán diferentes curvas y ecuaciones.

II. La línea recta

El tipo más sencillo de curva de aproximación es la línea recta, cuya ecuación es

Y = ao + a1X, que también puede escribirse: Y = a + bx

Dados dos puntos cualesquiera (X1, Y1), (X2, Y2) de la línea, las constantes ao + a1 pueden ser
determinadas. La ecuación de la línea resultante puede escribirse:

Y −Y 1 =
( Y 2−Y 1
X 2− X 1 )
( X− X 1 )
o
Y −Y 1 =m ( X −X 1 )

Donde
m=
( Y 2−Y 1
X 2− X 1 )
es la pendiente de la línea y representa el cambio de Y dividido por el
correspondiente cambio de X.

119
La constante a1 es la pendiente m. La constante a o que es el valor de Y cuando X = O, se llama
intersección de Y.

Ejemplo:
Dados los siguientes valores:

X 2 3 5 7 9 10
Y 1 3 7 11 15 17

Construir la gráfica correspondiente a la tabla anterior y, hallar la ecuación de esta recta.

18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11

La función de la línea recta es:

Y = ao + a1X

Y puede obtenerse mediante el uso de una calculadora científica, tenemos:

1. Modo 3: regresión
2. 1: lineal
3. Ingresar pares de datos: 2,1; 3,3; 5,7; 7,11; 9,15; 10,17
4. ALPHA + C = 6, esto es, fueron ingresados seis pares de datos.
5. SHIFT + r = 1, correlación entre las dos variables, concretamente r xy= 1. Coeficiente de
determinación, r2: 1
6. SHIFT + A = -3, valor de “a” en la ecuación de regresión
7. SHIFT + B = 2, valor de “b” en la ecuación de regresión
8. y = a+bx; de donde la ecuación buscada es: y = -3 + 2x

Cada alumno debe conocer de forma exhaustiva su calculadora.


y (Xn,Yn)
III. Método de mínimos cuadrados Dn
C
Para obtener la función de la línea recta y evitar el juicio (X1,Y1)

individual en la construcción de rectas, en su ajuste a D1


D2

(X2,Y2)
120

x
colecciones de datos es necesario obtener una definición de la “mejor recta de ajuste”, “mejor
parábola de ajuste”, etc.

Para el valor de X1, habrá una diferencia entre el valor Y1 y el correspondiente valor de la
curva C. Esta diferencia se denota por D1, que se conoce como desviación, error o residuo y
puede ser positivo, negativo o cero.

Análogamente para los valores X2....Xn se obtienen las desviaciones D2....Dn.

Una medida de la “bondad de ajuste” de la curva C a los datos dados viene suministrada por la
cantidad D12 + D22 + ... Dn2. Si esto es pequeño, el ajuste es bueno, si es grande, el ajuste es
malo y se conoce como la mejor curva de ajuste.

Una curva que presente esta propiedad se dice que se ajusta a los datos por mínimos
cuadrados y se llama curva de mínimos cuadrados. Así, una recta con esta propiedad se llama
recta de mínimos cuadrados; una parábola con esta propiedad se llama parábola de mínimos
cuadrados, etc.

IV. Recta de mínimos cuadrados

La recta de aproximación por mínimos cuadrados del conjunto de puntos (X1, Y1), (X2,Y2)...
(Xn,Yn) tiene la ecuación:

Y = ao + a1X

Las constantes ao + a1 se determinan mediante el sistema de ecuaciones

Y = aoN+ a1X
XY = aoX+ a1X2 (ecuación 2)

Que son las llamadas ecuaciones normales para la recta de mínimos cuadrados.

Las constantes ao + a1 pueden sacarse de las ecuaciones anteriores obteniéndose las fórmulas

ao = (Y)( X2) – (X)(XY) a1 = NXY – (X)(Y)


NX2 – (X)2 NX2 – (X)2

Para encontrar una recta de mínimos cuadrados puede a veces simplificarse transformando los
datos, de forma que x = X – e y = Y – Ῡ. Entonces la ecuación de la recta de mínimos
cuadrados puede escribirse

y = (xy)x o y = (xY)x
x2 x2

121
en particular, si X es tal que X = 0, es decir X = 0, se convierte en

Y = Ῡ + (XY) X
X2

De estas ecuaciones se deduce inmediatamente que la recta de mínimos cuadrados pasa por el
punto ( X, Y), que es el centro de gravedad de los datos.

Ejemplo: encontrar la función de la línea recta de los siguientes pares de datos:

X Y X2 XY Y2
1 1 1 1 1
3 2 9 6 4
16 16 16
4 4
36 24 16
6 4 64 40 25
8 5 81 63 49
9 7 121 88 64
11 8 196 126 81
14 9
X = 56 Y = 40 X2 = 524 XY = 364 Y2 = 256

Y = ao + a1X

Utilizando la calculadora, tenemos

1. Modo: regresión
2. 1: Lineal
3. Ingresar los pares de datos: 1,1; etc
4. ALPHA + C = 8, esto es, fueron ingresados ocho pares de datos.
5. SHIFT + r = 0.977, correlación entre las dos variables, concretamente r xy= 0.977.
Coeficiente de determinación, r2: 0.9545
6. SHIFT + A = 0.5454, valor de “a” en la ecuación de regresión
7. SHIFT + B = 0.6364, valor de “b” en la ecuación de regresión
8. y = a+bx; de donde, la función buscada es: y = 0.5454 + 0.6364x

Resolver el sistema: Y = 0.5454 + 0.6364X

V. Regresión

A veces, basándose en los datos muestrales, se desea estimar el valor de una variable Y
correspondiente a un valor dado de una variable X. Esto puede conseguirse estimando el valor
de Y de la curva de mínimos cuadrados que ajusta los datos muestrales. La curva resultante se
llama curva de regresión de Y sobre X, puesto que Y se estima a partir de X.

122
V.1 Aplicaciones a series de tiempo

Si la variable independiente X es el tiempo, los datos muestran los valores de Y en diferentes


tiempos. Los datos ordenados en relación al tiempo se denominan series de tiempo. La recta o
curva de regresión de Y sobre X en este caso se llama frecuentemente recta de tendencia o
curva de tendencia y se utiliza a menudo para fines de estimación, predicción o pronóstico.

Resolver el siguiente problema donde X son los años consecutivos e Y los rendimientos
historicos de trigo por hectárea en Quetzaltenango.

Año X Y x=X–X y=Y-Y x2 xy


1946 0 66.6 - 5.00 - 28.40 25.00 142.00
1947 1 84.9 - 4.00 - 10.10 16.00 40.40
1948 2 88.6 - 3.00 - 6.40 9.00 19.20
1949 3 78 - 2.00 - 17.00 4.00 34.00
1950 4 96.8 - 1.00 1.80 1.00 - 1.80
1951 5 105.2 - 10.20 - -
1952 6 93.2 1.00 - 1.80 1.00 - 1.80
1953 7 111.6 2.00 16.60 4.00 33.20
1954 8 88.3 3.00 - 6.70 9.00 - 20.10
1955 9 117 4.00 22.00 16.00 88.00
1956 10 115.2 5.00 20.20 25.00 101.00
55.00 1,045.40 110.00 434.10
5.00 95.00

Generalmente al primer año en estudio se le identifica como el año “0”.

Utilizando la calculadora, tenemos,

1. Modo: regresión
2. 1: Lineal
3. Ingresar pareas de datos: 0,66.6; etc
4. ALPHA + C = 11, esto es, fueron ingresados once pares de datos.
5. SHIFT + r = 0.8178, correlación entre las dos variables, concretamente r xy=0.8178.
Coeficiente de determinación, r2: 0.67
6. SHIFT + A = 75.30, valor de “a” en la ecuación de regresión
7. SHIFT + B = 3.95, valor de “b” en la ecuación de regresión
8. y = a+bx; de donde, la función de regresión es: y = 75.30 + 3.95x

Y = 75.30 + 3.95X

123
VI. Correlación

Grado de relación entre las variables; se estudia para determinar en qué medida una ecuación
lineal o de otro tipo describe o explica de una forma adecuada la relación entre variables.

Cuando se trata de dos variables solamente, se habla de correlación simple y de regresión


simple.

Cuando se trata de más de dos variables se habla de correlación múltiple y de regresión


múltiple.

VI.1 Correlación lineal

Si X e Y denotan las dos variables que se consideran, un diagrama de dispersión muestra la


localización de los puntos (X,Y) en un sistema de coordenadas rectangulares. Si todos los
puntos en este diagrama de dispersión parecen encontrarse cerca de una recta, la correlación se
dice lineal. Para propósitos de regresión o estimación es adecuada una ecuación lineal.

Si Y tiende a incrementarse cuando se incrementa X, como en la gráfica a) la correlación se


dice positiva o correlación directa. Si Y tiende a disminuir cuando se incrementa X, como en
la gráfica b) la correlación se dice negativa o correlación inversa.

La correlación es positiva o directa cuando Y tiende a incrementarse cuando se incrementa X.


Si Y tiende a disminuir cuando se incrementa X, la correlación es negativa o correlación
inversa.

Si no hay ninguna relación entre las variables, se dice que no hay correlación entre ellas, es
decir, no están correlacionadas. Veamos las siguientes gráficas.

ción lineal b) correlación


c) no hay
lineal
correlación
negativa

VI.2 Medidas de correlación


124
Una forma de determinar de una manera cualitativa, lo bien que una recta o curva dada
describe la relación entre variables es la observación directa del diagrama de dispersión.

Rectas de regresión de mínimos cuadrados

Considerar la bondad con que una línea recta explica la relación entre dos variables. Para ello
son necesarias las ecuaciones de las rectas de regresión de mínimos cuadrados obtenidas antes.

La recta de regresión de mínimos cuadrados de Y sobre X es, Y = ao + a1X

Las constantes ao y a1 se determinan mediante el sistema de ecuaciones

Y = aoN+ a1X
XY = aoX+ a1X2

que dan

ao = (Y)( X2) – (X)(XY) a1 = NXY – (X)(Y)


NX2 – (X)2 NX2 – (X)2

La ecuación Y = ao + a1X puede escribirse

y = (xy)x
x2

donde x = X – e y=Y–Ῡ

y, una forma rápida de resolver los problemas es mediante una computadora o en último caso,
una calculadora científica.

VI.3 Error típico de la estima

Si Yest representa el valor de Y estimado de Y = a o + a1X para valores de X dados, una medida
de la dispersión alrededor de la recta de regresión de Y sobre X viene dada por la cantidad

SY.X = √ ∑ (Y −Y est )2
N

Que se llama error típico de la estima de Y sobre X

Que puede escribirse

125
∑ Y 2−ao ∑ Y −a1 ∑ XY
S2Y.X = N

El error típico de la estima tiene análogas propiedades a las de la desviación típica.

VI.4 Variación explicada y no explicada

La variación total de Y se define como (Y-Ῡ)2, es decir, la suma de los cuadrados de las
desviaciones de los valores de Y de su media Ῡ. Esto puede escribirse

(Y –Ῡ)2 = (Y –Yest)2 + (Yest – Ῡ)2

El primer termino del segundo miembro se llama variación no explicada, mientras que el
segundo término se llama variación explicada, y esto es así, porque las desviaciones Yest – Ῡ
tienen un patrón definido, mientras que las desviaciones Y - Yest se comportan de una forma
aleatoria o no previsible.

VII. |Coeficiente de correlación

La razón de la variación explicada a la variación total se llama coeficiente de determinación.


Si la variación explicada es cero, es decir la variación total es toda no explicada, esta razón es
cero. Si la variación no explicada es cero, es decir la variación total es toda explicada, la razón
es uno. En los demás casos la razón se encuentra entre cero y uno. Puesto que la razón es
siempre no negativa, se denota por r2. La cantidad r se llama coeficiente de correlación y está
dado por

r=± √ var iacion exp licada


var iaciontotal =± √ ∑ (Y est−−Y )2
∑ (Y −Y )2
y varía entre –1 y +1. Los signos + se utilizan para la correlación lineal positivo y la
correlación lineal negativa, respectivamente. Nótese que r es una cantidad sin dimensiones, es
decir, no depende de las unidades empleadas.

Utilizando SY.X = √ ∑ (Y −Y est )2


N y
2
∑ (Y −Y )=∑ (Y −Y est )2+∑ (Y est −Y )
y el hecho de que la desviación típica de Y es

SY = √ ∑ (Y −Y )2
N

126
Se tiene que r = ± √ ∑ (Y est−−Y )2
∑ (Y −Y )2
puede escribirse, sin atender el signo, como


2
Y.X
s
1−
r=
2
s Y
ó √
sy.x = sy 1−r
2

Ecuaciones similares se obtienen cuando se intercambian X e Y.

Para el caso de una correlación lineal la cantidad r es la misma, tanto si X como Y es


considerada como variable independiente. Así, pues, r es una medida muy buena de la
correlación lineal entre dos variables.

Debe insistirse en que el valor de r calculado mide en cualquier caso el grado de relación,
relativa al tipo de ecuación que realmente se supone. Así, si supone una ecuación lineal y dan
un valor de r próximo a cero, significa que no hay casi correlación lineal entre las variables. El
coeficiente de correlación mide la bondad de ajuste de la ecuación supuesta a los datos. A
menos que se especifique de otro modo, el término coeficiente de correlación se utiliza como
coeficiente de correlación lineal.

Ha de señalarse también que un coeficiente de correlación alto (es decir, cerca de 1 ó –1) no
indica necesariamente una dependencia directa de las variables. Así puede haber una
correlación alta entre el número de libros publicados cada año y el número de partidos de
pelota jugados cada año. Tales ejemplos pueden conducir a correlaciones absurdas o falsas.

VIII. Formula producto-momento para el coeficiente de correlación


lineal

Si se supone una relación lineal entre dos variables, la ecuación

√ ∑ (Y est −Y )2
∑ x 2 se convierte en
∑ xy
r= √(∑ x2 )( ∑ y 2 )
donde x = X – e y=Y–Ῡ

esta fórmula, que automáticamente da el signo adecuado de r se llama fórmula producto-


momento y muestra claramente la simetría entre X e Y.
127
FORMULAS CORTAS PARA EL CÁLCULO

N ∑ XY −( ∑ X )( ∑ Y )

r= √[ N ∑ X −(∑ X )][ N ∑ Y −( ∑ Y ) ]
2 2 2 2

RESOLVER EL PROBLEMA SIGUIENTE

Se muestran las respectivas alturas (en pulgadas) de X e Y de una muestra de 12 padres y sus
hijos primogénitos:

1. Modo: regresión
2. 1: Lineal
3. Ingresar datos: 65,68; … ;71,70.
4. ALPHA + C = 12, esto es, fueron ingresados seis pares de datos.
5. SHIFT +  = 66.67, es la media de la variable x
6. SHIFT + σn = 2.66, es la desviación típica de la variable x, considerada como una
población (7.06 varianza)
7. SHIFT + σn-1 = 2.77, es la desviación típica de la variable x, considerada como una
muestra de la población ( 7.7 varianza)
8. SHIFT + Ῡ = 67.58, es la media de la variable Y
9. SHIFT + ỹσn = 1.8, es la desviación típica de la variable Y, considerada como una
población ( 3.24 varianza)
10. SHIFT + ỹσn-1 = 1.88, es la desviación típica de la variable Y, considerada como la
muestra de una población ( 3.54 varianza)
11. SHIFT + r = 0.70, correlación entre las dos variables, concretamente r xy= 0.70.
Coeficiente de determinación, r2: 0.49
12. ALPHA + A = 53418, suma de cuadrados de los datos de la variable x
13. ALPHA + B = 800, suma de datos de la variable x
14. ALPHA + D = 54849, suma de cuadrados de los datos de la variable y
15. ALPHA + E = 811, suma de datos de la variable y

128
16. ALPHA + F = 54107, suma del producto de la multiplicación del valor x por el
valor y
17. SHIFT + A = 35.82, valor de “a” en la ecuación de regresión
18. SHIFT + B = 0.476, valor de “b” en la ecuación de regresión
19. y = a+bx; de donde la ecuación de regresión es: y = 35.82 + 0.476x

Utilizando otra metodología es posible hallar la recta de regresión de Y sobre X: Y = ao + a1X

a) Y = aoN+ a1X 12ao + 800 a1 = 811


XY = aoX+ a1X2 800ao + 53418 a1 = 54,107

Y = 35.82 + 0.476 X ............ ver b)

b) ao = (Y)( X2) – (X)(XY) a1 = NXY – (X)(Y)


NX2 – (X)2 NX2 – (X)2

ao = (811)(53418) – (800)(54107) a1 = 12 (54107) – (800)(811)


12(53418) – (800)2 12(53418) – (800)2
35.82 0.476

c) y = (xy)x x = (xy)y
x2 y2

donde x = X – e y=Y–Ῡ

recta de regresión de Y sobre X es

y = (xy)x = y = (40.34)x = 0.476x o Y – 67.6 = 0.476 (X – 66.7)


x2 84.68

calcular el error típico de la estima


a) primer caso:

S2Y.X = (Y –Y est)2 = (1.24)2 + (0.19)2 + .. + (0.38) 2 = 1.642


N 12

Sy.x = √ ∑ (Y −Y est )2
N √
1 .642
= 12 = 1.28 pulgadas

129
b) segundo caso

S2Y.X = y2 - a1xy = 38.92 – 0.476 (40.34) = 1.643


N 12

Sy.x = N √ ∑ (Y −Y est )2

1 .642
= 12 = 1.28 pulgadas
CALCULAR LA VARIACIÓN TOTAL, LA VARIACIÓN EXPLICADA Y LA
VARIACIÓN NO EXPLICADA

a). Variación total = (Y –Ῡ)2 = y2 = 38.92

b). Variación no explicada = (Y –Y est)2 = NS2Y.X = 19.70

c). Variación explicada = (Yest –Y)2 = 38.92 – 19.70 = 19.22

CALCULAR EL COEFICIENTE DE CORRELACIÓN

a) 2 √
var iacion exp licada
Coeficiente de determinación = r = var iaciontotal =

r=± √ ∑ (Y est−−Y )2 19. 19


∑ (Y −Y )2 = √ 38. 92 = ± 0.7022

b) Coeficiente de correlación = r = ± 0.7022

puesto que la variable Yest aumenta al aumentar X, la correlación es positiva y se escribirá por
tanto, r = 0.7022 ó 0.70 con dos cifras significativas.

SIMBOLOGÍA
 Media de una población de elementos individuales
x Media de una población de medias
d Media de una población de diferencia de medias
 Sumatoria. La suma de diversas unidades
 Desviación estandar de una población de elementos individuales
2 Varianza de una población de elementos individuales
x , 2x Desviación estandar y varianza, respectivamente, de una población de medias
d , 2d Desviación estandar y varianza, respectivamente, de una población de

130
diferencia de medias
X2 Ji cuadrada

Bibliografía

1. Coolican H. Métodos de investigación y estadística en psicología. México D.F.:El


Manual Moderno; 1997.

2. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. 3ª ed. México
D.F.:Limusa; 1997.

3. Spiegel, Murria R. ESTADÍSTICA. Serie Schaum. Editorial McGraw Hill. México


1987.

4. Freund J. Estadística elemental moderna. 2ª ed. La Habana: Edición Revolucionaria;


1988.

5. González Tobar, Carmen Ángelus. Estadística, Unidad de Prácticas de Ingeniería y


E.P.S. Segunda edición. Enero 2003. USAC, Guatemala.

6. http://campusvirtual.uma.es/est_fisio/apuntes/ficheros/estad_uma_02.pdf

7. http://campusvirtual.uma.es/est_fisio/apuntes/tema1/index.html (videos y su explicación).

8. http://ftp.medprev.uma.es/libro/node1.htm (llega hasta el node157)

9. http://thales.cica.es/rd/Recursos/rd98/Matematicas/01/matematicas-01.html

10. http://www.bioestadistica.uma.es/baron/

11. http://www.cortland.edu/flteach/stats/glos-sp.html#Propiedades#Propiedades

12. http://www.educarchile.cl/eduteca/estadistica/ejercicio.htm

13. http://www.psiquiatria.com/psicologia/revista/51/2815

14. http://www.saludmed.com/MediEval/PPT/PrsPPT-MdE.html. medición y evaluación en la


educación física.

15. http://www.sectormatematica.cl/enlaces.htm

131
16. Johnson, Robert; Kuby Patricia. Estadística Elemental, lo esencial. Tercera
edición. Editorial Thomson. Buenos Aires, Argentina. 2007.

17. Little, Thomas M.; Hills, F. Jackson. Métodos Estadisticos para la Investigacion
en la Agricultura. Editorial Trillas. México. 1987.

18. NEWBOLD, P. Estadística para los negocios y la economía. Prentice Hall,


Madrid: 1997

19. PEÑA, D. Estadística: Modelos y métodos. Alianza Universidad Textos,


Madrid: 1991

20. PEÑA, D. y ROMO, J. Introducción a la Estadística para las Ciencias Sociales.


McGraw Hill, New York: 1997

21. PERALTA, M. et al. Estadística. Problemas resueltos. Pirámide, Madrid: 2000

22. PÉREZ, C. Estadística Práctica con Statgraphics. Prentice Hall, Madrid: 2002

23. TRIOLA, MARIO. Estadística. 9ª edición. Pearson Educación. México. 2004

24. Salvatore, Dominick. Econometría. Editorial McGRAW-HILL. Serie Schaum.


México. 1991

25. Spiegel MR. Teoría y problemas de Estadística. La Habana: Pueblo y Educación; 1977.

132
ALFABETO GRIEGO

133
134

También podría gustarte