Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA
APLICADOS A LAS
CIENCIAS
AMBIENTALES Y
AGRICOLAS
Síntesis
3
VII.1 Características de la Mediana
VII.2 Metodología
VII.2.1 Primer caso, utilizando datos de campo
VII.2.2 Segundo caso, utilizando una tabla de distribución de
frecuencias agrupadas por intervalos de clase.
VII.3 Propiedades de la Mediana
VIII. La Moda
VIII.1 Características de la Moda
VIII.2 Propiedades de la Moda
VIII.3 Primer caso. Utilizando datos de campo
VIII.4 Segundo caso: con datos agrupados en intervalos de frecuencia
IX Relación entre Media, Mediana y Moda
4
III.2 El rango semiintercuartílico
III.3 El rango entre percentiles 10-90
IV. La desviación media
IV.1 Características de la desviación media
IV.2 Métodos
V. La Varianza
V.1 Metodología
V.1.1 Primer caso: utilizando los datos de campo
V.1.2 Segundo caso: utilizando la tabla de distribución de frecuencias simples
V.1.3 Tercer caso: utilizando una tabla de distribución de frecuencias
agrupadas en intervalos de clase
VI. La desviación típica
VI.1 Concepto
VI.2 Características de la desviación típica
VI.3 Propiedades de la desviación típica
VII. Varianza combinada
VIII. Coeficiente de variación
VIII.1 Concepto
VIII.2 Características
VIII.3 Metodología
IX Uso intenso de los programas SPSS, STADIS, EXCEL, CALCULADORA
5
Unidad 8 Regresión y correlación
I. Introducción
II. La línea recta
III. Método de mínimos cuadrados
IV. Recta de mínimos cuadrados
V. Regresión
a. Aplicaciones a series de tiempo
VI. Correlación
a. Correlación lineal
b. Medidas de correlación
c. Error típico de la estima
d. Variación explicada y no explicada
VII. Coeficiente de correlación
VIII. Fórmula producto-momento
BIBLIOGRAFÍA
6
Síntesis
En la empresa, los productos esperados son de dos tipos: bienes y servicios; en el primer caso,
se refiere a la fabricación o elaboración de artículos que propician la satisfacción de
necesidades sociales, tales como, vestuario, alimentos, vivienda, útiles escolares, vehículos y
otros; mientras que los servicios comprenden estudios de impacto ambiental, finanzas,
mantenimiento de maquinaria o equipo de producción, comunicaciones y otros. Para conocer
de mejor forma el comportamiento del movimiento de los bienes y servicios es preciso
considerar que los mismos giran entorno al mercado, siendo este, las relaciones de productores
y consumidores, enlazados por los aspectos de producción, distribución y consumo en el
entorno de la demanda y la oferta, en ambos casos, la cantidad de bienes o servicios que los
consumidores están en disposición de adquirir varía en razón inversa o directa al precio y
ambos se movilizan según sus propios determinantes, siendo el más importante de ellos los
gustos y preferencias de los consumidores y la calidad del producto.
Y, por qué no decirlo, la estimación de posibilidades de que los “cremas” o los “rojos” ganen
el próximo campeonato¡
Para el estudiante, la estadística “entra por los dedos”, al igual que las ciencias cabalísticas
como las matemáticas; por lo tanto, se facilita la comprensión del conocimiento en la medida
que se participa activamente resolviendo casos y participando en clase. En el presente caso se
da seguimiento a un ejemplo el que mantiene su continuidad de principio a fin y es
responsabilidad del alumno continuar de forma alterna cuatro o cinco ejercicios más.
7
UNIDAD
1
INTRODUCCIÓ
N A LA
ESTADÍSTICA
I. Descripción
8
Esta ciencia permite analizar aspectos de desarrollo humano, tales como salud, educación e
ingresos en la población utilizando la información contenida en las características de los
ciudadanos: edad, peso, tallas, estratos sociales, etc., a la vez, permite inferir sobre la situación
futura de los pueblos en periodos cortos, medianos o largos, que inciden principalmente en la
alimentación.
Es una ciencia que forma parte de las ramas del saber y utiliza el método científico para el
desarrollo de las investigaciones que competen a los seres vivos, plantas y animales; salud,
educación, vivienda, seguridad, etc., por lo que, se basa en la observación, planteamiento del
problema, su hipótesis, comprobación de estas y la formulación de leyes para tratar prácticas
de incertidumbre.
En este entorno, existen diversos puntos de vista si se trata de buscar una definición de
estadística.
III. CONCEPTOS
9
a. Ciencia que se ocupa de los métodos y procedimientos para recoger, clasificar,
resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir
de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso, formular
predicciones.
b. Ciencia que se desarrolla observando hechos, formulando leyes que los explican y
realizando experimentos para validar o rechazar dichas leyes.
10
IV.2 Estadística inferencial o inductiva, basándose en la teoría de las probabilidades,
generaliza de la muestra a la población. Analiza el efecto de la información actual sobre los
individuos en el futuro. Conforma el conjunto de técnicas para hacer estimaciones sobre las
propiedades de grupos grandes de individuos basado en los datos de las muestras de
individuos u objetos observados. Se le llama también, Estadística de Muestreo (la Estadística
Inferencial se encuentra comprendida en la segunda parte de este curso).
V. HISTORIA
De acuerdo a las investigaciones paleontológicas ha sido posible demostrar que las primeras
civilizaciones trataron de demostrar gráficamente el número de personas, animales y cosas
disponibles en la comunidad, tallando la información en pieles, rocas, maderas y las paredes
de las cuevas.
Los babilonios, 3000 años antes de Cristo, usaban pequeñas tablillas de arcilla para recopilar
datos sobre la producción agrícola, géneros vendidos o cambiados mediante trueque, el
crecimiento de la población, las milicias y sus provisiones. La Biblia describe el trabajo de un
muchacho cuyo nombre fue José, hijo de Jacob (Israel) y sus
destrezas administrativas en Egipto, analizando datos de crecimiento
de la población, renta del país, producción agrícola, antes de la
construcción de las grandes pirámides, más de 3000 años antes de
Cristo. Los libros bíblicos de Números y Crónicas describen sucesos
importantes del pueblo hebreo; el primero, contiene dos censos de la
población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En
China existían registros numéricos similares con anterioridad al año 2000 A.C. Los griegos
clásicos realizaban censos cuya información se utilizaba hacia el año 594 A.C. para cobrar
impuestos.
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la
población, superficie y renta de todos los territorios bajo su control (Jesús nació en Belén
porque sus padres acudieron a empadronarse a Jerusalem). Durante la edad media sólo se
realizaron algunos censos exhaustivos en Europa. Los reyes carolingios, Pepino el Breve y
Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años
758 y 762, respectivamente.
11
población, titulado Observations on the London Bills of Mortality (Comentarios sobre las
partidas de defunción en Londres).
La Estadística como ciencia, germina en épocas más recientes, a partir del siglo XVII, cuando
surgieron de forma simultánea tres escuelas:
No está muy claro el origen etimológico de la palabra estadística, pues algunos la derivan del
griego statera (balanza), otros del latín status (posición, estado, situación), mientras hay
quienes afirman que proviene del alemán staat (estado, situación).
12
Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra
estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que
los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz
remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o
situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística
revela el sentido cuantitativo de las más variadas situaciones.
La palabra estadística deriva del latín moderno statisticum collegium (“consejo de estado”),
del latín antiguo status (“posición”, “forma de gobierno”), de la palabra italiana moderna
statista (“estadista”, “político”) y del italiano antiguo stato (“estado”). En 1749, el alemán,
Gottfried Achenwall (1719-1792) usa el término Statistik en su libro titulado
“Staatswissenschaft der vornehmen Europäischen Reiche und Republiken”, quien
originalmente designó la palabra estadística para el análisis de los datos de un gobierno,
definiéndola como la “Ciencia del Estado”. A Gottfried Achenwall se le conoce como el
“Padre de la Estadística”.
VI. LÓGICA
Es posible que contemos con algún principio o conjunto de principios generales frente a un
problema determinado y se nos pide averiguar lo que puede suceder bajo un conjunto de
condiciones. El razonamiento a emplear va de lo general a lo particular.
Por ejemplo, la fórmula general para conocer el área de un círculo es, A = πr2, ¿cuál es el área
de un círculo cuyo radio es de 15 centímetros? La respuesta correcta es: 706.86 cm2.
Si tenemos una moneda neutral cuya probabilidad de que caiga cara al ser lanzada al aire es de
0.5, ¿qué sucederá cuando dicha moneda sea lanzada al aire diez veces? Esperaríamos al
menos cinco caras.
13
Entonces, podemos darnos cuenta que los problemas comunes son de este tipo, la solución
requiere el razonamiento deductivo. Un maestro debe ser “versado en los fundamentos
básicos”. Esto implica que debería tener bajo su control un gran acervo de principios generales
y las habilidades del razonamiento deductivo para aplicarlos a casos específicos con sus
alumnos.
El segundo tipo de problema es opuesto al primero. Se nos dan algunos casos específicos y se
nos pide que lleguemos a algunos principios generales que serán aplicados a todos los
miembros de la clase representada por dichos casos. El razonamiento empleado va de lo
específico a lo general.
Ejemplo: dadas la áreas y los radios de diversos círculos, ¿qué fórmula general podemos dar,
expresando la relación entre las áreas y los radios de todos los círculos?
Dados los resultados de lanzar al aire una moneda diez veces ¿a qué conclusiones podemos
llegar respecto del sesgo o el insesgamiento de la moneda?
Nótese que todos los problemas de este tipo tienen algo en común: todos empiezan con un
grupo de observaciones. En algunos casos, como en la descripción de una planta, las
observaciones de fenómenos son hechas simplemente en la medida en que estos tienen lugar
en la naturaleza; sin embargo, las observaciones se podrían realizar bajo condiciones
controladas. Los factores objeto de estudio se hacen variar en alguna forma sistemática,
mediante la aplicación de tratamientos. Otros factores que pueden ejercer influencia sobre las
observaciones son minimizados hasta el punto en que la práctica lo permita. Tenemos
entonces un experimento.
Hemos dicho que casi todos los problemas encontrados en nuestra enseñanza son del tipo que
requiere del razonamiento deductivo. Podemos afirmar también que casi todos los problemas
que afronta un maestro son aquellos que requieren del razonamiento inductivo.
¿Cuál es el problema típico que afrontan los investigadores de las ciencias agrícolas? Este
podría establecerse en los siguientes términos generales: ¿afectará la utilización de una técnica
de cultivo el resultado en algún segmento en particular de la producción? Si así fuera, ¿en qué
extensión lo haría? Puesto que estas interrogantes nunca pueden ser contestadas con un 100%
de seguridad, debemos tener en cuenta también el riesgo y el costo de una toma de decisión
incorrecta.
14
Para resolver el problema, por regla general se requiere un experimento. En el experimento
más simple, debe haber solo dos tratamientos: la nueva práctica y la vieja. Un experimento
más complicado puede incluir diversas proporciones o métodos de aplicación de la nueva
práctica. Aun más complejos son aquellos experimentos en que los efectos de diversas
prácticas se estudian simultáneamente.
¿Qué se entiende por problemas en los que los datos se apartan de las leyes de la causalidad
exacta?
El problema de la moneda lanzada al aire constituye algo diferente. El supuesto general es que
………la moneda es neutral; pero incluso para una sola
oportunidad, estamos inseguros en cuanto al resultado. Color del cabello de plantas de maíz
Pelirrojo
para la misma diez resultados posibles según el número
de veces en que ésta caiga en cara; estos resultados
difieren en cuanto a su probabilidad de registrarse. 9
15
VI.5 Necesidad de la evaluación estadística
La mayoría de los agrónomos ven rápidamente la necesidad del análisis estadístico para sentar
una base objetiva de evaluación: algunos ejemplos pueden resultar útiles. Si contamos con dos
grupos de plantas, el rendimiento de cada uno, aun cuando cuenten con los mismos planes de
cultivo, rara vez será igual; los rendimientos de las demás plantas de la misma especie,
difícilmente son los mismos; la proporción de aumento de rendimientos o crecimiento de dos
plantas de igual edad cualesquiera que sean, casi siempre difiere. Las diferencias de este tipo,
entre rendimiento de diversas variedades de una especie, pueden ser debidas a aspectos
genéticos y ambientales más allá del control razonable de un experimentador. No hay errores
en el sentido de estar equivocados; éstos representan la variabilidad entre unidades
experimentales, denominados error experimental.
Una vez que reconocemos la existencia de esta variabilidad, entendemos la dificultad para
evaluar una nueva práctica, mediante su aplicación a una unidad experimental única y su
comparación con otra unidad que es similar, pero no tratada. El efecto de la nueva práctica se
confunde con la variabilidad no determinada. Así, un experimento con una sola réplica
suministra una medición incompleta del efecto del tratamiento; además, puesto que no existen
dos unidades experimentales igualmente tratadas, éste no suministra mediciones del error
experimental. La ciencia estadística supera estas dificultades, requiriendo la recolección de
datos experimentales que permitirán una estimación imparcial de los efectos del tratamiento y
la evaluación de las diferencias del tratamiento a través de pruebas de significación basadas en
mediciones del error experimental.
El método estadístico ofrece una doble vertiente. Es por un lado un proceso de pensamiento
asistido por todo el rigor de la ciencia matemática, con un enfoque peculiar de la mentalidad
científica ante la investigación y por otro lado, es la herramienta que permite obtener
conclusiones y presentar resultados con verdadero conocimiento de la confianza de
afirmaciones.
16
El Método Estadístico lo proporciona la Estadística y permite reconocer los factores causales,
así como los relevantes que reclaman atención; el mismo consta de cuatro etapas que como se
verá, están muy relacionadas con la investigación y es que se trata de aplicaciones del método
científico en ambos casos:
1. Planificación de la investigación.
2. Ejecución,
3. Elaboración y procesamiento de la información recolectada.
4. Análisis, interpretación y presentación.
Tener en cuenta que se recojan estrictamente los datos necesarios ya que esto conspira en
contra de la obtención del dato real, costo, tiempo invertido y en general en contra de la
investigación. Se recogerá la información escrupulosamente evitando introducir fuentes de
error. Tener en cuenta la forma de controlar los errores, el procedimiento para obtención de la
muestra, el diseño de los formularios para obtención de la información.
Ello supone:
17
Seleccionar un instrumento de medición
Aplicar este instrumento.
Preparar las mediciones obtenidas para analizarlos correctamente.
Ello conduce a identificar los principales aspectos a tener en consideración al recolectar la
información:
En esta etapa se contrastan las hipótesis formuladas con los datos obtenidos y procesados a
través de diferentes técnicas estadísticas que se escogen según:
18
Utilizando la información contenida en la primera unidad, se recomienda que los grupos de
estudiantes presenten al catedrático un resumen del siguiente temario:
UNIDA
D2
DISTRIBUCIÓ
N DE
FRECUENCIA
S
I. Introducción
s 1
0
0.95 0.96 0.97 0.99 1.01 1.02 1.03 1.04 1.05 1.06 1.08 1.09 1.10
Metros
Estadística Descriptiva que analiza series de datos obtenidos de las características o variables
de los individuos, variables que podemos identificar fácilmente, por ejemplo, altura, peso,
longitud de hojas, número de granos; estos datos se obtienen de manera desordenada y
aleatoria directamente del campo (datos de campo), los cuales son luego ordenados y
tabulados para extraer información o conclusiones sobre el comportamiento de las variables
con otros individuos (Estadística Inferencial).
Llamaremos individuos a los elementos de una población que contienen la información que
deseamos estudiar. Por ejemplo, si deseamos estudiar la altura de una población de maíz de la
variedad ICTA B-7 en un área determinada, cada planta es un individuo o elemento; si el
estudio está encaminado a analizar el precio de las viviendas en Escuintla, cada vivienda
constituye un elemento de la población.
Las variables, son las propiedades o características observadas en los individuos, unidades o
elementos de la población y que pueden adquirir distintos valores los que pueden ser medidos;
también son los estímulos estudiados en una investigación. Para ampliar la visión de este
componente adelante se describen con más detalle.
Las variables pueden ser cualitativas o cuantitativas; las variables cualitativas pueden, a la vez,
ser ordinales o nominales, mientras que las variables cuantitativas pueden ser discretas o
continuas (el estudiante puede ampliar su información leyendo el glosario de estadística que complementa el
presente curso).
Aleatorio, es un término utilizado en Estadística para expresar que los sucesos ocurren sin
seguir un patrón determinado por voluntad humana y por lo tanto, no se puede tener una
respuesta exacta de la ocurrencia del fenómeno. Por ejemplo, los niños juegan de manera
aleatoria en el campo, es decir, no se puede precisar con exactitud qué niño tomará de nuevo la
pelota. Sin embargo, el proceso puede seguir alguna distribución de probabilidad.
20
2. Desarrollar el pensamiento proporcional en los alumnos para preparar y presentar
tablas de frecuencias y manejar ordenadamente los datos utilizando índices
descriptivos, así como, la presentación gráfica de la información.
Al iniciar un estudio de esta índole observaremos dos situaciones, la primera, que tomemos
sola una parte de la población, a la cual llamaremos muestra, suponiendo que la población está
compuesta de muchas plantas (recordemos que una densidad de 45 mil plantas de maíz por
manzana es aceptable y lógica), o bien, tomar a toda la población y en este caso al grupo lo
llamaremos población.
La población son todos los elementos o individuos que contienen la información que estudiaremos, mientras
que, la muestra es solo una parte de esa población.
Una población puede ser finita o infinita. Por ejemplo, la población consistente en las plantas
de maíz en una manzana de extensión de terreno, es finita, mientras que, la población
determinada por todas las plantas de maíz de un país, es infinita.
Al recoger datos relativos a las características de un grupo de individuos u objetos, sea altura
de plantas y peso de granos de maíz o, sacos de azúcar defectuosos producidos en un ingenio,
suele ser imposible o nada práctico observar a cada uno de ellos, en especial si las poblaciones
son muy grandes. En vez de examinar el grupo entero, llamado población o universo, se
examina una pequeña parte llamada muestra.
21
Ordenar,
Agrupar y,
Resumir información.
En nuestro caso, para analizar la altura de las plantas, dividiremos el trabajo en varias partes,
cada una siguiendo una secuencia lógica, a estos procedimientos les llamaremos métodos.
IV. Metodología
En una hoja de papel, el técnico agrícola a cargo de la investigación, toma los datos
observados de la altura de las treinta plantas de maíz; por ejemplo:
Para llevar a cabo la toma de datos dentro del proceso de la investigación, hemos contado con
algunos materiales, entre ellos, cinta métrica, lápiz, cuaderno, cartulina, marcadores, ganchos
y otros. Es importante que al momento de plantear una investigación se describan todos los
materiales necesarios para desarrollar el trabajo.
El presente caso, se trata de una muestra compuesta de 120 plantas de maíz (individuos), los
cuales representaremos por n (ene minúscula). Las 120 plantas fueron tomadas al azar de una
población de 45 mil plantas y constituyen la muestra.
22
Viendo la hoja de campo del agrónomo, difícilmente podemos responder a cualquier análisis o
pregunta relacionada con los datos, por lo que es necesario ordenarlos. Para ello existen varios
procedimientos, en el presente caso, los colocaremos en una tabla ordenando los valores del
menor al mayor.
Si algunos valores se repiten, entonces podemos preparar otra tabla en la cual resumimos los
mismos datos según sus repeticiones y a estas repeticiones llamaremos frecuencias.
Cuadro 3. Ordenamiento de los
Variable Variable
Repeticiones datos Frecuencias según las repeticiones o
(altura) (altura) frecuencias
0.93 3 0.93 3
0.94 4 0.94 4
0.95 14 0.95 14
0.96 9 0.96 9
0.97 5 0.97 5
0.98 8 0.98 8
0.99 16 0.99 16
1.00 4 1.00 4
1.01 9 1.01 9
1.02 2 1.02 2
1.03 8 1.03 8
1.04 4 1.04 4
1.05 4 1.05 4
1.06 3 1.06 3
1.07 0 1.07 0
1.08 4 1.08 4 23
1.09 6 1.09 6
1.10 8 1.10 8
1.11 6 1.11 6
1.12 3 1.12 3
Total 120 Total 120
Y con esta información preparamos una tabla más amplia que llamaremos tabla de
frecuencias, de utilidad para clasificar a un grupo de individuos según sus características
cualitativas o cuantitativas que facilitará el análisis estadístico.
El término modalidad, que empezaremos a utilizar en el curso, implica las situaciones posibles
de una característica, las cuales son exhaustivas y mutuamente excluyentes; es decir, cada
elemento contiene una y solo una de las modalidades posibles. Por ejemplo, una planta de
maíz solamente puede contener una altura, en ningún caso una planta puede tener dos alturas.
Al respecto de las frecuencias podemos decir, que existen dos tipos que son: a) frecuencias
absolutas, b) frecuencias proporcionales y c) frecuencias relativas; y cada uno de estos tipos de
frecuencia pueden a la vez subdividirse en, simples y acumuladas.
24
modalidad de 0.94 metros será 7 (esto es, la frecuencia de la clase, que es 4 más la frecuencia
acumulada de la anterior que es 3).
Frecuencia relativa: Es el cociente entre las frecuencias absolutas de cada clase y el número
total de observaciones, expresado en términos porcentuales.
Frecuencia relativa simple: Es el cociente de las frecuencias de una clase y el número total
de sus observaciones, expresadas en términos porcentuales. Por ejemplo, la frecuencia relativa
simple de la clase de 0.93 metros es de 3/120 y equivalente al 2.5%.
Frecuencia relativa acumulada: Es el valor de cada clase, más la suma de los valores
anteriores al mismo, expresados en términos fraccionarios o porcentuales. Por ejemplo, la
frecuencia relativa acumulada de la clase de 0.94 metros es de 5.83% (2.5% de la clase
anterior más 3.33% de la clase actual).
Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
25
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1 100
De acuerdo al estudio realizado con las 120 plantas de maíz, se encontró que 4
de ellas tienen una altura de 0.94 metros, equivalente al 3.33% de la población.
Y así sucesivamente, las estudiantes pueden presentar información preliminar utilizando esta
tabla de distribución de frecuencias.
La población total son las 120 plantas de maíz y la identificaremos con el símbolo n, porque se
trata de una muestra; si se tratara de una población la identificaríamos con la letra N y cada
frecuencia simple podría constituirse en una muestra de la población y la identificaríamos con
la letra n, de donde, cada frecuencia absoluta simple podría constituirse en una n 1, n2, n3, hasta
nn.
Xn nn Σn fn = n n / n Σf
Con los datos descritos podemos preparar también la tabla de frecuencias relativas acumuladas
de toda la población, la cual es importante para el reconocimiento de percentiles (como se verá
adelante).
Cuando los valores que toma la variable son muy diversos y cada uno de ellos se repite muy
pocas veces, entonces conviene agruparlos por intervalos, de otra manera obtendríamos una
tabla de frecuencias muy extensa que aportaría muy poco valor en la síntesis. Esto origina una
tabla de distribución de frecuencias agrupadas en intervalos de clase. Por ejemplo, si las
ciento veinte plantas en estudio tuvieran cada una, una medida distinta, tendríamos
necesariamente una tabla con ciento veinte líneas (una para cada valor) que corresponderían a
cada una de ellas y por lo tanto, cada una con una frecuencia absoluta de 1 y con una
frecuencia relativa de 0.83% que seria de poca utilidad para la presentación de la información.
IV.4.1 Intervalo de clase: Pequeña sección de la escala según la cual se agrupan los datos
de una distribución de frecuencia. Los números extremos de un intervalo se conocen como
límites de clase, el número menor es el límite inferior de la clase y el mayor, es el límite
superior. El intervalo de clase, es realmente un símbolo para la clase.
27
Pero antes de continuar con el agrupamiento de las variables por intervalos de clase conviene
revisar la terminología pertinente a las variables con las que nos vamos a encontrar (ver
cuadro siguiente).
GLOSARIO:
Variable aleatoria: Variable cuyo resultado varía según la muestra y una distribución de probabilidad.
Variables cuantitativas: Son aquellas que contienen alguna información numérica que se le puede asociar a los
individuos de una población. Esta caracterización puede ser clasificada en discreta y continua.
Variable cualitativas; Son aquellas variables que como su nombre lo indica, están relacionadas con sus
características exteriores. No se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).
Cuando las modalidades posibles son de tipo nominal. Por ejemplo, una variable de color.
Variables discretas: Es una variable que puede asumir un número contable de distintos valores. Es decir, la
cantidad de valores que puede asumir una variable discreta puede contarse fácilmente (potencialmente, ya que puede
que nunca se llegue al final). Un conjunto contable es aquel en que a cada elemento puede asignarse un número
natural. Ejemplos: números que se asignan a cada niño, marca de autos que cruzan determinada intersección, sexo,
número de hojas en un cuaderno, el conjunto de números enteros, el conjunto de números naturales, etc.
Variable continua: Es una variable que puede adquirir valores en un conjunto no contable de objetos, tal
como un intervalo o la recta numérica. Ejemplos: estatura, largo, peso, distancia, tiempo, volumen, etc.
Variable dependiente: Es aquella que adquiere un valor en función de una o más variables (independientes).
Variable independiente o explicativa: Es aquella que sirve para construir un modelo que explique el
comportamiento de una o más variables respuesta.
Variables dicotómicas: Son aquellas que, por su propia naturaleza sólo pueden manifestarse según dos
modalidades.
Variables nominales: Variables que son descritas por algunas características de sus integrantes.
Variables cuasicuantitativas: Son variables nominales que a pesar de ello se pueden ordenar entre ellas,
ejemplo de ellas los pueden representar los valores que pueden tomar los corredores en una competencia, en la
forma en que llegan a la meta, primer lugar, segundo lugar, etc...
Variables unidimensionales: Sólo recogen información sobre una característica (por ejemplo: edad de los
alumnos de una clase).
Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad,
altura y peso de los alumnos de una clase).
Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y
altura de los alumnos de una clase).
Variables aleatorias continuas: Permiten una infinidad de valores al azar dentro de un intervalo,
considerándose variables continuas precisamente por la posibilidad de poder tomar cualquier valor dentro de una
infinidad de valores.
Variables aleatorias discretas: Las variables cuya naturaleza toma un número finito de valores enteros, tales
como: los estudiantes de la escuela de medicina de una universidad, los alumnos reprobados en la materia de
matemáticas, el número de peces en un estanque, el número de cursos que un estudiante debe cursar para graduarse,
etcétera. El conjunto de valores que podría de tomar una variable aleatoria discreta puede ser finita o infinita
numerable
28
Para tratar lo relacionado con los intervalos de clases, primeramente es necesario elegir las
clases.
IV.4.3 Elección de las clases. Deben seguirse los siguientes criterios en función del tipo de
variable que estudiemos:
Cuando se trate de variables cualitativas o cuasicuantitativas, las clases serán de tipo nominal.
Por ejemplo, color del estigma de las mazorcas, color del grano, etc.
* Si la variable es discreta, las clases serán valores numéricos exactos, por ejemplo, 1, 2,
4, 6, etc.
Un intervalo, es el espacio comprendido entre dos valores numéricos, uno de ellos menor y el
otro mayor. Por ejemplo, 0.93 – 1.01. Al valor menor le llamaremos límite inferior (li) y al
valor mayor limite superior (ls).
En este caso, las modalidades que contienen una clase son todos los valores numéricos
posibles contenidos en el intervalo.
Uno de los problemas con que podemos encontrarnos es determinar el número de intervalos
para un grupo de datos. Identificaremos el número de intervalos con la letra “k” que nos
permita trabajar cómodamente y observar mejor la estructura de los datos.
k = √n
Por ejemplo, si n representa a 30 plantas e igual número de observaciones, entonces
k= √ 30 = 5.47
La cantidad de intervalos será de 6 (no se recomienda utilizar el valor menor 5, porque puede
dar lugar a dejar fuera algunos datos).
29
Se recomienda aproximar el número de intervalos al entero próximo superior; este valor no
será menor a 5, ni un valor mayor a 15; en este caso la tabla estaría constituida por seis
intervalos.
Si el número de observaciones es mayor a 30, entonces se recomienda utilizar la
regla de Sturgis, según la cual:
k = 1 + 3.322 log n
Por ejemplo, para 120 observaciones que provienen de igual número de plantas de maíz, la
cantidad de intervalos sería:
A = Xmax - Xmin
Para nuestro caso, Xmax es 1.12 metros y Xmin es 0.93 metros, de donde,
La amplitud del intervalo lo identificaremos con la letra “a”, y se refiere a las cantidades
contenidas en cada clase y se calcula,
Se procede entonces a preparar la tabla con los intervalos de clase sumando al valor de la
primera observación el valor de “a”, es decir, 0.93 + 0.02375, hasta concluir los ocho
intervalos.
30
Cuadro 7. Tabla de distribución de frecuencias por intervalos de clase.
frecuencias frecuencias frecuencias
absolutas proporcionales relativas (%)
li ls simple acumulada simple acumulada simple acumulada
Como puede observarse han sido utilizados los ocho intervalos que fueron calculados y no han
quedado valores fuera de la amplitud total.
Al igual que en el caso de la tabla de frecuencias con datos no agrupados, podemos presentar
información a quien interese, como la siguiente:
De acuerdo al estudio realizado con las ciento veinte plantas, se encontró que 21 de
ellas tienen una altura comprendida entre 0.9300 y 0.95375 metros, equivalente al
17.50% de la población.
31
decir al punto medio del intervalo que se obtiene, dividiendo entre 2, la sumatoria del límite
inferior más el límite superior:
li+ls
c=
2
La marca de clase es una forma abreviada de representar un intervalo mediante uno de sus
puntos y constituye el valor representativo para todos los individuos de esa clase. Por ello
hemos tomado como representante el punto medio del mismo. Esto está plenamente
justificado si recordamos que cuando se mide una variable continua como el peso, la cantidad
con cierto número de decimales que expresa esta medición, no es el valor exacto de la
variable, sino una medida que contiene cierto margen de error, y por tanto representa a todo un
intervalo del cual ella es el centro.
Para el cálculo de los límites reales de clase puede seguirse la siguiente regla:
Si el decimal es 0,1,2,3 ó 4, redondee hacia el entero inferior.
Si el decimal es 6,7,8,ó 9, redondee hacia el entero superior.
Si el decimal es 5, observe la siguiente posición decimal a la derecha y, si el
número es 5 o mayor, redondee hacia el entero superior. Si no existe algún
número en esa siguiente posición decimal, deje el redondeo en ese número
TAREA 2
Que los grupos de estudiantes presenten al catedrático una tabla de distribución de frecuencias
simple y una tabla de distribución de frecuencias con datos agrupados en intervalos de clase
utilizando otro caso (a discreción del grupo) y responder a cinco preguntas para cada caso.
BIBLIOGRAFÍA:
Vergara Schmalbach, Juan Carlos; Quezada Ibarguen, Victor Manuel. ESTADÍSTICA
BÁSICA CON APLICACIONES EN MS EXCEL. Programa de Administración Industrial.
Universidad de Cartagena. Colombia. 2005. pp 18-47.
32
UNIDA
GRÁFICOS Y
I.
D 3
DIAGRAMAS Introducción
Las tablas de distribución de frecuencias y las representaciones gráficas son dos maneras
equivalentes de presentar la información. Las dos exponen ordenadamente la información
recogida en una muestra. En todo caso, se tiene la ventaja de disponer de una amplia gama de
gráficos para cada variable en estudio.
La ventaja de los gráficos con respecto a las tablas estudiadas en el capitulo anterior, es que permite una fácil interpretación y
análisis de los datos, al mostrar las frecuencias mediante símbolos, barras, polígonos y sectores.
Puede ser de utilidad para las presentaciones de los trabajos de investigación a catedráticos,
demás compañeros de estudio, gerentes de empresa, directores, parientes, etc.
33
III. Gráficos para variables cualitativas
Recordemos que las variables cualitativas son aquellas que describen características de la
población (colores, olores, sabores, sexo, nacionalidad u otros); las variables cualitativas
pueden ser nominales y ordinales.
Los gráficos más usuales para representar variables de tipo nominal son:
En el eje de las ordenadas (x) representamos las modalidades y en el eje de las abscisas (y) las
frecuencias absolutas o bien, las frecuencias relativas.
Observando la grafica anterior podemos decir, que se encontraron doce plantas con el estigma
de color negro y dos plantas lo tienen pelirrojo.
Los diagramas de barras también nos permiten comparar una variable cualitativa en diferentes
poblaciones; en este caso, la altura de las barras es proporcional a la cantidad de observaciones
de cada variable.
También es de utilidad para comparar las mismas variables en más de una población. Por
ejemplo, se desea comparar gráficamente la variable color del estigma de la mazorca entre las
variedades del altiplano y variedades del trópico, de acuerdo a la siguiente tabla:
34
Cuadro 9. Descripción del color de estigmas encontrado en mazorcas de dos variedades de maíz y
su gráfica
Observando la gráfica anterior podemos decir, que doce plantas de maíz del altiplano tienen
mazorcas con estigma negro; que dos plantas de maíz del altiplano y tres plantas de maíz del
trópico lo tienen pelirrojo.
Los diagramas de sectores (también se le llama diagrama de pastel), pueden ser utilizados
para graficar variables cualitativas. Por ejemplo, vimos que el color del estigma de las
mazorcas de las plantas de maíz es distinto entre cada una de ellas. Utilizando la misma tabla
es posible obtener una grafica de pastel para esta característica.
Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. El arco de
cada porción se calcula usando la regla de tres:
n es a 360º
ni es a x
donde “n” son todas las unidades (n = 30) y “ni” las unidades por sector (por ejemplo, ni=12),
entonces, a ni le corresponden:
35
Cuadro 3. Descripción del color del estigma de las plantas de maíz.
Analizando la gráfica podemos decir que, en treinta plantas de maíz, doce tienen mazorcas con
el estigma negro.
III.3. Pictogramas
Los pictogramas utilizan símbolos para representar un conjunto de datos. La mayor frecuencia
se identifica por la mayor acumulación de símbolos. Los pictogramas se emplean sobre todo,
para hacer más amigables y entendibles los informes estadísticos. Sus características son:
- Su formato es libre.
- Emplean una secuencia de símbolos para representar frecuencias.
- Se emplean para el tratamiento de datos tanto cualitativos como cuantitativos.
Los pictogramas expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. Estos gráficos se hacen representando a diferentes escalas un
mismo dibujo.
Por ejemplo, hemos observado que la altura de las plantas de maíz varía entre 0.93 y 1.12
metros
Altura 1.0488 – 1.07250 1.0725 – 1.025 – 1.04875 1.0963 – 1.12 0.93 – 0.95375
36
1.09625 0.9775 – 1.00125
Planta 7 10 12 17 21 28
s
Otro ejemplo de pictogramas es el presentado en la gráfica 7, que demuestra el desarrollo de cerdos
que consumieron maíz con alta calidad de proteína y cerdos que consumieron maíz normal.
Gráfica 7: Pictograma. Las áreas son
proporcionales a las frecuencias.
Crecimiento de cerdos
Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a
continuación las diferentes representaciones gráficas que pueden realizarse para cada una de
ellas así como los nombres específicos que reciben.
37
Y el gráfico a obtener es el siguiente:
frecuencia simple
Para crear este tipo de gráfica, hemos
0.95 – 0.975
utilizado dos columnas, la primera, la que 4
7
contiene los intervalos de clase y la 0.975 – 1.00
2
segunda, la frecuencia absoluta simple. 1.00 – 1.025
1.025 – 1.05
Observando la grafica podemos concluir: 2
1.05 – 1.075
b. De esta población, siete plantas tiene una altura que oscila entre 0.95 y 0.975 metros.
También podemos crear una gráfica que demuestre la misma información en porcentajes.
0.975 – 1.00
6.67
a. El 33.33% de las plantas en estudio tienen 1.00 – 1.025
una altura que oscila entre 1.025 metros y 1.05 1.025 – 1.05
6.67
metros. 1.05 – 1.075
1.075 – 1.10
33.33
b. El 23.33% de las plantas tiene una altura 16.67
IV.1.2 Pictogramas
Los pictogramas expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. Estos gráficos se hacen representando a diferentes escalas un
mismo dibujo.
Por ejemplo, hemos observado que la altura de las plantas de maíz oscila entre 0.95 y 1.10
metros
38
Altura 0.95 – 0.975 0.975 – 1.00 1.00 – 1.025 1.025 – 1.05 1.05 – 1.075 1.075 – 1.10
Planta 7 2 5 10 2 4
s
El escalamiento de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la
modalidad que representa. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean
comprendidos por el público no especializado, sin que sea necesaria una explicación compleja.
Para las variables cuantitativas, consideraremos dos tipos de gráficos; para realizarlos pueden
ser utilizadas las frecuencias absolutas y relativas o las frecuencias acumuladas:
Representan el número de elementos de una modalidad inferior o igual a una dada. Se realizan
a partir de las frecuencias absolutas acumuladas, lo que da lugar a gráficos crecientes, y es
obvio que este tipo de gráficos no tiene sentido para variables cualitativas.
39
Figura: Diagrama diferencial (barras) y diagrama integral para una
variable discreta. Obsérvese que el diagrama integral (creciente)
contabiliza el número de observaciones de la variable inferiores o iguales
a cada punto del eje de abcisas.
Se usa cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para
demostrar que los valores que toma la variable son discretos y se deja un espacio entre barras
para indicar los valores que no son posibles.
40
Cuadro 8. Población de plantas de maíz por campo
Campo Plantas 50
Plantas de maiz por campo
A 30 40
B 25
P lan tas
30
C 32
20
D 41
E 34 10
0
A B C D E
Campos de produccion
Cuadro 9 175
acumulado
Décimos que una variable es discreta cuando no puede tomar ningún valor intermedio entre
dos números. Por ejemplo, en el campo A no podemos encontrar 12.5 plantas. Por el contrario,
una variable es continua cuando puede tomar diversos valores entre dos datos.
Por ejemplo, la altura de las plantas de la primera clase puede variar entre 0.95 a 0.975 m, es
decir, podemos encontrar alturas de 0.955, 0.9502, 0.959, etc.
41
VI. Gráficos para variables continuas
VI.1 Histogramas
Para el ejemplo que hemos estado tratando, la grafica de histograma y polígono de frecuencias
de las clases encontradas
en la tabla de
distribución de
frecuencias es la
siguiente:
42
La base de los rectángulos está conformada por los límites de los intervalos de las clases (por
ejemplo, 0.95 a 0.975) y cada clase contiene una marca de clase, la cual se ha obtenido
sumando los dos límites de cada intervalo y dividiendo esta sumatoria entre 2 (por ejemplo,
[(0.95+0.975)/2]. La línea que se encuentra tocando cada marca de clase se denomina
polígono de frecuencias.
El histograma
representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin
embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas
últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los
conceptos de área y altura.
Una gráfica de tallo y hojas representa datos que separan cada valor en dos partes: el tallo (el
dígito ubicado en el extremo izquierdo) y la hoja (el dígito del extremo derecho).
La ilustración siguiente muestra una gráfica de tallo y hojas de la altura de una población de
plantas de maíz en un campo de producción. Dichas alturas (en centímetros) si se acomodan
en orden creciente, son 64, 64, 69, 70, 71, 71, 71, 72, 73, …120. Es fácil ver cómo el primer
valor de 64 se separa en su tallo de 6 y su hoja de 4. Cada uno de los valores restantes, lo
hacen de una manera similar. Note que las hojas se ordenaron en forma creciente y no en el
orden en que aparecen en la lista original.
Los renglones de datos de una gráfica de tallo y hojas son similares en naturaleza a las barras
de un histograma. Uno de los lineamientos para la construcción de histogramas es que se
pueden incluir entre 5 y 20 clases lo cual se aplica a las gráfica de tallo y hojas por las mismas
razones. Por lo general, obtenemos mejores gráficas de tallo y hojas si redondeamos primero
los valores de los datos originales. Además, este tipo de gráficas pueden expandirse para
incluir más renglones y condensarse para disminuir el número de renglones. En nuestro
ejemplo, la gráfica de tallo y hojas puede expandirse subdividiendo los renglones en otros
con hojas que incluyan dígitos de 0 al 4, así como otros dos dígitos del 5 al 9, tal como se
muestra en el siguiente diagrama.
Tallo hojas
6 44
6 9
7 01112334444
7 555555666778899
8 001112223334
8 6899
9 0024
9
10
10
11
11
12 0
Cuando hay necesidad de reducir el número de reglones, es posible condensar una gráfica de
tallo y hojas al combinar los renglones adyacentes, tal como se indica en la siguiente
ilustración. Note que insertamos un asterisco para separar los dígitos en las hojas asociadas
con los números en cada tallo. Cada renglón en la grafica condensada debe incluir
exactamente un asterisco, de modo que la forma de la gráfica no se distorsione.
44
Tallo hojas
6-7 449*01112334444555555666778899
8-9 0011122233346899*0024
10-11 *
12-13 0*
Una gráfica de Pareto es una gráfica de barras para datos cualitativos, donde las barras se
ordenan de acuerdo con las frecuencias. Al igual que en los histogramas, las escalas verticales
de las gráficas de Pareto representan frecuencias o frecuencias relativas. La barra más alta se
coloca a la izquierda y las más pequeñas hacia la derecha. Al ordenar las barras por
frecuencias, la gráfica enfoca la atención en las categorías más importantes. La siguiente
figura es una gráfica de Pareto que muestra con claridad que el cambio sin consentimiento, es
por mucho, el asunto más grave de las quejas de los clientes respecto de las empresas
telefónicas.
14000
12000
10000
8000
6000
4000
2000
0
45
Una gráfica de puntos consiste en una gráfica en donde se marca cada valor de un dato como
un punto a lo largo de una escala de valores. Los puntos que representan valores iguales se
amontonan. Observe la siguiente figura que representa la altura de plantas de maíz. Por
ejemplo, los dos puntos que aparecen a la izquierda representan el valor de 64 centímetros,
que ocurre dos veces en el conjunto de datos 7. En esta gráfica de puntos vemos que la altura
de 120 centímetros difiere mucho de las demás.
*
*
* **
* *** ***
* * *********** **
* **************** * *** * * *
60 70 80 90 100 110 120
Gráfica de altura de plantas de maíz
350
300
250
200
P eso
150
100
50
0
1.4 1.5 1.6 1.7 1.8 1.9
Estatura
Diagrama de dispersión.
46
También llamada gráfica de cuadro y bigote. Una gráfica de cuadro es otro tipo de gráfica que
se utiliza a menudo. Las gráficas de cuadro son útiles para revelar la tendencia central de los
datos, su dispersión, su distribución y la presencia de datos distantes. La construcción de una
gráfica de cuadro requiere que primero se obtenga el valor mínimo, el valor máximo y los
cuartiles, como se define en el resumen de los cinco números.
Q1 Mediana Q3
minimo 251.5
86.5 170 maximo
0 491
VIII. Conclusión
Bibliografía :
UNIDA
MEDIDAS
D 4 DE
I. TENDENCIA Introducción
Son
alrededor de
CENTRAL o mediciones
las cuales
tienden
datos.
información
a
Nos DE agruparse los
proporcionan
de los datos
que estamos
la vez, nos CENTRALIZAC analizando y a
permiten
IÓN
conocer diversas
características de esta serie
de datos.
Medidas de posición, una vez ordenados los datos informan sobre la localización
de estos, entre ellas tenemos los cuantiles: percentiles, deciles, quintiles y cuartiles.
48
Medidas de forma, son las que proporcionan una idea de la simetría y
apuntamiento de la distribución, tales como, coeficiente de asimetría o sesgo,
coeficiente de apuntamiento o curtosis.
En el presente capitulo nos ocuparemos de conocer y aplicar las medidas de tendencia central.
Como sabemos, los fenómenos biológicos no se rigen a constantes, por lo que es necesario que
junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una
medida que haga referencia a la variabilidad que refleje dicha fluctuación.
Se hace necesario que el alumno conozca algunas características de la distribución de los datos
con respecto a estas medidas, entre ellas:
Tendencia a centrarse.
Posiciones.
49
Resulta valioso al momento de establecer un experimento, conocer los valores que marcan
posiciones características de una distribución de frecuencias, así como, su simetría y forma.
Recibe también el nombre de media aritmética o promedio. Valores muy alejados del resto
pueden modificar sustancialmente la media (en una situación así debe considerarse la
utilización de la mediana, que no es sensible a los valores extremos).
La identificaremos por el símbolo (equis barra, si se trata de una muestra) o µ (letra griega
mu, si se trata de una población).
n
∑ xi
i=1
X̄ =
n
Existen varios procedimientos para obtener la media aritmetica; la tecnología actual, nos
facilita las operaciones mediante el uso de un programa, un computador o calculadoras
programables o sencillamente científicas. Sin embargo, resulta valioso conocer aspectos
básicos del origen de la información.
Para el efecto pueden utilizarse datos de campo o llamados también datos brutos o, una tabla
de distribución de frecuencias con datos agrupados en intervalos de clase.
Obviamente, resulta engorroso y delicado analizar datos de campo si se cuenta con muchos
miles de observaciones y se intenta ordenarlos en una tabla de distribución de frecuencias.
50
III.1. Características de la media aritmética:
1. Fácil de calcular
2. Toma en cuenta todos los valores
3. Con valores extremos no es representativa
4. No se puede calcular para caracteres cualitativos o intervalos no acotados.
III.2. Metodología
Tomando como ejemplo los datos obtenidos de la medición de altura de las ciento
veinte plantas de maíz, tenemos:
Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur Altur
a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a (mt) a
(mt)
1.01 1.01 1.10 1.00 1.04 0.97 1.03 0.98 0.99 1.10 1.11 1.01
1.03 1.05 0.98 1.08 1.04 0.98 0.99 0.98 0.96 1.09 1.12 1.01
1.10 0.95 0.99 0.95 1.06 0.98 1.00 1.10 0.95 1.03 1.09 1.06
1.11 1.01 1.11 1.01 0.99 0.94 1.00 1.11 0.96 0.99 0.95 1.08
1.09 1.04 1.05 1.02 0.99 0.95 1.05 1.12 0.95 0.95 0.96 0.96
0.99 0.95 0.97 0.95 0.95 1.10 1.01 1.12 1.11 1.02 0.96 0.96
0.98 0.95 0.98 0.95 0.96 1.11 1.01 1.10 1.10 1.03 0.96 1.04
0.99 1.03 1.09 0.97 0.96 0.99 0.93 0.99 0.99 1.03 0.97 1.05
0.98 1.03 1.08 0.99 0.99 0.94 0.93 1.09 0.94 0.97 0.99 1.03
0.95 0.99 0.99 1.10 1.01 0.94 0.93 1.08 0.95 1.06 1.00 1.09
La , es la sumatoria de todos los datos dividida entre la cantidad de observaciones (n). Cada
observación la identificaremos como x1, x2 hasta x120, y la designaremos con la fórmula
siguiente:
x 1 + x 2 +. . . x n
X=
n
De donde,
= 121.61/120 = 1.0134 m
51
Como ha podido darse cuenta, no ha sido necesario ordenar los datos en una tabla colocando
los datos del menor al mayor, y tampoco utilizando una distribución de frecuencias; mediante
un procedimiento sencillo hemos procedido a sumar todos los valores (121.61) que luego
hemos dividido entre el número de observaciones (120); debe considerarse que se trata de una
población relativamente baja. Ahora podemos decir con certeza que el promedio de altura de
las ciento veinte plantas de maíz es de 1.0134 metros (se recomienda el uso de cuatro
decimales).
III.2.2 Segundo caso: Cálculo de la media utilizando una tabla de distribución de frecuencias.
Esta metodología se considera cuando la población es alta, por lo que, se procede a preparar la
tabla de distribución de frecuencias de la siguiente manera:
Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
52
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1 100
Para este caso tomaremos la columna de valores de la variable y la columna que contiene las
frecuencias absolutas simples.
= (0.93*3)+(0.94*4)+…+(1.12*3)
120
= 121.61/120 = 1.0134 m
Podemos observar que el resultado obtenido es el mismo que al utilizar los datos de campo.
III.2.3 Tercer caso. Encontrar la media aritmética utilizando una tabla de distribución de
frecuencias con datos agrupados en intervalos de clase.
Posiblemente los resultados no sean idénticos a los obtenidos anteriormente, porque en este
caso utilizaremos la marca de clase de cada intervalo.
frecuencias frecuencias
clases Intervalo frecuencias absolutas proporcionales relativas (%) c
li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
53
Recordemos que la marca de clase (identificada como “c”) se ha obtenido sumando los límites
de cada intervalo y dividiéndolos entre 2, por ejemplo, 0.9300 + 0.9538 = 1.3888/2 = 0.9419
metros.
Se procede al igual que en el segundo caso explicado antes, multiplicando cada marca de clase
(c), por la correspondiente frecuencia absoluta simple y dividiendo el resultado total entre el
número de observaciones, n.
= (0.9419*21)+(0.9656*14)+…+(1.1081*17)
120
54
desviaciones
6 5.0 6-5 = 1 1 1
4 5.0 4-5 = -1 -1 1
8 5.0 8-5 = 3 3 9
5 5.0 5-5 = 0 0 0
4 5.0 4-5 = -1 -1 1
3 5.0 3-5 = -2 -2 4
Total 30 Total 0 Total 16
Promedio = 5.0
III.3.3 Tercera propiedad: si f1 números tienen de media m1, f2 números tienen de media m2,
… fk números tienen de media mk, entonces la media de todos los números es
Por ejemplo, cuatro grupos de plantas, formados por 15, 20, 10 y 18 plantas registran una
media de altura de 112, 118, 106 y 98 centímetros, respectivamente. Hallar el peso medio de
todas las plantas.
= 108.95 libras
55
Anteriormente se determinó que la media aritmética utiliza todos los valores de la distribución
para su cálculo, de manera que si en los extremos de la distribución hubiera valores con
frecuencias grandes, el valor de la media aritmética se vería muy distorsionado. Para evitar
este error que conduciría obviamente a una mala información, es aconsejable sustituir la media
aritmética por la media geométrica.
Denotada por g, es otra medida de tendencia central de gran importancia en los cálculos de
ingeniería.
Según los datos que obtengamos y el estudio que se realice es conveniente analizar la
posibilidad de utilizar, la media aritmética o la media geométrica.
IV.1 Metodología
La media geométrica de una serie de números, x1, x2, x3, x4, … xn, es la raíz n-ésima del
producto de esos números, es decir, se extrae la raíz n de la multiplicación consecutiva de cada
observación. El procedimiento se facilita si no se dispone de muchos datos. Se calcula
mediante la siguiente fórmula:
N
g = √ x1∗x 2∗...x n
Se emplea este promedio cuando se trabaja con observaciones, donde cada una tiene una razón
aproximadamente constante respecto a la anterior, por ejemplo, al promediar tasas de
crecimiento (aumento o disminución de una población estadística).
Dado que el cálculo se puede volver laborioso en el caso de series con un gran número de
elementos (o difícil de manejar en una calculadora de poca capacidad), para calcular la media
geométrica se suele utilizar el cálculo logarítmico:
56
X g=
log x 1 +.. . log x n
=
∑ log x
log n n , es la media de los logaritmos de los valores de la
variable.
120
X g= √. 93∗. 93∗. . .1 .12
X g = 1.0119 metros
En este caso, cada valor de variable se eleva a la correspondiente frecuencia (el número de
veces que se ha repetido), luego se multiplican todos estos resultados y al producto final se le
calcula la raíz n (siendo n el total de datos estudiados).
Xg =
X g = ((0.93^3)*(0.94^4)* … *(1.12^3))(1/120)
X g = 1.0119 metros
X g = ((0.9419^21)*(0.9656^14)*…*(1.1081^17))(1/120)
X g = 1.0119 metros
57
Podemos observar que la media aritmética obtenida mediante este procedimiento fue de
1.0141 m, con lo que se aproxima significativamente a la media geométrica utilizando el
mismo procedimiento.
Ejemplo:
Suponga que los porcentajes de inflación de los últimos 3 años han sido 18%, 15% y 12%.
Determine el porcentaje promedio de inflación durante ese periodo.
En virtud que los valores de inflación están referidos a la unidad, deben expresarse en
términos de factores de incremento de precios, de tal manera que 18% equivale a 1.18, de
igual manera 15% equivale a 1.15 y 12% a 1.12.
La media geométrica de los valores es el valor promedio del incremento de los precios, por lo
tanto:
3
Incremento promedio = media geométrica = X g =√ 1 . 18∗1 .15∗1 .12 = 1.1497
V. La Media Armónica
La media armónica es otra medida de tendencia central, aunque menos utilizada que los
promedios anteriores. Se denota por H o a y se define como el recíproco de la media
aritmética de los recíprocos de un conjunto de datos, es decir,
1 1 1
x1
+. . .+
xn ∑x
1 i n
= = =
Xa N n
∑ x1
i para datos no agrupados
58
n
1
∑ x .f i
H = i para datos agrupados
Por tanto,
V.1 Metodología
En nuestro caso,
H= 120 .
1/0.93+1/0.93+1/0.93 +… +1/1.12
De donde,
H = 1.0104 metros
Si utilizamos los datos obtenidos con las mediciones de altura de las ciento veinte plantas de
maíz, tomamos la columna de valores de la variable y la columna de la frecuencia absoluta
simple.
Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
simple acumulada acumulada Acumulada
simples simples
s s s s
0.93 3 3 0.0250 0.0250 2.50 2.50
59
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1 100
H = n .
f1/x1 + f2/x2 + … fn/xn
Es decir,
H = 120 .
3/0.93 + 4/0.94 + … + 3/1.12
De donde,
H = 1.0104 metros
V.1.3 Tercer caso: Utilizando los datos den una tabla de distribución de frecuencias
agrupadas por intervalos de clase.
H = n .
f1/c1 + f2/c2 + … fn/cn
Es decir,
H = 120 .
21/0.9419 + 14/0.9656+ … + 17/1.1081
De donde,
H = 1.0104 metros
Si v1, v2, v3 …, vn son las velocidades de rendimiento de cada una de las personas, que
aunque sea en distinta cantidad de tiempo, producen igual cantidad de artículos o productos, el
promedio de la velocidad de rendimiento del grupo de tales personas es:
61
n
1 1 1
+ +. ..+
H = v1 v 2 vn
Solución:
Primer método
Para determinar el precio promedio, tenemos:
Como las 4 cajas cuestan 20 quetzales cada una, el precio promedio de los lapiceros que
contienen es igual al promedio armónico de los precios de los lapiceros de cada caja.
62
Por lo que, se obtiene lo siguiente:
n
1 1 1
+ +. . .+
H = p1 p 2 pn
n
1 1 1 1
+ + +
H = 0 . 50 1. 00 1 . 25 2 .00 = Q0.93/lapicero
La media cuadrática de una serie de datos se define como la raíz cuadrada de de la media
aritmética de los cuadrados de los valores de la variable. Se denota por C y se calcula
mediante las fórmulas:
C
=
√
X 2 + .. . X
1
n
n
2
=
√ ∑ x i2
n para datos no agrupados
C
=
√ ∑ xi 2 . f i
n para datos agrupados
√
X 2 +. .. X 2
1 n
RMS=
n
VI.1 Metodología
63
RMS=
120 √
0 . 932 +. .. 1 .122
Es decir,
C
=
√ ∑ xi 2 . f i
n = √
X 2∗f 1 +.. . X 2∗f n
1
n
n
Es decir,
=
√ 0 .93 2∗4+. . .+1. 122∗3
120
De donde,
√
c 2∗f 1 +. .. c 2∗f n
1 n
RMS=
N
Es decir,
C
=
120 √
0 .9419 2∗21+. . .+1 . 10812∗17
Ejercicio
64
Demuestre sus habilidades matemáticas calculando la media geométrica, armónica y
cuadrática para los datos de temperatura del siguiente ejemplo.
a. Media geométrica:
X g = (301*352*…*652)(1/56)
X g = 48.36º C
b. Media armónica:
n 56
1 1
∑ x .f i ∑ 1.170 = 47.86º C
H = i para datos agrupados =
c. Media cuadrática:
C
=
√ 302∗1+. ..+652∗2
56
=
136 ,075
56
=
√
49.29º C
65
H ≤ G ≤ C
Es decir, que el máximo valor medio de una serie de datos se tiene al calcular la media
cuadrática (C) y el mínimo valor medio se obtiene de la media armónica (H). El signo
igual solo es posible cuando todos los valores de la serie son iguales entre sí.
Para el ejemplo anterior podemos verificar esta relación ya que la media armónica es 47.8º C
la geométrica es igual a 48.36º C, mientras que la media cuadrática es igual a 49.29º C.
Un ingeniero ambiental obtuvo los siguientes datos en una concentración de mercurio (en
partes por millón) en ocho localidades a lo largo de un arroyo, obteniendo los siguientes
valores:
Determine:
Solución:
C
=
√
0 .064 2 +. ..+0. 0662
8 = 0.066113 (máximo)
66
n 8
1 1 1 1 1
+ +. ..+ +.. .+
x
H = 1 2x x n = 0 . 064 0 .066 = 0.06577 (mínimo)
Por lo que, la concentración máxima promedio de mercurio es de 0.0661 partes por millón y la
concentración mínima promedio es de 0.0658 partes por millón.
VII. La mediana
∼X
La representaremos con el símbolo:
Es una medida de localización o tendencia central de los datos. Es el dato o valor que divide al
conjunto de datos en dos subconjuntos de igual tamaño, se sitúa justamente en el centro (un
50% de valores son inferiores y otro 50% son superiores); unos que son menores o iguales
que la mediana y otros que son mayores o iguales que la mediana.
Primeramente se procede a ordenar los datos de menor a mayor, su valor sólo depende de la
posición que ocupa, no del valor particular observado.
En la mediana, los datos no presentan el problema de estar influidos por los valores extremos,
pero en cambio no se utiliza en su cálculo toda la información de la serie de datos (no pondera
cada valor por el número de veces que se ha repetido).
67
VII.2 Metodología
n+1 9+ 1
= =5
Me = 2 2 (es decir, el 5º dato)
Si ahora observamos los valores 1, 6, 5, 4, 3, 4, 5, 5 (n=8), podemos darnos cuenta que son
datos pares. El primer paso consiste en ordenar los datos: 1, 3, 4, 4, 5, 5, 5, 6. Como hay 8
datos, un valor que se encuentre entre la cuarta y la quinta posición dividirá el conjunto de
datos en dos subconjuntos de 4 datos cada uno: 1, 3, 4, 4, x, 5, 5, 5, 6. En este caso, se
procede tomando los dos números centrales y dividiéndolos entre 2, esto nos permite obtener
el valor de la mediana, de este conjunto de datos que es
n+1 8+1
= =4 . 5
Me = 2 2
Significa entonces, que está comprendido entre el cuarto elemento (que es 4) y el quinto
elemento (que es 5), de manera que la mediana será el valor medio entre ambos:
4+5
=4 . 5
Me = 2
Si ordenamos los datos del ejemplo que se refiere a las 120 plantas de maíz, podemos observar
que se trata de un grupo de datos pares, encontrar la mediana.
Variabl
frecuencias frecuencias frecuencias relativas
e
absolutas proporcionales (%)
(altura)
Simple acumulada acumulada Acumulada
simples simples
s s s s
68
0.93 3 3 0.0250 0.0250 2.50 2.50
0.94 4 7 0.0333 0.0583 3.33 5.83
0.95 14 21 0.1167 0.1750 11.66 17.50
0.96 9 30 0.0750 0.2500 7.50 25.00
0.97 5 35 0.0417 0.2917 4.16 29.16
0.98 8 43 0.0667 0.3583 6.66 35.83
0.99 16 59 0.1333 0.4917 13.33 49.16
1 4 63 0.0333 0.5250 3.33 52.50
1.01 9 72 0.0750 0.6000 7.50 60.00
1.02 2 74 0.0167 0.6167 1.66 61.66
1.03 8 82 0.0667 0.6833 6.66 68.33
1.04 4 86 0.0333 0.7167 3.33 71.66
1.05 4 90 0.0333 0.7500 3.33 75.00
1.06 3 93 0.0250 0.7750 2.50 77.50
1.07 0 93 - 0.7750 - 77.50
1.08 4 97 0.0333 0.8083 3.33 80.83
1.09 6 103 0.0500 0.8583 5.00 85.83
1.1 8 111 0.0667 0.9250 6.66 92.50
1.11 6 117 0.0500 0.9750 5.00 97.50
1.12 3 120 0.0250 1.0000 2.50 100.00
Total 120 1 100
n+1 120+1
= =60 . 5
Me = 2 2
Significa entonces, que la mediana está comprendida entre el 59º elemento (que es 0.99) y el
sexagesimo elemento (que es 1), de manera que la mediana será el valor medio entre ambos:
0. 99+1
=0 . 995 m
Me = 2
Para datos agrupados, la mediana se obtiene mediante interpolación lineal y viene dada por
69
{ }
n
−( ∑ f )1
2
Med=L1 + c
fmediana
Donde
L1 = límite real inferior de la clase mediana (es decir, la clase que contiene la mediana)
n= Número de datos, es decir, frecuencia total.
(∑f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana
f mediana = frecuencia de la clase mediana
c= Tamaño del intervalo de la clase mediana
Utilizando la tabla de distribución de frecuencias por intervalos de clase que nos ha ocupado,
procederemos a calcular la mediana mediante la fórmula antes mencionada.
Conviene ubicar la clase mediana, y es aquella donde se encuentra el 50% de los datos, en la
frecuencia relativa acumulada (en la tercera clase se encuentra hasta el 52.50% de los datos, y
se pued decir que en la misma se encuentra el 51%, el 50% o menos, hasta 29.17%).
frecuencias frecuencias
Clases Intervalo frecuencias absolutas proporcionales relativas (%) c
li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
{ }
n
−( ∑ f )1
2
Med=L1 + c
fmediana
Donde
L1 = límite real inferior de la clase mediana (es decir, la clase que contiene la mediana) = 0.9775
N= Número total de datos, es decir, frecuencia total = 120
(∑f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana = 35
f mediana = frecuencia de la clase mediana = 28
70
c= Tamaño del intervalo de la clase mediana = 0.02375
{ }
120
−( 35 )
2
Med=0.9775+ 0 .02375
28
VII.3.1 Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la variable, sino del
orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas.
VII.3.4 Si una población está formada por dos subpoblaciones de medianas Med1 y Med2,
sólo se puede afirmar que la mediana, Med, de la población está comprendida entre Med1 y
Med2
VII.3.7 Puede ser calculada aunque el intervalo inferior o el superior no tengan límites.
Ejemplo
Sea X, una variable discreta que ha presentado sobre una muestra las modalidades, 2, 5, 7, 9,
12, la mediana es 7.
71
Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la
mediana, pero si a la media: 2, 5, 7, 9, 125, la mediana seguirá siendo 7, pero la media ahora
será 29.6.
Ejercicio:
72
En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de
la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos
encontrado que por debajo están el 50%de las observaciones. Entonces se obtiene la mediana a
partir de las frecuencias absolutas acumuladas, mediante interpolación lineal (teorema de
Thales) como sigue (figura 2):
Observación
La relación (2.2) corresponde a definir para cada posible
observación, , su frecuencia relativa acumulada, F(x), por interpolación lineal entre los valores
F(lj-1) = Fj-1 y F(lj) = Fj de forma que
De este modo, Med es el punto donde . Esto equivale a decir que la mediana divide al
histograma en dos partes de áreas iguales a1/2.
Obtener la media aritmética y la mediana en la distribución adjunta. Determinar gráficamente cuál de los dos promedios es
más significativo.
73
li-1 - li ni
0 - 10 60
10 - 20 80
20 - 30 30
30 - 100 20
100 - 500 10
Solución:
li-1 - li fi ai xi xi ni Ni
0 - 10 60 10 5 300 60 60
10 - 20 80 10 15 1.200 140 80
20 - 30 30 10 25 750 170 30
30 - 100 20 70 65 1.300 190 2,9
100 - 500 10 400 300 3.000 200 0,25
n=200
f = frecuencia
ai = tamaño de la clase
xi = marca de clase
Ni = frecuencia acumulada
La media aritmética es:
por tratarse de puntuaciones par, la mediana se encuentra entre los datos 99 y 100.
La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo mediano es [10;20].
Así:
Donde
L1 = límite real inferior de la clase mediana (es decir, la clase que contiene la mediana) = 10
N= Número de datos, es decir, frecuencia total = 200
(∑f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana = 60
F mediana = frecuencia de la clase mediana = 80
c= Tamaño del intervalo de la clase mediana = 10
Para ver la representatividad de ambos promedios, realizamos el histograma de la figura 2.3, y observamos que dada la forma
de la distribución, la mediana es más representativa que la media.
74
Figura 2.3: Para esta distribución de frecuencias es más representativo
usar como estadístico de tendencia central la mediana que la media.
VIII. La moda
o
X
Se representa por el símbolo:
Si los datos no están agrupados el cálculo de la moda es trivial, ya que solo se debe observar
cuál es el dato que más se repite entre ellos.
La moda es la única medida de tendencia central que se puede calcular para variables de tipo
cualitativo, por ejemplo, el grado de escolaridad (primaria, secundaria, universitaria, etc.), el
tipo de suelo (arcilloso, arenoso, etc.)
Una distribución que tiene una sola moda se llama unimodal.
75
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir,
cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior.
VIII.3 Primer caso: Utilizando los datos de campo o contenidos en una tabla de distribución
de frecuencias que compete a las 120 plantas de maíz analizadas en capítulos anteriores,
procederemos a analizar la moda como medida de centralización.
Para nuestro caso, el 0.99 metros se repite 16 veces, es el valor de altura de los plantas de maíz
que se repite mayormente, por lo tanto, este es el valor modal.
En el caso de datos agrupados donde se ha construido una curva de frecuencia para ajustar los
datos, la moda será el valor (o los valores) de X correspondientes al máximo (o máximos) de
la curva.
76
mod a=L1 +
( Δ1
Δ1 + Δ2 )
c
Donde
L1 = Límite real inferior de clase de la clase modal (es decir, la clase que contiene la moda)
Δ1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior
Δ2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior
c = tamaño del intervalo de clase modal
Si tomamos la tabla que hemos venido analizando, podemos encontrar la moda aplicando la
fórmula anterior,
frecuencias frecuencias
Clases Intervalo frecuencias absolutas proporcionales relativas (%) c
Li ls Simple acumulada simple acumulada simple acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
Observando la frecuencia absoluta simple, encontramos que la clase modal está constituida
por el intervalo que va de 0.9775 a 1.0013.
L1 = 0.9775
Δ1 = 28-14 = 14
Δ2 = 28-11 = 17
c = 0.02375
La moda difiere significativamente de las otras medidas, ya que para su cálculo solo se toma
en cuenta el valor más repetido, no importando los demás valores. Por otro lado, la mediana
por definición se obtiene del valor central (que en general difiere de la media aritmética) La
diferencia principal de la moda, mediana y la media aritmética estriba en que no
77
se consideran todos los datos, en otras palabras, la moda y la mediana pueden utilizarse como
un parámetro estadístico de facil cálculo; sin embargo, no siempre son representativos de la
muestra como lo es la media aritmética.
En la siguiente figura se muestran las posiciones relativas de la media, mediana y moda para
una curva de frecuencias que está sesgadas a la izquierda.
TAREAS COMPLEMENTARIAS
Resolver las hojas de trabajo utilizando los programas estadísticos.
UNIDA
MEDIDAS DE 78
D5
POSICIÓN
I. Introducción
Los estadísticos de posición suelen llamarse también cuantiles y entre ellos tenemos, los
percentiles, deciles, quintiles y cuartiles.
Son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Son los
valores que dividen los datos en cien partes iguales y se representan por P1, P2, …, P99.
Los valores de los percentiles pueden ubicarse por simple observación, cuando se trata de cien
observaciones, o calcularse de acuerdo a la siguiente fórmula de interpolación lineal:
{ }
x (n)
−N
100
P1= L1 + c
fP 1
79
III.1 Metodología
III.1.1 Primer caso. Calcular el valor de los percentiles utilizando la tabla de distribución de
frecuencias agrupadas de forma simple.
Ejemplo: calcular el valor del percentil 20 (P20) y cuántas plantas le corresponden, utilizando
la información de altura de 120 plantas de maíz (información que hemos venido utilizando).
25%
MODO 3: REG
MODO DE REGRESIÓN 1: LIN 20%
III.1.2 Segundo caso. Calcular el valor de los percentiles utilizando la tabla de distribución de
frecuencias agrupadas por intervalos de clase.
81
Procedimiento:
{ } { }
( x )n 25(120)
−N −21
100 100
P1= L1 + c P25=0 . 9538+ 0 . 02375
fP 1 14
=
Respuesta: el valor del P25 es 0.9691 metros y corresponde al primer cuartil; es decir, el
25% de las plantas en estudio tienen una altura de 0.9691 metros o menos.
Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados; los
valores que dividen los datos en diez partes iguales se llaman deciles y se representan por D 1,
D2, … D9.
IV.1 Metodología
IV.1.1 Primer caso: por simple observación utilizando la tabla de distribución de frecuencias.
Por simple observación pueden localizarse los valores correspondientes a cada 10%; en
muchos casos, la tabla no lo permite y se hace necesario calcularlos.
IV.1.2 Segundo caso. Calcular el valor de los deciles utilizando la tabla de distribución de
frecuencias agrupadas de forma simple.
Ejemplo: calcular el valor del quinto decil (D5) y cuántas plantas le corresponden, utilizando la
información de la tabla anterior, altura de 120 plantas de maíz.
59 plantas son el 49.16% y les corresponde la altura de 0.99 metros; 72 plantas son el 60% y
les corresponde 1.01 metros de altura; ¿cuántas plantas corresponden al 50%, que es el D5?
Primeramente, preparamos una gráfica que nos facilite ubicar la información y haciendo uso
de una calculadora procedemos a encontrar la función de regresión entre dos puntos:
MODO 3: REG
MODO DE REGRESIÓN 1: LIN 60.00%
50.00% 83
49.16%
0.99 x 1.01
a. Encontrar la altura del D5; para el presente caso contamos con los siguientes datos:
Estos datos se ingresan a la calculadora por pares y se procede a encontrar los valores de “A”
y “B”; la función de regresión es:
IV.1.3 Tercer caso: utilizando la tabla de distribución de frecuencias con intervalos de clase
{ }
n
−N
10
D1 =L1 + c
fD1
Donde
Calcular el valor de los deciles utilizando la tabla de distribución de frecuencias agrupadas por
intervalos de clase se procede de la siguiente manera:
Procedimiento:
{ }
n
{ }
−N 5(120 )
10 −35
D1 =L1 + c D5 =0 . 9775+
10
0 . 02375
fD1 28
=
Respuesta: el valor del D5 es 0.9987 metros; es decir, el 50% de las plantas en estudio
tienen una altura de 0.9987 metros o menos.
V. Quintiles (Q)
Son cuatro valores que distribuyen la serie de datos, ordenados de forma creciente o
decreciente, en cinco tramos iguales, en los que cada uno de ellos concentra el 20% de los
resultados.
Los quintiles se usan con frecuencia para dividir las poblaciones en grupos. Por ejemplo,
puede utilizar la función QUINTIL para determinar el 40 por ciento de la población infantil
que se encuentra en situación de extrema pobreza.
V.1 Metodología
V.1.1 Primer caso: Utilizando los datos agrupados en una tabla de distribución de
frecuencias agrupadas en forma simple
85
Ejemplo: calcular el segundo quintil de la serie de datos referidos a la medición de la altura de
las 120 plantas de maíz utilizando la tabla de distribución de frecuencias agrupadas de forma
simple.
43 plantas son el 35.83% y les corresponde la altura de 0.98 metros; 63 plantas son el 52.50%
y les corresponde 1.00 metros de altura; ¿cuántas plantas corresponden al 40%, que es el Q2?
0.98 x 1.00
a. Encontrar la altura del Q2.
Estos datos se ingresan a la calculadora por pares y se procede a encontrar los valores de “A”
y “B”; la función de regresión es:
V.1.2 Segundo caso: Encontrar el valor de los quintiles utilizando la tabla de distribución de
frecuencias con intervalos de clase.
{ }
n
−N
5
Q1 =L1 + c
fQ1
Donde
87
Ejemplo: calcular el valor del segundo quintil utilizando la tabla de distribución de frecuencias
agrupadas por intervalos de clase de las 120 plantas de maíz en estudio.
Procedimiento:
{ }
n
{ }
−N 2(120)
5 −35
Q 1 =L1 + c 5
fQ1 Q2 =0 .9775+ 0 .02375
= 28
Respuesta: el valor del Q2 es 0.9885 metros; es decir, el 40% de las plantas tienen una altura
de 0.9885 metros o menos.
Son tres valores que distribuyen la serie de datos, ordenados de forma creciente o decreciente,
en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
88
Los cuartiles se usan con frecuencia para dividir las poblaciones o analizar los ingresos en una
empresa en grupos del 25%. Por ejemplo, puede utilizar la función CUARTIL para conocer el
75% por ciento de la población estudiantil de la Universidad Rafael Landivar que proviene del
municipio de Nueva Concepción, Escuintla.
VI.1 Metodología
VI.1.1 Primer caso. Utilizando la tabla de distribución de frecuencias simples
Ejemplo: calcular el tercer cuartil de la serie de datos que corresponden a la medición de la
altura de las 120 plantas de maíz en estudio utilizando la tabla de distribución de frecuencias
agrupadas de forma simple.
89
Cuando es necesario calcular el cuartil, puede utilizarse el método de interpolacion
lineal, resolviendo para x en una ecuación de primer grado de acuerdo a los procedimientos
hasta ahora vistos en clase.
VI.1.2 Segundo caso: Encontrar el valor de los cuartiles utilizando la tabla de distribución de
frecuencias agrupadas en intervalos de clase.
{ }
n
−N
4
C1 =L1 + c
fC 1
Donde
Ejemplo: calcular el valor del tercer cuartil utilizando la tabla de distribución de frecuencias
agrupadas por intervalos de clase de las 120 plantas de maíz en estudio.
Procedimiento:
90
f. Tamaño del intervalo (0.02375)
g. Planteamiento de la fórmula:
{ }
n
{ }
−N 3(120 )
4 −86
C1 =L1 + c 4
fC 1 C3 =1 . 0488+ 0 . 02375
= 7 = 1.0624 m
La cantidad de plantas correspondientes a este caso pueden calcularse utilizando la siguiente
fórmula:
Ejemplo:
Dada la siguiente distribución de número de hijos de cien familias, calcular sus cuartiles.
Número de hijos Frecuencia Frecuencia
acumulada
0 14 14
1 10 24
2 15 39 (Q1)
3 26 65 (Q2)
4 20 85 (Q3)
5 15 100
Total 100
Solución:
Sin embargo, observamos que el valor de la frecuencia acumulada donde se encuentra el dato
25 es mayor a 25, es 39, y le corresponde el valor de 2 hijos. Es decir, el 25% de las familias
en estudio tienen dos hijos o menos.
91
Tercer cuartil (Q3) = 3n/4 = 300/4 = 75
Al igual que los casos anteriores, observamos que el valor de la frecuencia acumulada donde
se encuentra el tercer cuartil que es 75, es mayor a 75, es 85, y le corresponde el valor de 4
hijos. Es decir, el 75% de las familias en estudio tienen cuatro hijos o menos.
UNIDA
MEDIDAS
D 6 DE 92
DISPERSION
I. Introducción
Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de
puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores
están próximas entre sí o si por el contrario están o muy dispersas.
El análisis o estudio de las medidas de dispersión tiene como objetivo conocer la distribución
de los valores y si estos se encuentran más o menos concentrados o dispersos alrededor del
valor central.
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar:
2. Desviación Media: es el valor absoluto de las desviaciones de los valores de cada clase
con respecto a su media.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados
estarán los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la
varianza, más dispersos se hallarán estos valores. Informa del valor de las variables al
cuadrado.
4. Desviación típica: es la raíz cuadrada de la varianza. Posee las mismas unidades que la
media. También se le conoce como desviación estándar.
III. El rango
También se le conoce con el nombre de Recorrido. Es la diferencia entre el límite superior del
último intervalo y el inferior del primero.
Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto. Es fácil de
calcular y sus unidades son las mismas que las de la variable, aunque posee varios
inconvenientes:
Características:
El cálculo es sencillo pero no toma en cuenta todas las observaciones. A menos rango, menor
dispersión y mayor representatividad de las medidas centrales.
Como fue dicho, es la diferencia entre el mayor valor de la muestra (en nuestro caso es 1.12
m) y el menor valor (0.93 m). Luego el rango de esta muestra de las plantas de maíz en estudio
es: 1.12– 0.93 = 0.19 m
Esta información es importante para el cálculo de otras medidas estadísticas. A veces el rango
se da por la simple anotación de los números mayor y menor.
También pueden encontrarse los rangos: a) Semiintercuartílico y b) rango entre percentiles 10-
90, que se discuten a continuación.
Nos indica la amplitud del intervalo donde se encuentra el 50% central de la población. De
una serie de datos.
94
En este caso, debemos reconocer que el 50% de los datos se encuentran entre el C 3 y el C1, es
decir, el 50% de las plantas (60 plantas), tienen alturas entre 0.9600 y 1.050 m.
Utiliza el primer y tercer cuartil, es más utilizado como medida de dispersión. También se
conoce como desviación cuartílica.
Si se dispone de la información de las 120 plantas de maíz en estudio, vemos que el valor del
primer cuartil (C1) es 0.9600 metros y el valor del tercer cuartil (C3) es 1.050 metros.
Se define por:
C 3 −C1
Rango semiintercuartílico: Q = 2
1.05−0.96
La desviación cuartílica es: Q= 2 = 0.045
Respuesta:
De una serie de datos viene definido por: Rango percentil 10-90 = P90 – P10
Donde P10 y P90 son los percentiles décimo y nonagésimo de los datos.
El rango semipercentil 10-90, ½ (P90 – P10) puede también emplearse aunque su empleo no es
corriente.
10 = -895.16 + 958.5x
95
X = 0.9443 m, valor del P10
90 = -550.185 + 583.5x
X = 1.0971 m, valor del P90
Entonces el rango entre percentiles 10-90 es = ½ (P90 – P10) = ½ (1.0971 – 0.9443) = 0.0764 m.
Respuesta:
Si la desviación media es muy pequeña, hay una gran concentración de valores entorno a la
media.
IV.2 Métodos
La desviación media o promedio de desviación, de una serie de n números X1, X2, … Xn viene
definido por:
∑ ( X −X )
Desviación media: (DM) = n
Donde es la media aritmética de los números y ׀X - ׀es el valor absoluto de las
desviaciones de las diferentes X de (el valor absoluto de un número es el
96
mismo número sin asociarle signo alguno y se indica por dos barras verticales a ambos lados
del número. Así 4 = ׀4-׀
Ejemplo para variables discretas y datos no agrupados, hallar la desviación media de los
números 2, 3, 6, 8, 11. Primeramente procedemos a encontrar el valor de la media aritmética,
= 2+3+6+8+11 = 6
5
Luego, operamos para la desviación media
= ׀5 ׀+ ׀2 ׀+ ׀0 ׀+ ׀3- ׀+׀4-׀ == 4+3+0+2+5 = 2.8
5 5
Sería apropiado utilizar el término desviación media absoluta que el de desviación media.
Como se observa, la desviación media guarda las mismas dimensiones que las observaciones.
La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene
un inconveniente: Desde el punto de vista geométrico, la distancia que induce la desviación
media en el espacio de observaciones no es la natural (no permite definir ángulos entre dos
conjuntos de observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de
hacer inferencia a la población.
Cuestionamientos:
V. La varianza
2
Si las desviaciones con respecto a la media las consideramos al cuadrado, ( xi −x ) , de nuevo
obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma
de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles
de utilizar. Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del
curso: La varianza y la desviación típica.
98
La Varianza promedia la distancia existente entre los valores de la serie y la media. Para
datos agrupados en forma simple, se calcula como sumatorio de las diferencias al cuadrado
entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada
valor. El sumatorio obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados
están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la
varianza, más dispersos están.
Características de la varianza
Medida que depende de todos los datos, cuyas unidades son las de la variable al cuadrado.
La varianza es positiva o nula (si todos los valores coinciden con la media). Si la dispersión es
grande, la varianza la expresa mejor que la desviación media.
También se dice que es el estadístico de dispersión que mide el grado de variabilidad y que
sintetiza el grado de homogeneidad o heterogeneidad de las diferencias individuales entre los
casos de una muestra (o de varias muestras) respecto de una o varias variables numéricas
continuas o cuantitativas
Podremos encontrar la varianza de los datos de la altura de las 120 plantas en estudio.
V.1 Metodología
Primeramente, es necesario recordar el valor de la media de los datos, este es, =1.0134 m
para datos no agrupados en intervalos de clase.
99
Seguidamente procederemos a sumar el valor de las diferencias de cada dato de su promedio,
elevándolo al cuadrado y dividiendo la sumatoria entre el número de observaciones.
σ2 = 0.0031 m2
La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se
miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la medida de
dispersión sea de la misma dimensionalidad que las observaciones, bastará con tomar su raíz
cuadrada.
Si una puntuación cambia, cambia con ella la varianza. La razón es que si miramos su
definición, la varianza es función de cada una de las puntuaciones.
V.1.2 Segundo caso, es calcular la varianza a través de los datos agrupados en una tabla de
distribución de frecuencias simples.
s
2
x
=
∑ 2
( xi −x m ) ∗f i
n
σ2 = 0.0031m2
V.1.2 Tercer caso, es calcular la varianza a través de los datos de una tabla de distribución de
frecuencias agrupadas en intervalos de clase. Es decir, cometemos cierto error en el cálculo de
la varianza cuando los datos han sido resumidos en una tabla estadística mediante intervalos,
en lugar de haber sido calculados directamente como datos no agrupados. Este error no será
importante si la elección del número de intervalos, amplitud y límites de los mismos ha sido
adecuada.
No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de
tendencia central.
100
acumulada
1 0.9300 0.9538 21 21 0.1750 0.1750 17.50 17.50 0.9419
2 0.9538 0.9775 14 35 0.1167 0.2917 11.67 29.17 0.9656
3 0.9775 1.0013 28 63 0.2333 0.5250 23.33 52.50 0.9894
4 1.0013 1.0250 11 74 0.0917 0.6167 9.17 61.67 1.0131
5 1.0250 1.0488 12 86 0.1000 0.7167 10.00 71.67 1.0369
6 1.0488 1.0725 7 93 0.0583 0.7750 5.83 77.50 1.0606
7 1.0725 1.0963 10 103 0.0833 0.8583 8.33 85.83 1.0844
8 1.0963 1.1200 17 120 0.1417 1.0000 14.17 100.00 1.1081
100.0
120 1.0000 0
La media encontrada es: 1.0141 metros; para hallar la varianza procedemos:
s
2
x
=
∑ 2
( xi −x m ) ∗ni
n
s
2
x
=
[ (0 .9419−1. 0141 )2∗21+. ..+(1. 1081−1 . 0141)2∗17 ]
120
s2 = 0.0032
VI.1 Concepto
101
Raíz cuadrada positiva de la varianza. También llamada desviación estándar. Es una medida
de la distancia de cada observación respecto a la media aritmética. A diferencia de la
desviación media, la desviación estándar no utiliza el valor absoluto sino que cada desviación
respecto a la media se eleva al cuadrado para eliminar el signo de las desviaciones negativas
convirtiendo dichos valore sen positivos.
Es la raíz cuadrada de la varianza, √s2 o, la raíz cuadrada del cuadrado medio de las
desviaciones.
En el siguiente cuadro encontrará las principales fórmulas para calcular la desviación estándar,
ya sea que se trate de muestras o de poblaciones:
s x=
√ ∑ ( x i−x m )2
n
σ x=
√ ∑ (x i −μ)2
N
Para datos agrupados de forma simple en Para datos agrupados de forma simple en
una tabla de distribución de frecuencias una tabla de distribución de frecuencias
s x=
√ ∑ f i∗( x i −x m )2
n
σ x=
√ ∑ f i∗( x i−μ )2
N
Para datos agrupados en una tabla de Para datos agrupados en una tabla de
distribución de frecuencias con intervalos de distribución de frecuencias con intervalos de
clase clase
s x=
√ ∑ f i∗( ci −x m )2
n
“c” es la marca de clase
σ x=
√ ∑ f i∗( c i−μ )2
N
“c” es la marca de clase
102
s=
√ ∑ ( X −a )2
n
Donde “a” es un promedio que puede ser distinto de la media aritmética. De todas las
desviaciones típicas, la mínima es aquella para la que a = . Esta propiedad suministra una
razón de peso para definir la desviación típica como se ha definido anteriormente.
El 95.45% de los casos están comprendidos entre - 2s y + 2s (es decir, el doble del valor
de la desviación típica a ambos lados de la media)
El 99.73% de los casos están comprendidos entre - 3s y + 3s (es decir, el triple del
valor de la desviación típica a ambos lados de la media).
n1 s 2 + n2 s
1 22
s2=
n1 + n2
Esta es una media aritmética ponderada de las varianzas. Este resultado puede generalizarse a
tres o más series de datos.
VIII.1 Concepto
103
Cociente entre la desviación típica y la media. Se expresa en términos porcentuales.
Una desventaja de la desviación estándar como medida de dispersión es que depende de las
unidades de medición. Por ejemplo, los pesos de semillas pueden una desviación estándar de
0.1 onzas o 2,835 miligramos, que es lo mismo, pero ninguno de los dos valores nos indica en
realidad si existe mucha o muy poca dispersión. Si los objetos que se pesan son dispositivos
electrónicos pequeños de un computador, uno u otro número reflejará mucha dispersión, pero
éste no seria el caso si los objetos que se están pesando son cajas de 100 libras. Lo que se
necesita en una situación ésta es una medida de dispersión relativa, como el coeficiente de
variación, el cual se define como:
CV = (s/)*100
Que expresa la desviación típica como un porcentaje de la media aritmética.
VIII.2 Características:
VIII.3 Metodología
Ejemplo, encontrar el coeficiente de variación de los datos estudiados con las 120 plantas de
maíz en estudio.
CV = (s/)*100
104
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de las
plantas y otra serie con el peso de dichas plantas, no se pueden utilizar las desviaciones típicas
(una viene dada en metros y la otra en libras). En cambio, sus coeficientes de variación son
ambos proporciones (tantos por uno), por lo que, sí se pueden comparar.
Hemos visto que las medidas de centralización y dispersión nos dan información sobre una
muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos
poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones
de dos variedades de maíz, la desviación típica nos dará información útil.
¿Pero qué ocurre si lo que comparamos es la altura de plantas con respecto a su peso de grano?
Tanto la media como la desviación típica, y s, se expresan en las mismas unidades que la
variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y
en la variable peso, la libra. Comparar una desviación (con respecto a la media) medida en
metros con otra en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El
mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos
poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en
quintales de una población de mil plantas de maíz con el correspondiente en onzas de una
población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo,
se nos puede ocurrir medir a las hormigas con las mismas unidades que las plantas de maíz
(toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es que
la dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya
algunas que sean 1.000 veces mayores que otras!)
Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las
siguientes consideraciones deben ser tenidas en cuenta:
- Sólo se debe calcular para variables con todos los valores positivos. Todo índice de
variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas,
pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables
positivas, para la que tenemos con seguridad que >0.
SY SaX aS x
CV Y = = = =CVx
y ax ax
Es importante destacar que los coeficientes de variación sirven para comparar las
variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores
tipificados.
IX. Uso intenso de los programas SPSS, EXCEL, CALCULADORA.
Los alumnos contarán con acceso a los programas SPSS y realizarán las prácticas correspondientes.
UNIDA
MEDIDAS DE
D7 106
FORMA
I. Introducción
Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones de
una variable y sabemos cómo calcular la dispersión que ofrecen los mismos con respecto al
valor central. Nos proponemos dar un paso más allá en el análisis de la variable. En primer
lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto
a un valor central, o si bien la gráfica que representa la distribución de frecuencias es de una
forma diferente del lado derecho que del lado izquierdo.
Se podría pensar que definir la simetría usando la mediana para variables continuas y usando
la media para variables discretas es una elección arbitraria. En realidad esto no es así, pues si
una variable es continua, coinciden ambos criterios de simetría (con respecto a la media y a la
mediana). Es más, se tiene que la media y la mediana coinciden para distribuciones continuas
simétricas.
Por otro lado, en el caso de variables discretas, la distribución es simétrica si el lado derecho
del diagrama se obtiene por imagen desde la media. En este caso coincide la media con la
mediana si el número de observaciones es impar.
II. Momentos
107
a. Con respecto a un punto cualquiera “A” (m´r)
b. Con respecto al origen (Or)
c. Con respecto a la media aritmética (mr)
Un momento de orden “r” con respecto a un punto “A” es la media de las desviaciones de los
valores de la variable con respecto a ese punto “A” elevadas a la potencia “r”.
Dependiendo del punto “A” que se tome como referencia para el cálculo de las desviaciones,
la nomenclatura para los momentos puede ser la siguiente:
m´o, m´1, m´2, …, m´r: momentos con respecto a un punto “A” cualquiera de orden 0, 1, 2,…, r
mo, m1, m2, …, mr: momentos con respecto a la media aritmética, de orden 0, 1, 2,…, r
0o, 01, 02, …, 0r: momentos con respecto al origen, de orden 0, 1, 2,…, r.
Y las expresiones correspondientes que sirven para calcularlos son las siguientes.
n n
Con respecto a la media
mr =
∑ ( x i−x )
r
mr =
∑ f i∗( x i −x )
r
aritmética n n
Con respecto al origen ∑ xi r ∑ f i∗x ir
Or = Or =
n n
Casos especiales
De acuerdo a las definiciones de la tabla anterior, pueden demostrarse, que algunos momentos
equivalen a valores ya estudiados anteriormente como la media, la varianza, etc.
m1=
∑ f i∗( x i−x )
1
2
n = s2 (varianza)
∑ f i∗xi 2
O2 =
n = (c)2 (cuadrado de la media cuadrática)
Veamos ahora por medio de un ejemplo cómo se calcula un momento para datos no agrupados
en intervalos (datos simples)
Se examinan con cuidado 10 tractores para ver si tienen imperfecciones superficiales, antes de
enviarlos a la distribuidora. El número de imperfecciones encontradas es
2, 0, 1, 4, 0, 3, 1, 1, 0, 2
Calcular los momentos primero, segundo y tercero con respecto a:
a) el origen
b) a la media aritmética y
c) al punto 3
solución:
∑ f i∗xi 1 2+0+1+ 4+ 0+3+1+1+0+2
O1= O1=
a) n = 10 = 1.4 (este valor es la media
aritmética)
3 3 3 3 3 3 3 3 3 3
2 + 0 + 1 +4 + 0 +3 +1 + 1 +0 +2
O2 =
10 = 11
109
(2−1. 4 )+(0−1 . 4 )+(1−1. 4 )+(4−1. 4 )+(0−1 . 4 )+(3−1. 4 )+(1−1 . 4 )+(1−1 . 4 )+(0−1 . 4 )+(2−1 . 4 )
m 1=
10
=0
2 2 2 2 2 2 2 2 2 2
(2−1. 4 ) +(0−1. 4 ) +( 1−1 . 4 ) +(4−1 . 4 ) +(0−1 . 4 ) +(3−1 . 4 ) +( 1−1. 4 ) +(1−1 . 4 ) +(0−1 . 4 ) +(2−1 . 4 )
m2=
10
3 3 3 3 3 3 3 3 3 3
(2−1. 4 ) +(0−1 . 4 ) +(1−1. 4 ) +( 4−1. 4 ) +(0−1. 4 ) +(3−1. 4 ) +(1−1 . 4 ) +(1−1 . 4 ) +(0−1 . 4 ) +(2−1 . 4 )
m3 =
10
m3 = 1.368
110
∑ f i∗c i1 121 .6943
O1= O1=
n = 120 = 1.01412 metros (es la media aritmética)
m=
∑ f i∗(c i−x )
1
21( 0. 9419−1. 01412)+. ..+17 (1. 1081−1 .01412 )
1 m 1=
n ; 120 = 0.0000 m
m=
∑ f i∗( c i− x )
2
m2=
2
21(0. 9419−1. 01412) +.. .+17(1 .1081−1 . 01412)
2
2
n ; 120 = 0.0032 (valor
equivalente a la varianza)
m´ =
∑ f i∗(c i−2 )
1
21( 0. 9419−2)+. ..+17(1 . 1081−2)
1 m1=
n ; 120 = -0.9859 m
m´ =
∑ f i∗(c i−x )
2
m2=
2
21(0. 9419−1. 01412) +.. .+17(1 .1081−1 . 01412)
2
2
n ; 120 = 0.9751 m
En el caso especial en que moda = mediana = promedio, se dice que es una distribución
simétrica.
negativa.
Media Aritmética
112
Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de
frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias
es simétrica si lo es de un modo aproximado. Por otro lado, aún observando cuidadosamente la
gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Conviene definir
entonces unos estadísticos que ayuden a interpretar la asimetría, a los que llamaremos índices
de asimetría, y que denotaremos mediante “As”. Vamos a definir a continuación algunos
de los índices de asimetría más usuales como son el índice basado en la distancia entre la
moda y la media o la media y la mediana.
III.3. Metodología
En distribuciones sesgadas, la media tiende a situarse con respecto a la moda al mismo lado
que la cola más larga. Así, una medida de la asimetría nos viene dada por la diferencia (Media
– Moda). Esta medida puede adimensionarse, dividiéndola por una medida de dispersión, tal
como la desviación típica, llegando a:
113
b) sesgo percentílico. Se calcula como:
La fórmula que expresa el sesgo en función del momento de tercer orden con respecto a la
media, es:
m3
a3 =
s3
Ejemplo.
Utilizando la información obtenida en los análisis estadísticos a las alturas de las 120 plantas
de maíz en estudio, con datos no agrupados en intervalos de clase, encontrar los coeficientes
de sesgo
SK1 =
media –moda =
Desviación típica
Media = 1.0134 m
Mediana = 0.9950 m
Moda = 0.9900 m
Desviación típica = 0.0559 m
114
SK2 = 3 (Media – Mediana) = 3(- mediana)
Desviación típica s
Moda
Mediana
Sesgo = 3(1.0134 – 0.9950) = 0.9874
Media Aritmética
0.0559
Respuesta:
El Coeficiente de asimetría de Pearson de esta muestra es positivo, lo que quiere decir que
presenta una distribución asimétrica positiva (se concentran más valores a la derecha de la
media que a su izquierda). Para comprobar ese caso, graficar un polígono de frecuencias.
TAREA opcional:
Encontrar los otros índices de simetría, los cuales se basan en los tres cuartiles y momentos de
tercer orden.
IV.1 Concepto:
115
IV.2.1 Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribución normal).
g2 = 0 (distribución mesocúrtica) .
1
∗( C3 −C 1 )
C 2
k= =
P90 −P 10 P 90 −P10
m4
a 4=
s4
Donde
a4 = coeficiente de apuntamiento o curtosis de Fisher
116
m4 = momento de cuarto orden con respecto al media aritmética
s= desviación estándar.
Ejemplo:
Calcular el Coeficiente de Curtosis Percentílico de la serie de datos referidos a la altura de 120
plantas de maíz en estudio.
Datos:
k= C
P90 – P10
C1 = 0.9600
C3 = 1.0500
P10 = 0.9443
P90 = 1.0971
k= 0.0450 . = 0.2945
1.0971 – 0.9443
UNIDA 117
D8
REGRESION
Y
I.
Introducción
Cuando
simultáneamente
puede existir o
se
CORRELACIO analizan
dos
no
variables,
alguna
relación entre
presente unidad N ellas.
se
En la
estudiará
cómo ajustar un modelo simple a
un conjunto de datos, mediante un análisis de regresión, el cual utiliza un modelo matemático
para obtener la estimación y la predicción de una variable dada en función de valores
conocidos de la(s) otras(s). También se estudiará el grado de correlación que existe entre dos
variables, el cual es fundamental para el análisis de regresión.
En la práctica se encuentra que existe una relación entre dos (o más) variables. Los pesos de
los bovinos dependen en cierto modo de sus alturas; las circunferencias de los círculos
dependen de sus radios, y la presión de una masa dada de gas depende de su temperatura y
volumen.
Se desea frecuentemente expresar esta relación mediante una ecuación matemática que ligue
las variables.
Para llegar a determinar una ecuación que relacione las variables, un primer paso que nos sirve
de ayuda es la colección de datos que muestren los correspondientes valores de las variables
consideradas.
El siguiente paso consiste en representar los puntos (X 1, Y1), (X2, Y2), ... , (Xn, Yn) en un
sistema de coordenadas rectangulares. El sistema de puntos resultante se llama diagrama de
dispersión.
118
x
El problema general de encontrar ecuaciones de curvas de aproximación que se ajusten al
conjunto de datos es el buscar la curva de ajuste.
De referencia se anotan varios tipos comunes de curvas de aproximación y sus ecuaciones.
Todas las letras distintas a X e Y representan constantes. Las variables X e Y se conocen a
menudo como la variable independiente y dependiente, respectivamente, aunque estos papeles
pueden intercambiarse.
Existen otras posibles ecuaciones (entre muchas) que en la práctica aparecen: hipérbola, curva
exponencial, curva geométrica, curva exponencial modificada, curva de Gompertz, curva
logística.
El juicio de cada uno puede servir de base para aproximar gráficamente una curva a un
conjunto de datos. Esto se llama método libre de ajuste de curvas. Si se conoce el tipo de
ecuación de esta curva, es posible obtener el valor de las constantes de la ecuación eligiendo
tantos puntos de la curva como constantes haya en la ecuación. Ejemplo, Si la curva es una
línea recta se necesitan dos puntos, si es una parábola son necesarios tres puntos. Tiene la
desventaja de que diferentes observadores obtendrán diferentes curvas y ecuaciones.
Dados dos puntos cualesquiera (X1, Y1), (X2, Y2) de la línea, las constantes ao + a1 pueden ser
determinadas. La ecuación de la línea resultante puede escribirse:
Y −Y 1 =
( Y 2−Y 1
X 2− X 1 )
( X− X 1 )
o
Y −Y 1 =m ( X −X 1 )
Donde
m=
( Y 2−Y 1
X 2− X 1 )
es la pendiente de la línea y representa el cambio de Y dividido por el
correspondiente cambio de X.
119
La constante a1 es la pendiente m. La constante a o que es el valor de Y cuando X = O, se llama
intersección de Y.
Ejemplo:
Dados los siguientes valores:
X 2 3 5 7 9 10
Y 1 3 7 11 15 17
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
Y = ao + a1X
1. Modo 3: regresión
2. 1: lineal
3. Ingresar pares de datos: 2,1; 3,3; 5,7; 7,11; 9,15; 10,17
4. ALPHA + C = 6, esto es, fueron ingresados seis pares de datos.
5. SHIFT + r = 1, correlación entre las dos variables, concretamente r xy= 1. Coeficiente de
determinación, r2: 1
6. SHIFT + A = -3, valor de “a” en la ecuación de regresión
7. SHIFT + B = 2, valor de “b” en la ecuación de regresión
8. y = a+bx; de donde la ecuación buscada es: y = -3 + 2x
(X2,Y2)
120
x
colecciones de datos es necesario obtener una definición de la “mejor recta de ajuste”, “mejor
parábola de ajuste”, etc.
Para el valor de X1, habrá una diferencia entre el valor Y1 y el correspondiente valor de la
curva C. Esta diferencia se denota por D1, que se conoce como desviación, error o residuo y
puede ser positivo, negativo o cero.
Una medida de la “bondad de ajuste” de la curva C a los datos dados viene suministrada por la
cantidad D12 + D22 + ... Dn2. Si esto es pequeño, el ajuste es bueno, si es grande, el ajuste es
malo y se conoce como la mejor curva de ajuste.
Una curva que presente esta propiedad se dice que se ajusta a los datos por mínimos
cuadrados y se llama curva de mínimos cuadrados. Así, una recta con esta propiedad se llama
recta de mínimos cuadrados; una parábola con esta propiedad se llama parábola de mínimos
cuadrados, etc.
La recta de aproximación por mínimos cuadrados del conjunto de puntos (X1, Y1), (X2,Y2)...
(Xn,Yn) tiene la ecuación:
Y = ao + a1X
Y = aoN+ a1X
XY = aoX+ a1X2 (ecuación 2)
Que son las llamadas ecuaciones normales para la recta de mínimos cuadrados.
Las constantes ao + a1 pueden sacarse de las ecuaciones anteriores obteniéndose las fórmulas
Para encontrar una recta de mínimos cuadrados puede a veces simplificarse transformando los
datos, de forma que x = X – e y = Y – Ῡ. Entonces la ecuación de la recta de mínimos
cuadrados puede escribirse
y = (xy)x o y = (xY)x
x2 x2
121
en particular, si X es tal que X = 0, es decir X = 0, se convierte en
Y = Ῡ + (XY) X
X2
De estas ecuaciones se deduce inmediatamente que la recta de mínimos cuadrados pasa por el
punto ( X, Y), que es el centro de gravedad de los datos.
X Y X2 XY Y2
1 1 1 1 1
3 2 9 6 4
16 16 16
4 4
36 24 16
6 4 64 40 25
8 5 81 63 49
9 7 121 88 64
11 8 196 126 81
14 9
X = 56 Y = 40 X2 = 524 XY = 364 Y2 = 256
Y = ao + a1X
1. Modo: regresión
2. 1: Lineal
3. Ingresar los pares de datos: 1,1; etc
4. ALPHA + C = 8, esto es, fueron ingresados ocho pares de datos.
5. SHIFT + r = 0.977, correlación entre las dos variables, concretamente r xy= 0.977.
Coeficiente de determinación, r2: 0.9545
6. SHIFT + A = 0.5454, valor de “a” en la ecuación de regresión
7. SHIFT + B = 0.6364, valor de “b” en la ecuación de regresión
8. y = a+bx; de donde, la función buscada es: y = 0.5454 + 0.6364x
V. Regresión
A veces, basándose en los datos muestrales, se desea estimar el valor de una variable Y
correspondiente a un valor dado de una variable X. Esto puede conseguirse estimando el valor
de Y de la curva de mínimos cuadrados que ajusta los datos muestrales. La curva resultante se
llama curva de regresión de Y sobre X, puesto que Y se estima a partir de X.
122
V.1 Aplicaciones a series de tiempo
Resolver el siguiente problema donde X son los años consecutivos e Y los rendimientos
historicos de trigo por hectárea en Quetzaltenango.
1. Modo: regresión
2. 1: Lineal
3. Ingresar pareas de datos: 0,66.6; etc
4. ALPHA + C = 11, esto es, fueron ingresados once pares de datos.
5. SHIFT + r = 0.8178, correlación entre las dos variables, concretamente r xy=0.8178.
Coeficiente de determinación, r2: 0.67
6. SHIFT + A = 75.30, valor de “a” en la ecuación de regresión
7. SHIFT + B = 3.95, valor de “b” en la ecuación de regresión
8. y = a+bx; de donde, la función de regresión es: y = 75.30 + 3.95x
Y = 75.30 + 3.95X
123
VI. Correlación
Grado de relación entre las variables; se estudia para determinar en qué medida una ecuación
lineal o de otro tipo describe o explica de una forma adecuada la relación entre variables.
Si no hay ninguna relación entre las variables, se dice que no hay correlación entre ellas, es
decir, no están correlacionadas. Veamos las siguientes gráficas.
Considerar la bondad con que una línea recta explica la relación entre dos variables. Para ello
son necesarias las ecuaciones de las rectas de regresión de mínimos cuadrados obtenidas antes.
Y = aoN+ a1X
XY = aoX+ a1X2
que dan
y = (xy)x
x2
donde x = X – e y=Y–Ῡ
y, una forma rápida de resolver los problemas es mediante una computadora o en último caso,
una calculadora científica.
Si Yest representa el valor de Y estimado de Y = a o + a1X para valores de X dados, una medida
de la dispersión alrededor de la recta de regresión de Y sobre X viene dada por la cantidad
SY.X = √ ∑ (Y −Y est )2
N
125
∑ Y 2−ao ∑ Y −a1 ∑ XY
S2Y.X = N
La variación total de Y se define como (Y-Ῡ)2, es decir, la suma de los cuadrados de las
desviaciones de los valores de Y de su media Ῡ. Esto puede escribirse
El primer termino del segundo miembro se llama variación no explicada, mientras que el
segundo término se llama variación explicada, y esto es así, porque las desviaciones Yest – Ῡ
tienen un patrón definido, mientras que las desviaciones Y - Yest se comportan de una forma
aleatoria o no previsible.
SY = √ ∑ (Y −Y )2
N
126
Se tiene que r = ± √ ∑ (Y est−−Y )2
∑ (Y −Y )2
puede escribirse, sin atender el signo, como
√
2
Y.X
s
1−
r=
2
s Y
ó √
sy.x = sy 1−r
2
Debe insistirse en que el valor de r calculado mide en cualquier caso el grado de relación,
relativa al tipo de ecuación que realmente se supone. Así, si supone una ecuación lineal y dan
un valor de r próximo a cero, significa que no hay casi correlación lineal entre las variables. El
coeficiente de correlación mide la bondad de ajuste de la ecuación supuesta a los datos. A
menos que se especifique de otro modo, el término coeficiente de correlación se utiliza como
coeficiente de correlación lineal.
Ha de señalarse también que un coeficiente de correlación alto (es decir, cerca de 1 ó –1) no
indica necesariamente una dependencia directa de las variables. Así puede haber una
correlación alta entre el número de libros publicados cada año y el número de partidos de
pelota jugados cada año. Tales ejemplos pueden conducir a correlaciones absurdas o falsas.
√ ∑ (Y est −Y )2
∑ x 2 se convierte en
∑ xy
r= √(∑ x2 )( ∑ y 2 )
donde x = X – e y=Y–Ῡ
N ∑ XY −( ∑ X )( ∑ Y )
r= √[ N ∑ X −(∑ X )][ N ∑ Y −( ∑ Y ) ]
2 2 2 2
Se muestran las respectivas alturas (en pulgadas) de X e Y de una muestra de 12 padres y sus
hijos primogénitos:
1. Modo: regresión
2. 1: Lineal
3. Ingresar datos: 65,68; … ;71,70.
4. ALPHA + C = 12, esto es, fueron ingresados seis pares de datos.
5. SHIFT + = 66.67, es la media de la variable x
6. SHIFT + σn = 2.66, es la desviación típica de la variable x, considerada como una
población (7.06 varianza)
7. SHIFT + σn-1 = 2.77, es la desviación típica de la variable x, considerada como una
muestra de la población ( 7.7 varianza)
8. SHIFT + Ῡ = 67.58, es la media de la variable Y
9. SHIFT + ỹσn = 1.8, es la desviación típica de la variable Y, considerada como una
población ( 3.24 varianza)
10. SHIFT + ỹσn-1 = 1.88, es la desviación típica de la variable Y, considerada como la
muestra de una población ( 3.54 varianza)
11. SHIFT + r = 0.70, correlación entre las dos variables, concretamente r xy= 0.70.
Coeficiente de determinación, r2: 0.49
12. ALPHA + A = 53418, suma de cuadrados de los datos de la variable x
13. ALPHA + B = 800, suma de datos de la variable x
14. ALPHA + D = 54849, suma de cuadrados de los datos de la variable y
15. ALPHA + E = 811, suma de datos de la variable y
128
16. ALPHA + F = 54107, suma del producto de la multiplicación del valor x por el
valor y
17. SHIFT + A = 35.82, valor de “a” en la ecuación de regresión
18. SHIFT + B = 0.476, valor de “b” en la ecuación de regresión
19. y = a+bx; de donde la ecuación de regresión es: y = 35.82 + 0.476x
c) y = (xy)x x = (xy)y
x2 y2
donde x = X – e y=Y–Ῡ
Sy.x = √ ∑ (Y −Y est )2
N √
1 .642
= 12 = 1.28 pulgadas
129
b) segundo caso
Sy.x = N √ ∑ (Y −Y est )2
√
1 .642
= 12 = 1.28 pulgadas
CALCULAR LA VARIACIÓN TOTAL, LA VARIACIÓN EXPLICADA Y LA
VARIACIÓN NO EXPLICADA
a) 2 √
var iacion exp licada
Coeficiente de determinación = r = var iaciontotal =
puesto que la variable Yest aumenta al aumentar X, la correlación es positiva y se escribirá por
tanto, r = 0.7022 ó 0.70 con dos cifras significativas.
SIMBOLOGÍA
Media de una población de elementos individuales
x Media de una población de medias
d Media de una población de diferencia de medias
Sumatoria. La suma de diversas unidades
Desviación estandar de una población de elementos individuales
2 Varianza de una población de elementos individuales
x , 2x Desviación estandar y varianza, respectivamente, de una población de medias
d , 2d Desviación estandar y varianza, respectivamente, de una población de
130
diferencia de medias
X2 Ji cuadrada
Bibliografía
2. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. 3ª ed. México
D.F.:Limusa; 1997.
6. http://campusvirtual.uma.es/est_fisio/apuntes/ficheros/estad_uma_02.pdf
9. http://thales.cica.es/rd/Recursos/rd98/Matematicas/01/matematicas-01.html
10. http://www.bioestadistica.uma.es/baron/
11. http://www.cortland.edu/flteach/stats/glos-sp.html#Propiedades#Propiedades
12. http://www.educarchile.cl/eduteca/estadistica/ejercicio.htm
13. http://www.psiquiatria.com/psicologia/revista/51/2815
15. http://www.sectormatematica.cl/enlaces.htm
131
16. Johnson, Robert; Kuby Patricia. Estadística Elemental, lo esencial. Tercera
edición. Editorial Thomson. Buenos Aires, Argentina. 2007.
17. Little, Thomas M.; Hills, F. Jackson. Métodos Estadisticos para la Investigacion
en la Agricultura. Editorial Trillas. México. 1987.
22. PÉREZ, C. Estadística Práctica con Statgraphics. Prentice Hall, Madrid: 2002
25. Spiegel MR. Teoría y problemas de Estadística. La Habana: Pueblo y Educación; 1977.
132
ALFABETO GRIEGO
133
134