Está en la página 1de 45

Apuntes Clase 1

A. Concepto de Estadística.

Es frecuente que la Estadística se identifique con una tabla o colección de datos. De


hecho, eso es una estadística. Pero qué duda cabe que la Estadística no debe
entenderse como una mera colección de datos, aunque los mismos se presenten de
forma ordenada y sistemática.

Esta forma de entender la Estadística tiene su origen en el significado etimológico del


término. La palabra Estadística deriva de la latina "status" y se remonta a los tiempos en
los que los estados-naciones recababan datos, especialmente sobre renta y población, a
efectos de recaudación impuestos y mantenimiento del ejército. Esos datos se
identificaban con el estado, razón por la cual terminaron conociéndose como estadísticas.
En este sentido, la Estadística es tan antigua casi como el propio ser humano. Pero esta
es una forma muy estrecha de entender y definir la Estadística.

En cambio, la Estadística entendida como ciencia tiene un origen más reciente y el gran
desarrollo de la misma ha tenido lugar, fundamentalmente, a lo largo del siglo XX. Como
ciencia, la Estadística está formada por el conjunto de métodos y técnicas que permiten la
obtención, organización, síntesis, descripción e interpretación de los datos para la toma
de decisiones en ambiente de incertidumbre. Ese objetivo que persigue la Estadística con
la organización y síntesis de los datos tiene su razón de ser en el hecho de que la misma
se preocupa del estudio de los que podemos denominar como fenómenos de masas. Es
decir, la Estadística no está interesada en el estudio de datos aislados, pues si la
información es escasa no tiene sentido plantearse problemas de organización ni de
síntesis. Así, si se estudian los gastos en publicidad de las empresas de una determinada
rama de actividad y se tiene información para solo dos empresas, entonces, con esos dos
datos no ha lugar plantearse si los mismos han de presentarse mediante una tabla o un
gráfico o si deben resumirse mediante un promedio. Esa escasez de información no
debiera ser nunca objeto de análisis estadístico, pues la descripción de la misma es
irrelevante y a partir de ella poco se puede decir en relación con los gastos en publicidad
de todas las empresas.

La metodología estadística adquiere entidad cuando de lo que se trata es de analizar un


elevado volumen de datos, pues por lo general, tras esa "masa de datos" se esconden
ciertas regularidades o leyes de comportamiento que nos permitirán, una vez descritas,
tomar decisiones en ambiente de incertidumbre, siempre que esta pueda cuantificarse en
términos de probabilidad, pues esas decisiones se basan en una leyes que, a diferencia
de las leyes de la física, no son exactas sino que están sujetas a errores.

1
En el párrafo anterior han aparecido, no por casualidad, tres términos que nos van a
permitir desdoblar a la Estadística en dos ramas principales. Esos términos son: describir,
probabilidad y toma de decisiones con incertidumbre. El primero de ellos da lugar a lo que
se conoce como Estadística Descriptiva. Esta rama es la más antigua de la Estadística y
su objeto es el análisis de los datos para descubrir o describir las posibles regularidades
que presenten. Paralelamente, aunque con posterioridad, se desarrolló la Teoría de la
Probabilidad. La unión ambas ha dado lugar a lo que se conoce como Estadística
Matemática o Inferencia Estadística. El instrumental propio de esta rama es el que nos
permite tomar decisiones en ambiente de incertidumbre. Se trata de decisiones basadas
en la información que suministran los datos y que permiten generalizar los resultados
obtenidos.

La observación estadística.

Ahora bien, una vez que se tiene claro que el objeto de la Estadística es la observación y
estudio de las poblaciones, la siguiente cuestión que puede plantearse es como ha de
realizarse esa observación. La misma puede ser exhaustiva o parcial. Las dos formas
tienen ventajas e inconvenientes. En el caso de la observación exhaustiva o total, y si se
asume que no hay errores de medida entonces, lo que se consigue es eliminar la
incertidumbre.

Frente a esa ventaja fundamental, la observación exhaustiva tiene un grave


inconveniente: el coste. Se trata tanto de un coste monetario como en tiempo.
Imaginemos la siguiente situación. Un partido político, antes de unas elecciones, quiere
saber cuál es la intención de voto del electorado. Para ello tiene dos opciones.
Preguntarle a todos los electores o solo a un subconjunto de los mismos. En el primer
caso estamos frente a una observación exhaustiva y está claro que, ante esta situación,
para el partido que lleva a delante la observación no habrá incertidumbre alguna en
relación con el resultado final de las elecciones, siempre y cuando no haya errores de
medida. En este caso esos errores vendrán dados por la falta de sinceridad en la
respuesta de los electores y por las no respuestas, además de otras posibles causas.
Pero, ¿por qué ese partido, o cualquier otro, normalmente no realizan ese tipo de
observación? En este caso la respuesta parece trivial. El tamaño de la población es
demasiado grande, lo que conlleva un coste tanto en tiempo como en dinero que hace
desaconsejable esa opción.

Un ejemplo de una operación estadística de carácter exhaustivo, dentro de la estadística


oficial, son los censos de población, especialmente los realizados desde 1991, pues los
anteriores eran una mezcla de observación exhaustiva y parcial.

La alternativa al enfoque anterior es la observación parcial. Esta implica que no se


observa a toda la población. Dentro de esta forma de proceder se pueden distinguir dos

2
categorías distintas. Por un lado está la subpoblación y por otro la muestra. Con la
primera lo que se hace es observar a un conjunto de entes o elementos de la población
que guardan entre si una cierta característica y que los diferencia de los demás. Así,
siguiendo con el ejemplo anterior, los electores que no han votado antes porque en las
elecciones anteriores no tenían la edad mínima exigida constituyen una subpoblación. Al
proceder de esta forma se consigue realizar una operación estadística en menos tiempo y
a menor coste pero, en cambio, la incertidumbre acerca de la intención de voto del
electorado es enorme, pues esa subpoblación no representa en absoluto a toda la
población. Su intención de voto no tiene por qué coincidir con la de los demás electores.

No obstante, esta forma de observar la población puede resultar de gran interés en


determinados casos. Pensemos que nuestro interés se centra es cuantificar la ocupación
hotelera en una zona turística. En esta situación, en lugar de preguntar a todos los
establecimientos que se dedican a esta actividad económica, podría resultar suficiente
con preguntarle solo a los hoteles a partir de una cierta categoría, por ejemplo a los de
tres y más estrellas pues, en este caso, esos elementos de la población son
determinantes de la población total y los demás tienen poca incidencia en el volumen de
ocupación.

La segunda opción de la observación parcial consiste en tomar una muestra. En este caso
se observará también un subconjunto de elementos de la población. Pero ahora, a
diferencia de lo que ocurría con la subpoblación, los elementos de la muestra no guardan
ninguna característica especial que los diferencie de los demás. Al contrario, con una
muestra lo que se pretende es representar a toda la población. Podríamos decir que la
muestra es una población de tamaño reducido.

Las ventajas de observar la población de forma parcial y, en especial, para el caso de


seleccionar muestras son, en algunos casos, evidentes. En primer lugar reduce el tiempo
de observación. Si el tiempo que se dedica a observar los elementos de la población es
excesivo podría ocurrir que los resultados llegaran más tarde de lo que es admisible.
Siguiendo con el ejemplo de las elecciones, si el periodo de observación es superior al
tiempo que dista hasta que tengan lugar las elecciones, entonces cuando se disponga de
resultados sobre intención de voto ya no son necesarios.

En general, si lo que se pretende al observar la población es analizar una característica


que no cambia mucho con el transcurso del tiempo, entonces no importará demasiado
que el periodo de observación sea razonablemente largo. Por el contrario, si esa
característica está sometida a fuertes variaciones en periodos de tiempo cortos o si el
plazo de presentación de resultados es breve, qué duda cabe que en tales circunstancias
la observación parcial, mediante una muestra, es el procedimiento más indicado.

3
En segundo lugar está el tema de los costes monetarios, que en la observación parcial
son más reducidos que en el caso de la exhaustiva.

Finalmente, la observación parcial presenta también la ventaja de que reduce las pruebas
destructivas. Imaginemos que nos encontramos frente a un estudio de control de la
calidad de la producción de una empresa que se dedica a la fabricación de vigas de
hormigón para obras civiles. Esas vigas habrán de someterse a presiones altas para
conocer su resistencia a la ruptura. Pero si somete toda la producción a este tipo de
pruebas destructivas entonces no hay producción. Bastaría en este caso con seleccionar
una muestra y, aplicarle ese tipo de pruebas a los elementos de la misma, para tener una
idea razonable de cuál es la resistencia a la ruptura de las vigas producidas por la
empresa.

Pero no todo son ventajas en la observación parcial. El principal inconveniente se deriva


precisamente de que la observación no es exhaustiva. En estos casos las características
de la población serán desconocidas, pues aunque la muestra pretenda representar lo más
fielmente posible a la población, nunca dejará de ser eso, una muestra. Con los datos de
la muestra solo podremos conocer las características de esos valores muestrales.
Concluir que son iguales a las de la población sería poco menos que una osadía. Entre
las características observadas en la muestra y las de la población habrá siempre una
diferencia que se conoce como error muestral. Es precisamente este error muestral el que
lleva a que las decisiones, en relación con las características poblacionales, se tomen en
situaciones de incertidumbre.

Veamos esto de una forma gráfica y


sencilla. En la Figura 1 se han
representado una población con todos
sus elementos y una muestra de los
mismos. Como puede apreciarse, la
población toma valores que van del 0 al
9, mientras que en la muestra el valor 9
no está incluido. Así pues, según la
muestra, los valores de la población van
del 0 al 8, pero eso no es cierto, solo es
aproximado. Se está cometiendo un
error.

Referencia:

Sánchez Fernández, J. (2004) Introducción a la Estadística Empresarial. Edición electrónica en


http://www.eumed.net/cursecon/libreria/index.htm (Extracto del capítulo 1)

4
B. El Papel del Análisis de Datos en la Investigación Educativa

Introducción

Analizar información procedente de diversas vías es una actividad común en el ser


humano; habitualmente se examinan aspectos de la realidad, se indaga en un problema
vital o se dan diferentes interpretaciones a las cosas que ocurren. Desde este punto de
vista se lleva a cabo un proceso de asimilación de la información externa y acomodación
en el intelecto, que muchas veces es realizado de manera automática.

Cuando se refiere al Análisis de Datos se habla de un proceso de indagación científica


sobre un problema de investigación concreto con relevancia social y educativa. La
información que se recoge puede ser tanto numérica como textual, y ante ella se dispone
la realización de diferentes actividades o tareas de análisis acordes con el tipo de dato
recogido, el problema de investigación formulado, y las características propias del diseño
de investigación al que se enfrenta. De esta manera, el Análisis de Datos no constituye un
fin en sí mismo sino que es un proceso subordinado a otro más amplio como es la
investigación educativa.

El concepto de análisis estadístico de datos

El Análisis Estadístico de Datos se ha asociado de manera general con la investigación de


corte experimental, o se puede decir que es característico de los enfoques positivistas.

El concepto de Análisis Estadístico de Datos no se agota en las acepciones que se


identifican con un conjunto de datos o enumeración de hechos, o con procedimientos de
tipo descriptivo destinados a recoger, organizar y presentar la información relativa a un
conjunto de casos. De esta manera, el Análisis Estadístico de Datos ha dejado de ser
únicamente la ciencia de recopilar datos y, tras fusionarse con la corriente de estudios
sobre el cálculo de probabilidades, se ha constituido en una rama de la matemática
aplicada, entendiendo ésta como el uso de principios y modelos matemáticos en diversos
ámbitos de la ciencia o la técnica.

5
Dentro del Análisis Estadístico de Datos se observan dos corrientes:

• Análisis Estadístico de Datos (propiamente matemático), que supone el estudio de los


fenómenos estadísticos utilizando los métodos matemáticos y proporciona
conocimiento acerca de las técnicas que integran los métodos estadísticos.
• Análisis Estadístico de Datos Aplicado; este carácter aplicado ha estado presente
desde los inicios de esta ciencia, sobre todo en cuanto a su conexión con el estudio y
resolución de problemas prácticos con datos reales. Todo ello ha estimulado la
innovación de nuevos métodos y procedimientos, y el avance de análisis estadísticos.

Las características propias que definen el concepto de Análisis Estadístico de Datos son:

• Carácter teórico y aplicado.


• Estudio de conjunto de datos.
• Trabajo con datos procedentes de observaciones o mediciones.
• Carácter cuantitativo de los datos.
• Reducción de la información.
• Generalización a colectivos más amplios.

Por tanto el Análisis Estadístico de Datos no se limita sólo a su tratamiento sino que se
extiende a tareas previas y posteriores a esta fase. También puede ocuparse de la
recogida de datos (referido a las técnicas y métodos de muestreo y a la evaluación de la
calidad de los instrumentos que se diseñan para la recogida de datos) y la interpretación
de los resultados (afirmaciones que se realizan como consecuencia de la aplicación de
métodos estadísticos: descripción, reducción, generalización).

Los rasgos más relevantes que llevan a definir el Análisis Estadístico de Datos:

• Es una ciencia cuyo objeto es el estudio de métodos y técnicas para el tratamiento de


conjuntos de datos numéricos.
• Las técnicas estadísticas permiten la descripción de conjuntos de datos y la inferencia
sobre conjuntos más amplios.
• Los métodos desarrollados por esta ciencia pueden ser aplicados a distintos campos
del saber, constituyendo un importante instrumento para el estudio científico.

Se define de este modo el Análisis Estadístico de Datos como un conjunto de métodos,


técnicas y procedimientos para el manejo de datos, su ordenación, presentación,
descripción, análisis e interpretación, que contribuyen al estudio científico de los
problemas planteados en el ámbito de la educación y a la adquisición de conocimiento

6
sobre las realidades educativas, a la toma de decisiones y a la mejora de la práctica
desarrollada por los profesionales de la educación.

El análisis estadístico de datos en las distintas fases del proceso de investigación

El Análisis Estadístico de Datos desempeña un papel relevante dentro de campo de la


investigación educativa. No obstante, dichas técnicas de análisis cobran especial
importancia dentro del enfoque positivista. Desde esta perspectiva, existen razones que
justifican la utilización del Análisis Estadístico de Datos en la investigación Educativa.

 Permite el tipo de descripción más exacta. Si el objetivo de la ciencia es la descripción


de fenómenos, el Análisis Estadístico de Datos forma parte del lenguaje descriptivo
que necesita el científico.
 Nos fuerza a ser definidos y exactos en loss procedimientos y en el pensamiento,
evitando las conclusiones vagas.
 Permite reducir los datos en una forma significativa y conveniente, poniendo orden en
el caos.
 Facilita la extracción de conclusiones generales, siguiendo reglas aceptadas para
llegar a ellas.
 Permite hacer predicciones sobre lo que ocurrirá bajo condiciones que se conocen y
se han medido. Tales predicciones pueden contener error, pero el Análisis Estadístico
de Datos informa también del margen de error que se comete.
 Permite analizar algunos de los factores causales que explican fenómenos complejos.

También el Análisis Estadístico de Datos es una herramienta de trabajo útil en la


investigación educativa ya que ofrece técnicas y procedimientos que pueden aplicarse en
la fase de Análisis de Datos. No obstante, no queda limitado a dicha fase ya que
contribuye a otras o a diferentes momentos del proceso de investigación.

1. Planteamiento del problema y formulación de hipótesis

El Análisis Estadístico de Datos está presente en la formulación del problema de


investigación. El proceso de investigación es un todo interrelacionado en el que las
decisiones que se tomen con respecto a algunos de sus elementos condicionan a los
demás elementos del proceso. La formulación del problema determinará el tipo de datos
que es necesario recoger, las técnicas de recogida adecuadas para ello y los
procedimientos estadísticos que se utilizarán en el análisis. En la definición del problema
aparecerá una limitación de la amplitud del estudio, de tal forma que si éste se dirige a
toda una población, se tendrá que pensar en procedimientos de la estadística Descriptiva,

7
mientras que si se limita al estudio de una muestra, se habrá de recurrir a la estadística
inferencial.

Se define problema como una laguna en el conocimiento (un interrogante) para la cual no
se tiene solución aceptable. El problema ha de ser relevante y verificable empíricamente y
se debe formular de manera clara y breve. En este sentido, es muy importante la
resolubilidad del problema de investigación, aspecto que en ocasiones sólo queda
garantizado si se cuenta con técnicas estadísticas adecuadas y potentes, capaces de
abordar los interrogantes de partida. Por ejemplo, el planteamiento de problemas que
supongan comparaciones entre múltiples grupos no podría hacerse sin contar con
técnicas como el análisis de la varianza; un gran número de problemas de investigación
en los que se incluyen múltiples dimensiones o variables simultáneamente no han llegado
a ser estudiados hasta que no se ha contado con técnicas de análisis multivariante que
permiten abordar su estudio.

De igual manera, el Análisis Estadístico de Datos está presente en la formulación de


hipótesis, ya que ésta no puede hacerse sin tener en cuenta las técnicas estadísticas que
permiten su contrastación. El investigador se ve en la necesidad de salvaguardar la
coherencia entre la teoría, la hipótesis y el posterior análisis estadístico que le permitirá
aceptarla o rechazarla. Una hipótesis es una solución por adelantado que se da al
problema de investigación que formulamos; es una conjetura, una solución posible. En el
marco de los programas de investigación positivistas, la hipótesis científica habrá de ser
expresada en términos estadísticos para su contrastación.

2. Diseño de investigación

El Análisis Estadístico de Datos forma parte de los diseños de investigación


experimentales. En el concepto de diseño se contempla por un lado la organización de los
aspectos que constituyen el experimento (en los que el Análisis Estadístico de Datos está
presente en la medida que facilitan el análisis de datos y posibilitan el control de la
varianza debida a variables extrañas), y por otro, el procedimiento estadístico que hace
posible la interpretación de los resultados.

El Análisis Estadístico de Datos también está presente cuando el diseño contempla la


selección de sujetos. La teoría de muestras proporcionará tanto los procedimientos de
selección como la determinación del tamaño muestral necesario para mantener el error
dentro de los límites aceptables.

8
Por otro lado, la recogida de datos es una tarea para la que aparentemente las técnicas
estadísticas parecen no jugar un papel relevante. Sin embargo, el Análisis Estadístico de
Datos tiene un lugar especial en la construcción y validación de instrumentos que se
utilizan para la recogida de datos. Por ejemplo, la determinación de la fiabilidad y validez
de algunos instrumentos se apoya directamente en coeficientes de correlación, o la
aplicación de técnicas de análisis de componentes principales o análisis factorial permite
explorar la dimensionalidad de los instrumentos.

Además, el Análisis Estadístico de Datos puede participar indirectamente en la operación


de recogida proporcionando primeras elaboraciones de los datos en el momento mismo
de su registro.

3. Análisis de Datos

Tras la recogida de datos se procede al análisis de los mismos; es decir, se pretende


transformar, organizar, resumir y sacar indicadores básicos de la información recogida, y
en función de dichos indicadores extraer conclusiones, y también generalizar los
resultados a las poblaciones de donde las muestras fueron extraídas. Todas estas tareas
corresponden al Análisis Estadístico de Datos.

El procedimiento de Análisis suele comenzar con una depuración de los datos para tratar
de eliminar o corregir los posibles errores que se hayan cometido en la fase de registro o
codificación de la información recogida. Una segunda fase es la descripción de las
variables que entrarán a formar parte del estudio, teniendo en cuenta el enfoque del que
partimos (univariante, multivariante o aplicación de técnicas inferenciales).

No obstante, existen vías diferentes al Análisis Estadístico de Datos dentro de la


investigación educativa. En este sentido, entre los procedimientos de Análisis de datos,
entendidos como técnicas para extraer información de los datos e interpretar su
significado, cabría hacer una distinción entre:

• Análisis Cualitativo, que expresa, ordena, describe, interpreta los datos mediante
conceptos, razonamientos y palabras, y
• Análisis Cuantitativo, en el que se recurre a conceptos y razonamientos que se
apoyan en números y estructuras matemáticas.

4. Obtención de conclusiones y redacción del informe de investigación

9
Aplicar técnicas de Análisis Estadístico nos lleva de manera directa a la obtención de
conclusiones, las cuales estarán, de alguna forma predeterminadas por el tipo de técnicas
que usemos.

Estas conclusiones, al igual que todo el proceso de investigación, deben contar con la
inclusión de resultados estadísticos. De esta manera, el Análisis Estadístico de Datos está
presente en la fase de redacción del informe de investigación. Para ilustrar tales
conclusiones se utilizarán cuadros, tablas y gráficos, que recogerán medias, porcentajes,
coordenadas, correlaciones, o cualquier otro tipo de estadísticos necesarios para ilustrar
de manera adecuada la investigación realizada.

Contenidos del análisis estadístico de datos

Los principales campos en que se estructura el Análisis Estadístico de Datos, y sobre todo
el que habitualmente se aplica en el campo de las Ciencias de la Educación, se pueden
distinguir entre:

 Estadística descriptiva, procedimientos dirigidos a la organización y descripción de un


conjunto de datos.
 Estadística inferencial, que se orientan a realizar inferencias sobre una población a
partir de las características conocidas para una muestra extraída de ella.

Es frecuente que se otorgue especial importancia a la Estadística inferencial,


considerándola el verdadero objetivo de la Estadística; la descriptiva tendría únicamente
la finalidad de proporcionar los índices a partir de los cuales se estimarán los parámetros.

Si se adopta únicamente la complejidad como criterio, basándose en el número de


variables implicadas, se podría hablar de:

 Estadística univariada.
 Bivariada.
 Multivariada.

La informática en el análisis estadístico de datos

 Auge y desarrollo o expansión de la Informática desde hace algunos años en el campo


de la investigación educativa, y más concretamente en el ámbito del Análisis de Datos.
 Aplicaciones de la informática muy importantes si se tiene en cuenta la cantidad de
datos que se manejan normalmente y también los diferentes tipos de análisis que se
realizan. En este sentido, los programas informáticos facilitan mucho la tarea pero es

10
importante que se resalte la correcta utilización de los mismos y la coherencia y lógica
del investigador en tales procesos. Es fundamental que la informática siempre
responda al problema de investigador y objetivos planteados, y no sustituya al
analista.
 De todas las funciones que el computador puede cubrir en la investigación educativa,
es quizá la del Análisis de Datos la que con mayor claridad puede haberse beneficiado
de este tipo de herramientas. El computador ha venido a revolucionar este campo,
permitiendo la aplicación de complejos procedimientos de análisis y, de alguna
manera, simplificándolos.
 Si el impacto de la informática en el campo de la investigación educativa ha sido
considerable, en el caso del Análisis de Datos esta afirmación cobra pleno sentido. El
Análisis de Datos "ha recibido un impulso revolucionario con la generalización del uso
de los computadores", hasta tal punto que hoy es difícil concebir este proceso
desligado de la utilización de tales máquinas. Algunas de las ventajas y posibilidades
que lleva consigo el uso de la informática en el Análisis Estadístico de Datos son:

o El computador ha permitido un considerable ahorro de tiempo y esfuerzo. Los


cálculos manuales que costaban al investigador largas horas de trabajo, incluso
utilizando la calculadora, la máquina los realiza en pocos segundos.
o El computador posibilita una mayor exactitud en los cálculos. Es evidente que el
cálculo manual, además de ser lento conlleva aproximaciones o redondeos, sobre
todo cuando se trabaja con números decimales y se requieren cálculos
encadenados, que pueden llegar a suponer un considerable error en los resultados
finales obtenidos. Por otra parte, en el dominio de la inferencia estadística, el
computador ofrece posibilidades con mayor exactitud que las obtenidas mediante
tablas de distribuciones teóricas de probabilidad habitualmente usadas.
o El computador ha abierto la posibilidad de manejar grandes cantidades de datos,
de trabajar con muestras mayores y de incluir más variables, haciendo que el
análisis de grandes bancos de datos o la aplicación de complejas técnicas
multivariantes a grandes muestras no presenten tareas inabordables en la
práctica.

 Considerando dichas ventajas, la Informática en el Análisis Estadístico de Datos:

o Libera de tiempo en la realización de cálculos y el investigador puede centrarse en


otros momentos o tareas conceptuales más relevantes del proceso de
investigación como la toma de decisiones respecto al proceso estadístico a seguir
o a la técnica concreta que se deberá emplear, mayor atención al análisis crítico
del proceso y a la interpretación de resultados.
o También ofrecen la posibilidad de realizar cálculos para la comparación de
resultados utilizando métodos diferentes, aspecto que no se realizaba por

11
considerar un esfuerzo adicional para el investigador, además de la dificultad que
entrañaba un análisis.
o Otra de las posibilidades que abrió la informática fue el tratamiento conjunto de
múltiples variables y, por ende, el desarrollo de análisis multivariante, en los que se
observaba una creciente complejidad estadística.
o La triangulación multimétodos y el manejo de grandes muestras y elevado número
de variables contribuye al aumento de la fiabilidad y validez de los estudios y, por
ende, su poder de generalizar los resultados.

 No obstante, el desarrollo de la Informática no sólo ha supuesto beneficios para el


Análisis Estadístico de Datos sino también a la mejora y desarrollo de técnicas
estadísticas más complejas e innovadoras.
 Teniendo en cuenta las ventajas que representa el uso del computador y el papel que
juega en el Análisis Estadístico de Datos, hoy día resulta inconcebible la realización de
este tipo de análisis en la investigación educativa que no se apoyen en la informática.
 Actualmente, gracias al avance y desarrollo del mundo de la informática se cuenta con
un gran número de programas para el Análisis de Datos. Los diferentes tipos de datos
(cuantitativos o cualitativos) exigen diferente software informático, ya que requieren
diferente tratamiento.

C. Organización Y Presentación De Los Datos

Conceptos previos sobre medición y escalas de medida

1. Concepto de medida

Asignación de números a los objetos con la intención de representar alguna de sus


características. Toda medición implica establecer una regla para hacer corresponder los
números con las distintas formas en que se presenta una característica de los objetos o
individuos. En el caso de la investigación educativa, se suelen asignar números a
conductas, opiniones, actitudes, intereses, etc. manifestadas por individuos o grupos.

2. Niveles de medida

Según el modo en que se utilizan los números en la medición, se puede hablar de


distintos niveles de medida:

a) Nivel nominal.

12
El nivel nominal de medición consiste en asignar números que hacen la función de meros
nombres o etiquetas.

Si se emplea un nivel de medida nominal lo único que se puede inferir es que los objetos
difieren entre sí respecto del atributo medido, aunque ello no implica ninguna otra
propiedad.

b) Nivel ordinal.

El nivel ordinal de medida supone que se puede establecer una ordenación, creciente o
decreciente, con los objetos o hechos que se miden.

Con un nivel de medida ordinal se puede establecer sin dificultad que algo es diferente de
algo, y que es mayor o menor, pero no cuánto mayor o menor.

c) Nivel de intervalo

En este nivel de medida, distancias numéricamente iguales representan distancias iguales


con respecto a la propiedad que se está midiendo.

Una medición a nivel de intervalo posee las características de los dos niveles anteriores,
por lo que se puede establecer diferencias entre objetos, determinar una ordenación entre
ellos y además, conocer en qué cuantía unos objetos son mayores o menores que otros.

d) Nivel de cuociente, razón o proporciones.

Este nivel de medición añade a la medida en escala de intervalo la existencia de un cero


absoluto.

Además de las propiedades de los niveles anteriores, en las medidas en escala de razón
puede afirmarse que el valor cero indica ausencia total del rasgo medido.

3. Constante, variable, modalidades y clases

Una constante es una característica que se manifiesta de manera similar en todos los
objetos o individuos sobre los que se realiza la medición. Es decir, presenta un único valor
posible.

13
Una variable es una característica que puede manifestarse de manera diferente en un
grupo de objetos o individuos sobre los que se realiza la medición. Cada uno de los
valores asumidos es una modalidad.

Cuando el número de modalidades bajo el que se mide una variable es muy grande, las
modalidades pueden ser agrupadas en clases. De esta manera, se pasa de un número
amplio de modalidades a un número mucho más reducido de clases. Al definir clases,
deben respetarse al menos dos criterios:

1. Las clases deben ser mutuamente exclusivas. Es decir, una modalidad no puede
formar parte de dos clases; quedará incluida en sólo una clase.
2. Las clases deben ser exhaustivas. La definición de clases debe cubrir todas las
modalidades, de forma que ninguna modalidad quede sin pertenecer a alguna clase.

Ordenación y clasificación de los datos: distribuciones de frecuencias

1. Frecuencias y distribución de frecuencias

Las técnicas más habituales para ordenar, clasificar y presentar datos son las
distribuciones de frecuencias.

Frecuencia hace alusión al número de veces que se da un fenómeno. En estadística, la


frecuencia va referida al número de veces en que aparece un determinado valor para una
variable.

o Frecuencia absoluta individual de un valor. Es el número de veces que aparece


repetido dicho valor en un conjunto de n puntuaciones. La suma de las frecuencias fi
para todos los valores coincide con el valor de n.

o Frecuencia relativa individual de un valor. Es el cociente entre la frecuencia absoluta


individual y el tamaño de la muestra. Lo más frecuente es utilizar este tipo de
frecuencia en términos porcentuales.

o Frecuencia absoluta acumulada de un valor. Es la suma de las frecuencias


absolutas que corresponden a todos los valores iguales o menores que él. La
frecuencia para el valor más alto de la variable coincide con n.

o Frecuencia relativa acumulada de un valor. Es la suma de las frecuencias relativas


de los valores iguales o menores que él; expresada en términos de porcentaje.

14
2. Distribución de frecuencias agrupadas

Una distribución de frecuencias agrupadas se origina cuando en lugar de modalidades se


consideran clases. Suele recurrirse a ellas cuando se pretende simplificar la presentación
de variables que poseen muchas modalidades posibles.

Un caso particular de agrupamientos se da en los valores correspondientes a variables


continuas, medidas al menos en escala de intervalos. En esta situación, la clase de
valores que adoptamos se denomina intervalo y comprende las modalidades de una
variable contenidas entre los dos valores que delimitan el intervalo.

Conceptos relativos al agrupamiento en intervalos:

 Límites aparentes de un intervalo. Son los valores que delimitan el segmento de


valores que constituyen un intervalo. Para cada intervalo existe un límite inferior y un
límite superior.
 Límites reales de un intervalo. El límite real inferior de un intervalo es el valor que
resulta de disminuir el valor del límite aparente inferior en media unidad de medida. El
límite real superior de un intervalo resulta de incrementar el límite superior aparente en
media unidad de medida.
 Amplitud de un intervalo. Es la distancia existente entre el límite real inferior y el límite
real superior de un intervalo. También se podría definir como la diferencia entre los
límites aparentes del intervalo incrementado en la unidad de medida.
 Punto medio de un intervalo. Es el valor que se obtiene como promedio de los dos
límites del intervalo (también se denomina “marca de clase”).

Representación gráfica de datos

1. Diagrama de Barras

Consiste en indicar por medio de una barra o rectángulo las frecuencias correspondientes
a cada modalidad o clase de modalidades. Las alturas de las barras son proporcionales a
las frecuencias alcanzadas, con independencia de que se trate de frecuencias absolutas o
relativas.

2. Histograma

Cuando la variable a representar está medida en una escala de intervalos, en lugar del
diagrama de barras se recurre al histograma. Este es similar al diagrama de barras, pero

15
la base de cada rectángulo coincide con los límites reales del intervalo y el orden de
presentación de las modalidades en el eje de abscisas no es arbitrario. El histograma
puede construirse para frecuencias absolutas o relativas, tanto si son individuales como
acumuladas; también puede ser construido para representar frecuencias (también
porcentajes) o frecuencias acumuladas.

3. Polígono de Frecuencias

Consiste en una línea poligonal que une el punto medio de cada intervalo, tomado a una
altura que resulta proporcional a la frecuencia alcanzada en el intervalo. La línea obtenida
de este modo cierra el polígono al ser unida a los puntos medios del intervalo anterior y
posterior sobre el eje de abscisas Puede construirse a partir del histograma.

4. Polígono de Frecuencias Acumuladas

Es una línea poligonal mediante la cual se representan las frecuencias que acumulan los
intervalos. Se construye cómodamente sobre el polígono de frecuencias acumuladas,
uniendo el vértice inferior izquierdo de cada intervalo con su vértice superior derecho.

5. Circular (Torta - Anillos)

Es un diagrama en forma de círculo, el cual se encuentra dividido en tantos sectores


circulares como modalidades presenta la variable. La amplitud de cada sector circular es
proporcional a la frecuencia de la modalidad correspondiente.

Problemas

• Problema 1

Se han recogido los siguientes datos, correspondientes a las puntuaciones obtenidas por
25 alumnos en un test de inteligencia. Organizarlos en una distribución de frecuencias sin
agrupar en intervalos.

16
105, 99, 109, 100, 94, 100, 97, 120, 99, 107, 96, 107, 100, 109, 105, 97, 100, 105, 96, 99,
100, 97, 105, 107, 99.

• Solución

Para realizar la distribución de frecuencias se debe, en primer lugar, ordenar los datos (de
mayor a menor o de menor a mayor), representarlos en una tabla y realizar el recuento
correspondiente a cada uno de los valores (las "marcas" facilitan dicha labor), tal y como
se expresa en la tabla siguiente:

Puntuaciones Marcas Frecuencias


120 / 1
109 // 2
107 /// 3
105 //// 4
100 ///// 5
99 //// 4
97 /// 3
96 // 2
94 / 1

• Problema 2

Construir la distribución de frecuencias absolutas y relativas, tanto individuales como


acumuladas, para las siguientes puntuaciones; agrupando los datos en intervalos de
amplitud 5.

3, 6, 7, 9, 9, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 20, 20, 20, 20, 20, 22, 23, 24, 24, 24,
25, 25, 28, 35, 37.

• Solución

En primer lugar, se calcula la amplitud total para la serie de puntuaciones con las que se
va a trabajar.

A.T. = PMAYOR - PMENOR + 1 = 39 - 3 + 1 = 37

17
A continuación se determina el número de intervalos necesarios. Teniendo en cuenta que
la amplitud del intervalo debe ser igual a 5, de acuerdo a lo indicado en el enunciado del
problema, el número de intervalos vendrá dado por el cuociente entre la amplitud total y la
de cada intervalo: 37/5 = 7.4.

Este valor indica que se necesitan un número superior a 7 intervalos para distribuir todas
las puntuaciones en intervalos de amplitud 5. El número de intervalos mínimo necesario
sería 8. Una vez construidos los intervalos, se determina la frecuencia absoluta individual
(f) en cada uno de ellos, la proporción (p), el porcentaje (P) y los correspondientes valores
acumulados para todos ellos (fa, pa y Pa).

Intervalos Marcas f p P fa pa Pa
1-5 / 1,00 0.033 3.33 1 0.333 33.33
6 - 10 //// 4,00 0.133 13.33 5 0.167 16.67
11 - 15 ///// /// 8,00 0.267 26.67 13 0.433 43.33
16 - 20 ///// // 7,00 0.233 23.33 20 0.667 66.67
21 - 25 ///// // 7,00 0.233 23.33 27 0.900 90.00
26 - 30 / 1,00 0.033 3.33 28 0.933 93.33
31 - 35 / 1,00 0.033 3.33 29 0.967 96.67
36 - 40 / 1,00 0.033 3.33 30 1,00 100,00

No obstante, se podría haber organizado los datos comenzando el primer intervalo con un
límite aparente inferior distinto (por ejemplo, 2 o 3). En ese caso, la distribución resultante
diferirá algo de la aquí construida.

• Problema 3

Los 31 profesores de un Centro de Educación Primaria se agrupan, en función de su


situación administrativa, de la forma que se recoge a continuación. Representar dichos
datos mediante un gráfico circular.

Situación Administrativa Nº Profesores


Definitivos 15
Provisionales 10
En comisión de servicios 4
Interinos 2

• Solución

18
En este caso la superficie del círculo
(360o) se reparte proporcionalmente a
las frecuencias de cada categoría. Los
profesores definitivos ocuparán un
sector circular que representa el 48.39%
de los 360o, es decir, 360 x 48.39/100 =
174o que suponen algo menos de un
ángulo llano. Los profesores
provisionales estarán representados por
un sector de 360 x 3226/100 = 116 o, es
decir, algo más que un ángulo recto. Cálculos análogos determinan un sector circular de
47o para los profesores en comisión de servicios y 23o para los interinos.

• Problema 4

Representar mediante un histograma las edades (en meses) de los 60 alumnos del
segundo año de Educación Básica de un Centro para Adultos, cuya distribución de
frecuencias es la siguiente:

Edades Nº Alumnos
55 - 59 16
50 - 54 10
45 - 49 8
40 - 44 7
35 - 39 8
30 - 34 6
25 - 29 5

• Solución

El histograma es similar a un
diagrama de barras en el que
dichas barras se levantan

19
sobre los límites reales de los intervalos, apareciendo, por tanto, unidas lateralmente entre
sí.

• Problema 5
C.I. Nº Alumnos
Representar en un polígono de frecuencias los 116 - 120 1
siguientes datos, correspondientes a los C.I. de un
111 - 115 3
grupo de 25 alumnos de un curso de Educación Básica.
106 - 110 7
101 - 105 11
96 - 100 2
91 - 95 1

• Solución

Para trazar el polígono de frecuencias se


señala el punto medio de cada intervalo en
el eje de abscisas (horizontal), se marca la
altura correspondiente, de acuerdo con las
frecuencias y se unen los puntos
marcados con líneas rectas. El gráfico
cortará el eje de abscisas en los puntos
medios de los intervalos inmediatamente
superior al intervalo mayor e inferior al
menor (ambos con frecuencia cero).

• Problema 6

Representar mediante un polígono de frecuencias acumuladas los datos relativos al C.I.


de un grupo de 25 alumnos utilizados en el problema anterior.

• Solución

20
El polígono de frecuencias acumuladas se construye de forma muy parecida al polígono
de frecuencias, con la diferencia de que aquí la altura viene dada por las frecuencias
acumuladas (frecuencia de cada intervalo más frecuencias de los intervalos anteriores).
Además, la línea comienza en el eje de abscisas en el límite inferior real del primer
intervalo, y une los puntos situados sobre cada límite superior real, a una altura igual a la
frecuencia acumulada en cada intervalo.

D. Técnicas descriptivas en una variable

1. Medidas de tendencia central

Son índices numéricos que se toman como representativos de un conjunto de


puntuaciones, utilizando para ello valores que se sitúan hacia el centro del conjunto.

a. Media (Promedio): Es el valor obtenido como suma de todas las puntuaciones de un


grupo dividida por el número de ellas.

Cálculo:

Datos sin agrupar Datos agrupados por intervalos

donde: donde:
· Xi es cada puntuación · Xi es el punto medio de cada intervalo

21
· n es el número de casos · fi es la frecuencia de cada intervalo
· r es el número de intervalos
· n es el número de casos

Propiedades

 La suma de las desviaciones de todas las puntuaciones respecto a la media es 0.

 La media es sensible a la variación de cualquiera de las puntuaciones. Basta que


cambie un solo valor para que la media se modifique.
 Si se suma una constante a las puntuaciones de un grupo, la media quedará
aumentada en dicha constante.
 Si se multiplican por una constante las puntuaciones de un grupo, la media quedará
multiplicada por dicha constante.
 Si una variable X es combinación lineal de r variables X1, X2, ... Xr, su media se
obtiene como combinación lineal de las medias de dichas variables.

Es decir, si entonces
 Dados r grupos con n1, n2, ..., nr casos y sus respectivas medias, la media global se
obtiene ponderando dichas medias.

 Cuando se calcula la media para datos agrupados en intervalos, el valor resultante


depende de los intervalos elegidos (de su amplitud, su número y de los límites fijados).
 La media puede calcularse cuando las variables se han medido en una escala de
intervalo o razón.

b. Mediana: Es el valor que divide en dos partes iguales a un conjunto de puntuaciones


ordenadas, de tal forma que la mitad de las puntuaciones son mayores que la
mediana y la otra mitad son mejores que ella.

Cálculo:

Datos sin agrupar Datos agrupados por intervalos

22
Se ordenan los datos de menor a
mayor.

· Si el número de casos es impar, la donde:


mediana es el valor que ocupa la
· Li es el límite inferior del intervalo crítico (que
posición central en la serie.
contiene a la mediana)
· Si el número de casos es par, la
· I es la amplitud de los intervalos
mediana es el punto medio entre
los dos valores centrales. · fi es la frecuencia absoluta en el intervalo
crítico

· n es el número de casos

· fa es la frecuencia acumulada en el intervalo


anterior al intervalo crítico

Propiedades.

• Es menos sensible que la media a variaciones de las puntuaciones. Podría ocurrir que
la modificación de un valor no altera la mediana

• Para datos agrupados por intervalos, el valor de la mediana dependerá de la amplitud


de los intervalos, el número de ellos y los límites fijados.

• La mediana puede calcularse cuando se han medido las variables en escala ordinal o
superior.

c. Moda: Es el valor o modalidad que más se repite en un conjunto de medidas.

Cálculo

Datos sin agrupar Datos agrupados por intervalos


· Se construye la distribución de Punto medio del intervalo con mayor
frecuencias. frecuencia, o bien:
· El valor con frecuencia máxima es la
moda.
· Si la frecuencia máxima se alcanza

23
para dos o más valores, éstos donde:
constituyen modas. El grupo puede · Li es el límite inferior del intervalo modal
ser bimodal o multimodal. (que contiene a la moda).
· · Si dos valores adyacentes · I es la amplitud de los intervalos.
alcanzan la máxima frecuencia, la · d1 es la diferencia entre las frecuencias del
moda es el promedio de ambos. intervalo modal y el intervalo inferior.
· d2 es la diferencia entre las frecuencias del
intervalo modal y el intervalo inmediato
superior.

Propiedades

• Es la medida de tendencia central más inestable, pudiendo variar mucho de una


muestra a otra extraídas de la misma población.
• Para datos agrupados por intervalos, el valor de la moda dependerá de la amplitud de
los intervalos, el número de ellos y los límites fijados.
• Puede determinarse para variables medidas en cualquier escala.

2. Medidas de posición

Son medidas que informan sobre la posición de determinadas puntuaciones individuales


en relación con el grupo del que forman parte.

a) Percentiles: Son los 99 valores que dividen en cien partes iguales a una serie de
puntuaciones ordenadas, de forma que el percentil Pm deja por debajo de sí el m por
ciento de las puntuaciones del grupo.

Cálculo

Se obtienen de forma análoga a como se hacía en el caso de la mediana. La fórmula de


cálculo para el percentil m (Pm) en el caso de datos agrupados por intervalos, que
representa una generalización de la que se utilizaba para la mediana, es la siguiente:

Donde:

24
 Li es el límite inferior del intervalo crítico (que contiene a Pm)
 I es la amplitud de los intervalos
 fi es la frecuencia absoluta en el intervalo crítico
 n es el número de casos
 fa es la frecuencia acumulada en el intervalo anterior al intervalo crítico
 La expresión (m·n)/100 representa el número de puntuaciones que quedarían por
debajo del percentil m en la distribución estudiada. El intervalo crítico es precisamente
aquél donde la frecuencia acumulada alcanza o supera ese número de puntuaciones.

b) Deciles: Son los 9 valores que dividen en diez partes iguales a una serie de
puntuaciones ordenadas, de forma que el decil Dm deja por debajo de sí a m décimas
partes del total de puntuaciones del grupo.

Cálculo

Para el caso de datos agrupados por intervalos, la expresión de cálculo es:

c) Cuartiles: Son los 3 valores que dividen en cuatro partes iguales a una serie de
puntuaciones ordenadas, de manera que el cuartil Qm deja por debajo de sí m cuartas
partes del total de puntuaciones del grupo.

Cálculo

3. Medidas de dispersión

Son medidas que informan sobre la variabilidad que existe en un conjunto de


puntuaciones. Indican en qué medida las puntuaciones se sitúan próximas entre sí.

a) Rango: Es la distancia total en la escala numérica a lo largo de la cual varían las


puntuaciones.

También se denomina amplitud total o recorrido. Se utilizan dos tipos de rangos:

25
Rango excluyente: diferencia entre la mayor y la menor de las puntuaciones.
Rango incluyente: diferencia entre la mayor y la menor de las puntuaciones incrementada
en la unidad de medida. Este suele ser el más utilizado.

Rango = Puntuación.máxima - Puntuación.mínima + unidad de medida

El rango es la más imperfecta de las medidas de dispersión, pues sólo tiene en cuenta las
puntuaciones extremas.

b) Desviación media: Es la media del valor absoluto de las diferencias de todas las
puntuaciones respecto a la media aritmética.

Cálculo:

Datos sin agrupar Datos agrupados por intervalos

donde: donde:
· Xi es cada puntuación · Xi es el punto medio de cada intervalo
· es la media · es la media
· n es el número de casos · fi es la frecuencia de cada intervalo
· r es el número de intervalos
· n es el número de casos

c) Varianza y desviación típica

c1) Varianza: La varianza es el promedio del cuadrado de las diferencias de todas las
puntuaciones respecto a la media aritmética.

Cálculo:

Podemos proponer dos fórmulas equivalentes, tanto para datos sin agrupar como para
datos agrupados por intervalos.

Datos sin agrupar Datos agrupados por intervalos

26
En el ámbito de la estadística inferencial, se utiliza una expresión de la varianza obtenida
recogiendo en el denominador el factor n-1. A esta varianza se le denomina varianza
insesgada.

c2) Desviación típica: Se define como la raíz cuadrada de la varianza, tomada con
signo positivo.

Propiedades de la varianza y la desviación típica

 Adoptan siempre un valor positivo o igual a cero.


 Se ven afectadas por la modificación de cualquiera de las puntuaciones.
 Si se multiplica un conjunto de puntuaciones por una constante, la desviación típica y
la varianza quedarán multiplicadas respectivamente por la constante y por el cuadrado
de esa constante.
 Si se sumam a un conjunto de puntuaciones una constante, la desviación típica y la
varianza no se verán afectadas.
 Para datos agrupados por intervalos, el valor depende de la amplitud de los intervalos,
el número de ellos y los límites fijados.
 No deben calcularse en situaciones en que tampoco debe calcularse la media.

d) Coeficiente de variación: Es un índice abstracto, que permite comparar la


variabilidad de distintos grupos o distintas variables.

Se obtiene a partir del número de veces que la desviación típica contiene a la media.

27
e) Amplitud Semi-intercuartílica: Se define como la mitad de la distancia entre el
primer y el tercer cuartil. Puede ser calculada cuando se ha medido la variable en
escala ordinal o superior.

Problemas

• Problema 1

Las puntuaciones obtenidas por un grupo de 38 alumnos en una prueba valorada


de 0 a 100, las cuales se suponen medidas en escala de intervalos, son las que se
presentan en la tabla.

a) Calcula la media aritmética, mediana y moda.


b) ¿Qué puntuación deja por debajo de sí el 75% de los casos? ¿Y el 25%? ¿Cómo se
denominan dichas puntuaciones?

Intervalos f
91 - 100 2
81 - 90 0
71 - 80 3
61 - 70 6
51 - 60 7
41 - 50 9
31 - 40 4
21 - 30 5
11 - 20 1
1 - 10 1

• Problema 2

Las puntuaciones obtenidas por 59 alumnos en una prueba de diagnóstico en lectura son
las que se recogen en la tabla siguiente.

a) Calcula P25, P50, P75, P90, moda y mediana.

28
b) ¿Qué percentil corresponde a una alumna que ha obtenido una puntuación directa de
40 puntos? ¿Y a un alumno que obtuvo 34 puntos?

Intervalos F fa
47 - 49 4 59
44 - 46 7 55
41 - 43 4 48
38 - 40 8 44
35 - 37 4 36
32 - 34 1 32
29 - 31 5 31
26 - 28 6 26
23 - 25 6 20
20 - 22 4 14
17 - 19 3 10
14 - 16 2 7
11 - 13 2 5
8 - 10 2 3
5-7 0 1
2-4 1 1

• Problema 3

Los 25 niños de un aula de Educación Parvularia han sido evaluados para determinar el
nivel que presentan en ciertas variables relevantes para el aprendizaje de las
matemáticas. Teniendo en cuenta que los resultados obtenidos en una prueba de
discriminación de formas son los que aparecen a continuación, determina la tendencia
central del grupo mediante la media, la mediana y la moda, así como el grado de
dispersión que presentan las puntuaciones, expresado a partir de su rango y su
desviación típica.

27, 35, 40, 26, 32, 31, 35, 28, 29, 25, 36, 31, 27, 29, 25, 32, 34, 28, 33, 35, 29, 30, 39, 27,
25.

• Problema 4

Tras aplicar una prueba de cálculo mental a 70 alumnos de 4° Básico, pretendemos


describir la dispersión del conjunto de puntuaciones obtenidas. Determina el valor del
rango, la desviación media, la varianza, la desviación típica y el coeficiente de variación.

29
I fi
19 - 21 5
16 - 18 9
13 - 15 12
10 - 12 25
7-9 13
4-6 4
1-3 2
• Problema 5

La directora de Recursos Humanos de una entidad educativa utiliza determinada prueba


con la que mide la aptitud de los candidatos para desempeñar cierto puesto de trabajo. El
total de aspirantes es de 190 y los resultados alcanzados por cada uno de ellos en la
prueba son los que mostramos seguidamente.

Aptitud fi
125-129 7
120-124 8
115-119 12
110-114 20
105-109 27
100-104 41
95-99 32
90-94 30
85-89 11
80-84 2

a) Si pretendemos seleccionar a sólo 38 de los candidatos, ¿cuál es la puntuación mínima


que habría de obtenerse para ser seleccionado?
b) ¿Qué porcentaje de sujetos quedaron por debajo de un aspirante que consiguió una
puntuación de 105.5?
b) Determina la amplitud semi-intercuartil para la distribución.

Soluciones a problemas propuestos

• Solución Problema 1

30
a) La moda, valor más sencillo de calcular, es la puntuación con frecuencia máxima o
puntuación que más se repite. Al estar los datos agrupados en intervalos, la moda será el
punto medio del intervalo con frecuencia máxima, es decir Mo = 45.5.

Para calcular la media aritmética necesitamos los puntos medios de los intervalos y los
productos de dichos puntos medios por las frecuencias. Dichos cálculos se expresan en la
tabla que mostramos seguidamente.

Intervalos f Xi fiXi
91 - 100 2 95.5 191
81 - 90 0 85.5 0
71 - 80 3 75.5 226.5
61 - 70 6 65.5 393
51 - 60 7 55.5 388.5
41 - 50 9 45.5 409.5
31 - 40 4 35.5 142
21 - 30 5 25.5 127.5
11 - 20 1 15.5 15.5
1 - 10 1 5.5 5.5
n = 38 1899

La mediana es la puntuación que deja por encima y por debajo de sí el 50% de los casos.
Como tenemos 38 sujetos, la mediana será la puntuación que deje por encima y por
debajo de = 19 sujetos. Su fórmula de cálculo, para datos agrupados en intervalos, es la
siguiente:

Como n/2=38/2=19 es una frecuencia acumulada que se alcanza dentro del intervalo 41-
50 (intervalo crítico), sustituyendo en la fórmula anterior los valores del límite inferior de
ese intervalo (Linfer), la amplitud de los intervalos (I), la frecuencia en el intervalo crítico (f i)
y la frecuencia acumulada en el intervalo anterior al crítico (fa) tendremos

31
b) Las puntuaciones que dejan por debajo de sí el 25 y el 75% de los casos se conocen
con el nombre de cuartil 1 (Q 1) y cuartil 3 (Q 3), respectivamente. Dichas puntuaciones se
corresponden, igualmente, con los percentiles 25 y 75. Su cálculo viene dado por la
fórmula

Cada uno de ellos se sitúa en los siguientes intervalos críticos:

Q3: (338)/4=28.5 (intervalo 61 - 70)


Q1: (138)/4=9.4 (intervalo 31 - 40)

Sustituyendo los distintos valores en la fórmula, obtendremos

• Solución Problema 2

a) Cálculo de los percentiles

Se pide también el cálculo de la mediana y de la moda. La mediana ya está calculada,


pues coincide con el percentil 50 (Md=P50=30.6). La moda es el punto medio del intervalo
con frecuencia máxima, es decir Mo=39.

32
b) Se trata del problema inverso al apartado anterior, que podemos resolver aplicando la
misma fórmula. El valor que buscamos no es, como ocurría anteriormente, Pm sino el valor
m.

• Solución Problema 3

En primer lugar organizamos las puntuaciones dadas en una distribución de frecuencias,


lo cual aunque no es necesario resulta conveniente, ya que facilita los cálculos. En la
tabla que se presenta a continuación incluimos, además de la distribución de frecuencias,
los cálculos previos necesarios para resolver las cuestiones planteadas.

El cálculo de la media aritmética resulta sencillo teniendo en cuenta los cálculos previos:

Xi Marcas fi Xifi X2i X2ifi


25 /// 3 75 625 1875
26 / 1 26 676 676
27 /// 3 81 729 2187
28 // 2 56 784 1568
29 /// 3 87 841 2523
30 / 1 30 900 900
31 // 2 62 961 1922
32 // 2 64 1024 2048
33 / 1 33 1089 1089
34 / 1 34 1156 1156
35 /// 3 105 1225 3675
36 / 1 36 1296 1296
39 / 1 39 1521 1521
40 / 1 40 1600 1600
n=25 768 24036

33
La mediana es la puntuación que ocupa el lugar central. Puesto que contamos con 25
puntuaciones, la mediana será el valor que ocupe el lugar 13 (deja 12 por debajo y 12 por
encima), es decir Md=30.

La moda es la puntuación o puntuaciones que más se repiten (las que tienen mayor
frecuencia). En este caso, la distribución es multimodal, contando con cuatro modas que
son 25, 27, 29 y 35.

El rango o amplitud total para la distribución es: A.T. = Pmayor - Pmenor + 1 = 40 - 25 + 1 = 16

La desviación típica se obtiene a partir de su expresión de cálculo:

• Solución Problema 4

En la tabla siguiente se incluyen los cálculos previos para hallar las medidas de
variabilidad solicitadas. En la primera columna se presentan los intervalos, en la segunda
las frecuencias, en la tercera los puntos medios de cada uno de los intervalos, en la
cuarta el producto de los puntos medios de cada uno de los intervalos por su frecuencia,
en la quinta las diferencias en valor absoluto de cada punto medio de los intervalos con
respecto a la media aritmética (x, por tanto, representa puntuaciones diferenciales), en la
sexta la columna anterior multiplicada por la frecuencia de cada intervalo, en la séptima
los valores de los puntos medios de cada uno de los intervalos elevados al cuadrado y, en
la octava y última el valor de la columna anterior multiplicado por la frecuencia de cada
intervalo.

I fi Xi Xifi │x│ fi│x│ X2i X2ifi


19 - 21 5 20 100 8.23 41.15 400 2000
16 - 18 9 17 153 5.23 47.07 289 2601
13 - 15 12 14 168 2.23 26.76 196 2352
10 - 12 25 11 275 0.77 19.25 121 3025
7-9 13 8 104 3.77 49.01 64 832
4-6 4 5 20 6.77 27.08 25 100
1-3 2 2 4 9.77 19.54 4 8
70 824 229.86 10918

34
A.T = 21 -1 +1 = 21 (o bien, 21.5-0.5 = 21)

• Solución Problema 5

a) Si de los 190 sólo pretendemos seleccionar a 38, de 100 seleccionaríamos


38100/190=20. Por tanto, se nos pide la puntuación que deje por encima de sí el
20% de los casos, es decir el percentil 80 (puntuación que deja por debajo de sí el
80% y por encima el 20%).

Es decir, la puntuación mínima que hay que alcanzar es 111.75 puntos.

b) Se trata en este caso de un problema inverso al anterior. Utilizamos la misma


expresión analítica de los percentiles, pero el elemento desconocido ahora es m.

35
Por debajo de la puntuación 105.5 quedan el 63.89% de los sujetos.

c) Amplitud semi-intercuartil.

Para calcular cada uno de los cuartiles debemos previamente determinar el intervalo en el
que se encuentran.

Para Q3: Qn/4=3190/4=142.5 (intervalo 105-109)


Para Q1: Qn/4=1190/4=47.5 (intervalo 95-99)

E. Puntuaciones individuales y curva normal

1. Puntuación directa, puntuación transformada

Una puntuación directa es la que se asigna a cada individuo como resultado de una
medición; por ejemplo la nota de un examen, el número de agresiones mensuales de
cada alumno(a) a sus compañeros.

36
Las puntuaciones transformadas son las que se derivan de las puntuaciones directas por
combinación lineal. Por ejemplo, medimos la velocidad y la comprensión lectora a través
de dos pruebas de las cuáles obtenemos dos puntuaciones directas; a través de estas
dos puntuaciones nos interesa conocer la eficiencia lectora. En este caso, la eficiencia
lectora es una puntuación transformada, o una variable de transformación.

Hay algunas puntuaciones transformadas de uso frecuente en educación, como las


puntuaciones diferenciales, típicas y las puntuaciones típicas derivadas.

Los softwares estadísticos contienen utilidades que permiten crear variables de


transformación a partir de las puntuaciones directas. Por tanto, si en un análisis tienen
que utilizarse variables de transformación, no se tienen que introducir las puntuaciones
transformadas en el computador, sino obtenerlas a partir de las puntuaciones directas,
utilizando los recursos del paquete estadístico.

a) Puntuaciones Diferenciales

Son el resultado de restar a la puntuación directa de un individuo la media de las


puntuaciones del grupo. En estadística descriptiva suelen designarse mediante una letra
minúscula (xi). Por tanto su cálculo viene determinado por la siguiente expresión:

xi = X i - X

Por el modo en que se definen, si en un grupo de puntuaciones obtenemos las


puntuaciones diferenciales, el resultado de la suma de éstas valdrá cero.

Ejemplo

Un grupo de 8 estudiantes que rinden examen de análisis de datos han obtenido las
siguientes puntuaciones: 7, 3, 2.5, 9, 2, 8.5, 5 y 3. Calcular las puntuaciones diferenciales
para cada uno de los(as) alumnos(as).

Solución: Se debe calcular la media de las puntuaciones, a partir de ese valor, podremos
determinar las puntuaciones diferenciales restando la media a la puntuación directa.

Xi xi
7 Cálculo de la media 2

37
3 -2
2,5 -2,5
9 4
2 -3
8,5 3,5
5 0
3 -2

b) Puntuaciones típicas

Son puntuaciones transformadas de gran utilidad en estadística. Son conocidas también


por "puntuaciones z", siendo la siguiente expresión que se utiliza para su cálculo.

La media de las puntuaciones típicas vale 0 y la desviación típica es igual a 1. Por tanto,
cuando hablamos de tipificar los valores de una variable, significa que debemos
transformarlos en puntuaciones z.

Ejemplo:

Considerando las puntuaciones del ejemplo anterior, las vamos a transformar en


puntuaciones típicas.

Solución:
1º) determinar el valor de la desviación típica del grupo

�( x - x )
2

�( x - x ) = �x
2
= 55,5 i 55,5
i i s= = = 2, 63
n 8

2º) Luego, se divide cada una de las puntuaciones diferenciales por la desviación típica

Xi xi xi2 zi
7 2 4 0,76
3 -2 4 -0,76
2,5 -2,5 6,25 -0,95
2 -3 9 -1,14
9 4 1,6 1,53

38
8,5 3,5 12,25 1,33
5 0 0 0
3 -2 4 -0,76

c) Puntuaciones típicas derivadas

Las puntuaciones típicas permiten establecer comparaciones entre distintas variables. Sin
embargo el inconveniente de las puntuaciones típicas es que suelen ser negativas y
pueden presentar cifras decimales. Contamos solamente con siete puntuaciones enteras
posibles (-3, -2, -1, 0, 1, 2, 3), ya que la mayoría de las observaciones suelen quedar
incluidas entre tres desviaciones típicas a la derecha de la media y tres a la izquierda.

Tanto los signos negativos como las cifras decimales y los redondeos pueden ocasionar
errores de cálculo. Para evitar esto, podríamos multiplicar las puntuaciones z por una
constante S determinada y para evitar los valores negativos, sumar una constante J.

D = J + Sz

De esta forma, y teniendo en cuenta las puntuaciones de las propiedades típicas,


obtendremos una distribución de media J y de desviación típica S. A las puntuaciones
obtenidas siguiendo este proceso se les denomina puntuaciones típicas derivadas.

Entre las más usadas se encuentran el caso concreto de las puntuaciones T, que tienen
como media 50 y como desviación típica 10.

T = 50 + 10z

Asimismo los coeficientes intelectuales suelen venir expresados en puntuaciones típicas


derivadas de media 100 y desviación típica 15.

CI = 100 + 15z

Otra de las puntuaciones típicas que se suele utilizar en educación son los eneatipos o
estaninos, que son puntuaciones de media 5 y de desviación típica 2.

E = 5 + 2z

39
Ejemplo: Supongamos que un sujeto obtiene en una prueba de inteligencia una
puntuación directa de 70 puntos. Sabiendo que la media del grupo de referencia es 63,04
y su desviación típica 10,8, podremos transformar la puntuación directa en una puntuación
típica z= 0,64.

A partir de este cálculo, podemos obtener las diferentes puntuaciones derivadas:

T = 50 + 10 (0,64) = 56,4
C.I. = 10 + 15 (0,64) = 109,6
E = 5 + 2 (0,64) = 6,28

2. La curva normal

La inmensa mayoría de valores observados sobre variables cuantitativas en Ciencias


Sociales suelen aproximarse a lo que se conoce como distribución normal o curva normal.
Es considerada como una de las distribuciones continuas de más importancia. En muchos
casos, veremos que suponer el comportamiento normal de una población, permitirá
extraer conclusiones para las estimaciones efectuadas sobre muestras.

La representación gráfica de la distribución normal (figura 1) presenta forma de campana


(de ahí el nombre de campana de Gauss, como también se conoce).

Figura 1: Curva Normal

μ = media
σ = desviación típica

40
Se utilizan μ y σ, en lugar de X y s, porque hablamos de un modelo teórico.
N = número de casos, lo que significa que el área total bajo la curva es N.

La curva normal presenta las siguientes características:

 Es simétrica alrededor del eje que pasa por la media.


 La ordenada máxima coincide con la media en el eje de abscisas.
 La media, mediana y moda coinciden.
 Es asintótica respecto del eje de abscisas. Como consecuencia hay dos colas, una a
cada lado de la distribución, que se alargan hasta el infinito.
 Los puntos de inflexión se encuentran en μ + σ y μ - σ
 Su ecuación matemática dada por Laplace en 1874 es:

2
1 �X - m �
1 - � �
f ( x) = e 2� s �

2ps

Distribución normal tipificada o estándar

Se dice que una variable aleatoria continua tiene distribución normal tipificada X ~ N (0,1),
si su función de densidad tiene la siguiente forma:

1 - 12 x2
f ( x) = e
2p

La curva normal tipificada o reducida es, por tanto, la que opera con puntuaciones z, es
un caso especial de distribución normal que tiene de media cero y de desviación típica
uno. Tiene múltiples aplicaciones y su uso es frecuente en investigación educativa.

Al observar una variable tipificada que se distribuye normalmente, puede observarse que
la mayor parte de las puntuaciones se encuentran comprendidas entre los valores que
van de -3 a +3 (figura 2)

41
Figura 2: Curva Normal para Puntuaciones z

 Esta distribución es mesocúrtica


 El área total comprendida entre la curva y el eje de abscisas es igual a uno

Las áreas bajo la curva normal se interpretan en términos de probabilidades, proporciones


o porcentajes

Áreas bajo la curva normal

Para muchos propósitos es necesario conocer la proporción del área bajo la curva normal
entre las ordenadas de diferentes puntos sobre la línea de base. Podemos desear
conocer:

 La proporción del área bajo la curva entre la ordenada de la media y cualquier punto
específico que se encuentre por encima o por debajo de la media.
 La proporción del área total por encima o por debajo de la ordenada de cualquier
punto sobre la línea base.
 La proporción del área que se encuentra entre las ordenadas de dos puntos
cualesquiera sobre la línea base.

Mediante la tabla de la Ley Normal pueden calcularse las áreas entre dos puntos. Por
tanto, pueden resolverse cualquiera de las tres situaciones anteriores. A continuación se
desarrollan algunos ejemplos teniendo en cuenta las siguientes consideraciones:

 El área total vale 1. La mitad es igual a 0,5.


 Las puntuaciones que utiliza la tabla están tipificadas.
 Para Z > 0 corresponde la mitad derecha de la curva.
 Para Z < 0 corresponde la mitad izquierda de la curva.

Ejemplo

42
Se ha utilizado el test de inteligencia D-48 a un grupo de sujetos y se ha obtenido una
distribución normal de media 28 y desviación típica 5.

Caso 1: ¿Qué porcentaje de sujetos han obtenido una puntuación superior a 36?

1º) Sabemos que:


xi - x
z=
s

2º) Sustituyendo valores z = (36-28)/5 = 1,6


3º) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar a la
derecha de z), corresponde a un área de 0,05480. Lo que equivale a un porcentaje de
sujetos del 5,48%.

Caso 2: ¿Qué porcentaje han obtenido puntuaciones inferiores a 30?

1º) Sabemos que


xi - x
z=
s

2º) Sustituyendo valores z = (30-28)/5 = 0,4


3º) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar a la
derecha de z), corresponde a un área de 0,34458.
4º) Pero obsérvese que el área que hay que calcular es la contraria, la parte rayada. Por
tanto tendremos que quitar a 1 (valor del área total) el valor del área calculada (que es la
proporción que obtiene puntuaciones mayores).

1-0,34458 = 0,65542

43
El porcentaje de sujetos que ha obtenido puntuaciones inferiores a 30 es del 65,54%.

Caso 3: ¿Qué probabilidad existe de que al elegir un individuo al azar esté comprendido
entre 25 y 35?

1º) Sustituyendo valores z1 = (25-28)/5 = -0,6


z2 = (35-28)/5=1,4
2º) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el
valor de la probabilidad de z2 (buscar la izquierda) es de 0,9192 y el valor de z 1 (buscar a
la derecha de z), corresponde a un área de 0,2743.
3º) se le resta al valor del área de z2, el valor del área de z1.

0,9192 - 0,2743 = 0,6449

Caso 4: ¿Qué porcentaje de alumnos/as queda comprendido entre las puntuaciones 19 y


26?

1º) Sustituyendo valores z1 = (26-28)/5 = -0,4


z2 = (19-28)/5= -1,8
2º) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el
valor de la probabilidad de z1 (buscar la derecha) es de 0,3446 y el valor dez 2 (buscar a la
derecha de z), corresponde a un área de 0,0359.
3º) se le resta al valor del área de z1 el valor del área de z2.

0,3446-0,0359 = 0,3087

44
Lo cual supone un 30,87% de alumnos comprendidos entre ambas puntuaciones.

Bibliografía

 Gil, J., Diego, J., García, E., & Rodríguez, G. (1997). Estadística básica aplicada a las
ciencias de la educación. Sevilla: Kronos.
 GIL, J., Diego, J., García, E., & Rodríguez, G. (1997). Problemas de estadística
aplicada a las ciencias de la educación. Sevilla: Kronos.

45