Está en la página 1de 12

Método Científico II (Análisis de datos)

I.- OBJETIVOS
Al final del laboratorio el estudiante podrá ser capaz de:

* Entender los conceptos de muestra y población estadística y cómo están relacionados, incluyendo el
efecto del tamaño de muestra.
* Entender los conceptos de medidas de tendencia central y dispersión, y como calcular dos de estas: el
promedio y la desviación estándar.
* Conocer el significado de una distribución de frecuencias y cómo representarla mediante un
histograma.
* Entender la curva de distribución normal y reconocer su importancia para hacer predicciones sobre
poblaciones estadísticas que se ajusten a ella.
* Utilizar gráficos de promedio y desviación estándar para comparar tratamientos y decidir si apoyan o no
tu hipótesis.
II.- INTRODUCCIÓN
En la práctica anterior estudiamos los distintos pasos que conforman el método científico, haciendo énfasis
en los factores que componen un experimento. En esta práctica estudiaremos más bien cómo resumir y
analizar los datos resultantes de un experimento, de manera tal que podamos decidir, de manera objetiva, si
estos refutan o no nuestra hipótesis de trabajo.

Los datos pueden ser compilados y analizados de muchas maneras. Como aprenderás, esto no es una tarea
sencilla, y existen ramas del conocimiento dedicadas exclusivamente a esto, siempre desarrollando nuevas
ideas y técnicas que nos permitan obtener el mejor uso de nuestros datos. Durante esta práctica veremos
algunos principios de una de estas ramas, la estadística, dedicada al manejo e interpretación de datos para
obtener inferencias. ¡No te alarmes!, estos principios son mucho más sencillos de lo que imaginas, y algunos
los repasarás con mayor detalle más adelante en tu carrera. Sin embargo, verás que si les dedicas unos pocos
minutos ahora, cualquier curso de estadística que lleves en el futuro se te hará mucho más sencillo.

Por último, parte de analizar datos incluye el cómo presentarlos. En esta práctica también aprenderás algunas
formas y reglas generales para hacerlo.

Muestra vs. población


Los primeros conceptos estadísticos que aprenderás en esta práctica son los de muestra y población. En
estadística, una población en un conjunto de elementos con características determinadas que deseamos
estudiar (e.g. objetos o individuos). El tamaño de cualquier población usualmente es muy grande como para
medir o analizar a todos sus integrantes, así que normalmente obtenemos datos para solamente una muestra
de esta. Sin embargo, para que nuestras inferencias de la población a partir de la muestra sean correctas, la
muestra debe de ser representativa de la población.

Imagina que quieres estudiar el salario mensual de los trabajadores de nuestro país. ¿Cuál muestra será
más representativa, una llevada a cabo en la gran área metropolitana, o una llevada a cabo en las zonas
rurales? En este caso, puedes imaginar cómo afectará los resultados el excluir cualquiera de estos grupos,
y, para que la muestra sea representativa, debe entonces incluir integrantes de ambos. ¿En qué proporción?

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
2

Esto dependerá de cómo esté estructurada nuestra población. Por ejemplo, si hay más habitantes en la
gran área metropolitana, el muestreo debería ser mayor ahí (aunque no exclusivo).

Cuando tenemos una idea de cómo está constituida nuestra población de estudio, podemos idear con facilidad
cómo hacer un muestreo representativo. Sin embargo, verás que muchas veces desconocemos las cualidades
de nuestra población, en cuyo caso solo podemos asumir que nuestra muestra es representativa. Como
imaginarás, entre mayor sea una muestra, mayor probabilidad de que esta sea representativa, así que
aumentar el muestreo siempre es una buena estrategia para que este supuesto sea válido. Te preguntarás, ¿por
qué no muestrear toda la población? En primer lugar, los recursos económicos y logísticos siempre son
limitados. En segundo lugar, en la mayoría de los casos esto resulta simplemente imposible.

Imagina que deseas estudiar el efecto de dos dietas distintas en los cerdos de una finca. La finca tiene 600
cerdos. Podrías tomar una muestra de unos 40 cerdos para cada dieta. Sin embargo, digamos que te pones
ambicioso y muestreas el efecto de las dos dietas en los 600 cerdos de la finca. Después de hacer todo este
esfuerzo, ¿puedes decir con seguridad que has muestreado a la población entera de cerdos? ¿Qué pasará
con los nuevos cerdos que nazcan, o cuando en unos años la población esté constituida enteramente por
nuevos individuos? Tu muestreo correspondió solamente a una muestra de la población hipotética de
cerdos… y, como verás, esto es el caso para la mayoría de muestreos biológicos. Esto no es motivo para
desanimarse o descuidar el muestreo. Al contrario, una vez que conoces las limitaciones del muestreo
puedes enfocarte más bien en cómo hacerlo eficiente. Más adelante verás el poder que tiene una buena
muestra para predecir el comportamiento de poblaciones infinitas… ¡constituidas por eventos pasados,
presentes o futuros!

Resumiendo datos
Por lo general, los datos de un experimento no son analizados en forma cruda, ya que interpretarlos de uno en
uno se hace complicado. Imagina que hiciste un experimento para estudiar si una nueva metodología de
enseñanza resulta en un mejor aprendizaje por parte de los estudiantes. Para esto, se dividió a los estudiantes
matriculados en un nuevo curso en dos grupos, uno donde se aplicará la nueva metodología, y otro donde se
aplicará la usual. A la mitad del semestre, los estudiantes hicieron un examen; los resultados se muestran en
el cuadro 1.

Con base en ese cuadro, ¿puedes concluir si la nueva metodología resultó en mejores notas por parte de los
estudiantes? Quizás estés diciendo cosas como: “Hmmm bueno, el estudiante con mejor nota estuvo en el
grupo de la metodología usual; aunque ese grupo también incluye a los estudiantes con la peor nota…” y
“parece que los estudiantes con la metodología nueva obtuvieron mejores notas en general, aunque algunas
son más bajas …”. Como ves, es muy difícil obtener conclusiones generales a partir de un conjunto de datos
crudos. Este ejemplo incluye solo 10 estudiantes por grupo, ¡imagínate si tuviésemos 30, 50 ó 100!

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
3

Cuadro 1. Notas obtenidas por los estudiantes en el primer examen de un curso donde se aplicaron dos
metodologías distintas.

Metodología Nueva Metodología Usual


83 70
89 88
77 66
75 75
83 87
76 92
83 89
86 74
77 66
73 95

Dado que es muy difícil obtener conclusiones a partir de datos crudos, parte de la estadística consiste en
resumir o de alguna manera resaltar características importantes de las series de datos. A continuación,
veremos dos características importantísimas para cualquier conjunto de datos. Un detalle que debes mantener
presente es que los estadísticos utilizan símbolos para representar estas propiedades de los datos; no obstante,
el tipo de simbología cambia dependiendo de si los datos corresponden a una población (cuyas características
conocemos en su totalidad), o a una muestra de dicha población (que utilizamos para estimar sus
características). Así, usualmente se utilizan letras del alfabeto griego cuando estamos hablando de
características de una población, llamadas parámetros (literalmente ‘más allá de medición’; para-metron).
Cuando las características corresponden a una muestra, les llamamos estadísticos, los cuales son
representados mediante letras del alfabeto romano, y a veces requieren una ligera modificación en la fórmula
para que la estimación del parámetro sea más cercana a su valor real.

¡Grávate esto: cualquier estadístico que obtengas de una muestra representa un estimado del parámetro real
de la población que esa muestra representa!

Medidas de tendencia central

Una de las características más importantes (y quizás más intuitiva) de resumir para un conjunto de datos es su
tendencia central, es decir hacia dónde “apuntan” estos. La medida de tendencia central más utilizada y con
la cuál seguramente estás familiarizado es el promedio o media aritmética (denotado µ para el parámtero; x
para el estadístico). Esta corresponde a la sumatoria (Σ) de los valores observados (xi) dividido por el
número de observaciones (n). La fórmula para su cálculo es la siguiente:

Población Muestra
µ = Σxi x = Σxi
n n
Prohibida la reproducción parcial o total de este manual
UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
4

Existen otras medidas de tendencia central que no usaremos en este curso pero que vale la pena que
conozcas. La moda es el valor que ocurre más frecuentemente en un conjunto de datos (interpretado también
como el valor más típico de una serie). La mediana es el valor de la observación que ocupa la posición
central de un conjunto de datos ordenados según su magnitud (e.g. si la mediana en la altura de un grupo es
155 cm, quiere decir que el 50% de los individuos miden más y el 50% menos que esta medida).
Nota: La moda, mediana y media son maneras distintas de resumir la tendencia central de los datos puede ser
que coincidan en un mismo valor, pero usualmente ese no es el caso.
El cuadro 2 muestra el resultado de estos estadísticos para los datos de los estudiantes mostrados
anteriormente. Observa cómo, con base a estos estadísticos, ahora se vuelve bastante más sencillo interpretar
los resultados. Por ejemplo, podrías decir que los resultados para ambas metodologías fueron idénticos (o
casi) a juzgar por el promedio y la mediana. Sin embargo, la nueva metodología resultó en que las notas más
comunes fuesen mejores (moda de 83 vs. 66).
Cuadro 2. Medidas de tendencia central para las notas obtenidas por los estudiantes en el primer examen de un curso
donde se aplicaron dos metodologías distintas.

Metodología Nueva Metodología Usual

Moda 83 66

Mediana 80 81

Promedio o media 80.2 80.2

Medidas de variabilidad o dispersión

Pese a que las medidas de tendencia central son de gran utilidad, no lo son todo, ya que por sí solas nos dicen
poco de los datos. En el ejemplo anterior, los dos juegos de datos tienen el mismo promedio, sin embargo,
¿podrías decir que son iguales? Si tu respuesta es no, probablemente estás pensando en la variabilidad o
dispersión que presentan estos juegos de datos. ¿Variaron más las notas (estuvieron más dispersas) en
alguno de los grupos? ¿En cuál grupo fue mayor esta dispersión?

La forma más sencilla de resumir la variación es el rango, que simplemente representa los valores mínimo y
máximo entre los cuales se encuentra el resto (e.g. 66–95 para la metodología usual). Pese a que esto
representa mucho más información, el rango no te dice nada sobre qué tan común es cada valor. Por ejemplo,
mientras que en un grupo pueden abundar las notas malas o excelentes, éstas pueden ser la excepción en otro.
¿Crees que existe alguna medida que sea algo así cómo un promedio de variación?
La respuesta es sí, y hay varias. Quizás la más sencilla es la desviación media absoluta, que te dice, en
promedio, cuánto difieren los valores del promedio. Así, un grupo donde las notas muy bajas o altas ocurran
con mayor frecuencia, tendrán una desviación media absoluta mayor que uno donde esas notas ocurran con
baja frecuencia (como se observa abajo; Cuadro 3). Para esta medida se utiliza un valor absoluto, porque lo
que nos interesa es la dispersión con respecto al promedio, y, de lo contrario, las diferencias por encima del
promedio se “cancelarían” con aquellas por debajo.

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
5 y muestra
Población
DM = Σ ⎸xi-x⎹
n
Una medida similar pero con mayor utilidad aún es la desviación estándar (𝜎 para el parámetro, s para el
estadístico). Esta difiere de la anterior en que las diferencias entre cada valor y el promedio son elevadas al
cuadrado. Esto es una manera de ajustar la métrica para que refleje la magnitud de las desviaciones. Puedes
visualizarlo algo así como una “penalización” por las desviaciones mayores. Puesto que el cuadrado elimina
los negativos, no hace falta agregar el símbolo de valor absoluto. Sin embargo, elevar al cuadrado implica
que, para volver a obtener unidades que tengan sentido, debes obtener la raíz cuadrada de estos valores. Nota
que, a diferencia del parámetro, para el estadístico, la división la haces entre el total de la muestra menos uno
(n-1). Las razones de esto escapan el objetivo del curso; por el momento, puedes verlo como una corrección
a la fórmula al lidiar con una muestra y no con la población completa.

Población Muestra
𝜎 = Σ(xi-x)2 s = Σ(xi-x)2
n n-1
No te asustes por esta fórmula, simplemente nota lo más importante y el orden en que ocurre: a cada valor xi, le restas
el promedio y luego elevas ese resultado al cuadrado; después de hacer eso para todos los valores, sumas los
resultados y lo divides entre el número total de la muestra menos uno). Para finalizar, obtienes la raíz cuadrada.
(Nota: Antes de obtener dicha raíz, la métrica que obtienes es conocida como varianza (𝜎2 ó s2); una métrica de gran
utilidad utilizada en muchos análisis estadísticos que probablemente verás más adelante en tu carrera).

Cuadro 3. Cálculos de la desviación media absoluta y la desviación estándar para las notas obtenidas por los
estudiantes en el primer examen de un curso donde se aplicaron dos metodologías distintas.
Metodología Nueva Metodología Usual
xi x Ixi-xI (xi-x)2 xi X Ixi-xI (xi-x)2
83 80.2 2.8 7.84 70 80.2 10.2 104.04
89 80.2 8.8 77.44 88 80.2 7.8 60.84
77 80.2 3.2 10.24 66 80.2 14.2 201.64
75 80.2 5.2 27.04 75 80.2 5.2 27.04
83 80.2 2.8 7.84 87 80.2 6.8 46.24
76 80.2 4.2 17.64 92 80.2 11.8 139.24
83 80.2 2.8 7.84 89 80.2 8.8 77.44
86 80.2 5.8 33.64 74 80.2 6.2 38.44
77 80.2 3.2 10.24 66 80.2 14.2 201.64
73 80.2 7.2 51.84 95 80.2 14.8 219.04
Σ=46 Σ=251.6 Σ=100 Σ=115.6
n = 10 n-1 = 9 n = 10 n-1 = 9
DM = 4.6 s = 5.29 DM = 10 s = 11.13

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
6

Como puedes ver, la variación es tan importante de documentar como la tendencia central al comparar
grupos de datos. A pesar de que las notas para ambas metodologías tuvieron un promedio idéntico, podrías
decir que, en general, la notas bajo la nueva metodología fueron mejores, ya que la dispersión de los datos
fue mucho menor. Es decir, el promedio es más representativo para ese grupo, ya que en el grupo de la
metodología usual, cada dato varía más con respecto al valor promedio. Puedes pensar esto también como:
“¿A cuál estudiante le apostarías con mayor seguridad que le irá bien en el siguiente examen, a uno del
grupo de la nueva metodología, o a uno del grupo de la metodología usual?”. En otras palabras, ¿cuál grupo
crees que “CONOCES MEJOR” a partir de estos datos?

La razón por la cual la desviación estándar es una de las medidas más utilizadas para documentar la
dispersión es por su capacidad para hacer predicciones acerca de ciertas poblaciones (ver distribución
normal; abajo). Usualmente, el promedio y la desviación estándar se documentan juntos. Así, el primer grupo de
datos tendría un promedio de 80.2 ± 5.29, mientras que para el segunda el promedio sería de 80.2 ± 11.13. En este
ejemplo no hay unidades al tratarse de notas de un examen; sin embargo, si existiesen estas irían después de los
estadísticos (e.g. 80.2 ± 5.29 cm). En la figura 1 puedes ver cómo mostrar esta misma información en un gráfico de
barras (columnas en realidad), donde estas indican el promedio, y las barras de error la desviación estándar (verás
cómo hacer este gráfico durante la práctica de laboratorio).

Asegúrate de entender la forma en que se calculan el promedio y la desviación estándar; estas estadísticas
REPRESENTARÁN LA BASE de análisis estadísticos más complejos que llevarás a cabo más adelante durante el
curso.

Figura 1. Promedio de nota de los estudiantes para el primer examen de un curso donde se aplicaron dos
metodologías distintas; las barras de error indican la desviación estándar.

Nuestros experimentos como ventanas (imperfectas) hacia la realidad

Los experimentos nos permiten colectar datos y decidir si estos se ajustan o no a lo que predijimos que
sucedería en caso de que la hipótesis de trabajo sea cierta. De esta forma, representan “ventanas hacia la
realidad”, permitiéndonos inferir cómo funcionan los fenómenos que desconocemos a partir de algunas
observaciones puntuales. No obstante, nadie nos puede asegurar que lo que “veamos por esta ventana” sea
Prohibida la reproducción parcial o total de este manual
UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
7

cierto, y algunas veces puede ser que esta breve visión de la realidad esté sesgada (brindándonos
información parcializada), o incluso errónea. Es por esto que los científicos debemos ser sumamente
cuidadosos a la hora de analizar e interpretar datos. Primero, debemos estar seguros que el experimento
carece de errores de negligencia o descuido (e.g. equipo mal calibrado, tabulaciones o lecturas erróneas por
parte del investigador). Segundo, debemos estar seguros de que solo las variables que estamos estudiando
ejercieron un efecto en los datos (i.e. que no hayan efectos de variables que no fueron controladas o
estandarizadas). Si tus datos no cumplen estos requisitos, usualmente deberás descartarlos y empezar de
nuevo.
Estos dos tipos de errores los puedes evitar sencillamente, siendo cuidadoso y diseñando un buen
experimento. En efecto, en este curso, esperamos que no cometas errores de negligencia y que logres
identificar posibles limitaciones de los diseños experimentales que utilices. Sin embargo, hay una tercera
razón por la cual los datos nos pueden dar resultados que no necesariamente reflejan la realidad y con la cual
los científicos debemos batallar: el azar o efecto aleatorio. Considera una moneda de dos caras, donde existe
un 50% de probabilidad de mostrar cualquiera de ellas cada vez que la lances. Así, podrías esperar que de 10
turnos que la arrojes, 50% muestren cada cara. Sin embargo, tu experiencia te dice que muchas veces esto no
suele suceder, y que comúnmente alguna cara saldrá el 60%, 70 o incluso 90% de las veces que arrojes la
moneda. Esto no quiere decir que la moneda esté truqueada, o que la predicción de 50% de probabilidad sea
errónea, simplemente el azar causó que, en ese ensayo específico que hiciste, una cara saliera más que la otra.
La mejor manera que los científicos tenemos para reducir el efecto del azar es aumentar nuestro tamaño de
muestra o nuestra cantidad de réplicas (lo cual también aumenta la posibilidad de que esta muestra sea
representativa, como aprendiste al principio de esta práctica). Volviendo al caso de la moneda, cuándo crees
que sea más probable obtener un 100% de una sola cara: ¿si tiras la moneda 2 veces, o si la tiras 30 veces?
Como te dice la experiencia, “habría que ser demasiado suertudo” para en 30 turnos sacar solamente una
cara. De manera similar, si repites el ensayo de tirar la moneda 30 veces, algunas veces las proporciones
serán similares al 50%, otras no. Entre más repeticiones del ensayo hagas (réplicas), menos comunes serán
los casos donde obtengas proporciones lejanas al 50%.
Volviendo al ejemplo de las metodologías de enseñanza, ¿en qué nos puede afectar el azar? Imagina que, por
alguna razón, decides comparar estas metodologías con base a solo tres de los diez estudiantes de cada grupo,
lo que llamamos una submuestra. En la nueva metodología, debido a que las notas son menos dispersas,
cualquier submuestra que obtengas probablemente será parecida a otras; es decir, tus valores serán similares
entre las submuestras sin importar tanto qué estudiantes en específico escogiste. Sin embargo, con la
metodología usual, al tener esta una mayor dispersión en los resultados, puedes visualizar cómo tus
submuestras de tres estudiantes pueden diferir mucho una de otra según los estudiantes específicos que
incluyas. Como podrás prever, en ese caso, tus conclusiones, al comparar ambas metodologías, dependerán
muchísimo de la submuestra que escogiste (e.g. tus tres estudiantes de la metodología usual pueden ser
aquellos que obtuvieron muy buenas notas, dando la falsa impresión de que esta metodología es mejor).
Si en estos momentos estás pensando “Bueno, pero lo mismo aplica para las muestras relativamente
pequeñas de 10 estudiantes…” ¡tienes toda la razón y vas por buen camino! Sería muchísimo mejor tener
una muestra de 30, 50 ó 100 estudiantes. Por esto es que los científicos, a la hora de documentar nuestros
resultados, ¡siempre documentamos el tamaño de muestra que utilizamos!

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
8

Distribuciones de frecuencia e histogramas

Otro concepto estadístico que aprenderás en esta práctica es el de distribución de frecuencia. Aunque te suene
complicado, una distribución de frecuencia es sencillamente cómo se distribuyen las frecuencias de valores
en un conjunto de datos. Es decir, cuáles valores son más frecuentes que otros. Una manera sencilla de
representar esto es con un histograma. Imagina que, utilizando el ejemplo de la moneda, haces un ensayo
donde lanzas la moneda 10 veces y anotas el número de ‘escudos’ que obtienes; luego, repites esto hasta que
tengas 100 réplicas. Con estos datos puedes obtener un gráfico como el que se muestra en la figura 1. En esta
figura, cada columna representa qué tan común fue obtener distintas proporciones de escudo en el total de las
réplicas (e.g. según la figura, el obtener solo 2 escudos en los 10 lanzamientos ocurrió solo en 2% de las
réplicas). Entre más alta la columna, más réplicas tuvieron esa proporción o valor. Esto es una distribución de
frecuencias, ¡¿sencillo no?!

Figura 2. Distribución de frecuencias para el número de “escudos” obtenidos en 100 ensayos de lanzamiento de una
moneda; en cada ensayo se lanzó la moneda 10 veces.

¿Qué pasaría si en lugar de los datos discretos del ejemplo anterior tienes datos continuos? Volviendo al
ejemplo de las metodologías de enseñanza, imagina que aumentamos nuestra muestra de estudiantes, y, a lo
largo de varios semestres, logramos compilar unos 130 estudiantes. En este caso, las columnas del
histograma representan rangos que agrupan datos (Figura 3); de lo contrario, todas las columnas serían bajas,
al ser poco probable que un mismo valor exacto se repita (sobre todo si usas decimales).

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
9

Figura 3. Distribución de frecuencias para las notas obtenidas por los estudiantes de un curso al aplicar la metodología
usual de enseñanza. Notas mayores a 100 son posibles debido a puntos extra. La nota promedio de estos
estudiantes fue de: 61.6±7.6.

Los histogramas o distribuciones de frecuencia que ves en las figuras anteriores tienen otras propiedades muy
interesantes. Por ejemplo, puedes ver que ciertos valores “medios” son muy comunes, mientras que valores
extremos son muy raros. En efecto, entre más se aleja un valor de los valores medio, más disminuye su
frecuencia. Este tipo de distribución es bastante común en la naturaleza, y se aproxima a lo que se conoce
teóricamente como distribución normal (el nombre se debe precisamente a lo normal que es que las variables
muestren esta distribución). Esta distribución representa una de las mayores bases de la estadística, ¡la
detallaremos brevemente en la siguiente sección!
Por el momento, ¿puedes imaginar alguna relación entre esta distribución y los estadísticos promedio y
desviación estándar? Si lo logras, estás mucho más preparado de lo que imaginas para entender la
estadística.

La curva de distribución normal


A medida que aumentamos el tamaño de muestra de una población con distribución normal, la diferencia en
la altura de las columnas se vuelve cada vez menor (tampoco hay espacios entre columnas, como ocurrió en
la figura 2 debido al azar). Esto nos produce un área que puede ser mejor descrita con una curva como la que
observas en la figura 4. Por esta razón, a la distribución normal también se le refiere como curva de
distribución normal o curva con forma de campana, debido a su forma.

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
10

La distribución normal tiene una propiedad interesantísima, y es que esta puede ser construida a partir de
¡dos parámetros únicamente!: el promedio y la desviación estándar (Figura 4). Eso significa que, con solo
saber esos dos datos acerca de una población, básicamente conoces el resto de los datos, ¡¿increíble no?!
Observa esta figura con atención: verás que el 68.2 % de los datos se encuentra a una desviación estándar del
promedio, y que, si duplicas la desviación estándar, esto comprenderá el 95% de tus datos (95.4% para ser
exactos; redondeado al 95%). En otras palabras, solo el 5% de tus datos se encuentra a dos desviaciones
estándar del promedio.
Para que entiendas el poder predictivo de la distribución normal, supongamos que la distribución de notas de
estudiantes de la figura 3 se ajustan a esta curva. Esto implicaría que, cada vez que apliques esta metodología
de enseñanza (y siendo el resto de las condiciones iguales), podrías esperar que solamente el 5% de los
estudiantes vaya a obtener una nota fuera del rango (46.4–76.8). Esto equivale al promedio ± 2 desviaciones
estándar (¡corrobóralo con los datos de esos estadísticos que aparecen en la figura 3!). Siendo más específicos aún,
podemos decir que solo el 2.5% de los estudiantes tendrán una nota menor a 46.4, y solo un 2.5% tendrán una nota
mayor a 76.8; ¡¿lo ves?! un 2.5% está a cada lado de la curva, como se muestra en la figura 4.
Como ves, esta curva no solo te da una idea de cómo deberían estar distribuidos los valores en tu muestra,
sino que ¡también en la totalidad de tu población de estudio! Por supuesto, esto dependerá de: 1) si tus datos
siguen realmente una distribución normal; y 2) que tu muestra sea lo suficientemente representativa de tu
población como para que los estadísticos que obtuviste realmente reflejen a los parámetros que representan.
Para asegurarte que el segundo punto se cumpla, puede siempre pensar en cómo realizar tu muestreo o
aumentar el tamaño de la muestra. En cuanto al primer punto, existen cálculos para analizar si tus datos se
ajustan a una distribución normal. Dichos cálculos y metodologías escapan el objetivo de este curso, pero,
para que lo tengas en cuenta, existen maneras de normalizar datos que no se ajustan a una distribución
normal (i.e. aplicando transformaciones que los “vuelven” normales). De igual manera, existen pruebas
estadísticas que te permiten analizar datos que no sigan una distribución normal sin necesidad de
normalizarlos.

Figura 4. Curva de distribución normal o “campana”, mostrando el porcentaje de datos que se encuentra entre cada
rango definido por la desviación estándar del promedio.

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
11

Comparando datos y obteniendo conclusiones


Para finalizar, en la práctica anterior aprendiste que un experimento consiste en comparar los datos obtenidos
para la variable dependiente en cada uno de los tratamientos que usaste (tanto los experimentales como el
control). Si hay diferencias entre los tratamientos, quiere decir que tu variable independiente tiene un efecto
sobre la dependiente (siempre y cuando hayas controlado otras variables que pudieran afectar la
dependiente). Pero ¿cómo dices si un juego de datos difiere de otro? Para esto, los científicos utilizamos
mucho las gráficas que resumen la tendencia central de los datos y su variación, haciendo uso de la
distribución normal (Figura 5; observa que aquí las barras de error representan dos desviaciones estándar en
lugar de una).

Presta atención a estas figuras. Verás que en algunas situaciones es fácil decir si dos juegos de datos
(tratamientos) son diferentes entre sí (Figura 5A y 5B); sin embargo, esto es más difícil en otros casos
(Figura 5C y 5D). En la figura 5A, “a ojo” puedes decir que los datos son diferentes con bastante certeza, al
fin y al cabo, sus promedios son distintos, y, aunque la variación es substancial, casi no hay traslape en las
barras de error. En la figura 5B, más bien podrías decir que no hay diferencias entre los tratamientos; al fin y
al cabo, sus promedios son casi iguales y hay bastante traslape entre la poca variación que estos muestran.
Sin embargo, en la figura 5C, aunque los promedios son muy distintos, hay bastante traslape en las barras de
error; es decir, algunos datos de cada tratamiento también existen en el otro a menor o mayor frecuencia. En
la figura 5D, los promedios son muy similares, sin embargo, uno de los tratamientos presenta una variación
altísima en comparación con el otro. ¿Qué haces en estos dos últimos casos? Por ahora, probablemente
decidas decir algo como “parece que hay algún efecto, pero hay mucha variación en los datos para concluir
algo con certeza”. Si te parece que esto es un poco ambiguo, estás en lo correcto, y en una práctica más
adelante veremos procedimientos objetivos para tomar estas decisiones sin necesidad de que concluyas cosas
“a ojo”. Por el momento, nada más preocúpate por decidir si los datos parecen apoyar o no tu hipótesis.
Enfocándonos en los casos menos ambiguos (Figs. 5A y B), diríamos que en el primero los datos apoyan tu
hipótesis de que la variable independiente tiene un efecto (i.e. diferencia entre los tratamientos), mientras que
en el segundo no; ¿cierto?

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General
12

Figura 5. Cuatro comparaciones de dos tratamientos distintos. Las columnas muestran el promedio, y las
barras dos desviaciones estándar de una variable imaginaria (puedes interpretar las unidades como desees;
e.g. porcentajes o centímetros).

III.- PROCEDIMIENTO EN EL LABORATORIO


Para ayudarte a comprender mejor los conceptos de muestra, población, y distribución de frecuencia, en esta
práctica de laboratorio haremos varios ejercicios. Trabajaremos haciendo varias muestras de una población
que conocemos en su totalidad, calculando en cada caso los estadísticos del promedio y la desviación
estándar a mano. Además, aprenderás a elaborar e interpretar gráficos de barras como los que se muestran en
la última figura.

Todo esto lo harás bajo el marco de un experimento hipotético escogido por tu profesor, así que la práctica
también servirá como repaso del diseño experimental y los conceptos del método científico que aprendiste
durante la práctica anterior.

Prohibida la reproducción parcial o total de este manual


UNIVERSIDAD DE COSTA RICA
Soley-Guardia M. & Romero Vásquez A. Manual de Laboratorio de Biología General

También podría gustarte