Está en la página 1de 22

REPASO DE LOS CONCEPTOS BÁSICOS DE ESTADÍSTICA QUE SE REQUIEREN

PARA MEJORAMIENTO ANIMAL.


1º Clase Práctica:
De acuerdo a lo que habíamos previsto vamos a hacer el repaso de los conceptos de
estadística por lo menos de lo que necesitamos para Mejoramiento. Vamos a partir de un
acuerdo general, así de entrada, vamos a partir de un concepto que puede ser discutido, pero
nosotros lo asumimos como real y es que la Estadística no es una rama de la Matemática,
seguramente se la habran dado así!!!.
La estadística es una ciencia propia, es la ciencia de los números, la ciencia de la
información, que usa a la matemática como un medio, como la usa la física. En la física
poníamos "espacio/tiempo= velocidad"...ahora: la velocidad ¿nace a partir de esa fórmula?
o ¿la velocidad existía de antes?.Si, la Física es una Ciencia Natural!! Esto es lo mismo, la
Estadística también es una Ciencia Natural, hay un comportamiento de los números normal
que es Natural, que existe desde que el concepto de los números existe y la matemática es
solamente una herramienta que nos permite interpretar los fenómenos, nos ayuda a
interpretar fenómenos y porque necesitamos de alguna manera entender y describir la
realidad.
La Estadística se ocupa de la recolección, agrupación, presentación, análisis e
interpretación de datos y ayuda a tomar decisiones.
La Estadística además actúa como disciplina puente o de enlace entre los modelos
matemáticos y los fenómenos reales.
Un número, un símbolo: modelos para interpretar la realidad.
¿Conoces un numero 3? ¿Viste caminar un numero 3? Un cinco por ejemplo viste?
¿Cruzando la calle? que es? ¿Que son los números entonces?.
Es un símbolo, si un símbolo sirve para muchas cosas, pero en realidad más que un
símbolo es un modelo. Es una forma de representar la realidad, no es la realidad misma…
Fíjense que interesante! El Cero… es la abstracción total, pero es un símbolo, símbolo del
vacío, de la nada no? y eso lo representamos, lo metemos al modelo, sino tuviéramos el
cero buena parte de las operaciones de la matemática que tenemos que hacer, no podríamos
hacerlas. Pero bueno, en definitiva, cuando nosotros intentamos interpretar la realidad, le
buscamos la vuelta, obviamente este sistema numérico nuestro es decimal porque tenemos
diez dedos, entonces lo más fácil, lo intuitivo que empezó a usar el hombre primitivo es
empezar a contar con los dedos y seguramente el primer símbolo seria hacer señas que era
la forma de comunicar algo, eso es un poco lo que representa la simbología numérica.
Entonces esta teoría de los números, esta ciencia exacta que llamamos “matemática”, nos
sirve nada más que para eso, para expresar o poder de alguna manera, comunicar algo que
queremos comunicar. Pero lo primero que estamos intentando es interpretar la realidad y la
realidad que interpretamos, para nuestra desgracia, siempre es compleja, nosotros decimos
en semiología que tenemos signos y síndromes, la semiótica...La semiótica es eso: estudio

1
de los signos. Se dice: " de alguna manera me tengo que comunicar con alguien y decirle lo
que vi" ahora, ¿qué representa lo que vi? Cuando yo digo, tiene hipertermia... ¿qué es eso?
¿Qué me dice? En sí mismo no me dice nada, es un signo, nada más que eso, obviamente
está sometido a la interpretación...alguien le encontrará o interpretará la etiología de eso y
la consecuencia de eso, pero sigue siendo un signo... En toda nuestra vida cotidiana
trabajamos con modelos. Posiblemente lo más raro es pensar que la Anatomía es un modelo
no? Lo más concreto que hemos estudiado hasta el momento es la anatomía ¿no?...
disecábamos, cortábamos, a abríamos, sacábamos, poníamos, no? Sin embargo cuando veo
un animal vivo... veo un área determinada, pero tengo una enorme abstracción, ¿Se ven los
músculos del animal vivo? Más o menos visibles pero, el Psoas Menor o el Psoas Mayor...
¿lo vemos? ¿Vemos el fémur? Se lo tiene tan internalizado tal que se dice ahí esta! ¿Pero lo
vemos? No, lo que pasa es que como lo hemos disecado, lo hemos estudiado, lo tenemos
incorporado, tenemos el modelo in mente. A un animal no le vemos el esqueleto, lo
pensamos como modelo…a donde están los distintos componentes y aparatos, vemos la
forma de los órganos, el esqueleto…Nuestra cabeza trabaja de esa forma, simbólica, pero
no como un símbolo en sí... sino algo más complejo… un modelo: grupos de símbolos que
representan algo. Esto es básicamente igual con la Estadística, cuando nosotros tenemos
que enfrentar un fenómeno numérico, nos encontramos con ese problema y de alguna
manera tenemos que poder manejarlo y tenemos, por otra parte, la posibilidad de utilizar
los principios matemáticos para seguir describiendo o armando los modelos estadísticos.
Un modelo matemático es una abstracción simplificada de una realidad más compleja y
siempre existirá una cierta discrepancia entre lo que se observa y lo previsto por el
modelo (incerteza).
La Estadística proporciona una metodología para evaluar y juzgar estas discrepancias
entre la realidad y la teoría.
Nuestro primer problema, fundamentalmente en Mejoramiento Animal, es describir una
población, si bien nosotros nos referimos al individuo, lo tocamos, lo medimos, lo
clasificamos a ese individuo; en realidad no nos interesa el individuo solo, nos interesa la
población y esa población esta obviamente integrada por individuos. Entonces, ¿cómo
caracterizamos a esa población?...Lo que decíamos: “el peso al nacimiento de los terneros
es 28 Kg.” ¿que estoy diciendo? Estoy haciendo una aproximación, estoy buscando una
representación de ese carácter que sería: "peso al nacimiento" ahora esa expresión numérica
que yo dije... ¿que es?. Un promedio…es un promedio, es una media, podría ser una
mediana también, un estadígrafo, un parámetro, pero ¿qué representa eso?; ¿qué me dice
28 Kg.?. Si, la caracteriza a la población de terneros, esto significa de alguna manera que
representa a los 200, 300, 1000, 5000, 10000 terneros que quiero describir, ¿la debe
representar lo mejor posible?. Obviamente, la pregunta que nos surge después -la segunda-
es: ¿Lo representa? ¿Es cierto? ¿Todos los terneros pesan lo mismo? Obviamente que no,
ahora que connotación tiene eso de que “No” sean todos?

2
La variación
La variación, las diferencias dentro de una población es casualmente eso: la variación, lo
variable….entonces bueno el segundo concepto que se nos cruza en la cabeza es: hay
variación y si hay variación nosotros lo que medimos, el carácter o la expresión numérica,
es una variable. No hace falta hacer una definición muy formal de variable: es algo que
varía, algo que cuando se repite no tiene un mismo valor, algo que no es constante eso es
una variable. Ahí viene un gran problema: trabajamos con variables. Las variables antes
decíamos en Estadística: “pueden ser discretas, pueden ser continuas, pueden ser
categóricas o aún solo nominales”, hay distintas clasificaciones de variables. Pero tengo
una identidad, la variable, que en ese caso, tiene un comportamiento determinado y ahí ya
salimos de lo intuitivo y pasamos más a lo formal, ese comportamiento es un
comportamiento propio de los números, por eso decimos que no es “matemática” la
estadística, sino que es una “ciencia natural”.
La variable que medimos, es una variable fija si solo toma la escala fija de datos que
nosotros definimos previamente (3 clases de edades, por ej.) y solo desconocemos las
frecuencias con que se presentan en la población. A su vez podríamos decir que es una
variable aleatoria, si desconocemos su valor numérico y la frecuencia con que se
presenta cada valor numérico. Esto último implica que, una variable aleatoria tiene
una forma de ¨comportarse¨, lo cual está definido por una función, llamada función de
distribución. Entre las distribuciones más comunes, se encuentra la Normal.
Una variable aleatoria o estocástica es, a grosso modo, una variable cuyo valor resulta
de una medición, en un sistema que está sujeto a variaciones y que son debidas al azar o
son variaciones aleatorias.
Si tengo un número importante de datos, en la escala de una variable, grafico sus
frecuencias con estas “columnitas” con estas “barras de frecuencias”, y puedo de alguna
manera unir, la media de cada barra y da más o menos una figura característica a la cual
llamamos: “Campana de Gauss” una “Distribución Normal”… ¿Qué significa normal?
¿Cuál es la pregunta? ¿Cuál sería?
100 0.0050
Campana de Gauss
80 0.0040
0.0030
60
0.0020
40
0.0010
20 0.0000
0 -0.0010
-400 -320 -240 -160 -80 0 80 160 240 320 400

¿Un parámetro normal?. ¿Algo que está dentro de lo esperado?. ¿Algo que no está mal?.
¿Lo más común?. ¿Algo que está siempre ahí, algo que estuvo siempre ahí?. Interesante es

3
esta definición…”Algo que es esperable”. Es esperable que sea así, es esperable que se
comporte así. Ahora si hablamos de una variable, el concepto de esperable obviamente está
relacionado ¿a qué?... A un fenómeno que es la base de nuestra evolución, la base de
nuestro universo, que es muy interesante…La Variación. Se sabe que la estructura del
átomo, por ejemplo, no es así como la enseñaron durante muchos años. El modelo de
Bohr, básicamente en los átomos y los electrones y neutrones dan vuelta como si fueran las
orbitas de los planetas. Es un lindo modelo, pero es un espacio donde se mueven los
electrones, tiene un montón de variación, o sea que, es como decir que hay algo muy
constante muy invariable en la naturaleza es una mentira, todo es variable. Decimos que:
Las variables no son valores normales pero están dentro de parámetros normales. Eso es lo
que esperamos, si. La afirmación no obstante es deterministica, “Es, están”. Nosotros
esperamos…si estoy sujeto a un fenómeno estocástico o sea a un fenómeno aleatorio:
espero, estimo, predigo que sea así. Si solo digo “es así” es deterministico!!!, en definitiva
cuando yo digo ‘dos más dos da cuatro” ¿Qué estoy diciendo? Que es así. Ahora, ¿será así?
Esta establecido, esta arbitrado y normado así. O sea, eso es deterministico (determinado a
priori). Esa es la forma posiblemente más elemental o más segura de manejar una variable,
es decir, pensar que no varía. Asumo que es así y ya está. Y lo deterministico y lo
estocástico siguen siendo modelos ambos, uno más sencillo y otro más complejo. Por ahí,
si decimos dos más dos… ¿Qué cosa? “y…2 gramos más 2 gramos” por ejemplo, dos
gramos que yo peso con una balanza sin mirar…”dos más dos cuatro”….No, pero si la
balanza no tiene decimales, pesa redondo, entonces siempre va a ser así. Está bien, en ese
caso ya estoy definiendo que es una variable discreta. O sea que va pesar 1, 2, 3, 4 grs. Pero
si mi balanza tiene dígitos decimales esto puede ser por ejemplo: 2,2 + 2,1, ¿sigue siendo
4? NO…Si= 4,3. Claro pero ¿puedo seguir Esperando que sea 4?. Esta ´E E´ muchas veces
significa eso: “Esperanza”. Laplace cuando la define le pone “Esperanza matemática” en
vez de ponerle “algo Esperado”, porque esperanza es de alguien que espera ¿no?. Tengo la
esperanza ¿qué significa? Espero que te saques un nueve en el primer parcial de
mejoramiento…es un deseo, pero es un deseo posible!!!
Cuando decimos 2 + 2 posiblemente no sepamos bien si será así, pero si sabemos que,
siempre cuando tenemos una variable ésta está siempre sujeta a un factor de error o un
factor de ´ in-esperanza´ (incerteza) digamos, no sé bien que puede ser, tengo una
posibilidad de que no sea así. Lo establezco entonces por convención, volvemos así a los
números y a los modelos y a la simplificación de los modelos.
Pero bueno, ¿se dice que esto es invento de los matemáticos? Esa es la pregunta, ¿vino
Gauss y dijo “vamos a inventar una campana”? ya habían o existían las campanas. ¿O qué?
¿Es un invento de la matemática o un invento de la naturaleza? Si, es un invento de la
naturaleza. Y hay que ser justo, mucho antes que Gauss, otro hombre, Abraham de Moivre
-70 años antes por lo menos- ya descubrió este fenómeno e hizo esto que vemos en el
gráfico: de un montón de números, hizo clases de intervalo como hacíamos en estadística
(tablas de frecuencia), estos intervalos tienen un punto medio que no es necesariamente la
4
media, pueden ser dos valores entre 1 y 3 (2). Fijó ese punto medio y los juntó. Y una cosa
interesante: cuando tenía pocos numeritos daba cualquier ´forma´, para allá, para acá, flaca,
gorda, puntuda; cuando aumentaba la cantidad de números esto iba agarrando una formita.
El matemático y astrónomo Gauss (era astrónomo también!!), estaba midiendo la órbita de
los nuevos planetas que después de Galileo se empezaban a descubrir, que el sol no era
cierto que daba vuelta sobre la tierra? sino que era al revés…o sea que tenía muchos
números y como tenia miles de miles de miles de números empezó a ver que acá había un
problema. No podían ser clases, del 1 a 2, del 2 al 5. Sino que tenía una nube, tenía un
espacio, ahí viene recién la intervención de Gauss que lo integra al gráfico de frecuencias,
usa la matemática para sacar áreas, para calcular específicamente la porcioncita de esta
curva y como él no sabía muy bien donde paraba la cosa, porque estaba midiendo letra
chiquita, numero chiquitos, la invento encima asintótica…Esto no es cierto, o sea, nunca
corta, nunca cierra esta campana. Por supuesto que los números que están acá, en la cola,
son cada vez más chiquitos. Por eso la integral, que usa la teoría del límite que es lo que
uno hace cuando divide 1 sobre 3… ¿Qué da? O,3333….un millón de 3, nunca se va a
acercar...entonces la hizo asintótica.
En realidad a nosotros no nos interesan tantos números chiquitos, normalmente, nos
detenemos en un punto. En el siglo XX cuando Fisher armó las tablas que se usan en
estadística, la Tabla de Z - la tabla del área que está por debajo de la curva- asumió que +3
estaba bien y – 3 estaba bien. Lo que iba más atrás no tenía mucho sentido porque en la
naturaleza lo que nosotros manejamos no aplica, pero por supuesto que podríamos seguir a
5, -5; 6, -6 porque inclusive acá puso dos simbolitos (∞), este simbolito famoso (8
acostado) que quiere decir infinito…más infinito, menos infinito.

Ahora bien, cuando uno ve esto y ve el ´formulosonon´, dice “Esto es incomprensible, esto
es una elucubración de los matemáticos, esto no se ¨qué significa¨. No significa ninguna
cosa rara, simplemente son dos formulas integradas. Una de ellas calcula el área
redondeada de cualquier porción por debajo de la curva (por eso π, pi) y tiene la otra
formulita acá que dice “varianza (σ)” y nos permite a nosotros estandarizar cualquier valor.

X: valor puntual; µ: media poblacional; σ: desvío estándar poblacional


¿Para qué estandarizar? Para eliminar el problema de la magnitud, para eliminar el
problema de la medida de la variable, de la unidad con la cual se mide…Si no la
estandarizo debería tener una tabla para cada variable existente del planeta, o sea, casi
infinitas tablas, lo más fácil es estandarizarla y esta es la forma de estandarización (valor
puntual menos la media, dividido el desvío) y me da un valor estándar (Z). Ese valor
estándar me ubica en algún lugar de la curva y eso lo puedo aplicar para cualquier medida
5
sea el “peso al nacimiento” “peso a la faena” sea el “diámetro medio de la fibra” sea el
“contenido de grasa butirosa”, para dar variables que se expresan en unidades totalmente
diferentes, sea la longitud de una bacteria…. ¿Cuánto mide una bacteria? Algunas de 3 - 5
µ (micras)!!!. Si mido un montón de bacterias obviamente no van dar lo mismo, tengo un
error de medida, tengo un error sistemático porque depende de cómo la vea a la bacteria
pero bueno la estandarizo y la puedo ubicar debajo de una curva.
Tenemos familias de curvas que están definidas por parámetros y la distribución normal
que dijimos recién es solamente la que tiene media cero y tiene varianza 1 y después
podemos tener otras curvas. Ahora, si nosotros no tuviéramos esas especificaciones ahí y
nos encontramos con estas familias de curvas… ¿Qué pensamos? Que esta es la normal
¿Si?... ¿y las otras?

CCuuaattrroo ccuurrvvaass ddee ddiissttrriibbuucciióónn ddee


ffrreeccuueenncciiaass ddiissttiinnttaass,, ssoolloo llaa vveerrddee
eess llaa NNoorrmmaall ((m meeddiiaa==00;; ddeessvvííoo== 11))

La curva esta confeccionada con este parámetro ‘Z’ que es igual a: Xi menos Xmedia,
sobre desvío. Sea de lo que fuere, las unidades ahí adentro son siempre las
mismas…Negativo a la izquierda, positivo a los derechos. La curva larga e infinita como la
azul, tengo esta otra que sería azul que es gorda y petiza. Son distintas, evidentemente son
distintas y si yo calculara el área debajo de la curva me daría valores distintos.
Si, una misma curva, con un ‘n’ grande y con un ‘n’ chico son distintas, son distintas en
forma. Si se hacen diez tomas de datos, puede dar una curva, en una población si se agarra
diez al azar puede dar una curva y puede no ser representativa de una población. Es más
representativa de la población mientras más datos entren en la curva….¿Y porque es más
representativa? ¿Porque más se acerca al número real?. En principio quiere decir que,
(interpretemos que) ¿hay un patrón de comportamiento de los datos que tiene que ver con
el ‘n’? . O sea que hay una relación con la cantidad de datos. Bueno eso se llama “Teorema
de la desigualdad de Tchebyschev o de los grandes números” o sea el famoso ejemplo de
macho y hembra en los mamíferos y en aves.
Ley de los Grandes Números:
Al respecto es interesante considerar el Teorema básico de la probabilidad frecuentista:
La ley de los grandes números, también llamada ley del azar, que afirma que al repetir
un experimento aleatorio un número de veces, la frecuencia relativa de cada suceso
6
elemental tiende a aproximarse a un número fijo, llamado probabilidad de ese suceso.
Así la probabilidad de un suceso es el número al que se aproxima su frecuencia relativa
cuando el experimento se repite un gran número (∞) de veces.
Entonces la pregunta que yo les voy a hacer es, el hombre dice: “acá me han nacido más
machos que hembras” La anamnesis dice bueno, yo no tengo la respuesta, pero pregunto.
¿Qué pregunto? Yo no estoy viendo la población no? . Son probabilidades? (esa palabra no
la puedo usar, están prohibida en este caso, ni probabilidad, ni azar…¿Cuántos partos
tenes?. Eso! ¿De cuántos partos estamos hablando?...Cuando ‘n’ tiende a infinito, cuando
es grande el ‘n’, cualquier proporción se puede explicar. Cuando ‘n’ es chico no, o sea si
me tiene que dar “miti y miti” me puede dar cualquier cosa si ´n´ es chico. Recién cuando
me acerco a los 500 partos, puedo decir es cierto. Ahora mientras tanto ¿de qué hablamos?
“hablamos de probabilidad” claro… eso es básicamente el problema que tenemos en esta
cuestión. Inmediatamente después como consecuencia de la misma ley, del mismo teorema,
está el “teorema del límite central” o “teorema central de límite” que es lo mismo. ¿Qué
dice ese teorema? Todas las distribuciones tienden a ser normales cuando ‘n’ tiende a
infinito. Podría ser que esto fuera un par de alelos…la genética no tiene distribución
normal, porque trabaja de a dos, los cromosomas se dividen en dos, todo se divide en dos,
‘A’ (a grande) y ‘a’ (a chica), la frecuencia de uno es la frecuencia del otro menos 1.
Entonces por qué? hablamos de distribución normal y todo eso. Porque cuando el ‘n’ es
grande obviamente tiende a ser una distribución normal, podría ser (¿?) distribución de
Poisson, Chi cuadrado, pero todas tienden a ser normales. Ya tenemos dos reglas
importantes que se transforman en restricciones del modelo, cuando yo digo distribución
normal, como modelo que estoy diciendo, tengo que ponerle restricciones. Distribución
normal para un ‘n’ grande y una distribución que tienda a ser normal, por esa misma
consecuencia, si no puedo decir eso.
El teorema del límite central o teorema central del límite indica que, en condiciones muy
generales, si Sn es la suma de n variables aleatorias independientes, entonces la función
de distribución de Sn «se aproxima bien» a una distribución normal (también llamada
distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema
asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes
es lo suficientemente grande.
El Teorema del límite central establece que bajo ciertas condiciones (como pueden ser
independientes e idénticamente distribuidas con varianza finita), la suma de un gran
número de variables aleatorias se distribuye aproximadamente como normal.
La importancia práctica del Teorema del límite central es que la función de distribución
normal puede usarse como aproximación de algunas otras funciones de distribución. La
exactitud de estas aproximaciones depende del propósito para el que se necesiten y de
la tasa de convergencia a la distribución normal. Se da el caso típico de que tales

7
aproximaciones son menos precisas en las colas de la distribución normal.
Es bastante intuitivo comprender que el Teorema del Límite Central es una consecuencia
simplemente del teorema central de la probabilidad frecuencial, la Ley de los Grandes
Números o Teorema de Tchebycheff cómo también se lo conoce.
Ajustes a la Normalidad
Claro, ni siquiera usando los innumerables test de evaluación de normalidad que hay, uno
tiene la medida exacta para tomar una decisión. Siempre juegan elementos de sentido
común y fundamentalmente juega la realidad, porque tengo los datos, es lo que tengo y me
pasó lo que me pasó, no puedo revertir esa situación… si puedo decir “bueno no confío en
la realidad porque la distribución es no exacta” es un problema!!!. Puedo tener otra cosa
distinta en vez de tener esa situación que es lo que se llama “sesgo”….se refiere a la forma
de la curva, es más o menos simétrica. Todas son simétricas, son iguales a la derecha que a
la izquierda. Pero puede ser que tenga una curva sesgada. Si está cargada (mayores
frecuencias) a la derecha decimos que tenemos un “sesgo positivo”, si está cargada a la
izquierda decimos que tiene un “sesgo negativo”. ¿Que es lo que más comúnmente se
presenta en nuestros datos? pueden pasar un montón de cosas, entonces bueno ya tenemos
una situación…pero bueno independiente de esa situación anecdótica, tenemos una cosa
muy interesante que es éste comportamiento de los números, pero necesitamos llegar a un
punto, necesitamos poder estimar esta curva o ubicar esta curva de alguna forma. Para eso
ya tenemos la media. La media generalmente es sencilla porque es la sumatoria de los datos
que dio ‘n’ , sumatoria de ‘x’ divido ‘n’ es el promedio, el promedio de los datos pero…
¿Qué nos falta? ¿Qué nos falta para estandarizar los datos? La varianza.
¿Qué es la varianza? Es un promedio ¿de que? … de las variaciones. La variación es
siempre un promedio de las diferencias. ¿Cómo calculo la varianza? …La suma de las
diferencias al cuadrado. Bueno ¿por que al cuadrado? ¿Por qué nos complicamos con el
cuadrado? cm2, mt2, kg2…Para que no nos de cero!!!
ESTIMACIÓN DE PARÁMETROS
Media

Varianza

Veamos entonces, esto (-2.35) lo elevo al cuadrado, esto (2.87) lo elevo al cuadrado, esto (-
2.46) lo elevo al cuadrado... Ese es el artilugio del matemático que me permite calcular el

8
promedio de las diferencias sin tener el bloqueo de la propiedad de los desvíos, la
propiedad de los desvíos que la sumatoria da cero.
Observaciones Xi Xi - Xm (Xi - Xm)^2 La suma de los desvíos siempre
1 4,55 -2,35 5,50 da 0000!!!!
2 9,77 2,87 8,26 Σ(Xi - Xm) = 0
3 4,43 -2,46 6,06
4 8,89 2,00 4,00
5 7,95 1,06 1,12
6 9,62 2,73 7,45
7 1,55 -5,34 28,54
8 7,44 0,55 0,30
9 7,83 0,94 0,88 s^2 s
6,89 0,00 62,11 5,90 2,43

Bueno ahí se presentó una discusión, si la división era sobre n-1 o era sobre ‘n’. Por la
misma propiedad de los números, o sea por la ley de los grandes números, se ha
demostrado empíricamente (eso significa que no hay matemática, o sea que el
comportamiento es así), que debajo va n si n≥30, cuando n≤30 si ponemos sobre ‘n’ se
distorsiona el resultado, porque tiene mucho peso el efecto de la media. O sea que si yo acá
le pongo ‘n’ estoy trabajando incluyendo la media, entonces le pongo ‘n - 1’, de 30 para
arriba la ley dice que no hay problema es lo mismo.
Pero bueno, ¿Qué hago con este dato? Vamos a suponer que fuera… “camada de perros,
cachorros” nos dios 6,9 el promedio y nos dio 5,9² la varianza ¿hay cachorros al cuadrado?
No!!!
¿Qué solución le encuentran a ese problema? le saco la raíz cuadrada de √(5,90)= 2,43.
¿Qué me dice ese 2,43? Que bajo esta curva los tamaños de camada se distribuyen de
alguna forma, o sea el valor del desvío estándar 1 es 2,43 cachorros más grande que la
media o el σ=-1 que es 2,43 más chico que la media. O sea que nos da una idea muy
aproximada de lo que es la distribución, de lo que es la dispersión del tamaño de camada.
Por eso uso un valor real, podría graficarlo y manejarlo como un grafico, eso sería
posiblemente lógico pero no es muy práctico. Eso es la propiedad básica que tiene este
comportamiento de los números: normal, el comportamiento que tiene es normal porque es
el comportamiento que más se da. Si es el comportamiento que más se dá, significa que
puede no darse. O puede darse menos pero básicamente pienso que sí se dá.
Bien, inmediatamente a esto podemos definir, podemos aplicar la famosa Ley Empírica
que nos permite, para cualquier dato estandarizado, ubicarnos en algún punto de la curva y
en general nos interesa marcar las inflexiones; esta curva tiene varias inflexiones, tiene una
grande arriba y tiene tres por lo menos inflexiones abajo -o sea puntos donde cambia de
dirección- y esas inflexiones de la curva nos dan algunas cosas interesantes. Por lo menos

9
sabemos que más menos ( ±) un desvío estándar con respecto a la media está concentrado el
68% de la población de los datos (primera inflexión más gorda). A su vez una mitad -34.1%
y la otra mitad +34.1%, alrededor de la media!!

Eso lo tenemos que interpretar a partir de una teoría de la probabilidad que se llama “teoría
frecuentista” o “teoría de von Mises” que dice que la probabilidad de un evento –un evento
es un acontecimiento aleatorio- es igual a la frecuencia con la cual se presenta el evento, o
sea que si yo ubicara cualquier punto dentro de este 68,2% puedo decir que la probabilidad
de encontralo en ese área es de 68,2% que es lo mismo que un evento que suceda dos veces
a la semana. Si busco la otra inflexión que es aproximadamente 2, (no es exactamente 2, es
1,96) digo que está encerrada el 95,4% de la frecuencia por lo tanto cualquier punto que
caiga ahí dentro, tiene esa probabilidad del 95,4% de estar, es como si estuviera sucediendo
una vez por mes. “Una vez por mes voy a tal lado” y ¿Cuál es la probabilidad que vaya a tal
lado? El 95,4%. Puedo ser extremista y mandarme a la otra inflexión que me dice que esta
frecuencias ahí es igual a una vez por año, “cuando voy al médico”. Resumiendo:
Rangos Frecuencia esperada Frecuencia esperada Frecuencia aproximada
dentro del rango fuera del rango para eventos diarios
μ - σ, μ + σ ~2/3 o 4/6 o 68,26%: ~1/3 o 2/6 o 31.7% Dos veces a la semana
μ - 2σ, μ + 2σ ~ 21/22 o 95,44% ~1/22 o 4.5 % Una vez cada tres
semanas o una vez al mes
μ -3σ, μ + 3σ ~ 369/370 o 99,74% ~1/370 o 0.27% Una vez por año
Entonces, esto me permite ubicarme bastante bien en algo. Volvemos al principio, cuando
decíamos la media representa a los valores que habíamos dicho, camada de cachorros, esa
media de 5,9 ¿Qué me dice? ¿Representa realmente a esto? Bueno, multipliquemos… ¿raíz
cuadrada de 5,9? Necesito calcular el error estándar y el intervalo… . Resultado= 2,43 x
1.96=4.8. O sea que ubico a la media del tamaño de la camada, más y/o menos 4,8, dentro
del 95%... O sea que acá, tengo un elemento nuevo que me agrega confianza -por eso se
llama “intervalo de confianza”- a esa media obviamente que con ese error no me puedo
10
jugar mucho, no puedo seleccionar perras por tamaño de camada!!!, seguramente necesito
un poco más de datos. Pero bueno, en el supuesto caso que me tenga que jugar y me
pregunten ¿Cuántos cachorros va a dar? Y bueno, va a estar entre 2 - 11.6 en el 95% de los
casos y esto?. Por supuesto, que ese dato no lo tengo de una población importante de datos.
Puedo tener el dato o lo puedo tener de fisiología cuando le dicen “los valores normales van
de… a…”¿Qué quiere decir eso? ¿Ese rango que es?... lo que se está diciendo, que el 95%
de los valores están entre (2 y 11.6), esos son intervalos de confianza. Entonces ¿qué pasa
si tengo un valor extremo? Si no me da lo que teóricamente es “normal”. Por eso lo de
normal lo dejemos…es parte de lo que no está dentro del 95%, Que está dentro del
5%...Exactamente, pero no se olviden que es probabilidad, o sea el 5% que queda afuera no
existe? Ahí viene el punto…
Cuando describimos una población tenemos exactamente el mismo problema, decimos
“bueno está bien el peso al nacimiento es de 28 Kg., por ejemplo, está entre los +2,5 y los -
2,5 Kg” pero ¿qué pasa si tengo un ternero de 50 Kg?. ¿Puede nacer un ternero de 50 kilos?
Si, tengo que saber interpretar que pasó…Sigamos el comportamiento de los números.
En principio nos interesa porque nos basamos en confianza, ahora la confianza se puede
cuantificar realmente…Si ustedes le tienen confianza en una persona, ¿que dicen? “le tengo
confianza pero…” La confianza vuelve a ser lo esperado, volvemos al principio, yo espero
que esto sea así. ¿Espero cuanto? Y…espero una vez al mes, una vez al año.
Un detalle para pensar el tema de la curva, si nos hace mayor ruido el tema de la integral,
un cálculo aproximado es considerar un triangulo o dos triángulos en lugar de la campana.
Se supone que la curva es absolutamente simétrica, o sea serían dos triángulos equiláteros,
el área de un triangulo es: base x altura sobre 2 (si se acuerdan del primario), entonces
podemos calcular cualquier área, utilizando esta formula. Solamente la simplificación que
hacemos es la parte que se refiere a la curva porque el resto es exactamente igual, un
triangulo, ahí hemos calculado el ajuste que tiene la curva si fuera lineal, el ajuste de los
5%, o sea que no es un error muy grande que se cometería si se usara la hipotenusa del
triangulo como, la línea recta en vez de la curvita… por ejemplo si consideramos al desvío
estándar que debería ser aproximadamente el 5%, el cálculo con el triangulito nos da el 6%,
(6 redondeado porque es exactamente 5,87%) prácticamente da lo mismo ¿no?.
Simplemente para considerar de que no nos debe marear tanto ese hecho de que la
integración del área de bajo de la curva…etc., etc., se puede calcular de una forma más
sencilla y más cotidiana vean el desarrollo en el cuadro….
EJEMPLO DE CÁLCULOS DEL ÁREA DEBAJO DE LA CURVA O CAMPANA DE
GAUSS SI SE SIMPLIFICA CÓMO DOS TRIÁNGULOS EQUILÁTEROS. Usando la
fórmula del área de los triángulos en lugar de las integrales de la ecuación de densidad.

11
Claro, por ejemplo, cuánto vale el área debajo de la curva de este dos desvío estándar en
adelante? Y vale aproximadamente 6%, (la integral da= 5% y el triangulo= 6%), no es una
diferencia tan grave!!!. Si hablamos de probabilidad, entre 5% y 6% de probabilidad no hay
diferencia, “no se deja de morir o no se muere nadie por una diferencia entre 5% o 6%”.
Hablamos de que esto es una interpretación de la realidad, es una simplificación, es un
modelo en general, entonces tenemos que ir más allá de la realidad. La realidad nos dice
que normalmente las variables no funcionan solas, o sea, tenemos variables relacionadas:
una variable 1, una variable 2, variable 3, variable n. Por ejemplo, si estamos hablando de
“peso al nacimiento” posiblemente tenga que ver con el peso de la madre, si hay una
variable que la modifica a esa otra, lo que se llaman “variables concomitantes”, el peso de
un animal tiene que ver con la edad, o sea la edad va a modificar ese peso corporal por lo
tanto hay dos variables ya en juego. Cuando tenemos más de una variable en juego,
necesitamos otro tipo de análisis.
El primer análisis que se nos ocurre, si casualmente lo que estamos interpretando es la
variación, o sea tenemos que esas variables nos dan distintos puntos, es hacer un “análisis
de varianza”, un ANOVA o un ANAVA como debería ser en español.

La relación entre dos o más variables se puede dar de dos formas distintas:
 Asociativa: una está relacionada de alguna forma con la otra en forma numérica,
(regresión y correlación). Se dicen variables concomitantes.
 Modificativa: una variable modifica el efecto de la otra sin estar asociada
proporcionalmente (no-concomitante), (Análisis de Varianza).

12
¿Que es un análisis de varianza? inventado por Fisher a principios de siglo XX…Es un
análisis de discriminación de fuentes de variación. Detectamos variables no concomitantes,
pero una puede modificar o afectar a la otra: una variable Respuesta, una variable
Dependiente y podemos hacer varias cosas. Una de ellas es adjudicarle fuentes de variación
simplemente, sería un análisis de varianza modelo dos o aleatorio, que dice que por
ejemplo: la edad de la madre determina el 20% del peso al nacimiento del hijo. O que el
peso al nacimiento de la vaquillona, por ejemplo, de primera parición es menor, o
significativamente menor que el peso al nacimiento de una vaca adulta; eso sería una
ANAVA del tipo 1 o fijo. En ese caso la variable modificante es la edad y la consideramos
fija. ¿Qué significa que la consideramos fija? Que le asignamos valores determinados
decimos “edad 1, edad 2, edad 3, Juvenil, adulta1, adulta 2, vieja”. La aleatoria no, la
aleatoria es simplemente una variable continua, desconocida a priori, que modifica a la otra

Modelo II o modelo de efectos aleatorios.


Si las diferencias entre grupos no las crea el investigador sino que preexisten a la obtención de
los datos y el número de individuos en cada grupo viene dado por la existencia de grupos o
poblaciones naturales, se dice que el ANAVA corresponde a un modelo II o modelo de efectos
aleatorios. Ayuda a determinar cuánto de la variabilidad de una variable se debe a otra.
Matemáticamente el modelo es:
y ij    Ai   ij
Donde µ es el promedio poblacional; Aj es también el efecto "añadido", pero tiene naturaleza
aleatoria y el investigador no puede crearlo sino que su valor depende del grupo que ha sido
obtenido como resultado del correspondiente muestreo; Ɛj es la variable aleatoria denominada
residuo o error.
Entonces eso es simplemente el análisis de varianza, sigue ajustándose por supuesto a la
formula básica de la varianza. Podemos separar en sumatoria de cuadrados y cuadrados
medios, hay una fórmula de cálculo; no nos interesa entrar a la fórmula del cálculo …
interesa más la cuestión porcentual. Esta varianza simplemente la separamos en partecitas,
esto es ni más ni menos un análisis de varianza, por supuesto en estadística les enseñaron
que podemos plantear una hipótesis, la hipótesis demostrarla…No nos interesa en
Mejoramiento Animal ´testear´ la hipótesis, habitualmente no usamos hipótesis,
simplemente describimos lo que observamos y le damos un cierto grado de confianza a eso
que observamos.
En el modelo II (el que nos interesa en Mejoramiento Animal) no nos interesa la magnitud del
efecto A, ni en diferencias tales como la media del tratamiento 1 y la media del tratamiento 2.
Lo que interesa es la magnitud de σ2 entre los ¨A¨ y su magnitud relativa respecto de σ2 total
expresada en porcentaje. El componente agregado de la variancia entre grupos, σ2 A, estimado
por s2A, puede calcularse a partir de la tabla del análisis de la varianza. Los cuadrados medios son
estimadores de las varianzas; el cuadrado medio dentro es un estimador ¨directo¨ de la varianza

13
dentro de grupos, pero el cuadrado medio entre tiene las dos componentes juntas:
CMEntre = varianza dentro de grupos + tamaño de cada grupo * varianza entre grupos

Fuente MS Estimaciones

Entre CM entre 2 + n02A

Dentro CM dentro 2

Total

Asociación entre variables concomitantes (correlación y regresión)


La otra relación que hay entre las variables, es una relación de asociación. Casualmente la
edad, por ejemplo, determina el crecimiento…dá una curva determinada de crecimiento, o
sea hay una relación entre esas dos variables que podemos primero y fundamental ubicar en
el grafico, esto digamos podría ser el grafico de Galton por ejemplo “estaturas de los
padres” y “estaturas de los hijos”, establece que hay una relación entre las dos variables. Lo
primero que uno intenta hacer con dos variables asociadas es por supuesto graficarlas y
observar el grafico y observar el comportamiento. ¿Tiene una figura característica el
grafico este de puntos?
60
50
40
30
20
10
0
0 5 10 15 20 25 30

Hacen de alguna manera un agrupamiento podríamos, redondearla podríamos ubicarla


dentro de la nube, o podríamos hacer así, una dispersión uniforme de puntos en toda la
cuadricula, lo cual llegamos rápidamente a la conclusión que entre esas dos variables no
están asociadas. El primer paso interesante es establecer la media respectiva (acá tengo X
Coeficiente De Correlación Momento Producto De Pearson. Derivación d
media, acá tengo Y media) por lo tanto la puedo dividir en los cuatro cuadrantes…

40 y  30 ++

- 35
30
-+

25 -- x  17 +-
20
5 10 15 20 25 30

14
¿Qué será esto? ¿Cómo se definirá ese cuadrante de las coordenadas cartesianas, si la media
está acá ( x  17 ), lo que está a la izquierda de la media es….? Positiva o
Negativa?...negativa
La otra media esta acá ( y  30 ), lo que está por debajo de la media es negativa, así que
tenemos “negativo por negativo”. Arriba de la media a la derecha de la otra media…
¿Cómo será? ¿negativo por negativo como daba?...positivo; ¿positivo por
positivo?...positivo.
O sea que en principio esta correlación sería positiva, aunque tenemos una serie de puntos
también en la positiva-negativa, pero la mayoría de los puntos están en positivo por lo tanto
podríamos decir que es positiva. O sea que es una observación que también nos permite
hacer el grafico.
Sin embargo, para interpretarla numéricamente lo primero que se le ocurrió a Karl Pearson
(el primo de Darwin y también de Galton) era establecer el mismo principio que la
varianza. Si yo tenía esta impresión en las X, seguramente en las Y también tenía lo mismo,
lo primero que dijo Pearson es que cualquiera de estos puntos me representan el desvío de
‘x’ y el desvío de ‘y’ simultáneamente. Simultáneamente, significa de alguna forma, que
puedo multiplicar uno por otro, si puedo multiplicar uno por otro, lo primero que puedo
hacer es eliminar el cuadrado porque no tiene sentido el cuadrado, porque era para que no
sumara cero, al multiplicar uno x otro, no lo necesito. Entonces como primera deducción él
establece lo que se llama “Co-Varianza” que es simplemente: (Xi – Xm) x (Yi-Ym), por
supuesto siempre la sumatoria. Esa co-varianza tiene los mismos problemas que tiene la
varianza, o sea es un parámetro medio teórico también, sería como decir “al cuadrado” no
me dice mucho. Y acá tengo un problema adicional: tengo dos variables. Las variables
pueden medirse con unidades distintas. Podemos ver el ejemplo de Galton, que no se
entiende pero supongamos que de un lado sea centímetro y otro lado sea milímetro o sea
gramos… ¿Qué daría la Co-varianza? Me da algo que no tiene sentido. Entonces una
solución interesante que se le ocurrió a Pearson es no trabajar con los desvíos puros, sino
que estandarizarlos: “desvío estándar de x” “desvío estándar de y” o sea volvemos al
mismo artilugio de la estandarización de la distribución en la distribución normal, esto es
una forma de estandarizar la co-varianza, o sea que estos puntos ahora son, puntos
adimensionales, desaparecen las unidades de magnitud y pasan a expresarse en términos de
desvío exactamente como “desvío estándar de la distribución Normal”.
Ese es simplemente el artilugio que nos permite definir entonces correlación (r) como:

1
1  x - x  y - y  n 
  xy  x y Cov.x , y
r     
n  s x  s y  sx s y Des. Estan.x * Des. Estan. y
fórmula original fórmula de cálculo fórmula conceptual

15
¿Qué propiedad tiene esa “r”, ese Coeficiente de Correlación (correlación momento-
producto como lo define Pearson)?. Tiene algunas propiedades interesantes: una y
fundamental que cuantifica las asociación entre las dos variables. La cuantifica en -1 a +1.
En este caso, más positiva, me está diciendo que hay una cierta asociación. La no
asociación es por supuesto r= 0, o sea si los puntos estuvieran uniformemente distribuidos
en los cuatro cuadrantes esa r posiblemente sea 0 o muy parecido a 0; la otra situación
podría ser que fuera negativo: (negativo x positivo) multiplicado por (negativo x negativo)
me daría negativo, entonces tendría otra pendiente; la magnitud me dice el grado de
acercamiento o el grado de ´amontonamiento´ que tienen los puntos entre si, si la nube es
menos dispersa obviamente está indicando más cercano a 1, o a +1 o -1, si la nube está más
dispersa me está indicando más cercano a cero. Veamos la relación entre estatura de los
padres y la de los hijos, en estudiantes de Veterinaria:

Las correlaciones en nuestra materia normalmente no son extremas, o sea no son ni 1 ni 0,


están generalmente en el medio pero la pregunta inicial de Galton era ¿Es cierto que los
padres más altos, tienen hijos más altos? Esa asociación o relación requería otro tipo de
medida. La correlación no la daba, entonces él explica bastante bien este concepto de que
en realidad la estaturas de los hijos regresionan sobre la estatura de los padres, tienen una
resemblanza, tienen una nostalgia. Decía otra cosa más, que era un error conceptual,
“tiende a la media”, o sea “la estatura de los hijos tienden a la media de la estatura de los
padres”. Conceptualmente mal, desde el punto de vista genético, pero no desde el punto de
vista estadístico. Si miramos esta elipse, vemos que es cierto, hay una mayor concentración
de puntos alrededor de la media, la otra cosa interesante que vemos acá es que si la
podemos rodear de esos dos a tres elipses a todos los puntos podemos aplicar otro teorema
interesante, que el “teorema de Kramer”, que dice que: “cuando dos variables tienen
distribución Normal, su asociación léase varianza o lo que sea, también es normal”.

16
60
40
20
0
0 5 10 15 20 25 30

Si una variable tiene forma de campana o aproximadamente forma de campana para la


distribución normal, dos variables tienen la forma de elipse si tienen distribución normal. Si
tiene forma de megáfono están sesgadas. Si tiene forma de corneta o trompo están sesgadas
(las dos o una de las dos por lo menos) por lo tanto la desestimamos.

LIMITANTES DE LA CORRELACIÓN:
 Es solo una medición del grado de relación lineal, en cuánto los puntos se agrupan o nó
sobre una línea recta positiva (ascendente en y) o negativa (descendente en y).
 La correlación no implica causalidad de la relación, no dice nada que x afecta a y o
viceversa.
 Un dato inusual o ´fuera de foco´ causa un efecto importante sobre el resultado de r.
 Con pocos datos (n ´chico´) tiende a dar una correlación alta y significativa aunque no lo
fuera.
Pero la pregunta inicial de Galton sigue sin respuesta: ¿Es cierto que los padres más altos,
tienen hijos más altos?
Entonces bien, cuando Galton establece la regresión lo que hace manualmente traza una
línea más o menos les pasa cerca de la media de ambas variables o pasa la media variable -
depende de cómo la considere- y por trigonometría, a esto le da un valor a partir de y/x.
Pearson lo soluciona muy fácilmente al tema, desde el punto de vista del cálculo, Pearson
dice si estamos esperando que “y” regresione sobre “x” lo que tenemos que hacer a los
desvíos es estandarizarlos sobre x, y no cada uno sobre su respecto desvío, Entonces en
lugar de quedarnos “desvío de x por y” nos queda “varianza de x” y ahí tenemos la formula
de regresión.
1
1  x - x  y - y   xy  xy Cov. x , y
 
n  sX   sX 
 
n
sX 2 Var. x
fórmula original fórmula de cálculo fórmula conceptual
Ahora si podemos decir que los padres de 1,70 tiene una cierta probabilidad de dar hijos de
1,70… ya no que hay una asociación de tal magnitud sino le damos cierta proporcionalidad.
Es lo que hemos definido como “heredabiliad”. Esto, la b de la regresión, es igual a
heredabilidad, en ese caso, si conocemos la heredabilidad podemos decir que la
probabilidad de que así sea es del 60%.

17
Ahora tenemos una pendiente, lo otro era “nube de puntos” más o menos desparramada,
ahora tenemos una media más usable, digamos, porque tenemos la pendiente. Por supuesto
esto se adecua después a la ecuación de la recta (ŷ = a + b*x), podemos utilizar una
ordenada al origen, en este caso no tiene sentido porque la ordenada al origen es cero -no
hay ordenada al origen- pero si no trabajáramos con desvíos y trabajáramos con datos
reales, obviamente podemos establecer el valor que tiene “y” cuando “x” vale cero (a).
Bien, el análisis no termina de cualquier manera acá, porque nosotros vemos una nube de
puntos y vemos una línea, una línea que la representa. Volvemos a plantear una pregunta
inicial: representa la línea (de tendencia) a la regresión?.. representa... ¿qué cosa
representa?. Representa todos los puntos, si los representa, la segunda pregunta que es ¿cual
es? o sea que esa pendiente cumple la función de media, el representante de… todos los
puntos, pero, ¿Cuánto determina el valor de x el valor de y? ¿Es b una buena representante,
o una mala representante? O sea que, tenemos que poder establecer o determinar también
una medida de esa representatividad. Por eso, a partir de ahí se desarrolla el concepto de
determinación.
¿Qué significa determinación? En qué medida la pendiente, o “b”, o la regresión
determinan la varianza que produce: Y/x. Esa determinación tiene una magnitud que va de
0 a 1 (no dije -1, va de 0 a 1). ¿Por qué va de 0 a 1? Va de 0 a 1 porque se establece
matemáticamente que es igual a r x r ó r2 (R2, R mayúscula al cuadrado). Va de 0 a 1
porque si r fuese negativa: “negativo por negativo” da: positivo. Ahora, ¿Qué significa
esa R2?... ¿Cómo llegamos al R2?
Nuevamente tenemos el problema de los desvíos. Un punto cualquiera tiene una cierta
distancia a la ŷ (“y sombrerito”). La ŷ es igual a b por xi. Ese punto arriba o abajo de la
línea es el error, o residuo, o la distancia, o la diferencia que tiene con ese punto o el punto
que me está marcando la pendiente, en cada valor de x. Todos estos puntos son residuos, o
son diferencias con las ŷ. ¿Qué pasa si esos puntos los sumaría? ¿Que pasaría? ¿Cuánto
daría? Si esos puntos corren alrededor de la pendiente, por arriba positivo, por abajo
negativo, si los sumo ¿que me da?...cero!!.

60 b
40
20
0
0 5 10 15 20 25 30

Realmente tenemos problemas porque eso lo elevo al cuadrado?. Pero se seguiría


aproximando a cero?. En principio, la primera maniobra que se le ocurre al estadístico es
elevarlo al cuadrado, simplemente, esta ecuación como ustedes la conocen: el numerador lo
eleva al cuadrado, y le da una nueva dimensión, le da un nuevo valor que ahora sí, hay que
interpretarlo correctamente. ¿Cómo lo interpretamos? Si yo digo que es la sumatoria
18
cuadrática de los residuos o de los puntos evidentemente será “y” cualquiera menos “ŷ” al
cuadrado -el ŷ es el que yo siempre obtenía… el estimado, el predicho.
Coeficiente de determinación: una conexión entre regresión y correlación? El coeficiente de
Determinación y coeficiente de correlación de Pearson se relacionan simplemente como:
R2  r * r  r2
Esa es la varianza de lo residual pero ¿con respecto a qué?; acá tenemos dos problemas,
tenemos la varianza total y tenemos la varianza explicada. La “varianza explicada” son los
puntos que tocan o que están muy próximos a la línea, a la pendiente; los agrupados en cada
valor de x (recuadro rojo) son “varianza no-explicada” y todos componen la “varianza
total” (elipse grande), entonces es bastante fácil esto dividirlo por la varianza total -
sumatoria de varianzas- y así surge la formula conceptual de “R2”.

4.5
4 y = 0.6012x + 0.1766
R² = 0.8267 2.5
3.5
3 y = 0.1179x + 0.7662
2
R² = 0.3559
2.5
ŷ= 2.2
1.5
2
1.5 ŷ= 1.2
1
1
0.5 0.5

0
0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
Valores Y Columna1 Lineal (Valores Y) Lineal (Columna1) Valores Y Columna1 Series3 Lineal (Valores Y) Lineal (Columna1)

Fuentes de Variación asociadas a la Regresión:

 y  y 
2
Var.Total  i

Var. Explicada    y  y 
2

Var.no Explicada=   y  y 
2
i

Var.Explicada Var No Explicada


R2   1
Var.Total Var Total

donde: yi (y sub i) : valor real; yˆ (y sombrerito) : valor estimado; y ( y barra) : media


¿Qué me dice entonces el R2? Que ésta pendiente (elipse chiquita central) me explica un
cierto porcentaje de la varianza total, o sea que, si me da= 0,3 o 30%, solo el 30% del peso
al nacimiento esta explicado por el genotipo el otro 70% vaya uno a saber…que es
exactamente el mismo concepto de heredabilidad, inmediatamente deducimos que: R2 y
Heredabilidad son exactamente lo mismo.
Y dado que el R2 en realidad me representa estos puntitos, rápidamente me puede dar otra
utilidad. Si yo tengo una muestra de mi población en la cual establecí relaciones generales,
¿que pasa si yo sigo aumentando la cantidad de datos? Tengo mil datos y le agrego otros

19
mil más. ¿Va a cambiar mucho o va a cambiar poco?…esta es la pregunta que siempre nos
tenemos que hacer.
Conceptualmente el Coeficiente de Determinación es:
Sumatoria Cuadrática de los residuos o diferencia s
R2  1 -
Sumatoria Cuadrática Total
Podemos definir? :
 Var Total  Var Explicada  Var no explicada??  respuesta: Si!!!
Veamos un ejemplo real de cálculo de regresión y su correspondiente coeficiente de
determinación usando el programa Excell.

Cálculo automático de la regresión y el coeficiente de Determinación en Excell

: diferencias entre y estimado( ŷ ) e y real ( yi )

40 y = 0,5917x + 19,942
35
R² = 0,5041* r= 0,71

30

25

20
5 10 15 20 25 30

Esta demostración empírica nos permite visualizar el valor del coeficiente de Determinación como
un parámetro real de ajuste de la regresión. En este ejemplo podemos decir que la regresión
estimada como: y = 0,5917x + 19,942 solo explica el 50.41% de la variación de la variable
dependiente (y en este caso), mientras que el resto de la variación es explicada por otras variables
u otras causas no incluidas en la regresión y el consabido error aleatorio que siempre se produce.
Este R2 se llama también se lo llama Repetibilidad ¿si? . Por?. Porque en ese caso la
magnitud del R2 me está diciendo cual es la probabilidad de que cambie la pendiente (b) si
yo le agrego datos a x e y…Si es suficientemente alto el R2 es de esperar que no va a
cambiar, o sea que te dá, de alguna manera, una confianza a la pendiente. Lo mismo si
tengo una heredabilidad alta, la primera información que tengo del individuo ya alcanza
para estimar un Valor Reproductivo (lo que va a transmitir a su descendencia) y no va a
cambiar por más que le siga agregando mediciones sucesivas. Ese es el concepto de
heredabilidad en genética. O sea que el R2 es un concepto muy interesante de entrada…si
ya dedujimos “heredabilidad”. En realidad el (cálculo) matemático de heredabilidad, la
varianza aditiva, es solo una cuestión de eliminar términos y por supuesto es una asunción
de que: la varianza es solo aditiva, no existe “desvío debido a la dominancia” no existe
“epítasis” y los desvíos del ambiente se anulan entre sí. O sea que es una asunción, nunca
se cumple!!, pero es una asunción... Asumimos que es así, nos quedamos tranquilos, pero
20
bueno en la práctica después para empezar se necesitan muchos datos y relaciones de
parentescos, de igual manera sino tenemos relación de parentesco no podemos estimar
heredabilidad, salvo que tengamos mucha plata y mucho tiempo y seleccionando la
población durante 30 años… podemos determinar la heredabilidad deduciendo la respuesta,
pero eso no es aplicable a la práctica.
LIMITANTES DE LA REGRESIÓN:
 Heteroscedasticidad o heterocedasticidad: Las principales consecuencias que derivan del
incumplimiento de la hipótesis de homocedasticidad (distribución bi-normal o teorema de
Cramèr) en los resultados de la estimación son:
o Error en el cálculo del estimador de la matriz de varianzas y covarianzas de los
estimadores de mínimos cuadrados.
o Pérdida de eficiencia en el estimador mínimo cuadrático

Cerramos la relación o concomitancia de dos variables???


Es importante distinguir entre valor verdadero y valor predicho o esperado. El Valor
Aditivo Verdadero y el Valor Aditivo Esperado pueden ser bien distintos, dependiendo de
la cantidad y calidad de la información usada para la predicción. En su forma más simple,
una ecuación de predicción tiene la siguiente forma:
Valor predicho = coeficiente de regresión x “evidencia”
En el contexto del Mejoramiento Genético, la “evidencia” es usualmente algún tipo de
medida fenotípica (dato/s del propio animal, dato/s promedios de un grupo de parientes,
etc.).
Hemos hecho unos cuantos cambios de formula, derivaciones hemos hecho…dos o tres?
elementales hasta para chicos de primario, no hablamos del mínimo cuadrado, ni derivada
primera parcial, ninguna de esas cositas extrañas de los estadísticos….Por supuesto lo
primero que van a decir los estadísticos son “aquí le falta el termino del error” Bueno…si le
falta el termino del error. Pero bueno el termino del error lo estamos interpretando con esto
chicos, ahí está….el coeficiente de determinación de R2 lo está diciendo de alguna manera,
es la teoría que vamos a utilizar de ahora en más para calcular el error que tenemos en
nuestro Valor Reproductivo. Cuando estimamos Valor Reproductivo a esto lo
reemplazamos por una â (“a sombrerito”), en vez de tener una ŷ vamos a tener una â
simplemente, si tenemos el valor de “b” podemos estimar perfectamente esa ŷ sombrerito,
por supuesto, a partir de cualquier valor que tengamos en “x”. En “x” serán padre, serán
hermanos, y podemos establecer un error a partir del R2 sin buscar demasiadas
elucubraciones, por supuesto que podemos calcular una varianza y podemos usar la tabla
de t y podemos hacer todo lo que hacen los estadísticos pero en definitiva nos da lo mismo
y esto es definitivamente más sencillo, por lo menos conceptualmente, que nos interesa que
ustedes manejen.
A modo de conclusiones:
Los conocimientos de estadística nos ayudarán en Mejoramiento Animal para definir:
21
• Población: conjunto finito o infinito de elementos, denominados individuos, sobre
los cuales se realizan observaciones. La población está caracterizada numéricamente por
valores llamados parámetros. Generalmente éstos se simbolizan con letra griega. Ejemplos:,
todos los ejemplares de una determinada raza canina, la raza Merino en Argentina, etc.
• Muestra: subconjunto finito de una población. El número de individuos que forman
la muestra conforma el tamaño muestral. Todos los cálculos que realizamos sobre la
muestra, por ejemplo el promedio, el desvío estándar, la varianza, etc; también son
llamados ¨estadísticos¨. Generalmente éstos se simbolizan con letra latina minúscula.
• Variable o carácter: se refiere a cada una de las características que pueden
observarse en un individuo de la muestra o registro fenotípico. Ejemplo: podemos medir en
un sistema de producción de bovinos para leche: producción diaria de leche, porcentaje de
grasa, retorno al celo, duración de la lactancia; en un sistema de producción de chinchillas:
el sexo, tamaño de camada, color de capa, docilidad; etc.

22

También podría gustarte