Está en la página 1de 9

Statistics for human beings

An Introduction

La estadstica es la herramienta esencial de la experimentacin y esta


ltima a su vez es el paso crucial del mtodo cientfico. El hombre desea tener
el control de los fenmenos que le afectan y suea con que tal control le
permita predecir el futuro comportamiento de esos fenmenos. El deseo por el
control y el sueo de la prediccin son el principio de esta historia. No
obstante, no hay control ni prediccin si no hay antes un anlisis de
informacin dura en direccin al conocimiento profundo de los fenmenos.
Para definir que es Estadstica, un buen punto de partida es aclarar lo
que no es Estadstica. Los nmeros e, i & estn definidos en matemticas
como constantes y su valor no cambia aunque sean estimados en un sinfn de
ocasiones. Ahora bien, s se mide la altura de varios individuos similares en
general, se espera que cada medicin conduzca a un nmero diferente en la
recta real (i. e. : 1.01 y 1.001 para dos de ellos). El que el nmero sea
diferente implica que la altura de esos individuos es variable, o bien, es una
variable aleatoria. El concepto de variable aleatoria es uno de los pilares
principales en la definicin de estadstica; la estadstica no tiene aplicacin en
fenmenos donde no exista variabilidad o varianza en las mediciones de una
caracterstica dada. Elegantemente, se dice que cuando se trabaja con
constantes se trata de fenmenos o modelos determinsticos y que cuando se
trabaja con variables se trata de o procesos estocsticos (con variacin o
aleatorios). Dicho lo anterior, se puede aventurar una primera definicin: la
Estadstica es el estudio de los procesos estocsticos.
La varianza es entonces el concepto fundamental de la estadstica. Y con
el concepto de, varianza viene implcita otra definicin, la de rplica o
repeticin. La razn de esta estrecha relacin entre la varianza y la repeticin
de las mediciones se debe a que la presencia de variacin se puede solo
detectar si la medicin se toma ms de una vez. Y en efecto, no se toman
mediciones con fines de anlisis estadstico con un nmero de rplicas menor a
tres. As, si se pierde uno de esos datos las dos repeticiones restantes siguen
siendo rplicas una de la otra. Un segundo aspecto de la repeticin en una
medicin, es que si bien los datos deben ser valores diferentes para cumplir
con el requisito de representar una variable aleatoria, la distancia entre ellos
en la recta real no debe ser grande, dado que representan a un mismo valor
medido dos veces. Empricamente es fcil inferir que la confianza que una
persona tiene sobre un hecho se debe a que este ha ocurrido ms de una vez y
que el resultado no ha sido muy diferente entre tales veces. Si adems de
entender el fenmeno a partir de una o ms variables que lo definen y
construir una confianza emprica, se anotan los datos y se procesan mediante
procedimientos estandarizados, se construye entonces conocimiento cientfico.

Aqu podemos darle una segunda definicin a la Estadstica, es la ciencia


creadora por excelencia de conocimiento cientfico a partir de conocimiento
emprico.
El objetivo del tratamiento estadstico de datos es entonces conocer la
varianza a partir de mediciones replicadas, y la media no es sino un recurso
para conocer la varianza. Cuanto mayor sea la varianza de una variable, ms
sensible ser de modificar el fenmeno a partir de cambios en los factores que
provocan tal varianza. Cada uno de estos factores ser responsable de una
fraccin de la varianza total observada y por tanto la varianza ser la suma de
tales fracciones. Cada uno de los mencionados factores son variables tambin
y la relacin entre los cambios en uno de esos factores y los cambios en la
variable de inters, es una funcin que puede graficarse en el plano como
causa-efecto. Si la recta real se concibe como un lugar fsico y se anota un
punto en la posicin que corresponde a cada una de las mediciones, entonces
la varianza indica la distribucin de la mancha de puntos sobre la recta real
(tamao de la mancha de datos). Si solo dos factores son responsables de tal
mancha, una fraccin de esa mancha es debida a un factor y otra fraccin al
segundo.

Origen del error en la experimentacin


Una caracterstica medida en varios individuos similares dar origen a
variacin. Esta es la varianza implcita y natural de la variable y el objetivo de
las mediciones es conocer su magnitud. En condiciones ideales esta sera la
nica fuente de variacin y por tanto no existira un error en la estimacin.
Si los individuos en los que se toma la medicin tienen alguna diferencia entre
ellos, esto creara una variable asociada o explicativa. An con esta segunda es
tericamente posible no cometer errores si se detecta la varianza de la variable
de inters en dos o ms niveles conocidos de la variable explicativa.
Los errores en que se puede incurrir al conducir el experimento
(especificacin), al ejecutarlo (medicin) o al decidir el tipo de anlisis que se
debe realizar (de procedimiento) deben minimizarse para que el experimento
tenga validez cientfica.

Error de medicin
Al tomar una medida en un objeto, es posible cometer errores de precisin
dado el uso de un instrumento de medicin precario o inexacto, dada la falta
de experiencia o de responsabilidad del investigador que toma la medida, o
bien por obviar variacin natural de la caracterstica medida (en el tiempo) en
el objeto que se mide.
Error de especificacin
Adems de analizar la varianza de una caracterstica dada, es comn
analizarla en funcin a una segunda caracterstica. Esta relacin entre dos
variables o funcin de dos variables, no siempre se elige con certeza la
caracterstica que realmente causa la variacin de la caracterstica de inters.
Cuando una variable explicativa real no es ninguna de las que el investigador
ha especificado, incurre en el error de especificacin. Este error lleva consigo
una importante reduccin en el ajuste del modelo (R cuadrado).
Error de procedimiento
En la eleccin del procedimiento que realizaremos para analizar la serie de
datos, se debe verificar que todas las condiciones necesarias para aplicar el
procedimiento sean cumplidas. Cuestiones como el tamao de la muestra, el
tamao de la varianza o la distribucin de la mancha de datos ayudan en la
decisin. El ejecutar un anlisis sin verificar todas estas condiciones es un error
de enfoque. En algunos textos este error se denomina Error Tipo III.
Error experimental
Cuando se compara la varianza de la caracterstica de inters en dos o ms
valores (niveles) de alguna otra caracterstica relacionada, toda la varianza
observada en la primera deber ser explicada por el cambio en la segunda. La
segunda variable es la explicativa o independiente y la primera es la variable
dependiente. Ahora bien, toda varianza observada que no pueda ser explicada
por la variable explicativa ser considerada error experimental. Este error
ocurre a causa de la suma de las varianzas no explicadas por causa de errores
de medicin y/o de especificacin.
En casos como el mencionado, los objetos que se miden deberan de ser
similares en general y la nica variacin entre ellos ser que poseen diferente
valor para la variable explicativa.
Error al concluir el anlisis
Una vez ejecutado un procedimiento estadstico se emite una conclusin que
resume en una frase el resultado de un experimento y su consecuencia
prctica. La frase no es sino el retomar la hiptesis que el investigador tena

sobre el resultado del experimento, aseverando la misma cuando el resultado


del anlisis de los datos lo avale, o bien negndola cuando ello no suceda.
El investigador realmente no sabe si la hiptesis que tiene sobre el
fenmeno es verdadera o falsa (no es posible saberlo). Segn la calidad de sus
datos tampoco conoce si la hiptesis puede aceptarse o no aceptarse, por lo
que esto suma un segundo factor de incertidumbre a su decisin. Es posible
que los datos conduzcan a) a aceptar una hiptesis verdadera o b) a rechazar
una hiptesis falsa, lo cual es totalmente correcto; la calidad de los datos nos
ayuda a tomar decisiones correctas. Sin embargo, esas mismas combinaciones
acarrean dos maneras de errar al concluir un anlisis:
a) Error Tipo I: Rechazar una hiptesis verdadera. Rechazar la verdad.
b) Error Tipo II: No rechazar una hiptesis falsa. No rechazar la mentira
El ET II no se retoma frecuentemente en los textos de Introduccin a la
Estadstica, la razn para ello es que en una publicacin de resultados no se
suele hacer mucho alarde cuando no se tienen elementos para mostrar la
anhelada veracidad de la hiptesis planteada.
Por otro lado, si se logra mostrar evidencia a favor de la hiptesis
del investigador, debe anotarse cul es la probabilidad de equivocarse
(ET I) y el complemento de tal probabilidad (1-PET I) ser la precisin con
la que se soporta la hiptesis del investigador.

La fbula del carro viejo


La media nos dice dnde encontrar una variable
Despus de andar por algunos kilmetros con 5 L de gasolina, el viejo Mustang
finalmente se detuvo, el lo haba comenzado por cuestiones de liquidez, pero ahora
haba que llamar a un amigo para llevar jalando el viejo hasta la cochera.
Afortunadamente an haba seal telefnica. La pregunta nmero uno fue Y dnde
ests?. La posicin correcta no siempre puede conocerse con exactitud, pero algunas
conjeturas llevaron al km 28.5 de la carretera libre Xalapa-Mxico.-Vaya!, al menos ahora
sabr donde buscarte. Se requiere de una unidad o escala de medicin, una recta de
referencia y con unas cuantas mediciones vual! se tiene una localizacin aceptable.

La fbula del cochinito:


Es la media, suficiente para describir un conjunto de datos?
A ciertos estudiante Pedro y Qarlos les era asignado un presupuesto de 60
monedas cada da para cubrir sus necesidades de transporte y alimento. A Q su padre le
entregaba durante la semana: 58, 62, 60, 55 y 65. No obstante, el padre de P le
asignaba en promedio sus 60 monedas entregndole durante la semana cantidades
como: 20, 100, 60, 0 y

120.

Cuando Q y P se conocieron, Q tuvo una revelacin

importante en su vida: una variable no est totalmente definida por su media, es


necesario especificar su varianza. Q lleg a su casa y reclam a su padre en adelante
verificar la dispersin de mi mesada; adems requiero de una alcanca (cochinito) en la
que pueda retirar o agregar cada da una cantidad de dinero que en promedio ser
proporcional a la desviacin estndar de mi presupuesto diario. Su padre le dijo que en
realidad el promedio los retiros y depsitos correspondan a la desviacin media, pero Q
ya no estaba escuchando.
La fbula de la mancha en la pared:

Qu es la varianza?
Cuando John iba apenas a la Secundara escuch a su maestro decir que la
varianza meda la dispersin de un conjunto de datos; eso lo hizo enojar, ya que no
entendi ni J. Al llegar a su casa su padre comenzaba a pintar el muro frente a la
chimenea y John dej caer por accidente su pelota de Ullamaliztli sobre la cubeta de
pintura equivocada, por lo que su padre la saco y la lanz sobre el muro, dejando en este
una mancha aforme grit: Johnny?!; a lo que John contest: Daddy Qu es la
varianza?. La varianza explica el tamao de esa enorme mancha que ahora tiene el
muro. John comenz entonces a limpiar la mancha y su padre se qued balbuceando
entre dientes la dimensin de tu pelota, el ngulo de lanzamiento y la viscosidad de la
pintura son las variables independientes que causan la varianza (tamao de la mancha)
obtenida y la media es el punto central de la mancha, pero eso no viene al caso.
La fbula del rayo McQueen:
Sobre el supuesto de homogeneidad de varianzas
La carrera del siglo estaba por terminar y la foto de salida al parecer sera la
nica manera de conocer el ganador dada la talla de los competidores. McQueen y El-rey
conducan dos Porsches de tipo artrpodo e iban a la delantera. En la ltima vuelta, el
conductor del triler Mac cruzo la lnea de meta justo en el momento que las cmaras
dispararan la foto de salida. (El conductor de Mac crey que la carrera ya haba
terminado e iba a recoger el auto de McQueen para resguardarlo).

Acorde con el

reglamento de la copa Pistn, se declarara ganador a aquel vehculo del que se


mostrara en la foto una ventaja en distancia respecto al a defensa frontal de su ms
cercano seguido, pero el reglamento no hablaba de que tales corredores deberan estar
registrados ni haber cumplido con el kilometraje, No lo deca!.
Dado que el premio era de 1 milln, el conductor de Mac aprovech que el reglamento
de F-1 tena tan fatal error y reclam el premio con base en la distancia entre su defensa
frontal y la de McQueen; obviamente su defensa trasera estaba muy por detrs de los
todos los competidores. A partir de esa histrica carrera el reglamento fue modificado y
solo pueden competir autos cuya distancia de punta a punta sea similar.

Probabilidad condicional

Se supone que los graduados son todlogos Entre 200 empleados de una
empresa 150 del total resultaron ser graduados y 60 del total resultaron ser
todlogos. Los empleados que pertenecen a ambas categoras son 40. Elabore
con estos datos una tabla de doble entrada y auxilindose de diagramas de
Venn-Euler calcule la probabilidad que se le pide:
i) Defina los eventos graduado, no graduado, todlogo y no todlogo usando la
inicial de la palabra y el smbolo para complemento de un conjunto. i.e.: G=
{graduado} & Gc = {NO graduado}.
ii) Cul es la probabilidad de que un empleado sea graduado o todlogo
(Unin)
iii) Cul es la probabilidad de que NO sea todlogo y si sea graduado
(Interseccin)
iv) Cul es la probabilidad de que sea todlogo dado que es graduado, usando
como referencia la probabilidad de la interseccin.
v) Cul es la probabilidad de que sea todlogo dado que es graduado, usando
como referencia la probabilidad condicional inversa (Condicional)
vi) Cul es la P(GcUTc) y la P (GUT)

Solucin:

TC

Marginal
G

G
GC

40
20

110
30

150
40

Marginal T

60

140

200

Los eventos no son independientes, dado que la probabilidad de ocurrencia de


uno de ellos depende de la previa o no ocurrencia del otro.
i)

G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO todlogo}

ii)

P (G

T )

iii)

P (TC

G )

iv)

P(T|G) = P (T

v)

P(T|G) = P (G|T) P(T) / P(G)

vi)

P( G T

G ) / P(G)

) , P(Gc T

) y P (G T )C

i)

G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO


todlogo}

ii)

Auxilindose del diagrama de Venn, se tiene:

G
G

110/200 40/200 20/200

P (G

iii)

T ) = P(G)+ P(T) - P (G

150 60
40 170
+

=
T ) =
200 200 200 200

= 0.85

Procediendo de igual forma


Es obvio que P (TC

= 0.55

TC
TC

TC
30/200 110/200 40/200

iv)

v)

P(T|G) =

P(T|G) =

G
T
0.267 & P(G|T) =
P

40 60
(
)
P ( G|T ) P(T ) 60 200
=
150
P(G)
200

Obtngase P(G|T)

G
T
0.667
P

2400
60
150

40
150

=0.267 ;

vi)

P ( G T

) =

30
200 = 0.15

P(G

0.15
C

P( G T

) = P( G

)+ P( T

)-P( G T

40 140 30 150
+

=
200 200 200 200

= 0.75

T )C = 1 0.85 =

También podría gustarte