Está en la página 1de 79

C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

CAPTULO III
La estadstica en la metodologa de investigacin

3.1 Introduccin
La Estadstica es usada en la mayor parte de las ciencias sociales (psicologa, ciencias de la educacin,
economa, administracin, mercadotecnia, finanzas, sociologa, etc.). Su propsito es responder a la
necesidad de un manejo prctico de sus mtodos en la produccin cientfica y facilitar la comprensin
y lectura de investigaciones realizadas.

La estadstica segn Cortada y Carro, es una manera de pensar y tratar la problemtica de la realidad
de forma elaborada, consistente y exacta, dando criterios de decisin.

3.2 Nociones de Estadstica

3.2.1 Concepto
La estadstica descriptiva se puede definir como la ciencia o conjunto de conocimientos que se ocupa
de la recoleccin, organizacin, presentacin, anlisis e interpretacin de los datos numricos u
observaciones.

3.2.2 Divisin
La estadstica se divide en descriptiva e inductiva. La descriptiva analiza un determinado colectivo
sin sacar conclusiones de tipo ms general; es el conjunto de procedimientos para organizar y resumir
conjuntos de datos numricos u observaciones. La inductiva o inferencial es la parte en que, basndose
en resultados obtenidos de una muestra a partir de una poblacin, infiere, estima o induce leyes de
comportamiento de la poblacin.

3.3 Evolucin del Contenido


La utilizacin de la estadstica se ha extendido por el equilibrio metodolgico entre la investigacin
terica y la estadstica, pero su contenido ha variado a travs del tiempo. Es posible distinguir tres fases
en su evolucin histrica:

3.3.1 Fase Enumerativa

Busca tcnicas, normas y procedimientos para efectuar un inventario de la poblacin y riqueza de un


territorio. Est ligada a la conciencia de soberana y a los primeros esfuerzos administrativos de la
autoridad poltica.

3.3.2 Fase Inductiva


Establece normas que permitan la organizacin y manejo de actividades del Estado respecto al uso de
sus recursos existentes, para el establecimiento de la industria, comercio, ejrcito, etc. As, se puede
confrontar la imagen real con la ideal, del funcionamiento del Estado.

89
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

3.3.3 Fase Cientfica


A partir del estudio de juegos de azar y del clculo de probabilidades, la estadstica desarrolla normas
para el manejo de grandes masas de datos, en el anlisis de la actividad social y para estudiar fenmenos
cuyas causas son complejas.

3.4 El Proceso Estadstico


La utilizacin de la estadstica se ha extendido por el equilibrio metodolgico entre la investigacin
terica y la estadstica.

El proceso estadstico sigue los siguientes pasos para estudiar los elementos de una poblacin:

Observacin del fenmeno en sus elementos.


Estudio de caractersticas y medicin de fenmenos observados en la poblacin
considerada.
Confrontacin de la imagen real del fenmeno observado, con la imagen ideal terica.
Clculo de la seguridad de la medida y de su confrontacin.

3.5 Uso de la Estadstica en la Metodologa de Investigacin


Los pasos para conducir una investigacin emprica son:

1. Problema de investigacin
2. Objetivo de la investigacin
3. Marco terico
4. Recopilacin de informacin
5. Formulacin de hiptesis
6. Contrastacin de hiptesis
7. Verificacin de hiptesis
8. Conclusiones
9. Redaccin del informe final

que estn en congruencia con el mtodo cientfico. Mostraremos esquemticamente cmo el investigador
puede usar los mtodos estadsticos, especialmente en los pasos 4 al 6. Ms adelante detallaremos estos
mtodos.

Los pasos generales para el anlisis estadstico de una investigacin emprica, son los siguientes:

1. Determinacin de la poblacin
2. Determinacin del mtodo de recopilacin de datos
3. Determinacin de la muestra
4. Obtencin de datos muestrales
5. Clasificacin de las caractersticas de la poblacin segn las series estadsticas
6. Clasificacin de las caractersticas de la poblacin segn atributo o variable
7. Determinacin del nivel de medicin de las caractersticas de la poblacin
8. Anlisis descriptivo de los datos
8.1. Datos atemporales
8.2. Datos temporales

90
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

9. Anlisis inferencial de los datos


9.1. Pruebas Paramtricas
9.2. Pruebas No Paramtricas
10. Conclusiones del anlisis estadstico

En la figura 17, se muestra un flujograma que resume los pasos del anlisis estadstico para una
investigacin emprica.

FIGURA 17
FLUJOGRAMA DE PASOS PARA EL USO DE MTODOS ESTADSTICOS

A continuacin, se desarrollarn los pasos del mtodo estadstico con mayor amplitud.

3.6 Determinacin de la Poblacin


La estadstica estudia colectivos o poblaciones y las relaciones entre ellos. La poblacin, colectivo o
universo es el total de elementos, cosas o personas que forman parte de la investigacin.

Los tems a determinar estn resumidos en el esquema de la figura 18.

91
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Figura 18
Determinacin de la poblacin

3.6.1 Definicin de la Poblacin


Si bien la determinacin de la poblacin podra haberse realizado en la fijacin de los objetivos de la
investigacin, a veces se pasa de lado este punto importante y, por otro lado, no est dems realizarlo
como primer paso del anlisis estadstico. Queda claro que el investigador es el que define cul es
su poblacin, es decir, el conjunto de elementos que estarn sujetos a investigacin. Si, por ejemplo,
se quiere estudiar el empleo, entonces la poblacin ser definida como todas las personas de un rea
geogrfica determinada que trabajan. Sin embargo, la definicin puede tener distintos matices que
limiten la poblacin. Uno podra definirla como aquellas personas mayores de edad que trabajan, o de
edad econmicamente activas, y que ganan un sueldo mnimo de x $.

3.6.2 Unidad de Estudio


Se debe determinar la unidad poblacional que ser objeto de estudio, pudiendo ser personas, empresas,
cosas, etc. Por ejemplo, si se quiere estudiar el impacto que ha tenido la implantacin de la ISO 9000
en la eficiencia del personal, entonces la unidad de estudio son las personas; pero si se quiere conocer
el impacto en un rubro determinado, la unidad de estudio sern las empresas.

3.6.3 Tamao
Mediante informacin obtenida en centros de investigacin en Estadstica, se puede recabar datos
sobre el tamao poblacional al que est enfocada la investigacin. Por ejemplo, si se est investigando
el empleo, el INE (Instituto Nacional de Estadstica) puede brindar informacin sobre el nmero de
personas que tienen empleo en cada departamento o regin sujeto a estudio.

3.6.4 Carcter
La poblacin puede considerarse por sus elementos como:

a) Poblacin finita. Conjunto numerable de elementos.

b) Poblacin infinita. Conjunto no numerable o forma lnea continua de puntos. Esta


distincin es terica, ya que siempre se trata con poblaciones de nmeros finitos de
elementos.

92
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Junto con el tamao, es adecuado clasificar el tamao poblacional en infinito o finito, ya que influir
en la determinacin del tamao muestral. En la prctica, un tamao poblacional de ms de 500000 se
considera infinito. Por ejemplo, si se investiga el empleo, y mediante informacin de algn centro de
Estadstica se determin que en una zona geogrfica determinada existen menos de 500000 personas
que trabajan, la poblacin ser finita.

3.7 Determinacin del Mtodo de Recopilacin de Datos

Existen varias fuentes para la recopilacin de datos. Los recopiladores de datos son fuentes primarias,
los compiladores de datos se llaman fuentes secundarias.

1. Fuentes gubernamentales, industriales o individuales (fuente secundaria)


2. Diseo de experimentos (fuente primaria)
3. Estudio observacional (fuente primaria)
4. Entrevista (fuente primaria)
5. Cuestionario (fuente primaria)

Sin embargo, en la investigacin en ciencias sociales, existen tres mtodos principales primarios de
recoleccin de datos a partir de una muestra o poblacin: la observacin, la entrevista y el cuestionario.
Obtener datos por medio de experimentos no es muy usual en los negocios, pero s en la ingeniera
e industria. Cada uno de ellos se adapta a las exigencias de las diferentes disciplinas, presentando
ventajas y desventajas.

De acuerdo a los objetivos de investigacin planteados, se debe elegir el mtodo de recopilacin de


datos adecuado. En la figura 19 se observan todos los mtodos con sus diferentes modalidades. A
continuacin se detallan los aspectos ms importantes para cada mtodo de recopilacin de datos.

3.7.1 La Observacin
Sus modalidades son:

a) Segn medios utilizados:

No estructurada. Tambin llamada observacin simple o libre. Consiste en reconocer y


anotar hechos sin recurrir a la ayuda de medios tcnicos.
Estructurada o sistemtica. Apela a instrumentos para la recopilacin de datos o hechos
establecidos de antemano, para saber qu aspectos se van a estudiar (cuadros, anotaciones,
dispositivos mecnicos).

b) Por la participacin del observador:


Participante. La participacin es real, es decir, el observador integra la comunidad o
grupo. Puede ser: natural o artificial.
No Participante. El observador toma contacto con la comunidad o grupo, pero
permaneciendo alejado.

93
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

FIGURA 19
DETERMINACIN DEL MTODO DE RECOPILACIN DE DATOS

c) Por el nmero de observadores:

Individual. Es la que realiza una sola persona.


Grupal. Se realiza de varias formas:
Todos observamos lo mismo para prevenir distorsiones.
Cada uno observa un aspecto diferente.

d) Por el lugar donde se lleva a cabo:

En la vida real. Las situaciones se captan a medida que se van presentando.


En laboratorio. Cuando los hechos se crean artificialmente.
3.7.2 La Entrevista
Segn el propsito profesional, la entrevista puede asumir las siguientes modalidades:

94
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

a) Estructurada. Toma la forma de un interrogatorio, las preguntas se formulan siempre


en el mismo orden y con los mismos trminos. Se la realiza con base en un formulario
previamente preparado y estrictamente normalizado.

b) No estructurada. Deja una mayor libertad a la iniciativa de la persona interrogada


y al encuestador, tratndose de preguntas abiertas que son respondidas dentro de una
conversacin, teniendo como caracterstica principal la ausencia de una estandarizacin
formal. Puede adoptar tres modalidades:

Focalizada. El encuestador tiene una lista de cuestiones a investigar derivadas del


problema general que quiere estudiar. En torno a ese problema se establece una
lista de tpicos en los que se centra la entrevista.
Clnica. Es una modalidad semejante a la anterior; pero difiere de sta en el enfoque.
No se trata de analizar la experiencia que han tenido varias personas, sino de
estudiar las motivaciones y sentimientos de las mismas. La gua de entrevista tiene
preguntas relacionadas con los sentimientos y actitudes que se van a estudiar.
No dirigida. El informante tiene completa libertad para expresar sus sentimientos
y opiniones. El encuestador tiene que animar a hablar de un determinado tema y
orientarlo, teniendo significacin sus sentimientos y opiniones.

3.7.3 El Cuestionario
La modalidad ms comn del cuestionario consiste en enviarlo por correo, de ah que se ha propuesto
llamar a est tcnica encuesta postal. Otra modalidad tambin es la de los censos, que consisten en ir
casa por casa preguntando a consumidores especficos.

Por lo general, suelen distinguirse dos tipos de formularios: el cuestionario y la cdula. El cuestionario
esta destinado a ser llenado por la persona interrogada sin la intervencin del encuestador; la cdula,
en cambio, es llenada por el propio encuestador a medida que obtiene las respuestas de las personas
interrogadas.
3.7.4 Cul es el Criterio para Decidir el Mtodo Adecuado?
No hay un criterio formal para tomar esta decisin, pero la exposicin de las ventajas, desventajas y
limitaciones, son importantes. En la figura 20 se ha desarrollado un rbol de decisiones til para el
efecto. Haciendo uso del rbol, si por ejemplo se quiere investigar algunos aspectos cuantitativos sobre
el empleo de la clase social alta, entonces la decisin fluir del siguiente modo:

1. Se quiere que los datos recopilados sean susceptibles de tratamiento estadstico? La


respuesta es SI.
2. Se quiere recopilar datos sin la intervencin de intermediarios? La respuesta es NO.
3. Se quiere minimizar el riesgo de distorsiones? SI
4. Se quiere captar el sabor de las respuestas? NO
5. Los elementos de la poblacin tienen limitaciones de lectura/escritura? NO
6. La informacin que se quiere recopilar es confidencial? NO
7. Se quiere reducir esfuerzos logsticos? SI

El mejor mtodo es el cuestionario.

95
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

RBOL DE DECISIN PARA LA DETERMINACIN DEL


MTODO DE RECOPILACIN DE DATOS
FIGURA 20

96
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

3.8 Determinacin de la Muestra


El muestreo estadstico es un enfoque sistemtico para seleccionar unos cuantos elementos representativos
(una muestra) de un grupo de datos, a fin de hacer algunas inferencias sobre el grupo total (poblacin).
Como esta muestra aporta datos bastantes confiables, no es necesario seleccionar el total.

Para esta determinacin primero se deber fijar la nomenclatura que se usar para distinguir entre
poblacin y muestra. Para describir muestras y poblaciones se hace la siguiente distincin:

Un estadstico es una caracterstica de la muestra. Se usa letras minsculas para los estadsticos:

n, tamao de la muestra.
x , media de la muestra
s, desviacin estndar de la muestra

Un parmetro es una caracterstica de la poblacin. Se los representa mediante letras maysculas o


griegas:

N, tamao de la poblacin
, media de la poblacin
, desviacin estndar de la poblacin

En la determinacin de la muestra se debe decidir dos aspectos fundamentales: el tipo de muestreo a


usar y el tamao de la muestra. La figura 21 nos aclara estos aspectos.

Figura 21
DETERMINACIN DE LA MUESTRA

3.8.1 Tipos de Muestreo


Hay dos tipos para seleccionar las muestras que provienen de poblaciones:

a) Probabilstico o aleatorio, cuando la muestra se selecciona de modo que cada integrante


de la poblacin tenga una probabilidad conocida de ser incluido en la muestra.

97
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

b) No probabilstico o de juicio, cuando no todos los integrantes tienen alguna probabilidad


de ser incluidos en la muestra. Se usa el conocimiento y la opinin personal para identificar
los elementos de una poblacin que se van a incluir en la muestra. Generalmente, sirve de
muestreo piloto antes de seleccionar una muestra aleatoria, a fin de recopilar informacin
til para determinar el tamao de la muestra. Su ventaja radica en el ahorro de realizar un
anlisis estadstico para tomar las muestras. Su principal desventaja es que los resultados
pueden estar sesgados y no ser representativos de la poblacin.

3.8.2 Mtodos de Muestreo Aleatorio


Los mtodos de muestreo aleatorio tienen el objetivo de permitir que el azar determine los integrantes
de la muestra. Son:

a) Muestreo aleatorio simple (MAS)


En el MAS, se seleccionan las muestras mediante mtodos que permiten a cada una tener igual
probabilidad de ser seleccionada y a cada elemento de la poblacin tener igual probabilidad de quedar
incluido en la muestra. Para este fin se utilizan las tablas de nmeros aleatorios, que han sido generadas
por un proceso aleatorio, en la cual, para cada dgito de un nmero la probabilidad de que tenga el valor
de 0,1,2,3, ... o 9 es la misma y la probabilidad de que ocurra una secuencia de dgitos es idntica a la
de cualquier otra secuencia con la misma extensin. Una tabla de nmeros aleatorios se muestra en el
anexo de tablas estadsticas al final del texto.

b) Muestreo sistemtico
Se emplea cuando el procedimiento del MAS puede ser difcil de usar en algunos casos, sea por tiempo
o dinero.

Difiere del MAS en que cada elemento tiene igual probabilidad de ser seleccionado, pero cada muestra
no tiene esa misma posibilidad. En este muestreo se seleccionan los elementos de la poblacin con un
intervalo uniforme en el tiempo, en el orden o en el espacio.

Este muestreo no se puede usar si hay un patrn determinado o secuencial en la poblacin.

Por ejemplo, si para una investigacin la poblacin de inters son 2000 facturas colocadas en gavetas
de archivos, para realizar el MAS, primero se necesitar numerar las facturas de 0000 a 1999. Luego,
tendrn que seleccionarse 100 facturas (el tamao de la muestra). Por ltimo, habr que localizar las
facturas que forman parte de la muestra. Esta sera una tarea muy prolongada. Es mejor realizar el
muestreo sistemtico: se selecciona una factura de cada veinte de las que se encuentran en el archivo.
La primera factura se elegir utilizando un proceso al azar. Si se selecciona la factura nmero 10,
entonces la muestra ser de: 10, 30, 50, 70, 80, 90, etc.

c) Muestreo estratificado
Para aplicarlo se divide la poblacin en grupos homogneos relativos, llamados estratos. Despus se
recurre a uno de dos mtodos posibles:

Seleccionar al azar en cada estrato un nmero especificado de elementos correspondientes


a la proporcin del estrato de la poblacin total.
Extraer un nmero igual de elementos de cada estrato y ponderar los resultados de
acuerdo con la proporcin del estrato en la poblacin total.

98
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

El muestreo estratificado garantiza que todos los elementos de la poblacin tengan una posibilidad de
ser seleccionados. Es adecuado cuando la poblacin ya est dividida en grupos homogneos en cuanto
a la caracterstica a investigar. Cuando se disean bien, reflejan ms exactamente las caractersticas de
la poblacin de donde se extrajeron que otras clases de muestreo.

Por ejemplo, si se quiere conocer la opinin de algunos asuntos polticos y econmicos, es obvio que
variarn de acuerdo al nivel de educacin de las personas, que ser la variable de estratificacin a
utilizar. Como ejemplo, los datos proporcionados por el INE son los siguientes (tomando en cuenta
slo el sector urbano, entre 20 a 80 aos para Bolivia). Por lo tanto, el estudio de las opiniones podra
necesitar una estructura, como se muestra en la tabla 3.

Tabla 3
Poblacin por grado de educacin

Fuente: INE
De acuerdo a esta tabla, y al tamao muestral ptimo para cada departamento, se fijar el nmero de
encuestas a realizar en cada estrato. Los porcentajes en cada estrato por ciudad son mostrados en la
tabla 4.

Si se trabaja con el tamao muestral mximo (385) para cada departamento, se tendrn los siguientes
tamaos de muestra para cada estrato y departamento (ver tabla 5).
Tabla 4
Porcentaje de poblacin por grado de educacin

Primaria y Militar o
Universidad Licenciatura Tcnico Normal Otro Total
Secundaria Policial
Chuquisaca 17% 35% 30% 8% 7% 1% 1% 100%
La Paz 25% 31% 24% 12% 4% 1% 2% 100%
Cochabamba 23% 31% 25% 12% 5% 1% 2% 100%
Oruro 24% 31% 26% 10% 6% 1% 2% 100%
Potos 28% 28% 23% 10% 9% 1% 2% 100%
Tarija 33% 28% 24% 8% 4% 1% 1% 100%
Santa Cruz 34% 27% 22% 12% 4% 1% 1% 100%
Beni 44% 20% 16% 10% 6% 2% 2% 100%
Pando 30% 27% 20% 14% 4% 2% 2% 100%

99
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Tabla 5
Tamao muestral estratificado

Primaria y Militar o
Secundaria Universidad Licenciatura Tcnico Normal Policial Otro Total
Chuquisaca 67 136 116 32 26 2 6 385
La Paz 96 118 93 47 16 5 9 385
Cochabamba 88 121 98 46 19 4 9 385
Oruro 91 121 100 39 25 2 8 385
Potos 110 109 88 37 33 2 6 385
Tarija 127 109 93 29 17 3 6 385
Santa Cruz 131 106 83 45 15 2 3 385
Beni 171 77 60 39 22 8 8 385
Pando 117 105 76 54 15 9 9 385

d) Muestreo por conglomerados


Para aplicarlo, dividimos la poblacin en grupos o conglomerados y luego seleccionamos una muestra
aleatoria de ellos. Se supone que esos conglomerados son representativos de la poblacin. Por ejemplo,
si se quiere averiguar el nmero de televisores por familia en una ciudad, se utiliza un mapa y se divide
la ciudad en manzanas. Luego, se selecciona cierto nmero de ellas aleatoriamente para realizar la
encuesta. Cada familia de dichas manzanas ser entrevistada.

e) Diferencias entre el muestreo estratificado y el de por conglomerados


Tanto en el muestreo estratificado como en el de por conglomerados la poblacin est dividida en
grupos definidos, pero existen las siguientes diferencias:

Se usa el estratificado cuando cada grupo presenta una pequea variacin en su interior, pero existe
una amplia variacin entre ellos (La intervarianza es mayor que la intravarianza).
Se usa el de por conglomerados en el caso contrario: cuando se advierte considerable variacin
dentro de cada grupo, pero los grupos son esencialmente semejantes entre s (La intravarianza es
mayor que la intervarianza).

f) Cmo decidir qu tipo y mtodo de muestreo es el adecuado?


Otorgamos al investigador un rbol de decisiones para determinar esta importante cuestin (Ver figura
22).

Por ejemplo, si se quiere averiguar algunos asuntos concernientes al consumo de las personas de un
determinado bien, la decisin fluir del siguiente modo:

1. Se quiere que los datos sean susceptibles de tratamiento estadstico? La respuesta es


S.

2. Se quiere que cada elemento poblacional tenga la misma probabilidad de ser incluido en
la muestra? NO, ya que esto llevara mucho tiempo, dinero y esfuerzo y es prcticamente
inviable.
100
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

3. Existe un patrn determinado secuencial en los elementos poblacionales? S, ya que la


poblacin puede estar secuencialmente repartida. Ante la duda, es mejor responder esta
pregunta afirmativamente. Por otro lado, al igual que el MAS, este mtodo es prcticamente
imposible de realizar, ya que no se tienen listas numeradas de la poblacin.

4. La poblacin est dividida en grupos homogneos? No hay ninguna evidencia de que as


sea con respecto a la demanda de algn producto.

Por lo tanto, el mtodo adecuado ser el de conglomerados.

FIGURA 22
RBOL DE DECISIN PARA LA DETERMINACIN DEL TIPO DE MUESTREO

101
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

RBOL DE DECISIN PARA EL CLCULO DEL TAMAO DE MUESTRA


FIGURA 23

102
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

3.8.3 Tamao Muestral

Para la determinacin del tamao muestral se ha configurado un rbol de decisiones (ver figura 23). Si
bien el clculo del tamao muestral constituye el tercer paso en el proceso estadstico, no es sino hasta
el paso 9 en que se dan los fundamentos tericos de inferencia estadstica, que se puede conocer cmo
operar las distintas variables. En este sentido, a continuacin se describir cmo calcular el tamao
muestral representativo slo de manera prctica.

Observando la figura 23, realizamos las siguientes decisiones:

Ejemplo 1

1. Qu parmetro poblacional se quiere estimar en la investigacin?.

Si se quiere estimar, por ejemplo, el ingreso medio anual de gerentes de todas las empresas de
servicios en una ciudad, se va por la rama superior del rbol de decisiones.

2. La varianza de los ingresos de los gerentes es conocida? Generalmente no, a no ser


que se haya determinado en estudios anteriores o un experto pueda determinarla con
precisin aceptable.

3. El tamao de la muestra piloto es conocido? Generalmente s, a no ser que los


encuestadores no hayan anotado el dato, ya que su objetivo principal era tan slo
determinar la varianza muestral.

La realizacin de una muestra piloto cuando no se conoce la varianza poblacional es


imprescindible, porque es la nica que otorgar un valor para la varianza muestral, sin la
cual no se podr determinar el tamao muestral. La muestra piloto consiste en preguntar a
una muestra pequea (10 a 20 personas) sus ingresos medios y con esa informacin hallar la
varianza muestral.

El clculo se realiza mediante la ecuacin:

Supongamos que se recopilaron datos del ingreso medio anual de 10 gerentes, en miles de
dlares:

65 72 80 67 75 81 90 79 83 76
Aplicando la frmula, se encuentra que la varianza muestral es de 56.4 miles de dlares2.

4. La poblacin es finita o infinita? En el ejemplo que estamos considerando es finita, ya que


no existen ms de 500000 gerentes en el rubro de servicios en una ciudad. Supongamos
que son 350 gerentes (Este dato puede ser determinado de las listas de gerentes en las
cmaras de comercio, industria, exportacin, etc.).

103
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Por lo tanto, la ecuacin ms usada para determinar el tamao muestral para estimar la media
poblacional es:

donde:

N = Tamao poblacional finito


s2 = Varianza muestral
e = Mximo error que se quiere cometer en la estimacin fijada por el investigador.
t = Valor crtico de la distribucin t de Student para una probabilidad de certeza en
la estimacin del parmetro poblacional fijada por el investigador (ver tabla t de
Student en el anexo de tablas estadsticas).

Si se fija una probabilidad de certeza del 95%, entonces el valor de t se determina de la


siguiente manera:

La distribucin t estndar es una simtrica con respecto a la media (cuyo valor es de 0). El
intervalo en blanco es donde se pretende se halle el ingreso poblacional real, los intervalos
rayados son las secciones donde no se debe hallar el ingreso poblacional. El valor de t de
con n-1 grados de libertad (en este caso 0.025 y 9 grados), se determina de la tabla t que se
encuentra en el anexo de tablas estadsticas.

Por ejemplo, si se quiere determinar el ingreso medio de los gerentes del sector de servicios,
el investigador podr fijar el error en 0.1 miles de $, y un nivel de confianza o certeza del
95%, que es el que generalmente se usa; se realiz un muestreo piloto de 10 personas,
determinando la varianza muestral en 56.4 miles de $, el tamao poblacional es de 350, y el
valor determinado para t es de 2.2622; si reemplazamos los datos en la ecuacin tendremos
un tamao muestral de 53 gerentes.

Ejemplo 2

1. Qu parmetro poblacional se quiere estimar en la investigacin?

Si se quiere estimar, por ejemplo, la proporcin de los gerentes del sector de servicios que
estn satisfechos con su nivel salarial, se va por la rama inferior del rbol de decisiones.

2. La varianza de los ingresos de los gerentes es conocida? En este caso no se requiere el


dato.

104
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

3. El tamao de la muestra piloto es conocido? Generalmente s.

La realizacin de una muestra piloto para este caso se practica para determinar la proporcin
de xito o fracaso de la poblacin (p y q). El xito o fracaso es definido por el investigador
de acuerdo a sus objetivos. En el ejemplo, xito puede ser el nmero de gerentes que estn
satisfechos con su nivel salarial.
El clculo de p y q se realiza mediante la ecuacin:

donde:

X = Nmero de elementos xito de la muestra piloto


n = tamao de la muestra piloto.

En el ejemplo, el investigador encuestar a 10 gerentes y les preguntar si estn satisfechos


con su nivel salarial. Supongamos que 8 de 10 contestaron que SI, por lo tanto p = 0.8 y
q = 0.2. Sin embargo, si no se realiza una muestra piloto, se adoptan valores para p y q de
0.5. Esta probabilidad de xito es la ms conservadora, ya que generar el mayor tamao
muestral que se puede tener.

4. La poblacin es finita o infinita? En el ejemplo que estamos considerando es finita, ya que


existen 350 gerentes en el rubro de servicios en una ciudad.

Por lo tanto, la ecuacin ms usada para determinar el tamao muestral para estimar la media
poblacional es:

donde:

N = Tamao poblacional finito


p = Proporcin de xito
q = Proporcin de fracaso
e = Mximo error que se quiere cometer en la estimacin fijada por el investigador.
z = Valor crtico de la distribucin normal estndar para una probabilidad de certeza
en la estimacin del parmetro poblacional fijada por el investigador (ver tabla de
distribucin normal estndar en el anexo de tablas estadsticas).

Por ejemplo, si se quiere determinar la proporcin de los gerentes del sector de servicios que
estn satisfechos con su nivel salarial, el investigador podr fijar el error en 5% (es el valor
generalmente aceptado), y un nivel de confianza o certeza del 95%, que es el que generalmente
se usa. Si realiz un muestreo piloto de 10 personas, determinando que p es 80%, el tamao
poblacional es de 350, y el valor determinado para z es de 1.96, si reemplazamos los datos
en la ecuacin tendremos un tamao muestral de 145 gerentes.

105
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Estas son las dos ecuaciones ms usadas para calcular el tamao muestral representativo para tratar los
datos recopilados mediante el mtodo estadstico.

Qu pasa cuando en una investigacin existen varios aspectos a tratar?

Si en una investigacin existen varios aspectos a analizar y se estiman conjuntamente varias medias y
proporciones, generalmente se usa la ecuacin para determinar el tamao muestral representativo para
la proporcin, ya que arroja el mayor valor entre los dos.

Como existen varias proporciones, para determinar p y q en la encuesta piloto, se pregunta slo la
principal proporcin de inters en la investigacin.

3.9 Obtencin de Datos Muestrales


3.9.1 Errores Sistemticos en el Muestreo
En cualquier investigacin de tipo estadstico, adems del error involuntario que se comete debido al
muestreo, pueden introducirse otro tipo de errores llamados sistemticos (que se los puede eliminar o
minimizar al mximo), que se dividen en dos grupos.

a) Primer Grupo: errores de medicin


a) Imputables al objeto. Si se quiere determinar el peso medio de un grupo de individuos,
ste estar influenciado por la hora en la que se pesaron, la ropa que llevaban puesta, el
tiempo desde que se pesaron, etc.

b) Imputables al mtodo. Si en el ejemplo anterior se utilizaron distintas balanzas para el


pesaje, unas ms precisas que otras, otras estando mal calibradas, etc.

c) Imputables al observador. Presentes cuando no se han fijado bien los lmites. Si en el


anterior ejemplo se quera saber tambin si la persona considera que tiene sobrepeso o
no, algunas contestarn falsamente que se consideran estar en buen estado, cuando no es
as.

d) Errores de tabulacin y clculo. Son los ms frecuentes. Ocurren por fallas de dictado,
copiado, escritura, o por fallas en los dispositivos para guardar la informacin o
reproducirla. Ejemplo, si en el ejemplo anterior una de las balanzas estaba en pulgadas y se
hizo la transformacin a kilogramos con una base de conversin errnea, o se guard los
resultados en una planilla de datos, y para hallar la media se aplic una frmula errnea.
Se puede dar el caso que todos los clculos hayan sido correctos, pero la impresora fall
y suministr datos distorsionados.

b) Segundo grupo: errores en la obtencin de la muestra

a) Seleccin incorrecta. En un estudio sobre los ingresos mensuales de obreros bolivianos


dependientes, la inclusin en la muestra de un grupo de obreros independientes (ya que
su situacin no est catalogada de manera definida) podra hacer que la muestra no sea
representativa.

b) No respuesta. Algunas encuestas no fueron llenadas completamente y existe una falta


de respuesta. Lo normal es sustituir esta respuesta incorrectamente, preguntando a un

106
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

elemento de la poblacin que no fue seleccionado aleatoriamente o, en otros casos,


dejarla en blanco.
c) Voluntarios. La cooperacin de voluntarios en cualquier estudio falsea fcilmente
los resultados, ya que sus costumbres y caractersticas, en general, pueden no ser
representativos de toda la poblacin.

3.9.2 Elementos de Importancia en las Encuestas Muestrales


Algunos elementos prcticos que se deben considerar a la hora de realizar encuestas muestrales son los
siguientes:

1. Determinacin de los datos que se computarn. Es muy frecuente que se recopilen datos
innecesarios y, en cambio, se olviden preguntas esenciales en relacin al objetivo de la
investigacin. Es por eso que la encuesta debe configurarse por un grupo de expertos y
ser revisada minuciosamente antes de aplicarla.

2. Mtodos de cuantificacin. Cuidar que una respuesta no vare de acuerdo a la forma en


que es formulada y al orden que se le d en la cdula.

3. Eleccin de la unidad de muestreo. En muchos casos, un elemento de la poblacin


constituye la unidad del muestreo, pero, en otros casos, grupos de elementos. Para los
ltimos, es necesario cuidar que los elementos estn solo en una unidad del muestreo.

4. Seleccin de la muestra. Existen muchos elementos para decidir el tamao muestral,


pero, en todo caso, existe una fuerte relacin con el costo.

5. Organizacin del trabajo en el terreno. Deben tomarse varias medidas de planificacin y


logstica sobre cuestiones administrativas, como ser preparacin y entrenamiento de los
encuestadores, viticos, sueldos, control del llenado de encuestas, tiempo que usarn,
etc.

6. Revisin y publicacin de los resultados. En primer lugar, se revisar la informacin


obtenida en cada encuesta para verificar si sta rene las especificaciones adecuadas a la
investigacin, caso contrario se eliminar. Luego, se procede a la tabulacin de los datos,
organizacin, descripcin, presentacin, anlisis, toma de decisiones y publicacin

7. Informacin futura. Los resultados obtenidos pueden ser archivados, ya que presentan
estimaciones sobre diversas caractersticas de la poblacin que pueden variar en el
tiempo, y pueden ser tiles a la hora de comparar con resultados obtenidos por otras
encuestas en el futuro.

3.10 Series Estadsticas


Son una coleccin de datos numricos resultantes de una serie de observaciones, clasificados y ordenados
con un determinado criterio, que no siempre considera el tiempo. Consideramos las siguientes series
estadsticas.

107
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

3.10.1 Series Temporales o Cronolgicas


Si los resultados se efectan en sucesivos instantes o perodos de tiempo. denotan un flujo. Ejemplo:
cantidad de gasolina que consume un vehculo por unidad de tiempo. Las series temporales pueden
tambin ser espaciales.
3.10.2 Series Atemporales
Las observaciones de una variable o atributo se efectan en un instante o periodo determinado. Denotan
stock o inventario, tambin llamadas de cross-section, es decir, de corte transversal, indicando con
ello la instantaneidad o falta de temporalidad. Ejemplo: cantidad de gasolina consumida hasta una fecha
determinada; agrupamiento de 10000 personas por estado civil.

Dentro de este gran grupo estn los siguientes subtipos:

a) Series de frecuencias
Si se estudia la repeticin de un fenmeno o de una caracterstica de los componentes de un colectivo,
el agrupamiento de los resultados de las observaciones da lugar a las llamadas distribuciones de
frecuencias.

b) Series espaciales
Estn formadas por los valores que toma una variable en funcin del espacio geogrfico. Ejemplo:
nmero de habitantes o rea de los departamentos de Bolivia.

c) Series de probabilidades
Si se estudia la repeticin de datos recopilados mediante un experimento aleatorio, hallando el
espacio muestral (conjunto de posibles resultados del fenmeno) y determinando distribuciones de
probabilidades, tanto para variables discretas como continuas.

Un resumen de esta clasificacin se muestra en la figura 24.

Figura 24
Clasificacin de las series estadsticas

108
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

3.11 Clasificacin de las Caractersticas de la Poblacin en Variables y Atributos


Las caractersticas de una poblacin son rasgos distintivos de los elementos de una poblacin. Pueden
ser de carcter cualitativo o cuantitativo, de ah la distincin en: variable o atributo.
a) Atributos. Son rasgos cualitativos de los elementos de una poblacin. Pueden ser:

Ordinales. Referente al sentido de jerarqua u organizacin de elementos. Ejemplo:


grados militares, cargos en una empresa, etc.
Nominales. Rasgos sin capacidad de ordenacin. Ejemplo: color de ojos, gusto, etc.

A las diferentes clasificaciones que pueden adoptar los atributos se les llama modalidades o categoras.
Los atributos se designan con las primeras letras maysculas del abecedario (A, B, C, etc.); a sus
modalidades, con las minsculas (a, b, c, etc.).

b) Variables. Son rasgos, caractersticas o propiedades cuantificables. Ejemplo: peso, edad, altura,
etc. Las variables pueden ser:

Discretas. Si entre dos valores consecutivos no puede introducirse otro. Ejemplo: el


nmero de mesas, sillas, casas, etc.
Continuas. Si entre dos valores consecutivos pueden introducirse infinitos valores.
Ejemplo: altura, peso, etc.

Las variables se designan con las ltimas letras maysculas del abecedario (X, Y, Z, etc.) y sus
valores, con las minsculas (x, y, z, etc.).

Las variables tambin se pueden clasificar en:

Variables unidimensionales. Si slo recogen informacin sobre una caracterstica.


Ejemplo: edad de los alumnos de una clase.
Variables bidimensionales. Si recogen informacin sobre dos caractersticas de la
poblacin. Ejemplo: edad y altura de los alumnos de una clase.
Variables pluridimensionales. Si recogen informacin sobre tres o ms caractersticas.
Ejemplo: edad, altura y peso de los alumnos de una clase.

Un resumen de la clasificacin de las caractersticas de la poblacin se muestra en la figura 25.

Figura 25
Clasificacin de las caractersticas de la poblacin

109
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

3.12 Niveles de Medicin


Las distintas caractersticas de la poblacin a investigar, deben ser medidas adecuadamente, atendiendo
a los siguientes niveles de medicin.

3.12.1 Nivel Nominal


Es el nivel ms primitivo, bajo y limitado de medicin. Hace referencia a los datos que solo pueden
clasificarse en categoras, sin intervencin de mediciones o escalas, solo mediante conteos. Para este
nivel no existe orden particular para los grupos. Las categoras o modalidades se consideran mutuamente
excluyentes y exhaustivas. Es el nivel de medicin para atributos nominales.

3.12.2 Nivel Ordinal


Tiene las caractersticas del nivel anterior, pero difiere en que las categoras pueden ordenarse en una
relacin mayor que. Es el nivel de medicin para atributos ordinales.

3.12.3 Nivel de Intervalo


Incluye todas las caractersticas de la escala ordinal, pero adems la distancia entre valores es de tamao
conocido y constante. Es el nivel de medicin para variables discretas o continuas.

Ejemplo: Medicin de temperatura en la escala centgrada. En esta escala el punto cero es arbitrario:
0 C; no significa que haya ausencia de temperatura, sino solo un estado de fro. Si se registraron
las siguientes temperaturas: 30 C y 60 C, puede decirse que en la segunda oportunidad hubo una
temperatura 30 C ms clida, pero no se puede afirmar que hizo dos veces ms calor.

3.12.4 Nivel de Razn (o Cociente)


Es el nivel de medicin ms alto y sirve para variables discretas y continuas. Las principales diferencias
entre el anterior nivel y ste son:

1. Los datos de nivel de razn tienen un punto cero significativo.


2. La razn o cociente de dos nmeros es significativa.

Ejemplo: El dinero. Tener cero pesos tiene un significado: no tengo nada de dinero. Si una persona gana
1000 $us y otra 4000 $us, la segunda gana 4 veces ms que la primera.

En la figura 26, se muestra el nivel de medicin que generalmente se usa para cada caracterstica de la
poblacin.

110
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

FIGURA 26
NIVELES DE MEDICIN

3.13 Anlisis Descriptivo de Datos

A continuacin se muestra el anlisis descriptivo de datos recopilados, usando la clasificacin de la


figura 24 de las series estadsticas.

3.13.1 Series Atemporales de Frecuencias

3.13.1.1 Organizacin de Datos Univariables

Si la serie estadstica es atemporal y la caracterstica se repite, se puede organizar mediante distribuciones


de frecuencias.
Los datos obtenidos mediante la aplicacin de las tcnicas de recoleccin conocidas deben ser tabulados
y luego organizados siguiendo un criterio determinado a fin de presentarlos en cuadros de distribucin de
frecuencias, de acuerdo a la caracterstica de la poblacin que est siendo investigada, con el propsito
de analizar la informacin, interpretarla y con base en ella tomar mejores decisiones.

La distribucin de frecuencias para atributos se presenta como dos tipos: para atributo nominal y para
atributo ordinal.

La distribucin de frecuencias para variables, segn el nmero de observaciones y valores diferentes


que adopta la variable, puede presentarse como:

a) Distribucin de frecuencias tipo I. Si la distribucin de frecuencias corresponde a pocas


observaciones y pocos valores diferentes de la variable. Su presentacin no exige una
tcnica determinada, ya que, casi no son susceptibles de tratamiento estadstico, puesto
que, para que ste exista, es necesario un volumen masivo de observaciones.

b) Distribucin de frecuencias tipo II. Cuando son muchas las observaciones y pocos los
valores diferentes que adopta la variable.

c) Distribucin de frecuencias tipo IIII. Cuando el nmero de observaciones es grande y


tambin los valores diferentes que toma la variable observada.

111
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Para un mejor entendimiento de las formas y tipos de distribucin de frecuencias, se desarrolla un


diagrama mostrado en la figura 27.

Figura 27
Formas y tipos de distribuciones de frecuencias

a) Distribucin de frecuencias de atributo nominal


Las modalidades obtenidas para un atributo nominal se organizan teniendo en cuenta las propiedades
de una escala de medicin nominal.
Se designa con A el atributo. Sus diferentes modalidades se denotan con el smbolo: ai, para i=1,
2, 3,..., n.
En lugar de un nombre o un smbolo para el atributo pueden utilizarse nmeros que permiten distinguir
el orden de posicin, categora o clase, pero sin tener en cuenta la diferencia entre valores.
Los datos recogidos por una encuesta aplicada generan una masa de datos, que pueden ser clasificadas
mediante las siguientes modalidades y organizadas en una tabla como la que muestra la tabla 6.
La explicacin del contenido de la tabla es la siguiente:

La primera columna contiene las diferentes modalidades del atributo.

Tabla 6
Distribucin de frecuencias para atributo nominal

Frecuencia Razn de
Frecuencia comparacin
Atributo relativa
absoluta
Ai
ni
a1 n1 h1 r1
a2 n2 h2 r2
*a3 n3 h3 r3
a4 n4 h4 r4
a5 n5 h5 r5
a6 n6 h6 r6
a7 n7 h7 r7

n=ni hi = 100%
(Nota: En este caso se tom como modalidad de comparacin la modalidad a3)

112
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

La segunda columna contiene los conteos, es decir el nmero de veces que las distintas
personas han votado por los distintos candidatos. A estos valores se los llama frecuencias
absolutas, y se los abrevia con ni. La suma de los ni es el total de los encuestados, y se la
denomina con la letra n.
La tercera columna es la expresin de la frecuencia absoluta en porcentaje, con respecto
al total de los encuestados, y a estos valores se los denomina frecuencia relativa, cuyo
smbolo es hi.
Por ltimo la cuarta columna contiene la razn de comparacin, ri, tomando como base
de comparacin el candidato o la modalidad objeto de la investigacin, r*.

Nota: La frecuencia relativa puede ser expresada en porcentaje o fraccin. La modalidad de comparacin
puede ser elegida de acuerdo al criterio y objetivo del investigador.

Presentacin grfica
Los paquetes de computacin brindan muchos formatos de grficos. El papel del investigador es elegir
el grfico que mejor se ajuste a sus objetivos o que muestre de manera adecuada la informacin. Las
grficas bien diseadas son ms sencillas y poderosas en mostrar los datos comparadas a las tablas de
distribucin de frecuencias. Por desgracia, la naturaleza impropia e inadecuada de muchas presentaciones
grficas, ms bien ha perjudicado la comprensin y anlisis de las mismas.

Tufte, establece cinco principios para lograr la excelencia grfica:

Una presentacin bien diseada de los datos, que proporciona sustancia, estadsticas y
diseo.
Una grfica que comunica ideas complejas con claridad, precisin y eficiencia.
Una que proporciona al observador el mayor nmero de ideas en el menor tiempo y con
el mnimo de tinta.
Una grfica que casi siempre involucra varias dimensiones.
Una que dice la verdad acerca de los datos.

La informacin contenida en la presentacin de los datos organizados, correspondientes a las


modalidades de un atributo nominal, puede ser presentada en forma grfica, generalmente utilizando
diagrama de barras, diagrama rectangular y/o diagrama circular.

Diagrama de barras
Es un diagrama formado por barras, cuyo tamao est de acuerdo al valor de la frecuencia absoluta o
relativa de cada modalidad y cuyo ancho no interesa (ver grfico 1).
Grfico 1
Diagrama DE BARRAS PARA ATRIBUTO NOMINAL

113
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Diagrama rectangular

En una base cualquiera, la altura del rectngulo debe ser una dimensin igual al universo. En ese
cuadriltero, las distintas modalidades se representan por segmentos rectangulares cuya altura
corresponde al valor de la frecuencia absoluta o relativa (ver grfico 2).

Grfico 2
Diagrama rectangular para atributo nominal

a1 a2

a3 a4

a5 a6

a7 .. .

Diagrama circular

Para obtener esta representacin grfica, se procede de la siguiente manera:

Se determina el nmero de grados de la circunferencia por unidad del universo, es decir,


se divide (usando datos del ejemplo anterior) 360o entre n = 50, que es igual a 7.2o para la frecuencia
absoluta; y 360o entre 100 que es igual a 3.6o para la frecuencia relativa. En trminos ms generales,
tenemos:

(Para la frecuencia absoluta)

(Para la frecuencia relativa)

El segmento circular correspondiente a cada modalidad, se obtiene multiplicando los grados por unidad
del universo, por la frecuencia correspondiente (no es necesario diferenciar frecuencia absoluta de la
relativa).

A continuacin, se muestra en el grfico 3 el diagrama circular.

114
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Grfico 3
Diagrama circular para atributo nominal

b) Distribucin de frecuencias de atributo ordinal

Un atributo ordinal es una caracterstica de la poblacin que puede ser clasificada en grupos, categoras
o estratos, adems permite establecer posiciones relativas de mayor, menor o igual sin reflejar distancias
entre ellos.

Ejemplo, si consideramos las autoridades de las universidades como atributo nominal Ai, sus modalidades
ai pueden permitirnos diferenciar grupos de autoridades como: Rectores, Vice-rectores, Decanos, etc.,
donde, evidentemente, ser Rector es mayor que ser Vice-rector o ser Decano es menor que ser Vice-
rector, pero sin limitar la magnitud de la distancia en esa jerarqua de orden.

Las modalidades permiten agrupar los datos en grupos o categoras, que expresan relacin de mayor,
igual o menor, pero sin expresar distancias entre los grupos.

La presentacin de los datos del atributo considerado, utilizando la escala ordinal, se la presenta de
la siguiente manera, donde existen dos nuevas columnas con respecto a la distribucin de atributo
nominal:

A continuacin, se muestra en la tabla 7 la distribucin de frecuencias apropiada.

En la columna 5 se tiene la frecuencia absoluta acumulada, que puede ser de forma


ascendente o descendente, segn la conveniencia del investigador y se calcula acumulando
o sumando las frecuencias absolutas.
En la columna 6 se presenta la frecuencia relativa acumulada, que se calcula sumando las
frecuencias relativas.

115
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Tabla 7
Distribucin de frecuencias para atributo ordinal

Atributo Frecuencia Frecuencia Razn de Frec. absoluta Frec. relativa


Ai absoluta relativa comparacin acumulada acumulada
ni

ai n1 h1 r1 N1 H1
a2 n2 h2 r2 N2 H2
a3 n3 h3 r3 N3 H3
a4 n4 h4 r4 N4 H4

ni=n hi=h

Representacin grfica
La representacin grfica de este tipo de distribucin de frecuencias, de manera que contenga la misma
informacin, puede efectuarse de 2 maneras:

Mediante un diagrama de barras, diagrama rectangular o diagrama circular, siguiendo


el procedimiento sealado para el caso de una distribucin de frecuencias de atributo
nominal.

Mediante la ojiva. Este grfico corresponde a usar la informacin de la frecuencia


absoluta acumulada o de su correspondiente relativo acumulado (ver grfico 4).

Grfico 4
Ojiva PARA ATRIBUTO ORDINAL

116
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

c) Distribucin de frecuencias de variables


Los datos que corresponden a caracteres cuantitativos o variables de una poblacin se agrupan en tipos
de distribucin teniendo en cuenta el nmero de observaciones y los valores diferentes de la variable
(ver figura 27).

Tipo I
Las distribuciones de variable son de tipo I cuando el nmero de observaciones y los valores diferentes
de la variable son pocos. La organizacin de estos datos exige disponerlos en forma ascendente o
descendente. La presentacin de los datos se registra en una columna o en una lnea, segn necesidades
de su publicacin.

La presentacin de los datos anteriores se efecta en forma de una columna, como lo muestra la tabla
8.

Tabla 8
Distribucin de frecuencias de variable tipo I

xi
x1
x2
x3
x4

La distribucin tipo I de una variable se denomina tambin, distribucin de frecuencia unitaria.

Representacin grfica
Las distribuciones tipo I no tienen representacin grfica, puesto que su frecuencia absoluta es unitaria.
Sin embargo, puede ser til el diagrama que muestra la densidad de las observaciones en un rea
especfica (ver grfico 5):

Grfico 5
Densidad de una distribucin tipo I

Tipo II

La distribucin de una variable, cuando son muchas las observaciones y pocos los valores diferentes de
la variable, forman la distribucin tipo II. La organizacin de los datos requiere de la utilizacin de una
escala de mediciones de intervalos o razn.

La presentacin de datos se efecta de la siguiente manera (ver tabla 9):

117
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Tabla 9
Distribucin de frecuencias de variable tipo II

Variable Frecuencia Frec. absoluta Frec. relativa


Frecuencia relativa
absoluta acumulada acumulada
x1 n1 h1 N1 H1
x2 n2 h2 N2 H2
x3 n3 h3 N3 H3
x4 n4 h4 N4 H4
x5 n5 h5 N5 H5
x6 n6 h6 N6 H6
x7 n7 h7 N7 H7

n H = 100
Representacin grfica

La representacin grfica de una distribucin tipo II de una variable, puede efectuarse mediante un
diagrama de barras, si la informacin que se utiliza es de la frecuencia absoluta o relativa o mediante
el grfico acumulado de frecuencias cuando la informacin disponible se refiere a los valores de la
frecuencia acumulada absoluta o relativa acumulada (ver grfico 6).

Grfico 6
Diagrama acumulado de una distribucin tipo II

Nota: Se puede observar que la grfica representada es de una funcin definida a trozos o por partes,
debido al carcter de la variable del ejemplo, que es discreta. Generalmente las distribuciones tipo II
presentan este tipo de variable.

118
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Tipo III

Un carcter cuantitativo de la poblacin se presenta en forma de distribucin tipo III, cuando las
observaciones efectuadas son muchas y tambin los valores diferentes de la variable. La organizacin
de los datos recogidos se efecta usando una escala de intervalos o de razn, pudiendo ser la variable
discreta o continua.

La organizacin de los datos, se efecta de la siguiente manera:

Se determina el recorrido de la variable. En smbolos: (Valor


mayor menos valor menor de la variable).

Se establece el nmero de grupos de la distribucin, segn necesidades de estudio u


observacin. Algunos textos sugieren que se use la siguiente ecuacin: , sin
embargo este valor slo puede ser indicativo y no una regla.

Se determina el intervalo de cada clase, grupo o estrato, dividiendo el recorrido de la


variable entre el nmero de grupos:

Esta es la forma de determinar la amplitud de clase correspondiente a una distribucin de frecuencia de


una variable para intervalos constantes.

Si la distribucin tipo III es con intervalos no constantes, cada amplitud de clase se establece segn
exigencias del estudio y/o a criterio del investigador.

Distribucin tipo III con intervalos no constantes

Para configurarla se procede de la siguiente manera:

Se trata de una variable continua. X.


Se han efectuado muchas observaciones y se han registrado muchos valores diferentes de
la variable, por lo cual corresponde a una distribucin tipo III.
Se determina el recorrido de la variable. Rx = valor mximox - valor mnimox
Se define el nmero de intervalos no constantes segn motivos de estudio.

La distribucin de frecuencias resultante es mostrada en la tabla 10.


Nota: En el intervalo de clase despus del primero, el lmite inferior se diferencia del lmite superior
del intervalo anterior con un apstrofe, para expresar que es dicho lmite ms una pequea fraccin.
Esta diferenciacin de lmite se efecta para que la ordenacin de datos sea exhaustiva y considere el
principio de mutuamente excluyente.
Nota: La distribucin tipo III en general guarda u oculta informacin respecto de la que proporciona
una distribucin de frecuencias tipo II. Se entiende as que la distribucin tipo III globaliza la
informacin.

119
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Tabla 10
Distribucin de frecuencias Tipo III con intervalos no constantes

Intervalo de Frecuencia Frecuencia Frec. absoluta Frec. relativa Marcas de


clase absoluta relativa acumulada acumulada clase
Li-1 - Li ni

Li-1 Li n1 h1 N1 H1 x1
Li-1 Li n2 h2 N2 H2 x2
Li-1 Li n3 h3 N3 H3 x3
Li-1 Li n4 h4 N4 H4 x4
n h = 100

Nota: Cuando se utiliza la informacin de una distribucin de frecuencias tipo III para resumirla
mediante algn indicador de posicin y/o dispersin, los intervalos de clase deben transformarse en
marcas de clase que son la semisuma de los lmites de dichos intervalos.

Representacin grfica

A diferencia de la distribucin tipo II, que emplea el diagrama de barras para ser representado
grficamente utilizando frecuencias absolutas o relativas, en este caso se emplea el histograma de
frecuencias absoluta o relativa que est representado por reas.

En un sistema de ejes coordenados, los valores del intervalo de clase se representan en el eje de las
abscisas y en las ordenadas, los valores de la densidad de frecuencia. Para construir los histogramas se
procede de la siguiente manera:

Se determinan las densidades de frecuencia a fin de determinar las alturas de cada cuadriltero.
Los intervalos de clase representan las bases.
El rea de cada cuadriltero es el valor de cada frecuencia absoluta o relativa.

Siguiendo el ejemplo, vamos a obtener las densidades de frecuencia para cada intervalo o clase de la
siguiente manera:

Procedemos a realizar el histograma de frecuencias (ver grfico 7).

120
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Grfico 7
Histograma de frecuencias de una DISTRIBUCIN
tipo III de intervalos variables

Distribucin de frecuencias de una variable tipo III con intervalos constantes

Si se trata de una distribucin tipo III, es porque existen muchas observaciones y muchos
valores diferentes de la variable.
Se determina el recorrido de la variable: Rx = VMx - Vmx
Por razones de estudio se agrupan las granjas en cinco grupos, determinando as la
amplitud o intervalo de clase:

Con la informacin anterior, se presenta la distribucin de variable discreta tipo III (ver tabla 11).
Tabla 11
Distribucin de frecuencias de variable tipo III
de intervalos constantes

Intervalo de Frecuencia Frecuencia Frecuencia Frecuencia


clase absoluta relativa absoluta relativa
Li-1 - Li ni hi acumulada acumulada
Ni Hi
Li-1 - Li n1 h1 N1 H1
Li-1 - Li n2 h2 N2 H2
Li-1 - Li n3 h3 N3 H3
Li-1 - Li n4 h4 N4 H4
Li-1 - Li n5 h5 N5 H5
n h = 100

121
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Representacin grfica

Se utilizan histogramas como grficos de dicha distribucin, cuando la informacin utilizada


corresponde a frecuencias relativas o absolutas. Si se utiliza los valores de frecuencias acumuladas, el
grfico correspondiente es una ojiva.

Cuando la distribucin es de tipo III y con intervalos constantes, la construccin de los rectngulos
que conforman el histograma de frecuencias no requiere de la densidad de frecuencia, sino de aplicar
el siguiente convenio: Los intervalos constantes se consideran como una unidad. Cada intervalo
constante de clase representa la base del rectngulo y la altura es la frecuencia absoluta o relativa
correspondiente a cada grupo o clase (ver grfico 8).

Grfico 8
Histograma de frecuencias de variable tipo III
con intervalos constantes

Si se unen por medio de lneas los puntos medios superiores de cada rectngulo del histograma se
obtiene el polgono de frecuencias. Luego, siguiendo el polgono, se puede suavizar las lneas mediante
una curva continua, logrando la forma de la distribucin.

Ojiva

La ojiva se obtiene mediante un grfico acumulado de frecuencias absolutas o relativas. En el eje x se


usa los valores de los intervalos de clase y en el eje y los valores de frecuencias absolutas o relativas
(ver grfico 9).

La ojiva se forma uniendo con una lnea continua las esquinas superiores derechas de los rectngulos
formados para cada intervalo.

122
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Grfico 9
Ojiva de la distribucin tipo III de intervalos constantes

Ejemplo 1

Se quiere obtener un anlisis descriptivo de las calificaciones de los estudiantes de Estadstica de una
carrera empresarial en una universidad. Los datos recopilados fueron los siguientes:

E M B E M E M M E B M E M
M B M S B M B S B M B S S
D M B B M E B M B M M B B
M S M D D B M D S D B S D

Donde: E = Excelente, M = Muy bien, B = Bien, S = Suficiente, D = Deficiente

Se presentarn los datos en una distribucin de frecuencias adecuada para realizar algunas
conclusiones.

Se debe clasificar y definir la caracterstica de la poblacin que se desea estudiar. Se trata


de un atributo ordinal: A = Calificaciones de los estudiantes de Estadstica.
Se realiza la clasificacin de las modalidades del atributo de mayor a menor o viceversa
y el conteo (ni), en una tabla (ver tabla 12).

123
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Tabla 12
Distribucin de frecuencias sobre las
calificaciones de Estadstica

Atributo Frecuencia Frecuencia Razn de Frec. absoluta Frec. Relativa


absoluta relativa comparacin acumulada acumulada

ai = E n1 = 6 h1 = 11.54 R1 = 6/15 = 0.40 N1 = 6 H1 = 11.54


a2 = M n2 = 18 h2 = 34.61 R2 = 18/15 = 1.20 N2 = 24 H2 = 46.15
a3 = B* n3 = 15 h3 = 28.85 R3 = 15/15 = 1.00 N3 = 39 H3 = 75
a4 = S n4 = 7 h4 = 13.46 r4 = 7/15 = 0.47 N4 = 46 H4 = 88.46
a5 = D n5 = 6 h5 = 11.54 r5 = 6/15 = 0.40 N5 = 52 H5 = 100

ni=n=52 hi=h=100

Interpretacin

Hay 18 estudiantes que obtuvieron en el control de lectura calificacin de Muy Bien.


Un 13.46% de los estudiantes obtuvieron una calificacin de Suficiencia en el control de
lectura.
Por cada 10 estudiantes que obtuvieron una calificacin de Bien, 4 obtuvieron calificacin
de Deficiente.
46 de los 52 estudiantes obtuvieron por lo menos (como mnimo) calificacin de
Suficiente.
75% de los estudiantes obtuvieron una calificacin entre Bien a Excelente.
El 11.54% de los estudiantes se aplazaron.

Representacin grfica

Se pueden realizar distintos grficos. Se optar por realizar el diagrama de barras con la frecuencia
absoluta y la ojiva (ver grficos 10 y 11).

124
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Grfico 10
Diagrama de barras sobre las calificaciones de Estadstica

Grfico 11
Ojiva sobre las Calificaciones de Estadstica

Conclusin: Lo ms usual es que los estudiantes hayan obtenido notas muy buenas y buenas.

125
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Ejemplo 2

Se recopil informacin acerca de las ventas anuales, en miles de $us, de 50 pequeas tiendas.

142 195 100 164 121 191 125 180 156 170
166 187 176 199 178 147 180 105 135 118
183 167 150 171 110 220 198 170 205 178
163 140 161 146 190 180 137 149 179 189
107 169 159 190 174 130 175 193 120 160

La informacin que se tiene se debe organizar mediante una distribucin de frecuencias


tipo III para variable continua (X = Ventas anuales en $us.), ya que los datos son muchos
y muchos los valores diferentes que adopta la variable. El nivel de medicin ser el de
razn. En este caso se opt por una distribucin de 6 intervalos constantes, de amplitud
.

La informacin organizada se muestra en la tabla 13.

Tabla 13
Distribucin de frecuencias de ventas anuales (miles de $us.)

Frecuencia Frecuencia
Frecuencia Frecuencia relativa
Intervalo de clase relativa absoluta acumulada
absoluta
acumulada

100 120 6 12 6 12
120 - 140 6 12 12 24
140 - 160 8 16 20 40
160 - 180 18 36 38 76
180 - 200 10 20 48 96
200 - 220 2 4 50 100
50 100

La interpretacin es la siguiente:

Las ventas anuales de 8 tiendas estn entre 140 a 160 mil dlares.
El 12% de las tiendas venden anualmente entre 120 a 140 mil dlares de mercadera.
38 de las 50 tiendas tienen ventas anuales de por lo menos 180 mil dlares.
El 96% de las tiendas tienen ventas que oscilan entre 100 a 200 mil dlares al ao.

El histograma de frecuencias es mostrado en el grfico 12 y la ojiva en el grfico 13.

126
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Grfico 12
Histograma de frecuencias de ventas anuales (miles de $us.)

Se observa que el rango de ventas ms frecuente entre las 50 pequeas tiendas es de 160 a 180 mil
dlares anuales.

Grfico 13
Ojiva de ventas anuales (miles de $us.)

3.13.1.2 Series Atemporales de Probabilidades

La teora de las probabilidades tuvo su origen en los problemas relacionados con los juegos de azar
(dados, barajas, etc.). Ms tarde, el concepto de probabilidad, convenientemente modificado, se ha
aplicado a los seguros y a los problemas de inferencia estadstica. Estos ltimos poseen numerosas
aplicaciones en la fsica moderna, la biologa, la agricultura, la industria, las ciencias sociales y la
economa. De aqu que la teora de las probabilidades tenga hoy gran inters prctico y terico y
constituya una rama importante de la matemtica, ingeniera y de las ciencias sociales.

127
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Clases de experimentos: determinstico y aleatorio


Un experimento es determinstico cuando, conocidas las condiciones en que se produce, los resultados
que se obtienen estn sujetos a dichas condiciones. En general, este tipo de conclusiones corresponden
al campo de la fsica y qumica. Por ejemplo: Combinando una molcula de oxgeno (O) con dos de
hidrgeno (2H), se obtiene la molcula de agua (H2O) indefectiblemente, si se usa como catalizador
una chispa elctrica.

Los datos para una variable pueden obtenerse no solo por experimentos determinsticos, sino tambin
mediante experimentos aleatorios. Un experimento aleatorio se define como aqul que se puede producir
de manera indefinida, con las mismas condiciones, sin la posibilidad de determinar de antemano el
resultado de una prueba, en observacin a dichas condiciones. Ejemplo: fabricacin de un bien estndar
o defectuoso, lanzar una moneda o un dado, observar un nacimiento y ver el sexo, determinar el da en
que una mquina va a fallar, etc. En todos estos ejemplos no se puede saber el resultado preciso antes
de realizar los experimentos.

Un experimento aleatorio tiene las siguientes caractersticas.

Se puede repetir de manera indefinida, esto asegura que los resultados sean simtricos y
que el elemento del experimento sea homogneo.
Los resultados del experimento son numerables y registrables.
No es posible determinar el resultado exacto de un experimento aleatorio antes de que
ocurra, pero si obtener una lista de los posibles.
Por el principio de la regularidad estadstica (Ley de los grandes nmeros) es posible
estimar la probabilidad de un resultado cualquiera del experimento cuando este se haya
realizado muchas veces.
Espacio muestral
Es el conjunto de resultados posibles o imaginables de un experimento aleatorio. Por ejemplo, lanzar
un dado genera el siguiente espacio muestral:

S = S (1, 2, 3, 4, 5, 6) Por extensin


S = S (x N / 1 N 6) Por comprensin

Los espacios muestrales pueden ser finitos o infinitos. Es finito cuando se trata de un conjunto numerable,
como por ejemplo los resultados posibles que existen al elegir un nmero de la lotera de entre 100000
boletos. Es infinito cuando es continuo no numerable, como por ejemplo los resultados posibles que se
pueden dar al elegir una persona de entre todas las que hay en el mundo.
Determinacin del espacio muestral
Dado un experimento aleatorio, los resultados posibles o imaginables a que da lugar dicho experimento
pueden determinarse utilizando:

El arboligrama (que es el mtodo ms verstil),


un cuadro de doble entrada (slo aplicable en el caso de dos intentos o ensayos),
aplicando nmeros combinatorios, permutaciones o variaciones (que tan solo entregan el
nmero de posibles resultados, pero no los resultados en s),

128
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

segn el caso del experimento. Cualquiera de los instrumentos sealados son alternativos, con las
restricciones descritas.

Ejemplo 1: Experimento aleatorio con reposicin o reemplazo

En el bolsillo de un estudiante hay billetes de 10, 20 y 50 bolivianos. Si se obtienen dos billetes, uno
tras otro, elegidos al azar, con reposicin. Qu resultados pueden obtenerse? Se pretende determinar
el espacio muestral.
Resolucin

Se observa el tipo de experimento: Se trata de un experimento aleatorio, porque es


posible efectuar la extraccin de dos billetes, uno tras otro elegidos al azar, de manera
permanente y bajo las mismas condiciones, observar los resultados y registrarlos.
Se determina el espacio muestral: Los resultados posibles o imaginables de dicho
experimento pueden ser obtenidos mediante un arboligrama, mostrado en la figura 28.

Para construirlo se debe preguntar: cules son los posibles billetes que se puede sacar en la primera
extraccin? La segunda pregunta: habiendo sacado un billete de 10, 20 o 50, qu posibles billetes
puedo sacar en la segunda extraccin?

Figura 28
Arboligrama de sacar 2 billetes con reposicin

S = { 10-10 ; 10-20 ; 10-50 ; 20-10 ; 20-20 ; 20-50 ; 50-10 ; 50-20 ; 50-50 }

Ejemplo 2: Experimento aleatorio sin reposicin o reemplazo

En el bolsillo de un estudiante hay billetes de 10, 20 y 50 bolivianos. Si se obtienen dos billetes, uno
tras otro, elegidos al azar, sin reposicin. Qu resultados pueden obtenerse?

129
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Resolucin

No se trata del mismo experimento aleatorio del ejemplo 1, porque en este caso se extraen
los billetes uno tras otro, pero sin reposicin.

Los resultados posibles o imaginables de dicho experimento pueden ser obtenidos


mediante un arboligrama (ver figura 29).

Aqu se realizan las mismas preguntas que en ejemplo anterior. Se observar que basta que una condicin
del experimento cambie, para que ste tenga otro espacio muestral.

Figura 29
Arboligrama de sacar 2 billetes sin reposicin

S = { 10-20 ; 10-50 ; 20-10 ; 20-50 ; 50-10 ; 50-20 }

Eventos o sucesos aleatorios


Un evento es un subconjunto del espacio muestral.

Ejemplo: Si el experimento aleatorio consiste en lanzar al aire una moneda tres veces y observar los
resultados conjuntos, un evento puede ser:

E1 = obtener tres caras en 3 lanzamientos.


E1 = E (c c c)

Otro evento, obtener 3 sellos en tres lanzamientos: E2 = E (s s s), etc.

Un evento es un resultado o varios resultados de un espacio muestral en los que se est interesado, con
el propsito de estudiarlos o analizar los resultados.

130
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Clases de eventos
a) Sucesos simples y compuestos
Los eventos o sucesos aleatorios pueden ser simples o compuestos, segn puedan o no descomponerse
en otros resultados del experimento. Ejemplo: al lanzar una moneda sale cara o cruz, estos resultados
son simples. Al lanzar una moneda 2 veces: cs, cc o ss, se originan eventos compuestos.

b) Sucesos ciertos e imposibles


Un suceso es cierto cuando los resultados que se obtienen cumplen las condiciones del experimento.
Ejemplo: al lanzar una moneda, los sucesos ciertos son cara o cruz. El suceso imposible se da cuando el
resultado del experimento no cumple las condiciones esperadas. Ejemplo: cuando la moneda cae de perfil.

c) Sucesos mutuamente excluyentes o no


Dos o ms sucesos son mutuamente excluyentes cuando la ocurrencia de uno de ellos excluye la
aparicin de los otros. Ejemplo: al lanzar un dado la aparicin de 5 excluye la aparicin de 1, 2, 3, 4 y
6. Sin embargo, si se lanzan dos dados dos sucesos que no son mutuamente excluyentes son el evento
que sumen 10 y el evento que en uno de ellos aparezca un 4.

d) Sucesos igualmente posibles o no


Dos o ms eventos son igualmente posibles cuando ninguno tiene mayor posibilidad de ocurrencia que
el otro. Ejemplo: al lanzar una moneda hay la misma posibilidad que salga cara o sello si sta est bien
hecha. Las monedas cargadas originan sucesos que no son igualmente posibles.

e) Sucesos dependientes e independientes


Un suceso es dependiente de otro cuando la ocurrencia de uno afecta al resultado del otro. Ejemplo:
si se tienen 3 bolas rojas y una azul en una urna y en la primera extraccin se eligi al azar una bola
roja, el suceso que se extraiga una bola roja en la segunda extraccin es dependiente de la primera. Sin
embargo, si la bola roja extrada se repone a la urna, la segunda extraccin ser independiente de la
primera.

Probabilidad
La probabilidad es una medida del riesgo o de la incertidumbre. Se dice que existe riesgo cuando
se conoce el espacio muestral y la probabilidad de aparicin de los sucesos. La situacin que indica
incertidumbre, desconoce la presencia del espacio muestral, la probabilidad de los sucesos o ambos.

Por medio de la probabilidad, podemos medir si un suceso es probable e improbable: el resultado de una
eleccin presidencial, los efectos colaterales de un nuevo medicamento, la durabilidad de una pintura
para exteriores, etc.

La probabilidad puede clasificarse en tres tipos.

a) Probabilidad a priori o clsica


Es la manera ms antigua de medir el riesgo o la incertidumbre de un evento.

La probabilidad de ocurrencia o xito de un suceso simple A, es el nmero que se determina mediante el


cociente de los casos favorables de la ocurrencia del evento y el nmero de casos posibles.

131
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

En la aplicacin de esta regla, los trminos favorable y xito se aplican a cualquier clase de resultado
que el investigador est interesado. As, favorable puede significar que un televisor no funcione, ya que
el inters es detectar los que estn defectuosos.

Algunas propiedades que presentan los sucesos, al hablar de sus probabilidades a priori son:

La suma de probabilidades de dos sucesos independientes es: P (A U B) = P(A) + P(B)


La suma de probabilidades de dos eventos mutuamente excluyentes es: P(A) = 1 - P(A)
La probabilidad de cualquier evento presenta los siguientes valores: 0 P(A) 1
Cada resultado debe ser igualmente posible.
Se puede determinar la probabilidad de antemano.

Ejemplo

Supongamos 3 nacimientos. Cul es la probabilidad de que nazcan 2 varones?

Resolucin.
Determinar el sexo del recin nacido, es un experimento aleatorio (Suponiendo que no se
cuenta con un ecgrafo).
Los resultados del experimento cuando se observa el nacimiento uno tras otro, en la
determinacin del sexo se los determina por medio de un arboligrama (Ver figura 30).

Figura 30
Arboligrama del sexo de 3 nacimientos

S=S (HHH, HHM, HMH, MHH, HMM, MHM, MMH, MMM)

132
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Se calcula la probabilidad del evento E1 de que hayan exactamente 2 nacidos hombres


(suma de tres probabilidades conjuntas).

P(E1) = P (H,H,M) + P (M,H,H) + P (H,M,H)

Para el anlisis de dichas probabilidades es necesario recurrir a eventos simples: Probabilidad conjunta
es la multiplicacin de una probabilidad marginal por varias condicionales.

La probabilidad de 2 nacidos hombres es de 3 veces en 8 nacimientos, o del 37.5%.

Nota: La probabilidad marginal siempre corresponde a un evento simple (por eso corresponden a
las primeras ramas del rbol. Ejemplo: P(H): probabilidad de que el recin nacido sea hombre. La
probabilidad condicional a un evento que depende de otro, por eso corresponden a las segundas ramas
del rbol y as sucesivamente. Ejemplo: P(H/H): la probabilidad de que el segundo nacido sea hombre,
dado que el primero fue hombre. La probabilidad conjunta se refiere a eventos que se dan al mismo
tiempo, y corresponden a los eventos del espacio muestral. Ejemplo: P(H,H,M): la probabilidad de que
dos recin nacidos de tres, sean hombres.

b) Probabilidad a posteriori

Una desventaja del concepto clsico de probabilidad es su aplicacin limitada, ya que hay muchas
situaciones en las que no se pueden considerar las diversas posibilidades como igualmente probables.
Ejemplos: la posibilidad de si llover en un da determinado, si un empleado obtendr un ascenso este
mes en la empresa, si quisiramos pronosticar el resultado de una eleccin o un partido de ftbol, o
si quisiramos determinar si un ndice burstil bajar o subir. Para estos casos, se usa el concepto de
probabilidad a travs de la frecuencia o probabilidad a posteriori. Se define de la siguiente manera:

Es la frecuencia relativa observada de un evento durante un gran nmero de intentos.


La fraccin de veces que un evento se presenta cuando las condiciones son estables.
Advertencia. Tiene una limitacin en su uso: Falla cuando los datos son insuficientes.

c) Probabilidad subjetiva

Qu pasa con la probabilidad a posteriori si el evento ocurre muy pocas veces o una sola vez? Ya no
es un buen indicador de la ocurrencia del evento. As que hay una tercera definicin de probabilidad
que es la subjetiva.

Est basada en las creencias de las personas que efectan la estimacin.


Es la probabilidad asignada a un evento por un individuo, basada en la evidencia
disponible.
til cuando los eventos se presentan una vez o pocas veces.

133
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Variable aleatoria
Es una funcin que permite transformar los diferentes resultados del espacio muestral en puntos del
conjunto de los nmeros naturales. Puede ser continua o discreta.

Ejemplo
Supngase el espacio muestral del sexo de 3 recin nacidos (Ver la figura 19).

S = S (HHH, HHM, HMH, MHH, HMM, MHM, MMH, MMM)

Corresponde a la situacin de observar 3 nacimientos uno tras otro.

Si interesa el nmero de hombres recin nacidos se puede observar la siguiente relacin entre la variable
definida y el espacio muestral.

La variable aleatoria es discreta y estara definida como: X = Nmero de hombres recin nacidos,
generando as los valores de la tabla 14.

Tabla 14
Valores de la variable aleatoria: nmero de hombres recin nacidos
Casos del espacio muestral Valores de la variable aleatoria discreta: (Xi)
MMM X1 = 0 => Los recin nacidos son todos mujeres
MMH, MHM, HMM X2 = 1 Significa 1 hombre entre los recin nacidos
MHH, HMH, HHM X3 = 2 Significa 2 hombres
HHH X4 = 3 Significa 3 hombres

Si dentro el espacio muestral, teniendo en cuenta la variable aleatoria definida, se define una funcin
de probabilidades que determine la ocurrencia de los diferentes valores de la variable, se dice que se
ha definido: P(x en A)

Distribucin de probabilidades

Sea un experimento aleatorio que permite definir un espacio muestral, sea x la variable aleatoria y P(x)
las probabilidades respectivas. La funcin de probabilidad se obtiene cuando determinada una variable
aleatoria para el espacio muestral, se dispone de las probabilidades correspondientes producidas en el
experimento aleatorio.

En el ejemplo anterior, la distribucin de probabilidades es la que se muestra en la tabla 15.

Tabla 15
Distribucin de probabilidades del sexo del recin nacido

Casos del espacio


Variable xi P(xi)
muestral

x1 = 0 MMM 1/8
x2 = 1 MMH, MHM, HMM 3/8
x3 = 2 MHH, HMH, HHM 3/8
x4 = 3 HHH 1/8

Esta tabla corresponde a una distribucin de probabilidades para variable aleatoria discreta.

134
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

a) Funcin de cuanta
Propiedades
La distribucin de probabilidades, cuando la variable es discreta, se denomina funcin de cuanta y
debe cumplir con:

Cualquier P(x) debe ser un nmero real.


La suma de las distintas probabilidades de los valores de la variable debe ser 1:

En consecuencia, cualquier P(x) debe estar entre 0 P(x) 1 para x = 0, 1, 2, ..., n.

Para determinar si una funcin es de cuanta debe cumplir con las condiciones anteriores. Para evaluar
la segunda condicin: La suma de la funcin de cuanta en el recorrido de la variable debe sumar la
unidad, es necesario incorporar una variable de trabajo k, tal que:

Si k = 1, entonces la funcin propuesta es de cuanta.


Si k 1, entonces debe corregirse la funcin de cuanta multiplicndola por dicha
constante.

Ejemplo

Si la probabilidad de que cualquier elector registrado (seleccionado al azar de las listas oficiales) vote en
una eleccin determinada es de 0.70, cul es la probabilidad de que dos de cinco electores registrados
voten en la eleccin?

Se ha determinado que para resolver este problema se puede usar la siguiente funcin de cuanta:

, donde: El signo ! significa


.
factorial y puede ser hallado por la siguiente ecuacin:

Resolucin

Primero se debe verificar si la funcin propuesta cumple las propiedades de una de cuanta
o no. Para ello se halla las probabilidades para cada valor de la variable y se verifica si

cumple:

135
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Se verifica que es funcin de cuanta. La distribucin es la que se muestra en la tabla 16.

Tabla 16
Distribucin de cuanta de la binomial b(x, n = 5, p = 0.7)

x P(x)
0 0.0024
1 0.0284
2 0.1323
3 0.3087
4 0.3602
5 0.1681
Total 1

Ahora si se puede calcular la probabilidad pedida, que no es otra cosa que la probabilidad
para x = 2: 0.1323

Existe una probabilidad de 13.23% de que de cinco personas elegidas al azar dos voten en la eleccin.

Representacin grfica

Las distribuciones de probabilidades para variable aleatoria discreta pueden ser representadas mediante
un diagrama de barras, circular o rectangular, usando los valores de probabilidad para el eje y y los
valores de la variable para el eje x. Tambin pueden ser representadas mediante diagramas acumulados
de probabilidades.

La grfica de barras que corresponde a esta funcin de cuanta es observada en el grfico 14.

Grfico 14
Diagrama de barras de la binomial b(x, n = 5, p = 0.7)

Nota: A esta distribucin de cuanta se denomina distribucin binomial.

136
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

b) Funcin de densidad

Propiedades

La distribucin de probabilidades de una variable aleatoria continua, se denomina funcin de densidad


y debe cumplir con:

f(x) 0 para - < x <

La integral de la funcin en el recorrido de la variable debe ser igual a 1:

La evaluacin de una funcin de densidad se efecta determinando el cumplimiento de las condiciones


anteriores. La segunda condicin requiere incorporar la variable de trabajo k.

Se consideran las condiciones introducidas para el valor de k, a fin de determinar si la funcin propuesta
es de cuanta.

Ejemplo

Se ha descubierto que el tiempo de espera (en minutos) para que una persona pueda acceder a conectarse
a internet sigue la siguiente funcin de densidad:

a) Determine la probabilidad que alguien espere menos de un minuto.


b) Determine la probabilidad que alguien espere por lo menos un minuto.

Resolucin
Primero se verifica si la funcin es realmente una de densidad, realizando la comprobacin
de la propiedad: .

Se verifica que la funcin no era de densidad, y haba que corregirla, del siguiente modo:

137
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Ahora si se procede a determinar lo que se pide.

a)

Existe una probabilidad de 71.07% de que una persona se conecte al internet en menos de un minuto.

b)

Existe una probabilidad de 28.93% de que una persona espere para conectarse al internet un minuto o
ms tiempo.

A continuacin se muestra en la figura 31 un resumen de los tipos de grficos que se pueden formar para
cada distribucin de frecuencias, que es de elaboracin propia.

3.13.1.3 Resumen de Datos Univariables

La informacin que contiene cualquiera de las distintas formas de distribucin de frecuencias o


probabilidades sobre los valores de una variable, es posible reducirla o condensarla utilizando
estadgrafos o indicadores de posicin central. Los principales indicadores de tendencia central son:

Media aritmtica
Moda
Mediana
Media armnica
Media geomtrica

Las distribuciones de frecuencia de atributos, si son de atributo nominal, pueden expresarse en forma
resumida usando la frecuencia o la moda, en cambio si son de tipo ordinal, la informacin queda
resumida mediante la moda o mediana. Las distribuciones de frecuencia de variable, cualquiera
fuese el tipo (I, II o III), pueden resumir la informacin usando cualquiera de los 5 indicadores antes
mencionados.

Los estadgrafos de tendencia central permiten resumir la informacin definiendo la posicin de


la distribucin de frecuencias, tanto para variables como para atributos. Sin embargo esta es una
caracterizacin parcial de dichas distribuciones. La caracterizacin se completa, cuando adems de
conocer la posicin tambin se conoce su forma.

138
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

GRFICAS PARA DISTRIBUCIONES DE FRECUENCIAS


FIGURA 31

139
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Los estadgrafos que permiten conocer en forma resumida la forma de una distribucin se denominan
indicadores de dispersin. Adems de ello permiten evaluar la confiabilidad de un estadgrafo de
posicin.

An siendo la media aritmtica el promedio ms utilizado en la prctica, muchas veces puede dar lugar
a falsas interpretaciones. Esto ocurrir cuando no tenga suficiente grado de representatividad, es decir,
cuando los valores de la variable estn poco concentrados, o lo que es lo mismo, muy dispersos a su
alrededor. Entonces, poco podr decir la media sobre la poblacin en estudio. Es necesario acompaar
la media aritmtica con una medida del grado de dispersin de los valores de la variable a su alrededor,
de forma que, cuanto mayor sea esta medida, menor ser el grado de representatividad de la media y
viceversa.

Los principales son:

El recorrido.
La varianza y la desviacin estndar.
La amplitud y desviacin cuartlica.
La amplitud centlica.

Dependiendo qu medida de tendencia central se elige, deber ir acompaada con el estadgrafo de


dispersin adecuado. A continuacin se entregan estas relaciones:

Para comprender mejor qu es lo que involucra que exista una variacin en los datos de una serie
estadstica, se describe aqu algunos aspectos importantes:

1. Cunto ms dispersos estn los datos, ms aumentar el rango, la desviacin estndar o


la amplitud cuartlica, y viceversa.
2. Si las observaciones son todas iguales (de manera que no hay variacin en los datos)
todos los estadgrafos de dispersin sern igual acero.
3. Las medidas de dispersin nunca son negativas.

En muchos casos de distribucin de frecuencias de una variable, stas no son comparables utilizando la
medias y la varianzas respectivas, por las unidades en que estn expresadas las variables. Entonces es
necesario construir indicadores que no estn influidos por dichas unidades. En este caso se construyen
razones tales como el coeficiente de variacin y la variable tipificada o estandarizada como instrumentos
que permiten comparar entre distribuciones de frecuencias de una variable.

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de una
distribucin de frecuencias. En concreto, podemos estudiar las siguientes caractersticas de la curva:

a) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la
misma (centro de simetra) los segmentos de curva que quedan a derecha e izquierda son
similares.
b) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor

140
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

de los valores medios de la muestra.


Un esquema de los principales estadgrafos que resumen las distribuciones de frecuencias se muestra
en la figura 32.

Figura 32
Estadgrafos de posicin, dispersin, comparacin y forma

Seleccin del estadgrafo de posicin adecuado

Para elegir el estadgrafo de posicin que mejor se adecue a cada distribucin, se deben tomar en cuenta
las siguientes consideraciones:

Cuando la distribucin es simtrica o levemente asimtrica, cualquiera de los estadgrafos


es adecuado, prefirindose siempre la media aritmtica.
Cuando la distribucin es muy asimtrica, la media no debe usarse como representativa,
porque se ve afectada por valores extremos de la variable. Es mejor usar la mediana, ya
que no se ve afectada por valores extremos.
Si la distribucin es bimodal o multimodal, la moda no debe usarse como representativa.
Generalmente la moda se usa para distribuciones de atributo nominal u ordinal.

141
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Si los datos estn en porcentajes, y stos se incrementan en forma multiplicativa, la mejor


medida de posicin es la media geomtrica.
Si se quiere hallar la media de la tasa de uso de un bien, es mejor usar la media
armnica.
Si se comparan las tres medias que se han visto en el captulo: aritmtica, geomtrica y armnica, dan
valores de acuerdo a su magnitud del siguiente modo:

La media aritmtica da mucho relieve a los elementos grandes de una serie estadstica, por el contrario,
las medias geomtrica y armnica destacan la influencia de los valores pequeos y reducen la influencia
de los valores grandes.

Un rbol de decisin para seleccionar el estadgrafo de posicin adecuado es el mostrado en la figura


33.

Clculo de los estadgrafos

a) Estadgrafos de posicin

Media aritmtica. Es un valor determinado en algn punto del recorrido de la variable. Este punto
resulta ser el centro de gravedad de la distribucin. En general se define como el valor que resulta
de dividir los valores registrados de la variable entre el nmero de ellos. Este valor llamado media
aritmtica se simboliza por:

Tipo I. La media en distribuciones tipo I se determina aplicando la definicin general.

Tipo II. En el clculo de la media aritmtica en distribuciones tipo II, se aplica la expresin anterior
aadiendo pesos o ponderaciones:

donde ni son las ponderaciones (ni = frecuencia absoluta).

142
FIGURA 33
RBOL DE DECISIN PARA LA SELECCIN DEL ESTADGRAFO DE POSICIN ADECUADO

143
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Una manera fcil de determinarla es efectuando operaciones en la tabla de distribucin de frecuencias


de la siguiente manera:

Se multiplica la primera columna (xi) por la segunda columna (ni). Este producto se anota
en la tercera columna. La suma de dicho producto se divide entre el tamao de poblacin
o universo (ver tabla 17).

Tabla 17
Clculo de la media aritmtica en distribuciones tipo II

xi ni xi * ni
x1 n1 x1 * n1
x2 n2 x2 * n2
: : :
xn nn xn * nn
n xi * ni

tal que:

Tipo III. La expresin de clculo de la media aritmtica en una distribucin de frecuencias tipo II se
aplica tambin al caso de hallar dicho estadgrafo en una distribucin tipo III, si acaso esta distribucin
se la convierte a tipo II.

La transformacin mencionada se efecta de la forma en la que se observa en la tabla 18.

Tabla 18
Transformacin de la tabla Tipo III a tipo II

tipo III transformada a tipo II

Dicha transformacin se produce reemplazando los intervalos de clase por sus valores medios o marcas
de clase (semisuma de los lmites de cada intervalo).

Nota: La media aritmtica debe utilizarse cuando las distribuciones no tengan peso o ponderacin en
valores extremos.

144
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Esperanza matemtica. Indica el valor promedio que se desea obtener en una distribucin de
probabilidades.

Funcin de cuanta. Si la distribucin probabilstica es una funcin de cuanta, la esperanza matemtica


se obtiene mediante la siguiente expresin:

Funcin de densidad. Si la expresin matemtica es de funcin de densidad, la esperanza matemtica


se obtiene de la siguiente manera:

Nota: En general la media aritmtica o la esperanza matemtica, es un valor que se define dentro el
recorrido de la variable.

Moda. La moda es el valor de la variable que responde a la frecuencia ms alta. Se dice tambin que
es el valor de la variable ms frecuente. Este estadgrafo de tendencia central se usa para resumir la
informacin en el caso de distribuciones de atributo nominal, ordinal y en el caso de las variables
discretas o continuas.

Tipo I. En las distribuciones tipo I, no existe posibilidad de hallar la moda, por que dicha distribucin
se dice que es de tipo unitaria.

Tipo II. En las distribuciones tipo II, la moda se determina aplicando la definicin.

Tipo III. La moda en distribuciones tipo III se halla de dos maneras:

1) Se transforma la distribucin tipo III en tipo II, cambiando la columna de intervalos con
una de marcas de clase y se aplica la definicin de la moda.

2) Se aplica una frmula emprica (Mo):

Si la distribucin tipo III es de intervalo no constante:

donde: ai = Amplitud del intervalo de clase modal.


Li-1 = Frontera inferior de la clase modal.

El ndice i corresponde al orden de la frecuencia ms alta y Li-1 - Li al intervalo modal.

Si la distribucin tipo III es de intervalo constante, la moda se determina aplicando la


siguiente frmula emprica:

145
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Moda esperada. La moda en una distribucin de probabilidad, corresponde a aplicar las condiciones
de un mximo.

Funcin de cuanta. Si f(x) es una distribucin de cuanta, la moda se determina aplicando la


definicin.

Funcin de densidad. Si f(x) es una distribucin de densidad, se puede determinar la moda mediante
tres procedimientos:

1) Aplicando el mtodo para hallar un mximo absoluto en un intervalo

Consiste de los siguientes pasos:

a) Halle las coordenadas de x de todos los puntos crticos de primer orden de la funcin en
el intervalo (Un punto crtico es aquel que se obtiene igualando a cero o a no
existe la primera derivada de una funcin:
b) Calcule f(x) en estos valores crticos y en los puntos extremos x = a y x = b.
c) Seleccione el valor mayor de f(x) obtenido en el paso 2. Este es el mximo absoluto, que
puede ser confirmado mediante el criterio de la segunda derivada: .

2) Aplicando la frmula emprica para intervalos constates o no constantes

Nota: En una distribucin de frecuencias o probabilidades, cuando existen dos o ms valores que
corresponden a la frecuencia ms alta, se dice que la distribucin es bimodal o multimodal. El valor de
una distribucin de frecuencias que corresponde a la frecuencia ms baja, se denomina antimoda. Una
distribucin de frecuencias, puede tener 2 o ms antimodas.

Mediana. Es un valor de la variable que permite distribuir en dos partes igualmente proporcionales a la
distribucin de frecuencias. De otra manera se dice que la mediana es un valor que supera a no ms de
50% de los valores observados. La mediana es un estadgrafo de ubicacin y permite determinar si un
valor cualquiera de la variable forma parte del primer o del segundo grupo.

El procedimiento para su clculo es diferente segn el tipo de distribucin para el que se desea hallar.
Tipo I. Se distinguen 2 casos:

1) Si el nmero de trminos de la distribucin es impar


Se procede de la siguiente manera:

146
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Se ordenan los datos de la distribucin en forma ascendente o descendente.


El valor de la mediana corresponde al trmino central, es decir:

2) Si el nmero de trminos de la distribucin es par

Se ordenan los datos de la distribucin en forma ascendente o descendente.


El valor de la mediana es el promedio de los valores centrales previamente ordenados, es
decir:

Tipo II. El valor de la mediana en una distribucin tipo II, se determina tomando en cuenta el siguiente
procedimiento:

Se determinan los valores de la frecuencia absoluta acumulada (Ni).


Se calcula la mitad del universo (n/2) y se lo ubica entre dos valores de la frecuencia
absoluta acumulada, tal que en smbolos corresponde a la siguiente expresin:

tal que si:

Ni > n/2, el valor xi correspondiente, es la mediana.

Si Ni = n/2, la mediana es:

Tipo III. En este tipo de distribucin, la mediana se calcula utilizando una frmula emprica:

donde: ai = Ancho del intervalo de clase mediana


Li-1 = Lmite inferior de la clase mediana.

Mediana esperada. La mediana esperada es el valor de la variable aleatoria que divide a una distribucin
de probabilidades en dos partes igualmente proporcionales.

Funcin de cuanta. El procedimiento para hallar la mediana esperada en una funcin de cuanta es
el siguiente:

Se determina los valores de probabilidad acumulada.


Se ubica el valor 0.5 entre dos valores consecutivos de probabilidad acumulada:
, tal que si:

147
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Funcin de densidad. La mediana esperada de una funcin de densidad puede ser calculada por tres
mtodos:

1) Mediante la siguiente integral:

2) Mediante la siguiente frmula emprica para distribuciones tipo III:

Media armnica. Es un valor de la variable que se determina como el valor recproco medio de los
valores recprocos de la variable. Se la usa generalmente cuando se quiere determinar la tasa media de
uso de un producto.

Tipo I. Para una distribucin tipo I, la expresin de clculo es la siguiente:

Tipo II y III. En una distribucin de frecuencia tipo II o III, la media armnica se calcula de la siguiente
manera:

Media geomtrica. La media geomtrica es la raz ensima del producto de los valores considerados
de una variable representada por:

Generalmente es una mejor medida que la media aritmtica cuando los datos estn en porcentajes o
unidades relativas.

Tipo I. La definicin anterior se utiliza en caso de obtener la media geomtrica en la distribucin tipo
I.

Tipo II o III. En distribuciones tipo II y III, la media geomtrica se obtiene aplicando la siguiente
definicin:

148
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

b) Estadgrafos de dispersin

Varianza. La varianza de una distribucin de frecuencia se determina por el promedio del cuadrado de
las desviaciones de la variable.

Tipo I. La anterior frmula se aplica para el clculo de la varianza en las distribuciones tipo I. El clculo
de la varianza se facilita si se desarrolla convenientemente la expresin anterior:

Tipo II y III. Si las distribuciones son de tipo II y III, la varianza se define de la siguiente manera:

Desviacin estndar. Es la raz cuadrada positiva de la varianza.

Varianza esperada. En toda distribucin de probabilidad, a fin de caracterizarla, adems de hallar la


esperanza matemtica, es necesario determinar o analizar la varianza esperada.

Funcin de cuanta. Si se tiene una funcin de cuanta, la varianza esperada se define de la siguiente
manera:

Funcin de densidad. Si se tiene una funcin de densidad, la varianza esperada se define de la siguiente
manera:

Otras medidas de dispersin. Estas medidas generalmente se utilizan juntamente con la mediana,
cuando la media y la desviacin estndar no son medidas representativas de la distribucin.

Amplitud cuartlica. Los cuartiles son los valores de la variable que dividen a la distribucin en 4
partes proporcionalmente iguales, como lo muestra la figura 34.

149
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

FIGURA 34
DISPOSICIN DE LOS CUARTILES EN UNA DISTRIBUCIN

Nota: El segundo cuartil es igual a la mediana. A.C. es la amplitud cuartlica.

Tipo I y II. El procedimiento para distribuciones tipo I y II, se puede deducir fcilmente de la
metodologa seguida para el clculo de la mediana.

Tipo III. Se halla por medio de la siguiente ecuacin:

donde el r - simo cuartil, se determina mediante:

Esta ecuacin es una general de la que se ha deducido la ecuacin para el clculo de la mediana.

Amplitud centlica. Los centiles son los valores de la variable que dividen a la distribucin en 100
partes iguales, como se muestra en la figura 35.

Nota: El cuartil 2 es igual al centil 50 y a la mediana. El cuartil 3 es igual al centil 75 y el cuartil 1 al


centil 25. A.Cn. es la amplitud centlica.

Nota: Por medio de los centiles, el investigador puede no slo calcular los lmites del 80% central de la
distribucin, sino de cualquier porcentaje que sea adecuado para sus conclusiones.

Figura 35
Disposicin de los centiles en una distribucin

Tipo I y II. En la prctica, debido a que para calcular centiles se deben dividir los datos en 100 partes,
no se realiza el clculo para distribuciones tipo I y II, que contienen pocos valores diferentes de la
variable.

150
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Sin embargo, el procedimiento es similar que para el clculo de la mediana.

Tipo III. Se halla por medio de la siguiente expresin:

donde el r - simo centil se calcula mediante:

c) Estadgrafos de comparacin

Coeficiente de variacin. El coeficiente de variacin permite expresar la dispersin de la distribucin


de frecuencias por unidad de media aritmtica. Este coeficiente se obtiene dividiendo la desviacin
estndar entre la media aritmtica. Se simboliza por el coeficiente CV y su expresin es:

En general este coeficiente se usa cuando los valores de las medias aritmticas y las varianzas entre
dos distribuciones no son iguales. Permite determinar la dispersin relativa porcentual o el grado de
homogeneidad de una distribucin. El mayor valor del coeficiente de variacin expresa una mayor
dispersin en la distribucin. Si se expresa en porcentaje sus valores van desde 0 al 100.

Variable tipificada o estandarizada. Es el resultado de transformar una variable en otra utilizando un


cambio de variable de manera que su media aritmtica sea igual a cero y su varianza igual a uno. La
variable tipificada (z) resulta de dividir la desviacin de un valor de la variable respecto de su media
aritmtica entre la desviacin estndar.

Se puede comprobar que el cambio de variable z, hace que la media sea 0 y la desviacin uno:

La variable tipificada se usa para determinar la posicin relativa entre los valores correspondientes a
distribuciones de frecuencias diferentes.

La variable tipificada o estandarizada es un cambio de variable fundamental en la inferencia estadstica,


porque constituye la base del muestreo a travs del teorema central del lmite.

d) Estadgrafos de forma: Grado de concentracin

Asimetra. La asimetra de una distribucin puede ser determinada mediante las siguientes reglas:

Si una distribucin de frecuencias es simtrica, se dice que no tiene sesgo o su sesgo es


nulo.

151
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Se dice que una distribucin presenta sesgo positivo cuando la media es mayor que la
mediana o moda, debido a observaciones grandes.
Se dice que una distribucin presenta sesgo negativo cuando la media es la menor de los
tres promedios, por observaciones pequeas.

Un diagrama que muestra los diferentes grados de simetra es el representado en la figura 36.

Figura 36
Tipos de asimetra de una DISTRIBUCIN

La medicin de la asimetra se realiza mediante el coeficiente de Pearson:

donde: un valor positivo indicar que la distribucin tiene sesgo positivo.


un valor negativo indicar que la distribucin tiene sesgo negativo.
un valor de cero, indicar que la distribucin es simtrica.

Cuanto ms alejado est el valor del cero, ms asimetra tendr la distribucin.

Curtosis. La curtosis mide el grado de agudeza de una distribucin. Analiza el grado de concentracin
que presentan los valores alrededor de la zona central de la distribucin.

Se definen 3 tipos de distribuciones segn su grado de curtosis:

Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales
de la variable (el mismo que presenta una distribucin normal).

Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores


centrales de la variable.

Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores


centrales de la variable.

Un diagrama muestra de manera objetiva los distintos grados de curtosis (ver la figura 37).

152
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Figura 37
Grados de curtosis de una distribucin

El Coeficiente de Curtosis viene definido por la siguiente frmula:

donde los resultados pueden ser los siguientes:

g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).

En la figura 38 se muestra un resumen de las frmulas empleadas para la determinacin de los


estadgrafos.

Ejemplo 1

Volviendo al ejemplo del anlisis descriptivo de las calificaciones de los estudiantes de Estadstica de
una carrera empresarial en una universidad, el mejor estadgrafo de posicin, segn la figura 17 es la
moda, ya que la caracterstica investigada es un atributo ordinal, y corresponde a la modalidad de mayor
frecuencia, que en este caso es M = Muy Bueno, ya que su frecuencia es de 18. Lo mas usual es que un
alumno del curso de Estadstica haya obtenido un rendimiento muy bueno.

Sin embargo, tambin se podra calcular la mediana, como representativa, ya que si bien la distribucin
no es bimodal, existe una frecuencia de similar magnitud en la modalidad 3.

Se calcula la frecuencia absoluta acumulada (Ver columna 3 de la tabla 19). Se calcula


y se lo ubica entre dos valores de frecuencia absoluta acumulada. La mediana
ser la modalidad correspondiente a la fila 3, es decir Bueno.

153
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

rbol para estadGRAFOS


Figura 38

154
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Tabla 19
Rendimiento de alumnos de Estadstica

Eso quiere decir que el 50% de los alumnos obtuvo un rendimiento por debajo de bueno, y el otro 50%
restante del curso por encima de bueno.

Ejemplo 2

Volviendo al ejemplo de las ventas anuales de 50 tiendas, se pueden hallar todos los estadgrafos. La
tabla 20 nos ayudar en los clculos y las frmulas sern vistas en la figura 33, y corresponden a una
distribucin de variable tipo III de intervalos constantes.
Tabla 20
Distribucin de frecuencias de ventas anuales (miles de $us.)

Intervalo de ni xi xi * ni xi2 * ni (xi- x )2 * ni (xi- x )4 * ni Ni


clase
100 120 6 110 660 72600 15240.96 38714476.95 6
120 - 140 6 130 780 101400 5544.96 5124430.234 12
140 - 160 8 150 1200 180000 865.28 93588.6848 20
160 - 180 18 170 3060 520200 1658.88 152882.3808 38
180 - 200 10 190 1900 361000 8761.6 7676563.456 48
200 - 220 2 210 420 88200 4920.32 12104774.45 50
Totales 50 8020 1323400 36992 63866716.16

Estadgrafos de posicin:

Media aritmtica:

Las ventas medias de las 50 tiendas es de 160400 dlares anuales.

Mediana:

El 50% de las tiendas tienen ventas menores a 165560 dlares anuales. El restante 50% ventas
mayores a ese valor.

155
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Moda:

Lo mas frecuente es que las tiendas tengan ventas anuales de 171110 dlares.

Estadgrafos de dispersin:

Desviacin estndar:

El alejamiento promedio de las ventas de las tiendas con respecto a las ventas medias es de 27200
dlares.

Amplitud cuartlica:

El 25% de las tiendas tienen ventas de menos de 141250 dlares al ao y el restante 75% ms de ese
valor.

El 75% de las tiendas han vendido menos de 179440 dlares al ao, y el restante 25% ms de ese
valor.

El 50% central de las tiendas, con respecto a la mediana, han vendido entre 179440 y 141250 dlares
al ao.

Amplitud centlica:

El 10% de las tiendas han obtenido de ingresos menos de 116670 dlares anuales y el 90% restante
ms de ese valor.

El 90% de las tiendas han logrado ingresos de menos de 194000 dlares al ao y el 10% restante ms
de ese valor.

El 80% central de las tiendas con respecto a la mediana, han logrado ventas entre 116670 y 194000
dlares anuales.

Estadgrafos de comparacin:

Coeficiente de variacin:

156
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Existe una dispersin porcentual relativa de las ventas de las tiendas del 17% con respecto a la media.
Esto significa que las ventas de las tiendas son bastante homogneas.

Estadgrafos de forma:

Coeficiente de asimetra:

La distribucin del ingreso de las tiendas es levemente asimtrica con sesgo negativo.

Coeficiente de curtosis:

La distribucin de las ventas de las tiendas es platicrtica.

El mejor estadgrafo de posicin, observando la figura 28 es la media aritmtica, y lgicamente el de


dispersin ser la desviacin estndar.

3.13.1.4 Organizacin de Datos Bivariables


Se han estudiado hasta los momentos mtodos estadsticos que hacan referencia a estadsticas de
carcter cuantitativo de una sola variables o unidimensionales o de carcter cualitativo, insistiendo
particularmente en su representacin grfica y en la obtencin de frmulas para el clculo de sus
medidas ms representativas.

Determinada la poblacin correspondiente a un problema tcnico, econmico o social, los datos


correspondientes pueden ser organizados considerando dos o ms variables o atributos, ampliando los
conceptos hasta ahora utilizados para el caso de una sola variable o atributo. Las parejas de valores, as
obtenidas por observacin conjunta, podrn o no repetirse un nmero determinado de veces.

La presentacin de los datos as elaborados, forman una distribucin bidimensional (si se trata de
atributos se denomina tabla de contingencia, y si se mezcla una variable con un atributo se dice que
es una bidimensional mixta), o ampliando el concepto a ms variables, forman una distribucin
multidimensional.

Tipos de distribuciones de dos variables, atributos o mixtas

Las mencionadas distribuciones segn el nmero de observaciones y valores diferentes respecto a dos
variables o atributos considerados, pueden ser de los tipos mostrados en la figura 39.

157
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

FIGURA 39
TIPOS DE DISTRIBUCIONES BIDIMENSIONALES

Distribucin bidimensional tipo I

Se da cuando las observaciones efectuadas y los valores diferentes de las dos variables o las modalidades
diferentes de los dos atributos, son pocos. La organizacin de dichos datos, si se trata de variables,
se efecta considerando valores ascendentes o descendentes y su presentacin en general, se efecta
tomando en cuenta dichos pares de valores registrados en dos columnas de la forma general mostrada
en la tabla 21, donde algunos valores de la variable X pueden repetirse, pero con distinto valor de la
variable Y, y viceversa:

Tabla 21
Distribucin bidimensional (xi , yi) tipo I

xi yi
x1 y1
x2 y2
x3 y3
: :
xr ys

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadstica Descriptiva, 1965.

Distribucin bidimensional tipo II

Esta distribucin se presenta cuando las observaciones son muchas y pocos los valores diferentes de las
variables (o las modalidades de los atributos).

Los datos se organizan en un cuadro de doble entrada, de manera que en las filas se registren los valores
diferentes de la variable xi y en la columna se registren los valores diferentes de la variable yj. El
cuerpo de dicha tabla de doble entrada registra las veces que se repite el par ( x i , y i ) . Este nmero se
denomina frecuencia absoluta bidimensional y se simboliza por nij.

El valor del universo, poblacin o colectivo, es la suma de los valores de frecuencia absoluta
bidimensional, tal que:
r s

n = n ij
i =1 j=1
\
La disposicin general de un cuadro bidimensional tipo II, es la que se muestra en la tabla 22.

158
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Tabla 22
Distribucin bidimensional tipo II

yj
y1 Y2 ... ys Total
xi
x1 n11 n12 ... n1s
x2 n21 n22 ... n2s
: : : : :
xr nr1 nr2 ... nrs
r s

Total
n =
i =1 j =1
n ij

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadstica Descriptiva, 1965.

donde: n21 es el nmero de veces que se repite el par (x2 , y1).

Nota 1: En la distribucin de frecuencias de una variable bidimensional tipo II, si en lugar de los valores

n ij
nij, se escriben h ij = , se dice que es una distribucin bidimensional de frecuencias relativas.
n
Nota 2: La distribucin bidimensional expresada en frecuencias absolutas conjuntas, puede ser escrita
en forma de frecuencias absolutas conjuntas acumuladas bidimensionales, cuando los nij se sustituyen
por:
* *
i j

N i * j* = n ij
i =1 j=1

Nota 3: La distribucin bidimensional de frecuencias absolutas conjuntas acumuladas bidimensionales


se puede expresar mediante frecuencias relativas conjuntas acumuladas bidimensionales, si Nij se
sustituye por:
* *
i j

H i * j* = h ij
i =1 j=1

Distribuciones marginales

En toda distribucin de frecuencias bidimensional, cuando se considera una variable (xi) y se prescinde
de la otra (yj), se obtiene una distribucin marginal o distribucin de frecuencias de una variable.

Sea la distribucin marginal de xi y la distribucin marginal de yi (ver tabla 23):

159
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Tabla 23
Distribuciones marginales de x y y

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadstica Descriptiva, 1965.

Nota

Determinadas las distribuciones marginales, mediante relaciones de clculo conocidas pueden


determinarse cualquiera de los estadgrafos si se est caracterizando una variable:

de posicin (media aritmtica, mediana, moda, media armnica y media geomtrica).


de dispersin (recorrido, varianza, desviacin estndar).
de comparacin (coeficiente de variacin y variable tipificada o estandarizada).
de forma (asimetra y curtosis)

Si se est caracterizando un atributo ordinal, puede determinarse los estadgrafos:

de posicin (moda y mediana)

Si se est caracterizando un atributo nominal, puede determinarse los estadgrafos:

de posicin (moda)

Distribucin bidimensional tipo III

Esta forma de distribucin se presenta cuando se han efectuado muchas observaciones y los valores
diferentes de la variable registrados son igualmente muchos.
Su organizacin, si se trata de presentar una distribucin de frecuencias tipo III con intervalos constantes
para las dos variables, requiere:

Calcular el recorrido de ambas variables.


Establecer el nmero de clases para cada variable.
Determinar la amplitud de clase para cada variable dividiendo el recorrido entre el
nmero de clases fijado.

160
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Si la presentacin es con intervalos no constantes, se requiere:

Definir el recorrido de ambas variables.


Establecer los intervalos de clase y su nmero segn las exigencias del estudio o la
resolucin del problema.

Su presentacin general se efecta de la siguiente manera (ver tabla 24).

Tabla 24
Distribucin bidimensional tipo III

yj -1 - yj
yo - y1 y1 - y2 y2 - y3 ... ys-1 - ys Total
xi -1 - xi
xo - x1 n11 n12 n13 ... n1s
x1 - x2 n21 n22 n23 ... n2s
x2 - x3 n31 n32 n33 ... n3s
: : : : : :
xr-1 - xr nr1 nr2 nr3 ... nrs

Total

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadstica Descriptiva, 1965.

Nota: Tambin puede expresarse en trminos de frecuencia relativa, frecuencia absoluta acumulada y
frecuencia relativa acumulada conjunta.

De la distribucin bidimensional tipo III se obtienen dos distribuciones marginales tipo III.

Las distribuciones marginales tipo III transformadas en distribuciones unidimensionales tipo


II, permiten mediante clculos conocidos, determinar estadgrafos de posicin central, de
dispersin, de comparacin o de forma.

Covarianza

El grado de dependencia o relacin entre las variables de una distribucin bidimensional, se determina
mediante la covarianza. Se define como la media del producto de las desviaciones de los valores de cada
variable respecto de su media aritmtica.
El signo de la covarianza define la naturaleza de la asociacin:

Si es positiva, se dice que existe relacin directa entre las variables (aumento o disminucin
en x implica aumento o disminucin en y).
Si es negativa, indica relacin inversa entre las variables.
Si es cero, no existe ninguna relacin entre las variables.

161
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Cuanto ms alejado est el valor de la covarianza hallado de cero, la relacin entre las variables ser
ms intensa.

Tipo I. La covarianza se simboliza por el signo Sxy y se define de la siguiente manera para distribuciones
tipo I:

(x i x )( yi y)
Sxy =
x i yi x i yi

Sxy = i =1
n
n n n

Tipo II o III. La frmula de definicin para distribuciones tipo II es:

(x x) * ( y y ) * n
i i i
Sxy =
x i yi n i x i n i yi n i

Sxy = i =1
n
n n n

Bidimensionales de atributos o mixtos

Si se tiene una tabla de contingencia, tambin se puede determinar el grado de asociacin entre atributos
o series mixtas.

Cuando entre dos atributos no existe ninguna influencia mutua, se dice que son independientes. En caso
contrario se dice que hay asociacin o dependencia.

Para fundamentar, aunque sea de una forma simple el razonamiento que sigue, vamos a suponer una
distribucin de dos atributos cada uno de los cuales toma dos modalidades distintas (ver tabla 25):

Tabla 25
Distribucin bidimensional de atributos o mixtas

A
a1 a2 Total
B
b1 n11 n21 ni1
b2 n12 n22 ni2
Total n1i n2i n

Fuente: Casa Aruta, Ernesto. Doscientos Problemas de Estadstica Descriptiva, 1965.

Evidentemente, si A y B son independientes, el nmero de los elementos que poseen las modalidades
b1 y a1 y el nmero de los elementos que poseen las modalidades b1 y a2 han de guardar la misma
proporcin con respecto al total de a1 y con respecto al total de a2, respectivamente. Entonces se cumple
la relacin:
n n 2i i1

n 21 = i i

162
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

De otra forma, diremos que existir independencia entre dos modalidades a y b cuando:

na nb
n ab =
n
siendo aqu nab el nmero de elementos que poseen las dos modalidades a y b conjuntamente, na el
nmero de los que poseen la modalidad a y nb el de los que poseen la modalidad b. Tngase en cuenta
que no es necesario que dicha igualdad se cumpla estrictamente: desde el punto de vista estadstico,
basta con que la diferencia entre los dos miembros sea relativamente pequea.

La asociacin entre dos modalidades ser, de tipo positivo si: n n a n b > 0 y negativo si:
ab
n
na nb , llamndose atraccin a la asociacin de tipo positivo, y repulsin a la asociacin
n ab <0
n
de tipo negativo.

En definitiva y resumiendo esquemticamente:


> atraccin
n n
n ab = a b : independen cia
n
< repulsin
Ejemplo

Se realiz una encuesta a 30000 habitantes de una determinada ciudad. Se obtuvo la siguiente
distribucin en cuanto a su estado civil y sexo.
Tabla 26
Estado Civil segn Sexo

Estado civil
Soltero Casado Viudo Total
Sexo
8052 5815 542
Masculino 14743
(7894) (5669) (845)
8384 5989 1218
Femenino 15257
(8542) (6135) (915)
Total 16436 11804 1760 30000

Determine la asociacin entre las modalidades de estos dos atributos.

Resolucin

Para hallar la asociacin entre modalidades, se calculan las frecuencias esperadas

mediante la ecuacin: n = n a n b ( ( total fila ) * ( total columna) ) y luego se compara


ab
n total encuestados
con las frecuencias observadas (ver valores entre parntesis de la tabla 26).

163
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Interpretacin:

M-S: atraccin M-C: atraccin M-V: repulsin


F-S: repulsin F-C: repulsin F-V: atraccin

Esto quiere decir que existe asociacin entre el estado civil y el sexo de las personas. La mayora de los
hombres son solteros o casados y hay pocos viudos, lo contrario ocurre con las mujeres, donde existen
ms viudas.

3.13.2 Series Temporales


Las series temporales pueden ser tratadas mediante:

Anlisis de regresin y correlacin, si se quiere obtener un modelo matemtico de las


relaciones entre variables, con el propsito de realizar previsiones y pronsticos (Este
anlisis tambin se utiliza con series atemporales).

Descomposicin de la serie temporal, si se quiere averiguar cualquiera de los cuatro


componentes de la serie: Tendencia secular, variacin cclica, variacin aleatoria o la
variacin estacional.

Anlisis de nmeros ndices, si se quiere obtener relaciones del cambio de variables


temporales que se expresan como tasas, tomando un ao especfico como base de
comparacin.

Se muestra en la figura 40 un rbol de decisiones para la eleccin del anlisis adecuado cuando se tienen
series de datos cronolgicos o temporales.

A continuacin se expondr de manera ms detallada cada uno de los anlisis descritos.

3.13.2.1. Anlisis de Regresin y Correlacin

En muchas investigaciones de tipo estadstico, el objetivo es determinar a partir de informacin


histrica o experimental, relaciones o funciones mediante las cuales se puedan realizar pronsticos, lo
ms exactamente posible, entre dos o ms variables relacionadas entre s.

Los anlisis de regresin y correlacin brindan al investigador las herramientas necesarias para cumplir
este objetivo.
La figura 41 muestra los tipos de modelos que se pueden determinar mediante un anlisis de regresin
y los coeficientes que validan el modelo mediante un anlisis de correlacin.

164
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Anlisis de series temporales


Figura 40

165
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales

Figura 41
Anlisis de regresin y correlacin

a) Anlisis de Regresin

El anlisis de regresin es una tcnica empleada para desarrollar una ecuacin que permite expresar
la relacin entre variables y estimar el valor de y (variable dependiente o de respuesta), con base en
valores de xi (variables independientes o explicativas).

La tcnica consiste en realizar un diagrama de dispersin de los datos a investigar, luego de determinar
por medio de l la ecuacin de ajuste entre las variables y desarrollar sistemas de ecuaciones que
permitan determinarla con base al principio de mnimos cuadrados.

El diagrama de dispersin (o nube de puntos) es una grfica que presenta la relacin entre dos
variables de inters.

El principio de mnimos cuadrados es una tcnica empleada para llegar a la ecuacin de


regresin minimizando la suma de los cuadrados de las distancias verticales entre los valores
de y observados y los valores pronosticados de y:

El principio de mnimos cuadrados minimiza la siguiente funcin:

Minimizar : z = (yi y e ) 2
i =1

donde:

yi = Ordenadas de los valores observados (datos).


ye = Ordenadas estimadas a partir de la ecuacin de regresin.

El diagrama de dispersin de la figura 42, aclara todos los conceptos arriba mencionados.

166
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I

Figura 42
Diagrama de dispersin

Una serie de datos de dos variables, pueden poseer varios tipos de tendencias. Depender de ellas que
la serie pueda ajustarse a un modelo determinado. Los tipos de regresin ms usuales se muestran en
la figura 43.

Figura 43
Tipos de regresin usuales

167

También podría gustarte