Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPTULO III
La estadstica en la metodologa de investigacin
3.1 Introduccin
La Estadstica es usada en la mayor parte de las ciencias sociales (psicologa, ciencias de la educacin,
economa, administracin, mercadotecnia, finanzas, sociologa, etc.). Su propsito es responder a la
necesidad de un manejo prctico de sus mtodos en la produccin cientfica y facilitar la comprensin
y lectura de investigaciones realizadas.
La estadstica segn Cortada y Carro, es una manera de pensar y tratar la problemtica de la realidad
de forma elaborada, consistente y exacta, dando criterios de decisin.
3.2.1 Concepto
La estadstica descriptiva se puede definir como la ciencia o conjunto de conocimientos que se ocupa
de la recoleccin, organizacin, presentacin, anlisis e interpretacin de los datos numricos u
observaciones.
3.2.2 Divisin
La estadstica se divide en descriptiva e inductiva. La descriptiva analiza un determinado colectivo
sin sacar conclusiones de tipo ms general; es el conjunto de procedimientos para organizar y resumir
conjuntos de datos numricos u observaciones. La inductiva o inferencial es la parte en que, basndose
en resultados obtenidos de una muestra a partir de una poblacin, infiere, estima o induce leyes de
comportamiento de la poblacin.
89
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
El proceso estadstico sigue los siguientes pasos para estudiar los elementos de una poblacin:
1. Problema de investigacin
2. Objetivo de la investigacin
3. Marco terico
4. Recopilacin de informacin
5. Formulacin de hiptesis
6. Contrastacin de hiptesis
7. Verificacin de hiptesis
8. Conclusiones
9. Redaccin del informe final
que estn en congruencia con el mtodo cientfico. Mostraremos esquemticamente cmo el investigador
puede usar los mtodos estadsticos, especialmente en los pasos 4 al 6. Ms adelante detallaremos estos
mtodos.
Los pasos generales para el anlisis estadstico de una investigacin emprica, son los siguientes:
1. Determinacin de la poblacin
2. Determinacin del mtodo de recopilacin de datos
3. Determinacin de la muestra
4. Obtencin de datos muestrales
5. Clasificacin de las caractersticas de la poblacin segn las series estadsticas
6. Clasificacin de las caractersticas de la poblacin segn atributo o variable
7. Determinacin del nivel de medicin de las caractersticas de la poblacin
8. Anlisis descriptivo de los datos
8.1. Datos atemporales
8.2. Datos temporales
90
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
En la figura 17, se muestra un flujograma que resume los pasos del anlisis estadstico para una
investigacin emprica.
FIGURA 17
FLUJOGRAMA DE PASOS PARA EL USO DE MTODOS ESTADSTICOS
A continuacin, se desarrollarn los pasos del mtodo estadstico con mayor amplitud.
91
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Figura 18
Determinacin de la poblacin
3.6.3 Tamao
Mediante informacin obtenida en centros de investigacin en Estadstica, se puede recabar datos
sobre el tamao poblacional al que est enfocada la investigacin. Por ejemplo, si se est investigando
el empleo, el INE (Instituto Nacional de Estadstica) puede brindar informacin sobre el nmero de
personas que tienen empleo en cada departamento o regin sujeto a estudio.
3.6.4 Carcter
La poblacin puede considerarse por sus elementos como:
92
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Junto con el tamao, es adecuado clasificar el tamao poblacional en infinito o finito, ya que influir
en la determinacin del tamao muestral. En la prctica, un tamao poblacional de ms de 500000 se
considera infinito. Por ejemplo, si se investiga el empleo, y mediante informacin de algn centro de
Estadstica se determin que en una zona geogrfica determinada existen menos de 500000 personas
que trabajan, la poblacin ser finita.
Existen varias fuentes para la recopilacin de datos. Los recopiladores de datos son fuentes primarias,
los compiladores de datos se llaman fuentes secundarias.
Sin embargo, en la investigacin en ciencias sociales, existen tres mtodos principales primarios de
recoleccin de datos a partir de una muestra o poblacin: la observacin, la entrevista y el cuestionario.
Obtener datos por medio de experimentos no es muy usual en los negocios, pero s en la ingeniera
e industria. Cada uno de ellos se adapta a las exigencias de las diferentes disciplinas, presentando
ventajas y desventajas.
3.7.1 La Observacin
Sus modalidades son:
93
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
FIGURA 19
DETERMINACIN DEL MTODO DE RECOPILACIN DE DATOS
94
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
3.7.3 El Cuestionario
La modalidad ms comn del cuestionario consiste en enviarlo por correo, de ah que se ha propuesto
llamar a est tcnica encuesta postal. Otra modalidad tambin es la de los censos, que consisten en ir
casa por casa preguntando a consumidores especficos.
Por lo general, suelen distinguirse dos tipos de formularios: el cuestionario y la cdula. El cuestionario
esta destinado a ser llenado por la persona interrogada sin la intervencin del encuestador; la cdula,
en cambio, es llenada por el propio encuestador a medida que obtiene las respuestas de las personas
interrogadas.
3.7.4 Cul es el Criterio para Decidir el Mtodo Adecuado?
No hay un criterio formal para tomar esta decisin, pero la exposicin de las ventajas, desventajas y
limitaciones, son importantes. En la figura 20 se ha desarrollado un rbol de decisiones til para el
efecto. Haciendo uso del rbol, si por ejemplo se quiere investigar algunos aspectos cuantitativos sobre
el empleo de la clase social alta, entonces la decisin fluir del siguiente modo:
95
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
96
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Para esta determinacin primero se deber fijar la nomenclatura que se usar para distinguir entre
poblacin y muestra. Para describir muestras y poblaciones se hace la siguiente distincin:
Un estadstico es una caracterstica de la muestra. Se usa letras minsculas para los estadsticos:
n, tamao de la muestra.
x , media de la muestra
s, desviacin estndar de la muestra
N, tamao de la poblacin
, media de la poblacin
, desviacin estndar de la poblacin
Figura 21
DETERMINACIN DE LA MUESTRA
97
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
b) Muestreo sistemtico
Se emplea cuando el procedimiento del MAS puede ser difcil de usar en algunos casos, sea por tiempo
o dinero.
Difiere del MAS en que cada elemento tiene igual probabilidad de ser seleccionado, pero cada muestra
no tiene esa misma posibilidad. En este muestreo se seleccionan los elementos de la poblacin con un
intervalo uniforme en el tiempo, en el orden o en el espacio.
Por ejemplo, si para una investigacin la poblacin de inters son 2000 facturas colocadas en gavetas
de archivos, para realizar el MAS, primero se necesitar numerar las facturas de 0000 a 1999. Luego,
tendrn que seleccionarse 100 facturas (el tamao de la muestra). Por ltimo, habr que localizar las
facturas que forman parte de la muestra. Esta sera una tarea muy prolongada. Es mejor realizar el
muestreo sistemtico: se selecciona una factura de cada veinte de las que se encuentran en el archivo.
La primera factura se elegir utilizando un proceso al azar. Si se selecciona la factura nmero 10,
entonces la muestra ser de: 10, 30, 50, 70, 80, 90, etc.
c) Muestreo estratificado
Para aplicarlo se divide la poblacin en grupos homogneos relativos, llamados estratos. Despus se
recurre a uno de dos mtodos posibles:
98
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
El muestreo estratificado garantiza que todos los elementos de la poblacin tengan una posibilidad de
ser seleccionados. Es adecuado cuando la poblacin ya est dividida en grupos homogneos en cuanto
a la caracterstica a investigar. Cuando se disean bien, reflejan ms exactamente las caractersticas de
la poblacin de donde se extrajeron que otras clases de muestreo.
Por ejemplo, si se quiere conocer la opinin de algunos asuntos polticos y econmicos, es obvio que
variarn de acuerdo al nivel de educacin de las personas, que ser la variable de estratificacin a
utilizar. Como ejemplo, los datos proporcionados por el INE son los siguientes (tomando en cuenta
slo el sector urbano, entre 20 a 80 aos para Bolivia). Por lo tanto, el estudio de las opiniones podra
necesitar una estructura, como se muestra en la tabla 3.
Tabla 3
Poblacin por grado de educacin
Fuente: INE
De acuerdo a esta tabla, y al tamao muestral ptimo para cada departamento, se fijar el nmero de
encuestas a realizar en cada estrato. Los porcentajes en cada estrato por ciudad son mostrados en la
tabla 4.
Si se trabaja con el tamao muestral mximo (385) para cada departamento, se tendrn los siguientes
tamaos de muestra para cada estrato y departamento (ver tabla 5).
Tabla 4
Porcentaje de poblacin por grado de educacin
Primaria y Militar o
Universidad Licenciatura Tcnico Normal Otro Total
Secundaria Policial
Chuquisaca 17% 35% 30% 8% 7% 1% 1% 100%
La Paz 25% 31% 24% 12% 4% 1% 2% 100%
Cochabamba 23% 31% 25% 12% 5% 1% 2% 100%
Oruro 24% 31% 26% 10% 6% 1% 2% 100%
Potos 28% 28% 23% 10% 9% 1% 2% 100%
Tarija 33% 28% 24% 8% 4% 1% 1% 100%
Santa Cruz 34% 27% 22% 12% 4% 1% 1% 100%
Beni 44% 20% 16% 10% 6% 2% 2% 100%
Pando 30% 27% 20% 14% 4% 2% 2% 100%
99
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 5
Tamao muestral estratificado
Primaria y Militar o
Secundaria Universidad Licenciatura Tcnico Normal Policial Otro Total
Chuquisaca 67 136 116 32 26 2 6 385
La Paz 96 118 93 47 16 5 9 385
Cochabamba 88 121 98 46 19 4 9 385
Oruro 91 121 100 39 25 2 8 385
Potos 110 109 88 37 33 2 6 385
Tarija 127 109 93 29 17 3 6 385
Santa Cruz 131 106 83 45 15 2 3 385
Beni 171 77 60 39 22 8 8 385
Pando 117 105 76 54 15 9 9 385
Se usa el estratificado cuando cada grupo presenta una pequea variacin en su interior, pero existe
una amplia variacin entre ellos (La intervarianza es mayor que la intravarianza).
Se usa el de por conglomerados en el caso contrario: cuando se advierte considerable variacin
dentro de cada grupo, pero los grupos son esencialmente semejantes entre s (La intravarianza es
mayor que la intervarianza).
Por ejemplo, si se quiere averiguar algunos asuntos concernientes al consumo de las personas de un
determinado bien, la decisin fluir del siguiente modo:
2. Se quiere que cada elemento poblacional tenga la misma probabilidad de ser incluido en
la muestra? NO, ya que esto llevara mucho tiempo, dinero y esfuerzo y es prcticamente
inviable.
100
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
FIGURA 22
RBOL DE DECISIN PARA LA DETERMINACIN DEL TIPO DE MUESTREO
101
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
102
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Para la determinacin del tamao muestral se ha configurado un rbol de decisiones (ver figura 23). Si
bien el clculo del tamao muestral constituye el tercer paso en el proceso estadstico, no es sino hasta
el paso 9 en que se dan los fundamentos tericos de inferencia estadstica, que se puede conocer cmo
operar las distintas variables. En este sentido, a continuacin se describir cmo calcular el tamao
muestral representativo slo de manera prctica.
Ejemplo 1
Si se quiere estimar, por ejemplo, el ingreso medio anual de gerentes de todas las empresas de
servicios en una ciudad, se va por la rama superior del rbol de decisiones.
Supongamos que se recopilaron datos del ingreso medio anual de 10 gerentes, en miles de
dlares:
65 72 80 67 75 81 90 79 83 76
Aplicando la frmula, se encuentra que la varianza muestral es de 56.4 miles de dlares2.
103
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Por lo tanto, la ecuacin ms usada para determinar el tamao muestral para estimar la media
poblacional es:
donde:
La distribucin t estndar es una simtrica con respecto a la media (cuyo valor es de 0). El
intervalo en blanco es donde se pretende se halle el ingreso poblacional real, los intervalos
rayados son las secciones donde no se debe hallar el ingreso poblacional. El valor de t de
con n-1 grados de libertad (en este caso 0.025 y 9 grados), se determina de la tabla t que se
encuentra en el anexo de tablas estadsticas.
Por ejemplo, si se quiere determinar el ingreso medio de los gerentes del sector de servicios,
el investigador podr fijar el error en 0.1 miles de $, y un nivel de confianza o certeza del
95%, que es el que generalmente se usa; se realiz un muestreo piloto de 10 personas,
determinando la varianza muestral en 56.4 miles de $, el tamao poblacional es de 350, y el
valor determinado para t es de 2.2622; si reemplazamos los datos en la ecuacin tendremos
un tamao muestral de 53 gerentes.
Ejemplo 2
Si se quiere estimar, por ejemplo, la proporcin de los gerentes del sector de servicios que
estn satisfechos con su nivel salarial, se va por la rama inferior del rbol de decisiones.
104
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
La realizacin de una muestra piloto para este caso se practica para determinar la proporcin
de xito o fracaso de la poblacin (p y q). El xito o fracaso es definido por el investigador
de acuerdo a sus objetivos. En el ejemplo, xito puede ser el nmero de gerentes que estn
satisfechos con su nivel salarial.
El clculo de p y q se realiza mediante la ecuacin:
donde:
Por lo tanto, la ecuacin ms usada para determinar el tamao muestral para estimar la media
poblacional es:
donde:
Por ejemplo, si se quiere determinar la proporcin de los gerentes del sector de servicios que
estn satisfechos con su nivel salarial, el investigador podr fijar el error en 5% (es el valor
generalmente aceptado), y un nivel de confianza o certeza del 95%, que es el que generalmente
se usa. Si realiz un muestreo piloto de 10 personas, determinando que p es 80%, el tamao
poblacional es de 350, y el valor determinado para z es de 1.96, si reemplazamos los datos
en la ecuacin tendremos un tamao muestral de 145 gerentes.
105
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Estas son las dos ecuaciones ms usadas para calcular el tamao muestral representativo para tratar los
datos recopilados mediante el mtodo estadstico.
Si en una investigacin existen varios aspectos a analizar y se estiman conjuntamente varias medias y
proporciones, generalmente se usa la ecuacin para determinar el tamao muestral representativo para
la proporcin, ya que arroja el mayor valor entre los dos.
Como existen varias proporciones, para determinar p y q en la encuesta piloto, se pregunta slo la
principal proporcin de inters en la investigacin.
d) Errores de tabulacin y clculo. Son los ms frecuentes. Ocurren por fallas de dictado,
copiado, escritura, o por fallas en los dispositivos para guardar la informacin o
reproducirla. Ejemplo, si en el ejemplo anterior una de las balanzas estaba en pulgadas y se
hizo la transformacin a kilogramos con una base de conversin errnea, o se guard los
resultados en una planilla de datos, y para hallar la media se aplic una frmula errnea.
Se puede dar el caso que todos los clculos hayan sido correctos, pero la impresora fall
y suministr datos distorsionados.
106
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
1. Determinacin de los datos que se computarn. Es muy frecuente que se recopilen datos
innecesarios y, en cambio, se olviden preguntas esenciales en relacin al objetivo de la
investigacin. Es por eso que la encuesta debe configurarse por un grupo de expertos y
ser revisada minuciosamente antes de aplicarla.
7. Informacin futura. Los resultados obtenidos pueden ser archivados, ya que presentan
estimaciones sobre diversas caractersticas de la poblacin que pueden variar en el
tiempo, y pueden ser tiles a la hora de comparar con resultados obtenidos por otras
encuestas en el futuro.
107
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
a) Series de frecuencias
Si se estudia la repeticin de un fenmeno o de una caracterstica de los componentes de un colectivo,
el agrupamiento de los resultados de las observaciones da lugar a las llamadas distribuciones de
frecuencias.
b) Series espaciales
Estn formadas por los valores que toma una variable en funcin del espacio geogrfico. Ejemplo:
nmero de habitantes o rea de los departamentos de Bolivia.
c) Series de probabilidades
Si se estudia la repeticin de datos recopilados mediante un experimento aleatorio, hallando el
espacio muestral (conjunto de posibles resultados del fenmeno) y determinando distribuciones de
probabilidades, tanto para variables discretas como continuas.
Figura 24
Clasificacin de las series estadsticas
108
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
A las diferentes clasificaciones que pueden adoptar los atributos se les llama modalidades o categoras.
Los atributos se designan con las primeras letras maysculas del abecedario (A, B, C, etc.); a sus
modalidades, con las minsculas (a, b, c, etc.).
b) Variables. Son rasgos, caractersticas o propiedades cuantificables. Ejemplo: peso, edad, altura,
etc. Las variables pueden ser:
Las variables se designan con las ltimas letras maysculas del abecedario (X, Y, Z, etc.) y sus
valores, con las minsculas (x, y, z, etc.).
Figura 25
Clasificacin de las caractersticas de la poblacin
109
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Ejemplo: Medicin de temperatura en la escala centgrada. En esta escala el punto cero es arbitrario:
0 C; no significa que haya ausencia de temperatura, sino solo un estado de fro. Si se registraron
las siguientes temperaturas: 30 C y 60 C, puede decirse que en la segunda oportunidad hubo una
temperatura 30 C ms clida, pero no se puede afirmar que hizo dos veces ms calor.
Ejemplo: El dinero. Tener cero pesos tiene un significado: no tengo nada de dinero. Si una persona gana
1000 $us y otra 4000 $us, la segunda gana 4 veces ms que la primera.
En la figura 26, se muestra el nivel de medicin que generalmente se usa para cada caracterstica de la
poblacin.
110
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
FIGURA 26
NIVELES DE MEDICIN
La distribucin de frecuencias para atributos se presenta como dos tipos: para atributo nominal y para
atributo ordinal.
b) Distribucin de frecuencias tipo II. Cuando son muchas las observaciones y pocos los
valores diferentes que adopta la variable.
111
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Figura 27
Formas y tipos de distribuciones de frecuencias
Tabla 6
Distribucin de frecuencias para atributo nominal
Frecuencia Razn de
Frecuencia comparacin
Atributo relativa
absoluta
Ai
ni
a1 n1 h1 r1
a2 n2 h2 r2
*a3 n3 h3 r3
a4 n4 h4 r4
a5 n5 h5 r5
a6 n6 h6 r6
a7 n7 h7 r7
n=ni hi = 100%
(Nota: En este caso se tom como modalidad de comparacin la modalidad a3)
112
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
La segunda columna contiene los conteos, es decir el nmero de veces que las distintas
personas han votado por los distintos candidatos. A estos valores se los llama frecuencias
absolutas, y se los abrevia con ni. La suma de los ni es el total de los encuestados, y se la
denomina con la letra n.
La tercera columna es la expresin de la frecuencia absoluta en porcentaje, con respecto
al total de los encuestados, y a estos valores se los denomina frecuencia relativa, cuyo
smbolo es hi.
Por ltimo la cuarta columna contiene la razn de comparacin, ri, tomando como base
de comparacin el candidato o la modalidad objeto de la investigacin, r*.
Nota: La frecuencia relativa puede ser expresada en porcentaje o fraccin. La modalidad de comparacin
puede ser elegida de acuerdo al criterio y objetivo del investigador.
Presentacin grfica
Los paquetes de computacin brindan muchos formatos de grficos. El papel del investigador es elegir
el grfico que mejor se ajuste a sus objetivos o que muestre de manera adecuada la informacin. Las
grficas bien diseadas son ms sencillas y poderosas en mostrar los datos comparadas a las tablas de
distribucin de frecuencias. Por desgracia, la naturaleza impropia e inadecuada de muchas presentaciones
grficas, ms bien ha perjudicado la comprensin y anlisis de las mismas.
Una presentacin bien diseada de los datos, que proporciona sustancia, estadsticas y
diseo.
Una grfica que comunica ideas complejas con claridad, precisin y eficiencia.
Una que proporciona al observador el mayor nmero de ideas en el menor tiempo y con
el mnimo de tinta.
Una grfica que casi siempre involucra varias dimensiones.
Una que dice la verdad acerca de los datos.
Diagrama de barras
Es un diagrama formado por barras, cuyo tamao est de acuerdo al valor de la frecuencia absoluta o
relativa de cada modalidad y cuyo ancho no interesa (ver grfico 1).
Grfico 1
Diagrama DE BARRAS PARA ATRIBUTO NOMINAL
113
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Diagrama rectangular
En una base cualquiera, la altura del rectngulo debe ser una dimensin igual al universo. En ese
cuadriltero, las distintas modalidades se representan por segmentos rectangulares cuya altura
corresponde al valor de la frecuencia absoluta o relativa (ver grfico 2).
Grfico 2
Diagrama rectangular para atributo nominal
a1 a2
a3 a4
a5 a6
a7 .. .
Diagrama circular
El segmento circular correspondiente a cada modalidad, se obtiene multiplicando los grados por unidad
del universo, por la frecuencia correspondiente (no es necesario diferenciar frecuencia absoluta de la
relativa).
114
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Grfico 3
Diagrama circular para atributo nominal
Un atributo ordinal es una caracterstica de la poblacin que puede ser clasificada en grupos, categoras
o estratos, adems permite establecer posiciones relativas de mayor, menor o igual sin reflejar distancias
entre ellos.
Ejemplo, si consideramos las autoridades de las universidades como atributo nominal Ai, sus modalidades
ai pueden permitirnos diferenciar grupos de autoridades como: Rectores, Vice-rectores, Decanos, etc.,
donde, evidentemente, ser Rector es mayor que ser Vice-rector o ser Decano es menor que ser Vice-
rector, pero sin limitar la magnitud de la distancia en esa jerarqua de orden.
Las modalidades permiten agrupar los datos en grupos o categoras, que expresan relacin de mayor,
igual o menor, pero sin expresar distancias entre los grupos.
La presentacin de los datos del atributo considerado, utilizando la escala ordinal, se la presenta de
la siguiente manera, donde existen dos nuevas columnas con respecto a la distribucin de atributo
nominal:
115
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 7
Distribucin de frecuencias para atributo ordinal
ai n1 h1 r1 N1 H1
a2 n2 h2 r2 N2 H2
a3 n3 h3 r3 N3 H3
a4 n4 h4 r4 N4 H4
ni=n hi=h
Representacin grfica
La representacin grfica de este tipo de distribucin de frecuencias, de manera que contenga la misma
informacin, puede efectuarse de 2 maneras:
Grfico 4
Ojiva PARA ATRIBUTO ORDINAL
116
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Tipo I
Las distribuciones de variable son de tipo I cuando el nmero de observaciones y los valores diferentes
de la variable son pocos. La organizacin de estos datos exige disponerlos en forma ascendente o
descendente. La presentacin de los datos se registra en una columna o en una lnea, segn necesidades
de su publicacin.
La presentacin de los datos anteriores se efecta en forma de una columna, como lo muestra la tabla
8.
Tabla 8
Distribucin de frecuencias de variable tipo I
xi
x1
x2
x3
x4
Representacin grfica
Las distribuciones tipo I no tienen representacin grfica, puesto que su frecuencia absoluta es unitaria.
Sin embargo, puede ser til el diagrama que muestra la densidad de las observaciones en un rea
especfica (ver grfico 5):
Grfico 5
Densidad de una distribucin tipo I
Tipo II
La distribucin de una variable, cuando son muchas las observaciones y pocos los valores diferentes de
la variable, forman la distribucin tipo II. La organizacin de los datos requiere de la utilizacin de una
escala de mediciones de intervalos o razn.
117
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 9
Distribucin de frecuencias de variable tipo II
n H = 100
Representacin grfica
La representacin grfica de una distribucin tipo II de una variable, puede efectuarse mediante un
diagrama de barras, si la informacin que se utiliza es de la frecuencia absoluta o relativa o mediante
el grfico acumulado de frecuencias cuando la informacin disponible se refiere a los valores de la
frecuencia acumulada absoluta o relativa acumulada (ver grfico 6).
Grfico 6
Diagrama acumulado de una distribucin tipo II
Nota: Se puede observar que la grfica representada es de una funcin definida a trozos o por partes,
debido al carcter de la variable del ejemplo, que es discreta. Generalmente las distribuciones tipo II
presentan este tipo de variable.
118
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Tipo III
Un carcter cuantitativo de la poblacin se presenta en forma de distribucin tipo III, cuando las
observaciones efectuadas son muchas y tambin los valores diferentes de la variable. La organizacin
de los datos recogidos se efecta usando una escala de intervalos o de razn, pudiendo ser la variable
discreta o continua.
Si la distribucin tipo III es con intervalos no constantes, cada amplitud de clase se establece segn
exigencias del estudio y/o a criterio del investigador.
119
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 10
Distribucin de frecuencias Tipo III con intervalos no constantes
Li-1 Li n1 h1 N1 H1 x1
Li-1 Li n2 h2 N2 H2 x2
Li-1 Li n3 h3 N3 H3 x3
Li-1 Li n4 h4 N4 H4 x4
n h = 100
Nota: Cuando se utiliza la informacin de una distribucin de frecuencias tipo III para resumirla
mediante algn indicador de posicin y/o dispersin, los intervalos de clase deben transformarse en
marcas de clase que son la semisuma de los lmites de dichos intervalos.
Representacin grfica
A diferencia de la distribucin tipo II, que emplea el diagrama de barras para ser representado
grficamente utilizando frecuencias absolutas o relativas, en este caso se emplea el histograma de
frecuencias absoluta o relativa que est representado por reas.
En un sistema de ejes coordenados, los valores del intervalo de clase se representan en el eje de las
abscisas y en las ordenadas, los valores de la densidad de frecuencia. Para construir los histogramas se
procede de la siguiente manera:
Se determinan las densidades de frecuencia a fin de determinar las alturas de cada cuadriltero.
Los intervalos de clase representan las bases.
El rea de cada cuadriltero es el valor de cada frecuencia absoluta o relativa.
Siguiendo el ejemplo, vamos a obtener las densidades de frecuencia para cada intervalo o clase de la
siguiente manera:
120
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Grfico 7
Histograma de frecuencias de una DISTRIBUCIN
tipo III de intervalos variables
Si se trata de una distribucin tipo III, es porque existen muchas observaciones y muchos
valores diferentes de la variable.
Se determina el recorrido de la variable: Rx = VMx - Vmx
Por razones de estudio se agrupan las granjas en cinco grupos, determinando as la
amplitud o intervalo de clase:
Con la informacin anterior, se presenta la distribucin de variable discreta tipo III (ver tabla 11).
Tabla 11
Distribucin de frecuencias de variable tipo III
de intervalos constantes
121
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Representacin grfica
Cuando la distribucin es de tipo III y con intervalos constantes, la construccin de los rectngulos
que conforman el histograma de frecuencias no requiere de la densidad de frecuencia, sino de aplicar
el siguiente convenio: Los intervalos constantes se consideran como una unidad. Cada intervalo
constante de clase representa la base del rectngulo y la altura es la frecuencia absoluta o relativa
correspondiente a cada grupo o clase (ver grfico 8).
Grfico 8
Histograma de frecuencias de variable tipo III
con intervalos constantes
Si se unen por medio de lneas los puntos medios superiores de cada rectngulo del histograma se
obtiene el polgono de frecuencias. Luego, siguiendo el polgono, se puede suavizar las lneas mediante
una curva continua, logrando la forma de la distribucin.
Ojiva
La ojiva se forma uniendo con una lnea continua las esquinas superiores derechas de los rectngulos
formados para cada intervalo.
122
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Grfico 9
Ojiva de la distribucin tipo III de intervalos constantes
Ejemplo 1
Se quiere obtener un anlisis descriptivo de las calificaciones de los estudiantes de Estadstica de una
carrera empresarial en una universidad. Los datos recopilados fueron los siguientes:
E M B E M E M M E B M E M
M B M S B M B S B M B S S
D M B B M E B M B M M B B
M S M D D B M D S D B S D
Se presentarn los datos en una distribucin de frecuencias adecuada para realizar algunas
conclusiones.
123
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 12
Distribucin de frecuencias sobre las
calificaciones de Estadstica
ni=n=52 hi=h=100
Interpretacin
Representacin grfica
Se pueden realizar distintos grficos. Se optar por realizar el diagrama de barras con la frecuencia
absoluta y la ojiva (ver grficos 10 y 11).
124
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Grfico 10
Diagrama de barras sobre las calificaciones de Estadstica
Grfico 11
Ojiva sobre las Calificaciones de Estadstica
Conclusin: Lo ms usual es que los estudiantes hayan obtenido notas muy buenas y buenas.
125
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Ejemplo 2
Se recopil informacin acerca de las ventas anuales, en miles de $us, de 50 pequeas tiendas.
142 195 100 164 121 191 125 180 156 170
166 187 176 199 178 147 180 105 135 118
183 167 150 171 110 220 198 170 205 178
163 140 161 146 190 180 137 149 179 189
107 169 159 190 174 130 175 193 120 160
Tabla 13
Distribucin de frecuencias de ventas anuales (miles de $us.)
Frecuencia Frecuencia
Frecuencia Frecuencia relativa
Intervalo de clase relativa absoluta acumulada
absoluta
acumulada
100 120 6 12 6 12
120 - 140 6 12 12 24
140 - 160 8 16 20 40
160 - 180 18 36 38 76
180 - 200 10 20 48 96
200 - 220 2 4 50 100
50 100
La interpretacin es la siguiente:
Las ventas anuales de 8 tiendas estn entre 140 a 160 mil dlares.
El 12% de las tiendas venden anualmente entre 120 a 140 mil dlares de mercadera.
38 de las 50 tiendas tienen ventas anuales de por lo menos 180 mil dlares.
El 96% de las tiendas tienen ventas que oscilan entre 100 a 200 mil dlares al ao.
126
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Grfico 12
Histograma de frecuencias de ventas anuales (miles de $us.)
Se observa que el rango de ventas ms frecuente entre las 50 pequeas tiendas es de 160 a 180 mil
dlares anuales.
Grfico 13
Ojiva de ventas anuales (miles de $us.)
La teora de las probabilidades tuvo su origen en los problemas relacionados con los juegos de azar
(dados, barajas, etc.). Ms tarde, el concepto de probabilidad, convenientemente modificado, se ha
aplicado a los seguros y a los problemas de inferencia estadstica. Estos ltimos poseen numerosas
aplicaciones en la fsica moderna, la biologa, la agricultura, la industria, las ciencias sociales y la
economa. De aqu que la teora de las probabilidades tenga hoy gran inters prctico y terico y
constituya una rama importante de la matemtica, ingeniera y de las ciencias sociales.
127
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Los datos para una variable pueden obtenerse no solo por experimentos determinsticos, sino tambin
mediante experimentos aleatorios. Un experimento aleatorio se define como aqul que se puede producir
de manera indefinida, con las mismas condiciones, sin la posibilidad de determinar de antemano el
resultado de una prueba, en observacin a dichas condiciones. Ejemplo: fabricacin de un bien estndar
o defectuoso, lanzar una moneda o un dado, observar un nacimiento y ver el sexo, determinar el da en
que una mquina va a fallar, etc. En todos estos ejemplos no se puede saber el resultado preciso antes
de realizar los experimentos.
Se puede repetir de manera indefinida, esto asegura que los resultados sean simtricos y
que el elemento del experimento sea homogneo.
Los resultados del experimento son numerables y registrables.
No es posible determinar el resultado exacto de un experimento aleatorio antes de que
ocurra, pero si obtener una lista de los posibles.
Por el principio de la regularidad estadstica (Ley de los grandes nmeros) es posible
estimar la probabilidad de un resultado cualquiera del experimento cuando este se haya
realizado muchas veces.
Espacio muestral
Es el conjunto de resultados posibles o imaginables de un experimento aleatorio. Por ejemplo, lanzar
un dado genera el siguiente espacio muestral:
Los espacios muestrales pueden ser finitos o infinitos. Es finito cuando se trata de un conjunto numerable,
como por ejemplo los resultados posibles que existen al elegir un nmero de la lotera de entre 100000
boletos. Es infinito cuando es continuo no numerable, como por ejemplo los resultados posibles que se
pueden dar al elegir una persona de entre todas las que hay en el mundo.
Determinacin del espacio muestral
Dado un experimento aleatorio, los resultados posibles o imaginables a que da lugar dicho experimento
pueden determinarse utilizando:
128
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
segn el caso del experimento. Cualquiera de los instrumentos sealados son alternativos, con las
restricciones descritas.
En el bolsillo de un estudiante hay billetes de 10, 20 y 50 bolivianos. Si se obtienen dos billetes, uno
tras otro, elegidos al azar, con reposicin. Qu resultados pueden obtenerse? Se pretende determinar
el espacio muestral.
Resolucin
Para construirlo se debe preguntar: cules son los posibles billetes que se puede sacar en la primera
extraccin? La segunda pregunta: habiendo sacado un billete de 10, 20 o 50, qu posibles billetes
puedo sacar en la segunda extraccin?
Figura 28
Arboligrama de sacar 2 billetes con reposicin
En el bolsillo de un estudiante hay billetes de 10, 20 y 50 bolivianos. Si se obtienen dos billetes, uno
tras otro, elegidos al azar, sin reposicin. Qu resultados pueden obtenerse?
129
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Resolucin
No se trata del mismo experimento aleatorio del ejemplo 1, porque en este caso se extraen
los billetes uno tras otro, pero sin reposicin.
Aqu se realizan las mismas preguntas que en ejemplo anterior. Se observar que basta que una condicin
del experimento cambie, para que ste tenga otro espacio muestral.
Figura 29
Arboligrama de sacar 2 billetes sin reposicin
Ejemplo: Si el experimento aleatorio consiste en lanzar al aire una moneda tres veces y observar los
resultados conjuntos, un evento puede ser:
Un evento es un resultado o varios resultados de un espacio muestral en los que se est interesado, con
el propsito de estudiarlos o analizar los resultados.
130
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Clases de eventos
a) Sucesos simples y compuestos
Los eventos o sucesos aleatorios pueden ser simples o compuestos, segn puedan o no descomponerse
en otros resultados del experimento. Ejemplo: al lanzar una moneda sale cara o cruz, estos resultados
son simples. Al lanzar una moneda 2 veces: cs, cc o ss, se originan eventos compuestos.
Probabilidad
La probabilidad es una medida del riesgo o de la incertidumbre. Se dice que existe riesgo cuando
se conoce el espacio muestral y la probabilidad de aparicin de los sucesos. La situacin que indica
incertidumbre, desconoce la presencia del espacio muestral, la probabilidad de los sucesos o ambos.
Por medio de la probabilidad, podemos medir si un suceso es probable e improbable: el resultado de una
eleccin presidencial, los efectos colaterales de un nuevo medicamento, la durabilidad de una pintura
para exteriores, etc.
131
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
En la aplicacin de esta regla, los trminos favorable y xito se aplican a cualquier clase de resultado
que el investigador est interesado. As, favorable puede significar que un televisor no funcione, ya que
el inters es detectar los que estn defectuosos.
Algunas propiedades que presentan los sucesos, al hablar de sus probabilidades a priori son:
Ejemplo
Resolucin.
Determinar el sexo del recin nacido, es un experimento aleatorio (Suponiendo que no se
cuenta con un ecgrafo).
Los resultados del experimento cuando se observa el nacimiento uno tras otro, en la
determinacin del sexo se los determina por medio de un arboligrama (Ver figura 30).
Figura 30
Arboligrama del sexo de 3 nacimientos
132
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Para el anlisis de dichas probabilidades es necesario recurrir a eventos simples: Probabilidad conjunta
es la multiplicacin de una probabilidad marginal por varias condicionales.
Nota: La probabilidad marginal siempre corresponde a un evento simple (por eso corresponden a
las primeras ramas del rbol. Ejemplo: P(H): probabilidad de que el recin nacido sea hombre. La
probabilidad condicional a un evento que depende de otro, por eso corresponden a las segundas ramas
del rbol y as sucesivamente. Ejemplo: P(H/H): la probabilidad de que el segundo nacido sea hombre,
dado que el primero fue hombre. La probabilidad conjunta se refiere a eventos que se dan al mismo
tiempo, y corresponden a los eventos del espacio muestral. Ejemplo: P(H,H,M): la probabilidad de que
dos recin nacidos de tres, sean hombres.
b) Probabilidad a posteriori
Una desventaja del concepto clsico de probabilidad es su aplicacin limitada, ya que hay muchas
situaciones en las que no se pueden considerar las diversas posibilidades como igualmente probables.
Ejemplos: la posibilidad de si llover en un da determinado, si un empleado obtendr un ascenso este
mes en la empresa, si quisiramos pronosticar el resultado de una eleccin o un partido de ftbol, o
si quisiramos determinar si un ndice burstil bajar o subir. Para estos casos, se usa el concepto de
probabilidad a travs de la frecuencia o probabilidad a posteriori. Se define de la siguiente manera:
c) Probabilidad subjetiva
Qu pasa con la probabilidad a posteriori si el evento ocurre muy pocas veces o una sola vez? Ya no
es un buen indicador de la ocurrencia del evento. As que hay una tercera definicin de probabilidad
que es la subjetiva.
133
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Variable aleatoria
Es una funcin que permite transformar los diferentes resultados del espacio muestral en puntos del
conjunto de los nmeros naturales. Puede ser continua o discreta.
Ejemplo
Supngase el espacio muestral del sexo de 3 recin nacidos (Ver la figura 19).
Si interesa el nmero de hombres recin nacidos se puede observar la siguiente relacin entre la variable
definida y el espacio muestral.
La variable aleatoria es discreta y estara definida como: X = Nmero de hombres recin nacidos,
generando as los valores de la tabla 14.
Tabla 14
Valores de la variable aleatoria: nmero de hombres recin nacidos
Casos del espacio muestral Valores de la variable aleatoria discreta: (Xi)
MMM X1 = 0 => Los recin nacidos son todos mujeres
MMH, MHM, HMM X2 = 1 Significa 1 hombre entre los recin nacidos
MHH, HMH, HHM X3 = 2 Significa 2 hombres
HHH X4 = 3 Significa 3 hombres
Si dentro el espacio muestral, teniendo en cuenta la variable aleatoria definida, se define una funcin
de probabilidades que determine la ocurrencia de los diferentes valores de la variable, se dice que se
ha definido: P(x en A)
Distribucin de probabilidades
Sea un experimento aleatorio que permite definir un espacio muestral, sea x la variable aleatoria y P(x)
las probabilidades respectivas. La funcin de probabilidad se obtiene cuando determinada una variable
aleatoria para el espacio muestral, se dispone de las probabilidades correspondientes producidas en el
experimento aleatorio.
Tabla 15
Distribucin de probabilidades del sexo del recin nacido
x1 = 0 MMM 1/8
x2 = 1 MMH, MHM, HMM 3/8
x3 = 2 MHH, HMH, HHM 3/8
x4 = 3 HHH 1/8
Esta tabla corresponde a una distribucin de probabilidades para variable aleatoria discreta.
134
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
a) Funcin de cuanta
Propiedades
La distribucin de probabilidades, cuando la variable es discreta, se denomina funcin de cuanta y
debe cumplir con:
Para determinar si una funcin es de cuanta debe cumplir con las condiciones anteriores. Para evaluar
la segunda condicin: La suma de la funcin de cuanta en el recorrido de la variable debe sumar la
unidad, es necesario incorporar una variable de trabajo k, tal que:
Ejemplo
Si la probabilidad de que cualquier elector registrado (seleccionado al azar de las listas oficiales) vote en
una eleccin determinada es de 0.70, cul es la probabilidad de que dos de cinco electores registrados
voten en la eleccin?
Se ha determinado que para resolver este problema se puede usar la siguiente funcin de cuanta:
Resolucin
Primero se debe verificar si la funcin propuesta cumple las propiedades de una de cuanta
o no. Para ello se halla las probabilidades para cada valor de la variable y se verifica si
cumple:
135
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 16
Distribucin de cuanta de la binomial b(x, n = 5, p = 0.7)
x P(x)
0 0.0024
1 0.0284
2 0.1323
3 0.3087
4 0.3602
5 0.1681
Total 1
Ahora si se puede calcular la probabilidad pedida, que no es otra cosa que la probabilidad
para x = 2: 0.1323
Existe una probabilidad de 13.23% de que de cinco personas elegidas al azar dos voten en la eleccin.
Representacin grfica
Las distribuciones de probabilidades para variable aleatoria discreta pueden ser representadas mediante
un diagrama de barras, circular o rectangular, usando los valores de probabilidad para el eje y y los
valores de la variable para el eje x. Tambin pueden ser representadas mediante diagramas acumulados
de probabilidades.
La grfica de barras que corresponde a esta funcin de cuanta es observada en el grfico 14.
Grfico 14
Diagrama de barras de la binomial b(x, n = 5, p = 0.7)
136
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
b) Funcin de densidad
Propiedades
Se consideran las condiciones introducidas para el valor de k, a fin de determinar si la funcin propuesta
es de cuanta.
Ejemplo
Se ha descubierto que el tiempo de espera (en minutos) para que una persona pueda acceder a conectarse
a internet sigue la siguiente funcin de densidad:
Resolucin
Primero se verifica si la funcin es realmente una de densidad, realizando la comprobacin
de la propiedad: .
Se verifica que la funcin no era de densidad, y haba que corregirla, del siguiente modo:
137
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
a)
Existe una probabilidad de 71.07% de que una persona se conecte al internet en menos de un minuto.
b)
Existe una probabilidad de 28.93% de que una persona espere para conectarse al internet un minuto o
ms tiempo.
A continuacin se muestra en la figura 31 un resumen de los tipos de grficos que se pueden formar para
cada distribucin de frecuencias, que es de elaboracin propia.
Media aritmtica
Moda
Mediana
Media armnica
Media geomtrica
Las distribuciones de frecuencia de atributos, si son de atributo nominal, pueden expresarse en forma
resumida usando la frecuencia o la moda, en cambio si son de tipo ordinal, la informacin queda
resumida mediante la moda o mediana. Las distribuciones de frecuencia de variable, cualquiera
fuese el tipo (I, II o III), pueden resumir la informacin usando cualquiera de los 5 indicadores antes
mencionados.
138
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
139
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Los estadgrafos que permiten conocer en forma resumida la forma de una distribucin se denominan
indicadores de dispersin. Adems de ello permiten evaluar la confiabilidad de un estadgrafo de
posicin.
An siendo la media aritmtica el promedio ms utilizado en la prctica, muchas veces puede dar lugar
a falsas interpretaciones. Esto ocurrir cuando no tenga suficiente grado de representatividad, es decir,
cuando los valores de la variable estn poco concentrados, o lo que es lo mismo, muy dispersos a su
alrededor. Entonces, poco podr decir la media sobre la poblacin en estudio. Es necesario acompaar
la media aritmtica con una medida del grado de dispersin de los valores de la variable a su alrededor,
de forma que, cuanto mayor sea esta medida, menor ser el grado de representatividad de la media y
viceversa.
El recorrido.
La varianza y la desviacin estndar.
La amplitud y desviacin cuartlica.
La amplitud centlica.
Para comprender mejor qu es lo que involucra que exista una variacin en los datos de una serie
estadstica, se describe aqu algunos aspectos importantes:
En muchos casos de distribucin de frecuencias de una variable, stas no son comparables utilizando la
medias y la varianzas respectivas, por las unidades en que estn expresadas las variables. Entonces es
necesario construir indicadores que no estn influidos por dichas unidades. En este caso se construyen
razones tales como el coeficiente de variacin y la variable tipificada o estandarizada como instrumentos
que permiten comparar entre distribuciones de frecuencias de una variable.
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de una
distribucin de frecuencias. En concreto, podemos estudiar las siguientes caractersticas de la curva:
a) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la
misma (centro de simetra) los segmentos de curva que quedan a derecha e izquierda son
similares.
b) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor
140
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Figura 32
Estadgrafos de posicin, dispersin, comparacin y forma
Para elegir el estadgrafo de posicin que mejor se adecue a cada distribucin, se deben tomar en cuenta
las siguientes consideraciones:
141
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
La media aritmtica da mucho relieve a los elementos grandes de una serie estadstica, por el contrario,
las medias geomtrica y armnica destacan la influencia de los valores pequeos y reducen la influencia
de los valores grandes.
a) Estadgrafos de posicin
Media aritmtica. Es un valor determinado en algn punto del recorrido de la variable. Este punto
resulta ser el centro de gravedad de la distribucin. En general se define como el valor que resulta
de dividir los valores registrados de la variable entre el nmero de ellos. Este valor llamado media
aritmtica se simboliza por:
Tipo II. En el clculo de la media aritmtica en distribuciones tipo II, se aplica la expresin anterior
aadiendo pesos o ponderaciones:
142
FIGURA 33
RBOL DE DECISIN PARA LA SELECCIN DEL ESTADGRAFO DE POSICIN ADECUADO
143
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Se multiplica la primera columna (xi) por la segunda columna (ni). Este producto se anota
en la tercera columna. La suma de dicho producto se divide entre el tamao de poblacin
o universo (ver tabla 17).
Tabla 17
Clculo de la media aritmtica en distribuciones tipo II
xi ni xi * ni
x1 n1 x1 * n1
x2 n2 x2 * n2
: : :
xn nn xn * nn
n xi * ni
tal que:
Tipo III. La expresin de clculo de la media aritmtica en una distribucin de frecuencias tipo II se
aplica tambin al caso de hallar dicho estadgrafo en una distribucin tipo III, si acaso esta distribucin
se la convierte a tipo II.
Tabla 18
Transformacin de la tabla Tipo III a tipo II
Dicha transformacin se produce reemplazando los intervalos de clase por sus valores medios o marcas
de clase (semisuma de los lmites de cada intervalo).
Nota: La media aritmtica debe utilizarse cuando las distribuciones no tengan peso o ponderacin en
valores extremos.
144
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Esperanza matemtica. Indica el valor promedio que se desea obtener en una distribucin de
probabilidades.
Nota: En general la media aritmtica o la esperanza matemtica, es un valor que se define dentro el
recorrido de la variable.
Moda. La moda es el valor de la variable que responde a la frecuencia ms alta. Se dice tambin que
es el valor de la variable ms frecuente. Este estadgrafo de tendencia central se usa para resumir la
informacin en el caso de distribuciones de atributo nominal, ordinal y en el caso de las variables
discretas o continuas.
Tipo I. En las distribuciones tipo I, no existe posibilidad de hallar la moda, por que dicha distribucin
se dice que es de tipo unitaria.
Tipo II. En las distribuciones tipo II, la moda se determina aplicando la definicin.
1) Se transforma la distribucin tipo III en tipo II, cambiando la columna de intervalos con
una de marcas de clase y se aplica la definicin de la moda.
145
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Moda esperada. La moda en una distribucin de probabilidad, corresponde a aplicar las condiciones
de un mximo.
Funcin de densidad. Si f(x) es una distribucin de densidad, se puede determinar la moda mediante
tres procedimientos:
a) Halle las coordenadas de x de todos los puntos crticos de primer orden de la funcin en
el intervalo (Un punto crtico es aquel que se obtiene igualando a cero o a no
existe la primera derivada de una funcin:
b) Calcule f(x) en estos valores crticos y en los puntos extremos x = a y x = b.
c) Seleccione el valor mayor de f(x) obtenido en el paso 2. Este es el mximo absoluto, que
puede ser confirmado mediante el criterio de la segunda derivada: .
Nota: En una distribucin de frecuencias o probabilidades, cuando existen dos o ms valores que
corresponden a la frecuencia ms alta, se dice que la distribucin es bimodal o multimodal. El valor de
una distribucin de frecuencias que corresponde a la frecuencia ms baja, se denomina antimoda. Una
distribucin de frecuencias, puede tener 2 o ms antimodas.
Mediana. Es un valor de la variable que permite distribuir en dos partes igualmente proporcionales a la
distribucin de frecuencias. De otra manera se dice que la mediana es un valor que supera a no ms de
50% de los valores observados. La mediana es un estadgrafo de ubicacin y permite determinar si un
valor cualquiera de la variable forma parte del primer o del segundo grupo.
El procedimiento para su clculo es diferente segn el tipo de distribucin para el que se desea hallar.
Tipo I. Se distinguen 2 casos:
146
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Tipo II. El valor de la mediana en una distribucin tipo II, se determina tomando en cuenta el siguiente
procedimiento:
Tipo III. En este tipo de distribucin, la mediana se calcula utilizando una frmula emprica:
Mediana esperada. La mediana esperada es el valor de la variable aleatoria que divide a una distribucin
de probabilidades en dos partes igualmente proporcionales.
Funcin de cuanta. El procedimiento para hallar la mediana esperada en una funcin de cuanta es
el siguiente:
147
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Funcin de densidad. La mediana esperada de una funcin de densidad puede ser calculada por tres
mtodos:
Media armnica. Es un valor de la variable que se determina como el valor recproco medio de los
valores recprocos de la variable. Se la usa generalmente cuando se quiere determinar la tasa media de
uso de un producto.
Tipo II y III. En una distribucin de frecuencia tipo II o III, la media armnica se calcula de la siguiente
manera:
Media geomtrica. La media geomtrica es la raz ensima del producto de los valores considerados
de una variable representada por:
Generalmente es una mejor medida que la media aritmtica cuando los datos estn en porcentajes o
unidades relativas.
Tipo I. La definicin anterior se utiliza en caso de obtener la media geomtrica en la distribucin tipo
I.
Tipo II o III. En distribuciones tipo II y III, la media geomtrica se obtiene aplicando la siguiente
definicin:
148
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
b) Estadgrafos de dispersin
Varianza. La varianza de una distribucin de frecuencia se determina por el promedio del cuadrado de
las desviaciones de la variable.
Tipo I. La anterior frmula se aplica para el clculo de la varianza en las distribuciones tipo I. El clculo
de la varianza se facilita si se desarrolla convenientemente la expresin anterior:
Tipo II y III. Si las distribuciones son de tipo II y III, la varianza se define de la siguiente manera:
Funcin de cuanta. Si se tiene una funcin de cuanta, la varianza esperada se define de la siguiente
manera:
Funcin de densidad. Si se tiene una funcin de densidad, la varianza esperada se define de la siguiente
manera:
Otras medidas de dispersin. Estas medidas generalmente se utilizan juntamente con la mediana,
cuando la media y la desviacin estndar no son medidas representativas de la distribucin.
Amplitud cuartlica. Los cuartiles son los valores de la variable que dividen a la distribucin en 4
partes proporcionalmente iguales, como lo muestra la figura 34.
149
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
FIGURA 34
DISPOSICIN DE LOS CUARTILES EN UNA DISTRIBUCIN
Tipo I y II. El procedimiento para distribuciones tipo I y II, se puede deducir fcilmente de la
metodologa seguida para el clculo de la mediana.
Esta ecuacin es una general de la que se ha deducido la ecuacin para el clculo de la mediana.
Amplitud centlica. Los centiles son los valores de la variable que dividen a la distribucin en 100
partes iguales, como se muestra en la figura 35.
Nota: Por medio de los centiles, el investigador puede no slo calcular los lmites del 80% central de la
distribucin, sino de cualquier porcentaje que sea adecuado para sus conclusiones.
Figura 35
Disposicin de los centiles en una distribucin
Tipo I y II. En la prctica, debido a que para calcular centiles se deben dividir los datos en 100 partes,
no se realiza el clculo para distribuciones tipo I y II, que contienen pocos valores diferentes de la
variable.
150
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
c) Estadgrafos de comparacin
En general este coeficiente se usa cuando los valores de las medias aritmticas y las varianzas entre
dos distribuciones no son iguales. Permite determinar la dispersin relativa porcentual o el grado de
homogeneidad de una distribucin. El mayor valor del coeficiente de variacin expresa una mayor
dispersin en la distribucin. Si se expresa en porcentaje sus valores van desde 0 al 100.
Se puede comprobar que el cambio de variable z, hace que la media sea 0 y la desviacin uno:
La variable tipificada se usa para determinar la posicin relativa entre los valores correspondientes a
distribuciones de frecuencias diferentes.
Asimetra. La asimetra de una distribucin puede ser determinada mediante las siguientes reglas:
151
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Se dice que una distribucin presenta sesgo positivo cuando la media es mayor que la
mediana o moda, debido a observaciones grandes.
Se dice que una distribucin presenta sesgo negativo cuando la media es la menor de los
tres promedios, por observaciones pequeas.
Un diagrama que muestra los diferentes grados de simetra es el representado en la figura 36.
Figura 36
Tipos de asimetra de una DISTRIBUCIN
Curtosis. La curtosis mide el grado de agudeza de una distribucin. Analiza el grado de concentracin
que presentan los valores alrededor de la zona central de la distribucin.
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales
de la variable (el mismo que presenta una distribucin normal).
Un diagrama muestra de manera objetiva los distintos grados de curtosis (ver la figura 37).
152
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Figura 37
Grados de curtosis de una distribucin
g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Ejemplo 1
Volviendo al ejemplo del anlisis descriptivo de las calificaciones de los estudiantes de Estadstica de
una carrera empresarial en una universidad, el mejor estadgrafo de posicin, segn la figura 17 es la
moda, ya que la caracterstica investigada es un atributo ordinal, y corresponde a la modalidad de mayor
frecuencia, que en este caso es M = Muy Bueno, ya que su frecuencia es de 18. Lo mas usual es que un
alumno del curso de Estadstica haya obtenido un rendimiento muy bueno.
Sin embargo, tambin se podra calcular la mediana, como representativa, ya que si bien la distribucin
no es bimodal, existe una frecuencia de similar magnitud en la modalidad 3.
153
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
154
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Tabla 19
Rendimiento de alumnos de Estadstica
Eso quiere decir que el 50% de los alumnos obtuvo un rendimiento por debajo de bueno, y el otro 50%
restante del curso por encima de bueno.
Ejemplo 2
Volviendo al ejemplo de las ventas anuales de 50 tiendas, se pueden hallar todos los estadgrafos. La
tabla 20 nos ayudar en los clculos y las frmulas sern vistas en la figura 33, y corresponden a una
distribucin de variable tipo III de intervalos constantes.
Tabla 20
Distribucin de frecuencias de ventas anuales (miles de $us.)
Estadgrafos de posicin:
Media aritmtica:
Mediana:
El 50% de las tiendas tienen ventas menores a 165560 dlares anuales. El restante 50% ventas
mayores a ese valor.
155
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Moda:
Lo mas frecuente es que las tiendas tengan ventas anuales de 171110 dlares.
Estadgrafos de dispersin:
Desviacin estndar:
El alejamiento promedio de las ventas de las tiendas con respecto a las ventas medias es de 27200
dlares.
Amplitud cuartlica:
El 25% de las tiendas tienen ventas de menos de 141250 dlares al ao y el restante 75% ms de ese
valor.
El 75% de las tiendas han vendido menos de 179440 dlares al ao, y el restante 25% ms de ese
valor.
El 50% central de las tiendas, con respecto a la mediana, han vendido entre 179440 y 141250 dlares
al ao.
Amplitud centlica:
El 10% de las tiendas han obtenido de ingresos menos de 116670 dlares anuales y el 90% restante
ms de ese valor.
El 90% de las tiendas han logrado ingresos de menos de 194000 dlares al ao y el 10% restante ms
de ese valor.
El 80% central de las tiendas con respecto a la mediana, han logrado ventas entre 116670 y 194000
dlares anuales.
Estadgrafos de comparacin:
Coeficiente de variacin:
156
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Existe una dispersin porcentual relativa de las ventas de las tiendas del 17% con respecto a la media.
Esto significa que las ventas de las tiendas son bastante homogneas.
Estadgrafos de forma:
Coeficiente de asimetra:
La distribucin del ingreso de las tiendas es levemente asimtrica con sesgo negativo.
Coeficiente de curtosis:
La presentacin de los datos as elaborados, forman una distribucin bidimensional (si se trata de
atributos se denomina tabla de contingencia, y si se mezcla una variable con un atributo se dice que
es una bidimensional mixta), o ampliando el concepto a ms variables, forman una distribucin
multidimensional.
Las mencionadas distribuciones segn el nmero de observaciones y valores diferentes respecto a dos
variables o atributos considerados, pueden ser de los tipos mostrados en la figura 39.
157
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
FIGURA 39
TIPOS DE DISTRIBUCIONES BIDIMENSIONALES
Se da cuando las observaciones efectuadas y los valores diferentes de las dos variables o las modalidades
diferentes de los dos atributos, son pocos. La organizacin de dichos datos, si se trata de variables,
se efecta considerando valores ascendentes o descendentes y su presentacin en general, se efecta
tomando en cuenta dichos pares de valores registrados en dos columnas de la forma general mostrada
en la tabla 21, donde algunos valores de la variable X pueden repetirse, pero con distinto valor de la
variable Y, y viceversa:
Tabla 21
Distribucin bidimensional (xi , yi) tipo I
xi yi
x1 y1
x2 y2
x3 y3
: :
xr ys
Esta distribucin se presenta cuando las observaciones son muchas y pocos los valores diferentes de las
variables (o las modalidades de los atributos).
Los datos se organizan en un cuadro de doble entrada, de manera que en las filas se registren los valores
diferentes de la variable xi y en la columna se registren los valores diferentes de la variable yj. El
cuerpo de dicha tabla de doble entrada registra las veces que se repite el par ( x i , y i ) . Este nmero se
denomina frecuencia absoluta bidimensional y se simboliza por nij.
El valor del universo, poblacin o colectivo, es la suma de los valores de frecuencia absoluta
bidimensional, tal que:
r s
n = n ij
i =1 j=1
\
La disposicin general de un cuadro bidimensional tipo II, es la que se muestra en la tabla 22.
158
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Tabla 22
Distribucin bidimensional tipo II
yj
y1 Y2 ... ys Total
xi
x1 n11 n12 ... n1s
x2 n21 n22 ... n2s
: : : : :
xr nr1 nr2 ... nrs
r s
Total
n =
i =1 j =1
n ij
Nota 1: En la distribucin de frecuencias de una variable bidimensional tipo II, si en lugar de los valores
n ij
nij, se escriben h ij = , se dice que es una distribucin bidimensional de frecuencias relativas.
n
Nota 2: La distribucin bidimensional expresada en frecuencias absolutas conjuntas, puede ser escrita
en forma de frecuencias absolutas conjuntas acumuladas bidimensionales, cuando los nij se sustituyen
por:
* *
i j
N i * j* = n ij
i =1 j=1
H i * j* = h ij
i =1 j=1
Distribuciones marginales
En toda distribucin de frecuencias bidimensional, cuando se considera una variable (xi) y se prescinde
de la otra (yj), se obtiene una distribucin marginal o distribucin de frecuencias de una variable.
159
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Tabla 23
Distribuciones marginales de x y y
Nota
de posicin (moda)
Esta forma de distribucin se presenta cuando se han efectuado muchas observaciones y los valores
diferentes de la variable registrados son igualmente muchos.
Su organizacin, si se trata de presentar una distribucin de frecuencias tipo III con intervalos constantes
para las dos variables, requiere:
160
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Tabla 24
Distribucin bidimensional tipo III
yj -1 - yj
yo - y1 y1 - y2 y2 - y3 ... ys-1 - ys Total
xi -1 - xi
xo - x1 n11 n12 n13 ... n1s
x1 - x2 n21 n22 n23 ... n2s
x2 - x3 n31 n32 n33 ... n3s
: : : : : :
xr-1 - xr nr1 nr2 nr3 ... nrs
Total
Nota: Tambin puede expresarse en trminos de frecuencia relativa, frecuencia absoluta acumulada y
frecuencia relativa acumulada conjunta.
De la distribucin bidimensional tipo III se obtienen dos distribuciones marginales tipo III.
Covarianza
El grado de dependencia o relacin entre las variables de una distribucin bidimensional, se determina
mediante la covarianza. Se define como la media del producto de las desviaciones de los valores de cada
variable respecto de su media aritmtica.
El signo de la covarianza define la naturaleza de la asociacin:
Si es positiva, se dice que existe relacin directa entre las variables (aumento o disminucin
en x implica aumento o disminucin en y).
Si es negativa, indica relacin inversa entre las variables.
Si es cero, no existe ninguna relacin entre las variables.
161
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Cuanto ms alejado est el valor de la covarianza hallado de cero, la relacin entre las variables ser
ms intensa.
Tipo I. La covarianza se simboliza por el signo Sxy y se define de la siguiente manera para distribuciones
tipo I:
(x i x )( yi y)
Sxy =
x i yi x i yi
Sxy = i =1
n
n n n
(x x) * ( y y ) * n
i i i
Sxy =
x i yi n i x i n i yi n i
Sxy = i =1
n
n n n
Si se tiene una tabla de contingencia, tambin se puede determinar el grado de asociacin entre atributos
o series mixtas.
Cuando entre dos atributos no existe ninguna influencia mutua, se dice que son independientes. En caso
contrario se dice que hay asociacin o dependencia.
Para fundamentar, aunque sea de una forma simple el razonamiento que sigue, vamos a suponer una
distribucin de dos atributos cada uno de los cuales toma dos modalidades distintas (ver tabla 25):
Tabla 25
Distribucin bidimensional de atributos o mixtas
A
a1 a2 Total
B
b1 n11 n21 ni1
b2 n12 n22 ni2
Total n1i n2i n
Evidentemente, si A y B son independientes, el nmero de los elementos que poseen las modalidades
b1 y a1 y el nmero de los elementos que poseen las modalidades b1 y a2 han de guardar la misma
proporcin con respecto al total de a1 y con respecto al total de a2, respectivamente. Entonces se cumple
la relacin:
n n 2i i1
n 21 = i i
162
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
De otra forma, diremos que existir independencia entre dos modalidades a y b cuando:
na nb
n ab =
n
siendo aqu nab el nmero de elementos que poseen las dos modalidades a y b conjuntamente, na el
nmero de los que poseen la modalidad a y nb el de los que poseen la modalidad b. Tngase en cuenta
que no es necesario que dicha igualdad se cumpla estrictamente: desde el punto de vista estadstico,
basta con que la diferencia entre los dos miembros sea relativamente pequea.
La asociacin entre dos modalidades ser, de tipo positivo si: n n a n b > 0 y negativo si:
ab
n
na nb , llamndose atraccin a la asociacin de tipo positivo, y repulsin a la asociacin
n ab <0
n
de tipo negativo.
Se realiz una encuesta a 30000 habitantes de una determinada ciudad. Se obtuvo la siguiente
distribucin en cuanto a su estado civil y sexo.
Tabla 26
Estado Civil segn Sexo
Estado civil
Soltero Casado Viudo Total
Sexo
8052 5815 542
Masculino 14743
(7894) (5669) (845)
8384 5989 1218
Femenino 15257
(8542) (6135) (915)
Total 16436 11804 1760 30000
Resolucin
163
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Interpretacin:
Esto quiere decir que existe asociacin entre el estado civil y el sexo de las personas. La mayora de los
hombres son solteros o casados y hay pocos viudos, lo contrario ocurre con las mujeres, donde existen
ms viudas.
Se muestra en la figura 40 un rbol de decisiones para la eleccin del anlisis adecuado cuando se tienen
series de datos cronolgicos o temporales.
Los anlisis de regresin y correlacin brindan al investigador las herramientas necesarias para cumplir
este objetivo.
La figura 41 muestra los tipos de modelos que se pueden determinar mediante un anlisis de regresin
y los coeficientes que validan el modelo mediante un anlisis de correlacin.
164
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
165
Metodologa de la Investigacin Enfoque Sistmico y Complejo para las Ciencias Sociales
Figura 41
Anlisis de regresin y correlacin
a) Anlisis de Regresin
El anlisis de regresin es una tcnica empleada para desarrollar una ecuacin que permite expresar
la relacin entre variables y estimar el valor de y (variable dependiente o de respuesta), con base en
valores de xi (variables independientes o explicativas).
La tcnica consiste en realizar un diagrama de dispersin de los datos a investigar, luego de determinar
por medio de l la ecuacin de ajuste entre las variables y desarrollar sistemas de ecuaciones que
permitan determinarla con base al principio de mnimos cuadrados.
El diagrama de dispersin (o nube de puntos) es una grfica que presenta la relacin entre dos
variables de inters.
Minimizar : z = (yi y e ) 2
i =1
donde:
El diagrama de dispersin de la figura 42, aclara todos los conceptos arriba mencionados.
166
C A P T U L O I I I P R O C E S O E S TA D S T I C O S F A S E I I
Figura 42
Diagrama de dispersin
Una serie de datos de dos variables, pueden poseer varios tipos de tendencias. Depender de ellas que
la serie pueda ajustarse a un modelo determinado. Los tipos de regresin ms usuales se muestran en
la figura 43.
Figura 43
Tipos de regresin usuales
167