Está en la página 1de 19

Sistema de Informacion de Mercados

Tema 6. Analisis de los datos e interpretacion de los resultados.


6.1. Codificacion e introduccion de datos

Concluido el trabajo de campo, llega una fase esencial en la investigacin de mercados: la


codificacin. Cuando codificamos, estamos traduciendo las respuestas a nmeros. Se trata
de una operacin muy importante y delicada en su ejecucin ya que de no hacerla bien se
puede fallar en todo el anlisis posterior de los datos.
El proceso de codificacin hace posible la agrupacin de los datos, y para que esta agrupacin
sea posible es imprescindible identificar antes, de manera inequvoca, cada tipo de respuesta
contenida en los documentos cumplimentados. Para ello todas las posibles respuestas se
identifican utilizando smbolos o cdigos a asignar a cada una de ellas
La codificacin de preguntas cerradas es la ms sencilla. Se trata de asignar un nmero a cada
una de las respuestas predeterminadas.
6.1.1. Tabulacion de datos. Tabulacion unidireccional

La tabulacin es el medio que permite al investigador tener una visin de conjunto de la


informacin de todos los cuestionarios o herramientas de la investigacin, al convertirlos en
datos homogneos que posteriormente sern objeto de anlisis.
Una vez codificadas las respuestas, se procede a introducir los datos en un programa de
ordenador que admita los datos (respuestas del cuestionario), los almacene de forma
sistemtica, los archive en un soporte informtico y los deje preparados para realizar con ellos
todas las operaciones que puedan resultar de inters (clculos de diferentes medidas
estadsticas).
La tabulacin puede realizarse pregunta por pregunta (tabulacin simple o unidireccional) o
bien de dos o ms preguntas a la vez (tabulacin cruzada).
Hablamos de tabulacin simple o unidireccional cuando nos referimos al recuento del
nmero de casos que se incluyen en las clases de respuestas a una pregunta del
cuestionario. En este tipo de tabulacin, las tablas estn constituidas por columnas que
contienen las diferentes clases de respuestas de una pregunta (Xi) a las que se les asign un
cdigo, la frecuencia absoluta (Fi), la frecuencia relativa y/o los porcentajes (Pi) con que se
presentaron dichas respuestas en la muestra.
Existen diferentes escalas de medidas de las variables en la tabulacin unidireccional.

La escala nominal slo implica distincin de categoras. La variable tomar diferentes


valores, por ejemplo, se clasifican los clientes de una empresa segn la profesin de
los mismos.
Ejemplo de tabulacin simple de escala nominal
Profesin (Xi)
Frecuencia Absoluta (fi) Frecuencia Relativa (pi)
Agricultor
42
14,58 %

Funcionario
Obrero
Administrativo
Trabajador autnomo
Otros

60
20,83 %
94
32,64 %
32
11,11 %
54
18,75 %
6
2,09 %
N=288
100 %
La escala ordinal implica una ordenacin de las clases: los valores de las variables
aparecen ordenados, creciente o decrecientemente. Por ejemplo, se clasifica a los
consumidores de un producto segn su frecuencia de uso.

Ejemplo de tabulacin simple de escala ordinal


Frecuencia de uso fi
pi
Pi
Nunca
20 13,51 % 13,51 %
Ocasionalmente
32 21,62 % 35,13 %
Poca frecuencia
56 37,84 % 72,97 %
Mucha frecuencia
22 14,86 % 87,83 %
Siempre
18 12,17 % 100 %
148 100 %
La escala cardinal o de intervalo implica no slo la ordenacin de las clases sino
tambin la distancia entre ellas.

Por ltimo, la tabulacin de razn consiste en registrar los datos originales con un
nmero cualquiera (por ejemplo: nmero de pelculas que ves al ao).

6.1.2. Tabulacion de datos. Tabulacion cruzada.


Con la tabulacin cruzada se trata de poner en relacin las respuestas a dos o
ms preguntas diferentes para ver en qu medida las respuestas estn ligadas
entre s.

En la tabulacin de dos preguntas, las tablas estn constituidas por un cuadro de doble entrada
en el que las clases de respuestas de una de las preguntas se colocan como principios de lnea;
al final de cada una de stas se anotan sus frecuencias, relativas o absolutas; las clases de la
otra pregunta encabezan las columnas, a cuyo pie se colocan sus frecuencias
correspondientes. En los cruces de las filas y las columnas se anotan las frecuencias
conjuntas. Estas tablas pueden estar expresadas en porcentajes en relacin a una pregunta
(tabla de porcentajes verticales o porcentajes horizontales) o en relacin a las dos preguntas
(tabla de porcentajes respecto al total de la poblacin).
Por ejemplo, si queremos saber cuntos clientes del gnero masculino y cuntos del gnero
femenino tenemos y de todos ellos cuntos volvern a comprar nuestros productos y cuntos
no, podemos construir una tabla parecida donde se representen las respuestas a ambas
preguntas.
Ejemplo de tabulacin cruzada
Gnero/Nueva compra S No Total
Masculino.
33 % 22 % 55 %
Femenino.
37 % 8 % 45 %
Total.
70 % 30 % 100 %

A partir de una tabla de tabulacin cruzada, ya se pueden realizar anlisis ms profundos y


llegar a conclusiones de mayor peso.
6.1.3. Tratamiento de los datos. Tipos de datos
Dentro de la estadstica distinguimos tres modalidades: estadstica analstica,
descriptiva e inferencial.

Dependiendo de la manera de tratar la informacin recogida, nos podremos enfrentar a


diferentes metodologas dentro de la estadstica:

Si el conjunto de los datos es tratado matemticamente, obteniendo de ellos unos


valores numricos que nos dan una idea de la situacin que se analiza, decimos que
estamos la estadstica analtica.
Si la informacin es recogida y tabulada en tablas y grficos, estaremos ante la
estadstica descriptiva. En ella han de respetarse ciertas reglas, si se quiere que los
datos sean significativos. La estadstica descriptiva realiza el estudio sobre la
poblacin completa, observando una caracterstica de la misma y calculando unos
parmetros que den informacin global de toda la poblacin.
Si lo que hacemos es sacar conclusiones del trabajo realizado, valorndolo
probabilsticamente, estamos ante la estadstica inferencial. A travs de ella se realiza
el estudio descriptivo sobre un subconjunto de la poblacin llamado muestra y,
posteriormente, extiende los resultados obtenidos a toda la poblacin.

A lo largo de la presente unidad iremos utilizando herramientas propias de cada metodologa.


Pero antes debemos tener claro la terminologa ms comn en estadstica, y los tipos de datos
con los que nos vamos a encontrar. Para ello debemos tener clara la diferencia entre
poblacin y muestra.
Entendemos por poblacin, tambin llamado universo, el conjunto formado por todos los
elementos a los que les vamos a hacer el estudio. Y muestra es el subconjunto de la poblacin
que elegimos para hacer un estudio ms reducido.
Y partiendo de esa diferenciacin entre poblacin y muestra, podremos conocer los dos tipos
de datos que nos vamos a encontrar: parmetros o estadsticos:

El parmetro es una cantidad numrica calculada sobre una poblacin y resume los
valores que esta toma en algn atributo.
Por otra parte, el estadstico es una cantidad numrica calculada sobre una muestra
que resume su informacin sobre algn aspecto. Tambin se le suele llamar estimador.
Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva
estudiar a toda la poblacin, calculamos un estimador sobre una muestra y confiamos
en que sean prximos.

Por ltimo, al hablar de tipos de datos, debemos referirnos tambin a las variables
estadsticas, que son las diferentes propiedades o cualidades que podemos estudiar en los

individuos de una poblacin. Segn sea el valor que tomen, numrico o no, tenemos la
siguiente clasificacin:

Variables estadsticas cuantitativas: cuando slo toma valores numricos. Estas


variables a su vez se clasifican en dos tipos:
o Discretas: los valores numricos que toma son aislados, por ejemplo el
nmero de hijos de una familia.
o

Continuas: puede tomar cualquier valor numrico entre otros dados, por
ejemplo los ingresos medios de una poblacin cuyos ingresos oscilan entre los
1.000 y los 2.000 euros mensuales.

Variables estadsticas cualitativas: cuando la propiedad que estudiamos, su valor, no


puede expresarse con nmeros, por ejemplo el color de pelo de los turistas que
visitaron Espaa en 2011.

6.1.4. Representacion grafica de los datos

No podemos pasar por alto que para el anlisis de los datos nos podemos valer de la ayuda de
grficos. Pero para ello es necesario que aprendamos a diferenciarlos y comprobar su utilidad.
Los grficos tienen por objeto representar datos numricos por medio de lneas o dibujos que
permiten apreciar mediante una sencilla y rpida observacin el comportamiento de la serie
estadstica. Dependiendo del objetivo buscado, de la variable, de la escala de medicin y del
tipo de dato con el que se trabaje, se elegir el grfico adecuado. Hay distintas formas de
representar grficamente los datos:

Diagrama de lneas. Son representaciones grficas formadas por segmentos


rectilneos que resultan de unir los puntos definidos por la correspondencia existente
entre dos variables, cuyos valores se toman en los ejes de un sistema cartesiano.
Diagrama de rea. Igual que el de lnea, pero en este caso se sombrea o se rellena
adems el rea comprendida entre el eje horizontal y la lnea poligonal determinada
por los puntos.

Diagrama de barras. Son representaciones grficas formadas por barras con anchura
de trazo uniforme, situadas horizontal o verticalmente, y cuya longitud viene
determinada por los datos.

Diagramas de sectores. Son representaciones consistentes en grficos circulares,


divididos en sectores de reas proporcionales a las partes del total de aquello que se
quiere representar.

Pictogramas. Son representaciones grficas muy vistosas que consisten en dibujar en


lugar de lneas, figuras varias relacionadas con lo estudiado y de magnitudes
proporcionales a la intensidad del mismo.

Histogramas. Son representaciones grficas formadas por rectngulos, cuya rea es


proporcional a la frecuencia de cada modalidad. En el caso de que los intervalos que
se tomen sean iguales, las alturas de los rectngulos se pueden tomar iguales a las
frecuencias correspondientes.

Polgonos de frecuencias. Se obtiene uniendo los puntos medios del extremo superior
de las barras del histograma. Dicha figura pretende mostrar, de la forma ms simple,
en qu rangos se encuentra la mayor parte de los datos.

6.1.4.1. Representacion grafica de los datos (II)


Despus de haber estudiado los distintos tipos de grficos posibles, vamos a conocer ahora
cmo podemos clasificar las variables y qu tipo de grfico le viene mejor a cada una de ellas.
El tipo de representacin grfica depender de la variable con la que se trabaje. Entendemos
variable como la propiedad o cualidad que puede manifestarse bajo dos o ms formas
distintas en un individuo de una poblacin.
Las variables se clasifican en:

Cuantitativas: se expresan numricamente. Se clasifican a su vez en discretas y en


continuas. Las discretas toman valores numricos aislados, por lo que, fijados dos
consecutivos, no pueden tomar ningn valor intermedio. Las continuas pueden tomar
cualquier valor dentro de unos lmites, por lo que entre dos valores cualesquiera, por
prximos que sean, siempre pueden encontrarse valores intermedios.
Cualitativas: no se expresan numricamente. Se clasifican en ordinales y en
nominales. Las ordinales admiten una ordenacin de menor a mayor aunque sus
resultados no son numricos. Las nominales no admiten una ordenacin de menor a
mayor.

Relacin entre grficos y variables


Grfico
Variable
Diagrama de barras.
Cualitativa y cuantitativa discreta.
Diagrama de sectores. Cualitativa.
Histograma.
Cuantitativa continua.
Pictograma.
Cualitativa y cuantitativa.
Polgono de frecuencia. Cuantitativa continua.
Pero el tipo de grfico no depende nicamente de la variable utilizada, tambin del objetivo
buscado en la representacin y de la escala utilizada en la tabulacin. Para la mayora de los
datos que se manejan en la investigacin de mercados internacionales, el objetivo de una
representacin grfica puede ser comparar valores, analizar el comportamiento de una
variable, estudiar la distribucin de un total entre las partes o clasificar determinados datos.
En el siguiente cuadro podemos ver la correspondencia entre estos valores:

Escala /
Objetivo
Nominal
Ordinal
De Razn

Tipos de grficos segn la escala usada y los objetivos perseguidos


Comparar
Analizar
Estudiar
Clasificar datos
valores
comportamiento
distribucin
Diagrama de
Diagrama de
Diagrama de
barras
Sectores
barras
Diagrama de
Diagrama de
Diagrama barras
Sectores
barras
Diagrama lnea o Diagrama lnea o rea
Histograma

Tipos de grficos segn la escala usada y los objetivos perseguidos


Escala /
Comparar
Analizar
Estudiar
Clasificar datos
Objetivo
valores
comportamiento
distribucin
rea
El tipo de variable, los objetivos de la representacin y la escala utilizada son tres factores a
tener en cuenta a la hora de decidir qu tipo de grfico utilizar para la representacin de los
datos.
6.2. Analisis de datos
En concreto vamos a conocer las siguientes herramientas:

Anlisis univariable y multivariable de datos.


Medidas de posicin y de dispersin.

Anlisis de la varianza.

Medidas de forma de la distribucin.

6.2.1. Analisis univariable de datos

Empecemos por conocer el anlisis univariable de datos. El anlisis univariable se realiza a


partir de la tabulacin simple que, como ya sabis, est referida a una sola caracterstica. El
anlisis univariable consiste en obtener, del conjunto de respuestas dadas a una pregunta
reflejadas en una tabla simple, las siguientes medidas estadsticas:

Proporciones (frecuencias relativas) o porcentajes ya calculados en las propias


tablas.
Medidas que se puedan tomar como caractersticas y representativas del grupo,
denominadas medidas de tendencia central o de posicin. Estas medidas son la
moda, la mediana y la media aritmtica.
Medidas de la variabilidad de las respuestas, denominadas medidas de dispersin,
como la varianza y la desviacin tpica.

Para la obtencin de estas medidas estadsticas (que estudiars en profundidad en los


siguientes apartados) se debe tener en cuenta el tipo de escala utilizada en la elaboracin de la
pregunta (nominal, ordinal, cardinal, de intervalo o de razn).

Las escalas nominales slo admiten la moda, las escalas ordinales admiten la moda y
la mediana.
las escalas de intervalo admiten la moda, la mediana y la media aritmtica y las de
razn, todas las medidas estadsticas y matemticas.
Todas las escalas admiten el clculo de porcentajes.

6.2.2. Analisis multivariable de datos

Tambin podemos utilizar como herramienta para el anlisis de la informacin el anlisis


multivariable. Este anlisis permite analizar de forma simultnea dos o ms variables
observadas, es decir, permite tener una visin de conjunto de los fenmenos y estudiar las

posibles interacciones que puedan existir entre los diversos factores. Las tres razones por las
que se aplica el anlisis multivariable en la investigacin comercial son:

1. Permite analizar simultneamente toda la informacin relativa a un determinado


fenmeno.
2. Permite analizar un gran nmero de encuestas.
3. Por su capacidad para hacer comprensible para la mente humana grandes cantidades
de datos que de otra manera seran difciles de manejar, aceptando eso si una mnima
prdida de informacin y proporcionando en muchos casos una representacin grfica
del fenmeno.
Podemos distinguir tres grandes bloques dentro del anlisis multivariable: los mtodos
descriptivos, explicativos y estructurales. Esta clasificacin se hace a partir de la
diferenciacin de las variables independientes (explican el fenmeno estudiado) y de las
dependientes (o a explicar):

Los mtodos descriptivos (o de interdependencia): en estos mtodos no se va a


distinguir entre variables dependientes y variables independientes. Esto quiere decir
que todas las variables estn relacionadas unas con otras, es decir, estn
interrelacionadas. En definitiva, los mtodos descriptivos tratan de dar significado a un
conjunto de variables o bien tratan de agrupar las cosas. Dentro de los mtodos
descriptivos se pueden distinguir los siguientes grupos de tcnicas:
o Mtodos de clasificacin, los cuales permiten agrupar individuos, empresas,
etc. a partir de un grupo de variables de partida. En concreto, a este grupo de
mtodos pertenece el anlisis cluster.
o

Otro bloque de mtodos descriptivos seran las tcnicas que permiten resumir
informacin. Estos seran el anlisis factorial o de componentes principales.

Mtodos explicativos (o de dependencia): son aquellos que explican unas variables


en funcin de otras, es decir, hay variables dependientes o a explicar y variables
independientes o explicativas. Por ejemplo, explicar las ventas (variable dependiente)
en funcin de numerosas variables independientes (nmero de vendedores, inversin
en publicidad, promocin, renta de los consumidores, etc.). En este grupo de anlisis
multivariable de la informacin se encuentran los mtodos de segmentacin y el
anlisis discriminante.

Mtodos estructurales: en este caso el objetivo no es slo analizar cmo las variables
independientes afectan a las dependientes, sino tambin cmo estn relacionadas las
variables de los dos grupos entre s.

6.2.2.1. Analisis multivariable de datos parte II.

Conforme ms profundizamos en el anlisis multivariable, encontraremos mayor complejidad


en las herramientas. Pero eso no quiere decir que no est a nuestro alcance su conocimiento y
manejo. Continuaremos por tanto con el anlisis multivariable y veremos cunto partido se le
puede sacar en el anlisis de la informacin obtenida. Dentro de los mtodos explicativos o
de dependencia, podemos encontrar dos grandes subgrupos dependiendo de si la variable
dependiente es cuantitativa o cualitativa.
Si la variable es cuantitativa, se pueden aplicar algunas de las siguientes tcnicas:

Anlisis de la regresin. Se usa a partir de analizar la relacin entre una variable


dependiente y una o varias variables independientes. Por ejemplo, se usar cuando
intentamos predecir el gasto anual de una empresa en consumibles a partir de su nivel
de compra de materiales, consumo de luz, ubicacin geogrfica, tiempo de
constitucin como empresa, etc.
Anlisis de la varianza. Si la muestra total se encuentra dividida en varios grupos
basados en variables independientes cualitativas y la dependiente es cuantitativa. Por
ejemplo, si queremos saber si hay diferencias en el nivel de colesterol dependiendo del
sexo de la persona, y si afecta tambin el tipo de ocupacin de esta persona.

Si la variable es cualitativa, se puede aplicar la tcnica del anlisis discriminante.

El anlisis discriminante tiene como objetivo explicar la pertenencia de individuos u


objetos a grupos preestablecidos. En este anlisis, la variable dependiente es la
pertenencia a grupos de elementos (consumidores, empresas, individuos, etc.). La
variable dependiente tiene dos categoras: cuando el elemento si pertenece al grupo y
cuando no pertenece. En cuanto a las variables independientes, son un conjunto de
variables relevantes para el estudio que se est realizando y sobre las cuales se poseen
observaciones para cada elemento de la muestra. Un ejemplo de este anlisis sera
determinar los ratios financieros que mejor permiten discriminar entre empresas
rentables y poco rentables.

Por otro lado tambin merece atencin observar los mtodos descriptivos o de
interdependencia. Estos mtodos son fcilmente aplicables y poco costosos. Miden
asociaciones o interrelaciones, pero no establecen relaciones de causalidad, que, en todo caso,
han de ser formuladas por analistas experimentados.

En este grupo, destacamos el anlisis factorial o anlisis de componentes


principales. Se utilizan ambos para analizar interrelaciones entre un nmero elevado
de variables cuantitativas explicando dichas interrelaciones en trminos de un nmero
menor de variables denominadas factores (si son inobservables) o componentes
principales (si son observables). Por ejemplo, si queremos conocer el estado financiero
de una empresa, podemos hacerlo a partir del conocimiento de determinados ratios
financieros, a partir de los cuales se construiran varios ndices numricos que definan
su situacin.

Para finalizar el estudio del anlisis multivariable, podemos organizar cmo llevarlo a cabo.
Se pueden establecer cinco etapas:

1. Objetivos del anlisis. Se define el problema y se especifican los objetivos y tcnicas


multivariantes que se utilizarn. Se establecern las relaciones de dependencia o
independencia que se van a investigar as como las variables que se deben observar.
2. Diseo del anlisis. En este caso se debe decidir el tamao de la muestra y sus
caractersticas.
3. Hiptesis del anlisis. A partir de la tcnica multivariante a utilizar, se decide la
hiptesis principal con la que se trabajarn en el curso del anlisis.
4. Realizacin del anlisis y ajuste de datos. Se deben observar posibles desviaciones y
su influencia sobre los resultados, as como las correcciones oportunas.
5. Interpretacin de los resultados. Se establece la validez de los resultados obtenidos,
analizando si se pueden extrapolar estos resultados a la poblacin de la que procede la
muestra.

6.2.3. Medidas de posicin central: La media aritmtica. La media aritmtica


ponderada. (Practica)

Las medidas de posicin central describen cmo todos los valores de los datos se
agrupan en torno a un valor central. Cuando hablamos de "promedio", "valor medio", o del
valor ms comn o frecuente, nos referimos de manera informal a la media, la mediana y la
moda: tres medidas de posicin central.
La media aritmtica, generalmente conocida como la media, es la medida ms comn de la
posicin central. En ella todos los valores desempean el mismo papel, sirviendo como
"punto de equilibrio" del conjunto de datos. Nos da una idea en torno a qu valor se
encuentran concentrados los valores de una variable estadstica, aunque en ocasiones no
resulte un valor demasiado representativo.
Se calcula sumando todos los valores del conjunto de datos (x1,x2,x3xn) y dividiendo el
resultado por el nmero de valores considerados (N). La ecuacin de la media se escribira:

Siendo:
igual a la media aritmtica. N igual al nmero de valores o tamao de la muestra. igual
al i-simo valor de la variable Xi igual al sumatorio de todos los valores. Si el valor de la
variable x. xi se repite veces, aparece en la expresin de la media aritmtica de la forma:

, que ser la expresin que consideraremos definitiva de la media aritmtica.

En ocasiones no todos los valores de la variable tienen el mismo peso. En este


caso aumentamos el valor de la variable tantas veces como consideremos su
peso. Por tanto podemos definir la media aritmtica ponderada como aquella
media que se utiliza cuando a cada valor de la variable xi se le otorga una
ponderacin wi o peso distinto de la frecuencia o repeticin. Para poder calcularla
se tendr que tener en cuenta las ponderaciones de cada uno de los valores que
tenga la variable. Se suele representar como:

6.2.4. Medias de posicion cental. La Mediana (practica)

La mediana, como medida de posicin central, resulta de gran utilidad cuando


existan valores anormalmente bajos o elevados (mucha dispersin). La mediana
es menos sensible que la media aritmtica a estos valores extremos porque en

su determinacin no intervienen todos los valores de la variable sino los que


ocupan los valores centrales.
6.2.5. Medidas de posicion central: La Moda

La moda (Mo) es el valor del conjunto de datos que aparece con mayor frecuencia. Los
valores extremos no afectan a la moda. Con frecuencia, en un conjunto de datos no existe
moda, o bien, hay varias modas. Por ejemplo, si nos encontramos con los valores 1 6 0 6 13 2
7 4 0 2 6 6 8 6, primero deberamos colocarlos en orden ascendente 0 0 1 2 2 4 6 6 6 6 6 7 8
13. Una vez ordenados los valores, podemos comprobar que el valor 6 aparece cinco veces,
ms que ningn otro valor. La moda por tanto es 6.
En el caso en el que distintas variables (xi) tienen una frecuencia de repeticin determinada
(ni), el clculo de la moda ser muy sencillo: se localiza la mayor frecuencia absoluta y su
valor correspondiente ser la moda.
Si, por ejemplo, los datos con los valores con los que trabajamos son 17,2, 19,2, 24,1, 24,4,
43,7, 46,5, 49,2 52,3: en este caso los datos no tienen moda ya que ninguno de sus valores
aparece con mayor frecuencia. Cada uno aparece slo una vez.
6.2.6. Medidas de Posicion. Los centiles y cuartiles

Hasta ahora hemos visto que la mediana es el valor que hace que el 50 % de los datos sean
anteriores a ella y el otro 50 % posteriores. Generalizando esta idea, se establecen otros
parmetros llamados medidas de posicin, que clasifican a un individuo dentro de la
poblacin. Entre las ms usadas estn los centiles o percentiles, cuartiles y deciles.
Una vez ordenados los datos, los centiles o percentiles son los valores que dejan a su
izquierda un porcentaje determinado de la poblacin. Se representan por Ch o Ph, donde h
indica el porcentaje. Por ejemplo, el percentil uno (P1) es aquel punto de la distribucin que
deja por debajo la centsima parte o el 1% de los datos de la serie. Debemos tener en cuenta
que, por ejemplo, el percentil diez (P10) corresponde al primer decil y el percentil veinte (P20)
corresponde al segundo decil.
Los percentiles son muy tiles para mostrar la posicin de los individuos en los grupos.
Por ejemplo, si decimos que un individuo obtiene en una prueba un resultado correspondiente
al percentil P55, queremos decir que dicha persona es mejor que el 55% del total de
individuos de anlogas caractersticas. De esta forma, los percentiles prximos a 50 nos
mostrarn individuos medios, de caractersticas medias. Los percentiles prximos a 100 nos
mostrarn individuos de caractersticas altas y los percentiles prximos a 0 nos indicarn
individuos de caractersticas bajas.
La mediana (Me) se corresponde con el quinto decil, es decir, con el percentil
50 (P50)

Si los percentiles dividen a la poblacin o muestra en cien partes iguales, los cuartiles la
dividen en cuatro partes iguales y los deciles en diez partes iguales.
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales. Hay tres cuartiles denominados usualmente Q1, Q2, Q3. El segundo

cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del
cual queda un cuarto (25 %) de todos los valores de la sucesin ordenada; el tercer cuartil, es
el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.
Los deciles dividen a la muestra en diez partes iguales, es decir, en 9 divisiones. Son
denominados habitualmente como D1,D2, D3,D9, correspondientes al 10 %,20 %,30 %,,90
%.
El clculo de los parmetros vistos hasta ahora es muy parecido. Si existiera un valor cuya
frecuencia absoluta acumulada coincidiera con el lugar que buscamos, habra que hacer el
promedio entre dicho valor y el siguiente. Para buscar el lugar que ocupa el parmetro de
posicin deseado, buscamos aqul cuya frecuencia absoluta acumulada sea igual o
inmediatamente superior a
tipo del parmetro:

, donde N es el total de datos y el valor de m y k depende del

para los cuartiles: m=1, 2, 3. Siempre k=4.


para los deciles: m=1, 2, 3,9. Siempre k=10.

para los percentiles: m=1, 2, 3,99. Siempre k=100.

6.2.7. Medidas de dispersion. El rango o el recorrido

6.2.8. Medidas de dispersion. La Varianza. La desviacion tipica o estandar

6.2.9. Analisis de la varianza

Podramos saber a travs de una frmula estadstica si la variacin en la demanda de un


artculo viene o no determinada significativamente por la variacin del precio? Efectivamente
podemos, para ello vamos a estudiar el anlisis de la varianza (conocido tambin como
ANOVA).
El anlisis de la varianza se utiliza para verificar si hay diferencias estadsticamente
significativas entre medias cuando estudiamos ms de dos grupos o muestras. En la
pregunta que planteamos al principio, tenemos un nico factor influyente que es el precio.
Pero nos podemos encontrar casos de anlisis de varianza mucho ms complejos en los que se
estudien dos o ms factores: por ejemplo, si queremos saber si el precio de un producto y el
mercado donde se comercializa afectan a las ventas. En este caso los factores no controlados
seran dos: precio y mercado.
Lo ms particular del anlisis de la varianza es que acude a la comparacin de las varianzas.
La razn es que si las medias son iguales, la varianza total disminuye, pero si son muy
diferentes, aumenta. Aplicado al primer ejemplo, si la varianza entre grupos (aplicando los
distintos precios a los distintos mercados) aumenta, significar que el factor precio afecta
significativamente a las ventas.

Las distintas tcnicas de anlisis de varianza son muy complejas, por lo que proponemos
prestar atencin a la resolucin del siguiente ejercicio, basado en el anlisis de la varianza de
un solo factor.

6.2.10. Medidas de forma de distribucion. Asimetria y Kurtosis

Podremos establecer una distribucin de datos sin necesidad de tener que realizar su
representacin grfica? Como veremos en este apartado, es posible gracias a las medidas de
forma. Estas medidas de forma se pueden clasificar en dos grandes grupos como son las
medidas de asimetra y las medidas de kurtosis.

Las medidas de asimetra se dirigen a elaborar un indicador que nos permita establecer el
grado de simetra o asimetra que presenta la distribucin de los datos, sin necesidad de llevar
a cabo la representacin grfica de la distribucin.
Diremos que una distribucin es simtrica si existe el mismo nmero de valores a ambos
lados de dicho eje, equidistantes de la media aritmtica y tales que cada par de valores
equidistantes a la media tengan la misma frecuencia. En las distribuciones simtricas, media y
mediana coinciden. Si slo hay una moda, tambin coincide. En caso contrario, estas
distribuciones sern asimtricas, pudiendo definir la asimetra como la ausencia de simetra
en la distribucin. En el caso de la asimetra a la derecha, la mediana es menor que la media
aritmtica. En el caso de la asimetra a la izquierda, la mediana es mayor que la media
aritmtica.

Si una distribucin es simtrica, el eje de simetra de su representacin grfica


ser una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa
es la media aritmtica.

6.3. Analisis probabilistico

Hemos comenzado la unidad por el anlisis de la informacin desde el punto de vista


estadstico, calculando determinados parmetros que nos facilitan la comprensin de los
datos. Pero la estadstica pone a nuestra disposicin otra serie de herramientas muy tiles
cuando la cantidad de informacin que manejamos es superior a las posibilidades que tenemos
de su estudio o simplemente no tenemos posibilidad de acceder a toda la informacin
necesaria para hacer un estudio analtico. En ese caso podemos recurrir al anlisis
probabilstico y la definicin de hiptesis, que nos dan una aproximacin a la realidad. En
concreto vamos a estudiar en el presente apartado:

Estimaciones puntual y por intervalos.


Contraste de hiptesis, definiendo los distintos tipos de hiptesis.

Obtencin de la distribucin muestral.

Nivel de significacin y regin crtica.

6.3.1. Estimacion Puntual

Como ya sabemos, mediante el estudio de una muestra de una poblacin se quiere generalizar
las conclusiones del total de la misma. Mientras menor sea el error estndar de un estadstico
(cualquier funcin determinada a partir de los datos muestrales), ms cercanos sern unos de
otros de sus valores. Existen dos tipos de estimaciones para parmetros: puntuales y por
intervalo.
Una estimacin puntual es un nico valor estadstico y se usa para estimar un parmetro. El
estadstico usado se denomina estimador (es el estadstico que se aproxima al parmetro). El
estimador ms usado para la estimacin puntual es la media muestral ( )
Para estimar un parmetro de la poblacin con un estadstico, hemos de exigirle a ste ltimo
una serie de condiciones para aceptar la estimacin como buena, estos requisitos son:

El estadstico tiene que ser insesgado, es decir, la media de la distribucin muestral


del estadstico ha de coincidir con el parmetro poblacional.
Suficiencia, la muestra posee toda la informacin necesaria acerca del parmetro.

Consistencia. Dado un estadstico diremos que es consistente si al aumentar el tamao


de la muestra, el estadstico converge en probabilidad al parmetro. Dicho de otro
modo, cuando la muestra se hace muy grande la probabilidad de que el estimador est
muy cerca del parmetro es casi uno.

Eficiencia, de todos los estadsticos consistentes ser mejor aquel que converja ms
rpidamente al parmetro. Esto los sabremos por la varianza, a menor varianza, menor
dispersin.

Si a partir de las observaciones de una muestra, se calcula un solo valor como


estimacin de un parmetro de la poblacin desconocido, el procedimiento se
denomina estimacin puntual.

6.3.2. Estimacion por intervalos

Ahora vamos a cambiar de planteamiento, y en lugar de efectuar la estimacin dndole un


valor concreto como hasta ahora, vamos a verlo desde la perspectiva de la estimacin por
intervalos, cuyo planteamiento es otro. Lo que haremos es dar un intervalo donde
afirmaremos o pronosticaremos que en su interior se encontrar el parmetro a estimar, con
una probabilidad de acertar previamente fijada y que trataremos que sea la mayor posible, es
decir, prxima a 1. Al valor de esta probabilidad la representaremos por 1- , y la llamaremos
nivel de confianza. A mayor valor de 1- , ms probabilidad de acierto en nuestra estimacin,
por tanto eso implica que tendr que ser pequeo, prximo a 0.
Recordemos que 1- representa siempre una probabilidad por lo que ser un valor entre 0 y 1,
si bien en la mayora de los enunciados de los problemas suele ser enunciado en trminos de
tanto por cierto.
Si se dice que el nivel de confianza es del 90 %, significa que 1- vale 0,9 y por tanto vale
0,1.
Es evidente que, a igual nivel de confianza, cuanto mayor tamao tenga la muestra, el
intervalo de confianza se reducir, puesto que el valor obtenido en la muestra se acercar
ms al valor real de la poblacin y por tanto el margen de error cometido se har ms
pequeo. Es deseable por tanto que un intervalo de confianza tenga la menor amplitud
posible.
Si el tamao de la muestra permanece constante y variamos 1- , el tamao del intervalo se
har ms grande cuanto ms aumente 1- , es decir que el margen de error se har ms grande
cuanto ms precisin exijamos.