Está en la página 1de 18

ANLISIS DE LA INFORMACIN PROCEDENTE DE ESTUDIOS CUANTITATIVOS

INDICE
1.INTRODUCCIN ...........................................................................2 2. CONCEPTOS PREVIOS ..............................................................3 2.2.1. Escalas de medida.....................................................................3 2.2.2. E ! de medida" #alide$ % &ia'ilidad....................................( 2.2.3. Si)*i&icaci+* es,ad-s,ica % .!de de . /e'a...........................0 3. ANLISIS DE DATOS AUSENTES....................................................13 1. ANLISIS DE CASOS AT2PICOS......................................................11 3. PRO4RAMAS DE ORDENADOR......................................................13 (. T5CNICAS DE ANLISIS DE LA INFORMACION.......................1(

1.

INTRODUCCIN

El anlisis de la informacin se encuentra entre las ltimas etapas del proceso metodolgico de una investigacin de mercados. Concretamente, se realiza despus llevar a cabo el trabajo de campo y sus resultados sern uno de los puntos fundamentales del informe final ue se entrega a un cliente. En un estudio cuantitativo, el anlisis se apoyar en tcnicas estad!sticas ue permitan cubrir los objetivos planteados en la investigacin. "espus de revisar y depurar la informacin obtenida de una encuesta, panel o fuentes secundarias, de identificar y codificar las variables y crear el banco de datos, el analista debe seleccionar las tcnicas de anlisis adecuadas para analizar la informacin. #a acepcin vulgar del trmino estad!stica $ace referencia a una determinada informacin numrica. %in embargo, el anlisis estad!stico no es slo un nmero ue sirve para describir un fenmeno o colectivo sino ue tambin es un proceso por medio del cual se recoge informacin en forma de datos, se organiza y se analiza. &ediante el anlisis estad!stico resumimos y organizamos los datos obtenidos para entenderlos y describirlos fcilmente. En este caso, trabajamos con estad!stica descriptiva. Cuando, adems, obtenemos datos de una muestra y tratamos de obtener conclusiones para generalizarlas a la poblacin estamos ante la estad!stica inferencial. 'or tanto, el objetivo del proceso estad!stico puede residir en describir los datos y su significado o en inferir cmo es una poblacin desde una muestra. El lenguaje ue utiliza la estad!stica es matemtico. 'or consiguiente, la informacin se e(presa de forma numrica. #as variables e(presan la caracter!stica ue se trata de medir y adoptarn tantos valores como sujetos o unidades midamos. )o obstante, no todo lo ue midamos tiene concreciones de naturaleza cuantitativa. 'or eso, la primera distincin ue debemos $acer al analizar la informacin es identificar si la escala de las variables es mtrica *p.j. edad o renta+ o no mtrica *se(o o nivel de estudios+. En este cap!tulo, vamos a introducir los conceptos previos relacionados con el anlisis de la informacin, es decir, escalas de medida, validez y fiabilidad y prueba de $iptesis. 'osteriormente, se e(plicarn dos puntos relacionados con el tratamiento previo de los datos, en concreto, ue se debe $acer con los casos ausentes y los at!picos. El uinto apartado se dedica a los programas de ordenador ms utilizados. 'or ltimo, en el se(to apartado se enumeran las distintas tcnicas de anlisis ue se van a tratar en cap!tulos posteriores para terminar con unas consideraciones in$erentes a la aplicacin de cual uier tcnica de anlisis de informacin.

2. CONCEPTOS PREVIOS Con el fin de aplicar correctamente cual uier tcnica se deben tener claros una serie de conceptos referidos a las escalas primarias de medida, a la validez y fiabilidad en las medidas y a los resultados estad!sticos de los test de significacin y potencia. 2.2.1. Escalas de medida

El dato debe ser recogido mediante algn tipo de medicin. 'or medicin puede entenderse la asignacin de nmeros a los objetos o fenmenos atendiendo a reglas establecidas de antemano *%arabia, -../+. )o medimos el objeto sino algunas de sus caracter!sticas. "e manera ue no medimos a los consumidores sino slo sus percepciones, actitudes, preferencias u otras caracter!sticas relevantes. En investigacin de mercados, los nmeros se asignan casi siempre por dos razones0 permiten el anlisis estad!stico de los datos resultantes y facilitan la comunicacin de las reglas de medicin y los resultados *&al$otra, -..1+. El aspecto ms importante de la medicin es la especificacin de las reglas para la asignacin de nmeros a las caracter!sticas. El proceso de asignacin debe ser isomrfico, es decir, debe $aber correspondencia de uno a uno entre los nmeros y las caracter!sticas a medir. %lo as! los nmeros pueden asociarse a las caracter!sticas del objeto medido y viceversa. 2dems, las reglas para la asignacin de nmeros deben estandarizarse de manera uniforme no cambiando con los objetos ni con el tiempo. #as escalas pueden considerarse una e(tensin de la medicin, de forma ue la escala es un proceso por el cual se localizan los objetos medidos. 3ay dos tipos principales de escalas0 las primarias o bsicas y las secundarias. 4na escala primaria es una valoracin numrica directa de la cualidad objeto de estudio sin ue sea necesario el concurso de tcnicas espec!ficas. %i para medir dic$a cualidad es necesario acudir a la utilizacin de estas tcnicas, se dice ue la escala es secundaria. El cuadro - muestra las escalas primarias y algunos de sus posibles usos. #as comprensin de las caracter!sticas de las escalas primarias es esencial para definir las tcnicas multivariantes. 5especto a las secundarias, es necesario recordar ue al ser la mayor!a de las variables de &ar6eting no directamente observables *p.j. la calidad de servicio+ o al no podrseles otorgar una valoracin directa *p.j. imagen de marca+, se debe crear un instrumento de medida ue permita cuantificar la variable. 2s! tenemos la escala aditiva de #i6ert, el diferencial semntico o la escala de 7$urstone, por slo citar los ejemplos ms conocidos ue ya vimos en 8nvestigacin de &ercados 8.

CUADRO 1: ESCALAS PRIMARIAS DE MEDICION


ESCALA CARACTERISTICAS Nominal 8dentifica los sujetos por categor!as ue son mutuamente e(cluyentes. #os nmeros no tienen valor matemtico. Ordinal Caracter!sticas de la escala nominal ; 8dentifica la relacin <&ayor ue = &enor ue>. #as caracter!sticas numricas no dan informacin de la distancia entre dos valores numricamente consecutivos. Caracter!sticas de la escala ordinal ; 8dentifica la relacin <cuanto mayor ue = cuanto menor ue>. 7iene origen arbitrario. 8dentifica una distancia constante entre las categor!as. Caracter!sticas de la escala de intervalo ; 4n origen absoluto. %e puede realizar una comparacin proporcional entre categor!as. POSIBLES USOS Codificar respuestas en cuestionarios. :acilitar la tabulacin. :acilitar el anlisis estad!stico en fenmenos cualitativos. Estad!grafos0 moda y coeficiente de contingencia. Clasificar marcas atendiendo a un atributo. "eterminar las preferencias en el uso=consumo de productos. 2nlisis no paramtricos y de asociacin ordinal. Estad!grafos0 mediana, percentiles. Creacin de escalas para medicin de actitudes. 2nlisis paramtricos y correlaciones Estad!grados0 media, varianza, asimetr!a y curtosis.

Intervalo

Razn

7odos los estad!sticos posibles.

:uente0 2daptado de %arabia *-../+. #a escala nominal sirve para identificar la pertenencia de un elemento a un grupo o a otro. %e dice ue la informacin sobre un determinado carcter viene dada en una escala nominal cuando sta se puede clasificar en categor!as no numricas mutuamente e(cluyentes, entre las cuales no se puede establecer ningn tipo de orden, no pudindose fijar, por tanto, ningn origen ue sirva de referencia. )os sirve para definir la e(istencia de aspectos o caracter!sticas de los individuos como puede ser el se(o *$ombre, mujer+, el medio de transporte utilizado para ir al trabajo *autobs, metro, coc$e+, el estado civil *soltero, casado, viudo, separado+, etc. En investigacin de &ercados se utilizan para identificar entrevistados, marcas, atributos, canales, etc. Cuando se emplean para propsitos de clasificacin, los nmeros de la escala sirven como eti uetas de clases o categor!as e(cluyentes. )ormalmente, se aplican valores enteros a cada alternativa de la variable y sirven de base para estad!sticas tales como el nmero y porcentaje de personas ue pertenecen a cada categor!a *tabulacin simple+. )o tiene sentido calcular el promedio de se(o de los entrevistados ni de un e uipo de ftbol, por eso la nica medida de tendencia central ue se puede calcular con este tipo de escala es la moda. #as variables ordinales e(presan la e(istencia de una ordenacin de algn tipo de categor!as. En la escala ordinal, los nmeros asignados a la variable sirven para establecer un determinado orden entre personas u objetos. Ejemplos t!picos ser!a la escala de 5eic$ter para medir el orden de la intensidad y la fuerza de los movimientos s!smicos, la clasificacin de ingresos entre altos, medios y bajos, las clases sociales o el nivel de estudios. #a escala ordinal tambin puede servirnos para e(presar el orden de preferencias sobre un

conjunto de productos o servicios y, en general, siempre ue tengamos ue ordenar personas, objetos o atributos. #a escala ordinal contiene ms informacin ue la nominal, ya ue mientras ue esta ltima slo podemos decir si dos elementos son iguales o diferentes respecto a un atributo o caracter!stica, en las escala ordinal podemos conocer uien va primero y uien va despus, uien posee ms del atributo y uien menos. #as escalas ordinales pueden transformarse de cual uier manera siempre y cuando se conserve el orden bsico de los objetos, es decir, permiten cual uier transformacin positiva monotnica de la escala. 'or eso, admiten el uso de estad!sticos como los cuartiles y la mediana como medida de tendencia central. 2 efectos de estad!stica se pueden usar las correlaciones de clasificacin. 'ero si con la escala ordinal podemos saber uien es mayor y uien es menor, no podemos conocer su diferencia. "e $ec$o, en una ordenacin la diferencia entre el primero y el segundo, no sabemos si es mayor ue la diferencia entre el octavo y el noveno. Este aspecto se resuelve con el siguiente tipo de escala. #a escala de intervalo es una escala verdaderamente cuantitativa y asigna nmeros ue permiten establecer la diferencia entre los distintos objetos, es decir, ue la distancia entre las categor!as es la misma. )o es una escala con un punto cero absoluto u origen natural sino ue ste $a sido establecido artificialmente. #as unidades de medida en una escala de intervalos son iguales y permiten, como se $a se@alado, medir la diferencia entre dos personas u objetos, es decir, cuantas unidades una persona u objeto es mayor o menor ue el otro. El ejemplo de este tipo de escalas son las de temperatura, las calificaciones de los e(menes, el coeficiente de inteligencia utilizado en psicolog!a, la puntuacin en una prueba de gimnasia, etc. Con la escala de intervalo se puede decir cuantas unidades es mayor o menor, pero no cuantas veces. 2s!, si la temperatura es de uince grados cent!grados en &adrid y de treinta en Caracas, ser!a absurdo decir ue $ace el doble de calor en Caracas o la mitad de fr!o en &adrid. %i es correcto decir ue la temperatura $a sido uince grados ms elevada. #as tcnicas estad!sticas ue pueden utilizarse incluyen todas a uellas ue pueden aplicarse a escalas nominales y ordinales, adems de la media aritmtica, la desviacin t!pica, las correlaciones producto momento y otras estad!sticas ue se utilizan de forma regular en la 8nvestigacin de &ercados. %in embargo, ciertas estad!sticas especializadas como la media geomtrica o la media armnica no son significativas en los datos de la escala de intervalos. 2 efectos de inferencia estad!stica se pueden emplear el anlisis de correlaciones, de regresin, factorial, etc. Con la escala de razn o de proporcin es posible $ablar del nmero de veces ue un objeto o persona es menor ue otra. En esta clase de escala si e(iste el cero absoluto u origen natural y ejemplos de ella son medidas mtricas, de peso, capacidad, precios, renta, etc. %i un producto cuesta -A euros y otro 2A, podemos decir ue el segundo cuesta el doble ue el primero. #as escalas de intervalo y de razn $an sido el objeto fundamental de la estad!stica. %in embargo, las escalas ordinal y nominal, y especialmente esta ltima, $an tenido un gran desarrollo en los ltimos a@os. Evidentemente la mayor cantidad de informacin la tenemos en la escala de razn, para disminuir segn pasamos a la de intervalo, ordinal y nominal. "e $ec$o, siempre es posible transformar una escala superior en otra inferior con prdida de informacin, pero nunca al contrario-.

E(iste una e(cepcin. Es el caso del 2nlisis &ultidimensional no &trico, desarrollado por Brus6all, ue transforma una escala ordinal en una de intervalo.

Los cuatro tipos de escala de medida podemos resumirlos como sigue: supongamos que tenemos dos objetos I y J, cuyos valores sobre la variable X son, respectivamente, X i y Xj. Los tipos de escala de medida seran los siguientes: escala nominal: slo podemos saber sobre I y J si X i = Xj si Xi = Xj. escala ordinal: adem!s de lo anterior, podemos conocer si X i " Xj si Xi # Xj. escala de intervalo: adem!s de lo anterior, podemos saber que si I es mayor que J, I es X i $ Xj m!s grande que J. escala de ra%n: adem!s de lo anterior podemos saber que si I es mayor que J, I es X i Xj veces superior a J.

#a importancia de la distincin entre estos cuatro tipos de escalas proviene de su influencia en la eleccin de los mtodos de estad!stica ms adecuados, en cada caso, para el anlisis de datos, como veremos en el apartado dedicado a la clasificacin de tcnicas multivariantes. 2.2.2. Err r de medida: !alide" # $ia%ilidad

Cuando se aplican las tcnicas de anlisis de informacin se debe prestar atencin al error de medida, o el grado en ue los valores observados no son representativos de los valores reales. #as fuentes de este error son numerosas, desde la entrada de datos $asta su tabulacin. %e debe asumir ue todas las variables utilizadas en cual uier anlisis de informacin tienen algn grado de error de medida, ue a@ade un <ruido> a las variables medidas u observadas. El objetivo del investigador es reducir dic$o error ue tiene dos componentes0 el error sistemtico o sesgo permanente en todas las mediciones y el aleatorio o sesgo transitorio no necesariamente idntico en todas las mediciones. El error aleatorio lo constituyen todos a uellos factores ue no se pueden controlar y ue confunden la medicin de un fenmeno. Este error no es constante y afecta a las mediciones de forma variable cada vez ue se $acen. '.j. el veloc!metro de un coc$e puede tener un error variable de $asta un ;=D -AE. Esto significa ue cuando la aguja mar ue -AA 6m=$, el coc$e est circulando a cual uier velocidad comprendida entre .A y --A 6m=$. En investigacin comercial, los errores aleatorios proceden de las personas ue responden o preguntan, o de las situaciones ue rodean la recogida de la informacin *2bascal y Frande, -..C+. El error sistemtico lo constituyen a uellas fuentes ue afectan a las mediciones de forma constante y suponen factores estables ue afectan de la misma forma e intensidad cada vez ue se $acen las mediciones. '.j. si el error del veloc!metro pudiera conocerse en sentido y cantidad, imaginemos ue en nuestro coc$e fuera de -A 6m=$ fijo por e(ceso de velocidad, nos bastar!a con restar -A 6m=$ a lo ue marca la aguja. 2lgunas de las fuentes de error aleatorio y sistemtico ms frecuentes son las ue aparecen en el cuadro 2. 'ara reducir el error se puede acudir a dos medidas0 fiabilidad y validez. #a fiabilidad es el grado en ue la medida de una variable est libre de error aleatorio y, por tanto, proporciona resultados consistentes *%antesmases, -..1+. #a validez se refiere al grado en ue una medida representa lo ue se supone ue debe representar, es decir, cuando se

analiza la validez se pretende conocer si lo ue se est midiendo representa lo ue verdaderamente el investigador uiere medir *&i uel y otros, -..1+. 4na medida es vlida cuando est libre de error sistemtico y aleatorio. 2s! pues, la validez se refiere a la coincidencia entre dos medidas de un fenmeno mediante procedimientos diferentes y la fiabilidad a la coincidencia en la medida del fenmeno con procedimientos iguales. CUADRO 2: &UENTES DE ERROR EN INVESTI'ACION COMERCIAL &UENTES DE ERROR ALEATORIO &UENTES DE ERROR SISTEMATICO -. Errores de codificacin -. 8tems incluidos en la escala 2. Caracter!sticas de las personas, como 2. 2usencia de claridad de la escala inteligencia, cultura, salud, estado emocional ,. :actores coyunturales como ruido, ,. 2usencia de claridad en las instrucciones distraccin, presencia de otras personas, para cumplimentar el cuestionario cansancio 9. Caracter!sticas de los encuestadores como 9. Errores f!sico, como mala calidad de simpat!a, empat!a o utilizacin de impresin de la escala, e(ceso de !tems, entrevistadores muy dispares dise@o poco claro ?. Gnfasis de palabras de los encuestadores o entrevistadores :uente0 2bascal y Frande *-..C+, pg.,,1. 'or tanto, si ueremos reducir el error debemos realizar una serie de pruebas ue determinen la fiabilidad y validez de lo ue estamos estudiando, es decir, el error ue estamos cometiendo. 7odo lo e(puesto anteriormente nos lleva a la siguiente conclusin0 una escala vlida siempre ser fiable, pero una ue una sea escala fiable no implica su validez por ue no se $a medido el error sistemtico. &or ejemplo, no 'ay valide% ni (iabilidad cuando para ver la actitud de los consumidores 'acia las marcas de distribuidor en general, no se tiene en cuenta el componente a(ectivo y se 'ace la entrevista a la salida del centro de compra. )e comete un error sistem!tico porque no se incluyen una serie de items en la escala que indican la a(ectividad 'acia estas marcas por parte del encuestado y se comete error aleatorio porque e*isten determinados (actores coyunturales que a(ectan a la respuesta del consumidor, como el cansancio, la presencia de otras personas, la distraccin. Imaginemos que se evitara el error aleatorio, teniendo en cuenta los (actores coyunturales antes mencionados y se utili%aran los entrevistadores adecuados, pero no se siguiera teniendo en cuenta el componente a(ectivo. +n este caso, se tendra controlada la (iabilidad, pero a,n no se 'abra resuelto el problema de valide%.

2.2.(.

Si)*i$icaci+* es,ad-s,ica # . der de .r/e%a

#a mayor!a de las tcnicas bivariantes y multivariantes ue vamos a estudiar posteriormente se basa en la inferencia estad!stica. 4na $iptesis estad!stica es en una afirmacin o conjetura respecto a una caracter!stica de inters *p.j. la edad media de la poblacin es de 2? a@os o las medias son iguales para $ombres o para mujeres+. Contrastar una $iptesis sirve para decidir si la afirmacin se encuentra apoyada por la evidencia,

basndose en los resultados de la muestra. #os errores o aciertos ue podemos cometer al $acer un contraste son los siguientes *Cuadro ,+0

CUADRO (: DECISIONES EN EL CONTRASTE DE 0IPTESIS Realidad Decisi+* Rec1a"ar 02 Cier,a Error 7ipo 8 'oder de prueba -D &alsa )ivel de confianza -D Error tipo 88

N rec1a"ar 02

El error de tipo 8 es la probabilidad de rec$azar la $iptesis nula siendo cierta o, e(presado en trminos sencillos, la posibilidad de ue la prueba muestre significacin estad!stica cuando en realidad no est presente. El error de tipo 88 es la probabilidad de fallar al rec$azar la $iptesis nula cuando es realmente falsa. %u contrario es la potencia estad!stica o probabilidad de rec$azar correctamente la $iptesis nula. )ormalmente se fija el error tipo 8 o nivel de significacin * +, pero no se $ace nada respecto al error de tipo 88 * +. 2un ue la especificacin de establece el nivel de significacin estad!stica aceptable, es el nivel de potencia el ue dicta la probabilidad de <(ito> en la bs ueda de las diferencias si es ue realmente e(isten. Entonces Hpor u no se plantean niveles aceptables tanto de como de I. 'recisamente por la relacin inversa entre ambos, de tal forma ue cuando se reduce aumenta . En realidad, la potencia no es slo funcin del nivel de significacin sino tambin del denominado efecto tama@o *estimacin del grado en ue el fenmeno estudiado e(iste en la poblacin2+ y del tama@o de la muestra, puesto ue al aumentar ste se puede producir <demasiada> potencia para un dado, es decir, se observa ue efectos cada vez ms y ms pe ue@os sern significativos $asta ue, para muestras muy grandes casi cual uier efecto es significativo *3air y otros, -../+. #as relaciones entre , tama@o muestral, efecto tama@o y potencia son bastante complicadas. %in embargo, algunos investigadores $an proporcionado pautas para encontrar ciertos puntos de partida. Co$en *-..1+, sugiere ue los estudios deben dise@arse para conseguir niveles de significaciJon de al menos el ?E con niveles de potencia del /AE, considerando el efecto tama@o y el tama@o muestral como se puede ver en el cuadro 9 y en la figura -.

El efecto tama@o es la magnitud real del efecto ue nos interesa sobre la poblacin y se mide en trminos estandarizados para facilitar la comparacin. 2s!, cuando probamos diferencias de medias, un efecto tama@o de A.? indica ue la diferencia respecto a la media es la mitad de la desviacin t!pica. 'ara las correlaciones el efecto tama@o se basa en la correlacin efectiva entre las variables. , Citado en 3air y otros *-../+.

-A

CUADRO 3: NIVELES DE POTENCIA PARA LA COMPARACION DE DOS MEDIAS: Variaci *es de ,ama4 m/es,ral5 *i!el de si)*i$icaci+* # e$ec, ,ama4 62.27 E$ec, ,ama4 Pequeo (0.2) Moderado (0.5) 62.21 E$ec, ,ama4 Pequeo (0.2) Moderado (0.5)

7ama@o muestral 2A A.A.? A.,,/ A.A2? A.-99 9A A.-9, A.?./ A.A9? A.,9. CA A.-.2 A.11? A.AC1 A.?9. /A A.292 A.//2 A.A.2 A.1A. -AA A.2.A A..9A A.-2A A./2, -?A A.9-A...A A.2AA..?. 2AA A.?-C A.../ A.2/9 A...2 :uente0 %olo 'oKer 2nalysis, L&"' %oftKare, 8nc. en 3air y otros *-../+

En la actualidad e(isten programas de ordenador personal ue asisten en los estudios de planificacin para conseguir la potencia deseada o calcular la potencia con resultados reales como el %M#M 'oKer 2nalysis de L&"' o el programa E(ample, desarrollado por unos investigadores de la 4niversidad de Columbia.

:uente0 3air y otros *-../+ 2parte de refle(ionar sobre las decisiones a tomar al realizar una prueba de $iptesis, cual uier investigador de seguir una serie de etapas cuando lleva a cabo esta prueba. En concreto, estas etapas son0 -. Establecer la $iptesis nula y la $iptesis alternativa 2. Elegir la prueba estad!stica adecuada para el tipo de informacin ue tiene el

--

investigador 3. Especificar el nivel de significacin 4. Luscar el valor de la estad!stica de prueba en un conjunto de tablas para el dado. Estas tablas dan puntos sobre la distribucin muestral de la estad!stica en cuestin ue ocurren con diferentes probabilidades ?. Calcular la prueba estad!stica seleccionada con la informacin disponible C. %i el estad!stico calculado es mayor ue el terico, entonces se rec$azar la $iptesis nula por ue su valor $a llegado demasiado fuera de la distribucin muestral para ue la consideremos parte de sta alrededor de la $iptesis nula. %i es menor, entonces no se rec$azar. 2l comparar el estad!stico calculado con el terico, se trata de ver es si el valor calculado con los datos obtenidos de la muestra cae dentro de la llamada regin cr!tica o no. 2s! se denomina a la zona en la ue no se debe rec$azar la $iptesis nula segn la teor!a estad!stica basada en la distribucin de la prueba ue estamos realizando para un nivel de significacin y unos grados de libertad. En la prctica, ya no es necesario consultar las tablas estad!sticas de las distribuciones ue estamos utilizando para $acer la inferencia estad!stica por ue los programas de ordenador siempre nos indican el pDvalor, es decir, la probabilidad de rec$azar la $iptesis nula siendo cierta ue se obtiene para el valor del estad!stico ue se $a calculado en base a las observaciones ue tenemos. En este caso, se trata de un proceso inverso al ue seguimos cuando consultamos las tablas. En la figura 2 se presenta cmo es el proceso en ambos casos.
&I'URA 2 PROCESO DE IN&ERENCIA ESTAD8STICA CONSULTA DE TABLAS
Nivel de significacin Grados de libertad

-E 1 2 , 9

2E

,E

9E

79 (.:3

PRO'RAMA DE ORDENADOR
p-valor o significance

2.23
Grados de libertad

1 2

7.(;

-2

, 9

-,

En la figura se observa como en el primer caso, si obtenemos un valor para el estad!stico calculado de ?.,1 ir!amos a las tablas y, despus de ver ue para un grado de libertad y un nivel de significacin del ?E el estad!stico terico es de ,./9, es decir, rec$azar!amos la $iptesis nula. Con el programa de ordenador, obteniendo un valor para el estad!stico calculado de ?.,1, el pDvalor ser!a de A.A9. Como este valor es menor ue el ?E *nivel de significacin ue previamente $emos fijado+, rec$azamos la $iptesis nula.

3.

ANLISIS DE DATOS AUSENTES

#os datos ausentes pueden afectar en gran medida a los resultados de una investigacin. En una encuesta son los datos no contestados por los entrevistados, los ue no procede contestar por venir de una pregunta filtro anterior o los errores propios de codificacin. El investigador debe $acer una refle(in sobre estos casos ausentes por ue pueden mostrar si e(isten problemas de capacidad de comprensin de las escalas o de los conceptos por parte de las personas entrevistadas o si estas escalas no son apropiadas para recoger la informacin. 'or ejemplo, al preguntar sobre los ingresos, los encuestados tienden a no contestar si se utiliza una escala de razn o el grado de veracidad en su respuesta suele ser ms bajo ue si se utiliza una escala ordinal con intervalos de renta distintos. M si se realiza una encuesta de cremas faciales a mujeres y se pregunta la edad en abierto, las personas mayores tendern a no dar una respuesta. 2l aplicar las tcnicas de anlisis, se puede optar por eliminar los registros ue presentan datos ausentes. %in embargo, esta estrategia nicamente debe llevarse a cabo cuando la naturaleza de los datos es completamente aleatoria. 'or lo ue, antes de eliminar los casos incompletos, se debe proceder a su anlisisN en caso contrario, las conclusiones establecidas a partir de la muestra, formada por los casos completos, pueden no ser generalizables a la poblacin analizada. %i se opta por no eliminar los casos, es posible elegir entre diferentes subestrategias ue no son estrictamente e uivalentes *5ivera y #afuente, -../+0 %ustituir los datos ausentes por la media, la mediana o la moda *dependiendo de la escala+. %ustituir los casos ausentes por reemplazamiento <cold dec6>, acudiendo a una fuente e(terna o a investigaciones previas. 5ealizar una imputacin de datos ausentes mediante el mtodo de regresin, o realizar una imputacin mltiple, es decir, en funcin de ms de un criterio. #a primera estrategia mencionada, es decir, la eliminacin de variables, est guiada por criterios convencionales, ue definen el porcentaje de casos ausentes ue se considera admisible por variable. En esta l!nea, 3air y otros *-../+ consideran ue ms de un ,AE de datos ausentes en una variable, supone una evidencia suficiente para ue se plantee la eliminacin de la variable en cuestin. %i se opta por no eliminar casos, debe determinarse si los datos ausentes obedecen a un proceso aleatorio *&25+, completamente aleatorio *&C25+ o, por el contrario, e(iste un sesgo sistemtico. En el primer caso *&25+, los valores observados de O dependen de P pero no de O *por ejemplo, puede ser ue preguntando sobre la edad *O+, respondan ms

-9

$ombres ue mujeres *P+, por tanto, el se(o afecta a la respuesta sobre edad+. En el segundo caso *&C25+, la distribucin de los valores ausentes no depende de ninguna variable. E(isten diversas pruebas para evaluar el grado de aleatoriedad de los datos, como los contrastes de diferencias de medias y los contrastes de significacin individual y conjunta de las relaciones entre las variables dicotmicas, representativas de los datos ausentes variable a variable. #os primeros dos contrastes permiten detectar si el proceso es &25 y el ltimo si es &C25 *5ivera y #afuente, -../+9. %i el proceso es completamente aleatorio se podr!a optar por cual uier solucin. %in embargo, si en algunas variables el proceso no es aleatorio, se debe tener en cuenta ue la imputacin mediante regresin o medida de tendencia central puede sesgar los datos y por tanto, no se aconseja su utilizacin. 'or ello, el nico mtodo ue nos ueda es el de imputacin <Cold dec6>, o reemplazamiento por un valor fijo ue provenga de investigaciones previas o de fuentes e(ternas.

1.

ANLISIS DE CASOS AT2PICOS

&uc$as de las tcnicas ue se utilizan en anlisis de datos son muy sensibles a la participacin en la muestra de individuos u objetos muy diferentes al resto. %e trata de los casos at!picos *outliers+, ue pueden identificarse mediante distintos mtodos. El primer mtodo *univariante+ consiste en observar la distribucin de observaciones, siendo at!picos a uellos casos ue caen por encima o por debajo de determinados valores l!mites en la distribucin de la variable. %i se tipifican las variables el proceso resulta ms facil, ya ue para muestras de menos de /A observaciones se consideran outliers a uellas ue superan el 2.? y para muestras mayores el 9 *3air y otros, -../+. 2dems, tenemos los procedimientos bivariantes, como los grficos de dispersin o los de cajas y bigotes, e(puestos en el apartado dedicado a anlisis grficos. El ltimo procedimiento es multivariante y consiste en calcular la " de &a$alanovis *medida de la distancia en el espacio multidimensional de cada observacin al centro medio de las observaciones+. %i su significacin estad!stica supera el - por mil, el caso puede ser clasificado como at!pico. Esta medida de distancia slo est en %'%% como mtodo de inclusin por pasos en regresin y discriminante. 'or tanto, no podemos disponer de ella, a no ser ue acudamos a otros pa uetes estad!sticos como %2%. "espus de determinar ue e(isten casos at!picos, el analista debe decidir entonces u $acer con estos casos0 eliminarlos o retenerlos. %lo se debe eliminar un caso cuando afecta de forma significativa a los resultados de la tcnica, ya ue pueden representar a un segmento de la poblacin y si se elimina, se mejora la tcnica pero se limita la generalizacin de los datos de la muestra a la poblacin. 'uede ser ue como resultado de un procedimiento univariante de deteccin de at!picos, ninguna observacin parezca mostrar caracter!sticas de un at!pico ue debiera ser eliminado. Cada variable podr!a tener algunas observaciones e(tremas ue deber!an
9

En 3air y otros *-../+ se ilustra cmo se realizan estos dos contrastes.

-?

considerarse si se va a utilizar la variable en el anlisis, pero puede ser ue ninguna de las observaciones sean e(tremas sobre un nmero suficiente de variables. 2lgunas tcnicas, como el anlisis cluster, son muy sensibles a la participacin de at!picos en el anlisis, pero presentan medidas grficas *como el dendrograma+ ue permiten detectar estos casos y solucionar as! el problema ue se le presenta al investigador cuando no representan a ningn segmento de poblacin.

3. PRO4RAMAS DE ORDENADOR
El anlisis de la informacin se $a ido $aciendo cada vez ms sencillo en los procesos de clculo debido a la aparicin y mejora de programas de ordenador ue cada vez son ms intuitivos para el usuario. Es poco menos ue imposible discutir la aplicacin de las tcnicas estad!sticas sin una mencin al impacto de la informtica. En concreto, toda la estad!stica terica de las tcnicas multivariantes actuales se desarroll muc$o antes de la aparicin de los ordenadores, pero slo cuando la informtica permiti realizar clculos complejos lleg a conocerse la e(istencia de esas tcnicas fuera del c!rculo de los estad!sticos tericos. #os continuos avances en los ordenadores personales $an puesto a disposicin de cual uier investigador interesado el acceso a todos los recursos necesarios para resolver un problema multivariante de cual uier dimensin. El programa ue tiene mayor notoriedad es el %'%% *%tatistical 'ac6age for %ocial %ciences+, aun ue e(isten otros pa uetes como el %O%72L, el Larbro, el "yane o el %2%. El %'%% y el %2% son uiz los programas ms completos, pues presenta mdulos para casi todas las tcnicas multivariantes. El problema de estos programas puede ser su elevado precio para usuarios individuales u organizaciones pe ue@as. %in embargo, en el caso de organizaciones de mayor tama@o e(isten licencias institucionales ue permiten disponer de estos programas a un elevado nmero de usuarios. El "yane, elaborado por &iguel %antesmases, $a venido a suplir este inconveniente, ya ue posee las principales tcnicas de anlisis de informacin, ocupando muy poco espacio en el disco duro y con un precio muy ase uible. 2un ue tiene limitaciones en cuanto al nmero de casos y de variables y las salidas de ordenador resultan muc$o ms simples, puede ser un buen complemento para iniciarse en el aprendizaje de determinadas tcnicas multivariantes. Mtros programas como el L&"' o el Fala(y, ue se aplicaron con profusin en el pasado $an sido sustituidos en la actualidad por el %'%% en la prctica acadmica o profesional . El %'%% en su versin de QindoKs *actualmente la -2+ es un programa ue se caracteriza por su facilidad de manejo, en comparacin con la versin de "M% ue se utilizaba en los a@os /A y principios de los .A. El procedimiento de introduccin de datos es parecido al ue se sigue en una $oja de clculo y para aplicar las tcnicas basta con apretar el ratn y elegir las opciones ue se presentan en los mens de dilogos. El "yane es un complemento importante del %'%% respecto al 2nlisis :actorial de Correspondencias, el 28" y el anlisis de clasificacin mltiple, tcnicas ue no aparecen en la versin estndar y a las ue se debe acceder comprando mdulos adicionales del programa. 5especto a los programas y, slo a nivel indicativo, en el cuadro ? se muestra la baj!sima utilizacin de los programas estad!sticos ue ayudaban a realizar la aplicacin de tcnicas de investigacin de mercados $ace un dcada en Espa@a. #as $ojas de clculo o los

-C

programas de gestin de bases de datos *como el #otus, el EPCE# o el "L2%E+ eran las $erramientas de las ue se serv!an las empresas para desarrollar los estudios. #os programas de tratamiento estad!stico de datos como el %32R2) o %O%727, as! como los especializados en anlisis multivariante como L&"' eran prcticamente desconocidos. #os programas de tratamiento estad!stico de datos y realizacin de tcnicas de anlisis multivariante ms utilizados eran el 7%' *2,-E+ y el %'%% *1E+. CUADRO 7: UTILI<ACIN DE PRO'RAMAS DE ORDENADOR PRO'RAMAS DE 9 de /,ili"aci+* ORDENADOR L&"' AE #M74% 2C.?E %'%% 1.AE 7%' 2.-E "L2%E 2A.?E EPCE# 2C.?E %32R2) AE %2% -.-E %O%727 AE %C2 A.?E %727 F52'38C% 2.1E #8&"E' A.?E :4E)7E0 Sicens y Cid, Investigacin y Marketing, nT9., -..?, pg./A.

(. T5CNICAS DE ANLISIS DE LA INFORMACION


4na vez se $a recolectado la informacin ue servir como input para una investigacin se debe proceder a realizar su anlisis. 4n anlisis inadecuado puede ser una fuente significativa de error no muestral. El objetivo de este anlisis es facilitar informacin necesaria o til para tomar de decisiones. )o es el aspecto ms importante de la investigacin, pues el anlisis ms sofisticado no puede sustituir un mal dise@o del estudio, una deficiente definicin del problema, un muestro inadecuado o un mal trabajo de campo. Esta etapa es, simplemente, una de las muc$as actividades ue deben realizarse correctamente para conseguir una informacin vlida en la toma de decisiones. #as tcnicas de datos utilizadas en investigacin comercial se $an ido formulando en otras disciplinas, como la estad!stica, la psicolog!a, la sociolog!a y se utilizan de forma muy frecuente en investigacin social. 7ambin las ciencias e(actas o la biolog!a $an aportado desarrollos ue $an contribuido a la utilizacin de estas tcnicas en mar6eting. #a primera tarea a la ue se enfrenta un investigador es la formulacin del problema y de los objetivos de investigacin. %i se determina ue es necesario aplicar una tcnica cuantitativa de anlisis, para definir cual*es+ es*son+ la*s+ tcnica*s+ de anlisis ue debe

-1

utilizar, tendr ue responder a tres preguntas generales0 -. Cuantas variables se deben analizar al mismo tiempo 2. %i se uieren contestar preguntas descriptivas o inferenciales ,. Uu escala primaria tienen las variables En el caso de la primera pregunta, si se desea e(aminar una variable individualmente, estamos ante un anlisis univariante *o univariado+. Cuando se e(amina la relacin de dos variables, realizaremos anlisis bivariante *o bivariado+. 2l llevar a cabo un anlisis con mas de dos variables simultneamente estamos ante el anlisis multivariante *o multivariado+. 5especto a la segunda pregunta, nos debemos preguntar si estamos interesados en describir la muestra o en $acer inferencias acerca de la poblacin de la ue se tom la muestra. #a estad!stica descriptiva responder a preguntas sobre la muestra y la inferencial permitir ue los investigadores elaboren sus propios juicios sobre la poblacin total a partir de los datos generados por la muestra. 'or ltimo, en cuanto al nivel de medicin de la variable, $abr distintas tcnicas disponibles si las escalas son mtricas o no mtricas. #as respuestas concretas a estas preguntas sern tratadas en los siguientes cap!tulos. 'ara concluir, tenemos ue poner de manifiesto ue, en nuestra opinin, las tcnicas de anlisis, sobre todo las multivariantes, se estn utilizando en muc$as ocasiones de forma masiva e indiscriminada y, por tanto, inadecuada. Esta utilizacin no slo se produce en la empresa sino tambin en la investigacin acadmica. #as tcnicas son slo $erramientas y muc$as veces se puede tener la tentacin de emplear mtodos sofisticados por ue se cree ue se va <vender> mejor una investigacin al cliente o por ue se uiere sorprender a una audiencia con un estudio ue tenga apariencia de moderno. 2lgunos personas ue trabajamos en el mundo acadmico creemos ue se $a llegado a un punto de euforia tal en la investigacin en &ar6eting ue los editores y los revisores de algunas revistas del rea slo aceptan art!culos donde el re uisito fundamental es aplicar la*s+ tcnica*s+ cuantitativa*s+ ue est*n+ ms de moda. Esta corriente, a la ue de forma $umor!stica denominamos <cuantitofrenia>, est siendo muy perjudicial para el avance de nuestra disciplina donde a veces slo a uellos trabajos ue tienen complicados desarrollos matemticos con frmulas y modelos sofisticados son los ms valorados. En el campo profesional, algunos institutos de investigacin tambin parecen $aberse contagiado con este afn de presentar tcnicas o modelos complejos para llegar a la conclusin ms simple. Creen ue si se aplica tal o cual tcnica de moda, su estudio tendr un valor superior. %u principal problema es ue el cliente demanda no slo una comprensin de los resultados sino tambin una significacin prctica, es decir, una serie de recomendaciones ue les ayuden a tomar decisiones. Como conclusin de este primer tema y, sin uerer presentar una lista e($austiva de consideraciones, creemos necesario destacar los aspectos ue nos ayudarn a decidir sobre la aplicacin de una tcnica concreta, ue son los siguientes0 Establecer la significacin prctica y estad!stica de los resultados obtenidos.

-/

%er consciente de ue el tama@o muestral afecta a los resultados. #levar a cabo un anlisis previo y riguroso de los datos. E(aminar los errores, ue sern un nuevo punto de partida para especificar nuevos modelos. Salidar los resultados. Cuando se tienen en cuenta estas consideraciones y se siguen los pasos ue $emos e(puesto $asta a$ora y los ue vamos a e(poner en posteriores cap!tulos se aprovec$a todo el potencial ue ofrecen las tcnicas estad!sticas para entender mejor los problemas ue se nos plantean en 8nvestigacin Comercial.