Está en la página 1de 4

El arte de la ciencia de datos – Cap III

3.Plantear y refinar la pregunta


Hacer un análisis de datos requiere pensar bastante y se cree que cuando se ha completado un
buen análisis de datos, ha pasado más tiempo pensando que haciendo. El pensamiento
comienza incluso antes de mirar un conjunto de datos, y vale la pena dedicarle atención a su
pregunta. Por consiguiente, se analizará las características de una buena pregunta, los tipos de
preguntas que se pueden formular y cómo aplicar el proceso epicíclico iterativo para formular
y refinar la pregunta de modo que cuando se comienze a analizar los datos se tenga una visión
clara.

3.1 Tipos de preguntas


Antes de profundizar en la formulación de la pregunta, es útil considerar cuáles son los
diferentes tipos de preguntas. Hay seis tipos básicos de preguntas. Comprender el tipo de
pregunta que está haciendo puede ser el paso más fundamental que puede dar para que la
interpretación de los resultados sea correcta. Los seis tipos de preguntas son:

1. Descriptivo

2. Exploratorio

3. Inferencial

4. Predictivo

5. Causal

6. Mecanicista

Descriptivo: Una pregunta es aquella que busca resumir una característica de un conjunto de
datos. Los ejemplos incluyeron determinar la proporción de hombres, el número medio de
porciones de frutas y verduras frescas por día o la frecuencia de enfermedades virales en un
conjunto de datos recopilados de un grupo de individuos.

Exploratorio: Una pregunta es aquella en la que se analizan los datos para ver si hay patrones,
tendencias o relaciones entre variables. Estos tipos de análisis también se denominan
“generadores de hipótesis” porque, en lugar de probar una hipótesis como se haría con una
pregunta inferencial, lo que se busca son patrones que respalden la propuesta de una
hipótesis. Por ejemplo si tuviera una idea general de que la dieta está relacionada de alguna
manera con las enfermedades virales, se podría explorar esta idea examinando entre una
variedad de factores dietéticos y las enfermedades virales. En su análisis exploratorio
encuentra que los individuos que consumían una dieta rica en ciertos alimentos tenían menos
enfermedades virales que aquellos cuya dieta no estaba enriquecida con estos alimentos, por
lo que propone la hipótesis de que entre los adultos, comer al menos 5 porciones al día de
fruta fresca y verduras se asocia con menos enfermedades virales por año.

Inferencial: La pregunta sería una reformulación de esta hipótesis propuesta como una
pregunta y se respondería analizando un conjunto diferente de datos. Al analizar este conjunto
diferente de datos, se determina si la asociación que se observó en el análisis exploratorio se
cumple en una muestra diferente y si se cumple en una muestra que es representativa de la
población adulta de EE. UU., lo que se sugeriría es que la asociación es aplicable a todos los
adultos en los EE. UU. En otras palabras, podrá inferir lo que es cierto, en promedio, para la
población adulta de Estados Unidos a partir del análisis que realice en la muestra
representativa.

Predictivo: La pregunta sería aquella en la que se preguntaría qué tipo de personas


consumirán una dieta rica en frutas y verduras frescas durante el próximo año. En este tipo de
preguntas, se esta menos interesado que es lo que causa que alguien siga una dieta especifica,
sino en que predice si alguien seguirá esa determinada dieta.

Causal: Una pregunta causal pregunta si cambiar un factor cambiará otro factor, en promedio,
en una población. A veces, la recopilación de datos, por defecto, permite que la pregunta que
usted hace sea causal. Un ejemplo de esto serían los datos recopilados en el contexto de un
ensayo aleatorio, en el que se asigno a personas al azar a comer una dieta rica en frutas y
verduras frescas o una que era bajo en frutas y verduras frescas. En otros casos, incluso si sus
datos no provienen de un ensayo aleatorio, puede adoptar un enfoque analítico diseñado para
responder una pregunta causal.

Mecanicista: Ninguna de las preguntas descritas hasta ahora conducirá a una respuesta que
diga si la dieta realmente causa una reducción en el número de enfermedades virales. Una
pregunta que describa cómo una dieta rica en frutas y verduras frescas conduce a una
reducción en el número de enfermedades virales sería una pregunta mecanica.

En conclusión , si un análisis de datos tiene como objetivo responder una pregunta inferencial,
también se deben responder preguntas descriptivas y exploratorias durante el proceso de
respuesta.

3.2 Aplicar el epiciclo para formular y refinar la pregunta


Ahora en base a los conceptos entendidos se pueden aplicar la características para
perfeccionar su pregunta. Para lograr esto, puede repetir los 3 pasos de:

-Establecer las expectativas sobre la pregunta

-Recopilar información sobre la pregunta

- Determinar si sus expectativas coinciden con la información que se recopilo y luego refinar la
pregunta si sus expectativas no coinciden con la información que se recopilo.

3.3 Características de una buena pregunta


Hay cinco características clave de una buena pregunta para un análisis de datos, que van desde
una muy básica que consiste en que la pregunta no debe haber sido respondida aún hasta la
más abstracta de que cada una de las posibles respuestas a la pregunta debe tener una única
interpretación y ser significativa.

Como primer paso, la pregunta debería ser de interés a su audiencia, en base a la identidad del
contexto y del entorno en el que esté trabajando con los datos.

Si está en el mundo académico, la audiencia pueden ser sus colaboradores, la comunidad


científica etc. Si trabaja en una startup, su audiencia es su jefe, el directorio y los inversores.

Por ejemplo, para responder a la pregunta de que si la contaminación por partículas en el


exterior está asociada con problemas de desarrollo en los niños puede ser de interés para las
personas involucradas en la regulación de la contaminación del aire, pero puede no serlo para
una cadena de tiendas de comestibles. Por otro lado, responder a la pregunta de si las ventas
de pepperoni son mayores cuando se exhibe junto a la salsa y la masa de pizza o cuando se
exhibe con otras carnes envasadas sería de interés para una cadena de supermercados, pero
no para personas de otras industrias.

También se debe comprobar que la pregunta tiene aún no ha sido respondida.Con la reciente
explosión de datos, la creciente cantidad de datos disponibles públicamente y la literatura
científica y otros recursos aparentemente interminables, no es raro descubrir que su pregunta
de interés ya ha sido respondida.

Un poco de investigación y discusión con expertos pueden ayudar a resolver esto, y también
pueden ser útiles porque incluso si la pregunta específica que tiene en mente no ha sido
respondida, es posible que se hayan respondido preguntas relacionadas y las respuestas a
estas preguntas relacionadas son informativas para decidir si o cómo procede con su pregunta
específica.

La pregunta también debería surgir de tener una buena estructura. En otras palabras, la
pregunta anterior sobre la relación entre las ventas de pepperoni y su ubicación en la tienda es
plausible porque los compradores que compran ingredientes para pizza tienen más
probabilidades que otros compradores de estar interesados en el pepperoni y pueden ser más
propensos a comprarlo si véalo al mismo tiempo que seleccionan los demás ingredientes de la
pizza. Una pregunta con menor estructura sería si las ventas de pepperoni se correlacionan
con las ventas de yogurt, a menos que se tenga algún conocimiento previo que sugiera que
deberían estar correlacionadas.

Si se hace una pregunta cuyo marco no tiene una estructura correspondiente, es probable que
termine con una respuesta difícil de interpretar o de confiar. En la pregunta del pepperoni y el
yogurt, si encuentra que están correlacionadas, se plantean muchas preguntas sobre la
resultado en sí: ¿es realmente correcto?, ¿por qué están correlacionadas estas cosas? ¿Hay
otra explicación?, y otras.

La pregunta, por supuesto, también debería ser de fácil respuesta. Aunque tal vez no sea
necesario decirlo, vale la pena señalar que algunas de las mejores preguntas no tienen
respuesta, ya sea porque los datos no existen o no hay medios para recopilarlos debido a la
falta de recursos, viabilidad, o problemas éticos. Por ejemplo, es bastante que existan defectos
en el funcionamiento de ciertas células del cerebro que causan el autismo, pero no es posible
realizar biopsias cerebrales para recolectar células vivas para estudiarlas, lo que sería necesario
para responder a esta pregunta.

También que la pregunta sea especifica es una característica muy importante de una buena
pregunta. Un ejemplo podría ser : ¿Es mejor para usted llevar una dieta más saludable? Que la
pregunta sea especifica ira directamente qué pasos seguir cuando se comienze a analizar los
datos. Una pregunta más específica surge después de preguntarse qué quiere decir con una
dieta "más saludable" .El proceso de ser mas especifico en la pregunta debería conducir a una
pregunta final y refinada como: "¿Comer al menos 5 porciones por día de frutas y verduras
frescas conduce a menos infecciones respiratorias?"De esa manera , el plan de ataque es
mucho más claro y la respuesta que se obtendrá al final del análisis de datos será de mejor
interpretación.
3.4 Traducir una pregunta a un problema de datos
Otro aspecto a considerar es cuando se este desarrollando la pregunta es qué sucederá
cuando se traduzca en un problema de datos. Cada pregunta debe tener un análisis de datos
que conduzca a un resultado. Es importante hacer una pausa para pensar cómo serían los
resultados del análisis de datos y cómo podrían interpretarse, ya que se puede evitar perder
mucho tiempo embarcando en un análisis cuyo resultado no es interpretable.

El tipo típico de pregunta que no cumple con este criterio es una pregunta que utiliza datos
inapropiados. Por ejemplo, la pregunta puede ser si se toma un suplemento de vitamina D se
asocia con menos dolores de cabeza, y se planea responder esa pregunta utilizando la cantidad
de veces que una persona tomó un analgésico como marcador de la cantidad de dolores de
cabeza que se tuvo. Es posible que encuentre una asociación entre tomar suplementos de
vitamina D y tomar menos analgésicos, pero no quedará claro cuál es la interpretación de este
resultado.

De hecho, es posible que las personas que toman suplementos de vitamina D también tiendan
a ser menos propensas a tomar otros medicamentos de venta libre sólo porque “evitan los
medicamentos” y no porque en realidad los estén tomando.

Conclusiones
- Para plantear y refinar una pregunta se deben seguir ciertos pasos: Empezando como debe
estar formulada nuestra pregunta y que deba ser descriptiva , exploratoria , inferencial,
predictiva , causal y mecanista.

- Una vez que se pueda seguir los pasos anteriores debes formular nuevamente y refinar para
que se pueda tener buenas características de la pregunta que nos ayudara en el análisis de los
datos tomados.

-Ya en el ultimo aspecto cuando se este desarrollando la pregunta debe discutir los resultados
e interpretarlos , ya que una pregunta bien planteada y formulada debe ser de fácil resolución.

También podría gustarte