9 oct 2022

Las hipótesis basadas en datos [Control y evaluación del rendimiento]

Hoy traemos en nuestra sección de Respuestas y Adaptaciones biofisiológicas al esfuerzo una columna de opinión de Paul van Helden, sobre las hipótesis basadas en datos. Volvemos en nuestro blog con la temática que trata la Biología Celular y molecular.


Las hipótesis basadas en datos [Control y evaluación del rendimiento]

A continuación se muestra la traducción del artículo Data-driven hypotheses  de Paul van Helden publicado en EMBO Reports (2013).

Los científicos pueden ser críticos apasionados con los diferentes enfoques de un determinado problema. A lo largo de los años, me he encontrado frecuentemente cruzando espadas con epidemiólogos con los que somos buenos amigos “fuera de la cancha”.

Hasta cierto punto, esta diferencia de enfoque me parece basarse en la logística de recolección o generación de datos, y el análisis de los mismos. El enfoque epidemiológico es a menudo increíblemente laborioso respecto a la recopilación de los datos -considere el enfoque de la entrevista y estudios dietéticos que requieren que los sujetos recuerden las comidas consumidas- y, por lo tanto, precisa una cuidadosa reflexión y planificación para lograr un resultado significativo con recursos limitados.

Por el contrario, muchas áreas de la biología molecular generan fácilmente y rápidamente una enorme cantidad de datos, y por lo tanto se prestan a una manera diferente de pensar y un debate acalorado sobre la “manera correcta de hacer ciencia”.

Tales argumentos son fútiles en el mejor de los casos y posiblemente dañando a la ciencia en el peor de los casos. Que se considera como el enfoque correcto podría ser, en parte, debido a limitaciones en la generación de datos, pero podría no ser necesario o correcto en el futuro, como ha demostrado la historia de la ciencia.

El método científico aceptado consiste en formular una hipótesis y luego probar mediante la experimentación que, al menos en teoría, intenta refutar la hipótesis.

Los experimentos generan datos que pueden ser analizados por varios medios para probar la hipótesis. Este es un enfoque común en estudios epidemiológicos, por ejemplo, para identificar un factor de riesgo de una determinada enfermedad. Este enfoque requiere que se proponga un factor de riesgo para la afección o enfermedad: consumo de alcoholismo o deficiencia dietética, y luego recopila datos relacionados con ese factor.

Por supuesto, los estudios de riesgo social o factores nutricionales a menudo recopilan simultáneamente datos para probar múltiples parámetros. El principal riesgo de tales estudios, en mi opinión, es que el investigador primero debe predecir o adivine el factor de riesgo y luego recopile los datos correspondientes.

El trabajo anterior podría haber sugerido o incluso identificado un factor de riesgo en un estudio separado. Sin embargo, sugiero que tal enfoque puede ser fundamentalmente deficiente, como el investigador aborda el estudio con sus propias limitaciones en el conocimiento y sesgo experiencial, simplemente eligiendo un posible factor de riesgo de, quizás, cientos de posibilidades. Hay una buena posibilidad de que el factor de riesgo será confirmado como tal y dará lugar a una publicación, como resultado del sesgo en publicar estudios positivos y, en particular, estudios que verifican hallazgos previos.

Por el contrario, la nueva tecnología "ómica" nos permite generar cantidades masivas de datos rápidamente y, por lo tanto, nos permiten adoptar un enfoque mucho menos sesgado para abordar un problema dado. Ya hay sobre un millón de conjuntos de datos transcriptómicos disponibles, o polimorfismo de un solo chip nucleótido (SNP) que pueden analizar un millón de SNP cada uno. Uno podría usarlas fácilmente para investigar un gran número de individuos, generando mil millones de piezas separadas de información por cada 1.000 personas, sin prejuicios o ideas preconcebidas.

Equipado con conjuntos de datos tan grandes, podemos realizar minería de datos de manera objetiva. Para algunos puristas, este enfoque sobre la adquisición de datos es anatema, ya que no es 'impulsado por hipótesis'. Sin embargo, presiento que lo es. En este caso, la hipótesis original es amplia o genérica: generamos datos, evaluamos y probablemente encuentre algo útil para dilucidar nuestro problema de investigación. La amplia hipótesis establecida que usamos los resultados para generar modelos que identifiquen diferencias, por ejemplo entre sujetos experimentales y controles, sin especificar cuáles son esas diferencias y sin recoger datos específicos y conjuntos de datos limitados.

El “persistente viejo estilo” podría encontrar este enfoque inaceptable; sin embargo, podría ser la mejor manera de evitar parcialidad. Al contrario de lo que algunos me han sugerido, este enfoque no es simplemente jugar con datos para generar una hipótesis, que violaría el principio de que no se debe buscar una hipótesis primaria en los resultados. La hipótesis es que se diseñará un algoritmo y encontrar un patrón, que permita distinguir entre casos y controles.

Con este enfoque, el examen de grandes conjuntos de datos podría generar información útil y pistas específicas para estudios posteriores y validación Estos estudios de seguimiento se pueden regir por el enfoque tradicional impulsado por la hipótesis: el 'biomarcador X' es un factor de riesgo para 'condición Y'. Tal combinación de recopilación de datos y enfoques basados ​​en hipótesis podría ser la única manera de entender enfermedades complejas, incluso enfermedades infecciosas, en que el patógeno invasor podría ser necesario para la enfermedad, pero en sí mismo es inadecuado como único factor de riesgo.

Por supuesto, si examinamos grandes conjuntos de datos para encontrar patrones interesantes o biomarcadores que podría correlacionarse con una condición dada, probablemente identificaremos falsos positivos en una tasa de al menos 1:20, simplemente por casualidad.

Esta es la razón por la cual los estudios de replicación que utilizan conjuntos de muestras independientes son importantes. Mientras contamos con los controles adecuados y utilizamos estadística de manera apropiada, este enfoque de la ciencia debería producir nuevos resultados maravillosos y aumentar masivamente nuestro conocimiento del mundo, en lugar de simplemente probar refutando nociones que ya sospechamos.

Imagen. Las hipótesis de datos permiten acceder a nuevos conocimientos.

Bibliografía:
  • Baker M (2012) Nature 487: 282–283.
  • EMBO reports (2013) 14, 104; published online 21 December 2012; doi:10.1038/embor.2012.207.


Puedes volver a la sección de Biología Celular y molecualar correspondiente a la asignatura de Respuestas y adaptaciones biofisiológicas al esfuerzo en el siguiente enlace: 

0 comentarios:

Publicar un comentario