خمسة أسباب أنانية للعمل بشكل متكرر

شرح


لذا ، زملائي العلماء ، لا تسألوا ما الذي يمكنك فعله من أجل التكاثر - اسألوا ما يمكن أن تقدمه لك التكاثر!


هنا سأذكر خمسة أسباب تجعل إمكانية إعادة إنتاج البيانات تؤتي ثمارها على المدى الطويل وهي ذات أهمية شخصية لكل عالم طموح وموجه نحو المستقبل المهني.




معادلة معقدة في النصف الأيسر من السبورة ، معادلة أكثر تعقيدًا في اليمين. جملة قصيرة تربط المعادلتين: "تحدث معجزة هنا". اثنين من علماء الرياضيات ، في تفكير عميق. يقول أحدهما للآخر: "أعتقد أنه يجب أن تكون أكثر تحديدًا في الخطوة الثانية".
الصورة


هذا ما يبدو عليه الموقف عندما تحاول فهم كيفية انتقال المؤلف من مجموعة بيانات كبيرة ومعقدة إلى مقال كثيف مع العديد من الرسوم البيانية المعقدة. بدون الوصول إلى البيانات والرمز التحليلي ، لا يمكن تفسير هذا الانتقال إلا بمعجزة. وفي العلم يجب ألا تكون هناك معجزات.


تعتمد القدرة على العمل بشفافية وقابلة للتكرار بشكل كبير على التعاطف - ضع نفسك في مكان أحد زملائك واسأل: "هل سيكون هذا الشخص قادرًا على الوصول إلى بياناتي وفهم معنى تحليلي؟" إتقان مثل هذه "الأدوات" (المربع 1) ​​يتطلب المشاركة والاستثمار الضخم من وقتك وطاقتك. بداهة ، ليس من الواضح لماذا تفوق مزايا هذا الشكل من العمل التكاليف.


في ما يلي بعض الحجج التي تؤدي عادةً في مثل هذه الحالات: "لأن التكاثر صحيح" ، "لأنه أساس العلم!" ، "لأن العالم سيكون مكانًا أفضل إذا عمل الجميع بشفافية واستنساخ!" هل تعرف كيف يبدو لي هذا المنطق؟ مثل "بلاه بلاه بلاه" ...


لا يعني أنني أعتبر أن هذه الحجج لا يمكن الدفاع عنها. أنا لست مثاليًا جدًا: لا أهتم بما يجب أن يكون عليه العلم. أنا واقعي: أحاول أن أبذل قصارى جهدي ، بناءً على كيفية عمل العلم حقًا. وسواء أحببنا ذلك أم لا ، فإن العلم يدور حول النمو الوظيفي ، وزيادة عامل التأثير ، وعدد المنشورات ومقدار المال. المزيد ، المزيد ، المزيد ... فكيف تساعد قابلية التكاثر في تحقيق المزيد كعالم؟


استنساخ: لماذا أحتاج إليها؟


في هذه المقالة ، أقدم خمسة أسباب تجعل هذا النهج لإمكانية التكاثر يؤتي ثماره على المدى الطويل وهو في صالح كل عالم طموح وموجه نحو المستقبل المهني.


السبب رقم 1: يساعد التكاثر على تجنب الكارثة


"مثل الوعد الكبير في اختبار السرطان ، لقد تحطم" ، هو عنوان مقال نشرته صحيفة نيويورك تايمز في صيف عام 2011 [1] ، والذي يسلط الضوء على عمل كيث باجرلي وكيفين كومبس ، وهما إحصائيان حيويان في مركز السرطان. م. د. أندرسون. حددوا المشاكل في تحليل بيانات الوفاة في سلسلة من المقالات التي كتبها علماء من جامعة ديوك ، والتي كان لها تأثير كبير على أبحاث سرطان الثدي [2].


يمكن أن يلاحظ أي مؤلف مشارك للمقالة المشاكل التي اكتشفها باجرلي وكومبس بسهولة قبل تقديمها. مجموعات البيانات هناك ليست كبيرة ، ويمكن التحقق منها بسهولة على جهاز كمبيوتر محمول قياسي. لا تحتاج إلى أن تكون عبقريًا إحصائيًا لفهم أن عدد المرضى هناك يختلف ، أو تسميات تغير الأماكن أو العينات يتم تقديمها عدة مرات مع تعليقات توضيحية متضاربة في نفس مجموعة البيانات. لماذا لم يلاحظ أحد هذه المشاكل قبل فوات الأوان؟ لأن البيانات والتحليل لم تكن شفافة وتتطلب معرفة المعلوماتية البيولوجية الإجرامية من أجل فهمها [2].


يحفزني هذا المثال على أن أكون أكثر شفافية وقابلية للتكرار في عملي. حتى الحوادث الأصغر يمكن أن تضعك في موقف محرج.


هنا مثال من بحثي اختبر شركاؤنا التجريبيون نموذج المسار الذي أنشأناه. ومع ذلك ، عند كتابة المقال ، واجهنا عقبة خطيرة: مهما حاولنا بجد ، لم نتمكن من إعادة إنتاج نموذج السفر الأصلي. ربما تغيرت البيانات ، ربما كان الرمز مختلفًا ، أو ربما لم نتمكن من تذكر إعدادات المعلمة لطريقتنا بشكل صحيح. إذا نشرنا هذه النتيجة ، فلن نتمكن من توضيح كيفية وصولنا إلى الفرضية المعتمدة من بيانات المصدر. سوف ننشر معجزة.


أظهرت لي هذه التجربة شيئين. بادئ ذي بدء ، المشروع هو أكثر من نتيجة جميلة. يجب أن تصف بالتفصيل كيف تم الحصول على هذه النتيجة.


بالإضافة إلى ذلك ، عند التفكير في إمكانية التكاثر في المراحل المبكرة ، ستوفر الوقت في المستقبل. لقد أمضينا سنوات وقتنا ووقت شركائنا ، غير قادرين على إعادة إنتاج نتائجنا الخاصة. كل هذا كان يمكن تجنبه لو تتبعنا بشكل أفضل كيف تغيرت البيانات والتحليلات بمرور الوقت.


السبب رقم 2: سهولة التكرار تسهل كتابة المقالات


الشفافية في التحليل تجعل كتابة المقالات أسهل بكثير. على سبيل المثال ، في مستند ديناميكي (المربع 1) ​​، يتم تحديث جميع النتائج تلقائيًا عند تغيير البيانات. يمكنك التأكد من أن الأرقام والرسوم البيانية والجداول الخاصة بك ستظل ذات صلة. بالإضافة إلى ذلك ، فإن شفافية التحليل هذه أكثر جاذبية ، وسيتمكن المزيد من الأشخاص من التعرف عليها ، ويصبح من الأسهل بكثير اكتشاف الأخطاء.


هنا مثال آخر من عملي. في مشروع آخر [3] ، ناقشنا مع الطبيب لماذا لم تلب بعض نتائج البقاء على قيد الحياة في الدراسة متعددة المراكز توقعاتنا. نظرًا لأن جميع البيانات والشفرة التحليلية كانت متاحة لنا في ملف سهل القراءة ، فقد تمكنا من دراسة هذه المشكلة بأنفسنا.


فقط من خلال إنشاء جدول بمتغير يصف مرحلة الورم ، تمكنا من تحديد المشكلة: توقعنا أن نرى أرقام المرحلة من 1 إلى 4 ، ورأينا شيئًا مثل "XXX" و "Fred" و "999". يبدو أن الأشخاص الذين قدموا لنا البيانات قد قرأوها بشكل سيئ. اتضح أن دراسة البيانات بنفسك أسرع وأسهل بكثير من الذهاب إلى مرحلة ما بعد الوثيقة التي تعمل في المشروع وقول: "اشرح لنا هذا". أنا وزميلي المشارك مشغولون للغاية لقضاء بعض الوقت في تنظيف البيانات منخفضة المستوى ، وبدون تحليل موثق جيدًا ، لن نتمكن من المساهمة. ولكن نظرًا لوجود بيانات ورموز شفافة للغاية ، فقد استغرق الأمر خمس دقائق فقط لاكتشاف الخطأ.


السبب رقم 3: يساعد التكاثر المراجعين على رؤية بياناتك


كثير منا يحب أن يشكو من مراجعة الأقران. في أغلب الأحيان ، أسمع: "المراجعون لم يقرأوا المقال حتى وليس لديهم فكرة عما بحثناه بالفعل."


يتناقض هذا بشكل حاد مع تجربتي في مراجعة مقال حديث [4] ، والذي جعلنا البيانات والشفرة الموثقة سهلة المنال للمراجعين. اقترح أحدهم إجراء تغيير طفيف على بعض التحليلات ، وبما أنه كان بإمكانه الوصول إلى جميع البيانات ، فقد تمكن من اختبار أفكاره مباشرة ومعرفة كيف تغيرت النتائج. كان المراجع مشاركًا بشكل كامل ، والشيء الوحيد المتبقي للنقاش هو طريقة تحليل البيانات التي ستكون الأفضل. لذا يجب ترتيب مراجعة بناءة. وهذا لم يكن ممكنا بدون تمثيل شفاف وقابل للتكرار لتحليلنا.


السبب رقم 4: تضمن الاستنساخ استمرارية عملك


سأفاجأ إذا لم تكن قد سمعت الملاحظات التالية من قبل (وربما حتى عبرت عنها بنفسك): "أنا مشغول للغاية لدرجة أنني لا أستطيع تذكر تفاصيل جميع مشاريعي بدقة" أو "لقد أجريت هذا التحليل قبل 6 أشهر. بالطبع ، لا يمكنني تذكر جميع التفاصيل بعد هذه الفترة الطويلة "أو" قال المشرف على البحث (PI) أنني يجب أن أكمل مشروع الدكتوراه السابقة ، لكن تلك الدفعة اللاحقة ذهبت منذ فترة طويلة ولم تحفظ أي نصوص أو بيانات. "


فكر في الأمر: يمكن حل جميع هذه المشاكل عن طريق توثيق البيانات والشفرات وإتاحتها. هذا مهم بشكل خاص لكبار الباحثين الذين يعملون في مشاريع معقدة طويلة الأجل. كيف يمكنك ضمان استمرارية العمل في المختبر الخاص بك إذا لم يتم توثيق طريقة تقدمه في شكل يمكن استنساخه؟ في مجموعتي ، أنا حتى لا أناقش النتائج مع الطلاب إذا لم يتم توثيقها بشكل جيد. لا يوجد دليل على التكاثر - لا نتيجة!


السبب رقم 5: التكاثر يساعد السمعة


في عدة مقالات ، جعلنا بياناتنا وكودنا وتحليلاتنا متاحة كحزمة لموصل حيوي [5]. عندما جئت للعمل بموجب عقد ، قدمت كل هذه الحزم كنتيجة لبحثي المختبري.


عادة ، يساعد التحليل المقدم بهذه الطريقة في بناء سمعة كباحث صادق ودقيق. إذا واجهتك مشكلة في أحد مقالاتك ، فسيكون من السهل جدًا حماية اسمك وإظهار أنك قد أبلغت بصدق كل شيء.


مقال نشر مؤخرا في مجلة Science is Scientific Standards. الترويج لثقافة البحث المفتوح "[6] ، يلخص ثمانية معايير وثلاثة مستويات من التوصيات للتكاثر. سيسمح لك استخدام أدوات مثل R و knitR (Box 1) باتباع أعلى معايير المستوى بسهولة ، وهو أمر جيد لسمعتك مرة أخرى.


ما الذي يمنعك؟


هل أقنعتك؟ ربما لا. فيما يلي مجموعة مختارة من ردود الفعل التي أحصل عليها غالبًا عندما أصر على التكاثر (وكيف أستجيب لها):


  • "فقط النتيجة مهمة!" أنت مخطئ.
  • "أفضل أن أقوم بالعلوم الحقيقية ، بدلاً من ترتيب بياناتي". إذا كانت نتائجك غير قابلة للتكرار ، فأنت لا تقوم بالعلوم على الإطلاق [7].
  • "اذهب عن عملك! أقوم بتوثيق بياناتي كما أريد! " نعم من فضلك! هناك العديد من الطرق للعمل بطريقة قابلة للتكرار [8] - يمكنك اختيار أي طريقة تريدها.
  • "يعمل Excel بشكل رائع. لا أحتاج إلى أي R جديدة أو Python أو أي شيء آخر. " قد تعمل الأداة التي ذكرتها جيدًا إذا كنت بحاجة إلى إجراء العديد من التعديلات اليدوية. ولكن إذا كنت تقوم بتحليل البيانات ، فإن النقرات القليلة والمزيد من النصوص البرمجية هي الحل الأفضل. تخيل أنك بحاجة إلى إجراء تحليل بسيط - على سبيل المثال ، إنشاء رسم بياني للانحدار - 5 (10 ، 20) مرات. قارن المعالجة اليدوية لهذا بكتابة حلقة بسيطة من شأنها أن تفعل ذلك لك. تخيل الآن أنك بحاجة إلى القيام بذلك مرة أخرى بعد 3 أسابيع ، لأن البيانات قد تغيرت قليلاً. في هذه الحالة ، يجب عليك بالتأكيد استخدام R و Python.
  • "تبدو إمكانية التشغيل جيدة ، ولكن التعليمات البرمجية والبيانات الخاصة بي مبعثرة عبر العديد من محركات الأقراص الثابتة والأدلة بحيث يستغرق الأمر الكثير من الجهد لوضع كل شيء في مكان واحد." فقط فكر فيما قلته للتو. إن عدم التنظيم يضعك أنت ومشروعك في خطر قاتل.
  • "يمكننا دائمًا فرز الشفرة والبيانات بعد إرسال طلب للمراجعة". أعلاه ، يوضح نموذج نموذج المسار الخاص بي مخاطر هذه الاستراتيجية. بالإضافة إلى ذلك ، يمكن أن يستغرق إعداد مخطوطة الكثير من الوقت ، لذلك قد لا تتذكر حتى كل تفاصيل تحليلك عندما يحين الوقت لتقديم النتائج.
  • "هناك الكثير من المنافسة في مجال البحث الخاص بي ، وإضاعة الوقت محفوف بالمخاطر." وهذا هو السبب في أنه يجب عليك البدء في العمل مع قابلية التكاثر في مرحلة مبكرة حتى لا تضيع هذه المرة على المدى الطويل.

متى تقلق بشأن التكاثر؟


لنفترض أنني أقنعتك بأن التكاثر والشفافية
لمصالحك الخاصة. متى تبدأ القلق؟
إجابة طويلة:


  • قبل البدء في المشروع - لأنه قد يتعين عليك تعلم أدوات مثل R أو git.
  • أثناء قيامك بالتحليل - لأنه إذا انتظرت طويلاً ، فقد تضيع الكثير من الوقت في محاولة تذكر ما فعلته قبل شهرين ؛
  • عند كتابة مقال - لأنك تريد أن تكون أرقامك وجداولك وأرقامك ذات صلة ؛
  • عندما تكون مؤلفًا مشاركًا لمقال - لأنك تريد التأكد من صحة التحليل المقدم في مستند باسمك ؛
  • عندما تنظر إلى مستند - لأنه لا يمكنك الحكم على النتائج إلا إذا كنت تعرف كيف وصل المؤلفون إليهم.

إجابة قصيرة: دائما!


تحقيق ثقافة التكاثر


لمن أهمية التكاثر والشفافية؟ من الواضح أن الطلاب وما بعد المستندات يلعبون دورًا مهمًا في العمل القابل للتكرار ، لأنهم في الغالب هم الأشخاص الذين يقومون بهذا العمل حقًا. نصيحتي هي دراسة أدوات إعادة الإنتاج في أسرع وقت ممكن (الإطار 1) واستخدامها في كل مشروع.


بعد بذل الجهد ، ستحصل على الكثير من المزايا:


  • سترتكب أخطاء أقل ويسهل تصحيح الأخطاء الموجودة ؛
  • ستكون أكثر فعالية وستنمو بشكل أسرع بكثير على المدى الطويل ؛
  • إذا كنت تعتقد أن مستشارك الأكاديمي مشارك قليلاً ، فعندئذ من خلال جعل التحليل أكثر قابلية للفهم ، يمكنك مساعدة مرشدك على المشاركة بشكل أكبر.

رواد الباحثين وقادة المجموعات والفرق والأساتذة - إنك ملكك لخلق "ثقافة التكاثر" على رأس القاعدة التقنية التي يمثلها طلابك وما بعد الدكتوراه. في مختبري ، جعلت الاستنساخ عنصرًا أساسيًا في المستندات التي أعطيها للمبتدئين [9]. إذا كنت ترغب في دعم زملائك ، فاطلب وثائق التحليل في كل مرة يعرض لك أحد أعضاء الفريق نتائج العمل. لست بحاجة إلى الخوض في التفاصيل - ستظهر نظرة خاطفة مدى نجاحها. ما حقًا في تحسين قابلية التكاثر في مختبري الخاص هو المطلب بأنه قبل تقديم طلب مع أحد أعضاء الفريق ، يجب على زميله الذي لم يشارك في المشروع ، أن يحاول تحليل نتائجنا وإعادة إنتاجها بشكل مستقل.


إذا لم تقم بإنشاء ثقافة استنساخ في المختبر الخاص بك ، فسوف تفوتك الفوائد العلمية الهائلة التي تتمتع بها على المدى الطويل.


أصبح العلم أكثر شفافية وقابلية للتكرار كل يوم. يمكنك أن تصبح قادة في هذه العملية! الاتجاهات المتقدمة! هيا ، أعرف - أنت تريد هذا أيضًا.




المربع 1


في أدنى مستوى ، العمل بشكل متكرر يعني ببساطة تجنب أخطاء المبتدئين. حافظ على تنظيم مشروعك ، وقم بتعيين أسماء إعلامية للملفات والأدلة ، وحفظ البيانات والرمز في مكان واحد مع النسخ الاحتياطي. لا تقم بتوزيع البيانات عبر خوادم وأجهزة كمبيوتر محمولة ومحركات أقراص ثابتة مختلفة.


لتحقيق مستويات التكاثر التالية ، تحتاج إلى دراسة بعض أدوات التكاثر الحسابي [8]. بشكل عام ، تتحسن قابلية التكاثر مع عدد أقل من النقرات والإدخالات والمزيد من النصوص البرمجية والتشفير. على سبيل المثال ، قم بالتحليل في R أو Python وقم بتوثيقه باستخدام knitR أو IPython .
تساعدك هذه الأدوات في دمج النص الوصفي مع التعليمات البرمجية التحليلية في مستندات ديناميكية يمكن تحديثها تلقائيًا في كل مرة تقوم فيها بتغيير البيانات أو التعليمات البرمجية.


بعد ذلك ، تعرف على كيفية استخدام نظام التحكم في الإصدار مثل git على نظام أساسي مشترك مثل GitHub . أخيرًا ، إذا كنت ترغب في أن تصبح محترفًا ، فتعلم كيفية استخدام عمال الإرساء الذين يجعلون تحليلك سلسًا وسهل النقل إلى أنظمة مختلفة.




شكر وتقدير


لقد طورت نهجًا قابلاً للتكاثر أنانيًا لـ "ورشة عمل التكاثر لما بعد الدكتوراه" التي يتم تدريسها في معهد جوردون في كامبريدج مع جوردون براون (معهد CRUK كامبريدج) وستيفن ج. أشكرهم على مساهمتهم.


جميع المواد متاحة على GitHub عبر الرابط ، ويتم تسجيل تقريري على مدونتي .


قائمة المصادر
  1. Kolata G. كيف انهار الوعد الساطع في اختبار السرطان. اوقات نيويورك. 2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html؟_r=0 .
  2. Baggerly KA ، Coombes KR. اشتقاق الحساسية الكيميائية من خطوط الخلايا: المعلوماتية الحيوية الطب الشرعي والبحوث القابلة للتكرار في علم الأحياء عالي الإنتاجية. Ann Appl Stat. 2009 ؛ 3: 1309–34.
    https://projecteuclid.org/euclid.aoas/1267453942 .
  3. Martins FC، Santiago I، Trinh A، Xian J، Guo A، Sayal K، et al. تظهر الصورة المجمعة والتحليل الجينومي لسرطان المبيض المصلي عالي الجودة فقدان PTEN كحدث سائق مشترك ومصنف تنبؤي. جينوم بيول. 2014 ؛ 15: 526.
    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 .
  4. Schwarz RF ، Ng CKY ، Cooke SL ، Newman S ، Temple J ، Piskorz AM ، et al. عدم التجانس المكاني والزمني في سرطان المبيض المصلي عالي الجودة: تحليل جيني. بلوس ميد. 2015 ؛ 12: 1001789.
    http://journals.plos.org/plosmedicine/article؟id=10.1371/journal.pmed.1001789 .
  5. Castro MAA و Fletcher M و Markowetz F و Meyer K. بيانات التعبير الجيني من خلايا سرطان الثدي تحت اضطراب إشارات FGFR2. حزمة BioConductor التجريبية. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html . تم الوصول في 27 نوفمبر 2015.
  6. Nosek BA ، Alter G ، Banks GC ، Borsboom D ، Bowman SD ، Breckler SJ ، et al. المعايير العلمية. تعزيز ثقافة البحث المفتوح. العلم. 2015؛ 348: 1422–5.
    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 .
  7. واتسون م. متى "سيصبح العلم" مجرد علم "؟ جينوم بيول. 2015 ؛ 16: 101.
  8. Piccolo SR ، Lee AB ، Frampton MB. أدوات وتقنيات التكاثر الحسابي. 2015. http://biorxiv.org/content/early/2015/07/17/022707 . تم الوصول في 27 نوفمبر 2015.
  9. Markowetz F. أنت لا تعمل بالنسبة لي. انا اعمل معك بلوس كمبيوت بيول. 2015؛ 11: 1004387.
    http://journals.plos.org/ploscompbiol/article؟id=10.1371/journal.pcbi.1004387 .


    تويتر ومدونة
    فلوريان على تويترmarkowetzlab وعلى مدونته: http://scientificbsides.wordpress.com/ .

Source: https://habr.com/ru/post/ar417469/


All Articles