Programming-for-Bioscience

Step-by-Step RNAseq Data Analysis Part 1 out of 4

শুরুর কথা

এই অধ্যায় লেখা শুরু করার আগে আমি আসলে ভাবছিলাম যে আমি যদি শুরু থেকে আবার শিখতে চাইতাম তাহলে আমি কিভাবে শিখতাম। কম্পিউটেশনাল বায়োলজি এর শেখার সকল জিনিশ Online এ পাওয়া যায় কিন্তু কোন একটা জায়গায় এসে শুরু থেকে শেখা শুরু করার মত কোন জায়গা নেই। আমি আশা করছি এই ব্লগ থেকে কিছুটা অভাব দূর হবে এবং আপনারা প্রয়োজনীয় শেখার সকল উপকরণ পেয়ে যাবেন একইসাথে ধাপে ধাপে শিখতে পারবেন।

এখন আসি আমাদের মূল বিষয়ে। আমার পিএইচডি কাজের সুবাদে আমাকে RNAseq ডেটা মূলত Single Cell RNAseq ডেটা নিয়ে কাজ করতে হয়। আমি RNAseq নিয়ে লেখা শুরু করার আগে ভাবছিলাম যে আমি শুরু কোন জায়গা থেকে করবো। আমার চেষ্টা থাকবে সবার বোঝার মত সহজ করে পরিবেশন করা। এজন্য আমি কয়েকটি ভাগে বিভক্ত করেছি। আরেকটি বিষয় এখানে বলে রাখা ভাল, আমি এই ব্লগ এর অংশে অনেকগুলো Terminology এর পরিভাষা ব্যবহার করবো না, কারণ বাংলা করলে খুব অদ্ভুত শুনাবে। আমি সেসবক্ষেত্রে ইংরেজি শব্দই ব্যবহার করবো। এখন আসি বিশ্লেষণে। সম্পূর্ণ বিশ্লেষণে কয়েকটি ক্ষেত্র আছে যেগুলা কে আলাদাভাবে জানা লাগবে। নিচে বলছি,
১। জীববিজ্ঞানের জ্ঞান ২। প্রযুক্তিগত জ্ঞান ৩। Terminology বা পরিভাষা ৪। R দিয়ে পূর্ণ বিশ্লেষণ এর ধাপসমূহ

আমি ব্লগ এর এই অংশে ৪ ধাপে সম্পূর্ণ RNAseq ডেটা বিশ্লেষণ দেখাব। আপনারা চাইলে ইমেইল এ নিবন্ধন করে রাখতে পারেন। আমি নতুন অংশ যুক্ত করলে ইমেইল এ জানিয়ে দিব।

১। জীববিজ্ঞানের জ্ঞান

প্রথমে আমার মতে জীববিজ্ঞানের ৩/৪ টি বিষয় সম্পর্কে জানা উচিত। DNA, RNA এবং Gene। যারা হয়ত জীববিজ্ঞান নিয়ে পড়ালেখা করছেন তাদের কাছে প্রতিটি বিষয় এ পরিচিত। আমি খুব ছোট করে বিষয়টি তুলে ধরব যাতে পরে গিয়ে সুবিধা হয় বোঝার জন্য।

DNA (Deoxyribonucleic Acid) কি?

আমাদের শরীরের প্রতিটি কোষ এ কিছু নির্দেশাবলী থাকে যার উৎস হচ্ছে DNA। আমাদের দেহের প্রতিটি অংশের কাজ কিভাবে চলবে তার নির্দেশাবলী এই DNA তে থাকে।

RNA (Ribonucleic Acid) কি?

DNA এর মধ্যে নির্দেশাবলী থাকলেও সরাসরি কাজ করার জন্য আমাদের দেহে DNA থেকে একটি কপি তৈরি হয় যাকে RNA বলে। এই RNA ই DNA থেকে তথ্য নিয়ে প্রোটিন তৈরি করে যা দেহে বিভিন্ন কাজে নিয়োজিত থাকে।

Gene কি?

Gene হল DNA এর একটি অংশ যা আমাদের শরীরে কাজ ও গঠন নিয়ন্ত্রণ করে। প্রতিটি gene প্রোটিন তৈরি এর তথ্য বহন করে। Gene এর কাজের যদি উদাহরণ দিতে চাই তাহলে বলতে হবে, আপনার চোখের রং, চুলের ধরন অথবা ধরুন আপনার উচ্চতা সবকিছু gene দ্বারা নির্ধারিত। এই gene এ যদি কোন পরিবর্তন হয়, যা mutation নামে পরিচিত, তাহলে আপনার বৈশিষ্ট্যের পরিবর্তন হবে অথবা আপনার ওই gene থেকে সঠিক প্রোটিন তৈরি হবে না। যার ফল আপনারা আশেপাশে বিভিন্ন রোগের যেমন ক্যান্সার, থ্যালাসেমিয়া ইত্যাদি এর ক্ষেত্রে দেখতে পান। মূলকথা আপনি চাইবেন আপনার gene যেন সঠিকভাবে কাজ করে।

Gene Expression কি?

এখান থেকে আপনি প্রশ্ন করতে পারেন যে, gene যে প্রোটিন তৈরি এর তথ্য বহন করে সেই প্রোটিনগুলো কিভাবে তৈরি হয়। এখানেই মূলত আসে gene expression এর ধারণা। gene expression হল সেই প্রক্রিয়া যার মাধ্যমে gene থেকে RNA তৈরি হয় এবং ওই RNA পরবর্তীতে প্রোটিন তৈরি করে। অর্থাৎ এখানে দুইটি ধাপে সম্পন্ন হয়। প্রথমটিকে বলে Transcription যার মাধ্যমে DNA থেকে RNA তৈরি হয়। আর দ্বিতীয়টিকে বলে Translation, যার মাধ্যমে RNA থেকে প্রোটিন তৈরি হয়। এই পুরো প্রক্রিয়া হচ্ছে gene expression। এই gene expression এর মাধ্যমেই আমাদের দেহের সকল কাজ এবং প্রক্রিয়া সম্পন্ন হয়। এখন প্রশ্ন করতে পারেন যে, আমরা gene expression সম্পর্কে কেন জানব? একটা উদাহরণ বলতে পারি আমরা ক্যান্সার এর ক্ষেত্রে। যেসকল টিস্যুতে ক্যান্সার হয় সেখানে দেখা যায় কিছু gene বেশি সক্রিয় এবং কিছু gene কম সক্রিয়। এই বিষয়টি ব্যবহার করে ক্যান্সার এর কারণ এবং একই সাথে প্রতিকার বের করা সম্ভব।

২। প্রযুক্তিগত জ্ঞান (Technological Knowledge)

RNA-seq (RNA sequencing)

পূর্বের আলোচনা থেকে আমরা বুঝতে পারছি যে RNA সম্পর্কে ধারণা আমদের gene expression সম্পর্কে জানতে সাহায্য করে। RNAseq এমন একটি প্রযুক্তি যার মাধ্যমে আমরা কোষের মধ্যকার RNA এর সংখ্যা পরিমাণ করতে পারি এবং একই সাথে সেই তথ্য নিয়ে বিশ্লেষণ করতে পারি। তাহলে এর সুবিধা কি? RNAseq এর মাধ্যমে আমরা কোন gene কতটা সক্রিয় সে সম্পর্কে ধারণা পেতে পারি। সুতরাং RNAseq এর মাধ্যমে দুটি বিষয় আমরা জানতে পারি। ১। কোষ এ কোন gene টি প্রকাশিত হচ্ছে ২। প্রত্যেক gene সংখ্যায় কতবার প্রকাশিত হচ্ছে, তাহলে, এই বিষয়টার গুরুত্বটা কি দাঁড়াচ্ছে? RNAseq এর ডেটা নিয়ে বিশ্লেষণ করে আমরা পারি gene গুলোর পার্থক্য বের করতে । ধরুন, ক্যান্সার কোষগুলোতে সুস্থ (Normal) কোষ এর তুলনায় কোন gene বেশি সক্রিয় কোন gene কম সক্রিয়।

RNAseq sequencing প্রক্রিয়া

RNAseq-এর পুরো প্রক্রিয়াটি কয়েকটি ধাপে সম্পন্ন হয়:

আমার চেষ্টা থাকবে আপনাদের মূলত বিশ্লেষণ অংশটিতে focus করা। কিন্তু আপনাদের এই প্রক্রিয়া সম্পর্কে ধারণা থাকা ও গুরুত্বপূর্ণ। আপনি খুবই অল্প ভাষায় বলি। এই প্রযুক্তি তে প্রথমে কোষ থেকে RNA সংগ্রহ করা হয় এবং তারপর সেখান থেকে cDNA বানান হয় কারণ RNA স্থিতিশীল নয়। এই cDNA থেকে একটি লাইব্রেরি তৈরি করা হয় যাতে sequencing মেশিন ব্যাবহার করে প্রত্যেক ছোট ছোট অংশের sequence নির্ধারণ করা হয়। অর্থাৎ বের করা হয় (A,T,C,G) কোনটার পর কোনটা আছে। এই ছোট ছোট sequencing ডেটাকে মানুষ অথবা অন্য প্রাণী অথবা উদ্ভিত এর reference এর সাথে alignment বা মিলিয়ে দেখা হয়। এরপর আমরা Differential gene expression এর মাধ্যমে দেখি যে কোন gene বেশি সক্রিয় আর কোন gene কম সক্রিয়। পুরো বিষয়টি আরেক্তু বিস্তৃত। আমি একটু ছোট ধারণা দিচ্ছি এখানে। যদি মনে হয় আরও পরিষ্কার ধারণা লাগবে, আপনারা Youtube এ প্রক্রিয়া সম্পর্কে দেখতে পারেন।

আমি একইসাথে এই লিখার পরে একটি ফরম দিয়ে দিচ্ছি। আপনাদের মতামত জানানোর জন্য। যদি মনে করেন যে আমি পুরা বিষয়টি নিয়ে বিস্তৃত বর্ণনা দিব তাহলে জানাবেন।

মতামত জানাতে এখানে ক্লিক করুন

RNAseq ডেটা বিশ্লেষণ এর পরবর্তী অংশে আমরা ক্যান্সার সংক্রান্ত গবেষণার ডেটা ব্যবহার করবো তার সম্পর্কে জানব। এছাড়া আমরা বেশ কিছু RNAseq সংক্রান্ত Terminology সম্পর্কে জানব। এইগুলো আমদের মূল ভিত্তি তৈরি করবে। তারপরের দুটি অংশে আমরা R কোড এর মাধ্যমে সম্পূর্ণ বিশ্লেষণ করবো হাতে কলমে।

আশা করছি আজকের অংশ পরে আপনাদের বিশ্লেষণ করার আগ্রহ জমেছে। আমরা একসাথে ধীরে ধীরে সকল বিশ্লেষণ শেষ করবো। আমি ইমেইল এর মাধ্যমে ব্লগ এ কিছু যোগ করলে জানিয়ে দেই। আপনারা নিবন্ধন করে রাখলে ইমেইল এ Updates পেয়ে যাবেন।

আপডেট পাওয়ার জন্য নিবন্ধন করুন (Register for Updates)

আপনি যদি এই ব্লগের নিয়মিত আপডেট পেতে চান, তাহলে নিচের ফর্মটি পূরণ করুন। আমি নতুন কোনো কন্টেন্ট যোগ করার সাথে সাথেই আপনাকে ইমেইলের মাধ্যমে জানিয়ে দেব।

ফর্ম পূরণ করতে এখানে ক্লিক করুন

Part 2 পড়তে এখানে ক্লিক করুন