গবেষণায় ডেটা অ্যানালিসিসের প্রয়োজনীয় কিছু সফটওয়্যার

ndicia24

মে ১৭, ২০২২ | গবেষণা ও উন্নয়ন

Ended soon

বর্তমান পৃথিবীতে যত কাজ হচ্ছে সব কিছুতে ডাটা বা তথ্যের  প্রয়োজন রয়েছে। আমাদের আশেপাশে প্রতিনয়ত যা ঘটছে তাই এক একটি ডেটা বা ইনফরমেশন। ফেসবুকে স্ট্যাটাস দেয়া, মোবাইলের মাধ্যমে টাকা পাঠানো, সিনেমা ডাউনলোড করা বা অনলাইনে নিউজ পড়া, এ প্রতিটিই আপনার সম্পর্কে এক একটি ডেটা।

আপাতদৃষ্টিতে, এগুলোকে ক্ষুদ্র ক্ষুদ্র সম্পর্কহীন কাজ মনে হলেও, এই ডেটাগুলোই কিন্তু আমাদের চারপাশের পরিবেশকে নিয়ন্ত্রণ করে আমাদের প্রভাবিত করছে। ঠিক এরকম অগোছালো, অর্থবিহীন, দুর্বোধ্য ডেটাগুলোকে সমন্বয় করে সেখান থেকে প্রয়োজনীয় তথ্য, প্যাটার্ন, পরিসংখ্যান ইত্যাদি ব্যবহার উপযোগী কন্টেন্ট বের করার পদ্ধতিকে ডেটা অ্যানালিসিস বলে।

ডেটা অ্যানালিসিস ডেটা প্রসেস করার একটি ক্ষুদ্র অংশ। অ্যানালিসিসের পরে সেই ডেটাকে শব্দ ও ভিজ্যুয়ালাইজেশনের মাধ্যমে আরও তাৎপর্যপূর্ণ ও আকর্ষণীয় করে তোলা যায়। সেই সাথে এর ভিন্ন ভিন্ন অংশ দিয়ে ডেটা মাইনিং, বিগ ডেটাবেইজ তৈরি, ডেটা কম্পিউটেশন ইত্যাদি কাজ করা যায়। এই আর্টিকেলে ডেটা অ্যানালিসিসের কাজে ব্যবহৃত হয় এমন কিছু জনপ্রিয় সফটওয়্যার নিয়ে আলোচনা হলো।

STATA:

“Statistics” ও “Data” এ দুইটি শব্দের সমন্বয়ে গঠিত STATA সহজবোধ্য ও শক্তিশালী ডেটা অ্যানালিসিস সফটওয়্যারগুলোর মধ্যে অন্যতম একটি। এটি বিভিন্ন সামাজিক গবেষণা, মার্কেট গবেষণা বা স্বাস্থ্য সংক্রান্ত গবেষণায় বেশি ব্যবহৃত হয়। বর্তমান মার্কেটে ডেটা অ্যানালিসিসের জন্য ডেডিকেটেড যত সফটওয়্যার রয়েছে তার মধ্যে STATA তে তুললামূলক কম দামে এবং সহজবোধ্যভাবে ডেটা এন্ট্রি ও প্রসেসিং করা যায়। এছাড়াও এর মাল্টিপারপাস সারফেসের কারণে একই সাথে একাধিক “Do-file” কপি-পেস্ট করার সুবিধা রয়েছে, যার ফলে একাধিক প্রজেক্টে একসাথে কাজ করা যায়।

ধরুন, আপনি ঢাকা শহরের কত শতাংশ মানুষ পাবলিক পরিবহনে যাতায়াত করে সেটার একটা গাণিতিক পরিমাপ বের করতে চান। সেই অনুসারে একটি নির্দিষ্ট সংখ্যক মানুষের বিভিন্ন বৈশিষ্ট্য যেমন তাদের লিঙ্গ, বয়স, পেশা, গড়ে কতবার পরিবহনে যাতায়াত করে, কোন সময়ে করে – ইত্যাদি তথ্য আপনার কাছে আছে। এখন এই তথ্যগুলো STATA সফটওয়্যারে এন্ট্রি করে, আপনি একটি ক্লিকের মাধ্যমেই আপনার কাঙ্ক্ষিত ফলাফল পেয়ে যাবেন।

প্রতিযোগীতামূলক মার্কেটে টেক্কা দিয়ে থাকার জন্য STATA নিয়মিত নতুন আপডেট নিয়ে আসে সেই সাথে কোন ত্রুটি থাকলে দ্রুততম সময়ের মধ্যে সমাধান করে। এছাড়াও এখানে অন্যান্য কোড যেমন পাইথনের কোড কোন ধরনের সমস্যা ছাড়াই এমবেড করা যায়। যার ফলে ডেটা রিপ্রোডিউস (data reproduce) ও সেখান থেকে আবার কোডিং করতে কোন অসুবিধা হয় না।

Statistical Package for the Social Sciences (SPSS):

নামই বলে দিচ্ছে এই সফটওয়্যার কি নিয়ে কাজ করতে পারে। সোশ্যাল সাইন্সের শিক্ষক, শিক্ষার্থী ও গবেষকদের জন্য SPSS একটি অদ্বিতীয় সফটওয়্যার। এছাড়াও মার্কেট সংক্রান্ত গবেষণা, স্বাস্থ্যখাত,  শিক্ষাক্ষেত্র এবং বড় বড় প্রাতিষ্ঠানিক ও এথনোগ্রাফিক রিসার্চ ও জরিপ বিশ্লেষণের (survey analysis) জন্য SPSS খুবই দক্ষ একটি সফটওয়্যার।

SPSS ব্যবহার করে যেকোনো কোয়ান্টিটেটিভ গবেষণার numeric output পাওয়া যায়। পরিসংখ্যানের বেসিক কিছু বিষয় যেমন, mean, frequency, standard deviation, relationship between variables, correlation, regression, factor analysis ব্যবহার করে বড় বড় জটিল ডেটাসেটকে খুব সহজে এ্যানালাইসিস করে গ্রাফ, চার্টের মাধ্যমে প্রদর্শন করা যায়। বিশাল আকারের  hypothesis এর data test করার জন্যও SPSS এর চাহিদা রয়েছে।

যেমন, ধরে নেয়া যাক একটি সংস্থা রাজশাহী বিভাগের  করোনাভাইরাসে আক্রান্ত হয়ে সুস্থ হয়ে ওঠা মানুষের মধ্যে আদৌ রোগ প্রতিরোধ ক্ষমতা গড়ে উঠেছে কিনা তা নিয়ে বিস্তারিত গবেষণা করছে। তাদের কাছে রাজশাহী বিভাগে বসবাসরত ৫০ হাজার মানুষের ডেটা আছে। এখন এত বড় আকারের ডেটা বিশ্লেষণ করে, একটি তুলনামূলক যথাযথ উত্তর বের করার জন্য SPSS ব্যবহার করা যাবে।

SPSS এর সবচেয়ে বড় সমস্যাগুলোর একটি হল এখানে কোন ডেটা বা ডেটাসেট ইনপুট দেয়ার পর সফটওয়্যারটি কিভাবে এর ক্যালকুলেশন করছে সেটার বিস্তারিত জানা যায় না। শুধুমাত্র ফলাফল আর কোন ইকুয়েশন দিয়ে সমাধান করা হয়েছে তার একটা নির্দেশনা থাকে। যেটা সামাজিক বিজ্ঞানের গবেষণার জন্য যথেষ্ট। এজন্য স্কলারদের কাছে সফটওয়্যারটি জনপ্রিয় কিন্তু ঠিক একই কারণে চাকরির বাজারে SPSS এর চাহিদা কিছুটা কম। তাই Analytics এ ক্যারিয়ার গড়তে চাইলে শুধুমাত্র SPSS জানাটা তেমন একটা সুবিধাজনক নয়।

R (Programming Language):

R মূলত একটি প্রোগ্রামিং ল্যাংগুয়েজ কিন্তু ডেটা অ্যানালিসিসের জগতে এর ব্যবহার সুবিশাল। উপরের দুটি সফটওয়্যারের সাথে এর মূল পার্থক্য হচ্ছে এখানে কোডিং করে ইন্সট্রাকশন ইনপুট দিতে হয়। কোডটি করার সময় এর একটি ফুটপ্রিন্ট সর্বদা সংরক্ষণ করা হয়। যার ফলে অন্য একজন কোডার রেকর্ডটা দেখে কিভাবে কোডিং করা হয়েছে তা তাৎক্ষণিকভাবে বুঝে নিতে পারবে।

যে কারণে এই ল্যাংগুয়েজ ব্যবহার করে খুব সহজেই অন্য কারো সাথে যুক্ত হয়ে কাজ করা ও ডেটা রিপ্রোডিউস (data reproduce) করা যায়। আর একবার ডেটা অ্যানালিসিস সম্পন্ন হয়ে গেলে সেটা প্রদর্শনের জন্য R এর রয়েছে অসাধারণ গ্রাফিক ইমেজ ও ভিজ্যুয়ালাইজেশন লাইব্রেরী। যেখান থেকে পছন্দমত template নির্বাচন করে ডেটার আকর্ষণীয় আউটপুট তৈরি করা সম্ভব।

R এতটা জনপ্রিয় হওয়ার পেছনে আরেকটি গুরুত্বপূর্ণ কারণ হল এটি একটি ওপেন সোর্স প্লাটফর্ম বিধায় অন্যান্য যেকোনো ল্যাংগুয়েজের চেয়ে R এর readymade data package বেশি সহজলভ্য।

আর এর বিস্তৃত কমিউনিটি নেটওয়ার্কের মাধ্যমে কোন জায়গায় আটকে গেলে বা সমস্যায় পড়লে খুব সহজেই সাহায্য পাওয়া যায়। পরিসংখ্যান ও ডেটা নিয়ে কাজ করতে চাইলে R জানা আবশ্যকীয়। এ কারণেই পরিসংখ্যান, ডেটা মাইনিং, ডেটা সাইন্সের মত কাজে R এর চাহিদা অনেক বেশি। কিন্তু প্রোগ্রামিং সম্পর্কে বিন্দুমাত্র ধারণা ছাড়া কেউ R শিখতে গেলে সেটা বেশ কষ্টসাধ্য হয়ে যাবে। কারণ R প্রোগ্রামিং ল্যাংগুয়েজটি অন্যান্য অনেক ল্যাঙ্গুয়েজ যেমন পাইথনের চেয়ে কঠিন। তাই R এ ডেটা অ্যানালিসিস শুরু করার আগে বেসিক প্রোগ্রামিং ও কোডিং সম্পর্কে ধারণা রাখা ভাল।

Microsoft Excel:

যারা ডেটা অ্যানালিসিস নিয়ে আগ্রহী কিন্তু কখনো এক্সেল ব্যবহার করেন নি এমন মানুষ খুব কমই আছে। ডেটা এন্ট্রি দেয়া, ছক কেটে তথ্য সংগ্রহ করা, বড় বড় হিসাবের অংক কষে ফেলা – এমন ছোট থেকে বড় বহুবিধ কাজ নিমিষেই এক্সেলের মাধ্যমে করে ফেলা যায়। কিন্তু আমাদের দৈনন্দিন কাজে ব্যবহারের সময় আমরা অধিকাংশ ক্ষেত্রেই এক্সেলের খুব প্রাথমিক ফিচারগুলো ব্যবহার করি যেখানে এর ডেটা অ্যানালিসিসের টুলগুলো আলাদা করে তেমন একটা ব্যবহার করা হয়না।

ডেটা অ্যানালিসিসের জন্য এক্সেলের সবচেয়ে জনপ্রিয় টুলটি হল এর Pivot Table। এই টেবিলে ডেটা ইনপুট দিয়ে সহজ থেকে জটিল যেকোনো উপায়ে ডেটা সংক্ষেপন ও ব্যাখ্যা করা যায়; বিশাল বিশাল ডেটাসেটকে তাৎক্ষণিকভাবে পর্যবেক্ষণ করে মূল্যবান তথ্য সংগ্রহ করে ডেটা সাজানো যায়। এছাড়াও Pivot charts ও slicer ব্যবহার করে খুব স্বাচ্ছন্দ্যে ড্যাশবোর্ড তৈরি করা এবং ডেটা ভিজ্যুয়ালাইজ করা যায়।

কর্পোরেট জগতে এক্সেলের ব্যবহার নিয়ে নতুন করে বলার কিছু নেই। বিভিন্ন ইন্ডাস্ট্রিতে, মার্কেট গবেষণা, মার্কেট ইভ্যালুয়েশন, কর্মীদের মূল্যায়ন ও উন্নয়ন পরিমাপের কাজে এক্সেলের ডেটা অ্যানালিসিস টুলগুলো ব্যপকভাবে ব্যবহৃত হচ্ছে।

তবে বড় আকারের ডেটা নিয়ে কাজ করার ক্ষেত্রে এক্সেলের কিছুটা দুর্নাম রয়েছে। এক্সেলের পুরনো কিছু ভার্সনগুলোয় বড় ডেটাসেট অ্যানালিসিস করার পর অধিকাংশ ক্ষেত্রেই আউটপুটে সঠিক তথ্য আসে না। আরেকটা বড় সমস্যা হল, এক্সেলের স্টোরেজ ক্ষমতা। অনেক ক্ষেত্রেই ব্যবহারকারীরা এক্সেল নতুন আপডেট করলে বা ডিভাইস পরিবর্তন করলে পুরানো ডেটা হারিয়ে যাওয়ার বড় একটা আশঙ্কা থাকে। অনেক বড় বড় কোম্পানি এই ঝামেলায় পরে ব্যাপক ক্ষতির সম্মুখীন হয়েছে।

Python (Programming Language):

পাইথনকে বলা হয় “language of the present” – বর্তমানে বাজারে সেরা সব প্রোগ্রামিং ল্যাঙ্গগুয়েজকে পেছনে ফেলে পাইথন একাই একটি বিশাল জায়গা দখল করে ফেলেছে। কোডাররা তো বটেই, সায়েন্টিস্ট, অ্যাপ/সফটওয়্যার ডেভেলপার, গেম ডেভেলপার, ডেটা ও বিগ ডেটা এনালিসিস্ট এমনকি স্কুল-কলেজের শিক্ষার্থীরাও আজকাল পাইথন ব্যবহার করে মজার মজার প্রোগ্রাম তৈরি করছে।

এর “beginner friendly” syntax থাকার কারণে পাইথনকে নতুনদের জন্য সবচেয়ে বেশি উপযুক্ত প্রোগ্রামিং ল্যাঙ্গুয়েজ বলা হয়। এছাড়াও, যেকোনো সমস্যা সমাধানে অন্যান্য যেকোনো প্রোগ্রামিং ল্যাংগুয়েজের চেয়ে পাইথনে অল্প লাইন কোডিং করে খুব দ্রুত সমাধান করা যায়। ওপেন সোর্স ল্যাঙ্গুয়েজ হওয়ায় open source syntax, shareability, portability ও বিশাল কমিউনিটির মত সকল সুবিধা এখানে পাওয়া যাবে।

তবে শুধুমাত্র সহজবোধ্যাতাই কিন্তু পাইথনের একমাত্র সক্ষমতা নয়, বরং এর জটিল ও বিগ ডেটা অ্যানালিসিস সক্ষমতার কারণে গুগল, নেটফ্লিক্স, বিটটরেন্টের মত বাঘা বাঘা প্রতিষ্ঠানগুলো পাইথন ব্যবহার করে। গুগুল তাদের সার্চ ইঞ্জিনে নতুন নতুন ফিচার যুক্ত করার জন্য পাইথনে কোডিং করে। তবে ডেস্কটপ কম্পিউটারে প্রোগ্রামিং এর ক্ষেত্রে পাইথনের জয়জয়কার থাকলেও মোবাইল অ্যাপ ডেভেলপমেন্ট এর  ক্ষেত্রে পাইথনের অবস্থান খুবই দুর্বল, এমনকি একেবারে নেই বললেই চলে। তাই কারো যদি বিশেষভাবে মোবাইল এপ্লিকেশন তৈরির প্রতি আগ্রহ থাকে, তার জন্য পাইথন সঠিক প্রোগ্রামিং ল্যাংগুয়েজ নয়।

কিন্তু এর বাইরেও পাইথনের রয়েছে বিশাল এক বাজার যেখানে একজন দক্ষ এনালিসিস্টের কাজের কোন ঘাটতি হবেনা। তাই একটু মনোনিবেশ করে পাইথনটা ভালভাবে আয়ত্ত করে ফেলতে পারলেই কিন্তু আপনার জন্য চাকরির বাজারের অপার দুয়ার খুলে যাচ্ছে – সেটা ফ্রিল্যান্সিং মার্কেটপ্লেস থেকে শুরু করে এ্যাপল, মাইক্রোসফটের মত বড় বড় প্রতিষ্ঠান পর্যন্ত!

Tableau:

ডেটা খোঁজা ও ভিজ্যুয়ালাইজেশনের জন্য ট্যাবলো একটি প্রচলিত Business Intelligence (BI) সফটওয়্যার। কোন কোডিং বা আইটির ঝামেলা ছাড়াই শুধুমাত্র সফটওয়্যারের টুলগুলো ব্যবহার করে ডেটা অ্যানালিসিস, ভিজ্যুয়ালাইজ ও শেয়ার করা যায়। এছাড়াও এখানে মাইক্রোসফট এক্সেল, ওরাকল, গুগল অ্যানালিটিক্স, সেলসফোর্সের মত সফটওয়্যারগুলোরও ডেটা সাপোর্ট করে।

তবে ওপেন সোর্স সফটওয়্যার না হওয়ার কারণে ট্যাবলোর কিছু সীমাবদ্ধতাও রয়েছে। তার মধ্যে অন্যতম হল ব্যবহারকারী তার প্রয়োজনমত কাস্টমাইজড ভিজ্যুয়াল অন্য কোনো সফটওয়্যারে তৈরি করে এখানে ইমপোর্ট করতে পারেনা। এখানে ট্যাবলোর নির্দিষ্ট স্টকের উপর তাকে নির্ভর করতে হয়।

ব্যক্তিগত ব্যবহারের জন্য ট্যাবলু ফ্রি হলেও আরও ফিচার যুক্ত শক্তিশালী কার্যক্ষমতার জন্য বেশ চড়া দামে সফটওয়্যারটি কিনতে হয়।  বর্তমানে ট্যাবলোর ৩ টি সাবস্ক্রিপশন ফিচার রয়েছে যথা ট্যাবলো ডেস্কটপ (সবার জন্য উন্মুক্ত), ট্যাবলো সার্ভার (প্রতিষ্ঠানের জন্য অ্যানালিটিক্স), ট্যাবলো অনলাইন (প্রতিষ্ঠানের জন্য অ্যানালিটিক্স হোস্টিং সফটওয়্যার)।

MATLAB:

ম্যাট্রিক্স কম্পিউটেশন করে জটিল সমস্যা সমাধানের জন্য “Matrix” ও “Laboratory” শব্দ দুটিকে একসাথে MATLAB করে এই প্রোগ্রামিং ল্যাংগুয়েজের সূত্রপাত। এতক্ষণ আমরা যতগুলো ডেটা অ্যানালিসিস সফটওয়্যার নিয়ে আলোচনা করলাম, ম্যাটল্যাব সেই প্রত্যেকটির তুলনায় দক্ষতা ও কাজের ধরণের দিক থেকে অত্যন্ত জটিল এবং অত্যাধুনিক। এখানে নিউমেরিকাল কম্পিউটেশন ও ডেটা ভিজ্যুলাইজেশন একই সাথে কাজ করে।

ডেটা অ্যানালিটিক্সের ক্ষেত্রে এর সুবিধাদি অন্যান্য দক্ষ সফটওয়্যারগুলোর মত হলেও এর শক্তিশালী প্রোগ্রামিং ল্যাঙ্গুয়েজের জন্য গণিদবিদ, বিজ্ঞানী ও ইঞ্জিনিয়াররা ম্যাটল্যাবের ওপর ভরসা করে থাকেন। তবে নতুনদের জন্য ম্যাটল্যাব শিখতে যাওয়ার সবচেয়ে বড় বাধাটা হল এর মূল্য। এখানে উল্লিখিত বাকি সব সফটওয়্যারের চেয়ে ম্যাটল্যাবের মূল্য অনেক বেশি এবং এর কোন ফ্রী ভার্সন বাজারে নেই। এছাড়াও, কাজের সমানুপাতে সফটওয়্যারটি আকারেও অনেক বড়, তাই ব্যবহারকারীর কম্পিউটারে অনেকখানি জায়গা দখলের পাশাপাশি একে ধীরগতির করে ফেলে।

পরিশেষে, ডেটা নিয়ে কাজ করতে আগ্রহ আছে এবং এ সেক্টরে ক্যারিয়ার গড়তে চান এমন মানুষের জন্য ম্যাটল্যাব খুবই শক্তিশালী প্ল্যাটফর্ম যেটা আয়ত্ত করলে অন্য যেকোনো প্রোগ্রামিং ল্যাংগুয়েজ বা সফটওয়্যার শিখতে তেমন একটা কষ্ট হবে না।

Power BI:

মাইক্রোসফট পাওয়ার বিআই একটি Business Intelligence (BI) প্ল্যাটফর্ম যা ননটেকনিক্যাল ব্যবসায়িক ব্যবহারকারীদের ডেটা একত্রকরণ, বিশ্লেষণ, দৃশ্যায়ন এবং শেয়ার করার যাবতীয় টুল সরবরাহ করে। এক্সেল ব্যবহারকারীদের জন্য পাওয়ার বিআই এর ইন্টারফেস বেশ পরিচিত মনে হবে। পাশাপাশি মাইক্রোসফটের অন্যান্য প্রোডাক্টের সাথে এর সামঞ্জস্য থাকার কারণে এটি শিখতে তেমন একটা বেগ পেতে হবে না।

ক্ষুদ্র থেকে মাঝারি আকারের ব্যবসার জন্য পাওয়ার বিআইয়ের একটি ফ্রি সংস্করণ রয়েছে। আর বড় বড় প্রতিষ্ঠানের জন্য রয়েছে সাবস্ক্রিপশন ফি ভিত্তিক পাওয়ার বিআই প্লাস নামক প্রফেশনাল সংস্করণ। এই সফটওয়্যারটি আলাদা আলাদা ডেটাসেট সংযুক্ত করতে, ডেটা রূপান্তর ও পরিষ্কার করে ডেটা মডেল তৈরি করতে এবং ডেটার ভিজ্যুয়াল সরবরাহ করে চার্ট বা গ্রাফ তৈরি করতে সহায়তা করে। আর এ পুরো প্রক্রিয়াটি প্রতিষ্ঠানের সবার সাথে শেয়ারও করা যায়।

উপরে আলোচনা করা সফটওয়্যার ছাড়াও বাজারে আরো অনেক ধরনের, অনেক মানের ডেটা অ্যানালিসিস সফটওয়্যার রয়েছে। যেগুলোর প্রতিটিই একটি নির্দিষ্ট কাজ বা ক্যাটাগরিকে টার্গেট করে, বিভিন্ন সুবিধাদি ও ফিচার দিয়ে সাজানো। একজন প্রফেশনাল তার প্রয়োজন ও সামর্থ্য অনুযায়ী সফটওয়্যার নির্বাচন করে। তাই একজন দক্ষ ডেটা এনালিসিস্ট হতে হলে প্রাথমিক কিছু টুল সম্পর্কে জ্ঞানার্জনের পর এক বা একাধিক বিশেষায়িত সফটওয়্যার পরিচালনায় পারদর্শী হতে হবে।

ডেটার জগত যেমন বিশাল, তেমনি প্রতিনিয়ত পরিবর্তনশীল। তাই নতুন আপডেট, নতুন সফটওয়্যার ও প্রযুক্তির খোঁজখবর রাখতে হবে, যেন সব আপনার নখদর্পনে থাকে।

ফেসবুকে মন্তব‌্য করুন