কিছুদিন ধরেই ইচ্ছা করসিলো কিভাবে থিসিসের কাজ করার সময় বাংলা ভাষার ডাটা কালেকশন ও অ্যানালাইজ করেছিলাম সেটাকে ইমপ্রুভ করে আবার করি। আলসেমী করে হচ্ছিলোই না কাজটা তবে আর না, আজ লিখেই ফেলি। এখন ওটার সাথে আরো কি কিছু যোগ করা উচিত নাকি সেটা জানানোর অনুরোধ থাকলো সবার কাছে।
স্যাম্পল ডাটাসেট হিসেবে সবগুলি বাংলা বর্ণ আছে এমন বাক্যটাই নেই:
বর্ষামুখর দিন শেষে, ঊর্দ্ধপানে চেয়ে যখন আষাঢ়ে গল্প শোনাতে বসে ওসমান ভুঁইঞা,