বাংলা ভাষার বর্ণের সংখ্যাগত অ্যানালাইসিস: সূচনা

কিছুদিন ধরেই ইচ্ছা করসিলো কিভাবে থিসিসের কাজ করার সময় বাংলা ভাষার ডাটা কালেকশন ও অ্যানালাইজ করেছিলাম সেটাকে ইমপ্রুভ করে আবার করি। আলসেমী করে হচ্ছিলোই না কাজটা তবে আর না, আজ লিখেই ফেলি। এখন ওটার সাথে আরো কি কিছু যোগ করা উচিত নাকি সেটা জানানোর অনুরোধ থাকলো সবার কাছে।

স্যাম্পল ডাটাসেট হিসেবে সবগুলি বাংলা বর্ণ আছে এমন বাক্যটাই নেই:
বর্ষামুখর দিন শেষে, ঊর্দ্ধপানে চেয়ে যখন আষাঢ়ে গল্প শোনাতে বসে ওসমান ভুঁইঞা, ঈষান কোণে তখন অন্ধকার মেঘের আড়ম্বর, সবুজে ঋদ্ধ বনভূমির নির্জনতা চিরে থেকে থেকে ঐরাবতের ডাক, মাটির উপর শুকনো পাতা ঝরে পড়ে ঔদাসীন্যে, এবং তারই ফাঁকে জমে থাকা ঢের পুরোনো গভীর দুঃখ হঠাৎ যেন বৃষ্টিতে ধুয়ে মুছে ধূসর জীবনে রঙধনু এনে দেয়।

এখানে আমরা যা যা ক্যালকুলেট করবো তার সবকয়টাই আমাদের পরবর্তী অ্যানালাইসিসে কাজে লাগবে। আপাত এগুলি ঠিক করেছি:

১) কোন বর্ণ কতবার আসলো
২) স্বরবর্ণগুলি এককভাবে কতবার আসলো
৩) ব্যঞ্জনবর্ণগুলি এককভাবে কতবার এসেছে
৪) ব্যঞ্জনবর্ণগুলি সংযুক্তভাবে কতবার এসেছে
৫) যুক্তবর্ণগুলির মাঝে সংযুক্ত হওয়ার বেলায় কোন অক্ষরের পরে বেশী ব্যঞ্জনবর্ণ সংযুক্ত হয়েছে
৬) স্বরবর্ণগুলির কার-রূপটা একক ব্যঞ্জনবর্ণের সাথে কয়বার,২টি ব্যঞ্জনবর্ণের যুক্তবর্ণের সাথে কয়বার আসছে, ৩টি ব্যঞ্জনবর্ণের যুক্তবর্ণের সাথে কয়বার আসছে
৭) য-ফলার সংখ্যা কতটি (এটা প্রয়োজন হবে কারণ ইউনিকোডে য-ফলাকে স্বীকৃতি দিয়ে একটা কোড দেয়া হয়েছে এর জন্যে সুতরাং আমরা য-ফলা হসন্ত চেপে য দিয়ে টাইপ করবো নাকি সরাসরি টাইপ করবো সেটার সিদ্ধান্ত নিতে এর ফ্রিকোয়েন্সী লাগবে)
৮) যুক্তবর্ণের সর্বমোট সংখ্যা কতটি (এটা কাজে লাগবে অভ্র নাকি রোকেয়া স্টাইল কোনটা প্রাধান্য পাবে এটা ঠিক করতে, যদি যুক্ত বর্ণ বেশি হয় তাহলে মনে হয় অভ্র যাতে কি প্রেস কম করতে হয় নয়তো রোকেয়া -ব্যাপারটা এমন আরকি)

ডাটা কালেকশনের এই ফেজে কোন কম্পু রিলেটেড কাজ নাই সুতরাং টেকি হন অথবা না হন আপনাদের কারোরই এই কাজে সাহায্য না করার কোন কারণ নাই 😉
সুতরাং সিনিয়র-ব্যাচমেট-জুনিয়ররা প্লিজ বলুন আরো কি কোন প্যারামিটার আসতে পারে এরকম ডাটাসেট দিয়ে আমাদের ভাষার বর্ণমালা অ্যানালাইসিসে ??? আসলে সেটা কি ??

@ ব্লগ অ্যাডমিন: আমি পোস্ট লিখার সময় ভিজুয়াল এডিটর আসবে এই প্রোপার্টিটা সেট করতে পারছি না প্রোফাইলে, এইচটিএমএল লেআউটে লিখতে খুব ঝামেলা। কোনভাবে ভিজুয়াল এডিটরটা পাবলিশার রোলের জন্যে ছেড়ে দেয়া যায় না ??

১,১১০ বার দেখা হয়েছে

২৭ টি মন্তব্য : “বাংলা ভাষার বর্ণের সংখ্যাগত অ্যানালাইসিস: সূচনা”

    • আহমেদ মাশফিক রায়হান সিউল (১৯৯৮-২০০৪)

      ধন্যবাদ ভাইয়া 🙂

      আমার ফোন নাম্বার একটা তবে সবসময় ফোনের পাশে থাকি না জন্যে অনেক কল মিস হয়ে যায় 🙁 আপনি আমাকে ফোন করলে সেটা মিস হয়ে গেলে উভয়ের জন্যেই ক্ষতি হবে তাই সেই দিকে না যাই। আমি ফ্রি মানুষ জন্যে আমার অবসর সময় মোটামুটি আনলিমিটেড তবে আপনার নিশ্চয়ই তা নয়। একারণে আমি বলব, আপনি যেকোন সময় আমাকে mas1485@gmail.com অ্যাড্রেসে মেইল করে বলবেন কখন আপনার সাথে কন্ট্যাক্ট করতে হবে, আমি সেইমত কন্ট্যাক্ট করবো 🙂 আমি এই মেইলটা প্রতিদিন ২বার চেক করি তাই মিস হওয়ার কোন চান্স নাই।

      জবাব দিন
  1. আহমেদ মাশফিক রায়হান সিউল (১৯৯৮-২০০৪)

    আমি সবার বোঝার জন্যে নিচে একটা সংখ্যাগত উদাহরণ দিচ্ছি। ধরুন, আমাদের যে বাক্য ইনপুট দেয়া হল তা হল:
    "এটা ক্যাডেট কলেজ ব্লগ। সদস্যদের ৯৯.৯৯% অবশ্যই ক্যাডেট"

    এখন এই বাক্যের অক্ষরগুলিকে বিভিন্নভাবে দেখলে আমরা যা যা গুণতে পারি তা হল:
    ১) মোট বর্ণ: ৪৫টি ( হসন্ত সহ)
    -এটা=৩, ক্যাডেট=৭, কলেজ=৪, ব্লগ=৪, সদস্যদের=৮, ৯৯.৯৯%=৬, অবশ্যই=৬, ক্যাডেট=৭
    ২) স্বরবর্ণ গুলি একক রূপে এসেছে: ২ বার
    - এটা তে "এ", অবশ্যই তে "ই"
    ৩) একক ব্যঞ্জনবর্ণ: ১৫টি
    টা, ডে, ট, ক, লে, জ, গ, স, দ, দে, র, ব, শ্য, ডে, ট
    ৪) সংযুক্ত ব্যঞ্জনবর্ণ: ৪টি
    ক্যা, ব্ল, শ্য, ক্যা
    ৫) যুক্ত ব্যঞ্জনবর্ণগুলির সংযুক্তি তালিকার ক্রম:
    য- ৩ বার (ক এর পরে য-ফলাতে, শ এর পরে য-ফলাতে), ল- ১ বার( ব এর পরে ল দিয়ে ব্লগ বানানে)
    ৬) স্বরবর্ণের কার রূপে সংযুক্ত হওয়ার ক্রম:
    আ-কার= ১, এ-কার= ২
    ৭) য-ফলা ৩টি
    ৮) স্বরবর্ণের ব্যঞ্জনবর্ণের সাথে যুক্ত না হয়ে এককভাবে যুক্ত হওয়ার ঘটনা: ১টি
    ( অবশ্যই বানানে ই-কার হয়নি শ্য এর সাথে) { পোস্টের ৮ নাম্বার ক্যাটাগরীটি পরিমার্জিত}

    পোস্টে জানতে চেয়েছি এমন ক্যালকুলেশন করার জন্যে আরো কি কি ক্রাইটেরিয়া হতে পারে 🙂

    জবাব দিন

মন্তব্য করুন

দয়া করে বাংলায় মন্তব্য করুন। ইংরেজীতে প্রদানকৃত মন্তব্য প্রকাশ অথবা প্রদর্শনের নিশ্চয়তা আপনাকে দেয়া হচ্ছেনা।