কিছুদিন ধরেই ইচ্ছা করসিলো কিভাবে থিসিসের কাজ করার সময় বাংলা ভাষার ডাটা কালেকশন ও অ্যানালাইজ করেছিলাম সেটাকে ইমপ্রুভ করে আবার করি। আলসেমী করে হচ্ছিলোই না কাজটা তবে আর না, আজ লিখেই ফেলি। এখন ওটার সাথে আরো কি কিছু যোগ করা উচিত নাকি সেটা জানানোর অনুরোধ থাকলো সবার কাছে।
স্যাম্পল ডাটাসেট হিসেবে সবগুলি বাংলা বর্ণ আছে এমন বাক্যটাই নেই:
বর্ষামুখর দিন শেষে, ঊর্দ্ধপানে চেয়ে যখন আষাঢ়ে গল্প শোনাতে বসে ওসমান ভুঁইঞা, ঈষান কোণে তখন অন্ধকার মেঘের আড়ম্বর, সবুজে ঋদ্ধ বনভূমির নির্জনতা চিরে থেকে থেকে ঐরাবতের ডাক, মাটির উপর শুকনো পাতা ঝরে পড়ে ঔদাসীন্যে, এবং তারই ফাঁকে জমে থাকা ঢের পুরোনো গভীর দুঃখ হঠাৎ যেন বৃষ্টিতে ধুয়ে মুছে ধূসর জীবনে রঙধনু এনে দেয়।
এখানে আমরা যা যা ক্যালকুলেট করবো তার সবকয়টাই আমাদের পরবর্তী অ্যানালাইসিসে কাজে লাগবে। আপাত এগুলি ঠিক করেছি:
১) কোন বর্ণ কতবার আসলো
২) স্বরবর্ণগুলি এককভাবে কতবার আসলো
৩) ব্যঞ্জনবর্ণগুলি এককভাবে কতবার এসেছে
৪) ব্যঞ্জনবর্ণগুলি সংযুক্তভাবে কতবার এসেছে
৫) যুক্তবর্ণগুলির মাঝে সংযুক্ত হওয়ার বেলায় কোন অক্ষরের পরে বেশী ব্যঞ্জনবর্ণ সংযুক্ত হয়েছে
৬) স্বরবর্ণগুলির কার-রূপটা একক ব্যঞ্জনবর্ণের সাথে কয়বার,২টি ব্যঞ্জনবর্ণের যুক্তবর্ণের সাথে কয়বার আসছে, ৩টি ব্যঞ্জনবর্ণের যুক্তবর্ণের সাথে কয়বার আসছে
৭) য-ফলার সংখ্যা কতটি (এটা প্রয়োজন হবে কারণ ইউনিকোডে য-ফলাকে স্বীকৃতি দিয়ে একটা কোড দেয়া হয়েছে এর জন্যে সুতরাং আমরা য-ফলা হসন্ত চেপে য দিয়ে টাইপ করবো নাকি সরাসরি টাইপ করবো সেটার সিদ্ধান্ত নিতে এর ফ্রিকোয়েন্সী লাগবে)
৮) যুক্তবর্ণের সর্বমোট সংখ্যা কতটি (এটা কাজে লাগবে অভ্র নাকি রোকেয়া স্টাইল কোনটা প্রাধান্য পাবে এটা ঠিক করতে, যদি যুক্ত বর্ণ বেশি হয় তাহলে মনে হয় অভ্র যাতে কি প্রেস কম করতে হয় নয়তো রোকেয়া -ব্যাপারটা এমন আরকি)
ডাটা কালেকশনের এই ফেজে কোন কম্পু রিলেটেড কাজ নাই সুতরাং টেকি হন অথবা না হন আপনাদের কারোরই এই কাজে সাহায্য না করার কোন কারণ নাই 😉
সুতরাং সিনিয়র-ব্যাচমেট-জুনিয়ররা প্লিজ বলুন আরো কি কোন প্যারামিটার আসতে পারে এরকম ডাটাসেট দিয়ে আমাদের ভাষার বর্ণমালা অ্যানালাইসিসে ??? আসলে সেটা কি ??
@ ব্লগ অ্যাডমিন: আমি পোস্ট লিখার সময় ভিজুয়াল এডিটর আসবে এই প্রোপার্টিটা সেট করতে পারছি না প্রোফাইলে, এইচটিএমএল লেআউটে লিখতে খুব ঝামেলা। কোনভাবে ভিজুয়াল এডিটরটা পাবলিশার রোলের জন্যে ছেড়ে দেয়া যায় না ??
গোল 😀 :gulli2:
ভাই ,চালিয়ে যান :thumbup:
প্রথম গোল দেয়ায় স্ট্রাইকার অফ দ্য ডে উপাধি দিয়ে দিলাম তোমাকে 😉
🙂
দ্বিতীয় হওয়ার হাসি এইটা ?? 😐
সিউল,
কাজ চালিয়ে যাও। পারলে আমার ই-মেইলে তোমার ফোন নাম্বার জানিও, সুযোগ মত যোগাযোগ করবো।
saif_shahid@yahoo.com
ধন্যবাদ ভাইয়া 🙂
আমার ফোন নাম্বার একটা তবে সবসময় ফোনের পাশে থাকি না জন্যে অনেক কল মিস হয়ে যায় 🙁 আপনি আমাকে ফোন করলে সেটা মিস হয়ে গেলে উভয়ের জন্যেই ক্ষতি হবে তাই সেই দিকে না যাই। আমি ফ্রি মানুষ জন্যে আমার অবসর সময় মোটামুটি আনলিমিটেড তবে আপনার নিশ্চয়ই তা নয়। একারণে আমি বলব, আপনি যেকোন সময় আমাকে mas1485@gmail.com অ্যাড্রেসে মেইল করে বলবেন কখন আপনার সাথে কন্ট্যাক্ট করতে হবে, আমি সেইমত কন্ট্যাক্ট করবো 🙂 আমি এই মেইলটা প্রতিদিন ২বার চেক করি তাই মিস হওয়ার কোন চান্স নাই।
টিনের মেঠেলখান আমি ই পাইলাম 😀
কি হেল্প সেইটাই বুঝি নাই ভাইয়া 😕
হেল্প মানে ক্যাটাগরাইজ করার ক্রাইটেরিয়াগুলি সনাক্ত করা আরকি। :-B :-B নিচে একটা উদাহরণ দিচ্ছি। আশা করি বিষয়টা বেশী ক্লিয়ার হবে
টিনের পরে কি লোহার মেডেল আছে ?? আমিও একটা মেডেল চাই । 😀
আমি পিতল পাইছি। 😀 😀
কি খটমটা কথা, অর্ধেকই বুঝি নাই :no: :no:
যেমন রক্তের মধ্যে জন্ম নেয় সোনালি অসুখ-তারপর ফুটে ওঠে ত্বকে মাংসে বীভৎস ক্ষরতা।
জাতির শরীরে আজ তেম্নি দ্যাখো দুরারোগ্য ব্যাধি - ধর্মান্ধ পিশাচ আর পরকাল ব্যবসায়ি রূপে
- রুদ্র মুহম্মদ শহীদুল্লাহ
পুরাই ফেইল যদি কিছু না বুঝাতে পারি 🙁
ভাই রইস স্যার অথবা লতিফা ম্যাডাম কে বললে ওনারা ভালো হেল্প করতে পারবেন ।
সেটা ঠিক আছে, তবে তোমরাও পারবা। এটা এমন কঠিন কিছু না :no:
ভাইয়া বাংলা বাক্যটা কার আবিষ্কার ? তারে স্যালুট ।
অফ টপিকঃ চালিয়ে যান ভাইয়া ।আপনার সাফল্য কামনা করছি
আমার আমার 😀
যেমন রক্তের মধ্যে জন্ম নেয় সোনালি অসুখ-তারপর ফুটে ওঠে ত্বকে মাংসে বীভৎস ক্ষরতা।
জাতির শরীরে আজ তেম্নি দ্যাখো দুরারোগ্য ব্যাধি - ধর্মান্ধ পিশাচ আর পরকাল ব্যবসায়ি রূপে
- রুদ্র মুহম্মদ শহীদুল্লাহ
বাংলা বর্ণমালা-বাক্য যার আবিস্কার তাকে আমারও স্যালুট। আমি বর্ণমালা নিয়ে একটা পেপারের কাজ করেছি, ওটায় বাংলা বর্ণমালাকে খুব ক্লোজলি পর্যবেক্ষন করার সুযোগ হয়েছিল। রূপকথার মত সবকিছু লেগেছে 🙂
ভালই লেগেছে।চালিয়ে যান :clap:
থ্যাংকস 🙂
আমি সবার বোঝার জন্যে নিচে একটা সংখ্যাগত উদাহরণ দিচ্ছি। ধরুন, আমাদের যে বাক্য ইনপুট দেয়া হল তা হল:
"এটা ক্যাডেট কলেজ ব্লগ। সদস্যদের ৯৯.৯৯% অবশ্যই ক্যাডেট"
এখন এই বাক্যের অক্ষরগুলিকে বিভিন্নভাবে দেখলে আমরা যা যা গুণতে পারি তা হল:
১) মোট বর্ণ: ৪৫টি ( হসন্ত সহ)
-এটা=৩, ক্যাডেট=৭, কলেজ=৪, ব্লগ=৪, সদস্যদের=৮, ৯৯.৯৯%=৬, অবশ্যই=৬, ক্যাডেট=৭
২) স্বরবর্ণ গুলি একক রূপে এসেছে: ২ বার
- এটা তে "এ", অবশ্যই তে "ই"
৩) একক ব্যঞ্জনবর্ণ: ১৫টি
টা, ডে, ট, ক, লে, জ, গ, স, দ, দে, র, ব, শ্য, ডে, ট
৪) সংযুক্ত ব্যঞ্জনবর্ণ: ৪টি
ক্যা, ব্ল, শ্য, ক্যা
৫) যুক্ত ব্যঞ্জনবর্ণগুলির সংযুক্তি তালিকার ক্রম:
য- ৩ বার (ক এর পরে য-ফলাতে, শ এর পরে য-ফলাতে), ল- ১ বার( ব এর পরে ল দিয়ে ব্লগ বানানে)
৬) স্বরবর্ণের কার রূপে সংযুক্ত হওয়ার ক্রম:
আ-কার= ১, এ-কার= ২
৭) য-ফলা ৩টি
৮) স্বরবর্ণের ব্যঞ্জনবর্ণের সাথে যুক্ত না হয়ে এককভাবে যুক্ত হওয়ার ঘটনা: ১টি
( অবশ্যই বানানে ই-কার হয়নি শ্য এর সাথে) { পোস্টের ৮ নাম্বার ক্যাটাগরীটি পরিমার্জিত}
পোস্টে জানতে চেয়েছি এমন ক্যালকুলেশন করার জন্যে আরো কি কি ক্রাইটেরিয়া হতে পারে 🙂
সুন্দর এনালাইসিস
চ্যারিটি বিগিনস এট হোম
😀
O:-) O:-)
বুঝি নাই 🙁 🙁 🙁
:thumbup: আমিও :thumbdown:
তারপরেও কেন জানি মজা পাচ্ছি
চ্যারিটি বিগিনস এট হোম
কি বুঝলেন না ??? 😐
লেখাটার ফলোআপের অপেক্ষায় থাকলাম।
চ্যারিটি বিগিনস এট হোম
এই মাসে হবে না মনে হয়, আগামী মাসে ইনশাল্লাহ আপডেট আসবে 🙂