বাংলা ভাষার শব্দগুলি থেকে ডাটা কালেকশন: মন্তব্য প্রয়োজন

“সকাল নয়টা থেকে সন্ধ্যা সাড়ে ছয়টা পর্যন্ত অফিস” লাইফে মানিয়ে নিতেই চলে গেল বেশ কিছুদিন। এতদিন আসা হয়নি এই ব্লগে, আজকে ছুটির দিন পেয়ে নিজের কাজটা ঠিকপথে আছে নাকি সেটা নিয়ে আলোচনা করতে (এবং তালে তালে রংপুরের পোস্ট একটা বাড়িয়ে নিতে 😀 ) চলে আসলাম ব্লগে। তবে এসে প্রথম ২টা পোস্ট পড়ে যথেষ্ঠই টাশকায়িত হইলাম কারণ ধর্ম+মডারেশন নিয়ে মনে হচ্ছে ধুন্ধুমার হয়ে গেছে।

শার্লক হোমসের বাংলায় অনুবাদ করা “শার্লক হোমস অমনিবাস” করা বইটা কেউ পড়েছেন ?? ওখানে শার্লক হোমসের একটা ডায়লগ আমার খুব ভাল লেগেছিল। ওয়াটসন যখন জানতে পারে “পৃথিবী সূর্যের চারদিকে ঘোরে এটা হোমস জানে না” তখন সীমাহীন বিস্ময়ে সে হোমসকে এর কারণ বলতে বললে হোমস উত্তর দেয় সে কখনোই মনে করেনি এটা তার জানা প্রয়োজন কারণ পৃথিবী জুপিটার/চাঁদ/ইউরেনাস/প্লুটো এগুলির চারদিকে ঘুরলেও তার বিন্দুমাত্র কিছু যায় আসতো না, সুতরাং সে কখনোই এই তথ্য জানার প্রয়োজন মনে করেনাই।

আমার মনে হয় ধর্মের ব্যাপারটাও সেরকমই। যিনি(আমি নিজেও এই গোত্রের) মনে করেন ধর্মের প্রয়োজন রয়েছে তিনি সেটায় বিশ্বাস করেন আর যিনি ভাবেন না তিনি ভাবেন না, সিম্পল 🙂 দিনের শেষে সবাই একসাথেই শহীদ মিনারে আড্ড দিতে বসি,তাইনা ??? কি দরকার কে কি জানে/বিশ্বাস করে এটা নিয়ে মাথা ঘামিয়ে ?

যাই হোক, আমি আমার সাহায্য চাওয়ার পয়েন্টে আসি। আপনারা মনে হয় জানেন আমি বাংলা কিবোর্ড নিয়ে কাজ করছি। এখন কাজটার প্রথম ফেজ (অ্যানালাইসিস) শেষ, দ্বিতীয় ফেজে হবে ডাটা কালেকশন………….ডাটা কালেকশন একটা ইমপরটেন্ট জিনিস কারণ বায়াসড ডাটার কারণে পুরো প্রজেক্ট ফেল করে যাবে। যেমন, ধরুন আমি স্যাম্পল ৫টা ডকুমেন্ট নিলাম যার মাঝে ১টা হল “ক্যাডেট কলেজে ৬টি বছর” এই শিরোনামের পোস্ট। নিশ্চিতভাবেই এখানে ক্যাডেট/কলেজ/ক্লাস/প্রেপ/হাউস এই শব্দগুলির প্রাধান্য থাকবে কিন্তু একটু ভেবে দেখুন আমি যদি দাবী করি বাংলা ভাষার সকল ডকুমেন্টের মাঝে ২০% ডকুমেন্টই হল এই শব্দগুলি নিয়ে তাহলে কি ঠিক হবে ?? (২০% বললাম কারণ ৫টার মাঝে ১টা ডকুমেন্ট এরকমের ডাটা দিচ্ছে) সুতরাং ডাটা হতে হবে পুরোপুরি বায়াস মুক্ত

আমার টার্গেট ১০ লক্ষ অক্ষর এক করা। (একটা ব্লগ পোস্টে ৪০০ অক্ষর থাকে ধরে নিলে এমন 2৫০০ ব্লগ পোস্ট দরকার) এভাবে করতে গেলে সমস্যা হল বায়াসড ডাটা চলে আসবে অনেক। আমি নাহয় ব্লগ পোস্টের টাইটেল চেক করে এরপরে সেই ডাটা অ্যালাউ করতে পারি কিন্তু এরপরেও সমস্যা থেকেই যায় কারণ কিবোর্ডের একটা বড় ব্যবহারকারী হলেন সরকারী/বেসরকারী অফিসের কেরানীরা যারা বিভিন্ন অফিসিয়াল ডকুমেন্ট টাইপ করেন। আমি ওগুলি তো আর ব্লগে বা নেটে পাব না সুতরাং ওগুলি’র জন্যে কি করা যেতে পারে ??? আর সবশেষ সমস্যা হল আমি কি প্রথাগত ডাটা গ্রহণ করবো নাকি কিছুটা বিকৃত ডাটাও নিব ?? যেমন, করতেসি-যাইতেসি আমরা বললেও লিখার ভাষায় এগুলি হল করছি-যাচ্ছি……. সুতরাং কোন ডকুমেন্টে করতেসি-যাইতেসি টাইপের শব্দ বেশী থাকলে সেটাকে নিব নাকি নিব না ???

মন্তব্য দিলে খুশী হব……. সামারি করে পয়েন্টগুলি আরেকবার লিখি,

■ ১০,০০,০০০ অক্ষরের মাঝে ব্লগজগত থেকে কত % ডাটা নেয়া উচিত ?? ব্লগজগত বলতে আসলে ডায়েরী টাইপের লিখা বলছি, মানে দৈনন্দিন জীবনে কথাবার্তা নিয়ে লিখা কোন কিছু
■ অফিসিয়াল কাজে ব্যবহৃত ডাটা কিভাবে পেতে পারি ??
■ কথ্য রূপে প্রচলিত কিন্তু লেখ্য রূপে নয় এমন শব্দ নেয়া উচিত নাকি উচিত নয় ??
■ যেকোন ডকুমেন্টে কোন নির্দিষ্ট একটা পয়েন্ট লিখা সুতরাং সেখানে সেল্ফ বায়াসিং থাকতেই পারে (যেমন: সরকারী ডকুমেন্টে “সরকার” শব্দটা বেশী পাব, ধর্ম নিয়ে লিখাতে “ধর্ম” শব্দটা বেশী পাব)……. তাই কোন একটা শব্দ খুব বেশী পরিমাণে থাকলে সেই ডকুমেন্ট ডাটা কালেকশনের জন্যে ইনভ্যালিড বলাই ভাল……….. আমি ভাবছি, ১০% এর উপরে কোন শব্দ কোন ডকুমেন্টে রিপিট করলে সেই ডকুমেন্ট বাদ। আপনারা কি একমত ??

ভাল থাকবেন সবাই………

১,২০০ বার দেখা হয়েছে

২৮ টি মন্তব্য : “বাংলা ভাষার শব্দগুলি থেকে ডাটা কালেকশন: মন্তব্য প্রয়োজন”

    • শাফি (০২-০৮)

      অবিশেষজ্ঞদের মতামতে যেহেতু ক্যাসুয়াল লেখকের সংখা বেশি, তাই মনে হয় গল্প, সাধারণ ব্লগ থেকেই বেশি ইনপুট নেয়া উচিত। যারা অফিসিয়াল কাজে সবসময় লিখে তারা যেকোনো লেআউটেই অভ্যস্ত হয়ে যাবেন। এখন করতেসি-খাইতেসি ভাবে লেখার চল বেশি, আরও বাড়বে মনে হয়। তাই এধরনের শব্দও মনে হয় হিসাবে রাখা উচিত।

      জবাব দিন
      • আহমেদ মাশফিক রায়হান সিউল (১৯৯৮-২০০৪)

        লেআউটে অভ্যস্থ হওয়া পরের ব্যাপার কারণ আমাদের কাজ লেআউট বের করা, সেটা ইমপ্লিমেন্ট হবে কি হবে না সেটা পরের ব্যাপার। তবে এটা ঠিক তাদের অভ্যস্থ হতে টাইম লাগবে না।

        ডাটা কালেকশন নিয়ে যা বললা তার সাথে আমি ব্যক্তিগতভাবে একমত, সামনে করতেসি-যাইতেসি এগুলি পাঠ্যবইতেও আসবে (যদিও সামনে মানে ২ বছর না, মিনিমাম ২০ বছর)........

        প্রথমে যা বলছো ওটাই করবো মূলত...... সাহিত্য কর্মগুলি থেকেই উল্লেখযোগ্য পরিমাণ ডাটা নিব।

        কোথায় এখন ??? হলে নাকি বাসায় ??? রেজাল্ট ১৪ তারিখে না ??

        জবাব দিন
  1. মশিউর (২০০২-২০০৮)

    অক্ষর বলতে কি ভাইয়া শব্দ বুঝাতে চাচ্ছেন ? আমি কিছু কথ্য রূপে প্রচলিত কিন্তু লেখ্য রূপে নয় এমন শব্দ নেয়ার পক্ষে । কারণ এগুলো ধীরে ধীরে আমাদের লেখাতে চলে 'আসতেছে' । যাই হোক গোল । 😀

    জবাব দিন
  2. আহমেদ মাশফিক রায়হান সিউল (১৯৯৮-২০০৪)

    রেটিং দেখে একটা প্রশ্ন মাথায় আসলো........ রেটিং কি আলাদা কিছু মিন করে এখানে ?? (আমি এই ব্লগে রেগুলার না তাই জানিনা)

    আলাদা কিছু মিন করলেও অবশ্য কিছু করার নাই, যে যেমন তার আউটপুটও সেরকমই হবে। আমার কাছে ৫/৫ এর লেখা আশা করে লাভ নাই

    জবাব দিন
  3. মাহমুদ (১৯৯০-৯৬)

    আমি টেকনোলজি কম বুঝি। তাই তোমার এই কিবোর্ড নিয়ে কাজ সংক্রান্ত কোন তথ্যই দিতে পারছি না। তবে খুব ভালো লাগে এই ভেবে যে, তুমি অনেক বড় একটা প্রজেক্ট নিয়ে এগুচ্ছো। দোওয়া করি, সফল হও।


    There is no royal road to science, and only those who do not dread the fatiguing climb of its steep paths have a chance of gaining its luminous summits.- Karl Marx

    জবাব দিন
  4. আহসান আকাশ (৯৬-০২)

    টেকি অজ্ঞান হওয়ায় সাহায্য করতে পারছি না, তবে তোমার সফলতা কামনা করছি


    আমি বাংলায় মাতি উল্লাসে, করি বাংলায় হাহাকার
    আমি সব দেখে শুনে, ক্ষেপে গিয়ে করি বাংলায় চিৎকার ৷

    জবাব দিন
  5. মরতুজা (৯১-৯৭)

    সিউল,

    সব মনে নেই আমি কি কি পড়েছিলাম কিন্তু মনে হচ্ছে এখন তোমার পরিসংখ্যানের অভিজ্ঞ লেভেলের কোর্স করা দরকার। এই বিষয়গুলো তুমি ব্লগ কমিউনিটি থেকে পুরো ফলাফল পাবে না। এই বিষয়গুলি পুরোপুরি তাত্তিক পরিসংখ্যান। যেমন পয়সন বিন্যাস, কনফিডেন্স ইন্টার্ভাল, কতটুকু কনফিডেন্স নেবে, র‌্যান্ডম স্যাম্পলিং, এই বিষয়গুলোর ভালো ধারনা তোমার এখন দরকার। উচ্চ মাধ্যমিকের পরিসংখ্যান নয়, তুমি যে লেভেলের কাজ করতে চাচ্ছ তার জন্য অন্তত মাস্টার্স লেভেলের জ্ঞান দরকার। বুয়েটের কোর্স ফাউন্ডেশন হিসবে নিতে পার। কিন্তু আন্তর্জাতিক পর্যায়ের রিসার্চ ফলাফলের জন্য সঠিক পরিসংখ্যান জ্ঞানের বিকল্প নেই।

    ব্লগ কমিউনিটি তোমাকে আইডিয়া দিতে পারে কিভাবে সরকারী ডকুমেন্টস তুমি সংগ্রহ করতে পার। কিন্তু আসল তাত্ত্বিক পর্যালোচনার জন্য সঠিক তাত্ত্বিক জ্ঞানের বিকল্প নেই। আশা করি বুঝাতে পেরেছি।

    জবাব দিন
    • আহমেদ মাশফিক রায়হান সিউল (১৯৯৮-২০০৪)

      না ভাইয়া, এখানে আমি ডাটা নিয়ে খুব একটা চিন্তিত না। ডাটা গুলি'র অ্যারাইভাল স্টোকাস্টিক নাকি মেমোরীলেস সেটা বোঝার জন্যে যথেষ্ঠ পরিমাণ ডাটা লাগবে, আপাতত ধরে নিয়েছি এগুলি মেমোরীলেস.......আপনার বলা টার্মগুলি কোথায় ব্যবহার হয় সেটা আমি টার্মগুলি জানি (কনক্রিট ম্যাথে পড়া)...... এগুলি মিসটেক ইনপুট জেনারেশন, ইনভ্যালিড জেনারেশন এগুলিতে কাজে লাগলেও কোন ডাটার ফ্রিকোয়েন্সী অ্যানালাইসিস করে সেটাকে নিয়ে কিছু বলবে না এটা ধরে নিয়েছি কারণ ভাষা সতত পরিবর্তনশীল সুতরাং আজকে শব্দে'র ডিস্ট্রিবিউশন যেমন থাকবে তেমনটা ৪০ বছর পরে নাও থাকতে পারে তাই আমাদের অ্যাজাম্পশনে ডাটা অ্যারাইভাল হল মেমোরিলেস

      আমি কাজ করছি অপটিমাল লেআউট বের করার জন্যে। আমার প্রবলেম ডেফিনেশনটা হল: সকল ডাটা দেয়া আছে (যার লেংথ L) এবং টোটাল সিম্বল হল ৬২টি এবং ফিটনেস ফাংশন হল f(x) সুতরাং অপটিমাল সলিউশন ৬২ এর ফ্যাক্টোরিয়াল কম্বিনেশনের কোন একটায় আছে। এখন এই অপটিমাল ফাংশনে পৌছাতে জেনেটিক অ্যালগরিদম ব্যবহার করা হয়েছে এবং সেই পেপারে অপটিমাল সলিউশন চলে এসেছে দেখানো হয়েছে। কিন্তু আমি এটায় দ্বিমত পোষণ করে মনে করি এটা অপটিমাল নয় বরং লোকাল ম্যাক্সিমা...... সুতরাং সবাই যে যার মত করে লোকাল ম্যাক্সিমাতে গেলে তো আর হবে না, আমি চেষ্টা করছি অপটিমালটা কোন ডোমেইনে আছে সেটা বের করার জন্যে এবং সেখানে যেতে ফিটনেস ফাংশনটা কেমন স্ট্রিক্ট হতে হবে সেটা নিয়ে

      সিমুলেটেড অ্যানেলিংটা কেমন কাজে দিবে, এই প্রবলেমটা NP-hard কিনা, হলে কেন অথবা না হলে কেন এসব বের করার চেষ্টা করছি....... একইসাথে চেষ্টা আছে একটা হিউম্যান কম্পিউটার ইন্টারঅ্যাকশন মডেল দাঁড় করানোর (আমার এটা সবচেয়ে প্রিয় সাবজেক্ট, কিন্তু মনে হয়না এটাতে পড়ার সুযোগ হবে:()...... মডেলটা দাঁড় করাতে পারলে আমরা ফিটনেস ফাংশনটার দিকে যেতে পারবো, ফিটনেস ফাংশনে গেলে ডোমেইন স্পেসিফিক জেনেটিক অ্যালগরিদমগুলির যেকোন একটা অ্যাপ্লাই করতে পারবো, তখন আমরা অপটিমাল সলিউশনটা পাব

      দেখা যাক কতটুকুন পারি 🙂 মন্তব্যের জন্যে ধন্যবাদ

      জবাব দিন

মওন্তব্য করুন : মাহমুদ (১৯৯০-৯৬)

জবাব দিতে না চাইলে এখানে ক্লিক করুন।

দয়া করে বাংলায় মন্তব্য করুন। ইংরেজীতে প্রদানকৃত মন্তব্য প্রকাশ অথবা প্রদর্শনের নিশ্চয়তা আপনাকে দেয়া হচ্ছেনা।