“সকাল নয়টা থেকে সন্ধ্যা সাড়ে ছয়টা পর্যন্ত অফিস” লাইফে মানিয়ে নিতেই চলে গেল বেশ কিছুদিন। এতদিন আসা হয়নি এই ব্লগে, আজকে ছুটির দিন পেয়ে নিজের কাজটা ঠিকপথে আছে নাকি সেটা নিয়ে আলোচনা করতে (এবং তালে তালে রংপুরের পোস্ট একটা বাড়িয়ে নিতে 😀 ) চলে আসলাম ব্লগে। তবে এসে প্রথম ২টা পোস্ট পড়ে যথেষ্ঠই টাশকায়িত হইলাম কারণ ধর্ম+মডারেশন নিয়ে মনে হচ্ছে ধুন্ধুমার হয়ে গেছে।
শার্লক হোমসের বাংলায় অনুবাদ করা “শার্লক হোমস অমনিবাস” করা বইটা কেউ পড়েছেন ?? ওখানে শার্লক হোমসের একটা ডায়লগ আমার খুব ভাল লেগেছিল। ওয়াটসন যখন জানতে পারে “পৃথিবী সূর্যের চারদিকে ঘোরে এটা হোমস জানে না” তখন সীমাহীন বিস্ময়ে সে হোমসকে এর কারণ বলতে বললে হোমস উত্তর দেয় সে কখনোই মনে করেনি এটা তার জানা প্রয়োজন কারণ পৃথিবী জুপিটার/চাঁদ/ইউরেনাস/প্লুটো এগুলির চারদিকে ঘুরলেও তার বিন্দুমাত্র কিছু যায় আসতো না, সুতরাং সে কখনোই এই তথ্য জানার প্রয়োজন মনে করেনাই।
আমার মনে হয় ধর্মের ব্যাপারটাও সেরকমই। যিনি(আমি নিজেও এই গোত্রের) মনে করেন ধর্মের প্রয়োজন রয়েছে তিনি সেটায় বিশ্বাস করেন আর যিনি ভাবেন না তিনি ভাবেন না, সিম্পল 🙂 দিনের শেষে সবাই একসাথেই শহীদ মিনারে আড্ড দিতে বসি,তাইনা ??? কি দরকার কে কি জানে/বিশ্বাস করে এটা নিয়ে মাথা ঘামিয়ে ?
যাই হোক, আমি আমার সাহায্য চাওয়ার পয়েন্টে আসি। আপনারা মনে হয় জানেন আমি বাংলা কিবোর্ড নিয়ে কাজ করছি। এখন কাজটার প্রথম ফেজ (অ্যানালাইসিস) শেষ, দ্বিতীয় ফেজে হবে ডাটা কালেকশন………….ডাটা কালেকশন একটা ইমপরটেন্ট জিনিস কারণ বায়াসড ডাটার কারণে পুরো প্রজেক্ট ফেল করে যাবে। যেমন, ধরুন আমি স্যাম্পল ৫টা ডকুমেন্ট নিলাম যার মাঝে ১টা হল “ক্যাডেট কলেজে ৬টি বছর” এই শিরোনামের পোস্ট। নিশ্চিতভাবেই এখানে ক্যাডেট/কলেজ/ক্লাস/প্রেপ/হাউস এই শব্দগুলির প্রাধান্য থাকবে কিন্তু একটু ভেবে দেখুন আমি যদি দাবী করি বাংলা ভাষার সকল ডকুমেন্টের মাঝে ২০% ডকুমেন্টই হল এই শব্দগুলি নিয়ে তাহলে কি ঠিক হবে ?? (২০% বললাম কারণ ৫টার মাঝে ১টা ডকুমেন্ট এরকমের ডাটা দিচ্ছে) সুতরাং ডাটা হতে হবে পুরোপুরি বায়াস মুক্ত
আমার টার্গেট ১০ লক্ষ অক্ষর এক করা। (একটা ব্লগ পোস্টে ৪০০ অক্ষর থাকে ধরে নিলে এমন 2৫০০ ব্লগ পোস্ট দরকার) এভাবে করতে গেলে সমস্যা হল বায়াসড ডাটা চলে আসবে অনেক। আমি নাহয় ব্লগ পোস্টের টাইটেল চেক করে এরপরে সেই ডাটা অ্যালাউ করতে পারি কিন্তু এরপরেও সমস্যা থেকেই যায় কারণ কিবোর্ডের একটা বড় ব্যবহারকারী হলেন সরকারী/বেসরকারী অফিসের কেরানীরা যারা বিভিন্ন অফিসিয়াল ডকুমেন্ট টাইপ করেন। আমি ওগুলি তো আর ব্লগে বা নেটে পাব না সুতরাং ওগুলি’র জন্যে কি করা যেতে পারে ??? আর সবশেষ সমস্যা হল আমি কি প্রথাগত ডাটা গ্রহণ করবো নাকি কিছুটা বিকৃত ডাটাও নিব ?? যেমন, করতেসি-যাইতেসি আমরা বললেও লিখার ভাষায় এগুলি হল করছি-যাচ্ছি……. সুতরাং কোন ডকুমেন্টে করতেসি-যাইতেসি টাইপের শব্দ বেশী থাকলে সেটাকে নিব নাকি নিব না ???
মন্তব্য দিলে খুশী হব……. সামারি করে পয়েন্টগুলি আরেকবার লিখি,
■ ১০,০০,০০০ অক্ষরের মাঝে ব্লগজগত থেকে কত % ডাটা নেয়া উচিত ?? ব্লগজগত বলতে আসলে ডায়েরী টাইপের লিখা বলছি, মানে দৈনন্দিন জীবনে কথাবার্তা নিয়ে লিখা কোন কিছু
■ অফিসিয়াল কাজে ব্যবহৃত ডাটা কিভাবে পেতে পারি ??
■ কথ্য রূপে প্রচলিত কিন্তু লেখ্য রূপে নয় এমন শব্দ নেয়া উচিত নাকি উচিত নয় ??
■ যেকোন ডকুমেন্টে কোন নির্দিষ্ট একটা পয়েন্ট লিখা সুতরাং সেখানে সেল্ফ বায়াসিং থাকতেই পারে (যেমন: সরকারী ডকুমেন্টে “সরকার” শব্দটা বেশী পাব, ধর্ম নিয়ে লিখাতে “ধর্ম” শব্দটা বেশী পাব)……. তাই কোন একটা শব্দ খুব বেশী পরিমাণে থাকলে সেই ডকুমেন্ট ডাটা কালেকশনের জন্যে ইনভ্যালিড বলাই ভাল……….. আমি ভাবছি, ১০% এর উপরে কোন শব্দ কোন ডকুমেন্টে রিপিট করলে সেই ডকুমেন্ট বাদ। আপনারা কি একমত ??
ভাল থাকবেন সবাই………
গোল করে নেই আগে...
অবিশেষজ্ঞদের মতামতে যেহেতু ক্যাসুয়াল লেখকের সংখা বেশি, তাই মনে হয় গল্প, সাধারণ ব্লগ থেকেই বেশি ইনপুট নেয়া উচিত। যারা অফিসিয়াল কাজে সবসময় লিখে তারা যেকোনো লেআউটেই অভ্যস্ত হয়ে যাবেন। এখন করতেসি-খাইতেসি ভাবে লেখার চল বেশি, আরও বাড়বে মনে হয়। তাই এধরনের শব্দও মনে হয় হিসাবে রাখা উচিত।
লেআউটে অভ্যস্থ হওয়া পরের ব্যাপার কারণ আমাদের কাজ লেআউট বের করা, সেটা ইমপ্লিমেন্ট হবে কি হবে না সেটা পরের ব্যাপার। তবে এটা ঠিক তাদের অভ্যস্থ হতে টাইম লাগবে না।
ডাটা কালেকশন নিয়ে যা বললা তার সাথে আমি ব্যক্তিগতভাবে একমত, সামনে করতেসি-যাইতেসি এগুলি পাঠ্যবইতেও আসবে (যদিও সামনে মানে ২ বছর না, মিনিমাম ২০ বছর)........
প্রথমে যা বলছো ওটাই করবো মূলত...... সাহিত্য কর্মগুলি থেকেই উল্লেখযোগ্য পরিমাণ ডাটা নিব।
কোথায় এখন ??? হলে নাকি বাসায় ??? রেজাল্ট ১৪ তারিখে না ??
অক্ষর বলতে কি ভাইয়া শব্দ বুঝাতে চাচ্ছেন ? আমি কিছু কথ্য রূপে প্রচলিত কিন্তু লেখ্য রূপে নয় এমন শব্দ নেয়ার পক্ষে । কারণ এগুলো ধীরে ধীরে আমাদের লেখাতে চলে 'আসতেছে' । যাই হোক গোল । 😀
ধুর । 🙁
অক্ষর মানে একক ও যুক্ত সবগুলোই। যেমন,
কর্তব্য= একক বর্ণ গুলি ধরলে ৭টা (ক, র, হসন্ত, ত, ব, হসন্ত, য) আর যুক্ত বর্ণগুলিকে হিসেবে ধরলে ৩টা
গোল দিতে অভিজ্ঞতা লাগে বৎস 😉 এত সহজ না....... আর এস এস ব্যবহার করো, ভাল ফলাফল পাবা
অভিজ্ঞতা কিছু না ভাইয়া । শাফি তো গোল কইরা নেই বইলা উড়াধুরা হাকাইছে । আমি সততার সাথে পুরা পইড়া এন্টিনা লাগাইয়া তার পরে কমেন্ট করছি । আপনি কি হলে নাকি । কাল পলাশীতে দেখলাম মনে হয় ।
ওহ কি জানি ব্যবহার করতে বললেন মাথার উপর দিয়া গেসে ।
অজ্ঞজনের সদয় অবগতির জন্য জানানো যাচ্ছে যে, আমি পুরা পোস্ট পরে তারপরে কমেন্ট করসি। খালি বিশাল একটা কমেন্ট করার প্রস্তুতি নিচ্ছিলাম বলে আগে গোল করে নিছি।
ব্যাপার না! তোর এই অমুলক ক্ষোভ জাগাতে পেরে আমি যারপর নাই খুশি। দুইজনকে কলা না দেখাইতে পারলে গোল দেওয়ার স্বার্থকতা কোথায়?? =)) =))
অফসাইড থেকে গোল করলে সেই গোল বাদ হলে পোস্ট না পড়ে ১ম হলে কেন সেই প্রথম স্থান বাতিল করা হবে না এই ব্যাপারে কর্তৃপক্ষের জবাব চাই 😛
valo ------------------------------
বুঝিনাই 😐
😀
😀 (রিপ্লাই হাসি)
😀 (ধন্যবাদ হাসি)
রেটিং দেখে একটা প্রশ্ন মাথায় আসলো........ রেটিং কি আলাদা কিছু মিন করে এখানে ?? (আমি এই ব্লগে রেগুলার না তাই জানিনা)
আলাদা কিছু মিন করলেও অবশ্য কিছু করার নাই, যে যেমন তার আউটপুটও সেরকমই হবে। আমার কাছে ৫/৫ এর লেখা আশা করে লাভ নাই
রেটিং মনে হয় লেখার মান দেখে পাঠকরা ভোট দেয়। তোমার এই লেখা তো কোন সাহিত্য না এটার মানের ও তাই প্রশ্ন আসে না। ৫ এ ১ পেয়ে কি মন খারাপ হইছে নাকি?
সেটাই ভাইয়া, এটাতো কোন সাহিত্য না যে রেটিংয়ের প্রশ্ন আসবে..... এটা তো নিতান্তই হাই-হ্যালো টাইপের একটা ব্লগ
মন খারাপ হয়নি তবে একটু চিন্তায় পড়ে গেলাম..... জাতীয় সংসদের মত অনাস্থা প্রস্তাব স্বরূপ মাইনাস দিলে তো বিপদ 😐
তোমার লেখাটা ভাল লাগল। তুমি কিসে জব কর একটু জানায়ো।
আমি ভাইয়া এখন M&H এ আছি। এটা একটা সফটওয়ার ফার্ম যারা হেলথ সেক্টরের সফটওয়ার প্রোভাইডার IMS এর একটা প্রতিষ্ঠান......
কিবোর্ডের এটা আমার অফিসিয়াল কাজ না, অফিস ছুটির পর ও ছুটির দিনের কাজ 🙂
তোমার কাজের কথা শুনলে খুবই ভাল লাগে। এরকম নিজের আনন্দে কাজ করে যাচ্ছ। খুব এরকম হতে ইচ্ছা করে।
হয়ত কোন সাহায্য করতে পারব না তবে দোয়া করি তুমি যেন সফল হও।
থ্যাংকস ভাইয়া, দোয়া রাখবেন যেন কাজগুলি সফল হয় 🙂
আমি টেকনোলজি কম বুঝি। তাই তোমার এই কিবোর্ড নিয়ে কাজ সংক্রান্ত কোন তথ্যই দিতে পারছি না। তবে খুব ভালো লাগে এই ভেবে যে, তুমি অনেক বড় একটা প্রজেক্ট নিয়ে এগুচ্ছো। দোওয়া করি, সফল হও।
There is no royal road to science, and only those who do not dread the fatiguing climb of its steep paths have a chance of gaining its luminous summits.- Karl Marx
থ্যাংকস ভাইয়া 🙂
টেকি অজ্ঞান হওয়ায় সাহায্য করতে পারছি না, তবে তোমার সফলতা কামনা করছি
আমি বাংলায় মাতি উল্লাসে, করি বাংলায় হাহাকার
আমি সব দেখে শুনে, ক্ষেপে গিয়ে করি বাংলায় চিৎকার ৷
হা হা..... টেকি অজ্ঞান হলেও সেটা ব্যাপার না। এগুলি তেমন কঠিন কিছু না, শুধু কিছু থিওরিটিক্যাল নলেজ এবং প্রসিডিওর 🙂
সিউল,
সব মনে নেই আমি কি কি পড়েছিলাম কিন্তু মনে হচ্ছে এখন তোমার পরিসংখ্যানের অভিজ্ঞ লেভেলের কোর্স করা দরকার। এই বিষয়গুলো তুমি ব্লগ কমিউনিটি থেকে পুরো ফলাফল পাবে না। এই বিষয়গুলি পুরোপুরি তাত্তিক পরিসংখ্যান। যেমন পয়সন বিন্যাস, কনফিডেন্স ইন্টার্ভাল, কতটুকু কনফিডেন্স নেবে, র্যান্ডম স্যাম্পলিং, এই বিষয়গুলোর ভালো ধারনা তোমার এখন দরকার। উচ্চ মাধ্যমিকের পরিসংখ্যান নয়, তুমি যে লেভেলের কাজ করতে চাচ্ছ তার জন্য অন্তত মাস্টার্স লেভেলের জ্ঞান দরকার। বুয়েটের কোর্স ফাউন্ডেশন হিসবে নিতে পার। কিন্তু আন্তর্জাতিক পর্যায়ের রিসার্চ ফলাফলের জন্য সঠিক পরিসংখ্যান জ্ঞানের বিকল্প নেই।
ব্লগ কমিউনিটি তোমাকে আইডিয়া দিতে পারে কিভাবে সরকারী ডকুমেন্টস তুমি সংগ্রহ করতে পার। কিন্তু আসল তাত্ত্বিক পর্যালোচনার জন্য সঠিক তাত্ত্বিক জ্ঞানের বিকল্প নেই। আশা করি বুঝাতে পেরেছি।
না ভাইয়া, এখানে আমি ডাটা নিয়ে খুব একটা চিন্তিত না। ডাটা গুলি'র অ্যারাইভাল স্টোকাস্টিক নাকি মেমোরীলেস সেটা বোঝার জন্যে যথেষ্ঠ পরিমাণ ডাটা লাগবে, আপাতত ধরে নিয়েছি এগুলি মেমোরীলেস.......আপনার বলা টার্মগুলি কোথায় ব্যবহার হয় সেটা আমি টার্মগুলি জানি (কনক্রিট ম্যাথে পড়া)...... এগুলি মিসটেক ইনপুট জেনারেশন, ইনভ্যালিড জেনারেশন এগুলিতে কাজে লাগলেও কোন ডাটার ফ্রিকোয়েন্সী অ্যানালাইসিস করে সেটাকে নিয়ে কিছু বলবে না এটা ধরে নিয়েছি কারণ ভাষা সতত পরিবর্তনশীল সুতরাং আজকে শব্দে'র ডিস্ট্রিবিউশন যেমন থাকবে তেমনটা ৪০ বছর পরে নাও থাকতে পারে তাই আমাদের অ্যাজাম্পশনে ডাটা অ্যারাইভাল হল মেমোরিলেস
আমি কাজ করছি অপটিমাল লেআউট বের করার জন্যে। আমার প্রবলেম ডেফিনেশনটা হল: সকল ডাটা দেয়া আছে (যার লেংথ L) এবং টোটাল সিম্বল হল ৬২টি এবং ফিটনেস ফাংশন হল f(x) সুতরাং অপটিমাল সলিউশন ৬২ এর ফ্যাক্টোরিয়াল কম্বিনেশনের কোন একটায় আছে। এখন এই অপটিমাল ফাংশনে পৌছাতে জেনেটিক অ্যালগরিদম ব্যবহার করা হয়েছে এবং সেই পেপারে অপটিমাল সলিউশন চলে এসেছে দেখানো হয়েছে। কিন্তু আমি এটায় দ্বিমত পোষণ করে মনে করি এটা অপটিমাল নয় বরং লোকাল ম্যাক্সিমা...... সুতরাং সবাই যে যার মত করে লোকাল ম্যাক্সিমাতে গেলে তো আর হবে না, আমি চেষ্টা করছি অপটিমালটা কোন ডোমেইনে আছে সেটা বের করার জন্যে এবং সেখানে যেতে ফিটনেস ফাংশনটা কেমন স্ট্রিক্ট হতে হবে সেটা নিয়ে
সিমুলেটেড অ্যানেলিংটা কেমন কাজে দিবে, এই প্রবলেমটা NP-hard কিনা, হলে কেন অথবা না হলে কেন এসব বের করার চেষ্টা করছি....... একইসাথে চেষ্টা আছে একটা হিউম্যান কম্পিউটার ইন্টারঅ্যাকশন মডেল দাঁড় করানোর (আমার এটা সবচেয়ে প্রিয় সাবজেক্ট, কিন্তু মনে হয়না এটাতে পড়ার সুযোগ হবে:()...... মডেলটা দাঁড় করাতে পারলে আমরা ফিটনেস ফাংশনটার দিকে যেতে পারবো, ফিটনেস ফাংশনে গেলে ডোমেইন স্পেসিফিক জেনেটিক অ্যালগরিদমগুলির যেকোন একটা অ্যাপ্লাই করতে পারবো, তখন আমরা অপটিমাল সলিউশনটা পাব
দেখা যাক কতটুকুন পারি 🙂 মন্তব্যের জন্যে ধন্যবাদ
আমার মনে হয় যুক্তাক্ষর ব্যবহারের ক্ষেত্রে অক্ষরগুলি ইনডিপেন্ডেন্ট থাকাই ভাল।