Basic Terms
online
We have 18 guests and no members online
About us
Software Terms - Technology Basic
Character Encoding
- Details
- Written by নাবিল আহমেদ
- Hits: 827
যখন আমরা কোন টেক্সট ডকুমেন্ট দেখি সেটা দেখি টেক্সট লাইন হিসেবে, কিন্তু কম্পিউটার সেটাকে দেখে বাইনারি তথ্য হিসেবে, বা ওয়ান (1) এবং জিরো (0)-র সিরিজরূপে। এর মানে, টেক্সট ডকুমেন্টের অক্ষরগুলো আসলে সংখ্যা কোড দ্বারা প্রকাশিত হয়। আর এজন্যে টেক্সটগুলো একই বা বিভিন্ন ধরণের কারেক্টার এনকোডিং ব্যবহার করে সেভ (save) করা হয়।
কারেক্টার এনকোডিংগুলোর মধ্যে জনপ্রিয় হল ASCII এবং ইউনিকোড। যদিও ASCII এখন প্রায় সব টেক্সট এডিটর দ্বারা সমর্থিত, তথাপি ইউনিকোড অধিক ব্যবহৃত হয় কারণ এটি কারেক্টার সেটের একটি বড় অংশকে সমর্হন করে। ইউনিকোড বলতে মূলত UTF-8, UTF-16 বা UTF-32 -কে বোঝায়, যেগুলো আসলে বিভিন্ন ইউনিকোডের স্ট্যান্ডার্ড। UTF-র মানে হল "ইউনিকোড ট্রান্সফরমেসন ফরম্যাট" এবং এর সাথের নাম্বারটি হল প্রতিটি কারেক্টারকে উপস্থাপন করতে যতটি বিট (bits) প্রয়োজন হয়... তার মান। কম্পিউটার প্রথম দিক থেকে, প্রতিটি কারেক্টার অন্তত এক বাইট (8 বিট) দ্বারা উপস্থাপন করা হয়।
যদিও ASCII এবং ইউনিকোড হল কারেক্টার এনকোডিং-র সবচেয়ে সাধারণ ধরন, যেখানে অন্যান্য এনকোডিং স্ট্যান্ডার্ডগুলিও টেক্সট ফাইল এনকোডিং করতে ব্যবহৃত হতে পারে। উদাহরণস্বরূপ, বিভিন্ন ধরণের ভাষা (যেমনঃ পাশ্চাত্য, ল্যাটিন-মার্কিন, জাপানি, কোরিয়ান এবং চীনা} ভিত্তিক কারেক্টার এনকোডিং-র স্ট্যান্ডার্ড রয়েছে । তবে পাশ্চাত্য ভাষা উপস্থাপ্নে একইধরণের কারেক্টার ব্যবহার করে, যেখানে ইস্টার্ন ভাষার জন্য সম্পূর্ণ আলাদা কারেক্টার সেট প্রয়োজন। এছাড়া, একটি চীনা টেক্সট স্ট্রিং উপস্থাপনে প্রয়োজনীয় চিহ্ন একটি ল্যাটিন এনকোডিং সমর্থন করে না। সৌভাগ্যবশত, আধুনিক স্ট্যান্ডার্ড যেমনঃ UTF-16-কারেক্টার সেটের একটা বড় অংশ সমর্থন করে, যেটার মাধ্যমে পাশ্চাত্য এবং ইস্টার্ন উভয়ই এবং চিহ্নগুলি উপস্থাপন করা যায়।