Software Terms - Technology Basic

Character Encoding

Details: Written by নাবিল আহমেদ; Hits: 827

যখন আমরা কোন টেক্সট ডকুমেন্ট দেখি সেটা দেখি টেক্সট লাইন হিসেবে, কিন্তু কম্পিউটার সেটাকে দেখে বাইনারি তথ্য হিসেবে, বা ওয়ান (1) এবং জিরো (0)-র সিরিজরূপে। এর মানে, টেক্সট ডকুমেন্টের অক্ষরগুলো আসলে সংখ্যা কোড দ্বারা প্রকাশিত হয়। আর এজন্যে টেক্সটগুলো একই বা বিভিন্ন ধরণের কারেক্টার এনকোডিং ব্যবহার করে সেভ (save) করা হয়।

কারেক্টার এনকোডিংগুলোর মধ্যে জনপ্রিয় হল ASCII এবং ইউনিকোড। যদিও ASCII এখন প্রায় সব টেক্সট এডিটর দ্বারা সমর্থিত, তথাপি ইউনিকোড অধিক ব্যবহৃত হয় কারণ এটি কারেক্টার সেটের একটি বড় অংশকে সমর্হন করে। ইউনিকোড বলতে মূলত UTF-8, UTF-16 বা UTF-32 -কে বোঝায়, যেগুলো আসলে বিভিন্ন ইউনিকোডের স্ট্যান্ডার্ড। UTF-র মানে হল "ইউনিকোড ট্রান্সফরমেসন ফরম্যাট" এবং এর সাথের নাম্বারটি হল প্রতিটি কারেক্টারকে উপস্থাপন করতে যতটি বিট (bits) প্রয়োজন হয়... তার মান। কম্পিউটার প্রথম দিক থেকে, প্রতিটি কারেক্টার অন্তত এক বাইট (8 বিট) দ্বারা উপস্থাপন করা হয়।

যদিও ASCII এবং ইউনিকোড হল কারেক্টার এনকোডিং-র সবচেয়ে সাধারণ ধরন, যেখানে অন্যান্য এনকোডিং স্ট্যান্ডার্ডগুলিও টেক্সট ফাইল এনকোডিং করতে ব্যবহৃত হতে পারে। উদাহরণস্বরূপ, বিভিন্ন ধরণের ভাষা (যেমনঃ পাশ্চাত্য, ল্যাটিন-মার্কিন, জাপানি, কোরিয়ান এবং চীনা} ভিত্তিক কারেক্টার এনকোডিং-র স্ট্যান্ডার্ড রয়েছে । তবে পাশ্চাত্য ভাষা উপস্থাপ্নে একইধরণের কারেক্টার ব্যবহার করে, যেখানে ইস্টার্ন ভাষার জন্য সম্পূর্ণ আলাদা কারেক্টার সেট প্রয়োজন। এছাড়া, একটি চীনা টেক্সট স্ট্রিং উপস্থাপনে প্রয়োজনীয় চিহ্ন একটি ল্যাটিন এনকোডিং সমর্থন করে না। সৌভাগ্যবশত, আধুনিক স্ট্যান্ডার্ড যেমনঃ UTF-16-কারেক্টার সেটের একটা বড় অংশ সমর্থন করে, যেটার মাধ্যমে পাশ্চাত্য এবং ইস্টার্ন উভয়ই এবং চিহ্নগুলি উপস্থাপন করা যায়।