online

We have 18 guests and no members online

About us

Software Terms - Technology Basic

Character Encoding

যখন আমরা কোন টেক্সট ডকুমেন্ট দেখি সেটা দেখি টেক্সট লাইন হিসেবে, কিন্তু কম্পিউটার সেটাকে দেখে বাইনারি তথ্য হিসেবে, বা ওয়ান (1) এবং জিরো (0)-র সিরিজরূপে। এর মানে, টেক্সট ডকুমেন্টের অক্ষরগুলো আসলে সংখ্যা কোড দ্বারা প্রকাশিত হয়। আর এজন্যে টেক্সটগুলো একই বা বিভিন্ন ধরণের কারেক্টার এনকোডিং ব্যবহার করে সেভ (save) করা হয়।

কারেক্টার এনকোডিংগুলোর মধ্যে জনপ্রিয় হল ASCII এবং ইউনিকোড। যদিও ASCII এখন প্রায় সব টেক্সট এডিটর দ্বারা সমর্থিত, তথাপি ইউনিকোড অধিক ব্যবহৃত হয় কারণ এটি কারেক্টার সেটের একটি বড় অংশকে সমর্হন করে। ইউনিকোড বলতে মূলত UTF-8, UTF-16 বা UTF-32 -কে বোঝায়, যেগুলো আসলে বিভিন্ন ইউনিকোডের স্ট্যান্ডার্ড। UTF-র মানে হল "ইউনিকোড ট্রান্সফরমেসন ফরম্যাট" এবং এর সাথের নাম্বারটি হল প্রতিটি কারেক্টারকে উপস্থাপন করতে যতটি বিট (bits) প্রয়োজন হয়... তার মান। কম্পিউটার প্রথম দিক থেকে, প্রতিটি কারেক্টার অন্তত এক বাইট (8 বিট) দ্বারা উপস্থাপন করা হয়।

যদিও ASCII এবং ইউনিকোড হল কারেক্টার এনকোডিং-র সবচেয়ে সাধারণ ধরন, যেখানে অন্যান্য এনকোডিং স্ট্যান্ডার্ডগুলিও টেক্সট ফাইল এনকোডিং করতে ব্যবহৃত হতে পারে। উদাহরণস্বরূপ, বিভিন্ন ধরণের ভাষা (যেমনঃ পাশ্চাত্য, ল্যাটিন-মার্কিন, জাপানি, কোরিয়ান এবং চীনা} ভিত্তিক কারেক্টার এনকোডিং-র স্ট্যান্ডার্ড রয়েছে । তবে পাশ্চাত্য ভাষা উপস্থাপ্নে একইধরণের কারেক্টার ব্যবহার করে, যেখানে ইস্টার্ন ভাষার জন্য সম্পূর্ণ আলাদা কারেক্টার সেট প্রয়োজন। এছাড়া, একটি চীনা টেক্সট স্ট্রিং উপস্থাপনে প্রয়োজনীয় চিহ্ন একটি ল্যাটিন এনকোডিং সমর্থন করে না। সৌভাগ্যবশত, আধুনিক স্ট্যান্ডার্ড যেমনঃ UTF-16-কারেক্টার সেটের একটা বড় অংশ সমর্থন করে, যেটার মাধ্যমে পাশ্চাত্য এবং ইস্টার্ন উভয়ই এবং চিহ্নগুলি উপস্থাপন করা যায়।

comments
Joomla SEO by AceSEF

Bangla Problem?

Like Our Page



Search

Thanks To