logo

Unicode đủ mã cho bộ chữ toàn cầu. Tại sao người ta lại dùng UTF?

icon_facebook

Câu hỏi: Unicode đủ mã cho bộ chữ toàn cầu. Tại sao người ta lại dùng UTF?

Lời giải:

Khi có Unicode, đã có rất nhiều ứng dụng sử dụng các loại mã khác, đặc biệt là ASCII 8 bit. Các ứng dụng xử lí văn bản như thư điện tử, soạn thảo, cơ sở dữ liệu dùng với ASCII và một số bảng mã khác đã tổn tại từ trước đó để lại một khối lượng dữ liệu khổng lồ, không thể vứt bỏ. Việc sửa các phần mềm chỉ sử dụng Unicode có nghĩa là sẽ mất rất nhiều dữ liệu. Mặt khác, khi dùng Unicode thì khối lượng lưu trữ cho dữ liệu văn bản sẽ tăng hơn hai lần.

Vì thế cần có một cách mã hoá đồng thời Unicode và một số bảng mã khác, đặc biệt là ASCII để có thể sử dụng được các dữ liệu cũ và không nhất thiết phải dùng mã nhiều byte trong các ứng dụng phổ biến để tiết kiệm lưu trữ. UTF là cách giải quyết các yêu cầu trên. Vì thế UTF cũng được coi là đối tượng của Unicode (Unicode Transformation Format).

* Unicode là gì?

Unicode là một tiêu chuẩn mã hóa ký tự phổ biến. Nó xác định cách các ký tự riêng lẻ được biểu diễn trong các file văn bản, trang web và các loại tài liệu khác.

Unicode ( hay gọi là mã thống nhất ; mã đơn nhất ) là bộ mã chuẩn quốc tế được phong cách thiết kế để dùng làm bộ mã duy nhất cho toàn bộ những ngôn từ khác nhau trên quốc tế, kể cả những ngôn từ sử dụng ký tự tượng hình phức tạp như chữ Hán của tiếng Trung Quốc, tiếng Nhật, chữ Nôm của tiếng Việt, v.v. Vì những điểm ưu việt đó, Unicode đã và đang từng bước sửa chữa thay thế những bộ mã truyền thống cuội nguồn, kể cả bộ mã tiêu chuẩn ISO 8859. Unicode đang được sử dụng trên rất nhiều ứng dụng cũng như những trình ứng dụng, ví dụ điển hình Windows ( theo wikipedia ) .
Phiên bản mới nhất là Unicode ® 13.0.0 công bố ngày 10 tháng 3 năm 2020 .

Unicode đủ mã cho bộ chữ toàn cầu. Tại sao người ta lại dùng UTF?

* UTF là gì?

 UTF là viết tắt của Unicode Transformation Format – Định dạng chuyển đổi Unicode. UTF là một tiêu chuẩn chung để ánh xạ các bảng mã Unicode. Nó xác định cách viết từ mọi nơi trên thế giới, được lưu trữ ở bất kỳ định dạng mã hóa Unicode nào, nên được biểu diễn trên các hệ thống máy tính khác nhau. Bao gồm UTF-7, UTF-8, UTF-16 và U

* Các dạng mã hóa ký tự trong Unicode

Những ngày này, tiêu chuẩn Unicode xác định các giá trị cho hơn 128.000 ký tự, và có thể được nhìn thấy tại Unicode Consortium. Nó có một số dạng mã hóa ký tự:

UTF-8: Chỉ sử dụng một byte (8 bit) để mã hóa các ký tự tiếng Anh. Nó có thể sử dụng một chuỗi các byte để mã hóa các ký tự khác. UTF-8 được sử dụng rộng rãi trong các hệ thống email và trên internet.

UTF-16: Sử dụng hai byte (16 bit) để mã hóa các ký tự thường được sử dụng nhất. Nếu cần, các ký tự bổ sung có thể được biểu diễn bằng một cặp số 16 bit.

UTF-32: Sử dụng bốn byte (32 bit) để mã hóa các ký tự. Rõ ràng là khi chuẩn Unicode tăng lên, một số 16 bit quá nhỏ để thể hiện tất cả các ký tự. UTF-32 có khả năng biểu diễn mọi ký tự Unicode dưới dạng một số.

>>> Xem thêm: Trong bảng mã UNICODE, mỗi kí tự Tiếng Việt theo UTF-8 được biểu diễn bởi bao nhiêu byte?

icon-date
Xuất bản : 05/10/2022 - Cập nhật : 31/07/2023

Câu hỏi thường gặp

Đánh giá độ hữu ích của bài viết

😓 Thất vọng
🙁 Không hữu ích
😐 Bình thường
🙂 Hữu ích
🤩 Rất hữu ích
image ads