Lý thuyết Tin học 10 Cánh diều Bài 3: Số hóa văn bản

Với tóm tắt lý thuyết Tin học lớp 10 Bài 3: Số hóa văn bản sách Cánh diều hay nhất, ngắn gọn sẽ giúp học sinh nắm vững kiến thức trọng tâm, ôn luyện để học tốt môn Tin 10.

1. Bảng mã ASCII

- Trong máy tính mỗi kí tự được biểu diễn bằng một dãy bit, dãy bit được gọi là mã nhị phân.

- ASCII là bộ mã chuẩn của Mỹ để trao đổi thông tin. Mã ASCII của một kí tự là dãy 7 bit, có thể biểu diễn 128 kí tự khác nhau và mở rộng mã ASCII bằng cách sử dụng mã nhị phân dài 8 bit, biểu diễn thêm được 128 kí tự nữa.

- Mã nhị phân của những kĩ tự đã có trong bảng mã ASCII được thêm bit 0 vào trước để đủ độ dài 8 bit. Các kĩ tự mới thêm đều có mã nhị phân bắt đầu với bit 1.

2. Bảng mã Unicode

- Bảng mã Unicode được thiết kế để thống nhất chung việc mã hóa các kí tự cho tất cả ngôn ngữ khác nhau trên thế giới.

- Chữ Nôm cổ của nước ra cũng có trong bảng mã, với chức năng như vậy, bảng mã Unicode được sử dụng ngày càng phổ biến.

3. Mã kí tự, bộ kí tự và mã nhị phân

Con đường đi từ kí từ cho đến mã nhị phân chia làm hai bước:

Bước thứ nhất: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất, là một dãy kí số, giống như số căn cước công dân là mã định danh duy nhất của mỗi người.

Bước thứ hai: Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được, gọi là mã hóa. Kết quả bước này là một dãy bit, đây là mã nhị phân của kí tự.

4. Dữ liệu văn bản và số hóa văn bản

- Trong bối cảnh phân biệt các loại dữ liệu trong máy tính thì dữ liệu văn bản được biểu diễn là văn bản chữ, không chứa hình ảnh, âm thanh.

Văn bản thuần chữ

- Văn bản thuần chữ (plain text), gồm các kí tự gõ nhập từ bàn phím khi soạn thảo văn bản, các kí tự xếp liên tiếp từ trái sang phải, từ trên xuống dưới.

- Mỗi kí tự là một dãy bit.

Dữ liệu văn bản

- Dữ liệu văn bản trong máy tính là một dãy bit biểu diễn các kí tự có kiểu dáng, màu sắc và các thông tin định dạng khác.

5. Kí tự tiếng Việt trong dữ liệu văn bản

- Hiện nay tiêu chuẩn Việt Nam đã thống nhất dùng bảng mã kí tự Unicode.

- Bộ gõ tiếng Việt Unikey khá phổ biến, hiện nay có công cụ dễ dàng chuyển đổi các văn bản theo tiêu chuẩn cũ sang dùng mà Unicode để phù hợp với tiêu chuẩn mới.

Lý thuyết Tin học 10 Cánh diều Bài 3: Số hóa văn bản (ảnh 1)

Hình 1: Công cụ chuyển đổi mã kí tự tiếng Việt trong bộ gõ UniKey

Xem thêm tóm tắt lý thuyết Tin học lớp 10 Cánh diều hay khác:


Giải bài tập lớp 10 Cánh diều khác