Lý thuyết Tin 10 Kết nối tri thức Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản
Với tóm tắt lý thuyết Tin học lớp 10 Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản sách Kết nối tri thức hay nhất, ngắn gọn sẽ giúp học sinh nắm vững kiến thức trọng tâm, ôn luyện để học tốt môn Tin 10.
1. Phân loại và biểu diễn thông tin trong máy tính
- Biểu diễn thông tin là cách mã hóa thông tin.
- Các biểu diễn dữ liệu thường gặp là văn bản, số, hình ảnh, âm thanh và lôgic.
- Việc phân loại dữ liệu để có cách biểu diễn phù hợp nhằm tạo thuận lợi cho việc xử lí thông tin trong máy tính.
Ví dụ: Đối với các dữ liệu là số có thể tính toán và so sánh, còn dữ liệu dạng văn bản thì có thể tách, ghép, so sánh.
2. Biểu diễn dữ liệu văn bản
a) Bảng mã ASCII
Bảng mã được dùng phổ biến nhất trong tin học là “bảng mã chuẩn của Mĩ để trao đổi thông tin” (viết tắt là ASCII).
- Ban đầu chỉ dùng các mã 7 bit chỉ đủ dùng cho tiếng anh, thể hiện được đúng 128 kí tự.
Sau đó bảng mã ASCII mở rộng sử dụng 8 bit để biểu diễn một kí tự, cho phép mã hóa 256 kí tự trong đó giữ nguyên 128 kí tự cũ.
- 128 vị trí được thêm vào trong bảng mã 8 bit so với bảng mã 7 bit được gọi là phần mở rộng của bảng mã ASCII.
- Các quốc gia có thể sử dụng phần mở rộng cho kí tự riêng của mình.
- Muốn lấy mã nhị phân của một kí tự chỉ cần ghép 4 bit ở chỉ số hàng với 4 bit chỉ số cột tương ứng với kí tự.
Ví dụ: Mã nhị phân của “A” (có số thứ tự 65) là 01000001.
b) Bảng mã Unicode và tiếng Việt trong Unicode
- Unicode thực tế là một bộ tiêu chuẩn biểu diễn kí tự văn bản trong máy tính, cho phép tạo ra các ứng dụng đa ngôn ngữ.
- Mỗi kí tự Unicode có thể được mã hóa bởi nhiều byte.
- Có thể được mã hóa nhờ một số hệ thống chuyển đổi dịnh dạng là chuyển đổi (tiếng Anh là UTF), phổ biến nhất là UFT-8.
- Nếu bảng mã ASCII chỉ cho phép mã hóa 256 kí tự, thì Unicode hiện nay cho phép mã hóa hàng trăm hàng nghìn kí tự khác nhau.
- Sử dụng đồng thời nhiều ngôn như khác nhau như các trình duyệt web, ngôn ngữ lập trình, các phần mềm ứng dụng, …
- Từ năm 2017, Việt Nam đã ban hành buộc sử dụng UFT-8 để biểu diễn các kí tự tiếng Việt trong máy tính.
+ Dùng ASCII để mã hóa các kí tự La tinh không dấu, sử dụng 2 byte để mã hóa các nguyên âm có dấu, dùng 3 byte để mã hóa một số rất ít kí tự đặc biệt.
c) Số hóa văn bản
- Tệp văn bản là định dạng lưu trữ ở bộ nhớ ngoài.
- Số hóa văn bản thực hiện bằng các phần mềm soạn thảo văn bản như Word (của Microsoft) hay Writer (của Open Office).
- Hiện nay có thể nhập văn bản bằng lời nói, chỉ cần đọc, máy tính có thể nhận dạng âm thanh và tạo văn bản.
Xem thêm tóm tắt lý thuyết Tin học lớp 10 Kết nối tri thức hay khác:
Lý thuyết Tin học 10 Bài 4: Hệ nhị phân và dữ liệu số nguyên
Lý thuyết Tin học 10 Bài 7: Thực hành sử dụng thiết bị số thông dụng
Lý thuyết Tin học 10 Bài 8: Mạng máy tính trong cuộc sống hiện đại
Xem thêm các tài liệu học tốt lớp 10 hay khác:
- Giải sgk Tin học 10 Kết nối tri thức
- Giải Chuyên đề học tập Tin học 10 Kết nối tri thức
- Giải SBT Tin học 10 Kết nối tri thức
- Giải lớp 10 Kết nối tri thức (các môn học)
- Giải lớp 10 Chân trời sáng tạo (các môn học)
- Giải lớp 10 Cánh diều (các môn học)
- Soạn văn 10 (hay nhất) - KNTT
- Soạn văn 10 (ngắn nhất) - KNTT
- Soạn văn 10 (siêu ngắn) - KNTT
- Giải sgk Toán 10 - KNTT
- Giải Tiếng Anh 10 Global Success
- Giải Tiếng Anh 10 Friends Global
- Giải sgk Tiếng Anh 10 iLearn Smart World
- Giải sgk Tiếng Anh 10 Explore New Worlds
- Giải sgk Vật lí 10 - KNTT
- Giải sgk Hóa học 10 - KNTT
- Giải sgk Sinh học 10 - KNTT
- Giải sgk Địa lí 10 - KNTT
- Giải sgk Lịch sử 10 - KNTT
- Giải sgk Kinh tế và Pháp luật 10 - KNTT
- Giải sgk Tin học 10 - KNTT
- Giải sgk Công nghệ 10 - KNTT
- Giải sgk Hoạt động trải nghiệm 10 - KNTT
- Giải sgk Giáo dục quốc phòng 10 - KNTT