Đọc truyện chuong 5-nen du lieu audio va video - chuong 5-nen du lieu audio va video

♥ Truyen2U.Pro - Tên miền mới của Truyen2U.Net

chuong 5-nen du lieu audio va video

Trước Sau

Màu nền

Font chữ

Font size

Chiều cao dòng

----------------------- Page 1-----------------------

Chương 5: Nén dữ liệu audio và video

Chương 5

NÉN DỮ LIỆU AUDIO VÀ VIDEO

5.1. GIỚI THIỆU

Tín hiệu audio và video khi biến đổi thành tín hiệu số thì dung lượng dữ liệu là

rất lớn, làm ảnh hưởng đến việc lưu trữ cũng như truyền dẫn tín hiệu. Số lượng dữ

liệu được tạo ra bởi ADC của tín hiệu audio và video nhiều đến mức audio và video

số sẽ không sử dụng được nếu dữ liệu này không giảm xuống. Thực tế, khả năng

nén dữ liệu audio và video là một trong những phương pháp cho phép hệ thống số

sử dụng ít dải band tần hoặc khả năng lưu trữ nhưng đồng thời lại tạo ra chỉ tiêu cao

hơn và giá thấp hơn hệ thống analog.

5.2. CÁC THUỘC TÍNH NÉN

Những minh họa trên hình 5.1, nén dữ liệu luôn được thực hiện hai quá trình

bổ sung nén và giải nén. Nén thường chỉđược thực hiện trong những phần của hệ

thống có sẵn khả năng chứa dữ liệu hay giới hạn tốc độ dữ liệu như các kênh thông

tin hay thiết bị lưu trữ. Bộ phận nén hoạt động ởđầu ra của bộ phận hệ thống bị nén,

và bộ phận giải nén hoạt động tại điểm mà dữ liệu phải ngược trở lại định dạng ban

đầu. Bộ phận nén và giải nén có thểđược đặt trên cùng một box hoặc ở khoảng cách

xa nhau, ví dụ như khi dữ liệu được nén để phát quảng bá tới nhiều người sử dụng ở

những địa điểm khác nhau. Mỗi người sử dụng phải giải nén trước khi sử dựng dữ

liệu.

Dữ liệu Nén Kênh truyền Giải nén Dữ liệu

đầu vào đầu ra

Hình 5.1. Quá trình nén dữ liệu

5.2.1. Các thuật toán

Việc mô tả chi tiết về mặt kỹ thuật của kỹ thuật nén được gọi là thuật toán. Một

thuật toán thường được miêu tả theo phương diện toán hạng, tuy nhiên các phương

tiện khác như sơđồ khối, biểu đồ xác định thời gian cũng có thểđược sử dụng. Mặc

dù số lượng các phương pháp nén chung bị giới hạn, do vậy dẫn dến hiện tượng tồn

tại một số lượng lớn các thuật toán. Do các bộ nén và giải nén đều phải thực hiện

quá trình xử lý tương đương đối với hệ thống, vấn đề chuẩn hóa các thuật toán trở

nên rất quan trọng.

132

----------------------- Page 2-----------------------

Chương 5: Nén dữ liệu audio và video

5.2.2. Nén tổn hao và nén không tổn hao

Một ưu thế lớn của hệ thống số là các nhà thiết kế hệ thống được phép chọn

khả năng tái tạo dữ liệu (và thông tin mà nó biểu thị ) một cách hoàn hóa. Các

phương pháp mã hóa và phát hiện sửa lỗi giúp các hệ thống lớn lưu trữ, xử lý, và

truyền dữ liệu mà không gây lỗi cho dù nó phải thực hiện bao nhiêu lần đi nữa. Đây

là cơ sở cho hệ thống máy tính tài chính trên toàn thế giới, xử lý hàng tỷđô la mà

không nhầm lẫn một đồng xu nào. Thậm chí trong hệ thống này, có thể sử dụng nén

dữ liệu nhưng phải là nén không tổn hao tức là phương pháp nén sẽ không gây ra

bất cứ một tổn hao nào cho dữ liệu. Đây là khả năng hoàn toàn có thể bởi vì hầu hết

dữ liệu thật đều có chứa các mô hình lặp lại của một vài dạng mà nén mà bộ xử lí có

thể tìm ra và sau đó sắp xếp để truyền một cách có hiệu quả hơn. Nhìn chung, thuật

toán nén không tổn hao không phụ thuộc vào việc nhận biết bất cứ thông tin gì về

dữ liệu sẽđược truyền-nó sẽ hoạt động với bất cứ loại dữ liệu nào, nhưng chỉ tiêu

(cấp độ nén) có thể phụ thuộc vào một vài con số thống kê dữ liệu.

Nén không tổn hao được sử dụng cho audio và video nhưng khả năng của nó

rất hạn chế. Hầu hết kĩ thuật nén audio và video đều là nén tổn hao, tương đương

với việc một số dữ liệu có thể bị tổn hao hoặc thay đổi. Tuy nhiên, tên của trò chơi

là để tìm những dữ liệu có thể bị loại bỏ bởi bộ xử lí nén nhưng sẽ không ảnh hưởng

đến hình dạng của ảnh hay âm thanh đến tay người nghe khi tín hiệu được tái tạo lại

để hiển thị. Nếu tổn hao hoạt động bởi vì các tín hiệu audio và video số có thể chứa

thông tin đóng góp vào quá trình tái tạo âm thanh như khi được nhìn hoặc nghe sử

thật bởi một người nào đó. Sơđồ nén tổn hao phụ thuộc vào hiểu biết về kiểu dữ

liệu, định dạng và sử dụng của nó.

Tiêu chí trên đây cho nén tổn hao không chỉ là mối quan tâm duy nhất ; cấp độ

tổn hao có thể chấp nhận được phụ thuộc vào quá trình nào sẽđược sử dụng nén

trong một hệ thống. Ví dụ, trong quá trình sản xuất và sản xuất hậu kì, rất ít tổn hao

có thểđược chấp nhận trước khi nó bắt đầu ảnh hưởng không tốt tới quá trình xây

dựng chương trình. Do vậy mà nhà sản xuất sẽ không chấp nhận nén tổn hao, tại đầu

cuối của hệ thống sau cho hình ảnh được rõ ràng đến người xem.

5.2.3. Nén đối xứng - không đối xứng

Các kỹ thuật nén có sự tham gia của một lượng xử lý nào đó để nén dữ liệu và

sau đó, lượng xử lý cần nhiều hơn để giải nén dữ liệu ởđầu cuối của hệ thống. Các

quá trình này thường cần tới số lượng và số lần tham gia rất đáng kể của phần cứng

cũng như phần mềm để thực hiện mỗi quá trình. Nén đối xứng có nghĩa là quá trình

nén và giải nén gần bằng nhau về lượng tham gia của phần cứng, phần mềm và thời

gian xử lý. Ví dụ, nếu thỏa mãn việc nén video trong thời gian thực trên một máy

133

----------------------- Page 3-----------------------

Chương 5: Nén dữ liệu audio và video

tính cá nhân và sau đó phát lại trên cùng hệ thống thì khi đó thuật toán đối xứng là

hoàn toàn thích hợp.

Tuy nhiên, thuật toán đối xứng hoạt động trên một hệ thống nhỏ phải đặt giới

hạn cho độ phức tạp của hệ thống được sử dụng. Như sẽ thấy sau này, hiệu quả của

nén có thểđược cải thiện bằng cách sử dụng những thuật toán phức tạp hơn, thậm

chí ngay khi giải nén được thực hiện trên một hệ thống nhỏ. Điều này dẫn đến khả

năng xảy ra các thuật toán không đối xứng, tức là quá trình nén yêu cầu một hệ

thống lớn, chuyên dụng và có thể không hoạt động trong thời gian thực, nhưng quá

trình giải nén lại được thực hiện trong thời gian thực, trên một hệ thống nhỏ, có giá

thành thấp. Nén không đối xứng rất quan trọng đặc biệt trong các hệ thống phát lại

chúng như truyền hình quảng bá hay CD-ROM. Nhiều khi, nén có thểđược thực

hiện trước trên hệ thống lớn, được lưu trữ, và sao chép để sau này phân phối cho các

phương tiện truyền tới người sử dụng.

5.2.4. Cấp độ nén

Sẽ thỏa mãn nếu như việc xác định số lượng cấp độ nén thực hiện bởi một hệ

thống đặc biệt và sau đó so sánh với các hệ thống khác theo cách này. Người ta

thường hay đề cập đến tỷ lệ nén, là tỷ lệ giữa dữ liệu vào và dữ liệu ra của quá trình

nén. Với kỹ thuật nén không tổn hao, đây là phương pháp rất hiệu quả khi nội dung

thông tin của dữ liệu không đổi. Tuy nhiên, tỷ lệ nén là một thuật ngữ không thỏa

mãn với nén không tổn hao, trừ khi nó có đủ thông tin bổ xung về số lượng tổn hao

tín hiệu do nén gây ra.

Một cách tốt hơn để so sánh các sơđồ nén tổn hao là trích chỉ tiêu tín hiệu của

hệ thống ở tốc độ dữ liệu đã cho hoặc tốc độ dữ liệu cho mức xác định của chỉ tiêu

kỹ thuật. Tuy nhiên, điều này trở nên khó khăn bởi vì nén có thểđưa vào các thông

số rất khó xác định số lượng. Cuối cùng, có nhiều cách đánh giá chủ quan yêu cầu

để so sánh giữa các hệ thống nén tổn hao, nhưng phải tránh việc trích dẫn tỷ số nén.

Nhiều trường hợp đòi hỏi hệ thống video số hoạt động với tốc độ dữ liệu ổn

định. Ví dụ, một hệ thống truyền dẫn có thể có tốc độ dữ liệu không đổi, môi trường

tốc độ không đổi như CD-ROM hoặc các phương tiện phân phối khác. Thuật toán

nén có tổn hao có thểđược thiết kế cho tốc độ dữ liệu cốđịnh bằng cách cho phép

biến thiên một lượng của độ giảm chất lượng ảnh. Điều ngược lại cũng có thể xảy

ra, chất lượng ảnh ổn định với tốc độ dữ liệu thay đổi. Trong cả hai trường hợp, các

quyết định điều phải thực hiện một cách chính xác trong quá trình nén.

5.3. CÁC PHƯƠNG PHÁP CHUNG

Một số phương pháp nén chung cùng tồn tại, song các thuật toán chỉ sử dụng

một trong sốđó. Phần này sẽđề cập đến một trong những phương pháp chung này

134

----------------------- Page 4-----------------------

Chương 5: Nén dữ liệu audio và video

5.3.1. Các phương pháp không tổn hao

Mặc dù nén không tổn hao không thường được sử dụng cho audio hay video

song những phương pháp như thế vẫn được sử dụng như một phần của thuật toán

tổn hao. Mọi phương pháp không tổn hao đều phụ thuộc vào những con số thống kê

dữ liệu nào đó mặc dù chúng không cần biết rõ sẽ biểu thị dữ liệu nào. Phụ thuộc

vào các ứng dụng, do vậy nhiều phương pháp không tổn hao đôi khi gay ra tổn hao

cách lấy xấp xỉ trong các tính toán của mình.

5.3.1.1 Mã độ dài thay đổi

Dữ liệu nói chung có thể có chứa các giá trị lặp lại một số lần, ví dụ như trong

một hình được ghi biểu đồ mẫu có một vùng đồng màu. Các pixel kề nhau trong

vùng này sẽ có cùng giá trị. Dữ liệu này có thểđược nén bằng cách nhận biết khi

nào thì một chuỗi các giá trị lặp lại xảy ra và truyền giá trị một lần cùng với mã thứ

hai biểu thị việc tính toán số lần giá trị lặp lại. Đây được gọi là mã có độ dài thay

đổi (RLE). RLE phải có phương tiện để nhờđó bộ giải nén có khả năng nhận biết

khi nào giá trị RLE xảy ra. Điều này thường được thực hiện bằng cách tạo ra một

giá trị dự trữ, giá trị này không bao giờ hoặc hiếm khi xuất hiện trong các giá trị của

dữ liệu. Ví dụ, giá trị 25510 trong một hệ thống 8 bit có thểđược dự trữ với mục

đích này. Giá trị dự trữđó được gọi là mã thoát. Khi bắt gặp mã thoát, bộ giải nén sẽ

biến hai giá trị tiếp theo biểu thị một giá trị pixel và số lần lặp lại của nó. Điều này

được minh họa trên hình 5.2.

6 giá trị lặp

010 022 079 000 010 063 063 063 063 063 063 241 254 198 087

010 022 079 000 010 255 063 006 241 254 198 087

Đếm lặp

Giá trị

Mã thoát

Hình 5.2. Ví dụ về mã độ dài thay đổi

Do vậy, một đối tượng đơn lặp lại sẽ lấy ba từ dữ liệu để truyền, vì vậy sẽ

không có độ tăng ích khi sử dụng phương pháp này cho đến khi có hơn ba từ lặp lại.

Lưu ý là không cần thiết phải ngăn dữ liệu đầu vào có chứa giá trị mã giải thoát đã

dự trữ. Nếu điều này xảy ra, hai mã thoát có thểđược truyền cùng nhau đểấn định

là từ dữ liệu có giá trị thoát.

5.3.1.2. Mã thống kê

135

----------------------- Page 5-----------------------

Chương 5: Nén dữ liệu audio và video

Nén dữ liệu cũng có thể thực hiện bằng cách quan tâm đến việc thống kê của

dữ liệu đầu vào. Nếu biết chắc chắn các giá trị từđược sử dụng nhiều hơn giá trị từ

khác, người ta có thể thiết lập một hệ thống mã để chuyển các giá trị sự kiện xuất

hiện nhiều với một mã ngắn (ít bit), ngược lại các giá trị xuất hiện ít hơn có thể sử

dụng các mã bit dài hơn. Một hệ thống mã sử dụng nguyên lý này là mã Morse

trong điện báo. Trong các hệ thống số, phương pháp phổ biến nhất là nguyên lý này

là dùng mã Huffman, nó được sử dụng rộng rãi trong các thuật toán nén video. Mã

Huffman hoạt động ở mức bit, một ví dụ trên hình 5.3. Hiệu quả của mã phụ thuộc

vào khả năng nhận biết trước xác suất xuất hiện của sự kiện PS của mỗi giá trị dữ

liệu. Một cây nhị phân được tạo từ các giá trị sắp xếp theo bậc giảm dần của xác

suất. Các mã được tạo bằng cách đọc từđầu ra của cây nhị phân (từđiểm A) ngược

trở lại đầu vào của cây nhị phân, và lấy các giá trị bit từ mỗi nhánh. Giống như

phương pháp thích ứng mô hình, bộ nén phải thiết lập một bảng các thông số hay

bảng tra cứu và gửi kèm theo dữ liệu tới bộ giải nén. Mã thống kê cũng được gọi là

mã entropy.

Giá trị Ps Mã

0 0,04 0

1 0,15 100

2 0,10 101

3 0,10 1100

4 0,08 1101

5 0,07 1110

6 0,05 11110

7 0,05 11111

Giá trị 3 4 0 0 0 1 0 21bit

Mã 110011010001000 15bit

Hình 5.3. Ví dụ mã hóa Huffman giá trị 3 bit

Hình 5.3. Ví dụ mã Huffman giá trị 3 bit

5.3.2 Các phương pháp tổn hao

Các phương pháp nén tổn hao vốn cần phải quan tâm tới định dạng dữ liệu

cũng như ý nghĩa ứng dụng của tất cả các bit hoặc từ trong dữ liệu. Việc quan tâm

đến người sử dụng dữ liệu và khả năng nhìn hoặc nghe của họởđiều kiện nhìn xác

136

----------------------- Page 6-----------------------

Chương 5: Nén dữ liệu audio và video

định cũng rất cần thiết. Ví dụ, nếu video chỉđược xem ở tỉ lệ nhìn rộng, một số

thông tin chi tiết có thể bị khử một cách cẩn thận mà người xem không thể nhận biết

được. Mặc khác, nếu các điều kiện nghe và nhìn được yêu cầu nhiều hơn, rất ít

thông tin bị mất mà không được báo. Trong trường hợp đó phải cần đến các phương

pháp nén tinh xảo hơn.

5.3.2.1 Cắt bỏ

Trong các phương pháp khử dữ liệu không cần thiết gồm có hai phương pháp

là cắt bỏ và lấy mẫu con. Cắt bỏ là xóa đi một vài trong số những bit kém hiệu quả

nhất từ các mẫu. Đây chính là tái lượng tửđã được đề cập trong chương trước và nó

phải được thực hiện riêng để duy trì càng nhiều thông tin càng tốt.

Với những điều kiện lý tưởng, các mẫu thành phần video phải có tối thiểu là 8

bit/pixel, nhưng dưới những điều kiện xem kém lý tưởng hơn, phải giảm tới 6

bit/pixel mà không gây ra sự suy giảm đáng kể nào. Bởi vì SNR lượng tử sẽ giảm

6dB trong mỗi bit được khử, cho nên việc cắt bỏ không phải là một giải pháp tốt,

hơn nữa giảm dữ liệu sẽ kéo theo chỉ tiêu giảm.

Quá trình lấy mẫu audio chất lượng cao cần đến ít nhất là 16 bit/mẫu. Tuy

nhiên, rất nhiều hệ thống audio có thể hoạt động hiệu quả với mức thấp như 8

bit/mẫu, đặc biệt đối với lời nói, tại đó dải thông có thể bị hạn chế và tiêu chuẩn

chính đề ra là dễ hiểu.

5.3.2.2. Lấy mẫu con

Các mẫu được sử dụng rộng rãi cho thành phần độ chói nhiều hơn là cho các

thành phần video hiệu màu. Kỹ thuật này dựa trên cơ sở thực tế là mắt người có độ

phân giải với màu sắc kém hơn với độ chói, vì vậy dải tần tín hiệu màu (tỷ lệ lấy

mẫu) có thểđược giảm mà người xem không nhận thấy được sự suy giảm. Đây

được gọi là lấy mẫu con hoặc là giảm tỷ lệ lấy mẫu và như trong truyền hình analog,

đó là một phần của hầu hết các hệ thống nén video số. Lấy mẫu con giảm giới hạn

Nyquist tới giá trịđược biểu thị bởi tỷ lệ lấy mẫu con và cũng phải cần đến quá trình

lọc riêng để tránh chồng phổ.

5.3.2.3 Các bảng màu

Đối với một vài mục đích của video, có thể giảm số lượng bit/pixel bằng cách

biến bản thân giá trị pixel thành một chỉ số trong bảng các giá trị màu được chọn lọc

từ một số lượng bit/pixel rất lớn. Ví dụ, tiêu chuẩn PC VGA cung cấp một chếđộ 8

bit/pixel có khả năng lựa chọn 256 màu sắc từ một bảng màu 18 bit. Các hệ thống

khác sử dụng các số bit khác nhau, 256 màu sẽ làm cho việc tái tạo ảnh tự nhiên

kém hơn nhưng, dưới những điều kiện thích hợp, việc tái tạo có thể có kết quả tốt

đáng ngạc nhiên. Điều này đặc biệt đúng nếu các màu sắc của bảng được chọn lọc

137

----------------------- Page 7-----------------------

Chương 5: Nén dữ liệu audio và video

cho từng ảnh một. Có thể cải thiện được ảnh tốt hơn bằng cách sử dụng kỹ thuật

dithering để tạo được các màu không có trong bảng bằng cách thay đổi màu sắc ở

các pixel kề nhau. Nếu người xem ở khoảng cách xa vừa đủ, họ sẽ không nhận thấy

các pixel độc lập, mắt sẽ tổng hợp các pixel kề nhau thành những màu sắc phối hợp.

Tuy nhiên các bảng màu có những hạn chế rất nghiêm trọng nếu áp dụng cho

ảnh động, bởi vì chuyển động của các ảnh tự nhiên sẽ tạo ra các hiệu ứng giả mà

người xem có thể nhận thấy rõ (ví dụ như hiệu ứng đường viền). Đối với ảnh động,

tốt hơn hết là sử dụng màu trực tiếp với nhiều số bit/pixel hơn (ví dụ 16) và sử dụng

các phương pháp nén khác.

5.3.2.4. Mã vi sai

Đối với cả audio và video, lượng thay đổi biên độ từ mẫu này tới mẫu khác

khiến sự phân bổ xác suất giảm theo biên độ. Nếu tính đến điều này thì người ta có

thể nén bằng cách ghi mã vi sai giữa các mẫu hơn là bản thân chúng. Nếu các vi sai

biên độ lớn ít xảy ra, các giá trị vi sai có thểđược truyền với số bit nhỏ hơn số bit

chứa trong mẫu ban đầu. Quá trình ghi mẫu này được gọi là PCM vi sai (DPCM) và

là thành viên của một mã lớn hơn đó là mã dựđoán. Trong DPCM đơn giản, việc dự

báo một mẫu được dựa trên mẫu trước cộng với một số gia.

47 53 58 60 57 50 40 30 26 26 26 26 26 27 27 28 29 30 32 47 80 96 90 61

Khác biệt 6 5 2 -3 -7 -10 -10 -4 0 0 0 0 1 1 1 2 15 23 16 -6 -29

Làm tròn 4 bit 6 5 2 -3 -7 -7 -7 -7 -2 0 0 0 1 1 1 2 8 8 8 8 8

Quá tải

Ban đầu

47 53 58 60 57 50 42 35 28 26 26 26 26 27 27 28 29 30 32 40 48 56 64 72

Hình 5.4 PCM vi sai: a)mã hoá DPCM;b)giải mã DPCM

138

----------------------- Page 8-----------------------

Chương 5: Nén dữ liệu audio và video

Trong DPCM, khi một giá trị vi sai lớn xuất hiện, hệ thống DPCM sẽ bị quá tải

(slope overload), có thể gây ra hiện tượng méo nhất thời khá nghiêm trọng, xem

hình 5.4(b). Lưu ý là một vài giá trị vi sai đã được sửa để giúp hệ thống khôi phục

lại từ hiện tượng quá tải. Điều này được thực hiện bằng kiến trúc dựđoán được

miêu tả dưới đây.

Một dạng tiến bộ hơn của DPCM đã được phát triển nhằm cải thiện chỉ tiêu kỹ

thuật với các giá trị vi sai thay đổi, mối quan hệ giữa các bit của giá trị vi sai và vi

sai thực mà chúng biểu diễn được điều chỉnh dựa vào mức độ các giá trị vi sai lớn

tín hiệu. Ví dụ, một hệ thống tiêu biểu có thể có 4 bit cho các giá trị vi sai, nó có khả

năng cho phép 16 bước tái tạo khác nhau. Tuy nhiên, nếu các vi sai tín hiệu hoạt

động ở các mức thấp 16 bước tái tạo vi sai này có thểđược làm nhỏđi. Nếu các vi

sai trong tín hiệu tăng, một cơ cấu thích ứng sẽ tăng kích cỡ của các bước lên, vì vậy

các mức 16 bước có thể truyền vi sai lớn. Đây được gọi là DPCM thích ứng

(ADPCM) thường được sử dụng cho nén audio. ADPCM có thể thực hiện nén theo

tỉ lệ 4:1 trên các tín hiệu audio nói chung. Vẫn có thể có một vài hiện tượng méo

xảy ra khi cơ cấu thích ứng dịch chuyển kích cỡ của các bước thực hiện, nhưng khi

tính đến cấp độ nén, điều này có thể chấp nhận được cho nhiều mục đích.

5.3.2.5 Mã dựđoán

Hình 5.5 là một sơđồ khối minh họa cách thức DPCM được sử dụng phổ biến

như cơ cấu ghi mã dựđoán. Khối bộ dựđoán thực hiện quá trình dựđoán mẫu tiếp

theo từ mẫu hoặc các mẫu trước. Kết quả của bộ dựđoán sau đó sẽđược so sánh với

mẫu tiếp theo và vi sai được truyền đi. Bên thu, sau đó có thể tái tạo lại các mẫu

bằng cách sử dụng các giá trị vi sai và một modul bộ dựđoán giống bên phát.

Đầu vào Bộ lượng tử Đầu ra

Bộ dựđoán

Đầu vào Đầu ra

Bộ dựđoán

Hình 5.5. Mã dựđoán: a) mã hóa, b) giải mã

139

----------------------- Page 9-----------------------

Chương 5: Nén dữ liệu audio và video

Đối với DPCM, bộ dựđoán chỉđơn giản là so sánh mẫu trước với mẫu tiếp

theo để tạo ra giá trị vi sai, giá trị vi sai sẽđược truyền đi. Tuy nhiên, người ta có

thể xây dựng các bộ dựđoán phức tạp hơn, ví dụ như bộ dựđoán đường dốc đánh

giá mẫu tiếp theo dựa vào đường dốc giữa hai mẫu trước…Sự thành công của

phương pháp này phụ thuộc vào quá trình phát triển thuật toán dựđoán dùng để tính

toán các đặc tính của dữ liệu nén.

5.3.2.6. Mã lời nói

Với đặc thù của điện thoại, rất nhiều phương pháp đã được phát triển đặc biệt

cho việc ghi mã theo kỹ thuật số của giọng nói hay lời thoại. Tiêu chuẩn cho điện

thoại là PCM tuyến tính với quá trình lượng tử hóa luật μở 8000 mẫu/giây và 8

bit/mẫu, cho tốc độ dữ liệu là 64 kbit/giây. Tuy nhiên, nhiều phương pháp nén tiên

tiến đôi khi được sử dụng để giảm tốc độ dòng bit cho những mục đích riêng biệt.

Phương pháp tốt nhất cho ghi mã lời nói là dựa vào lấy mẫu dải âm thoại của người

cho hệ thống điện tử. Kỹ thuật này có thể hoạt động rất tốt với lời nói, nhưng nó

không hiệu quảđối với các âm thanh nói chung. Các phương pháp này được trình

bày trong lý thuyết điện thoại.

5.3.2.7. Mã chuyển đổi

Xử lý trực tiếp với các mẫu tín hiệu ban đầu không phải là cách tốt nhất để

biểu lộ sự dư thừa về tín hiệu có thể bị loại bỏ trong khi nén đặc biệt với video, vì

đây thường là tín hiệu hai hoặc ba chiều (ngang, dọc, và thời gian). Do vậy phải nhờ

đến một cách khác gọi là chuyển đổi, là sự biểu diễn xen kẽ thông tin có thể thực

hiện bằng quá trình xử lý toán học. Mọi chuyển đổi đều phải thực hiện cả quá trình

ngược lại quá trình chuyển đổi được thực hiện trong quá trình giải nén.

Đối với các ảnh, việc coi khối pixel hai chiều là một đơn vị rất hữu ích. Một sự

lựa chọn đơn giản là lấy 8 pixel ở mỗi hướng, tổng số là 64 giá trị. Hãy quan sát về

mặt không gian, một khối 8×8 chỉ là một mảnh nhỏ của một hình, thậm chí còn

không thể nhận biết được cái gì, nhưng bằng cách chuyển đổi nó sang miền tần số,

các thành phần được quan sát thấy hết sức quan trọng đối với công đoạn tái tạo hoàn

chỉnh. Điều này chủ yếu dựa trên nguyên tắc các tần số không gian cao khó nhìn

thấy được hơn so với các tần số không gian thấp.

Sự chuyển đổi đầu tiên áp dụng lý thuyết này là chuyển đổi cosin rời rạc

(DCT), có liên quan đến chuyển đổi Fourier thường được sử dụng để trích các thành

phần tần số của một dạng sóng tùy ý. Chuyển đổi Fourier hoạt động trên những

dạng sóng liên tục (analog) nhưng phiên bản hoạt động trên một nhóm các mẫu lấy

từ một dạng sóng tương tự cũng có thểđáp ứng được. Sự chuyển đổi dựa vào các

mẫu này đã cho ra tiền tố “rời rạc”. Chuyển đổi Fourier cho dù có rời rạc hay không

thì cũng phát ra một tập hợp các thành phần tần số cosin và sin, có thểđược quan sát

140

----------------------- Page 10-----------------------

Chương 5: Nén dữ liệu audio và video

giống như một tập hợp các thành phần tần số có các giá trị pha và biên độ. Có thể

đơn giản hơn khi sự chuyển đổi Fourier rời rạc được thực hiện trên một tập hợp các

mẫu dữ liệu tiếp theo các ảnh phản chiếu của chúng theo trục thời gian. Thành phần

sin của chuyển đổi Fourier có thể hủy bỏ, chỉđể lại các thành phần cosin. Đây là

chuyển đổi cosin rời rạc. Nó có đặc tính là một khối 8×8 của 64 mẫu được chuyển

thành một khối 8×8 của thành phần cosin biểu thị tần số không gian ở hai chiều. Xét

về mặt toán học, nó có thểđược biểu thị dưới dạng:

7 7 + Π( ) ( + )

x u y v π

1 2 ⎡1 ⎤2 ⎡1 ⎤

F u v C u C v f x y ( ) ( )

( ) ( ) , , cos ∑∑ cos (5.1)

4 x 0 y 0 ⎢⎣ 16 ⎦⎥ ⎢⎣ 16 ⎦⎥

Trong đó: là các chỉ số trong khối 8x8 của pixel.

u và v là là các chỉ số trong khối 8×8 của các hệ sốđầu ra

C w( ) với w=0

C w( ) 1 với w>0

Từ (5.1) diễn đạt thành lời có ý nghĩa là mỗi hệ số DCT được tính toán bằng

cách lấy tổng của tất cả các mẫu đầu ra với một hàm trọng số cosin, hàm này phụ

thuộc vào vị trí của hệ sốở mảng đầu ra và vị trí của mỗi mẫu trong mảng đầu vào.

Đây là một phép tính đồ sộ ngay cả khi đã đơn giản hóa, nó vẫn thường được thực

hiện trong một IC thông thường. Một vài đặc điểm của IC được minh họa trên hình

5.7. Đầu ra của quá trình xử lý DTC là một mảng 8×8 giá trị biểu thị biên độ các

thành phần tần số không gian (5.7b) trong khối 8×8 đã được xử lý. Tại điểm này,

quá trình xử lý DTC không tạo ra nén, có 64 pixel trong khối và hiện tại có 64 hệ số

DTC. Tuy nhiên, các hệ số này lại tạo điều kiện thuận lợi cho quá trình xử lý tiếp

theo trong quá trình nén.

Tần số chiều ngang

50 20 10 0 0 2 0 0

ọ 30 15 12 0 0 0 0 0

u 12 11 10 0 0 1 0 0

ề

DCT c 5 6 0 0 0 3 0 0

ố

0 3 4 0 3 0 0 0

ầ 2 0 0 0 0 1 0 0

0 0 0 0 0 0 0 0

0 0 2 0 0 0 0 0

50 20 30 12 15 10 0 12 11 5 0 6 10 0 0 2 0 0 0 3 2 0 0 4

0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 3 3 0 0 0 0 0 0 2 0 0 1 E0B

Hình 5.6. Chuyển đổi cosin rời rạc:a) khối 8×8 pixel,

b)khối 8×8 hệ số, c) đọc ra zic-zag

141

----------------------- Page 11-----------------------

Chương 5: Nén dữ liệu audio và video

Việc xếp các hệ số theo trật tự tần số tăng dần là rất có ích như minh họa trên

hình 5.6c, đây được gọi là xếp theo trật tự zic-zăc. Tại đó các thành phần tần số cao

hơn thường là các giá trị 0 hoặc nhỏ hơn. Bởi vì các thành phần tần số này không

quá quan trọng, nên chúng có thểđược lượng tử hóa thô mà không cần mất nhiều

thông tin trong hình. Vì vậy, chỉ cần thiết phải truyền các thành phần tần số có giá

trị không phải là 0, và dữ liệu sẽ giảm một cách đáng kể. Ở một vài điểm nào đó, tất

cả các hệ sốđều là 0. Một dấu hiệu đánh dấu kết thúc khối (EOB) được đặt tại đó và

cũng sẽ không có một giá trị nào được sử dụng nữa. Các hệ số còn lại thường được

mã hóa với mã RLE entropy

5.3.2.8. Bù chuyển động

Ảnh động tạo ra sự dư thừa đáng kể từ khung hình này đến khung hình kế tiếp.

Rất nhiều phần trong khung hình có thông tin không thay đổi, một vài phần có thể

đứng im và các phần khác có thể là các phần của khung hình trước vừa dịch chuyển

đi chút ít. Theo nguyên lý này, bất cứ thứ gì đã tồn tại trong khung hình trước đều

không cần phải được truyền lại, nó chỉ cần được sao chép bằng máy thu hình từ một

bản lưu trữ của khung hình trước. Chức năng chỉ ra cái mới hoặc cũ trong một

khung hình được gọi là bù chuyển động. Đây là một trong những nhiệm vụ phức tạp

nhất của nén video, thực tế hiệu quả của bù chuyển động luôn bị hạn chế do khả

năng tính toán và tốc độ.

Khung hình trước Khung hình dự báo

Vector chuyển động

Khung hình hiện tại Khung hình còn lại được truyền

Hình 5.7. Bù chuyển động

142

----------------------- Page 12-----------------------

Chương 5: Nén dữ liệu audio và video

Cũng như với mã chuyển đổi, bù chuyển động được dựa vào quá trình xử lý

ảnh trong khối. Đưa ra một khung hình (đầu tiên) hoàn chỉnh như là điểm xuất phát,

các khối từ khung hình tiếp theo (thứ 2) được lấy và so sánh với các vùng của khung

hình thứ nhất để xác định xem có điểm nào trùng khớp ở bất cứ vị trí nào trên khung

hình thứ nhất hay không. (Khối có thểđã dịch chuyển giữa các khung hình). Nếu

tìm thấy điểm trùng khớp, một vector chuyển động sẽđược tạo ra cho máy thu sử

dụng để dựđoán vùng của khung hình thứ hai bằng cách sao chép nó từ khung hình

thứ nhất. Biết rằng số lượng chuyển động giữa các khung hình thường không quá

lớn nên chỉ cần thiết tìm kiếm một khu vực nhỏ xung quanh vị trí của khối được

kiểm tra. Thậm chí như vậy, số lượng thao tác tính toán ởđây cũng rất lớn và có thể

cần thiết phải hạn chế phạm vi tìm kiếm so với thực tế cần thiết. Các khối không

được tìm thấy ở khung hình trước phải được mã hóa bằng các phương tiện khác và

truyền đi đầy đủ.

Hình 5.7 là sơđồ của quá trình này, nó minh họa hoạt động trong một cảnh chỉ

có một vật chuyển động nhỏ (một con chim) nhưng có camera dõi theo. Điều này có

nghĩa là cảnh phải trải qua một hiệu ứng quay quét, ởđây hầu hết các khối của

khung hình mới tồn tại ở những vị trí tương tự trong khung hình trước, vì vậy có thể

sử dụng cấp độ nén cao hơn cho loại cảnh này.

5.4. CÁC THUẬT TOÁN THÔNG DỤNG

Các nguyên tắc được bàn trong phần trước nhìn chung đều được sử dụng với

các thuật toán thông dụng. Phần này sẽđề cập đến một số thuật toán để chỉ ra cách

thức hoạt động của nó.

5.4.1. JPEG

Ảnh động chỉ là một chuỗi các hình đang được truyền ở tốc độđủđể người

xem có thể nhìn thấy như là một ảnh chuyển động liên tục. Một phương pháp nén

ảnh động là nén từng ảnh một và truyền kết quả thu được thành một dòng bit đơn.

Bất cứ một phương pháp nén hình ảnh chuyển động nào cũng có thểđược sử dụng

nhưng một trong những phương pháp nén tốt nhất đã được phát triển bởi JPEG của

ISO/IEC và được gọi là nén JPEG.

Tiêu chuẩn nén ảnh JPEG không phải là một thuật toán đơn lẻ mà giống như là

một hộp công cụ của các kỹ thuật nén, nó có các chếđộ (mode) và các sự lựa chọn

với các ứng dụng nén hình dạng chuyển động liên tục trên phạm vi lớn. Có thể lựa

chọn cả nén tổn hao và nén không tổn hao, số bit/mẫu khác nhau, các độ phân giải

khác nhau, và một vài thuật toán khác nhau. Có bốn chếđộ hoạt động:

Không tổn hao-ảnh được tái tạo lại một cách chính xác. Toàn bộ các chếđộ

khác bị tổn hao.

143

----------------------- Page 13-----------------------

Chương 5: Nén dữ liệu audio và video

Liên tục-chếđộ này mã hóa theo trật tựảnh đã được quét, đây là cách thông

thường mà ảnh vẫn được xử lý.

Tăng dần-đây là phương pháp mã hóa đa đường truyền đi một ảnh thô trước

tiên, ảnh này sẽ nhanh chóng được hiển thịở máy thu. Tiếp sau đó là các

quá trình mã hóa lặp lại với độ phân giải theo thứ tự tăng cao hơn, có thể

được hiển thị nhằm đưa ra chất lượng ảnh ngày càng tốt hơn.

Thứ bậc-trong chếđộ này, ảnh được mã hóa ở nhiều độ phân giải, người sử

dụng có thể chọn độ phân giải để hiển thịảnh.

Việc cung cấp sự lựa chọn cấu hình trong JPEG có nghĩa là tiêu chuẩn có thể

phù hợp cho nhiều ứng dụng khác nhau và có thể nâng cấp trong tương lai để có thể

tiếp tục nghiên cứu và phát triển công nghệ nén hình. Đây là đặc điểm rất quan

trọng và thỏa mãn đối với các tiêu chuẩn nén.

ảnh Mã hóa Tạo định Định dạng Giải mã ảnh tái

nguồn JPEG dạng xen kẻ giải mã JPEG tạo

Bảng đặc Bảng đặc

điểm kỹ điểm kỹ

thuật thuật

Hình 5.8. Kiến trúc JPEG

Hình 5.8 là một sơđồ khối của kiến trúc JPEG. Ảnh nguồn được mã hóa dưới

sựđiều khiển của một hoặc nhiều bản đặc điểm kỹ thuật. Dữ liệu đã mã hóa được

đặt vào định dạng xen kẽ JPEG để phát tới người sử dụng. Đây là định dạng có thể

được lưu trữ hoặc truyền. Ởđầu thu, bảng đặc điểm kỹ thuật và dữ liệu mã hóa được

tách riêng và quá trình xử lý ngược lại được thực hiện để khôi phục ảnh ban đầu.

Tất cả các loại hình mã hóa, trừ chếđộ không tổn hao, đều dựa vào DCT. Hình

5.9 minh họa quá trình xử lý chi tiết cho chếđộ hoạt động liên tục. Mỗi thành phần

của hình nguồn được chia thành các khối 8x8 pixel. Quá trình xử lý DTC trước

được sử dụng cho khối này. Việc này cho kết quả là một số DC và 63 thành phần

tần số cao hơn, mỗi một thành phần sẽđược lượng tử hóa theo một bảng 64 giá trị

lượng tử.

Bảng lượng tử này là đặc điểm kỹ thuật đầu tiên của thuật toán; nó phải do

người sử dụng cung cấp và trở thành một phần của dòng dữ liệu được truyền tới

máy thu. Người sử dụng có thểđiều khiển sự thỏa hiệp giữa cấp độ nén và chất

lượng của ảnh bằng cách xác định bảng. Nội dung của bảng lượng tử là kích cỡ của

144

----------------------- Page 14-----------------------

Chương 5: Nén dữ liệu audio và video

bước sẽđược sử dụng; các giá trị của hệ số DCT được chia cho kích thước của bước

tương ứng và kết quảđược làm tròn tới số bit đã xác định. Vì vậy, giá trị lượng tử

lớn hơn sẽ cho kết quả là lượng tử thô và điều đó có nghĩa là các giá trị lớn hơn sẽ

được làm tròn về 0.

Nguồn từ DCT Trật tự Lượng Mã hóa

khối 8x8 trước zig-zac tử entropy

Xác định

xen kẻ

Bảng đặc Bảng đặc

điểm kỹ điểm kỹ

thuật thuật

Hình 5.9. Xử lý JPEG cho chếđộ hoạt động liên tục

Tiếp theo quá trình lượng tử hóa, hệ số DC được mã hóa ngược lại với các hệ

số DC của khối hình trước, 63 hệ sốđã lượng tử sau đó được đặt theo trật tự zic-zac

và được mã hóa thống kê theo cả phương pháp Huffman hoặc theo phương pháp số

học như trình bày trong tiêu chuẩn. Trong cả 2 trường hợp, phải cần đến một đặc

điểm kỹ thuật của bảng thứ hai để xác định ghi mã thống kê. Một lần nữa người sử

dụng có thể thay đổi bảng này đểđiều khiển chỉ tiêu nén.

Bước cuối cùng của quá trình mã hóa là tập hợp dữ liệu nén và đặc điểm kỹ

thuật của bảng vào một dòng bit một chiều theo định dạng xen kẽ, điều này được

minh họa trên hình 5.10. Các phần khác nhau của dòng bit xen kẽ bị làm mất tính

tuyến tính bởi các mã đã đánh dấu, các mã này bao gồm hai byte- byte thứ nhất là

tất cả các số 1 (0xFF trong mã HEX) và byte thứ hai là bất cứ giá trị nào khác ngoài

0 hoặc 0xFF.(Lưu ý rằng nếu một byte 0xFF xảy ra trong dữ liệu của dòng bit, nó sẽ

được mã hóa như là 0xFF00 để tránh bị coi như là một dấu hiệu). Các dấu này trông

giống như các mã giải thoát đã được mô tả cho RLE trong phần 5.3.1.1

I F Header Quét 1 Quét 2 Quét n I

O O ….. O

S S khung E

S Header Dữ liệu mã

S quét hóa entropy

Hình 5.10. Định dạng xen kẻ JPEG

145

----------------------- Page 15-----------------------

Chương 5: Nén dữ liệu audio và video

Byte thứ hai của dấu hiệu xác định kiểu dấu hiệu và một vài kiểu dấu hiệu có

các thông số bổ sung kèm theo. Trong trường hợp này hai byte đầu tiên sau dấu hiệu

luôn chỉ rõ độ dài của khối thông số tiếp theo. Vì vậy, ví dụ một header của khung

hình có một dấu hiệu đặc biệt được xác định, và sau đó một thông sốđộ dài sẽ chỉ rõ

có thêm bao nhiêu byte trong header. Đây là một phương pháp thông dụng để xác

định các header của dòng bit.

Như minh họa trên hình 5.10, dữ liệu của hình đã mã hóa cho một hình đơn (

khung hình) được truyền đi trong khối được gọi là quét, (đối với các định dạng DCT

liên tục) bao gồm tất cả thành phần của ảnh dưới dạng được chèn. Các đặc điểm kỹ

thuật của bảng được phát đi trước tiên, vì vậy chúng có thểđáp ứng cho quá trình

giải nén dữ liệu quét xảy ra sau này. Header của khung hình và header quét có chứa

chi tiết định dạng ảnh và quá trình giải nén của nó.

Nén JPEG có thể thực hiện nén dữ liệu ảnh với bộ phân giải tự nhiên cao,theo

tỉ lệ 10:1 hoặc hơn với sự suy giảm có thể nhìn thấy rõ rệt. Một vài ảnh có thểđược

nén nhiều còn một vài ảnh khác có thểđược nén ít và tất nhiên, các điều kiện nhìn

cũng sẽảnh hưởng đến cấp độ nén có thể chấp nhận được.

5.4.2 M-JPEG

Định dạng giao diện JPEG hỗ trợ cho nhiều quá trình quét trong một khung

hình và nếu các quá trình quét tương ứng với các khung hình của một dòng ảnh

động. Tức là khi ấy ảnh động được nén. Do một dòng chuyển động thường phải

chịu sự suy giảm ảnh nhiều hơn một ảnh thường bởi vì hiệu ứng trung bình của

khung hình có thểđạt được trong nhiều trường hợp là rất nhiều hơn cả tỉ lệ nén 10:1

đã đề cập ở trên. Phương pháp này đôi khi được sử dụng do có thể thực hiện những

ý đồ nén quan trọng với quá trình xử lý đơn giản hơn so với hệ thống nén chuyển

động phức tạp như MPEG. Đây được gọi là JPEG chuyển động hay M-JPEG. Bởi vì

tiêu chuẩn JPEG được sử dụng chỉ cho hình nên có không có phần cung cấp cho

thành phần audio được yêu cầu cùng với ảnh động.

5.4.3 MPEG

Nén JPEG quan tâm đến nén sự dư thừa không gian trong các ảnh nhưng

không chú ý tới bất cứ sự dư thừa nào tồn tại giữa các khung hình liên tục của một

dòng ảnh động. Một tập đoàn nghiên cứu khác IEC/ISO, tập đoàn chuyên gia ảnh

động (MPEG) được thành lập để chuyên giải quyết vấn đề này và cho đến nay họđã

chuẩn hóa hai định dạng: MPEG-1 Và MPEG-2 .Sự khác nhau giữa tiêu chuẩn này

nằm ở tốc độ dữ liệu và chất lượng ảnh – MPEG-1 được thiết kế cho tốc độ truyền

dữ liệu tới tận 1,5 Mb/s và hoạt động trong giới hạn này đểđạt được các ảnh có chất

lượng tốt nhất có thể. MPEG-2 hoạt động với tốc độ dữ liệu tới 20 Mb/s và cho chất

ảnh cao hơn; nó được sử dụng cho ảnh của hệ thống HDTV cũng như trong hệ

146

----------------------- Page 16-----------------------

Chương 5: Nén dữ liệu audio và video

thống ATV Grand Alliance đã được chuẩn hóa bởi ATSC và trong truyền hình

quảng bá phát vệ tinh. Ởđây sẽ bàn đến phiên bản của MPEG-2.

Nén MPEG áp dụng cho tất cả các quá trình như của JPEG bao gồm DCT,

lượng tử hóa, mã entropy và cộng thêm bù chuyển động để nén dư thừa xen kẽ

khung hình. Như với JPEG, các quá trình này được thực hiện theo cách thức rất linh

hoạt, cho phép người sử dụng điều chỉnh nén để phù hợp với những ứng dụng

chuyên biệt và nội dung của ảnh.

Khoảng

cách dòng

Dòng

quét

Mẫu tín hiệu chói Mẫu tín hiệu CB

Mẫu tín hiệu C C , C cùng vị trí

R B R

Hình 5.11. Mô hình lấy mẫu không gian MPEG-2

MPEG-2 sử dụng quá trình lấy mẫu con các thành phần hiệu màu theo tỉ lệ 2:1

theo cả hàng dọc và hàng ngang. Nó khác với quá trình lấy mẫu con của ITU-R

Ree.BT.601,chỉ lấy mẫu con theo hang ngang. Với lý do này, và cũng để thừa nhận

là tốc độ dữ liệu của độ chói bị giảm xuống bởi một hệ số 2 khác so với tỉ lệ 4:2:2,

lấy mẫu con MPEG-2 được gọi là 4:2:0. Mô hình lấy mẫu không gian được minh

họa trên hình 5.12. Các mẫu CR và CB có cùng vị trí không gian nhưng vị trí nó bị

dịch chuyển đi một nửa độ cao của dòng so với các mẫu độ chói. Điều này được

thực hiện để các vị trí lấy mẫu độ chói sẽ như nhau cho cả nguồn quét cách dòng,

hoặc có thể tăng dần; tuy nhiên với yêu cầu là giá trị của mẫu phải được nội suy từ

những mẫu lấy đồng thời với mẫu độ chói.

Do cần thiết phải giảm mô hình lấy mẫu thành khối 8x8 cho DTC và quá trình

xử lý bù ảnh động, quá trình lấy mẫu con 4:2:0 cần đến một quan niệm là khối khác:

147

----------------------- Page 17-----------------------

Chương 5: Nén dữ liệu audio và video

khối lớn .Đây là một nhóm 2x2 gồm khối độ chói 8x8 (vì vậy sẽ là 16x16) có liên

quan đến 2 khối mẫu các thành phần hiệu màu 8x8, một cho C và một cho C B . Hầu

R B

hết quá trình xử lý MPEG-2 đều thực hiện với khối lớn do chúng là đơn vị không

gian nhỏ nhất có thểđược biểu thị bởi một số tích phân của các khối 8x8 cho tất cả

các thành phần tín hiệu.

I B P B P B P B I

1 2 3 4 5 6 7 8 9

1 3 2 5 4 7 6 9 8

Hình 5.12. Thứ tự khung MPEG

Hình 5.12. Biểu diễn mô hình lấy mẫu không gian

Với phần bù chuyển động, mỗi khung hình đều được dựa vào vị trí sai từ

khung hình trước, song phải bắt đầu quá trình khung hình thứ nhất. Vì vậy, MPEG-2

cung cấp các khung hình hoàn toàn tự mã hóa giống nhưảnh của JPEG. Các khung

hình này được gọi là khung hình 1. Các khung hình được dựđoán từ khung hình

trước bằng bù chuyển động được gọi là khung hình P. Một kiểu khung hình thứ ba

cũng được cung cấp dựa vào dựđoán từ khung hình trước và khung hình tiếp theo –

đây được gọi là dựđoán hai hướng. Nhưng khung hình này được gọi là khung hình

B. Khung hình B có thểđược nén thậm chí nhiều hơn khung hình P nhưng yêu cầu

phải có một khung hình mới ở bộ giải mã trước khi khung hình B được giải nén, do

vậy phải sử dụng cách thức truyền các khung hình không theo thứ tự trong dòng

truyền. Đây cũng không phải là vấn đề quá khó, trừ phi phải cần lưu trữ nhiều hơn ở

máy thu và cộng thêm khoảng trễ vào quá trình nén và giải nén. Tiêu chuẩn cung

cấp cho đặc điểm này và ứng dụng của nó được xác định ở thời điểm mã hóa.

Hình 5.13 là sơđồ một chuỗi khung hình, minh họa cách sử dụng của khung

hình I-P và B và trật tự truyền xảy ra. Do I là các khung hình được nén ít nhất, nên

ứng dụng của nó phải được tối thiểu hóa đểđạt được tốc độ dữ liệu thấp nhất nhưng

I vẫn yêu cầu theo định ký cho dòng video để bản thân nó có thể phục lại sau khi

chuyển mạch kênh hoặc ngưng hoạt động do lỗi. Tiêu chuẩn nêu rõ, ít nhất cứ 133

148

----------------------- Page 18-----------------------

Chương 5: Nén dữ liệu audio và video

khung hình sẽ xuất hiện khung hình I-hầu hết các hệ thống đều cung cấp số khung

hình nhiều hơn như vậy .Điều này được xác định ở bộ mã hóa.

Nén phần lỗi

dự báo

Đầu vào DCT Lượng tử Mã hoá Video đã

video hóa dòng bit mã hóa

Vector chuyển động

Đánh giá Bù chuyển Lượng tử DCT

chuyển động động hóa ngược ngược

Lưu trữ

khung hình

Lưu trữ khung hình tái tạo

Hình 5.13. Quá trình xử lý MPEG

Hình 5.14 là một sơđồ khối xử lý nén MPEG-2 trình bày các nguyên lý đã đề

cập từ trước tới giờ.Quá trình xử lý được thực hiện trên khối 8x8 tại một thời điểm.

Nếu khung hình hoặc khối lớn, được ghi mã hóa trong các pixel sẽ trực tiếp vào quá

trình xử lý DTC. Đối với các khối đã ghi mã xen kẽ, bước đầu tiên là thực hiện bù

ảnh động sử dụng các khung hình mỏ neo lưu trữ từ khung hình trước khung hình

sắp tới. Kết quả này được sử dụng so sánh với các pixel đầu vào và các visai để khối

chuyển tới quá trình xử lý DCT.Ởđầu ra của DTC ,các hệ sốđược lượng tử hóa

theo bảng lượng tử. sẽ có các bảng khác nhau, phụ thuộc vào việc sử dụng ghi mã

trong hay mã xen kẽ. Kết quả của quá trình lượng tử hóa được sắp xếp theo trật tự

và sử dụng mã entropy để truyền.

Một vòng bổ sung sẽ giải mã các vi sai của DCT vì vậy, các khung hình dự trữ

được sử dụng cho bù chuyển động sau này bị suy giảm bởi quá trình lượng tử hóa từ

việc tích tụ khi các khung hình được dựđoán từ khung này đến khung khác.

Quá trình mã hóa phải có sự lựa chọn liên quan đến kiểu dựđoán khung hình

và lượng tử hóa. Những sự lựa chọn này có thểđược thực hiện dựa trên cơ sở khối

lớn, nếu cần. Vì vậy, nó trở thành một nghệ thuật để khởi động bộ mã hóa nhằm, đạt

được khả năng nén tốt nhất với tốc độ dữ liệu cho trứơc. Tham gia vào quá trình này

còn có bộ mã hóa có khả năng tựđộng hóa rất tinh xảo.

5.4.4. Video của máy tính cá nhân

Mặc dù video MPEG được sử dụng cho máy tính cá nhân và đưa ra những chi

149

----------------------- Page 19-----------------------

Chương 5: Nén dữ liệu audio và video

tiết tuyệt vời, song vẫn cần đến một phần cứng chuyên biệt, trừ trường hợp ở nhưng

máy tính cá nhân cực nhanh. Một số thuật toán nén khác nhau đã phát triển một

cách đặc biệt. ứng dụng riêng cho máy tính cá nhân. Các thuật toán này tạo ra sự

thỏa hiệp khác nhau giữa cấp độ nén và chất lựợng ảnh để giảm các yêu cầu tính

toán cho quá trình giải mã.Hầu hết các thuật toán này được thiết kế như các hệ

thống không đối xứng. Một số tiêu chuẩn đã sẵn sangf đáp ứng là Indeo của Intel,

Video cho Windows của Microsoft, Quick time của Apple (cho Macinstosh và các

máy tính cá nhân dùng Window ) và CinePark của SuperMac. Trong những trường

hợp này, phần mềm giải mã đã sẵn sàng cung ứng nhưng phần mềm giải mã hóa (và

cả phần cứng )thường là độc quyền và phải mua. Do là độc quyền nên chi tiết của

các thuật toán này không đữợc bàn đến ởđây.

5.4.5 Audio AC-3

Hệ thống audio của hệ thống ATSC ATC là một ví dụ nén audio sốđiển hình.

Hệ thống này cung cấp tới 5.1 kênh âm thanh vòm stereo chất lượng cao, với tổng

tốc độ dự liệu 385 kb/s (kênh 0.1 là kênh loa trầm phụ có tần số thấp ). Bộ mã hóa

AC-3 tạo ra một dòng bít tổng hợp có thểđược đóng gói và trộn với gói video trong

hệ thống vận chuyển ATSC.

Như trong hệ thống nén video MPEG, nén audio AC-3 được thực hiện bằng

cách chuyển đổi tốc độ dự liệu thành miền tấn số, đông thời đây cũng là mục tiêu

cho lượng tử hóa thô. Tuy nhiên, đối video,việc chuyển đổi tần số, thời gian được

thực hiện khác. Các mẫu audio đầu vào ở tấn số 48 khz được tập hợp các khối ghép

512 mẫu. Mỗi mẫu đầu vào được biểu thị thành hai trong số các khối. và bằng cách

sử dụng một loạt mờ chồng giữa các khối, khả năng nghe thấy sự ghép khối được

loại bỏ.

Mã hóa hình

bao phổ

Đầu vào Bộ lọc băng

audio PCM phân tích

Chỉđịnh bit

Lượng tử Định dạng Dòng bit đã

khung AC-3 mã hóa

Hình 5.14. Sơđồ khối bộ mã hóa AC-3

Hình 5.14 là sơđồ khối của bộ mã hóa AC-3. Các khối mẫu được chuyển

thành hệ số nhờ bộ xử lý băng của bộ lọc phân tích. Đầu ra của bộ xử lý này là một

chuỗi các hệ số trong một định dạng dấu phẩy đặc biệt .Các số mũ biểu thị phổ tín

150

----------------------- Page 20-----------------------

Chương 5: Nén dữ liệu audio và video

hiệu thô và được mã hóa riêng rẽ từ phần định trị của định dạng dấu phẩy

động.Dòng bít ởđầu ra cho mỗi trong số 6 khối audio được tập hợp thành một

khung audio biểu thị 1536 mẫu audio trước khi nén hoặc 32 ms audio. Cấu trúc của

khung được minh họa trên hình 5.17. Khung bắt đầu bằng một từđộng bộ,tiếp theo

là một header thông tin dòng bit (BSI) mô tả sự phân phối audio. Sau đó đến dự liễu

audio được nén cho 6 khối mẫu và một mã phát hiện sửa lỗi CRC ở cuối. Khung

cũng chuẩn bịđầy đủ cho dự liệu phụ trợ không bắt buộc.

ộ B Khối Khối Khối Khối Khối Khối

r x C

g e audio audio audio audio audio audio u R

n d A C

ồ a

Đ e 0 1 2 3 4 5

Hình 5.17. Cấu trúc khung AC-3

Cùng với nén, hệ thống AC-3 cũng đưa ra một vài đặc điểm thú vị khác tạo

điều kiện thuận lợi cho quá trình tái tạo âm thanh chất lượng cao. Một đặc điểm

đáng lưu ý là hệ thộng có thể có cấu hình của nén dải rộng. Trong rất nhiều hoạt

động. thường phải sử dụng nén dải rộng của audio để cải thiện vấn đề trào kệnh và

khả năng nghe được âm thanh trong các môi trường nghe kém hoặc nghe với trang

thiết bị tái tạo có công suất hạn chế . Nếu điều này được thực hiện ở cuối quá trình

chèn, nó sẽ buộc người xem phải sử dụng cùng một dải giới hạn, không cần quan

tâm đến chất lượng của thiết bị và môi trường tái tạo. Với AC-3, nén giải động xảy

ra ởđầu thu nhờ các mã nén được truyền cùng với các tín hiệu. Vì vậy, máy thu có

thể chọn số lượng nén để áp dụng . Và dải động gốc đầy đủ cũng sẵn sàng cung cấp

cho những hệ thống có khả năng tái tạo lại nó.

Một đặc đỉểm khác của AC-3 là tiêu chuẩn hóa âm lượng. Khi chuyển mạch

giữa các nguồn, hoặc các kênh tín hiệu khác nhau, người ta thường gặp phải sự thay

đổi âm lượng thành phần đối thoại của audio. Điều này rất khó kiểm soát bởi vì các

ứng dụng khác nhau cần đến các số lượng khoảng trống trên mức đối thoại để phù

hợp với âm thanh khác. Tiêu chuẩn AC-3 đặt ra yêu cầu phải có một thông sốđược

truyền cùng với audio để nhận dạng mức mà tại đó đối thoại được thiết lập trong

toàn bộ dải động audio.Giá trị này có thểđược sử dụng ở máy thu để tiêu chuẩn hóa

tất cả các kênh, vì vậy đối thoại luôn có cùng âm lượng.

151

Bạn đang đọc truyện trên: Truyen2U.Pro

Trước Sau