Está en la página 1de 245

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

SÁCH HƯỚNG DẪN HỌC TẬP

XỬ LÝ ÂM THANH VÀ HÌNH ẢNH


(DÙNG CHO SINH VIÊN HỆ ĐÀO TẠO ĐẠI HỌC TỪ XA)

Biên soạn: TS Nguyễn Thanh Bình


ThS Võ Nguyễn Quốc Bảo

LƯU HÀNH NỘI BỘ

TP HỒ CHÍ MINH - 2007


LỜI NÓI ĐẦU
Tài liệu hướng dẫn học tập môn "Xử lý âm thanh và hình ảnh" dành cho khối đào tạo từ xa
chuyên ngành điện tử viễn thông. Tài liệu này giới thiệu những kiến thức cơ bản về xử lý âm
thanh và hình ảnh. Đặc biệt, tác giả chú trọng tới vấn đề xử lý tín hiệu ứng dụng trong mạng viễn
thông: đó là các phương pháp nén tín hiệu, lưu trữ, các tiêu chuẩn nén tín hiệu âm thanh và hình
ảnh. Những kiến thức được trình bày trong tài liệu sẽ giúp học viên tiếp cận nhanh với các vấn đề
thực tiễn thường gặp trong mạng viễn thông.
Vì khối lượng kiến thức trong lĩnh vực xử lý âm thanh cũng như hình ảnh rất lớn, trong tài
liệu hướng dẫn chỉ có thể nêu lên một số vấn đề chính. Để tìm hiểu sâu và rộng hơn học viên phải
nghiên cứu thêm trong các sách tham khảo được tác giả đề cập tới trong phần cuối của tài liệu
này.
Đây là lần biên soạn đầu tiên, chắc chắn tài liệu còn nhiều sơ sót, rất mong các bạn đọc
trong quá trình học tập và các thày cô giảng dạy môn học này đóng góp các ý kiến xây dựng.

Tp. Hồ Chí Minh 10/11/2007


Nhóm biên soạn

Biên soạn phần xử lý âm thanh: ThS Võ Nguyễn Quốc Bảo


Biên soạn phần xử lý hình ảnh: TS Nguyễn Thanh Bình
Chương 1 Giới thiệu chung về xử lý tín hiệu 

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU

1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN


Xử lý tín hiệu là lĩnh vực khoa học được nghiên cứu và phát triển trong một thời gian dài.
Hệ thống xử lý tín hiệu tương tự cũng như xử lý tín hiệu số được ứng dụng rất rộng rãi trong
ngành viễn thông cũng như trong nhiều ngành khoa học khác. Trong những năm gần đây, các
phương pháp xử lý tín hiệu số đang dần chiếm ưu thế, cho dù, về mặt bản chất, tín hiệu nguyên
thủy được truyền đi và tín hiệu mà người nhận tin có thể tiếp thu được vẫn là tín hiệu tương tự.
Xu hướng phát triển trên hình thành do hệ thống số có nhiều tính năng nổi trội của so với các hệ
thống analog cổ điển:
1. Các hệ thống xử lý số có độ linh hoạt cao: có thể nhanh chóng thay đổi cơ chế hoạt
động của phần cứng thông qua phần mềm điều khiển.
2. Độ ổn định cao, ít chịu ảnh hưởng của môi trường xung quanh, tính chất của hệ thống
số hầu như không thay đổi theo thời gian.
3. Khả năng xử lý tín hiệu với độ chính xác cao. Tín hiệu số cho phép lưu trữ và sao chép
nhiều lần với mức độ tin cậy cao. Khả năng chống nhiễu của tín hiệu số cao hơn so với
tín hiệu tương tự.
4. Thời gian thiết kế và thi công các hệ thống số nhanh, kích thước nhỏ gọn, mức tiêu hao
năng lượng thấp v.v.
Trước đây, do tốc độ xử lý của máy tính còn chậm, việc xử lý các tín hiệu "phức tạp" như
tín hiệu âm thanh chất lượng cao hay tín hiệu ảnh số không thể thực hiện được trong thời gian
thực. Tuy nhiên, trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ vi điện tử,
nhược điểm nêu trên đã được khắc phục. Ví dụ điển hình là DSP xử lý ảnh và âm thanh cao cấp
của hãng Texac Instrument TMS320DM6446 Digital Media System-on-Chip làm việc với tần số
xung nhịp 594 Mhz, cho phép thực hiện nén video theo chuẩn MPEG-2 và MPEG-4 thời gian
thực (http://focus.ti.com/docs/prod/folders/print/tms320dm6446.html). Tốc độ xử lý của DSP này
là 4752 MIPS (Million Instructions Per Second - MIPS). DSP TMS320DM6446 được tích hợp 4
kênh biến đổi DAC (54MHz) để tạo các tín hiệu video tiêu chuẩn theo hệ NTSC/PAL, S-Video
cũng như video thành phần (Component video). Giá thành của DSP xử lý video chuyên dụng nói
trên khoảng <45$. Hiện nay, kỹ thuật xử lý tín hiệu số đang được sử dụng rất hiệu quả trong các
lĩnh vực xử lý âm thanh (nhận dạng tiếng nói, tổng hợp âm thanh và tiếng nói v.v.), xử lý ảnh
(nâng cao chất lượng ảnh, phân vùng, nhận dạng .v.v), đo lường và điều khiển, thiên văn học v.v.
Tài liệu hướng dẫn học tập môn xử lý âm thanh và hình ảnh này thực chất có thể được gọi
là tài liệu hướng dẫn "nhập môn" xử lý âm thanh và hình ảnh. Thông thường các tài liệu nghiên
cứu về xử lý ảnh và âm thanh được tách riêng vì: 1- Đây là hai lĩnh vực xử lý tín hiệu rất rộng,
liên quan tới rất nhiều ngành khoa học khác nhau; 2- Quá trình xử lý tín hiệu âm thanh và hình
ảnh phải được thực hiện dựa trên những hiểu biết sâu sắc về hệ thống thính giác và thị giác của
con người. Ở các phần sau, ta sẽ thấy rằng đa số các kỹ thuật xử lý tín hiệu âm thanh và hình ảnh
sẽ dựa trên đặc điểm tiếp thu thông tin của các giác quan nói trên; 3- Tín hiệu âm thanh và hình
ảnh khác nhau về bản chất: tín hiệu âm thanh là tín hiệu một chiều còn tín hiệu hình ảnh (tĩnh hay
động) là tín hiệu hai hoặc ba chiều. Chính vì thế, công cụ toán học để mô tả và phân tích quá trình
xử lý hai loại tín hiệu trên cũng khác nhau.
Tuy âm thanh và hình ảnh là hai tín hiệu tương đối khác nhau, nhưng quá trình xử lý chúng

   3 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

vẫn được mô tả dựa trên nền tảng lý thuyết xử lý tín hiệu tổng quát. Sau đây chúng ta nhắc lại một
số những khái niệm cơ bản về tín hiệu và hệ thống xử lý tín hiệu.
1.1.1 Tín hiệu và phân loại tín hiệu
Tín hiệu do một thiết bị đầu cuối tạo ra, tín hiệu là biểu diễn vật lý (dòng điện, điện áp...)
của tin tức, được truyền đi từ đầu phát đến đầu thu. Tín hiệu có thể được biểu diễn bằng một hàm
của nhiều biến số: m(t ) = f (t , v, f , ϕ ) , f - tần số, t - thời gian, v - biên độ, ϕ - trạng thái pha.
Khi phân loại tín hiệu ta có thể dựa trên các cơ sở khác nhau như phân loại theo năng lượng,
hình thái, theo tính chất của phổ của tín hiệu v.v.
Trong lý thuyết tín hiệu có hai lớp tín hiệu quan trọng đó là tín hiệu xác định và ngẫu nhiên.
Tín hiệu xác định là tín hiệu có quá trình biến đổi biểu diễn bằng một hàm thời gian, và có thể xác
định chính xác ở mọi thời điểm. Các tín hiệu xác định có vai trò rất quan trọng trong lý thuyết tín
hiệu cổ điển. Tín hiệu xác định còn chia ra thành tín hiệu tuần hoàn (theo chu kỳ T) và không
tuần hoàn (phi chu kỳ).Tín hiệu tuần hoàn là những tín hiệu có thể biểu diễn bằng công thức như
sau: x (t ) = x (t + kT ) k − nguyeân - tín hiệu này tuân theo quy luật lặp lại đều với chu kỳ T.
Tín hiệu ngẫu nhiên là các tín hiệu mà không thể dự kiến trước hành vi của chúng theo thời
gian và để biểu diễn chúng phải dựa trên lý thuyết thống kê. Trên thực tế, các tín hiệu thông tin
đều mang tính chất ngẫu nhiên.
Tín hiệu có thể có biên độ và biến thời gian (không gian) là rời rạc hay liên tục, do đó
chúng ta còn phân biệt bốn loại tín hiệu sau:
Tín hiệu Tín hiệu Tín hiệu Tín hiệu
tương tự (analog) lượng tử rời rạc số (digital)
Biên độ liên tục rời rạc liên tục rời rạc
Biến thời gian liên tục liên tục rời rạc rời rạc
Như vậy, tín hiệu tương tự là tín hiệu có biên độ và biến thời gian là liên tục. Nếu tín hiệu
được biểu diễn bằng hàm của biến rời rạc thì tín hiệu đó là tín hiệu rời rạc. Ký hiệu chung của tín
hiệu rời rạc là xs ( nTs ) , nTs là biến độc lập, rời rạc, n là số nguyên, Ts là chu kỳ lấy mẫu.

Tín hiệu có biên độ và thời gian đều rời rạc được gọi là tín hiệu số, ký hiệu là xd ( n ) .

Ngoài ra, dựa trên tính chất của tin tức truyền đi, người ta còn phân loại các tín hiệu sau:
- Tín hiệu thoại (tiếng nói con người).
- Tín hiệu hình ảnh tĩnh hay ảnh động (tín hiệu video)
- Tín hiệu dữ liệu (data) dùng trong hệ thống máy tính, bộ vi xử lý.
Một số tín hiệu khác, phân biệt theo bề rộng phổ và tần số (tín hiệu dải rộng, dải hẹp, cao
tần v.v.) cũng sẽ được định nghĩa và sử dụng trong những phần tiếp theo.
1.1.2 Tín hiệu rời rạc
Tín hiệu x(t) có biến thời gian t rời rạc được gọi là tín hiệu rời rạc, chúng ta có thể ký hiệu
là {xn} với n là số nguyên (n = 0, ±1, ±2, … ).

   4 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

1.1.2.1 Biểu diễn tín hiệu rời rạc


a- Biểu diễn toán học x(n)
Xét hàm x(n) với n là phần tử nguyên.
Ký hiệu tín hiệu rời rạc :
n
x = { x( n )} − ∞ < n < +∞ -1 0 1 2 3 4 5 6
Hình 1.1.1 Tín hiệu rời rạc

⎧bieåu thöùc toaùn N1 ≤ n ≤ N 2


x ( n) = ⎨
⎩0 n coøn laïi

b- Biểu diễn bằng đồ thị


Để minh hoạ theo kiểu nhìn trực quan, ta có thể vẽ đồ thị (hình 1.1.1) của dãy x(n). c-
Biểu diễn bằng dãy số
Chúng ta không để ở dạng chung (một tổng hay tích) mà khai triển các giá trị của tín hiệu
rời rạc như sau : x (n ) = {..., n (n − 1), x (n ), x (n + 1),...}
3 1 1
x (n ) = {..., 0, 1, , , , 0, ,...}
4 2 4

↑ : chỉ mẫu tại n = 0.
1.1.2.2 Các phép biến đổi tín hiệu rời rạc
a- Phép nhân hai tín hiệu rời rạc :
x. y = {x(n). y(n)} (1.1.1)

b- Phép nhân tín hiệu rời rạc với hằng số :


α. y = {α. y(n)} (1.1.2)

c- Phép cộng hai tín hiệu rời rạc :


x + y = {x(n) + y(n)} (1.1.3)

d- Phép dịch (trễ) :


Dãy x được dịch sang phải n0 mẫu, thành dãy y :
y (n) = x(n − n 0 ) với n0 > 0 (1.1.4)

Dãy x được dịch sang trái n0 mẫu, thành dãy y :


y(n ) = x (n + n 0 ) với n0 > 0 (1.1.5)

Như vậy một tín hiệu x(n) bất kỳ có thể biểu diễn :

x ( n) = ∑ x(k )δ (n − k )
k = −∞
(1.1.6)

   5 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

e- Tín hiệu rời rạc tuần hoàn với chu kỳ là N nếu thoả mãn :
x(n) = x(n + N ) , ∀ n. (1.1.7)

Tín hiệu tuần hoàn có thể được ký hiệu với chỉ số p (period) : xp(n). Tín hiệu chỉ được xác
định trong một khoảng hữu hạn N mẫu được gọi là tín hiệu có độ dài hữu hạn N.
f- Tín hiệu năng lượng và tín hiệu công suất:
* Năng lượng của tín hiệu được định nghĩa bằng tổng bình phương các modul :


2
E xN = x( n ) (1.1.8)
n=−∞

* Công suất trung bình của tín hiệu rời rạc được định nghĩa như sau:
N
1
∑ x( n )
2
PxN = lim (1.1.9)
N →∞ 2 N + 1
n=− N

g- Tín hiệu tuần hoàn và tín hiệu không tuần hoàn


* Tín hiệu là tuần hoàn với chu kỳ N (N > 0) , nếu và chỉ nếu
x(n + N) = x(n) (1.1.10)
Giá trị nhỏ nhất của N được gọi là chu kỳ.
x(n + kN) = x(n) ; k nguyên dương
* Nếu không có giá trị N thỏa (1.1.10), thì tín hiệu gọi là không tuần hoàn.
h- Tín hiệu chẵn và tín hiệu lẻ
Tín hiệu x(n) được gọi là chẵn khi
x(-n) = x(n) (1.1.11)
Ngược lại, tính hiệu x(n) được gọi lẻ khi
x(-n) = -x(n) (1.1.12)
i- Phép gập tín hiệu:

Thay biến n bằng (-n), kết quả ta có x ( n ) thay vì x ( − n ) . Phép biến đổi này thực hiện

bằng cách lấy đối xứng tín hiệu x ( n ) qua gốc thời gian.

1.1.3 Phân loại hệ thống


1.1.3.1 Hệ thống tương tự
Quá trình biến đổi tín hiệu được thực hiện trong hệ thống xử lý tín hiệu. Các hệ thống xử lý
tín hiệu được phân loại dựa vào đặc trưng của tín hiệu mà nó xử lý. Từ cách phân loại tín hiệu trên
đây, ta có các hệ thống xử lý tín hiệu tương ứng như sau:
Hệ thống tương tự: các mạch lọc tương tự, mạch khuyếch đại, nhân tần số, điều chế tín hiệu
v.v.
Hệ thống rời rạc: mạch tạo xung, điều chế xung v.v
Hệ thống số: mạch lọc số..

   6 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

Ngoài ra cũng còn các hệ thống hỗn hợp khác như hệ thống biến đổi tương tự- số hay
ngược lại.
Tín hiệu vào và tín hiệu ra của một hệ thống quan hệ với nhau thông qua toán tử biến đổi T:

T ⎡⎣ x ( t ) ⎤⎦ = y ( t ) hay x ( t ) ⎯⎯
T
→ y (t ) (1.1.13)

1.1.3.1.1 Các tính chất của hệ thống tương tự


a) Tính tuyến tính:
Hệ thống là tuyến tính khi nó có tính xếp chồng:
x 1 ( t ) → y1 ( t )
nếu x 2 (t ) → y 2 (t ) (1.1.14)
a 1 x 1 ( t ) + a 2 x 2 ( t ) → a 1 y1 ( t ) + a 2 y 2 ( t )
b) Tính bất biến theo thời gian:
Hệ thống được gọi là bất biến nếu
y ( t ) = T ⎡⎣ x ( t ) ⎤⎦ thì y ( t − t0 ) = T ⎡⎣ x ( t − t0 ) ⎤⎦ (1.1.15)

c) Tính nhân quả


Hệ thống được gọi là nhân quả nếu đáp ứng của nó tại thời điểm bất kỳ chỉ phụ thuộc vào
các giá trị của tín hiệu vào ở thời điểm hiện tại và quá khứ.
d) Tính ổn định: Một hệ thống được gọi là ổn định nếu tín hiệu ra giới hạn với tất cả các
tín hiệu vào giới hạn.
Dựa trên các tính chất đã nêu của hệ thống, chúng ta có thể phân loại các hệ thống như sau:
hệ thống tuyến tính, hệ thống bất biến, hệ thống nhân quả, hệ thống tuyến tính bất biến.
1.1.3.1.2 Các hệ thống tuyến tính bất biến (LTI)
Các hệ thống tuyến tính bất biến thường được biểu diễn trong miền thời gian dưới các dạng
sau:
- Phương trình vi phân
- Phương trình trạng thái
- Đáp ứng xung.
Đáp ứng xung của hệ thống h ( t ) là đáp ứng ra của hệ thống khi tín hiệu đưa vào là xung
đơn vị. Nếu hệ thống là tuyến tính và bất biến thì tín hiệu ra của hệ thống có thể tìm được
thông qua tích chập giữa tín hiệu vào và hàm đáp ứng xung:

y (t ) = x (t ) ∗ h (t ) = ∫ x (τ ) h ( t − τ ) dτ (1.1.16)
−∞

Các tính chất của hệ thống LTI


Tính nhân quả
Hệ thống LTI là nhân quả nếu h ( t ) = 0 với ∀t và ngược lại

nếu h ( t ) = 0 với ∀t thì hệ thống là nhân quả.

   7 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

Tính ổn định của hệ thống LTI

Cho tín hiệu vào hệ thống được giới hạn biên độ: x ( t ) ≤ M x < ∞ , M x là hằng số.
Trong trường hợp này, hệ thống sẽ là ổn định nếu đáp ứng xung của nó thỏa mãn điều

kiện: ∫ h ( t ) dt < ∞ . Điều kiện này là cần và đủ để hệ thống LTI là ổn định.
−∞

Hệ thống LTI không nhớ: hệ thống tuyến tính bất biến là không nhớ nếu h ( t ) = 0
với t ≠0.
1.1.3.1.3 Phương trình sai phân tuyến tính hệ số hằng
Cho x ( t ) và y ( t ) là tín hiệu vào ra của hệ thống tuyến tính bất biến. Phương trình sai
phân tuyến tính hệ số hằng tổng quát của hệ thống có thể biểu diễn dưới dạng:
N M
∑ ak y( k ) ( t ) = ∑ br x( r ) ( t ) (1.1.17)
k =0 r =0

N, M là số nguyên dương, N là bậc của phương trình.


Nghiệm đầy đủ của phương trình bằng tổng nghiệm riêng yr ( t ) và nghiệm thuần nhất

y0 ( t ) : y ( t ) = yr ( t ) + y0 ( t ) .

Trong đó nghiệm thuần nhất y0 ( t ) là nghiệm của phương trình thuần nhất:
N
∑ ak y( k ) ( t ) = 0 . (1.1.18)
k =0

1.1.3.2 Hệ thống rời rạc


Hệ thống rời rạc được đặc trưng bởi toán tử T làm nhiệm vụ biến đổi dãy vào x ( n ) (là tín

hiệu rời rạc) thành dãy ra y ( n ) . Toán tử T cho chúng ta thấy quan hệ vào ra của hệ thống.
Chúng ta có hai cách để biểu diễn toán tử T:

T ⎡⎣ x ( t ) ⎤⎦ = y ( t ) hay x ( t ) ⎯⎯
T
→ y (t ) (1.1.19)

Dãy vào còn được gọi là kích thích, còn dãy ra là đáp ứng của hệ thống đối với kích thích
đang khảo sát.
1.1.3.2.1 Hệ thống rời rạc tuyến tính bất biến (LTI)
a. Hệ thống tuyến tính
Hệ thống tuyến tính là hệ thống mà quan hệ vào ra của hệ thống thoả mãn nguyên lý xếp chồng.
Với x1 ( n ) và x2 ( n ) là các chuỗi vào bất kỳ, y1 ( n ) và y2 ( n ) là các chuỗi ra tương ứng. Hệ
thống được gọi là tuyến tính khi:

x1 ( n ) ⎯⎯
T
→ y1 ( n ); x2 ( n ) ⎯⎯
T
→ y2 ( n )
(1.1.20)
a1 x1 ( n ) + a2 x2 ( n) ⎯⎯
T
→ a1 y1 ( n ) + a2 y2 ( n )
trong đó a1, a2 là các hằng số.

   8 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

b. Hệ thống tuyến tính bất biến


Nếu y ( n ) là đáp ứng của kích thích x ( n ) thì hệ thống tuyến tính gọi là bất biến khi

y ( n − k ) là đáp ứng của hệ thống đối với kích thích x ( n − k ) . Nếu biến số là thời gian thì ta
có hệ thống bất biến theo thời gian. Đối với hệ thống bất biến, khi kích thích giống nhau thì đáp
ứng sẽ giống nhau tại mọi thời điểm.
c. Hệ thống nhân quả và không nhân quả
Một hệ thống gọi là nhân quả khi tín hiệu ngõ ra tại một thời điểm nào đó chỉ phụ thuộc vào
các giá trị của tín hiệu vào từ thời điểm đó trở lại. Ta có thể biểu diễn quan hệ vào - ra của hệ
thống nhân quả bằng một phương trình toán học như sau:

y ( n ) = F ⎡⎣ x ( n ) , x ( n − 1) , x ( n − 2 ) ....⎤⎦ , với F là một hàm số nào đó.


Nếu hệ thống không thỏa mãn được điều kiện trên thì ta gọi hệ thống đó là không nhân quả.
d. Hệ thống ổn định và không ổn định
Một hệ thống gọi là ổn định nếu nó bị chặn (Bounded Input Bounded Output - BIBO), tức
là với một tín hiệu vào x ( n ) hữu hạn thì tín hiệu ra y ( n ) cũng hữu hạn:

nếu x ( t ) ≤ M x < ∞ , M x là hằng số thì

y ( t ) ≤ M y < ∞ , M y là hằng số.


1.1.3.2.2 Đáp ứng xung của hệ thống tuyến tính bất biến
Nếu hệ thống là tuyến tính và bất biến ta có:
Khi hệ thống là tuyến tính và bất biến, thì ta có quan hệ sau :

y( n) = ∑ x(k )h(n − k )
k =−∞
(1.1.21)

h ( n ) là đáp ứng xung của hệ thống tuyến tính bất biến, không phụ thuộc vào biến k.
Đáp ứng của hệ thống có thể tìm được thông qua tích chập của kích thích và đáp ứng xung:

y( n) = ∑ x(k )h(n − k ) = x(n) ∗ h(n)
k =−∞
(1.1.22)

Như chúng ta đã biết, các hệ thống có tín hiệu ra chỉ phụ thuộc vào tín hiệu vào trong quá
khứ và hiện tại được gọi là hệ thống nhân quả.
Định lý : Hệ thống tuyến tính bất biến là nhân quả nếu và chỉ nếu đáp ứng xung h(n) = 0
với mọi n < 0.
1.1.3.2.3 Hệ thống tuyến tính bất biến và ổn định
Tính ổn định là một điều kiện ràng buộc quan trọng cần xét đến trong thực tế đối với các
hệ thống xử lý tín hiệu. Theo định nghĩa, một hệ thống được gọi là ổn định hay là hệ BIBO
(Bounded Input Bounded Output) nếu đáp ứng của hệ thống đó luôn bị chặn khi kích thích vào bị
chặn. Thuật ngữ bị chặn có thể hiểu là “có giá trị hữu hạn”.

   9 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

Định lý: Một hệ thống tuyến tính bất biến được xem là ổn định nếu và chỉ nếu đáp ứng
xung thoả mãn điều kiện sau :

S= ∑ h(n) < ∞
n = −∞
(1.1.23)

1.1.3.2.4 Phương trình sai phân tuyến tính hệ số hằng


a. Phương trình sai phân tuyến tính
Về mặt toán học, kích thích vào x(n) và đáp ứng ra y(n) của hầu hết các hệ thống tuyến tính
thoả mãn một phương trình sai phân tuyến tính sau đây :
N M

∑ a k ( n) y ( n − k ) = ∑ b r ( n) x ( n − r )
k =0 r =0
(1.1.24)

ở đây N và M là các số nguyên dương, N gọi là bậc của phương trình sai phân.
Trong phương trình này, tập hợp các hệ số ak(n) và br(n) sẽ quyết định toàn bộ hành vi của
hệ thống. Phương trình này chính là ảnh rời rạc của phương trình vi phân tuyến tính đối với các hệ
số liên tục, phương trình vi phân tuyến tính có dạng sau :

N
d k y (t ) M d r x (t )
∑ a (t )
k =0
k
dt k
= ∑
r =0
br ( r )
dt r
(1.1.25)

Chúng ta có thể nhận được phương trình sai phân tuyến tính từ một phương trình vi phân
tuyến tính bằng cách thay gần đúng của các đạo hàm vào vị trí của các đạo hàm. Ví dụ với đạo
hàm bậc một, ta có gần đúng như sau :

dy(t ) y(t ) − y(t − Δt )



dt Δt
b. Phương trình sai phân tuyến tính hệ số hằng
Hệ tuyến tính bất biến đóng vai trò rất quan trọng trong nhiều ứng dụng thực tiễn. Một lớp
hệ con của hệ tuyến tính bất biến là các hệ có tín hiệu vào và tín hiệu ra thoả mãn phương trình sai
phân tuyến tính hệ số hằng (PT-SP-TT-HSH) dưới dạng:
N M

∑ ak y( n − k ) = ∑ br x( n − r )
k =0 r =0
(1.1.26)

trong đó tập các hệ số ak và br đặc trưng cho hệ tuyến tính bất biến.
Hệ tuyến tính bất biến mô tả bằng PT-SP-TT-HSH đóng vai trò đặc biệt trong xử lý tín
hiệu số. Trong tài liệu này, chúng ta chỉ sử dụng các hệ thống xử lý tín hiệu được mô tả bằng
phương trình tuyến tính bất biến hệ số hằng nói trên.
1.1.3.2.5 Các hệ thống đệ quy và không đệ quy
a. Hệ thống không đệ quy
Một hệ thống tuyến tính bất biến được đặc trưng bởi PT-SP-HSH bậc N như sau :
N M

∑ ak . y( n − k ) = ∑ br . x(n − r )
k =0 r =0
(1.1.27)

   10 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

nếu trường hợp N = 0, ta có :


M
br
y( n) = ∑ . x( n − r ) a0 ≠ 0
r =0 a0

M
y( n) = ∑ br . x( n − r ) a0 = 1 (1.1.28)
r =0

Định nghĩa :
Hệ thống được đặc trưng bởi phương trình sai phân tuyến tính bậc không (N = 0) được gọi
là hệ thống không đệ qui.
b. Hệ thống đệ quy
Trong trường hợp nếu N > 0, ta có phương trình SP-TT-HSH bậc N như sau :
M N
br b
y( n) = ∑ . x( n − r ) − ∑ k . y ( n − k ) (1.1.29)
r =0 a0 k =1 a0

Định nghĩa :
Hệ thống được đặc trưng bởi phương trình sai phân bậc N > 0 được gọi là hệ thống đệ qui.

1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH


VÀO MẠNG BĂNG THÔNG ĐA DỊCH VỤ
1.2.1 Đặc điểm của multimedia
Multimedia là nguồn dữ liệu được tổng hợp từ các dạng thông tin khác nhau. Multimedia có
thể có dạng rất đơn giản, đơn cử như một vài hình ảnh kèm với dữ liệu text hay có thể có dạng
phức tạp như các file trình diễn multimedia sử dụng video clips, âm thanh, ảnh động và dữ liệu
text. File multimedia chiếm một dung lượng rất lớn khi chứa dữ liệu là các file video. Ví dụ như
tín hiệu video theo chuẩn PAL sau khi được số hóa cho luồng dữ liệu có tốc độ lên tới 170Mbps.
Dữ liệu âm thanh chiếm ít dung lượng hơn, ví dụ tốc độ dòng bits của tín hiệu Dolby Digital Plus
lên tới 6.144 Mbps. Đối với dữ liệu dạng ảnh thì dung lượng của nó tỷ lệ thuận với kích thước của
ảnh.
Một vấn đề quan trọng khác của multimedia là vấn đề đồng bộ.
- Dữ liệu âm thanh rất nhạy cảm với độ trễ hay tỷ lệ mất gói trong quá trình lưu trữ hay
trong qua trình truyền dẫn.
- Dữ liệu video thì ít nhạy cảm hơn với độ trễ (phụ thuộc vào ứng dụng) nhưng vẫn nhạy
cảm với jitter. Jitter có thể được loại bỏ trong các ứng dụng bằng các giải thuật tại máy thu.
Trong bảng dưới đây mô tả một số yêu cầu đối với tín hiệu âm thanh và hình ảnh trên mạng
ATM (RFC 1193 - Các yêu cầu cho các dịch vụ thời gian thực 11/1990).

   11 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

Nhìn chung, dữ liệu multimedia có dung lượng rất lớn và có đặc tính nhạy cảm với trễ cũng
như mất mát dữ liệu.
Để truyền các dạng dữ liệu trên mạng điện thoại, Internet hay mạng truyền hình, các đặc
tính kỹ thuật của từng loại dữ liệu phải được biến đổi cho phù hợp với đường truyền. Việc điều
chỉnh này bao gồm việc nén dữ liệu, định thời trong truyền dẫn và lưu trữ multimedia.
1.2.2 Nén tín hiệu trong mạng đa dịch vụ
Các kỹ thuật và giải thuật nén quyết định đến sự sống còn của các mạng đa dịch vụ. Ví dụ
như một kênh truyền hình số không nén có thể yêu cầu băng thông lên đến 216 Mbps. Nếu chúng
ta không dùng kỹ thuật nén, hệ thống chỉ có thể phục vụ đồng thời cho một số ít người. Nén là
giải pháp cứu cánh cho phép việc truyền bá rộng rãi video số và multimedia. Kỹ thuật nén phụ
thuộc vào giải thuật được cài đặt trên phần cứng hoặc phần mềm của máy phát và máy thu. Khi
ứng dụng yêu cầu tốc độ nén và giải nén cao, giải thuật phải được cài đặt trên phần cứng (card âm
thanh hay card đồ họa trên máy tính).
Nén dữ liệu là giải pháp để giảm bớt áp lực về băng thông trên mạng và giảm bớt không
gian lưu trữ, tuy nhiên nó cũng tạo ra một số nhược điểm đáng kể. Một số kỹ thuật nén hoạt động
dựa trên ý tưởng lược bớt các thông tin kém quan trọng trong tín hiệu vì thế sẽ tạo ra sự mất mát
độ phân giải trong tín hiệu nén. Nhưng bên cạnh đó, việc nén dữ liệu sẽ làm tăng tính bảo mật của
thông tin khi được truyền qua mạng công cộng. Khi tiến hành nén dữ liệu chúng ta phải quan tâm
đến các yếu tố sau: độ phức tạp của phần cứng và phần mềm, thời gian trễ gây nên bởi quá trình
xử lý nén và giải nén và cũng như các yếu tố quan trọng khác.
Trong các ứng dụng khác nhau người ta sử dụng các phương pháp mã hóa khác nhau để tận
dụng tối đa tài nguyên sẵn có, đồng thời đạt chất lượng dịch vụ cao nhất. Ví dụ như hội nghị video
phải được thực hiện và xử lý trong thời gian thực, vì thế các phương pháp má hóa và giải mã được
phải thỏa mãn các tiêu chuẩn xử lý trong thời gian thực. Đây là lý do quan trọng mà tiêu chuẩn
H.261 được thiết kế. Một ví dụ khác là việc truyền file video qua mạng có dây, không dây tới hệ
thống lưu trữ video không đòi hỏi thời gian thực, quá trình thực hiện ít nhạy cảm với thời gian trễ
nên thời gian xử lý mã hóa và giải mã không là một vấn đề quan trọng, ngược lại hiệu quả nén
mới là tiêu chí đặt lên hàng đầu, vì vậy tiêu chuẩn nén MPEG được thiết kế (ban đầu) dựa trên
quan điểm này.
1.2.3 Lưu trữ
Như đã nói ở trên, thông tin âm thanh chất lượng cao và video trong multimedia làm cho
luồng số tổng hợp có kích thước rất lớn, vì thế lưu trữ dữ liệu là một trong những vấn đề quan

   12 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

trọng trong hệ thống multimedia. Hiện nay, hệ thống multimedia sử dụng hầu hết các công nghệ
truyền thống để ghi dữ liệu đó là các công nghệ lưu trữ từ, quang và công nghệ flash. Giá thành
các hệ thống lữu trữ dung lượng lớn ngày càng hạ, trong khi các thông số kỹ thuật liên tục được
cải thiện. Ví dụ, các ổ đĩa cứng (HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới
300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng
không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Hệ thống RAID (Redundant
Array of Independent Disks) có thể được thiết lập từ 8, 16 hoặc nhiều hơn nữa các ổ cứng có dung
lượng lên tới 750 GB mỗi ổ. Với dung lượng 12 TB, hệ thống RAID cho phép ghi tới ~2700 giờ
video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Giá
thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng
1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps.
Trong các hệ thống truyền dẫn có băng thông hẹp, việc truyền tải dữ liệu multimedia không
thể thực hiện trong thời gian thực, khi đó các user đầu cuối phải sử dụng thiết bị lưu trữ cục bộ.
Toàn bộ dữ liệu sau khi tải về sẽ được giải mã để trình chiếu offline. Ví dụ như mạng Internet chỉ
có khả năng phân phối video và audio trực tuyến với chất lượng thấp, tuy nhiên lưu trữ cục bộ vẫn
cho phép người dùng nghe nhạc hoặc xem video chất lượng cao. Hệ thống lưu trữ ngày càng được
cải tiến để đáp ứng nhu cầu này.
Các thiết bị lưu trữ như CDROM và DVD cũng được cải tiến để cung cấp luồng dữ liệu tốc
độ cao. Công nghệ CDROM hiện tại có thể truyền tải dữ liệu khoảng 64 Mbps hay cao hơn, lưu
trữ khoảng 700MB dữ liệu và có thời gian truy cập khoảng 300 ms. Đĩa DVD một mặt có dung
lượng ~4.7 GB. Với các thông số như vậy, công nghệ CD ROM là tạm chấp nhận được cho một
số ứng dụng. Hiện tại công nghệ đĩa cứng vẫn được cải tiến liên tục để phục vụ cho nhu cầu lưu
trữ đa dạng của dữ liệu multimedia ngày càng đòi hỏi những tiêu chuẩn khắt khe về không gian
lưu trữ, thời gian trễ…
1.2.4 Băng thông
Các ứng dụng multimedia, đặc biệt các ứng dụng liên quan đến video và hình ảnh yêu cầu
băng thông rất lớn. Tuy nhiên băng thông là nguồn tài nguyên giới hạn. Tăng băng thông đồng
nghĩa với việc tăng chi phí để nâng cấp, cài đặt các thiết bị truyền dẫn quang, các thiết bị đầu cuối
phức tạp, các bộ chuyển mạch tốc độ cao….
Mặc dù hiện này công nghệ chuyển mạch đã phát triển mạnh mẽ cũng với mạng cáp quang
cho phép cung cấp nhiều băng thông hơn, nhưng kinh nghiệm cho thấy việc phát triển của mạng
luôn luôn thấp hơn nhu cầu thực tế. Do đó, cần có cơ chế phân phối và quản lý băng thông cho
các ứng dụng tại thiết bị đầu cuối để băng thông được sử dụng một cách hợp lý và hiệu quả.
1.2.5 Chất lượng dịch vụ (Quality of Service)
Hiện này nhu cầu trao đổi dữ liệu multimedia qua mạng là rất lớn. Để đảm bảo chất lượng
dịch vụ ở đầu cuối, các thông số quan trọng sau phải được đánh giá và điều khiển: tỷ lệ lỗi bit (Bit
Error Ratio), tỷ lệ mất gói, thời gian trễ và sự biến thiên của thời gian trễ…Ở một số dịch vụ tài
nguyên của mạng sẽ được dành sẵn để đảm bảo các thông số trên. Ví dụ như trong mạng ATM,
người dùng đầu cuối sẽ được phân định các mức băng thông và chất lượng dịch vụ khác nhau phụ
thuộc vào ứng dụng cụ thể. Với các ứng dụng liên quan đến thoại, tài nguyên của mạng được phân
phối sao cho mức trễ nằm trong phạm vi cho phép để đảm bảo chất lượng thoại.

   13 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

1.2.6 Tương tác


Ngày này, cùng với sự phát triển của công nghệ, tồn tại rất nhiều các loại phần cứng khác
nhau, các loại mạng khác nhau, các ứng dụng khác nhau và các loại định dạng multimedia khác
nhau. Việc tương tác để chúng cùng hoạt động được là vấn đề cốt lõi của người dùng đầu cuối
multimedia.
Để giải quyết vấn đề đó, tổ chức IMA (Interactive Multimedia Association) và MMCF
(Multimedia Communications Forum) được thành lập để phát triển các giải pháp giải quyết vấn đề
tương tác multimedia giữa các chuẩn khác nhau.
Mục đích của MMCF là phát triển:
- Giải pháp tương tác multimedia từ người dùng đầu cuối đến người dùng đầu cuối mà
không phụ thuộc vào ứng dụng cũng như công nghệ truyền dẫn.
- Phát triển Application Programming Interfaces (API) mở rộng hỗ trợ tương tác giữa người
dùng đầu cuối với người dùng đầu cuối mà không phụ thuộc vào nhà sản xuất. Loại phần mềm
như vậy được gọi dưới tên là ‘middleware” bởi vì nó liên quan đến ứng dụng của người dùng đầu
cuối cũng như định dạng file, kỹ thuật lưu trữ và mạng truyền dẫn.
IMA đảm nhận trách nhiệm kết hợp các tiêu chuẩn định dạng multimedia. Đây là một công
việc khó khăn vì hiện này tồn tại rất nhiều định dạng cho âm thanh, hình ảnh và video.
Hiện nay có khoản 20 mô hình (scheme) mã hóa âm thanh. Hầu hết đều dựa trên u-law, A-
law và ADPCM sử dụng 4, 8 hay 16 bit/mẫu. Các định dạng tiêu biểu như:
• Sound Blaster .VOC
• Windows .WAV
• Sounder/Soundtools .SND
• Apple/SGI AIFF files
Với dữ liệu ảnh màu cũng tồn tại rất nhiều định dạng khác nhau. Các định dạng ảnh màu
cho phép hiển thị từ 16 đến hàng triệu màu. Các định dạng ảnh tĩnh tiêu biểu đang được sử dụng
rộng rãi là:
• Windows Bitmap .BMP
• Graphic Interchange Format .GIF
• Joint Picture Experts Group .JPEG or JPG
• TIFF
• PCX
• PhotoCD .PCD
Hiện nay trên toàn thế giới có tổng cộng khoảng 15 loại định dạng video cho truyền hình
tương tự và truyền hình chất lượng cao (High Definition TV) đã được thực hiện và đưa ra thị
trường. Một số định dạng tiêu biểu của video:
• Motion JPEG
• Video conferencing H.261
• Microsoft AVI Video for Windows
• Apple Quicktime
• Intel Indeo DVI

   14 
Chương 1 Giới thiệu chung về xử lý tín hiệu 

• ISO MPEG-1, MPEG-2, MPEG-4

TÓM TẮT CHƯƠNG 1


Trong chương một chúng ta đã nhắc lại một số khái niệm cơ bản về tín hiệu và hệ thống xử
lý tín hiệu nói chung. Những kiến thức này sẽ được sử dụng và mở rộng để phục vụ cho quá trình
nghiên cứu xử lý tín hiệu âm thanh và hình ảnh ở những chương sau.
Phạm vi ứng dụng kỹ thuật xử lý âm thanh và hình ảnh nói chung rất rộng. Nhưng, nói
riêng trong ngành viễn thông, mục đích chính của việc xử lý các tín hiệu nói trên nhằm vào việc
nâng cao chất lượng tín hiệu và nén dung lượng tín hiệu để truyền qua kênh truyền. Trong chương
một chúng ta cũng nhắc tới khái niệm về hệ thống truyền thông đa dịch vụ. Một số đặc điểm và
các thông số quan trọng của hệ thống truyền thông đa dịch vụ được đã được nêu ra. Có thể thấy
rằng, tín hiệu audio và video là một phần thông tin multimedia phải được xử lý để đáp ứng nhưng
yêu cầu khắt khe đặt ra trong hệ thống truyền thông đa dịch vụ. Đó là các tiêu chuẩn về độ nén,
thời gian trễ, các đòi hỏi về cấu hình bộ mã hoá và giải mã v.v. Trong mạng truyền thông đa dịch
vụ, vai trò của xử lý ảnh và âm thanh trở nên vô cùng quan trọng.
Trong các chương tiếp theo của tài liệu này, chúng ta sẽ giới thiệu cụ thể hơn về các công
cụ toán học được sử dụng để phân tích từng loại tín hiệu cũng như các ứng dụng riêng của xử lý
âm thanh và hình ảnh.
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 1
1. Cho biết ưu điểm và nhược điểm của hệ thống xử lý tín hiệu số
2. Kỹ thuật xử lý âm thanh được sử dụng trong các lĩnh vực khoa học nào?
3. Liệt kê các ứng dụng chính của hệ thống xử lý ảnh
4. Phân tích các phương pháp phân loại tín hiệu. Trong các hệ thống xử lý tín hiệu, cách
phân loại tín hiệu nào được sử dụng rộng rãi nhất.
8. Các hệ thống xử lý tín hiệu được phân loại theo cách nào? Trong thực tế chúng ta thường
gặp những hệ thống xử lý tín hiệu loại nào?
9. Thế nào là hệ thống xử lý tín hiệu tuyến tính và bất biến?
10. Nêu định nghĩa hàm đáp ứng xung của hệ thống xử lý tín hiệu
12. Thế nào là hệ thống nhân quả và ổn định?
13. Phát biểu định nghĩa hệ thống đệ quy. Cho biết hàm đáp ứng xung của hệ thống xử lý
tín hiệu nào có chiều dài hữu hạn?
14. Thế nào là Multimedia? Phân tích tầm quan trọng của kỹ thuật nén tín hiệu trong lĩnh
vực truyền dẫn dữ liệu Multimedia.
15. Nêu ra các phương tiện thường được dùng để lưu trữ dữ liệu số? Những thông số nào
đặc trưng cho hệ thống lưu trữ dữ liệu?
16. Cho biết các định dạng ảnh tĩnh và ảnh động thông dụng được sử dụng trong hệ thống
truyền phát multimedia hiện nay?

   15 
Chương 2 Kỹ thuật xử lý âm thanh

CHƯƠNG 2 KỸ THUẬT XỬ LÝ ÂM THANH

2.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH

2.1.1 Giới thiệu sơ lược về âm thanh và hệ thống xử lý âm thanh


2.1.1.1 Đặc tính của âm thanh tương tự
Mục đích của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc điểm
của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi
thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời nói là tín
hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.

Hình 2.1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người
Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như
trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau.
Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là
vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp khi so sánh với nhau
phải dùng một tỉ lệ thời gian.
Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết
bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù công nghệ có vẻ xử
lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số
liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý
âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban
đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên
hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tín hiệu số sẽ truyền
trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn. Trong giáo trình này,
tập trung đề cập đến hệ thống số xử lý âm thanh.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể
được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu
(symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme).
Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến
50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên
thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới
hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong
một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có

16
Chương 2 Kỹ thuật xử lý âm thanh

thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây,
và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc
độ truyền trung bình của âm thoại khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều
cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần
quan tâm chung là:
1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại
2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc
lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm
giảm nghiêm trọng nội dung của thông điệp thoại.
Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ
dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự động.
2.1.1.2 Khái niệm tín hiệu
Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều
biến độc lập khác, ví dụ như:
¾ Âm thanh, tiếng nói: dao động sóng theo thời gian (t)
¾ Hình ảnh: cường độ sáng theo không gian (x, y, z)
¾ Địa chấn: chấn động địa lý theo thời gian
Biểu diễn toán học của tín hiệu: hàm theo biến độc lập
Ví dụ:
¾ u (t ) = 2t 2 − 5

¾ f ( x, y ) = x 2 − 2 xy − 6 y 2
Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho
nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự nhiên.
Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các phép
toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực hiện phép toán còn
được gọi là xử lý tín hiệu.
2.1.1.3 Phân loại tín hiệu
Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần, cùng chung mô tả một đối tượng nào
đó, thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECG-
ElectroCardioGram), tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu
RGB.
Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình
ảnh, tín hiệu tivi trắng đen.
Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn
thời gian [a, b], ký hiệu x(t ) .

17
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

Hìn
nh 2.1.1 Tínn hiệu liên tụục theo thời gian
g
Tín hiệu rờời rạc thời gian:
g là tín hiệu
h chỉ đượcc định nghĩaa tại những thời
t điểm rờ
ời rạc
khác nhau,
n ký hiệuu x(n) .

Hìn
nh 2.1.2 Tínn hiệu rời rạcc theo thời gian
g
Tín hiệu liên tục giá trrị: là tín hiệuu có thể nhậnn trị bất kỳ trong
t đoạn [Ymin , Ymax ] , ví
v dụ
tín hiệệu tương tự (analog).
(

Hìn
nh 2.1.3 Tínn hiệu liên tụục giá trị
Tín hiệu rờ
ời rạc giá trrị: tín hiệu chỉ
c nhận trị trong một tậập trị rời rạc định trướcc (tín
hiệu sốố).
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.1.4 Tín hiệu rời rạc giá trị


Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Hình 2.1.5 Tín hiệu analog


Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Hình 2.1.6 Tín hiệu số


Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các
tín hiệu trong tự nhiên thường thuộc nhóm này
Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ,
thông thường có công thức xác định rõ ràng
2.1.1.4 Phân loại hệ thống xử lý
Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý
số: là hệ thống có thể lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt với độ chính
xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khó thực
hiện với các tín hiệu có tần số cao

19
Chương 2 Kỹ thuật xử lý âm thanh

2.1.1.5 Hệ thống số xử lý âm thanh


Độ nhạy của tai người rất cao, nó có thể phân biệt được số lượng nhiễu rất nhỏ cũng
như chấp nhận tầm biên độ âm thanh rất lớn. Các đặc tính của một tín hiệu tai người nghe
được có thể được đo đạc bằng các công cụ phù hợp. Thông thường, tai người nhạy nhất ở tầm
tần số 2kHz và 5kHz, mặc dù cũng có người có thể nhận dạng được tín hiệu trên 20kHz. Tầm
động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp
ứng logarith.
Tín hiệu âm thanh được truyền qua hệ thống số là chuỗi các bit. Bởi vì bit có tính chất
rời rạc, dễ dàng xác định số lượng bằng cách đếm số lượng trong một giây, dễ dàng quyết
định tốc độ truyền bit cần thiết để truyền tín hiệu mà không làm mất thông tin.

Hình 2.1.7 Để nhận được tám mức tín hiệu khác nhau một cách phân biệt, tín hiệu
đỉnh-đỉnh của tín hiệu nhiểu phải nhỏ hơn hoặc độ sai biệt giữa các mức độ. Tỉ số tín hiệu trên
nhiễu phải tối thiểu là 8:1 hoặc là 18dB, truyền bởi 3 bit. Ở 16 mức thì tỉ số tín hiệu trên nhiễu
phải là 24dB, truyền bởi 4 bit.
2.1.1.6 Mô hình hóa tín hiệu âm thanh
Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong
việc khôi phục âm thanh. Chất lượng của âm thoại phụ thuộc rất lớn vào mô hình giả định phù
hợp với dữ liệu. Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong
muốn, mô hình phải tổng quát và không sai lệnh so với giả định. Một điều cần lưu ý là hầu hết
các tín hiệu âm thoại là các tín hiệu động trong thực tế, mặc dù mô hình thực tiễn thì thường
giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang
xét.
Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao
gồm việc phục hồi âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình

20
Chương 2 Kỹ thuật xử lý âm thanh

chuẩn cho việc phân tích dự đoán tuyến tính.


Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín hiệu
nhiễu trắng, P là bậc của mô hình AR:
P
s[u ] = ∑ s[n − i ]ai + e[n] (2.1.1)
i =1

Mô hình AR đại diện cho các quá trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự
nhiễu và tín hiệu tương tự điều hòa. Một mô hình khác phù hợp hơn đối với nhiều tình huống
phân tích là mô hình auto regressive moving-average (ARMA) cho phép các điểm cực cũng
như điểm 0. Tuy nhiên mô hình AR có tính linh động hơn trong phân tích hơn mô hình
ARMA, ví dụ một tín hiệu nhạc phức tạp cần mô hình có bậc P > 100 để biểu diễn dạng sóng
của tín hiệu, trong khi các tín hiệu đơn giản hơn chỉ cần biểu diễn bằng bậc 30. Trong nhiều
ứng dụng, việc lựa chọn bậc của mô hình phù hợp để đảm bảo việc biểu diễn tín hiệu để
không làm mất đi thông tin ban đầu là tương đối phức tạp. Có rất nhiều phương pháp dùng để
ước lượng bậc của mô hình AR như phương pháp trong các phương pháp dùng để giảm nhiễu.
Tín hiệu được cho bởi công thức (2.1.2):
Pn
⎛ nT ⎞
s[n] = ∑ ai [n]sin⎜⎜ ∫ ωi (t )dt + φi ⎟⎟ (2.1.2)
i =1 ⎝0 ⎠
Đây là mô hình tổng quát đối với các tín hiệu điều chế biên độ và điều chế tần số, tuy
nhiên lại không phù hợp để mô tả các thành phần nhiễu tương tự, mặc dù nhiễu có thể được
biểu diễn bởi số lượng hàm sin rất lớn.
2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh
Để sử dụng máy tính trong xử lý âm thanh, người ta thường dùng phương pháp điều
chế xung (Pulse Code Modulation - PCM). Dạng sóng âm thanh được chuyển sang dãy số
PCM như sau, xét tín hiệu hình sin làm ví dụ:
ƒ Tín hiệu gốc là tín hiệu âm thanh lan truyền trong không khí như hình 2.1.8
lan truyền trong không khí
Tín hiệu âm thanh dịch
Air Displacement

Time

Hình 2.1.8 Dạng sóng âm thanh nguyên thủy


ƒ Kế đến, sử dụng một microphone để thu tín hiệu âm thanh và chuyển đổi thành tín
hiệu điện, biên độ điện áp ngõ ra của microphone (sau khi được khuếch đại) nằm trong
khoảng ±1 volt như hình 2.1.9.

21
Chương 2 Kỹ thuật xử lý âm thanh

+1.0

+0.5

Voltage
0

-0.5

-1.0
Time

Hình 2.1.9 Dạng sóng của tín hiệu điện


ƒ Vì số lượng điểm dữ liệu là vô hạn nên không thể truyền đi tất cả các điểm trên trục
thời gian, việc lấy mẫu sẽ được thực hiện trong một khoảng thời gian đều đặn. Số
lượng mẫu trong một giây được gọi là tần số lấy mẫu (sampling rate). Hình 2.1.10 mô
tả 43 mẫu được lấy:

+32,767
Converter Output

+16,383

-16,384

-32,768

1 43

Hình 2.1.10 Thực hiện việc lấy mẫu


ƒ Tín hiệu điện áp dạng tương tự sau đó được lượng tử hóa và số hóa bằng thiết bị
chuyển đổi tương tự-số (analog-to-digital converter). Khi sử dụng bộ lượng tử chuyển
đổi 16bit/mẫu, tầm số nguyên ngõ ra có giá trị từ –32,768 đến +32,767, được mô tả
như hình 2.1.11.

+32,767
Converter Output

+16,383

-16,384

-32,768
Time

Hình 2.1.11 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số
ƒ Kết quả của việc lấy mẫu và lượng tử được biến đổi thành một chuỗi gồm 43 chữ số
biểu diễn các mẫu của dạng sóng ứng thời gian (hình 2.1.12).
+32,767
Recorded Value

+16,383

-16,384

-32,768

1 43

Hình 2.1.12 Kết quả của việc lấy mẫu các giá trị

22
Chương 2 Kỹ thuật xử lý âm thanh

Tín hiệu số có thể được chuyển đổi ngược thành tín hiệu tương tự bằng việc kết nối
các điểm dữ liệu rời rạc lại với nhau. Dạng sóng kết quả được mô tả ở hình 2.1.13.
+32,767

Recorded V alue
+16,383

-16,384

-32,768

1 43

Hình 2.1.13 Dạng sóng được tái tạo lại


Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái
tạo giữa hình 2.1.9 và hình 2.1.13, lý do:
A. Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số
nguyên và được làm tròn giá trị.
B. Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận.
Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một
dạng sóng tín hiệu tương tự với độ chính xác hữu hạn.
2.1.1.8 Tần số lấy mẫu
Khi chuyển đổi một âm thanh sang dạng số, điều cần lưu ý là tần số lấy mẫu của hệ
thống xử lý phải đảm bảo để có thể phục hồi lại dạng sóng tín hiệu ban đầu một cách chính
xác.
Theo định lý lấy mẫu Nyquist và Shannon, tần số lấy mẫu xác định bởi tần số cao nhất
của tín hiệu phục hồi. Để tái tạo lại dạng sóng có tần số là F , cần phải lấy 2 F mẫu trong
một giây. Tần số này còn được gọi là tần số Nyquist.
2.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh
2.1.2.1 Phép biến đổi z
Phép biến đổi z của một chuỗi được định nghĩa bởi cặp biểu thức

X (z ) = ∑ x ( n) z −n
(2.1.3a)
n = −∞

1
x ( n) = ∫
2πj C
X ( z ) z n−1dz (2.1.3b)

Biến đổi Z của x (n) được định nghĩa bởi biểu thức (2.1.3a). X (z ) còn được gọi là
dãy công suất vô hạn theo biến z −1 với các giá trị của x (n) chính là các hệ số của dãy công
suất. Miền hội tụ ROC là { z X (z ) < ∞ }, là những giá trị của z sao cho chuỗi hội tụ, hay
nói cách khác

∑ x(n) z
n=−∞
−n
< ∞ (2.1.4)

23
Chương 2 Kỹ thuật xử lý âm thanh

Thông thường, miền hội tụ của z có dạng:


R1 < z < R2 (2.1.5)

Ví dụ: Cho x ( n ) = δ ( n − n0 ) . Theo công thức (2.1.3a), ta có X ( z ) = z − n0


Ví dụ: Cho x ( n ) = u ( n ) − u ( n − N ) . Theo công thức (2.1.3a), ta có
N −1
1− z−N
X ( z ) = ∑ (1).z −n
=
n =0 1 − z −1

1
Ví dụ: Cho x ( n ) = a n .u ( n ) . Suy ra X ( z ) = ∑ a z = ,a < z
n −n

n =0 1 − az −1
−1
1
Ví dụ: Cho x ( n) = −b n u ( − n − 1) . Then X ( z ) = ∑b z
n=−∞
n −n
=
1 − bz −1
, z <b

Bảng 2.1.1 Chuỗi tín hiệu và biến đổi z tương ứng


Chuỗi tín hiệu Biến đổi z
1. Tuyến tính ax1 ( n) + bx2 ( n ) aX 1 ( z ) + bX 2 ( z )

2. Dịch x ( n + n0 ) z n X ( z)
0

3. Hàm mũ a n x(n ) X ( a −1 z )
4. Hàm tuyến tính nx(n) dX ( z )
−z
dz
5. Đảo thời gian x(-n) X ( z −1 )

6. Tương quan x(n)*h(n) X(z)H(z)


7. Nhân chuỗi x(n)w(n) 1

2πj C
X (ν )W ( z /ν )ν −1dν

2.1.2.2 Phép biến đổi Fourier


Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức

X (e jw ) = ∑ x(n)e
n=−∞
− jwn
(2.1.6a)

1 π
x ( n) = ∫ π X (e
jw
)e jwn dw (2.1.6b)
2π −

Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế
z = e . Như mô tả trong hình 2.1.14, trong mặt phẳng z, tần số w là góc quay. Điều kiện đủ
iw

để tồn tại biến đổi Fourier là z = 1 , như vậy


∑ x(n) < ∞ (2.1.7)

24
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.1.2 Vòng tròn đơn vị thuộc mặt phẳng z


Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là X (e iw ) là hàm điều hòa
w, với chu kỳ là 2π .
Bằng cách thay z = e iw ở bảng 2.1.1, có có được bảng biến đổi Fourier tương ứng.
2.1.2.3 Phép biến đổi Fourier rời rạc
Trong trường hợp tín hiệu tương tự, tuần hoàn với chu kỳ N
~
x ( n) = ~
x (n + N ) −∞ < n<∞ (2.1.8)
Với ~
x ( n) có thể có dạng là tổng rời rạc các tín hiệu sin thay vì tích phân như ở công
thức (2.1.9b). Phép biến đổi Fourier cho chuỗi tuần hoàn như sau
N −1 2π
~ −j
X (k ) = ∑ ~
kn
x ( n )e N (2.1.9a)
n=0


~ 1 N −1
~ j kn
x (k ) =
N
∑ X ( k )e N
k =0
(2.1.9b)

Chuỗi x(n) hữu hạn, có giá trị bằng 0 với 0 ≤ n ≤ N − 1, có phép biến đổi z là.
N −1
X ( z ) = ∑ x ( n) z − n (2.1.10)
n =0

Nếu chia X (z ) thành N điểm trên vòng tròn đơn vị, z k = e j 2πk N , k = 0,1,..., N − 1 , ta
có:
2π N −1 2π
j k −j kn
X (e N
) = ∑ x ( n )e N
, k = 0,1,..., N − 1 (2.1.11)
n=0

Chuỗi tuần hoàn vô hạn ~


x (n) có công thức từ x(n) như sau

~
x ( n) = ∑ x(n + rN )
r =−∞
(2.1.12)


j k
Ta nhận thấy rằng các mẫu X (e N ) từ phương trình (2.1.9a) và (2.1.11) chính là các
hệ số Fourier của chuỗi tuần hoàn ~
x (n) trong phương trình (2.1.12). Như vậy, một chuỗi có
chiều dài N có thể được biểu diễn bởi phép biến đổi Fourier rời rạc (DFT) như sau:
N −1 2π
−j kn
X ( k ) = ∑ x ( n)e N
, k = 0,1,..., N − 1 (2.1.13a)
n =0

25
Chương 2 Kỹ thuật xử lý âm thanh


1 N −1 j kn
x (n) =
N
∑ X ( k )e
k =0
N
, n = 0,1,..., N − 1 (2.1.13b)

Điều khác biệt duy nhất giữa biểu thức (2.1.9a,b) và (2.1.13a,b) là ký hiệu ~ (loại bỏ
ký hiệu ~ khi nói đến tín hiệu không tuần hoàn) và giới hạn hữu hạn 0 ≤ k ≤ N − 1 và
0 ≤ n ≤ N − 1. Lưu ý một điều là chỉ dùng phép biến đổi DFT cho tín hiệu tuần hoàn có tính
chất là module của N .

x( n ) = ∑ x( n + rN ) =
(2.1.14)
r =−∞
= ( x( n )) N

Bảng 2.1.2 Chuỗi và biến đổi DFT


Chuỗi tín hiệu Biến đổi N điểm DFT

1. Tuyến tính ax1 ( n ) + bx 2 ( n) aX 1 ( k ) + bX 2 ( k )



2. Dịch x (( n + n0 )) N e
j
N
kn0
X (k )

3. Đảo thời gian x (( − n )) N X * (k )


N −1
4. Kết hợp ∑ x(m)h((n − m))
m =0
N X(k)H(k)

1 N −1
5. Nhân chuỗi x(n)w(n) ∑ X (r )W ((k − r )) N
N r =0

2.2 MÔ HÌNH XỬ LÝ ÂM THANH

2.2.1 Các mô hình lấy mẫu và mã hoá thoại


2.2.1.1 Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục
Để xử lý một tín hiệu liên tục bằng các phương tiện xử lý tín hiệu số, ta phải đổi tín
hiệu liên tục đó ra dạng một chuỗi số bằng các lấy mẫu tín hiệu liên tục một cách tuần hoàn có
chu kỳ là T giây. Gọi x (n) là tín hiệu rời rạc hình thành do quá trình lấy mẫu, tín hiệu liên
tục xa (t ) , ta có:
x ( n ) = x a ( nT ) , − ∞ < n < ∞ (2.2.1)
Các mẫu x (n) phải được lượng hóa thành một tập các mức biên độ rời rạc rồi mới
được đưa vào bộ xử lý số. Hình 2.2.1 minh họa một cấu hình tiêu biểu cho hệ thống xử lý tín
hiệu tương tự bằng phương pháp số. Trong các phần sau, ta bỏ qua sai số lượng hóa phát sinh
trong quá trình biến đổi A/D

26
Chương 2 Kỹ thuật xử lý âm thanh

xa (t ) x(n) y (n) ya (t ) x'a (t )


Tín hiệu Mạch Mạch xử lý tín Mạch
liên tục lọc A/D hiệu số D/A lọc

Hình 2.2.1 Cấu hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số
Để xác định quan hệ giữa phổ của tín hiệu liên tục và phổ của tín hiệu rời rạc tạo ra từ
quá trình lấy mẫu tín hiệu, liên tục đó, ta chú ý đến quan hệ giữa biến độc lập t và n của tín
hiệu xa (t ) và x (n)

n
t = nT = (2.2.2)
Fs
Định lý lấy mẫu: một tín hiệu liên tục có băng tần hữu hạn, có tần số cao nhất là B
Hertz có thể khôi phục từ các mẫu của nó với điều kiện tần số lấy mẫu Fs ≥ 2 B mẫu / giây
2.2.1.2 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục
Ta đã biết tín hiệu liên tục có năng lượng hữu hạn thì có phổ liên tục. Trong phần này,
ta sẽ xét quá trình lấy mẫu của các tín hiệu loại đó một cách tuần hoàn và sự tái tạo tín hiệu từ
các mẫu của phổ của chúng
Xét một tín hiệu liên tục xa (t ) với một phổ liên tục X a (F ) . Giả sử ta lấy mẫu
X a (F ) tại các thời điểm cách nhau ∂F Hertz. Ta muốn tái tạo X a (F ) hoặc xa (t ) từ các
mẫu X a (F )
Nếu tín hiệu tương tự xa (t ) có giới hạn thời gian là ℑ giây và Ts được chọn để
Ts > 2 ℑ thì aliasing không xảy ra và phổ X a (F ) có thể được khôi phục hoàn toàn từ các
mẫu.
2.2.1.3 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc
Xét một tín hiệu rời rạc không tuần hoàn x (n) có phép biến đổi Fourier:

X (ω ) = ∑ x(n)e
n= −∞
− jωn
(2.2.3)

Giả sử ta lấy mẫu X (ω ) tuần hoàn tại các điểm cách nhau ∂ω rad. Vì X (ω ) tuần
hoàn với chu kỳ 2π , chỉ có các mẫu trong phạm vi tần số cơ bản là cần thiết. Để thuận tiện,
ta lấy N mẫu cách đều nhau trong khoảng 0 ≤ ω ≤ 2π theo khoảng cách ∂ω = 2π / N
⎛ 2π ⎞ ∞
Xét ω = 2πk / N , ta được X ⎜ k ⎟ = ∑ x ( n)e − j 2πkn / N k = 0,1,..., N − 1 (2.2.4)
⎝ N ⎠ n = −∞

Xét tín hiệu x p (n) = ∑ x(n − lN )
l =−∞
nhận được bằng cách lặp lại tuần hoàn x (n) tại

mỗi N mẫu, tín hiệu này tuần hoàn với chu kỳ N , do đó có thể được triển khai theo khai
triển Fourier
1 N −1 2π
x p ( n) = ∑
N k =0
X ( k )e j 2πkn / N , n = 0,1,..., N − 1
N
(2.2.5)

Từ công thức x p (n) trên, ta nhận thấy có thể khôi phục tín hiệu x p (n) từ các mẫu của

27
Chương 2 Kỹ thuật xử lý âm thanh

phổ X (ω ) . Như vậy, ta phải tìm ra mối tương quan giữa x p (n) và x (n) để có thể thực hiện
khôi phục x (n) từ X (ω )
Vì x p (n) là sự mở rộng tuần hoàn của x (n) , nên x (n) có thể được khôi phục từ
x p (n) nếu không có aliasing ở cõi thời gian, nghĩa là nếu x (n) có thời gian giới hạn nhỏ hơn
hoặc bằng chu kỳ N của x p (n) .
2.2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại
Chuẩn mã hóa âm thoại thông thường được nghiên cứu và phát triển bởi một nhóm
các chuyên gia đã giành hết thời gian và tâm huyết thực hiện các công việc kiểm nghiệm, mô
phỏng sao cho đảm bảo một tập các yêu cầu đưa ra đáp ứng được. Chỉ có các tổ chức với
nguồn tài nguyên khổng lồ mới có thể thực hiện được các công việc khó khăn này, thông
thường, thời gian tối thiểu cần thiết để hoàn thành một chuẩn trong trường hợp gặp nhiều
thuận lợi trong quá trình là khoảng bốn năm rưỡi.
Điều này không có nghĩa là một chuẩn được đưa ra thì “không có lỗi” hoặc không cần
phải cải tiến. Do đó, các chuẩn mới luôn luôn xuất hiện sao cho tốt hơn chuẩn cũ cũng như
phù hợp với các ứng dụng trong tương lai.
Hội đồng chuẩn là các tổ chức có trách nhiệm trong việc giám sát việc phát triển các
chuẩn cho một ứng dụng cụ thể nào đó. Sau đây là một số hội đồng chuẩn nổi tiếng được
nhiều nhà cung cấp sản phẩm tuân theo
¾ Liên minh viễn thông quốc tế - International Telecommunications Union (ITU): Các
chuẩn viễn thông của ITU ( chuẩn ITU-T) có uy tín trong việc định ra các chuẩn mã
hóa âm thoại cho hệ thống mạng điện thoại, bao gồm các mạng vô tuyến lẫn hữu
tuyến.
¾ Hiệp hội công nghiệp viễn thông - Telecommunications Industry Association (TIA):
có trách nhiệm ban hành các chuẩn mã hóa thoại cho các ứng dụng cụ thể, là một
thành viên của Viện tiêu chuẩn quốc gia Hoa Kỳ - National Standards Institute
(ANSI). TIA đã thành công trong việc phát triển các chuẩn sử dụng trong các hệ thống
tổng đài tế bào số Bắc Mỹ, bao gồm các hệ thống sử dụng chuẩn đa kết phân thời gian
- Time division multiple access (TDMA) và Đa truy nhập phân chia theo mã - Code
division multiple access (CDMA).
¾ Viện tiêu chuẩn viễn thông châu Âu - European Telecommunications Standards
Institute (ETSI): ETSI có các hội viên từ các nước cũng như các công ty Châu Âu, là
tổ chức đưa ra các chuẩn sản xuất thiết bị tại Châu Âu. ETSI được thành lập bởi nhóm
có ảnh hưởng nhất trong lãnh vực mã hóa âm thoại là nhóm di động đặc biệt - Groupe
Speciale Mobile (GSM), đã đưa ra rất nhiều chuẩn hữu dụng và được triển khai rất
nhiều trên thế giới
¾ Bộ quốc phòng Hoa Kỳ - United States Department of Defense (DoD). DoD có liên
quan đến việc sáng lập các chuẩn mã hóa thoại, được biết đến với các chuẩn liên bang
Hoa Kỳ (U.S. Federal) dùng nhiều cho các ứng dụng quân sự
¾ Trung tâm phát triển và nghiên cứu các hệ thống vô tuyến của Nhật Bản - Research
and Development Center for Radio Systems of Japan (RCR). Các chuẩn tế bào số
được phát hành bởi RCR.

28
Chương 2 Kỹ thuật xử lý âm thanh

Bảng 2.2.1 Các chuẩn mã hóa âm thoại chính


Năm Tên chuẩn Tốc độ bit truyền Các ứng dụng
hoàn (kbps)
thành
1972a ITU-T G.711 PCM 64 Sử dụng công cộng
b
1984 FS 1015 LPC 2.4 Liên lạc bảo mật
b
1987 ETSI GSM 6.10 RPE-LTP 13 Vô tuyến di động số
1990c ITU-T G.726 ADPCM 16, 24, 32, 40 Sử dụng công cộng
1990b TIA IS54 VSELP 7.95 Hệ thống thoại tế bào số TDMA
Bắc Mỹ
1990c ETSI GSM 6.20 VSELP 5.6 Hệ thống tế bào GSM
c
1990 RCR STD-27B VSELP 6.7 Hệ thống tế bào Nhật
b
1991 FS1016 CELP 4.8 Liên lạc bảo mật
b
1992 ITU-T G.728 LD-CELP 16 Sử dụng công cộng
1993b TIA IS96 VBR-CELP 8.5, 4, 2, 0.8 Hệ thống thoại tế bào số CDMA
Bắc Mỹ
1995a ITU-T G.723.1 MP- 5.3, 6.3 Liên lạc đa phương tiện, điện
MLQ/ACELP thoại truyền hình
1995b ITU-T G.729 CS-ACELP 8 Sử dụng công cộng
1996a ETSI GSM EFR ACELP 12.2 Sử dụng công cộng
a
1996 TIA IS641 ACELP 7.4 Hệ thống thoại tế bào số TDMA
Bắc Mỹ
1997b FS MELP 2.4 Liên lạc bảo mật
a
1999 ETSI AMR-ACELP 12.2, 10.2, 7.95, Sử dụng công cộng viễn thông
7.40, 6.70, 5.90,
5.15, 4.75
a
là được mô tả một phần
b
là được giải thích đầy đủ
c
là được mô tả ngắn gọn mà không có mô tả kỹ thuật chi tiết

2.2.1.5 Kiến trúc của hệ thống mã hóa âm thoại


Hình 2.2.2 mô tả sơ đồ khối của hệ thống mã hóa âm thoại. Tín hiệu âm thoại tương tự
liên tục có từ nguồn cho trước sẽ được số hóa bởi bộ một bộ lọc chuẩn, bộ lấy mẫu (bộ
chuyển đổi thời gian rời rạc), và bộ chuyển tín hiệu tương tự sang tín hiệu số. Tín hiệu ngõ ra
là tín hiệu âm thoại thời gian rời rạc với các giá trị lấy mẫu cũng rời rạc hóa. Tín hiệu này
được xem là tín hiệu âm thoại số.

29
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.2 Sơ đồ khối của hệ thống xử lý tín hiệu thoại


Thông thường, hầu hết các hệ thống mã hóa âm thoại được thiết kế để hỗ trợ các ứng
dụng viễn thông, với tần số giới hạn giữa 300 và 3400Hz. Theo lý thuyết Nyquist, tần số lấy
mẫu tối thiểu phải lớn hơn hai lần băng thông của tín hiệu liên tục thời gian. Giá trị 8kHz
thường được lựa chọn là tần số lấy mẫu chuẩn cho tín hiệu thoại. Bộ mã hóa kênh thực hiện
việc mã hóa hiệu chỉnh lỗi của chuỗi bit truyền trước khi tín hiệu được truyền trên kênh
truyền, nơi mà tín hiệu sẽ bị thay đổi do nhiễu cũng như giao thoa tín hiệu…. Bộ giải mã thực
hiện việc hiệu chỉnh lỗi để có được tín hiệu đã mã hóa, sau đó tín hiệu được đưa vào bộ giải
mã để có được tín hiệu âm thoại số có cùng tốc độ với tín hiệu ban đầu. Lúc này, tín hiệu số
sẽ được chuyển sang dạng tương tự thời gian liên tục. Bộ phận thực hiện việc xử lý tín hiệu
thoại chủ yếu của mô hình hệ thống xử lý thoại là bộ mã hóa và giải mã. Thông thường, khi
xử lý các bài toán về truyền thoại, mô hình được đơn giản hóa như hình 2.2.3
Ví dụ tín hiệu thoại ngõ vào là tín hiệu rời rạc thời gian có tốc độ bit là 128kbps được
đưa vào bộ mã hóa để thực hiện mã hóa chuỗi bit hoặc thực hiện nén dữ liệu thoại. Tốc độ của
chuỗi bit thông thường sẽ có tốc độ thấp hơn tốc độ của tín hiệu ngõ vào bộ mã hóa. Bộ giải
mã nhận chuỗi bit mã hóa này và tạo ra tín hiệu thoại có dạng là rời rạc thời gian và có tốc độ
bằng với tốc độ của tín hiệu ban đầu truyền vào hệ thống.

Hình 2.2.3 Sơ đồ khối đơn giản hóa của bộ mã hóa âm thoại

30
Chương 2 Kỹ thuật xử lý âm thanh

2.2.1.6 Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại

Tín hiệu
âm thoại Phân tích và xử lý
ngõ vào
PCM

Trích và mã Trích và mã Trích và mã


hóa thông hóa thông ... hóa thông
số 1 số 2 số N

Chỉ số 1 Chỉ số 2 Chỉ số N

Chuỗi bit
Đóng gói

Chuỗi bit Mở gói

Chỉ số 1 Chỉ số 2 Chỉ số N

Giải mã Giải mã Giải mã


thông số thông số ... thông số
1 2 N

Âm thoại
tổng hợp
Kết hợp và xử lý

Hình 2.2.4 Mô tả sơ đồ khối tổng quát của bộ mã hóa và giải mã âm thoại.

Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được xử lý và phân tích nhằm thu được
các thông số đại diện cho một khung truyền. Các thông số ngày được mã hóa và lượng tử với
mã chỉ số nhị phân và được gửi đi như là một chuỗi bit đã được nén. Các chỉ số này được
đóng gói và biểu diễn thành chuỗi bit, chúng được sắp xếp thứ tự truyền dựa vào các thông số
đã quyết định trước và được truyền đến bộ giải mã.

31
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.5 Mô hình chung của bộ mã hóa âm thoại. Hình trên: bộ mã hóa, hình dưới:
bộ giải mã.
Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân được
phục hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương ứng của bộ giải
mã để có được các thông số đã được lượng tử. Các thông số giải mã này sẽ kết hợp với nhau
và được xử lý để tạo lại tín hiệu âm thoại tổng hợp.
2.2.1.7 Các yêu cầu cần có của một bộ mã hóa âm thoại
Mục tiêu chính của của mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc độ bit
nào đó, hoặc tối thiểu hóa tốc độ bit ứng với một chất lượng đặc thù. Tốc độ bit tương ứng với
âm thoại nào sẽ được truyền hoặc lưu trữ phụ thuộc vào chi phí của việc truyền hay lưu trữ,
chi phí của mã hóa tín hiệu thoại số, và các yêu cầu về chất lượng của âm thoại đó. Trong hầu
hết các bộ mã hóa âm thoại, tín hiệu được xây dựng lại sẽ khác với tín hiệu nguyên thủy. Tốc
độ bit truyền bị giảm bởi việc biểu diễn tín hiệu âm thoại (hoặc các thông số trong mô hình
tạo âm thoại) với độ chính xác bị giảm, và bởi quá trình loại bỏ các thông tin dư thừa của tín
hiệu. Các yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm:
¾ Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ lệ thuận với băng thông cần cho
truyền dữ liệu. Điều này dẫn đến nếu tốc độ bit thấp sẽ làm tăng hiệu suất của hệ
thống. Yêu cầu này lại xung đột với các các đặc tính khác của hệ thống, như là chất

32
Chương 2 Kỹ thuật xử lý âm thanh

lượng của âm thoại. Trong thực tế, việc đánh đổi giữa các lựa chọn phụ thuộc vào áp
dụng vào ứng dụng gì.
¾ Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp nhận
được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt chất lượng bao gồm tính
dễ hiểu, tự nhiên, dễ nghe và cũng như có thể nhận dạng người nói.
¾ Nhận dạng tiếng nói / ngôn ngữ khác nhau: kỹ thuật nhận dạng tiếng nói có thể phân
biệt được giọng nói của người lớn nam giới, người lớn nữ giới và trẻ con cũng như
nhận dạng được ngôn ngữ nói của người nói.
¾ Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối với các hệ
thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất lượng của tính hiệu
thoại.
¾ Hiệu suất cao đối với các tín hiệu phi thoại (ví dụ như tín hiệu tone điện thoại): trong
hệ thống truyền dẫn kinh điển, các tín hiệu khác có thể tồn tại song song với tín hiệu
âm thoại. Các tín hiệu tone như là đa tần tone đôi – Dual tone multifrequency (DTMF)
của tín hiệu âm bàn phím và nhạc thông thường bị chèn vào trong đường truyền tín
hiệu. Ngay cả những bộ mã hóa thoại tốc độ thấp cũng có thể không thể tạo lại tín hiệu
một cách hoàn chỉnh.
¾ Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp: nhằm mục đích sử dụng được
bộ mã hóa âm thoại trong thực tế, chi phí thực hiện liên quan đến việc triển khai hệ
thống phải thấp, bao gồm cả việc bộ nhớ càn thiết để hỗ trợ khi hệ thống hoạt động
cũng như các yêu cầu tính toán. Các nhà nghiên cứu mã hóa âm thoại đã nổ lực trong
việc tìm kiếm hiện thực bài toán triển khai trong thực tiễn sao cho có hiệu quả nhất.
¾ Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại, độ trễ tín hiệu luôn
luôn tồn tại, chính là thời gian trượt giữa âm thoại ngõ vào của bộ mã hóa với tín hiệu
ngõ ra của bộ giải mã. Việc trễ quá mức sẽ sinh ra nhiều vấn đề trong việc thực hiện
trao đổi tiếng nói hai chiều trong thời gian thực.
2.2.2 Các mô hình dùng trong xử lý âm thanh
2.2.2.1 Mô hình quang phổ
2.2.2.1.1 Mô hình sin
Tín hiệu âm thanh có thể được triển khai từ tập hợp các mô hình sin nếu như có có
dạng
I
y(t ) = ∑ Ai (t )e jφ ( t )
i
(2.2.6)
i =1

t
Với φ i (t ) = ∫ ω i (τ ) dτ , Ai (t ) và ω i (t ) là thành phần biên độ và tần số tương ứng của
−∞

thành phần sin thứ i . Trong thực tế, tín hiệu được xem xét là tín hiệu rời rạc thời gian thực,
như vậy ta có thể viết lại
I
y (n) = ∑ Ai (n) cos(φi (n )) (2.2.7)
i =1

33
Chương 2 Kỹ thuật xử lý âm thanh
nT
Với φ i ( n ) = ∫ ω i (τ ) dτ + φ 0 , i . (2.2.8)
0

Về cơ bản, nếu như I có giá trị vô cùng lớn, thì bất cứ tín hiệu âm thanh nào cũng có
thể được triển khai từ mô hình sin, phép tính gần đúng được áp dụng tính toán trong mô hình
này. Thực tế, tính hiệu nhiễu cũng được triển khai thành vô số các tín hiệu sin, và ta tách việc
xử lý riêng tín hiệu này thành phần xử lý Stochastic ( Λ ) được ký hiệu là e (n ) .
I
y ( n) = ∑ Ai ( n) cos(φi (n )) + e(n) (2.2.9)
i =0 Λ
Γ

Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng lưu
đồ ở hình 2.2.6. Phương pháp này được ứng dụng trong các phần mềm sms, viết tắt của tổng
hợp mô hình phổ - spectral modeling synthesis.

Hình 2.2.6 Phân tích các thành phần hình sin của phần stochastic
Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân
tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các đỉnh tần
số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức phân tích được.
Một chiến thuật được sử dụng để thực hiện điều này là vẽ “bảng chỉ dẫn” trong các khung
STFT.
Để thực hiện việc phân chia phần nào là tín hiệu, phần nào là nhiễu, các tần số và pha
phải được xác định một cách chính xác. Ngoài ra, để quá trình tổng hợp lại hai tín hiệu đó
được đơn giản, biên độ của các thành phần nên được nội suy giữa các khung tín hiệu, và phép
nội suy tuyến tính thường được sử dụng. Các tần số cũng như pha của tín hiệu cũng có thể
được nội suy, tuy nhiên cần phải lưu ý là phép nội suy tần số có ảnh hưởng chặt chẽ đến phép
nội suy pha.
Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần sin có

34
Chương 2 Kỹ thuật xử lý âm thanh

thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo dao động bảng
sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở FFT. Kỹ thuật FFT được
sử dụng nhiều do tính tiện lợi khi tín hiệu có nhiều thành phần hình sin.
Trích tín hiệu thặng dư (Extraction of the residual): Việc trích phổ của tín hiệu
nhiễu thặng dư có thể được thực hiện ở miền tần hoặc trực tiếp từ miền thời gian.
Sự hiệu chỉnh phổ thặng dư (Residual spectral fitting): thành phần stochastic được
mô hình hóa là tín hiệu nhiễu băng rộng, được lọc bởi khối đặc trưng tuyến tính. Phổ cường
độ của tín hiệu thặng dư có thể được xấp xỉ bằng giá trị trung bình của hàm piecewise-linear.
Việc tổng hợp trong miền thời gian có thể được thực hiện bằng phép đảo FFT, sau khi đã ấn
định được một tập cường độ mong muốn và một tập pha ngẫu nhiên.
Hiệu chỉnh âm thanh: mô hình sin là một mô hình hữu dụng vì nó cho phép áp dụng
việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 2.2.7 mô tả một các bước
thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc

Hình 2.2.7 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc
2.2.2.1.2 Tín hiệu sin + nhiễu + nốt đệm
Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của nhiều
tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh. Khi đó, một thành
phần của âm thanh không được xem xét đến, đó là nốt đệm. Việc hiệu chỉnh âm thanh có thể
được thực hiện dễ dàng bằng cách tách riêng thành phần nốt đệm để xét riêng. Thực tế, hầu
hết các dụng cụ âm nhạc mở rộng trường độ của một nốt nhạc không làm ảnh hưởng đến chất
lượng xử lý.
Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm (SNT) được phát họa dùng
trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong thực tế từ việc
quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các
đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được
ánh xạ qua miền tần lại có dạng hình sin. Như vậy, mô hình sin có thể được ứng dụng trong
miền tần số biểu diễn các tín hiệu hình sin. Sơ đồ khối mô tả quá trình phân tích SNT được
biểu diễn trên hình 2.2.8.

35
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.8 Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm
Khối DCT trong hình 2.2.8 mô tả hoạt động của phép rời rạc cosin.
Phép biến đổi, được định nghĩa như sau:
N −1
⎛ (2n + 1)kπ ⎞
C (k ) = α ∑ x(n) cos⎜ ⎟ (2.2.10)
n =0 ⎝ 2N ⎠
Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và ngược
lại.
2.2.2.1.3 Mô hình LPC
Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh. Tổng hợp LPC
được mô tả trong lưu đồ trong hình 2.2.9. Về bản chất, mô hình chính là giải thuật trừ tổng
hợp thực hiện một tín hiệu có phổ “đặc” được lọc bởi một bộ lọc cực. Tín hiệu kích thích có
thể sử dụng chính tín hiệu thặng dư e có được qua quá trình phân tích, hoặc có thể sử dụng
các thông tin của tín hiệu thoại/phi thoại.
a1 ,…, a p

Hình 2.2.9 Tổng hợp LPC


2.2.2.2 Mô hình miền thời gian
Việc mô tả âm thanh trong miền tần rất có hiệu quả, tuy nhiên trong một vài ứng dụng,
để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời gian lại có ưu
thế hơn.
2.2.2.2.1 Máy tạo dao động số
Ta nhận thấy một âm thanh phức tạp đuợc tổng hợp từ nhiều thành phần hình sin bằng
phép tổng hợp FTT-1. Nếu như các thành phần hình sin không quá nhiều, việc tổng hợp từng
thành phần được thực hiện bằng cách lấy giá trị trung bình của máy tạo dao động số.

36
Chương 2 Kỹ thuật xử lý âm thanh

e jω 0 ( n +1)
= e j ω e jω n
0 0
(2.2.11)
Với e jω0n = xR ( n) + jxI (n) ở dạng số phức, mỗi bước nhảy thời gian được định nghĩa
như sau:
x R ( n + 1) = cos ω0 x R ( n) − sin ω0 x I ( n ) (2.2.12)
xI ( n + 1) = sin ω0 xR ( n ) + cos ω0 xI ( n ) (2.2.13)

Thông số biên độ và pha ban đầu có thể tính dựa theo pha ban đầu e jω0 0 và thực hiện
việc lệch pha vào số mũ. Tín hiệu xR ( n + 1) có thể được tính theo công thức sau:
xR ( n + 1) = 2 cos ω0 x R ( n ) − x R ( n − 1) (2.2.14)
Đáp ứng xung của bộ lọc như sau:
1 1
H R ( z) = =
1 − 2 cos ω0 z + z
−1 −2
(1 − e − jω0 z −1
)(1 − e )
jω0 z −1
(2.2.15)

Giá trị cực của bộ lọc biểu thức 10 nằm trên chu vi đường tròn đơn vị.
Gọi xR1 , xR 2 là hai biến trạng thái của hai mẫu trứoc đó của tín hiệu ngõ ra x R , pha
ban đầu φ0 có thể được tính theo hệ phương trình sau:
x R1 = sin (φ0 − ω 0 ) (2.2.16)
x R 2 = sin (φ0 − 2ω0 ) (2.2.17)
Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối với
các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển khai. Tuy
nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi:
ƒ Việc cập nhật thông số yêu cầu tính toán trên hàm cosin. Đây là một điều khó đối
với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng mẫu
trong miền thời gian
ƒ Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi đó
bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này.
2.2.2.2.2 Máy tạo dao động bảng sóng
Phương pháp thông dụng nhất dùng để tổng hợp các dạng sóng có chu kỳ (bao gồm tín
hiệu dạng sin) thực hiện quá trình đọc lặp đi lặp lại một bảng chứa nội dung của một dạng
sóng đã được lưu trữ trước. Ví dụ: nếu dạng sóng cần được tổng hợp ở dạng sin, đối xứng thì
chỉ cần lưu trữ lưu trữ ¼ chu kỳ, sau đó sử dụng phép tính toán để nội suy cho toàn bộ chu kỳ.
Đặt buf [ ] là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng
sóng. Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng dạng sóng là bội
số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó.
Gọi B là chiều dài của bộ đệm, f 0 là tần số mà ta muốn tạo tần số lấy mẫu Fs , khi đó
giá trị của gia số I là:
Bf 0
I= (2.2.18)
Fs

37
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

S thay đổii tần số lấy mẫu


Sự m
Bài toán thhiết kế máy tạo dao độnng bảng sóng có thể chuuyển thành bài
b toán thayy đổi
m tại tần sốố lấy mẫu Fs ,1 thành tínn hiệu
tần số lấy mẫu, ví dụ như biếnn đổi tín hiệuu được lấy mẫu
Fs , 2 L
l mẫu tại tần số Fs , 2 . Nếu
được lấy = , với L và M là các số nguy
yên tối giản, việc
Fs ,1 M
thực hiện
h thay đổii tần số lấy mẫu
m có thể đư
ược như hiện
n bằng các bbước:
1 Tăng tần số lấy mẫu bằng
1. b hệ số L
2 Sử dụng bộ
2. b lọc thông
g thấp
3 Giảm tầnn số lấy mẫu bằng hệ số M
3.

Hình 2.2.110 Sơ đồ khố


ối phân rã củủa quá trình thay đổi tầnn số lấy mẫu

nh 2.2.11 Ví
Hìn l mẫu với L / M = 3 / 2
V dụ về thayy đổi tần số lấy
2
2.2.2.2.3 Tổn
ng hợp lấy m
mẫu bảng sóng
Tổng hợp lấy
l mẫu bảnng sóng là phhần mở rộng của máy daao động bảngg sóng đối vớ
ới
• Dạng sóng
g phân tích không
k phải dạng sin
• Bảng dạng
g sóng được lưu trữ với nnhiều chu kỳỳ
Các tín hiệệu điều khiểnn rất quan trọọng trong việc nhận đượ
ợc âm thanh tự nhiên
2
2.2.2.2.4 Tổ
ổng hợp hạt (với Giovanni De Poli)
Các bảng sóng ngắn có v kết quả là âm
c thể được đọc với nhiều tốc độ kkhác nhau, và
Chương 2 Kỹ thuật xử lý âm thanh

điệu có thể chồng chéo vào nhau trong miền thời gian. Trong phương pháp miền thời gian,
việc tổng hợp âm thanh này được gọi là tổng hợp hạt. Tổng hợp hạt bắt đầu từ ý tưởng việc
phân tích âm thanh trong miền thời gian được thay thế bằng biểu diễn chúng thành một chuỗi
các thành phần ngắn được gọi là “hạt”. Các thông số của kỹ thuật này là các dạng sóng của
hạt thứ g k (⋅) , vị trí trong miền thời gian lk và biên độ a k

s g ( n ) = ∑ ak g k ( n − lk ) (2.2.19)
k

Khi số lượng “hạt” lớn, thì việc tính toán sẽ trở nên phức tạp. Tính chất của các hạt và
các vị trí trong miền thời gian quyết định âm sắc của âm thanh. Việc lựa chọn các thông số
tùy thuộc vào các tiêu chuẩn đưa ra bởi các mô hình thể hiện. Việc lựa chọn các mô hình biểu
diễn liên quan đến các quá trình hoạt động mà các quá trình này có thể ảnh hưởng đến âm
thanh nào đó theo nhiều cách khác nhau.
Loại cơ bản và quan trọng nhất của tổng hợp hạt (tổng hợp hạt bất đồng bộ) là phân
phối các hạt không theo quy luật trong miền tần số -thời gian. Dạng sóng hạt có dạng
g k (i ) = ω d (i ) cos (2πf k Ts i ) (2.2.20)

Với ω d (i ) là cửa số có chiều dài là d mẫu, dùng để điều khiển nhịp thời gian và băng
tần phổ f k .
2.2.2.3 Các mô hình phi tuyến
2.2.2.3.1 Điều pha và điều tần
Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM). Trong liên lạc thông
tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng
hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning. Về bản
chất, Chowning đã thực hiện các nghiên cứu trên các phạm vi khác nhau của việc tạo tiếng
rung bằng các bộ tạo dao động đơn giản, và thu được kết quả là các tần số rung nhanh sẽ tạo
ra các thay đổi đầy kịch tính. Như vậy, điều chế tần số của một máy tạo dao động cũng đủ tạo
ra tín hiệu âm thanh có phổ phức tạp. Mô hình FM của Chowning như sau:
x ( n) = A sin (ω c n + I sin (ω m n )) = A sin (ω c n + φ (n )) (2.2.21)
Với ω c là tần số sóng mang và ω m là tần số điều chế, I là chỉ số điều chế. Phương
trình (2.2.21) thực tế cũng là phương trình điều pha. Tần số tức thời của phương trình
(2.2.21)
ω ( n) = ω c − Iω m cos (ω m n ) (2.2.22)
Hoặc:
f ( n ) = f c − If m cos( 2πf m n ) (2.2.23)
Hình 2.2.12 mô tả việc triển khai pd của giải thuật FM đơn giản. Tần số điều chế
được dùng để điều khiển trực tiếp bộ tạo dao động, trong khi tần số sóng mang dùng để điều
khiển bộ tạo pha đơn vị, tạo pha theo chu kỳ. Với tần số sóng mang, tần số điều chế và chỉ số
điều chế cho trước, ta có thể dễ dàng dự đoán các thành phần ở phổ tần số của âm thanh kết
quả.

39
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.12 Phần triển khai phân phối pd của điều pha.
Việc phân tích dựa trên đặc tính lượng giác
x(n) = A sin (ωc n + I sin (ωm n ))
⎧ ⎫
(2.2.24)

[ ] ⎪

= A⎨ J 0 ( I ) sin(ωc n) + ∑ J k ( I ) sin ((ωc + kωm )n ) + (− 1) sin ((ωc − kωm )n ) ⎬
k

⎪ carrier
k =1 ⎪
⎩ side− frequencies ⎭
Với J k (I ) là bậc thứ k của hàm Bessel. Các hàm Bessel được vẽ trên hình 2.2.13
ứng với nhiều giá trị k trên trục số lượng side-frequencies và giá trị I trên trục chỉ số điều
chế.

Hình 2.2.13 Các giá trị của hàm Bessel.


Băng thông có giá trị xấp xỉ bằng
BW = 2(I + 0.24 I 0.27 )ω m ≈ 2 Iω m (2.2.25)
2.2.2.3.2 Méo phi tuyến
Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD) rất
đơn giản: ngõ ra của mạch tạo dao động được dùng như là thông số của một hàm phi tuyến.
Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong một bảng, và ngõ ra của bộ
dao động được dùng như là chỉ số để truy nhập vào bảng. Điều thú vị của NLD là lý thuyết

40
Chương 2 Kỹ thuật xử lý âm thanh

này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn.
Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau
x ( n) = A cos(ω 0 n) (2.2.26)
y ( n ) = F ( x (n )) (2.2.27)
Với hàm số phi tuyến, dùng đa thức Chebyshev. Đa thức Chebyshev cấp độ n được
định nghĩa đệ quy như sau:
T0 ( x ) = 1 (2.2.28)
T1 ( x ) = x (2.2.29)
Tn ( x ) = 2 xTn−1 ( x ) − Tn−2 ( x ) , (2.2.30)
và có tính chất:
Tn (cos θ ) = cos nθ (2.2.31)
Như vậy, với tính chất (2.2.31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp độ
m , giá trị ngõ ra y có được bằng cách sử dụng bộ dao động sin x ( n) = cos ω0 n , như vậy
y ( n ) = cos (mω 0 n ) là hài bậc m của x .
Phổ của y(n) với:
y ( n ) = ∑ hk cos( kω 0 n ) (2.2.32)
k

là:
F ( x ) = ∑ hk Tk ( x ) (2.2.33)
k

Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng hợp, xử
lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối cộng hưởng
một chiều.

2.2.2.4 Mô hình thời gian rời rạc


Trong hầu hết các trường hợp liên quan đến xử lý thông tin, việc biểu diễn tín hiệu sao
cho đảm bảo tính tiện lợi trong phân tích mà vẫn không làm mất đi tính chất của tín hiệu là
điều mà các nhà khoa học quan tâm. Sóng âm thanh xuất phát từ lời nói của người có tính
chất tự nhiên và ngẫu nhiên nhất. Phân tích toán học thuận tiện nhất là xem sóng âm thanh là
một hàm số theo biến thời gian t . Ta ký hiệu xa (t ) là dạng sóng tương tự theo thời gian t .

41
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.14 Biểu diễn tín hiệu âm thoại


Trong giáo trình này, ta dùng ký hiệu x (n) mô tả cho chuỗi số. Trong trường hợp lấy
mẫu tín hiệu âm thoại, một chuỗi có thể được xem như là một dãy các mẫu của tín hiệu tương
tự được lấy mẫu một cách đều đặn với thời gian lấy mẫu là T, khi đó tín hiệu sau khi lấy mẫu
được ký hiệu bởi xa (nT ) . Hình 2.2.14 mô tả một ví dụ của việc tín hiệu âm thoại được biểu
diễn ở cả hai dạng là tín hiệu tương tự và dạng chuỗi các mẫu được lấy mẫu ở tần số là 8kHz.
Xung đơn vị được định nghĩa như sau:
δ (n) = 1 n = 0
= 0 ngược lại (2.2.34)
Chuỗi bước đơn vị được ký hiệu
u (n) = 1 n ≥ 0
=0 n<0 (2.2.35)
Hàm mũ
x(n) = a n (2.2.36)

Nếu a ở dạng số phức, a = re jw0 , thì


x ( n) = r n e jw n = r n (cos ω0 n + j sin ω0 n)
0
(2.2.37)

42
Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.2.15 (a) Lấy mẫu đơn vị, (b) đơn vị bước, (c) hàm mũ thực và (d) hàm sin suy
giảm

Hình 2.2.16 Sơ đồ khối (a) hệ thống đơn ngõ vào/đơn ngõ ra; (b) hệ thống đơn ngõ
vào/đa ngõ ra
Khi hệ thống gồm nhiều ngõ ra, tín hiệu chuỗi ngõ ra sẽ được biểu diễn bằng một
vector được mô tả như ở hình 2.2.16.
Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý tín hiệu
âm thoại. Hệ thống được đặc trưng bởi đáp ứng xung, h(n) , khi đó tín hiệu ngõ ra được tính
bởi công thức

y ( n) = ∑ x ( k ) h( n − k ) = x ( n) * h( n)
k = −∞
(2.2.38a)

43
Chương 2 Kỹ thuật xử lý âm thanh

y ( n) = ∑ h(k ) x(n − k ) = h(n) * x(n)
k = −∞
(2.2.38b)

với * là phép chập hai tín hiệu.

2.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN

2.3.1 Phân tích dự đoán tuyến tính


Dự đoán tuyến tính (Linear prediction, viết tắt là LP) là một phần không thể thiếu của
hầu hết tất cả giải thuật mã hóa thoại hiện đại ngày nay. Ý tưởng cơ bản là một mẫu thoại có
thể được xấp xỉ bằng một kết hợp tuyến tính của các mẫu trong quá khứ. Trong một khung tín
hiệu, các trọng số dùng để tính toán kết hợp tuyến tính được tìm bằng cách tối thiểu hóa bình
phương trung bình lỗi dự đoán; các trọng số tổng hợp, hoặc các hệ số dự đoán tuyến tính
(LPC) được dùng đại diện cho một khung cụ thể.
Trong thực tế, phân tích dự đoán là một tiến trình ước lượng để tìm các thông số của
AR, mà các thông số này được cho bởi các mẫu của tín hiệu. Như vậy, LP là một kỹ thuật
nhận dạng với các thông số của một hệ thống được tìm từ việc quan sát. Với giả định là tín
hiệu thoại được mô hình như là tín hiệu AR, điều này đã được chứng minh tính đúng đắn của
nó trong thực tiễn.
Một cách biểu diễn LP khác là phương pháp ước lượng phổ. Như đã trình bày ở trên,
phân tích LP cho phép việc tính toán các thông số của AR, đã được định nghĩa trong mật độ
phổ công suất (PSD) của chính bản thân tín hiệu. Bằng cách tính toán LPC của một khung tín
hiệu, ta có thể tạo ra một tín hiệu khác theo cách thức có nội dung phổ gần như tương đồng
với tín hiệu gốc.
LP cũng có thể được xem như là một quá trình loại bỏ các dư thừa khi thông tin bị lặp
lại trong một sự trường hợp cần khử. Sau cùng, việc truyền dữ liệu có thể không cần thiết nếu
như dữ liệu cần truyền có thể được dự đoán trước. Bằng cách thức chuyển chỗ các dư thừa
trong một tín hiệu, số lượng bit cần thiết để mang thông tin sẽ ít hơn và như thế sẽ đạt được
mục tiêu nén dữ liệu.
Trong phần này sẽ đề cập đến bài toán cơ bản của phân tích LP đã được định rõ, kết
hợp với việc hiệu chỉnh lại cho phù hợp theo hướng các tín hiệu động, cũng như ví dụ và các
giải thuật cần thiết cho quá trình dự đoán tuyến tính.
2.3.1.1 Bài toán dự đoán tuyến tính
Dự đoán tuyến tính được mô tả như là một bài toán nhận dạng hệ thống, với các thông
số của một mô hình AR được ước lượng từ bản thân tín hiệu. Mô hình được trình bày ở hình
2.3.1. Tín hiệu nhiễu trắng x[n] được lọc bởi quá trình tổng hợp AR để có được tín hiệu AR
s[n] , với các thông số AR được ký hiệu là â i . Dự đoán tuyến tính thực hiện ước đoán s[n]
dựa vào M mẫu trong quá khứ:
M
sˆ[n] = −∑ ai s[n − i] (2.3.1)
i =1

Với ai là các ước lượng của các thông số AR được xem là các hệ số dự đoán tuyến

44
Chương 2 Kỹ thuật xử lý âm thanh

tính (LPC). Hằng số M trong công thức là bậc dự đoán. Như vậy, việc dự đoán dự trên tổ hợp
tuyến tính của M mẫu trong quá khứ của tín hiệu, chính vì thế việc dự đoán mang tính tuyến
tính. Lỗi dự đoán được tính bằng công thức:
e[ n ] = s[ n ] − sˆ[ n ] (2.3.2)

Hình 2.3.1 Hệ thống nhận dạng dưới dạng dự đoán tuyến tính

Hình 2.3.2 Bộ lọc lỗi dự đoán


Lỗi dự đoán chính là độ sai biệt giữa mẫu thật sự và mẫu ước lượng. Hình 2.3.2 mô tả
lưu đồ tín hiệu thực hiện bộ lọc lỗi dự đoán. Bộ lọc có ngõ vào là tín hiệu AR và ngõ ra chính
là tín hiệu lỗi dự đoán.
Tối thiểu hoá lỗi
Bài toán nhận dạng hệ thống bao gồm việc ước lượng các thông số AR â i từ s[n] . Để
thực hiện việc ước lượng, tiêu chuẩn phải được thiết lập. Trong đó, bình phương trung bình
lỗi dự đoán được tính bởi công thức:
⎧⎛ ⎞ ⎫
2

J = E {e 2 [n]} = E ⎨⎜ s[n] + ∑ ai s[n − i ] ⎟ ⎬


M
(2.3.3)
⎩⎝ i =1 ⎠ ⎭
Được tối thiểu hóa bằng cách lựa chọn LPC thích hợp. Thông số LPC tối ưu có thể
được tìm bằng cách thiết lập các đạo hàm riêng phần của J khi ai tiến tới zero:

45
Chương 2 Kỹ thuật xử lý âm thanh

∂J ⎧⎛ M
⎞ ⎫
= 2 E ⎨⎜ s[ n] + ∑ ai s[ n − i ] ⎟ s[ n − k ]⎬ = 0 (2.3.4)
∂ak ⎩⎝ i =1 ⎠ ⎭
Với k = 1, 2,..., M , khi (2.3.4) xảy ra thì a i = â i , lúc này LPC chính bằng các thông số
AR.
Độ lợi dự đoán
Độ lợi dự đoán của bộ dự đoán được cho bởi công thức
⎛σ 2 ⎞ ⎛ E{s 2 [n]}⎞
PG = 10 log10 ⎜⎜ s2 ⎟⎟ = 10 log10 ⎜⎜ ⎟⎟ (2.3.5)
⎝σe ⎠ ⎝ E{e [n]}⎠
2

Là tỉ số giữa biến tín hiệu ngõ vào và biến của lỗi dự đoán theo đơn vị decibels (dB).
Độ lợi dự đoán là thông số đo lường chất lượng của bộ dự đoán. Một bộ dự đoán tốt hơn có
khả năng tạo ra lỗi dự đoán nhỏ hơn với độ lợi cao hơn.
Tối thiểu hóa bình phương trung bình lỗi dự đoán

Từ hình 2.3.2, ta có thể nhận xét khi a i = aˆ i , thì e[n] = x[n] ; như vậy lỗi dự đoán
tương tự như dùng tín hiệu nhiễu trắng để tạo ra tín hiệu AR s[n] . Đây là trường hợp tối ưu
khi lỗi bình phương trung bình được tối thiểu hóa, với
J min = E {e 2 [ n]} = E {x 2 [ n]} = σ x2 (2.3.6)
Khi đó, độ lợi dự đoán đạt giá trị lớn nhất.
Điều kiện tối ưu có thể đạt được khi bậc của bộ dự đoán lớn hơn hoặc bằng bậc của
quá trình tổng hợp AR. Trong thực tế, M thường là số chưa biết trước. Một phương pháp đơn
giản để có thể ước lượng được giá trị M từ tín hiệu nguồn là vẽ biểu đồ độ lợi dự đoán như là
một hàm của bậc dự đoán. Với phương pháp này, ta có thể quyết định được bậc của dự đoán
ứng với độ lợi bão hòa, khi đó khi tăng bậc dự đoán thì độ lợi không tăng. Giá trị của bậc dự
đoán tại điểm thỏa điều kiện bão hòa này được xem là giá trị ước lượng tốt nhất cho bậc của
tín hiệu AR.

Sau khi đã xác định được giá trị M, hàm chi phí J đạt giá trị tối thiểu khi ai = aˆ i , dẫn
đến e[n] = x[n] . Và khi đó, lỗi dự đoán sẽ bằng với giá trị tín hiệu đầu vào của bộ tổng hợp
quá trình AR.
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động
Tín hiệu thoại trong thực tế là tín hiệu động, nên LPC phải được tính ứng với từng
khung tín hiệu. Trong một khung tín hiệu, một tập LPC được tính toán và dùng để đại diện
cho các thuộc tính của tín hiệu trong một chu kỳ cụ thể, với giả định rằng số liệu thống kê của
tín hiệu vẫn không thay đổi trong một khung. Quá trình tính toán LPC từ dữ liệu tín hiệu được
gọi là phân tích dự đoán tuyến tính.
Bài toán dự đoán tuyến tính cho tín hiệu động được phát biểu lại như sau: đây là bài
toán thực hiện việc tính các giá trị LPC ứng với N điểm dữ liệu với thời gian kết thúc là m :
s[m − N + 1] , s[m − N + 2] , …, s[m] . Vector LPC được viết như sau:
a[m ] = [a1 [m] a2 [m] a M [m ]]
T
... (2.3.7)

46
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

V M là bậc dự đoán
Với
Đ lợi dự đooán
Độ
Độ lợi dự đoán
đ của bộ dự đoán được cho bởi công
c thức
⎛ m 2 ⎞
⎜ ∑ s [n ] ⎟
PG[m] = 10 log10 ⎜ n = mm− N +1 ⎟ (22.3.8)
⎜ ⎟
⎜ ∑ e [n ] ⎟
2

⎝ n = m − N +1 ⎠

V
Với
^ M
e[n] = s[n] − s[n] = s[n] + ∑ ai [m]s[n − i ] ; n = m − N + 1 , …,
… m (22.3.9)
i =1

Các LPC ai [m ] được tính toán từ các mẫu tro


ong chu kỳ. Độ lợi dự đooán định nghhĩa ở
công thức
t (2.3.9) là
l một hàm theo
t ời gian m .
biến thờ
Ví dụ: Nhiiễu trắng đư
ược tạo ra bở
ởi bộ tạo số ngẫu nhiên phân phối đều,
đ sau đó được
lọc bở
ởi bộ tổng hợ
ợp AR với
a1 = 1.534 a2 = 1 a3 = 0.5887 a 4 = 0.347 a56 = 0.08

a6 = −0.061
1 a7 = −0.172 a8 = −0.156 a9 = −0.157 a10 = −0.14

Khung tổn
ng hợp của tín t hiệu AR được dùng cho phân tícch LP, với tổng
t cộng làà 240
mẫu. Ước
Ư lượng tự t động tươnng quan khôông hồi qui sửs dụng cửaa sổ Hammin ng. Phân tích LP
được thực
t hiện vớ
ới bậc từ 2 đến 20. Hình 2.3.3 tóm tắt
t kết quả, vvới độ lợi dự
ự đoán đượcc tính
c nhất tại M = 10 . Cáác bậc lớn hơ
toán tạại M = 2 vàà đạt giá trị cao ơn 10 khôngg cho được đđộ lợi
cao hơ n ta có thểể chỉ cần xétt đến M = 10 .
ơn nữa, cho nên

Hình 2.3.3
3 Độ lợi dự đoán (PG) llà một hàm theo
t biến bậcc dự đoán M
Chương 2 Kỹ thuật xử lý âm thanh

2.3.1.3 Giải thuật Levison-Durbin


Thông thường, việc tính toán ma trận nghịch đảo không đơn giản, tuy nhiên đối với
bài toán này, các hệ số giải thuật có thể được tính thông qua tính toán ma trận tương quan. Hai
giải thuật Levison-Durbin và Leroux-Gueguen là hai giải thuật rất phù hợp cho việc tính toán
LP của các hệ thống triển khai trong thực tế.
Giải thuật Levison-Durbin thực hiện việc tìm bộ dự đoán bậc thứ M từ bộ dự đoán
bậc thứ ( M − 1) . Đây là quá trình lặp đệ quy cho đến khi tìm được lần đầu tiên bộ dự đoán
bậc zero, sau đó sẽ dùng bộ bậc zero sẽ được dùng để tính bộ dự đoán bậc 1 và quá trình tiếp
tục cho đến khi tính toán được bộ dự đoán có bậc cần tìm.
Giải thuật: biến đầu vào là các hệ số tự tương quan R[l ] , giá trị tính được là các LPC
và RC
ƒ Định trị ban đầu: l = 0 , tập J 0 = R[0]
ƒ Thực hiện đệ quy, for l = 1,2,..., M
1 l −1
o Bước 1: Tính toán RC thứ l , kl = (R[l ]) + ∑ ai (l −1) R[l − i ] ,
J l −1 i =1

o Bước 2: Tính toán các LPC ứng với bộ dự đoán bậc l


ai( l ) = − kl ;
ai( l ) = ai( l −1) − kl al(−l −i 1) ; i − 1, 2,..., l − 1
Dừng nếu l = M
o Bước 3: Tính giá trị bình phương trung bình lỗi dự đoán tương ứng
với lời giải tại bậc l
J l = J j −1 (1 − kl2 )
Gán l = l + 1 , quay lại bước 1
2.3.1.4 Giải thuật Leroux-Gueguen
Bài toán sử dụng giải thuật Levinson-Durbin dựa trên các giá trị của các LPC, bởi vì
chúng có thuộc một tầm vực rộng và giá trị biên của biên độ của các LPC không thể tính được
ứng với cơ sở lý thuyết. Vấn đề xảy ra khi giải thuật được áp dụng cho tính toán trên dấu
chấm tĩnh. Giải thuật Leroux-Gueguen khắc phục điểm yếu này của giải thuật Levison-
Durbin.
Leroux và Gueguen [1979] đã đề xuất một phương pháp tính toán các RC từ các giá trị
tự tương quan mà không cần phải tính thông qua các LPC. Do đó, bài toán liên quan đến tầm
động với điều kiện dấu chấm tĩnh đã được giải quyết. Xét thông số sau

ε (l ) [k ] = E{e(l ) [n]s[n − k ]} = ∑ ai(l ) R[i − k ] ,


l
(2.3.10)
i =0

Với

ƒ e ( l ) [n ] = lỗi dự đoán sử dụng bộ lọc dự đoán lỗi bậc thứ

48
Chương 2 Kỹ thuật xử lý âm thanh

l
ƒ ai(l ) = LPC của bộ dự đoán bậc thứ l

ƒ R[ k ] = giá trị tự tương quan của tín hiệu s[n]

Định lý:
ε ( l ) [k ] ≤ R[0] (2.3.11)
Sinh viên có thể tự chứng minh
Bảng 2.3.1 mô tả các thông số ε cần thiết ứng với mỗi bậc l trong giải thuật Leroux-
Gueguen
Bảng 2.3.1

l Các thông số cần thiết

M
M −1 ε ( M −1) [0], ε ( M −1) [M ]
M −2 ε ( M − 2 ) [− 1], ε ( M − 2 ) [0], ε ( M − 2 ) [M − 1], ε ( M − 2 ) [M ]
M −3 ε ( M −3) [− 2],… , ε ( M −3) [0], ε ( M −3) [M − 2],… , ε ( M −3) [M ]
M −4 ε ( M −4 ) [− 3],… , ε ( M −4 ) [0], ε ( M −4 ) [M − 3],… , ε ( M −4 ) [M ]

1 ε (1) [− M + 2],… , ε (1) [0], ε (1) [2],… , ε (1) [M ]


0 ε ( 0 ) [− M + 1],… , ε ( 0 ) [0], ε ( 0 ) [1],… , ε ( 0 ) [M ]
Giải thuật:
ƒ Định trị ban đầu: l = 0 , tập ε ( 0 ) [k ] = R[k ], k = − M + 1,..., M
ƒ Thực hiện đệ quy, for l = 1,2,..., M
ε ( l −1) [l ]
o Bước 1: Tính toán RC thứ l , kl = , dừng khi l = M
e ( l −1) [0]
o Bước 2: Tính toán các thông số
ε ( l ) [k ] = ε ( l −1) [k ] − kl ε ( l −1) [l − k ]; k = − M + l + 1,...,0, l + 1,...M .
o Gán l = l + 1 , quay lại bước 1
2.3.1.5 So sánh giải thuật Levison-Durbin và Leroux-Gueguen
Giải thuật Leroux-Gueguen phù hợp hơn cho các bài toán dấu chấm tĩnh đối với các
biến trung gian có biên đã được biết trước. Nhược điểm của giải thuật này là chỉ có các giá trị
RC là kết quả trả về, là kết quả không cần thiết đối với bộ lọc lưới. Đối vớic các bộ lọc có
dạng trực tiếp, các giá trị LPC có thể có được nếu dùng một trong hai giải thuật.
Việc sử dụng bộ lọc mắt cao thường trong việc tính toán LP thường không đơn giản

49
Chương 2 Kỹ thuật xử lý âm thanh

do số lượng tính toán. Ngoài ra, đối với trường hợp thời gian biến đổi, các hệ số được cập
nhật từ khung thời gian này đến khung thời gian khác sẽ làm cho việc tính toán càng phức tạp
hơn đối với cấu trúc lưới. Ngoài ra, phương pháp Leroux-Gueguen sử dụng biến đổi RC-sang-
LPC không cung cấp việc lưu trữ lại các bước tính toán quan trọng so với giải thuật Levinson-
Durbin. Tất cả các điều trên làm cho giải thuật Levinson-Durbin thông dụng hơn trong thực
tiễn, đặc biệt là đối với các bài toán số.
Trong các bài toán ứng dụng thực tế, giải thuật Levison-Durbin dùng trong điều kiện
dấu chấm tĩnh phải được cân nhắc kỹ sao cho đảm bảo các biến phải nằm trong tầm vực cho
phép.
2.3.2 Dự đoán tuyến tính trong xử lý thoại
Đối với việc đơn giản hóa mô hình xử lý thoại, giải thuật dự đoán tuyến tính (LPC) là
một trong những giải thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt động ở
tần số thấp. Ở tốc độ 2.4kbps, bộ mã hóa FS1015 LPC [Hãng Tremain, 1982] là một bước tiến
vượt bật trong ngành xử lý âm thanh; mặc dù chất lượng của âm thanh được giải mã không
cao, nhưng hệ thống giải mã đơn giản và dễ hiểu. Thuật ngữ “mã hóa dự đoán tuyến tính”
xuất hiện từ khi việc tạo ra âm thanh thoại sử dụng bất kỳ giải thuật ứng dụng mô hình LPC,
trong đó chuẩn FS1015 là chuẩn điển hình.
Ban đầu, trong việc phát triển cho việc truyền thông bảo mật thuộc các ứng dụng quân
sự, bộ mã hóa FS1015 được đặc trưng bởi tín hiệu thoại mã tổng hợp ngõ ra thường cần đến
các nhân viên vận hành tổng đài đã được huấn luyện sử dụng. Mặc dù hầu hết các bộ mã hóa
thoại dựa vào công nghệ LP đạt được hiệu suất cao hơn ngày nay, nhưng về cơ bản, hoạt động
của chúng là có nguồn gốc từ LPC, việc cải tiến nhằm mục đích đạt được chất lượng tốt hơn
và hiệu suất mã hóa tối ưu hơn.
2.3.2.1 Mô hình xử lý tín hiệu thoại
Mô hình xử lý thoại dựa vào mô hình mã hóa dự đoán tuyến tính được mô tả trong
hình 2.3.4. Mô hình được dựng dựa vào việc quan sát các đặc tính cơ bản của tín hiệu thoại và
bắt chước kỹ thuật tạo âm thanh thoại của người. Bộ lọc tổng hợp được mô phỏng theo sự
phát âm, khẩu âm của miệng người. Tín hiệu lái ngõ vào của bộ lọc hoặc tín hiệu kích thích
mạch được mô phỏng theo dạng xung truyền động (âm thanh thoại) hoặc là nhiễu ngẫu nhiên
(âm thanh phi thoại). Như vậy, phụ thuộc vào trạng thái âm thanh thoại hay phi thoại của tín
hiệu, mạch chuyển được thiết lập ở vị trí thích hợp sao cho ngõ vào tương ứng sẽ được chọn
đưa vào mạch. Mức năng lượng của tín hiệu ngõ ra được điều khiển bởi thông số độ lợi.
Làm cách nào mô hình phù hợp với ngữ cảnh của mã hóa âm thoại? Xét các mẫu thoại
một cách riêng lẻ ứng với từng khung tín hiệu không chồng lên nhau. Ứng với từng đoạn
khung đủ ngắn, thuộc tính của tín hiệu về cơ bản là hằng số. Trong mỗi khung, các thông số
của mô hình được ước lượng từ các mẫu thoại, các thông số bao gồm:
ƒ Dạng: tín hiệu thuộc khung là thoại hay phi thoại
ƒ Độ lợi: liên quan chủ yếu đến mức năng lượng của khung
ƒ Hệ số lọc: định rõ đáp ứng của bộ lọc tổng hợp
ƒ Chu kỳ âm thanh: trong trường hợp đối với khung thoại, là chiều dài thời gian giữa
các xung kích thích liên tiếp nhau.

50
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

Quá trình ước


ư lượng thhông số đượcc thực hiện ứng
ứ với từngg khung, cácc kết quả chính là
các thô
ông tin của khung.
k Như vậy, thay vìì truyền các xung PCM, các thông sốố của mô hìnnh sẽ
được gửi
g đi. Để giảm
g thiểu nhiễu
n và sự m méo tín hiệuu, các bít truuyền được cấp
c phát theoo chỉ
định ứng
ứ với từng thông số, nhhư vậy, tỉ sốố nén tối ưu có
c thể đạt đư ược.

Khóa
trruyền âm/
cách âm
Chu kỳ Bộ tạo
cường độ chuỗi xunng Bộ lọc
Âm thoạii
ttổng hợp

Bộ tạo Các hệ số
C
T
Truyền âm Độ lợi
nhiễu trắnng bộ lọc

Hình 2.3.4 Mô hìnnh LPC tổngg hợp tiếng nói


n
Việc ước lượng
l các thhông số là nhhiệm vụ củaa bộ mã hóaa. Bộ giải mãã sẽ sử dụngg các
thông số ước lượnng này và dùn ng mô hình ttạo thoại để tổng hợp âm
m thoại.

Hìn
nh 2.3.5 Hìình vẽ các cáác khung phii thoại
Hình 2.3.55 mô tả mộột khung tínn hiệu phi thhoại có 1800 mẫu (sử dụngd bộ mãã hóa
FS10115). Các mẫu u nguyên thủủy được xử phân tích LP qua quá trrình tổng hợ ợp LPC dùngg cho
ổng hợp âm thoại dựa trrên mô hình hình 2.3.4. Tín hiệu củaa tín hiệu ngguyên thủy và
việc tổ v tín
hiệu sau khi tổng hợp tương đối
đ giống nhhau do mật độđ phổ côngg suất có dạn ng tương đư
ương,
được mô
m tả trong hình
h 2.3.6.
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

Hình 2.3.6 Sơ đồ của một khung âm thanh ph


H hi thoại, Hìnnh bên trái: tín hiệu ngguyên
thuỷ; Hình
H bên ph
hải: tín hiệu tổng hợp. Đ
Đường nét đứt
đ là giá trị mật độ phổ ổ công suất dùng
phươnng pháp dự đoán
đ LPC.

Hình 2.3.7 Sơ đồ khungg tín hiệu âm


H m thanh thoạại. Hình trênn: tín hiệu ngguyên thủy; Hình
dưới: tín
t hiệu tổngg hợp.

Hình 2.3.8 Sơ đồ của một


H m khung ââm thanh thooại, Hình bêên trái: tín hiiệu nguyên thuỷ;
t
Hình bên
b phải: tín
n hiệu tổng hợp.
h Đường nét đứt là giiá trị mật độ phổ công suuất dùng phư
ương
pháp dự
d đoán LPCC.
Chương 2 Kỹ thuật xử lý âm thanh

2.3.2.2 Cấu trúc của giải thuật dùng mô hình LPC


2.3.2.2.1 Bộ mã hóa (Encoder)
Hình 2.3.9 mô tả sơ đồ khối của bộ mã hóa. Tín hiệu thoại ngõ vào đầu tiên sẽ được
phân cắt thành các khung tín hiệu không chồng lên nhau. Bộ lọc đầu dùng để hiệu chỉnh phổ
của tín hiệu ngõ vào, bộ nhận dạng tiếng nói phân loại khung hiện tại đang xử lý là tín hiệu
thoại hay phi thoại và các ngõ ra một bit biểu thị trạng thái của âm thoại.
Tín hiệu ra của bộ lọc đầu được dùng để phân tích LP, mạch bao gồm mười LPC . Các
hệ số này sẽ được lượng tử hóa với các chỉ số được truyền như là thông tin của khung. Các
LPC được lượng tử hoá dùng để xây dựng bộ lọc dự đoán lỗi, dùng để lọc các tín hiệu âm
thanh từ bộ lọc đầu để có được tín hiệu dự đoán lỗi ở ngõ ra.

Hình 2.3.9 Sơ đồ khối của bộ mã hóa LPC


2.3.2.2.2 Tính toán công suất
Công suất của chuỗi lỗi dự đoán ứng với hai trường hợp khung thoại và khung phi
thoại là khác nhau. Ký hiệu chuỗi lỗi dự đoán là e[n] , n ∈ [0, N − 1] với N là chiều dài của
khung.
Trường hợp tín hiệu là phi thoại:
1 N −1
p=
N
∑ e [n]
n =0
2
(2.3.12)

Trường hợp tín hiệu là âm thoại, T là chu kỳ lớn nhất của tín hiệu thành phần
[ N T ]T −1
1
p=
[N T ]T ∑ e [n ]
n =0
2
(2.3.13)

Với [⋅] là hàm tính giá trị nhỏ hơn hoặc bằng với toán hạng. Giả sử rằng N > T thì việc
dùng [⋅] luôn đảm bảo rằng việc tính toán luôn nằm trong vùng biên của khung.

53
Chương 2 Kỹ thuật xử lý âm thanh

2.3.2.2.3 Bộ giải mã

Khối unpack
Chuỗi bit
Chỉ số chu kỳ Chỉ số Chỉ số
cường độ công suất LPC
Bộ giãi mã chu Bộ giải mã Bộ giãi mã
kỳ cường độ công suất LPC

Khối tạo xung Tính toán độ


huấn luyện lợi

Khóa Bộ lọc tổng


Khối tạo voiced/ hợp
nhiễu unvoiced

Tiếng nói
tổng hợp Khối
De-emphasis

Hình 2.3.10 Sơ đồ khối của bộ giải mã LPC


Hình 2.3.10 mô tả sơ đồ khối của bộ giải mã theo mô hình tạo âm LPC với các thông
số được điều khiển bởi luồng bit. Giả sử rằng của bộ tạo chuỗi xung tạo ra các xung có biên
độ đơn vị, trong khi bộ tạo nhiễu trắng có tín hiệu ngõ ra có biên độ khác đại lượng đơn vị.
Việc tính toán độ lợi được thực hiện như sau: Đối với tín hiệu là phi thoại, công suất
của tín hiệu của bộ lọc tổng hợp phải bằng với lỗi dự đoán của bộ mã hóa. Ký hiệu độ lợi là
g , ta có
g= p (2.3.14)
2.3.2.2.4 Giới hạn của mô hình LPC
Giới hạn 1: Trong một số trường hợp, một khung âm thanh có được phân loại là tín hiệu
dạng thoại hay phi thoại.
Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu nhiên hoặc hoàn toàn chuỗi xung có chu
kỳ tạo kích thích không phù hợp với thực tế là sử dụng tín hiệu âm thoại thực.
Giới hạn 3: Thông tin về pha của tín hiệu nguyên thủy không được xem xét.
Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi
xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi phạm
nền tảng của mô hình AR.

2.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI

2.4.1 Các phương pháp mã hoá


Dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất trong các dịch vụ cung cấp cho
khách hàng của các nhà khai thác di động ở Việt Nam cũng như trên thế giới. Để đảm bảo hỗ
trợ tốt khách hàng nhằm đạt được lợi thế cạnh tranh, các nhà khai thác di động cần hỗ trợ tốt

54
Chương 2 Kỹ thuật xử lý âm thanh

dịch vụ cơ bản này. Do đó, việc đánh giá các chỉ tiêu chất lượng chất lượng thoại có vai trò rất
quan trọng. Các phương thức đánh giá chất lượng thoại đã được nhiều tổ chức viễn thông
(như ITU,ETSI...) nghiên cứu, xây dựng. Trong phần này trình bày một số phương pháp đánh
giá chất lượng thoại, đặc biệt là cho mạng viễn thông (cố định, di động).
Việc đánh giá chất lượng thoại có vai trò rất quan trọng đối với các nhà khai thác
mạng thông tin di động và cố định. Vì thoại là dịch vụ thông tin cơ bản cho nên việc đảm bảo
cung cấp dịch vụ này với chất lượng ổn định là một yếu tố cạnh tranh của các nhà khai thác
mạng.
Phương pháp đánh giá chất lượng thoại đã được nhiều tổ chức tiêu chuẩn như ITU-T,
ETSI, 3GPP thực hiện chuẩn hóa. Giáo trình phân tích bản chất của một số phương pháp đánh
giá chất lượng thoại cơ bản: phương pháp đánh giá theo thang điểm MOS (Mean Opinion
Score) dựa trên khuyến nghị ITU-T P.800, các phương pháp đánh giá dựa trên mô hình giác
quan PSQM (Perceptual Speech Quality Measurement) theo khuyến nghị ITU-T P.861, PESQ
(Perceptual Evaluation of Speech Quality) theo khuyến nghị ITU-T P.862 và phương pháp
dựa trên mô hình đánh giá truyền dẫn E-model theo tiêu chuẩn ETR 250 của ETSI. Các
phương pháp này được so sánh về ưu nhược điểm và phạm vi ứng dụng.
2.4.2 Các tham số liên quan đến chất lượng thoại
Các tham số truyền dẫn cơ bản liên quan đến chất lượng thoại là:
ƒ Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness
Rating): OLR của hệ thống phải không được vượt quá giới hạn được định nghĩa trong
khuyến nghị G.111 của ITU-T. Các giá trị đánh giá tổn hao phía phát và thu (SLR và
RLR) đối với hệ thống GSM được đánh giá cho đến giao diện POI. Tuy nhiên, tham
số ảnh hưởng chính là đặc tính của MS gồm cả bộ chuyển đổi tương tự - số (ADC) và
số tương tự (DAC). Do vậy, thông thường, người ta đánh giá OLR của giao diện vô
tuyến.
ƒ Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc
hội thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín
hiệu thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree.
ƒ Tiếng vọng (echo).
ƒ Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu
thoại.
ƒ Các tính chất liên quan đến độ nhạy tần số.
ƒ Xuyên âm (sidetone loss).
ƒ Nhiễu nền...
2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản
Việc đánh giá chất lượng thoại trong mạng GSM cũng như các hệ thống thông tin
khác (cố định và vô tuyến) có thể được thực hiện bằng cách đánh giá các tham số truyền dẫn
có ảnh hưởng đến chất lượng thoại và xác định tác động của các tham số này đối với chất
lượng tổng thể. Tuy nhiên, việc đánh giá từng tham số rất phức tạp và tốn kém. Hiện nay, việc
đánh giá chất lượng thoại được dựa trên một tham số chất lượng tổng thể là MOS (Mean
Opinion Score). Những phương pháp sử dụng MOS đều mang tính chất chủ quan do chúng

55
Chương 2 Kỹ thuật xử lý âm thanh

phụ thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân chia các
phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản:
ƒ Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của người sử dụng
về mức chất lượng được thực hiện trong thời gian thực. Phương pháp này được quy
định trong khuyến nghị ITU-T P.800.
ƒ Các phương pháp đánh giá khách quan: sử dụng một số mô hình để ước lượng mức
chất lượng theo thang điểm MOS.
Phương pháp đánh giá khách quan có thể được phân thành:
a) Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền dẫn
với một tín hiệu chuẩn đã biết.
b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối
chất lượng tín hiệu thoại (phương pháp này không sử dụng các tín hiệu chuẩn đã biết);
vd: INMD (sử dụng trong khuyến nghị P.561 của ITU-T).
c) Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất
lượng thoại mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model.
Trên thực tế, các thiết bị đo có thể sử dụng kết hợp nhiều phương pháp đánh giá chất
lượng thoại. Tuy vậy, trong các phương pháp này thì phương pháp so sánh (hay còn gọi là
intrusive methods) có kết quả đánh giá chính xác nhất. Các phương pháp đánh giá các cũng có
thể được sử dụng cho một số ứng dụng đặc thù.

Hình 2.4.1 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp
so sánh, b) Các phương pháp ước lượng tuyệt đối, c) Các mô hình đánh giá truyền dẫn

56
Chương 2 Kỹ thuật xử lý âm thanh

2.4.3.1 Phương pháp đánh giá chủ quan (MOS)


Kỹ thuật này đánh giá chất lượng thoại sử dụng đối tượng là một số lượng lớn người
nghe, sử dụng phương pháp thống kê để tính điểm chất lượng. Điểm đánh giá bình quân của
nhiều người được tính là điểm Mean Opinion Scoring (MOS). Kỹ thuật thực hiện tính điểm
MOS được mô tả trong khuyến nghị P.800 của ITU. Khuyến nghị P.830 thể hiện các phương
pháp cụ thể để đánh giá chất lượng thoại cho các bộ mã hóa. Cả hai khuyến nghị ITU này mô
tả: phương thức đánh giá, cách tính điểm theo phương thức đánh giá chủ quan, giá trị của
điểm, tính chất của các mẫu thoại được sử dụng để đánh giá và các điều kiện khác mà việc
kiểm tra chất lượng được thực hiện.
Phương thức đánh giá theo MOS có thể được thực hiện theo các bài kiểm tra hội thoại
hai chiều hoặc bài nghe một chiều. Các bài kiểm tra nghe một chiều sử dụng các mẫu thoại
chuẩn. Người nghe nghe mẫu truyền qua một hệ thống và đánh giá chất lượng tổng thể của
mẫu dựa trên thang điểm cho trước. P.800 định nghĩa một số hình thức đánh giá chất lượng
thoại theo phương pháp chủ quan:
ƒ Bài kiểm tra hội thoại (Conversation Opinion Test).
ƒ Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test).
ƒ Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)).
ƒ Phương thức phân loại so sánh (Comparison Category Rating (CCR)).
Mỗi phương thức trên có một thang điểm đánh giá. Ví dụ: phương thức đánh giá hội
thoại và ACR đều có thang điểm tương tự gọi là điểm hội thoại và điểm chất lượng nghe.
Trong phương thức hội thoại, người nghe được hỏi về quan điểm của họ đối với kết nối đang
sử dụng. ACR hỏi chủ thể về chất lượng thoại. Thang điểm cho cả hai phương thức trên như
sau:
Điểm đánh giá Chất lượng thoại
5 Rất tốt
4 Tốt
3 Chấp nhận được
2 Tồi
1 Rất tồi
Đây là thang điểm từ 1-5 thông thường được sử dụng để tính MOS.
Ví dụ thứ hai là điểm nỗ lực nghe trong phương thức ACR (ACR Listening Effort
Score). Trong phương thức này, chủ thể được yêu cầu đánh giá nỗ lực của họ thực hiện để
hiểu ngữ nghĩa của các câu chuẩn sử dụng làm mẫu. Thang điểm được cho như sau:
Điểm đánh giá Mức độ cố gắng cần thực hiện để hiểu câu
5 Không cần cố gắng
4 Cần chú ý nhưng không cần cố gắng nhiều
3 Cần tương đối tập trung
2 Cần tập trung
1 Không hiểu câu mẫu

57
Chương 2 Kỹ thuật xử lý âm thanh

Hiển nhiên, các phương thức cho điểm theo MOS có một số nhược điểm như sau:
ƒ Phương thức này mang tính chất chủ quan vì kết quả phụ thuộc vào nhiều yếu tố không
thể kiểm soát của chủ thể như: trạng thái tâm lý, thái độ đối với bài kiểm tra và trình độ
văn hóa. Trên thực tế, phương thức đánh giá chất lượng thoại theo thang điểm MOS
không phải là phương thức nhất quán.
ƒ Phương thức này rất tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp.
ƒ Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương
pháp đánh giá chất lượng này là không thực tế.
Những hạn chế của phương pháp đánh giá chất lượng thoại dựa trên MOS cho thấy
cần có một phương thức đánh giá khách quan, phương pháp này có thể thực hiện một cách tự
động để đánh giá chất lượng thoại.

2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan
2.4.3.2.1 Phương pháp PSQM
PSQM là kỹ thuật đánh giá chất lượng thoại được phát triển bởi John G. Beerends và
J. A. Stemerdink thuộc Trung tâm nghiên cứu KPN ở Hà Lan. Trong khoảng từ 1993-1996,
nhiều kỹ thuật đánh giá chất lượng thoại đã được ITU so sánh để xác định kỹ thuật có độ
chính cao nhất (ước lượng gần nhất với phương pháp đánh giá chủ quan). Theo ITU, PSQM
là kỹ thuật đánh giá chất lượng thoại có tương quan lớn nhất với các kết quả theo phương
pháp đánh giá chủ quan. PSQM sau đó đã được ITU-T Study Group 12 thông qua và đã được
công bố trong khuyến nghị P.861 năm 1996. Kỹ thuật này đã được sử dụng rộng rãi và thể
hiện độ chính xác tương đối cao.
PSQM là một phương pháp tính toán nhằm ước lượng chất lượng thoại theo kết quả
của phương pháp đánh giá chủ quan theo khuyến nghị P.830 (MOS). Tuy nhiên, PSQM tính
theo thang điểm khác so với MOS. Điểm PSQM thể hiện độ lệch giữa tín hiệu chuẩn và tín
hiệu truyền dẫn.
PSQM được thiết kế để sử dụng cho tín hiệu thoại (300-3400 Hz) qua các bộ mã hóa
thoại. Phương thức này được sử dụng để đo tổn hao của các bộ mã hóa thoại này dựa trên các
thông số nhận thức của con người. Phương thức này sử dụng hiệu quả đối với các bộ mã hóa
thoại tốc độ thấp. Việc xử lý trong phương thức PSQM được thể hiện trên hình 2.4.2
Để thực hiện phép đo PSQM, một mẫu tiếng nói được đưa vào hệ thống và được xử lý
bởi một bộ mã hóa thoại bất kỳ. Những tính chất của tín hiệu vào giống như của các tín hiệu
sử dụng cho phép đánh giá MOS được định nghĩa trong chuẩn ITU P.830.
Các tín hiệu vào có thể là mẫu tiếng nói thật hoặc tiếng nói nhân tạo theo khuyến nghị
ITU P.50. ITU-T khuyến nghị tín hiệu vào được lọc theo modified IRS (Intermediate
Reference System trong khuyến nghị ITU P.48) có những tính chất được định nghĩa trong phụ
lục của D/P.830. Nó mô phỏng đặc tính tần số của máy điện thoại đầu cuối.
Khi nhận được, tín hiệu ra được ghi lại. Sau đó, nó được đồng bộ về mặt thời gian với
tín hiệu vào. Hai tín hiệu này được thực hiện so sánh bởi các thuật toán PSQM. So sánh được

58
Chương 2 Kỹ thuật xử lý âm thanh

thực hiện theo từng phân đoạn thời gian (khung thời gian) trong miền tần số (được biết đến là
các phần tử thời gian - tần số) hoạt động dựa trên các tham số lấy từ mật độ phổ công suất của
tín hiệu vào và ra của các phần tử thời gian - tần số. Việc so sánh dựa trên các tham số nhận
thức của con người như: tần số và độ nhạy âm lượng (không chỉ phụ thuộc vào Mật độ phổ
công suất - Spectral Power Densities (SPD)).
Điểm PSQM nằm trong dải từ 0 đến vô cùng. Điểm số này thể hiện độ lệch về mặt
cảm nhận giữa tín hiệu ra và tín hiệu vào. VD: điểm 0 thể hiện tín hiệu ra và tín hiệu vào hoàn
toàn trùng khớp, đánh giá là mức chất lượng hoàn hảo. Điểm PSQM càng cao thì thể hiện
mức tổn hao càng lớn và đánh giá là mức chất lượng thấp. Trên thực tế, giới hạn trên đối với
thang điểm PSQM trong khoảng từ 15-20.

Hình 2.4.2 Phương thức đánh giá chất lượng thoại PSQM
2.4.3.2.2 Phương pháp PESQ
PESQ là phương pháp đánh giá chất lượng thoại so sánh; phương pháp này được mô
tả trong khuyến nghị ITU-T P.862 được sử dụng thay thế cho khuyến nghị ITU-T P.861.
PESQ so sánh tín hiệu gốc X(t) với tín hiệu suy giảm Y(t) là kết quả của việc truyền
tín hiệu X(t) qua hệ thống thông tin. Đầu ra của PESQ là một ước lượng về chất lượng thoại
nhận được của tín hiệu Y(t).
Trong bước đầu tiên của PESQ, một loạt các trễ tín hiệu giữa tín hiệu vào ban đầu và
tín hiệu ra được xác định; mỗi giá trị trễ được tính cho một khoảng thời gian mà có sự khác
biệt về độ trễ so với phân đoạn thời gian trước đó. Ứng với mỗi phân đoạn thời gian, điểm bắt
đầu và kết thúc được xác định. Một thuật toán sắp xếp dựa trên nguyên tắc so sánh giữa khả
năng có hai trễ trong một đoạn thời gian với khả năng có một trễ trong đoạn thời gian đó.
Thuật toán này có thể xử lý thay đổi về trễ trong cả khoảng lặng và trong thời gian tích cực
thoại. Dựa trên tập các trễ đã xác định được, PESQ so sánh tín hiệu vào ban đầu với tín hiệu
ra đã được sắp xếp bằng cách sử dụng một mô hình giác quan. Điểm mấu chốt của quá trình
này là chuyển đổi cả tín hiệu gốc và tín hiệu đã bị suy giảm thành dạng biểu diễn của tín hiệu
âm thanh trong hệ thống thính giác của con người có tính đến tần số thính giác và cường độ
âm. Quá trình này được thực hiện theo nhiều giai đoạn: sắp xếp về mặt thời gian, sắp xếp mức
tín hiệu về mức tín hiệu nghe đã được căn chỉnh, ánh xạ thời gian - tần số, frequency warping
và căn chỉnh cường độ âm.
Trong PESQ, hai tham số lỗi được tính toán trong mô hình kinh nghiệm; chúng được
kết hợp lại để ước lượng điểm MOS.
Một mô hình máy tính của chủ thể bao gồm mô hình giác quan và mô hình kinh
nghiệm được sử dụng để so sánh tín hiệu đầu ra với tín hiệu gốc sử dụng các thông tin sắp xếp

59
Chương 2 Kỹ thuật xử lý âm thanh

lấy được từ các tín hiệu định thời trong môđun sắp xếp định thời.

Hình 2.4.3 Mô tả phương pháp đánh giá chất lượng thoại PESQ
Phương pháp PESQ là có thể sử dụng không chỉ để đánh giá các bộ mã hóa thoại mà
còn để đánh giá chất lượng thoại đầu cuối đến đầu cuối. Các hệ thống thông tin trên thực tế có
thể bị ảnh hưởng của nhiều khâu lọc, trễ khả biến và các tổn hao do lỗi kênh truyền dẫn và
việc sử dụng các bộ codec tốc độ thấp. Phương pháp PSQM được mô tả trong khuyến nghị
ITU-T P.861 chỉ được khuyến nghị sử dụng để đánh giá các bộ codec thoại mà không tính đến
các yếu tố như lọc, trễ khả biến ... PESQ tính đến các yếu tố này nhờ sử dụng cân bằng hàm
truyền dẫn, sắp xếp định thời, và một thuật toán mới để thực hiện xác định tổn hao trung bình.
PESQ đã được kiểm tra trong điều kiện kết hợp nhiều yếu tố như: lọc, trễ khả biến, tổn hao
mã hóa và lỗi kênh truyền dẫn. Phương pháp này được khuyến nghị sử dụng thay thế cho
PSQM để đánh giá chất lượng thoại từ đầu cuối đến đầu cuối.
2.4.3.2.3 Mô hình đánh giá truyền dẫn E-Model
E-model (tham khảo ETR 250, EG 201 050 và khuyến nghị ITU-T G.107) được sử
dụng làm một công cụ để quy hoạch truyền dẫn trong các mạng điện thoại. Nó hỗ trợ việc
ước lượng chất lượng tín hiệu thoại từ một kết hợp của nhiều yếu tố can nhiễu. E-model
khác so với các phương pháp đánh giá chất lượng đã phân tích ở trên:
ƒ Đây không phải là một công cụ đo mà là một công cụ quy hoạch mặc dù nó có thể sử
dụng kết hợp với các phép đo.
ƒ model này ước lượng chất lượng thoại hai chiều và tính đến các yếu tố như: tiếng vọng,
trễ ...
Đầu vào của E-model bao gồm các tham số được sử dụng tại thời điểm quy hoạch.
Lưu ý rằng việc quy hoạch có thể được thực hiện trước và sau khi triển khai mạng. E-model
có tính đến các tham số như: nhiễu, trễ, tiếng vọng và tính chất của thiết bị đầu cuối mà đã
được chuẩn hóa hoặc đã được xác định, có thể đo được. Ngoài ra, E-model xác định trọng số

60
Chương 2 Kỹ thuật xử lý âm thanh

đối với ảnh hưởng của thiết bị số hiện đại (các bộ codec tốc độ thấp, các bộ ghép kênh ...) đến
chất lượng truyền dẫn. Trong nhiều trường hợp, số lượng và chủng loại các thiết bị này được
xác định tại thời điểm quy hoạch.
E-model dựa trên giả thiết là các tổn hao truyền dẫn có thể được chuyển đổi thành
"psychological factors" và các hệ số này có tính cộng dồn trên một "psychological scale". Nói
cách khác, nhận thức chủ quan về chất lượng thoại được coi như là tổng hợp của các tổn hao
truyền dẫn.
E-model đầu tiên thực hiện tính toán một "giá trị gốc" về chất lượng (giá trị này được
xác định từ nhiễu trên mạng). Mỗi tổn hao thêm vào được biểu diễn dưới dạng một giá trị tổn
hao. Kết quả của phép trừ giá trị gốc với các giá trị tổn hao thể hiện ước lượng chất lượng
thoại cho một mạng cụ thể. Cuối cùng, kết quả chất lượng thoại thu được được sử dụng để
ước tính tỷ lệ thuê bao đánh giá chất lượng là tốt hay tồi. Cụ thể, E-model tính một hệ số đánh
giá truyền dẫn R như sau:
R = Ro - Is - Id - Ie + A (2.4.1)
Hệ số này bao gồm: giá trị gốc Ro, các tổn hao Is, Id và Ie và một hệ số thuận lợi
(Advantage factor) như sau:
ƒ Ro mô tả tỷ số tín hiệu trên nhiễu (SNR) của kết nối. Nó bao gồm tạp âm trong mạng,
trong môi trường phía người nói và người nghe và ảnh hưởng của tạp âm tại phía người
nghe, SNR được coi là một tham số biểu diễn chất lượng cơ bản.
ƒ Is thể hiện các tổn hao nhất thời bao gồm: mức cường độ âm, mức xuyên âm vượt quá
phạm vi cho phép và tổn hao lượng tử (mã hóa PCM).
ƒ Id chứa các tổn hao do trễ và tiếng vọng.
ƒ Ie bao gồm các tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp).
ƒ A cho phép điều chỉnh chất lượng trong những trường hợp đặc biệt nhờ thêm vào các
yếu tố phi kỹ thuật để đánh giá chất lượng.
Cuối cùng, E-model sử dụng một ánh xạ phi tuyến tính để chuyển giá trị R thành giá
trị MOS tương đương.
Như vậy, E-model cho phép xác định chất lượng thoại nhờ phân tích tác động của
nhiều tham số truyền dẫn. Nhờ đó có thể đánh giá ảnh hưởng của các tham số này đối với
mức chất lượng tổng thể.
2.4.3.2.4 Kết luận
Phần 2.4.3.2 đã phân tích các phương pháp đánh giá chất lượng có thể sử dụng để
đánh giá chất lượng thoại trong mạng GSM. Như đã phân tích ở trên, điểm MOS là chỉ tiêu
chất lượng tổng thể được sử dụng để đánh giá chất lượng thoại. Phương pháp đánh giá chủ
quan sử dụng số liệu vào là nhận xét của khách hàng về mức chất lượng từ đó tính toán ra
điểm đánh giá bình quân MOS. Các phương pháp đánh giá khách quan sử dụng các mô hình
tính toán để ước lượng ra mức chất lượng quy đổi về MOS.
Dựa trên những ưu nhược điểm và phạm vi ứng dụng của các phương pháp này, để sử
dụng đánh giá chất lượng thoại cho mạng GSM của VNPT có thể sử dụng các phương pháp
đánh giá như sau:
ƒ Sử dụng PESQ để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối.

61
Chương 2 Kỹ thuật xử lý âm thanh

ƒ Mô hình đánh giá E-Model có thể được sử dụng để phân tích hệ thống nhằm xác định
các yếu tố ảnh hưởng đến chất lượng thoại.
ƒ Ngoài ra, nếu có điều kiện có thể sử dụng kết hợp phương pháp đánh giá chủ quan để
kiểm chứng lại việc đánh giá theo PESQ.

2.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI

2.5.1 Mô hình thời gian động


2.5.1.1 Tổng quan
Nhận dạng tiếng nói tự động (Automatic speech recognition-ASR) là một lãnh vực
nghiên cứu quan trọng và có nhiều ứng dụng trên thực tế, dựa trên việc lưu trữ một hay nhiều
mẫu âm thanh (template) ứng với từng từ trong bảng từ vựng nhận dạng. Quá trình nhận dạng
thực hiện việc so trùng tiếng nói nhận được với các mẫu lưu trữ. Các mẫu có khoảng cách đo
lường thấp nhất so với mẫu tiếng nói nhận được chính là từ được nhận dạng. Giải thuật dùng
để tìm được sự tương thích tốt nhất là dựa trên lập trình động (Dynamic Programming - DP),
và một trong các giải thuật là giải thuật mô hình thời gian động (Dynamic Time Warping-
DTW).
Để có thể nắm bắt được kiến thức về DTW một cách nhanh chóng, có hai khái niệm
cần làm rõ
→ Điểm đặc trưng: là thông tin của từng tín hiệu được biểu diễn dưới dạng nào đó.
→ Sai biệt: dạng đo lường nào đó được dùng để tính toán được sự tương thích, có hai
dạng:
1. Cục bộ: độ tính toán sai biệt giữa điểm đặc trưng của một tín hiệu một tín
hiệu khác.
2. Toàn cục: độ tính toán sai biệt tổng giữa một tín hiệu tổng với một tín hiệu
khác có thể có sai biệt.
Việc phân tích điểm đặc trưng bao gồm việc tính toán vector đặc trưng với khoảng
thời gian thông thường. Đối với việc phân tích dự đoán tuyến tính, vector đặc trung bao gồm
việc tính toán các hệ số dự đoán (hoặc các phép biến đổi giữa chúng). Một loại vector đặc
trưng thôngdụng dùng trong nhận dạng tiếng nói là Mel Frequency Cepstral Coefficients
(MFCCs).
Vì các vector đặc trưng có thể có nhiều phần tử phức tạp, nên giá trị trung bình của
việc tính toán cần được thiết lập. Phép đo sai biệt giữa hai vector đặc trưng được tính toán
bằng đơn vị theo hệ Euclidean. Như vậy độ sai biệt cục bộ giữa vector đặc trưng x của tín
hiệu một và vector đặc trưng y của tín hiệu hai được cho bởi

d ( x, y ) = ∑ (x − y )
2
i i (2.5.1)
i

Mặc dù sử dụng hệ đơn vị Euclidean cho việc tính toán sẽ tăng độ phức tạp hơn so với
các hệ đo lường khác, nhưng nó lại cho tác dụng nhiều hơn với độ sai biệt lớn đối với một đặc
trưng đơn. Nếu như việc quay lui trong quá trình tìm kiếm sự tương thích nhất cần thiết thì
một dãy có nhiệm vụ lưu trữ các entry trước đó trong quá trình xử lý tìm kiếm, được gọi là
backtrace array.

62
Chương 2 Kỹ thuật xử lý âm thanh

2.5.1.2 Giải thuật DTW đối xứng


Tiếng nói là một quá trình phụ thuộc vào thời gian. Tiếng nói có nhiều âm tiết tương
tự nhau nhưng với khoảng thời gian phát âm khác nhau, hoặc có âm tiết đồng âm nhưng khác
ở chỗ nhấn âm, v.v… Để phân tích được sự sai biệt toàn cụ giữa hai mẫu tiếng nói (đại diện
bởi một chuỗi các vector), vấn đề về thời gian phải được xem xét.
Bài toán được mô tả ở hình 2.5.1, mô tả một ma trận hai chiều theo thời gian sử dụng
cho việc canh chỉnh theo thời gian. Cột là mô tả cho tiếng nói mẫu (template) và dòng là tiếng
nói thu được cần nhận dạng. Trong hình minh họa, tín hiệu vào “SsPEEhH” được xem là một
dạng “nhiễu” của tiếng nói mẫu. Tín hiệu vào này sẽ được so sánh trùng với tất cả các mẫu
tiếng nói được lưu trữ trong hệ thống. Mẫu có độ tương thích tốt nhất sẽ có độ sai biệt nhỏ
nhất so với tín hiệu vào cần so sánh. Giá trị độ sai biệt toàn cục là tổng các sai biệt cục bộ của
việc so sánh.

Hình 2.5.1 Mô tả canh chỉnh thời gian giữa mẫu tiếng nói “SPEECH” và tín hiệu tiếng
nói đầu vào “SsPEEhH”
Làm cách nào để có thể tính được độ tương thích tốt nhất (có giá trị độ sai biệt toàn
cục nhỏ nhất) giữa tín hiệu cần so sánh và tiếng nói mẫu? Việc này được thực hiện bằng cách
ước lượng tất cả khoảng cách có thể có, nhưng cách này không hiệu quả khi số lượng khoảng
cách có dạng hàm mũ theo chiều dài của tín hiệu ngõ vào. Thay vào đó, ta xem xét những
ràng buộc tồn tại trong quá trình so trùng (hoặc có thể áp đặt các ràng buộc này) và dùng
những ràng buộc này để có được giải thuật hiệu quả hơn. Các ràng buộc được thiết lập phải
không phức tạp và cũng không hạn chế nhiều, như:
→ Các khoảng cách so trùng không thể thực hiện việc đi lui;
→ Mọi khung của tín hiệu cần so trùng phải được dùng trong quá trình so trùng;
→ Các giá trị sai biệt cục bộ được kết hợp bằng phương pháp cộng dồn vào giá trị sai
biệt toàn cục.
Mọi khung trong tín hiệu cần so trùng với mẫu tiếng nói được xem xét ứng với từng
tính toán độ sai biệt. Nếu thời điểm đang xét là (i, j ) , với i là chỉ số của khung tín hiệu ngõ
vào, j là của khung tiếng nói mẫu, thì các vị trí trước đó là (i − 1, j − 1), (i − 1, j ) , (i, j − 1) .
Ý tưởng chính của lập trình động là tại vị trí (i, j ) , việc tính toán dự trên độ sai biệt nhỏ nhất
của các vị trí (i − 1, j − 1), (i − 1, j ) , (i, j − 1) .

63
Chương 2 Kỹ thuật xử lý âm thanh

Giải thuật lập trình động thực hiện cần phải đồng bộ thời gian: mỗi cột của ma trận
thời gian-thời gian được xem như là một sự kế vị các tính toán trước đó, do đó, ứng với một
mẫu tiếng nói có chiều dài N , số lượng bước so trùng tối đa là N .
Gọi D (i, j ) , d (i , j ) tương ứng là độ sai biệt toàn cục và độ sai biệt cục bộ tại vị trí
(i, j ) .
D (i , j ) = min [D (i − 1, j − 1), D (i − 1, j ), D (i , j − 1) ] + d (i , j ) (2.5.2)
Với D (1,1) = d (1,1) là giá trị khởi tạo ban đầu, giải thuật ứng dụng đệ qui vào việc
tính toán các độ sai biệt tại D (i, j ) . Giá trị cuối D ( n , N ) chính là giá trị chênh lệch giữa
template và tín hiệu cần so sánh, lưu ý rằng N sẽ khác nhau ứng với mỗi template.
Đối với việc nhận dạng tiếng nói, giải thuật DP không cần phải chạy trên các máy tính
có bộ nhớ lớn, việc lưu trữ được thực hiện bởi một array, lưu giữa từng cột đơn trong ma trận
thời gian-thời gian. Ma trận có vị trí đầu tiên có giá trị là 0, như vậy chỉ những hướng di
chuyển trong ma trận được mô tả ở hình 2.5.2 mới có thể xuất phát từ vị trí (i, j ) .

Hình 2.5.2 Ba hướng có độ tương thích tốt nhất có thể đi đến từ ô (i, j ) trong giải thuật
DTW đối xứng.
Phương trình (2.5.2) được thực hiện bằng phương pháp đệ quy. Tuy nhiên, trừ khi
ngôn ngữ đã được tối ưu cho việc đệ quy, phương pháp này có thể tốn nhiều thời gian ngay cả
đối với những tín hiệu cần so sánh có kích thước nhỏ. Một phương pháp khác có thể cải tiến
được tốc độ xử lý cũng như cần bộ nhớ thực thi nhỏ hơn là dùng hai vòng lặp, sử dụng hai
array để lưu trữ các cột kề với ma trận thời gian-thời gian.

Hình 2.5.3 Vị trí ô (i, j ) và (i,0) có các ô định hướng khác nhau. Từ (i,0) chỉ có thể đi
từ ô (i − 1,0) . Tuy nhiên tại ô (i, j ) thì có thể đi đến 3 ô như mặc định.

64
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

G thuật tìm
Giải m chi phí toàn cục nhỏ nhất:
n
1. Tính tại cộột 0, bắt đầuu từ đáy của ô. Giá trị chhi phí toàn cụ của ô bằnng giá trị chhi phí
cục bộ. Sauu đó, tính toán giá trị chi phí toàn cụ
ục của các ô có khả năngg cho được giá
g trị
thấp bằng cách lấy giáá trị chi phí cục bộ của ô cộng thêm m cho giá trrị toàn cục của
c ô
ngay dưới đó, ô này đư ược gọi là prredCol (preddecessor coluumn).
2. Tính giá trrị chi phí toààn cục của ô đầu tiên củaa cột kế tiếp là curCol. Giá
G trị cục bộộ của
ô cộng thêm m cho giá trị toàn cục củủa ô phía dư
ưới cùng của cột trước nó ó.
3. Tính giá trrị toàn cục củủa các ô cònn lại của curC
Col.
4. curCol đượ
ợc định là prredCol và lặpp lại bước 2 cho đến khii tất cả các cộột được tínhh toán
xong.
5. Giá trị chi phí toàn cụcc tại vị trí cộột cuối cùng, dòng trên cụục là giá trị cần tìm.
M giải của quá trình nh
Mã hư sau:

22.5.1.3 Giải thuật DTWW bất đối xứnng


Mặc dù giải thuật cơ bản
b DP có ư đ xứng ( tấất cả các khhung của tín hiệu
ưu điểm là đối
cần so
o trùng và mẫu
m tiếng nói cần tham khhảo được xeem xét), tuy nhiên giải th huật vẫn cònn yếu
điểm là
l tại các vị trí
t cột và hàn ng lệ thuộc vào
v các vị tríí đường chéoo có thể sinh
h lỗi.
Một cách để ực hiện việc dùng d (i , j ) hai lần troong mỗi bướ
đ tránh việc này là thự ớc tại
vị trí đường
đ b lỗi tại cácc vị trí cột vvà hàng, gọi giá trị lỗi cô lập
chéo,, điều này dẫẫn đến loại bỏ
d h , d v tương ứngg cho các bước di chuyểnn theo hàng và cột. Phươơng trình (1)) sẽ trở thànhh
m [D (i − 1, j − 1) + 2d (i, j ), D (i − 1, j ) + d (i + j ) + d h , D (i, j −11) + d (i, j ) + d v ]
D (i, j ) = min
(2.5.3))
V giá trị d h , d v có đư
Với ược qua thựcc nghiệm
Các ràng buộc trong việc nhảy đến ccác ô kế tiếpp:
C
→ (i − 1, j − 2) đến vị
v trí (i, j ) - gọi là đườngg chéo mở rộộng (độ đốc là 2)
→ (i − 1, j − 1) đến vịị trí (i, j ) - ggọi là đừongg chéo chuẩnn (độ dốc là 1)
→ (i − 1, j ) đến vị trí (i, j ) - gọi là đường ng
gang (độ dốc là 0)
Giả sử rằnng mỗi khunng của tín hiệệu ngõ vào chỉ được xéét đến một lầần duy nhất,, như
vậy taa có thể khônng xét đến việc
v chuẩn hóa
h độ dài của c mẫu tiếnng nói. Do việc v tính toáán tại
từng ô khác nhau nên
n giải thuậật được gọi llà giải thuật lập trình độnng bất đối xứ
ứng.
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

H
Hình 2.5.4 Ba hướng có giá trị soo trùng tốt nhất
n có thể đi đến từ ô (i, j ) trongg giải
thuật DTW
D bất đối xứng.

H
Hình 2.5.5 Các vị trí ô tại (i, j ) , (i,0) và (i,1) có các ô đđịnh hướng khác
k nhau. Tại
T ô
c có thể đii đến ô (i − 1,0) ; tại ô (i,1) có thể đii đến (i − 1,1) hoặc (i − 1,0) ; tại ô (i, j )
(i,0) chỉ
có thể đi đến các vị
v trí chuẩn.

Hình 2.5.6 Vùng tô mààu mô tả vùùng mà các hướng


H h di chhuyển khôngg bao giờ đi đến.
Các hìình chữ nhậtt mô tả là cáác trường hợợp đặc biệt. Trong
T giải thuật
t DTW đối
đ xứng, dòòng 0
là trườ
ờng hợp đặcc biệt, còn trrong giải thuuật DTW bấất đối xứng, dòng 1 đượợc xử lý khácc với
các trư
ường hợp còn lại.
Các trườngg hợp đặc biiệt thường xxảy ra tại vị trí j = 2i − 1 , và j = 2i , giá trị chhi phí
toàn cụục cho từng trường hợp được tính nhhư sau:
t vị trí prredCol [ j − 1] và
→ 2i − 1 : chii phí cục bộộ + giá trị nhỏ nhất tại
predCol [ j − 2]
→ 2i : chi phí cục bộ + giáá trị nhỏ nhấất tại vị trí predCol
p [ j − 2]
Mã giải củủa quá trình như
n sau:
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

G trị chi ph
Giá hí nhỏ nhất là ng highestJ
l cột cuối ccùng lưu tron

2.5.2 Mô hình chuỗi mark


kov ẩn
22.5.2.1 Tổngg quan
Mô hình Markov
M ẩn (H
Hidden Markkov Model - HMM) đư ược sử dụng trong việc thhống
kê môô hình tạo âm
m thoại. Tín nh hiệu quả của
c mô hình h được thể hiện
h trong viiệc có thể mô
m tả
đặc điểm của tín hiệu
h âm thoạại theo dạng toán
t học dễ dàng cho việệc xử lý tín hiệu.
h
Các trạng thái của HMMM có đượcc trước khi thực
t hiện việệc xử lý cácc trạng thái ((trích
các thôông số). Như
ư thế, ngõ vàào của HMM
M chính là chhuỗi các thônng số vectorr rời rạc theoo thời
gian.
22.5.2.2 Địnhh nghĩa mô h hình Marko ov ẩn
Mô hình Markov
M ẩn làà một tập cácc trạng thái hữu hạn, màà mỗi trạng thái có liên quan
đến hààm phân phốối xác suất. Việc
V chuyển tiếp giữa cáác trạng thái được định nghĩa
n bởi mộột tập
xác su
uất được gọi là xác suất chuyển
c tiếp (transition probability).
p Trong một trạng thái cụụ thể,
kết quuả có thể đư
ược tạo ra dự ựa trên hàm phân phối xác x suất tươ ơng ứng. Kếết quả này không
k
phải làà một trạng thái có thể nhìn
n thấy đư
ược thông qua
q việc quann sát các trạạng thái, choo nên
được gọi
g là mô hìn nh Markov ẩn. ẩ
T
Trong mô hìình Markov ẩn, các ký hhiệu sau đây được sử dụnng
- Số lượng trrạng thái củaa mô hình, N .
- Số lượng ký n sát theo thhứ tự, M . Nếu
k hiệu quan N việc quann sát là liên tục thì có giá
g trị
M là vô hạn
h
- { }
Tập các trạạng thái xác suất chuyểnn tiếp Λ = aij

aij = p{qt +1 = j qt = i}, 1 ≤ i, j ≤ N với qt là trạng tháái hiện tại.


Chương 2 Kỹ thuật xử lý âm thanh

- Xác suất trạng thái chuyển tiếp phải thỏa mãn ràng buộc trực giao sau
N
aij ≥ 0, 1 ≤ i, j ≤ N và ∑a
j =1
ij =1 , 1≤ i ≤ N

- Hàm phân phối xác suất của mỗi trạng thái B = b j (k ) { }


b j ( k ) = p{at = vk qt = j}, 1 ≤ j ≤ N, 1 ≤ k ≤ M với v k định nghĩa cho ký
hiệu quan sát thứ k theo thứ tự alphabet, và at là vector thông số hiện tại. Điều kiện
M
b j ( k ) ≥ 0, 1 ≤ j ≤ N , 1 ≤ k ≤ M và ∑ b (k ) = 1,
k =1
j 1≤ j ≤ N

- Nếu việc quan sát là liên tục thì phải dùng hàm mật độ xác suất liên tục thay cho xác
suất rời rạc. Trong trường hợp này, các thông số của hàm mật độ xác suất liên tục phải
được định rã. Thông thường mật độ xác suất xấp xỉ với trọng số tổng M của phân bố
Gaussian Ν
M
- b j (at ) = ∑ c jm Ν(μ jm , Σ jm , at ) với
m =1

- c jm = hệ số trọng số
- μ jm = vector trung bình
- Σ jm = ma trận đồng biến
c jm thỏa các điều kiện c jm ≥ 0, 1 ≤ j ≤ N, 1≤ m ≤ M và
M

∑c
m =1
jm = 1, 1≤ j ≤ N

- Trạng thái ban đầu của hàm phân phối π = {π i } với π i = p{qi = i}, 1≤ i ≤ N
Ký hiệu λ = (Λ , B , π ) dùng cho HMM với hàm phân phối xác suất rời rạc, và
λ = (Λ , c jm , μ jm , Σ jm , π ) dùng cho HMM với hàm mật độ xác suất liên tục
Một số ứng dụng mô hình Markov ẩn trong thực tiễn là:
- Ứng dụng HMM trong việc nhận dạng âm thoại cô lập
- Ứng dụng HMM trong việc nhận dạng âm thoại liên tục
- Ứng dụng HMM trong việc xử lý cấu trúc đa cấp độ cho văn phạm tiếng Anh
- Ứng dụng HMM trong học bản thảo viết tay
2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục
Trong chế độ cô lập, ta sử dụng một HMM cho từng đơn vị âm thoại, còn trong
trường hợp nhận dạng liên tục, hệ thống cần nhận dạng một chuỗi các âm đơn vị kết nối lại
với nhau, đôi khi cần nhận diện cả một câu, hoặc nhiều câu. Khi đó số lượng câu có thể rất
lớn. Phương pháp thực hiện cũng tương tự như trong nhận dạng âm thoại cô lập, bao gồm hai
bước huấn luyện và nhận dạng. Bước huấn luyện có thể dùng hoặc là tiêu chuẩn MMI hoặc là
ML, và bước nhận dạng có thế sử dụng các phương pháp như nhận dạng trên cơ sở Veterbi,
xây dựng cấp độ, tìm kiếm N-tốt nhất và tính toán hiệu suất bộ nhận dạng.

68
Chương 2 Kỹ thuật xử lý âm thanh

2.5.3 Mạng nơron


2.5.3.1 Tổng quan
Mạng neural nhân tạo (Artificial Neural Network - ANN) là một mô hình xử lý thông
tin dựa trên cơ chế hoạt động của hệ thống thần kinh sinh học, như não bộ. Thành phần chính
yếu của mô hình này là cấu trúc đặc biệt của hệ thống này. Nó tập hợp một số lượng lớn các
phần tử xử lý kết hợp nội tại (được gọi là các neuron) hoạt động hợp nhất để giải quyết các
bài toán cụ thể. Một ANN sẽ được cấu hình cho một ứng dụng cụ thể nào đó, ví dụ như nhận
dạng mô hình hoặc phân loại dữ liệu thông qua quá trình học. Việc học trong hệ thống nhằm
mục đích điều chỉnh các kết nối thuộc kỳ tiếp hợp được phân chia trong tế bào mà đã có sẵn
giữa các neuron.
Neuron nhân tạo đầu tiên được tạo ra vào năm 1943 bởi nhà nghiên cứu neuron học
Warren McCulloch và nhà logic học Walter Pits. Nhưng kỹ thuật thời đó không cho phép
neuron phát triển được các thế mạnh của nó. Mạng neuron này nay có nhiều cải tiến cũng như
đáp ứng được các yêu cầu đặt ra của các bài toán, một số ưu điểm của mạng neuron ngày nay
so với thời trước là:
1. Học thích ứng: có khả năng học cách thức thực hiện công việc dựa trên các dữ liệu
cho sẵn trong quá trình huấn luyện hoặc định các thông số ban đầu
2. Khả năng tự tổ chức: một ANN có thể tự thân tổ chức hoặc miêu tả các thông tin mà
nó nhận được trong suốt thời gian học
3. Hiệu chỉnh lỗi thông qua mã hóa thông tin dư thừa: có thể hủy một phần mạng làm
cho hiệu suất hệ thống giảm. Tuy nhiên, một số mạng có khả năng nhớ được phần
mạng đã hủy.
2.5.3.2 Phương pháp học của não người
Trong não người, một neuron sẽ thực hiện nhiệm vụ thu thập các tín hiệu từ các
neuron khác thông qua các cấu trúc thần kinh phức tạp được gọi là dạng cây. Neuron gửi các
hoạt động điện thông qua sợ mỏng, dài, gọi là sợi trục thần kinh axon, được phân chia thành
hàng ngàn nhánh nhỏ. Tại cuối mỗi nhánh, một cấu trúc được gọi là khớp thần kinh synapse
sẽ chuyển đổi các hoạt động từ axon thành các hiệu ứng điện thực hiện việc ức chế hoặc kích
thích hoặc động này đối với các neuron kết nối tới nhánh. Khi một neuron nhận được tín hiệu
kích thích đầu vào có mức độ so sánh tương đối lớn so với tín hiệu cấm ngõ vào, neuron sẽ
gửi một gai điện đến axon của nó. Việc học xảy ra theo cách thức thay đổi hiệu lực của khớp
thần kinh dẫn đến việc truyền thông tin từ một neuron đến một neuron khác về sự thay đổi.

Hình 2.5.7 Các thành phần của một neuron

69
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

Hình 2.5.8 Khớp thhần kinh


22.5.3.3 Từ neuron
n ngườ ời đến neuroon nhân tạo
Thực hiện quản lý các mạng neuroon bằng cáchh đầu tiên tìm m cách suy luận
l bản chấất của
các neeuron và các kết nối nội tại bên tronng. Sau đó thhực hiện việcc lập trình để
đ giả lập cácc đặc
tính nàày. Tuy nhiêên, do nhận thức về cácc neuron khôông đầy đủ cũng như năng lực của việc
tính tooán là có giớ
ới hạn, cho nên mô hìnhh mạng neurron nhân tạoo so với mạn ng neuron người
n
thuộc dạng “lý tưở ởng” và đơn giản hơn.
Thân tế
ế bào
Hình
h cây
Ngưỡng

Trục tthần kinh


(aaxon)
Phép tổng

Hình 2.5.9 Mô hìnnh neuron

HƯỚNG DẪ
ẪN / SỬ DỤNG

CÁC NGÕ
N
VÀO
O NGÕ RA

NGÕ VÀ
ÀO HƯỚNG DẪN
N

Hình 2.5.10 Mô hìnnh hóa mô hình


h neuron
Mô phỏng hoạt động của
c các neurron thần kinh h, mạng neuron nhân tạoo là hệ thốngg bao
gồm nhiều
n phần tửử xử lý đơn giản (neuronn) hoạt động
g song song. Tính năng của
c hệ thốngg này
tùy th
huộc vào cấuu trúc của hệ,
h các trọngg số liên kếết neuron vàà quá trình tính
t toán tại các
neuronn đơn lẻ. Mạạng neuron có
c thể từ dữ liệu mẫu vàà tổng quát hhoá dựa trênn các dữ liệu mẫu
học.
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

Hình 2.5.11 Mô hìnnh mạng Neeuron theo cáác lớp


Một nhómm các neuron được tổ chứ ức theo một cách
c sao choo tất cả chún
ng đều nhận cùng
một veector vào X để xử lý tạại cùng một thờit điểm. Việc
V sản sinhh ra tín hiệu ra r của mạng xuất
hiện cùng một lúcc. Vì mỗi neuuron có mộtt tập trọng số khác nhauu nên có bao o nhiêu neuroon sẽ
sản sinnh ra bấy nhhiêu tín hiệuu ra khác nhhau. Một nhó óm các neurron như vậy được gọi làà một
lớp mạạng. Chúng ta có thể kếtt hợp nhiều llớp mạng tạo o ra một mạnng có nhiều lớp, lớp nhậận tín
hiệu đầu
đ vào (vecctor tín hiệu u vào x ) được gọi là lớ ớp vào (inpuut layer). Trêên thực tế chúng
thực hiện
h như mộtt bộ đệm chứ ứa tín hiệu đđầu vào. Cácc tín hiệu đầuu ra của mạnng được sảnn sinh
ra từ lớ
ớp ra của mạạng (output layer). Bất kkỳ lớp nào nằm
n giữa 2 lớ ớp mạng trên n được gọi là lớp
ẩn (hidden layer) và nó là thhành phần nộội tại của mạngm và khôông có tiếp xúc
x nào vớii môi
trườngg bên ngoài. Số lượng lớ ớp ẩn có thể từ 0 đến vàii lớp. Mô hìnnh neuron nh hân tạo đòi hỏi
h 3
thành phần cơ bản n sau:
- Tập trọng số
s liên kết đặc trưng choo các khớp thhần kinh.
- Bộ cộng (S
Sum) để thự
ực hiện phépp tính tổng cáác tích tín hiệu
h vào với trọng số liênn kết
tương ứng
- Hàm kích hoạt
h (squashhing functionn) hay hàm chuyển
c (trannsfer functio
on) thực hiệnn giới
hạn đầầu vào của neuron.
n
T
Trong mô hìình neuron nhân
n tạo mỗii neuron đượ
ợc nối với cáác neuron khhác và nhận được
đ
N = ∑ wj x j .
tín hiệệu xi từ chúnng với các trrọng số wi . Tổng thông tin vào có trrọng số là: Net

22.5.3.4 Ứng dụng mạngg neuron troong nhận dạạng tiếng nóii
Mạng neurron (Neuron Network) làà một công cụ c có khả năăng giải quyếết được nhiều bài
toán khó,
k thực tế những
n nghiêên cứu về mạạng neuron đưa
đ ra một cách
c tiếp cận
n khác với nhhững
cách tiiếp cận truyền thống troong lý thuyếtt nhận dạng. Trong thựcc tế, mạng neuron
n được triển
khai có
c hiệu quả trong nhậnn dạng tiếngg nói thường g dùng mạnng neuron laan truyền ngược
hướngg (Back-proppagation Neuural Networkk) hoặc kết hợp
h với phư ương pháp mã m dự đoán tuyến
t
tính LPPC (Linear Predictive
P C
Coding).
2
2.5.3.4.1 Sơ lược về lý thhuyết nhận dạng
d
Lý thuyết nhận dạng làl phương phháp để xây dựngd một hệệ thống tin học
h có khả năng:
n
cảm nhận-nhận
n th
hức-nhận biếết các đối tượ
ợng vật lý gần
g giống khhả năng của con người. N Nhận
dạng cóc gắn chặt với
v 3 khả năăng trên là một
m lĩnh vực hết sức rộngg có liên quaan đến việc xử x lý
tín hiệệu trong không gian nhiềều chiều, môô hình, đồ thhị, ngôn ngữ,, cơ sở dữ liệu, phương pháp
ra quyyết định... Hệệ thống nhậnn dạng phải có khả năng g thể hiện đđược quá trìnnh nhận thứcc của
con nggười qua cácc mức:
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

- Mức 1- mức
m cảm nhậận: cảm nhậận được sự tồn t tại các đđối tượng quan
q sát, hayy đối
tượng mà hệ thống g cần nhận dạng.
d Mức này
n cũng đưaa ra quá trìnhh thu nhận sốố liệu qua cáác bộ
cảm biến trong hệ thống nhận dạng, ví dụ trong hệ thốống nhận dạnng tiếng nói:: đối tượng ở đây
là tiến
ng nói (speecch) và thu nhhận đầu vào qua
q Micro hoặc
h các file âm thanh .wwav.
- Mức 2- mứức nhận thứcc: ở đây biểuu diễn quá trình
t học, mô hình hoá đối
đ tượng đểể tiến
tới hìnnh thành sự phân
p lớp (claassification) các đối tượnng cần nhận dạng.
- Mức 3- mứ ức nhận biếtt: từ đối tượnng quan sát có thể trả lờ
ời nhận biết đối tượng làà gì ?
Hay đây là quá trìn
nh ra quyết định.
đ

Đối tượng Thu nhận Số


S liệu Tiềnn xử lý Đối tượ
ợng Trích chọọn Biểu diễn Học hình thàn
nh
vật lý quan sát (ttín hiệu) số liệu biểu diễn
d đặc tính
h đặc tính sự phân lớpp

Đ
Đánh giá chất Trả lời Ra
R quyết định Học và ra
lượ
ợng nhận dạng nhận dạng phân lớp quyết định

Hìn
nh 2.5.12 Sơ
ơ đồ tổng quuan của hệ thhống nhận dạạng

2
2.5.3.4.2 Nhhận dạng tiếnng nói dùng mạng Neuroon
H
Hình 2.5.13 mô tả chức năng cơ bảnn của hệ thốnng nhận dạngg tiếng nói

Hìn
nh 2.5.13 Sơ
S đồ khối mô
m tả hệ thốnng nhận dạngg tiếng nói
Phương án n lựa chọn sốố nút của từnng lớp trong mạng: theo kinh nghiệm
m của các chhuyên
gia về mạng neuro on trong các bài toán phân lớp có sửử dụng mạngg lan truyền ngược
n hướnng, sử
dụng 1 lớp tính toáán là lớp mạạng Kohonenn làm lớp ẩn. Việc xác định số neuroon cho từng lớp.
l
+ Số neuronn lớp vào = số chiều của vector vào.
+ Số neuronn lớp Kohoneen = số giá trrị các tập trảả lời.
+ Số neuron
n lớp ra = số lượng kết quả
q đầu ra, sử
ử dụng phươ
ơng pháp mãã hoá bằng số
s bit
biểu diễn
d số lượngg kết quả
Phương phááp học cạnh tranh
P t của lớpp ẩn và quá trình học cóó chỉ đạo tại lớp ra của mạng
m
theo các bước sau:
+ Khởi tạo trọng số: cáác thành phầần ma trận trọng
t số đượ
ợc khởi tạo bởi giá trị ngẫu
nhiên
+ Đọc tín hiiệu vào cho mạng:
m dữ liệệu trong filee mẫu chứa tthông tin mẫẫu học và cho kết
quả gồồm 2 thành phần:
p mảng 1 chiều chứứa vector tín hiệu vào vàà mảng 2 chiiều chứa maa trận
s liên kết ban đầu của lớp
trọng số l Kohonenn
+ Hiệu chỉnhh ma trận trọng số lớp Kohonen:
K hiiệu chỉnh trọọng số liên kết
k neuron lớ
ớp ẩn
Kohon
nen sao cho mạng có thểể học mẫu tốốt nhất.
P
Phương phápp nhận dạngg
- Đầu
u vào: file chứa
c dữ liệu tín hiệu tiếnng nói cần nnhận dạng vàà file chứa thông
t
Chương 2 Kỹ thuật xử lý âm thanh

tin trọng số liên kết neuron lớp ẩn và lớp ra. Ngoài ra đầu vào nguồn âm cũng có thể là
từ micro thông qua sound card, lúc này dữ liệu tiếng nói được đọc trong buffer dữ liệu
của Windows.
- Đầu ra: kết quả cần nhận dạng
Quá trình nhận dạng tiếng nói được thực hiện qua các bước:
+ Đọc tín hiệu vào: đọc dữ liệu từ file wav hoặc từ buffer dữ liệu âm thanh
+ Xử lý tín hiệu giống như chức năng phân tích LPC ở trên
+ Đọc ma trận trọng số liên kết lớp ẩn và lớp ra của mạng
+ Xác định neuron trung tâm
+ Tra cứu kết quả: tra cứu trên bản đồ topo mạng neuron để đưa ra giá trị cần
nhận dạng.

TÓM TẮT CHƯƠNG 2


Chương 2 cung cấp các kiến thức tổng quát về xử lý âm thanh. Trước hết cái khái
niệm về tín hiệu, cách phân loại tín hiệu cũng như tổng quát về hệ thống xử lý âm thanh được
đề cập trong phần 2.1. Ngoài ra ở mục phép biến đổi z, biến đổi Fourier liên tục và rời rạc
cũng được nhắc lại.
Trong xử lý âm thanh, mô hình âm thanh là không thể thiếu, mục 2.2 đã giới thiệu cho
các mô hình lấy mẫu âm thanh và mã hóa thoại cũng như các mô hình dùng trong xử lý âm
thanh. Ngoài ra tổng quan về các chuẩn mã hóa âm thoại thông thường cũng được giới thiệu
trong mục 2.1.4.
Dự đoán tuyến tính là một phần không thể thiếu của hầu hết tất cả giải thuật mã hóa
thoại hiện đại ngày nay của trong xử lý âm thanh. Để giúp các bạn hiểu về vấn đề này toàn bộ
mục 2.3 được dành để thảo luận về bài toán dự toán tuyến tính cũng như các giải thuật chính
như giải thuật Levison-Durbin, Leroux-Gueguen. Ngoài ra mô hình xử lý thoại dựa vào mô
hình mã hóa dự đoán tuyến tính được mô tả và thảo luận chi tiết.
Ở mục tiếp theo, mục 2.4, trình bày một số phương pháp đánh giá chất lượng thoại,
đặc biệt là cho mạng viễn thông (cố định, di động) vì dịch vụ thoại là dịch vụ cơ bản và quan
trọng nhất trong các dịch vụ cung cấp cho khách hàng của các nhà khai thác di động ở Việt
Nam cũng như trên thế giới hiện nay. Vì thế trong mục này, các phương pháp đánh giá được
thảo luận bao gồm: phương pháp đánh giá chủ quan và phương pháp dựa trên mô hình khách
quan.
Và mục cuối cùng đề cập đến một số mô hình ứng dụng xử lý động như mô hình thời
gian động, mô hình chuỗi markov ẩn và mạng nơtron. Để cụ thể hóa, bài toán cụ thể ứng dụng
mạng neuron lan truyền ngược hướng (Back-propagation Neural Network) trong nhận dạng
tiếng nói hoặc kết hợp với phương pháp mã dự đoán tuyến tính LPC (Linear Predictive
Coding) được giới thiệu.

73
Chương 2 Kỹ thuật xử lý âm thanh

CÂU HỎI VÀ BÀI TẬP CHƯƠNG 2

1. Điều kiện đủ để tồn tại biến đổi Fourier là



A/ ∑ x(n) < ∞
B/ z = 1
C/ A, B đều đúng
D/ A, B đều sai
2. Như thế nào được gọi là yêu cầu “Nhận dạng tiếng nói / ngôn ngữ khác nhau” của
một bộ mã hóa thoại?
A/ Kỹ thuật nhận dạng tiếng nói có thể phân biệt được giọng nói của người lớn nam
giới, người lớn nữ giới và trẻ con
B/ Kỹ thuật nhận dạng tiếng nói có thể nhận dạng được ngôn ngữ nói của người nói.
C/ A, B đều đúng
D/ A, B đều sai
3. Để sử dụng đánh giá chất lượng thoại cho mạng GSM (Global System Mobile) của
VNPT (Vietnam Posts and Telecommunications Corporation), có thể sử dụng các phương
pháp đánh giá nào sau đây
A/ Sử dụng PESQ (Perceptual Evaluation of Speech Quality) để đánh giá chất lượng
thoại một chiều từ đầu cuối đến đầu cuối
B/ Sử dụng PSQM (Perceptual Speech Quality Measurement) để đánh giá chất lượng
thoại một chiều từ đầu cuối đến đầu cuối
C/ Sử dụng E-model để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối
D/ A, B đều đúng
4. Ứng dụng mạng neuron trong thực tế, người ta thường dùng để
A/ thống kê mô hình tạo âm thoại
B/ nhận dạng tiếng nói
C/ A, B đều đúng
D/ A, B đều sai
5. Người ta sử dụng phương pháp nào trong những phương pháp sau đây để nhận dạng
tiếng nói
A/ mạng neuron
B/ mô hình thời gian động
C/ Mô hình chuỗi markov ẩn
D/ A, B đúng
6. Người ta sử dụng phương pháp nào trong những phương pháp sau đây để xử lý thoại
A/ mạng neuron

74
Chương 2 Kỹ thuật xử lý âm thanh

B/ mô hình thời gian động


C/ Mô hình chuỗi markov ẩn
D/ A, B, C đúng
7. Trong thực tế, việc tính toán dự đoán tuyến tính LP (Linear Prediction) thường được
thực hiện bằng giải thuật nào
A/ Giải thuật Levison-Durbin
B/ Giải thuật DTW (Dynamic Time Warping) bất đối xứng
C/ Giải thuật DTW (Dynamic Time Warping) đối xứng
D/ B, C đều đúng
8. Mô hình Markov ẩn (Hidden Markov Model - HMM) được sử dụng trong thực tế như
thế nào
A/ sử dụng trong việc thống kê mô hình tạo âm thoại
B/ nhận dạng âm thoại cô lập
C/ nhận dạng âm thoại liên tục
D/ A, B, C đều đúng
9. Nhược điểm của các phương thức cho điểm theo MOS (Mean Opinion Score) là:
A/ mang tính chất khách quan
B/ tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp
C/ Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương
pháp đánh giá chất lượng này là không thực tế
D/ B, C đều đúng
10. Mô hình nào được dùng trong việc tổng hợp tiếng nói
A/ Mô hình AR (Autoregressive)
B/ Mô hình tất định
C/ Mô hình analog ngẫu nhiên
D/ Mô hình LP (Linear Prediction)
11. Trong mô hình xử lý âm thanh, việc lấy mẫu tín hiệu ở miền thời gian có thể được
thực hiện với loại tín hiệu nào
A/ Tín hiệu liên tục
B/ Tín hiệu rời rạc
C/ Tín hiệu ngẫu nhiên
D/ A, B đúng

75
Chương 2 Kỹ thuật xử lý âm thanh

12. Bảng sau là thang điểm đánh giá điểm hội thoại và điểm chất lượng nghe của
phương thức nào của phương pháp chủ quan trong đánh giá chất lượng thoại?
Điểm đánh giá Mức độ cố gắng cần thực hiện để hiểu câu
5 Không cần cố gắng
4 Cần chú ý nhưng không cần cố gắng nhiều
3 Cần tương đối tập trung
2 Cần tập trung
1 Không hiểu câu mẫu
A/ Comparison Category Rating (CCR)
B/ Conversation Opinion Test (COT)
C/ Degradation Category Rating (DCR)
D/ A, B, C đều sai
13. Phương pháp nào so sánh dựa trên mô hình giác quan trong đánh giá chất lượng
thoại
A/ Phương pháp PSQM (Perceptual Speech Quality Measurement)
B/ Phương pháp PESQ (Perceptual Evaluation of Speech Quality)
C/ Phương pháp mô hình đánh giá truyền dẫn E-Model
D/ A, B, C đều đúng
14. Thông thường, tai người nhạy nhất ở tầm tần số nào
A/ 2MHz và 5MHz
B/ 2kHz và 5kHz
C/ 2Hz và 5HZ
D/ 2GHz và 2GHz
15. Chọn phát biểu đúng
A/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng tuyến tính
B/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng logarith
C/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng hình sin
D/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng xung
16. Giải thuật giải thuật mô hình thời gian động đối xứng - Dynamic Time Warping -
DTW có khuyết điểm so với giải thuật mô hình thời gian động bất đối xứng là
A/ giải thuật sinh lỗi tại những vị trí không ước đoán trước
B/ tại các vị trí cột và hàng lệ thuộc vào các vị trí đường chéo có thể sinh lỗi
C/ giải thuật luôn luôn sinh lỗi trong thực tế

76
Chương 2 Kỹ thuật xử lý âm thanh

D/ A, B, C đều sai
17. Trong thực tế, việc tổng hợp âm thanh có thể được thực hiện bằng
A/ mô hình miền thời gian
B/ mô hình phi tuyến
C/ A, B đều sai
D/ A, B đều đúng
18. Cho tín hiệu có tần số cao nhất là 256Hz, vậy tần số lấy mẫu có giá trị là
A/ tối đa là 512 Hz
B/ tối thiểu là 512Hz
C/ tối thiểu là 256Hz
D/ A, B đều đúng
19. Hình thức đánh giá chất lượng thoại theo phương pháp chủ quan là hình thức nào
A/ Bài kiểm tra hội thoại (Conversation Opinion Test).
B/ Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test).
C/ Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)).
D/ Phương thức phân loại so sánh (Comparison Category Rating (CCR)).
E/ A, B, C, D đều đúng
20. Mô hình điều pha và điều tần thuộc mô hình
A/ Mô hình phi tuyến
B/ Mô hình miền thời gian
C/ Mô hình quang phổ
D/ Mô hình sin
21. Các mô hình dùng trong xử lý âm thanh
A/ Mô hình phi tuyến
B/ Mô hình miền thời gian
C/ Mô hình quang phổ
D/ A, B, C đều đúng
22. Mô hình giác quan PSQM (Perceptual Speech Quality Measurement) được thiết kế
để sử dụng cho
A/ tín hiệu thoại
B/ tín hiệu hình ảnh
C/ tín hiệu điều khiển
D/ B, C đúng

77
Chương 2 Kỹ thuật xử lý âm thanh

23. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality
Measurement) có giá trị
A/ từ 5 đến 10
B/ từ 0 đến ∞
C/ từ -∞ đến ∞
D/ từ -1 đến 1
24. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality
Measurement) có giá trị 0 để chỉ tương quan giữa tín hiệu ra và tín hiệu vào mô hình là
A/ hoàn toàn trùng khớp
B/ hoàn toàn khác biệt
C/ không thể đánh giá được
D/ A, B, C đều sai
25. Hệ số đánh giá truyền dẫn trong E-model được tính dựa vào thông số:
A/ tỷ số tín hiệu trên nhiễu (SNR)
B/ các tổn hao do trễ và tiếng vọng.
C/ Tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp).
D/ A, B, C đều đúng
26. Quá trình nhận dạng tiếng nói bằng phương pháp mạng neuron được thực hiện qua
__________ bước
A/ 10
B/ 5
C/ 20
D/ 15
27. Cho chuỗi x(n) có phép biến đổi z là X(z). Phép biến đổi z của chuỗi hàm tuyến tính
nx(n) là
dX (1 / z )
A/ z
dz
dX (1 / z )
B/ − z
dz
dX (−1 / z )
C/ − z
dz
dX (−1 / z )
D/ z
dz
E/ A, B, C, D đều sai

78
Chương 2 Kỹ thuật xử lý âm thanh

28. Cho mô hình sau

Trong mô hình, khối bộ chuyển đổi A/D thực hiện việc


A/ chuyển đổi tín hiệu dạng tương tự sang tín hiệu số
B/ chuyển đổi tín hiệu dạng số sang tín hiệu tương tự
C/ chuyển đổi tín hiệu liên tục sang tín hiệu rời rạc
D/ A, B, C đều sai
29. Mô hình quang phổ gồm những mô hình gì
A/ Mô hình AR (Autoregressive), mô hình sin
B/ Mô hình tất định, mô hình sin
C/ Mô hình analog ngẫu nhiên, mô hình sin
D/ Mô hình LP (Linear Prediction), mô hình sin
30. Phương pháp nào thuộc phương pháp đánh giá khách quan
A/ phương pháp so sánh
B/ phương pháp ước lượng tuyệt đối
C/ mô hình đánh giá truyền dẫn
D/ A, B, C đều đúng

79
Chương 3 Kỹ thuật xử lý hình ảnh 

CHƯƠNG 3 KỸ THUẬT XỬ LÝ HÌNH ẢNH

3.1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ VIDEO SỐ


Xử lý ảnh số là lĩnh vực khoa học tương đối mới mẻ và được quan tâm nhiều hiện nay. Hai
ứng dụng cơ bản của xử lý ảnh là nâng cao chất lượng hình ảnh và xử lý ảnh cũng như video số
với mục đích lưu trữ hoặc truyền qua các hệ thống truyền dẫn hình ảnh.
Trong phần này, chúng ta sẽ đề cập tới nhưng vấn đề sau: 1- Giới thiệu khái niệm cơ bản về
ảnh số và xử lý video số, xác định ranh giới của lĩnh vực xử lý ảnh. 2- Giới thiệu các ứng dụng
quan trọng của xử lý ảnh trong một số lĩnh vực khoa học 3- Xác định các giai đoạn cơ bản trong
quá trình xử lý ảnh; 4- Giới thiệu các thành phần của hệ thống xử lý ảnh tổng quát.

3.1.1 Khái niệm cơ bản về xử lý ảnh


Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và y là tọa độ
không gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một điểm được xác định bởi
tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại điểm này. Nếu x,y và f là một số hiện hữu
các giá trị rời rạc, chúng ta có ảnh số. Xử lý ảnh số là quá trình biến đổi ảnh số trên máy tính
(PC). Như vậy, ảnh số được tạo ra bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị
trí nhất định và có một giá trị nhất định. Một điểm ảnh trong một ảnh còn được gọi là một pixel.

Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo, cho phép
con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng quan trọng nhất của
xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về sự gia tăng chất lượng hình
ảnh quang học trong hệ thống thị giác.

Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong vùng
nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh quang học mà mắt
người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể được tạo ra bởi các nguồn bức xạ
có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví dụ: ảnh do sóng siêu âm hoặc tia X tạo ra.
Nhiều hệ thống xử lý ảnh có thể tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực
xử lý ảnh có phạm vi tương đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác.

Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử lý như
sau:

1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm
khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong trường hợp này, tín
hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học.

2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp,
phân đoạn ảnh, xác định và dự đoán biên ảnh, nén ảnh để lưu trữ hoặc truyền phát. Đặc điểm của
các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành
phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh.

3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng là quá trình
xử lý được thực hiện trong hệ thống thị giác của con người.

3.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh


Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng cao chất
lượng hình ảnh, chính xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh quang học trong mắt

   80 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

người quan sát. Thhời gian gần đây,


đ phạm vii ứng dụng xử ử lý ảnh mở rộng không ngừng, có thhể nói
hiện khhông có lĩnh vực khoa họọc nào khôngg sử dụng cácc thành tựu củủa công nghệệ xử lý ảnh sốố .
T
Trong y học,, các thuật tooán xử lý ảnhh cho phép biiến đổi hình ảnh được tạoo ra từ nguồnn bức
xạ X -rray hay nguồồn bức xạ siêêu âm thành hhình ảnh quaang học trên bbề mặt film x-quang
x hoặcc trực
tiếp trêên bề mặt mààn hình hiển thị. Hình ảnnh các cơ quaan chức năngg của con ng gười sau đó có
c thể
được xửx lý tiếp để nâng cao độộ tương phản,, lọc, tách cáác thành phầnn cần thiết (cchụp cắt lớp) hoặc
tạo ra hình
h ảnh tronng không giaan ba chiều (ssiêu âm 3 chiiều).
Trong lĩnh vực
T v địa chất, hình ảnh nhhận được từ vệ v tinh có thhể được phânn tích để xác định
cấu trúúc bề mặt tráii đất. Kỹ thuuật làm nổi đư
ường biên (im
mage enhanccement) và khhôi phục hìnhh ảnh
(imagee restoration)) cho phép nâng
n cao chấtt lượng ảnh vệ tinh và tạạo ra các bản
n đồ địa hìnhh 3-D
với độ chính xác caao.

ược từ vệ tinhh dùng trongg khí tượng họọc


Hình 3.1.1 Ảnh nhận đư

T
Trong ngànhh khí tượng học,
h ảnh nhậnn được từ hệ thống vệ tinnh theo dõi thhời tiết cũng được
xử lý, nâng cao chấất lượng và ghép
g hình đểể tạo ra ảnh bề
b mặt trái đấất trên một vùùng rộng lớnn, qua
đó có thể thực hiệnn việc dự báoo thời tiết một cách chínhh xác hơn. Dựa
D trên các kết quả phânn tích
ảnh vệệ tinh tại các khu vục đôn
ng dân cư cònn có thể dự đoán
đ quá trìnhh tăng trưởngg dân số, tốcc độ ô
nhiễm môi trường cũng như cáác yếu tố ảnhh hưởng tới môi m trường ssinh thái. Ảnnh chụp từ vệệ tinh
có thểể thu được thông qua các thiết bbị ghi hình cảm nhận được tia sááng quang học h (
λ = 4550 − 520 nm ), hoặc tia hồồng ngoại ( λ = 760 − 900 nm ). Trênn hình 3.1.2a và 3.1.2b lầnn lượt
là ảnh bề mặt trái đất
đ nhận đượ ợc từ hai ống ghi hình nóii trên, dễ dànng nhận thấy sự khác biệtt giữa
hai ảnhh. Đặc biệt trrên ảnh 3.1.22b, hình con ssông được táách biệt rất rõõ ràng so với vùng ảnh haai bên
bờ. Thhiết bị thu hìnnh nhạy cảmm với vật thể bbức xạ các tiia trong miềnn hồng ngoạii sẽ cho ra những
n
bức ảnnh trong đó vật
v thể có nhiiệt độ thấp sẽẽ được phân biệt rõ ràng so với vật thhể có nhiệt độộ cao
hơn. Như
N vậy việcc lựa chọn cáác thiết bị ghhi hình khác nhau sẽ tạo ra r ảnh có đặặc tính khác nhau,
n
tùy thu
uộc vào mục đích sử dụngg trong các lĩĩnh vực khoaa học cụ thể .

a b

Hìnnh 3.1.2 - Ảnnh bề mặt tráii đất thu được từ hai cameera khác nhau
u
Chương 3 Kỹ thuật xử lý hình ảnh 

Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số lượng hàng
hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh để phát hiện bọt khí bên trong
vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu chuẩn (bị biến dạng) trong quá trình
sản xuất hoặc hệ thống đếm sản phẩm thông qua hình ảnh nhận được từ camera quan sát.
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo mật hoặc
kiểm soát truy nhập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay khuôn mặt cho phép
phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân
cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử
lý ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục tiêu quân
sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và
truyền trong mạng viễn thông v.v.

3.1.3 Các giai đoạn chính trong xử lý ảnh


1- Thu nhận hình ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong toàn bộ quá
trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai đoạn sau,
trường hợp ảnh gốc có chất lượng kém, hiệu quả của các bước xử lý tiếp theo sẽ bị giảm. Thiết bị
thu nhận có thể là các ông ghi hình chân không (vidicon, plumbicon v.v.) hoặc thiết bị cảm biến
quang điện bán dẫn CCD (Charge-Coupled Device).

2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để
trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường
biên, khử nhiễu v.v.
3- Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là
một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện tách quá sâu
các chi tiết thì bài toán nhận dạng thành phần được tách ra trở nên phức tạp, còn ngược lại nếu
quá trình phân đoạn được thực hiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng
sẽ không chính xác.

4- Biểu diễn và mô tả: là quá trình xử lý sau khâu phân đoạn hình ảnh. Các vật thể sau
khi phân đoạn có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới một vùng, hoặc
tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng
thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài của chi tiết ảnh như độ
cong, các góc cạnh v.v. Một vùng ảnh có thể được mô tả dựa trên đặc tính bên trong của nó: miền
đồng nhất, đặc điểm đường vân (texture).

5- Nén ảnh: là các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu trữ hình
ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.

6- Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó
(ví dụ các phương tiện giao thông có trong ảnh).

Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển dựa
trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể đơn giản như vị trí
vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu nhỏ vùng tìm kiếm. Trường
hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư hỏng có thể gặp trong
quá trình kiểm soát chất lượng thành phẩm hoặc các ảnh vệ tinh có độ chi tiết cao trong các hệ
thống theo dõi sự thay đổi môi trường trong một vùng. Ngoài việc điều khiển hoạt động của từng

   82 
Chương 3 Kỹ thuật xử lý hình ảnh 

modul xử lý ảnh (hình 3.1.3), cơ sở kiến thức còn sử dụng để thực hiện việc điều khiển tương tác
giữa các modules. Trong hình 3.1.3, quá trình điều khiển tương tác được biểu diễn bằng mũi tên
hai chiều.

Hình 3.1.3 Các giai đoạn xử lý ảnh số

3.1.4 Các phần tử của hệ thống xử lý ảnh số


Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý ảnh đề cập
ở trên được mô tả trên hình 3.1.4.

Hình 3.1.4 Các thành phần chính của hệ thống xử lý ảnh

Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh
quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có nhiều dạng cảm
biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang –
điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple Device –
linh kiện ghép điện tích).

Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương đối rộng
rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước nhỏ gọn (đường kính 18-25
mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn hình này sử dụng nguyên lý
hiệu ứng quang điện trong và nguyên lý tích lũy điện tích.

Chip CCD là linh kiện bán dẫn có khả năng biến đổi năng lượng quang phổ thành tín hiệu
điện. Thành phần chính của chip CCD là các tụ điện MOS (Metal-Oxide-Semiconductor). Tụ
điện MOS được hình thành bởi ba lớp: một má tụ bằng kim loại, chất điện môi nằm giữa là lớp

   83 
Chương 3 Kỹ thuật xử lý hình ảnh 

SiO2 và một má tụ bằng lớp bán dẫn loại p hoặc n (hình 3.1.5).
+U
Ñieän cöïc kim loaïi

Neàn baùn daãn "p"

Hình 3.1.5 Cấu trúc tụ điện MOS


Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn trên hình 3.1.6a,
mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm trên hình ảnh thu được.Theo
phương pháp dịch chuyển điện tích, các chip CCD có thể chia ra làm hai loại: CCD dạng chuỗi
(một chiều) và dạng ma trận (hai chiều).

Hình 3.1.6 Cấu trúc chip CCD


a) dạng chuỗi
b) dạng ma trận

Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình 3.16b). Các
phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín hiệu được thực
hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức quá trình ghi và đọc tín hiệu trong
CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. Khi sử dụng phương pháp này,
trong chip CCD được thiết kế một miền nhớ, không tiếp xúc với ánh sáng và có diện tích bằng
miền tích lũy – là ma trận các phần tử cảm quang.
Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá trình ghi ảnh tại
miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến hành song song.Từng
dòng ảnh được dịch chuyển xuống thanh dịch ngang, sau đó các gói điện tích ứng với các điểm
trong dòng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. Sau khi toàn bộ ảnh trong miền nhớ được
đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại được chuyển về đây.

Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, linh kiện biến đổi -
quang điện CCD được sử dụng rất rộng rãi trong công nghệ truyền hình và ảnh số. Hầu hết các
camera quay video dân dụng và bán chuyên nghiệp (semi-professional) được thiết kế trên cơ sở
chip CCD.

Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng
để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước
1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh màu

   84 
Chương 3 Kỹ thuật xử lý hình ảnh 

không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có thể chia
làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có
khả năng ghi/đọc rất nhanh (tốc độ tối đa có thể lên tới 17GB/sec); 2- bộ nhớ ngoài có tốc độ truy
cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ
nhớ flash v.v.. 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc
độ truy cập không cao. Thông dụng nhất là đĩa quang ghi một lần hoặc nhiều lần như đĩa DVD-R,
DVD-RW có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các
thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy
in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v.

Bộ xử lý ảnh chuyên dụng:


Là các chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh chuyên dùng
trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường biên, nén và
giải nén video số v.v.. Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ cao.
Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như màu)
có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành hình ảnh trên
màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và
màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả năng hiển thị
màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên
nghiệp.
Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất cả
các bộ phận chức năng trong hệ thống xử lý ảnh số.

3.1.5 Biểu diễn ảnh số


Trong phần này, chúng ta sẽ đề cập tới một số những kiến thức cơ bản và ký hiệu được sử
dụng trong lĩnh vực xử lý ảnh. Đó là các vấn đề về ánh sáng, màu sắc, khả năng tiếp thu hình ảnh
quang học của hệ thống thị giác. Tiếp theo là quá trình biến đổi ảnh analog thành tín hiệu ảnh số,
cách biểu diễn hình ảnh số, ảnh hưởng của quá trình lấy mẫu và lượng tử hóa tới chất lượng ảnh
số.
3.1.5.1 Ánh sáng, màu sắc và hình ảnh
Phổ của các sóng điện từ trong thiên nhiên trải dài từ tia gamma (10-12 m) đến sóng radio
(10-4-104 m). Mắt người chỉ cảm nhận được những sóng điện từ có bước sóng từ 380 nm (tia màu
tím) đến 780 nm (tia màu đỏ).
Các bức xạ điện từ đặc biệt nói trên được gọi là ánh sáng. Trong lĩnh vực xử lý ảnh, người
ta chỉ quan tâm đến phần năng lượng bức xạ mà mắt người cảm nhận được. Các đại lượng trắc
quang được sử dụng để đánh giá tính chất của nguồn sáng: quang thông, độ sáng, độ rọi và độ
chói. Để đánh giá được tác động của ánh sáng lên mắt người, chúng ta phải lưu ý đến hai yếu tố
quan trọng:

1 – Mắt có độ nhậy cảm không đồng đều đối với các tia bức xạ có bước sóng khác nhau.
Trên đồ thị độ nhạy của mắt người (hình 3.1.7) ta thấy vùng lục – vàng (λ ~ 555 nm) là nơi nhậy
cảm nhất của mắt.

2 – Mật độ phân bố phổ công suất của các nguồn sáng trong thiên nhiên không đồng đều.

   85 
Chương 3 Kỹ thuật xử lý hình ảnh 

tím döông luïc vaøng cam ñoû


380 460 500 590 630 700

Ñoä nhaïy
Hình 3.1.7 Đáp ứng phổ (độ nhạy) của mắt người

Trường hợp tổng quát, một nguồn bức xạ có thể đặc trưng bởi hàm mật độ phân bố công
suất trên trục tần số ρ (λ ) :

dP(λ )
ρ (λ ) = (Watt/μm) (3.1.1)

λ - bước sóng (μm);

P(λ ) – công suất nguồn bức xạ có bước sóng λ (Watt);

Công suất toàn phần của nguồn ánh sáng có phổ liên tục (ánh sáng mặt trời, áng sáng đèn
đốt nóng v.v.) sẽ bằng:
780
P∑ = ∫ ρ (λ ) ⋅ dλ (3.1.2)
370

Để đặc trưng cho phần năng lượng bức xạ có ích (cảm nhận được bằng mắt) ta đưa ra khái
niệm quang thông F:
780
F = K ∫ V (λ )ρ (λ ) ⋅ dλ (lumen1) (3.1.3)
370

V (λ ) - hàm độ nhạy phổ tương đối của mắt người (không có đơn vị).
K là hệ số tỷ lệ giữa quang thông và công suất bức xạ.
Nhìn chung, quang thông của một nguồn sáng có thể phân bố không đồng đều theo các
phương hướng khác nhau. Ta định nghĩa đại lượng độ sáng I đặc trưng cho khả năng phát sáng
của nguồn sáng theo một hướng nào đó (hình 3.1.10):

dF
I= , (candela2) (3.1.4)

dS
Ω - góc khối; dΩ = (sr –steradian)
r2

1
Lumen (lat.) – nguồn sáng
2
Đơn vị độ sáng là candela (cd) – là 1 trong sáu đơn vị cơ bản hệ SI. 1 candela là độ sáng đo theo phương
vuông góc của bề mặt platin, ở nhiệt độ đông đặc, (2046,5 K), có diện tích 1/60π=0.0053 cm2.

   86 
Chương 3 Kỹ thuật xử lý hình ảnh 

dF – quang thông truyền qua góc khối dΩ.

r
A
n

dS o r
dF
dS
Hình 3.1.10 Minh họa độ sáng của nguồn điểm

4π r 2
Góc khối lớn nhất là Ω= = 4π , do đó độ sáng trung bình của nguồn điểm3 sẽ
r 2

bằng toàn bộ quang thông chia cho góc 4π:

FA FA
I tb = =
Ω 4π
Quang thông và độ sáng là hai đại lượng đặc trưng cho nguồn sáng.
Độ rọi E là đại lượng đặc trưng cho bề mặt được chiếu sáng.

Độ rọi là mật độ phân bố quang thông trên bề mặt được chiếu sáng:

dF
E = (lux4) (3.1.5)
dS
1 lux là độ rọi lên một bề mặt khi 1 m2 bề mặt đó nhận được quang thông bằng 1 lumen.

Xét bề mặt được chiếu sáng dS bởi nguồn điểm A (hình 3.1.10). Diện tích bề mặt hình cầu
giới hạn trong góc khối dΩ là dS0., α là góc giữa pháp tuyến của dS và pháp tuyến dS0.

dS 0 dS ⋅ cos α
dΩ≅ = ;
r2 r2
dF Id Ω I dS ⋅ cos α
ES = = = (3.1.6)
dS dS dS r2
I ⋅ cos α
ES =
r2
Như vậy độ rọi của bề mặt được chiếu sáng bởi nguồn điểm tỷ lệ nghịch với bình phương
khoảng cách giữa nguồn sáng và bề mặt đó.
Độ chói L là đại lượng đặc trưng cho bề mặt phát sáng (trong khi độ rọi đặc trưng cho bề
mặt được chiếu sáng).

3
Nguồn điểm là nguồn sáng có kích thước (d) nhỏ hơn nhiều lần so với khoảng cách (l) đến bề mặt được
chiếu sáng (l ≥ 10d).
4
lux (lat.) – chiếu sáng

   87 
Chương 3 Kỹ thuật xử lý hình ảnh 

Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của
nguồn sáng. Cho bề mặt phát sáng S0. Theo hướng trực giao với S0, độ chói sẽ bằng:

I0
L0 = (candel / m2 ) (3.1.7)
S
Đơn vị độ chói còn gọi là Nít ( Nít là độ chói của nguồn sáng có diện tích 1 m2 và cường độ
sáng là 1 candela theo hướng vuông góc với bề mặt nguồn sáng)

3.1.5.2 Màu sắc và các thông số đặc trưng


Cảm nhận về màu sắc là kết quả của sự nhận biết chủ quan của mắt người dưới tác động
của ánh sáng. Để giải thích cơ chế cảm nhận màu của mắt người, các nhà khoa học đã đưa ra
nhiều giả thuyết khác nhau, trong đó, thuyết ba thành phần cảm thụ màu, do nhà bác học Nga
Lômônôxốp đưa ra năm1756 được công nhận rộng rãi hơn cả (T. Young năm 1801 – cũng đưa ra
giả thiết về “ba nhóm tế bào cảm nhận” trong mắt và mô hình mắt người). Theo thuyết này, các tế
bào hình nón trên võng mạc có thể chia ra ba loại. Mỗi loại tế bào đặc biệt nhạy cảm với những
vùng phổ nhất định trong dải quang phổ – vùng sóng ngắn (màu xanh lam - B), vùng sóng trung
(màu lục - G) và vùng sóng dài (màu đỏ - R). Sóng điện từ có bước sóng khác nhau tác động lên
các tế bào không đồng đều, sự khác biệt về tỷ lệ kích thích sẽ tạo nên cảm nhận về các sắc màu
khác nhau. Thuyết ba thành phần cảm thụ màu được chứng minh qua nhiều thực nghiệm và phù
hợp với luật pha trộn màu mà chúng ta sẽ đề cập tới dưới đây.
Trên phương diện sinh học (cảm giác chủ quan), ánh sáng được cảm nhận thông qua ba đại
lượng chính là: độ sáng, sắc màu và độ bão hòa màu.
Độ sáng – phụ thuộc vào công suất của nguồn sáng, ví dụ: nguồn sáng trắng 500 W sẽ có độ
sáng lớn hơn nguồn sáng trắng 15 W.

Sắc màu (sắc điệu) là tính chất đặc trưng của màu mà qua đó ta nhận biết được màu đỏ,
xanh, vàng v.v.
Độ bão hòa màu là cường độ về sắc màu qua đó ta có thể phân biệt được màu đỏ thẫm hay
màu đỏ nhạt v.v.

Khi đánh giá về số lượng của các đại lượng trên (bằng cách đo lường khách quan) chúng ta
sẽ sử dụng ba khái niệm tương đương là: độ chói, bước sóng trội và độ sạch của màu. Sắc điệu
của nguồn sáng tương đương với bước sóng λ có năng lượng lớn nhất trong phổ của nguồn sáng
đó, đại lượng này được gọi là bước sóng trội λ . Độ bão hòa của một màu có bước sóng trội λ
được tính bằng:

p = Fλ / ( Fλ + FE ) (3.1.8)

p – là độ sạch màu, đại lượng xác định số lượng ánh sáng trắng trong nguồn sáng hay độ
pha loãng của nguồn sáng đó. Như vậy, màu quang phổ sẽ có độ sạch là p = 100% , đối với màu
trắng p = 0 .

Dựa trên những tính chất của hệ thị giác như độ phân giải, tính lưu ảnh và thuyết ba thành
phần cảm nhận màu, để tạo ra cảm giác về một màu nào đó, người ta có thể thực hiện pha trộn các
màu cơ bản theo những phương pháp sau:

   88 
Chương 3 Kỹ thuật xử lý hình ảnh 

1. Phương pháp cộng màu quang học

Phương pháp này dựa trên khả năng tổng hợp màu khi các nguồn bức xạ được chiếu lên một
mặt phẳng. Các nguồn bức xạ có thể được rọi cùng một lúc hay nối tiếp nhau với một tốc độ
tương đối lớn (còn gọi là phép trộn màu theo thời gian), khi đó, ánh sáng thứ cấp phản xạ từ bề
mặt của mặt phẳng trên sẽ mang lại cho người quan sát cảm nhận về một màu sắc tổng hợp. Sắc
độ màu mới phụ thuộc vào tỷ lệ công suất của các bức xạ thành phần (hình 3.1.11).

Hình 3.1.11 Trộn các màu cơ bản

2. Phương pháp trộn màu không gian

Khi trộn màu không gian, các phần tử ảnh mang sắc màu cơ bản nằm độc lập với nhau
trong không gian, nếu những phần tử này nằm gần nhau và có kính thước nhỏ thì mắt cảm nhận
chúng như một điểm ảnh, màu sắc của điểm ảnh này phụ thuộc vào tỷ lệ công suất của các màu cơ
bản. Hình dạng của các phần tử có thể là các điểm tròn hay vạch màu nhỏ. Tỷ lệ công suất của các
màu cơ bản có thể thay đổi bằng cách thay đổi độ chói của các phần tử ảnh tham gia trộn màu
hay thay đổi kích thước của chúng. Việc tái tạo hình ảnh màu trên màn hình vô tuyến thường
được thực hiện bằng phương pháp trộn màu trong không gian.

3. Phương pháp trừ


Để tạo ra một màu mới, ngoài phương pháp cộng các màu đơn sắc, người ta còn có thể sử
dụng phương pháp loại bỏ bớt một số màu từ ánh sáng trắng. Thí dụ, nếu cho ánh sáng trắng qua
môi trường hấp thụ (kính lọc) các tia màu đỏ, ta sẽ nhận được màu lơ. Phương pháp này thường
dùng trong kỹ thuật ảnh màu, in ấn và trong hội họa. Đặc điểm của phương pháp trừ là độ chói
của màu được tạo ra bao giờ cũng nhỏ hơn độ chói của màu trắng ban đầu.

3.1.5.3 Các định luật trộn màu cơ bản


Trên cơ sở các kết quả nhận được qua nhiều công trình thực nghiệm về cảm nhận màu sắc
của hệ thống thị giác, nhà bác học người Đức H.Grassmann đã đưa ra bốn định luật về trộn màu:

Định luật thứ nhất: Bất kỳ một màu sắc nào cũng có thể tạo được bằng cách trộn 3 màu cơ
bản độc lập tuyến tính với nhau.

Ba màu được gọi là độc lập tuyến tính khi một trong những màu đó không thể tạo ra bằng
cách pha trộn hai màu còn lại được. Như vậy, ta có thể viết ra được phương trình so màu như sau:

f ′F = r′R + g′ G + b′ B (3.1.9)

f ′F - nguồn ánh sáng bất kỳ, có đơn vị là F và số lượng ánh sáng là f ′ ; R,G,B – đơn vị
màu cơ bản; r ′, g′ , b′ - số lượng các màu cơ bản R, G, B, còn gọi là modul của các màu đó.

Năm 1931, theo quy định của tổ chức quốc tế CIE (Commission Internationale d’Eclairage -
International Commission on Ilumination – ủy ban quốc tế về ánh sáng) ba nguồn bức xạ đơn sắc

   89 
Chương 3 Kỹ thuật xử lý hình ảnh 

màu đỏ, lục và lam tương ứng có bước sóng:

λ R = 700 nm
λG = 546,1 nm
λ B = 435,8 nm
Ba màu trên được gọi là ba màu cơ bản. Mỗi màu cơ bản sẽ có một màu bổ xung tương
ứng, khi pha trộn màu cơ bản và màu bổ xung của nó chúng ta sẽ nhận được màu trắng. Các cặp
màu cơ bản và màu bổ xung là: Đỏ – Lơ (Cyan), Lục – Mận chín (Magenta), Lam – Vàng
(Yellow).

Định luật thứ hai: Sự biến đổi liên tục của các hệ số công suất của các màu cơ bản sẽ dẫn
dến sự biến đổi liên tục của màu sắc tổng hợp, nó chuyển từ màu này sang màu khác.
Khi thay đổi công suất của các nguồn sáng cơ bản nhưng giữ nguyên tỷ lệ công suất thì màu
tổng hợp sẽ không thay đổi sắc độ, chỉ có sự thay đổi về độ chói mà thôi. Vì vậy, tỷ lệ tương đối
giữa ba màu cơ bản R:B:G sẽ quyết định màu sắc của màu tổng hợp.

Định luật thứ ba: Màu sắc tổng hợp của nhiều nguồn sáng chỉ xác định bởi các thành phần
màu sắc của từng nguồn sáng chứ không phụ thuộc vào thành phần phổ của chúng.

Định luật thứ tư: độ chói của màu tổng hợp bằng tổng số độ chói của các thành phần màu.

L∑ = L R + LG + L B

3.1.5.4 Không gian màu RGB


Để xác định một màu F, theo định luật trộn màu thứ nhất, ta chỉ cần biết số lượng của ba
màu cơ bản trong phương trình (3.1.9). Vì thế màu F có thể được biểu diễn bằng một điểm trong
không gian màu ba chiều rgb hay như một vector nối từ gốc tọa độ tới điểm đó, các vector màu
đơn vị sẽ là R, G, B (hình 3.1.12). Độ chói của màu F sẽ bằng chiều dài (modul) của vector F ,
sắc – tương ứng với phương hướng của F trong không gian rgb. Tổng ba vector đơn vị sẽ cho ta
màu trắng chuẩn.
g

f'F
G
F

0
r
R
B

b
Hình 3.1.12 Không gian màu rgb
Xét một màu bất kỳ trong không gian màu rgb, xác định bởi phương trình:

   90 
Chương 3 Kỹ thuật xử lý hình ảnh 

f ′F = r′R + g′ G + b′ B (3.1.11)

Ta thấy ba hệ số r ′, g′ , b′ cho ta biết cả về số lượng lẫn chất lượng của nguồn sáng. Nếu
chỉ cần xét đến chất lượng hay thành phần “sắc” của màu, chúng ta không cần biết đến giá trị
tuyệt đối r ′, g′ , b′ , mà chỉ cần biết đến số lượng tương đối giữa các thành phần màu cơ bản R, G,
B, tìm được qua các phương trình sau:

r′ r′ ⎫
r= = ;⎪
r ′ + g′ + b′ m

g′ g′ ⎪ (3.1.12)
g= = ;⎬
r ′ + g′ + b′ m ⎪
b′ b′ ⎪
b= = ⎪
r ′ + g′ + b′ m ⎭

m = r ′ + g′ + b′ = f ′ - độ chói của màu.

Chia (3.1.11) cho m ta nhận được màu F:

F = rR + gG + bB (3.1.13)

r, g, b - được gọi là tọa độ màu. Các tọa độ màu không cho ta biết về chiều dài của vector
màu, nhưng hoàn toàn xác định phương hướng của nó trong không gian màu ba chiều.

Đẳng thức (3.1.13) cho phép chúng ta biểu diễn sắc của một nguồn sáng bất kỳ như một
điểm trên hình tam giác đều RGB có chiều cao bằng 1 (hình 3.1.13). Mặt phẳng RGB còn gọi là
mặt phẳng đơn vị. Nếu vị trí của điểm màu F trong tam giác màu được biết trước, ta có thể tìm tọa
độ màu bằng cách kẻ các đoạn thẳng vuông góc từ F đến các cạnh của tam giác màu và đo chiều
dài của chúng. Nếu cho trước tọa độ màu, người ta tìm vị trí của điểm màu theo luật tìm trọng tâm
của tam giác màu. Sắc màu của những điểm nằm ngoài tam giác RGB (như điểm N trên hình
3.1.13) không thể nhận được khi ta cộng ba màu cơ sở, để nhận được sắc màu điểm N, một trong
các tọa độ màu (tọa độ màu đỏ - r) sẽ phải là âm.

Kẻ đường thẳng nối điểm N là màu quang phổ có bước sóng λN và điểm trắng đẳng năng
E, điểm N1 là điểm cắt của đường EN và BG sẽ có sắc điệu tương đương điểm N, nhưng độ sạch
màu thấp hơn ( pN < pN ). Nói cách khác, bước sóng trội của tất cả các điểm màu nằm trên
1
đường thẳng NE sẽ bằng λN - tức bước sóng của màu quang phổ N. Như vậy khi cộng ba màu R,
G, B ta có thể tạo ra tất cả các sắc điệu, nhưng không thể tạo ra mọi độ bão hòa.

   91 
Chương 3 Kỹ thuật xử lý hình ảnh 

A
500
G
550
N2
N r
N1
F
b
E g
C 600
450
B R

Hình 3.1.13 Biểu đồ màu RGB

Màu quang phổ là các màu có độ sạch màu tuyệt đối : pλ = 100% , màu trắng có độ bão
hòa pE = 0 , độ sạch màu tại điểm N1 có giá trị:

N1E
pN1 = ⋅ 100% (3.1.14)
NE
Các màu quang phổ nằm trên đường cong hình móng ngựa RGAB. Hai đầu cuối của đường
cong là điểm R và B. Sắc màu nằm trên đường thẳng RB (đỏ - mận chín) không phải là màu
quang phổ, những màu này thường gặp trong thiên nhiên. Các điểm nằm ngoài đường màu quang
phổ là những màu không có thực, vì độ sạch màu của chúng lớn hơn 100%.

Năm 1931, CIE đã đề xuất một không gian màu mới, ký hiệu là không gian XYZ. Khi thiết
kế biểu đồ màu mới người ta đặt ra những yêu cầu như sau:

1. Tất cả các màu thực phải được xác định bởi các modul màu có giá trị dương. Như
vậy tọa độ màu của tất cả các màu thực (nằm phía trong đường màu quang phổ) phải nằm trong
tam giác màu XYZ.

2. Độ chói phải được biểu diễn bằng một trục (Y)

3. Điểm trắng đẳng năng phải nằm ở trọng tâm tam giác màu XYZ.
Không gian XYZ do CIE công bố với ba màu cơ bản X,Y,Z đáp ứng được các yêu cầu trên.
Hệ tọa độ không gian XYZ được chọn làm sao cho các vector màu thực (nằm bên trong đường
màu quang phổ) đều đi qua tam giác màu đơn vị XYZ (hình 3.1.15). Như vậy, trong phương trình
màu f ′F = x′X + y′Y + z′Z các thành phần x′, y′, z′ sẽ có giá trị dương cho tất cả các màu
thực.
Các màu đơn vị X,Y,Z đều không có thực vì độ sạch màu của chúng lớn hơn 100%. Để
đánh giá màu sắc của một nguồn sáng (không tính đến độ chói của nguồn sáng đó), người ta sử
dụng tam giác màu đơn vị với các tọa độ màu x , y, z : x + y + z = 1 (hình 3.1.16).

   92 
Chương 3 Kỹ thuật xử lý hình ảnh 

Y
g

E
r
0

X
Z
b

Hình 3.1.15 Không gian màu RGB và XYZ


Quan sát tam giác màu đơn vị XZY ta thấy rằng:

1- Tất cả các màu thực đều nằm bên trong tam giác XYZ

2- Tọa độ của màu trắng đẳng năng là: xE = yE = zE = 1 / 3


3- Các màu đơn vị X.Y.Z nằm ngoài đường cong các màu quang phổ nên có độ bão hòa lớn
hơn 100%.

Để thuận tiện cho việc sử dụng, tam giác màu đơn vị XYZ được biến đổi thành biểu đồ màu
trong hệ tọa độ vuông góc xy (hình 3.1.17).
y

1.0

520
y 0.8

0.6 y F1
550 1 580
500 0.6 0.4 E
yE C
0.4 600 700
E
700 0.2
0.2
x1
0
z x 0 0.2 xE 0.4 0.6 0.8 1.0 x

Hình 3.1.16 Biểu đồ màu trên mặt Hình 3.1.17 Biểu đồ màu XYZ theo CIE

phẳng đơn vị XYZ

3.1.5.5 Hệ thống thị giác


Tuy lý thuyết xử lý ảnh chủ yếu dựa trên nền tảng lý thuyết toán và xác suất thống kê,
nhưng việc lựa chọn các phương pháp xử lý khác nhau cũng như việc đánh giá chất lượng hình
ảnh ở đầu ra của hệ thống chủ yếu dựa trên cảm nhận chủ quan của cơ quan thị giác. Vì vậy sau
đây chúng ta sẽ làm quen với một số vấn đề cơ bản về cấu tạo và khả năng phân tích hình ảnh của
hệ thống thị giác.

   93 
Chương 3 Kỹ thuật xử lý hình ảnh 

moáng maét
giaùc maïc voõng maïc

hoaøng ñieåm
thaáu kính
truïc nhìn thaàn kinh
ñieåm muø
thò giaùc
thuûy tinh
dòch

moâ maïc

Hình 3.1.18 Cấu tạo của mắt người


Trong mắt người (hình 3.1.18) phần lớn ánh sáng được hội tụ ở vùng hoàng điểm (fovea)
trên võng mạc, nơi mật độ các tế bào thần kinh thị giác lớn nhất. Có hai loại tế bào cảm nhận ánh
sáng (receptors) là tế bào hình nón (cones) và tế bào hình que (rods). Trong thành phần võng mạc
có khoảng 7 triệu tế bào hình nón và 130 triệu tế bào hình que.
Mật độ phân bố các tế bào thần kinh thị giác trên võng mạc không đồng đều. Các tế bào
hình nón tập trung tại vùng hoàng điểm, còn gọi là vùng “nhìn rõ nhất”. Vùng này có hình bầu
dục rộng 0.8 mm, dài 2 mm). Tế bào hình que phân bố xung quanh hoàng điểm. Các tế bào hình
que nhạy cảm với ánh sáng hơn tế bào hình nón, nhưng chúng không có cảm thụ về màu sắc. Tế
bào hình nón ngược lại kém nhậy cảm với sự kích thích của ánh sáng, nhưng có khả năng phân
biệt màu sắc. Theo thuyết ba thành phần cảm thụ màu của mắt người, trong võng mạc tồn tại ba
loại tế bào hình nón, các tế bào này có phản ứng khác nhau đối với các màu khác nhau. Cụ thể,
qua thí nghiệm ta thấy rằng ba loại tế bào hình nón nhạy cảm với ba màu khác nhau là Đỏ, Lục và
Lam. Sự cảm thụ màu của mắt sẽ phụ thuộc vào tỷ lệ mức độ kích thích của mỗi loại tế bào nói
trên. Các tế bào cảm quang biến đổi năng lượng ánh sáng thành các xung điện để truyền đến bộ
phận xử lý hình ảnh trong não qua hệ thống dây thần kinh thị giác (khoảng 800000 dây). Một
vùng nhỏ trên võng mạc không nhạy cảm với ánh sáng là nơi tập hợp các dây thần kinh thị giác.
Vùng này gọi là điểm mù của mắt. Sở dĩ số dây thần kinh ít hơn số tế bào cảm quang vì mỗi dây
được nối với hàng trăm tế bào hình que và hàng chục tế bào hình nón. Riêng các tế bào hình nón
trong vùng hoàng điểm được nối trực tiếp với tế bào hạch, do đó, độ phân giải của mắt tại vùng
này là cao nhất.

Phạm vi các mức sáng mà mắt có thể cảm nhận được rất rộng. Các tế bào que bắt đầu cảm
nhận được hình ảnh có độ chói từ 10-4-10-5 cd/m2, các tế bào nón từ 1 cd/m2. Khi độ chói xấp xỉ
10 cd/m2 các tế bào que bị “loá” dần vì lúc này, tốc độ phân hủy rodopxin lớn hơn tốc độ tái tạo,
do đó lượng rodopxin trong các tế bào hình que giảm đi nhanh chóng. Ở độ chói từ 10-104 cd/m2,
chỉ còn các tế bào nón làm việc. Phản ứng quang - hoá học nói trên và cơ chế tự điều chỉnh lượng
ánh sáng đi vào võng mạc là nguyên nhân để mắt có phạm vi cảm nhận ánh sáng rộng như vậy
(~109).
Tuy nhiên mắt không thể cảm nhận được cùng một lúc tất cả mức sáng trong phạm vi rộng
như đã nói trên. Trên thực tế, mắt người chỉ có thể cảm nhận một khoảng nhỏ giới hạn từ
Lmin ÷ Lmax xung quanh mức chói trung bình của ảnh, khoảng này ta gọi là phạm vi động của
mắt. Đối với hình ảnh có mức chói trung bình nào đó, tất cả mức chói lớn hơn Lmax sẽ cảm nhận
như mức trắng, tất cả mức chói nhỏ hơn Lmin sẽ được cảm nhận như mức đen. Khi mức chói

   94 
Chương 3 Kỹ thuật xử lý hình ảnh 

trung bình Ln thay đổi, mắt người sẽ tự động điều tiết để di chuyển phạm vi động theo Ln . Đây
chính là tính chất thích nghi với độ sáng của mắt người. Thí nghiệm cho thấy, khi mức sáng tăng
lên, thời gian mắt điều tiết để thích nghi với mức mới rất nhanh (khoảng vài giây). Ngược lại, khi
mức chiếu sáng giảm thì mắt điều tiết để thích nghi tương đối chậm (khoảng vài phút).
Khả năng mắt người cảm nhận sự thay đổi độ chói là không liên tục.

Hình 3.1.22 Khảo sát khả năng cảm nhận độ chói của mắt người

Nếu tăng dần độ chói của chi tiết trong một ảnh từ mức chói nền Ln (hình 3.1.22), lúc đầu
mặc dù đã có sự khác biệt về độ chói giữa chi tiết và nền, nhưng người quan sát không phát hiện
ra chi tiết này. Khi mức chênh lệch đạt tới ngưỡng nhất định, người quan sát bắt đầu nhận dạng
được chi tiết ảnh.

Người ta định nghĩa ngưỡng cảm nhận ánh sáng tuyệt đối của mắt ε
là đại lượng ngược
với giá trị độ chói nhỏ nhất của điểm sáng trên nền đen mà mắt phát hiện được trong bóng tối:
ε = 1 / Lmin . Trên thực tế ta thường gặp hình ảnh có khoảng chói động là Lmin ÷ Lmax và có độ
chói của nền là Ln . Độ tương phản của ảnh là tỷ lệ k = Lmax / Lmin .
Các chi tiết ảnh có độ chói khác với độ chói nền, mức chênh lệch độ chói là
ΔL = ( L − Ln ) , nếu ΔLmin là mức khác biệt nhỏ nhất mà mắt còn nhận biết được, thì tỷ lệ

ΔLmin / Ln = ( ΔL / Ln )mi n = σ gọi là ngưỡng tương phản. Giá trị σ phụ thuộc vào kích
thước của chi tiết hình ảnh và độ chói của nền.

Kết luận quan trọng rút ra được ở đây là giá trị ngưỡng tương phản của mắt người σ > 0 ,
hay nói cách khác, khả năng cảm nhận độ tương phản của mắt mang tính rời rạc (tương tự như độ
phân giải của mắt). Chính vì vậy, số lượng các mức xám cần có là hữu hạn trong dải động các
mức chói Lmin ÷ Lmax của ảnh số.
Số lượng mức xám mà mắt người cảm nhận được cùng một lúc phụ thuộc vào giá trị
ngưỡng tương phản và độ tương phản của ảnh:

ln k
m= +1 (3.1.15)
ln (1 + σ )
Thay vào công thức (3.1.15) giá trị độ tương phản trung bình của hình ảnh trên màn hình
hiển thị:k = 100 , giá trị ngưỡng tương phản σ = 0.03...0.04 , ta nhận được số sọc xám cực
đại để mắt cảm nhận được sẽ là m = 100 ÷ 150 .

Nguồn ánh sáng bên ngoài Lng chiếu vào màn hình sẽ làm giảm độ tương phản của ảnh

   95 
Chương 3 Kỹ thuật xử lý hình ảnh 

gốc, độ tương phản trong trường hợp này là:

Lmax + Lng L
k′ = < k = max , (3.1.16)
Lmin + Lng Lmin

do đó số mức xám tính theo (3.1.15) cũng sẽ giảm đi.

3.1.5.6 Biểu diễn tín hiệu hình ảnh trong không gian và thời gian
3.1.5.6.1 Hình ảnh tương tự

Như đã đề cập tới ở phần trên, hình ảnh có thể biểu diễn bằng hàm 2 chiều f ( x , y ) . Giá
trị hàm f tại điểm có tọa độ không gian (x,y) là độ chói của điểm ảnh (x,y). Đa số ảnh sử dụng
trong tài liệu này này là ảnh đen – trắng, độ chói của các điểm ảnh nằm trong phạm vi nhất định
từ L min tới Lmax . Nếu ảnh được tạo ra bởi quá trình vật lý thì giá trị các điểm ảnh sẽ tỷ lệ thuận
với năng lượng của nguồn bức xạ, ví dụ năng lượng sóng điện từ, khi đó hàm f ( x , y ) là hữu
hạn: 0 < f ( x , y ) < ∞ .

Giá trị hàm f ( x , y ) phụ thuộc vào lượng ánh sáng rọi lên cảnh vật và lượng ánh sáng
phản xạ lại từ cảnh vật đó:

f ( x, y ) = i ( x, y ) r ( x, y ) (3.1.17)

với 0 < i ( x , y ) < ∞ , 0 < r ( x , y ) < 1

i ( x , y ) - Hàm biểu diễn độ rọi sáng của nguồn lên bề mặt cảnh vật.

r ( x, y ) - Hàm mô tả tính phản xạ (hay hấp thụ) ánh sáng của các vật thể trong cảnh vật.

Giá trị độ lớn của điểm ảnh đen-trắng có tọa độ ( x0 , y0 ) được gọi là mức xám hay độ chói

của ảnh tại điểm này: l = ( x0 , y0 ) ; độ chói nằm trong khoảng L min < l < Lmax - được gọi là
thang xám. Thường mức xám nhỏ nhất được quy về mức 0 (mức đen) , còn mức trắng sẽ tương
ứng với giá trị độ chói lớn nhất l = L − 1 .

3.1.5.6.2 Quá trình lấy mẫu và lượng tử hóa tín hiệu hình ảnh
Tín hiệu hình ảnh nhận được từ cảm biến quang điện thường có dạng tương tự, ví dụ tín
hiệu điện áp có biên độ thay đổi liên tục theo độ chói của ảnh nguồn. Để có thể đưa tín hiệu hình
ảnh này vào xử lý bằng máy tính cần thực hiện quá trình số hóa thông qua ba giai đoạn: lấy mẫu,
lượng tử hóa và mã hóa.

Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 3.1.23. Tín hiệu mang tin
tức về độ chói của một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ
biến đổi liên tục (hình 3.1.23). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều
đoạn bằng nhau. Giá trị tín hiệu tại các điểm lấy mẫu được đánh dấu ô vuông trên đồ thị. Theo
định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn nhất trong phổ
tín hiệu tương tự, thì tập hợp các mẫu rời rạc nhận được hoàn toàn xác định tín hiệu đó.

   96 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

Để biến đổi tiếp


Đ t tín hiệu thành dạng ssố, chúng ta phải thực hiện giai đoạn lượng tử hóa các
mẫu vừ ừa nhận đượợc. Đây là quuá trình rời rạạc tín hiệu thheo biên độ. Trên hình 3..1.23 thangg xám
được chia
c thành 8 mức rời rạc từ mức trắngg tới mức đeen. Lượng tử ử hóa được thhực hiện đơnn giản
bằng cách
c tìm giá trị
t mức lượnng tử gần giốnng nhất với giá g trị thực ccủa mẫu và gán giá trị nàyy cho
mẫu ảnnh. Biên độ các
c mẫu ảnh sau khi lượnng tử sẽ đượcc mã hóa (bằnng mã nhị ph hân) để nhận được
tín hiệu video số. Kết
K quả nhận n được sau khhi lấy mẫu, lượng
l tử hóa và mã hóa là
l chuỗi số rờời rạc
mô tả biến đổi độ chói trong mộtm dòng ảnhh. Nếu thực hiện quá trìnnh số hóa ch ho tất cả các dòng
ảnh từ trên xuống dưới,
d chúng ta
t sẽ nhận đưược ảnh số tro ong không giian hai chiều
u.

Hình 3.1.23 Quá trìnnh số hóa tìn hiệu video

Khi sử dụng
K g chip cảm biến CCD, tínn hiệu hình ảnh
ả đã đượcc rời rạc tronng không giaan hai
chiều. Cấu trúc kh
hung lấy mẫẫu hai chiều phụ thuộc vào
v phương pháp phân bố b các điểm
m cảm
quang theo chiều ngang
n và chiiều dọc trên bề mặt CCD
D. Chất lượngg hình ảnh số
s nhận đượcc phụ
thuộc vào số lượngg điểm ảnh cũng như sốố mức lượng tử được sử dụng trong quá trình mãã hóa
(hình 3.1.24).
3

a) b)

Hìnnh 3.1.24 Quá trình hình tthành ảnh rờii rạc trong chhip CCD
a - Ảnh tương tự

b - Ảnh rời rạc trên bbề mặt CCD

3
3.1.5.7 Tín hiệu
h video

động
hay tín
n hiệu video λ p
:
Chương 3 Kỹ thuật xử lý hình ảnh 

L = f L ( x, y , z , t ) ; ⎫

λ = f λ ( x, y , z, t ) ; ⎬ (3.1.18 )

p = f p ( x, y , z, t ) . ⎭

x, y , z - tọa độ trong không gian 3 chiều, t - thời gian.


Những phương trình trong (3.1.18) xác định độ chói (L) và màu sắc ( λ , p ) cho từng điểm
thay đổi trong không gian và thời gian. Hệ thống truyền hình hiện nay là hệ thống truyền hình
phẳng, do đó hàm mô tả ảnh truyền hình đen trắng là hàm ba chiều: L = f L ( x, y, t ) . Như vậy,
để khôi phục ảnh bên phía thu, ngoài giá trị độ chói tức thời L cần phải xác định chính xác vị trí
của điểm sáng trong không gian màn hình (hai chiều).
Khi biến đổi tín hiệu hình ảnh ba chiều thành tín hiệu điện một chiều người ta dựa trên hai
nguyên tắc chính là rời rạc hình ảnh (trong không gian và thời gian) và quét hình. Rời rạc hình
ảnh trong không gian là phương pháp chia nhỏ hình ảnh ra thành một số hữu hạn các thành phần
tử rời rạc. Một phần tử của hình ảnh là chi tiết nhỏ nhất của ảnh có độ chói và sắc màu không thay
đổi trên diện tích chi tiết đó. Về mặt lý thuyết, số lượng phần tử ảnh càng nhiều thì độ nét của ảnh
càng cao. Nhưng trên thực tế, do sự hạn chế về độ phân giải của mắt người, hình ảnh chỉ cần phân
chia ra thành các phần tử có kích thước nhỏ vừa đủ để mắt người không nhận ra cấu trúc rời rạc
của ảnh (hình 3.1.25). Chia nhỏ thêm những phần tử này không làm cho hình ảnh rõ nét thêm
(theo cảm nhận của mắt), trong khi đó, lượng thông tin sẽ tăng lên nhiều lần.

Hình 3.1.25 Ma trận các điểm ảnh rời rạc ảnh và "phần tử" ảnh

Sau khi hình ảnh được rời rạc, các phần tử có thể được mã hoá và truyền đi riêng rẽ sang
bên thu. Nhưng chúng ta không thể truyền song song tất cả các phần tử vì khi đó cần đến rất nhiều
kênh truyền. Để giải quyết vấn đề này, trong hệ thống truyền hình người ta sử dụng nguyên tắc
quét hình: nguyên tắc truyền lần lượt theo thời gian từng phần tử hình ảnh. Nguyên tắc này dựa
trên đặc điểm lưu ảnh của mắt người. Sự lưu ảnh là khả năng mà người xem nhớ lại ấn tượng về
ảnh trong một thời gian nào đó (~0.1- 0.3 giây) sau khi tác động của ảnh đó đã chấm dứt. Chính vì
vậy, để truyền đi một hình ảnh tĩnh, ta “chiếu” lần lượt tất cả các phần tử của một ảnh tĩnh lên
màn hình, vào đúng vị trí tương đương của các phần tử đó như trong hình ảnh đã được truyền đi.
Nếu tốc độ “chiếu” một hình nhanh hơn thời gian lưu ảnh thì mắt người xem sẽ thu nhận và lưu
lại tất cả các phần tử đã truyền đi để tái tạo ra một ảnh tĩnh hai chiều. Quá trình truyền lần lượt các
phần tử của ảnh gọi là quá trình quét (scanning) ảnh.

Tiếp theo, khi "chiếu" nhiều ảnh tĩnh nhận được bằng phương pháp trên với tần số tương
đối lớn (trên 10 hình/giây), trong đó mỗi ảnh là một pha của hình ảnh chuyển động, thì người xem
sẽ có cảm giác như đang quan sát chuyển động liên tục. Tần số ảnh được lựa chọn để đáp ứng hai
yếu cầu: 1- Tạo cảm giác về quá trình chuyển động liên tục của ảnh; 2- Ảnh động tái tạo trên màn

   98 
Chương 3 Kỹ thuật xử lý hình ảnh 

hình không bị chớp. Trong các hệ truyền hình đại chúng, tần số được chọn là 25 (hoặc 30)
ảnh/giây. Khi quét theo phương pháp xen kẽ, người ta chia ảnh thành 2 mành, trong mành đầu tiên
sẽ được truyền đi các dòng lẻ 1, 3, 5 …, trong mành tiếp theo truyền đi các dòng chẵn 2, 4, 6
…(hình 3.1.26). Như vậy toàn bộ ảnh sẽ được chia ra làm 2 mành. Tần số ảnh sẽ là 25 (30) Hz,
tần số mành là 50 (60) Hz.

Hình 3.1.26 Quá trình quét hình xen kẽ

Tín hiệu video được tạo ra tại ống ghi hình bằng phương pháp quét xen kẽ, tuyến tính từ trái
sang phải, trên xuống dưới là hàm của thời gian, giá trị hàm tỷ lệ thuận với độ chói của các phần
tử ảnh truyền hình. Tín hiệu video đầy đủ (hình 3.1.28) bao gồm các thành phần sau: tín hiệu
video, tín hiệu đồng bộ dòng và mành, tín hiệu xoá. Trong tín hiệu video màu còn có thêm thành
phần mang tin tức về màu sắc của các dòng ảnh.

Hình 3.1.28 Hình dạng tín hiệu video

Tín hiệu video có các đặc điểm sau:


- Tín hiệu video là tín hiệu mang tính chất xung: ngoài các xung đồng bộ và xung xóa, trong
tín hiệu video thường có sự thay đổi biên độ đột ngột, tạo ra biên trước và biên sau của các "xung
hình";

- Tín hiệu video là tín hiệu đơn cực, có thành phần một chiều;
- Tín hiệu video có thể được coi là tín hiệu tuần hoàn với tần số lặp lại là
f H = 1/ T H ; fV = 1/ TV ;
Tín hiệu video tương tự cũng như tín hiệu ảnh tĩnh phải được số hóa trước khi đưa vào hệ
thống xử lý số. Cũng như trong các hệ thống xử lý tín hiệu một chiều, quá trình số hóa tín hiệu

   99 
Chương 3 Kỹ thuật xử lý hình ảnh 

hình ảnh cũng chia thành ba giai đoạn:

1- Rời rạc tín hiệu trong miền không gian 2 chiều, đây là quá trình lấy mẫu

2- Số lượng vô hạn các mức xám trong tín hiệu hình ảnh tương tự được thay bằng số lượng
hữu hạn các mức lượng tử, đây là quá trình lượng tử hóa tín hiệu
3- Mỗi mức lượng tử được biểu diễn bằng một số nhị phân - mã hóa tín hiệu

Quá trình số hóa tín hiệu hình ảnh trong không gian hai chiều có thể được thực hiện với
nhiều cấu trúc lấy mẫu khác nhau và các bước lượng tử khác nhau nhằm giảm dung lượng tín hiệu
số nhận được. Tuy nhiên, trên thực tế cấu trúc lấy mẫu trong đa số trường hợp có dạng trực giao
(hình chữ nhật) với giá trị bước lượng tử không thay đổi, vì khi đó quá trình số hóa sẽ đơn giản
nhất. Khi sử dụng cấu trúc lấy mẫu trực giao, ảnh số nhận được dưới dạng ma trận các điểm ảnh
phân bố theo dòng và cột.
Quá trình lấy mẫu tín hiệu video phải thỏa mãn định lý lấy mẫu Nyquist. Ví dụ: Tín hiệu
video hệ PAL có bề rộng phổ BPAL = 5.0 MHz , tần số lấy mẫu theo Nyquits phải ≥ 10MHz .

Trên thực tế, tần số lấy mẫu thường được lựa chọn cao hơn để tăng khoảng cách giữa dải
phổ chính và phổ phụ của tín hiệu video rời rạc, khi đó thành phần phổ chính có thể được tách ra
(trong quá trình khôi phục ảnh gốc) bằng các mạch lọc thông thấp đơn giản. Ngoài ra, tín hiệu
video tổng hợp (bao gồm thành phần màu) được lấy mẫu với tần số là bội số của tần số sóng mang
phụ fs (sóng mang màu). Với hệ PAL, tần số lấy mẫu sẽ là 3 fs (13,3 MHz) hoặc 4 fs (17,7 MHz).

Trong hệ thống số hóa tín hiệu video theo thành phần, ba tín hiệu R, G, B hoặc thành phần
chói Y và hai tín hiệu hiệu màu R-Y, B-Y sẽ được lấy mẫu với tần số đáp ứng định lý Nyquist và
là bội số của tần số dòng theo cả 2 tiêu chuẩn 525 và 625 dòng/ ảnh. Tiêu chuẩn CCIR-601 cho
phép sử dụng tần số lấy mẫu là 13,5 MHz. Số bít dùng để mã hóa tín hiệu video là 8 hoặc 10 bits.
Các tiêu chuẩn lấy mẫu video thành phần: có nhiều tiêu chuẩn lấy mẫu theo thành phần,
điểm khác nhau chủ yếu là tỷ lệ giữa tần số lấy mẫu của tín hiệu chói và tín hiệu màu (hoặc tín
hiệu hiệu màu CR và CB): đó là các tiêu chuẩn 4:4:4, 4:2:2, 4:2:0, 4:1:1.

- Tiêu chuẩn 4:4:4: Tín hiệu chói và màu được lấy mẫu tại tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video. Cấu trúc lấy mẫu trực giao (hình 3.1.29)

Hình 3.1.29 Cấu trúc lấy mẫu theo chuẩn 4:4:4

Tiêu chuẩn lấy mẫu 4:4:4 cho chất lượng hình ảnh tốt nhất, thuận tiện cho việc xử lý tín
hiệu video số. Tuy nhiên, với phương pháp lấy mẫu này, tốc độ dòng dữ liệu video số sẽ tương
đối cao, ví dụ khi số hóa tín hiệu video có độ phân giải 720x576 (hệ PAL), 8 bít lượng tử /điểm
ảnh, 25 ảnh/s luồng dữ liệu số nhận được sẽ có tốc độ : 3x720x576x8x25= 249Mbits/s.

   100 
Chương 3 Kỹ thuật xử lý hình ảnh 

- Tiêu chuẩn 4:2:2: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích
cực của tín hiệu video. Hai tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số
lấy mẫu tín hiệu chói (hình 3.1.30)

Hình 3.1.30 Cấu trúc lấy mẫu theo chuẩn 4:2:2


- Tiêu chuẩn 4:2:0: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích
cực của tín hiệu video. Cách một điểm lấy mẫu một tín hiệu màu. Tại các dòng lẻ chỉ lấy mẫu tín
hiệu màu CR, tại dòng chẵn lấy mẫu tín hiệu CB. Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD,
thì tần số lấy mẫu tín hiệu màu sẽ là fD/2.

Hình 3.1.31 Cấu trúc lấy mẫu theo chuẩn 4:2:0


- Tiêu chuẩn 4:1:1: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích
cực của tín hiệu video. Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng một phần tư tần
số lấy mẫu tín hiệu chói (hình 3.1.32). Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số
lấy mẫu tín hiệu màu CR và CB sẽ là fD/4.

Hình 3.1.32 Cấu trúc lấy mẫu theo chuẩn 4:1:1

3.1.5.8 Biểu diễn tín hiệu ảnh số


Sau khi số hóa tín hiệu hình ảnh theo các phương pháp đã nêu ở trên, chúng ta nhận được
ma trận giá trị mức xám của các điểm ảnh. Các điểm ảnh rời rạc được sắp xếp theo cột và hàng

   101 
Chương 3 Kỹ thuật xử lý hình ảnh 

như trên hình 3.1.33. Tọa độ của các điểm ảnh (x,y) là rời rạc. Gốc tọa độ nằm tại góc trên bên
trái của ảnh ( x, y ) = ( 0,0 ) .

Hình 3.1.33 Hệ tọa độ để biểu diễn ảnh số

Như vậy, chúng ta có thể biểu diễn ảnh số nói trên như ma trận kích thước MxN:

⎡ f ( 0, 0 ) f ( 0,1) ... f ( 0, N − 1) ⎤
⎢ ⎥
f (1, 0 ) f (1,1) ... f (1, N − 1)
f ( x, y ) = ⎢⎢ ⎥
⎥ (3.1.19)
⎢ ⎥
⎢⎣ f ( M − 1, 0 ) f ( M − 1,1) ... f ( M − 1, N − 1) ⎥⎦

Mỗi phần tử của ma trận được gọi là 1 điểm ảnh (image element hay pixel).
M và N phải là số nguyên dương. Số lượng mức xám có thể gán cho 1 điểm ảnh (L) thường
được lựa chọn sao cho L = 2 k , k là số nguyên dương.

Như vậy, số lượng bits được sử dụng để biểu diễn 1 ảnh số sẽ được xác định theo công
thức: b = M× N×k.
Ví dụ: ảnh số hiển thị trên màn hình VGA với độ phân giải 640x480 điểm, số lượng các
mức xám là 256 (8 bits/mẫu) có thể được lưu lại trong bộ nhớ có kích thước M bằng:
M = 640 × 480 × 8 = 2 457 600 bits .
3.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số
Tín hiệu hình ảnh tĩnh sau khi được số hóa có thể được lưu trữ dưới dạng ma trận 2 chiều
các bits. Các dòng và cột của ma trận sẽ tương ứng với dòng và cột các phần tử ảnh (pixel). Đối
với ảnh động (video), kết quả quá trình số hóa sẽ là ma trận 3 chiều cho thấy phân bố các điểm
ảnh trong không gian theo hàng và cột cũng như quá trình biến đổi hình ảnh trong miền thời gian.

Quá trình biến đổi tín hiệu trong hệ thống xử lý ảnh số có thể được mô tả bằng các thuật
toán trong miền không gian và thời gian hoặc trong các không gian tín hiệu khác dựa trên các
phép biến đổi ánh xạ không gian, ví dụ biến đổi Fourier, biến đổi Karhumen Loeve v.v. Trong
phần này chúng ta sẽ làm quen với công cụ toán học thường dùng để mô tả quá trình xử lý ảnh
trong không gian và các phép biến đổi không gian một và hai chiều (được sử dụng rộng rãi trong

   102 
Chương 3 Kỹ thuật xử lý hình ảnh 

các hệ thống lọc và nén ảnh).

Song song với việc trình bày lý thuyết toán, trong phần này sẽ đưa ra các ví dụ minh họa
một số kỹ thuật biến đổi hình ảnh cụ thể. Nhiều ví dụ sẽ được thực hiện dựa trên phần mềm
Matlab. Đây là một công cụ tính toán được xây dựng trên cơ sở các phép xử lý ma trận rất thích
hợp cho việc mô tả các giải thuật xử lý ảnh số.

3.1.6.1 Các toán tử không gian


a) Hệ thống tuyến tính
Hệ thống xử lý tín hiệu số nói chung và xử lý ảnh nói riêng đều có thể được mô tả thông
qua phương trình vào-ra sau:

y ( m, n ) = T ⎡⎣ x ( m, n ) ⎤⎦ (3.1.21)

x ( m, n ) - ảnh số đưa vào hệ thống (là tín hiệu 2 chiều);

y ( m, n ) - ảnh số tại đầu ra hệ thống;

T – toán tử đặc trưng của hệ thống.

Trong giáo trình này, chúng ta sẽ quan tâm chủ yếu đến các hệ thống tuyến tính. Hệ thống
biểu diễn bởi (3.1.21) được gọi là tuyến tính khi và chỉ khi:

T ⎡⎣ ax1 ( m, n ) + bx2 ( m, n ) ⎤⎦ = aT ⎡⎣ x1 ( m, n ) ⎤⎦ + bT ⎡⎣ x2 ( m, n ) ⎤⎦ =
(3.1.22)
= ay1 ( m, n ) + by2 ( m, n )

a và b là các hằng số bất kỳ.

Các toán tử thực hiện với ảnh 2 chiều thường có tính chất tuyến tính, ví dụ các phép dịch
chuyển trong không gian, phép chập, các phép biến đổi thực hiện quá trình lọc tuyến tính mà
chúng ta sẽ xét ở các chương sau.
b) Xung đơn vị trong không gian 2 chiều

Xung đơn vị được sử dụng rộng rãi để mô tả các tác động trực tiếp lên điểm ảnh trong
không gian.

⎧1 khi m = n
δ ( m, n ) = ⎨ (3.1.23)
⎩0 khi m ≠ n

δ ( m − A, n − B ) là điểm ảnh có mức chói tối đa tại vị trí (A,B) trong không gian.
Đáp ứng xung của hệ thống là tín hiệu nhận được khi xung đơn vị tác động lên hệ thống:

h [ m, n ] = T ⎡⎣δ ( m, n ) ⎤⎦ (3.1.24)

c) Mô tả quá trình biến đổi tín hiệu trong không gian 2 chiều
Cho ảnh số gốc là ma trận các điểm ảnh có kích thước NxN. Trong trường hợp tổng quát,
đáp ứng của hệ thống tuyến tính đối với tín hiệu vào có thể tìm được thông qua đáp ứng xung như
sau:

   103 
Chương 3 Kỹ thuật xử lý hình ảnh 

N −1 N −1
y ( m, n ) = ∑ ∑ x ( l , k ) h ( m, l ; n, k ) (3.1.25)
l =0 k =0

Khi hệ thống xử lý số là tuyến tính và bất biến, ta có thể tìm được ảnh kết quả thông qua
ảnh gốc và đáp ứng xung của hệ thống như sau:
N −1 N −1
y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k ) (3.1.26)
l =0 k =0

hay y ( m, n ) = x ( m, n ) ⊗ h ( m, n ) (3.1.27)

3.1.6.2 Các phép tính với vector và ma trận


Đối với tín hiệu hình ảnh, các thuật toán nói trên thường được thực hiện trên ma trận các
điểm ảnh hai chiều, do đó phần này sẽ giới thiệu sơ lược về ma trận và các phép toán thực hiện
trên ma trận.

a) Vector

Vector cột (ma trận cột) f , kích thước Nx1 là tập hợp các phần tử f ( n ) với n=1, 2, ..., N
sắp xếp theo cột dọc:

⎡f (1) ⎤
⎢ ⎥
⎢f (2) ⎥
⎢ ⎥ (3.1.28)
f =⎢ ⎥
⎢f ( j) ⎥
⎢ ⎥
⎢ ⎥
⎢f
⎣ ( )⎥⎦
N

Vector dòng (ma trận dòng) h, kích thước 1xN là tập hợp các phần tử f ( n ) với n=1, 2, ...,

N sắp xếp theo dòng ngang: f = ⎡⎣ f (1) , f ( 2 ) ... f ( j ) ... f ( N ) ⎤⎦ (3.1.29)

b) Ma trận
Ma trận F, kích thước MxN là tập hợp các phần tử F(m,n) với m=1,2,..,M, n=1,2,...,N được
sắp xếp thành M hàng và N cột như sau:

⎡ F (1,1) F (1, 2 ) ..... F (1, N ) ⎤


⎢ ⎥
⎢ F ( 2,1) F ( 2, 2 ) ..... F ( 2, N ) ⎥
F=⎢ ⎥ (3.1.30)
...............................................
⎢ ⎥
⎢⎣ F ( M ,1) F ( M , 2 ) ..... F ( M , N ) ⎥⎦

Lưu ý rằng, khi sử dụng phần mềm Matlab, địa chỉ của mỗi điểm ảnh được xác định khác so
với phương pháp biểu diễn ảnh số được quy định ở phần trên: điểm ảnh trên cùng bên trái trong
ma trận của Matlab là điểm F(1,1).

Ma trận NxN được gọi là ma trận vuông cấp N. Trong ma trận vuông, tập hợp các phần tử
F(1,1), F(2,2),..F(NN) được gọi là đường chéo chính, đường chéo còn lại gọi là đường chéo phụ.

   104 
Chương 3 Kỹ thuật xử lý hình ảnh 

Ma trận vuông có các phần tử ngoài đường chéo chính bằng 0 gọi là ma trận chéo. Ma trận
chéo với các phần tử trên đường chéo bằng 1 gọi là ma trận đơn vị, ký hiệu là In.

c) Cộng ma trận

Tổng ma trận C=A+B chỉ xác được định khi A và B có cùng kích thước MxN. C cũng có
kích thước MxN, các phần tử của C là: C(m,n)= A(m,n)+B(m,n).

d) Nhân ma trận

Tích hai ma trận C=AB chỉ xác định khi số lượng cột của A bằng số dòng của B. Khi nhân
ma trận A có kích thước MxP với B - PxN ta nhận được C có kích thước MxN:

P
C ( m, n ) = ∑ A ( m, p )B ( p, n ) (3.1.31)
p =1

Tích của hai ma trận không có tính giao hoán.

Tích của ma trận vuông A và ma trận đơn vị cùng cấp B chính là ma trận A.

e) Ma trận nghịch đảo

Ma trận nghịch đảo của ma trận vuông A là ma trận A−1 nếu: AA−1 = I và A−1 A = I .

Nếu tồn tại ma trận nghịch đảo của ma trận A cấp n thì A được gọi là khả nghịch.

Ma trận đơn vị I có nghịch đảo là chính nó.


f) Ma trận chuyển vị

Ma trận chuyển vị của A thu được bằng cách đổi chỗ hàng thành cột và cột thành hàng và
giữ nguyên thứ tự các phần tử trên hàng. Ma trận chuyển vị của A ký hiệu là AT .

Nếu A = AT , ma trận A được gọi là ma trận đối xứng. Ma trận nhận được khi cộng A + AT
và nhân AAT là ma trận đối xứng.
g) Tích vô hướng (scalar product) hai vector f và g kích thước Nx1:

k = g Tf = f Tg ,
N (3.1.32)
k = ∑g(n)f (n)
n =1

h) Tích ma trận của hai vector f kích thước Mx1 và g kích thước Nx1 là ma trận:

A=gf T ,
(3.1.33)
A(m, n) = g ( m ) f ( n )

i) Tích chập hai ma trận

Như chúng ta đã biết, đối với các hệ thống xử lý tín hiệu rời rạc tuyến tính và bất biến quan

   105 
Chương 3 Kỹ thuật xử lý hình ảnh 

hệ giữa đáp ứng (dãy ra) và kích thích (dãy vào) của hệ thống được mô tả theo (3.1.23):
N −1 N −1
y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k ) (3.1.34)
l =0 k =0

Đối với hệ thống xử lý ảnh, tín hiệu vào và đáp ứng xung thường được biểu diễn dưới dạng
ma trận hai chiều, do đó để mô tả tác động của hệ thống lên tín hiệu ta cần tìm tích chập hai ma
trận. Tích chập hai ma trận kích thước M1 × N1 và M 2 × N 2 sẽ là ma trận có kích thước
( M1 + M 2 − 1) × ( N1 + N 2 − 1) .
Ví dụ:

Hình 3.1.34 Cách tìm tích chập hai ma trận

Khi tìm giá trị tích chập cho các điểm nằm tại biên của ảnh ví dụ điểm y(1,1) (hình 3.1.34),
các điểm ảnh không tồn tại trong x(m,n) phải được chèn các giá trị nhất định. Có nhiều quy tắc
chèn giá trị mức xám như: mặc định bằng 0, lặp lại các giá trị mức xám trên đường biên của ảnh
v.v.

k) Biến đổi ma trận thành một vector (stacking operator)


Trong một số trường hợp, việc phân tích hình ảnh 2 chiều sẽ đơn giản hơn khi ma trận F các
điểm ảnh hai chiều ( N1 × N 2 ) được biến đổi thành vector cột có kích thước ( N1 N 2 ,1), để làm
được như vậy, chúng ta sắp xếp lần lượt các cột (hay hàng) của F thành 1 vector dài.

Thao tác trên có thể được mô tả thông qua vector vn ( N 2 ×1 ) và ma trận Nn (


N1 N 2 × N1 ):

⎡0 ⎤ 1
⎢ ⎥
⎢ ⎥
⎢0 ⎥ n − 1
⎢ ⎥ (3.1.35)
vn = ⎢1 ⎥ n
⎢0 ⎥ n + 1
⎢ ⎥
⎢ ⎥
⎢0 ⎥ N
⎣ ⎦ 2

   106 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎡ [0] ⎤ ⎧
⎢ ⎥ ⎪
⎢ ⎥ ⎨( n − 1) zeros matrix (N1 × N1 )
⎢ [0] ⎥ ⎪
⎢ ⎥ ⎩
⎢ ⎡1 0 … 0 ⎤ ⎥ ⎧
⎢⎢ ⎥ ⎥ ⎪ th (3.1.36)
0 1 … 0 ⎥ ⎪ n unit matrix
Nn = ⎢⎢ ⎥ ⎨
⎢⎢ ⎥ ⎥
⎢⎢ ⎪
⎥⎥ ⎪⎩
⎢⎣ 0 0 … 1 ⎦⎥
⎢ ⎥
⎢ [0] ⎥ ⎧
⎢ ⎥ ⎪⎨( N 2 − n ) zeros matrix (N1 × N1 )
⎢ ⎥ ⎪
⎢⎣ [0] ⎥⎦ ⎩

Ma trận F sẽ được biến đổi thành vector f như sau:


N2
f = ∑ N n Fv n (3.1.37)
n =1

Biến đổi nghịch từ f thành F là:


N2
F= ∑ NTn f v Tn (3.1.38)
n=1

Sở dụng công thức (3.1.37) và (3.1.38) có thể dễ dàng xác định quan hệ giữa hai phương
pháp biểu diễn hình ảnh thông qua ma trận và vector. Phương pháp biểu diễn dưới dạng vector
giúp thu gọn đáng kể các công thức mô tả quá trình xử lý ảnh và cho phép chúng ta áp dụng
những phương pháp xử lý tín hiệu một chiều trong xử lý ảnh.

Ví dụ: Biến đổi ma trận F (3x3) thành vector f

⎡1 4 7⎤ ⎡1 ⎤ ⎡ 0⎤ ⎡ 0⎤
F = 2 5 8 , v1 = 0 ; v 2 = 1 ; v 3 = ⎢ 0 ⎥ ,
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ 3 6 9 ⎥⎦ ⎢⎣0 ⎥⎦ ⎢⎣ 0⎥⎦ ⎢⎣1 ⎥⎦
⎡1 0 0⎤ ⎡0 0 0 ⎤ ⎡0 0 0 ⎤
⎢0 1 0⎥ ⎥ ⎢ ⎥ ⎢0 0 0 ⎥
⎢ ⎢0 0 0 ⎥ ⎢ ⎥
⎢0 0 1⎥ ⎢0 0 0 ⎥ ⎢0 0 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢1 0 0 ⎥ ⎢0 0 0 ⎥
N1 = ⎢ 0 0 0 ⎥ ; N 2 = ⎢0 1 0 ⎥ ; N 3 = ⎢0 0 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢0 0 1 ⎥ ⎢0 0 0 ⎥
⎢0 0 0⎥ ⎢0 0 0 ⎥ ⎢1 0 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢0 0 0 ⎥ ⎢0 1 0 ⎥
⎢0 0 0 ⎥⎦ ⎢0 0 0 ⎥ ⎢0 0 1 ⎥
⎣ ⎣ ⎦ ⎣ ⎦
N2
f= ∑ N n Fv n = N1 Fv1 + N 2 Fv 2 + N 3 Fv 3
n=1

   107 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎡1 0 0⎤ ⎡1 0 0⎤ ⎡1 ⎤
⎢0 1 0⎥⎥ ⎢0 1 0⎥⎥ ⎢2⎥
⎢ ⎢ ⎢ ⎥
⎢0 0 1⎥ ⎢0 0 1⎥ ⎢3 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0 ⎥ ⎡1 4 7 ⎤ ⎡1 ⎤ ⎢0 0 0 ⎥ ⎡1 ⎤ ⎢0 ⎥
N1 Fv1 = ⎢0 0 0 ⎥ ⎢⎢ 2 5 8 ⎥⎥ ⎢⎢0 ⎥⎥ = ⎢0 0 0 ⎥ ⎢⎢ 2 ⎥⎥ = ⎢0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0 ⎥ ⎢⎣ 3 6 9 ⎥⎦ ⎣⎢0 ⎦⎥ ⎢0 0 0 ⎥ ⎣⎢ 3 ⎦⎥ ⎢0 ⎥
⎢0 0 0⎥ ⎢0 0 0⎥ ⎢0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢0 0 0⎥ ⎢0 ⎥
⎢0 0 0⎦⎥ ⎢0 0 0⎦⎥ ⎢0 ⎥
⎣ ⎣ ⎣ ⎦

⎡0 ⎤ ⎡0 ⎤ ⎡1 ⎤
⎢0 ⎥ ⎢0 ⎥ ⎢2⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢0 ⎥ ⎢3 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢4⎥ ⎢0 ⎥ ⎢4⎥
Tương tự ta có: N 2 Fv 2 = ⎢5 ⎥ ; N 3Fv 3 = ⎢0 ⎥ ⇒ f = ⎢5 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢6 ⎥ ⎢0 ⎥ ⎢6 ⎥
⎢0 ⎥ ⎢7 ⎥ ⎢7 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢8 ⎥ ⎢8 ⎥
⎢0 ⎥ ⎢9 ⎥ ⎢9 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦

3.1.6.3 Biểu diễn hệ thống tuyến tính bằng ma trận


Việc phân tích các toán tử tuyến tính trong xử lý ảnh sẽ thuận tiện hơn khi chúng ta sử dụng
phương pháp biểu diễn bằng ma trận đã đề cập tới ở trên.
Khi tìm đáp ứng hệ thống, biết hàm đáp ứng xung, chúng ta tìm tổng chập:
N −1 N −1
y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k ) (3.1.39)
l =0 k =0

Cho tín hiệu vào x ( m, n ) và đáp ứng xung h ( m, n ) là các ma trận vuông 3x3, ta có:

y ( m, n ) =
= x ( 0, 0 ) h ( m − 0, n − 0 ) + x (1, 0 ) h ( m − 1, n − 0 ) + x ( 2, 0 ) h ( m − 2, n − 0 ) +
(3.1.40)
x ( 0,1) h ( m − 0, n − 1) + x (1,1) h ( m − 1, n − 1) + x ( 2,1) h ( m − 2, n − 1) +
x ( 0, 2 ) h ( m − 0, n − 2 ) + x (1, 2 ) h ( m − 1, n − 2 ) + x ( 2, 2 ) h ( m − 2, n − 2 )

Vế phải của (3.1.40) là tích vô hướng của hai vector cột x và hm,n :

   108 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎡ x ( 0, 0 ) ⎤ ⎡ h ( m − 0, n − 0 ) ⎤
⎢ ⎥ ⎢ ⎥
⎢ x (1, 0 ) ⎥ ⎢ h ( m − 1, n − 0 ) ⎥
⎢ x ( 2, 0 ) ⎥ ⎢ h ( m − 2, n − 0 ) ⎥
⎢ ⎥ ⎢ ⎥
⎢ x ( 0,1) ⎥ ⎢ h ( m − 0, n − 1) ⎥
⎢ ⎥ ⎢ ⎥
x = ⎢ x (1,1) ⎥ hm ,n = ⎢ h ( m − 1, n − 1) ⎥ (3.1.41)
⎢ ⎥ ⎢ ⎥
⎢ x ( 2,1) ⎥ ⎢ h ( m − 2, n − 1) ⎥
⎢ x ( 0, 2 ) ⎥ ⎢ h ( m − 0, n − 2 ) ⎥
⎢ ⎥ ⎢ ⎥
⎢ x (1, 2 ) ⎥ ⎢ h ( m − 1, n − 2 ) ⎥
⎢ ⎥ ⎢ ⎥
⎢⎣ x ( 2, 2 ) ⎥⎦ ⎢⎣ h ( m − 2, n − 2 )⎥⎦

Có thể thấy rằng, ma trận hai chiều các điểm ảnh X ứng với hàm x ( m, n ) - được biến đổi
theo (3.1.37) để nhận được vector x. Nếu ma trận hai chiều ảnh Y ứng với y ( m, n ) cũng được
biểu diễn tương tự, thì vector hm,n sẽ biến đổi thành ma trận H:

⎡ h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) h ( 0, −1) h ( −1, −1) h ( −2, −1) h ( 0, −2 ) h ( −1, −2 ) h ( −2, −2 ) ⎤
⎢ ⎥
⎢ h (1,0 ) h ( 0,0 ) h ( −1,0 ) h (1, −1) h ( 0, −1) h ( −1, −1) h (1, −2 ) h ( 0, −2 ) h ( −1, −2 ) ⎥
⎢ h ( 2,0 ) h (1,0 ) h ( 0,0 ) h ( 2, −1) h (1, −1) h ( 0, −1) h ( 2, −2 ) h (1, −2 ) h ( 0, −2 ) ⎥
⎢ ⎥
⎢ h ( 0,1) h ( −1,1) h ( −2,1) h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) h ( 0, −1) h ( −1, −1) h ( −2, −1) ⎥
H = ⎢ h (1,1) h ( 0,1) h ( −1,1) h (1,0 ) h ( 0,0 ) h ( −1,0 ) h (1, −1) h ( 0, −1) h ( −1, −1) ⎥
⎢ ⎥
⎢ h ( 2,1) h (1,1) h ( 0,1) h ( 2,0 ) h (1,0 ) h ( 0,0 ) h ( 2, −1) h (1, −1) h ( 0, −1) ⎥
⎢ h ( 0, 2 ) h ( −1, 2 ) h ( −2, 2 ) h ( 0,1) h ( −1,1) h ( −2,1) h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) ⎥
⎢ ⎥
⎢ h (1, 2 ) h ( 0, 2 ) h ( −1, 2 ) h (1,1) h ( 0,1) h ( −1,1) h (1,0 ) h ( 0,0 ) h ( −1,0 ) ⎥
⎢ ⎥
⎣ h ( 2, 2 ) h (1, 2 ) h ( 0, 2 ) h ( 2,1) h (1,1) h ( 0,1) h ( 2,0 ) h (1,0 ) h ( 0,0 ) ⎦

(3.1.42)

Khi đó, phương trình (3.1.40) được rút ngắn như sau:

y = Hx (3.1.43)

Đây là phương trình cơ bản trong lĩnh vực xử lý ảnh tuyến tính. Ma trận H có thể được chia
thành 9 ma trận nhỏ kích thước 3 × 3 có dạng:

⎡ H 00 H 01 H 02 ⎤
H = ⎢⎢ H10 H11 H12 ⎥⎥ (3.1.44)
⎣⎢ H 20 H 21 H 22 ⎦⎥

Khi x ( m, n ) và y ( m, n ) có kích thước N × N , Ma trận H có kích thước N 2 × N 2 , các


ma trận nhỏ H m,n sẽ có kích thước N × N . Trong trường hợp tổng quát, H là ma trận circulant
khối, được tạo ra bởi N × N ma trận circulant theo cách sau:

   109 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎡ ⎡ l→ ⎤ ⎡ l→ ⎤ ⎡ l→ ⎤⎤
⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎥
⎢ ⎢m ↓ ⎛ k = 0 ⎞⎥ ⎢m ↓ ⎛ k = 1 ⎞⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥
⎢ ⎢ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎥ ⎥
⎝ n = 0 ⎠ ⎥⎦ ⎢⎣ ⎝ n = 0 ⎠ ⎥⎦ ⎢⎣ ⎝n = 0 ⎠⎦
⎢ ⎣ ⎥
⎢ ⎡ l→ ⎤ ⎡ l→ ⎤ ⎡ l→ ⎤⎥
⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎥ (3.1.45)
⎢ ⎢ ⎛ k = 0 ⎞⎥ ⎢ m ↓ ⎛ k = 1⎞ ⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥
H= m↓⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎥ ⎥
⎢ ⎢ ⎝ n = 1 ⎠ ⎥⎦ ⎢⎣ ⎝ n = 1 ⎠ ⎥⎦ ⎢⎣ ⎝n =1 ⎠⎦ ⎥
⎢ ⎣
⎢ ⎥
⎢ ⎥
⎢⎡ l→ ⎤ ⎡ l→ ⎤ ⎡ l→ ⎤⎥
⎢⎢ ⎛k = 0
⎥ ⎢ ⎥ ⎢ ⎥⎥
⎢⎢m ↓ ⎜
⎞⎥ ⎢m ↓ ⎛ k = 1 ⎞⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥
⎢ ⎟ ⎜ ⎟ ⎜ ⎟
⎣⎢ ⎣ ⎝ n = N − 1⎠ ⎥⎦ ⎢⎣ ⎝ n = N − 1⎠ ⎥⎦ ⎢⎣ ⎝ n = N − 1 ⎠ ⎥⎦ ⎦⎥

Theo (3.1.37) vector y tương đương ma trận ảnh Y có thể tìm được thông qua ma trận X
như sau:
N
y = ∑ HN n Xv n (3.1.46)
n =1

Ngoài ra, sử dụng (3.1.38) chúng ta cũng có thể biếu diễn ma trận Y thông qua vector y của
ảnh:
N
Y= ∑ M Tm y u Tm (3.1.47)
m=1

Từ (3.1.46) và (3.1.47) chúng ta có thể tìm ra quan hệ giữa ma trận ảnh vào và ra của hệ
thống tuyến tính:
N N

(
Y= ∑∑ M Tm HN n X v n u Tm ) ( ) (3.1.48)
m=1 n =1

T
Có thể chứng minh được rằng việc nhân H với ma trận M m và N n sẽ tách ra các ma trận
circulant H m,n , như vậy ta có:

N N
Y= ∑∑ H m,n X v n u Tm ( ) (3.1.49)
m=1 n =1

Đối với hệ thống tuyến tính tách được (separable), quá trình tìm tổng chập (3.1.39) có thể
được thực hiện lần lượt bằng cách tính tổng theo m, sau đó theo n. Ta có thể viết:

h ( m, l ; n, k ) = hc ( m, l ) hr ( n, k ) (3.1.50)

N −1 N −1
y ( m, n ) = ∑ hc ( m, l ) ∑ x ( l , k ) hr ( n, k ) (3.1.51)
l =0 k =0

Theo (3.1.50) ta thấy trong các ma trận circulant (3.1.45) thành phần hr ( n, k ) là constant
và có thể đưa ra ngoài ma trận. Do đó ma trận circulant khối H có thể biến đổi như sau (để rút
gọn, chúng ta viết tắt hn , k = h ( n, k ) ):

   110 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎡ ⎛ hc 0,0 ... hc N −1,0 ⎞ ⎛ hc 0,0 ... hc N −1,0 ⎞ ⎤


⎢ ⎜ ⎟ ⎜ ⎟ ⎥
⎢ hr 0,0 ⎜ ⎟ hrN −1,0 ⎜ ⎟ ⎥
⎢ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎥
⎢ ⎝ ⎠ ⎝ ⎠ ⎥
⎢ ⎛ c 0,0 c N −1,0
h ... h ⎞ ⎛ c 0,0 c N −1,0
h ... h ⎞ ⎥
⎢ ⎜ ⎟ ⎜ ⎟ ⎥
⎢ h hrN −1,1 ⎜ ⎟ ⎥ = hT ⊗ hT (3.1.52)
H = ⎢ r 0,1 ⎜ ⎟
⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎥ r c
⎢ ⎝ ⎠ ⎝ ⎠ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎛ hc 0,0 ... hc N −1,0 ⎞ ⎛ hc 0,0 ... hc N −1,0 ⎞⎥
⎢ ⎜ ⎟ ⎜ ⎟⎥
⎢ hr 0, N −1 ⎜ ⎟ hrN −1, N −1 ⎜ ⎟⎥
⎢ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎜ hc 0, N −1 ... hc N −1, N −1 ⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦

Ma trận H được gọi là tích Kronecker của hai ma trận hrT và hcT .

3.1.6.4 Biến đổi không gian tín hiệu


3.1.6.4.1 Biến đổi Fourier liên tục
Cặp biến đổi Fourie liên tục một chiều được định nghĩa như sau:

F (u) = ∫ f (x)e
− j 2π ux
dx (3.1.53)
−∞


f (x) = ∫ F (u) e
j 2π ux
du (3.1.54)
−∞

f ( x ) là hàm liên tục, có biến thực x, j = −1 .

Công thức (3.1.53) được gọi là khai triển Fourier thuận còn (3.1.54) – khai triển Fourier
nghịch.

Trong trường hợp tổng quát, hàm F(u) là hàm phức, do đó nó có thể được biểu diễn dưới
dạng:

F (u) = F (u) e
jΦ ( u )
(3.1.55)

Modul F ( u ) = ⎡⎣ R 2 ( u ) + I 2 ( u ) ⎤⎦
1/ 2
được gọi là phổ biên độ, còn hàm

⎡ I (u) ⎤
Φ ( u ) = arctg ⎢ ⎥ gọi là phổ pha của hàm f(u). R(u) và I(u) là thành phần thực và ảo
⎣ R (u) ⎦
của F(u).

Một đại lượng khác có thể suy ra từ phổ Fourier là phổ công suất của tín hiệu P(u):

P ( u ) = F ( u ) = R2 ( u ) + I 2 ( u )
2
(3.1.56)

Phổ công suất cho chúng ta thấy phân bố công suất của tín hiệu trong miền tần số.

Đối với tín hiệu rời rạc, một biến, cặp khai triển Fourier thuận và nghịch có dạng như sau:

   111 
Chương 3 Kỹ thuật xử lý hình ảnh 

M −1 ux
1 − j 2π
F (u) =
M

x =0
f ( x)e M
với u = 0,1, 2...M − 1 , (3.1.57)

M −1 ux
j 2π
f ( x ) = ∑ F (u)e M
với x = 0,1,2...M − 1 (3.1.58)
u =0

Để thực hiện khai triển Fourier, chúng ta phải sử dụng M2 phép nhân và phép cộng. Cũng
như tín hiệu rời rạc f ( x ) , khai triển Fourier của nó cho kết quả là M các thành phần rời rạc. Dễ
dàng nhận thấy rằng, mỗi thành phần rời rạc trong F(u) là tổng của tích tất cả các giá trị của hàm
f ( x ) nhân với các hàm cosin và sin có M tần số khác nhau. Như vậy có thể nói F(u) là biểu diễn
tín hiệu f(x) trong miền tần số vì biến u xác định các tần số tạo nên tín hiệu rời rạc f(x). Có thể
nói, khai triển Fourier cho phép chúng ta mô tả một hàm thông qua các thành phần tần số chứa
trong hàm đó. Chính vì vậy khai triển Fourie có thể được sử dụng như một công cụ quan trọng để
mô tả và phân tích các phương pháp lọc tuyến tính.

Trong trường hợp tổng quát, phổ của tín hiệu rời rạc là hàm phức, do đó nó có thể được
biểu diễn dưới dạng:

F (u) = F (u) e
jΦ ( u )
(3.1.59)

Phổ công suất của tín hiệu rời rạc là:

P ( u ) = F ( u ) = R2 ( u ) + I 2 ( u )
2
(3.1.60)

Biến đổi Fourier có thể được mở rộng cho hàm f ( x , y ) có hai biến. Khi f ( x , y ) liên tục
và lấy tích phân được thì cặp biến đổi Fourier hai chiều thuận và nghịch sẽ là:

F ( u, v ) = ∫ ∫ f ( x, y ) e
− j 2π ( ux+vy )
dxdy (3.1.61)
−∞


f ( x, y ) = ∫ ∫ F ( u, v ) e
j 2π ( ux+vy )
dudv (3.1.62)
−∞

u, v là biến tần số.

Cũng như trường hợp biến đổi Fourier một chiều, ta có phổ biên độ, phổ pha và phổ công
suất cho tín hiệu hai chiều:

F ( u, v ) = ⎡⎣ R 2 ( u, v ) + I 2 ( u, v ) ⎤⎦
1/ 2
(3.1.63)

⎡ I ( u,v ) ⎤
Φ ( u, v ) = arctg ⎢ ⎥ (3.1.64)
⎣ R ( u, v ) ⎦

P ( u , v ) = F ( u , v ) = R 2 ( u, v ) + I 2 ( u, v )
2
(3.1.65)

Ví dụ: Biến đổi Fourier của xung hình chữ nhật trong không gian 3 chiều (hình 3.1.35a) có

   112 
Chương 3 Kỹ thuật xử lý hình ảnh 

dạng như trên (hình 3.1.35b).

a) b)

Hình 3.1.35 Phổ Fourier của xung hình chữ nhật trong không gian 3 chiều.

3.1.6.4.2 Biến đổi Fourier rời rạc 2 chiều


Biến đổi Fourier thuận 2 chiều của hàm rời rạc f(x,y) (mô tả ảnh số kích thước MxN) được
biểu diễn như sau:

M −1 N −1 ⎛ ux vy ⎞
1 − j 2π ⎜ + ⎟
F ( u, v ) =
MN
∑ ∑ f ( x, y ) e
x =0 y =0
⎝M N⎠
(3.1.66)

Nếu có F(u,v) chúng ta có thể tìm ra f(x,y) bằng khai triển Fourier thuận:
M −1 N −1 ⎛ ux vy ⎞
j 2π ⎜ + ⎟
f ( x, y ) = ∑ ∑ F ( u, v ) e
u =0 v =0
⎝M N⎠
(3.1.67)

Phổ biên độ, phổ pha và phổ công suất cũng được xác định như sau:

F ( u, v ) = ⎡⎣ R 2 ( u, v ) + I 2 ( u, v ) ⎤⎦
1/ 2
(3.1.68)

⎡ I ( u, v ) ⎤
Φ ( u, v ) = arctg ⎢ ⎥ (3.1.69)
⎣ R ( u, v ) ⎦

P ( u , v ) = F ( u , v ) = R 2 ( u, v ) + I 2 ( u, v )
2
(3.1.70)

Giá trị của phổ Fourier tại điểm u=v=0 bằng:


M −1 N −1
1
F ( 0,0 ) =
MN
∑ ∑ f ( x, y )
x =0 y =0
(3.1.71)

Nếu f(x,y) là hàm biểu diễn độ chói của ảnh số thì F(0,0) chính là giá trị trung bình của độ
chói ảnh. Vì (0,0) là điểm gốc tọa độ của không gian tần số, nơi tần số bằng 0, nên thành phần
F(0,0) còn được gọi là thành phần một chiều (DC) của phổ tín hiệu.
Ví dụ: Trên hình 3.1.36a là ảnh chi tiết hình chữ nhật màu trắng, kích thước 20x40 nằm
trên ảnh phông màu đen. Phổ 2 chiều của ảnh trên nhận được bằng khai triển Fourie (3.1.66)
biểu diễn trên hình 3.1.36b.

Các thành phần phổ của tín hiệu sẽ được đánh số theo thứ tự từ u=1 tới u=M, v=1 tới v=N.
Để thành phần một chiều của phổ nằm tại trung tâm của ảnh, chúng ta phải thực hiện dịch phổ

   113 
Chương 3 Kỹ thuật xử lý hình ảnh 

( −1) , khi đó theo tính chất của


x +y
trong không gian hai chiều, bằng cách nhân hàm f(x,y) với

khai triển Fourier, phổ của ảnh sẽ dịch chuyển đến vị trí u = ( M / 2 ) và v = ( N / 2 ) :

⎛ M N⎞
f ( x, y )( −1)
x+y
↔ F ⎜ u − ;v − ⎟ (3.1.72)
⎝ 2 2⎠
Phổ của ảnh sau khi dịch chuyển được biểu diễn trên hình 3.1.36c.

Phạm vi dải động (khoảng biến thiên) của giá trị các hệ số khai triển Fourier có thể cao hơn
nhiều so với giá trị của thành phần chói. Vì vậy, để ảnh phổ hiển thị rõ hơn trên màn hình, đôi khi
người ta biến đổi các giá trị phổ theo hàm logarit như sau:

D ( u,v ) = c log ⎡⎣1 + F ( u, v ) ⎤⎦ (3.1.73)

c- hằng số.

Ảnh phổ sau khi biến đổi bằng (3.1.73) biểu diễn trên hình 3.1.36d.

Hình 3.1.36 Phổ Fourier của hình ảnh 2D

   114 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

3.2 PHÂ
ÂN TÍCH CÁ
ÁC KỸ THU
UẬT XỬ LÝ
Ý ẢNH VÀ V
VIDEO

3.2.1 Kháái niệm về quan


q hệ giữaa các điểm ản
nh
33.2.1.1 Các điểm ảnh lâân cận
M điểm ản
Mỗi nh p tại tọa độ
đ (x,y) sẽ cóó 4 điểm ảnh
h được gọi làà lân cận theeo chiều nganng và
m ( x + 1, y ) , ( x − 1, y ) , ( x
dọc, đó là các điểm x, y + 1) ( x, y − 1) . Tập hhợp 4 điểm lân
l cận trên được

ký hiệu
u là N4 ( p ) . Mỗi điểm lân
l cận nằm cách điểm (xx,y) 1 đơn vịị. 4 điểm ảnhh lân cận với điểm

(x,y) theo đường chééo ký hiệu là ND ( p ) , đó làà các đ


điểm:

( x + 1, y + 1) , ( x + 1, y − 1) , ( x − 1, y + 1) ( x − 1, y − 1) . Tập hợp 8 điểm N4 ( p ) và ND ( p )


được gọi
g là 8 điểm
m lân cận: N8 ( p ) . Trongg trường hợpp khi điểm p nằm ở biên của
c ảnh, các điểm
lân cậnn có thể nằm bên ngoài ản
nh.

33.2.1.2 Mốii liên kết (con


nnectivity)
M liên kết giữa các điểm ảnh là kháái niệm quann trọng, cho pphép xác địnhh giới hạn củủa chi
Mối
tiết hayy các vùng trrong một ảnhh. Hai điểm ảnh có sự liêên kết với nhhau nếu chún
ng là các điểm
m lân
cận vàà giá trị mức xám của chúúng đáp ứngg một tiêu chí nào đó. Ví dụ: với ảnh nhị phân, 2 điểm
ảnh cóó liên kết, khii chúng nằm trong bộ 4 lâân cận và có giá trị giống nhau.
Cho V là tập
C p các mức xáám dùng để đđịnh nghĩa mốim liên kết, vví dụ trong ảnh
ả đen-trắngg, giá
trị các mức xám thhay đổi từ 0-2255, thì V cóó thể là 1 tập bất kỳ trongg số 255 giá trị
t này. Chhúúng ta
oại liên kết:
có 3 lo

1) Liên
n kết 4: hai điểm
đ ảnh p vàà q có các giáá trị từ V có liên
l kết 4 nếuu q nằm tronng tập N4 ( p ) .

2) Liên
n kết 8: hai điểm
đ ảnh p vàà q có các giáá trị từ V có liên
l kết 8 nếuu q nằm tronng tập N8 ( p ) .
3) Liên
n kết m (hỗn hợp): hai điểểm ảnh p và q có các giá trị từ V có liên kết m nếuu:

ong tập N 4 ( p ) , hoặc


- q nằm tro

- q nằm trong tập N D ( p ) và tập N 4 ( p ) ∩ N 4 ( q ) không chhứa các giá trị trong V.

Liên kết m là biến thể củ


L ủa liên kết 8 dùng để loạại trừ các mối liên kết đa hướng (khônng rõ
ràng) có
c thể gặp khi
k dùng liênn kết 8. Điềuu này minh họa h trên hìnhh 3.2.1b. Liêên kết 8 trên hình
3.2.1 được
đ biểu diễễn bằng đườnng đứt nét là liên kết đa hướng,
h trong khi đó nếu sử dụng khái niệm
liên kếết m, ta sẽ xác
x định 1 đư ường liên kếết duy nhất giữa
g các điểm
m ảnh có giáá trị bằng 1 (hình
3.2.1c)). Hai vùng ảnh
ả S1 và S2 được gọi là hhai vùng liên n kết nếu mộtt điểm ảnh nào
n đó trong S1 có
liên kếết với một điểểm ảnh khác trong S2. Giữữa hai vùng ảnh
ả có thể cóó liên kết 4, 8 hoặc liên kếết m.

Hìnnh 3.2.1 M
Minh họa liên kết 8 và liên
n kết m.
Chương 3 Kỹ thuật xử lý hình ảnh 

Đường kết nối (rời rạc) giữa hai điểm ảnh p có tọa độ (x,y) và q có tọa độ là (s,t) là chuỗi
các pixel khác nhau với các tọa độ: ( x 0 , y 0 ) , ( x1 , y1 ) ,..., ( x n , y n ) , trong đó:

( x 0 , y0 ) = ( x, y )
( x n , yn ) = ( s, t )
( x i , yi ) và ( x i−1 , yi−1 ) là các điểm liên kết với 1 ≤ i ≤ n . n được gọi là chiều dài của đường
kết nối. Khi ( x 0 , y 0 ) = ( x n , y n ) , đường nối được gọi là khép kín.

Tùy theo phương pháp xác định liên kết,chúng ta có đường kết nối 4, 8 hoặc đường kết nối
m. Trên hình 3.2.1 mô tả hai loại đường kết nối với liên kết m và 8.

Cho S là một tập các điểm ảnh, hai pixel p và q được gọi là liên kết trong S, nếu tồn tại
đường kết nối giữa hai điểm p và q được tạo ra chỉ bởi các điểm trong tập S.

Với bất cứ điểm p nào từ S, tất cả các pixel liên kết với p trong S sẽ được gọi là thành phần
liên kết của S. Nếu S trong chỉ tồn tại một thành phần liên kết, thì tập S gọi là tập liên kết.

Cho R là tập con các điểm ảnh, R được gọi là vùng ảnh nếu R là tập liên kết. Đường biên
của vùng R được tạo ra từ tập nhỏ các điểm ảnh. Các điểm này có một hoặc nhiều hơn các điểm
lân cận không nằm trong tập R.

3.2.1.3 Toán tử xử lý điểm ảnh


Trong phần này, chúng ta sẽ nói đến một số phép tính thực hiện trực tiếp với các điểm ảnh
trong ảnh, thí dụ nhân hoặc chia một ảnh cho ảnh khác theo từng điểm. Như đã giới thiệu ở trên,
ta có thể biểu diễn ảnh số như ma trận các điểm ảnh, tuy nhiên trong trường hợp tổng quát, hai ma
trận không chia được cho nhau. Do đó, khi thực hiện toán tử chia hai ảnh cho nhau, người ta chia
các pixel tương ứng của ảnh này cho ảnh khác (với điều kiện các điểm ảnh của ảnh chia khác 0).
Tương tự như vậy, các toán tử số học và logic sẽ được thực hiện cho các pixel tương ứng giữa hai
ảnh.

3.2.1.3.1 Khoảng cách giữa các điểm ảnh


Đối với các pixels p, q, z với các tọa độ (x,y), (s,t), (u,v), D là hàm khoảng cách hoặc
metric, nếu:

D ( p, q ) ≥ 0 , D ( p, q ) = 0 nếu p=q

D ( p, q ) = D ( q, p )

D ( p, z ) ≤ D ( p, q ) + D ( q, z )

3.2.1.3.2 Khoảng cách Euclide giữa p va q được định nghĩa:


1/ 2
De ( p,q ) = ⎡( x − s ) + ( y − t ) ⎤ (3.2.1)
2 2
⎣ ⎦

3.2.1.3.3 Khoảng cách D4 giữa p va q được định nghĩa:

D 4 ( p,q ) = x − s + y − t (3.2.2)

Các pixels nằm cách điểm (x,y) một khoảng D4 nhỏ hơn hoặc bằng giá trị r sẽ tạo ra hình

  116 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

thoi cóó tâm điểm tạại (x,y).Ví dụụ: pixels nằm m khoảng D 4 ≤ 2 tạo ra
m cách (x,y) một r hình thoi sau:
s

3.2.1.3.4 Khoảng cách


h D8 giữa p va
v q được địn
nh nghĩa như
ư sau:

x(x −s , y− t )
D8 ( p, q ) = max (3.2.3)

P
Pixels nằm cách
c (x,y) mộột khoảng D 8 ≤ 2 tạo ra hình
h vuông ccó tâm điểm tại
t điểm (x,y)):

P
Pixels với khhoảng cách D 8 = 1 là 8 điểm lân cận của
c pixel (x,yy).

3.2.2 Cácc phương ph


háp nâng caoo chất lượngg ảnh
Các phương pháp xử lý nâng cao chất lượng hìnhh ảnh thườngg được chia thành
C t hai lớpp lớn,
đó là phương phááp xử lý tron ng không giaan ảnh và ph hương pháp xử lý ảnh trrong miền tầần số.
Phươnng pháp xử lý ý thứ nhất dự
ựa trên các tthao tác tác động
đ trực tiếếp tới các điểểm ảnh. Để xử
x lý
trong miền
m tần số, ảnh số phải được ánh xạ về miền tầần số thông qqua biến đổi Fourier. Sauu đây
chúng ta sẽ đề cập tới một số ph
hương pháp xxử lý ảnh troong miền khôông gian.
N
Nâng cao chhất lượng ảnhh là bước tiềnn xử lý quan n trọng, nhằmm làm nổi bậật một số đặcc tính
của ảnnh như làm tăăng độ tương phản, lọc nhhiễu, nổi biênn, tăng kích thhước ảnh v.v
v.
33.2.2.1 Nângg cao chất lư
ượng ảnh bằn ng toán tử đđiểm
Q trình nân
Quá ng cao chất lượng
l ảnh troong không gian được biểuu diễn như saau:
g ( x, y ) = T ⎡⎣ f ( x , y ) ⎤⎦ (3.2.4)

f ( x, y ) - ảnnh số gốc; g ( x, y ) - ảnhh đã được xử lý; T – toánn tử dùng để biến đổi ảnhh gốc.
Toán tử
t T có thể được
đ thực hiệện cho một vùng
v ảnh xung quanh điểểm ( x0 , y0 ) và cho nhiềuu ảnh
hường, vùng lân cận với điểm ( x0 , y0 ) thường đư
liên tiếếp. Thông th ược chọn có dạng hình vuông
v
hoặc hình
h ữa là ( x0 , y0 ) - vùng này còn
chữ nhậtt có điểm giữ c được gọi là mặt nạ. (hhình 3.2.2).

Mặt nạ

g ảnh lân cậnn với điểm ( x0 , y0 )


Hìnhh 3.2.2 Vùng

T
Toán tử T được
đ thực hiệện cho các đđiểm ảnh bên
n trong mặt nạ, tâm mặtt nạ sẽ được dịch
Chương 3 Kỹ thuật xử lý hình ảnh 

chuyển lần lượt qua tất cả các điểm ảnh, thường là từ trái sang phải, từ trên xuống dưới.
Sau đây là một số biện pháp xử lý ảnh dùng toán tử không gian.
3.2.2.1.1 Tăng độ tương phản
Khi vùng lân cận có kích thước 1x1, hàm g sẽ chỉ phụ thuộc vào f tại điểm (x,y). Toán tử T
sẽ là hàm biến đổi mức xám:
s = T [r] (3.2.5)

r và s là mức xám của ảnh gốc f ( x, y ) và ảnh g ( x, y ) tại điểm (x,y).

Ví dụ: Quá trình biến đổi mức xám đơn giản được mô tả trên hình 3.2.3. Ảnh gốc "Lena"
(hình 3.2.3a) được tăng cường độ tương phản khi áp dụng hàm biến đổi có đặc tuyến trên hình
3.2.3b. Mục đích đạt được khi các điểm ảnh có mức xám lớn hơn mức trung bình m sẽ được làm
“sáng” thêm, ngược lại các điểm ảnh có độ chói dưới mức m sẽ được làm tối đi. Trên hình 3.2.3c,
ảnh được xử lý sẽ biến thành dạng nhị phân: chỉ có 2 mức cố định, đen hoặc trắng.

Lena
Hình 3.2.3 Biến đổi mức
xám làm tăng độ tương phản

a)

b)

c)

Hàm dùng để biến đổi mức xám trong Matlab có dạng:


J = imadjust(I,[low_in; high_in],[low_out; high_out],gamma).
Hàm này biến đổi các mức xám nằm trong khoảng [low_in; high_in] thành các giá
γ
trị trong khoảng [low_out; high_out] theo quy luật e .

  118 
Chương 3 Kỹ thuật xử lý hình ảnh 

3.2.2.1.2 Biến đổi âm bản


Hàm biến đổi âm bản ảnh có dạng:
s = L−r (3.2.6)
Giá trị các điểm ảnh trong ảnh âm bản (hình 3.2.4) có mức xám thay đổi từ mức 0 (đen) tới
mức L (trắng).

Hình 3.2.4 Ảnh âm bản

3.2.2.1.3 Nén dải động của ảnh (biến đổi logarithm)


Khi dải động của ảnh biến đổi trong phạm vi quá rộng so với khả năng hiển thị của màn
hình, ví dụ khi cần hiển thị ảnh 2-D của các hệ số khai triển DCT, chúng ta cần nén dải động theo
hàm logarithm như sau:
s = c log ⎡⎣1 + r ⎤⎦ (3.2.7)

Hình 3.2.5 Nén dải động của ảnh bằng biến đổi logarithm
Ví dụ: Hệ số khai triển Fourie của ảnh 3.2.5 (kích thước 512x512) có giá trị nằm trong dải
động ⎡⎣0 ÷ 35 ⋅ 10 ⎤⎦ , vì vậy khi trực tiếp hiển thị ảnh phổ nói trên lên màn hình máy tính (tín hiệu
6

đầu vào có 256 mức xám) chúng ta sẽ có ảnh màu gần như trắng hoàn toàn (hình3.2.5b). Sau khi
nén dải động theo hàm logarithm, chúng ta nhận được ảnh 3.2.5c. Do dải động của tín hiệu sau
khi nén và dải động của thiết bị hiển thị tương đương với nhau, chúng ta có thể quan sát được
dạng 2-D của ảnh phổ.
3.2.2.1.4 Tách ảnh theo mức chói
Có hai phương pháp tách ảnh theo mức chói: đó là tách có nền và tách không nền. Tách
không có nền được thực hiện với toán tử sau:
⎧ Lmax A<r <B
T (r) = ⎨ (3.2.8)
⎩ Lmin với các r khác
Với phương pháp này, các mức xám trong phạm vi [A-B] được thay thế bằng lên mức Lmax ,
còn các mức khác sẽ được gán mức Lmin . Tách mức chói có nền dùng phép ánh xạ sau:

⎧L A<r<B
T ( r ) = ⎨ max (3.2.9)
⎩r với các r khác
Toán tử (3.2.9) thay đổi mức chói cho các điểm ảnh trong dải [A-B] và giữ nguyên mức
chói ở các điểm khác.

  119 
Chương 3 Kỹ thuật xử lý hình ảnh 

a) c) Hình 3.2.6 So sánh hai phương


pháp tách ảnh theo mức chói
a) Ảnh gốc
b) Đặc tuyến tách mức chói
không nền và ảnh kết quả
c) Đặc tuyến tách mức chói
có nền và ảnh kết quả
b)
Trên hình 3.2.6 minh họa là kết quả tách dải chói [A-B] trong ảnh bằng hai phương pháp
nói trên.
3.2.2.1.5 Tách ảnh theo mặt phẳng bit
Có ứng dụng đòi hỏi phải tách ảnh số với 256 mức lượng tử (8 bits/điểm) thành 8 ảnh nhị
phân theo mặt phẳng bit như mô tả trên hình 3.2.7. Ví dụ, các bit tạo nên mặt phẳng thứ 7 là các
MSB (most significant bit), các bit tạo nên mặt phẳng số 0 là LSB (least significant bit) của các
điểm ảnh.

Hình 3.2.7 Tách ảnh (8 bits/điểm)


theo các mặt phẳng bit.

Tám mặt phẳng bit được tách ra từ hình gốc "Lena" được biểu diễn trên hình 3.2.8. Có thể
nhận thấy rằng các bit bậc cao (nhất là MSB) chứa phần lớn tin tức về hình dạng ảnh. Các bít bậc
thấp hơn tập trung ở các chi tiết nhỏ. Cách chia ảnh theo phương pháp tách mặt phẳng bit được
sử dụng trong một số phương pháp nén dư thừa trong ảnh.

Hình 3.2.8 Tám mặt phẳng bit được tách ra từ ảnh gốc "Lena"
3.2.2.1.6 Xử lý lược đồ xám (histogram)
Lược đồ xám của một ảnh số (histogram) có các mức xám biến thiên trong khoảng

  120 
Chương 3 Kỹ thuật xử lý hình ảnh 

[0, L − 1] là hàm rời rạc h ( rk ) = nk , với rk là mức xám thứ k, nk - là số lượng điểm ảnh, có mức
xám rk . Thông thường, histogram được chuẩn hóa bằng cách chia các giá trị nk cho tổng số điểm
ảnh n, khi đó histogram chuẩn sẽ bằng:
p ( rk ) = nk / n (3.2.10)

với k=0,1,2...L-1.
Nói cách khác p ( rk ) là xác suất xuất hiện các điểm ảnh có mức xám rk. Tổng các giá trị rời
rạc p ( rk ) bằng 1. Ngoài các thông tin thống kê về mức xám, histogram còn chứa nhiều tin tức
quan trọng có thể sử dụng trong các quá trình xử lý khác như nén hay phân vùng ảnh.
Hàm cơ bản nhất dùng để tìm histogram của ảnh trong Matlab là hàm: imhist(I, n), trong
đó,toàn bộ dải động các mức xám được chia ra thành n đoạn.
Trên hình 3.2.9 thể hiện 4 ảnh có độ chói và độ tương phản khác nhau cùng với histogram
của chúng. Lược đồ xám được biểu diễn trong hệ tọa độ vuông góc, trục hoành biểu diễn các giá
trị mức xám từ [0,255], trục tung biểu diễn số lượng điểm ảnh có cùng mức xám.
Dễ dàng thấy rằng, khi ảnh có độ tương phản cao (hình 3.2.9a), các mức xám phân bố đều
trên trục rk. Với ảnh có độ chói thấp (hình 3.2.9b), các mức xám tập trung tại miền giá trị độ chói
thấp và ngược lại với ảnh có độ chói cao (hình 3.2.9c). Với ảnh có độ tương phản thấp, nhạt màu
trên lược đồ xám các vạch xám tập trung tại trung tâm dải chói (hình3.2.9d).

Hình 3.2.9 Histogram của bốn loại ảnh thường gặp:


a. Ảnh có độ tương phản cao
b. Ảnh có độ sáng thấp
c. Ảnh có độ sáng cao
d. Ảnh có độ tương phản thấp
Kỹ thuật cân bằng histogram
Khảo sát lược đồ xám của ảnh có thể phỏng đoán rằng, nếu phân bố giá trị các mức xám của
các điểm ảnh đồng đều trên toàn bộ dải chói [ 0, L − 1] thì ảnh sẽ có độ tương phản cao. Quá trình
biến đổi ảnh có lược đồ xám không đồng đều thành đồng đều được gọi là cân bằng lược đồ
(histogram equalization).
Xét toán tử biến đổi mức xám:
s = T (r) 0 ≤ r ≤1 (3.2.11)

  121 
Chương 3 Kỹ thuật xử lý hình ảnh 

với điều kiện:


a- T ( r ) là hàm đơn ánh và đồng biến trong khoảng 0 ≤ r ≤ 1
b- 0 ≤ T ( r ) ≤ 1 khi 0 ≤ r ≤1

Điều kiện (a) cần thiết để tồn tại biến đổi nghịch: r = T −1 ( s ) 0 ≤ s ≤ 1 . Ngoài ra, nếu
hàm T(r) không đồng biến, trong ảnh kết quả có thể xuất hiện một phần dải chói là "âm bản" so
với ảnh gốc. Điều kiện (b) cho thấy dải động của ảnh vào và ra giống nhau.

Hình 3.2.10 Hàm biến đổi mức xám đồng biến T(r)
Mức xám xuất hiện trong ảnh là đại lượng ngẫu nhiên trong khoảng [0,1]. Cho pr ( r ) và
ps ( s ) là các hàm mật độ phân bố xác suất (PDF) của biến ngẫu nhiên r và s, hai hàm này có quan
hệ như sau:
dr
ps ( s ) = pr ( r ) (3.2.12)
ds
Như vậy, mật độ phân bố xác suất mức xám của ảnh ra phụ thuộc vào mật độ phân bố xác
suất mức xám của ảnh vào và hàm biến đổi s = T ( r ) .

Trong lĩnh vực xử lý ảnh, hàm biến đổi sau đây có ý nghĩa rất quan trọng:
r
s = T ( r ) = ∫ pr (τ ) dτ (3.2.13)
0

Vế phải của (3.2.13) chính là tích phân phân bố xác suất (CDF) của biến ngẫu nhiên r. Hàm
này là hàm đơn ánh và đồng biến trong khoảng 0 ≤ r ≤ 1 , đáp ứng yêu cầu (a) và (b) trong
(3.2.11). Lấy đạo hàm của s theo r ta có:
ds dT ( r )
= (3.2.14)
dr dr
ds d ⎡ ⎤
r
= ⎢ ∫ pr (τ ) dτ ⎥ = pr ( r ) (3.2.15)
dr dr ⎣ 0 ⎦
Thay (3.2.15) vào (3.2.12) ta có:

dr 1
ps ( s ) = pr ( r ) = pr ( r ) =1 0 ≤ s ≤1 (3.2.16)
ds pr ( t )
Như vậy, PDF của ảnh ra trong khoảng [0-1] là đồng đều. Nói cách khác, nếu hàm biến đổi
mức xám có dạng (3.2.13) thì histogram ảnh kết quả sẽ có dạng phân bố đều và không phụ thuộc
vào hàm PDF của ảnh gốc.
Quá trình cân bằng lược đồ xám cho ảnh số được thực hiện với các biến ngẫu nhiên rời rạc

  122 
Chương 3 Kỹ thuật xử lý hình ảnh 

nk và rk (nk là số lượng điểm ảnh có mức chói rk).


Xác suất xuất hiện điểm ảnh có mức chói rk là:
nk
pr ( rk ) = k = 0,1,2,......, L − 1 (3.2.17)
n
n là tổng số pixel trong ảnh.
Hàm pr ( rk ) với biến rk chính là histogram của ảnh gốc.

Hàm biến đổi mức xám dùng để cân bằng histogram cho tín hiệu rời rạc tương đương với
(3.2.13) trong trường hợp này sẽ có dạng:
k k nj
sk = T ( rk ) = ∑ pr ( rj ) = ∑ k = 0,1,2,......, L − 1 (3.2.18)
j =0 j =0 n
Phương pháp biến đổi ảnh theo (3.2.18) cho phép nới rộng dải động mức xám của ảnh số
chỉ dựa trên các thông tin có trong ảnh gốc.

a) b)

c) d)
Hình 3.2.11 Minh họa quá trình cân bằng lược đồ xám
a) Ảnh có độ chói thấp, trước và sau khi cân bằng
b) Ảnh có độ chói cao, trước và sau khi cân bằng
c) Ảnh có độ tương phản thấp, trước và sau khi cân bằng
d) Hàm biến đổi T(r) dùng để cân bằng các ảnh:
(a) - đồ thị 1, (b)- đồ thị 2, (c) - đồ thị 3
Trên hình 3.2.11 biểu diễn ba ảnh có độ chói thấp, cao và có độ tương phản thấp. Ba ảnh
trên được cân bằng histogram theo (3.2.18), hàm biến đổi của từng ảnh khác nhau và được biểu

  123 
Chương 3 Kỹ thuật xử lý hình ảnh 

diễn trên hình 3.2.11d. Có thể thấy rằng, các ảnh nhận được sau khi áp dụng phương pháp cân
bằng hisrogram có độ tương phản cao hơn. Đặc biệt, kết quả nhận được sau khi cân bằng lược đồ
cho cả ba ảnh là tương đối giống nhau. Lí do vì trong ví dụ trên, các ảnh gốc đều có nội dung
giống nhau, chỉ khác nhau về độ chói và độ tương phản. Sau khi được cân bằng histogram, độ
tương phản được tăng lên làm cân bằng cả mức chói giữa các ảnh, do đó các ảnh kết quả, dưới
mắt người quan sát, trở nên gần giống nhau.
Kỹ thuật xấp xỉ histogram (Histogram matching)
Kỹ thuật cân bằng mức xám là quá trình biến đổi tự thích nghi với ảnh gốc để tạo ra ảnh
mới có histogram đồng đều. Trong một số trường hợp, chúng ta cần biến đổi ảnh gốc sao cho ảnh
biến đổi có dạng histogram mong muốn, kỹ thuật này gọi là xấp xỉ histogram.

Nhắc lại công thức mô tả kỹ thuật cân bằng mức xám (3.2.18):
k k nj
sk = T ( rk ) = ∑ pr ( rj ) = ∑ k = 0,1,2,......, L − 1
j =0 j =0 n
(3.2.19)
Mức xám rk trong ảnh gốc được ánh xạ thành mức sk trong ảnh mới. Histogram ảnh mới

( )
sẽ có dạng đồng đều. Hàm pr rj là histogram của ảnh gốc.

Bài toán đặt ra là cần biến đổi ảnh gốc thành ảnh mới sao cho histogram của nó có dạng
mong muốn: pz ( zi ) . Thực hiện biến đổi (3.2.19) với pz ( zi ) ta có:
k
vk = G ( zk ) = ∑ pz ( zi ) k = 0,1,2,......, L − 1 (3.2.20)
i =0

Biến đổi theo (3.2.20) có ý nghĩa là ảnh với histogram pz ( zi ) , sau khi biến đổi sẽ có
histogram đồng đều.
Biến đổi nghịch của (3.2.20):
zk = G −1 ( vk ) k = 0,1,2,......, L − 1 (3.2.21)

Biến đổi theo (3.2.21) thực hiện quá trình ánh xạ các mức chói vk của ảnh có histogram
đồng đều thành ảnh có histogram pz ( zi ) . Nếu sk = vk , ta có:

zk = G −1 ( vk ) = G −1 ( sk ) = G −1 ⎡⎣T ( rk ) ⎤⎦ k = 0,1,2,......, L − 1 (3.2.22)

⎡ k ⎤
z k = G − 1 ⎢ ∑ p r ( rj ) ⎥ (3.2.23)
⎣ j =0 ⎦
Có thể thấy rằng quá trình biến đổi theo (3.2.23) sẽ ánh xạ mức xám rk của ảnh gốc (có

( )
histogram pr rj ) thành mức xám zk của ảnh mới, histogram của ảnh mới sẽ có dạng là pz ( zi ) .
Như vậy phép biến đổi mức xám theo (3.2.23) đã cho phép chúng ta tạo xấp xỉ histogram theo
dạng cho trước.
Các bước thực hiện xấp xỉ histogram:
Trên thực tế, quá trình thực hiện biến đổi mức xám thuận và nghịch theo (3.2.20) và
(3.2.21) được thực hiện cho hình ảnh số bằng cách tra bảng. Ví dụ, bảng tra cứu sẽ chứa tập giá trị
các mức chói rk với k = 0,1,2,......, L − 1 của ảnh gốc và các mức xám sk của ảnh kết quả. sk là

  124 
Chương 3 Kỹ thuật xử lý hình ảnh 

mức xám trung gian được sử dụng để tìm ra zk trong biến đổi (3.2.23). Dải biến thiên của sk tính
theo (3.2.14) sẽ là [0,1]. Quá trình xấp xỉ theo (3.2.23) được minh họa trên hình 3.2.12.

Hình 3.2.12
a) Minh họa quá trình ánh xạ
rk ⎯⎯
T
→ sk

b) Biến đổi thuận zq ⎯⎯


G
→ vq và
−1
biến đổi nghịch sk ⎯⎯→
G
zk

Trên hình 3.2.12a biểu diễn hàm biến đổi s = T ( r ) . Đặc tuyến T(r) có thể tìm ra dựa trên
histogram của ảnh gốc thông qua (3.2.19). Dựa trên đặc tuyến T(r), điểm ảnh gốc có mức xám rk
của sẽ được thay bằng mức xám sk . Biến đổi này chính là quá trình cân bằng mức xám.

Biến đổi thuận G ( z ) là quá trình cân bằng xám cho ảnh gốc có histogam dạng pz ( zi ) ,
biến đổi thuận có thể mô tả bằng công thức: zq ⎯⎯
G
→ vq . Khi thực hiện biến đổi nghịch
−1
sk ⎯⎯→
G
zk , mỗi giá trị sk được ánh xạ ngược thành giá trị zk (hình 3.2.12b). Đặc tuyến G(z)
được tìm ra dựa trên histogram cho trước và (3.2.20).
Hàm (3.2.23) mô tả quá trình biến đổi kết hợp T ( r ) và G −1 ( sk ) , với giá trị trung gian sk .

Biến đổi nghịch G −1 ( sk ) có thể được thực hiện bằng phương pháp dò tìm z sao cho:
*

⎣ ( )
⎡G s* − sk ⎤ ≥ 0
⎦ k = 0,1,2,......, L − 1 (3.2.24)

khi đó, z k = z * . Quá trình dò tìm với giá trị sk (hình 3.2.12b) được bắt đầu thực hiện khi

z* = 0 , ta tăng dần z* đến khi bất đẳng thức (3.2.24) được thực hiện.
Tóm lại, quá trình xấp xỉ histogram thực hiện theo các bước sau:
1. Tính histogram của ảnh gốc
2. Sử dụng (3.2.19) để tìm các giá trị sk
3. Sử dụng (3.2.20) và hàm rời rạc pz ( z ) để tính hàm biến đổi G.
4. Dựa trên bất đẳng thức (3.2.24) dò tìm zk theo các giá trị sk .
5. Tạo ra bảng tra (Look Up Table - LUT) để thực hiện quá trình ánh xạ rk ⎯⎯
→ zk
theo (3.2.23).

  125 
Chương 3 Kỹ thuật xử lý hình ảnh 

Dưới dây là một ví dụ minh họa quá trình xấp xỉ histogram theo dạng cho trước. Ảnh gốc
(hình 3.2.13a) [15] chụp từ vệ tinh. Do điều kiện ánh sáng, trên ảnh gốc tồn tại chủ yếu hai vùng
tối và sáng. Điều này cũng thể hiện trên lược đồ xám của ảnh. Các mức xám tập trung tại vùng có
độ chói cao hoặc rất thấp.

Hình 3.2.13 So sánh hai phương pháp nâng cao chất lượng ảnh bằng kỹ thuật cân bằng
mức xám và xấp xỉ histogram
Quá trình cân bằng xám được thực hiện bởi hàm biến đổi có đồ thị như trên hình 3.2.14a.
Hàm này được tìm ra dựa trên công thức (3.2.19) và histogram của ảnh gốc. Có thể thấy rằng, để
cân bằng histogram, các điểm ảnh có mức xám nằm gần mức đen sẽ được biến đổi thành mức gần
trắng. Trong ảnh gốc, các điểm ảnh có mức xám thấp chiếm đa số, do đó, ảnh nhận được sau khi
cân bằng sẽ có mức chói trung bình rất cao (hình 3.2.13b), độ tương phản của ảnh sẽ bị giảm.

Hình 3.2.14 a) Đồ thị hàm biến đổi T ( r ) dùng để cân bằng mức xám cho ảnh trên

hình 3.2.13.
b) Histogram mong muốn của ảnh kết quả (được cho trước).
c) Hàm biến đổi thuận G ( z k ) và nghịch G −1 ( vk ) .

Để ảnh có chất lượng tốt hơn, cần biến đổi làm sao cho histogram của ảnh kết quả không
khác nhiều so với histogram của ảnh gốc, nhưng không có sự biến đổi quá nhanh trong khu vực
mức xám thấp. Với ảnh cụ thể, ta lựa chọn histogram mong muốn có dạng:

  126 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎛ ( z − m1 )2 ⎞ ⎛ ( z − m2 )2 ⎞
− ⎜ ⎟ −⎜ ⎟
1 ⎜ 2σ12 ⎟⎠ 1 ⎜ 2σ 22 ⎟
p ( z ) = A1 e⎝ + A2 e ⎝ ⎠
(3.2.25)
σ 1 2π σ 2 2π
Thay đổi các thông số σ 1 , m1 ,σ 2 , m2 , A1 , A2 có thể nhận được histogram mong muốn theo
những tiêu chí nói trên (hình 3.2.14b). Trong ví dụ trên sử dụng các giá trị sau:
m1 =0.02; σ 1 =0.025; m 2 =0.75; σ 2 =0.05; A1=3; A2=0.08
Đồ thị hàm biến đổi G ( z k ) tính theo (3.2.20) là đường cong 1 trên hình 3.2.14c. Đường
cong 2 (hình 3.2.14c) là đồ thị hàm biến đổi nghịch G −1 ( vk ) nhận được theo phương pháp dò tìm
đã trình bày ở trên.
Ảnh kết quả nhận được khi thực hiện biến đổi nghịch G −1 ( sk ) với các giá trị sk và
histogram của nó được hiển thị trên hình 3.2.13c. So sánh ảnh 3.2.13b và 3.2.13c, dễ dàng nhận
thấy chất lượng 3.2.13c tốt hơn. Để đạt được kết quả tối ưu nhất, chúng ta phải thực hiện biến đổi
ảnh với các dạng histogram khác nhau, ví dụ, bằng cách thay đổi các thông số trong (3.2.25).
3.2.2.1.7 Kỹ thuật triệt nhiễu dựa trên cơ sở trung bình hóa ảnh
Khi ảnh f ( x, y ) bị tác động bởi nhiễu cộng η ( x, y ) , ảnh kết quả sẽ là:

g ( x, y ) = f ( x, y ) + η ( x, y ) (3.2.26)

Nhiễu η ( x, y ) tại từng điểm (x,y) là các quá trình ngẫu nhiên độc lập tương hỗ và có giá trị
trung bình thống kê bằng 0 (moment gốc cấp 1: mx , y = 0 ). Nếu chúng ta có tập M ảnh f ( x, y ) bị
tác động bởi nguồn nhiễu ngẫu nhiên nói trên, thì ảnh trung bình cộng sẽ là:
1 M
g ( x, y ) = ∑ gi ( x, y )
M i −1
(3.2.27)

Giá trị trung bình thống kê của g tại mỗi điểm (x,y) bằng:

E {g ( x, y )} = f ( x, y ) (3.2.28)

Phương sai σ g2( x , y ) (chính là công suất nhiễu trong từng điểm của ảnh trung bình cộng)
1 2
bằng: σ g2( x , y ) = σ (3.2.29)
M η( x, y)
Theo (3.2.29), khi M tăng lên, công suất trung bình của nhiễu tại mỗi điểm ảnh giảm đi;
công thức (3.2.28) cũng cho thấy trong trường hợp này g ( x , y ) sẽ tiến dần tới f ( x, y ) . Như
vậy, có thể kết luận rằng, khi số lượng ảnh tham gia vào quá trình trung bình cộng càng nhiều, ảnh
kết quả g ( x, y ) sẽ càng giống với ảnh gốc f ( x, y ) .

Trên hình 3.2.15 và 3.2.16 minh họa kỹ thuật triệt nhiễu phân tích ở trên.
Ảnh gốc 3.2.15a được tổng hợp với nhiễu cộng (nhiễu Gaussian với m=0, độ lệch chuẩn
bằng 0.01) để tạo tập ảnh có nhiễu dùng để thực hiện trung bình cộng. Hai ảnh chịu tác động của
nhiễu được hiển thị trên hình 3.2.15b và 3.2.15c. Ảnh trung bình cộng với M= 4, 8 và 16 biểu diễn
trên hình 3.2.15d,e,f. Có thể thấy rõ ràng ảnh 3.2.15f có chất lượng gần với ảnh gốc nhất. Để thấy
rõ hơn tác dụng của quá trình trung bình ảnh, trên hình 3.2.16 biểu diễn các ảnh sai số (tuyệt đối)
giữa ảnh 3.2.15d,e,f và ảnh gốc cùng histogram của chúng. Dễ dàng nhận thấy độ lệch chuẩn của

  127 
Chương 3 Kỹ thuật xử lý hình ảnh 

ảnh sai số giảm khi M tăng.

Hình 3.2.15 a- Ảnh gốc. b,c) ảnh bị tác động bởi nguồn nhiễu η ( x, y ) (tại các thời điểm
khác nhau). d,e,f ) kết quả trung bình của 4, 8 và 16 ảnh có nhiễu.

Hình 3.2.16 Từ trái sang phải: ảnh sai số giữa ảnh gốc (3.2.15a) và ảnh 3.2.15d,e,f
và histogram của chúng.
3.2.2.2 Nâng cao chất lượng ảnh bằng toán tử không gian
Một cách tổng quát, toán tử không gian trong xử lý ảnh được thực hiện tại vùng xung quanh
điểm ảnh theo các bước sau:
1- Xác định điểm ảnh trung tâm.
2- Thực hiện tính toán với các điểm ảnh nằm trong vùng lân cận điểm ảnh trung tâm (kích
thước và hình dạng vùng ảnh này được xác định trước).
3- Kết quả tính toán ở bước 2 (còn gọi là đáp ứng của quá trình xử lý) sẽ được gán cho điểm
ảnh trung tâm.
4- Thực hiện các bước trên cho toàn bộ các pixels của ảnh.
Nếu toán tử biến đổi là tuyến tính, thì quá trình trên được gọi là quá trình lọc tuyến tính.

  128 
Chương 3 Kỹ thuật xử lý hình ảnh 

Nếu ngược lại, ta có quá trình lọc phi tuyến.


Toán tử không gian trong xử lý ảnh được sử dụng để lọc nhiễu và làm nổi các chi tiết nhỏ
hay đường biên.
3.2.2.2.1 Các bộ lọc tuyến tính (trong không gian )
Khi thực hiện lọc tuyến tính, các điểm ảnh sẽ được nhân với hệ số sau đó được tổng hợp
(cộng) lại với nhau để tạo ra đáp ứng của bộ lọc tại mỗi điểm (x,y). Vùng ảnh kích thước mxn
được xử lý với ma trận mxn hệ số. Ma trận này thường được gọi là bộ lọc, ma trận lọc, cửa sổ lọc
hay mặt nạ. Thường người ta lấy giá trị m và n là số lẻ để dễ xác định tâm điểm của mặt nạ.
Quá trình dịch chuyển tâm điểm của mặt nạ dọc theo ảnh và thực hiện toán tử tuyến tính nói
trên cho từng điểm ảnh là quá trình nhân chập ảnh và mặt nạ các hệ số. Cơ chế lọc tuyến tính
được mô tả trên hình 3.2.17.

Hình 3.2.17 Quá trình lọc


trong không gian 2-D

Có hai cách thực hiện quá trình lọc tuyến tính, đó là thực hiện phép nhân chập như đã nói ở
trên hoặc thực hiện phép tính tương quan. Khi tính tương quan chúng ta di chuyển mặt nạ lọc qua
các điểm ảnh; khi tính tích chập, mặt nạ phải được xoay 1800 trước khi thực hiện nhân với ma trận
điểm ảnh. Ảnh f có kích thước MxN được lọc bởi mặt nạ w ( x , y ) kích thước (mxn) theo biểu
thức tổng quát sau:
a b
g ( x, y ) = ∑ ∑ w ( s, t ) f ( x + s , y + t )
s =− a t =− b
(3.2.30)

a = ( m − 1) / 2, b = ( n − 1) / 2 , x = 0,1, 2..., M − 1 , y = 0,1, 2..., N − 1 .


Đáp ứng của mặt nạ lọc mxn tại điểm (x,y) là:
mn
R = w1 z1 + w 2 z2 + ... + w mn zmn = ∑ wi zi (3.2.30a)
i =1

Phép lọc tuyến tính trong Matlab được thực hiện bằng hàm: B = imfilter(A, H,
option1, option2,...); H- ma trận lọc với các thông số tùy chọn option1, option2.
Bộ lọc trung bình không gian thực hiện theo (3.2.30) thường được sử dụng để lọc nhiễu
hoặc làm mờ (blurring) ảnh. Ví dụ: quá trình làm mờ ảnh có thể được sử dụng để lược bỏ các chi
tiết nhỏ trước khi đưa vào nhận dạng những chi tiết có kích thước lớn trong ảnh. Trên hình 3.2.18
là hai mặt nạ dùng để thực hiện quá trình trung bình trong không gian, về bản chất, đó là mặt nạ
lọc thông thấp. Đáp ứng mặt nạ hình 3.2.18a là giá trị trung bình của 9 điểm ảnh. Dễ dàng nhận

  129 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

thấy, thành
t phần nhiễu, là nhữnng điểm ảnh có độ chói biếnb đổi bất tthường so vớới mức chói trung
t
bình trrong vùng ảnnh rộng, sẽ bịị làm "trơn" sau khi bị tác động bởi m
mặt nạ nói trêên. Tuy nhiênn, tác
động của
c mặt nạ sẽẽ làm cho cácc đường biênn hoặc các chii tiết nhỏ tronng ảnh bị "lààm mờ".

Hìình 3.2.18 Các


C mặt nạ dùng
d để thực hiện trung bình
b không giian

a) b)
Hìình 3.2.19 Ảnh
Ả kết quả kkhi lọc thông thấp bằng ma
m trận 3x3 (aa) và 5x5 (b)
Với mặt nạ hình
V h 3.2.18b,, các pixel khhác nhau đượợc nhân với hhệ số khác nhau,
n làm nhưư vậy
ta có th
hể xác định "trọng
" lượngg" riêng (mứcc độ quan trọọng) cho từngg pixel. Tronng mặt nạ 3.22.18b,
điểm trung
t tâm có
ó "trọng lượnng" lớn nhất,, các điểm ảnh
ả nằm càngg xa tâm, "trrọng lượng" càng
nhỏ. Cách
C phân bốố "trọng lượnng" này làm m giảm hiệu ứng
ứ nhòe đư ường biên kh hi thực hiện trung
t
bình hóa ảnh.
K kích thư
Khi ước cửa sổ tănng lên, băng thông của bộ lọc thông tthấp sẽ giảm, nên mức độộ làm
"trơn" ảnh sẽ tăng lên, điều nàyy thấy rõ trênn hình minh họa
h kết quả llọc thông thấấp với hai maa trận
3x3 vàà 5x5 (hình 3.2.19a và 3.22.19b).
T dụng lọcc nhiễu của bộ
Tác m trận 3x3 thhể hiện trên hình 3.2.20. Ảnh
b lọc thôngg thấp với ma
gốc bị tác động củủa nhiễu Gaussian được lọọc tuyến tính
h bằng ma trận 3x3, đúngg như phân tích
t ở
nh kết quả cóó mức nhiễu thấp hơn như
trên, ản ưng độ nét suuy giảm so với ảnh gốc.
N
Nhiễu Gausian được tổngg hợp với ảnhh I bởi hàm Matlab:
M
J = imnoi aussian',m,v); m - trung bình tthống kê, v- độ
ise(I,'ga đ lệch chuẩnn của
hàm Gausian.
G

Hìình 3.2.20 a) Ảnh gốc. bb) Ảnh nhiễu


u. c) Kết quả lọc thông thhấp ảnh nhiễuu
L tuyến tínnh bằng phư
Lọc ương pháp nhhân chập tronng không giaan còn sử dụnng để làm nổổi các
chi tiếtt nhỏ, hay nổ
ổi biên ảnh (llọc thông caoo). Đặc điểm
m của các ma trận lọc thôn
ng cao được phân
Chương 3 Kỹ thuật xử lý hình ảnh 

tích ở phần sau.


3.2.2.2.2 Làm trơn nhiễu bằng lọc phi tuyến (trong không gian )
Kỹ thuật lọc phi tuyến dựa trên cơ sở thống kê bằng cách sắp xếp giá trị các điểm ảnh trong
mặt nạ lọc thành dãy theo quy luật tăng dần hay giảm dần, qua đó chọn ra giá trị nằm tại vị trí
nhất định nào đó trong dãy - giá trị này chính là đáp ứng của bộ lọc. Giá trị điểm ảnh là trung tâm
của ma trận lọc sẽ được thay thế bằng đáp ứng tìm được.
Bộ lọc trung vị làm việc theo nguyên lý trên thường được sử dụng để lọc nhiễu xung. Đáp
ứng của bộ lọc này chính là giá trị trung vị của các điểm ảnh nằm trong ma trận lọc. Trung vị của
dãy số là giá trị x sao cho một nửa dãy số có giá trị nhỏ hơn hoặc bằng x, nửa còn lại lớn hơn hoặc
bằng x. Với mặt nạ 3x3, trung vị sẽ bằng giá trị thứ 5 từ trên xuống. Ví dụ: trong mặt nạ 3x3 điểm
ảnh có giá trị {25,20,20,15,30,60,40,35,15} , sau khi sắp xếp lại theo thứ tự tăng dần sẽ có
dạng: {15,15,20,20,25,30,35,40,60} . Như vậy, trung vị sẽ là giá trị 25.

Ưu điểm của bộ lọc phi tuyến so với các bộ lọc thông thấp ta đã xét ở trên là khả năng lọc
nhiễu xung (nhiễu có dạng điểm đen trắng trên ảnh) tốt, đồng thời ít ảnh hưởng tới độ nét của ảnh.
Ưu điểm nêu trên được minh họa trên hình 3.2.21. Ảnh gốc 3.2.21a bị ảnh hưởng của nhiễu xung.
Ảnh có nhiễu (hình 3.2.21b) được đưa qua mạch lọc thông thấp (lấy trung bình không gian với
ma trận (3x3) và mạch lọc trung vị với ma trận có cùng kích thước. Nhiễu xung được tạo ra trong
ảnh bởi hàm Matlab: J = imnoise(I,'salt & pepper',d); d - mật độ nhiễu trong
ảnh. Hàm lọc trung vị: J = medfilt2(I,[m n]);[m n]- kích thước ma trận lọc.
Kết quả lọc trung vị (hình 3.2.21c) cho thấy nhiễu xung bị triệt gần như hoàn toàn, các
đường biên hầu như không bị biến dạng. Bộ lọc thông thấp trong trường hợp này cho kết quả kém
hơn rất nhiều (hình 3.2.21d): biên độ nhiễu giảm đi, nhưng kích thước của các điểm nhiễu lớn lên,
các đường biên nhòe đi rõ rệt.

Hình 3.2.21 a) Ảnh gốc; b) Ảnh nhiễu


c) Ảnh lọc median; d) Ảnh lọc trung bình không gian

  131 
Chương 3 Kỹ thuật xử lý hình ảnh 

3.2.2.2.3 Làm tăng độ nét của ảnh


Toán tử Laplace hay Laplacian của hàm hai biến f ( x, y ) được xác định bởi biểu thức:

∂2 f ∂2 f
∇2 f = + (3.2.31)
dx 2 dy 2

∂2 f
= f ( x + 1, y ) + f ( x − 1, y ) − 2 f ( x, y )
∂x 2
(3.2.32)
∂2 f
= f ( x, y + 1) + f ( x, y − 1) − 2 f ( x, y )
∂y 2

Như vậy Laplacian tại điểm (x,y) tìm được theo biểu thức:

∇2 f = ⎡⎣ f ( x + 1, y ) + f ( x − 1, y ) + f ( x, y + 1) + f ( x, y − 1) ⎤⎦ − 4 f ( x, y ) (3.2.33)

Toán tử Laplace được sử dụng rộng rãi trong kỹ thuật xác định đường biên và sẽ được phân
tích trong phần 3.2.4. Tại đây, chúng ta sẽ chỉ xét kỹ thuật làm rõ ảnh sử dụng toán tử Laplace.
Về mặt bản chất, đây là phương pháp ứng dụng đạo hàm bậc hai để làm tăng độ nét của ảnh.
Toán tử Laplace hai chiều cho tín hiệu rời rạc thường được thực hiện với mặt nạ kích thước
3x3. Hai mặt nạ lọc trên hình 3.2.22a và b thực hiện toán tử Laplacian rời rạc theo công thức
(3.2.33) đều cho các ảnh kết quả giống nhau.

a) b)

Hình 3.2.22 Mặt nạ Laplacian


Ảnh gốc (hình 3.2.23a) được xử lý bằng mặt nạ Laplacian. Vì toán tử Laplace là đạo hàm
bậc hai nên ảnh kết quả sẽ là tập hợp các đường biên nằm tại vùng biến đổi nhanh của mức chói
trong ảnh (hình 3.2.23b). Thành phần nền của ảnh gốc (những vùng ảnh có độ chói gần như không
đổi) sẽ cho giá trị gần bằng 0. Như vậy, nếu tổng hợp ảnh gốc 3.2.23a và ảnh các đương biên
3.2.23b, ta sẽ được ảnh mới, với các đường biên được tăng cường (hình 3.2.23c). Nói cách khác,
ảnh kết quả sẽ có độ nét cao hơn.

a) b) c)
Hình 3.2.23 Làm nét ảnh bằng toán tử Laplace
a- ảnh gốc; b- ảnh các đường biên được làm nổi
c- ảnh tổng hợp

  132 
Chương 3 Kỹ thuật xử lý hình ảnh 

Tóm lại, công thức tổng quát để làm nét ảnh với toán tử Laplace là:

⎪⎧ f ( x, y ) − ∇ f ( x, y )
2

g ( x, y ) = ⎨ (3.2.34)
⎪⎩ f ( x, y ) + ∇ f ( x, y )
2

Khi thực hiện Laplacian với mặt nạ trên hình 3.2.22a (mặt nạ với hệ số trung tâm nhỏ hơn
0), ảnh kết quả sẽ là hiệu giữa ảnh gốc và ảnh Laplacian và ngược lại, với mặt nạ 3.2.22b ảnh kết
quả sẽ là tổng hai ảnh. Quá trình làm nét theo (3.2.34) được thực hiện theo hai bước: tìm
Laplacian của ảnh gốc và tổng hợp ảnh gốc và ảnh kết quả với nhau. Tuy nhiên, chúng ta có thể
thực hiện quá trình biến đổi này nhanh hơn. Dựa vào (3.2.33) và (3.2.34) ta có đáp ứng của bộ lọc
làm tăng độ nét là:
g ( x, y ) = f ( x, y ) − ∇ 2 f ( x, y ) =
(3.2.35)
= 5 f ( x, y ) − ⎡⎣ f ( x + 1, y ) + f ( x − 1, y ) + f ( x, y + 1) + f ( x, y − 1) ⎤⎦
Mạt nạ lọc thực hiện biểu thức (3.2.35) có dạng:

Hình 3.2.24 Mặt nạ làm nét ảnh bằng toán tử Laplace


3.2.3 Khôi phục ảnh
Khôi phục ảnh là quá trình loại bỏ hay tối thiểu hóa các ảnh hưởng của môi trường bên
ngoài đến ảnh thu nhận được. Các nguyên nhân dẫn tới sự biến dạng (méo) ảnh có thể là: nhiễu tại
bộ biến đổi quang-điện, méo do hệ thống ống kính quang học gây ra, nhiễu không gian ảnh hưởng
tới tín hiệu trong quá trình truyền qua đường truyền, nhiễu công nghiệp tác động trực tiếp tới tín
hiệu hình ảnh v.v. Trong phần này chúng ta sẽ đề cập tới một số phương pháp khôi phục ảnh như:
lọc ảnh bằng bộ lọc không gian, khử nhiễu bằng các bộ lọc tần số thích nghi với nguồn nhiễu v.v.
3.2.3.1 Mô hình hóa quá trình gây méo và khôi phục ảnh
f ( x, y) f ( x, y)

Hình 3.2.25 Mô hình gây méo/khôi phục ảnh


Trong phần này, chúng ta sử dụng mô hình trên hình 3.2.25 để mô tả quá trình làm méo và
khôi phục ảnh. Trong mô hình này, ảnh gốc f ( x, y ) chịu tác động của toán tử làm méo H, được
đặc trưng bởi hàm đáp ứng xung h ( x, y ) và nhiễu cộng η ( x, y ) . Dựa trên h ( x , y ) và η ( x, y ) ,
chúng ta phải tìm ra phương pháp khôi phục ảnh, sao cho ảnh ra f ( x, y ) giống với ảnh vào nhất.

Nếu H là toán tử tuyến tính và bất biến, thì ảnh bị nhiễu g ( x, y ) có dạng như sau:

g ( x, y ) = H ⎣⎡ f ( x, y ) ⎦⎤ + η ( x, y ) = h ( x, y ) ∗ f ( x, y ) + η ( x, y ) (3.2.36)

h ( x, y ) - hàm đáp ứng đặc trưng cho toán tử H trong không gian.

  133 
Chương 3 Kỹ thuật xử lý hình ảnh 

Trong miền tần số, dựa trên tính chất của biến đổi Fourier ta có:
G ( u, v ) = H ( u, v ) ⋅ F ( u, v ) + N ( u, v ) (3.2.37)

với G ( u , v ) , H ( u, v ) , F ( u, v ) , N ( u, v ) là kết quả biến đổi Fourie của các hàm tương ứng.

3.2.3.2 Mô hình nhiễu


Cường độ nhiễu tác động lên hình ảnh là một đại lượng ngẫu nhiên, vì vậy khi phân tích các
kỹ thuật khôi phục ảnh, vấn đề quan trọng là cần xác định được mật độ phân bố xác suất của
nguồn nhiễu. Dưới đây là một số loại nhiễu thường gặp trong lĩnh vực xử lý ảnh và hàm mật độ
phân bố xác suất của chúng.
3.2.3.2.1 Nhiễu Gaussian
Mô hình Gaussian tiện lợi cho việc phân tích trong miền thời gian cũng như trong miền tần
số, do đó mô hình này được sử dụng rất rộng rãi. Hàm mật độ phân bố xác suất của biến ngẫu
nhiên z trong quá trình ngẫu nhiên Gaussian (quá trình ngẫu nhiên chuẩn) có dạng:
1
p( z) = e( )
2
− z − m /2σ 2
(3.2.38)
2πσ
m - giá trị trung bình thống kê của z; σ - độ lệch chuẩn.
σ 2 là phương sai của quá trình ngẫu nhiên.
Đồ thị hàm mật độ phân bố xác suất chuẩn được biểu diễn trên hình 3.2.26.
3.2.3.2.2 Nhiễu Rayleigh
Hàm mật độ phân bố xác suất của nhiễu Rayleigh:
⎧2
⎪ (z − a)e
−( z − a ) / b
2
khi z ≥ a
p(z) = ⎨b (3.2.39)
⎩⎪0 khi z < a

b(4 −π )
Giá trị trung bình và phương sai có dạng m = a + π b / 4 và σ =
2
.
4
Đồ thị hàm phân bố xác suất Rayleigh có dạng không đối xứng (hình 3.2.26), do đó phân bố
này thường được dùng để xấp xỉ histogram có dạng tương đương.
3.2.3.2.3 Nhiễu Erlang (Gamma)
Hàm mật độ phân bố xác suất của nhiễu Erlang có dạng:
⎧ a b z b −1 − az
⎪ e khi z ≥ 0
p ( z ) = ⎨ ( b − 1) ! (3.2.40)
⎪0 khi z < 0

với a>0, b- số nguyên dương.
b b
Giá trị trung bình và phương sai bằng m = và σ 2 = 2 .
a a
3.2.3.2.4 Nhiễu có phân bố là hàm mũ
Hàm mật độ phân bố xác suất của nhiễu này là trường hợp đặc biệt của phân bố Erlang khi
b=1:

  134 
Chương 3 Kỹ thuật xử lý hình ảnh 

⎧ ae − az khi z ≥ 0
p(z) = ⎨ (3.2.41)
⎩0 khi z < 0
với a>0
1 1
Giá trị trung bình và phương sai bằng m = và σ 2 = 2
a a
3.2.3.2.5 Nhiễu có phân bố đều
Hàm mật độ phân bố xác suất của nhiễu có dạng:
⎧ 1
⎪ khi a≤ z≤b
p (z) = ⎨b − a (3.2.42)
⎪⎩0 với các z khác

( a − b) .
2
a+b
Giá trị trung bình của biến ngẫu nhiên z là m = , phương sai σ 2 =
2 12
3.2.3.2.6 Nhiễu dạng xung
Hàm mật độ phân bố xác suất của nhiễu xung có thể mô tả như sau:
⎧ Pa khi z=a

p ( z ) = ⎨ Pb khi z=b (3.2.43)
⎪0
⎩ với các z khác
Pa và Pb là xác suất xuất hiện z = a hoặc z = b . Hàm mật độ phân bố có dạng
p ( z ) = Paδ ( z − a ) + Pbδ ( z − b ) .

Hình 3.2.26 Một số hàm mật độ phân bố xác suất quan trọng.

  135 
Chương 3 Kỹ thuật xử lý hình ảnh 

3.2.3.3 Triệt nhiễu bằng phương pháp lọc không gian


Trường hợp khi ảnh chỉ chịu tác động của nhiễu cộng, các phương pháp lọc nhiễu trong
không gian thường cho kết quả khôi phục ảnh tốt nhất. Một số phương pháp lọc trong không gian
được đề cập đến trong phần 3.2.2.2 như các biện pháp nâng cao chất lượng ảnh. Dưới đây sẽ giới
thiệu một số bộ lọc không gian khác có thể dùng để khôi phục ảnh. Các thao tác thực hiện những
bộ lọc này cũng dựa trên quá trình nhân chập mặt nạ lọc với ảnh như đã trình bày ở phần 3.2.2.2.
3.2.3.3.1 Các bộ lọc sử dụng kỹ thuật lấy trung bình trong không gian
Theo (3.2.36) và (3.2.37), ta có thể mô tả ảnh g ( x, y ) chỉ bị ảnh hưởng bởi nhiễu cộng
η ( x, y ) trong miền không gian như sau:
g ( x, y ) = f ( x, y ) + η ( x, y ) (3.2.44)

trong miền tần số ta có quan hệ:


G ( u, v ) = F ( u, v ) + N ( u, v ) (3.2.45)

Trong các bộ lọc dưới đây, ta sử dụng ma trận lọc S xy có tâm nằm tại điểm (x,y) có kích

thước mxn. Ảnh khôi phục được ký hiệu là fˆ ( x, y ) .

¾ Bộ lọc sử dụng trung bình cộng (Arithmetic mean filter)


Như đã đề cập trong phần 3.2.2.2.1, bộ lọc này thực hiện quá trình nhân chập ảnh vào với
mặt nạ S xy có các hệ số bằng 1 / mn :

1
fˆ ( x, y ) = ∑ g ( s, t )
mn ( s ,t )∈S xy
(3.2.46)

¾ Bộ lọc trung bình nhân (Geometric mean filter)


Quan hệ giữa ảnh khôi phục và ảnh nhiễu được mô tả bằng công thức tính trung bình nhân
như sau:
1
⎡ ⎤ mn
fˆ ( x, y ) = ⎢ ∏ g ( s, t ) ⎥ (3.2.47)
⎢⎣ ( s ,t )∈S xy ⎥⎦
Bộ lọc trung bình nhân cũng có tác dụng làm trơn nhiễu, ưu điểm của nó so với bộ lọc trung
bình cộng là mức độ làm mờ các chi tiết nhỏ tương đối thấp.
¾ Bộ lọc trung bình điều hòa (Harmonic mean filter)
Kết quả nhận được khi lọc bằng bộ lọc trung bình harmonic sẽ là:
mn
fˆ ( x, y ) = (3.2.48)
1
∑ g ( s, t )
( s ,t )∈S xy

Bộ lọc này có khả năng triệt nhiễu xung dạng "đốm trắng" và nhiễu Gaussian khá tốt.
Nhưng bộ lọc này không có khả năng lọc các thành phần nhiễu xung dạng "đốm đen".
¾ Bộ lọc contraharmonic (Contraharmonic mean filter)
Biến đổi trong bộ lọc contraharmonic được mô tả bằng biểu thức:

  136 
Chương 3 Kỹ thuật xử lý hình ảnh 

∑ g ( s, t )
Q +1

( s ,t )∈S xy
fˆ ( x, y ) = (3.2.49)
∑ g ( s, t )
Q

( s ,t )∈S xy

Q - gọi là bậc của bộ lọc. Bộ lọc này thích ứng tốt với ảnh có nhiễu xung. Với Q là số
dương, nhiễu xung "đốm đen" sẽ bị triệt, ngược lại, thành phần nhiễu xung "đốm trắng" được lọc
bớt khi Q là số âm. Có thể thấy rằng khi Q=0, ta có bộ lọc trung bình cộng; với Q= -1 ta có bộ lọc
trung bình hài.
Nhìn chung, các bộ lọc trung bình cộng và nhân thích ứng tốt với các loại loại nhiễu có
phân bố Gaussian, Rayleigh hay nhiễu có phân bố đều. Bộ lọc contraharmonic cho phép triệt
nhiễu xung khá tốt, tuy nhiên, như đã phân tích ở trên, chúng ta phải xác định được dạng nhiễu
xung là "đốm đen" hay "đốm trắng".
3.2.3.3.2 Các bộ lọc dựa trên thống kê thứ tự
¾ Bộ lọc trung vị
Trong phần 3.2.2.2.2 đã đề cập tới kỹ thuật lọc trung vị, cho phép loại nhiễu xung trong
ảnh. Đây là bộ lọc phi tuyến có đáp ứng là giá trị bằng giá trị điểm trung vị trong ma trận lọc:

fˆ ( x, y ) = med {g ( s, t )} (3.2.50)
( s ,t )∈S xy

Bộ lọc trung vị được sử dụng rất rộng rãi vì nó một mặt cho phép loại bỏ hiệu quả các loại
nhiễu xung lưỡng cực cũng như đơn cực, mặt khác bộ lọc này ít làm trơn ảnh so với các bộ lọc sử
dụng toán tử lấy trung bình như đã xét ở phần trên.
¾ Bộ lọc dựa trên phép lựa trọn giá trị cực đại và cực tiểu
Quá trình biến đổi dựa trên thống kê thứ tự và chọn giá trị cực đại được gọi là bộ lọc cực
đại:

fˆ ( x, y ) = max {g ( s, t )} (3.2.51)
( s ,t )∈S xy

Bộ lọc cực đại cho phép phát hiện những điểm sáng nhất trong ảnh, đồng thời có tác dụng
triệt nhiễu xung dạng "đốm đen".
Bộ lọc cực tiểu được mô tả bằng biểu thức:

fˆ ( x, y ) = min {g ( s, t )} (3.2.52)
( s ,t )∈S xy

Bộ lọc này cho phép phát hiện những vùng tối của ảnh và làm giảm nhiễu xung "trắng".
¾ Bộ lọc giả trung vị
Đáp ứng của bộ lọc này là giá trị trung bình giữa hai điểm cực đại và cực tiểu trong ma trận
lọc:
1
fˆ ( x, y ) = ⎡ max {g ( s, t )} + min {g ( s, t )}⎤ (3.2.53)
2 ⎢⎣ ( s ,t )∈S xy ( s ,t )∈S xy ⎥⎦
3.2.3.4 Triệt nhiễu trong miền tần số
Các bộ lọc trong miền không gian đề cập tới ở các phần trên là các bộ lọc thông thấp hoặc
thông cao. Lọc không gian có thể được sử dụng để khôi phục ảnh có nhiễu hoặc để làm tăng chất
lượng ảnh. Trong phần này chúng ta sẽ đề cập tới vấn đề xử lý ảnh trong miền tần số: đó là một số

  137 
Chương 3 Kỹ thuật xử lý hình ảnh 

bộ lọc dải, bộ lọc chặn dải và ứng dụng của chúng để khôi phục ảnh có nhiễu tuần hoàn.
¾ Lọc chặn dải và lọc thông dải
Đặc tuyến tần số của bộ lọc chặn dải lý tưởng được mô tả bằng biểu thức sau:
⎧ W
⎪1 khi D ( u, v ) < D0 −
2

⎪ W W
H ( u , v ) = ⎨0 khi D0 − ≤ D ( u, v ) ≤ D0 + (3.2.54)
⎪ 2 2
⎪ W
⎪⎩1 khi D ( u, v ) > D0 +
2
D ( u, v ) - Khoảng cách tính từ tâm điểm của không gian tần số (điểm 0) (hình 3.2.27d);
W - bề rộng băng chặn của bộ lọc;
D0 - bán kính đường tròn đi qua tâm của băng chặn (hình 3.2.27d)
Hàm đáp ứng tần số của bộ lọc chặn dải Butterworth bậc n có dạng:
1
H ( u, v ) = 2n (3.2.55)
⎡ D ( u, v ) W ⎤
1+ ⎢ 2 2⎥
⎣ D ( u, v ) − D0 ⎦

Hình 3.2.27 Đáp ứng tần số của bộ lọc a - lý tưởng, b - Butterworth,


c- Gaussian
d- đáp ứng tần số bộ lọc Gaussian (hình chiếu từ trên xuống)
Hàm đáp ứng tần số của bộ lọc chặn dải Gaussian được định nghĩa như sau:
2
1 ⎡ D ( u ,v ) − D0 ⎤
2 2
− ⎢ ⎥
2 ⎣⎢ D ( u ,v )W ⎦⎥
H ( u, v ) = 1 − e (3.2.56)

Trên hình 3.2.27 a,b,c minh họa đáp ứng tần số của ba bộ lọc nêu trên (trong không gian 3
chiều).
Bộ lọc thông dải có đáp ứng tần số H td ( u, v ) ngược lại so với bộ lọc chặn dải H cd ( u, v ) :

  138 
Chương 3 Kỹ thuật xử lý hình ảnh 

H td ( u, v ) = 1 − H cd ( u, v ) (3.2.57)

¾ Notch filter
Các bộ lọc Notch cho phép lọc một số thành phần phổ trong không gian phổ hai chiều của
ảnh. Khác với các bộ lọc chặn dải có đặc tuyến tần số đẳng hướng (hình 3.2.27b,c), notch filter
cho phép lọc bỏ các thành phần nhiễu theo hướng nhất định trong không gian tần số.
Đặc tuyến tần số của notch filter (lọc chặn) lý tưởng có dạng đối xứng qua điểm gốc của
không gian tần số, với đỉnh nằm tại các điểm ( u0 , v0 ) và ( −u0 , −v0 ) có thể được mô tả bằng biểu
thức sau:
⎧0 khi D1 ( u, v ) ≤ D0 hay D2 ( u, v ) ≤ D0
H ( u, v ) = ⎨ (3.2.58)
⎩1 với các trường hợp khác
D0- bán kính miền chặn dải của bộ lọc.

D1 ( u, v ) = ⎡( u − M / 2 − u0 ) + ( v − N / 2 − v0 ) ⎤
2 2
(3.2.59)
⎣ ⎦

D2 ( u, v ) = ⎡( u − M / 2 + u0 ) + ( v − N / 2 + v0 ) ⎤
2 2
(3.2.60)
⎣ ⎦
Đặc tuyến tần số của Butterworth notch filter bậc n có dạng:
1
H ( u, v ) = n (3.2.61)
⎡ D02 ⎤
1+ ⎢ ⎥
⎣ D1 ( u, v ) ⋅ D2 ( u, v ) ⎦
với D1 ( u, v ) và D2 ( u , v ) tính theo (3.2.59) và (3.2.60)

Có thể thấy rằng, khi u0 = v0 = 0 notch filter trở thành bộ lọc thông cao. Notch pass filter
(lọc thông dải) có đáp ứng tần số H ntd ( u, v ) ngược lại so với bộ lọc chặn dải H ncd ( u, v ) :

H ntd ( u, v ) = 1 − H ncd ( u, v ) (3.2.62)

3.2.3.5 Kỹ thuật lọc ngược (inverse filter)


Nhắc lại công thức 3.2.36 mô tả quá trình làm méo tín hiệu hình ảnh:
g ( x, y ) = H ⎡⎣ f ( x, y ) ⎤⎦ + η ( x, y ) (3.2.63)

Ở đây, chúng ta xét trường hợp tín hiệu bị làm méo bởi toán tử H tuyến tính, bất biến và
nhiễu cộng η ( x, y ) . Dựa trên hàm đáp ứng xung của hệ thống h ( x , y ) ta có:

g ( x, y ) = h ( x, y ) ∗ f ( x, y ) + η ( x, y ) (3.2.64)

Trong miền tần số, ứng dụng các tính chất của biến đổi Fourier ta có quan hệ sau:
G ( u , v ) = H ( u, v ) ⋅ F ( u , v ) + N ( u, v ) (3.2.65)

F ( u, v ) , G ( u, v ) , N ( u, v ) là phổ của ảnh gốc, ảnh kết quả và nhiễu. H ( u, v ) - hàm đáp
ứng tần số (tương ứng với toán tử H).
Trong trường hợp khi hàm H ( u, v ) được cho trước, kỹ thuật khôi phục đơn giản và chính

  139 
Chương 3 Kỹ thuật xử lý hình ảnh 

xác nhất là lọc ngược. Hàm đáp ứng tần số của bộ lọc ngược là 1 / H ( u, v ) , khi đó phổ của ảnh

kết quả Fˆ ( u, v ) sẽ bằng:

Fˆ ( u, v ) = G ( u, v ) / H ( u, v ) (3.2.66)

Nếu ảnh bị tác động bởi nhiễu cộng, từ (3.2.65) ta có:

Fˆ ( u, v ) = F ( u, v ) + N ( u, v ) / H ( u, v ) (3.2.67)

Có thể thấy rằng, ngay cả khi biết trước H ( u, v ) , chúng ta vẫn không thể khôi phục chính
xác được ảnh gốc, vì nhiễu cộng là tín hiệu ngẫu nhiễn và hàm mật độ phổ N ( u, v ) không xác
định chính xác được. Một nhược điểm nữa của lọc ngược là khi hàm H ( u, v ) có giá trị bằng
hoặc gần bằng 0, bộ lọc này trở nên không ổn định. Trong trường hợp này, thành phần thứ hai của
(3.2.67) sẽ có giá trị lớn hơn nhiều so với tín hiệu ảnh gốc. Để không xảy ra hiện tượng nói trên,
trên thực tế băng thông của bộ lọc ngược được hạn chế trong dải tần thấp, nơi hàm H ( u, v ) có
giá trị lớn hơn 0.
3.2.3.6 Lọc Wiener
Phương pháp lọc ngược tuy đơn giản, nhưng kết quả không tối ưu khi ảnh chịu tác động của
nhiễu. Bộ lọc Wiener cho phép khôi phục ảnh dựa trên hàm biến đổi H ( u, v ) và đặc điểm của
nguồn nhiễu. Trong kỹ thuật lọc Wiener, ảnh số f ( u, v ) và nhiễu được mô tả như các các tín

hiệu ngẫu nhiên; Tín hiệu ở đầu ra của bộ lọc là fˆ ( u, v ) phải đáp ứng được điều kiện sao cho lỗi

trung bình bình phương (MSE - mean square error) của fˆ ( u, v ) và f ( u, v ) phải là nhỏ nhất. Giá
trị MSE tính theo công thức sau:

e2 = E {( f − fˆ ) }
2
(3.2.68)

Xét trường hợp thỏa mãn các điều kiện sau:


- Nhiễu và ảnh gốc là hai tín hiệu ngẫu nhiên độc lập tương hỗ (không tương quan);
- Hoặc ảnh gốc, hoặc nhiễu có giá trị trung bình bằng 0;
- Hàm biến đổi H ( u, v ) là tuyến tính

khi đó, có thể chứng minh được MSE sẽ là nhỏ nhất khi đáp ứng của bộ lọc được xác định
theo biểu thức sau:
⎛ H * ( u, v ) S f ( u, v ) ⎞
F ( u, v ) =
ˆ ⎜ ⎟ G ( u, v ) =
⎜ S f ( u, v ) H ( u, v ) + Sη ( u, v ) ⎟
2
⎝ ⎠
(3.2.69)
⎛ 1 H ( u, v )
2

= ⎜ ⋅ ⎟ G ( u, v )
⎜ H ( u, v ) H ( u, v ) 2 + Sη ( u, v ) / S f ( u, v ) ⎟
⎝ ⎠

Sη ( u, v ) = N ( u, v ) - Hàm mật độ phổ công suất của nhiễu;


2

S f ( u, v ) = F ( u, v ) - Hàm mật độ phổ công suất của tín hiệu ảnh gốc;
2

  140 
Chương 3 Kỹ thuật xử lý hình ảnh 

Sη ( u, v ) / S f ( u, v ) - Tỷ lệ công suất nhiễu/tín hiệu (NSPR- Noise-to-Signal-Power-


Ratio).
G ( u, v ) - Phổ của ảnh đã bị biến đổi và chịu tác động của nhiễu.

Ảnh kết quả là biến đổi nghịch Fourier của Fˆ ( u, v ) .

Kết quả trên do N. Wiener thu được năm 1942. Bộ lọc có đáp ứng tần số mô tả trong
(3.2.69) được gọi là bộ lọc trung bình bình phương cực tiểu. Nếu nhiễu không tồn tại trong hệ
thống, mật độ phổ công suất Sη ( u , v ) bằng 0, bộ lọc Wiener sẽ biến thành bộ lọc ngược.

Có thể xác định hai đại lượng quan trọng là công suất trung bình của ảnh gốc và của nhiễu
là:
1
fA =
MN
∑∑ S ( u, v )
u v
f (3.2.70)

1
và ηA =
MN
∑∑ Sη ( u, v )
u v
(3.2.71)

MxN là kích thước ma trận ảnh và nhiễu. Tỷ lệ R = η A / f A (là hằng số) đôi khi được sử
dụng thay cho tỷ lệ NSPR trong (3.2.69), khi không thể tìm được hàm mô tả mật độ phổ công suất
của nhiễu cũng như của tín hiệu hình ảnh. Tất nhiên, cách xấp xỉ này tương đối thô, nhưng ảnh
khôi phục thường có chất lượng cao hơn so với ảnh nhận được khi lọc ngược. Phổ ảnh kết quả
được mô tả bằng biểu thức sau:
⎛ 1 H ( u, v )
2

F ( u, v ) = ⎜
ˆ ⋅ ⎟ G ( u, v ) (3.2.72)
⎜ H ( u, v ) H ( u, v ) 2 + R ⎟
⎝ ⎠
Để so sánh khả năng khôi phục ảnh của các bộ lọc ngược và lọc Wiener, ta quan sát các ảnh
được biểu diễn trên hình 3.2.28. Hình 3.2.28a là ảnh gốc dạng hình bàn cờ. Trong quá trình chụp
ảnh, nếu camera bị dịch chuyển so với ảnh gốc, hình ảnh thu được sẽ bị nhòe. Trên hình 3.2.28b
là ảnh bị làm nhòe theo cách trên, ảnh này được mổ phỏng bằng các hàm Matlab
PSF=fspecial('motion',len,theta)và g=imfilter(f,PSF,'circular'); len - độ dịch chuyển của camera;
theta - góc dịch chuyển;
Trên hình 3.2.28c là ảnh đã bị làm nhòe được tổng hợp với nhiễu Gaussian với giá trị trung
bình bằng 0, độ lệch chuẩn 0.005. Hình 3.2.28d là kết quả lọc ngược từ ảnh 3.2.28b. Quá trình này
được thực hiện bằng hàm: fr0=deconvwnr(g,PSF); đây chính là hàm thực hiện bộ lọc
Wiener với NSPR bằng 0. Vì ảnh 3.2.28b không bị ảnh hưởng của nhiễu, nên lọc ngược cho phép
khôi phục chính xác ảnh gốc.
Trên hình 3.2.28e là ảnh kết quả lọc ngược ảnh có nhiễu cộng, hình 3.2.28f là kết quả thực hiện
lọc Wiener: fr2=deconvwnr(g,PSF,R), với giá trị R = η A / f A = 0,07 (được tính theo
(3.2.70) và (3.2.71).

  141 
Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.2.28 So sánh hiệu quả bộ lọc ngược và lọc Wiener


Dựa trên các ảnh kết quả trên hình 3.2.28, có thể thấy rằng bộ lọc trung bình bình phương
cực tiểu Wiener với NSPR không đổi (3.2.72) cho kết quả tốt hơn rất nhiều so với bộ lọc ngược
khi ảnh biến đổi bị tác động của nhiễu cộng.
3.2.4 Các phương pháp xác định và dự đoán biên ảnh
3.2.4.1 Cơ sở phát hiện đường biên ảnh
Làm nổi, phát hiện và dự đoán biên ảnh là vấn đề quan trọng trong phân tích ảnh. Như đã
được định nghĩa ở phần trước, đường biên của một vùng ảnh R được tạo ra bởi các điểm ảnh có
một hoặc nhiều điểm lân cận không nằm trong tập liên kết R. Nói cách khác, một điểm ảnh được
coi là nằm trên đường biên nếu tại vị trí điểm ảnh đó có sự thay đổi đột ngột của mức xám. Như
vậy, đường biên là đường nối các điểm ảnh nằm trong khu vực ảnh có thay đổi đột ngột về độ
chói, đường biên thường ngăn cách hai vùng ảnh, khi mỗi vùng có các mức xám gần như không
đổi.

a) b)

Hình 3.2.29 Minh họa khái niệm đường biên của ảnh. a- Đường biên giữa hai vùng ảnh
trong không gian 2 chiều b- Sự thay đổi độ chói trên đường biên.
Trong trường hợp lý tưởng, độ chói giữa hai vùng ảnh thay đổi đột ngột hoặc tăng dần đều.

  142 
Chương 3 Kỹ thuật xử lý hình ảnh 

Tuy nhiên, trên thực tế, mức xám giữa các vùng ảnh thay đổi tương đối ngẫu nhiên (hình 3.2.29b).
Chính vì vậy quá trình phát hiện đường biên thường không đơn giản và kết quả thường không
hoàn toàn chính xác.

Có nhiều phương pháp phát hiện đường biên khác nhau:


1- Phương pháp phát hiện đường biên trực tiếp dựa trên các phân tích về sự thay đổi độ chói
của ảnh. Kỹ thuật chủ yếu dùng để phát hiện biên là dùng đạo hàm. Khi lấy đạo hàm bậc nhất của
ảnh ta có phương pháp gradient, khi lấy đạo hàm bậc hai ta có kỹ thuật Laplace.
2- Phương pháp phát hiện đường biên trong ảnh màu: phân tích ảnh màu thành các ảnh đơn
sắc (R,G,B) và xác định đường biên trên cơ sở sự thay đổi màu sắc trong các ảnh đơn sắc nói trên.
3- Phân tích ảnh thành vùng theo các đặc điểm đặc trưng. Ví dụ theo kết cấu bề mặt
(texture). Ranh giới giữa các vùng chính là đường biên của ảnh.

Hình 3.2.30 Sơ đồ khối tổng quát của hệ thống phát hiện đường biên

Sơ đồ khối tổng quát của hệ thống phát hiện đường biên biểu diễn trên hình 3.2.30.
Ảnh gốc f(x,y) được đưa vào khối làm nổi đường biên. Ở đây, bằng phương pháp xử lý
tuyến tính hoặc phi tuyến, ảnh f(x,y) được làm tăng mức chênh lệch độ chói giữa các vùng ảnh.
Ảnh G(x,y) là ảnh đã được xử lý đường biên. Tại khối so sánh, người ta so sánh giá trị các điểm
ảnh G(x,y) với mức ngưỡng T để xác định vị trí các điểm nằm ở vùng có mức thay đổi độ chói lớn
tức các điểm ảnh nằm trên đường biên. Ví dụ: khi f(x,y) được xử lý bằng đạo hàm bậc hai, ảnh kết
quả G(x,y) sẽ được so sánh với các mức ngưỡng TL (thấp) và TH (cao). Nếu G ( x, y ) < TL thì
điểm (x,y) là điểm biên, nằm vùng có độ chói thấp. Và ngược lại nếu G ( x, y ) > TH - điểm (x,y)
nằm ở vùng có mức chói cao.
Việc lựa chọn giá trị ngưỡng rất quan trọng trong quá trình xác định đường biên. Khi giá trị
T quá cao, các đường biên có độ tương phản thấp sẽ bị mất đi, ngược lại, khi T quá thấp, dễ xảy ra
hiện tượng xác định biên sai khi ảnh chịu tác động của nhiễu.

3.2.4.2 Phương pháp Gradient


Phương pháp gradient là phương pháp dò biên cục bộ dựa vào giá trị cực đại của đạo hàm
G
bậc một. Gradient của ảnh f ( x, y ) tại điểm A là vector ∇f . Hướng của vector gradient trùng
với hướng có tốc độ thay đổi lớn nhất của hàm f ( x, y ) .

⎡ ∂f ⎤
G ⎡Gx ⎤ ⎢ ∂x ⎥
∇f = ⎢ ⎥ = ⎢ ⎥ (3.2.73)
⎣G y ⎦ ⎢ ∂f ⎥
⎢⎣ ∂y ⎥⎦

Các thành phần của gradient được tính bởi:

  143 
Chương 3 Kỹ thuật xử lý hình ảnh 

∂f ( x, y ) f ( x + dx, y ) − f ( x, y )
Gx = = (3.2.74)
∂x dx

∂f ( x, y ) f ( x, y + dy ) − f ( x, y )
Gy = = (3.2.75)
∂y dy

dx và dy là khoảng cách giữa các điểm theo hướng lấy đạo hàm x và y. Trên thực tế thường
dùng dx=1, dy=1.

Hình 3.2.31 Vector Gradient tại điểm A

Modul của vector gradient ∇ f chính là giá trị thay đổi lớn nhất của hàm f tại điểm A (hình
G
3.2.31) theo hướng của vector ∇f :
G
∇f = ∇f = Gx2 + G y2 (3.2.76)

Việc xác định modul gradient theo công thức trên đòi hỏi thực hiện phép tính bình phương
và lấy căn bậc hai. Để đơn giản hóa quá trình tính toán, mà vẫn có kết quả tương đối chính xác khi
tìm biên, người ta xấp xỉ giá trị gradient như sau:
G
∇f ≅ ∇f = Gx + G y (3.2.77)

Hướng của vector gradient tại điểm A có tọa độ (x,y) cũng là một thông số quan trọng, nó
G
được xác định thông qua góc α ( x, y ) giữa vector ∇f và trục x:

⎛ Gy ⎞
α ( x, y ) = arctg ⎜ ⎟ (3.2.78)
⎝ Gx ⎠
G
Hướng của đường biên ảnh là đường vuông góc với vector gradient ∇f , trên hình được
biểu diễn như vector n.

Khi ảnh số được biểu diễn như ma trận các điểm ảnh phân bố theo dòng và cột, gradient rời
rạc theo hướng x sẽ bằng:

Gx ( x, y ) = f ( x + 1, y ) − f ( x, y ) (3.2.79)

Gradient theo hướng y sẽ là:

Gy ( x, y ) = f ( x, y + 1) − f ( x, y ) (3.2.80)

  144 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

a
a) b)

Hình 3.2.32 L
Làm nổi đườnng biên
ssử dụng phươ
ơng pháp graadient.
a- Ảnnh gốc;
b- Grradient theo cchiều x (Gx);;
c- Grradient theo cchiều y (Gy);;

c)
Đ làm nổi những
Để n đườngg biên dọc, taa phải lấy đạạo hàm rời rạạc theo chiềuu ngang và ngược
n
n đường bbiên theo phhương pháp gradient thểể hiện trên hình
lại. Kếết quả quá trình làm nổi
3.2.32.
C nhiều cácch tìm đạo hààm bậc một ccủa ảnh, đơn giản nhất là phương phááp sử dụng tooán tử

Robertt.

z1 z2 z3
Hình 3.2.33 Ma trận n 9 điểm
ảnh và cácc mặt nạ dùng để tìm z4 z5 z63
gradient tạại điểm z5 z7 z8 z93
a- Ma trận các điểm ảnhh

-1 -1 -1
z3 -1 0 z13 -1 -2 -1
z3 -1 0 z13

-1 z03 0 z3
-1 0 0 z03 -1 0 z13 0 0 z03 -2 0 z23

0 z13 1 z03 1 1 z13 -1 0 z13 1 2 z13 -1 0 z13

b Mặt nạ Ro
b- obert c - Mặt
M nạ Prew
witt d- mặtt nạ Sobel

Sử dụng toánn tử Robert, ta


S ường chéo củủa block 2x2 tại điểm z5 (hình
t tìm ra graddient theo đư
3.2.33b
b) như sau:

G1 = z9 − z5
(3.2.81)
G2 = z8 − z6

Gradient củaa ảnh được tìm


G m ra bằng cáách nhân chậập ảnh với cácc mặt nạ Robbert như trênn hình
(3.2.333b). Trên hìnnh (3.2.34b)) là hai ảnh kkết quả có đư
ược sau khi thực
t hiện toáán tử Robertt theo
(3.2.811). Trong từnng ảnh, các đường
đ n còn các vùng
biên ddọc theo hai đường chéoo được làm nổi,
ảnh (trrên ảnh gốc) có độ chói khhông đổi đượ ợc tô màu đen trên ảnh kếết quả.
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

Do mặt nạ 2x2
D 2 không cóó điểm trung tâm, người ta thường dùùng các mặt nạ có kích thước
t
3x3 hooặc 5x5. Toáán tử Prewittt được thực hhiện với các mặt nạ như
ư trên hình (3
3.2.34c). Graadient
tính thheo chiều ngaang và chiều dọc sẽ bằng:
G x = ( z7 + z8 + z9 ) − ( z1 + z2 + z3 ) (3.2.82)

G y = ( z3 + z6 + z9 ) − ( z1 + z4 + z7 ) (3.2.83)

T
Toán tử Sobel được biểuu diễn trên hìình 3.2.33d có
c tác dụng gần
g giống nhhư mặt nạ Preewitt,
điểm khác
k biệt là các
c hệ số nằm hiều ngang vvà dọc với z5 tức N 4 ( z5 ) có
m tại vị trí lâân cận theo ch
giá trị ±2 (hình 3.2
2.33d). Mặt nạ
n nói trên cũũng cho phépp thực hiện quá
q trình tìm đạo hàm theeo hai
hướngg:
G x = ( z7 + 2 z8 + z9 ) − ( z1 + 2 z2 + z3 ) (3.2.84)

G y = ( z3 + 2 z6 + z9 ) − ( z1 + 2 z4 + z7 ) (3.2.85)

V tăng giá trị các hệ số


Việc s nói trên sẽẽ làm giảm tính
t trung bìnnh hóa (làm mờ ảnh) củaa quá
trình nhân
n chập ảnhh gốc với cácc mặt nạ này..

a)

Hình 3.2.34 ẢnhẢ


b) g (a) và kết
gốc k quả làm nổi
n
đ
đường biên
n sử dụng các
c
m nạ Robert (b), mặt nạ
mặt
P
Prewitt (c)) và mặt nạ
Sobel (d).

c)

d)
Chương 3 Kỹ thuật xử lý hình ảnh 

Có thể thấy rằng tổng các hệ số trong các mặt nạ nói trên bằng 0, như vậy tại những vùng
ảnh có độ chói không đổi, đáp ứng của bộ lọc sẽ bằng 0, điều này hoàn toàn phù hợp với tính chất
của toán tử tìm đạo hàm.
Toán tử Prewitt và Sobel được sử dụng rộng rãi hơn so với Robert vì chúng ít nhậy cảm với
nhiễu nhờ tháo tác lấy trung bình cục bộ trong vùng rộng hơn (9 điểm ảnh)
Kết quả nhận được khi thực hiện toán tử Prewitt và Sobel được thể hiện trên hình
(3.2.34c,d).
Dễ dàng nhận thấy các đường biên ngang và dọc được làm nổi bằng toán tử Sobel có biên
độ lớn hơn so với kết quả của toán tử Prewitt.
Mặt nạ Prewitt và Sobel được mô tả ở trên cho phép làm nổi đường biên cục bộ nằm theo
chiều ngang và chiều dọc. Có thể thay đổi cấu trúc những mặt nạ nói trên để chúng cho đáp ứng
mạnh nhất với các đường biên nằm theo góc 450 và 1350 so với trục x.
Hai cặp mặt nạ bổ xung Prewitt và Sobel dùng để làm nổi biên theo đường chéo có dạng
như trên hình 3.2.35 và 2.3.36.

Hình 3.2.35 Cặp mặt nạ Prewitt (bổ xung) Hình 3.2.36 Cặp mặt nạ Sobel (bổ xung)

3.2.4.3 Làm nổi biên bằng toán tử la bàn


Đạo hàm rời rạc hai chiều có thể được thực hiện bằng cách lấy tổng chập giữa ảnh gốc và
mặt nạ gradient. Một số mặt nạ được sử dụng để làm nổi các đường biên theo hướng nhất định.
Các mặt nạ cho phép phát hiện đường biên nằm dọc theo tám hướng (địa lý) được sử dụng trong
toán tử la bàn. Tên mặt nạ được đặt theo hướng thay đổi độ chói mà mặt nạ cho đáp ứng lớn nhất.
Ví dụ, mặt nạ hướng đông cho đáp ứng mạnh nhất với sự thay đổi độ chói theo hướng từ trái sang
phải. Lưu ý rằng tổng các hệ số trong từng mặt nạ bằng 0, như vậy đáp ứng của chúng với ảnh có
mức chói không đổi sẽ bằng 0.

Hình 3.2.37 Mặt nạ dùng trong toán tử la bàn

  147 
Chương 3 Kỹ thuật xử lý hình ảnh 

Trong hình dưới đây là một số ảnh đã được xử lý nổi biên bằng các mặt nạ trên:

Mặt nạ Bắc Mặt nạ Nam

Mặt nạ Đông Bắc Mặt nạ Đông

Hình 3.2.38 Minh họa quá trình làm nổi biên bằng toán tử la bàn.
Có thể thấy rằng, các mặt nạ trên có tổng giá trị các hệ số bằng 0, do đó đáp ứng của mặt nạ
tại vùng ảnh có độ chói không đổi sẽ bằng 0.
Toán tử la bàn Kirsh cũng cho phép làm nổi biên theo tám hướng. 8 mặt nạ Kirsh có dạng
như sau:

Hình 3.2.39 Mặt nạ thực hiện toán tử Kirsh


3.2.4.4 Kỹ thuật Laplace
Phương pháp gradient cho kết quả khá tốt khi mức sáng giữa các vùng ảnh thay đổi tương
đối rõ nét. Khi mức xám thay đổi chậm, các đường biên không rõ nét, miền chuyển tiếp tương đối
rộng, phương pháp làm nổi biên hiệu quả hơn là dùng đạo hàm bậc hai. Phương pháp này gọi là
phương pháp Laplace. Toán tử Laplace được định nghĩa như sau:

  148 
Chương 3 Kỹ thuật xử lý hình ảnh 

∂2 f ∂2 f
∇2 f = + (3.2.86)
dx 2 dy 2
Việc xấp xỉ đạo hàm bậc hai cho tín hiệu rời rạc (tạm thời xét tín hiệu một chiều) được thực
hiện như sau:

∂2 f
= f ( x + 1) + f ( x − 1) − 2 f ( x ) (3.2.87)
∂x 2
Để thấy sự khác biệt, chúng ta quan sát tác động của đạo hàm bậc một và bậc hai tới tín
hiệu:

Hình 3.2.40 Minh họa ứng dụng đạo hàm bậc một và bậc hai trong quá trình tách biên

Nhìn trên đồ thị kết quả đạo hàm bậc một và hai (hình 3.2.40 và 3.2.41) ta thấy đạo hàm
bậc một trong vùng mức xám giảm dần có giá trị khác không, trong khi đạo hàm bậc hai chỉ khác
không ở vị trí đầu và cuối vùng này. Vùng biên trên ảnh thực thường có sự thay đổi độ chói tương
đối chậm, do đó có thể thấy đạo hàm bậc hai cho phép xác định vị trí đường biên tốt hơn đạo hàm
bậc một. Tại vị trí điểm ảnh riêng rẽ, đạo hàm bậc hai cho đáp ứng mạnh hơn, do đó các chi tiết
nhỏ (và cả nhiễu) sẽ được làm nổi rõ nét hơn. Đường nét tương đối mảnh trên hình ảnh cũng được
làm nổi nhiều hơn khi sử dụng đạo hàm bậc hai. Cuối cùng, đối với tín hiệu dạng "bậc sáng" (hình
3.2.40) đáp ứng của cả đạo hàm bậc một và hai gần giống nhau. Tuy nhiên đạo hàm bậc hai có thể
cho giá trị âm và dương. Do đó kết quả xác định biên dựa trên đạo hàm bậc hai có thể cho hiệu
ứng đường biên đôi.

Hình 3.2.41 Dạng tín hiệu nhận được sau khi lấy đạo hàm bậc 1 và bậc 2

  149 
Chương 3 Kỹ thuật xử lý hình ảnh 

Các hệ thống phân tích ảnh dựa trên đạo hàm bậc hai thường rất nhạy cảm với nhiễu, điều
này được minh họa trên hình (3.2.42). Trên hình (3.2.42a) là ba ảnh từ trái sang phải có độ chói
tăng dần. Ảnh thứ hai và thứ ba bị tác động bởi nguồn nhiễu Gausian với tỷ lệ S/N tương ứng là
25 và 15 dB. Hình (3.2.42b) biểu diễn phân bố độ chói dọc theo từng dòng ảnh. Kết quả đạo hàm
bậc một và hai của ảnh được biểu diễn trên các hình 3.2.42c và 3.2.42d. Dễ dàng nhận thấy hiệu
ứng đường biên đôi, cũng như khả năng chống nhiễu kém của phương pháp tìm biên bằng đạo
hàm bậc hai so với đạo hàm bậc một.

Hình 3.2.42 Minh họa quá trình phát hiện biên bằng đạo hàm bậc một và bậc hai.

Đối với tín hiệu 2 chiều, đạo hàm riêng theo trục x và y bằng:

∂2 f
= f ( x + 1, y ) + f ( x − 1, y ) − 2 f ( x, y ) (3.2.88)
∂x 2

∂2 f
= f ( x, y + 1) + f ( x, y − 1) − 2 f ( x, y ) (3.2.89)
∂y 2

Thông thường, toán tử Laplace hai chiều rời rạc được thực hiện với mặt nạ kích thước 3x3.
Có hai cách xấp xỉ đạo hàm bậc 2 rời rạc cho vùng ảnh 3x3: theo công thức (3.2.90) và (3.2.91).
∇2 f = 4z5 − [ z2 + z4 + z6 + z8 ] (3.2.90)

∇2 f = 8z5 − [ z1 + z2 + z3 + z4 + z6 + z7 + z8 + z9 ] (3.2.91)

Để thực hiện các công thức trên, chúng ta sử dụng hai mặt mạ tương ứng như trên hình
3.2.43.

a) b) c)

Hình 3.2.43 Mặt nạ thực hiện toán tử Laplace


a- Thứ tự các điểm ảnh trong mặt nạ
b- Mặt nạ thực hiện toán tử (3.2.90)
c- Mặt nạ thực hiện toán tử (3.2.91)
Trên hình 3.2.44a và b là kết quả thực hiện toán tử Laplace bằng các mặt nạ 3.2.43b và

  150 
uật xử lý hìnhh ảnh 
Chươnng 3 Kỹ thu

3.2.43cc. Biên độ cáác đường biêên thu được ddựa trên bộ lọc
l bằng mặtt nạ hình 3.2..43c có giá trrị lớn
hơn.

a) b)
Hìình 3.2.44 Minh
M họa quá trình làm nổii đường biênn bằng toán tử
ử Laplace
T
Trong thực tế
t toán tử Laaplace ít đượ ợc sử dụng trrực tiếp do tính nhạy cảảm với nhiễuu đặc
trưng cho đạo hàm m bậc hai. Ngoài
N ra, như
ư đã phân tícch ở trên, viiệc sử dụng đạo hàm bậậc hai
thườngg dẫn đến hiệện tượng xuấất hiện các biiên kép, gây khó khăn choo việc phân đoạn
đ ảnh. Vìì vậy,
để làm
m giảm ảnh hưởng
h của nhhiễu, trước kkhi thực hiện toán tử Lapplace người ta
t thường làm m mờ
ảnh bằằng bộ lọc Gaausian. Ảnh đưa vào xử lý l trong trườờng hợp này ssẽ được nhânn chập với tooán tử
Laplacce của hàm Gausse
G hai chhiều có dạng như
n sau:
x2 + y2 r2
− −
h(r) = e 2σ 2
=e 2σ 2
(3.2.92)

M độ làm mờ ảnh sẽ phụ


Mức p thuộc vàoo giá trị dungg sai chuẩn σ2.
Đ hàm bậcc hai của hàm
Đạo m Gausse theo r sẽ có dạnng:
2
⎛ r 2 − σ 2 ⎞ − 2rσ
∇ h(r) = ⎜
2 2

⎟e (3.2.93)
⎝ σ
4

Trên hình 3.22.45a, b, c làà đồ thị 3 chiều, ảnh nhìn từ phía trên và hình cắt hàm
T h đáp ứngg của
hệ thốnng thực hiện toán tử Lapllacian-Gaussian (gọi tắt làà Laplacian of
o a Gaussiann – LoG).

Hìnnh 3.2.45 Hàm


m đáp ứng củủa bộ lọc Lapplacian-Gausssian và ảnh kết quả
Mặt nạ trên hình
M h 3.2.45d được sử dụnng để xấp xỉ toán
t tử LoG rời rạc. Vì đạo
đ hàm bậc haih là
phép tíính tuyến tínnh, do đó quáá trình nhân cchập ảnh và LoG
L cũng tươ ơng đương với việc nhân chập
ảnh vớới hàm làm mờ m Gausse 2 chiều (3.2.992), sau đó th hực hiện toánn tử Laplacee để làm nổi biên.
Kết quuả nhận đượcc minh họa trên hình 3.2.445.
Chương 3 Kỹ thuật xử lý ảnh 

3.2.5 Phân vùng ảnh


3.2.5.1 Tổng quan về phân vùng ảnh
Vùng ảnh (segment) là một chi tiết trong ảnh. Nó được hình thành bởi tập hợp các điểm ảnh
có cùng hoặc gần cùng một tính chất nào đó như: mức xám, màu sắc, kết cấu (texture) v.v. Đường
bao xung quanh vùng ảnh được gọi là biên ảnh (boundary).
Phân vùng ảnh là quá trình phát hiện và tách ảnh thành các vùng hoặc các thành phần độc
lập. Các thành phần độc lập có thể được xác định dựa trên cơ sở đường biên của chúng, hoặc dựa
trên các tiêu chuẩn phân vùng liên thông có cùng độ chói, màu sắc hoặc có cùng các tham số khác
của ảnh. Ngoài ra còn có các kỹ thuật phân vùng khác như phân vùng dựa vào biên độ, phân vùng
theo kết cấu (texture segmentation), phân vùng dựa trên tốc độ di chuyển của các chi tiết trong
ảnh v.v.
3.2.5.2 Phân vùng ảnh dựa theo đường biên
Quá trình làm nổi biên cục bộ được trình bày ở phần trước, trong trường hợp tối ưu chỉ cho
phép phát hiện tập hợp các điểm ảnh nằm trên đường biên. Trên thực tế, dưới tác động của nhiễu,
tập hợp các điểm đó thường không mô tả đường biên một cách chính xác. Vì vậy, người ta thường
sử dụng các thuật toán để liên kết tập hợp các điểm ảnh nói trên thành đường biên. Có nhiều kỹ
thuật được dùng cho mục đích này.
3.2.5.2.1 Mô tả đường biên bằng giải pháp xử lý cục bộ
Một trong những giải pháp đơn giản nhất để thực hiện liên kết đường biên là phân tích các
đặc trưng của điểm ảnh trong vùng lân cận nhỏ (3x3 hoặc 5x5) của mỗi điểm (x,y) trong ảnh cần
tách biên. Tất cả các điểm ảnh có chung một đặc điểm lựa chọn trước sẽ được liên kết lại thành
đường biên.
Hai đặc điểm được lựa chọn để xác định sự giống nhau của các điểm ảnh biên là:
1- Độ lớn của gradient tại điểm biên
2- Hướng của gradient
Độ lớn gradient ∇f được tính theo (3.2.76) hoặc (3.2.77) cho điểm ảnh (x,y). Điểm ảnh
biên (x0,y0), nằm trong vùng ảnh xung quanh điểm (x,y) sẽ được coi là “giống” với điểm (x,y)
nếu:
∇f ( x, y ) − ∇f ( x0 , y0 ) ≤ E (3.2.94)

Trong đó E- là ngưỡng biên độ cho trước.


Hướng của vector gradient tại điểm (x0,y0) được cho là “trùng” với hướng vector gradient
tại điểm (x,y) (tính theo (3.2.78)), nếu:
α ( x, y ) − α ( x0 , y0 ) ≤ A (3.2.95)

A- Góc lệch được cho trước.


Điểm ảnh (x0,y0) sẽ được nối với điểm (x,y) nếu thỏa mãn hai điều kiện (3.2.94) và (3.2.95).
Điểm ảnh (x0,y0) sẽ được ghi lại như điểm biên thực. Quá trình so sánh nói trên được thực
hiện cho tất cả các điểm ảnh biên đã được phát hiện.
3.2.5.2.2 Mô tả đường biên bằng phương pháp xử lý toàn cục (global
processing)
Trong phần này, quá trình mô tả đường biên sẽ được thực hiện dựa trên cở sở xác định các

   152 
Chương 3 Kỹ thuật xử lý ảnh 

điểm ảnh có nằm trên cùng đường cong (hoặc đường thẳng) cho trước hay không. Khác với
phương pháp liên kết trong phần (3.2.5.2.1), để xấp xỉ đường biên, chúng ta phải xét đến quan hệ
giữa các điểm ảnh nằm trong toàn ảnh.
- Xấp xỉ đường biên bằng đa thức
Xét tập hợp các điểm ảnh có tọa độ ( xi , yi ) với i = 0,1,2,..... M nằm trên ranh giới giữa
hai vùng ảnh. Các điểm ảnh được đánh số theo thứ tự sao cho điểm ( xi , yi ) nằm cạnh điểm

( xi+1 , yi+1 ) . Quá trình xấp xỉ đường cong trên tập điểm ảnh là quá trình xác định hàm ŷ = g ( x )
sao cho sai số xấp xỉ, tức độ khác biệt giữa điểm ( xi , yi ) và ⎡⎣ xi , g ( xi ) ⎤⎦ , là nhỏ nhất. Sai số xấp
xỉ có thể được đánh giá thông qua:
M
¾ Sai số tuyệt đối: ε = ∑ yi − g ( xi )
i =1
M
ε = ∑ ⎡⎣ yi − g ( xi ) ⎤⎦
2
¾ Sai số trung bình bình phương:
i =1

¾ Sai số tối đa: ε = max yi − g ( xi )


i

Trong trường hợp tổng quát, ta có thể dùng đa thức bậc N để xấp xỉ đường biên:
yˆ = a0 + a1 x + a2 x 2 + ... + aN x N (3.2.96)
ai - hệ số của đa thức.
Sau khi đặt tọa độ của các điểm ảnh trên đường biên vào (3.2.96) ta có hệ phương trình
tuyến tính:
⎡1 x0 x02 ... x0N ⎤ ⎡ a0 ⎤ ⎡ yˆ 0 ⎤
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢1 x1 x12 ... x1N ⎥ ⎢ a1 ⎥ ⎢ yˆ1 ⎥
⎢1 x2 x22 ... x2N ⎥ ⎢ a2 ⎥ = ⎢ yˆ 2 ⎥ (3.2.97)
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢1 # # # ⎥ ⎢# ⎥ ⎢# ⎥
⎢⎣1 xM xM2 ... xMN ⎥⎦ ⎢⎣ a N ⎥⎦ ⎢⎣ yˆ 0 ⎥⎦
Hệ phương trình trên có thể viết gọn thành:
Xa = yˆ (3.2.98)
Giải hệ phương trình trên, ta có thể tìm ra được tập hệ số ai của đa thức ŷ .
Sai số trung bình bình phương là:

ε = ( y − yˆ ) ( y − yˆ )
T
(3.2.99)

- Xấp xỉ đường biên bằng các đoạn thẳng


Đây là phương pháp xấp xỉ đường biên tương đối đơn giản. Quá trình thực hiện được mô tả
trên hình 3.2.46. Tại bước đầu tiên, ta nối hai điểm ngoài cùng của tập điểm đang xét là A và B
bằng một đường thẳng. Sau đó tiến hành dò tìm điểm có độ lệch lớn nhất theo hướng trực giao với
đường AB (điểm C) (hình 3.2.46a). Nối điểm A,B và C với nhau. Thao tác trên được lặp lại cho
hai đoạn thẳng AC và CB với các điểm ảnh lân cận của chúng (hình 3.2.46b). Quá trình xấp xỉ
biên sẽ được kết thúc khi đường thẳng gấp khúc sẽ “gần giống” với đường biên thực: cho đến lúc
khoảng cách giữa các điểm biên và đường thẳng gấp khúc luôn nhỏ hơn ngưỡng quy định là dmin

   153 
Chương 3 Kỹ thuật xử lý ảnh 

(điểm F trên hình 3.2.46c).

Hình 3.2.46 Minh họa xấp xỉ đường biên bằng các đoạn thẳng
- Xấp xỉ đường biên bằng biến đổi Hough (Hough transform)
Để xấp xỉ đường biên bằng các đoạn thẳng, chúng ta phải xác định được tập hợp các điểm
ảnh nằm trên hoặc gần một đường thẳng nào đó. Để giải quyết bài toán này chúng ta có thể sử
dụng phép biến đổi do Hough đề nghị năm 1962. Một đường thẳng trong mặt phẳng (x,y) có thể
được biểu diễn bằng hệ tọa độ góc thông qua khoảng cách r từ đường thẳng tới điểm 0 và góc θ
như trên hình 3.2.46a:
r = x cos θ + y sin θ (3.2.100)
Như vậy, mỗi đường thẳng có thể biểu diễn trong mặt phẳng (r, θ ) bằng 1 điểm duy nhất
(hình 3.2.47b).

Hình 3.2.47 Minh họa biến đổi Hough


a) Đường thẳng trong không gian (x,y).
b) Đường thẳng được biểu diễn bằng 1
điểm trong không gian (r, θ ).
c) Tập các đường thẳng đi qua một điểm
d) Biến đổi Hough của tập đường thẳng
e) Các điểm A,B,C nằm trên một đường
thẳng có tọa độ góc (r, θ )
f) Biến đổi Hough cho tập các đường
thẳng chạy qua A,B và C

Biến đổi Hught là quá trình ánh xạ các điểm nằm trên một đường thẳng thành một điểm trên
mặt phẳng (r, θ ). Một tập các đường thẳng cắt nhau tại một điểm (hình 3.2.47c) sau khi được biến

   154 
Chương 3 Kỹ thuật xử lý ảnh 

đổi sẽ tạo ra 1 đường cong trên mặt phẳng (r, θ ) (hình 3.2.47d).
Chúng ta xét ba điểm A, B, C trong mặt phẳng (x,y). Biến đổi Hough đối với các đường
thẳng đi qua từng điểm A, B, C sẽ tạo ra ba đường cong trên mặt phẳng như trên hình 3.2.47f. Có
thể thấy rằng điểm cắt của ba đường cong tại X ( r0 ,θ 0 ) ánh xạ sang mặt phẳng (x,y) sẽ cho
đường thẳng đi qua cả ba điểm A, B và C.
Khi ba điểm A,B,C không nằm cùng trên một đường thẳng, 3 đường cong nói trên sẽ không
cắt nhau ở cùng một điểm. Tuy nhiên, có thể thấy rằng đối với các điểm nằm gần đường thẳng AC
trên mặt phẳng (x,y), biến đổi Hough sẽ cho kết quả là các đường cong cắt nhau trong khu vực lân
cận với điểm X ( r0 ,θ 0 ) (hình 3.2.47f). Tính chất này được sử dụng để xấp xỉ đường biên trong
ảnh số. Tất cả các điểm biên rời rạc trong ảnh (trên mặt phẳng (x,y)) sẽ được biến đổi thành
đường cong trên bề mặt (r, θ ). Mặt phẳng (r, θ ) được chia thành các ô nhỏ (cells) như trên hình
3.2.48. “Trọng lượng” của từng ô nói trên sẽ tỷ lệ thuận với số đường cong Hough đi qua nó.
Chúng ta sẽ khảo sát để tìm ra các ô có “trọng lượng” lớn. Các đường cong đi qua những ô này
tương ứng với những điểm có thể xấp xỉ gần đúng bằng một đường thẳng với tọa độ góc (ri, θ i) là
tọa độ của ô đó. Những ô có “trọng lượng” nhỏ là ánh xạ của một số ít điểm ảnh nằm độc lập
trong mặt phẳng (x,y) nên có thể loại bỏ trong kết quả mô tả đường biên. Ô vuông nằm tại
M ( r0 ,θ 0 ) có "trọng lượng" tương đối lớn nhất vì có 3 đường cong chạy qua (hình 3.2.48).

Hình 3.2.48 Chia nhỏ mặt phẳng (r, θ ) để xấp xỉ đường biên
Quá trình xấp xỉ đường biên sử dụng biến đổi Hough được minh họa trên trên hình 3.2.49.
Các bước thực hiện quá trình xấp xỉ đường biên với biến đổi Hough có trình tự như sau:
1- Tìm giá trị gradient cho các điểm trên ảnh gốc; So sánh giá trị modul gradient với
ngưỡng (cho trước) để tạo ra ảnh nhị phân hiển thị vị trí của các điểm biên.
2- Chia mặt phẳng (r, θ ) thành các ô nhỏ.
3- Tìm ánh xạ của tất cả các điểm khác 0 trong ảnh nhị phân sang mặt phẳng (r, θ ) và tiến
hành đánh giá "trọng lượng" từng ô trong mặt phẳng đó.
4- Chọn ra các ô có trọng lượng lớn nhất; tìm ra các điểm ảnh biên có thể xấp xỉ bằng
đường thẳng có cùng tọa độ góc với tọa độ của ô có trọng lượng lớn, tương ứng với những đường
cong đi qua ô đó.

   155 
Chương 3 Kỹ thuật xử lý ảnh 

Hình 3.2.49 Biến đổi Hough và kết quả xấp xỉ biên


Hình 3.2.49a là ảnh gốc được đưa vào xử lý. Hình 3.2.49b biểu diễn kết quả nhận được sau
khi xử lý ảnh gốc bằng mặt nạ LoG. Đường biên A là một đường thẳng r0 = x cos θ 0 + y sin θ 0 .
Kết quả biến đổi Hough cho các điểm ảnh biên được biểu diễn trên hình 3.2.49c. Có thể thấy rõ
ràng rằng các đường cong Hough cắt nhau tại các ô A và B, nói cách khác, “trọng lượng” các ô A
và B lớn hơn so với các ô còn lại trong mặt phẳng (r, θ ). Các đường thẳng A và B (hình 3.2.49d)
chính là các đường thẳng được tạo ra bởi các điểm ảnh ứng với các đường cong ánh xạ đi qua hai
ô có “trọng lượng” lớn nói trên.
3.2.5.3 Phân vùng dựa trên xử lý ngưỡng (biên độ) (Thresholding)
3.2.5.3.1 Giới thiệu chung về phương pháp phân vùng theo ngưỡng biên độ
Kỹ thuật biến đổi ảnh và so sánh biên độ các điểm ảnh với mức ngưỡng được sử dụng khá
rộng rãi trong các phương pháp phân vùng ảnh. Trong trường hợp tổng quát, quá trình xử lý
ngưỡng là quá trình so sánh ảnh với hàm T:
T = T ⎡⎣ x, y , p ( x, y ) , f ( x, y ) ⎤⎦ (3.2.101)

f(x,y)- giá trị mức xám tại điểm (x,y), p(x,y) - hàm biểu diễn tính chất của vùng ảnh xung
quanh điểm (x,y), ví dụ, giá trị mức xám trung bình của vùng ảnh, có tâm là điểm (x,y). Kết quả
so sánh được tổng hợp trên ảnh g(x,y) theo quy luật sau:
⎧⎪1 f ( x, y ) > T
g ( x, y ) = ⎨ (3.2.102)
⎪⎩0 f ( x, y ) ≤ T
Chúng ta gọi các điểm ảnh trong g(x,y) có giá trị bằng 1 là các điểm ảnh thuộc vật thể (hay
vùng ảnh chi tiết), các điểm có giá trị bằng 0 sẽ thuộc vùng ảnh nền. Nếu T chỉ phụ thuộc vào
f(x,y) và không thay đổi trong toàn bộ quá trình xử lý ảnh thì T được gọi là ngưỡng toàn cục. Nếu
T phụ thuộc vào toạ độ không gian (x,y) ta gọi T là ngưỡng cục bộ. Nếu ngưỡng cục bộ T phụ
thuộc vào p(x, y) hay nói cách khác, T thay đổi theo tính chất của từng vùng ảnh, ta gọi mức T là
ngưỡng thích nghi.

   156 
Chương 3 Kỹ thuật xử lý ảnh 

3.2.5.3.2 Phân vùng với ngưỡng toàn cục (Global thresholding)


Phương pháp phân vùng theo ngưỡng toàn cục là phương pháp khá đơn giản, khi vật thể và
nền được tách bằng cách so sánh với một mức ngưỡng T. Mức độ chính xác của phương pháp này
phụ thuộc vào tính chất của ảnh, ví dụ: nếu ảnh có histogram được chia thành các vùng rõ rệt
(còn gọi là các mode) thì việc lựa chọn ngưỡng sẽ tương đối dễ dàng. Trên hình 3.2.50a là ảnh
scan của văn bản, đây là loại hình ảnh thông dụng và tương đối đơn giản. Có thể thấy histogram
của ảnh được chia thành các vùng rõ rệt (hình 3.2.50c). Như vậy để tách vùng ảnh (các chữ cái)
khỏi nền màu xám, ta có thể dùng mức ngưỡng T nằm giữa hai vùng xám như trên hình 3.2.50c.
Tất cảc các điểm ảnh có độ chói thấp sẽ được gán mức trắng, các điểm ảnh có độ chói cao (nền
của ảnh) được thay bằng mức đen. Ảnh kết quả cho chúng ta hàng chữ trắng trên nền màu đen
trên hình 3.2.50b.

Hình 3.2.50 Phân vùng bằng ngưỡng toàn cục T


Cách chọn ngưỡng như trên dựa trên cơ sở phân tích histogram của ảnh bằng mắt người
quan sát. Để có thể xác định ngưỡng T một cách tự động, chúng ta thực hiện các bước sau:
1- Lựa chọn mức ngưỡng ban đầu T.
2- Dùng T để phân vùng ảnh. Kết quả nhận được là hai nhóm điểm ảnh: nhóm G1 có giá
trị độ chói lớn hơn T, G2 – có độ chói nhỏ hơn T.
3- Xác định giá trị độ chói trung bình m1 và m2 của hai nhóm điểm ảnh trên.
4- Xác định giá trị ngưỡng T mới bằng:
1
T = ( m1 + m2 ) .
2
5- Thực hiện các bước 2-4 đến khi sai số giữa hai giá trị T kế tiếp không vượt quá giá trị
T0 cho trước.
Mức ngưỡng ban đầu thường được lựa chọn bằng giá trị trung bình giữa mức chói cao nhất
và mức chói thấp nhất trong ảnh.

Hình 3.2.51 Minh họa kỹ thuật xác định ngưỡng tự động

   157 
Chương 3 Kỹ thuật xử lý ảnh 

Hình 3.2.52 Histogram của ảnh 3.2.53a


Trên hình 3.2.51 là kết quả quá trình phân vùng dựa trên kỹ thuật xác định ngưỡng so sánh
tự động theo giải thuật nói ở trên. Hình 3.2.51a là ảnh gốc, ảnh phân vùng với mức ngưỡng ban
đầu T=65 và mức ngưỡng kế tiếp T=100 được biểu diễn trên hình 3.2.51 b,c. Sau ba vòng lặp, kết
quả cuối cùng nhận được là T=125 với T0=0. Histogram ảnh vân tay trong ví dụ nêu trên (hình
3.2.52) có hai mode được phân biệt khá rõ ràng, nên quá trình phân vùng theo ngưỡng toàn cục
cho kết quả khá tốt.
3.2.5.3.3 Phân vùng với ngưỡng thích nghi
Trong nhiều trường hợp, khi ảnh có histogram phức tạp, dùng một mức ngưỡng toàn cục T
không thể có kết quả phân vùng tốt, chúng ta phải sử dụng phương pháp phân vùng theo ngưỡng
thích nghi. Như đã định nghĩa ở phần trên, ngưỡng T được gọi là thích nghi khi nó thay đổi theo
vị trí của vùng ảnh được phân tích.

Hình 3.2.53 a) Ảnh gốc. b) Phân vùng với ngưỡng toàn cục.
c) Ảnh được chia vùng d) Phân vùng với ngưỡng thích nghi.

Hình 3.2.53a là ảnh gốc bao gồm nền và chi tiết có độ chói thay đổi trong phạm vi nhỏ. Histogram của
ảnh không phân vùng rõ rệt, do đó, khi dùng ngưỡng toàn cục, tức ngưỡng duy nhất để phân vùng sẽ
không cho kết quả tốt (hình 3.2.53b). Một phương pháp làm tăng chất lượng phân tích ảnh là chia ảnh
gốc ra thành nhiều vùng nhỏ (segment) (hình 3.2.53c), trong mỗi vùng chúng ta sẽ tìm giá trị ngưỡng
cục bộ theo phương pháp đã mô tả ở trên. Giá trị T ban đầu được chọn bằng giá trị trung bình giữa

   158 
Chương 3 Kỹ thuật xử lý ảnh 

mức chói cao nhất và mức chói thấp nhất trong vùng. Như vậy có thể nói rằng, ảnh gốc đã được xử lý
với mức ngưỡng thích nghi theo từng vùng ảnh. Kết quả nhận dạng vùng theo ngưỡng thích nghi biểu
diễn trên hình 3.2.53d, dễ dàng nhận thấy vùng ảnh chi tiết được hiển thị chính xác hơn nhiều so với
trường hợp dùng ngưỡng toàn cục.
3.2.5.3.4 Phân vùng với ngưỡng toàn cục tối ưu
Trong phần này chúng ta sẽ phân tích kỹ thuật tìm ngưỡng toàn cục tối ưu theo tiêu chí tối
thiểu hóa sai số phân vùng trung bình. Giả thiết ảnh chỉ có hai vùng có độ chói khác nhau, gọi là
vùng sáng (ảnh chi tiết) và vùng tối (ảnh nền). Mức xám z của các điểm ảnh là biến ngẫu nhiên,
được đặc trưng bởi hàm mật độ phân bố xác suất p ( z ) . Như chúng ta đã biết p ( z ) chính là
histogram của ảnh. Hàm mật độ phân bố xác suất mức xám trong vùng sáng và vùng tối là p1 ( z )
và p2 ( z ) . Mật độ phân bố xác suất của toàn ảnh sẽ bằng tổng hai hàm trên:

p ( z ) = P1 ⋅ p1 ( z ) + P2 ⋅ p2 ( z ) (3.2.103)

P1 , P2 - xác suất để điểm ảnh nằm trong vùng sáng hoặc vùng tối.
Vì ảnh chỉ bao gồm hai vùng sáng tối nên P1 + P2 = 1 .

Bài toán đặt ra là cần tìm giá trị ngưỡng toàn cục Topt (hình 3.2.54) để tách chi tiết ảnh, sao
cho sai số dự đoán trung bình là nhỏ nhất.

Hình 3.2.54 Mật độ phân bố xác suất mức xám của hai vùng ảnh
Xác suất để điểm ảnh nền bị xác định nhầm thành điểm ảnh chi tiết là:
T
E1 ( T ) = ∫ p2 ( z ) dz (3.2.104)
−∞

Xác suất để điểm ảnh chi tiết bị xác định nhầm thành điểm ảnh nền là:

E2 (T ) = ∫ p1 ( z ) dz (3.2.105)
T

Xác suất sai số chung sẽ là:


T ∞
E ( T ) = P2 ∫ p2 ( z ) dz + P1 ∫ p1 ( z ) dz (3.2.106)
−∞ T

Để có được ngưỡng tối ưu Topt khi sai số E(T) là nhỏ nhất, đạo hàm của (3.2.106) theo T
phải bằng 0, ta có:
P1 ⋅ p1 ( T ) = P2 ⋅ p2 ( T ) (3.2.107)

   159 
Chương 3 Kỹ thuật xử lý ảnh 

Trường hợp khi P1 = P2 , ngưỡng tối ưu sẽ nằm tại điểm cắt đồ thị hàm p1 ( z ) và p2 ( z ) .

Trong trường hợp tổng quát, để tìm ra Topt , ta cần biết hai hàm phân bố xác suất p1 ( z ) và

p2 ( z ) . Thông thường mật độ phân bố mức xám được qui về dạng phân bố Gausian:


( z − μ1 )2 −
( z − μ2 )2
P1 P2
p( z) = e 2σ 12
+ e 2σ 22
(3.2.108)
2πσ 1 2πσ 2
μ1 và σ 1 là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh chi tiết,
μ2 và σ 2 là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh nền.
Sử dụng (3.2.107 ) và (3.2.108) ta suy ra phương trình:

AT 2 + BT + C = 0 (3.2.109)

với: A = σ 12 − σ 22 (3.2.110)

(
B = 2 μ1σ 22 − μ 2σ 12 )
C = μ2σ 12 − μ1σ 22 + 2σ 12 2σ 22 ln (σ 2 P1 / σ 1 P2 )
Phương trình bậc hai có thể có hai nghiệm, do đó, trong một số trường hợp có thể có hai giá
trị ngưỡng tối ưu. Nếu phương sai của hai hàm phân bố như nhau: σ 12 = σ 22 = σ 2 thì Topt là duy
nhất:
μ1 + μ2 σ2 ⎛P ⎞
Topt = + ln ⎜ 2 ⎟ (3.2.111)
2 μ1 − μ 2 ⎝ P1 ⎠
Nếu P 1 = P2 , ta có:

μ1 + μ2
Topt = (3.2.112)
2
3.2.6 Xử lý ảnh màu
Trong phần 3.1.5 đã giới thiệu sơ bộ về màu sắc và các thông số đặc trưng của màu sắc.
Dựa trên các phân tích về cơ chế cảm nhận màu sắc của hệ thống thị giác ta thấy mọi màu sắc
trong thiên nhiên có thể được tạo ra từ các màu cơ bản bằng các phương pháp pha trộn màu khác
nhau. Không gian màu RGB hoặc XYZ thường được sử dụng để mô tả quá trình pha trộn màu
sắc. Ta có thể xác định được mọi màu sắc được tạo ra từ tổ hợp ba màu bất kỳ bằng cách xác định
vị trí ba màu đó trong không gian RGB (XYZ) sau đó nối chúng lại, để tạo ra tam giác màu; Tam
giác có đỉnh là ba điểm nói trên sẽ chứa tất cả các màu sắc có thể được tạo ra bằng cách pha trộn
ba màu trên (hình 3.2.55).
3.2.6.1 Các hệ màu cơ bản
Hiện nay có khá nhiều hệ màu (không gian màu) được sử dụng với các mục đích khác nhau.
Không gian màu RGB thường được sử dụng để mô phỏng các hệ thống tạo ảnh màu như màn
hình TV màu, camera màu; hệ màu CMYK (Cyan-Magenta-Yellow-BlacK) thường được dùng
trong kỹ thuật in ấn. Hệ màu HSI (Hue-Saturation-Intensity) hay còn gọi là HSB (Hue-Saturation-
Bright) được sử dụng rộng rãi trong lĩnh vực xử lý ảnh. Hệ màu HSI cho phép mô tả ảnh màu

   160 
Chương 3 Kỹ thuật xử lý ảnh 

thông qua các thành phần sắc màu và thành phần chói của ảnh. Phương pháp mô tả này tương đối
phù hợp với cách cảm nhận màu sắc của hệ thống thị giác, đồng thời hệ HSI cũng có thể dùng khi
phân tích ảnh đen-trắng (chỉ có các mức xám). Sau đây chúng ta nhắc lại một số đặc điểm chính
của ba hệ màu nói trên.

Hình 3.2.55 Tam giác màu đơn vị XYZ trong hệ tọa độ vuông góc xy

3.2.6.1.1 Hệ màu RGB


Như đã biết, trong hệ RGB, ba màu cơ bản là R (đỏ), G (xanh lục), B (xanh lam). Không
gian RGB, trong lĩnh vực ảnh số, được thể hiện dưới dạng hình khối lập phương như trên hình
3.2.56a. Các màu cơ bản nằm trên ba đỉnh của hình khối. Màu đen K nằm tại điểm gốc tọa độ,
màu trắng nằm đối diện với K qua đường chéo. Không gian màu RGB trên hình 3.2.56a là không
gian màu chuẩn, giá trị của các màu RGB nằm trong khoảng [0,1]. Trong lĩnh vực ảnh số, mỗi
điểm màu R, G hoặc B thường được lượng tử hóa với 256 mức, tức mỗi mẫu được mã hóa bằng 8
bit.

a) b)
Hình 3.2.56 Không gian màu RGB
Số lượng bít sử dụng để mã hóa 1 điểm ảnh màu được gọi là độ sâu của màu. Trường hợp
nói trên, độ sâu màu sẽ là 24 bits khi đó số sắc màu tối đa có thể được hiển thị sẽ là

(2 )
8 3
= 16777216 . Trên hình 3.2.56b là không gian màu RGB 24 bits.

   161 
Chương 3 Kỹ thuật xử lý ảnh 

3.2.6.1.2 Hệ màu CMYK


Như chúng ta đã biết, màu C (Cyan - xanh lơ), màu M (Magenta - mận chín) và màu Y
(Yellow - vàng) là các màu bổ xung của R, G và B. Đa số các thiết bị in màu lên giấy đòi hỏi dữ
liệu đưa vào tương ứng với các kênh màu CMY hoặc biến đổi từ RGB sang CMY. Quá trình biến
đổi được thực hiện theo công thức sau:

⎡C ⎤ ⎡1⎤ ⎡ R ⎤
⎢ M ⎥ = ⎢1⎥ − ⎢G ⎥ (3.2.113)
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣⎢Y ⎦⎥ ⎣⎢1⎦⎥ ⎣⎢ B ⎦⎥
Khi C=M=Y chúng ta sẽ nhận được màu đen. Tuy nhiên, trên thực tế màu nhận được không
hoàn toàn đen. Do đó trong các hệ thống in ấn, người ta sử dụng thêm một loại mực nữa có màu
đen (BlacK) - ký hiệu là K. Như vậy hệ màu CMY được mở rộng thành CMYK.
3.2.6.1.3 Hệ màu HSI
Trong không gian màu HSI, mỗi điểm màu được mô tả dựa trên các thông số về: sắc màu
(bước sóng trội), độ bão hòa màu (độ sạch màu) và độ chói. Hai thông số đầu tiên đặc trưng cho
"màu sắc", còn thông số thứ ba cho ta thấy độ sáng của điểm ảnh. Cách mô tả các điểm ảnh như
vậy tương đối giống với thói quen quan sát và phân tích màu sắc của hệ thống thị giác.

Hình 3.2.57 Biến đổi không gian RGB thành HSI


Để có được không gian HSI, chúng ta xoay hệ trục RGB như trên hình 3.2.57a. Điểm đen
(0,0,0) sẽ là điểm thấp nhất trong không gian màu, điểm trắng (1,1,1) nằm phía trên cùng. Tất cả
các mức xám có cường độ [0,1] nằm trên trục thẳng đứng nối K và W. Như vậy các điểm màu
trên mặt phẳng vuông góc với trục KW (trục xám) có cùng độ chói. Các điểm màu nằm càng xa
trục xám càng có độ bão hòa cao. Ngay trên trục KW, độ bão hòa màu sẽ bằng 0.
Trên hình 3.2.57b, xét mặt phẳng đi qua điểm C và trục KW, dễ nhận thấy là tất cả các
điểm màu nằm trong tam giác CKW được tạo ra từ màu C và hai thành phần không màu K và W,
do đó chúng có cùng bước sóng trội là λC . Khi xoay tam giác CKW xung quanh trục xám, ta sẽ
có các sắc màu khác nhau. Tóm lại, không gian HSI là tập hợp các mặt phẳng màu có cùng độ
chói, vuông góc với trục chói thẳng đứng. Vị trí điểm màu trên các mặt phẳng nói trên được xác
định bởi vector bắt đầu từ trục xám. Trên hình 3.2.58 là không gian màu HSI với các mặt phẳng
màu là hình tròn đồng tâm. Chiều dài vector S tương đương với độ bão hòa màu, góc H giữa
vector S và đường thẳng đi qua điểm R tương đương với bước sóng trội của điểm màu.
Để biến đổi hệ màu RGB thành HSI, ta thực hiện các bước sau:
- Xác định bước sóng trội H:
⎧θ B≤G
H =⎨ (3.2.114)
⎩360 − θ B>G

   162 
Chương 3 Kỹ thuật xử lý ảnh 

⎧ 1 ⎫
⎪ ⎡⎣( R − G ) + ( R − B ⎤⎦ ⎪
θ = arccos ⎨ 2
với 1/2 ⎬ (3.2.115)
⎪ ⎡( R − G ) + ( R − B ) ( G − B ) ⎤ ⎪
2

⎩⎣ ⎦ ⎭
- Xác định độ bão hòa màu:
3
S =1− ⎡ min ( R, G, B ) ⎤⎦ (3.2.116)
(R + G + B) ⎣
- Xác định độ chói I:
1
I= (R + G + B) (3.2.117)
3

Hình 3.2.58 Không gian màu HSI


Để biến đổi hệ màu HSI thành RGB, ta thực hiện lần lượt cho ba sector các bước sau:
1- Sector RG ( 0 ≤ H ≤ 120 ):
0 0

B = I (1 − S ) (3.2.118)

⎡ S cos H ⎤
R = I ⎢1 + ⎥ (3.2.119)
⎢⎣ cos ( 60 − H ) ⎥⎦
0

G = 3I − ( R + B ) (3.2.120)

2- Sector GB ( 1200 ≤ H ≤ 2400 ):


H = H − 1200 (3.2.121)
R = I (1 − S ) (3.2.122)

⎡ S cos H ⎤
G = I ⎢1 + ⎥ (3.2.123)
⎢⎣ cos ( 60 − H ) ⎥⎦
0

B = 3I − ( R + G ) (3.2.124)

3- Sector BR ( 2400 ≤ H ≤ 3600 ):


H = H − 2400 (3.2.125)

   163 
Chương 3 Kỹ thuật xử lý ảnh 

G = I (1 − S ) (3.2.126)

⎡ S cos H ⎤
B = I ⎢1 + ⎥ (3.2.127)
⎢⎣ cos ( 60 − H ) ⎥⎦
0

R = 3I − ( G + B ) (3.2.128)

Các công thức (3.2.114) –(3.2.128) nhận được thông qua phép biến đổi hình học như đã mô
tả trên hình 3.2.58.
Trên hình 3.2.59 là các thành phần ảnh H, S, I được tách ra từ ảnh màu RGB theo công thức
3.2.114, 3.2.116, 3.2.117.
Có thể thấy rằng, mức sáng của ảnh I chính là độ chói (Intensity) của ảnh màu. Mức sáng
của ảnh H phụ thuộc vào góc vector màu với trục R, ví dụ, đối với màu đỏ H=0 nên vùng đỏ trên
ảnh H sẽ có màu đen.

Hình 3.2.59 Ảnh màu RGB (24 bít) và các thành phần H,S,I tương ứng.

3.2.6.2 Một số kỹ thuật xử lý ảnh màu căn bản


3.2.6.2.1 Kỹ thuật tạo màu giả
Đây là phương pháp thay thế các mức xám trong của ảnh đen -trắng bằng các màu theo một
quy luật nhất định. "Màu giả" được sử dụng để "tô" ảnh trong trường hợp này không phải là màu
thực của ảnh. Như chúng ta biết, hệ thống thị giác có khả năng cảm nhận sự khác biệt về màu sắc
tốt hơn sự thay đổi độ chói của ảnh, do đó trong nhiều trường hợp, kỹ thuật tạo màu giả cho phép
hiển thị rõ ràng hơn những chi tiết có độ tương phản thấp trong ảnh đen-trắng.
Kỹ thuật lượng tử theo mức chói và mã hóa bằng màu giả là một trong những phương pháp
xử lý ảnh màu dựa trên quá trình tạo màu giả. Trên hình 3.2.60 mô tả ảnh đen trắng với các điểm
ảnh có độ chói thay đổi trong dải động [0 ÷ L − 1] phân bố trên mặt phẳng X0Y. Mặt phẳng có
độ chói không đổi là Li sẽ chia dải động nói trên thành 2 mức. Để thực hiện mã hóa bằng màu
giả, chúng ta gán cho tất cả các điểm ảnh có độ chói nằm trên mặt phẳng cắt một màu nào đó, các
điểm ảnh nằm dưới mặt phẳng cắt được gán một màu khác.

   164 
Chương 3 Kỹ thuật xử lý ảnh 

Hình 3.2.60 Minh họa quá trình lượng tử theo mức chói và mã hóa bằng màu
giả
Hàm biến đổi mức xám-màu có đặc tuyến dạng bậc thang như trên hình 3.2.61.

Hình 3.2.61 Đặc tuyến biến đổi mức xám – màu


Trong trường hợp tổng quát, dải động mức xám có thể chia thành N mức, các mức sẽ được
hiển thị bằng các màu khác nhau. Đặc tuyến trên hình 3.2.61 sẽ biến đổi thành dạng bậc thang với
N-1 bậc.
Kỹ thuật lượng tử mức xám nói trên được sử dụng rộng rãi trong y khoa. Ví dụ: ảnh siêu âm
tim trên hình 3.2.62a thu được có dạng đen-trắng, trên ảnh có vùng máu đông cần được phát hiện
nằm ở gần mũi tên. Vùng này có độ tương phản không cao, nên rất khó phân biệt với các thành
phần khác trong ảnh. Bằng kỹ thuật lượng tử theo mức chói, ta thay các mức xám bằng các lớp
màu, khi đó, vùng ảnh cần quan tâm (nơi máu đông) sẽ hiển thị rõ nét hơn rất nhiều (hình
3.2.62b).

Hình 3.2.62 Xử lý ảnh siêu âm bằng kỹ thuật lượng tử mức xám.


Trong ví dụ trên, dải động các mức xám (từ đen tới trắng) được chia đều thành 8 dải con
bằng nhau, các điểm ảnh có biên độ nằm trong từng dải con được gán một màu nhất định. Như
vậy, ảnh sẽ được phân tích thành tám vùng có màu tương ứng với tám dải chói khác nhau. Kỹ

   165 
Chương 3 Kỹ thuật xử lý ảnh 

thuật lượng tử mức xám có thể được sử dụng để tách các vật thể hiển thị trong ảnh dựa trên tính
chất vật lý của chúng. Ví dụ, trên hình 3.263a, ta có ảnh X quang thu được trong hệ thống giám
sát chất lượng các mối hàn [15].

Hình 3.2.63 a- ảnh chụp bằng tia X quang mối hàn ống thép
b- ảnh kết quả sau khi mã hóa bằng màu giả.
Trong đường hàn nằm ngang (sẫm màu) có vết rạn nứt, các vết rạn hiển thị như các vệt sáng
chói, nằm theo chiều ngang ở giữa màn hình. Các vết nứt hiển thị trên ảnh có mức chói tối đa là
255, vì tia X đi qua các vết nứt sẽ làm thiết bị cảm biến (dùng để ghi nhận ảnh X quang) bị bão
hòa. Để người kiểm tra có thể dễ dàng phát hiện ra các vết nứt, người ta có thể biến đổi mức 255
thành một màu, còn tất cả các mức xám còn lại thành một màu khác (hình 3.2.63). Dễ dàng thấy
rằng, việc phát hiện lỗi hàn sẽ được thực hiện chính xác hơn khi sử dụng ảnh màu nhận được theo
phương pháp nói trên.
3.2.6.2.2 Biến đổi thành phần chói thành màu
Các phương pháp xử lý ảnh dựa trên biến đổi thành phần chói thành màu mang tính tổng
quát hơn kỹ thuật tạo màu giả. Mỗi điểm màu trong ảnh được phân tích thành ba màu cơ bản tùy
theo hệ màu được xử dụng (ví dụ R, G, B). Sau khi phân tích, chúng ta nhận được ba ảnh đơn sắc,
ba ảnh này có độ chói nằm trong khoảng [0-255], các ảnh đơn sắc đó có thể được hiển thị lên màn
hình dưới dạng ảnh đen trắng. Như vậy, ảnh màu có thể được xử lý dựa trên các phép biến đổi độc
lập với 3 ảnh đen trắng nói trên. Ảnh kết quả sẽ được tập hợp lại từ ba ảnh đen trắng khi đưa
chúng vào các kênh màu tương ứng. Quá trình xử lý được mô tả bằng sơ đồ khối hình 3.2.64.
Phương pháp xử lý nói trên được thực hiện cho từng điểm ảnh mà không phụ thuộc vào vị trí của
chúng trong ảnh số.
Kỹ thuật tạo màu giả là trường hợp đặc biệt của phương pháp biến đổi thành phần chói
thành màu khi hàm biến đổi mức xám-màu có dạng bậc thang như trên hình 3.2.61.

Hình 3.2.64 Quá trình xử lý ảnh độc lập trên từng kênh màu
3.2.6.2.3 Biến đổi màu
Kỹ thuật xử lý ảnh màu được chia thành hai nhóm. Nhóm thứ nhất bao gồm các phương
pháp phân tích ảnh màu thành ba ảnh đơn sắc (ví dụ: ảnh R, G, B), sau đó xử lý từng ảnh đơn sắc
riêng rẽ; ảnh kết quả sẽ được tổng hợp từ các ảnh vừa được xử lý. Chúng ta gọi đây là các phương

   166 
Chương 3 Kỹ thuật xử lý ảnh 

pháp xử lý ảnh theo thành phần. Nhóm thứ hai là các kỹ thuật xử lý tác động trực tiếp lên các
điểm ảnh màu. Trong không gian màu RGB, mỗi điểm màu có thể được biểu diễn như vector nối
G
gốc tọa độ và điểm màu đó. Vector màu c có thể được biểu diễn thông qua các vector cơ bản
R,G,B như sau:
⎡ R ( x, y ) ⎤
⎢ ⎥
c ( x, y ) = ⎢G ( x, y ) ⎥ (3.2.129)
⎢ B ( x, y ) ⎥
⎣ ⎦
G
Công thức (3.2.129) cho thấy: các thành phần của vector màu c là tọa độ của điểm màu
trong không gian R, G, B. Cần lưu ý rằng R ( x, y ) , G ( x, y ) , B ( x, y ) còn phụ thuộc vào tọa độ
trong không gian ảnh (x,y).
Các điểm màu trong ảnh kích thước MxN được biểu diễn bằng MxN vector màu c ( x, y ) , x
và y là vị trí của điểm màu trong ảnh. Quá trình xử lý ảnh dựa trên các thành phần đơn sắc và dựa
trên các vector màu có thể cho kết quả khác nhau.

Hình 3.2.65 Kỹ thuật lọc bằng mặt nạ trong không gian ảnh
a- ảnh đen - trắng b- ảnh màu
Trên hình 3.2.65 mô tả quá trình lọc (trung bình hóa) ảnh trong miền không gian. Trên ảnh
đen trắng, chúng ta cộng giá trị mức xám của các điểm ảnh bên trong mặt nạ rồi chia cho tổng số
điểm ảnh của mặt nạ, giá trị trung bình này sẽ được gán cho điểm ảnh (x,y) (hình 3.2.65a). Trong
ảnh màu RGB, quá trình trung bình hóa được thực hiện với các vector màu ứng với các điểm ảnh
trong mặt nạ. Vector màu trung bình tại điểm (x,y) có các thành phần
R ( x, y ) , G ( x, y ) , B ( x, y ) bằng với giá trị trung bình trong mặt nạ xung quanh tọa độ (x,y) trên
mặt phẳng R, G và B (hình 3.2.65b). Do đó, trong trường hợp này, cả hai phương pháp xử lý: với
các thành phần màu hay với các vector màu đều cho kết quả như nhau.
Quá trình biến đổi ảnh màu có thể được biểu diễn giống như trường hợp ảnh đen-trắng:
g ( x, y ) = T ⎣⎡ f ( x, y ) ⎦⎤ (3.2.130)

f ( x, y ) - ảnh màu gốc, g ( x, y ) - ảnh kết quả, T- toán tử biến đổi.


Tuy nhiên, toán tử T sẽ mô tả quá trình biến đổi vector màu (gồm nhiều thành phần), chứ
không phải mức xám như trong trường hợp ảnh đen-trắng. Quá trình biến đổi ảnh màu theo thành
phần được mô tả như sau:
si = Ti ( ri ) i = 1,2... n (3.2.131)

   167 
Chương 3 Kỹ thuật xử lý ảnh 

Biến ri và si là giá trị các thành phần màu của ảnh f ( x, y ) và g ( x, y ) tại một điểm
(x,y) bất kỳ. n - số lượng thành phần màu. Ti - toán tử biến đổi cho từng thành phần màu. n được
xác định bởi hệ màu đang sử dụng. Ví dụ: trong không gian màu RGB n=3, trong không gian
CMYK n=4. Tập hợp các toán tử Ti sẽ xác định toán tử T trong (3.2.130).
Trên hình 3.2.66 là ảnh màu và ảnh các thành phần trong không gian R,G,B. Ở đây, các
thành phần có giá trị lớn nhất là 1 (mức trắng) , nhỏ nhất là 0 (mức đen). Trên ảnh đen-trắng biểu
diễn thành phần R, ta thấy cánh hoa màu đỏ (gần bão hòa) sẽ có độ chói lớn nhất. Thành phần G
và B trong vùng cánh hoa có giá trị rất thấp.

Hình 3.2.66 Ảnh màu và các ảnh thành phần RGB


Trong không gian màu HSI, các thành phần H, S, I không đặc trưng cho màu sắc. Do đó,
thành phần I (hình 3.2.67), sẽ là ảnh "đen-trắng" của ảnh gốc, nói cách khác, ảnh màu được tái tạo
trên màn hình đen-trắng sẽ có dạng như thành phần I.

Hình 3.2.67 Ảnh màu và các ảnh thành phần H, S, I


Thành phần S, đặc trưng cho độ bão hòa màu sẽ có giá trị lớn ở các chi tiết có độ sạch màu
cao (trên các cánh hoa).

   168 
Chương 3 Kỹ thuật xử lý ảnh 

Thành phần H đặc trưng cho sắc màu của ảnh tính theo (3.2.114) có thể có các giá trị xung
đột ở các điểm ảnh có góc H bằng 00 và 3600; ngoài ra, giá trị H cũng không được xác định tại các
điểm ảnh đen, trắng hoặc xám. Các điểm ảnh có giá trị H bằng 00 và 3600 hiển thị trên ảnh H
(hình 3.2.67) như các điểm đen hoặc trắng ngẫu nhiên trong vùng cánh hoa màu đỏ.
Các biến đổi màu sắc ảnh có thể được thực hiện trong các hệ màu khác nhau, tuy nhiên, trên
thực tế tùy theo ứng dụng, chúng ta nên chọn hệ màu phù hợp nhất.
Ví dụ: để thực hiện quá trình biến đổi độ sáng của ảnh:
g ( x, y ) = k ⋅ f ( x, y ) với 0 < k < 1 (3.2.132)

Trong hệ màu HSI, theo nguyên tắc, biến đổi trên được thực hiện cho ba thành phần H, S, I
bởi toán tử sau si = Ti ( ri ) i = 1,2... n , với n=3. Trên thục tế để thay đổi độ sáng, trong hệ
HSI, chúng ta chỉ cần áp dụng biến đổi đối với thành phần I:
s3 = k ⋅ r3 (3.2.133)

Các thành phần khác của ảnh màu sẽ được giữ nguyên: s1 = r1; s2 = r2 .
Cũng bài toán trên, nếu thực hiện trong hệ màu RGB, chúng ta phải biến đổi cả ba thành
phần màu R, G và B: si = k ⋅ ri i = 1,2,3
3.2.6.2.4 Tách ảnh theo các mức màu
Tương tự như kỹ thuật tách ảnh theo mức chói, khi xử lý ảnh màu, chúng ta có thể tách
những chi tiết có màu nhất định ra khỏi ảnh gốc. Những thành phần màu khác trong ảnh kết quả
sẽ được biến đổi thành màu nền (làm nổi những chi tiết màu cần tách). Nếu các màu được quan
tâm nằm trong hình khối con có cạnh là D0, tâm hình khối nằm tại điểm ( a1, a2 , a3 ) trong không
gian màu R, G, B, khi đó kỹ thuật tách ảnh theo các mức màu được mô tả theo biểu thức:
⎧ D0
⎪⎪0,5 rj − a j >
si = ⎨ 2 (3.2.134)
⎪r D
rj − a j ≤ 0
⎪⎩ j 2
với các i=1, 2, 3; j=1, 2, 3;
Biến đổi (3.2.134) cho ảnh kết quả bao gồm các màu nằm trong hình khối có cạnh D0, các
màu nằm ngoài hình khối sẽ được thay thế bằng mức xám trung bình.
Nếu vùng màu quan tâm nằm trong hình cầu, biểu thức (3.2.134) sẽ biến đổi thành:
⎧ n
∑ ( rj − a j )
2
⎪0,5 > R02
⎪ j =1
si = ⎨ n
(3.2.135)
⎪r
∑ ( rj − a j )
2
≤ R02
⎪ j
⎩ j =1

i = 1, 2,....n , j = 1, 2,....n
Biểu thức (3.2.135) có thể ứng dụng cho không gian màu n-chiều. Các thành phần màu
được tách biệt nằm trong hình cầu (khi n=3) có bán kính R0, tâm nằm tại điểm ( a1, a2 , a3 ).
Trên hình 3.2.68 mô tả quá trình tách thành phần màu xung quanh màu đỏ có tọa độ

   169 
uật xử lý ảnh 
Chươnng 3 Kỹ thu

(0.68663, 0.1608, 0.1922) trong không gian RGB.


R Thực hiện
h biến đổi (3.2.134) vớ ới D0 =0.25499, và
biến đổổi (3.2.135) với
v R0 = 0.17765, ta nhận đđược các ảnhh kết quả 3.2.72c và 3.2.772d. Giá trị D0 và
R0 đượ ợc lựa chọn sao
s cho vùng màu đỏ đượ ợc tách một cáách chính xáác nhất. Quann sát ảnh gốc và
ảnh kếết quả, có thể nhận thấy rằằng biến đổi (3.2.135) choo kết quả tốt hơn vì vùng màu đỏ đượ ợc
tách raa có diện tích
h lớn hơn so với
v kết quả nhận
n được từ (3.2.134).

a) b)

c) d)
H
Hình 3.2.68 Minh họa kỹỹ thuật tách ảnh
ả theo các mức màu
a- Ảnh màu gốc,
g b- Vùngg màu được táách trong khôông gian màuu RGB
c- Ảnh kết quả khi tách cáác màu nằm trrong hình lậpp thể
d-- Ảnh kết quả khi tách cáác màu nằm trrong hình cầuu
3
3.2.6.2.5 Hiệệu chỉnh ảnhh màu
Q trình hiệệu chỉnh ảnh
Quá m hình mááy tính trước khi đưa tới các thiết bị in ấn
h màu trên màn
thườngg được thực hiện
h từng bước theo hai ggiai đoạn: hiệệu chỉnh độ sáng và hiệu chỉnh
c màu.
• Hiệu chỉnh độ sánng
Hiệu chỉnh độ
H đ sáng là quuá trình thay đổi độ sáng và độ tương phản của ảnnh để làm tănng tối
đa khảả năng hiển thhị các chi tiếết nhỏ của ảnhh. Các thôngg số về màu sắc t giai đoạn xử lý
s của ảnh tại
này khhông được thhay đổi. Tronng hệ màu RG GB hay CMY YK quá trìnhh biến đổi phải được thựcc hiện
giống nhau hoàn to oàn cho từngg kênh màu. T Thông thườn ng có ba loại ảnh cần hiệuu chỉnh: thiếuu ánh
sáng (hhình 3.2.69a)), thừa ánh sáng
s (hình 3.22.69b) và thiiếu độ tươngg phản (hình 3.2.69c). Các đặc
tuyến sử dụng để hiệu
h chỉnh ản nh trong từngg trường hợp p và kết quả hiệu chỉnh được
đ hiển thịị trên
hình 3.2.69.
3 Ví dụ
ụ: đặc tuyến dạng đường cong chữ S có thể đượcc dùng để cảải thiện độ ttương
phản của
c ảnh; với đặcđ tuyến biếến đổi như trrên hình 3.2.669c, các điểm m ảnh gốc sẫẫm màu hoặcc nhạt
màu sẽẽ trở nên sẫmm hơn hoặc nhạt n hơn trong ảnh kết quả,
q do đó độộ tương phảnn của ảnh sẽẽ tăng
lên. Quuan sát các ảnh
ả và histoggram của chúúng trên hìnhh 3.2.69 có tthể thấy rằng g, chất lượngg hiển
thị độ sáng (ảnh tốối, quá sáng hay thiếu tư ương phản) có thể đánh giá g trực tiếp khi quan sátt ảnh,
hoặc thhông qua lượợc đồ xám (hiistogram) củủa ảnh.
Chương 3 Kỹ thuật xử lý ảnh 

3.2.69 a) Ảnh thiếu ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
b) Ảnh thừa ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
c) Ảnh tương phản thấp, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
• Hiệu chỉnh màu
Sau khi ảnh đã được hiệu chỉnh độ chói, bước xử lý tiếp theo là hiệu chỉnh màu. Đây là quá
trình cân bằng màu với mục đích làm cho màu sắc hiển thị trên ảnh trở nên trung thực. Ví dụ:
tuyết phải có màu trắng, cỏ phải có màu xanh lá cây v.v. Thường thì quá trình hiệu chỉnh màu
được thực hiện trên các mảng hình có màu trắng, khi đó các thành phần màu R, G, B sẽ phải
giống nhau. Ngoài ra, màu da mặt người cũng có thể dùng để hiệu chỉnh, vì hệ thống thị giác rất
nhạy cảm với màu này.
Khi tiến hành hiệu chỉnh theo từng kênh màu, nhất thiết cần phải hiểu rõ quá trình hiệu
chỉnh tác động thể nào tới màu sắc tổng hợp của ảnh. Để thấy được ảnh hưởng của sự thay đổi
mỗi thành phần màu tới màu sắc chung của ảnh có thể dựa trên vòng tròn màu (hình 3.2.70). Để
làm tăng một thành phần màu trong ảnh có thể: hoặc làm giảm màu bổ xung với nó, hoặc tăng
cùng lúc hai màu nằm cạnh màu đó. Ví dụ, trong hình màu hệ RGB có quá nhiều màu xanh lam
(B), để làm giảm màu này, chúng ta có thể: (1) tăng màu bổ xung với nó là màu vàng (Y) hoặc (2)
giảm các màu xanh lơ (C) và màu mận chín (M).
Một ví dụ cụ thể được biểu diễn trên hình 3.2.71. Ảnh gốc trên hình 3.2.71a sau khi truyền
qua kênh bị mất cân bằng màu. Thành phần màu xanh lam trở nên vượt trội hơn so với các màu
khác (hình 3.2.71b). Để làm giảm màu xanh lam trên ảnh, chúng ta chuyển đổi ảnh từ hệ màu
RGB sang hệ màu CMYK, tăng màu Y bằng cách áp dụng đặc tuyến hiệu chỉnh kênh Y như trên
hình 3.2.71c. Ảnh kết quả nhận được (hình 3.2.71d) tương đối giống với ảnh gốc (hình 3.2.71a).

   171 
uật xử lý ảnh 
Chươnng 3 Kỹ thu

Hình
H 3.2.70 Vòng tròn màu
m

Hình
H 3.2.71 Hiệu chỉnh màu
a) b)
a- Ảnh ggốc
b- Ảnh nnhiều màu Blue
B
c- Đặc ttuyến hiệu chỉnh
kênh Y
d- Ảnh kkết quả
c) d)
3
3.2.6.2.6 Xử
ử lý histogram
m ảnh màu
N chúng ta
Như t đã biết, kỹỹ thuật cân bbằng lược đồ
ồ xám (histoogram equalization) trongg ảnh
đen-trắắng làm cho phân bố các mức xám trở thành đồngg đều. Đối vớ ới ảnh màu, được tổng hợ ợp từ
nhiều ảnh đơn sắcc, việc thực hiện
h cân bằnng lược đồ "xám" cho từừng ảnh đơn sắc rồi tổngg hợp
chúng thành ảnh màum kết quả có thể dẫn ttới hiện tượnng mất cân bằng màu. Trrên hình 3.2.72 là
một víí dụ điển hình
h. Ảnh màu gốc
g có độ tươ ơng phản thấấp (xem lược đồ xám) đượợc tách ra thàành 3
ảnh đơ
ơn sắc R, G, B.
B

Hình 3.2.72 C
Cân bằng
lược đồ xám cho từng
t kênh
màu R, G
G, B

C ba ảnh trêên được cân bằng


Cả b mức xáám. Tuy nhiêên vì lược đồ xám của 3 ảnh
ả đơn sắc có
c dải
uật xử lý ảnh 
Chươnng 3 Kỹ thu

động khác
k nhau, kếết quả quá trrình cân bằngg cũng sẽ kháác nhau. Khi tổng hợp ản nh màu từ cácc ảnh
đơn sắắc nhận đượcc sau khi cân bằng, tỷ lệ bba thành phầần R, G, B tạại mỗi điểm ảnh
ả bị thay đổi
đ so
với ảnhh gốc, chính vì vậy, so sáánh hai ảnh m
màu gốc và kết
k quả, ta thấấy có sự khácc biệt về màuu sắc.
Tuy nhhiên, độ tươn
ng phản của ảnh b đổi cân bằng
ả kết quả ttăng lên rõ rệệt, đó cũng làà hệ quả của biến
lược đồ xám.
Để tránh tình
Đ h trạng trên, quá trình cânn bằng lược đồ
đ xám đượcc thực hiện ch ho ảnh màu trong
t
hệ màuu HSI. Khi đó,đ cân bằng mứcm xám chỉỉ được thực hiệnh cho ảnh I (kênh chóii), các ảnh H và S
được giữ
g nguyên. Chính
C vì vậy
y, độ tương phhản của ảnh sẽ được cải tthiện trong khi
k sắc màu không
k
bị thayy đổi. Trên hình
h 3.2.73 mô
m tả quá trình cân bằngg lược đồ xáám trong khôông gian HSI. Dễ
dàng nhận
n thấy ảnnh kết quả cóó độ tương phản
p cao và màu
m sắc "thậật" hơn so kếết quả nhận được
trên hìình 3.2.71.

H
Hình 3.2.73 Cân
C bằng lượ
ợc đồ xám troong hệ màu H
HSI
3
3.2.6.2.7 Kỹ thuật làm trơ
ơn ảnh màu
Trong phần 3.2.2.2 chúnng ta đã nói đđến quá trìnhh làm trơn ảảnh đen-trắng
T g bằng các bộ lọc
không gian. Đặc tuuyến bộ lọc phụ
p thuộc vàoo các hệ số trrong mặt nạ llọc (hình 3.22.74a). Khi m mặt nạ
di chuuyển trong ản
nh, giá trị điểm ảnh tại ttâm mặt nạ đượcđ thay bằằng giá trị trrung bình củaa các
điểm ảnh
ả bao trùm m bởi mặt nạ. Lọc tuyến tíính bằng phư ương pháp nhhân chập tron ng không giann còn
sử dụnng để làm nổii các chi tiết nhỏ, hay nổi biên ảnh (lọọc thông cao) (xem 3.2.4).
Q trình lọcc tuyến tính nói
Quá n trên có thhể được áp dụ
ụng cho ảnh màu
m (hình 3..2.74b).
C S xy là tập
Cho t hợp tọa độ
đ của K điểm
m ảnh nằm lâân cận điểm ảảnh màu trunng tâm (x,y) trong
t
không gian RGB. Giá trị trung
g bình của cáác vector mààu trong khônng gian ba chiều
c ứng vớ
ới các
điểm ảnh ộ trong S xy làà:
ả có tọa độ

1
c ( x, y ) = ∑ c ( x, y )
K ( x , y )∈S xy
(3.2.136)
Chương 3 Kỹ thuật xử lý ảnh 

Dựa vào tính chất cộng các vector, ta có:


⎡1 ⎤
⎢ ∑ R ( x, y ) ⎥
⎢ K ( x , y )∈S xy ⎥
⎢ ⎥
1
c ( x, y ) = ⎢ ∑ ( )⎥⎥
⎢ K ( x , y )∈S xy
G x , y (3.2.137)
⎢ ⎥
⎢1 ⎥
⎢ K ∑ B ( x, y ) ⎥
⎣ ( x , y )∈S xy ⎦
Như vậy, các tọa độ của vector màu trung bình trong không gian R, G, B bằng các giá trị
trung bình tìm được trong từng ảnh đơn sắc riêng biệt. Điều này có nghĩa là quá trình làm trơn ảnh
có thể được thực hiện cho từng thành phần màu riêng rẽ, sau đó tổng hợp lại thành ảnh màu kết
quả. Ảnh này sẽ giống với ảnh màu được thực hiện làm trơn dựa trên các vector màu trong không
gian màu RGB.

a) b)
Hình 3.2.74 Mô tả kỹ thuật làm trơn ảnh màu theo từng thành phần

Hình 3.2.75 Làm trơn ảnh màu : a- Ảnh gốc


b- Làm trơn ảnh trong hệ màu RGB
c- Làm trơn ảnh trong hệ màu HSI
d- Ảnh sai số giữa (b) và (c)

Quá trình làm trơn ảnh có thể được thực hiện trong các không gian màu khác nhau. Hình
3.2.75b là ảnh kết quả, nhận được sau khi làm trơn ảnh trong không gian RGB theo phương pháp
mô tả trên hình 3.2.75b. Các ảnh R. G và B được làm trơn một cách độc lập, sau đó tổng hợp lại
thành ảnh màu kết quả.
Trong không gian màu HSI, thành phần được làm trơn là ảnh mang tin tức về độ chói I.
Ảnh H và S được giữa nguyên. Kết quả nhận được (hình 3.2.75c) cũng là ảnh gốc đã bị làm "mờ".

   174 
Chương 3 Kỹ thuật xử lý ảnh 

Tuy nhiên khi so sánh với ảnh được làm mờ trong hệ RGB, chúng ta nhận thấy rằng chúng có sự
khác nhau. Ảnh sai số được hiển thị trên 3.2.75d. Vấn đề ở chỗ, màu của các điểm ảnh được làm
trơn trong hệ RGB không hoàn toàn giống màu sắc thực vì thành phần R, G và B bằng giá trị
trung bình trong không gian ma trận lọc (giá trị trung bình thường khác so với giá trị gốc của điểm
ảnh màu). Trong khi đó, thành phần màu (H và S) của các điểm ảnh trong hệ HSI khi làm trơn
không thay đổi. Cũng chính vì lý do vừa nêu trên, có thể đưa ra kết luận rằng mức độ sai số giữa
các ảnh được làm trơn trong không gian RGB và HSI sẽ tăng khi kích thước ma trận lọc tăng.
3.2.6.3 Nhiễu trong ảnh màu
Mô hình nhiễu được trình bày trong phần 3.2.3.2 có thể được áp dụng cho trường hợp ảnh
màu. Tuy nhiên, tác động nhiễu tới ảnh màu có đặc thù riêng. Trong một số trường hợp, nhiễu tác
động lên các kênh màu một cách khác nhau, ví dụ trong bộ cảm biến CCD, kênh R (màu đỏ) nhạy
cảm với nhiễu nhiều hơn so với hai kênh màu còn lại. Tác động của nhiễu sẽ thay đổi mạnh khi
chúng ta thực hiện phép biến đổi không gian biểu diễn ảnh màu. Trên hình 3.2.76, ảnh màu bị tác
động bởi nhiễu Gaussian với độ lệch chuẩn 0.005 được phân tích thành các thành phần trong
không gian RGB và HSI. Có thể thấy rằng thành phần H (sắc màu) và S (độ bão hòa màu) bị biến
dạng rất nhiều dưới tác động của nhiễu, lý do chính vì trong công thức (3.2.114, 3.2.115, 3.2.116)
tính H và S chứa các hàm phi tuyến là arccos và hàm tìm minimum.

Hình 3.2.76 Biểu diễn ảnh nhiễu (a) trong không gian màu RGB (b, c, d)
và HSI (e, f,g)

Quá trình triệt nhiễu cho ảnh màu có thể được thực hiện trên cở sở lọc trong không gian hay
trong miền tần số như đã xét trong phần 3.2.3. Các bộ lọc nói trên có thể áp dụng cho các thành
phần màu riêng rẽ hay áp dụng trực tiếp tới các vector màu. Một số bộ lọc, thí dụ bộ lọc trung
bình không gian sẽ cho kết quả giống nhau. Các bộ lọc dựa trên nguyên tắc thống kê thứ tự điển
hình là bộ lọc median thường chỉ được thực hiện cho từng thành phần màu. Quá trình thống kê
thứ tự trong không gian vector màu nhiều chiều tương đối phức tạp nên không được giới thiệu ở
đây.

   175 
Chương 3 Kỹ thuật xử lý hình ảnh 

3.3 CÁC KỸ THUẬT NÉN ẢNH


3.3.1 Giới thiệu chung về kỹ thuật nén ảnh
Các kỹ thuật nén ảnh hướng tới giải quyết bài toán làm giảm thiểu khối lượng thông tin cần
thiết để mô tả ảnh số. Nền tảng của quá trình nén là loại bỏ dư thừa có trong tín hiệu. Phương
pháp nén hiệu quả nhất thường sử dụng các biến đổi toán học để biến ma trận các điểm ảnh trong
không gian hai chiều sang một không gian hai chiều khác, nơi mức độ tương quan giữa các hệ số
biến đổi mới nhỏ hơn. Như chúng ta biết, độ dư thừa trong tín hiệu ảnh số phụ thuộc vào mức độ
tương quan giữa các điểm ảnh, độ tương quan lớn thì độ dư thừa cũng lớn.
Nén ảnh là lĩnh vực nghiên cứu khá lâu đời. Thời gian đầu, các nghiên cứu đi theo hướng
xử lý tín hiệu video tương tự, nhằm nén "bề rộng phổ" của tín hiệu này. Nén video trong những
năm 1950 được thực hiện bằng công nghệ tương tự có tỷ số nén thấp. Các hệ truyền hình tương tự
NTSC, PAL, SECAM sử dụng kỹ thuật nén tín hiệu video bằng cách giảm độ rộng băng tần thành
phần màu so với thành phần chói, ví dụ trong hệ NTSC, thành phần màu I và Q có bề rộng phổ
1,3 MHz và 0.6 MHz, bề rộng phổ thành phần chói là 4.2 MHz.

Sự phát triển của kỹ thuật số và việc sử dụng công nghệ số vào kỹ thuật truyền hình làm cho
khái niệm “nén video” trở thành đề tài nóng hổi trong những năm gần đây. Như chúng ta đã biết,
tiêu chuẩn định dạng video thành phần 4:2:2 ( CCIR-601) với quy định bề rộng băng tần tín hiệu
chói và màu là 5,75 MHz và 2,75 MHz (± 0,1 dB). Sau khi số hóa với tần số lấy mẫu tiêu chuẩn
13.5 MHz (cho kênh chói), tốc độ bit tổng cộng của tín hiệu chói và màu là 270 Mbps. Dòng dữ
liệu video số có tốc độ cao như trên không thể được truyền qua vệ tinh với độ rộng dải tần mỗi
kênh 27 MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với quy định 7÷8 MHz cho
một kênh truyền hình tiêu chuẩn. Do vậy, nén tín hiệu video là công đoạn không thể thiếu để khắc
phục được những khó khăn trên. Từ những năm 1980, các nhà khoa học đã đạt được những thành
tựu quan trọng trong việc nén tín hiệu video và audio. Có rất nhiều hãng sản xuất thiết bị nén tín
hiệu video, chủ yếu các thiết bị này làm việc với hai định dạng nén được coi là tiêu chuẩn là JPEG
(Joint Photographic Experts Group) – áp dụng cho ảnh tĩnh và MPEG (Moving Picture Experts
Group) - áp dụng cho ảnh động.

™ Phân loại các phương pháp nén ảnh:


Có thể thực hiện phân loại theo nguyên lý nén:
- Nén không tổn hao (lossless data reduction)
- Nén có tổn hao (loss data reduction)
Phân loại theo cách thực hiện nén:
- Phương pháp không gian (Spatial Data Compression): các phương pháp nén bằng cách
tác động trực tiếp lên điểm ảnh.
- Phương pháp sử dụng biến đổi (Transform Coding): phương pháp nén sử dụng các phép
biến đổi không gian, quá trình nén được thực hiện bằng cách tác động lên ảnh biến đổi.
3.3.2 Dư thừa trong tín hiệu
3.3.2.1 Độ dư thừa số liệu
Nén số liệu là quá trình giảm lượng số liệu cần thiết để biểu diễn cùng một lượng thông tin
cho trước. Số liệu và thông tin không đồng nghĩa với nhau. Số liệu (tạo nên tín hiệu) chỉ là
phương tiện dùng để truyền tải thông tin. Cùng một lượng thông tin cho trước có thể biểu diễn

   176 
Chương 3 Kỹ thuật xử lý hình ảnh 

bằng các lượng số liệu khác nhau.

Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Độ dư thừa được xác định như sau:
nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biễu diễn lượng thông
tin cho trước thì độ dư thừa số liệu tương đối RD của tập số liệu thứ nhất so với tập số liệu thứ hai
có thể được định nghĩa như sau:

RD = 1- 1/CN trong đó: CN = N1/N2


Trong trường hợp N1 = N2 thì RD = 0, điều này có nghĩa là so với tập số liệu thứ hai thì tập
số liệu thứ nhất không chứa số liệu dư thừa. Khi N2 << N1 thì CN tiến tới vô cùng và RD tiến tới
một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn so với tập số liệu
thứ hai.

Chất lượng ảnh nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh.
Có thể đánh giá chất lượng ảnh nén theo số bit cho một điểm trong ảnh nén (Nb). Nb được xác
định bằng tổng số bit dùng để mô tả ảnh nén chia cho tổng số điểm ảnh:
Nb = Số bit nén/Số điểm

Trong lý thuyết nén ảnh số,có thể phân biệt ba loại dư thừa số liệu khác nhau, đó là:

• Dư thừa mã (Coding Redundancy)

Nếu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết thì tín
hiệu nhận được sẽ có độ dư thừa mã. Để giảm độ dư thừa mã, có thể sử dụng các mã VLC
(Variable-Length Coding) như mã Huffman, mã LZW(Lempel-Ziv-Welch) v.v...

• Dư thừa trong pixel (Interpixel Redundancy)


Mức độ tương quan giữa hai điểm ảnh gần nhau là tương đối lớn, do đó trong ảnh số tồn tại
lượng dư thừa pixel (còn gọi là dư thừa không gian) tương đối lớn. Mỗi điểm ảnh có thể được dự
báo từ giá trị các điểm lân cận với nó. Như đã nhắc tới ở trên, giảm độ dư thừa trong pixel của
một ảnh có thể được thực hiện khi sử dụng phép biến đổi ảnh số từ miền không gian sang miền
tần số.

• Dư thừa tâm sinh lý

Dựa trên các nghiên cứu về hệ thống thị giác, chúng ta biết rằng mắt người chỉ cảm nhận
được một phần thông tin chứa trong ảnh quang học. Nói cách khác, ảnh có thể được tách ra thành
hai phần: một phần chứa các tin tức quan trọng cho người xem, phần khác là các thông tin mà
người xem hầu như không cảm nhận được. Thành phần thứ hai có thể được loại bỏ mà không ảnh
hưởng đáng kể đến chất lượng thu nhận ảnh.

3.3.2.2 Tiêu chí đánh giá chất lượng hình ảnh


Quá trình nén ảnh thường đi đôi với việc ảnh nén bị biến dạng so với ảnh gốc. Vì vậy, cần
xác định tiêu chí và phương pháp đánh giá một cách khách quan lượng thông tin về ảnh đã bị mất
đi sau khi nén. Có thể đánh giá mức độ sai số giữa hai ảnh thông qua mức sai lệch trung bình bình
phương - RMS (Root Mean Square). Cho f ( x, y ) là ảnh gốc, fˆ ( x, y ) là ảnh khôi phục sau khi
nén. Khác biệt tuyệt đối giữa hai ảnh là:
e ( x, y ) = fˆ ( x, y ) − f ( x, y ) (3.3.1)

   177 
Chương 3 Kỹ thuật xử lý hình ảnh 

Sai số trung bình bình phương được tính theo công thức sau:
1/2
⎡ 1 M −1 N −1 2⎤
eRMS =⎢ ∑ ∑ ( fˆ ( x, y ) − f ( x, y ) ) ⎥ (3.3.2)
⎢⎣ MN x =0 y =0 ⎥⎦

Thông thường, khi giá trị RMS thấp, chất lượng ảnh nén sẽ tốt. Tuy nhiên, trong một số
trường hợp chất lượng hình ảnh nén không nhất thiết phải tỷ lệ thuận với giá trị RMS.

Một phương pháp đánh giá chất lượng ảnh nén khác dựa trên tỷ lệ tín hiệu/nhiễu được tính
theo công thức sau:

M −1 N −1 1/2
⎡ ⎤
∑ ∑ fˆ ( x, y )
2
⎢ ⎥
SNR = ⎢ M −1 N −1 ⎥
x =0 y =0
(3.3.3)
⎢ 2⎥
(
⎢ ∑ ∑ f ( x, y ) − f ( x, y )
ˆ ) ⎥
⎣ x =0 y =0 ⎦
SNR (Signal to Noise Ratio) - tỷ lệ tín hiệu/ nhiễu.

Các thông số nêu trên chỉ cho phép đánh giá chất lượng ảnh nén một cách gần chính xác.
Trên thực tế chất lượng hình ảnh phụ thuộc rất nhiều vào cảm nhận tâm sinh lý của con người.
Chính vì vậy, trong một số trường hợp người ta sử dụng phương pháp đánh giá chất lượng ảnh
một cách chủ quan: ảnh được trình chiếu cho một số lượng lớn người quan sát. Dựa trên kết quả
thống kê đánh giá của cả nhóm người quan sát, có thể đưa ra kết luận tương đối chính xác về chất
lượng ảnh nén.
3.3.3 Mô hình hệ thống nén tín hiệu

Hình 3.3.1 Sơ đồ khối hệ thống nén tín hiệu


Hệ thống truyền dẫn sử dụng các phương pháp nén tín hiệu khác nhau có thể được mô tả
bằng sơ đồ khối như trên hình 3.3.1. Các thành phần quan trọng nhất trong hệ thống là bộ mã hóa
và giải mã.
ƒ Bộ mã hóa và giải mã nguồn
Bộ mã hóa nguồn thực hiện quá trình loại bỏ các thành phần dư thừa trong ảnh gốc. Thông
thường, bộ mã hóa nguồn có cấu trúc như trên hình 3.3.2.

Hình 3.3.2 Sơ đồ khối bộ mã hóa nguồn


- Bộ chuyển đổi: thường dùng các phép biến đổi không gian để chuyển ảnh trong
không gian thực sang một không gian khác, nơi các hệ số chuyển đổi có mức độ tương quan thấp
hơn. Kết quả nhận được là ma trận các hệ số biến đổi.

   178 
Chương 3 Kỹ thuật xử lý hình ảnh 

- Bộ lượng tử hoá: sử dụng phương pháp lượng tử không đồng đều nhằm triệt tiêu các
hệ số biến đổi có năng lượng thấp hoặc đóng vai trò không quan trọng khi khôi phục ảnh. Quá
trình lượng tử không có tính thuận nghịch: ảnh khôi phục sẽ bị biến dạng so với ảnh gốc.

- Bộ mã hoá: gán một từ mã (một dòng bit nhị phân) cho một mức lượng tử.

Hình 3.3.3 Sơ đồ khối giải mã nguồn


Bộ giải mã nguồn có các bộ phận chức năng sau:
- Bộ giải mã: thực hiện giải mã tín hiệu nhận được để cho ra ma trận các hệ số của ảnh biến
đổi.
- Bộ chuyển đổi thực hiện biến đổi nghịch (so với quá trình biến đổi ở bộ mã hóa) để khôi
phục lại ảnh số ban đầu.
ƒ Bộ mã hóa và giải mã kênh
Khi truyền tín hiệu qua kênh truyền có nhiễu, để làm giảm ảnh hưởng của nhiễu tới tín hiệu
người ta thường sử dụng các phương pháp mã bằng cách thêm một số thông tin dư thừa vào chuỗi
tín hiệu cần truyền đi. Tùy thuộc vào phương pháp mã hóa, tại phía thu, sau khi giải mã kênh,
chúng ta có thể phát hiện được lỗi trong chuỗi tín hiệu vừa nhận được (do nhiễu kênh gây ra) hoặc
có thể đồng thời thực hiện sửa các lỗi đó.
3.3.4 Các phương pháp nén không tổn hao (lossless data reduction)
Trong nhiều ứng dụng tín hiệu phải được nén không làm mất mát thông tin: ví dụ khi cần
nén các file chương trình trong máy tính hay khi nén những hình ảnh nhận được từ các thiết bị
khảo sát vũ trụ: những ảnh này thường có giá trị sử dụng cao, cần được giữ nguyên chất lượng
ban đầu. Sau đây chúng ta phân tích một số phương pháp nén không tổn hao tiêu biểu.
3.3.4.1 Phương pháp mã hóa Huffman
Phương pháp mã hóa Huffman là phương pháp giảm dư thừa thống kê, dựa vào mô hình
thống kê của tín hiệu. Phân tích dữ liệu gốc, người ta tính tần suất xuất hiện của các ký tự. Các ký
tự có tần suất cao nhất sẽ được mã hóa bằng từ mã ngắn nhất và ngược lại. Tóm lại, với cách mã
hóa trên, chúng ta đã làm giảm chiều dài trung bình của từ mã được dùng để mã hóa dữ liệu.
3.3.4.2 Phương pháp mã LZW (Lempel-Ziv-Welch)
Đây là phương pháp mã hóa từ điển, quá trình mã hóa được thực hiện bằng cách thay chuỗi
dữ liệu gốc có độ dài khác nhau bằng từ mã có độ dài cố định. Khác với mã Huffman, kỹ thuật
LZW không cần biết tần suất của các ký tự trong tín hiệu gốc.
Để mã hóa theo phương pháp LZW, chuỗi dữ liệu phải được đưa vào tra cứu trong "từ điển"
để tìm ra mã tương ứng với nó. "Từ điển" được hình thành ngay trong quá trình mã hóa. Ví dụ:
khi nén ảnh đen-trắng được mã hóa bằng 8 bits/pixel, từ điển được khởi tạo bao gồm 256 từ tương
ứng với các mức chói 0,1,2…255. Sau đó, coder sẽ phân tích lần lượt chuỗi ký tự (mức xám) liên
tiếp trong dữ liệu nguồn, khi phát hiện trong từ điển không có chuỗi ký tự tương đương, coder sẽ
ghi chuỗi ký tự liên tiếp đó vào vị trí còn trống của từ điển. Ví dụ: nếu hai điểm ảnh đầu tiên có
giá trị 255, thì chuỗi 255-255 sẽ được ghi vào vị trí thứ 256, sau đó tổ hợp 255-255 có thể được
truyền đi với từ mã là 256. Như vậy thay vì truyền hai ký tự có 16 bits, ta chỉ cần truyền đi từ mã
9 bits. "Từ điển" bao gồm các từ mã 9 bits có thể lưu được 512 từ mã. Có thể thấy rằng, khi "từ

   179 
Chương 3 Kỹ thuật xử lý hình ảnh 

điển" quá nhỏ, số lượng chuỗi ký tự được mã hóa sẽ ít, ngược lại khi "từ điển" quá lớn từ mã sẽ có
độ dài lớn do đó hiệu quả nén cũng bị giảm. Cần lưu ý rằng, "từ điển" sử dụng khi mã hóa không
cần phải chuyển sang phía giải mã, trong quá trình giải mã LZW, "từ điển" này sẽ được khôi phục
tự động. Giải thuật nén LZW thường được sử dụng cho các loại ảnh nhị phân. Chuẩn nén này
được sử dụng để tạo ra các dạng ảnh GIF và TIFF.
3.3.4.3 Phương pháp mã hóa loạt dài (RLC - Run Length Coding)
Kỹ thuật mã hóa RLC được pháp triển ban đầu để nén ảnh nhị phân như ảnh scan từ văn
bản, ảnh nhận được từ máy Fax. Kỹ thuật nén này dựa trên nguyên lý tìm trong tín hiệu số nhị
phân chuỗi bít "1" hoặc "0" liên tiếp, sau đó mã hóa chuỗi đó bằng hai thông số: giá trị bit lặp và
số lượng bít lặp (chiều dài chuỗi). Đôi khi, để nâng cao hiệu quả nén, giá trị chiều dài các chuỗi
có thể được mã hóa bằng mã có chiều dài thay đổi (ví dụ mã Huffman). Chiều dài chuỗi bits trong
ảnh nhị phân đôi khi có thể lớn hơn 255. Vì thế, để có thể dùng 1 byte để mã hóa giá trị số bit lặp
lại, người ta hạn chế chiều dài chuỗi bằng 255. Phương pháp nén RLC được sử dụng để lưu trữ
các ảnh Bitmap theo dạng PCX, BMP.
3.3.4.4 Phương pháp mã hóa theo vùng đồng trị
Đây là phương pháp khá đơn giản và hiệu quả khi mã hóa ảnh nhị phân hoặc ảnh mặt phẳng
bit (xem phần 3.2.2.1.5). Ảnh gốc được chia thành nhiều khối nhỏ có kích thước mxn pixel.
Chúng ta phân biệt ba loại khối ảnh: khối toàn màu trắng, toàn màu đen và khối có độ sáng hỗn
hợp. Sau đó, các khối ảnh có tần suất cao được mã hóa với từ mã ngắn nhất, ví dụ từ mã "0". Hai
khối còn lại được mã hóa bằng từ mã 2 bits: "01" và "10". Như vậy, thay vì phải truyền đi giá trị
mxn điểm ảnh trong mỗi khối, với khối toàn trắng và toàn đen ta chỉ cần truyền đi các từ mã có độ
dài 1 hoặc 2 bits.
3.3.4.5 Phương pháp mã dự đoán không tổn thất
Phương pháp mã hóa này dựa trên tính tương quan giữa hai điểm ảnh nằm kề nhau và kỹ
thuật tách và truyền thông tin "mới" chứa trong mỗi pixel ảnh. Theo những nghiên cứu thống kê
về phân bố biên độ tín hiệu video, mức độ tương quan giữa các điểm ảnh nằm gần nhau trong
miền không gian là khá cao, điều này có nghĩa là sự khác biệt giữa hai điểm ảnh kế bên rất nhỏ
hoặc bằng 0, vì thế khi mã hóa độ chênh lệch này cần số lượng bit ít hơn so với khi mã hóa toàn
bộ biên độ các mẫu.
Thông tin "mới" trong điểm ảnh được xác định bằng hiệu giữa điểm ảnh thực và điểm ảnh
dự đoán. Phương pháp mã dự đoán còn gọi là điều xung mã vi sai (DPCM – Differential Pulse
Code Modulation). Trong bộ mã hóa DPCM cũng sử dụng thêm các kỹ thuật lượng tử hóa thích
nghi và mã hóa entropy để tăng hệ số nén. Các thành phần chính của hệ thống DPCM được mô tả
trên hình 3.3.4.

Hệ thống DPCM bao gồm bộ mã hóa (hình 3.3.4a) và bộ giải mã (hình 3.3.4b).
en = fn − fˆn
fn

fˆn

a) mã hóa DPCM

   180 
Chương 3 Kỹ thuật xử lý hình ảnh 

en fn

fˆn

b) giải mã DPCM

Hình 3.3.4 Sơ đồ khối bộ mã hóa và giải mã DPCM


Trong thành phần bộ mã hóa và giải mã đều có khối dự đoán. Khi một mẫu f n của ảnh
được đưa tới bộ mã hóa, khối dự đoán sẽ thực hiện xấp xỉ giá trị mẫu ảnh đó dựa trên thông tin đã
có về các điểm ảnh trước. Sau đó giá trị xấp xỉ được làm tròn fˆn và đưa tới mạch trừ để tìm ra sai
số giữa điểm ảnh thực và điểm ảnh dự đoán:

en = f n − fˆn (3.3.4)
Giá trị sai số (thường là nhỏ) được mã hóa bằng mã có độ dài thay đổi (mã Entropy) trước
khi đưa vào đường truyền.
Ở phí thu, sau khi dữ liệu nén được giải mã Entropy, giá trị sai số en được đưa tới bộ dự
đoán để khôi phục giá trị điểm ảnh f n :

f n = fˆn + en (3.3.5)

Để có được giá trị fˆn dựa trên các mẫu tới trước, có thể sử dụng các phương pháp xấp xỉ

cục bộ, toàn cục hoặc phương pháp thích nghi. Thông thường, fˆn được xác định dựa trên giá trị
của m mẫu đến trước như sau:
⎡m ⎤
fˆn = round ⎢ ∑ α i f n−i ⎥ (3.3.6)
⎣ i =1 ⎦
α i - hệ số dự đoán với i = 1,2,...m ;
round ( ⋅ ) - toán tử làm tròn tới số nguyên gần nhất.
3.3.5 Các phương pháp nén tổn hao (loss data reduction)
Các phương pháp nén có tổn hao thường có hiệu quả nén cao hơn rất nhiêu so với nén
không tổn hao. Đặc điểm của các phương pháp nén này là hiệu quả nén càng cao thì mức độ tổn
hao càng lớn, nói cách khác chất lượng ảnh nén sẽ giảm đi khi hệ số nén tăng lên. Một số phương
pháp nén ảnh có tổn hao có thể đạt hệ số nén tới 100 lần trong khi chất lượng ảnh nén vẫn còn
chấp nhận được. Cần chú ý rằng hệ số nén cũng như chất lượng ảnh nén trong trường hợp nén tổn
hao phụ thuộc tương đối nhiều vào tính chất của hình ảnh gốc.
Sau đây chúng ta sẽ đề cập tới một số phương pháp nén ảnh tổn hao tiêu biểu.
3.3.5.1 Phương pháp mã dự đoán có tổn hao
Sơ đồ khối của bộ mã hóa dự đoán có tổn thất khác với bộ mã hóa không tổn thất (hình
3.3.5) do có thêm bộ lượng tử hóa . Quá trình lượng tử hóa sẽ làm tròn giá trị en tới mức lượng tử
gần nhất là en . Hiệu quả nén của hệ thống mã hóa và sai số giữa ảnh nén và ảnh gốc sẽ phụ thuộc
vào số mức lượng tử được sử dụng trong coder.

   181 
Chương 3 Kỹ thuật xử lý hình ảnh 

Để kết quả dự đoán ở coder và decoder như nhau, các mẫu tới trước dùng để dự đoán tại
coder phải chứa cả thành phần sai số do lượng tử hóa tạo ra vì sai số này tồn tại trong tín hiệu đưa
tới bộ dự đoán trong decoder:

fn = en + fˆn (3.3.7)

fn cũng được sấp xỉ theo công thức (3.3.6).

Trong bộ giải mã, giá trị các điểm ảnh giải nén cũng được xác định bởi (3.3.7).

en en

fn

fn
fˆn

a) mã hóa DPCM

en fn

fˆn

b) giải mã DPCM
Hình 3.3.5 Hệ thống mã hóa dự đoán có tổn thất
3.3.5.2 Các phương pháp nén sử dụng phép biến đổi không gian tín hiệu
Trong phần này chúng ta sẽ phân tích kỹ thuật nén ảnh số sử dụng các phép biến đổi không
gian tín hiệu. Nguyên lý chung của các phương pháp nén này là sử dụng các phép biến đổi tuyến
tính (như biến đổi Fourier, biến đổi Cosin, biến đổi DCT - Discrete Cosine Transform v.v.) để ánh
xạ ảnh số sang không gian khác. Tập hệ số kết quả của các biến đổi tuyến tính sau đó được lượng
tử hóa và mã hóa. Ưu điểm quan trọng của các phép biến đổi là các hệ số khai triển thường có
mức tương quan nhỏ hơn so với mức độ tương quan giữa các điểm ảnh trong không gian thực.
Ngoài ra, phần lớn năng lượng của tín hiệu tập trung tại các hệ số nằm trong miền tần số thấp.
Quá trình nén dữ liệu có thể được thực hiện trong giai đoạn lượng tử hóa: khi lựa chọn mức lượng
tử tương đối lớn, các hệ số biến đổi có năng lượng nhỏ (thường nằm ở miền tần số cao) sẽ bị loại
bỏ bớt. Ảnh nén nhìn chung sẽ không hoàn toàn giống được ảnh gốc, tuy nhiên có thể dự đoán
rằng, ảnh hưởng của các thành phần cao tần bị loại bỏ thường không lớn, do đó chất lượng ảnh
hầu như không bị thay đổi kể cả khi tín hiệu bị nén khá nhiều. Hình 3.3.6 mô tả sơ đồ khối tổng
quát hệ thống nén ảnh sử dụng phép biến đổi không gian. Coder thực hiện bốn bước cơ bản: 1-
Chia ảnh thành các block (để tiện xử lý trong máy tính, các block thường có kích thước 8x8
pixel); 2- Thực hiện phép biến đổi với từng block; 3- Lượng tử hóa các hệ số biến đổi; 4- Mã hóa.
Decoder thực hiện quá trình biến đổi ngược lại (ngoài việc lượng tử hóa).

   182 
Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.3.6 Sơ đồ khối hệ thống nén ảnh sử dụng phép biến đổi không gian
a- Bộ mã hóa (coder)
b- Bộ giải mã (decoder)
3.3.5.3 Các chuẩn nén ảnh tính và ảnh động
• Các chuẩn nén ảnh tĩnh
Hiện nay trong lĩnh vực ảnh số có khá nhiều chuẩn nén đang được sử dụng. Một số định
dạng nén không tổn hao được hầu hết các phần mềm xử lý ảnh số chuyên nghiệp như Photoshop
(hãng Adobe Systems) hay Photo Paint (Corel Corp.) hỗ trợ là: BMP, PCX, GIF, TIFF…. Tuy
nhiên như đã phân tích ở trên, các chuẩn nén không tổn hao thường có hệ số nén rất thấp, do đó
chúng chỉ được sử dụng để nén ảnh có kích thướng nhỏ. Phương pháp nén ảnh có tổn hao được sử
dụng rộng rãi vì có hiệu quả nén cao hơn nhiều so với nén không tổn hao. Hai phương pháp nén
đáng chú ý nhất hiện nay đều dựa trên các phép biến đổi không gian, đó là phương pháp nén theo
JPEG và nén ảnh sử dụng biến đổi Wavelet (Wavelet transform). Cả hai phương pháp nén nói trên
có hiệu quả nén rất cao, tuy nhiên, chuẩn nén JPEG được sử dụng rộng rãi hơn. Tiêu chuẩn nén
JPEG được hỗ trợ trong nhiều chương trình xử lý ảnh, trên các web browser; kỹ thuật nén JPEG
còn được tích hợp trong các hệ thống nén ảnh động MPEG, là chuẩn nén thông dụng cho tín hiệu
truyền hình số hiện nay. Phần sau của tài liệu này chúng ta sẽ nghiên cứu kỹ hơn về tiêu chuẩn
nén JPEG và MPEG.
• Các chuẩn nén ảnh động
1- Chuẩn H.261
ITU (CCITT) H.261 được phát triển để nén tín hiệu hình ảnh cho dịch vụ truyền hình hội
nghị và video phone qua đường truyền ISDN ở tốc độ px64kbps (p=1..30). Trên đường truyền
64kbps, luồng 48kbps dùng để truyền tín hiệu video, 16kbps – dành cho audio. Kỹ thuật nén ảnh
được sử dụng trong chuẩn H.261 sẽ làm nền tảng cho các chuẩn nén sau này như MPEG 1, 2.
Trong chuẩn nén H.261 có sử dụng các kỹ thuật nén trong ảnh dựa trên biến đổi DCT, nén
liên ảnh với bộ bù chuyển động. H.261 hỗ trợ hai độ phân giải CIF (Common Intermediate
Format) và QCIF (Quarter Common Intermediate Format) (hình 3.3.7). Phương pháp lấy mẫu tín
hiệu chói và màu: YCbCr 4:2:0.
2- Chuẩn H.263
Đây là chuẩn nén được cải tiến từ H.261 tạo ra luồng video tốc độ thấp, có thể truyền trên
mạng điện thoại công cộng PSTN. Chuẩn nén H.263 được công nhận năm 1996.
Giống như H.261, H.263 sử dụng biến đổi DCT cho quá trình nén trong ảnh và ảnh sai số
(là hiệu của ảnh gốc và ảnh nén). Chuẩn H.263 hỗ trợ các độ phân giải SQCIF, QCIF, CIF, 4 CIF
và 16CIF.

   183 
Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.3.7 Độ phân giải chuẩn của video số


3- Chuẩn nén MPEG
Chuẩn nén MPEG sẽ được phân tích cụ thể hơn ở phần sau của tài liệu này.

3.3.5.4 Phương pháp nén ảnh tĩnh theo chuẩn JPEG


JPEG (Joint Photographic Expert Group ) là tên của một tổ chức nghiên cứu về các chuẩn
nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết
lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITV. Chuẩn JPEG được ứng dụng để nén ảnh tĩnh đơn
sắc và ảnh màu.Tiêu chuẩn nén JPEG có thể được ứng dụng trong nhiều lĩnh vực: lưu trữ ảnh,
truyền ảnh qua mạng, truyền ảnh báo chí, ảnh cho y học, camera số v.v...

Hệ số nén ảnh tĩnh theo phương pháp JPEG có thể đạt từ 10 – 50 (lần) mà không làm ảnh
hưởng nhiều đến chất lượng hiển thị của ảnh. Khai triển DCT được chọn là kỹ thuật then chốt
trong JPEG vì nó cho phép nén ảnh với chất lượng tốt nhất tại tốc độ bit thấp, giải thuật chuyển
đổi nhanh và dễ dàng thực hiện bằng phần cứng. Trên hình 3.3.8 là sơ đồ khối bộ mã hóa ảnh theo
chuẩn JPEG.

f ( i, j ) F ( u, v ) Fq ( u, v )

Hình 3.3.8 Sơ đồ khối bộ mã hóa ảnh theo JPEG


Trước khi đưa tới bộ chuyển đổi DCT, ảnh màu gốc phải được phân tích thành các ảnh đơn
sắc và được số hóa theo một trong những tiêu chuẩn hiện hành. Ảnh chói (Y) và hai ảnh màu đơn
sắc UV (chuẩn PAL) hoặc IQ (chuẩn NTSC) được chia thành các block 8x8 và đưa tới bộ chuyển
đổi DCT. Các block được "đọc" lần lượt từ ảnh gốc theo chiều từ trái sang phải, từ trên xuống
dưới. Kích thước block là 8×8 được chọn bởi hai lý do sau: (1) nhiều công trình nghiên cứu cho
thấy hàm tương quan giữa các điểm ảnh suy giảm rất nhanh khi khoảng cách giữa các pixel vượt
quá 8; (2) kích thước 8x8 tiện lợi cho việc tính toán và thiết kế phần cứng.

Bộ chuyển đổi DCT biến đổi ma trận ảnh f ( i , j ) 8x8 thành ma trận hệ số F ( u, v ) cùng
kích thước. Ma trận F(u,v) được đưa tới bộ lượng tử. Các hệ số DCT sẽ được lượng tử hóa dựa
trên bảng lượng tử. Tín hiệu chói và tín hiệu màu sẽ được lượng tử theo các bảng lượng tử khác

   184 
Chương 3 Kỹ thuật xử lý hình ảnh 

nhau. Ma trận các hệ số DCT nhận được sau bộ lượng tử là Fq ( u , v ) . Hệ số Fq ( 0,0 ) là thành
phần trung bình (thành phần DC) của mỗi block được đưa tới bộ mã hóa vi sai (DPCM). Các hệ
số khác (thành phần AC) trong từng block được đọc ra theo trình tự zigzag và đưa tới bộ mã hóa
loạt dài (RLC). Cuối cùng chuỗi dữ liệu từ hai bộ mã hóa DPCM và RLC được mã hóa một lần
nữa bằng mã entropy. Dữ liệu nén cùng các bảng mã và bảng lượng tử được kết hợp lại thành file
ảnh nén theo chuẩn JPEG.
Sau đây chúng ta sẽ phân tích từng khâu xử lý trong quá trình nén ảnh JPEG.
3.3.5.4.1 Biến đổi DCT
Công đoạn đầu tiên của quá trình nén theo JPEG là biến đổi cosin rời rạc DCT (Discrete
Cosine Transform). DCT biến đổi dữ liệu từ miền không gian sang miền tần số. DCT được sử
dụng tương đối rộng rãi vì nó có đặc tính "gói" năng lượng tốt, biến đổi DCT cho kết quả là các số
thực, ngoài ra có các thuật toán nhanh để thực hiện biến đổi này.

Biến đổi DCT được thực hiện trong phạm vi các khối 8×8 mẫu tín hiệu chói Y và các khối
tương ứng của tín hiệu hiệu màu (UV hoặc IQ).

• DCT hai chiều:

Biến đổi DCT hai chiều (2-D) được dùng cho các khối ảnh có kích thước 8×8. Quá trình
biến đổi thuận DCT (Forward DCT) dùng trong tiêu chuẩn JPEG được định nghĩa như sau:
C (u )C (v ) 7 7
(2 j + 1)uπ (2k + 1)vπ
F(u,v)=
4
∑∑ f ( j, k ) cos
j =0 k =0 16
cos
16
(3.3.8)

trong đó:

f(j,k)- các mẫu của ảnh gốc trong block 8×8 pixel.

F(u,v)-các hệ số của khối DCT 8×8.

⎪⎧1 / 2 u, v = 0
C (u ) , C (v ) = ⎨
⎪⎩1 u, v ≠ 0

Phương trình trên là kết quả liên kết của hai phương trình DCT một chiều, một cho tần số
ngang và một cho tần số dọc. Trong ma trận hệ số DCT hai chiều, hệ số thứ nhất F ( 0,0 ) bằng
giá trị trung bình của các điểm ảnh trong block 8x8:

1 7 7
F ( 0,0) = ∑
8 j=0
∑ f ( j, k)
k =0
(3.3.9)

Các hệ số nằm ở các dòng dưới thành phần một chiều, đặc trưng cho các tần số cao hơn của
tín hiệu theo chiều dọc. Các hệ số nằm ở các cột bên phải của thành phần một chiều đặc trưng cho
các tần số cao hơn theo chiều ngang. Hệ số F(0,7) là thành phần có tần số cao nhất theo chiều
ngang của block ảnh 8×8, và hệ số F(7,0) đặc trưng cho thành phần có tần số cao nhất theo chiều
dọc. Còn các hệ số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và
chiều ngang.

Phép biến đổi DCT hai chiều là biến đổi đối xứng và biến đổi nghịch cho phép tái tạo lại
các giá trị mẫu f(j,k) trên cơ sở các hệ số F(u,v) theo công thức sau:

   185 
Chương 3 Kỹ thuật xử lý hình ảnh 

7 7
C ( u) C ( v) (2 j + 1)uπ (2k + 1)vπ
f ( j, k ) = ∑∑ F (u, v)cos cos (3.3.10)
u=0 v=0 4 16 16

Bản thân phép biến đổi DCT không nén được dữ liệu, từ 64 mẫu ta nhận được 64 hệ số.
Trong các hệ số DCT, thành phần DC thường có giá trị lớn nhất, các hệ số nằm kề nó ứng với tần
số thấp có giá trị nhỏ hơn, các hệ số còn lại ứng với tần số cao thường có giá trị rất nhỏ.

Trên hình vẽ 3.3.9 là một ví dụ minh họa quá trình biến đổi DCT hai chiều cho một block
8×8 điểm ảnh (chói) được trích ra từ một ảnh thực. Thành phần chói Y sau khi số hóa sẽ có biên
độ các mẫu nằm trong khoảng 0-255, các mẫu của thành phần màu CR,CB có biên độ cực đại là
±128. Để có thể sử dụng một bộ mã hóa DCT cho cả tín hiệu chói và màu, tín hiệu Y được dịch
mức xuống dưới bằng cách trừ 128 từ mỗi giá trị pixel trong block 8x8. Ở bộ giải mã DCT, giá trị
này sẽ được cộng thêm vào các giá trị chói sau khi giải nén. Giá trị hệ số DC của khối DCT dao
10 10
động trong khoảng từ −2 đến 2 − 1.
3.3.5.4.2 Lượng tử hóa
Bước tiếp theo của quá trình nén ảnh là bước lượng tử hóa các hệ số DCT F(u,v) với mục
đích làm giảm số lượng bit cần thiết dùng để mô tả những hệ số đó. Các hệ số tương ứng với tần
số thấp thường có giá trị lớn, những hệ số này chứa phần lớn năng lượng của tín hiệu, do đó
chúng phải được lượng tử hóa với độ chính xác cao. Riêng hệ số DC cần mã hóa với độ chính xác
cao nhất, bởi lẽ hệ số này là giá trị độ chói trung bình của từng block ảnh. Sự thay đổi độ chói
trung bình của các block sẽ ảnh hưởng rất nhiều tới chất lượng của ảnh nén.

Để thực hiện quá trình nén dữ liệu, ma trận các hệ số khai triển sau DCT phải được chia cho
bảng trọng số Q(u,v) để loại bỏ một phần các hệ số DCT có biên độ nhỏ (thường là các thành
phần cao tần).

Hình 3.3.9 Kết quả các bước nén ảnh theo JPEG và bảng lượng tử Q(u,v).

   186 
Chương 3 Kỹ thuật xử lý hình ảnh 

JPEG sử dụng phương pháp lượng tử không đồng đều, các hệ số có tần số thấp được chia
cho các giá trị nhỏ, các hệ số ứng với tần số cao được chia cho các giá trị lớn hơn, kết quả sẽ được
làm tròn (bỏ đi các phần thập phân):

⎡ F (u, v) ⎤
Fq(u,v)=round ⎢ ⎥ (3.3.11)
⎣ Q(u, v) ⎦
Trên hình 3.3.9 mô tả quá trình biến đổi DCT: ảnh gốc (a), ma trận hệ số DCT trước (b) và
sau khi lượng tử hóa (d) bằng cách chia cho bảng lượng tử Q(u,v) (c).

3.3.5.4.3 Quét zig-zag


Để mã hóa entropy các hệ số Fq(u,v), trước hết, cần biến đổi ma trận hệ số Fq(u,v) thành
chuỗi số một chiều. Trong kỹ thuật JPEG sử dụng phương pháp đọc theo đường zig-zag (quét zig-
zag). Việc đọc 64 hệ số của khối 8x8 pixel theo đường zig-zag (hình 3.3.10) làm tăng tối đa độ dài
của chuỗi các giá trị 0 liên tiếp. Như vậy hiệu quả nén khi dùng mã RLC sẽ tăng.

Hình 3.3.10 Quét zig-zag các hệ số lượng tử hóa DCT

3.3.5.4.4 Mã hóa thành phần DC


Các hệ số DC là giá trị trung bình của các khối ảnh 8x8. Độ chói trung bình của các block
ảnh gần nhau thường ít biến đổi, do đó trong chuẩn nén JPEG, các hệ số DC được mã hóa theo
phương pháp DPCM. Để tăng hiệu suất nén, kết quả nhận được sau đó được mã hóa tiếp bằng mã
Huffman. Trên lý thuyết, dải động của các giá trị nhận được sau khi mã hóa DPCM lớn gấp đôi
11
dải động của các hệ số DCT, có nghĩa là thành phần này sẽ có giá trị nằm trong khoảng −2 đến
11
2 − 1 . Số lượng bits cần thiết để mã hóa thành phần DC có thể lên tới 11.
Sơ đồ khối bộ mã hóa thành phần DC trình bày trên hình 3.3.11.

Hình 3.3.11 Bộ mã hóa thành phần DC


Hệ số DC của các block DCT được lần lượt đưa tới bộ DPCM. Thành phần sai số giữa hai
hệ số DC liên tiếp sẽ được mã hóa trong bộ mã hóa Huffman. Quá trình mã hóa Huffman được
thực hiện cho thành phần DC như sau: 1- Dò tìm trong bảng phân loại để tìm "loại" của giá trị

   187 
Chương 3 Kỹ thuật xử lý hình ảnh 

ΔDC . ("loại" chính là chiều dài từ mã dùng để mã hóa thành phần ΔDC ); 2- Dùng bảng mã
Huffman cho thành phần DC để tìm ra từ mã cho "loại" ΔDC tìm được ở bước 1; 3- Mã hóa nhị
phân giá trị ΔDC ; 4- Ghép từ mã Huffman và giá trị nhị phân của ΔDC để có được từ mã cho
thành phần DC.
Trên hình 3.3.12 và 3.3.13 là các bảng tra cần thiết để thực hiện mã hóa thành phần DC.
Ví dụ: Thành phần DC trong block trên hình 3.3.14 có giá trị DCn=15. Giả sử thành phần
DC của block trước đó là DCn-1=12. Như vậy kết quả mã hóa DPCM sẽ là giá trị
ΔDC = DCn − DCn−1 = 3 . Trên bảng 3.3.12, ta có ΔDC = 3 thuộc "loại" 2.

Hình 3.3.12 Bảng phân loại các hệ số AC và DC

Hình 3.3.13 Bảng mã Huffman cho thành phần DC

Hình 3.3.14 Block hệ số DCT cần được mã hóa


Dựa vào bảng mã huffman ta có từ mã ứng với "loại" 2 là (01) (như vậy 2 chính độ dài của
mã).
Giá trị ΔDC = 3 được biểu diễn bằng chuỗi nhị phân "11". Như vậy từ mã DC sẽ là 0111.
3.3.5.4.5 Mã hóa thành phần AC
Sơ đồ khối của bộ mã hóa thành phần AC được biểu diễn trên hình 3.3.15.

   188 
Chương 3 Kỹ thuật xử lý hình ảnh 

Hình 3.3.15 Bộ mã hóa thành phần AC


Chuỗi các hệ số AC được lần lượt đưa vào bộ mã hóa RLC. Ở đầu ra ta nhận được các từ
mã bao gồm hai thành phần: 1) Giá trị chạy – là số lượng bit "0" đứng trước hệ số khác "0" đang
được mã hóa; 2) biên độ của hệ số khác "0" nói trên. Từ mã Huffman ứng với cặp giá trị trên được
tìm ra trong bảng phân loại 3.3.12 và bảng mã Huffman cho thành phần AC (hình 3.3.16). Từ mã
AC sẽ bao gồm từ mã Huffman và giá trị biên độ (nhị phân) của hệ số AC.
Ví dụ: Sau quá trình quét zig-zag, từ block hệ số DCT trên hình 3.3.14 ta nhận được chuỗi
hệ số AC sau:
0, -2, -1, -1, -1, 0 , 0,-1, 0 , 0……
Chuỗi bít nhận được sau bộ mã RLC là:
(1,-2) (0, -1) (0, -1) (0, -1) (2,-1) (EOB)
Sau hệ số khác "0" cuối cùng, chúng ta đặt từ mã đặc biệt để báo hiệu kết thúc khối, từ mã
này có tên là EOB – End Of Block.
Sử dụng bảng phân loại (hình 3.3.12) chúng ta tìm được loại của biên độ các hệ số. Tín
hiệu được đưa vào mã hóa Huffman có cấu trúc sau:
(1,2)(-2), (0,1)(-1), (0,1)(-1), (0,1)(-1) (2,1)(-1), (0,0)
Ý nghĩa của các giá trị trong chuỗi trên được giải thích trong hình sau:

Hình 3.3.16 Bảng mã Huffman cho thành phần AC


Từ mã Hufman cho từng cặp giá trị chạy và loại có thể được tìm ra sau khi tra bảng trên
hình 3.3.16. Kết quả mã hóa các thành phần AC và DC được tập hợp lại thành chuỗi bít có dạng
như sau:

   189 
Chương 3 Kỹ thuật xử lý hình ảnh 

0111 11100101 0000 0000 0000 1101100 1010


code Huffman

DC AC EOB
Có thể thấy rằng chỉ cần 35 bits để truyền đi block 64 điểm ảnh, như vậy hiệu quả nén của
phương pháp JPEG trong trường hợp này là 0.5 bit/điểm ảnh.
3.3.5.4.6 Giải nén theo JPEG
Sơ đồ khối bộ giải nén ảnh JPEG biểu diễn trên hình 3.3.17. Quá trình giải nén JPEG được
thực hiện với trình tự ngược với quá trình mã hóa. Đầu tiên, bộ giải mã tách các thông tin ghi
trong phần Header của ảnh nén: đó là bảng mã và bảng lượng tử.
YUV, YIQ
f ( i, j ) F ( u, v ) Fq ( u, v )

Lượng tử
IDCT
ngược

8x8

Bảng lượng
tử ngược
Header Bảng mã
Bảng mã DC
Giải mã
DPCM
Giải mã
entropy
Giải mã AC
RLC

Hình 3.3.17 Sơ đồ khối bộ giải mã tín hiệu JPEG


Các bảng này được đưa tới khối giải mã entropy và khối lượng tử ngược. Dữ liệu mang tin
tức về ảnh được lần lượt đưa qua bộ giải mã entropy, giải mã DPCM và RLC. Các hệ số DC và
AC sau khi giải mã sau đó sẽ được sắp xếp theo thứ tự để tạo ra block hệ số DCT giống như ở
phía coder. Quá trình lượng tử ngược được thực hiện theo công thức:
F (u, v ) = Fq (u, v ) ⋅ Q(u, v ) (3.3.12)

Q(u, v ) - là bảng lượng tử giống như bảng lượng tử dùng ở coder.


Tập hệ số DCT F (u, v ) được đưa vào khối biến đổi DCT nghịch theo công thức (3.3.12)
để tạo ra block ảnh giải nén.
3.3.5.5 Nén JPEG lũy tiến
Phương pháp nén ảnh được phân tích ở phần trên được gọi là phương pháp nén JPEG căn
bản (Baseline Lossy JPEG) hay JPEG tuần tự. Giải pháp nén JPEG lũy tiến được cải tiến từ JPEG
tuần tự nên nhìn chung chúng có nhiều điểm tương đồng. Khi ảnh được nén theo chuẩn JPEG tuần
tự, ở bộ giải nén, các block ảnh sẽ được khôi phục theo trình tự từ trái sang phải từ trên xuống
dưới. Như vậy, toàn bộ ảnh chỉ được hiển thị lên trên màn hình sau khi nhận được tất cả các gói
tin từ phía phát. Trong một số trường hợp, đặc biệt khi truyền ảnh số chất lượng cao qua mạng
băng thông hẹp, thời gian truyền ảnh có thể tương đối lâu và người xem phải chờ một thời gian
dài.

Phương pháp nén JPEG lũy tiến thực hiện ghi dữ liệu theo cách đặc biệt để decoder có thể
giải mã toàn bộ ảnh ở "mức thô" ngay mà không cần chờ đến khi quá trình truyền ảnh kết thúc.

   190 
Chương 3 Kỹ thuật xử lý hình ảnh 

Các hệ số DCT ứng với tần số thấp của các block 8x8 được truyền đi trước, ví dụ, tất cả các hệ số
F (0,0) của các block được truyền lần lượt theo thứ tự từ trái sang phải, từ trên xuống dưới. Kế
tiếp là chuỗi các hệ số F ( 0,1) , F (1,0 ) v.v. Phía thu sau khi nhận được các hệ số F (0,0) ,
decoder đã có thể nhanh chóng khôi phục được ảnh thô, với độ phân giải thấp hơn 64 lần ảnh gốc,
vì các điểm ảnh trong khối 8x8 điểm đều có giá trị bằng F ( 0,0 ) (tức giá trị trung bình của
block). Với cách khôi phục ảnh như vậy, người quan sát sẽ không thấy khó chịu khi phải ngồi chờ
trước màn hình trống trong một thời gian dài. Hơn nữa khi quan sát được nội dung chính của ảnh,
người nhận có thể nhanh chóng đưa ra quyết định tải tiếp hay ngừng quá trình tải ảnh. Với cơ chế
làm việc như vậy, bộ mã hóa và giải mã JPEG lũy tiến phải có bộ nhớ đệm, kích thước bộ nhớ
đệm phải đủ lớn để chứa tất cả các hệ số DCT của ảnh. Trên hình vẽ 3.3.18 là các ảnh cho thấy sự
khác nhau trong quá trình giải nén JPEG lũy tiến và JPEG tuần tự.

a) b)

c) d) e)

Hình 3.3.18 So sánh quá trình giải mã JPEG lũy tiến và tuần tự
a- Ảnh gốc.
b- Ảnh nén theo JPEG tuần tự đang được giải mã.
c, d, e- Các pha giải mã ảnh nén theo JPEG lũy tiến
Nén JPEG lũy tiến có thể thực hiện theo 3 giải thuật sau:
1) Giải thuật lựa chọn phổ (progressive spectral selection algorithm).
2) Giải thuật xấp xỉ thành công (progressive successive approximation algorithm).
3) Giải thuật kết hợp (combined progresssive algorithm).
Giải thuật lựa chọn phổ vừa được mô tả ở trên. Trong giải thuật xấp xỉ, tất cả các hệ số
DCT được gởi đi trước có độ chính xác thấp hơn, thí dụ: bước 1 truyền 4 bits, bước hai truyền
thêm 4 bits, bước ba truyền nốt 2 bits còn lại của số nhị phân biểu diễn biên độ hệ số AC.

Giải thuật kết hợp dựa trên nguyên tắc kết hợp cả hai giải thuật chia phổ và xấp xỉ. Hệ
thống JPEG lũy tiến hiệu quả trong việc truyền các ảnh có kích thước lớn. Hệ thống này hướng
đến những ứng dụng yêu cầu truyền nhanh các ảnh có độ phân giải cao qua mạng có băng thông
giới hạn: ví dụ truyền ảnh y học, ảnh chụp từ vệ tinh cũng như truyền hình ảnh qua mạng Internet.

   191 
Chương 3 Kỹ thuật xử lý hình ảnh 

3.3.5.6 Các tham số tiêu chuẩn của phương pháp nén JPEG
Tiêu chuẩn JPEG xác định các tham số trong bảng sau:

Hình 3.3.19 Các tham số cơ bản của chuẩn JPEG


3.3.5.7 Phương pháp nén ảnh động theo chuẩn M-JPEG
M – JPEG là chuẩn mở rộng của JPEG. Theo chuẩn này, ảnh động được tạo ra từ chuỗi các
ảnh tĩnh có thể được nén trong ảnh bằng phương pháp JPEG. M–JPEG chỉ thực hiện nén dữ liệu
trong mỗi ảnh nên hiệu quả nén thấp hơn so với các phương pháp nén ảnh động MPEG sẽ được
xét sau đây. Hệ số nén đạt được khi nén ảnh động theo phương pháp M – JPEG phụ thuộc vào
chất lượng ảnh nén: tín hiệu video nén M-JPEG chất lượng cao (dùng trong studio) thường có tốc
độ dòng bits trên 24 Mbit/s. Khi tỷ số nén quá cao, trong ảnh nén sẽ bị "vỡ" thành các ô vuông có
kích thước 8x8 pixel còn gọi là artefact. Vì các ảnh được mã hóa độc lập với nhau nên quá trình
ghép cảnh khi dàn dựng trong studio sẽ có độ chính xác tới từng ảnh. Đây chính là điểm mạnh của
chuẩn nén M – JPEG. Kỹ thuật nén ảnh M – JPEG được sử dụng rộng rãi trong công nghệ sản
xuất chương trình truyền hình, tạo kỹ xảo, trong các máy quay video số, các hệ thống dàn dựng
video trong gia đình (video home studio).
Các thiết bị sử dụng định dạng nén M – JPEG có nhược điểm sau:

• Các thiết bị sử dụng phương pháp nén theo định dạng M – JPEG không thể sử dụng
cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi nén còn cao.

• Kỹ thuật nén M-JPEG chưa được chuẩn hóa như các định dạng nén khác (JPEG,
MPEG-2 v.v.), nên thiết bị nén của các hãng khác nhau thường không có tính tương thích cao, do
đó khó có thể trao đổi trực tiếp số liệu cho nhau.

• Các phần mềm giải mã video hỗ trợ định dạng M-JPEG còn chưa phổ biến.

   192 
Chương 3 Kỹ thuật xử lý hình ảnh 

3.3.6 Chuẩn nén ảnh động MPEG


Nén tín hiệu video theo chuẩn MPEG (Moving Picture Experts Group) là phương pháp nén
ảnh động không những làm giảm dư thừa trong không gian mà còn làm giảm dư thừa giữa các
khung ảnh (frame), đây cũng là khác biệt cơ bản so với JPEG là chuẩn nén ảnh tĩnh chỉ làm giảm
dư thừa không gian trong một khung ảnh. Như đã giới thiệu ở phần trước, các kỹ thuật nén được
chuẩn hóa bởi MPEG bao gồm MPEG-1, MPEG-2, MPEG-4, MPEG-7. Song song với các định
dạng nén cho tín hiệu video, trong các chuẩn MPEG còn xác định các phương pháp nén cho tín
hiệu audio. Ví dụ, chuẩn MPEG-1 định nghĩa 3 lớp nén audio như sau:

• MP1 or MPEG-1 Part 3 Layer 1 (MPEG-1 Audio Layer I)


• MP2 or MPEG-1 Part 3 Layer 2 (MPEG-1 Audio Layer II)
• MP3 or MPEG-1 Part 3 Layer 3 (MPEG-1 Audio Layer III)

Audio Layer 3 là tiêu chuẩn nén audio số được sử dụng rộng rãi hiện nay.
Sau đây chúng ta sẽ phân tích các kỹ thuật nén ảnh tiêu biểu được sử dụng trong chuẩn nén
ảnh động MPEG.

3.3.6.1 Kỹ thuật xử lý tín hiệu trong MPEG


• Kỹ thuật bù chuyển động
Để nâng cao hiệu suất nén ảnh động, trong chuẩn MPEG sử dụng kỹ thuật bù chuyển động.
Tín hiệu video được tạo thành từ một chuỗi ảnh tĩnh (frame). Vì tần số ảnh trong tín hiệu video
tương đối cao (25 hoặc 30 ảnh/giây) nên trong các frames nằm gần nhau thường có nhiều vùng
ảnh tương đối giống nhau. Nguyên lý bù chuyển động là tìm ra các vùng ảnh giống nhau hoặc gần
giống nhau giữa hai ảnh kế tiếp (gọi là ảnh tham khảo và ảnh dự đoán). Thông tin về ảnh dự đoán
sẽ được truyền đi dưới dạng vector chuyển động tức vector xác định vị trí mới của vùng ảnh thuộc
ảnh tham khảo có mặt trong ảnh dự đoán. Quá trình tìm ra vector chuyển động gọi là quá trình
xấp xỉ chuyển động (motion estimation), quá trình khôi phục ảnh dựa trên vector này gọi là quá
trình bù chuyển động (motion compensation). Trong MPEG, người ta tìm vector chuyển động cho
từng khối ảnh có kích thước 16x16. Để hạn chế thời gian xấp xỉ chuyển động, vector chuyển động
của một block ảnh được tìm trong một vùng tìm kiếm nhất định. Kỹ thuật xấp xỉ và bù chuyển
động được mô tả trên hình 3.3.20.

Hình 3.3.20 Minh họa quá trình xấp xỉ chuyển động


Trong MPEG người ta thường chọn block ảnh dùng để xấp xỉ có kích thước 16 × 16 điểm
ảnh và được gọi là macroblock (MB). Quá trình xấp xỉ chuyển động chỉ được thực hiện trong ảnh
chói, tuy nhiên các vector chuyển động sẽ được sử dụng để mã hóa cho cả các ảnh màu thành
phần. Trên hình 3.3.21 là một ảnh trong chuỗi ảnh MPEG sau khi được bù chuyển động dựa trên

   193 
Chương 3 Kỹ thuật xử lý hình ảnh 

các vector chuyển động (các đường thẳng màu xanh). Chỉ tiết ảnh có tốc độ dịch chuyển nhanh
(cánh tay vận động viên) sẽ tạo ra các vector chuyển động có độ dài lớn hơn các vector chuyển
động trong vùng ảnh nền.

Hình 3.3.21 Các vector chuyển động và ảnh bù chuyển động


• Các loại ảnh nén trong MPEG
Tùy theo phương pháp mã hóa, MPEG định nghĩa 4 loại ảnh sau:
1- Ảnh loại I (Intra-picture)

Là ảnh được mã hóa trong ảnh bằng kỹ thuật nén giống JPEG. Ảnh I là ảnh tham khảo để
dự đoán các ảnh B,P. Quá trình truy cập tới một vị trí nào đó trong đoạn video được bắt đầu từ
frame I. Tỷ lệ nén của ảnh I thấp hơn so với các ảnh P và B.

2- Ảnh loại P (Predicted-picture)

Là ảnh được mã hóa với vector chuyển động, được xấp xỉ từ ảnh I hay P trước nó. Ảnh P
cung cấp hệ số nén cao hơn ảnh I và có thể sử dụng như ảnh tham khảo để xấp xỉ chuyển động
trong các ảnh P và B khác.

3- Ảnh loại B ( Bi-directional predicted picture)


Là ảnh được mã hóa với vector chuyển động được xấp xỉ dựa trên các ảnh I hoặc P ở phía
trước và ở phía sau nó. Ảnh B cho tỷ lệ nén cao nhất. Nguyên tắc bù chuyển động trong ảnh B
được mô tả trên hình 3.3.22.

Các chi tiết được dự


đoán từ ảnh trước

Ảnh 1

Ảnh 2
Chi tiết được dự đoán
từ ảnh sau

Ảnh 3

Hình 3.3.22 Quá trình bù chuyển động trong ảnh B


4- Ảnh loại D ( DC-coded picture)

   194 
Chương 3 Kỹ thuật xử lý hình ảnh 

Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng trong MPEG-
2. Ảnh D được mã hóa giống như ảnh I, tuy nhiên chỉ có thành phần một chiều (DC) được lưu lại.
Các ảnh D được sử dụng khi cần tua nhanh video vì tốc độ giải mã ảnh D cao, tuy nhiên, độ phân
giải của ảnh D rất thấp.

• Nhóm ảnh (GOP)


Nhóm ảnh (GOP-Group of Picture) là đơn vị mang thông tin độc lập của MPEG. Ảnh P và
B trong MPEG không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh
tham khảo xuất hiện trước nó (đối với ảnh P) hay sự khác biệt giữa nó và các ảnh tham khảo xuất
hiện trước và sau nó (đối với ảnh B). Để khôi phục được ảnh P và B cần có dữ liệu từ các ảnh
tham khảo, như vậy khởi đầu một chuỗi ảnh phải là ảnh I. GOP trong MPEG là chuỗi ảnh liên tiếp
bắt đầu bằng một ảnh I và tiếp sau nó là các ảnh P và B. Nhóm ảnh có thể mở (Open) hoặc đóng
(Closed).

Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc ở một ảnh trước ảnh trước ảnh I tiếp
theo, khi đó ảnh B cuối cùng của GOP sẽ dùng ảnh đầu tiên của GOP tiếp theo làm ảnh tham khảo
(hình 3.3.23).

Hình 3.3.23 Cấu trúc GOP mở

Trong hình 3.3.23, ảnh P (ảnh số 4) được dự báo trước trên cơ sở ảnh I. Ảnh B (3 và 4)
được dự đoán từ I (1) và P (4). Ảnh B (5 và 6) được dự đoán từ ảnh P (4) và ảnh I của GOP tiếp
theo (ảnh 7). Một điều cần chú ý là thứ tự truyền các ảnh trong GOP và thứ tự hiển thị ảnh giải
nén lên màn hình không giống nhau. Ví dụ: để có thể giải mã được chuỗi ảnh trên hình 3.3.23,
ảnh I(1) và P(4) phải được truyền trước, sau đó là hai ảnh B(3 và 4). Tiếp đến là ảnh ảnh I(7) sau
đó là hai ảnh B (6 và 7) còn lại.

Đối với cấu trúc khép kín (đóng), việc dự đoán ảnh không sử dụng thông tin của GOP khác.
Trong trường hợp này, theo quy định, ảnh cuối cùng của một GOP bao giờ cũng là ảnh P (hình
3.3.24).

Hình 3.3.24 Cấu trúc GOP đóng

   195 
Chương 3 Kỹ thuật xử lý hình ảnh 

GOP được xác định bởi hai thông số M và N. Thông số M xác định số ảnh có trong một
GOP. Số N là khoảng cách giữa hai ảnh P (hay giữa hai ảnh I và P). GOP trong hình 3.3.27, có
M=4, N=3.

Tỷ lệ nén video của MPEG phụ thuộc rất nhiều vào độ dài của GOP. GOP càng dài tỷ lệ
nén càng lớn. Tuy nhiên, GOP dài sẽ ảnh hưởng tới quá trình tua video, dừng ảnh (freeze-frame),
sửa lỗi... Do đó tùy thuộc vào từng ứng dụng cụ thể (sản xuất video, dựng hình, truyền dẫn, phát
sóng v..v) cần lựa chọn độ dài GOP thích hợp. Ví dụ, trong kỹ thuật dựng hình, nhu cầu thiết yếu
là truy cập ngẫu nhiên tới bất cứ ảnh nào trong đoạn video, vì vậy trong GOP sẽ chỉ có các ảnh I,
tất nhiên khi đó tỷ lệ nén sẽ rất thấp.

3.3.6.2 Mã hóa tín hiệu MPEG


Sơ đồ khối của bộ mã hóa MPEG được trình bày trên hình 3.3.25. Tín hiệu video trước khi
đưa vào bộ nén được lấy mẫu theo chuẩn 4:2:2 hoặc 4:2:0. Các thành phần chói và màu được mã
hóa riêng biệt. Ảnh chói và màu được chia thành các block 8x8. Ba khối DCT, Lượng tử hóa và
Mã hóa entropy được sử dụng để nén trong ảnh. Các khối này có chức năng giống các khối tương
tự trong bộ mã hóa JPEG (hình 3.3.8). Khác biệt chính giữa JPEG và MPEG là giai đoạn nén liên
ảnh (nén trong miền thời gian) và kỹ thuật bù chuyển động. Quá trình nén trong miền thời gian
được thực hiện như sau: ảnh đầu tiên trong chuỗi ảnh động ký hiệu là F1 (Frame 1) được mã hóa
trong ảnh để tạo ra ảnh I. Trong sơ đồ khối, bộ Lượng tử hóa ngược và IDCT có chức năng giải
nén ảnh vừa được mã hóa tại coder. Ảnh nhận được là F 1 . Ảnh này được lưu vào bộ nhớ trong
khối ảnh so sánh. Ảnh tiếp theo (F2) không được nén trong hình như F1 mà được chuyển tới bộ
xác định vector chuyển động. Quá trình xấp xỉ chuyển động trong ảnh F2 được thực hiện dựa trên
ảnh tham khảo F 1 . Quá trình bù chuyển động sẽ tạo ra ảnh dự đoán dựa trên các vector chuyển
động vừa tìm được và ảnh F 1 , ảnh dự đoán sẽ được đưa tới bộ trừ tín hiệu để tìm ảnh sai số giữa
F2 và ảnh dự đoán. Ảnh sai số sau đó sẽ được mã hóa trong ảnh và đưa tới bộ trộn. Dữ liệu nhận
được sau khi nén ảnh F2 bao gồm các vector chuyển động và ảnh sai số sẽ được tổng hợp tại bộ
trộn.

Hình 3.3.25 Bộ mã hóa MPEG tiêu biểu


Tốc độ bit của tín hiệu video nén không cố định mà phụ thuộc vào nội dung của ảnh. Khi
truyền tín hiệu hình ảnh qua kênh truyền, tốc độ luồng bít phải được hạn chế trong phạm vi cố

   196 
Chương 3 Kỹ thuật xử lý hình ảnh 

định. Vì thế, ở đầu ra bộ mã hóa có bộ nhớ đệm. Luồng dữ liệu ở đầu ra bộ trộn được ghi vào bộ
nhớ đệm, khi bộ nhớ đệm gần đầy, tín hiệu điều khiển sẽ được đưa tới khối Lượng tử hóa để điều
chỉnh các hệ số trong bảng lượng tử theo chiều hướng tăng lên. Như vậy hệ số nén sẽ tăng, tốc độ
luồng video nén sẽ giảm xuống. Một cơ chế điều khiển tốc độ luồng video khác dựa trên nguyên
tắc thay đổi cấu trúc GOB cũng có thể được sử dụng. Trong trường hợp này, tín hiệu điều khiển từ
bộ nhớ đệm phải được đưa tới khối xác định vector chuyển động.

3.3.6.3 Giải mã tín hiệu MPEG

Hình 3.3.26 Bộ giải mã MPEG


Quá trình giải nén được thực hiện tại bộ giải mã MPEG (hình 3.3.26) theo quy trình sau.
Ảnh nén trước hết được giải mã entropy tại khối VLD (Variable-Length Decoder). Nếu ảnh đưa
tới bộ giải nén là ảnh I, tập hệ số DCT của từng block ảnh sẽ được đưa tới bộ Giải lượng tử sau đó
biến đổi ngược IDCT để khôi phục lại ảnh gốc. Ảnh kết quả được lưu lại trong bộ Tái lập trật tự
ảnh và bộ Lưu trữ ảnh tham khảo. Khi ảnh đưa vào giải mã là ảnh P hoặc B, bộ giải mã ước đoán
sẽ tách ra từ luồng dữ liệu các hệ số DCT của ảnh sai số và các vector chuyển động. Tập hệ số
DCT sẽ được đưa tới IDCT để khôi phục ảnh sai số. Các vector chuyển động được bộ bù chuyển
động sử dụng để khôi phục ảnh dự đoán từ ảnh tham khảo. Ảnh dự đoán và ảnh sai số sẽ được
tổng hợp lại tại bộ cộng để cho ra ảnh giải nén. Sau cùng, chuỗi ảnh giải nén phải được đảo vị trí
cho đúng với trình tự như trong video gốc.
3.3.6.4 Các thành phần cơ bản trong ảnh nén MPEG
Cấu trúc luồng video nén theo chuẩn MPEG gồm 6 lớp (hình 3.3.27): lớp chuỗi ảnh
(sequence), lớp nhóm ảnh (GOP), lớp ảnh (picture), lớp cắt lát dòng bit (slice), lớp macroblock,
lớp khối (Block):
1. Khối: là block 8x8 điểm ảnh của tín hiệu chói hoặc tín hiệu màu .

2. Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước
16x16. Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo chuẩn
lấy mẫu 4:2:0).
3. Mảng (Slice): là một chuỗi macroblock kề nhau. Kích thước lớn nhất của mảng có thể
bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock. Slice header chứa
đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định ma trận lượng tử
trong quá trình giải mã slice.
4. Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B. Picture header chứa thông tin về: thứ
tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder), loại ảnh, kích
thước vùng tìm kiếm vector chuyển động.

5. Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B. Như đã đề cập ở phần
trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N. Mỗi một nhóm ảnh bắt đầu bằng
một khung I. GOP header chứa mã xác định thời gian của ảnh đầu tiên trong nhóm.

   197 
Chương 3 Kỹ thuật xử lý hình ảnh 

6. Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là
một hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence". Sequence header chứa đựng các
thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần số ảnh và
kích thước bộ nhớ đệm.

Hình 3.3.27 Cấu trúc luồng video nén theo chuẩn MPEG-1
3.3.6.5 Tiêu chuẩn nén MPEG-2
MPEG-2 là dự án giai đoạn 2 của ủy ban ISO/IEC MPEG. MPEG-2 là chuẩn nén được phát
triển từ MPEG-1, cho phép nén video với tốc độ bit cao hơn 4 Mbps. MPEG-2 hỗ trợ mã hóa
video số chất lượng cao, dùng trong các ứng dụng như lưu trữ video và audio số (trên đĩa quang
DVD), truyền hình số mặt đất DTTB (digital terrestrial television broadcast), truyền hình số vệ
tinh, truyền hình cáp, HDTV (truyền hình có độ phân giải cao) v.v
MPEG-2 là giải pháp mã hóa tín hiệu có tính co dãn (scalability) và tính tương hợp
(compatibility). Phương pháp mã hóa có tính "co dãn" (Scalable Coding) trong MPEG-2 dựa trên
nguyên tắc nén tín hiệu video ở mức cơ bản và một số mức nâng cao. Khi mức cơ bản được giải
mã, chúng ta sẽ nhận được hình ảnh có chất lượng trung bình. Nếu thực hiện giải mã thêm các
mức nâng cao, chất lượng hình ảnh sẽ được cải thiện. Với kỹ thuật scalable coding, tín hiệu
MPEG-2 có thể được giải mã trên decoder MPEG-1, ngược lại, tín hiệu MPEG-1 cũng có thể
được giải mã trên decoder MPEG-2. Như vậy, MPEG-1 và MPEG-2 là hai chuẩn nén có tính
tương hợp.

MPEG-2 hỗ trợ 3 dạng scalable coding dựa trên nguyên tắc phân cấp chất lượng theo tỷ lệ
SNR, theo độ phân giải trong không gian (spartial scalability) và thời gian (temporal scalability).
Trường hợp phân cấp theo SNR, tại mức cơ bản, các hệ số DCT được mã hóa với mức lượng tử
thô, do đó lượng dữ liệu nén sẽ có tốc độ thấp. Ở mức nâng cao, tín hiệu được truyền đi là hiệu
giữa các hệ số DCT chưa được lượng tử và các hệ số DCT tại mức cơ bản. Như vậy, bộ giải mã
có thể sử dụng một hoặc cả hai luồng dữ liệu để khôi phục hình ảnh có hai mức chất lượng cơ bản
hoặc nâng cao. Với tín hiệu được phân cấp chất lượng theo độ phân giải trong không gian,
decoder có thể tạo ra hình ảnh với các độ phân giải từ thấp đến cao. Tại mức cơ bản, tín hiệu được
đưa vào mã hóa được lấy mẫu với tốc độ thấp. Tại mức nâng cao, người ta mã hóa và truyền đi

   198 
Chương 3 Kỹ thuật xử lý hình ảnh 

ảnh sai số giữa ảnh có độ phân giải thấp và ảnh có độ phân giải cao (được lấy mẫu với tốc độ cao
hơn). Như vậy, nếu giải mã cả hai luồng dữ liệu chúng ta sẽ nhận được ảnh có độ phân giải cao.
Nếu chỉ sự dụng luồng dữ liệu cơ bản, có tốc độ chậm (phù hợp với các đường truyền tốc độ thấp)
ảnh khôi phục sẽ có độ phân giải thấp hơn. Cuối cùng, MPEG-2 cho phép mã hóa phân cấp theo
thời gian: tín hiệu giải nén có thể có các tần số ảnh khác nhau. Tại mức cơ bản, tín hiệu video đưa
vào mã hóa có tần số ảnh thấp. Tại mức nâng cao, thông tin về các vector chuyển động sẽ được
truyền sang phía thu, decoder (dựa trên các ảnh được truyền trong mức cơ bản ) thực hiện quá
trình nội suy ảnh, làm tăng tần số ảnh của tín hiệu giải nén.

Trên hình 3.3.28 là hai bảng dữ liệu cho thấy 6 profiles và 4 mức nén với các độ phân giải
khác nhau trong chuẩn nén MPEG-2.

Hình 3.3.28 Các profiles và levels trong chuẩn nén MPEG-2

Như vậy MPEG-2 cho phép mã hóa tín hiệu với 24 tiêu chuẩn chất lượng khác nhau. Tốc
độ truyền của dòng dữ liệu MPEG-2 thay đổi tùy theo các tiêu chuẩn chất lượng được lựa chọn.

3.3.7 Tiêu chuẩn nén MPEG-4


MPEG-4 bắt đầu được nghiên cứu từ năm 1993 và hình thành chuẩn vào tháng 7 năm 1995.
MPEG-4 chính thức trở thành tiêu chuẩn quốc tế ISO/IEC vào năm 1999. Năm 2000 MPEG-4
được bổ xung và nâng cấp lên thành các version 3 và 4.
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế tiêu
chuẩn đưa ra với 3 dãy tốc độ bit

- dưới 64 kbps

- 64 đến 384 kbps


- 384 Kbps đến 4 Mbps
Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép sửa sai tại phía thu, vì vậy chuẩn nén
này đặc biệt thích hợp đối với môi trường dễ xảy ra lỗi như truyền dữ liệu qua kênh wireless đến
các thiết bị cầm tay. Mặc dù tập trung vào những ứng dụng tốc độ bit thấp nhưng MPEG-4 cũng
cho phép nén video chất lượng cao và có thể được sử dụng trong hệ thống HDTV. Những profile
và level khác nhau trong MPEG-4 cho phép sử dụng tốc độ bit lên đến 1.2Gbps. MPEG-4 là

   199 
Chương 3 Kỹ thuật xử lý hình ảnh 

chuẩn quốc tế đầu tiên cho phép mã hoá các đối tượng (object) video. Kỹ thuật mã hoá đối tượng
làm tăng hiệu quả nén và tính linh động của MPEG-4.

Trong MPEG-4, các đối tượng của ảnh được tách rời và mã hoá riêng rẽ sau đó truyền tới
bộ giải mã. Việc tách rời các đối tượng video như vậy làm tăng tính mềm dẻo khi thực hiện mã
hoá thích nghi và đồng thời làm tăng hiệu quả nén tín hiệu. Các đối tượng khác nhau như video
object và audio object và được kết hợp tại bộ giải mã. Các loại object khác nhau sẽ được mã hóa
với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Trong MPEG-4, một số object có
thể được tạo ra một cách độc lập trên máy tính (ví dụ các nhân vật hoạt hình hay dòng phụ đề) và
trong một vài trường hợp một cảnh có thể phân tích riêng thành object nền (background) và
object cận cảnh.

Hình 3.3.29 cho thấy quá trình mã hóa và giải mã các đối tượng độc lập trong chuẩn nén
MPEG-4.

Hình 3.3.29 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4

Nhìn chung, không có kỹ thuật nén ảnh nào có thể gọi là tối ưu hoàn toàn. DCT và phép
lương tử dùng trong MPEG-1 và 2 chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có
mức chói thay đổi chậm nhưng sẽ không tối ưu với ảnh có nhiều chi tiết nhỏ. Ví dụ, khi một cảnh
quay có xen các dòng phụ đề (subtitle) thì một hệ thống mã hoá thông thường sẽ xem các chữ như
là các chi tiết nhỏ của ảnh. Khi mã hóa bằng MPEG-1 hay MPEG2, các chi tiết nhỏ sau biến đổi
DCT sẽ tạo ra các hệ số cao tần với biên độ lớn. Nếu nén ảnh trên với hệ số nén cao, các dòng chữ
sẽ bị biến dạng đến mức không thể đọc được. Do đó việc thêm phụ đề hoặc các thành phần đồ họa
(có độ nét cao) vào tín hiệu video ảnh hưởng rất lớn đến hiệu quả nén theo chuẩn MPEG. Tuy
nhiên có thể mã hóa dòng chữ một cách hiệu quả hơn khi truyền các ký tự bằng mã ASCII, vị trí,
font, kích thước, màu, thông tin về vị trí dòng chữ trong ảnh có thể được truyền đi với số bit
tương đối nhỏ. Nhưng để làm được điều này bộ giải mã phải có khả năng tạo ra các title từ những
thông tin được cung cấp. Quá trình giải mã trong MPEG-4 tương đối phức tạp, bộ giải mã phải có
nhiều cơ chế giải mã và khả năng thực hiện các hoạt động đa hợp. Trong MPEG-4 có thể truyền
nhiều luồng text hoặc các thông tin phụ khác và việc lựa chọn luồng cụ thể để thực hiện giải mã
có thể do người xem quyết định hoặc dựa trên các thông tin được truyền trong luồng bit.

Ba đặc tính rất quan trọng của MPEG-4 là:

1- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ giải mã.
2- Các object có thể là các cảnh tự nhiên có được từ camera hay các cảnh tạo ra trên máy
tính như text hay cảnh hoạt hình 2 hoặc 3-D.
3- Từ luồng bit MPEG-4, bộ giải mã có thể tách ra các thông tin khác nhau tùy theo lựa
chọn người xem chẳng hạn như ngôn ngữ thuyết minh hay thành phần video được lọc
bớt các thông tin không cần thiết (dành riêng cho trẻ em) v.v.

Việc mã hóa độc lập các object trong MPEG-4 sẽ cho hiệu suất nén cao hơn đồng thời cho

   200 
Chương 3 Kỹ thuật xử lý hình ảnh 

phép tương tác các object với nhau đặc biệt trong các chương trình giáo dục và các trò chơi. Khi
các object được truyền riêng rẽ, chúng ta có thể thay đổi tỷ lệ nén giữa các thành phần ảnh: chẳng
hạn như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm độ phân giải ảnh
nền trong trường hợp băng thông kênh truyền bị hạn chế hoặc thiếu tài nguyên ở bộ giải mã (bộ
nhớ, tốc độ tính).

Tuy nhiên MPEG-4 có một nhược điểm lớn là bộ giải mã MPEG-4 phức tạp hơn nhiều so
với bộ giải mã MPEG-2. Hiện nay tín hiệu nén MPEG-4 thường được xử lý (nén và giải nén) trên
PC sử dụng các phần mềm chuyên dụng, các bộ giải mã bằng phần cứng còn chưa phổ biến do giá
thành còn tương đối cao và chưa được chuẩn hoá triệt để.

3.3.7.1 Video trong MPEG-4


Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 chúng ta làm quen với cấu trúc của
một cảnh video theo định nghĩa trong chuẩn MPEG-4. Một cảnh tiêu biểu bao gồm ảnh nền
(background) và một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ vật, một hoặc
nhiều người, một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh được lấy mẫu theo thời gian
để tạo ra chuỗi ảnh dạng bitmap, sau đó từng ảnh sẽ được mã hoá. MPEG-4 mã hoá riêng từng đối
tượng tách ra được từ các ảnh bitmap. Nếu bỏ qua các chi tiết không quan trọng trong ảnh, cảnh
video sẽ bao gồm background và một số objects được xem là foreground. Ví dụ: trong studio,
người dự báo thời tiết đứng trước nền màu xanh nước biển hay xanh lá cây, hình ảnh thu từ
camera sẽ được xử lý để loại bỏ nền màu để tạo thành “key signal” hay alpha channel diễn tả
hình dạng của người cận cảnh. Thông tin về hình dạng người này sẽ được kết hợp với background
(ví dụ bản đồ bề mặt trái đất). Nơi có hình người cận cảnh thì cảnh nền được thay thế bằng ảnh
người đó còn những nơi khác ảnh nền không thay đổi. Trong MPEG-4, đối tượng video (video
object) được mô tả bởi hai phần tử là ảnh trong đối tượng gọi là “texture” và key signal hay alpha
channel được xem là hình dạng (shape) của đối tượng.

3.3.7.2 Cấp độ của video MPEG-4


Các object trong MPEG-4 được lấy mẫu theo thời gian. Hầu hết các object được lấy mẫu
trong khoảng thời gian không đổi và sau khi lấy mẫu, ảnh nhận được gọi là video object plane
(VOP). Như vậy mỗi object trong một cảnh được mô tả bởi một chuỗi các VOP ngoại trừ các
object tĩnh có thể mô tả bằng một VOP.
Dữ liệu được truyền đi bao gồm thông tin về hình dạng và texture của VOP. Shape có thể
đơn giản là hình chữ nhật hoặc được tạo từ các đường nét phức tạp. VOP cũng giống như các
frame trong MPEG-2, chúng có thể được mã hóa trong ảnh hoặc mã hoá liên ảnh sử dụng phương
pháp bù chuyển động.

Lớp trên của VOP là GOV (Group of video object planes). GOV tương tự như GOP (group
of pictures) trong MPEG-2. Các nhóm GOV được mã hoá độc lập, do đó nó cung cấp các điểm
truy xuất ngẫu nhiên trong luồng bit MPEG-4.
Trong lớp VOL (Video object layer) chúng ta có thể thay đổi tỷ lệ mã hóa chuỗi các VOP
hoặc GOV. Mức video object (VO) bao gồm các VOL dùng để dùng để mô tả đối tượng video.
Cuối cùng là Video session (VS) là mức cao nhất của cảnh MPEG-4 bao gồm tất cả đối tượng
video cả tự nhiên và tự tạo trong một cảnh.

3.3.7.3 Mã hóa đường nét (shape)


Có hai loại đường nét dùng để mô tả đối tượng video trong MPEG-4 là chữ nhật và tùy ý.

   201 
Chương 3 Kỹ thuật xử lý hình ảnh 

Dạng chữ nhật chỉ đơn thuần là kích thước vùng ảnh. Trong MPEG-2 kích thước vùng ảnh không
thay đổi, thông tin này được mã hóa trong phần header của luồng bit. Trong MPEG-4 có thể có
nhiều đối tượng video với kích thước khác nhau. Ví dụ: truyền hình ảnh trong ảnh (picture in
picture -PIP) khi ảnh full frame và các ảnh nhỏ được truyền đi cùng lúc.
Trong mặt phẳng ảnh, đường nét của đối tượng video xác định phạm vi hiển thị của đối
tượng đó. Đường nét dạng chữ nhật được gọi là mask, kích thước của mask tương đương với kích
thước ngang và dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask thường
được chọn là bội số của 16 pixel.

Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét nhị
phân là dạng đơn giản nhất, nó chỉ ra vùng hiển thị của đối tượng video.

3.3.7.4 Mã hóa texture


Thành phần texture của các đối tượng video có thể được mã hóa trong MPEG-4 theo
phương pháp giống như bù chuyển động trong MPEG-2. Có các loại VOP như sau: I-VOP, P-
VOP, B-VOP. Hầu hết các profile MPEG-4 đều sử dụng tiêu chuẩn 4:2:0 và YUV để mô tả
texture của đối tượng video.

3.3.7.5 Sprites
MPEG-4 có một loại đối tượng đặc biệt được dùng làm cảnh nền gọi là sprite. Sprite là đối
tượng video có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử dụng liên tục
trong một cảnh (tương tự như cảnh trên sân khấu diễn kịch). Sprite thường dùng để mã hoá các trò
chơi điện tử (video game). Thông thường một cảnh trong game bao gồm ảnh nền và một số đối
tượng nhân tạo di chuyển theo kịch bản của game và hành động của người chơi. MPEG-4 cho
phép truyền toàn bộ cảnh nền như sprite và ảnh nền tức thời được đọc ra từ sprite dựa trên các
thông tin cropping và wraping được truyền tới decoder. Như vậy, ảnh nền tức thời hiển thị trên
màn hình chỉ là một vùng nhỏ (bằng kích thước cửa sổ màn hình) trong cảnh nền (hình 3.3.30).
Trong video game, các thành phần của một sprite có thể được sử dụng nhiều lần vì thế lượng dữ
liệu cần truyền sẽ giảm đáng kể.

Hình 3.3.30 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị
của màn hình

Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ làm
tăng băng thông tức thời và quá trình khởi động decoder sẽ kéo dài. Vì vậy, trong MPEG-4 người
ta có thể truyền sprite theo từng phần. Phần ảnh nền cần thiết tại thời điểm tức thời sẽ được truyền
đi, tất cả các ảnh thu được sẽ ghi nhớ ở bộ giải mã như một phần của sprite. Theo phương pháp
khác, sprite có thể được mã hóa và truyền đi toàn bộ với độ phân giải thấp và thành phần tín hiệu
dùng để khôi phục ảnh có độ phân giải cao hơn sẽ được truyền sau.

Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG-2 và luôn

   202 
Chương 3 Kỹ thuật xử lý hình ảnh 

được mã Intra bởi vì bản chất của sprite là ảnh tĩnh.

3.3.7.6 Scalability
MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng. Trong
cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer), lpưos này cho chất
lượng ảnh thấp nhất có thể tái tạo từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement
layer). Chất lượng hình ảnh có thể được điều chỉnh bằng hai cách khác nhau. Nếu băng thông bị
giới hạn thì luồng bit truyền đi sẽ chỉ bao gồm lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường
bậc thấp. Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định
những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài
nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua.

Hình 3.3.31 Bộ mã hóa phân cấp chất lượng MPEG-4

Hình 3.3.31 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng với 2
mức cố định. Các VOP ngõ vào được biến đổi xuống (down-converted) tới độ phân giải thấp và
mã hóa để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ Multiplexer. Lớp cơ sở còn
được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào. Tín hiệu có
độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), ảnh sai biệt ở đầu
ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi luồng VOP sau khi mã
hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra và Inter trong khi lớp tăng
cường chỉ sử dụng mã hóa dự đoán.

Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia
thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn lại
được gửi đến một hoặc nhiều bộ mã hóa tăng cường.

Quá trình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng cơ
sở. Điều này làm cho quá trình mã hóa và giải mã trở nên linh động hơn nhưng cũng phức tạp
hơn. Chẳng hạn một bộ giải mã trong hệ thống chơi game không có đủ khả năng để giải mã tất cả
các đối tượng ở tốc độ cao nhất có thể nên nó chọn phương pháp giải mã cảnh nền với tốc độ thấp
và chấp nhận việc chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng
cận ảnh làm cho chuyển động của chúng mịn hơn.

3.3.8 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén
Trong bảng dưới đây tập hợp các ứng dụng của một số tiêu chuẩn nén.

Ứng dụng của các tiêu chuẩn nén.

   203 
Chương 3 Kỹ thuật xử lý hình ảnh 

Ứng dụng Tiêu chuẩn mã Độ phân Tốc độ bit cực


hóa giải cực đại đại

Videophone H.261 176x144 64 ÷128 Kbps


Hội nghị truyền hình H.261 352x288 0.384 ÷1.554 Mbps
Truyền hình cáp MPEG-2 720x576 4…9 Mbps
Truyền hình MPEG-2 720x576 < 50 Mbps
Studio / sản xuất MJPEG 720x576 < 50 Mbps
MPEG-2(@4:2:2)

HDTV / sản xuất MPEG-2 1920x1280 100 Mbps


HDTV / truyền dẫn MPEG-2 1920x1280 20 Mbps

Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp ứng
được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc đầu tư
thiết bị theo chuẩn MPEG cho tất cả các khâu trong lĩnh vực truyền hình là điều tất yếu. Nhưng
khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn nghiên cứu
và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế, chất lượng hình
ảnh phù hợp cho từng công đoạn là vấn đề cần thiết.
Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu. MPEG-2
MP@ML sử dụng các ảnh I, P, B và nén với hệ số nén rất cao, do đó với chuẩn này, người ta có
thể tiết kiệm tối đa dải thông của đường truyền, tăng số lượng chương trình.

Khi nén video trong máy ghi hình, vấn đề cần ưu tiên là giữ chất lượng tín hiệu tốt nhất để
phục vụ cho quá trình gia công xử lý trong studio sau này. Các phương pháp nén trong máy ghi
hình số được thực hiện tại chỗ để giảm vận tốc dòng số ghi lên băng hoặc đĩa quang. Về mặt chất
lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I (tương đương M-JPEG) sẽ
tạo ra nhiều thuận lợi cho quá trình dàn dựng. Như vậy, ta có thể thấy rằng chuẩn M-JPEG khá
tiện dụng cho việc xử lý, làm kỹ xảo trong studio với giá thành hệ thống phù hợp.

TÓM TẮT CHƯƠNG 3


Những vấn đề chính được đề cập tới trong chương 3 là:
1- Khái niệm cơ bản về xử lý tín hiệu hình ảnh: lĩnh vực ứng dụng, các giai đoạn xử lý ảnh,
giới thiệu chung về các thành phần cơ bản của hệ thống xử lý ảnh số. Cũng trong phần này, chúng
ta đã nhắc lại một số vấn đề về ánh sáng và màu sắc, đưa ra các thông số cụ thể để đánh giá khách
quan chất lượng ảnh đen trắng và ảnh màu. Trên cơ sở phân tích đặc điểm cảm nhận ánh sáng và
màu sắc của hệ thống thị giác, chúng ta đã xác định được các thông số chính của tín hiệu hình ảnh
tĩnh và ảnh động như: độ phân giải, khổ ảnh, số mức xám, tần số ảnh v.v.
Tín hiệu hình ảnh nhận được sau khi biến đổi quang điện thường có dạng tương tự, hoặc rời
rạc do đó cần biến đổi những tín hiệu này thành tín hiệu số trước khi đưa vào các hệ thống xử lý
tín hiệu số. Quá trình biến đổi analog-digital cho tín hiệu một chiều và hai chiều được phân tích
trong phần 3.1.5.6. Những vấn đề liên quan được giới thiệu trong phần này là: tần số và cấu trúc
lấy mẫu tín hiệu hình ảnh; Các tiêu chuẩn lấy mẫu ảnh số theo thành phần; Giới thiệu phương

   204 
Chương 3 Kỹ thuật xử lý hình ảnh 

pháp biểu diễn tín hiệu ảnh số và video số. Tín hiệu video trong hệ thống truyền hình quảng bá.
2- Phần tiếp của chương 3 giới thiệu một số công cụ toán học dùng để phân tích quá trình
xử lý ảnh số và video số trong không gian và trong miền tần số: đó là các phép tính thực hiện với
từng điểm ảnh, phép tính với ma trận các điểm ảnh, phép tính tổng chập dùng để mô tả quan hệ
vào ra của hệ thống xử lý ảnh số, các phép biến đổi không gian 1 và 2 chiều thông dụng trong lĩnh
vực xử lý ảnh như: biến đổi Fourier, biến đổi DCT. Biến đổi DCT rời rạc được sử dụng rất rộng
rãi trong các phương pháp nén ảnh tĩnh và ảnh động có tổn thất như JPEG, M-JPEG, MPEG1, 2,
4, 7 v.v.
3- Phần lớn chương ba (3.2) được dành để phân tích một số kỹ thuật xử lý ảnh từ mức thấp
đến mức cao: xử lý để nâng cao chất lượng hình ảnh (tăng tương phản, mức chói, cân bằng
histogram v.v), khôi phục ảnh bị làm méo hoặc bị ảnh hưởng của nhiễu, các kỹ thuật lọc nhiễu,
các phương pháp làm nổi và dự đoán đường biên, phân vùng ảnh. Hầu hết các kỹ thuật xử lý ảnh
số trong phần này đều được minh họa bằng hình ảnh, cho phép người đọc quan sát và đánh giá
quá trình biến đổi ảnh từ lúc đưa vào hệ thống cho đến khi có ảnh kết quả. Trong từng ví dụ minh
họa còn giới thiệu các hàm Matlab dùng để trợ giúp quá trình xử lý ảnh. Ngoài ra, các học viên có
thể thực hiện lập trình (trong Matlab hoặc sử dụng các ngôn ngữ lập trình khác như C++, Pascall
v.v) để kiểm chứng lại những vấn đề nêu trong tài liệu này.
Phần xử lý ảnh màu được trình bày sau khi phân tích các kỹ thuật xử lý ảnh đen-trắng. Quá
trình mô tả ảnh màu có thể được thực hiện trong các không gian màu khác nhau tùy theo mục đích
sử dụng: ảnh trong các hệ thống truyền hình màu thường được biểu diễn trong không gian RGB,
trong kỹ thuật in ấn - CMYK, trong lĩnh vực xử lý ảnh thì không gian màu HSI được sử dụng
nhiều hơn cả. Quá trình xử lý ảnh màu có thể được thực hiện với từng điểm màu: khi mỗi điểm
ảnh được biểu diễn như vector trong không gian màu được chọn, hoặc được thực hiện lần lượt với
từng ảnh màu đơn sắc. Các phương pháp xử lý ảnh màu cũng được phân loại thành phương pháp
biến đổi trong không gian và trong miền tần số. Trong phần này chúng ta nói đến các phương
pháp xử lý đã được áp dụng cho ảnh đen trắng (lọc không gian, hiệu chỉnh, xử lý histogram v.v)
cũng như một số kỹ thuật biến đổi chỉ áp dụng cho ảnh màu (kỹ thuật tạo màu giả, tách ảnh theo
các mức màu, phép biến đổi màu v.v).
4- Phần cuối cùng của chương ba (3.3) giới thiệu về các phương pháp nén ảnh tĩnh và ảnh
động. Trong phần này chỉ đề cập tới các phương pháp nén ảnh số tương đối thông dụng. Đó là các
kỹ thuật nén không tổn thất như kỹ thuật mã hóa Entropy, mã LZW, mã RLC, mã DPCM không
tổn thất v.v. và nén có tổn thất như DCPM, JPEG, MPEG v.v.
Đặc biệt, quá trình nén theo JPEG và MPEG được phân tích tương đối kỹ, vì đấy là các
phương pháp nén được sử dụng rộng rãi trong các hệ thống truyền thanh, truyền hình chất lượng
cao.
5- Phần cuối chương 3 tập hợp một số bài tập và câu hỏi. Việc thực hiện các bài tập này
giúp cho người đọc nắm vững hơn những kiến thức được trình bày trong toàn bộ chương "Kỹ
thuật xử lý ảnh".
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 3
Bài 1
Camera được trang bị bộ cảm biến CCD có kích thước 5,4x7,2mm, độ phân giải
2140x1560 điểm. Ống kính camera có tiêu cự 35mm. Ảnh được hội tụ lên CCD nằm
cách ống kính 0,5m. Tìm mật độ điểm ảnh (số điểm/mm) trên ảnh nhận được.

   205 
Chương 3 Kỹ thuật xử lý hình ảnh 

Bài 2
Tìm số lượng bits cần thiết để lượng tử hóa tín hiệu truyền hình số khi màn hình máy
thu trong hệ thống truyền hình số nói trên có độ chói thay đổi trong khoảng từ Lmin = 2
cd/m2 đến Lmax =150 cd/m2, nguồn sáng bên ngoài chiếu lên bề mặt màn hình có độ
chói 5 cd/m2. Giá trị ngưỡng tương phản σ = 0.03 .
Bài 3
Bề mặt có hệ số phản chiếu bằng 1, được chiếu sáng bởi nguồn sáng có mật độ phân bố
độ sáng như sau:
− ⎡( x − x0 ) +( y − y0 ) ⎤
2 2

i ( x, y ) = Ke ⎣ ⎦

với K=255.
Ảnh phản chiếu từ bề mặt nói trên được số hóa. Số bits dùng để lượng tử hóa là k. Xác
định k nhỏ nhất sao cho ảnh số nhận được có độ chói biến đổi liên tục trong mắt người
quan sát. Được biết mắt người chỉ phân biệt được hai vùng ảnh tách biệt, khi độ chói
giữa hai vùng đó chênh lệch trên 10%. Biểu diễn ảnh nhận được khi k=2.
Bài 4
Hệ thống truyền hình chất lượng cao với số dòng z=1080, khổ ảnh 16:9, tần số quét là
60 mành/giây (quét xen kẽ). Tín hiệu video được số hóa với độ phân giải giống nhau
theo chiều ngang và chiều dọc. Ảnh được lấy mẫu theo tiêu chuẩn 4:2:2. Mức lượng tử
là 256 cho thành phần chói và 128 cho hai thành phần màu. Tìm khối lượng thông tin
số nhận được sau khi số hóa chương trình truyền hình có thời gian là 2 giờ.
Bài 5
Cho ma trận điểm ảnh sau:
⎡2 2 1 3⎤
⎢8 1 3 4⎥
I =⎢ ⎥
⎢1 4 2 9⎥
⎢ ⎥
⎣3 1 7 5⎦

thực hiện phép nhân chập Y = I ⊗ H , khi: H = ⎡ 1 −1⎤


⎢ −1 1 ⎥
⎣ ⎦
Bài 6
Xét hai vùng ảnh S1 và S2 trên màn hình:

Cho V {1} , xác định xem S1 và S2 có phải là hai vùng liên kết 4,8 hay m không.

Bài 7
Cho V {0,1} , tìm khoảng cách D4, D8 nhỏ nhất giữa 2 điểm ảnh (p) và (q):

   206 
Chương 3 Kỹ thuật xử lý hình ảnh 

Tìm các khoảng cách trên cho trường hợp V {1, 2} .

Bài 8
Biểu diễn tập hàm biến đổi, cho phép tách các mặt phẳng bit từ ảnh đen trắng (với 256
mức xám).
Bài 9
Histogram của ảnh sẽ thay đổi thế nào khi bit nhỏ nhất (LSB) hoặc lớn nhất (MSB) của
các điểm ảnh được gán mức 0.
Bài 10
Ảnh gốc được xử lý bằng phương pháp tách mức chói có nền và không nền. Vẽ đặc
tuyến hàm biến đổi. Histogram của hai ảnh kết quả sẽ thay đổi thế nào so với ảnh gốc?
Bài 11
Ảnh số được cân bằng mức xám để có được ảnh kết quả. Chứng minh rằng khi cân
bằng mức xám cho ảnh kết quả đó một lần nữa, ảnh nhận được sẽ không thay đổi.
Bài 12
Cho hình ảnh có mật độ phân bố xác suất mức xám được biểu diễn bằng hàm:
( r − m )2
1 −
pr = e 2σ 2

2πσ
Tìm hàm biến đổi sk = T ( rk ) cho quá trình cân bằng mức xám ảnh nói trên.

Bài 13
Cho ảnh f ( x, y ) , g ( x, y ) và histogram h f , hg của chúng. Tìm historam của ảnh
được tạo ra sau các biến đổi sau:
a) f ( x, y ) + g ( x, y ) b) f ( x, y ) − g ( x, y )
,
c) f ( x, y ) ⋅ g ( x, y ) d) f ( x, y ) / g ( x, y )
,
Trong trường hợp nào các biến đổi trên có thể được thực hiện?
Bài 14
Trình bày nguyên lý biến đổi ảnh số bằng phương pháp tra bảng, ưu điểm của phương
pháp này.
Bài 16
Chứng minh toán tử thực hiện quá trình lọc trong không gian theo (3.2.30) là toàn tử
tuyến tính.
Bài 17
Chứng minh toán tử tìm median là toán tử phi tuyến
Bài 18

   207 
Chương 3 Kỹ thuật xử lý hình ảnh 

Trình bày giải thuật tìm giá trị trung vị cho ma trận nxn điểm ảnh.
Bài 19
Giải thích vì sao quá trình làm mờ ảnh có thể mô tả bằng tích chập ảnh gốc và đáp ứng
xung của hệ thống làm mờ, như trong công thức (3.2.36)?
Bài 20
Ảnh gốc được lọc nhiễu bằng kỹ thuật trung bình hóa trong không gian, sau đó dùng
mặt nạ Laplacian để tăng cường độ nét. Nếu thứ tự lọc được đổi ngược, ảnh kết quả sẽ
thay đổi thế nào?
Bài 21
Tại sao không thể khôi phục chính xác được ảnh gốc trong các hệ thống xử lý ảnh thực
tế?
Bài 22
Trong trường hợp nào bộ lọc ngược cho phép khôi phục tín hiệu với độ chính xác cao?
Bài 23
Tại sao bộ lọc Wiener ít nhạy cảm với nhiễu hơn so với bộ lọc ngược?
Bài 24
Chứng minh biến đổi Fourier thuận và nghịch là biến đổi tuyến tính.
Bài 25
Cho hàm đáp ứng xung của hệ thống là H ( x, y ) = A , A > 0 . Ảnh f ( x, y ) sẽ được
biến đổi thế nào khi đưa qua hệ thống nói trên?
Bài 26
Bộ lọc trong miền không gian được thực hiện với ma trận lọc sau:
⎡0 1 0 ⎤
1⎢
h= 1 0 1⎥
4⎢ ⎥
⎣⎢0 1 0 ⎦⎥
Tìm đáp ứng tần số của bộ lọc và chứng tỏ rằng đây là bộ lọc thông thấp.
Bài 27
Đạo hàm của tín hiệu rời rạc thường được tính theo công thức gần đúng sau:
∂f
= f ( x + 1, y ) − f ( x, y )
∂x
Tìm đáp ứng tần số H(u,v) của hệ thống thực hiện toán tử trên. Chứng minh đây là bộ
lọc thông cao.
Bài 28
Viết chương trình thực hiện toán tử la bàn cho một ảnh bất kỳ.
Bài 29
Cho hệ thống xử lý tín hiệu đặc trưng bởi hàm biến đổi sau:
− ⎡( x −α ) +( y − β ) ⎤
2 2

h ( x − α, y − β ) = e ⎣ ⎦

Tín hiệu đưa tới hệ thống có dạng: f ( x, y ) = δ ( x − a ) . Tìm đáp ứng của hệ thống

   208 
Chương 3 Kỹ thuật xử lý hình ảnh 

g ( x, y ) trong trường hợp không có tác động của nhiễu..


Bài 30
Ảnh số sau khi đi qua hệ thống xử lý bị biến đổi theo hàm truyền đạt sau:

H ( u, v ) = − 2πσ ( u 2 + v 2 ) e
(
−2π 2σ 2 u 2 + v 2 )

Tìm hàm biến đổi của bộ lọc Wiener trong trường hợp tỷ lệ năng lượng nhiễu chia cho
tín hiệu là hằng số.
Chứng minh nếu đáp ứng xung của hệ thống là h ( r ) = ⎡ r 2 − σ 2 / δ 4 ⎤ e − r ( )
2
/2σ 2
,
⎣ ⎦
r 2 = x 2 + y 2 thì hàm truyền đạt của nó là H ( u, v ) .
Bài 31
Viết chương trình thực hiện biến đổi Hough cho ảnh nhị phân (gồm các điểm trắng trên
nền đen)
Bài 32
Xác định vị trí của màu xám trên tam giác màu đơn vị XYZ (hình 3.2.58).
Bài 33
Tìm các bước sóng trội và độ sạch màu của điểm màu "PINK" trên hình 3.2.58, lấy
màu trắng chuẩn là màu "COOL WHITE"
Bài 34
Cho ba màu c1 ( x1 , y1 ) , c2 ( x2 , y2 ) , c3 ( x3 , y3 ) nằm trong tam giác màu XYZ (hình
3.2.55). Ba màu trên tạo ra một tam giác màu con. Tìm công thức trộn màu để biểu
diễn các màu trong tam giác con thông qua tọa độ của ba màu c1 , c2 , c3 .
Bài 35
Trong không gian màu RBG, mỗi màu cơ bản được số hóa với 256 mức lượng tử (từ 0
đến 255). Cho biết có bao nhiêu mức xám thể hiện được trong không gian màu này?
Bài 36
Không gian màu RGB được mô tả dưới dạng khối lập phương (hình 3.2.56b).
1- Mô tả quá trình thay đổi độ chói của các điểm màu nằm dọc theo các
cạnh phía trước của khối màu.
2- Chúng ta đổi ba màu RGB thành CMY. Ảnh khối màu mới được hiển
thị lên màn hình RGB. Xác định các màu nằm ở đỉnh hình khối trên màn hình.
Bài 37
Xác định biểu thức cho phép tìm màu bổ xung trong không gian CMY
Bài 38
Mô tả hàm biến đổi cho phép làm giảm độ tương phản trong không gian màu RGB.
Bài 39
Ảnh màu có nhiễu được biểu diễn trong không gian màu HSI. Mô tả và giải thích hiện
tượng biến đổi màu dưới tác động của nhiễu trong các thành phần H và S.
Bài 40

   209 
Chương 3 Kỹ thuật xử lý hình ảnh 

Phân tích ưu và nhược điểm của phương pháp nén ảnh tổn hao và không tổn hao
Bài 41
Viết chương trình nén và giải nén theo phương pháp RLC
Bài 42
Viết thủ tục thực hiện biến đổi DCT thuận.
Bài 43
Viết thủ tục thực hiện biến đổi DCT nghịch.
Bài 44
Chuỗi điểm ảnh 8 bits có giá trị 10, 14, 25, 240, 195, 32 được đưa tới bộ mã hóa
DPCM. Thành phần sai số được lượng tử với 32 mức. Tìm tín hiệu nhận được sau khi
giải mã DPCM. Không thực hiện mã hóa entropy. Giá trị ban đầu trong bộ dự đoán
bằng 0. Tìm sai số RMS giữa chuỗi kết quả và chuỗi điểm ảnh gốc.
Bài 45
Thực hiện quá trình mã hóa hệ số DC theo phương pháp mô tả trong phần 3.3.5.4.4. giá
trị DC block hiện tại bằng 32, giá trị DC của block trước là 20.
Bài 46
Chuỗi các hệ số AC của khai triển DCT nhận được sau khi quét zig-zag bằng: 3,1,1,0,
0,1,0,0,0,0,2. Thực hiện quá trình mã hóa chuỗi hệ số AC theo phương pháp mô tả
trong phần 3.3.5.4.5. Sử dụng kết quả bài tập 51 để tạo ra chuỗi tín hiệu nén JPEG. Tìm
hệ số nén trong trường hợp này.
Bài 47
So sánh sự khác biệt giữa MPEG-2 và MPEG-1.
Bài 48
So sánh sự khác biệt giữa MPEG-4 và MPEG-2.

   210 
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

CHƯƠNG 4 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH


TRONG VIỄN THÔNG

4.1 CÁC ỨNG DỤNG CỦA XỬ LÝ ÂM THANH VÀ HÌNH ẢNH


4.1.1 Lưu trữ âm thanh và hình ảnh
4.1.1.1 Băng từ
Hiện nay, trong lĩnh vực lưu trữ dữ liệu, tương đối nhiều phương tiện lữu trữ trên các vật
liệu có từ tính đang được sử dụng. Ví dụ: trong hệ thống máy tính, đĩa mềm (Floppy disk) được sử
dụng tương đối phổ biến, ví dụ: đĩa mềm 5¼ -inch ghi được 1.2 MB, đĩa 3.5-inch HD (high
density) có dung lượng 1.44MB.
Trong các hệ thống truyền audio và video thường có nhu cầu lưu trữ dữ liệu với khối lượng
rất lớn kể cả sau khi tín hiệu đã được nén. Thật vậy, để lưu trữ 1 phút tín hiệu truyền hình số
HDTV 1920x1080/P/50 cần bộ nhớ ~15.5GB. Luồng âm thanh số thường có tốc độ nhỏ hơn rất
nhiều so với luồng video số, do đó, sau đây chúng ta chủ yếu đề cập tới khả lưu trữ tín hiệu video
số (tích hợp âm thanh) của các thiết bị lưu trữ.
Trước đây, khi chưa có các thiết bị cho phép ghi và lưu trữ hình ảnh động thời gian thực, hệ
thống truyền hình luôn truyền trực tiếp tín hiệu nhận được từ camera. Từ năm 1956, sau khi hãng
Ampex đưa ra các thiết bị ghi hình trên băng từ theo chuẩn Quadruplex, các chương trình truyền
hình có thể được thực hiện từ nguồn video được lưu trên băng. Băng từ đầu tiên của Ampex có bề
rộng 2 inch, lưu trữ trong cuộn mở. Tín hiệu video tương tự được ghi trên các đường từ nằm theo
chiều ngang của băng. Tốc độ dịch chuyển của băng là 381 mm/s (NTSC). Cuộn băng dài 1500m
cho phép lưu trữ gần 1 giờ video chuẩn NTSC. Loại băng từ Quadruplex có nhiều nhược điểm
như kích thước lớn kéo theo kích thước của các thiết bị ghi và phát hình cũng lớn, giá thành cao
v.v. Vì vậy, nhiều hãng đã nghiên cứu và đưa ra các chuẩn ghi hình mới, cho phép sử dụng nhiều
loại băng từ bề rộng hẹp (1, 3/4 và 1/2 inch), đơn giản hóa hệ thống kéo băng, giảm tốc độ dịch
chuyển của băng v.v. Sau này, băng từ được bảo quản trong các hộp kín (cassette).
Năm 1976, hãng JVC công bố chuẩn ghi hình VHS (Video Home System) cho phép ghi
hình với chất lượng tương đối cao trên băng từ 1/2 inch. VHS cassette có kích thước nhỏ gọn
(187mm x 103mm x 25mm), chiều dài băng trong 1 cassette tiêu chuẩn ~430m. Tốc độ di chuyển
băng khi ghi hình theo chuẩn NTSC là 3,335cm/s. Thời gian ghi hình tối đa với chất lượng SP
(Standard Play) trên một băng hình là 3,5 giờ. Khác với chuẩn Quadruplex, trong VHS tín hiệu
video tương tự được ghi trên các đường chéo so với chiều chuyển động của bằng từ (hình 4.1.3).
VHS cho phép lưu trữ video trên băng từ với bề rộng phổ ~3Mhz, tương đương với 250 dòng trên
ảnh (TVLines). Tín hiệu video được điều chế FM trước khi ghi lên băng.
JVC sản xuất băng hình VHS-C (Compact) có kích thước cassette nhỏ (95x60x25mm) để
sử dụng trong các máy quay video cầm tay. Thời gian ghi hình tối đa của băng VHS-C là 2 tiếng.
Năm 1985, xuất hiện chuẩn HiFi VCR (Video Cassette Recoder) cho phép ghi song song tín
hiệu hình ảnh và tín hiệu âm thanh stereo chất lượng cao (20-20000Hz, SNR>70dB). Tín hiệu âm
thanh được điều chế FM, dải tần sử dụng để ghi âm thanh lên băng từ thấp hơn dải tần dùng cho
tín hiệu video, do đó khi ghi lên băng, tín hiệu mang âm thanh sẽ tác động vào lớp từ sâu hơn so
với tín hiệu video. Tín hiệu video ghi sau đó sẽ được ghi đè lên tín hiệu âm thanh trên bề mặt của
băng từ, nhưng nó không xóa hết được thành phần âm thanh nằm sâu trong băng. Khi phát, tín
hiệu âm thanh FM được đọc ra và khôi phục lại với chất lượng cao.

   211 
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

Năm 1987, JVC đưa ra chuẩn Super VHS cho phép ghi và phát tín hiệu video có bề rộng
phổ lên tới 5MHz tương đương 420 TVL (để so sánh video ghi trên đĩa quang DVD có ~500
dòng). Tín hiệu video màu tương tự trong SVHS được xử lý tương tự như tín hiệu màu trong hệ
NTSC: thành phần màu được hạn chế phổ tới mức 0.4 MHz, và ghép với tín hiệu chói bằng
phương pháp điều chế QAM.
Cạnh tranh với VHS của JVC là chuẩn Betamax (1984) của Sony. Cũng ghi trên băng từ 1/2
inch, tín hiệu Betamax có các thông số gần giống VHS: tốc độ băng 4cm/s, 250TVL. Kích thước
băng Betamax nhỏ hơn VHS: 156x96x25mm. Thời gian ghi tối đa 4 giờ. Vì nhiều lý do, chuẩn
Betamax không cạnh tranh được với VHS. Tới năm 1986, Sony Betamax chỉ chiếm 7.5% thị phần
trên thị trường VCR, do đó Sony đã cải tiến Betamax để sử dụng trong các máy ghi hình gia đình
(Camcoders), và đổi tên thành Video-8. Ưu điểm của Video-8 là casette nhỏ gọn (93x60x14mm);
trên băng từ 8mm, theo chuẩn Video-8 có thể ghi được 4 tiếng video chất lượng VHS. Để so sánh,
băng VHS-C (Compact) của JVC dùng cho camcoders chỉ cho phép ghi 2 tiếng video. Tuy nhiên,
nhược điểm của Video-8 là kích cỡ băng không tương thích với các đầu VCR thông dụng (sử
dụng băng từ 1/2 inch).
Trong lĩnh vực lưu trữ hình ảnh chuyên nghiệp, chuẩn Betacam của Sony (ghi video tương
tự) được sử dụng rất phổ biến. Theo chuẩn Betacam, tín hiệu video thành phần được ghi băng từ
1/2 inch. Thành phần chói Y và hai thành phần màu được ghi trên các đường ghi khác nhau. Chất
lượng video vì vậy được cải thiện rất nhiều, hiện tượng nhiễu xuyên kênh màu - chói được loại trừ
hoàn toàn. Tín hiệu Y cho phép hiển thị tối đa 500TVL. Chuẩn Betacam SP (Superior
Performance) được sử dụng rất rộng rãi trong studio. Băng Betacam cho phép lưu trữ từ 30-90
phút video chất lượng cao (625/50). Cassette Betacam có hai loại là Small Size (156x96x25mm)
hoặc Large Size (254x145x25mm).
Các tiêu chuẩn ghi hình nói trên cho phép ghi trực tiếp lên băng tín hiệu video tương tự.
Việc lưu trữ tín hiệu dưới dạng analog có nhiều nhược điểm: chất lượng tín hiệu sẽ giảm dần theo
thời gian, tỷ lệ SNR cũng giảm dần sau mỗi lần sao chép, không thể thực hiện truy xuất nhanh tới
vị trí bất kỳ trên đoạn video v.v. Để khắc phục các nhược điểm nói trên, dữ liệu âm thanh và hình
ảnh được chuyển sang lưu trữ dưới dạng số. Tuy nhiên, cần lưu ý rằng, sau khi số hóa, chất lượng
tín hiệu số sẽ không còn tốt như tín hiệu gốc (hiệu quả của quá trình lượng tử hóa), hơn thế nữa,
dung lượng tín hiệu số thường lớn hơn nhiều lần so với dung lượng tín hiệu analog. Vì vậy, trong
các hệ thống truyền dẫn và lưu trữ âm thanh, hình ảnh, vai trò của bộ nén tín hiệu là rất lớn. Như
chúng ta đã biết, các chuẩn nén âm thanh và video được sử dụng rộng rãi trong hệ thống truyền
hình quảng bá là MPEG1, 2, 4. Tùy theo nhu cầu sử dụng tín hiệu tại từng công đoạn trong quá
trình sản xuất và truyền hình, người ta sẽ lựa chọn phương pháp nén phù hợp. Ví dụ, trong studio,
khi cần có tín hiệu gốc chất lượng cao nhất và khả năng truy cập ngẫu nhiên để thực hiện dàn
dựng chương trình, video sẽ được nén và lưu trữ theo chuẩn MPEG-2 chỉ với các frame I; khi ghi
video thành phẩm lên đĩa DVD, người ta chọn phương pháp nén MPEG-2 với các ảnh IPB, chọn
chiều dài GOP tương đối lớn để nâng cao hiệu quả nén v.v.
Giai đoạn phát triển tiếp theo của hệ thống lưu trữ dữ liệu âm thanh và hình ảnh là lưu trữ
dữ liệu số trên băng từ. Các chuẩn video số cho thiết bị dân dụng xuất hiện từ những năm 90.
Chuẩn video số DV được giới thiệu năm 1996. Cassette dùng để lưu trữ DV có 2 loại L-size
(120x90x12mm) và M-size (65x48x12) còn được gọi là MiniDV. Băng từ dùng trong chuẩn DV
có bề rộng 1/4 inch (6,35mm). Với tốc độ ghi/đọc chuẩn (SP) băng MiniDV cho phép lưu trữ

   212 
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

~13GB dữ liệu số tương đương với 60 phút video chất lượng cao (720x480).
Chuẩn DV sử dụng phương pháp nén ảnh theo MPEG-2 với các ảnh I (tương đương với
chuẩn MJPEG). Chuẩn lấy mẫu tín hiệu hình ảnh trong DV là 4:1:1 hoặc 4:2:0. Tín hiệu hình ảnh
được nén với tốc độ không đổi là 25.146 Mbps, âm thanh được mã hóa 2 kênh, 16 bits, tần số lấy
mẫu 48 KHz hoặc 4 kênh, 12 bits, tần số lấy mẫu 32KHz, tạo ra luồng số 1.536 Mbps.
Năm 1998, hãng JVC giới thiệu chuẩn D-VHS (Digital VHS). Tiêu chuẩn nén video sử
dụng trong D-VHS là MPEG-2. D-VHS cho phép ghi video với chất lượng khác nhau (tương
đương với thời lượng khác nhau): HS (Hi Speed), STD (Standard Speed) và LS (Low Speed). D-
VHS cho phép ghi chậm hơn STD 3 và 5 lần, hai chế độ ghi này ký hiệu là LS3 và LS5. Độ phân
giải của tín hiệu video ghi với STD là 720x480, dòng bits có tốc độ 14.1 Mbps. Máy ghi hình D-
VHS (ví dụ JVC HM-DR 10000) cho phép ghi và phát tín hiệu D-VHS lên băng hình tiêu chuẩn
SVHS. Trong bảng 4.1 là các thông số của băng ghi hình theo chuẩn D-VHS.
Bảng 4.1 Các loại băng từ ghi dữ liệu số theo chuẩn D-VHS

Chuẩn Digital-8 được Sony sử dụng trong các camcoder của hãng có các thông số tương tự
như DV và D-VHS. Băng từ được sử dụng trong Digital-8 có bề rộng truyền thống là 8mm. Thời
gian ghi hình tối đa trên 1 cassette ở chế độ standard là 130 phút. Băng cassette Digital-8 có kích
thước (95x62x15 mm).
Trong lĩnh vực ghi hình chuyên nghiệp, chuẩn DVCPRO25 và DVCPRO50 do hãng
Panasonic nghiên cứu và đề xướng cho phép ghi dữ liệu video nén với tốc độ 25 hoặc 50 Mbps.
Tiêu chuẩn lấy mẫu trong DVCPRO 25 là 4:1:1 và DVCPRO 50 là 4:2:2. Chuẩn DVCPRO HD
hay DVCPRO 100 được sử dụng để ghi các tín hiệu truyền hình chất lượng cao HDTV: tín hiệu
hình ảnh số ghi theo chuẩn này có độ phân giải lên tới 1440x1080 điểm ảnh, 50 mành/giây, quét
hình theo phương pháp xen kẽ. Video được lấy mẫu với tần số 74.25MHz cho tín hiệu chói và nén
theo tiêu chuẩn MPEG-2 với các ảnh I. Sau khi nén, tốc độ dòng bits sẽ xấp xỉ 100 Mbps. Thành
phần âm thanh được ghi với 8 kênh, 16 bits với tần số lấy mẫu 48KHz. Dải tần tín hiệu âm thanh
20-20000Hz.
Băng từ dùng để ghi dữ liệu theo chuẩn DVCPRO có hai cỡ: nhỏ (65x48x12mm) và lớn
(120x90x12) với chiều dài băng khác nhau, cho phép lưu trữ từ 12 phút đến 253 phút video số với
tốc độ 25Mbps.
Chuẩn HDCAM của Sony được đưa ra vào năm 1997, đây là định dạng ghi tín hiệu HDTV
với độ phân giải 1440x1080 điểm ảnh, 24 hình/giây, tốc độ luồng bits lên tới 144 Mbps.
Năm 2003 HDCAM được nâng cấp lên thành chuẩn HDCAM-SR. Tín hiệu video được
lượng tử hóa với 10 bits/ mẫu theo phương pháp 4:2:2 hoặc 4:4:4. Tốc độ dòng video số
HDCAM-SR có thể lên tới 600 Mbps. Tín hiệu HDCAM-SR sẽ đáp ứng đầy đủ tiêu chuẩn High
Definition Serial Digital Interface (HD-SDI) (1920x1080). Trong chuẩn HDCAM-SR có thể sử

   213 
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

dụng phương pháp nén MPEG-2 hoặc MPEG-4 (Studio profile). Âm thanh trong chuẩn
HDCAM-SR bao gồm 12 kênh âm thanh được mã hóa với 48KHz/24bits.
Băng từ HDCAM-SR cho phép ghi từ 6 phút (BCT-6SR) đến 124 phút (BTC-124SRL)
video 4:4:4. Như vậy, với tốc độ luồng bits của tín hiệu HDCAM-SR là 600 Mbps, trên một cuốn
băng HDCAM-SR dài 693m, rộng 12.65 mm, có thể lưu trữ được ~560GB dữ liệu số. Kích thước
cassette HDCAM-SR tương tự như Betacam.
Hiện nay, các hãng truyền hình lớn đều sử dụng hệ thống lưu trữ dữ liệu audio và video số
có dung lượng rất lớn. Ví dụ, hãng truyền hình Anh Chanel 4 Television sở hữu hệ thống lưu trữ
Isilion có dung lượng 36TB, video được lưuu trữ dưới dạng MPEG-2 ( nén trong ảnh I với tốc độ
50Mbps). Chanel 4 có thể thực hiện tất cả các công đoạn truyền tin thẳng từ thư viện hình ảnh số
trong bộ lưu trữ theo thời gian thực. Hệ thống Isilion còn được kết nối với cơ sở dữ liệu Sony
Petasite. Hệ thống Sony Petasite ghi dữ liệu lên băng từ theo chuẩn LTO-3 (Linear Tape-Open -
LTO) (400GB/ băng dài 680m). Tổng dung lượng của hệ thống Sony Petasite lên tới 1 PB (Peta
Byte - 1015 Byte) - đây là hệ thống lưu trữ trên băng từ có dung lượng lớn nhất châu Âu hiện nay.
Băng từ chuyên dùng trong các hệ thống lưu trữ dung lượng lớn ra đời từ năm 1997. Có hai
loại băng được sử dụng: Accelis - 8mm và Ultrium- 1/2 inch. Băng Ultrium có các thông số giống
băng từ theo chuẩn Digital Linear Tape (DLT) của hãng Quantum được công bố từ năm 1989.
Kích thước hộp băng Ultrium là 102x105x21,5 mm. Tốc độ đọc dữ liệu từ băng Ultrium có thể
đạt 30-40 MBps, nhanh hơn nhiều loại ổ cứng trên thị trường hiện nay.
Tiêu chuẩn nén dữ liệu được dùng trong các băng LTO là Streaming Lossless Data
Compression (SLDC), đây là chuẩn nén dựa trên phương pháp mã LZW (đã phân tích trong phần
3.3.4.2 của tài liệu này). Hệ số nén dữ liệu theo chuẩn SLDC là ~2:1.
Một số thông số của băng được liệt kê trong bảng 4.2.
Bảng 4.2 Các thông số cơ bản của họ băng từ trong tiêu chuẩn LTO

Chuẩn DTF (Digital Tape Format) với băng từ 1/2 inch của hãng Sony cũng được sử dụng
tương đối rộng rãi trong các hệ thống lưu trữ dung lượng lớn. Khác với băng LTO, dữ liệu số
được ghi lên băng DTF trên các đường chéo so với chiều chuyển động của bằng từ. Tốc độ
ghi/đọc dữ liệu trên các băng DTF-2 có thể lên tới 24 MBps. Dung lượng một băng DTF cỡ lớn
(Large Size) là 200GB.
4.1.1.2 Đĩa quang
Lưu trữ dữ liệu tương tự cũng như số trên băng và đĩa từ có rất nhiều nhược điểm, có thể
liệt kê một số vấn đề chính như sau:
- Nhạy cảm với tác động cơ học

   214 
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

- Để có giữ được chất lượng tín hiệu ghi trên băng từ trong thời gian dài, băng từ phải được
bảo quản trong môi trường có nhiệt độ, độ ẩm luôn ở mức tối ưu. Ngay cả trong trường hợp này,
tuổi thọ của băng từ cũng không lớn: khoảng 25-30 năm. Như vậy, theo chu kỳ ~25 năm cần phải
sao chép lại toàn bộ cơ sở dữ liệu hình ảnh và âm thanh, điều này rất bất tiện và tốn kém.
- Thiết bị ghi và đọc băng từ thường công kềnh và đắt tiền (chủ yếu do hệ thống kéo băng
tương đối phức tạp.
- Tốc độ di chuyển của băng từ tương đối cao nên thời gian truy cập tới vị trí cần thiết
trong đoạn video lớn.
Những năm gần đây, dữ liệu mutimedia thường được lưu trữ trên đĩa quang. Quá trình ghi
và đọc được thực hiện bởi tia laser có các bước sóng khác nhau. Có khá nhiều loại đĩa quang khác
nhau, tuy nhiên chúng thường có đường kính 12cm, dầy ~1mm. Loại đĩa mini được dùng trong
camcoder có đường kính 8cm. Hệ thống lưu trữ dữ liệu trên đĩa quang cho phép khắc phục các
nhược điểm của băng từ đã nêu ở trên, do đó đĩa quang ngày càng được sủ dụng rộng rãi. Hiện có
khá nhiều tiêu chuẩn ghi dữ liệu trên nhiều loại đĩa có dung lượng khác nhau. Sau đây chúng ta sẽ
đề cập tới một số loại đĩa thông dụng nhất.
4.1.1.2.1 Compact disk (CD)
Đĩa quang CD làm từ nhựa tổng hợp, có độ dày ~1.2 mm nặng ~16 grams. Trên bề mặt đĩa
CD phủ một lớp nhôm hoặc vàng mỏng làm lớp phản chiếu. Phủ lên trên lớp phản chiếu là lớp
sơn bảo vệ. Mặt trên lớp bảo vệ có thể được dùng để in tên (Label) đĩa. Dữ liệu số (nhị phân) trên
CD được lưu dưới dạng chuỗi các điểm "lõm" pits trên bề mặt lớp phản chiếu. Khoảng cách giữa
các pits được gọi là "lands". Mỗi pits có kích thước ~500nm (rộng), 850nm -3500nm (dài), và
~100 nm (sâu). Chuỗi pits phân bố trên bề mặt đĩa theo đường spiral. Dữ liệu trên CD được đọc
bằng tia laser 780nm, hội tụ lên trên bề mặt phản chiếu của đĩa. Ánh sáng phản chiếu từ bề mặt
CD sẽ thay đổi khi tia laser chạy qua pits hay lands, như vậy sử dụng photodiode để thu nhận
chùm ánh sáng phản chiếu nói trên, ta sẽ "đọc ra" lại được chuỗi bít nhị phân ghi trên CD. Tốc độ
đọc/ghi dữ liệu trên CD lên tới 52X (1X = 150KB/s).
Dữ liệu được ghi trên CD từ tâm đĩa ra ngoài. Hai loại CD chuẩn có (1) - đường kính
120mm, đủ ghi 74-80 phút nhạc chất lượng cao, hoặc 650-700 MB dữ liệu và (2) - đường kính
80mm Mini CD, ghi được 21 phút nhạc hay 184 MB.
4.1.1.2.2 Digital Versatile Disc (DVD)
Trong thời gian gần đây, đĩa DVD được sử dụng rộng rãi trong lĩnh vực lưu trữ dữ liệu số.
Đĩa DVD có kích thước tương tự đĩa CD nhưng có dung lượng lưu trữ lớn gấp 6 lần. Đĩa DVD có
hai kích cỡ: DVD Standard size có đường kính 12cm, Mini DVD có đường kính 8cm. Mini DVD
được sử dụng cho các máy quay video số ghi trực tiếp lên đĩa.
Định dạng DVD cho phép ghi dữ liệu lên một mặt đĩa (SS- Single Sided) hoặc lên cả hai
mặt (DS- Double Sided), ngoài ra trên một mặt đĩa có thể ghi được một hoặc hai lớp dữ liệu (SL-
Single layer hoặc DL- Dual/Double layer). Kỹ thuật ghi hai lớp dữ liệu lên một mặt của đĩa được
mô tả trong hình 4.1.1. Giữa hai lớp ghi (Recording Layer 0 và Recording Layer 1) được ngăn
cách bởi lớp phản chiếu "gần trong suốt" (Semi-transparent REFLECTIVE Layer) và lớp nhựa
polycarbonate trong suốt.

   215 
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông

Hình 4.1.1 Cấu tạo đĩa quang ghi hai lớp


Semi-transparent REFLECTIVE Layer phản chiếu ~18% năng lượng tia laser. Khi đọc dữ
liệu từ lớp Recording Layer 1, một phần năng lượng tia laser bị phản chiếu lại ở lớp Semi-
transparent REFLECTIVE, một phần năng lượng bị hấp thụ bởi lớp nhựa ngăn cách hai recording
layers, do đó, lớp REFLECTIVE Layer (hình 4.1.1) được thiết kế có khả năng phản chiếu 50%
năng lượng tia laser. Trong trường hợp này, công suất tia phản chiếu từ cả hai lớp ghi sẽ như
nhau. Nhiều công trình nghiên cứu đang được thực hiện theo hướng nâng cao dung lượng đĩa
quang bằng cách tăng số lớp ghi trên một mặt đĩa. Theo tính toán, có thể chế tạo ra đĩa quang có
tới 1000 lớp. Khó khăn cần khắc phục là công suất tia phản xạ từ các lớp trong giảm đi rất nhanh,
ví dụ, chỉ c