Está en la página 1de 35

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

BỘ MÔN TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH

--------o@o--------

BÀI TẬP LỚN

MULTIMEDIA
ĐỀ TÀI 5:

Nén âm
thanh thoại theo chuẩn GSM
Gv hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan

Sinh viên thực hiện: Lưu Thanh Hải (*)

Trịnh Xuân Kiên

Bạch Quốc Cường

Phạm Hồng Quân

Bùi Anh Quang

Lê Hoàng Hải

Phạm Thanh Tùng

Lớp: Truyền thông mạng K51

Hà nội,13/5/2010

MỞ ĐẦU......................................................................................................................4
NỘI DUNG................................................................................................................... 5
I. TỔNG QUAN CÁC VẤN ĐỀ LIÊN QUAN...................................................................5
1.1. Multimedia là gì?...........................................................................................5
1.2. Âm thanh, tiếng nói và tính chất...................................................................5

1
1.3. Giới thiệu vể GSM..........................................................................................6
II. CÁC PHƯƠNG PHÁP CƠ SỞ MÃ HÓA ÂM THANH TIẾNG NÓI VÀ ỨNG DỤNG
TRONG TRUYỀN THÔNG...........................................................................................7
2.1. Các phương pháp cơ sở mã hóa âm thanh,tiếng nói.....................................7
2.1.1. Phương pháp mã hóa tiếng nói kiển Waveform.......................................8
2.1.1.1.PCM(Pulse code Molation)-G711........................................................9
2.1.1.2.DM(Delta Modulation)......................................................................10
2.1.1.3.DPCM(Difirential PCM)......................................................................10
2.1.1.4.ADPCM (Adaptive Difirential PCM)-G.726.........................................10
2.1.2.Phương pháp mã hóa tiếng nói kiểu vocoder.........................................11
2.1.3.Phương pháp mã hóa lai (Hybrid)...........................................................12
2.2. Ứng dụng các phương pháp cơ sở mã hóa âm thanh trong truyền thông.. .12
2.2.1 . Các yêu cầu đối với một bộ mã hóa âm thoại .....................................12
2.2.2. Các tham số liên quan đến chất lượng thoại.........................................13
2.2.3. Các phương pháp đánh giá chất lượng thoại cơ bản.............................13
2.2.3.1. Phương pháp đánh giá chủ quan (MOS)..........................................13
2.2.3.2. Các phương pháp đánh giá khách quan .........................................14
III.CÁC CHUẨN MÃ HÓA NÉN ÂM THANH GSM.......................................................14
3.1. Một số vấn đề liên quan..............................................................................14
3.1.1. Giới thiệu về CELP, RPE-LTP, ACELP, VSELP...........................................14
3.2. Các chuẩn mã hóa nén GSM........................................................................16
3.2.1 FR Codec................................................................................................16
3.2.1.1 Bộ mã hóa và giải mã toàn tỉ lệ (full rate hay RPE-LPC)...................16
3.2.1.2 Đánh giá bộ mã hóa giải mã toàn tỉ lệ.............................................19
3.2.2. GSM AMR codec (GSM 6.90)..................................................................19
3.2.2.1 GSM AMR Encoder và GSM AMR Decoder........................................19
3.2.2.2. AMR codec trong GSM.....................................................................21
3.2.2.3. Đánh giá chất lượng AMR codec.....................................................22
IV.ẢNH HƯỞNG CỦA NÉN ÂM THANH ĐẾN CHẤT LƯỢNG DỊCH VỤ VOIP...............22
4.1. VOIP là gì ?..................................................................................................22
4.2. Tổng quan về chất lượng dịch vụ VOIP........................................................22
4.3 Ảnh hưởng của nén âm thanh đến chất lượng dịch vụ VOIP.........................24
V. KHẢO SÁT VÀ PHÂN TÍCH CÁC ỨNG DỤNG CỦA CHUẨN GSM............................26

2
5.1. Dịch vụ thoại qua Internet...........................................................................26
5.1.1. Ưu thế của dịch vụ thoại qua Internet..................................................26
5.1.2 Các công nghệ cơ sở..............................................................................27
5.1.3 Đánh giá chất lượng dịch vụ ..................................................................29
5.1.3.1. Đánh giá theo chủ quan..................................................................29
5.1.3.2. Đánh giá theo khách quan..............................................................29
5.2.Chuẩn mã hóa audio mạng di động 3G dựa trên ARM-WB+.........................31
5.2.1. Giới thiệu về mạng di động 3G và ARM-WB+.......................................31
5.2.2. Yêu cầu dịch vụ đối với audio mạng di động.........................................32
5.2.3. Đánh giá về ứng dụng của ARM-WB ........................................................33
KẾT LUẬN.................................................................................................................. 34
TÀI LIỆU THAM KHẢO................................................................................................34

3
MỞ ĐẦU

Ngày nay, khi các phương tiện truyền thông phát triển và số lượng người sử dụng các
phương tiện liên lạc tăng lên thì mã hóa tiếng nói được nghiên cứu và ứng dụng rộng rãi trong
các cuộc gọi điện thoại truyền thống, gọi điện qua mạng di động, qua Internet hay qua vệ tinh,..
Mặc dù với sự phát triển của công nghệ truyền thông qua cáp quang đã làm cho băng thông
không còn là vấn đề lớn trong các cuộc gọi điện truyền thống. Tuy nhiên, băng thông trong các
cuộc gọi đường dài, các cuộc gọi quốc tế, các cuộc gọi qua vệ tinh hay các cuộc gọi di động thì
cần phải duy trì băng thông ở một mức nhất định. Chính vì thế việc mã hóa tiếng nói là rất cần
thiết , giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất
lượng cuộc gọi.
Xuất phát từ những yêu cầu ở trên, GSM ra đời với những ưu thế vượt trội đã chứng
minh được tính ưu việt của nó trong truyền thông di động. Không có gì là khó hiểu khi dịch vụ
về GSM được sử dụng bởi hơn 2 tỷ người trên 212 quốc gia và lãnh thổ trên thế giới. Là những
sinh viên học chuyên ngành truyền thông mạng, thật khó có thể bỏ qua công nghệ thú vị này
nhưng chưa có cơ hội đề tìm hiểu sâu hơn trước đó.Chính vì thế, khi học môn Multimedia chúng
em đã quyết định thực hiện đề tài :” Nén âm thanh thoại theo chuẩn GSM” nhằm có kiến thức
tổng quan cũng như đi sâu tìm hiểu các công nghệ nén của chuẩn GSM .
Để hoàn thành được đề tài này, chúng em có thực hiện phân chia công việc như sau:
1, Lưu Thanh Hải : I + 3.1.2 + 3.2.2
2, Phạm Thanh Tùng : 2.1
3, Bùi Anh Quang : 2.2
4, Trịnh Xuân Kiên : 3.1.1 + 3.2.1
5, Phạm Hồng Quân : IV
6, Lê Hoàng Hải : 5.1
7, Bạch Quốc Cường : 5.2.
Chúng em xin chân thành cảm ơn PGS. TS Nguyễn Thị Hoàng Lan đã giúp đỡ chúng em
hoàn thành bài tập lớn này.
Hà nội, 12/11/2010
Nhóm sinh viên

4
NỘI DUNG

I. TỔNG QUAN CÁC VẤN ĐỀ LIÊN QUAN


1.1. Multimedia là gì?
Multimedia là sự tích hợp của nhiều hình thức truyền thông. Có thể coi đó là kỹ thuật
mô phỏng và sử dụng nhiều dạng phương tiện chuyển hóa thông tin và các tác phẩm từ các kỹ
thuật đó.Các dữ liệu về đa phương tiện có thể là các dữ liệu về :

• Văn bản

• Hình ảnh

• Âm thanh

• Hình động,

• ..
Liên quan đến định nghĩa về multimedia , ta cần lưu ý các khía cạnh sau :
- Thông tin cần phải được số hóa, phù hợp với xu thế, giá thành rẻ.
-Phải dùng mạng máy tính để đảm bảo truyền bá hay truyền tải tốt.
- Sử dụng phần mềm tương tác, có phép người dùng tương tác theo ý muốn.
- Thiết kế giao diện người máy phù hợp.
Một số ví dụ về Multimedia :

 Chương trình video theo yêu cầu VOD.

 Trò chơi điện tử.

 Phim ảnh.

 ..

1.2. Âm thanh, tiếng nói và tính chất.


Tiếng nói là phương tiện chủ yếu mà con người sử dụng để liên lạc và giao tiếp hàng
ngày.Quá trình tạo tiếng nói là sự kết hợp phức tạp của nhiều bộ phận trong cơ thể người như
thanh quản, khoang miệng, khoang mũi, lưỡi, cơ hàm, môi,..Trong kĩ thuật mã hóa tiếng nói,
người ta chia tiếng nói thành hai dạng âm chính sau dựa trên sự dao động của các dây thanh âm:

5
+ Âm hữu thanh : được hình thành khi các dây thanh âm dao động đóng mở làm ngắt quãng luồn
không khí và sự nhắt quãng này được xem gần như là tuần hoàn tác động lên cơ quan phát âm.
Theo thực nghiệm chu kì tuần hoàn này khoảng từ 2 – 20ms. Do đó, với âm hữu thanh, tín hiệu
kích thích được mô hình hóa là các xung tuần hoàn.
+ Âm vô thanh : được tạo ra khi luồng không khí đi qua thanh môn tắc động lên cơ quan phát âm
không theo một quy luật nào cả (không tuần hoàn). Do đó với âm vô thanh, tín hiệu kích thích
được mô hình hóa tương tự như một nhiễu.
Dạng tín hiệu tiếng nói có một số tính chất hữu ích có thể khai thác được khi tiến hành
mã hóa tín hiệu. Tính chất thường dùng nhất là sự phân bố xác suất không đều của biên độ tiếng
nói, có sự tương quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu nói , sự tồn
tại của các thành phần âm kêu và âm không kêu của các tính hiệu tiếng nói.

1.3. Giới thiệu vể GSM.


Hệ thống thông tin di động toàn cầu (Global System for Mobile Communications; viết
tắt: GSM) là một công nghệ dùng cho mạng thông tin di động. Dịch vụ GSM được sử dụng bởi
hơn 2 tỷ người trên 212 quốc gia và vùng lãnh thổ. Các mạng thông tin di động GSM cho phép
có thể giao tiếp với nhau do đó những máy điện thoại di động GSM của các mạng GSM khác
nhau ở có thể sử dụng được nhiều nơi trên thế giới.
GSM là chuẩn phổ biến nhất cho điện thoại di động (ĐTDĐ) trên thế giới. Khả năng phú
sóng rộng khắp nơi của chuẩn GSM làm cho nó trở nên phổ biến trên thế giới, cho phép người sử
dụng có thể sử dụng ĐTDĐ của họ ở nhiều vùng trên thế giới. GSM khác với các chuẩn tiền thân
của nó về cả tín hiệu và tốc độ, chất lượng cuộc gọi. Nó được xem như là một hệ thống ĐTDĐ
thế hệ thứ hai (second generation, 2G). GSM là một chuẩn mở, hiện tại nó được phát triển bởi
3rd Generation Partnership Project (3GPP) Đứng về phía quan điểm khách hàng, lợi thế chính
của GSM là chất lượng cuộc gọi tốt hơn, giá thành thấp và dịch vụ tin nhắn. Thuận lợi đối với
nhà điều hành mạng là khả năng triển khai thiết bị từ nhiều người cung ứng. GSM cho phép nhà
điều hành mạng có thể sẵn sàng dịch vụ ở khắp nơi, vì thế người sử dụng có thể sử dụng điện
thoại của họ ở khắp nơi trên thế giới.
Một số đặc tính của GSM :

• Nói chuyện quốc tế

• Chất lượng cuộc gọi cao

• Tính bảo mật cao

• Giá thành rẻ

• Tiện lợi

• Nhiều dịch vụ mới : chờ cuộc gọi, chuyển tiếp cuộc gọi,..

• Tính tương thích cao.

6
II. CÁC PHƯƠNG PHÁP CƠ SỞ MÃ HÓA ÂM THANH TIẾNG
NÓI VÀ ỨNG DỤNG TRONG TRUYỀN THÔNG.
2.1. Các phương pháp cơ sở mã hóa âm thanh,tiếng nói.
Về cơ bản bộ mã hóa tiếng nói có 3 loại:

• Mã hóa dạng sóng (waveform).

• Mã hóa nguồn ( source).

• Mã hóa lai (hybrid) là sự kết hợp của waveform và source


Nguyên lý của mã hóa dạng sóng là tìm cách số hóa dạng sóng của tiếng nói theo cách
thích hợp.Tái phía phát,bộ mã hóa sẽ nhận các tín hiệu nói tương tự lien tục và chuyển thành tín
hiệu số trước khi truyền đi.Tại phái thu sẽ làm nhiệm vụ ngược lại để khôi phục tín hiệu tiếng
nói.Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục rất giống với dạng sóng
của tiếng nói gốc.Ưu điểm của loại mã hóa này là:độ phức tạp,giá thành thiết kế,độ trễ và công
suất tiêu thụ thấp.Bộ mã hóa dạng sóng đơn giản nhất là điều chế xung mã (PCM),điều chế
Delta(DM)…Tuy nhiên,nhược điểm của bộ mã dạng sóng là không tạo được tiếng nói chất lượng
cao,tốc độ dưới 16kbit/s.Bộ mã hóa nguồn khắc phụ được nhược điểm này.
Nguyên lý của mã hóa là mã hóa kiểu phát âm(vocoder),ví dụ như bộ mã hóa bằng dự
đoán tuyến tính (Linear Prediction Coding-PLC) . Các bộ mã hóa này có thể thực hiện được tại
tốc độ bit > 1kbps.Hạn chế chủ yếu của mã hóa kiểu phát âm PLC là việc mô phỏng nguồn kích
thích còn đơn giản nên tiếng nói tái tạo được là tiếng nói dạng tổng hợp,chất lượng không cao và
khó có thể nhận ra giọng người nói chuyện.
Vào năm 1982,Atal đã đề xuất một mô hình mới về kích thích,được gọi là kích thích đa
xung.Trong mô hình này,không cần biết trước xem đó là âm hữu thanh hay vô thanh.Sự kích
thích được mô hình hóa bởi 1 số xung có biên độ và vị trí được xác đinh bằng việc cực tiểu hóa
sai lệch,có tính đến trọng số thụ cảm,giữa tiếng nói gốc và tiếng nói tổng hợp.Việc đưa ra mô
hình này đã gây chú ý và đó là mô hình đầu tiên của một thế hệ mới của các bộ điều chế tiêng
nói phân tích bằng tổng hợp(Analisis-by-synthesis).Chúng có khả năng cho tiếng nói chất lượng
cao tại tốc độ quang 10kbps và có thể tới tận 4,8kbps.Tín hiệu kích thích sẽ được tối ưu hóa 1
cách kỹ lưỡng và người ta sử dụng kỳ thuật mã hóa dạng sóng để mã hóa tín hiệu kích thích này
một cách có hiệu quả.

7
Hình 1:Mô hình tổng quát của hệ điều chế tiếng nói theo phương pháp PLC
*Chỉ tiêu đánh giá thuật toán mã hóa:
-Hai mục tiêu quan trọng đặt ra là :Tối thiểu hóa tốc độ bit và tối ưu hóa chất lượng,hai
mục tiêu này thường có mâu thuẫn với nhau.Tốc độ bit được tính bằng bps.Chất lượng được
đánh giá ở việc được tái tạo lại dạng tương tự với một sai số cang nhỏ càng tốt.Việc lấy mẫu
không ảnh hưởng đến chất lượng.Còn lượng tử hóa thì có thể gây ra những sai số làm mất mát
thong tin so với tín hiệu ban đầu được gọi là nhiễu lượng tử.Tỷ số tín hiệu trên nhiễu (SNR)được
dung đánh giá chất lượng tiếng nói.Nếu tỉ số này thấp người nghe sẽ thu được tiếng nói không
tốt.
-Chất lượng chấp nhận được có SNR khoảng trên 30db.Theo tính toán việc them 1 bit
biểu diễn giá trị lượng tử sẽ làm tăng SNR lên khoảng 6db,tương tự sẽ giảm 1 bit làm SNR giảm
xuống 6db.
-Người ta thường dung một tiêu chuẩn gọi là MOS(Mean Opinion score) để so sánh chất
lượng điều chế tiếng nói ,với thang giá trị từ 1 đến 5,cho ta biết một thuật toán điều chế đạt được
chất lượng có gần với tiếng nói tự nhiên hay không.
2.1.1. Phương pháp mã hóa tiếng nói kiển Waveform
Kiểu mã hóa này cố gắng mã hóa dạng sóng của tiếng nói một cách có hiệu quả , dạng đơn giản
là điều chế xung mã PCM, ngoài ra còn có các thuật toán khác có thể làm giảm tốc độ bit hơn
nữa.Công nghệ mã hóa kiểu waveform thường cho tiếng nói chất lượng tốt với băng thông
16kbps trở lên.

8
Để tránh hiện tượng chồng phổ ,tiếng nói tương tự được lọc trước khi số hóa để loại trừ các
thành phân ftaanf số cao không mong muốn.Phổ tiếng nói có thể gồm cả những thành phần tấn
số tới 10khz,nhưng do hầu hết các việc truyền tải được thực hiện qua mạng điện thoại nên các
thành phần tần số cao cần được loại bỏ.Bởi vì mạng điện thoại được thiết kế để loại trừ các tần
số lớn hơn 3,4khz,vì thế tín hiệu tiếng nói cũng được lọc đi để loại bỏ thành phần cao tần cỡ 3
đến 4khz.Theo định luật lấy mẫu thì tần số lấy mẫu sẽ là 6 đến 8 khz.Nói chung là tần số cắt của
các bộ lọc không tuyệt đối chính xác nên thỉnh thoảng vẫn xảy ra hiện tượng chồng phổ,nhưng
hầy hết chúng có năng lượng rất thấp.Kết quả ta thu được cái gọi là “chất lượng
thoại”(Telephone quality hay toll quality),là một tiêu chuẩn so sánh về tiếng nói đạt chất lượng
có thể chấp nhận được.
Hệ thống như vậy gọi là PCM(Pulse code Modulation).Phổ biến hiện nay người ta chọn
tốc độ lấy mẫu là 8khz và số bit lượng tử n=8,tức là tốc độ truyền sẽ là 64 kbps.Các bit mã hóa
được truyền tuần tự trên đường truyền.

Hình 2:Sơ đồ lấy mẫu,lượng tử, mã hóa


2.1.1.1.PCM(Pulse code Molation)-G711
PCM đều (uniform PCM) :Đầu vào của bộ lượng tử là tín hiệu tương tự đã được đưa
qua bộ lấy mẫu.Với một bộ lượng tử dùng n bit từ mã,miền giá trị lượng tử được chia thành 2N
mức , mỗi từ mã N bit tương ứng với 1 giá trị.Khoảng cách giữa các mức gọi là bước lượng
tử(Step size).Bộ lượng tử quyết định xem với mỗi giá trị đầu ra là giá trị lớn nhất của miền giá
trị.Trong kiểu PCM đều ,các giá trị lượng tử cách đều nhau.Bước lượng tử phải được chọn sao
cho đủ nhỏ để có thể tối thiểu nhiễu lượng tử,nhưng lại có thể đủ lớn để miền giá trị của cả bộ
lượng tử có độ lớn thích hợp.Với một bộ lượng tử N bit có step size là S,thì miền giá trị là
R=2N*S.
Nếu N không đủ lớn thì việc cắt xén tín hiệu vượt qua miền giá trị sẽ xảy ra nhiều hơn
và đó là dĩ nhiên là một nguyên nhân khác của nhiễu lưỡng tử.
Phương pháp này có nhược điểm là SNR,tức là chất lượng không chỉ phụ thuộc vào
bước lượng tử mà còn phụ thuộc và cả biên độ của tín hiệu lấy mẫu.
Lượng tử hóa kiểu PCM đều :Cần N cỡ 11 bit trở lên để có thể đảm bảo chất lượng tiếng
nói.Điều này làm tốc độ bit lớn nên chúng ít được sử dụng trong thực tế.

9
Lượng tử hóa Logarithm(logarithm PCM) :Mục tiêu của phương pháp này là duy trì một
tỷ số SNR ít thay đổi trong toán phạm vi giá trị biên độ.Thay vì lượng tử hóa giá trị tương tự của
tín hiệu lấy mẫu,trước tiên ta tính toán hàm logarithm cảu từng giá trị rồi mới lượng tử hóa
chúng.SNR sẽ chỉ phụ thuộc vào bước lượng tử .Lượng tử logarithm là một quá trình nén , chúng
làm giảm miền giá trị đầu vào một cách đáng kể tùy thuộc vào dạng hàm logarithm được
dùng.Sau khi nén,một quá trình ngược lại là mũ hóa được sử dụng để tái tạo lại tín hiệu nguyên
thủy ban đầu.Toàn bộ chu trình được gọi là Companding(Compressing/expanding).
Hai tiêu chuẩn được dùng phổ biến hiện nay là luật(dùng ở bắc Mỹ) và luật A(dùng ở
Châu Âu).Chúng đều dùng 8 bit lượng tử lagarithm(như vậy trong thang lượng tử chia thành 16
sector và mỗi sector có 16 step,tổng cộng là 256 phần nhỏ).Chú ý là kích thước mỗi sector là nhỏ
dần về phía gốc 0,càng xa về 2 phía thì kích thước của mỗi sector càng nhỏ dần về phía gốc
0,càng xa về 2 phía thì kích thước càng lớn,thông thường chúng tăng gấp đôi kích thước giữa 2
sector kề nhau.Theo đó ta có thể thấy bit đầu tiên được gọi là bit đầu (sign bit).Trong mỗi
sector,các step có kích thước bằng nhau.Như vậy ta thấy bước lượng tử càng nhỏ với những đầu
vào càng nhỏ,và chúng lớn dần tương ứng với những đầu vào ở gần 2 phía cực của miền giá trị
lượng tử .
2.1.1.2.DM(Delta Modulation)
Là một trong những phương pháp điều chế vi sai,dựa trên tinh chất là tín hiệu tiếng
nói tại thời điểm có ít nhiều phụ thuộc vào tín hiệu ở các thời điểm trước đó,vì thế ta có thể dự
đoán tín hiệu tại thời điểm hiện tại,và chỉ cần lưu trữ giá trị khác biệt giữa giá trị thực và giá trị
dự đoán của tín hiệu,sự sai khác này,giúp tiết kiệm băng thông để đạt hiệu quả cao.
Ý tưởng của phương pháp điều chế Delta là chỉ truyền đi giá trị thay đồi tuyệt đối của
tín hiệu.Dựa vào sự khác nhau của tín hiệu tại thời điểm liền kề nhau mà ta tính được tín hiệu
phải truyền trên đường dây .Phương pháp này chỉ sử dụng 1 bit để mã hóa tín hiệu sai khác
đó,nghĩa là cho biết tín hiệu tại thời điểm t+1 là lớn hơn hay nhỏ hơn tín hiệu tại thời điểm t
2.1.1.3.DPCM(Difirential PCM)
Đây là phương pháp cũng dựa trên nguyên tắc chỉ truyền đi sự khác nhau của tín hiệu
tại hai thời điểm kề nhau là t và t+1.Khác với DM chỉ dùng 1 bit để giải mã,DPCM dùng N bit
để có thể biểu diễn giá trị sai khác này.Chất lượng điều chế khá tốt với lượng bit cần dùng ít hơn
nhiêu so với PCM.
2.1.1.4.ADPCM (Adaptive Difirential PCM)-G.726
Là phương pháp mở rộng của DPCM.Người ta vẫn dùng một số bit nhất định để mã
hóa sự sai khác giữa tín hiệu tại 2 thời điểm kề nhau,nhưng bước lượng tử có thể được điều chỉnh
tại các thời điểm khác nhau để tối ưu hóa việc điều chế.
Với mục tiêu làm giảm tốc độ bit hơn nữa mà chất lượng tín hiệu tương đương,người
ta sử dụng phương pháp thích nghi động giá trị của bước lượng tử trước những thay đổi của biên
dộ tín hiệu vào.Mục đích là duy trì miền giá trị lượng tử phù hợp với miền giá trị của tín hiệu
vào.Đây được gọi là phương pháp Adaptive PCM(APCM).Thích nghi bước lượng tử có thể áp
dụng cho cả kiểu lượng tử đều và không đều.Tiêu chuẩn thay đổi bước lượng tử dựa vào một số
thống kê về tín hiệu có liên quan đến biên độ của nó.Có nhiều bước toán để tính toán bước lượng
tử .Thong thường có 2 kiểu là feedforward APCM và feedback APCM.Trong cả 2 kiểu người ta
đều dựa trên những tính toán liên quan đến một khối (block) mẫu thu được trong một thời gian

10
ngắn,về năng lượng,sự biến đổi và những đo đạc khác.Ta còn gọi là block companding.Trong
kiểu feedback,việc tính toán bước lượng tử được thực hiện trên mỗi câu khi nó được đưa vào xử
lý (vẫn dung giá trị bước lượng tử trước đó),thì cho ra kết quả là một giá trị bước lượng tử mới
được dùng sử lý N mẫu tiếp theo.
Feedforward theo một cách tiếp cận khác,dùng chính ngay giá trị bước lượng tử được
tính toán ngay trên N mẫu để xử lý N mẫu đó.Như vậy qua trình xử lý phải cần tới môt bộ đệm
để chứa khối dữ liệu lấy mẫu.Trong khi kiểu feedback có ưu điểm là rất nhạy cảm với nhiễu
lượng tử vì nó có tính toán bước lượng tử và sử dụng ngay cho chính block mà từ đó nó thực
hiện phép tính .
2.1.2.Phương pháp mã hóa tiếng nói kiểu vocoder
Vocoder là kiểu điều mã hóa nói dựa trên các tham số mô phỏng bộ máy phát âm,khác
với mã hóa dạng sóng của tiếng nói tương tự ,gọi là mã hóa nguồn (vocoder).Nguyên lý dựa trên
việc cho rằng tuyến âm thanh thay đổi từ từ,trạng thái và cấu hình của chúng tại bất cứ thời điểm
nào có thể được mô phỏng một cách gần đúng bằng một tập nhỏ các tham số.Nhờ việc tuyến âm
có tốc độ thay đổi từ từ cho phép mỗi tập tham số có thể đại diện cho trạng thái của nó qua một
quãng thời gian 25 ms.Hầu hết các Vocoder biểu diễn đặc tính của nguồn kích thích và tuyến âm
chỉ bằng một tập tham số.Nó gồm khoảng 10 đến 15 hệ số của bộ lọc để định nghĩa các đặc tính
cộng hưởng của tuyến âm,1 tham số 2 giá trị đơn giản để chỉ ra nguồn phát âm là vô thanh hay
hữu thanh,1 tham số chỉ ra năng lượng kích thích và 1 tham số chỉ ra chu kì cơ bản (âm sắc,chỉ
có với hữu âm thanh).Trạng thái của tuyến âm được suy ra bằng cách phân tích dạng sóng tiếng
nói trong khoảng thời gian 10 đến 25ms và tính toán ra một tập mới cá tham số (một khung dữ
liệu) tại phần cuối của khoảng thời gian đó .Khung dữ liệu này được truyền đi và sau đó dùng để
điều khiển thời gian đó.Khung dữ liệu này được truyền đi và sau đó dùng để điều khiển việc tổng
hợp lại tiếng nói.Vocoder có khả năng chuyển giữa 2 kiểu nguồn kích thích là nguồn xung đối
âm hữu thanh và nhiễu trắng với âm vô thanh .Bên phía tổng hợp sẽ dùng 1 trong 2 nguồn này
cho đi qua bộ lọc gồm các hệ số của khung dữ liệu để tổng hợp tiếng nói.
Ngoài việc đạt được tốc độ bit thấp,Vocoder còn có ưu điểm là phân tích được các
tham số nguồn kích thích .Bit biểu thị âm sặc,âm lượng và voice /unvoice bản thân nó là các bit
trong khung dữ liệu , nên cá sự thay đổi của chúng có thể được sửa đổi trước hoặc trong khi tổng
hợp.Vì thế ta có thể biến một âm thanh hữu thanh thành một lời thì thầm khi thiết đặt lại giá trị
của bit voice/unvoice.Cũng có thể thay đổi bản thân câu nói bằng cách sửa đổi các tham số cộng
hưởng.
Nhược điểm của phương pháp này là cho tiếng nói có dạng tổng hợp, khó có khả năng
nhận dạng được người nói.
Mô tả bộ máy phát âm của con người:Khi chúng ta nói ,âm thanh được tạo ra như sau:
-Không khí được đẩy vào phổi qua tuyến âm (cocal track) và miệng tạo thành câu nói.
-Đối với âm hữu thanh thì dây thanh (vocal cords) rung lên (mở và đóng).Tốc độ rung
của day thanh nhanh hay chậm quyết định âm sặc (pitch) của tiếng nói.Phụ nữa và trẻ em thường
có giọng thanh (âm sắc cao-dao động nhanh hơn),trong khi nam giới thường có giọng trầm (dao
động chậm).
-Với các âm vô thanh ,dây thanh không rung mà liên tục mở.

11
-Hình dạng của tuyến âm quyết định âm thanh tạo ra.Khi ta nói , tuyến âm thay đổi
hình dạng để tạo ra các tiếng khác nhau ,nói chung là hình dạng của tuyến âm thay đổi một cách
từ từ,thường là từ 10ms đến 100ms.
-Lượng không khí từ phổi quyết định âm lượng (gain) của tiếng nói.
2.1.3.Phương pháp mã hóa lai (Hybrid)
Mã hóa Waveform nói chung không cho phép đạt chất lượng tiếng nói tốt ở tốc độ bit
dưới 16Kbps.Mặt khác mã hóa voicoder có thể đạt được tốc độ bit rất thấp,tuy nhiên phương
pháp này tổng hợp lại tiếng nói nên có nhược điểm là rất khó nhận diện được người nói và
thường xuyên gặp vấn đề với nhiễu nền.Mã hóa lai cố gắng tập dụng ưu điểm của cả hai phương
pháp điều chế trên .Nó mã hóa tiếng nói ở tốc độ thấp , mà lại cho kết quả tiếng nói tái tạo lại
tốt,có thể nhận dạng được người nói.Băng thong yêu cầu thường nằm trong khoảng 4.,8 Kbps
đến 16Kbps.
Vấn đề cơ bản đối với Voicoder là nguồn kích thích được mô phỏng một cách đơn
giản :tín hiệu tiếng nói được coi là vô thanh hay hữu thanh ,nó làm cho tiếng nói nhận được có
dạng được nhân tạo hơn là vẻ tự nhiên.Các phương pháp mã hóa lai có gắng cải thiện điều này
bằng cách thay đổi nguồn kích thích tiếng nói theo các cách khác.

2.2. Ứng dụng các phương pháp cơ sở mã hóa âm thanh trong truyền thông.
2.2.1 . Các yêu cầu đối với một bộ mã hóa âm thoại
Trong hầu hết các bộ mã hóa âm thoại, tín hiệu được xây dựng lại sẽ khác với tín hiệu
nguyên thủy. Nguyên nhân là do khi cố gắng làm tăng chất lương âm thoại sẽ dẫn đến việc làm
giảm các đặc tính tốt khác của hệ thống. Các yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm:
Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ lệ thuận với băng thông cần cho
truyền dữ liệu. Tốc độ bit thấp sẽ làm tăng hiệu suất của hệ thống. Tuy nhiên yêu cầu này lại
xung đột với các các đặc tính tốt khác của hệ thống như chất lượng âm thoại. Tốc độ thoại càng
cao thì đòi hỏi tốc độ bit càng cao, để bảo đảm âm thoại tại phía nhận được phát ra với tốc độ
bằng với tốc độ của môt người bình thường nói chuyện lưu loát.
Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp
nhận được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt chất lượng bao gồm tính dễ
hiểu, tự nhiên, dễ nghe và cũng như có thể nhận dạng người nói là nam hay nữ. già hay trẻ,...
Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối với các hệ
thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất lượng của tín hiệu thoại.
Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp: nhằm mục đích sử dụng
được bộ mã hóa âm thoại trong thực tế. Chi phí thực hiện liên quan đến việc triển khai hệ thống
phải thấp, bao gồm cả chi phí cho bộ nhớ cần thiết để hỗ trợ khi hệ thống hoạt động cũng như
các yêu cầu tính toán.
Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại, độ trễ tín hiệu
luôn luôn tồn tại. Việc trễ quá mức sẽ sinh ra nhiều vấn đề trong việc thực hiện trao đổi tiếng nói
hai chiều trong thời gian thực.

12
Khả năng cắt bỏ khoảng lặng: khi nói chuyện không phải âm thoại đựoc phát ra liên
tục mà có những khoảng lặng. Đấy là những lúc đừng lại lấy hơi hay là lúc nghe người khác nói.
Những khoảng lặng này nêu có thể được nhận ra và cắt bỏ có thể giúp làm giảm tốc độ bit hệ
thống mã hóa âm thoại.
2.2.2. Các tham số liên quan đến chất lượng thoại
Các tham số truyền dẫn cơ bản liên quan đến chất lượng thoại là:

• Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness Rating)

• Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc hội
thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín hiệu
thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree.

• Tiếng vọng (echo).

• Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu thoại
do quá trình xử lý khoảng lặng bị sai.

• Các tính chất liên quan đến độ nhạy tần số.

• Xuyên âm (sidetone loss).

• Nhiễu nền...
2.2.3. Các phương pháp đánh giá chất lượng thoại cơ bản
Việc đánh giá chất lượng thoại trong mạng có thể được thực hiện bằng cách đánh giá
các tham số truyền dẫn có ảnh hưởng đến chất lượng thoại và xác định tác động của các tham số
này đối với chất lượng tổng thể. Tuy nhiên, việc đánh giá từng tham số rất phức tạp và tốn kém.
Hiện nay, việc đánh giá chất lượng thoại được dựa trên một tham số chất lượng tổng thể là MOS
(Mean Opinion Score). Những phương pháp sử dụng MOS đều mang tính chất chủ quan do
chúng phụ thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân chia
các phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản:
Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của người sử dụng
về mức chất lượng được thực hiện trong thời gian thực.
Các phương pháp đánh giá khách quan: sử dụng một số mô hình để ước lượng mức
chất lượng theo thang điểm MOS.
2.2.3.1. Phương pháp đánh giá chủ quan (MOS)
Kỹ thuật này đánh giá chất lượng thoại sử dụng đối tượng là một số lượng lớn người nghe, sử
dụng phương pháp thống kê để tính điểm chất lượng. Điểm đánh giá bình quân của nhiều người
được tính là điểm Mean Opinion Scoring (MOS).
Phương thức đánh giá theo MOS có thể được thực hiện theo các bài kiểm tra hội thoại hai chiều
hoặc bài nghe một chiều. Các bài kiểm tra nghe một chiều sử dụng các mẫu thoại chuẩn. Người
nghe nghe mẫu truyền qua một hệ thống và đánh giá chất lượng tổng thể của mẫu dựa trên thang
điểm cho trước.

13
2.2.3.2. Các phương pháp đánh giá khách quan
a) Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền dẫn với một
tín hiệu chuẩn đã biết. Tín hiệu dùng để so sánh cũng có thể dùng chính tín hiệu âm thoại đầu
vào. So sánh có thể dựa trên dạng sóng âm thanh của hai tín hiệu hoặc so sánh đựa trên các thông
số đặc trưng cho âm thoại.
b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối chất lượng
tín hiệu thoại.
c) Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất lượng thoại
mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model.

III.CÁC CHUẨN MÃ HÓA NÉN ÂM THANH GSM.


3.1. Một số vấn đề liên quan.
3.1.1. Giới thiệu về CELP, RPE-LTP, ACELP, VSELP
• RPE-LPC (Regular Pulse Excited - Linear Predictive Coder) – Mã hóa kích thích bằng
xung đều.
Đây là loại mã hóa sử dụng tín hiệu kích thích kết hợp giữa xung đều và tín hiệu sau
dự đoán từ chu kì pitch (Pitch- dự đoán thời gian dài) trước đó. (Được xác định bằng một bộ dự
đoán thời gian dài LTP để tính chu kì pitch và độ lợi pitch cho tín hiệu kích thích).
• CELP (Code Excited Linear Prediction) và ACELP(Algebraic Code Excited Linear
Prediction) – Mã hóa kích thích bằng mã.
Mã hóa kích thích bằng mã hay bằng vector CELP mã hóa tiếng nói ở tốc độ bit thấp
hơn mã hóa RPE-LTP nhưng tiếng nói tổng hợp vẫn có chất lượng cao tương đương với các bộ
mã hóa dạng sóng có tốc độ bit trung bình tuy nhiên độ phức tạp của CELP cao hơn. Trong thuật
toán CELP, người ta đưa ra khái niệm codebook. Đây là nơi chứa các vecto (hay từ mã) kích
thích và mỗi vecto có độ dài cố định. Các vecto này được tạo thành từ các dãy nhiễu Gauss. Tín
hiệu kích thích cho mỗi đoạn tiếng nói sẽ được tìm kiếm trong codebook. Do đó, mỗi vecto kích
thích trong codebook sẽ có số phần tử bằng với số mẫu trong một đoạn tiếng nói.
Mã hóa kích thích bằng mã đại số ACELP cũng là một dạng mã hóa CELP. Tuy nhiên,
các vecto trong codebook ở ACELP được tạo thành từ các giá trị nhị phân (chỉ gồm 2 giá trị)
hoặc tam phân (chỉ gồm 3 giá trị).

• VSELP (ector Sum Excitation Linear Prediction)- Mã hóa kích thích bằng tổng Vecto.
Thuật toán VSELP được Gerson và Jasiuk đề xuất ra ứng dụng trong truyền thông di
động. Thuật toán này sử dụng các codebook có cấu trúc tốt để giảm thiểu độ phức tạp trong tính
toán. Tín hiệu kích thích trong VSELP là sự kết hợp của các vecto từ ba codebook gồm
codebook thích nghi và hai stochastic codebook có cấu trúc tốt.
3.1.2. Giới thiệu về các chuẩn mã hóa nén GSM
Hiện nay có 5 bộ codecs giọng nói được tiêu chuẩn hóa hóa cho GSM. Bao gồm

14
• Full-Rate (FR) codec

• Half-Rate(HR) codec

• Enhanced Full-Rate (EFR) codec

• Adaptive Multi-Rate (AMR) codec

• Adaptive Multi-Rate Wideband (AMR-WB) codec


Tất cả các bộ codecs trên bao gồm mã hóa lời thoại (mã hóa nguồn) , mã hóa kênh
(bảo vệ lỗi và phát hiện các frame hỏng), che giấu lỗi hoặc mất frame, phát hiện thay đổi giọng
nói (VAD), và một chế độ điều khiển nguồn bit rate thấp cho việc mã hóa nhiễu. Các bộ codec
hoạt động hoặc ở kênh giao thông GSM full-rate với bit rate 22.8 kbit/s (FR,EFR, AMR-WB),
hoặc ở kênh half-rate với bit rate là 11.4 kbit/s (HR) hoặc ở cả 2 kênh (AMR).
Bộ FR codec là bộ mã hóa giọng nói đầu tiên cho GSM. Bộ mã hóa này được tiêu
chuẩn hóa năm 1989. Nó sử dụng 13 kbit/s cho mã hóa âm thanh thoại và 9.8 kbit/s cho mã hóa
kênh. FR là bộ codec mặc định cung cấp dịch vụ thoại trong GSM.
Bộ HR codec được phát triển mang đến khả năng tiếp kiệm dung lượng kênh nhờ hoạt
động ở kênh half-rate.Nó hoạt động ở bit rate 5.6 kbit/s cho mã hóa thoại và 5.8 kbit/s cho mã
hóa kênh. Chất lượng giọng nói của bộ codec này tương tự như FR codec ngoại trừ đối với tạp
âm.
Bộ ERF codec là bộ codec đầu tiên cung cấp hệ thống di động số với chất lượng giọng
nói tương đương với đường dây điện thoại. Bộ codec này mang tới những cải tiến đáng kế so với
các bộ GSM codec trước đó. EFR được tiêu chuẩn hóa lần đầu ở Mỹ năm 1995 và được chấp
nhận năm 1996. EFR sử dụng 12.2 kbit/s mã hóa kênh thoại và 10.6 kbit/s cho mã hóa kênh.
Bộ AMR codec là sự phát triển xa hơn trong chất lượng giọng thoại GSM. Được tiêu
chuẩn hóa năm 1999, ARM mang lại những cải thiện lớn so với ERF trong việc chống lỗi ở kênh
FR bằng việc thích ứng việc mã hóa kênh truyền và giọng nói phụ thuộc vào điều kiện của kênh
truyền. Dung lượng kênh truyền tăng lên bằng việc chuyển đổi để hoạt động ở kênh HR trong
điều kiện kênh truyền tốt. Bộ AMR codec bao gồm vài chế độ sử dụng cả kênh FR và kênh HR.
Bit rate mã hóa giọng thoại nằm giữa 4.75 và 12.2 kbit/s ở kênh FR (8 chế độ) và giữa 4.75 và
7.95 kbit/s trong kênh HR (6 chế độ). Đây là bộ mã hóa mặc định của hệ thống 3G WCDMA.
Bộ AMR-WB codec là bộ codec giọng nói gần đây nhất. Được chuẩn hóa năm 2001
cho cả GSM và hệ thống 3G WCDMA. AMR- WB là bộ codec tích hợp nhiều tốc độ bit như
AMR. Nó cải thiết chất lượng nhờ việc mở rộng dải tần audio. Trong khi tất cả các bộ codec
trước đó trong hệ thống di động số hoạt động ở giới hạn dải tần audio hẹp dưới 3.4 KHz, AMR-
WB mở rộng dải tần lên tới 7 Khz. Băng tần rộng giúp cải tiến chất lượng âm thanh thoại. AMR-
WB gồm 9 chế độ hoạt động với bit rate mã hóa giọng nói nằm giữa 6.6 và 23.85 kbit/s.
Phần mã hóa giọng nói trong tất cả các bộ codec đều sử dụng LPC (Linear Predictive
Coding). Tất cả ngoại trừ FR codec thuộc lớp giải thuật mã hóa giọng nói CELP. Tất cả đều hoạt
động ở tỉ lệ mẫu là 8KHz ngoại trừ AMR-WB sử dụng tỉ lệ mẫu 16KHz.

15
Hình 3: các chuẩn Voice Codec.

3.2. Các chuẩn mã hóa nén GSM.


Như ta đã biết ở phần 3.1.2 thì hiện nay có 5 bộ codec giọng nói được tiêu chuẩn hóa
cho GSM là FR, HR, ERF, AMR và AMR-WB. Tuy nhiên, trong khuôn khổ của bài tập lớn này,
do thời gian có hạn nên chúng em chỉ tập trung và 2 bộ codec là FR và AMR.
3.2.1 FR Codec.
3.2.1.1 Bộ mã hóa và giải mã toàn tỉ lệ (full rate hay RPE-LPC).
Bộ mã hóa và giải mã toàn tỉ lệ (gọi tắt là bộ mã hóa toàn tỉ lệ) hay còn gọi là Bộ mã
hóa RPE-LPC (Regular Pulse Excited - Linear Predictive Coder) là bộ mã hóa giọng nói đầu tiên
được sử dụng cho GSM. Nó đã được lựa chọn sau khi đã thử nghiệm và so sánh với các hệ thống
mã hóa khác cùng thời. Bộ mã hóa tiếng nói này dựa trên nền tảng kích thích xung đều (regular
pulse excitation) LPC với dự đoán dài hạn và liên quan tới 2 bộ mã hóa tiếng nói khác là : RELP
(Residual Excited Linear Prediction) và MPE-LPC (Multi Pulse Excited LPC). Lợi thế của
RELP là không quá phức tạp do sử dụng mã hóa dải tần gốc. Nhưng hiệu năng của nó giới hạn
khi hệ thống gặp tiếng ồn âm. Bộ mã hóa MPE-LPC phức tạp hơn nhưng nó cung cấp mức độ
hiệu quả cao hơn. Bộ mã hóa RPE-LPC cho một kết quả khá tốt, cân bằng giữa hiệu năng và tính
phức tạp.

16
Mô hình bộ mã hóa giọng nói này bao gồm một bộ tạo âm (Tone generator – mô hình hóa theo
mẫu đường thanh âm của con người); và một bộ lọc để điều chỉnh âm thanh (bộ lọc này mô hình
hóa theo mẫu miệng và hốc mũi người).
Việc phân tích và lọc ngắn hạn xác định những hệ số của bộ lọc và tính toán lỗi, dự đoán dài hạn
lượng tử hóa những họa âm của tiếng nói.

Hình 4:Sơ đồ mô hình bộ mã hóa giọng nói toàn tỉ lệ.


Mô hình toán học của bộ tạo tiếng nói trong bộ mã hóa toàn tỉ lệ chỉ ra rằng năng
lượng suy giảm dần với tần số tăng dần, vì thế các mẫu được đưa qua một bộ lọc tăng cường để
cải thiện những tần số cao hơn, kết quả là cho hiệu quả truyền tốt hơn. Và có một bộ lọc mạch
giảm tương đương ở điểm kết thúc để khôi khục âm thanh.
Bộ phân tích ngắn hạn (dự đoán tuyến tính ngắn hạn) thực hiện hàm tự tương quan và
phép đệ quy Schur trên những tín hiệu đầu vào để xác định hệ số phản xạ của bộ lọc ((1) trong
hình minh họa trên). Hệ số phản xạ của bộ lọc được biến đổi thành LARs (log area ratios) và
được truyền qua không gian với 8 thông số gồm 36 bit thông tin. Những hệ số phản xạ này
thường được sử dụng để cho lọc ngắn hạn (short-term filter) những tín hiệu đầu vào, kết quả là
cho 160 mẫu tín hiệu dư thừa (residual signal – độ sai khác giữa tín hiệu dự đoán với tín hiệu
thực tế).
Tín hiệu dư thừa từ việc lọc ngắn hạn được phân chia thành 4 khung nhỏ 40 mẫu. Bộ
lọc dự đoán dài hạn mô hình những họa âm tốt của tiếng nói bằng cách kết hợp những khung con
hiện tại và trước đó. Tham số khuếch đại (gain) và độ trễ (lag) cho bộ lọc dự đoán dài hạn (LTP)
được xác định bằng cách thành lập một tương quan chéo giữa khung con hiện tại và khung con
dư thừa trước đó. Đỉnh của mối tương quan chéo này xác định độ trễ tín hiệu, độ khuếch đại
được tính toán bằng cách chuẩn hóa hệ số tương quan chéo. Những tham số này được đưa đến bộ
lọc dài hạn, để dự đoán số dư ngắn hạn hiện thời. Lỗi giữa tín hiệu dư thừa ước lượng và tín hiệu
ngắn hạn thực tế được đưa tới phân tích RPE để thực hiện nén dữ liệu.
17
Giai đoạn kích thích xung đều bao gồm việc giảm 40 mẫu dư thừa dài hạn xuống thành
4 bộ chuỗi con 13-bit thông qua sự kết hợp của kỹ thuật đan xen và chia nhỏ mẫu. Những chuỗi
con tối ưu được xác định sao cho có ít lỗi nhất và được mã hóa sử dụng APCM thành 45-bit.
Tín hiệu kết quả được đưa trở lại thông qua một bộ giải mã RPE và được kết hợp với
ước lượng dư thừa ngắn hạn để bắt đầu bộ lọc phân tích dài hạn cho khung tiếp theo, bằng cách
đó hoàn thành một vòng lặp nối tiếp.
Table 2 – Những tham số đầu ra của bộ mã hóa toàn tỉ lệ.

Parameter Number of parameters Total bits per frame

LARs 8 per frame 36bits

LTP lag 1 per subframe(7 bits) 28bits

LTP gain 1 per subframe(2 bits) 8bits

RPE grid position 1 per subframe(2 bits) 8bits

Block amplitude 1 per subframe(6 bits) 24bits

RPE pulses 13 per subframe (3 bits each) 156bits

Total 260bits per frame

a. Bộ mã hóa toàn tỉ lệ
Khung tiếng nói đầu vào gồm 160 mẫu tín hiệu (định dạng mẫu 13 bit PCM) được tiền
xử lý để cho một tín hiệu không lệch (offset-free signal). Tín hiệu này sau đó được đưa tới bộ lọc
thông cao đầu tiên. 160 mẫu này sau đó được phân tích để xác định các thông số cho bộ lọc phân
tích ngắn hạn (LPC analysis). Những thông số này sau đó được sử dụng để lọc 160 mẫu tương tự
khác. Kết quả là cho 160 mẫu của tín hiệu dư thừa ngắn hạn. Những thông số bộ lọc, hay hệ số
phản xạ, được chuyển đổi thành những LAR (log area ratio) trước khi được truyền đi. Những
khung tiếng nói được chia thành 4 khung con 40 mẫu tín hiệu dư thừa ngắn hạn.
Trước khi xử lý mỗi khối con gồm 40 mẫu dư thừa ngắn hạn, các thông số của bộ lọc
phân tích dài hạn gồm độ trễ LTP và độ khuếch đại LTP được tính toán và cập nhật vào trong
khối phân tích LTP trên cơ sở khối con hiện tại và một chuỗi được lưu lại của 120 mẫu dư thừa
ngắn hạn được tái tạo trước đó.
Một khối với 40 mẫu tín hiệu dư thừa dài hạn thu được bằng cách trừ đi 40 ước lượng
tín hiệu dư thừa ngắn hạn của chính tín hiệu dư thừa ngắn hạn đó. Khối kết quả của 40 mẫu tín
hiệu dài hạn này được đưa tới phân tích kích thích xung đều để thực hiện chức năng nén dữ liệu
cơ bản của giải thuật.
Kết quả của bộ phân tích RPE là khối 40 mẫu dư thừa dài hạn đầu vào được biểu diễn
bởi một trong 4 chuỗi con ứng cử của mỗi bộ 13 xung. Những chuỗi con đã lựa chọn được xác
định bởi vị trí lưới RPE (M). 13 xung RPE được mã hóa sử dụng mô-đun mã hóa xung linh hoạt
18
(Adaptive Pulse Code Modulation – APCM) với ước lượng biên độ của khối con, cái mà được
truyền tới bộ giải mã như một thông tin bên lề. Những thông số RPE cũng được đưa tới một bộ
giải mã RPE cục bộ và mô-đun tái tạo, mô-đun này sản xuất ra một khối 40 mẫu tín hiệu dư thừa
dài hạn đã được lượng tử.
Bằng cách cộng 40 mẫu được lượng tử của dư thừa dài hạn vào khối trước đó của ước
lượng tín hiệu dư thừa ngắn hạn, một mẫu tín hiệu dư thừa ngắn hạn hiện tại được tái tạo lại.
Khối mẫu tín hiệu dư thừa ngắn hạn này sau đó được đưa tới bộ lọc phân tích dài hạn (LTP
analysis), bộ lọc này sẽ tạo ra một khối mới 40 ước lượng tín hiệu dư thừa ngắn hạn để sử dụng
cho những khối con tiếp theo, bằng cách đó hoàn thành một vòng lặp nối tiếp.
b. Bộ giải mã toàn tỉ lệ
Bộ giải mã bao gồm cấu trúc tương tự như vòng lặp nối tiếp của bộ mã hóa. Trong
truyền dẫn không lỗi, đầu ra của giai đoạn này sẽ là những mẫu dư thừa ngắn hạn được tái tạo.
Những mẫu này sau đó được đưa vào bộ lọc tổng hợp ngắn hạn sau đó là tới bộ lọc giảm nhẹ, kết
quả là những mẫu tín hiệu tiếng nói được tái tạo.
3.2.1.2 Đánh giá bộ mã hóa giải mã toàn tỉ lệ
GSM 06.60 mô tả chi tiết ánh xạ giữa những khối đầu vào 160 mẫu tiếng nói trong định dạng
PCM 13 bit tới những khối 260 bit được mã hóa và từ những khối 260 bít được mã hóa này tới
khối đầu ra gồm 160 mẫu tiếng nói được tái tạo. Tỉ lệ mẫu là 8000 mẫu/s đưa tới một tỉ lệ bít
trung bình cho dòng bít được mã hóa là 13 kbits/s.
Mặc dù thế bộ mã hóa RPE-LPC đã không đưa ra hiệu năng tối ưu, nó cho chất lượng giọng nói
kém. Vì thế các bộ mã hóa âm thanh toàn tỉ lệ khác đã ra đời và chúng đã được tích hợp chung
vào trong hệ thống.
3.2.2. GSM AMR codec (GSM 6.90).
3.2.2.1 GSM AMR Encoder và GSM AMR Decoder.
GSM ARM đưa ra ánh xạ từ các khối 160 mẫu thoại trong định dạng 13 bit PCM thành
khối 95,103,118,134,148,159,204, và 244 bits. Và từ khối mã hóa trên thành các khối ra của 160
mẫu thoại được dựng lại. Tỉ lệ mẫu là 8000 mẫu/ s dẫn tới tốc độ bit cho luồng bit đã mã hóa là
4.75, 5.15,5.90,6.7, 7.4, 10.2, 12.2 kbit/s. ARM hoạt động ở băng tần hẹp (200 – 3400 Hz).
Việc mã hóa cho các chế độ mã hóa mult-rate sử dụng ACELP . Multi- rate ACELP
cũng còn được biết đến là MR-ACELP. Chiều dài mỗi frame 20ms được chia thành 4 khung con
5 ms.Lời thoại được mã hóa ở nơi vào của bộ mã hóa được chuyển tới một đơn vị mã hóa kênh.
Ở nơi nhận, các hoạt động được đảo ngược lại.
a, GSM AMR Encoder.
AMR codec sử dụng 8 nguồn codec với các bit- rate là 12.2, 10.2, 7.95, 6.7, 5.9, 5.15, và
4.75 kbit/s . Các codec dựa trên mô hình mã hóa CELP . Một bộ dự đoán tuyến tuyến tính bậc 10
( 10th order linear prediction - LP), hoặc bộ lọc các ký tự ngắn , tổng hợp được sử dụng. Bộ lọc
tổng hợp pitch được thực hiện sử dụng phương pháp so – calledadaptive codebook.

19
Trong mô hình tổng hợp lời thoại CELP , tín hiệu kích thích ở đầu vào của bộ lọc tổng
hợp kí tự ngắn LP được khởi dựng bằng việc thêm 2 vector kích thích từ codebook được tích
hợp và được gắn cứng. Lời thoại được tổng hợp bằng việc đưa vào 2 vector được lựa chọn một
cách thích hợp từ những codebook này thông qua bộ lọc tổng hợp kí tự ngắn. . Chuỗi các kích
thích có điều kiện tốt nhất trong codebook được chọn sử dụng thủ tục tìm kiếm phân tích bằng
tổng hợp mà ở đó lỗi giữa lời thoại gốc và lời thoại đã được tổng hợp được tối thiểu.
Bộ mã hóa hoạt động với mỗi khung thoại dài 20ms tương ứng với 160 mẫu ở tần số mẫu
là 8000 mẫu/s. Mỗi 160 mẫu thoại, tín hiệu thoại được phân tích chính xác các thông số theo mô
hình CELP. Các thông số này được mã hóa và truyền. Ở nơi giải mã, những thông số này được
giải mã và lời thoại được tổng hợp bằng việc lọc các tín hiệu kích thích được được xây dựng lại
nhờ bộ lọc tổng hợp LP.
Phân tích LP được thức hiện 2 lần mỗi khung ở chế độ 12.2 kbit/s và một lần đối với các
chế độ khác. Ở chế độ này, hai tập thông số LP được bhieens đổi thành các cặp đường phổ (LSP)
và được lượng tử hóa sử dụng lượng tử hóa chia ma trận với 38 bít. Ở các chế độ khác, tập đơn
các thông số LP được biến đổi thành LSP và vector lượng tử sử dụng lượng tử chia vector
(SVQ).
Khung thoạt được chiwa thành 4 khung con, mỗi khung dài 5ms (40 samples). Các thông
số codebook cố định và tích hợp được truyền mỗi khung con. Các thông số LP được lượng tử và
không lượng tử được sử dụng phụ thuộc vào các khung con.Độ trễ âm vòng lặp mở được ước
lượng cho mỗi khung con khác
Các hoạt động sau được lặp lai với mỗi khung con :
+ Tín hiệu đích được tính toán bằng lọc phần dư LP thông qua bộ lọc tổng hợp trọng số
cùng với tình trạng khởi tạo của các bộ được được cập nhật bằng việc lọc lỗi giữa phần dư thưa
LP và kích thích.
+ Các đáp ứng xung của bộ lọc tổng hợp trọng số được tính toán.
+ Phân tích âm vòng lặp kín sau đó được thực hiện , sử dụng đích và đáp ứng xung
tương ứng.
+ Tín hiệu đích được cập nhật bằng việc bỏ các đóng góp codebook tích hợp và đích mới
này, được sử dụng trong việc tìm kiếm codebook đại số cố định.
+ Việc tăng adaptive and fixed codebook là việc định lượng vô hướng với 4 và 5 bít lần
lượt hoặc vector được định lượng vô hướng với 6 -7 bits.
+ Cuối cùng, các bộ nhớ bộ lọc được cập nhật cho việc tìm tín hiệu đích cho khung con
tiếp theo.
b, GSM AMR Decoder
Ở decoder, dựa trên chế độ được chọn, các chỉ số truyền được rút ra từ luồng bít nhận.
Các chỉ số này được giải mã để chứa các thông số mã hóa mỗi khung truyền.Các thông số này là
LSP vector, phần âm trễ, các codevector cải tiến, và độ tăng âm. Các LSP vector được biến đổi

20
thành các hệ số lọc LP và được đưa vào để chứa bộ lọc LP cho mỗi khung. Do đó, ở mỗi 40 mẫu
khung con :
+ Kích thích được khởi dựng bằng việc thêm vào các adaptive and innovative codevector
được tỉ lệ với độ tăng tương ứng.
+ Lời thoại được khởi dựng lại bằng việc lọc các kích thích nhờ bộ lọc tổng hợp LP.
Cuối cùng, tín hiệu thoại được khởi tạo lại được chuyển tới bộ lọc trước tích hợp
3.2.2.2. AMR codec trong GSM
Để thấy được cách thức sử dụng ARM codec trong GSM ta xét sơ đồ sau :

Hình 5 : Sơ đồ GSM sử dụng AMR.


Trong sơ đồ trên :
MI (Codec Mode Indicator)- chỉ ra chế độ codec
MR (Codec Mode Request) – Yêu cầu chế độ codec
MC (Codec Mode Command) – Điều khiển chế độ codec
Mobile Station (MS) – Điện thoại di động
Base Tranceiver Station (BTS) – Trạm trung chuyển thu và phát sóng di động.

21
Từ sơ đồ trên, cả MS và BTS đều thực hiện việc đánh giá chất lượng kênh truyền để
tìm đường dẫn tín hiệu nhận được. Dựa trên độ đo chất lượng kênh, một MC (ở trên downlink tới
MS) hoặc MR (trên uplink tới mạng) được gửi ra . Nơi nhận cuối sử dụng những thông tin này
để chọn chế độ codec tốt nhất dựa trên điêu kiện kênh truyền. Một MI cũng được gửi ra để chỉ ra
chế độ codec đang hoạt động. Chế độ codec trên uplink có thể khác với chế độ được sử dụng trên
downlink ở cùng một interface, nhưng chế độ kênh truyền thì phải giống nhau.
Mạng điều khiển các chế độ codec và kênh truyền trên cả uplink và downlink. MS
phải tuận theo MC từ mạng, trong khi mạng có thể sử dụng bất kỳ thông tin hoàn chỉnh nào,
thêm vào MR để quyết định chế độ codec trên downlink. MS phải thực hiện tất cả các chế độ
codec
Link adaptation là một phần quan trọng trong AMR codec. Nó chứa thước đo chất
lượng kênh và các giải thuật thích ứng chế độ codec hay kênh truyền. Link Adaptation trong
AMR : Nó gắn các các phần chia nhỏ giữa việc mã hóa âm thoại và kênh truyền trong một kênh
truyền và hoạt động của kênh GSM full rate và half rate. Dựa vào chất lượng kênh và sự ràng
buộc vê mạng (như băng thông, sự tải mạng..) Link adaptation sẽ lựa chọn chế độ codec và chế
độ kênh truyền tối ưu nhất.
3.2.2.3. Đánh giá chất lượng AMR codec.
Do AMR có nhiều chế độ bit-rate nên nó đã cải thiện đáng kể so với các bộ codec
trước đó bằng việc tích hợp mã hõa kênh và giọng nói phụ thuộc vào điều kiện kênh truyền trong
kênh full-rate. Bên cạnh đó, dung lượng kênh truyền tăng lên đáng kể khi chuyển sang hoạt động
ở kênh halfrate. Chất lượng âm thanh khi sử dụng bộ codec này khá tốt. Một vài ứng dụng sử
dụng AMR codec như: Wireless GSM, GPRS, EGPRS, các hội thoại các nhân, điện thoại IP
băng tần rộng, audio và video conferencing…

IV.ẢNH HƯỞNG CỦA NÉN ÂM THANH ĐẾN CHẤT LƯỢNG


DỊCH VỤ VOIP.
4.1. VOIP là gì ?
Voice over Internet Protocol (VoIP) là một công nghệ cho phép truyền thoại sử dụng
giao thức mạng IP, trên cơ sở hạ tầng sẵn có của mạng Internet. VoIP là một trong những công
nghệ viễn thông đang được quan tâm nhất hiện nay không chỉ đối với các nhà khai thác, các nhà
sản xuất mà còn cả với người sử dụng dịch vụ. VoIP có thể vừa thực hiện cuộc gọi thoại như trên
mạng điện thoại kênh truyền thống (PSTN) đồng thời truyền dữ liệu trên cơ sở mạng truyền dữ
liệu. Như vậy, nó đã tận dụng được sức mạnh và sự phát triển vượt bậc của mạng IP vốn chỉ
được sử dụng để truyền dữ liệu thông thường.

4.2. Tổng quan về chất lượng dịch vụ VOIP

Tổng quan về chất lượng dịch vụ trong VOIP


VoIP sử dụng mạng nền gói (cụ thể là mạng IP) để truyền các gói tin thoại qua mạng.
Tuy nhiên tại nơi thu các gói tin có thể bị mất hay trễ phụ thuộc vào môi trường mạng cụ thể lúc
đó: ví dụ như mạng bị lỗi, tắc nghẽn hay gói tin bị trễ qua các thành phần mạng…Điều này làm
giảm chất lượng thoại tại đầu thu, và do truyền dẫn thoại là truyền dẫn thời gian thực nên phía

22
thu không thể yêu cầu mạng truyền lại các gói tin bị mất. Do mạng điện thoại PSTN truyền thống
với các đặc điểm ưu việt về chất lượng thoại đã từ lâu trở thành một phương tiện không thể thiếu
trong cuộc sống hàng ngày của chúng ta nên dịch vụ VoIP phải làm sao cung cấp trong mạng
PSTN truyền thống. Chất lượng dịch vụ được hiểu một cách đơn giản là “khả năng của mạng
làm thế nào để đảm bảo và duy trì các mức thực hiện nhất định cho mỗi ứng dụng theo như các
yêu cầu đã được chỉ rõ của mỗi người sử dụng”. Nhìn chung, chất lượng dịch vụ được quyết định
bởi các user ở hai đầu cuối thoại. Do đó nhà cung cấp dịch vụ mạng đảm bảo QoS người sử dụng
yêu cầu và thực hiện các biện pháp để duy trì mức QoS khi điều kiện mạng bị thay đổi vì các
nguyên nhân như nghẽn, hỏng thiết bị hay sự cố liên kết. Chất lượng dịch vụ cũng được phân cấp
để tiện cho các nhà cung cấp dịch vụ tính toán và đảm bảo QoS trong các kế hoạch truyền dẫn cụ
thể của mình. Đối với các nhà cung cấp dịch vụ truyền thông, chất lượng dịch vụ thường được
đánh giá bằng các phương pháp phản hồi từ phía khách hàng. Phương pháp này không mang lại
hiệu quả cao khi mà tính phức tạp và phạm vi của các mạng viễn thông hiện đại ngày một tăng,
đòi hỏi một phương pháp có tính tổng thể để đánh giá một cách toàn diện cho dịch vụ thoại.
Công nghiệp viễn thông chấp nhận một con số chung để mô tả chất lượng dịch vụ, chất lượng
cuộc gọi được gọi là điểm đánh giá trung bình: Mean Opinion Score (MOS). MOS dao động từ 1
(mức tồi) đến 5 (mức tốt nhất). Các nhà cung cấp vào mức MOS này để đưa ra mức chất lượng
dịch vụ phù hợp cho dịch vụ của mình.
Điểm đánh giá trung bình MOS

Mức chất lượng Mức điểm MOS

Xuất sắc 5

Tốt 4

Bình thường 3

Nghèo 2

Tồi 1

Đối với dịch vụ VoIP khi mạng truyền dẫn là mạng IP, các tham số hay các yếu tố ảnh
hưởng trực tiếp đến chất lượng dịch vụ và cần được đưa ra các chỉ số giới hạn là

• Băng thông.

• Trễ.

• Jitter (Biến động trễ)

• Mất thông tin.

• Tiếng dội.

• Độ tin cậy.

23
Tổ chức ITU đã phát triển mô hình E trong khuyến nghị G107 để đánh giá chất lượng
dịch vụ của mạng VoIP. Mô hình E đã chứng minh được tính ưu việt của nó trong việc thiết lập
kế hoạch truyền dẫn trong thực tế. Kết quả của mô hình E là một giá trị truyền dẫn chung gọi là
“Transmission Rating Factor” (R) thể hiện chất lượng đàm thoại giữa người nói và người nghe.
R dao động từ 1 đến 100 tuỳ thuộc vào các sơ đồ mạng cụ thể. Giá trị R càng lớn thì mức chất
lượng dịch vụ càng cao. Đối với dịch vụ thoại qua IP, mô hình E là một công cụ đắc lực để đánh
giá chất lượng dịch vụ. Mô hình E có thể được sử dụng để hiểu các đặc điểm của mạng và thiết
bị ảnh hưởng như thế nào đến chất lượng thoại trong mạng VoIP. Mô hình E tạo ra sự suy giảm
R cho các loại mạng khác nhau và các thiết bị khác. Các yếu tố ảnh hưởng đến sự suy giảm R là
loại mã hoá, độ trễ, tiếng dội, mất gói, và thuật toán mã hoá thông tin. Giá trị đầu ra của mô hình
E có thể chuyển thành giá trị MOS tương ứng để đánh giá chất lượng dịch vụ.

Giá trị R Loại chất lượng truyền Mức độ hài lòng của
dẫn người sử dụng

90<= R <= 100 Tốt nhất Rất hài lòng

80<= R <= 90 Mức cao Hài lòng

70<= R <= 80 Trung bình Một số không hài lòng

60<= R < 70 Mức thấp Nhiều người không hài


lòng

50<= R < 60 Mức nghèo Hầu như tất cả không


hài lòng

4.3 Ảnh hưởng của nén âm thanh đến chất lượng dịch vụ VOIP
Băng thông : Là tốc độ truyền thông tin (tính bằng KB/giây, MB/giây…).Bình thường
trong môi trường mạng LAN, băng thông càng lớn càng tốt
Mạng VoIP lại thực hiện việc nén thoại và triệt khoảng lặng để giảm băng thông hơn so với
mạng chuyển mạch kênh truyền thống.Băng thông của mạng VOIP có thể thay đổi so với mạng
TDM có kích thước kênh cố định. Do vậy nén thoại làm băng thông trong mạng VOIP thấp
Băng thông dành cho báo hiệu thay đổi tuỳ theo số lượng cuộc gọi và giao thức báo hiệu được sử
dụng. Nếu có rất nhiều cuộc gọi với thời gian ngắn thì băng thông đỉnh cần cho báo hiệu phải
lớn. Băng thông lớn nhất mà một giao thức báo hiệu IP cần có phải bằng 3% của tất cả lưu lượng
tải. ở ví dụ, băng thông báo hiệu cho 2000 cuộc gọi trong 1 giây là xấp xỉ 4,8 Mbps (3 % x 160
Mbps). Nhờ việc tính toán băng thông cho tải và báo hiệu, người ta có thể đáp ứng được cho
2000 cuộc gọi được mã hoá theo chuẩn G.711 với băng thông lớn nhất là 164,8 Mbps. Đây là giá
trị băng thông lớn nhất theo lý thuyết cho trường hợp trên. Nếu các tham số như phương pháp
mã hoá thoại, số cuộc gọi, tốc độ gói tin được
tạo, cách nén và việc sử dụng bộ triệt tiếng vọng thay đổi thì yêu cầu về băng thông cũng thay
đổi theo.

24
Trễ : Trễ là thời gian truyền trung bình của dịch vụ từ điểm vào đến điểm ra khỏi
mạng. Có nhiều dịch vụ đặc biệt là các dịch vụ thời gian thực như truyền thông thoại bị ảnh
hưởng rất lớn bởi trễ quá lớn và không cần thiết. Nếu trễ vượt quá 200ms thì người sử dụng sẽ
thấy sự ngắt quảng và đánh giá chất lượng thoại ở mức thấp. Trễ trong mạng thoại phụ thuộc vào
nhiều yếu tố như thuật toán mã hoá, lỗi, mất khung, thiết bị…ITU đã nghiên cứu độ trễ mạng
cho các ứng dụng thoại trong khuyến nghị G114
Trễ Coder( trễ xử lý) : Trễ Coder hay còn được gọi là trễ xử lý là thời gian một bộxử
lý tín hiệu số DSP nén một mẫu PCM cộng với thời gian trễ thuật toán của Codec. Công nghệ xử
lý thoại ngày nay có nhiều bộ mã hoá khác nhau, mỗi bộ mã hoá lại xử lý theo một thuật toán
nén và mã hoá khác nhau và tốc độ xử lý thoại lại khác nhau nên độ trễ qua các bộ mã hoá cụ thể
cũng khác nhau. Ví dụ thuật mã hoá dự đoán tuyến tính mã đại số (ACELP) xử lý mỗi khối thoại
PCM trong vòng 10ms.
Bộ xử lý thuật toán mã hoá dự đoán tuyến tính mã đại số cấu trúc tích hợp (CE-ACELP) có trễ
xử lý khoảng 2,5 đến 10 ms phụ thuộc vào tải trọng của bộ xử lý tín hiệu số DSP. Nếu tải trọng
của bộ xử lý tín hiệu số đầy đủ với 4 kênh thoại thì độ trễ xử lý có thể lên tới 10 ms. Nếu chỉ phải
xử lý một kênh thoại thì độ trễ có thể chỉ là 2,5 ms. Tuy nhiên trong các kế hoạch truyền dẫn
phải sử dụng mức 10 ms để tính toán trễ cho bộ xử lý này. Thời gian giải nén vào khoảng 10%
thời gian nén cho mỗi
khối mẫu PCM. Do có nhiều mẫu trong mỗi khung nên thời gian giải nén tương ứng với số
lượng mẫu trong khung. Do đó thời gian trễ của một khung 3 mẫu là 3 * thời gian trễ một mẫu.
Thời gian trễ của các bộ mã hóa

Coder Rate Required sample Best case coder Worst case coder
block delay delay

ADPCM, G726 32 Kbps 10ms 2.5 ms 10 ms

CS-ACELP, 8.0 Kbps 10ms 2.5 ms 10 ms


G729A

MP- 6.3 Kbps 30ms 5 ms 20 ms


MLQ,G723.1

MP-ACELP, 5.3 Kbps 30ms 5 ms 20 ms


G723.1

Trễ thuật toán:


Thuật toán nén căn cứ vào đặc điểm của tín hiệu thoại để xử lý các mẫu thoại với mỗi
mẫu thứ N sử dụng thuật toán nén có thể dự đoán mẫu tiếp theo thứ N+1 như thế nào một cách
khá chính xác. Việc xử lý này cũng gây ra trễ gọi là trễ thuật toán và phụ thuộc vào độ dài của
khối tin cần nén. Tất nhiên việc này lặp lại nhiều lần ví dụ như các khối N+1, N+2 ...Thông
thường với mỗi cuộc thoại nó thêm vào 5 ms đối với trễ tổng trên liên kết. Với mỗi bộ mã hoá

25
khác nhau thì sử dụng một thuật toán nén khác nhau do đó thời gian trễ thuật toán với từng bộ
mã hoá cụ thể cũng khác nhau:
Trế thuật toán đối với G 726 là 0ms
Trế thuật toán đối với G 729 là 5ms
Trế thuật toán đối với G 723.1 là 7.5ms
Nói chung thời gian trễ bộ mã hoá được tính như sau:
Trễ Coder = (Trễ thời gian nén trên mỗi khối +Trễ thời gian giải nén trên mỗi khối)* (Số khối
trên một khung) + thời gian trễ thuật toán
Với bộ mã hoá G729 ta có thể tính được
Thời gian trễ codec = 10 +1*3+5 = 18 ms.
Trễ do mã hóa :Các bộ mã hoá thoại hiện đại hoạt động dựa trên việc tập trung các
mẫu thoại thành khung. Mỗi khung tín hiệu thoại đầu vào (gồm các mẫu thoại) được xử lý thành
các khung bị nén. Không thể tạo ra các khung thoại đã được mã hoá cho đến khi tất cả các mẫu
thoại của khung được tập trung đầy đủ trong bộ mã hoá. Do đó có trễ khung xảy ra trước khi việc
xử lý bắt đầu. Ngoài ra, nhiều bộ mã hoá cũng xem xét các khung tiếp theo để cải thiện hiệu quả
nén. Chiều dài của quá trình xem xét này gọi là thời gian look – ahead của bộ mã hoá, lượng trễ
này cũng là được tính vào trễ của bộ mã hoá.

V. KHẢO SÁT VÀ PHÂN TÍCH CÁC ỨNG DỤNG CỦA CHUẨN


GSM.
5.1. Dịch vụ thoại qua Internet.
5.1.1. Ưu thế của dịch vụ thoại qua Internet.
Đầu năm 1995 công ty VocalTec đưa ra sản phẩm phần mềm Internet Telephony đầu
tiên trên thế giới .Sau đó nhiều công ty viễn thông lớn đã đầu tư đưa ra những sản phẩm thương
mại nhưng kết quả còn nhiều hạn chế .Gần đây cùng với sự phát triển của công nghệ thông tin
,chât lượng của thoại Internet đó gần đạt đến chất lượng của thoại truyền thống PSTN .Một số
hãng viễn thông lớn như AT&T Sprint và Telstra đó thông báo về việc chuyển các mạng viễn
thông chủ đạo sang nền chuyển mạch gói .Điều này có nghĩa là phần lớn lưu lượng thoại sẽ được
truyền qua mạng mạch gói trong thời gian không xa .Điện thoại qua Internet đó gây được sự chú
ý mạnh mẽ nhất và có khả năng để trở thành nền tảng cho mạng thoại công nghệ chuyển mạch
gói .Một bí quyết thành công của dịch vụ thoại qua mạng Internet là khả năng đáp ứng như dịch
vụ thoại truyền thống đặc biệt là trong thoại đường dài .
Nguyên nhân khiến dịch vụ thoại qua Internet có giá thành thấp là do hiệu quả kỹ thuật
và lợi thế kinh tế về mặt lâu dài (IDC trong ITU,1997).Theo Cian Pablo Villamil ,quản lý tại
Andersen Consulting:”Ban đầu người ta cho rằng cơ hội này sẽ mất đi khi giá bắt đầu giảm
xuống .Giờ đây, chúng ta mới nhận thấy rằng dịch vụ thoại Internet có lợi thế kinh tế lâu dài do
chi phí cho các thiết bị ngày càng giảm đi” (Evagora ,1997).

26
Công nghệ chuyển mạch gói sử dụng hiệu quả hơn so với công nghệ chuyển mạch
kênh truyền thống .Khi mạng PSTN được lắp đặt ( vào cuối thế kỷ 19,đầu thế kỷ 20) ,thiết bị
chuyển mạch rất đắt trong khi đó chi phí cho dây dẫn lại thấp.Đến những năm 70,giá thành của
các thiết bị máy tính giảm.Vì vậy giá thành của các thiết bị chuyển mạch cũng hạ rất nhanh ,tốc
độ giảm chi phí cho lắp đặt cáp cũng không theo kịp .(Theo ý kiến của Gordon Moore,một trong
những nhà sáng lập công ty Inlel).Ngày nay các bộ Touter với giá thành thấp đó thay thế bộ
chuyển mạch và dây dẫn với giá thành đang tăng dần ,thì những chuyển mạch gói tiết kiệm
hơn,do đó sẽ cung cấp được dữ liệu có hiệu quả hơn nhiều. Đối với chuyển mạch gói ,giá thành
là khoảng 4US cents /1Kbyte, so với 15cents /1Kbytes dữ liệu của chuyển mạch kênh
Ngay cả trong trường hợp đơn giản nhất ,tiếng nói được chuyển qua Internet cũng khó
mà sai lệch hơn so với tiếng nói trong dạng tương tự truyền qua cáp đồng xoắn .Vấn đề chủ yếu
khi đóng gói phần mềm mã hoá tín hiệu thoại thành các gói cũng bị biến đổi.Nhiều nhà toán học
đó cho rằng phải cần đến SuperComputer hoạt động trong vài tuần , thậm chí vài tháng để thực
hiện được cuộc gọi trong hai phút.
Tính kinh tế của quy mô rất thấy rõ trong hệ thống , bởi vì Internet cũng như PSTN là
một hệ thống gồm nhiều mạng .Thậm chí một PSTN nhỏ cũng tận dụng được kết nối với các
mạng khác.
5.1.2 Các công nghệ cơ sở.
Trong mạng điện thoại thông thường tín hiệu được mã hoá theo luật A hoặc luật µ với
tốc độ 64kbs .Với cách mã hoá này ,cho phép khôi phục một cách tương đối trung thực các âm
thanh trong giải tần tiếng nói .Tuy nhiên trong một số ứng dụng đặc biệt yêu cầu truyền âm thanh
với tốc độ thấp hơn ví dụ như truyền tín hiệu thoại trên Internet .Từ đó đó xuất hiện một số kỹ
thuật mã hoá và nén tín hiệu tiếng nói xuống tốc độ thấp cụ thể như G.723.1,G.729A,GSM...
Vào năm 1982 .Atal đó đề ra một mô hình mới về kích thích ,được gọi là kích thích đa
xung.Trong mô hình này ,không cần biết trước đó là âm hữu thanh hay vô thanh ,đó có phải là
giai đoạn lên giọng hay không.Sự kích thích được mô hình hoá bởi một số xung (thông thường là
3 xung trên 5ms ) có biên độ và vị trí được xác định bằng cực tiểu hoá sai lệch ,có tính đến trọng
số thụ cảm ,giữa tiếng nói gốc và tiếng nói tổng hợp.Việc đưa ra mô hình này đó tạo lên một sự
chú ý to lớn và đó là mô hình đầu tiên của một thế hệ mới của các bộ mã hoá tiếng nó phân tích
bằng tổng hợp.Chúng có khả năng cho tiếng nói chất lượng cao tại tốc độ bit quanh 10 kbps và
có thể đến tận 4,8 kbps.Tín hiệu kích thích sẽ được tối ưu hoá một cách kỹ lưỡng và người ta sử
dụng kỹ thuật mã hoá dạng sóng để mã hoá tín hiệu kích thích này một cách có hiệu quả. Mô
hình tổng quát của mã hoá tiếng nói theo phương pháp LPC phân tích tổng hợp :

27
Hình 6 : Mô hình mã hóa tiếng nói theo phương pháp LPC
Trong đó
u(n) : Tín hiệu kích thích.
S*(n) : Tín hiệu tiếng nói tổng hợp
S(N) : Tín hiệu tiếng tiếng nói gốc
Ew(n) : Tín hiệu sai số.
Mô hình bao gồm 3 phần chính:
• Phần thứ nhất : Bộ lọc tổng hợp LPC ,là bộ lọc toàn cục biến đổi theo thời gian để
mô hình hoá đường bao phổ ngắn hạn của dạng sóng tiếng nói .Đầu ra của nộ lọc tổng hợp là tín
hiệu nói tổng hợp.
• Phần thứ 2 : Bộ tạo kích thích .Bộ này sẽ cho ra dãy kích thích cấp cho bộ lọc tổng
hợp để tạo ra tiếng nói tái tạo ở máy thu.Việc kích thích sẽ được tối ưu hoá bằng các cực tiểu hoá
sai lệch,các tính trọng số thụ cảm,giữa tiếng nói gốc và tiếng nói tổng hợp.
Phần thứ 3 : Thủ tục được sử dụng trong việc tối thiểu hoá sai lệch (Gồm 2 khối:tính
trọng số sai số và cực tiểu hoá sai số). Tiêu chuẩn cục tiểu hoá sai lệch được sử dụng rộng rói
nhất là sai lệch bình phương trung bình (mes:mean squared error).Trong mô hình này ,tiêu chuẩn
cực tiểu hoá sai số được sử dụng là :tín hiệu sai lệch ew(n) được đưa qua một bộ lọc đánh giá
trọng số sai số ,có tính trọng số thụ cảm ,và bộ lọc này sẽ tạo dạng phổ tạp âm theo một cách nào
đó để công suất tín hiệu sẽ tập chung nhất tại các tần số formant của phổ tiếng nói.
Thủ tục mà hoá :bao gồm 2 bước :bước 1 :thông số của bộ lọc tổng hợp được xác định
từ mẫu tiếng nói.Bước 2 :dãy kích thích tối ưu đối với bộ lọc này được xác định bằng cách cực
tiểu hoá sai số,có tính trọng số thụ cảm ,giữa tiếng nói gốc và tiếng nói tổng hợp.Khoảng thời
gian tối ưu hoá kích thích khoảng 4ữ7.5 ms, thấp hơn khung thời gian cập nhật thông số
LPC.Khung tiếng nó được chia thành nhiều khung con ,việc kích thích được xác định riêng rẽ
cho từng khung con .Các tham số của bộ lọc và tín hiệu kích thích sẽ được lượng tử hoá trước
khi gửi đến phía thu
28
Thủ tục giải mà :Cho tín hiệu kích thích đó được giải mã qua bộ lọc tổng hợp để tiếng
nói được khôi phục.
Có rất nhiều phương pháp mô hình hoá sự kích thích:Phương pháp kích thích đa xung
(MPE),phương pháp kích thích xung đều (RPE),phương pháp dự đoán tuyến tính kích thích mã
(CELP).Ở đây em chỉ đề cập đến phương pháp dự đoán tuyến tính kích thích mã CELP. Hiện
nay phương pháp này đó trở thành công nghệ chủ yếu cho mã hoá tiếng nói tốc độ thấp. .
5.1.3 Đánh giá chất lượng dịch vụ
5.1.3.1. Đánh giá theo chủ quan
Phương pháp đánh giá chất lượng tiếng nói theo chủ quan được trình bày trong khuyến
nghị P.800 của ITU-T[26]. Đánh giá theo chủ quan tức là căn cứ vào cảm nhận của con người để
đánh giá chất lượng dịch vụ .Ưu điểm của phương pháp này là đưa ra kết quả tổng hợp trực tiếp
dựa vào đánh giá chủ quan của con người .Tuy nhiên kết quả đánh giá theo phương pháp này chỉ
có tính định tính mà không có tính định lượng .Do đánh giá theo chủ quan mà mỗi cá nhân có
cách đánh giá rất khác nhau, nên muốn có kết quả chính xác cần phải lấy ý kiến của nhiều cá
nhân . Chính vì vậy đánh giá theo phương pháp này tốn rất nhiều thời gian và chi phí để thực
hiện cũng lớn.
Theo khuyến nghị P.800, đánh giá theo chủ quan được thực hiện trong các điều kiện :
phòng thí nghiệm ( chỉ nghe và hội thoại ) và trong thực tế bằng cách thăm dò ý kiến khách hàng.
5.1.3.2. Đánh giá theo khách quan.
Đánh giá theo khách quan tức là sử dụng máy đo để đo các thông số có liên quan đến chất lượng
tiếng nói . Có 3 phuơng pháp để thực hiện đánh giá theo khách quan: phương pháp so sánh dựa
vào các tín hiệu chuẩn đó biết theo khuyến nghị P.681 của ITU ;phương pháp xác định giá trị
tuyệt đối theo khuyến nghị p.561 của ITU-T [27] ; Đánh giá theo độ trễ.
a, Phương pháp so sánh với tín hiệu chuẩn theo khuyến nghị P.861 [28]
Sơ đồ khối đánh giá chất lượng mạng bằng phương pháp so sánh với tín hiệu chuẩn.

Hình 7 : Sơ đồ đánh giá chất lượng mạng bằng phương pháp so sánh với tín hiệu chuẩn
Phương pháp này đánh giá chất lượng được thực hiện lần lượt qua các bước sau:

29
• Chuẩn bị băng ghi tiếng nói để phát đi hoặc các bộ phát tín hiệu

• Đặt các thông số thí nghiệm phù hợp với điều kiện thực tế

• Xây dựng các bộ mã hóa chuẩn

• Đánh giá khách quan dựa vào các thông số về chất lượng thoại đo được

• Chuyển đổi từ đánh giá chất lượng theo các thông số khách quan sang chủ quan nếu cần
thiết

• Xử lý kết quả
Trong phương pháp này tiếng nói hoặc tín hiệu chuẩn được truyền tải theo hai hướng :
một hướng qua bộ mã chuẩn (G.711,G.726,GSM FR), một hướng qua mạng thực tế .Tín hiệu sau
khi truyền qua hai hướng này được đưa vào một bộ so sánh .Căn cứ vào các thông số của bộ mã
hoá chuẩn đó biết, sau khi so sánh ta sẽ thu được kết quả là các tông số chất lượng tiếng nói
truyền qua mạng so với bộ mã hoá chuẩn.Dựa vào kết quả thu được ,người tiến hành đo sẽ cho
điểm (MOS) và đánh giá hệ số phẩm chất Q của phần tử cần đo.
Tương tự cấu hình đo thể hiện trong hình 8 được sử dụng để đánh giá chất lượng thoại
của thiết bị đầu cuối.

Hình 8 : Sơ đồ đánh giá chất lượng thoại của thiết bị đầu cuối
Trong cấu hình đo này thay vì mạng thực tế ta cho thiết bị đầu cuối hoạt động cùng với bộ mô
phỏng mạng với các thông số đó biết .Sau đó tiến hành xử lý kết quả như trường hợp trên.
b, Phương pháp xác định giá trị tuyệt đối theo khuyến nghị P.561[27]
Trong phương pháp đo này ta bố trí các thiết bị đo tại các kênh cần đo trong khi kênh
này đang hoạt động ,bằng cách này ta xác định được thông số rất quan trọng của kênh thoại liên
quan tới tín hiệu thoại ,nhiễu và tiếng vọng .Bằng phương pháp này ta cũng có thể xác định được
các thông số liên quan đến truyền dẫn tín hiệu số.
Các thông số tín hiệu thoại cần đo

30
-Biên độ hiệu dụng: Được tính dựa và giá trị bình phương của biên độ thực tín hiệu và đơn vị
dBm (theo khuyến nghị P.56 của ITU-T)
-Biên độ trung bình : là giá trị trung bình của biên độ tín hiệu trong suốt khoảng thời gian cuộc
gọi (khoảng thời gian nhỏ nhất là 20 giây).
-Hệ số hoạt động : là tỷ lệ giữa khoảng thời gian giá trị tuyệt đối của biên độ tín hiệu lớn hơn
một giá trị quy định nào đó và toàn bộ khoảng thời gian đo.
Các thông số nhiễu cần đo
-Mức nhiễu : được tính bằng bình phương biên độ của nhiễu và được đo bằng dBm (theo
khuyến nghị G.212 của ITU-T).
-Biên độ trung bình của nhiễu : là giá trị trung bình biên độ của nhiễu trong suốt khoảng thời
gian cuộc gọi (khoảng thời gian nhỏ nhất là 1 phút ).
Các thông số tiếng vọng cần đo:
-Độ trễ tiếng vọng : đo bằng cách phát đi xung và độ trễ được tính từ khi biên độ bắt đầu bằng
giá trị điểm 0 chuẩn cho đến khi biên độ đột ngột tăng ứng với thời điểm xung phản hồi lại.
c, Đánh giá theo độ trễ
Có hai thông số về độ trễ liên quan trực tiếp đến chất lượng :
Trễ thiết lập cuộc gọi : liên quan đến chất lượng thiết lập cuộc gọi .Trong dịch vụ
thoại qua Internet (có nghĩa là liên quan đến mạng IP ) ,độ trễ này liên quan đến nhiều yếu tố và
rất xác định .Hiện nay ,thông số trễ thiết lập cuộc gọi này vẫn chưa có một phương pháp nào để
đo và vẫn còn đang được nghiên cứu .
Trễ tín hiệu điểm -điểm : liên quan trực tiếp đến chất lượng thoại trong mạng IP .Có
một phương pháp cho phép xác định một cách chín xác trễ tín hiệu từ điểm này tới điểm khác
bằng cách sử dụng lệnh Ping.

5.2.Chuẩn mã hóa audio mạng di động 3G dựa trên ARM-WB+


5.2.1. Giới thiệu về mạng di động 3G và ARM-WB+
Năm 2004, trong một quá trình đánh giá rộng rãi các codec, thử nghiệm các thuật toán
mã hóa khác nhau, đã đưa ra đặc điểm kỹ thuật các dịch vụ đa phương tiện của Release 6. Sau
khi xác định yêu cầu bắt buộc về thiết kế và hiệu năng cần thiết, kế hoạch thử nghiệm được đưa
ra và quá trình lựa chọn bao gồm cả thử nghiệm chủ quan nghe âm thanh để phân tích hiệu năng
các codec trong các điều kiện hoạt động khác nhau.
Dựa trên các tiêu chuẩn được lựa chọn và kết quả nghe, 3GPP đã chọn được 2 codec
cho các dịch vụ của Release 6, đó là AMR-WB+ và Enhanced AACPlus, đều thỏa mãn yêu cầu
về mã hóa audio.

31
5.2.2. Yêu cầu dịch vụ đối với audio mạng di động
Mã hóa audio cho các ứng dụng di động phải đối mặt với những yêu cầu khó khăn do
bản thân việc truyền tín hiệu di động là không dây. Tài nguyên truyền tải đối với audio ảnh
hưởng tới tổng dung lượng sóng của cả hệ thống liên lạcvà vì vậy bị giới hạn do cả lý do kỹ thuật
lẫn lý do kinh tế. Vậy nên để sử dụng tài nguyên sẵn có càng hiệu quả càng tốt, cần phải thiết kế
một audio codec phù hợp với những ứng dụng nhất định.
- Về nội dung audio

Hình 9 : Bảng trên liệt kê các trường hợp truyền audio/audio-visual trên môi trường di động
cùng với các yêu cầu kỹ thuật cần thiết như PSS (packet-switched streaming service), MBMS
(multimedia broadcast/multicast service), MMS (multimedia messaging service).
Như ta thấy, trong phần lớn các trường hợp đa số là truyền tiếng nói, nhạc và các nội
dung trộn lẫn. Hơn nữa, có những trường hợp đặc biệt mang tính cá nhân không thể áp dụng
cách truyền MBMS. Phân phối nhạc chất lượng cao với giai điệu tùy theo người mua cũng là
một dịch vụ mang tính cá nhân mà cơ chế truyền PSS hay MMS phù hợp hơn. Tất cả các trường
hợp trên có thể gồm riêng audio hay cả audio và video.
Yêu cầu về bitrate

32
Rõ ràng là khoảng bitrate cho các ứng dụng audio trên di động là khoảng từ 10-24
kbps. Do đó, tỉ lệ nén từ 64-150 là cần thiết nếu so với tín hiệu stereo PCM 16bit tần số lấy mẫu
48 kHz. Hơn nữa, không như các audio cổ điển, các ứng dụng mobile tương lai sẽ hướng đến đa
số là tiếng nói cùng với nhạc, và các nội dung trộn lẫn.
Một mặt khác quan trọng khác là khả năng sửa lỗi vì ít nhất trong truyền MBMS
streaming tỉ lệ mất gói tin với môi trường không dây là khá cao. Ngoài ra, độ phức tạp thấp đặc
biệt là bộ giải mã cũng rất quan trọng bởi điện thoại với khả năng tính toán có hạn phải quản lý
được việc giải mã đồng thời video và FEC.
5.2.3. Đánh giá về ứng dụng của ARM-WB .
Đánh giá chất lượng AMR-WB+ với EAAC+
Đánh giá dựa trên phương pháp MUSHRA theo những yêu cầu lựa chọn của 3GPP.
Phòng nghiên cứu của Ericsson và Nokia tiến hành test độc lập với những nội dung giống nhau.
Từng kết quả riêng rẽ được ghép lại tạo thành kết quả cuối cùng.
Các mẫu thử dùng để test là từ quá trình chọn codec audio low-rate của 3GPP. Để phù
hợp với các nội dung audio của các ứng dụng không dây trong tương lai, nội dung để test gồm 24
mẫu thử: 8 music, 8 speech, 4 speech-between-music, 4 speech-over-music. Tất cả mẫu thử là
stereo tần số lấy mẫu 48kHz.
Các trạng thái test gồm 3 trạng thái tương ứng với các codec hoạt động với output lấy
mẫu 48kHz, với AMR-WB+ là 14,18,24 kbps, EAAC+ là 16.1,18,24 kbps.

33
Kết quả
Theo kết quả test, AMR-WB+ cho kết quả tốt hơn EAAC+ ở mọi trạng thái với cùng một bitrate.
Ở khoảng bitrate thấp, AMR-WB+ thể hiện sự vượt trội, và sự khác biệt lớn ở bitrate 14 và
18kbps. Bên cạnh đó, việc thử nghiệm hiệu năng thay đổi với các nội dung audio khác nhau, cho
thấy AMR-WB+ cung cấp chất lượng ổn định với nhiều loại nội dung audio.

KẾT LUẬN

Do thời gian có hạn , đồng thời khả năng còn kém nên chúng em chưa thể đáp ứng được
toàn bộ yêu cầu của cô khi làm về đề tài này.Tuy nhiên chúng em cũng đã cố gắng hết sức mình
để hoàn thành tốt bài tập lớn lần này.
Chúng em chân thành cảm ơn sự giúp đỡ của cô, rất mong cô góp ý thêm để bài tập được
hoàn chỉnh hơn để chúng em có thể phát triển đề tài theo hướng nghiên cứu sâu về công nghệ
GSM hơn.

TÀI LIỆU THAM KHẢO

[1]. Slide bài giảng Multimedia của PGS.TS Nguyễn Thị Hoàng Lan, DHBKHN.
[2].The GSM Standard (An overview of its security), SANS Institute.
[3].Digital Signal Processcing and Filtering- GSM Codec, by Kristo Lehtonen
[4]. GSM and UMTS : The Creation of Global Mobile Communication, Edited by Friedhelm
Hillebrand, Copyright @ 2001 John Wiley & Sons Ltd.
[5].GSM 06.90, Vocal Technologies Ltd.
[5]. Mutimedia, PGS.TS Đỗ Trung Tuấn, Học viện Công nghệ bưu chính viễn thông.
[6]. Đồ án “ Đặc tính của tiếng nói và các phương pháp mã hóa”, <Không rõ tác giả> , Trường
đại học Giao thông vận tải.
[7].http://vi.wikipedia.org/wiki/H%E1%BB%87_th%E1%BB%91ng_th%C3%B4ng_tin_di_
%C4%91%E1%BB%99ng_to%C3%A0n_c%E1%BA%A7u
[8]. http://www.radio-electronics.com/info/cellulartelecomms/gsm_technical/audio-codecs-
vocoders-amr-celp.php
[9].Kỹ thuật nén VOIP, Bộ môn điện tử - viễn thông, trường Đại học kỹ thuật công nghiệp.
[10]. http://www.vocal.com/speech_coders/gsm_coders.html

34
[11]. Đồ án “Nghiên cứu ứng dụng công nghệ điện thoại trên Internet”, Phạm Việt Dũng, lớp
DTTH1 K40, DHBKHN.
[12]. Digital television fundamental, by Michael robin& Michel Poulin

35