Lame ATH and GPSYCHO

討論MP3、WAV、MIDI、WMA甚至其他數位音訊的播放、製作、轉換等。

版主: DearHoney

回覆文章
訪客

文章 訪客 »

FrankYang:

<font color=green> <br> 關於 Tiberius 的 LAME 參數簡介一文, 其中有關 noath 的部份, 我覺得有些爭議, 我曾經拿同樣的問題問過依莉琴斯的 jackei, 以下轉貼 jackei 的回答

==== 轉貼 ==== <br> ATH 是 Absolute Threshold of Hearing, 絕對聽覺極限. <br> 依年齡的不同而有不同的聽覺模型, 我不曉得 LAME 用的 Model 有多嚴苛. <br> 理想上應該使用十歲左右的模型, 這時候人的聽力最強, 能聽到的東西最多.

LAME 有兩套 Psychoacoustic Model, 先給 ATH 過濾之後再交給 GPSYCHO 濾一次. <br> GPSYCHO 考慮的東西更多, 比如說 joint stereo 可以砍某些東東, bitrate 在 <br> 某種程度之下又可以砍掉某些不明顯的東東節省 bitrate.

在有限 bitrate 下 GPSYCHO 有比較好的效果, 但在高 bitrate 下就未必. <br> 畢竟 bitrate 可以充分表達資訊的情況下, 聲音濾掉越多失真就越嚴重.

LAME 還有一個參數 -noath, 連 ATH 都不用了 (資訊量會爆增) <br> 如果還聽得出來差異, 表示 LAME 的 ATH 模型遜於受測者的聽覺.

==== 轉貼 ==== <br> </font>

Tiberius:

這一篇文章其實我只是把 LAME 的 USAGE 和 switches.html 拿出來照翻而已,並沒有再加入其他資料的內容,因此在這方面的說明上可能有所遺漏。 <br> 不過根據我看 LAME mailing list 和其他文章的敘述,他們的 Psycho-acoustic Model 應該就是指 GPSYCHO 這一個部分,而 ATH 就是 ATH,並不屬於 Psy-Model 的一部份?

FrankYang:

<font color=green> <br> 或者應該這樣說吧, LAME 有兩套 filter, 正常程序下 ATH 算是前端處理, ATH 濾過之後再交給 GPSYCHO, 可以肯定的是 ATH 會濾掉的東西比 GPSYCHO 少, 所以實在沒道理使用 noath 選項時, 還會交給 GPSYCHO 再處理一次. <br> 我的看法是這樣:

1. 正常情況: ATH 做完交給 GPSYCHO <br> 2. --athonly: 只做 ATH, 不做 GPSYCHO <br> 3. --noath: ATH 跟 GPSYCHO 都不做 <br> </font>
訪客

文章 訪客 »

我到 LAME 的官方網站逛了逛,沒有發現詳細說明這兩個參數的文件,因此以下是根據其他方面的文章和我進行實驗所做的推論。如果要正式的解答,可能就必須等到 LAME 的文章釋出,或者是到 mailing list 上面發文章了。

<a href="http://www.mp3dev.org/mp3/gpsycho/gpsycho.html" target=_blank>GPSYCHO</a> - "GPSYCHO is an open source psycho-acoustic and noise shaping model for ISO based MP3 encoders. GPSYCHO fixes some substantial bugs in the ISO demonstration source psycho-acoustic model (ISO psy-model). In addition, GPSYCHO adds mid/side stereo, real bit reservoir control, much improved critical band bit allocation routines, variable bit rate (optional) and very good pre-echo control. "

從這一段說明之中可以看出,壓縮過程中有許多重要資料和功\能都是由 GPSYCHO 執行演算的。要是資料沒有經過 GPSYCHO 的處理,有許多的壓縮功\能都會因此失效,這樣壓縮 MP3 就沒有意義了。

至於 --athonly 和 --noath,經過測試發現使用 "-V0" 和 "-V0 --noath" 壓縮出來的檔案只相差了 1 Kbps 的大小,可以發現使用 --noath 所過濾掉的資訊量並不是很多(或許可以藉由加上這個東西,稍微增加檔案的品質),同時也以發現 GPSYCHO 仍然有發揮作用(VBR 部分壓縮正常)。但是一旦改用 "-V0 --athonly" 就可以發現 VBR 的功能完全失效,除了一開頭的靜音會壓縮成 32 Kbps 之外,其餘的部分一律被壓縮成 320 Kbps,就算改用 "-V9 --athonly" 也是一樣。

您可以自己試試看。

對了,可以請您一併貼出您轉錄文章的版名和文章編號/精華區嗎?我也有在上伊莉琴斯,想去找來看看。
<!-- Edit Notice Start -->

<font size=-1>[ 這篇文章在 2001-02-24 07:58 被 Tiberius 編輯過 ]</font><!-- Edit Notice End -->
訪客

文章 訪客 »

to FrankYang 兄: <br> >3. --noath: ATH 跟 GPSYCHO 都不做 <br> 請問您覺得這個時候 Lame 是用什麼方法來篩選資料的? <br> 如果不作篩選,僅靠 Huffman 編碼,能把資料流量壓低到 320Kbps 嗎? ^_^
訪客

文章 訪客 »

剛剛看到 Mark Taylor 大大在 mailing list 上面提到現在所用的 ATH 還不是很棒....

可是為什麼 --noath 反而比較小!?不解中... ?_?
<!-- Edit Notice Start -->

<font size=-1>[ 這篇文章在 2001-02-24 07:58 被 Tiberius 編輯過 ]</font><!-- Edit Notice End -->
訪客

文章 訪客 »

版名是: animation, 那一篇我就不曉得了, 因為我自己會做資料整理, 所以是從我整理的資料中翻出來的

我是沒有仔細去觀察過啦, 如果照你所貼的那段文章來看, 看來就算是 athonly, 應該也會用到 GPSYCHO 才對.
訪客

文章 訪客 »

哦!動畫壓縮技術實驗室... 我會去找找看的。

我記得在那裡看到的都是 TooLAME <img src="http://www.dearhoney.idv.tw/UBB/NonCGI/icons/smile.gif" width=15 height=15>
回覆文章