至頂的那篇文章由於WaveSpectra使用的設定是Log 根本很難直接看出頻譜差異
http://forums.dearhoney.idv.tw/viewtopic.php?t=19810
因此我自己另外做了MP3 Ogg的比較
http://0rz.net/6811h
或許有人認定頻譜不能代表聽到的一切
但換個方向想頻譜都差了 聽到的聲音一定差
單獨聽高頻 聽不出來 但高低頻的合成波 少了高頻 絕對會影響品質 至少20kHz前保持不刪除音域是重點
舉個例子 雷射的繞射、干涉 干涉圖形 是會影響到繞射圖形的
(去除掉間隔較細干涉圖形 只留繞射 那表現出來的絕對不是雷射)
-----------------------------------------------------------------------------------------------
更新測試
1.使用WaveSpectra內的重疊比較 紅色是原始頻譜 紫色是編碼後頻譜
2.MP3編碼採用-alt preset CBR (之前那次CBR使用的是Very High Quality) MP3表現有些許提昇
-----------------------------------------------------------------------------------------------
最近沒什麼大新聞 (Mame的相關新聞 在這個blog是不會去討論它的 我不認為他是模擬器 而是一個開發計畫)
所以我就繼續3年前未完成的測試
這個測試起源於 看到 MD 的ATRAC3 plus編碼比較
讓我突發一想 把耳朵聽到的感覺 用圖形表示出來 (感覺很難拿來比較 但是可以看到的圖 說服力就很大 畢竟 有圖有證
據!!)
採樣方式
MP3 編碼方式皆使用CBR(固定位元流率)
因為VBR(變動位元流率)在MP3裡面有很多方式
但不管用哪個方式 都對MP3音質造成蠻大的損失
OGG編碼方式則是使用VBR方式, 畢竟OGG生來就具備VBR的特性
而使用CBR跟使用VBR對OGG的音質幾乎沒有任何影響
使用的音樂是Vivian 唱的Moment (Gundam Seed OP2) 截圖時間是開始後10秒
人耳能聽到的頻率是從15 Hz 至 20000 Hz 能聽到的音量是 10dB 至 130 dB
最敏感的區域是2000 Hz 至 3000 Hz
人耳對 聲音有無的感覺 遠比 聲音大小來的強烈
首先是 128 kbps 測試 中間沒有標示的圖是Original
可以很清楚的看到MP3 128kbps編碼下 在16096 Hz後聲音就被截斷 而截斷的那部份 還是屬於人耳可以清晰辨識的部份
而OGG128kbps編碼下 到了16376 Hz後 音波改變成失真較大的方式 而不截斷 直到20241 Hz後才完全被截斷
再來是192 kbps 測試 中間沒有標示的圖是Original
MP3 192kbps編碼下 在16322 Hz後聲音有些許起伏 在19207 Hz 聲音被截斷
OGG 192kbps編碼下到了21500 Hz後 音波就被截斷而之後的部份 幾乎算是人耳的極限 是很難被聽到的部份
最後是 320 kbps 測試 中間沒有標示的圖是Original
MP3 320kbps編碼下 在20682 Hz後聲音就被截斷
OGG 320kbps編碼則看不出有截斷的趨向 不過因為已經超出人耳極限 有沒有截斷 已經不重要了
看圖的重點是 紅色部份 被紫色遮蔽越多(紅色越少) 表示越接近 來源品質
因為MP3 Ogg 因為本身的編碼不同 可能造成與來源時間上的差距(即使是很小的時間差距都會對結果造成影響 )
因此本測試請將注意力集中於被截斷音域 及OGG MP3高頻上不同的處理方式
這個階段可以很明顯的看出 聲音截斷 與編碼是有很大的關係 而這部份 嚴重的影響到 聽的感受
還有一個部份是很難從圖上辨認出來 但對聽覺可能有影響
那就是在可以聽的到的區段 音質好壞 聲音是由各種不同頻率音波合成的
而這個部份很難被分析
不過就我自己的推論 0,1差異 遠比 1,2差異 大的多 只能說音域涵蓋最廣
與來源重疊越多的 越可能接近來源
結論: MP3 還是敗給OGG 不管是音質 還是編碼後的大小
(OGG中位元流率品質甚至比MP3高位元流率還好)
結論2:
mp3
1.在低位元流率 會直接截斷
2.中位元流率不會直接截斷 會有一小部份緩衝的高失真區域
3.高位元流率 則直接截斷聽不到的高頻
ogg
1.在低位元流率 不會直接截斷 會有長音域高失真緩衝區
2.中位元流率會直接截斷聽不到的高頻
3.高位元流率 則已經破表 超過人耳能聽到的極限
上面是我最近做的測試
但以我三年前的測試 160kbps的ogg可以剛好把品質控管到20kHz 在音質、檔案大小上取得平衡
補上一張160kbps的ogg (紫) 對上320kbps MP3 (紅)的圖
我自己做的MP3 OGG頻譜分析
版主: DearHoney
我自己做的MP3 OGG頻譜分析
最後由 emukim 於 2006-01-25 13:14 編輯,總共編輯了 2 次。
Re: 我自己做的MP3 OGG頻譜分析
Hi~~ 您在 http://0rz.net/6811h 的網頁的排版怪怪的,太向左偏了,左邊的字和圖都被截掉了,我用 IE6 來看的。emukim 寫:至頂的那篇文章由於WaveSpectra使用的設定是Log 根本很難直接看出頻譜差異
http://forums.dearhoney.idv.tw/viewtopic.php?t=19810
因此我自己另外做了MP3 Ogg的比較
http://0rz.net/6811h
...
Re: 我自己做的MP3 OGG頻譜分析
你可能沒注意到上面的"招呼語"falex 寫:Hi~~ 您在 http://0rz.net/6811h 的網頁的排版怪怪的,太向左偏了,左邊的字和圖都被截掉了,我用 IE6 來看的。emukim 寫:至頂的那篇文章由於WaveSpectra使用的設定是Log 根本很難直接看出頻譜差異
http://forums.dearhoney.idv.tw/viewtopic.php?t=19810
因此我自己另外做了MP3 Ogg的比較
http://0rz.net/6811h
...
是Yahoo Blog beta的問題 因為圖有點大(長?)的關係會很怪
可以把圖片下載回去看
如果要正常看建議使用1280x1204 或者等Yahoo blog修正版面問題
(blog內容顯示序應該是最優先的 左右兩欄在解析度不夠的狀態應該是要被犧牲掉的)
圖縮小 整個結果細節的部份 感覺上不是很好辨識
晚一點 再把那個blog轉到這裡
下面那個圖是Firefox解析度不夠看到的狀況
- 附加檔案
-
- 123.JPG (85.7 KiB) 已瀏覽 9483 次
低品質音樂大血殺
之前高品質MP3與OGG大對決 分析後
這次的分析是來證實 很久以前MP3pro 號稱他的64kbps比得上128kbps是不是真的? 綠色:來源
除了在5600Hz前後 有稍微失真 其他的部份 可以說跟MP3(128kbps)很接近(整體來說MP3pro音量偏離來源比較多)
->證實了MP3pro格式的確與MP3(128kbps)相當的接近
除了這一點外 在MP3pro概念提出前後 MS也出個Wma 號稱 有類似的效果
這次順便也測試看看 64kbps的Wma 是不是有同樣的結果
結果一目了然吧 在1000Hz Wma就敗下陣來
->Wma果然是虎爛的
接下來 把高品質表現優秀的OGG拿來跟MP3pro比較
OGG全音域 dB值高低失真大 截斷音域比Wma好 趨近於MP3pro的
MP3pro勝出
講到低品質音樂 就不能不提到RM 因此把RM抓過來比較(RM因使用64kbps會降地採樣率成32000Hz 不能比較所以這裡是用96kbps)
96kbps 的RM還是比不上MP3 Pro 跟64kbps 的OGG蠻類似的
RM在位元流率上設定本來就與64kbps的OGG不同 所以 OGG勝出
低品質MP3pro 全勝 關於檔案大小
MP3pro:1.92 MB Wma:1.95 MB OGG:1.95 MB RM:2.94 MB
結論: MP3pro>OGG 而RM跟WMA暫時無法比較(不過都比OGG差)
喔 對了 忘了附註一件事
我不認為encoder會隨著不同類型音樂 使用不同演算法
而是encoder有各自的特性 依據他的特性 在不同類型音樂上 人耳聽覺上會有不一樣的感覺 但其encoder的特性並沒有任何改變
什麼encoder適合什麼音樂類型這種想法是有問題的
只是剛好encoder的失真 那個音樂類型聽不出來
不能期待 人耳對各頻率都有相同的敏感度 能同時感受到各種細節
但是越接近來源頻譜 失真特性越少 的encoder 表現出的絕對越接近於來源 這個結論 並不會受限於音樂類型
基於這個前提下 找個高低頻 越複雜的來源比對頻譜 越接近來源頻譜的 就越好
不是找音樂去配合encoder 特性做測試
^^^^^^^^^^^這就好比路上找個人說他身高比總統高 那他的權利一定比總統大
不過我這個測試也是有缺失的地方
只能看那瞬間各頻率dB表現 不能看出前後時間 頻率表現狀況
這次的分析是來證實 很久以前MP3pro 號稱他的64kbps比得上128kbps是不是真的? 綠色:來源
除了在5600Hz前後 有稍微失真 其他的部份 可以說跟MP3(128kbps)很接近(整體來說MP3pro音量偏離來源比較多)
->證實了MP3pro格式的確與MP3(128kbps)相當的接近
除了這一點外 在MP3pro概念提出前後 MS也出個Wma 號稱 有類似的效果
這次順便也測試看看 64kbps的Wma 是不是有同樣的結果
結果一目了然吧 在1000Hz Wma就敗下陣來
->Wma果然是虎爛的
接下來 把高品質表現優秀的OGG拿來跟MP3pro比較
OGG全音域 dB值高低失真大 截斷音域比Wma好 趨近於MP3pro的
MP3pro勝出
講到低品質音樂 就不能不提到RM 因此把RM抓過來比較(RM因使用64kbps會降地採樣率成32000Hz 不能比較所以這裡是用96kbps)
96kbps 的RM還是比不上MP3 Pro 跟64kbps 的OGG蠻類似的
RM在位元流率上設定本來就與64kbps的OGG不同 所以 OGG勝出
低品質MP3pro 全勝 關於檔案大小
MP3pro:1.92 MB Wma:1.95 MB OGG:1.95 MB RM:2.94 MB
結論: MP3pro>OGG 而RM跟WMA暫時無法比較(不過都比OGG差)
喔 對了 忘了附註一件事
我不認為encoder會隨著不同類型音樂 使用不同演算法
而是encoder有各自的特性 依據他的特性 在不同類型音樂上 人耳聽覺上會有不一樣的感覺 但其encoder的特性並沒有任何改變
什麼encoder適合什麼音樂類型這種想法是有問題的
只是剛好encoder的失真 那個音樂類型聽不出來
不能期待 人耳對各頻率都有相同的敏感度 能同時感受到各種細節
但是越接近來源頻譜 失真特性越少 的encoder 表現出的絕對越接近於來源 這個結論 並不會受限於音樂類型
基於這個前提下 找個高低頻 越複雜的來源比對頻譜 越接近來源頻譜的 就越好
不是找音樂去配合encoder 特性做測試
^^^^^^^^^^^這就好比路上找個人說他身高比總統高 那他的權利一定比總統大
不過我這個測試也是有缺失的地方
只能看那瞬間各頻率dB表現 不能看出前後時間 頻率表現狀況
因為這一篇文章中我認為錯誤的地方實在太多(即使我所知的也不一定正確),所以忍不住想要討論:
把lowpass filter強制開在20kHz以上並不一定能提高聲音品質,在中低位元率的時候反而可能降低品質(依照encoder與檔案格式特性而定,例如MP3壓縮16kHz以上的聲音時效率不佳);各個lossy encoder選擇lowpass filter的頻率是由encoder的開發人員經由研究與實驗決定的,正常情況來說強制改變參數並不會造成品質變好。
至少在最近的double blind listening test之中,就有不少人無法分辨VBR的LAME壓縮的版本與原始版本的差別
另外,這個測試的參與人員一點也不認為64kBps的MP3Pro與128kBps的LAME MP3品質相近
而為了減少各種音樂不同特性對測試結果的影響所要做的事是盡量選擇各種不同種類的音樂分別測試(所以我上面提到的listening test都不只測一首),而不是刻意找複雜的音樂(即使要測遍所有的音樂類型是不可能的,但也不能因此只測一首就假定其它音樂結果會相近)。
1) 你只測了整首歌的一小部分(而且是非常小的部分),而這一小部分並不能代表整首歌,更不能代表其它歌。
2) 在這一部分音樂中,你無法由頻譜中看出哪些差異是人耳能夠分辨的,哪些是人耳難以察覺的。
3) 你也提到了,不能看出聲音隨著時間變化的情形;但這對人的聽覺來說是很重要的一部份(例如講話的語調變化)。
--
因為我沒有Yahoo帳號所以就沒貼那邊了。
總和的頻譜(不論是取平均或是極值)或是某一瞬間的頻譜相不相似與品質沒有一定的相關性,做出頻譜完全不相似但聽起來相似的聲音是可能的;做出頻譜相同但聽起來完全不同的聲音也是可能的。所以lossy encoder的品質比較應該依靠double blind test,而不是頻譜。這與RMAA音效卡的測試不同,因為RMAA用的是人工產生的特定測試訊號(而且是可以由程式分析結果的訊號)而不是整首都在變動的音樂;而且RMAA測試的是儀器的準確度,並不仔細探討訊號失真是否能被人耳察覺。或許有人認定頻譜不能代表聽到的一切
但換個方向想頻譜都差了 聽到的聲音一定差
單獨聽高頻 聽不出來 但高低頻的合成波 少了高頻 絕對會影響品質 至少20kHz前保持不刪除音域是重點
把lowpass filter強制開在20kHz以上並不一定能提高聲音品質,在中低位元率的時候反而可能降低品質(依照encoder與檔案格式特性而定,例如MP3壓縮16kHz以上的聲音時效率不佳);各個lossy encoder選擇lowpass filter的頻率是由encoder的開發人員經由研究與實驗決定的,正常情況來說強制改變參數並不會造成品質變好。
我們討論的是聲音,與光學有不同的特性…而且這個比喻與剛剛討論的頻譜沒有相關性(如果你是討論聲音的反射與折射造成的回音也許就可以比較)舉個例子 雷射的繞射、干涉 干涉圖形 是會影響到繞射圖形的
(去除掉間隔較細干涉圖形 只留繞射 那表現出來的絕對不是雷射)
這樣用圖誤導人的機會很大,因為圖形就與聽到的感覺不太相關了,比如來說,人耳在各個頻段的解析度是不同的,這在頻譜圖形中表現不出來;人耳在不同頻段中所能聽見的最低音量是不同的,這在頻譜圖形中表現不出來;人耳對於不同聲音之間的相互影響(例如音量大的聲音可以掩蓋音量小的聲音,讓音量小的聲音聽不見)在頻譜中表現不出來;而一些lossy encoder的壓縮瑕疵,例如ringing effect、pre echo等等,在頻譜圖形中也表現不出來。一個好的lossy encoder的任務就是盡可能移除人耳不容易察覺的聲音,保留人耳可以聽到的部分,雖然頻譜有時可以發現encoder的bug(例如以前的Vorbis encoder有high frequency boost的bug),但卻不能用來判斷encoder的品質。讓我突發一想 把耳朵聽到的感覺 用圖形表示出來 (感覺很難拿來比較 但是可以看到的圖 說服力就很大 畢竟 有圖有證據!!)
你沒有說明是使用哪個MP3 encoder,我假定你是用LAME(從使用的壓縮選項猜測);LAME的開發人員從沒說過VBR會對音質造成損失這種事(除了尚未經過嚴格調較的低位元率(<96kbps)模式使用VBR品質會比較不穩定以外);並鼓勵我們在LAME裡面使用VBRMP3 編碼方式皆使用CBR(固定位元流率)
因為VBR(變動位元流率)在MP3裡面有很多方式
但不管用哪個方式 都對MP3音質造成蠻大的損失
你想說的是Vorbis(Codec)而不是Ogg(Container);Vorbis的開發人員表示在Vorbis中使用CBR會降低Vorbis的音質,所以完全不鼓勵開啟bitrate management mode使用ABR或CBR;另外,你沒有標示使用的Vorbis encoder版本OGG編碼方式則是使用VBR方式, 畢竟OGG生來就具備VBR的特性
而使用CBR跟使用VBR對OGG的音質幾乎沒有任何影響
使用的音樂是Vivian 唱的Moment (Gundam Seed OP2) 截圖時間是開始後10秒
既然你知道人耳對某些頻率較為敏感(數值是否正確我沒有查證,好像也是錯的),也就是知道人耳對某些頻率較為不敏感——那麼對於失真就不能用圖形的差距來表現了,因為對人耳不敏感的頻率(例如高頻的區域)失真較大是可以允許的,而對於人耳敏感的區域則較不能允許失真人耳能聽到的頻率是從15 Hz 至 20000 Hz 能聽到的音量是 10dB 至 130 dB
最敏感的區域是2000 Hz 至 3000 Hz
LAME選擇在128kBps不保留16kHz以上的頻率是有技術上的考量(sfb21 problem),刻意保留高頻也許頻譜會更好看,但是對音質反而會有負面的影響(所以LAME的開發者選擇不這麼做);而缺少的高頻的部分是否人耳可以清晰辨識;我想並不盡然可以很清楚的看到MP3 128kbps編碼下 在16096 Hz後聲音就被截斷 而截斷的那部份 還是屬於人耳可以清晰辨識的部份
而OGG128kbps編碼下 到了16376 Hz後 音波改變成失真較大的方式 而不截斷 直到20241 Hz後才完全被截斷
至少在最近的double blind listening test之中,就有不少人無法分辨VBR的LAME壓縮的版本與原始版本的差別
遮蔽的區域多寡與聽覺的感受沒有一定的關係;另外時間上的差距如果你是指encoder offset的話,Ogg Vorbis內部就會處理掉,而LAME壓縮的MP3在遇到支援的decoder的時候也會處理掉。而把注意力集中在被截斷音域與高頻的處理方式上完全不能表現encoder整體的品質。看圖的重點是 紅色部份 被紫色遮蔽越多(紅色越少) 表示越接近 來源品質
因為MP3 Ogg 因為本身的編碼不同 可能造成與來源時間上的差距(即使是很小的時間差距都會對結果造成影響 )
因此本測試請將注意力集中於被截斷音域 及OGG MP3高頻上不同的處理方式
lowpass filter的頻率設定與不只與編碼方式有關,使用不同的encoder、或是同一encoder的不同版本、或是同一encoder版本使用不同參數都可能不同,這部分雖然影響聽的感受但也不見得保留越多高頻越好。這個階段可以很明顯的看出 聲音截斷 與編碼是有很大的關係 而這部份 嚴重的影響到 聽的感受
所以我們使用listening test(或其它方法)來比較壓縮方式的好壞,而不是頻譜還有一個部份是很難從圖上辨認出來 但對聽覺可能有影響
那就是在可以聽的到的區段 音質好壞 聲音是由各種不同頻率音波合成的
而這個部份很難被分析
這個結論(Vorbis優於MP3)看不出與上面的推論的關係(上面推論只是說可能,結論卻是確定的),你能解釋得更清楚嗎?不過就我自己的推論 0,1差異 遠比 1,2差異 大的多 只能說音域涵蓋最廣
與來源重疊越多的 越可能接近來源
結論: MP3 還是敗給OGG 不管是音質 還是編碼後的大小
(OGG中位元流率品質甚至比MP3高位元流率還好)
事實上lowpass filter的參數無論是在LAME或是Vorbis encoder裡面都是可調的,你測的只是預設值,要調整到頻譜更好看完全是可行的;只是encoder的開發人員認為這樣反而會降低音質結論2:
mp3
1.在低位元流率 會直接截斷
2.中位元流率不會直接截斷 會有一小部份緩衝的高失真區域
3.高位元流率 則直接截斷聽不到的高頻
ogg
1.在低位元流率 不會直接截斷 會有長音域高失真緩衝區
2.中位元流率會直接截斷聽不到的高頻
3.高位元流率 則已經破表 超過人耳能聽到的極限
MP3Pro對於高頻的壓縮處理方式與MP3完全不同,遇到某些情況例如高頻區段聲音與低頻區段沒有相關性時;或是某些高頻特別突出的樂器如三角鐵時壓縮瑕疵將會變得明顯;所以無法藉由單一情況比較出整體的品質除了在5600Hz前後 有稍微失真 其他的部份 可以說跟MP3(128kbps)很接近(整體來說MP3pro音量偏離來源比較多)
->證實了MP3pro格式的確與MP3(128kbps)相當的接近
另外,這個測試的參與人員一點也不認為64kBps的MP3Pro與128kBps的LAME MP3品質相近
這裡有歷史錯亂的問題,WMA Std比MP3Pro早很多發表,而WMA Pro目前沒有64kbps的壓縮模式除了這一點外 在MP3pro概念提出前後 MS也出個Wma 號稱 有類似的效果
這次順便也測試看看 64kbps的Wma 是不是有同樣的結果
即使在大部分情況下你的結論是對的(i.e. 沒有遇到對MP3Pro特別不利的上述兩個情況時);原因也是錯的,Vorbis在64kbps時品質不比MP3Pro決不是因為少掉那一點高頻(如果你要把lowpass filter調到一樣高也是可以),其它的壓縮瑕疵才是影響品質的關鍵OGG全音域 dB值高低失真大 截斷音域比Wma好 趨近於MP3pro的
MP3pro勝出
雖然encoder不能分辨音樂類型,但encoder當然很可能會依據聲音特性的不同選擇使用不同的演算法…例如Ogg Vorbis encoder會依據左右聲道間的關係選擇不同的channel coupling,會依據聲音特性選擇使用short block或是long block,會依據頻率分佈選擇要在Floor或是Residue區域壓縮內容…結果可能導致encoder對不同音樂類型會有不同結果喔 對了 忘了附註一件事
我不認為encoder會隨著不同類型音樂 使用不同演算法
而是encoder有各自的特性 依據他的特性 在不同類型音樂上 人耳聽覺上會有不一樣的感覺 但其encoder的特性並沒有任何改變
就因為人耳對各頻率都有不同的敏感度,所以encoder的目的是在人耳不敏感的部分捨去資訊讓人耳能聽出的失真越少越好,而不是頻譜上能看出的失真越少越好。所以只要人耳無法聽出,頻譜是否接近根本無所謂。什麼encoder適合什麼音樂類型這種想法是有問題的
只是剛好encoder的失真 那個音樂類型聽不出來
不能期待 人耳對各頻率都有相同的敏感度 能同時感受到各種細節
但是越接近來源頻譜 失真特性越少 的encoder 表現出的絕對越接近於來源 這個結論 並不會受限於音樂類型
基於這個前提下 找個高低頻 越複雜的來源比對頻譜 越接近來源頻譜的 就越好
不是找音樂去配合encoder 特性做測試
^^^^^^^^^^^這就好比路上找個人說他身高比總統高 那他的權利一定比總統大
而為了減少各種音樂不同特性對測試結果的影響所要做的事是盡量選擇各種不同種類的音樂分別測試(所以我上面提到的listening test都不只測一首),而不是刻意找複雜的音樂(即使要測遍所有的音樂類型是不可能的,但也不能因此只測一首就假定其它音樂結果會相近)。
這個缺失很明顯不過我這個測試也是有缺失的地方
只能看那瞬間各頻率dB表現 不能看出前後時間 頻率表現狀況
1) 你只測了整首歌的一小部分(而且是非常小的部分),而這一小部分並不能代表整首歌,更不能代表其它歌。
2) 在這一部分音樂中,你無法由頻譜中看出哪些差異是人耳能夠分辨的,哪些是人耳難以察覺的。
3) 你也提到了,不能看出聲音隨著時間變化的情形;但這對人的聽覺來說是很重要的一部份(例如講話的語調變化)。
--
因為我沒有Yahoo帳號所以就沒貼那邊了。
瞬間頻譜失真變動 的確很大(尤其是MP3)lwb 寫:因為這一篇文章中我認為錯誤的地方實在太多(即使我所知的也不一定正確),所以忍不住想要討論:總和的頻譜(不論是取平均或是極值)或是某一瞬間的頻譜相不相似與品質沒有一定的相關性,做出頻譜完全不相似但聽起來相似的聲音是可能的;做出頻譜相同但聽起來完全不同的聲音也是可能的。所以lossy encoder的品質比較應該依靠double blind test,而不是頻譜。這與RMAA音效卡的測試不同,因為RMAA用的是人工產生的特定測試訊號(而且是可以由程式分析結果的訊號)而不是整首都在變動的音樂;而且RMAA測試的是儀器的準確度,並不仔細探討訊號失真是否能被人耳察覺。或許有人認定頻譜不能代表聽到的一切
但換個方向想頻譜都差了 聽到的聲音一定差
單獨聽高頻 聽不出來 但高低頻的合成波 少了高頻 絕對會影響品質 至少20kHz前保持不刪除音域是重點
我想你可以換個方向想 當聲音滿足每一瞬間頻譜 它總和頻譜 一定也滿足
(第一篇主要的訴求就是失真變動都不大)
瞬間頻譜不相同 很難相信它總和的效果 頻譜是探討瞬間最好的方式
各頻率音量相同 在最基本的原理上就是一樣的聲音
你可以很清楚的看到我第一篇強調的是高品質的互相比較 編碼的特性把lowpass filter強制開在20kHz以上並不一定能提高聲音品質,在中低位元率的時候反而可能降低品質(依照encoder與檔案格式特性而定,例如MP3壓縮16kHz以上的聲音時效率不佳);各個lossy encoder選擇lowpass filter的頻率是由encoder的開發人員經由研究與實驗決定的,正常情況來說強制改變參數並不會造成品質變好。
(目的是要看 20kHz以下 各encoder表現出的失真狀況)
而不是在 各coder強制將lowpass filter開在20kHz頻譜的差異(硬將音域提高到20kHz 不管低頻失真度)
品質要好 就要保留最多的細節(不管低頻高頻都要滿足)
這你可錯了 繞射、干涉都是光的波動性 只要是波都會有的特性 尤其是聲音的音波我們討論的是聲音,與光學有不同的特性…而且這個比喻與剛剛討論的頻譜沒有相關性(如果你是討論聲音的反射與折射造成的回音也許就可以比較)舉個例子 雷射的繞射、干涉 干涉圖形 是會影響到繞射圖形的
(去除掉間隔較細干涉圖形 只留繞射 那表現出來的絕對不是雷射)
(這不是幾何光學 這是波動光學)
如果不相信的話 翻一下 高中普通物理
我要強調的是 保留所有能被察覺的因素(雖然他們的表現出的東西 跟我要說得保留細節不太相同 只是個比喻)
這就是我們看法不同的地方 保留所有細節(最大解析度 最接近原始的音量) 接下來就交給 耳朵自己去判斷這樣用圖誤導人的機會很大,因為圖形就與聽到的感覺不太相關了,比如來說,人耳在各個頻段的解析度是不同的,這在頻譜圖形中表現不出來;人耳在不同頻段中所能聽見的最低音量是不同的,這在頻譜圖形中表現不出來;人耳對於不同聲音之間的相互影響(例如音量大的聲音可以掩蓋音量小的聲音,讓音量小的聲音聽不見)在頻譜中表現不出來;而一些lossy encoder的壓縮瑕疵,例如ringing effect、pre echo等等,在頻譜圖形中也表現不出來。一個好的lossy encoder的任務就是盡可能移除人耳不容易察覺的聲音,保留人耳可以聽到的部分,雖然頻譜有時可以發現encoder的bug(例如以前的Vorbis encoder有high frequency boost的bug),但卻不能用來判斷encoder的品質。讓我突發一想 把耳朵聽到的感覺 用圖形表示出來 (感覺很難拿來比較 但是可以看到的圖 說服力就很大 畢竟 有圖有證據!!)
不需要針對 各頻率的特性做失真 而是對聽不到的頻率做失真
尤其在現在、未來 不像過去 要求檔案size要小(因為現在硬碟夠大 整個環境也允許)
針對人耳還可以察覺到的區域(察覺到的程度還不一樣)做一樣程度的失真 不是個明智的決定
當encoder瑕疵特性大到 聽的出來 沒理由頻譜 沒有變化 (人耳的敏感度沒有到那麼好的程度)
如果你需要 的話 我再補 用log設定 貼圖出來
不過我可以先跟你說 高、中品質下幾乎相同 128kbps以下低品質 才會犧牲掉最敏感的區域
(開發encoder的人 絕對不會白痴到不注意到這個部份 而輕易失真)
沒錯是Lame 不過我跟LAME開發人員 不熟 不知道他的說法 但依據我私下測試有差異性你沒有說明是使用哪個MP3 encoder,我假定你是用LAME(從使用的壓縮選項猜測);LAME的開發人員從沒說過VBR會對音質造成損失這種事(除了尚未經過嚴格調較的低位元率(<96kbps)模式使用VBR品質會比較不穩定以外);並鼓勵我們在LAME裡面使用VBRMP3 編碼方式皆使用CBR(固定位元流率)
因為VBR(變動位元流率)在MP3裡面有很多方式
但不管用哪個方式 都對MP3音質造成蠻大的損失
在同樣的設定 用lame encoder 一個CBR 另一個開128kbps~320kbps
或許你可以試試看 告訴大家你的看法 結果或許會與我不同
CDex 1.51的Ogg Vorbis encoder版本只有一個(我blog裡有回覆說明) 我使用的就是那個你想說的是Vorbis(Codec)而不是Ogg(Container);Vorbis的開發人員表示在Vorbis中使用CBR會降低Vorbis的音質,所以完全不鼓勵開啟bitrate management mode使用ABR或CBR;另外,你沒有標示使用的Vorbis encoder版本OGG編碼方式則是使用VBR方式, 畢竟OGG生來就具備VBR的特性
而使用CBR跟使用VBR對OGG的音質幾乎沒有任何影響
使用的音樂是Vivian 唱的Moment (Gundam Seed OP2) 截圖時間是開始後10秒
CBR品質會比VBR來的差 我倒是蠻想看那個開發人員的說法
該不會是下面那種情形吧
當用Ogg VBR 320kbps 用播放器播放出的kbps顯示值是平均值(假設是220kbps) 它大概是在敘述 用平均值 220kbps CBR 品質會比VBR 320kbps 來的差
Ogg的CBR VBR 音質 沒有差異 也是我自己測試的結果
你也可以自己測試看看 或許你可以得出 跟我不同的結果
如果你覺得數值是錯誤的 你可以去查證一下(我也建議 幫我查證一下 因為我只查資料 沒有實際去體驗)既然你知道人耳對某些頻率較為敏感(數值是否正確我沒有查證,好像也是錯的),也就是知道人耳對某些頻率較為不敏感——那麼對於失真就不能用圖形的差距來表現了,因為對人耳不敏感的頻率(例如高頻的區域)失真較大是可以允許的,而對於人耳敏感的區域則較不能允許失真人耳能聽到的頻率是從15 Hz 至 20000 Hz 能聽到的音量是 10dB 至 130 dB
最敏感的區域是2000 Hz 至 3000 Hz
1.聽不到的頻率 在頻譜上 你也看不到
2.最敏感的區域 在頻譜上 你可以看的到
只不過沒有像置頂的那篇文章採用的設定明顯 因為我測試的主要目的是 看全區域 失真情形 而log的設定 很難看出 高頻的表現
(需要的話可以Po出來 他們的資料我還有留著)
第一篇測試 就是在看頻譜 各頻率 在不同encoder下的的表現狀況
要求的是20kHz以下 失真最少
128kbps的MP3刻意保留20kHz並不會讓頻譜好看 (這是你我看法不同的地方) 反而低頻失真更大 既然頻譜不同 品質自然不同LAME選擇在128kBps不保留16kHz以上的頻率是有技術上的考量(sfb21 problem),刻意保留高頻也許頻譜會更好看,但是對音質反而會有負面的影響(所以LAME的開發者選擇不這麼做);而缺少的高頻的部分是否人耳可以清晰辨識;我想並不盡然可以很清楚的看到MP3 128kbps編碼下 在16096 Hz後聲音就被截斷 而截斷的那部份 還是屬於人耳可以清晰辨識的部份
而OGG128kbps編碼下 到了16376 Hz後 音波改變成失真較大的方式 而不截斷 直到20241 Hz後才完全被截斷
至少在最近的double blind listening test之中,就有不少人無法分辨VBR的LAME壓縮的版本與原始版本的差別
在相同的kbps下 相同encoder 保留較大音域的那個 一定會有較大的失真(而這個失真可能遍佈於整個音域中)
每秒固定的資料流率 會因為要記憶的區域變廣 導致記憶的細節越少
舉例就像Jpeg 固定20KB 但是解析度640x480 1024x768 的狀況
為了記住更大的解析度 反而顏色失真 雜訊變多
1.你必須要證明encoder offset 在有支援的decoder下 可以被去除遮蔽的區域多寡與聽覺的感受沒有一定的關係;另外時間上的差距如果你是指encoder offset的話,Ogg Vorbis內部就會處理掉,而LAME壓縮的MP3在遇到支援的decoder的時候也會處理掉。而把注意力集中在被截斷音域與高頻的處理方式上完全不能表現encoder整體的品質。看圖的重點是 紅色部份 被紫色遮蔽越多(紅色越少) 表示越接近 來源品質
因為MP3 Ogg 因為本身的編碼不同 可能造成與來源時間上的差距(即使是很小的時間差距都會對結果造成影響 )
因此本測試請將注意力集中於被截斷音域 及OGG MP3高頻上不同的處理方式
2.且又要證明轉換用的程式 不會對不同的encoder做不同的事(wav->???->wav)
把時間分散到各sample數上 你知道前後sample的時間差距是多少?可是10^-5秒
即便是開發人員保證offset可以被去除 但是你相信轉換程式對於不同encoder 轉換時保證沒有10^-5的差距嗎?
這是前人沒辦法證實的事
不過假設一切符合理想狀態 (offset可以被去除 與來源的差異是人耳敏感的察覺到的)
那你應該可以清楚的聽出來 MP3 各種不同設定下的320kbps音樂的差異
但事實上不能 不是人耳太鈍、要不然就是有offset 不然就是兩個都有
所以我認為頻譜重複性越大 就代表越接近來源
音域當然不是越寬越好 我要說得是頻譜越相同的越好(當音域寬了 低頻卻失真頻譜並不會好看)lowpass filter的頻率設定與不只與編碼方式有關,使用不同的encoder、或是同一encoder的不同版本、或是同一encoder版本使用不同參數都可能不同,這部分雖然影響聽的感受但也不見得保留越多高頻越好。這個階段可以很明顯的看出 聲音截斷 與編碼是有很大的關係 而這部份 嚴重的影響到 聽的感受
在低頻幾乎全部符合 追求高頻不失真 不是一件壞事吧
而這種方式 就是被我認定不科學的方式 listening test 誰會相信所以我們使用listening test(或其它方法)來比較壓縮方式的好壞,而不是頻譜還有一個部份是很難從圖上辨認出來 但對聽覺可能有影響
那就是在可以聽的到的區段 音質好壞 聲音是由各種不同頻率音波合成的
而這個部份很難被分析
或許有人說它聽的無線電的聲音 聽到X-ray的聲音 不過誰會相信
所以主張 頻譜相同 (目前最科學的方式)
"越可能"總比"不可能"好 截斷是不可能與原音源類似 這是結論是確定性的原因這個結論(Vorbis優於MP3)看不出與上面的推論的關係(上面推論只是說可能,結論卻是確定的),你能解釋得更清楚嗎?不過就我自己的推論 0,1差異 遠比 1,2差異 大的多 只能說音域涵蓋最廣
與來源重疊越多的 越可能接近來源
結論: MP3 還是敗給OGG 不管是音質 還是編碼後的大小
(OGG中位元流率品質甚至比MP3高位元流率還好)
這說法其實來自人類對於各種類比的感覺
人對色彩灰階深淺感覺不會比黑白來的強烈 人對聲音大小 不會比 有無來的強烈
在同樣的kbps下事實上lowpass filter的參數無論是在LAME或是Vorbis encoder裡面都是可調的,你測的只是預設值,要調整到頻譜更好看完全是可行的;只是encoder的開發人員認為這樣反而會降低音質結論2:
mp3
1.在低位元流率 會直接截斷
2.中位元流率不會直接截斷 會有一小部份緩衝的高失真區域
3.高位元流率 則直接截斷聽不到的高頻
ogg
1.在低位元流率 不會直接截斷 會有長音域高失真緩衝區
2.中位元流率會直接截斷聽不到的高頻
3.高位元流率 則已經破表 超過人耳能聽到的極限
A encoder保留住所有低頻訊號 但高頻失真
B encoder保留住所有低頻訊號 但高頻失真卻比A少很多(且更接近於來源) 你認為會是設定的問題嗎
同樣的kbps 頻譜上B可以做到比A好 但是A說他的頻譜可以做的跟B一樣好但是它不做 因為會影響音質 你相信嗎
我想它不做的原因是 A顧不了那麼多 如果要把高頻納入編碼範圍 它低頻失真會很大 這才是音質差的原因
下篇待續
雖然你回覆一開頭就批觀念錯誤 不過我認為你對頻譜的認知有小問題
頻譜好看 並不是音域寬就好 還要符合來源 可以聽到的範圍(20kHz以下) 不應該被失真
即使那個人耳對那個頻率(20kHz以下)敏感度不大 但那個頻率會影響到其他頻率的表現狀況(單獨的去除是有問題的)
edit: 不打算繼續回覆後半段了 後半段 大致上 我的回覆跟這一段相同
主要在於頻譜認知有差異 聲音只要在可辨識頻譜範圍符合 一致 它就可以被稱為相同
就像是[判斷物質組合 用質譜儀]、分析DNA、辨識聲紋、驗血(尿)
只要符合相關特性 它就是那個東西 總和符合 並沒有 瞬間符合 那樣有證據力
(總和符合 瞬間不符合是很難相信的一件事 畢竟總和必須由瞬間累積起來的)
再來是人的聽覺並無敏銳到 聽的出來瑕疵 但頻譜顯示不出來那個瑕疵
最後聲音中低頻(人最敏感的區域)帶來最主要音階高低 但是品質則要靠高頻區域附加上去
記得高中物理有提到 我記得那個東西叫做諧波(或許會記錯) ->而它是高頻的
諧波是決定音階的來源的特性(譬如Do可以由小提琴、鋼琴、喇叭...發出來的)
人類是依據諧波去判斷音階是什麼樂器發出來的 對諧波做失真 不會影響到音階高低變化 但會影響到音階的品質
聽起來就不會像是來源的 小提琴、鋼琴、喇叭... 而會變成大類別的弦樂器、管樂器....
如果高頻失真更大 甚至失真到中低頻 會聽到很奇怪的聲音 但它還是可以被辨識的
(日本部份 有用人聲的flash 就有這種現象 聽的出來是什麼字 但很怪)
因此追求高音質 除了中低頻不失真 高頻的保留還是必須的
雖然很累又很浪費時間,可是我還是不得不回你回應中的錯誤與弱點,不然感覺很像我不負責任地搗亂了就跑。
補注:回頭來看這篇,因為我的耐心不夠所以有些地方我寫得有點酸請一笑置之。你的blog中關於模擬器的部分還蠻豐富的,只是我現在都沒有玩它們的慾望……
重點是頻譜與聽起來的歌曲品質之間沒有保證相關性;頻譜看得到的,不見得聽得見;頻譜沒看到的,不見得聽不出。
而且沒聽人說過頻譜是探討瞬間最好的方式;既然你說你是用WaveSpectra產生圖形的,那應該知道裡面有FFT Sample數量的設定——也就是說頻譜是由一小段波型產生的根本不是瞬間,如果(理論上)真的要探討瞬間的話,就該以sample為單位比較。(雖然這樣比較對現代的失真壓縮也沒有意義)。
各頻率音量相同 在最基本的原理上就是一樣的聲音——這句話本身是對的沒錯;但是我們要求的不是真正一樣的聲音,而是聽起來一樣的聲音。雖然一樣的聲音(頻譜相同)聽起來一定一樣;但聽起來一樣的聲音實際上不一定需要完全相同(所以頻譜不一定相同)。
品質要好,就要保留最多的細節——但是在容量有限的情形下,encoder就得做出取捨,儘可能保留對人聽覺最有意義的細節。而哪些細節對人有意義則是由encoder的開發者與encoder的psycho-acoustic model來推測的,而psycho-acoustic model並沒有被賦予讓頻譜好看的任務。
而你頻譜分析的精確度,在中低頻下根本不及人耳能夠察覺的細節(所以即使重疊也不能保證人耳聽不出,何況這部分只要人耳不會察覺,也沒有重疊的必要性;例如經過ATH與masking effect*處理過之後的頻譜就與原本的不同了),在高頻上又有一段對人耳不重要的超音波(即使有一部分人能夠聽到20kHz的聲音,不代表能夠聽出經過18kHz lowpass-filter的音樂,因為音樂中18kHz以下的部分的音量很可能足以掩蓋過18kHz以上的部分,讓人聽不見18kHz以上的部分)。
另外既然你已經知道lowpass filter是可調的,你可以實驗看看在128kbps MP3中即使把lowpass filter調高,你也知道這樣會導致中低頻的部分準確度降低(不論這些降低能不能被你聽到)——你仍然不一定能從頻譜中明顯看出差別,至少我實驗了以後是看不出啦(我是用LAME 3.97b2,使用的參數是lame -b 128 01.wav 01b128.mp3與lame -b 128 --lowpass 20 01.wav 01b128l20.mp3,實驗的歌曲是r.o.r/s的《dazzle》專輯的第一首《感傷不感情》)。
*ATH與masking effect:兩者都是目前失真聲音壓縮中常用的技術,目前常見的MP3、AAC 與Vorbis encoder都有使用。
「我要強調的是 保留所有能被察覺的因素」——encoder的目標是保留能被人耳聽到的因素,然後你用頻譜分析看並擅自認為頻譜分析看起來難看的就會難聽就是你的錯誤之一。
CBR多少和128kbps~320kbps比較?如果你連這點都沒有寫的話我要試甚麼?你私下測試是用甚麼方法?double-blind listening test嗎?
LAME在之前的版本是推薦--preset參數,而現在則是推薦-V參數,而且都不要限制位元率能達到開發人員認為的最佳品質。
http://wiki.hydrogenaudio.org/index.php ... r_Settings
http://www.geocities.jp/aoyoume/aotuv/
或衍生的高速版Lancer
Monty, lead developer of the Ogg Project:「Ogg always performs best in its native VBR mode. CBR and ABR are lower quality techniques, but useful for streaming.」這個是Vorbis壓縮格式的開發者與制訂者說的,夠有公信力了吧?
Vorbis在制訂規格的初期就已經有可以去除encoder offset的設計,詳見Vorbis I規格書
The granule (PCM) position of the first page need not indicate that the stream started at position zero. Although the granule position belongs to the last completed packet on the page and a valid granule position must be positive, by inference it may indicate that the PCM position of the beginning of audio is positive or negative.
* A positive starting value simply indicates that this stream begins at some positive time offset, potentially within a larger program. This is a common case when connecting to the middle of broadcast stream.
* A negative value indicates that output samples preceeding time zero should be discarded during decoding; this technique is used to allow sample-granularity editing of the stream start time of already-encoded Vorbis streams. The number of samples to be discarded must not exceed the overlap-add span of the first two audio packets.
雖然因為這是規格書所以很難懂,重點是第二點的A negative value...的內容,總之這是一個可以用來移除encoder offset的設計;並且官方的encoder與decoder都有實做。
而LAME tag就不是官方規格了,但是LAME與foobar2000有實做。
至於「把時間分散到各sample數上」這件事,我相信沒有decoder閒著沒事在做這種東西的。
所以因為我木耳不能分辨320kbps的(某種Encoder壓縮過的聲音),頻譜就是對的?這個推論怎麼能成立?
以一個常見的listening test測試程式abchr為例:
使用者會被給予多組測試單位,每一單位有一個聲音確定是原始聲音(ref:reference),另外有兩個評分對象,這兩個評分對象中有一個是原始聲音,另一個是壓縮過的聲音(但是由程式亂數決定,受測者並不知道哪一個是原始的);如果使用者無法正確聽出差別,則應給兩個評分對象5.0,如果使用者可以聽出其中有一個不是原始的,則對那個聲音評分,另一個維持5.0(但是如果使用者判斷錯誤,則表示使用者測試失敗,應給5.0)。在這樣的情況下使用者無法作弊謊稱聽得到實際聽不到的東西——因為就算他用猜的也沒辦法在測試結果公布前看到他是不是猜對。而且為了讓測試者的評分有依據,在被測的多組對象中可能會安排low anchor與high anchor,這完全不是你所認定的「不科學方式」
而在我之前的文章中提到的幾個listening test都是用這種方法產生的(你應該要閱讀我在上面提供的連結,上面有提到測試方法),並依此統計多人的結果,並以統計學估計可能的分數誤差範圍。
相較之下,頻譜完全不能反應人耳的聽覺,對比較壓縮失真沒有幫助。
所以你也同意音質差的原因不在被過濾掉的高頻囉?
雖然在這次的測試結果中Ogg Vorbis的確在品質上勝過MP3(與listening test結果符合),但那不能證明你的推論方法是對的。
ATH
masking effects
瞭解以上兩點的運作原理就知道為什麼頻譜對衡量音質沒有甚麼幫助。
double blind listening test:瞭解實際準確可靠的音質衡量法
另外你說的「可以聽到的範圍(20kHz以下)」其實也不是每個人都能聽到,尤其是與中低頻合併在一起之後就更難聽到
「品質則要靠高頻區域附加上去」這句話是錯的,品質不能單靠附加高頻區域就達成。
--
我竟然浪費了三小時在寫這篇——請emukim不要假定我對頻譜一無所知(就目前看來,我可能比你瞭解),並請仔細閱讀我提供的各個網址並瞭解我提的幾個重點關鍵字,我相信對我們的溝通會有幫助的。
補注:回頭來看這篇,因為我的耐心不夠所以有些地方我寫得有點酸請一笑置之。你的blog中關於模擬器的部分還蠻豐富的,只是我現在都沒有玩它們的慾望……
雖然所有的片段頻譜就能組成整首歌全部的頻譜,但是就你貼出的一個微小片段並不能代表整體;但這不是重點。瞬間頻譜失真變動 的確很大(尤其是MP3)
我想你可以換個方向想 當聲音滿足每一瞬間頻譜 它總和頻譜 一定也滿足
(第一篇主要的訴求就是失真變動都不大)
瞬間頻譜不相同 很難相信它總和的效果 頻譜是探討瞬間最好的方式
各頻率音量相同 在最基本的原理上就是一樣的聲音
重點是頻譜與聽起來的歌曲品質之間沒有保證相關性;頻譜看得到的,不見得聽得見;頻譜沒看到的,不見得聽不出。
而且沒聽人說過頻譜是探討瞬間最好的方式;既然你說你是用WaveSpectra產生圖形的,那應該知道裡面有FFT Sample數量的設定——也就是說頻譜是由一小段波型產生的根本不是瞬間,如果(理論上)真的要探討瞬間的話,就該以sample為單位比較。(雖然這樣比較對現代的失真壓縮也沒有意義)。
各頻率音量相同 在最基本的原理上就是一樣的聲音——這句話本身是對的沒錯;但是我們要求的不是真正一樣的聲音,而是聽起來一樣的聲音。雖然一樣的聲音(頻譜相同)聽起來一定一樣;但聽起來一樣的聲音實際上不一定需要完全相同(所以頻譜不一定相同)。
我看不出這篇哪裡強調出高品質……如果你只是要看各個encoder預設的lowpass filter數值的話,LAME與Vorbis encoder都是開放原始碼的,你可以在原始碼裡面直接看到確實的數值,不必這麼辛苦地看spectrum。你可以很清楚的看到我第一篇強調的是高品質的互相比較 編碼的特性
(目的是要看 20kHz以下 各encoder表現出的失真狀況)
而不是在 各coder強制將lowpass filter開在20kHz頻譜的差異(硬將音域提高到20kHz 不管低頻失真度)
品質要好 就要保留最多的細節(不管低頻高頻都要滿足)
品質要好,就要保留最多的細節——但是在容量有限的情形下,encoder就得做出取捨,儘可能保留對人聽覺最有意義的細節。而哪些細節對人有意義則是由encoder的開發者與encoder的psycho-acoustic model來推測的,而psycho-acoustic model並沒有被賦予讓頻譜好看的任務。
而你頻譜分析的精確度,在中低頻下根本不及人耳能夠察覺的細節(所以即使重疊也不能保證人耳聽不出,何況這部分只要人耳不會察覺,也沒有重疊的必要性;例如經過ATH與masking effect*處理過之後的頻譜就與原本的不同了),在高頻上又有一段對人耳不重要的超音波(即使有一部分人能夠聽到20kHz的聲音,不代表能夠聽出經過18kHz lowpass-filter的音樂,因為音樂中18kHz以下的部分的音量很可能足以掩蓋過18kHz以上的部分,讓人聽不見18kHz以上的部分)。
另外既然你已經知道lowpass filter是可調的,你可以實驗看看在128kbps MP3中即使把lowpass filter調高,你也知道這樣會導致中低頻的部分準確度降低(不論這些降低能不能被你聽到)——你仍然不一定能從頻譜中明顯看出差別,至少我實驗了以後是看不出啦(我是用LAME 3.97b2,使用的參數是lame -b 128 01.wav 01b128.mp3與lame -b 128 --lowpass 20 01.wav 01b128l20.mp3,實驗的歌曲是r.o.r/s的《dazzle》專輯的第一首《感傷不感情》)。
*ATH與masking effect:兩者都是目前失真聲音壓縮中常用的技術,目前常見的MP3、AAC 與Vorbis encoder都有使用。
我有唸過高中物理,謝謝你的提醒。不過我也提醒你這個「比喻」如果和被比喻的東西沒有相關性的話就不叫比喻了(我該說這是國中國文的範圍嗎?還是國小國語的?)。這你可錯了 繞射、干涉都是光的波動性 只要是波都會有的特性 尤其是聲音的音波
(這不是幾何光學 這是波動光學)
如果不相信的話 翻一下 高中普通物理
我要強調的是 保留所有能被察覺的因素(雖然他們的表現出的東西 跟我要說得保留細節不太相同 只是個比喻)
「我要強調的是 保留所有能被察覺的因素」——encoder的目標是保留能被人耳聽到的因素,然後你用頻譜分析看並擅自認為頻譜分析看起來難看的就會難聽就是你的錯誤之一。
現代的lossy encoder都會對各頻率的特性作不同的處理(例如ATH curve或其它參數),各個頻率允許的壓縮瑕疵大小與種類是不同的。這就是我們看法不同的地方 保留所有細節(最大解析度 最接近原始的音量) 接下來就交給 耳朵自己去判斷
不需要針對 各頻率的特性做失真 而是對聽不到的頻率做失真
所以我們應該用無失真壓縮還是提高bitrate?這一句與這個討論無關。尤其在現在、未來 不像過去 要求檔案size要小(因為現在硬碟夠大 整個環境也允許)
你的這一句話與上上句話是矛盾的喔,既然對各個區域做一樣程度的失真是不明智的決定,當然要針對各種頻率不同的特性作處理吧。針對人耳還可以察覺到的區域(察覺到的程度還不一樣)做一樣程度的失真 不是個明智的決定
頻譜也許有變化,但你的頻譜的解析度太低看不出(把140db的動態範圍放在不到104 pixel以內?)。何況有些壓縮瑕疵難以從頻譜上看出,例如pre-echo。當encoder瑕疵特性大到 聽的出來 沒理由頻譜 沒有變化 (人耳的敏感度沒有到那麼好的程度)
拜託你不要再貼…我寧可自己實驗。如果你需要 的話 我再補 用log設定 貼圖出來
高、中品質的範圍是哪裡?為什麼128kbps以下是低品質?(哪個encoder?哪個版本?)最敏感的區域是哪裡?(明明每首歌的每個時間點都不一樣不是嗎?)這幾句話模糊到讓我難以回答。不過我可以先跟你說 高、中品質下幾乎相同 128kbps以下低品質 才會犧牲掉最敏感的區域
(開發encoder的人 絕對不會白痴到不注意到這個部份 而輕易失真)
我和LAME的開發人員也不熟,但是我有仔細閱讀文件並在這個討論區上面注意各個encoder開發人員發表的文章。沒錯是Lame 不過我跟LAME開發人員 不熟 不知道他的說法 但依據我私下測試有差異性
在同樣的設定 用lame encoder 一個CBR 另一個開128kbps~320kbps
或許你可以試試看 告訴大家你的看法 結果或許會與我不同
CBR多少和128kbps~320kbps比較?如果你連這點都沒有寫的話我要試甚麼?你私下測試是用甚麼方法?double-blind listening test嗎?
LAME在之前的版本是推薦--preset參數,而現在則是推薦-V參數,而且都不要限制位元率能達到開發人員認為的最佳品質。
http://wiki.hydrogenaudio.org/index.php ... r_Settings
那麼你沒有使用目前品質最好的Ogg Vorbis encoder,建議使用aoTuV Beta 4.51CDex 1.51的Ogg Vorbis encoder版本只有一個(我blog裡有回覆說明) 我使用的就是那個
http://www.geocities.jp/aoyoume/aotuv/
或衍生的高速版Lancer
引述自Vorbis官方網站CBR品質會比VBR來的差 我倒是蠻想看那個開發人員的說法
Monty, lead developer of the Ogg Project:「Ogg always performs best in its native VBR mode. CBR and ABR are lower quality techniques, but useful for streaming.」這個是Vorbis壓縮格式的開發者與制訂者說的,夠有公信力了吧?
Ogg Vorbis用VBR的時候壓縮參數是-q-2到-q10,哪來的VBR 320kbps?聽不懂你的問題。該不會是下面那種情形吧
當用Ogg VBR 320kbps 用播放器播放出的kbps顯示值是平均值(假設是220kbps) 它大概是在敘述 用平均值 220kbps CBR 品質會比VBR 320kbps 來的差
你聽不出來不代表沒有差異,我自己在低位元率的情況下早已測過;與其請我測試看看,我也請你多利用搜尋引擎(例如Google)並多閱讀說明文件。Ogg的CBR VBR 音質 沒有差異 也是我自己測試的結果
你也可以自己測試看看 或許你可以得出 跟我不同的結果
頻譜上明明就可以顯示出聽不到的頻率如果你覺得數值是錯誤的 你可以去查證一下(我也建議 幫我查證一下 因為我只查資料 沒有實際去體驗)
1.聽不到的頻率 在頻譜上 你也看不到
但是最敏感的區域卻不會特別明顯,而且因為精確度的問題可能因此看不到。2.最敏感的區域 在頻譜上 你可以看的到
採用log的原因就是因為高頻真的比較不重要。不過請不要繼續貼圖——那沒有意義。只不過沒有像置頂的那篇文章採用的設定明顯 因為我測試的主要目的是 看全區域 失真情形 而log的設定 很難看出 高頻的表現
(需要的話可以Po出來 他們的資料我還有留著)
可惜的是,在你的測試中看不太出哪一個聽起來失真最少。第一篇測試 就是在看頻譜 各頻率 在不同encoder下的的表現狀況
要求的是20kHz以下 失真最少
請實驗,我已經實驗過。如果你嫌ATH讓高頻沒辦法緊貼頻譜也可以調整ATH參數。128kbps的MP3刻意保留20kHz並不會讓頻譜好看 (這是你我看法不同的地方) 反而低頻失真更大 既然頻譜不同 品質自然不同
這是對的,而且這個比喻也適當。在相同的kbps下 相同encoder 保留較大音域的那個 一定會有較大的失真(而這個失真可能遍佈於整個音域中)
每秒固定的資料流率 會因為要記憶的區域變廣 導致記憶的細節越少
舉例就像Jpeg 固定20KB 但是解析度640x480 1024x768 的狀況
為了記住更大的解析度 反而顏色失真 雜訊變多
一定要我證明嗎?encoder與decoder的開發者的證明不行嗎?1.你必須要證明encoder offset 在有支援的decoder下 可以被去除
Vorbis在制訂規格的初期就已經有可以去除encoder offset的設計,詳見Vorbis I規格書
The granule (PCM) position of the first page need not indicate that the stream started at position zero. Although the granule position belongs to the last completed packet on the page and a valid granule position must be positive, by inference it may indicate that the PCM position of the beginning of audio is positive or negative.
* A positive starting value simply indicates that this stream begins at some positive time offset, potentially within a larger program. This is a common case when connecting to the middle of broadcast stream.
* A negative value indicates that output samples preceeding time zero should be discarded during decoding; this technique is used to allow sample-granularity editing of the stream start time of already-encoded Vorbis streams. The number of samples to be discarded must not exceed the overlap-add span of the first two audio packets.
雖然因為這是規格書所以很難懂,重點是第二點的A negative value...的內容,總之這是一個可以用來移除encoder offset的設計;並且官方的encoder與decoder都有實做。
而LAME tag就不是官方規格了,但是LAME與foobar2000有實做。
在encoder與decoder內部並不是用時間來表示長度的,而是sample數,foobar2000可以做到sample precision,而且在幾年前就可以做到了。如果你不相信轉換程式,你可以檢查oggenc與lame的原始碼以確定可以做到sample precision然後再用它來做實驗,我是沒有自己檢查過程式碼啦,不過我相信開發人員沒必要在開放原始碼的程式裡公然說謊。2.且又要證明轉換用的程式 不會對不同的encoder做不同的事(wav->???->wav)
把時間分散到各sample數上 你知道前後sample的時間差距是多少?可是10^-5秒
即便是開發人員保證offset可以被去除 但是你相信轉換程式對於不同encoder 轉換時保證沒有10^-5的差距嗎?
這是前人沒辦法證實的事
至於「把時間分散到各sample數上」這件事,我相信沒有decoder閒著沒事在做這種東西的。
我沒說「來源的差異是人耳敏感的察覺到的」,我只說用適當的工具offset可以被去除。不過假設一切符合理想狀態 (offset可以被去除 與來源的差異是人耳敏感的察覺到的)
因為我沒說「來源的差異是人耳敏感的察覺到的」,如果你是用64kbps CBR MP3,我就比較有把握聽得出…如果是Vorbis -q 4 我就幾乎沒把握。如果是Vorbis -q 5我就放棄不必試了。那你應該可以清楚的聽出來 MP3 各種不同設定下的320kbps音樂的差異
但事實上不能 不是人耳太鈍、要不然就是有offset 不然就是兩個都有
所以我認為頻譜重複性越大 就代表越接近來源
所以因為我木耳不能分辨320kbps的(某種Encoder壓縮過的聲音),頻譜就是對的?這個推論怎麼能成立?
頻譜越相同也並不一定越好(尤其在低位元率的情況下),而且你所謂的符合只是表面上的,沒有考慮精確度的問題也沒有考慮人的聽覺與頻譜表現的差異。音域當然不是越寬越好 我要說得是頻譜越相同的越好(當音域寬了 低頻卻失真頻譜並不會好看)
在低頻幾乎全部符合 追求高頻不失真 不是一件壞事吧
所以你不知道doube blind listening test是怎麼進行的;在double blind listening test中,受測者並不知道哪一個sample是由哪一個encoder產生的,並被要求分辨原始來源與壓縮過的聲音的差別;甚至被要求使用ABX測試以避免使用者用猜測蒙混過去。而這種方式 就是被我認定不科學的方式 listening test 誰會相信
或許有人說它聽的無線電的聲音 聽到X-ray的聲音 不過誰會相信
所以主張 頻譜相同 (目前最科學的方式)
以一個常見的listening test測試程式abchr為例:
使用者會被給予多組測試單位,每一單位有一個聲音確定是原始聲音(ref:reference),另外有兩個評分對象,這兩個評分對象中有一個是原始聲音,另一個是壓縮過的聲音(但是由程式亂數決定,受測者並不知道哪一個是原始的);如果使用者無法正確聽出差別,則應給兩個評分對象5.0,如果使用者可以聽出其中有一個不是原始的,則對那個聲音評分,另一個維持5.0(但是如果使用者判斷錯誤,則表示使用者測試失敗,應給5.0)。在這樣的情況下使用者無法作弊謊稱聽得到實際聽不到的東西——因為就算他用猜的也沒辦法在測試結果公布前看到他是不是猜對。而且為了讓測試者的評分有依據,在被測的多組對象中可能會安排low anchor與high anchor,這完全不是你所認定的「不科學方式」
而在我之前的文章中提到的幾個listening test都是用這種方法產生的(你應該要閱讀我在上面提供的連結,上面有提到測試方法),並依此統計多人的結果,並以統計學估計可能的分數誤差範圍。
相較之下,頻譜完全不能反應人耳的聽覺,對比較壓縮失真沒有幫助。
但你不能證明過濾掉高頻以後對低頻的幫助不會導致整體上音質的增進(事實上在中低位元率的情況下是會)。"越可能"總比"不可能"好 截斷是不可能與原音源類似 這是結論是確定性的原因
這說法其實來自人類對於各種類比的感覺
人對色彩灰階深淺感覺不會比黑白來的強烈 人對聲音大小 不會比 有無來的強烈
但是無論是Ogg Vorbis或是MP3,他們實際上都沒有保留所有低頻訊號(都有不等量的失真),所以你的推論不成立。而且各個encoder對中低頻區域品質也是不同的,事實上在很早期很早期的Vorbis encoder就有出現過高頻保留得很多但低頻品質不足的版本,雖然從頻譜上看不出來,卻明顯聽得出來,所以才在後來的版本修改lowpass的數值。在同樣的kbps下
A encoder保留住所有低頻訊號 但高頻失真
B encoder保留住所有低頻訊號 但高頻失真卻比A少很多(且更接近於來源) 你認為會是設定的問題嗎
我當然相信,因為如果刻意調整LAME的參數讓頻譜變好看,音質就被影響了。同樣的kbps 頻譜上B可以做到比A好 但是A說他的頻譜可以做的跟B一樣好但是它不做 因為會影響音質 你相信嗎
的確以MP3來說,刻意納入高頻會造成中低頻的失真變大,這是音質差的原因。我想它不做的原因是 A顧不了那麼多 如果要把高頻納入編碼範圍 它低頻失真會很大 這才是音質差的原因
所以你也同意音質差的原因不在被過濾掉的高頻囉?
雖然在這次的測試結果中Ogg Vorbis的確在品質上勝過MP3(與listening test結果符合),但那不能證明你的推論方法是對的。
我不認為我對頻譜的認知有問題,倒是你誤用了不適當的工具(頻譜)來衡量音質。對人耳聽覺的原理也不夠瞭解——建議瞭解以下名詞以瞭解現代的聲音編碼原理與方式(複習上面提到過的東西):雖然你回覆一開頭就批觀念錯誤 不過我認為你對頻譜的認知有小問題
頻譜好看 並不是音域寬就好 還要符合來源 可以聽到的範圍(20kHz以下) 不應該被失真
即使那個人耳對那個頻率(20kHz以下)敏感度不大 但那個頻率會影響到其他頻率的表現狀況(單獨的去除是有問題的)
ATH
masking effects
瞭解以上兩點的運作原理就知道為什麼頻譜對衡量音質沒有甚麼幫助。
double blind listening test:瞭解實際準確可靠的音質衡量法
另外你說的「可以聽到的範圍(20kHz以下)」其實也不是每個人都能聽到,尤其是與中低頻合併在一起之後就更難聽到
聲音的確頻譜符合就可以被稱為相同,但是我一再強調我們在lossy encoder中為了提高編碼效率並不要求聲音實際上相同,只要聽起來相同即可。而在現代的lossy encoder編碼過程中,頻譜是會被修改的。主要在於頻譜認知有差異 聲音只要在可辨識頻譜範圍符合 一致 它就可以被稱為相同
你提供的頻譜解析度在某些區域遠低於人的聽覺。而且前面已經提到,有些壓縮瑕疵不是由瞬間頻譜可以輕易看出的(而且我已經舉例)。就像是[判斷物質組合 用質譜儀]、分析DNA、辨識聲紋、驗血(尿)
只要符合相關特性 它就是那個東西 總和符合 並沒有 瞬間符合 那樣有證據力
(總和符合 瞬間不符合是很難相信的一件事 畢竟總和必須由瞬間累積起來的)
再來是人的聽覺並無敏銳到 聽的出來瑕疵 但頻譜顯示不出來那個瑕疵
最後聲音中低頻(人最敏感的區域)帶來最主要音階高低 但是品質則要靠高頻區域附加上去
「品質則要靠高頻區域附加上去」這句話是錯的,品質不能單靠附加高頻區域就達成。
這一段是對的,但是刻意保留高頻而讓中低頻的失真增加會對音質減損這一點卻難以從頻譜中看出。記得高中物理有提到 我記得那個東西叫做諧波(或許會記錯) ->而它是高頻的
諧波是決定音階的來源的特性(譬如Do可以由小提琴、鋼琴、喇叭...發出來的)
人類是依據諧波去判斷音階是什麼樂器發出來的 對諧波做失真 不會影響到音階高低變化 但會影響到音階的品質
聽起來就不會像是來源的 小提琴、鋼琴、喇叭... 而會變成大類別的弦樂器、管樂器....
如果高頻失真更大 甚至失真到中低頻 會聽到很奇怪的聲音 但它還是可以被辨識的
那通常是sampling rate太低造成的,與本篇討論無關。(日本部份 有用人聲的flash 就有這種現象 聽的出來是什麼字 但很怪)
問題在於中低頻本身就確定是有失真的(無論你是否能由那低精確度的頻譜中看出),對於各個頻率間品質的取捨並不是這麼簡單的問題。因此追求高音質 除了中低頻不失真 高頻的保留還是必須的
--
我竟然浪費了三小時在寫這篇——請emukim不要假定我對頻譜一無所知(就目前看來,我可能比你瞭解),並請仔細閱讀我提供的各個網址並瞭解我提的幾個重點關鍵字,我相信對我們的溝通會有幫助的。
這點我們看法還是不同 我不認為人耳敏銳到 可以聽出 頻譜上顯示不出的東西lwb 寫: 雖然所有的片段頻譜就能組成整首歌全部的頻譜,但是就你貼出的一個微小片段並不能代表整體;但這不是重點。
重點是頻譜與聽起來的歌曲品質之間沒有保證相關性;頻譜看得到的,不見得聽得見;頻譜沒看到的,不見得聽不出。
你如果可以提出與我不同說法的證據 我會很感謝
看法還是不同我看不出這篇哪裡強調出高品質……如果你只是要看各個encoder預設的lowpass filter數值的話,LAME與Vorbis encoder都是開放原始碼的
為什麼 不同kbps下 同樣encoder lowpass filter不同 ?
這很明顯的表示出一件事 在那樣設定的kbps下
如果將lowpass 提高於那個kbps預設的lowpass很多會造成其他區域的失真度提高(而這部份失真頻譜上絕對看的出來)
kbps的意思是 每秒的使用多少位元紀錄
當要紀錄的區域變大 但可使用的紀錄數據 卻沒變大 kbps不夠用 那就代表一件事 有些東西要被犧牲掉 這就代表失真
有兩個encoder (A.B)
同樣kbps下 A紀錄的音域比B 少 且A也比較不符合來源頻譜 重要的 檔案大小A也比B大
B可以用較少的kbps紀錄較多資訊也較接近來源 這就是我第一次測試要證明的事
沒錯這就是我要說的你可以在原始碼裡面直接看到確實的數值,不必這麼辛苦地看spectrum。
品質要好,就要保留最多的細節——但是在容量有限的情形下,encoder就得做出取捨,儘可能保留對人聽覺最有意義的細節。
encoder A 中低頻符合來源 但高頻並不能保留,encoder B 中低頻 高頻表現出的都比encoder A 好
而且用encoder B 出的音樂檔 還比encoder A小很多 你認為是哪個好 ?
如果你堅持 "A表現在敏感區域更精確 B則是敏感區域不精確 這點是頻譜上看不出來"的說法 我也沒辦法
或許你可以舉個例子 A.B 中低頻類似相同 頻譜上沒辨識 不過B還有高頻較接近來源
來證實A聽起來比B較接近來源 重點不在高頻 而是A在頻譜沒辦法顯示的精確性 佔優勢
但是頻譜更好看 就意味著它更接近於來源(如果你想法與我不同 你可以很直接的否認掉這點)psycho-acoustic model來推測的,而psycho-acoustic model並沒有被賦予讓頻譜好看的任務。
還是回到那點上 人耳辨識度 到底比頻譜高(你的觀點) 還是人耳辨識度 比頻譜低(我的觀點)而你頻譜分析的精確度,在中低頻下根本不及人耳能夠察覺的細節(所以即使重疊也不能保證人耳聽不出,何況這部分只要人耳不會察覺,也沒有重疊的必要性;例如經過ATH與masking effect*處理過之後的頻譜就與原本的不同了),在高頻上又有一段對人耳不重要的超音波(即使有一部分人能夠聽到20kHz的聲音,不代表能夠聽出經過18kHz lowpass-filter的音樂,因為音樂中18kHz以下的部分的音量很可能足以掩蓋過18kHz以上的部分,讓人聽不見18kHz以上的部分)。
或許你可以把頻譜貼出來 證明一下 我的想法錯誤的另外既然你已經知道lowpass filter是可調的,你可以實驗看看在128kbps MP3中即使把lowpass filter調高,你也知道這樣會導致中低頻的部分準確度降低(不論這些降低能不能被你聽到)——你仍然不一定能從頻譜中明顯看出差別,至少我實驗了以後是看不出啦
encoder 把lowpass提高下 可以保持著頻譜不失真 然後卻聽的出來差別
相關性在都具有波的特性 沒錯這就是我比喻的地方的依據我有唸過高中物理,謝謝你的提醒。不過我也提醒你這個「比喻」如果和被比喻的東西沒有相關性的話就不叫比喻了(我該說這是國中國文的範圍嗎?還是國小國語的?)。
在人耳能察覺到的範圍內要保留最原始的波動性 即便他要特殊狀況才可以表現的出來
所以我們需要能保留可察覺範圍內所有的細節 逼近於無失真壓縮的表現 可察覺範圍外的一律刪除 的encoder所以我們應該用無失真壓縮還是提高bitrate?這一句與這個討論無關。
我不認為這跟討論串無關
不矛盾 我想你是看錯意思 誤解了你的這一句話與上上句話是矛盾的喔,既然對各個區域做一樣程度的失真是不明智的決定,當然要針對各種頻率不同的特性作處理吧。
我不是說針對各頻率不同做處理 而是針對 聽不到的頻率做處理
對聽的見的頻率做任何處理 不是明智的決定 <-我要說的意思
沒錯 不過 我說過 之前那些頻譜是為了看出高頻差異做的設定頻譜也許有變化,但你的頻譜的解析度太低看不出(把140db的動態範圍放在不到104 pixel以內?)。何況有些壓縮瑕疵難以從頻譜上看出,例如pre-echo。
也說過 我還有log頻譜 可以貼出來可更精確 顯示出敏感音域
但你說不用貼出來了 那到底要不要貼?
(我看過那些圖 結論沒有明顯差異 如果你認為要貼出來 我就貼 認為不需要貼 我就不貼)
不貼沒辦法證實你的疑慮 但你又不要我貼拜託你不要再貼…我寧可自己實驗。
高、中、低 分別對應著 320、192、128 kbps高、中品質的範圍是哪裡?為什麼128kbps以下是低品質?(哪個encoder?哪個版本?)最敏感的區域是哪裡?(明明每首歌的每個時間點都不一樣不是嗎?)這幾句話模糊到讓我難以回答。
為什麼會是這樣咧 ? 因為我們是在這個討論串內 其他你要我回答的問題 討論串都有
一樣的測試方式 只是沒貼圖出來 你要我貼 我可以貼 但似乎你很不希望我貼圖我和LAME的開發人員也不熟,但是我有仔細閱讀文件並在這個討論區上面注意各個encoder開發人員發表的文章。
CBR多少和128kbps~320kbps比較?如果你連這點都沒有寫的話我要試甚麼?你私下測試是用甚麼方法?double-blind listening test嗎?
另外文件上的敘述跟實際上的表現 如果有差異 要怎麼解釋
歷史上可以很常見文件與事實不符的敘述 在各理論區域都有
你或許可以貼出VBR CBR mp3的頻譜是沒有差異 來證實我的結論是錯誤的
這個可以直接的反駁我之前做的結果 不需要用理論、文件
謝謝你的建議那麼你沒有使用目前品質最好的Ogg Vorbis encoder,建議使用aoTuV Beta 4.51
http://www.geocities.jp/aoyoume/aotuv/
或衍生的高速版Lancer
不過一個同樣是Ogg encoder 較差的encoder都可以比較優秀 更好的encoder 表現會不會更好 我會去嘗試看看
引述自Vorbis官方網站CBR品質會比VBR來的差 我倒是蠻想看那個開發人員的說法
說法是這樣啊 不過還是沒有我要的證據 尤其沒有指明CBR的狀況Monty, lead developer of the Ogg Project:「Ogg always performs best in its native VBR mode. CBR and ABR are lower quality techniques, but useful for streaming.」這個是Vorbis壓縮格式的開發者與制訂者說的,夠有公信力了吧?
會不會出現我上一篇回覆的狀況
我編碼採用的是CDEX 而-Q6相當於192kbps -Q9相當於320kbps(當然這只是CDex的推測 )Ogg Vorbis用VBR的時候壓縮參數是-q-2到-q10,哪來的VBR 320kbps?聽不懂你的問題。
因為我不能用兩個基準不同的方式比較 (MP3以kbps Ogg是用-QX)
整個單位都不同 根本不能比 因此採用CDex的推測方式(應該也只能採用這個)
我沒有聽,基本上我不認為人的感覺有那麼敏銳. 一切依據還是頻譜你聽不出來不代表沒有差異,我自己在低位元率的情況下早已測過;與其請我測試看看,我也請你多利用搜尋引擎(例如Google)並多閱讀說明文件。
你也可以提出ogg VBR CBR頻譜不同的證據出來
如果你是說18kHz以上的到22kHz的部份 我想你太吹毛求疵頻譜上明明就可以顯示出聽不到的頻率
因為那部份 還有沒被證實 到底聽不聽的見
我可以貼log圖出來 精確度可以明顯提高 雖然還是沒有差別但是最敏感的區域卻不會特別明顯,而且因為精確度的問題可能因此看不到。
採用log的原因就是因為高頻真的比較不重要。不過請不要繼續貼圖——那沒有意義。
不過你認為沒有意義 log圖精確度還是低 人耳的敏感度還是高過於頻譜
高頻較敏感音域不重要 這點我當然認同 但追求高品質音樂 高頻是必須的 至少在人能聽的見的範圍內
還是回到那點 人耳敏銳度 高到頻譜顯示不出來?可惜的是,在你的測試中看不太出哪一個聽起來失真最少。
那可以使用你的參數貼圖出來 證實設定正確下 可以在CBR的狀況下 表現出更接近於頻譜請實驗,我已經實驗過。如果你嫌ATH讓高頻沒辦法緊貼頻譜也可以調整ATH參數。
如果你認為我的比喻是適當的 我想你已經間接的承認同樣的CBR下提高lowpass 會導致中低頻失真這是對的,而且這個比喻也適當。
而我認為那個失真 頻譜可以很明顯的看出來
不是喔 因為這個觀點 可能連開發者都沒辦法保證 畢竟10^-5秒的時間間距實在太小了一定要我證明嗎?encoder與decoder的開發者的證明不行嗎?
開發者能保證的區域 會不會小到10^-5秒 可能還要確認
你認為可以做到 我也不否認,只不過我更相信 它是做不到的
尤其是你認為人耳敏銳度可以高到 察覺到頻譜顯示不出的瑕疵
如果沒有offset的問題 那應該可以很明顯的聽出其中的差異 因為頻譜有明顯的細微差異(而我自己是聽不出來的這種差距)
我的說法其實是順著你的說法去推論的我沒說「來源的差異是人耳敏感的察覺到的」,我只說用適當的工具offset可以被去除。
因為你認為人耳可以察覺到頻譜顯示不出的瑕疵
假設沒有offset的狀況下 頻譜差異 一定就是encoder的瑕疵囉
那頻譜能顯示出的瑕疵 人耳是不是能聽的更清楚呢?(畢竟它連頻譜顯示不出的瑕疵都可以聽的到)
應該說因為 你前面的兩個敘述 1.offset已經被去除 2.人耳可以感受到頻譜顯示不出的瑕疵(換言之 頻譜能顯示的瑕疵 人耳更能聽的見)所以因為我木耳不能分辨320kbps的(某種Encoder壓縮過的聲音),頻譜就是對的?這個推論怎麼能成立?
1.堅持offset以去除 那就代表人耳並沒有那麼敏銳
2.堅持人耳敏銳 就代表offset有可能存在
3.有offset 但人耳沒那麼敏銳、無offset 人耳還是沒那麼敏銳
同樣的位元率 意味著檔案大小類似 檔案大小類似下 追求更接近於來源 沒有壞處吧頻譜越相同也並不一定越好(尤其在低位元率的情況下),而且你所謂的符合只是表面上的,沒有考慮精確度的問題也沒有考慮人的聽覺與頻譜表現的差異。
你說的第二點 還是回覆到 之前提到的人耳敏銳度問題
我不知道實際是怎麼測試的 但你的說法跟我從字面上瞭解到的意思相同所以你不知道doube blind listening test是怎麼進行的;在double blind listening test中,受測者並不知道哪一個sample是由哪一個encoder產生的,並被要求分辨原始來源與壓縮過的聲音的差別;甚至被要求使用ABX測試以避免使用者用猜測蒙混過去。
我提出的看法是 能相信 人的感受嗎
你前面也敘述到 在320kbps下 你自己也很難辨識出些微差異(offset那段)
同樣encoder的128->192倒是聽的出來 但是不同encoder的128->192 能聽的出來嗎?
我提出一個疑問 就是 那你怎麼能相信別人的感受?
這個測試唯一的敗筆就在 它採用"人"做測試的樣本 (一個前提錯誤的狀況下做出的結論 很難被認同)
人會被很多因素影響 那天的心情 那天的溫度、壓力、濕氣狀況....甚至於當天出門踩到狗屎
當然這部份屬於心理學 偏離主題 但用一個有疑慮的東西作為測試主體 做出來的結論是不是可以相信 還是個問題
我證明的都是在低頻不失真的狀況下 高頻過濾情形但你不能證明過濾掉高頻以後對低頻的幫助不會導致整體上音質的增進(事實上在中低位元率的情況下是會)。
不過你認為他不是不失真 而是頻譜顯示不出來
依舊回到那點 人耳 頻譜.....不多說了但是無論是Ogg Vorbis或是MP3,他們實際上都沒有保留所有低頻訊號(都有不等量的失真),所以你的推論不成立。而且各個encoder對中低頻區域品質也是不同的,事實上在很早期很早期的Vorbis encoder就有出現過高頻保留得很多但低頻品質不足的版本,雖然從頻譜上看不出來,卻明顯聽得出來,所以才在後來的版本修改lowpass的數值。
上面有回覆相關問題 或許可以提出頻譜好看 音質被影響的例子我當然相信,因為如果刻意調整LAME的參數讓頻譜變好看,音質就被影響了。
不能這樣說吧 因為你說mp3可以把losspass提高 音質變差 但頻譜變好的確以MP3來說,刻意納入高頻會造成中低頻的失真變大,這是音質差的原因。
所以你也同意音質差的原因不在被過濾掉的高頻囉?
我說得是頻譜沒有變好 而是為了納入高頻訊號的紀錄 反而對人耳最敏感的區域造成嚴重失真
還是回到人耳的感官問題 我主張可聽到的範圍內 維持原來源品質 聽不到的頻率刪除 之後就交給人的感官ATH
masking effects
瞭解以上兩點的運作原理就知道為什麼頻譜對衡量音質沒有甚麼幫助。
而你認為可以進一步依據效應 去除不需要的部份
沒錯不是每個人都可以聽見 但那只是依據我查出到的資料 做出的判斷double blind listening test:瞭解實際準確可靠的音質衡量法
另外你說的「可以聽到的範圍(20kHz以下)」其實也不是每個人都能聽到,尤其是與中低頻合併在一起之後就更難聽到
當然這個定義值 認為不夠可以繼續沿伸到22kHz 如果認為太多那18kHz也可以
不過我是認為20kHz 是個很合理的範圍
頻譜一定會被修改 修改部份以聽不出來為主 這點我當然同意聲音的確頻譜符合就可以被稱為相同,但是我一再強調我們在lossy encoder中為了提高編碼效率並不要求聲音實際上相同,只要聽起來相同即可。而在現代的lossy encoder編碼過程中,頻譜是會被修改的。
因此才有我的測試來看 encoder到底對頻譜做了什麼程度的失真
結論是 中低頻 幾乎沒有大失真到可以被察覺得程度 主要的地方在高頻
既然中低頻各encoder表現類似 相同kbps下 不同encoder 高頻將是決勝負的區域
這點還是回覆到 人耳...頻譜的問題你提供的頻譜解析度在某些區域遠低於人的聽覺。而且前面已經提到,有些壓縮瑕疵不是由瞬間頻譜可以輕易看出的(而且我已經舉例)。
壓縮瑕疵不是瞬間頻譜可以看出 這點我也同意
瞬間能看到的東西當然是有限 這點第一篇測試 我就提出來過
瑕疵可能那瞬間剛好消失 我也認同
但我不是因為那瞬間 某encoder瑕疵會消失而去選那瞬間來做比對
這也是為什麼我用複雜音樂去做比對
因為我的看法是瑕疵在越複雜的音樂越容易出現瑕疵 但是在越單純的音樂才越能被察覺(周圍干擾因素消失)
你也可以不認同我的看法 我也不會有太大的意外 因為這只是我的假設
不過這也是為什麼 我相信頻譜多過於人耳的原因
人感官辨識力很脆弱 越複雜的環境辨識率越低 但頻譜可以很直接反應出聽的到 或聽不到的東西
你也可以常常看到電視劇集、電影 要用到分析聲音(影像)
常把不需要的複雜環境因素去除 最後顯示需要的部份 但那部份從一開始就存在
頻譜還是分析聲音最好的方式
我沒說可以單靠 而是說在中低頻不失真 高頻區域的附加是品質的提昇「品質則要靠高頻區域附加上去」這句話是錯的,品質不能單靠附加高頻區域就達成。
這一點依舊回到人耳 頻譜的問題 你認同就同意 不認同就不同意這一段是對的,但是刻意保留高頻而讓中低頻的失真增加會對音質減損這一點卻難以從頻譜中看出。
也許吧 我只知道它失真太多 我辨識不出來那通常是sampling rate太低造成的,與本篇討論無關。
可以提供較高精確度的頻譜 不過你認為人耳可辨識的精確度 更高 而頻譜是顯示不出來的問題在於中低頻本身就確定是有失真的(無論你是否能由那低精確度的頻譜中看出),對於各個頻率間品質的取捨並不是這麼簡單的問題。
不是無知 而是基本認知不同 你提供的網址 有時間會看 我回文的現在還沒看我竟然浪費了三小時在寫這篇——請emukim不要假定我對頻譜一無所知(就目前看來,我可能比你瞭解),並請仔細閱讀我提供的各個網址並瞭解我提的幾個重點關鍵字,我相信對我們的溝通會有幫助的。
畢竟他的想法(理論)必需要是正確的,而不會出現blind test那種我認為爭議的方式
如果要一一詳細去看它理論原理 我想可能要花很久 不過你擁有很多可以直接反駁我的可能性 當反駁成立 那些東西看不看也無所謂了
我想我花的時間可能也差不多 (引言 好難用 所以這次我把你引言我的部份都刪除)
其實就在於基本看法不同
1.人耳.頻譜的精確度問題(人的感官是不是可以被相信?)
2.提高 頻譜符合性就意味著品質提昇?
頻譜可以符合 但聽起來感受品質可能變差?
主要就這兩點 其他問題 幾乎都是這兩點的延伸出來的
如果這兩點 沒得到突破 可能會變成紙上談兵的狀況
我是沒辦法證實
但人可以很明顯分辨出品質差異的音樂 在頻譜上都可以看得出來差異
而比較難分辨品質差異的 頻譜還是可以看得出來
似乎我的觀點 還沒得到致命的一擊
致命的一擊 其實就是
1.找到一個頻譜表現類似的兩個音樂 卻有明顯的音質差異
2.或者B頻譜明顯比A好(中低高皆是) 但A的音質卻比B好
3.A.B中低頻失真類似 B高頻較類似來源 A高頻失真大 但A音質比B好
當然這都要 人耳可明顯辨識的範圍 不明顯能辨識 譬如320kbps MP3 跟320kbps Ogg 192kbps Ogg很難用人耳辨識優劣
這樣會變成人耳大考驗 (到底聽不聽的出來 可能兩方都堅持自己的立場)
也就是你認為最好的blind test 我認為很受爭議的地方