lwb 寫:
雖然所有的片段頻譜就能組成整首歌全部的頻譜,但是就你貼出的一個微小片段並不能代表整體;但這不是重點。
重點是頻譜與聽起來的歌曲品質之間沒有保證相關性;頻譜看得到的,不見得聽得見;頻譜沒看到的,不見得聽不出。
這點我們看法還是不同 我不認為人耳敏銳到 可以聽出 頻譜上顯示不出的東西
你如果可以提出與我不同說法的證據 我會很感謝
我看不出這篇哪裡強調出高品質……如果你只是要看各個encoder預設的lowpass filter數值的話,LAME與Vorbis encoder都是開放原始碼的
看法還是不同
為什麼 不同kbps下 同樣encoder lowpass filter不同 ?
這很明顯的表示出一件事 在那樣設定的kbps下
如果將lowpass 提高於那個kbps預設的lowpass很多會造成其他區域的失真度提高(而這部份失真頻譜上絕對看的出來)
kbps的意思是 每秒的使用多少位元紀錄
當要紀錄的區域變大 但可使用的紀錄數據 卻沒變大 kbps不夠用 那就代表一件事 有些東西要被犧牲掉 這就代表失真
有兩個encoder (A.B)
同樣kbps下 A紀錄的音域比B 少 且A也比較不符合來源頻譜 重要的 檔案大小A也比B大
B可以用較少的kbps紀錄較多資訊也較接近來源 這就是我第一次測試要證明的事
你可以在原始碼裡面直接看到確實的數值,不必這麼辛苦地看spectrum。
品質要好,就要保留最多的細節——但是在容量有限的情形下,encoder就得做出取捨,儘可能保留對人聽覺最有意義的細節。
沒錯這就是我要說的
encoder A 中低頻符合來源 但高頻並不能保留,encoder B 中低頻 高頻表現出的都比encoder A 好
而且用encoder B 出的音樂檔 還比encoder A小很多 你認為是哪個好 ?
如果你堅持 "A表現在敏感區域更精確 B則是敏感區域不精確 這點是頻譜上看不出來"的說法 我也沒辦法
或許你可以舉個例子 A.B 中低頻類似相同 頻譜上沒辨識 不過B還有高頻較接近來源
來證實A聽起來比B較接近來源 重點不在高頻 而是A在頻譜沒辦法顯示的精確性 佔優勢
psycho-acoustic model來推測的,而psycho-acoustic model並沒有被賦予讓頻譜好看的任務。
但是頻譜更好看 就意味著它更接近於來源(如果你想法與我不同 你可以很直接的否認掉這點)
而你頻譜分析的精確度,在中低頻下根本不及人耳能夠察覺的細節(所以即使重疊也不能保證人耳聽不出,何況這部分只要人耳不會察覺,也沒有重疊的必要性;例如經過ATH與masking effect*處理過之後的頻譜就與原本的不同了),在高頻上又有一段對人耳不重要的超音波(即使有一部分人能夠聽到20kHz的聲音,不代表能夠聽出經過18kHz lowpass-filter的音樂,因為音樂中18kHz以下的部分的音量很可能足以掩蓋過18kHz以上的部分,讓人聽不見18kHz以上的部分)。
還是回到那點上 人耳辨識度 到底比頻譜高(你的觀點) 還是人耳辨識度 比頻譜低(我的觀點)
另外既然你已經知道lowpass filter是可調的,你可以實驗看看在128kbps MP3中即使把lowpass filter調高,你也知道這樣會導致中低頻的部分準確度降低(不論這些降低能不能被你聽到)——你仍然不一定能從頻譜中明顯看出差別,至少我實驗了以後是看不出啦
或許你可以把頻譜貼出來 證明一下 我的想法錯誤的
encoder 把lowpass提高下 可以保持著頻譜不失真 然後卻聽的出來差別
我有唸過高中物理,謝謝你的提醒。不過我也提醒你這個「比喻」如果和被比喻的東西沒有相關性的話就不叫比喻了(我該說這是國中國文的範圍嗎?還是國小國語的?)。
相關性在都具有波的特性 沒錯這就是我比喻的地方的依據
在人耳能察覺到的範圍內要保留最原始的波動性 即便他要特殊狀況才可以表現的出來
所以我們應該用無失真壓縮還是提高bitrate?這一句與這個討論無關。
所以我們需要能保留可察覺範圍內所有的細節 逼近於無失真壓縮的表現 可察覺範圍外的一律刪除 的encoder
我不認為這跟討論串無關
你的這一句話與上上句話是矛盾的喔,既然對各個區域做一樣程度的失真是不明智的決定,當然要針對各種頻率不同的特性作處理吧。
不矛盾 我想你是看錯意思 誤解了
我不是說針對各頻率不同做處理 而是針對 聽不到的頻率做處理
對聽的見的頻率做任何處理 不是明智的決定 <-我要說的意思
頻譜也許有變化,但你的頻譜的解析度太低看不出(把140db的動態範圍放在不到104 pixel以內?)。何況有些壓縮瑕疵難以從頻譜上看出,例如pre-echo。
沒錯 不過 我說過 之前那些頻譜是為了看出高頻差異做的設定
也說過 我還有log頻譜 可以貼出來可更精確 顯示出敏感音域
但你說不用貼出來了 那到底要不要貼?
(我看過那些圖 結論沒有明顯差異 如果你認為要貼出來 我就貼 認為不需要貼 我就不貼)
拜託你不要再貼…我寧可自己實驗。
不貼沒辦法證實你的疑慮 但你又不要我貼
高、中品質的範圍是哪裡?為什麼128kbps以下是低品質?(哪個encoder?哪個版本?)最敏感的區域是哪裡?(明明每首歌的每個時間點都不一樣不是嗎?)這幾句話模糊到讓我難以回答。
高、中、低 分別對應著 320、192、128 kbps
為什麼會是這樣咧 ? 因為我們是在這個討論串內 其他你要我回答的問題 討論串都有
我和LAME的開發人員也不熟,但是我有仔細閱讀文件並在
這個討論區上面注意各個encoder開發人員發表的文章。
CBR多少和128kbps~320kbps比較?如果你連這點都沒有寫的話我要試甚麼?你私下測試是用甚麼方法?double-blind listening test嗎?
一樣的測試方式 只是沒貼圖出來 你要我貼 我可以貼 但似乎你很不希望我貼圖
另外文件上的敘述跟實際上的表現 如果有差異 要怎麼解釋
歷史上可以很常見文件與事實不符的敘述 在各理論區域都有
你或許可以貼出VBR CBR mp3的頻譜是沒有差異 來證實我的結論是錯誤的
這個可以直接的反駁我之前做的結果 不需要用理論、文件
謝謝你的建議
不過一個同樣是Ogg encoder 較差的encoder都可以比較優秀 更好的encoder 表現會不會更好 我會去嘗試看看
CBR品質會比VBR來的差 我倒是蠻想看那個開發人員的說法
引述自
Vorbis官方網站
Monty, lead developer of the Ogg Project:「Ogg always performs best in its native VBR mode. CBR and ABR are lower quality techniques, but useful for streaming.」這個是Vorbis壓縮格式的開發者與制訂者說的,夠有公信力了吧?
說法是這樣啊 不過還是沒有我要的證據 尤其沒有指明CBR的狀況
會不會出現我上一篇回覆的狀況
Ogg Vorbis用VBR的時候壓縮參數是-q-2到-q10,哪來的VBR 320kbps?聽不懂你的問題。
我編碼採用的是CDEX 而-Q6相當於192kbps -Q9相當於320kbps(當然這只是CDex的推測 )
因為我不能用兩個基準不同的方式比較 (MP3以kbps Ogg是用-QX)
整個單位都不同 根本不能比 因此採用CDex的推測方式(應該也只能採用這個)
你聽不出來不代表沒有差異,我自己在低位元率的情況下早已測過;與其請我測試看看,我也請你多利用搜尋引擎(例如Google)並多閱讀說明文件。
我沒有聽,基本上我不認為人的感覺有那麼敏銳. 一切依據還是頻譜
你也可以提出ogg VBR CBR頻譜不同的證據出來
頻譜上明明就可以顯示出聽不到的頻率
如果你是說18kHz以上的到22kHz的部份 我想你太吹毛求疵
因為那部份 還有沒被證實 到底聽不聽的見
但是最敏感的區域卻不會特別明顯,而且因為精確度的問題可能因此看不到。
採用log的原因就是因為高頻真的比較不重要。不過請不要繼續貼圖——那沒有意義。
我可以貼log圖出來 精確度可以明顯提高 雖然還是沒有差別
不過你認為沒有意義 log圖精確度還是低 人耳的敏感度還是高過於頻譜
高頻較敏感音域不重要 這點我當然認同 但追求高品質音樂 高頻是必須的 至少在人能聽的見的範圍內
可惜的是,在你的測試中看不太出哪一個聽起來失真最少。
還是回到那點 人耳敏銳度 高到頻譜顯示不出來?
請實驗,我已經實驗過。如果你嫌ATH讓高頻沒辦法緊貼頻譜也可以調整ATH參數。
那可以使用你的參數貼圖出來 證實設定正確下 可以在CBR的狀況下 表現出更接近於頻譜
這是對的,而且這個比喻也適當。
如果你認為我的比喻是適當的 我想你已經間接的承認同樣的CBR下提高lowpass 會導致中低頻失真
而我認為那個失真 頻譜可以很明顯的看出來
一定要我證明嗎?encoder與decoder的開發者的證明不行嗎?
不是喔 因為這個觀點 可能連開發者都沒辦法保證 畢竟10^-5秒的時間間距實在太小了
開發者能保證的區域 會不會小到10^-5秒 可能還要確認
你認為可以做到 我也不否認,只不過我更相信 它是做不到的
尤其是你認為人耳敏銳度可以高到 察覺到頻譜顯示不出的瑕疵
如果沒有offset的問題 那應該可以很明顯的聽出其中的差異 因為頻譜有明顯的細微差異(而我自己是聽不出來的這種差距)
我沒說「來源的差異是人耳敏感的察覺到的」,我只說用適當的工具offset可以被去除。
我的說法其實是順著你的說法去推論的
因為你認為人耳可以察覺到頻譜顯示不出的瑕疵
假設沒有offset的狀況下 頻譜差異 一定就是encoder的瑕疵囉
那頻譜能顯示出的瑕疵 人耳是不是能聽的更清楚呢?(畢竟它連頻譜顯示不出的瑕疵都可以聽的到)
所以因為我木耳不能分辨320kbps的(某種Encoder壓縮過的聲音),頻譜就是對的?這個推論怎麼能成立?
應該說因為 你前面的兩個敘述 1.offset已經被去除 2.人耳可以感受到頻譜顯示不出的瑕疵(換言之 頻譜能顯示的瑕疵 人耳更能聽的見)
1.堅持offset以去除 那就代表人耳並沒有那麼敏銳
2.堅持人耳敏銳 就代表offset有可能存在
3.有offset 但人耳沒那麼敏銳、無offset 人耳還是沒那麼敏銳
頻譜越相同也並不一定越好(尤其在低位元率的情況下),而且你所謂的符合只是表面上的,沒有考慮精確度的問題也沒有考慮人的聽覺與頻譜表現的差異。
同樣的位元率 意味著檔案大小類似 檔案大小類似下 追求更接近於來源 沒有壞處吧
你說的第二點 還是回覆到 之前提到的人耳敏銳度問題
所以你不知道doube blind listening test是怎麼進行的;在double blind listening test中,受測者並不知道哪一個sample是由哪一個encoder產生的,並被要求分辨原始來源與壓縮過的聲音的差別;甚至被要求使用ABX測試以避免使用者用猜測蒙混過去。
我不知道實際是怎麼測試的 但你的說法跟我從字面上瞭解到的意思相同
我提出的看法是 能相信 人的感受嗎
你前面也敘述到 在320kbps下 你自己也很難辨識出些微差異(offset那段)
同樣encoder的128->192倒是聽的出來 但是不同encoder的128->192 能聽的出來嗎?
我提出一個疑問 就是 那你怎麼能相信別人的感受?
這個測試唯一的敗筆就在 它採用"人"做測試的樣本 (一個前提錯誤的狀況下做出的結論 很難被認同)
人會被很多因素影響 那天的心情 那天的溫度、壓力、濕氣狀況....甚至於當天出門踩到狗屎
當然這部份屬於心理學 偏離主題 但用一個有疑慮的東西作為測試主體 做出來的結論是不是可以相信 還是個問題
但你不能證明過濾掉高頻以後對低頻的幫助不會導致整體上音質的增進(事實上在中低位元率的情況下是會)。
我證明的都是在低頻不失真的狀況下 高頻過濾情形
不過你認為他不是不失真 而是頻譜顯示不出來
但是無論是Ogg Vorbis或是MP3,他們實際上都沒有保留所有低頻訊號(都有不等量的失真),所以你的推論不成立。而且各個encoder對中低頻區域品質也是不同的,事實上在很早期很早期的Vorbis encoder就有出現過高頻保留得很多但低頻品質不足的版本,雖然從頻譜上看不出來,卻明顯聽得出來,所以才在後來的版本修改lowpass的數值。
依舊回到那點 人耳 頻譜.....不多說了
我當然相信,因為如果刻意調整LAME的參數讓頻譜變好看,音質就被影響了。
上面有回覆相關問題 或許可以提出頻譜好看 音質被影響的例子
的確以MP3來說,刻意納入高頻會造成中低頻的失真變大,這是音質差的原因。
所以你也同意音質差的原因不在被過濾掉的高頻囉?
不能這樣說吧 因為你說mp3可以把losspass提高 音質變差 但頻譜變好
我說得是頻譜沒有變好 而是為了納入高頻訊號的紀錄 反而對人耳最敏感的區域造成嚴重失真
ATH
masking effects
瞭解以上兩點的運作原理就知道為什麼頻譜對衡量音質沒有甚麼幫助。
還是回到人耳的感官問題 我主張可聽到的範圍內 維持原來源品質 聽不到的頻率刪除 之後就交給人的感官
而你認為可以進一步依據效應 去除不需要的部份
double blind listening test:瞭解實際準確可靠的音質衡量法
另外你說的「可以聽到的範圍(20kHz以下)」其實也不是每個人都能聽到,尤其是與中低頻合併在一起之後就更難聽到
沒錯不是每個人都可以聽見 但那只是依據我查出到的資料 做出的判斷
當然這個定義值 認為不夠可以繼續沿伸到22kHz 如果認為太多那18kHz也可以
不過我是認為20kHz 是個很合理的範圍
聲音的確頻譜符合就可以被稱為相同,但是我一再強調我們在lossy encoder中為了提高編碼效率並不要求聲音實際上相同,只要聽起來相同即可。而在現代的lossy encoder編碼過程中,頻譜是會被修改的。
頻譜一定會被修改 修改部份以聽不出來為主 這點我當然同意
因此才有我的測試來看 encoder到底對頻譜做了什麼程度的失真
結論是 中低頻 幾乎沒有大失真到可以被察覺得程度 主要的地方在高頻
既然中低頻各encoder表現類似 相同kbps下 不同encoder 高頻將是決勝負的區域
你提供的頻譜解析度在某些區域遠低於人的聽覺。而且前面已經提到,有些壓縮瑕疵不是由瞬間頻譜可以輕易看出的(而且我已經舉例)。
這點還是回覆到 人耳...頻譜的問題
壓縮瑕疵不是瞬間頻譜可以看出 這點我也同意
瞬間能看到的東西當然是有限 這點第一篇測試 我就提出來過
瑕疵可能那瞬間剛好消失 我也認同
但我不是因為那瞬間 某encoder瑕疵會消失而去選那瞬間來做比對
這也是為什麼我用複雜音樂去做比對
因為我的看法是瑕疵在越複雜的音樂越容易出現瑕疵 但是在越單純的音樂才越能被察覺(周圍干擾因素消失)
你也可以不認同我的看法 我也不會有太大的意外 因為這只是我的假設
不過這也是為什麼 我相信頻譜多過於人耳的原因
人感官辨識力很脆弱 越複雜的環境辨識率越低 但頻譜可以很直接反應出聽的到 或聽不到的東西
你也可以常常看到電視劇集、電影 要用到分析聲音(影像)
常把不需要的複雜環境因素去除 最後顯示需要的部份 但那部份從一開始就存在
頻譜還是分析聲音最好的方式
「品質則要靠高頻區域附加上去」這句話是錯的,品質不能單靠附加高頻區域就達成。
我沒說可以單靠 而是說在中低頻不失真 高頻區域的附加是品質的提昇
這一段是對的,但是刻意保留高頻而讓中低頻的失真增加會對音質減損這一點卻難以從頻譜中看出。
這一點依舊回到人耳 頻譜的問題 你認同就同意 不認同就不同意
那通常是sampling rate太低造成的,與本篇討論無關。
也許吧 我只知道它失真太多 我辨識不出來
問題在於中低頻本身就確定是有失真的(無論你是否能由那低精確度的頻譜中看出),對於各個頻率間品質的取捨並不是這麼簡單的問題。
可以提供較高精確度的頻譜 不過你認為人耳可辨識的精確度 更高 而頻譜是顯示不出來的
我竟然浪費了三小時在寫這篇——請emukim不要假定我對頻譜一無所知(就目前看來,我可能比你瞭解),並請仔細閱讀我提供的各個網址並瞭解我提的幾個重點關鍵字,我相信對我們的溝通會有幫助的。
不是無知 而是基本認知不同 你提供的網址 有時間會看 我回文的現在還沒看
畢竟他的想法(理論)必需要是正確的,而不會出現blind test那種我認為爭議的方式
如果要一一詳細去看它理論原理 我想可能要花很久 不過你擁有很多可以直接反駁我的可能性 當反駁成立 那些東西看不看也無所謂了
我想我花的時間可能也差不多 (引言 好難用 所以這次我把你引言我的部份都刪除)
其實就在於基本看法不同
1.人耳.頻譜的精確度問題(人的感官是不是可以被相信?)
2.提高 頻譜符合性就意味著品質提昇?
頻譜可以符合 但聽起來感受品質可能變差?
主要就這兩點 其他問題 幾乎都是這兩點的延伸出來的
如果這兩點 沒得到突破 可能會變成紙上談兵的狀況
我是沒辦法證實
但人可以很明顯分辨出品質差異的音樂 在頻譜上都可以看得出來差異
而比較難分辨品質差異的 頻譜還是可以看得出來
似乎我的觀點 還沒得到致命的一擊
致命的一擊 其實就是
1.找到一個頻譜表現類似的兩個音樂 卻有明顯的音質差異
2.或者B頻譜明顯比A好(中低高皆是) 但A的音質卻比B好
3.A.B中低頻失真類似 B高頻較類似來源 A高頻失真大 但A音質比B好
當然這都要 人耳可明顯辨識的範圍 不明顯能辨識 譬如320kbps MP3 跟320kbps Ogg 192kbps Ogg很難用人耳辨識優劣
這樣會變成人耳大考驗 (到底聽不聽的出來 可能兩方都堅持自己的立場)
也就是你認為最好的blind test 我認為很受爭議的地方