這幾天鐵齒之後學到的慘痛經驗, 很快筆記分享一下。 我試著要裝 32 bit (lubuntu-*-i386.iso), 並加裝 zfs 驅動程式。 官網 跟安裝畫面就已經警告說 zfs 大量使用 virtual memory, 所以在 32 bit 環境上會很不穩, 可是我就是鐵齒又有 OS 蒐集癖、 就是想要 把它的根目錄放進 zfs 裡面去。 裝完之後, 用 kvm 開機測試, 通過 initramfs, 甚至已經掛載位於 zfs 的根目錄, 所有服務也都一一漂亮地 [ok] 啟動, 然後就卡在進不了圖形介面, 甚至連 ctrl-alt-f2 等等終端機也叫不出來了。 就死當, 很徹底。 隔沒多久, host 的 root 帳號就收到 mail, 說 zfs 的 checksum error -- 我猜那一個 zpool 應該整個毀了。 還好當時有刻意先開一個新的 zpool 來測試, 沒牽連到原先已裝好的其他 64 bit 版 lubuntu。
[2020/01/11 Linus Torvalds建議不要使用ZFS (考量法律與 Oracle 興訟的習性)]
大人問小孩: 「全世界的玩具隨便你挑? 這怎麼可能?
如果我要的玩具只有一個, 正好又被別人借走了呢?」
想像你有一個試算表, 裡面有幾十個數值欄位,
還有幾個 「分類用」 的字串欄位。
你想問: 如果我拿到一筆資料的所有數值欄位,
是否可以猜出它屬於哪一個分類?
比方說, 已知一個人的身高/體重/BMI/心跳速率/血壓/睡眠時間/肝指數GOT、GPT/...
是否可以猜出他比較可能是哪一種血型/星座/生肖/職業/...?
(有點毛毛的例子, 不過也正好提醒大家:
現代的趨勢就是這樣 -- 你的隱私, 就是政府或大企業手中的大數據。)
這是機器學習領域裡面典型的分類問題 (classification)。
如果資料量不大 (例如只有幾百筆或幾千筆資料、
每筆只有幾十個或幾百個欄位),
可能不足以拿來訓練複雜的人工智慧演算法; 又或者你有大量的資料,
但想要在全力運算之前小量取樣,
並且用一個操作簡單運算量較低的演算法、
以不是很精確但可以視覺化的方式迅速了解你的資料長相。
這時, 屬於非監督式學習類型的 t-SNE
演算法就非常適合拿來用肉眼觀察資料的群聚/分類現象。