玩具烏托邦: 6月 2011

2011年6月27日星期一

當 vim 遇到 Big5 或 gb2312 亂碼檔: 「行 1 有不正確的位元」

是否曾經遇到過這樣的中文檔？明知道它應該是採用 big5 編碼；但用 vim 打開時，卻看到一整片亂碼，並且顯示錯誤訊息「行 xx 有不正確的位元」（"ILLEGAL BYTE in line xx"）。這是因為只要有任何一個字元編碼錯誤， vim 就會完全不知所措，連其他正常的字也無法顯示。這時可以打 :e ++enc=big5 強迫它以 big5 顯示。含有少數錯誤編碼的 gb2312 檔也可以用相同的方式處理： :e ++enc=gb2312。我猜日文的 sjis/euc-jp 及韓文的 euc-kr 大概也類似。若是 utf8 編碼的檔案就不會有這個問題 -- 即便裡面有幾個字是亂碼， vim 還是會正確顯示其他字元。

閱讀全文...

2011年6月6日星期一

英文常用不規則動詞三態變化列表 -- 按出現頻率排序

這學期上科技英文課, 為了教學需要, 我做了這個九十多字的清單: 英文常用不規則動詞三態變化表 -- 按出現頻率排序。如果你還希望看到其他類似的清單, 請留言提出需求。另外, 您可能會對這些資訊融入教育的相關資源有興趣:

[以上給不小心搜尋到本文的非技術讀者。]
[以下解釋這個表的製作過程; 看完後或許你自己也可以製作類似的列表。]

首先搜尋「common irregular verbs」找到這一頁 (如果把 common 拿掉, 可以找到更長的列表)。把表的內容剪貼到純文字檔裡面, 變成 irregular-verbs.txt。

其次搜尋「english word frequency」找到 wiktionary 有許多清單, 其中一個當代小說常用 2000 字的清單看來蠻實用的。把清單剪貼到純文字檔裡面, 變成 popular-words.txt。

最後寫一支 perl 小程式 wflu, 然後執行: ./wflu -f popular-words.txt irregular-verbs.txt | sort -n | expand | > popular-irregular-verbs.txt 清單就出現了。

wflu 的資料格式如下:

頻率排行檔 (用 -f 指定; 本例中為 popular-words.txt) 每列一字, 按照熱門順序排好。 (最熱門的在第一列) 每個字後面也可以再加上空格及一個整數, 代表該字 (在某項統計當中) 出現的次數。
資料檔 (本例中為 irregular-verbs.txt) 每列一字。每個字後面可以接著空格及任意字串。
在兩個檔案內, 空白列及「以 # 開頭的列」都會被忽略。

然後 wflu 會從資料檔內每次讀一列 (也就讀到一個單字 X), 並且把「頻率排行檔」當做字典, 在這裡面查出 X 的排名與頻率。它會印出 X 這一整列, 前面加上它的排名 (及出現次數, 如果有的話)。

玩具烏托邦

2011年6月27日星期一

當 vim 遇到 Big5 或 gb2312 亂碼檔: 「行 1 有不正確的位元」

2011年6月6日星期一

英文常用不規則動詞三態變化列表 -- 按出現頻率排序

反共護台，或成為器官供體?

近期文章

所有文章

留言

固定讀者

資訊人權貴ㄓ疑

英文閱讀噗摘要

標籤

linux 好站

關於格主

最近30天流量

License

玩具烏托邦

2011年6月27日 星期一

當 vim 遇到 Big5 或 gb2312 亂碼檔: 「行 1 有不正確的位元」

2011年6月6日 星期一

英文常用不規則動詞三態變化列表 -- 按出現頻率排序

反共護台，或成為器官供體?

訂閱

近期文章

所有文章

留言

固定讀者

資訊人權貴ㄓ疑

英文閱讀噗摘要

標籤

linux 好站

關於格主

最近30天流量

License

2011年6月27日星期一

2011年6月6日星期一