是否曾經遇到過這樣的中文檔? 明知道它應該是採用 big5 編碼;
但用 vim 打開時, 卻看到一整片亂碼, 並且顯示錯誤訊息
「行 xx 有不正確的位元」 ("ILLEGAL BYTE in line xx")。
這是因為只要有任何一個字元編碼錯誤, vim 就會完全不知所措,
連其他正常的字也無法顯示。
這時可以打 :e ++enc=big5 強迫它以 big5 顯示。
含有少數錯誤編碼的 gb2312 檔也可以用相同的方式處理: :e ++enc=gb2312。
我猜日文的 sjis/euc-jp 及韓文的 euc-kr 大概也類似。
若是 utf8 編碼的檔案就不會有這個問題 -- 即便裡面有幾個字是亂碼,
vim 還是會正確顯示其他字元。
2011年6月27日 星期一
當 vim 遇到 Big5 或 gb2312 亂碼檔: 「行 1 有不正確的位元」
2011年6月6日 星期一
英文常用不規則動詞三態變化列表 -- 按出現頻率排序
這學期上科技英文課, 為了教學需要, 我做了這個九十多字的清單: 英文常用不規則動詞三態變化表 -- 按出現頻率排序。 如果你還希望看到其他類似的清單, 請留言提出需求。 另外, 您可能會對這些資訊融入教育的相關資源有興趣:
- Stanford Parser: 分析一句英文, 產生文法樹
- 穿越時空的天文課
- (化學) Ghemical 幫您認識毒奶粉
- DrGeo: 物理老師也會心動的幾何教學玩具
- 更豐富的自由軟體融入學科教育請見教育部經費製作的 ezgo 教育光碟
[以上給不小心搜尋到本文的非技術讀者。]
[以下解釋這個表的製作過程; 看完後或許你自己也可以製作類似的列表。]
首先搜尋 「common irregular verbs」 找到 這一頁 (如果把 common 拿掉, 可以找到更長的列表)。 把表的內容剪貼到純文字檔裡面, 變成 irregular-verbs.txt。
其次搜尋 「english word frequency」 找到 wiktionary 有許多清單, 其中一個 當代小說常用 2000 字 的清單看來蠻實用的。 把清單剪貼到純文字檔裡面, 變成 popular-words.txt。
最後寫一支 perl 小程式
wflu, 然後執行:
./wflu -f popular-words.txt irregular-verbs.txt | sort -n | expand | >
popular-irregular-verbs.txt 清單就出現了。
wflu 的資料格式如下:
- 頻率排行檔 (用 -f 指定; 本例中為 popular-words.txt) 每列一字, 按照熱門順序排好。 (最熱門的在第一列) 每個字後面也可以再加上空格及一個整數, 代表該字 (在某項統計當中) 出現的次數。
- 資料檔 (本例中為 irregular-verbs.txt) 每列一字。 每個字後面可以接著空格及任意字串。
- 在兩個檔案內, 空白列及 「以 # 開頭的列」 都會被忽略。
然後 wflu 會從資料檔內每次讀一列 (也就讀到一個單字 X), 並且把 「頻率排行檔」 當做字典, 在這裡面查出 X 的排名與頻率。 它會印出 X 這一整列, 前面加上它的排名 (及出現次數, 如果有的話)。
訂閱:
文章 (Atom)
大人問小孩: 「全世界的玩具隨便你挑? 這怎麼可能?
如果我要的玩具只有一個, 正好又被別人借走了呢?」