目前日期文章:200606 (3)

瀏覽方式: 標題列表 簡短摘要
1.含住、含進來:你在使用eclipse時,project 要將所有的jar檔[含進來]。

2.吃你的頭:xdoclet很神奇,他會[吃你的頭]...

3.咬住:mantis的bug report等級,有一個是[咬住]...

babyincar 發表在 痞客邦 留言(0) 人氣()

一不小心让 ultraedit 写入了bom(因为我在别的机器上编辑过文件,他的ultraedit.ini没设置过),所以搞得authimage显示不出来,忙了好几天。当然最根本就是在ultraedit.ini中修改一下设置为:

程式碼:
Write UTF-8 BOM=0
Write UTF-8 BOM NF=0
同时写了一个小程序,用来自动移除文件头中的boms,放到根目录中执行一次就行了。

babyincar 發表在 痞客邦 留言(0) 人氣()

談談Unicode編碼,簡要解釋UCS、UTF、BMP、BOM等名詞

這是一篇程式師寫給程式師的趣味讀物。所謂趣味是指可以比較輕鬆地瞭解一些原來不清楚的概念,增進知識,類似於打RPG遊戲的升級。整理這篇文章的動機是兩個問題:

問題一:
使用Windows記事本的“另存為”,可以在GBK、Unicode、Unicode big endian和UTF-8這幾種編碼方式間相互轉換。同樣是txt檔,Windows是怎樣識別編碼方式的呢?
我很早前就發現Unicode、Unicode big endian和UTF-8編碼的txt檔的開頭會多出幾個位元組,分別是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。但這些標記是基於什麼標準呢?

問題二:
最近在網上看到一個ConvertUTF.c,實現了UTF-32、UTF-16和UTF-8這三種編碼方式的相互轉換。對於Unicode(UCS2)、GBK、UTF-8這些編碼方式,我原來就瞭解。但這個程式讓我有些糊塗,想不起來UTF-16和UCS2有什麼關係。
查了查相關資料,總算將這些問題弄清楚了,順帶也瞭解了一些Unicode的細節。寫成一篇文章,送給有過類似疑問的朋友。本文在寫作時儘量做到通俗易懂,但要求讀者知道什麼是位元組,什麼是十六進位。

babyincar 發表在 痞客邦 留言(0) 人氣()