2020年4月3日 星期五

UTF-8 相容於 ASCII 的文字範圍

UTF-8 相容於 ASCII 的文字範圍

  1. 數字 (Numbers)
    [0-9]
    
    [\u0030-\u0039]
    
  2. 英文字母 (Alphabets)
    [A-Za-z]
    
    [\u0041-\u005A\u0061-\u007A]
    
  3. 空白字元 (Space)
    [ ]
    
    [\s]
    
    [\u0020]
    
  4. 控制字元 (Control Codes) (共 65 個字元,包含 DEL 但不包含 SP 空白字元 )
    C0 包含 \u0000-\u001F\u007F,C1 包含 \u0080-\u009F
    [\u0000-\u001F\u007F\u0080-\u009F]
    
  5. 標點符號 (Punctuation & Symbols)
    [\u0021-\u002F\u003A-\u0040\u005B-\u0060\u007B-\u007E]
    
    [~!@#$%^&*()_+=\-`\[\]{}';:".,<>/?\|]
    
  6. 基本拉丁文字 (Basic Latin) (包含字母、數字與標點符號)
    [\u0020-\u002F\u0030-\u0039\u003A-\u0040\u0041-\u005A\u005B-\u0060\u0061-\u007A\u007B-\u007E]
    

超出 ASCII 範圍的補充拉丁文字 

  1. Latin-1 補充文字 (Latin-1 Supplement) (中文鍵盤打不出來的字)
    [\u00A0-\u00BF\u00C0-\u00FF]
    
  2. Latin 擴充文字 A (Latin Extended-A) (中文鍵盤打不出來的字)
    [\u0100-\u017F]
    
  3. Latin 擴充文字 B (Latin Extended-B) (中文鍵盤打不出來的字)
    [\u0180-\u024F]
    
  4. Latin 擴充附加文字 (Latin Extended Additional) (中文鍵盤打不出來的字)
    [\u1E02-\u1EF3]
    

漢字 Unicode 範圍 (Han unification)

  1. 中日韓統一表意文字列表 (CJK Unified Ideographs)
    簡單來說,就是「所有的漢字」都在這個範圍裡,包含正體中文、簡體中文與日文、韓文、越南文裡的漢字。
    [\u4E00-\u9FFF]
    
  2. 中日韓統一表意文字擴展區 A (CJK Unified Ideographs Extension A)
    [\u3400-\u4DBF]
    
  3. 中日韓相容表意文字區 (CJK Compatibility Ideographs) (不建議使用的區域)
    這區的文字是指中日韓越統一表意文字中因為字源分離原則未與正式字集(包括擴展 A、B、C、D 區)中的字形統一的字。
    [\uF900-\uFAFF]
  4. 全形空白
    [\u3000]
    
  5. 中日韓相容形式 (CJK Compatibility Forms) (不建議使用的區域)
    對於一些「垂直書寫」的文字系統中會用到的標點符號,都集中整理到這個區域內。不建議使用。
    [\uFE30-\uFE4F]
    
  6. 中日韓標點符號 (CJK Symbols and Punctuation) (沒有包含所有全形標點符號)
    [\u3000\u3001-\u303F]
    
    但台灣常用與中文書寫相關的標點符號(括弧、頓號、句號),應該只有以下這些:
    [\u3000-\u3003\u3008-\u300F\u3010-\u3011\u3014-\u3015\u301C-\u301E]
    
  7. 全形英文或標點符號 (Halfwidth and Fullwidth Forms)
    [\uFF01-\uFF5E]

常用 Unicode 符號

  1. 空白字元 (Whitespace character)
    有寬度的空白字元
    [\u0009-\u000D\u0020\u0085\u00A0\u1680\u2000-\u200A\u2028-\u2029\u202F\u205F\u3000]
    
    零寬度的空白字元 (zero width whitespaces)
    [\u180E\u200B-\u200D\u2060\uFEFF]
    
  2. 空白的替代字元 (有形的空白字元)
    [\u00B7\u237D\u2420\u2422\u2423]
    
  3. 通用 Unicode 標點符號 (General Punctuation)
    [\u2000-\u206F]
    

Unicode 使用者造字區 (Private Use Area)

  1. 如果你真的需要用到 Unicode 尚未定義的文字,6,400 個字:
    [\uE000-\uF8FF]
  2. BIG5 與 Unicode 的使用者造字區對應
    1. 0xFA40 ~ 0xFEFE 對應到 Unicode 編碼的 U+E000 ~ U+E310] ( 785 字)
    2. 0x8E40 ~ 0xA0FE 對應到 Unicode 編碼的 U+E311 ~ U+EEB7] ( 2,983 字)
    3. 0x8140 ~ 0x8DFE 對應到 Unicode 編碼的 U+EEB8 ~ U+F6B0] ( 2,041 字)
    4. 0xC6A1 ~ 0xC8FE 對應到 Unicode 編碼的 U+F6B1 ~ U+F848] ( 408 字)
    [\uE000-\uF848]
    

關於 BIG5 與 Unicode 的字碼對應表

  • 0xA140-0xA3BF: 標點符號、希臘字母及特殊符號,包括在0xA259-0xA261,安放了九個計量用漢字:兙兛兞兝兡兣嗧瓩糎
  • 0xA440-0xC67E: 常用漢字,先按筆劃再按部首排序。
  • 0xC940-0xF9D5: 次常用漢字,亦是先按筆劃再按部首排序。

沒有留言:

張貼留言