漢字描述语言 是指可以完整且準確地描述漢字 字符和信息的计算机语言 ,它們包含了字符的组成、(基本和複雜的)笔画、顺序以及位置,旨在克服在使用點陣圖 來描述字形時所遇到的信息缺乏。其所包含的訊息可以來識別字符(統一碼 和通用字符集 统一为一个碼位)的異體字,或一些統一碼和通用字符集尚未收錄的罕見字。
它們的工作,大多是基於楷書 和宋體 ,來提供字符的汉字结构 ,因而可以藉由索引字符的内部結構和相似字符,從而更容易地查找字符。
字形描述語言
字符描述語言中,各層級的部件
字形描述语言 (英語:Character Description Language ,簡稱:CDL),或稱字描語 ,是基於XML 的字型 技術,由畢曉普(英語:Tom Bishop )和 曲理查(英語:Richard Cook ) 为文林研究所所共同創建。其目的在描述任何CJK 字符 ,但可用于描述任何字形 。
这种基于 XML 的宣告式语言 定义了每個組件(字形的一个子单元,类似于部首 ,但不一定具有真正部首的语义意义)的筆順 ,以及使用先前定义的组件所构建更复杂的字符。除了用作构建组件之外,这些组件中的许多组件本身就是字符。
背景看起来像一个每边128 像素 的正方形。在这个背景下:
使用可縮放向量圖形 ,可繪製 50 个笔画。
一个基本组件是通过调用數个笔画来组成的。在此组件中,每个笔画都由其左下角和右上角描述。可以进行转换(缩小、放大等) 。有 1,000 多个基本组件。
一个字符是通过调用几个组件组成的。在这个字符中,每个组件都由其左下角和右上角描述。为了使组件适合汉字矩形块的适当部分,在將部分嵌入構建方塊時,可以轉換(如:水平、重直或放大、縮小)。
因此,一组少于 50 个笔画[ 1] 允许构建一组大约 1,000 个组件[ 2] ,这些组件又可以嵌入到数万个字符的描述中。 [ 2] 50 个基本笔画之一的形状变化隐含在嵌入该笔画的每个字符中。同样,对组件的更改隐式应用于其组合使用该组件的每个和所有角色。 [ 2]
湯姆·畢曉普和 R. Cook 解释如下:
字符的筆劃數通常跟其它字符的筆劃數是有關的。大部分字符是以多個部件所構建。只要知道了每個部件的筆劃數,那總筆劃數只是單純地部件筆劃數相加。因此,如果有個標準定義了千多個字符的筆劃,它也定義了成千上萬個其它字符。[ 3]
截至2020年 (2020-Missing required parameter 1=month ! ) [update] ,透過字描語包含了近 10 萬個字符描述,可完整支援統一碼 7.0。[ 3]
HanGlyph
用于在文檔中提供缺失的罕見字(即外字 问题)的漢字描述語言。 [ 4] 文档可以包含缺失字符的标记,这将自动触发生成小字体以提供字符。语言本身是一个简单的后缀符号,描述了笔画和组合它们的方式。原型软件使用Metapost 来描給字符并将它们嵌入到LaTeX 文档中。该语言由 Wai Wong 于 1997 年提出 [ 5] ,2003年的 TeX使用者會議上,則有關於實作的論文。 [ 6] [ 7]
表意文字描述序列
統一碼第 12 章定義了“表意文字描述序列 ”(IDS) 的语法[ 8] ,旨在用于描述标准中未包含的字符,即根据具有代码点的组件组合。 U+2FF0 到 U+2FFB 范围内的十二个特殊字符充当前缀运算符,以组合其他字符或序列以形成更大的字符。
統一碼中的表意文字描述字符
特点
統一碼字符编号
完整的統一碼名称
⿰
U+2FF0
Ideographic description character left to right
表意文字字符用於左右結構
⿱
U+2FF1
Ideographic description character above to below
表意文字字符用於上下結構
⿲
U+2FF2
Ideographic description character left to middle and right
表意文字字符用於左中右結構
⿳
U+2FF3
Ideographic description character above to middle and below
表意文字字符用於上中下結構
⿴
U+2FF4
Ideographic description character full surround
表意文字字符用於全包圍結構
⿵
U+2FF5
Ideographic description character surround from above
表意文字字符用於從上方包圍結構
⿶
U+2FF6
Ideographic description character surround from bellow
表意文字字符用於從下方包圍結構
⿷
U+2FF7
Ideographic description character surround from left
表意文字字符用於從左方包圍結構
⿸
U+2FF8
Ideographic description character surround from upper left
表意文字字符用於從左上角環繞
⿹
U+2FF9
Ideographic description character surround from upper right
表意文字字符用於從右上方環繞
⿺
U+2FFA
Ideographic description character surround from lower left
表意文字字符用於從左下角環繞
⿻
U+2FFB
Ideographic description character overlaid
表意文字字符用於交錯
这些序列对于向读者描述無法直接顯示的字符很有用,因为它在给定字体中不存在,或者完全不存在于統一碼标准中。例如,方塊壯字 字符“ ”(在中日韩统一表意文字扩展 F 中 编码为 U+2DA21 𭨡),可以描述成“⿰書史”。另一个用途是用于查找字典,即作为用來輸入查询的一种簡略输入法 。
这些序列的呈現方式,可以是分別地保留所有字符,或通过解析序列後來繪製目標字符。 [ 9] 它们本身并不能为所有字符提供明确的描繪。例如,序列「⿱十一」代表「土」和「士」。方式
这些序列的統一碼规范基于早期GBK 标准的字符和语法。
Matthew Skala 提供的自由软件包 IDSgrep[ 10] [ 11] 扩展了統一碼的表意文字描述序列语法,包括用于字典查找的附加功能;它能够将 KanjiVG 的数据库转换为它自己的扩展 IDS 格式,或者針對由相关的 Tsukurimashou 字体所生成的 EIDS 文件來搜尋。
KanjiVG
KanjiVG 是一种自由 (CC-by-sa-3.0) 日语字符描述语言(旨在最终扩展到中文),它是基于SVG 和維基編輯系统。
SCML
2007年,结构字符建模语言是另一個基于XML的汉字描述语言,其定位不像字描語和HanGlyph那样基于数字网格。其資料庫所使用的筆畫、部件是以 SCML 编码。其資料庫儘用于原理演示,目前没有已知的尝试將 SCML 套用在所有的統一碼,為 CJK 字符进行编码。
參見
外部链接
文林学院CDL语言
Wenlin Institute, Wenlin User's Guide : Character Description Language , 2015 [2021-11-29 ] , (原始内容存档 于2021-11-29)
Bishop, Tom; Cook, Richard, CDL specification , [2021-11-29 ] , (原始内容存档 于2020-05-13)
Bishop, Tom; Cook, Richard, Character Description Language (CDL): The Set of Basic CJK Unified Stroke Types (PDF) , 2003 [2021-11-29 ] , (原始内容存档 (PDF) 于2021-10-23)
Bishop, Tom; Cook, Richard, A Specification for CDL Character Description Language (PDF) , 2003-10-31 [2021-11-29 ] , (原始内容存档 (PDF) 于2021-10-21)
Cook, Richard, Chinese Character Description Languages (PDF) , 2003 [2021-11-29 ] , (原始内容存档 (PDF) 于2021-10-23)
Bishop, Tom, A character description language for CJK (PDF) , Multilingual, #91, Volume 18 Issue 7: 62–8, 2007 [2021-11-29 ] , (原始内容存档 (PDF) 于2021-11-18)
美国国家人文基金会的数字人文启动资助 (页面存档备份 ,存于互联网档案馆 )
SCML
字形
參考資料
^ Bishop & Cook 2013-12-31:p2
^ 2.0 2.1 2.2 Bishop & Cook 2013-12-31:p9
^ 3.0 3.1 文林字形描述語言 . [2021-11-29 ] . (原始内容存档 于2021-11-29).
^ HanGlyph . [17 February 2012] . (原始内容 存档于24 January 2013).
^ Wong, Wai. HanGlyph – a Chinese Character Description Language (PDF) . Proceedings of the Seventeenth International Conference on Computer Processing of Oriental Languages, Hong Kong. April 1997. (原始内容 (PDF) 存档于2021-08-23).
^ Yiu, Candy L. K.; Wai Wong. Chinese Character Synthesis using METAPOST (PDF) . Proceedings of the 24th Annual Meeting and Conference of the TeX User Group, Hawaii, U.S.A. July 2003. (原始内容 (PDF) 存档于2011-07-26).
^ Wong, Wai; Candy L. K. Yiu; Kelvin, C. F. Ng. Typesetting Rare Chinese Characters in LaTeX (PDF) . Proceedings of the 14th European TeX Conference, Brest, France. June 2003. (原始内容 (PDF) 存档于2011-11-06).
^ 存档副本 (PDF) . [2021-11-29 ] . (原始内容存档 (PDF) 于2019-11-22).
^ The Unicode® Standard – Version 12.0 – Core Specification (PDF) . Unicode Consortium. March 2019 [2021-11-29 ] . (原始内容存档 (PDF) 于2020-11-12).
^ Tsukurimashou Font Family and IDSgrep Project Top Page - OSDN . [2021-11-29 ] . (原始内容存档 于2015-03-25).
^ Skala, Matthew. A Structural Query System for Han Characters (PDF) . International Journal of Asian Language Processing. 2015, 23 (2): 127–159 [2016-01-13 ] . arXiv:1404.5585 . (原始内容 (PDF) 存档于2016-03-04).