admin 管理员组

文章数量: 887021


2024年1月23日发(作者:广州小程序开发公司)

龙源期刊网

Unicode标准下古籍数字化的异体字处理

作者:高天俊

来源:《现代语文(语言研究)》2011年第09期

摘 要:古籍数字化需要遵循世界通用的Unicode标准,Unicode标准在设计时并未考虑到异体字的特点,因此不能很好地解决古籍中的异体字问题。在Unicode标准下,通过建立异体字数据库、使用XML标记等方法能够较好地解决异体字问题。

关键词:Unicode 古籍数字化 异体字

Unicode字符集的全称为“通用多八位编码字符集”(Universal Multiple-Octet Coded

Character Set),它支持现今世界各种不同语言的书面文本的交换、处理及显示。自Unicode标准产生后,它已经成为全世界通用软件以及互联网信息传输的基础字符集。由于具有良好的国际通用性和跨平台兼容性,为方便国际交流和知识的传承,Unicode也成为学术界所遵循的基本字符标准。

一、Unicode设计原则与异体字

为保证其良好的通用性、可继承性及高效性,Unicode在制定之初就规定了若干设计原则。其中和异体字关系较大的是“字符、非字形”原则。Unicode标准对字符和字形加以区别。字符是具有语义值的用以书写语言的最小组成要素的抽象表示。字形反映的是字符呈现的形状。与字符相比,字形是作为一个或多个字符的特殊表现形式出现在屏幕上的[1](P15),这一原则在计算机上表现为同一字符在不同字体下显示风格的区别,此即所谓的“数码异体”[2]。同一组数码异体字的内码完全一样,只是由于其所链接的字体文件不同,所以才导致其显示的差异。

纸本古籍中所存在的严格意义上的异体字,即“音义完全相同仅字形不同”的异体字,和“数码异体”的本质是一样的,各异体字形只是在刻写过程中和外形结构上有所区别。由此,在古籍数字化的过程中,根据Unicode的“字符、非字形”原则,刻写异体字应该也具有相同的代码点,其外形的差别可以通过制作不同的字体,根据需要调用所需字体来实现。

实际上,Unicode标准中已经收录了相当数量的刻写异体字。《汉语大字典》后附的“异体字表”中所列的11900组异体字中,绝大部分已被Unicode标准收录。并且在Unicode的最新版本中,还在不断地增加新的异体字。比如最新的Unicode6.0版本中新增的两个汉字编码区CJK


本文标签: 异体字 字符 标准 古籍 字形