首页技术总结正文内容

Unicode标准下古籍数字化的异体字处理

技术总结

更新时间：2024-12-23 03:32:55 50

admin 管理员组

文章数量: 887021

2024年1月23日发(作者：广州小程序开发公司)

龙源期刊网

Unicode标准下古籍数字化的异体字处理

作者：高天俊

来源：《现代语文(语言研究)》2011年第09期

摘要：古籍数字化需要遵循世界通用的Unicode标准，Unicode标准在设计时并未考虑到异体字的特点，因此不能很好地解决古籍中的异体字问题。在Unicode标准下，通过建立异体字数据库、使用XML标记等方法能够较好地解决异体字问题。

关键词：Unicode 古籍数字化异体字

Unicode字符集的全称为“通用多八位编码字符集”（Universal Multiple-Octet Coded

Character Set），它支持现今世界各种不同语言的书面文本的交换、处理及显示。自Unicode标准产生后，它已经成为全世界通用软件以及互联网信息传输的基础字符集。由于具有良好的国际通用性和跨平台兼容性，为方便国际交流和知识的传承，Unicode也成为学术界所遵循的基本字符标准。

一、Unicode设计原则与异体字

为保证其良好的通用性、可继承性及高效性，Unicode在制定之初就规定了若干设计原则。其中和异体字关系较大的是“字符、非字形”原则。Unicode标准对字符和字形加以区别。字符是具有语义值的用以书写语言的最小组成要素的抽象表示。字形反映的是字符呈现的形状。与字符相比，字形是作为一个或多个字符的特殊表现形式出现在屏幕上的[1]（P15），这一原则在计算机上表现为同一字符在不同字体下显示风格的区别，此即所谓的“数码异体”[2]。同一组数码异体字的内码完全一样，只是由于其所链接的字体文件不同，所以才导致其显示的差异。

纸本古籍中所存在的严格意义上的异体字，即“音义完全相同仅字形不同”的异体字，和“数码异体”的本质是一样的，各异体字形只是在刻写过程中和外形结构上有所区别。由此，在古籍数字化的过程中，根据Unicode的“字符、非字形”原则，刻写异体字应该也具有相同的代码点，其外形的差别可以通过制作不同的字体，根据需要调用所需字体来实现。

实际上，Unicode标准中已经收录了相当数量的刻写异体字。《汉语大字典》后附的“异体字表”中所列的11900组异体字中，绝大部分已被Unicode标准收录。并且在Unicode的最新版本中，还在不断地增加新的异体字。比如最新的Unicode6.0版本中新增的两个汉字编码区CJK

本文标签：异体字字符标准古籍字形

版权声明：本文标题：Unicode标准下古籍数字化的异体字处理内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1705971613h496237.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。