华东师范大学将于明日(28日)举办“冷门绝学”专业“新文科”建设成果发布会。此次发布会上,该校中国文字研讨与运用中心的应用图像识别工具及数据库构建的“智能型中国文字数字平台”取得了显著成果。该平台涵盖了从殷商甲骨文到明清文字的各类文字材料,全面展示了汉字发展的各个历史阶段。
过去的文字识别技术仅能大致辨别出图像属于某个古代汉字,但无法精确指出具体是哪个文字。由于许多出土文献文字并未被国际标准字符集完全覆盖,导致大约七万古文献文字在网络和数据库应用方面存在障碍,缺乏标准字符集的支持成为制约出土文字数据库建设的一大难题。
“智能型中国文字数字平台”的目标是将那些尚未被通用中文字符集完全覆盖的历代出土实物文字材料纳入数字化处理和研究范畴。通过图像识别技术,该平台解决了传统古文字数据库使用者因不识某些文字而无法利用数据库进行检索的问题,极大地提高了数据库的社会服务功能。此外,平台还实现了图片载体材料与字符集载体材料之间的自动数字关联,促进了古文字材料大数据的生成和机器学习,为各种研究专题提供了智能化手段。
据记者了解,“智能型中国文字数字平台”项目自上世纪90年代后期启动以来,已经推出了《商周金文数字化处理系统》和《战国楚文字数字化处理系统》,并于2019年发布了古文字智能识别工具“商周金文智能镜”。在此基础上,文字中心在2020年开发了多种出土文字智能图像识别系统,并成功将图像识别工具与数据库结合,构建了更加完善的智能型古文字数字平台。
目前,该数字平台已收录了大量文字数据,包括殷商甲骨文数据库7万余片甲骨,共110万字;商周金文数据库1.7万篇器铭,共计18万字;战国楚简数据库9种著录,共计10万字;先秦古玺、古陶、古币和石刻文字数据库3.7万方,共计16万字;秦汉简牍数据库50种,90万字;汉代金石文字数据库3万方,20万字;魏晋至元代石刻文数据库1.5万种,300万字;唐代写本文字数据库500篇,60万字;元明刻本文字数据库4种,24万字;明清手写文字数据库920片,7万字;中国古代字书数据库16种,6万字头,300多万字;以及日藏汉字抄本数据库48种,65万字等。