大地语料库・大地コーパス

大地语料库
大地コーパス

大地语料库图片
整体介绍配图

整体介绍

“大地语料库”是在国家社科基金项目“日本汉字词语料库建设与研究”(19AYY020)支持下建设的中日古代文献语料库。语料库以古籍善本为底本,收录了中国和日本各个历史时期,文学、思想、法律、历史、科技等不同领域的语料逾1000万字。在日语历时语料库的领域,与日本国立国语研究所建设的专注于收录和文文献的“日本语历史语料库(CHJ)”不同,本语料库系统整理并收录了日本汉文文献,并已实现与中国古代文献的联合检索功能,旨在为日本汉字词的历时研究以及中国传统文化的对外传播研究提供有用的数据平台。【文献清单(中国)】【文献清单(日本)】

检索软件配图

检索软件

“大地语料库”针对日本汉字词的研究需要,开发了相较前述网页程序功能更为丰富的语料库软件。除精准检索与异体字检索功能之外、还提供搭配分析、词向量近似词分析、引用挖掘等分析功能,并支持历时频次柱状图、历时频率变化折线图、板块间N-gram使用频率对比图、词共现网络图等可视化功能,以及自动报告生成等多项有用功能。在检索软件中,我们特别增设了用例的底本位置定位功能,这一功能将为古籍研究中频繁进行的底本确认工作带来可观的效率提升。【软件下载及说明网页】

数据挖掘配图

数据挖掘

在数字人文和学科交叉蓬勃发展的当下,为了助力研究者利用Python等编程语言,对语料库数据进行数据挖掘,“大地语料库”毫无保留地提供了我们语料库中的全部语料的文本数据。研究者可以一键下载至个人电脑上进行数据分析。语料的文本数据采用utf8编码的txt格式。为正确显示生僻字,需下载并安装方正大字符集。以下是基于“大地语料库”的数据挖掘案例展示。我们相信,利用大地语料库的中日古代文献数据,能够开展出既富有意义又饶有趣味的研究。【数据挖掘案例展示】

联系配图

联系我们

在语料库的建设过程中,我们获得了常辉教授、方一新教授、葛继勇教授、何宝年教授、李峰教授、刘海涛教授、毛文伟教授、潘钧教授、陆留弟教授、施晖教授、施建军教授、王军教授、吴雨平教授、小野正弘教授、张厚泉教授、章晓芳教授、赵爱国教授等各学科专家学者的悉心指导,并且得到了课题组逾100人师生的倾力协助。我们衷心希望有幸能够继续得到大家的宝贵指正,以进一步完善我们语料库的数据与功能。如果您有任何宝贵意见或批评建议,请通过以下方式联系我们:

  • 电子邮件:wenjianjiaodui@qq.com

苏ICP备12043372号-2