大地语料库・大地コーパス——数据挖掘
大地语料库
大地コーパス
词汇提取
词汇比较
特定词汇
历时变化
中日传播
其他挖掘
词汇提取
计算互信息等统计量来提取显著的2-gram搭配以提取2字词汇。
本研究基于词典的方法在日本汉文的分词中明显优于传统方法。
通过Fisher精确概率检验提取词汇(橙色圆点部分为白话词汇)。
词汇比较
中国诗文辞赋和日本汉诗文的2字词汇频率比较。
作品间词汇的比较,通过TF-IDF挖掘各作品的特征词。
语料库日本文献中各板块词汇间的余弦相似度。
特定词汇
白话词汇在语料库中日两国文献中的使用情况。
语料库中中医词汇的考察——中日医籍中的矿物药名。
地名词汇挖掘:基于语料库日本文献生成的地名词云图。
历时变化
穷尽性计算每一个词在中日文献中使用频率的历时变化。
通过历时频率相关矩阵,将一同变化的词汇进行聚类。
基于Word2vec和BERT的中日同形词语义差异距离的历时变迁。
中日传播
不同时代中国诗文词汇在日本王朝时代汉诗文中的使用情况。
各时代日本汉文中出现最多的中国人名。
使用哈希算法提取相同文本片段,挖掘中日作品间引用关系。
其他挖掘
语料库中各世纪日本文献高频词汇层次聚类树状图。
中日各时代和词汇间的对应分析。
根据词汇相似度对语料库中收录的日本文献进行文本聚类。
HOME
苏ICP备12043372号-2