典籍英译 跨学科研究:典籍英译海外评论挖掘的有效路径
原创 祁瑞华 中国社会科学网
中国典籍英译是中国文化“走出去”的重要途径,读者的评论是译文被接受的最终标准。目前,经典英译中读者意见挖掘的研究趋势是:在读者接受理论的指导下,引入自然语言处理技术和文本挖掘技术,拓宽读者意见研究的视野,通过互联网环境获取大规模评论语料库,自动挖掘并定量分析评论意见,梳理读者关注的重点话题,从而系统深入地发现有价值的意见信息,为掌握读者意见提供准确可靠的数据分析。自然语言处理技术、机器学习方法和语义分析的交叉研究是挖掘中国典籍英译观点的有效途径。具体实现路径如下。
第一,构建典籍英译评论语料库,扩大读者观点研究视野。以美国和英国读者的评论文本为主要研究对象,通过Amazon海外网站API接口收集评论语料,目前尚无典籍英译图书评论的标准实验语料,运用自然语言处理技术进行去停用词和噪声数据、词性标注等预处理,在上下文环境中进行句子的句法分析、指代消解和省略恢复,建立典籍英译评论语料库。其次,提取经典英译评论的词库和修饰语,梳理读者评论的重点。根据网络评论文本长度短、特征稀疏的特点,通过依存句法分析和语义分析提取主题词与观点词的搭配关系,探索主题词与修饰语的固定搭配模式。分析评论文本中的隐性评论主题,识别评论语料库的文本模式,自动提取评论中的显性主题词,如译文的风格、结构和语言风格,探索评论语料库中没有直接描述但可以通过语义推理获得的隐性主题词。语义分析和领域知识表示是提高网络评论观点挖掘精准程度的关键。语义分析的基础是词汇表示,在情感词汇极性分类任务中采用词向量表示、前馈神经网络和卷积神经网络等深度学习算法,有效提高了情感词汇极性分析、语义分析等任务的准确率。引入领域知识库分析语境,可以理解读者真正想要表达的情感。完善领域知识库的基本任务是知识图谱的完成。现有的知识地图补全算法耗时长,精度有限。跨学科深度学习算法是解决这一问题的有效研究途径。第三,判别观点情感极性,建立典籍英译评论观点摘要。评论情感极性判别是探究潜在观点态度的关键步骤。从机器学习的角度看,情感极性识别可以看作多类别、单标签文本分类任务。机器学习分类算法结合情感词典,能够有效标注观点修饰语的情感极性,为定量研究典籍英译读者的正负面评论观点提供客观数据;结合聚类算法可以发现评论主题间的内在联系和客观规律;通过在语法层面进行句法分析和模式挖掘分析表达读者观点的修饰语,能够对评论观点主题摘要及情感极性进行精确分析;基于机器学习和情感词典形成观点主题摘要,探究蕴含网络评论中潜在的观点态度,能够帮助译者和出版社基于可信数据准确掌握读者对译本的正负面评论。第四,深入挖掘评论的语义主题,获取隐藏的读者观点。中文典籍英译中的观点挖掘不仅要从翻译风格、词语、句子等微观层面进行考察,还要从全局角度把握观点和主题的内在联系和重要性排序。网络评论嘈杂,表达随意,语料庞大,观点稀疏分散。为了梳理读者关注的重点,需要构建深度语义挖掘的观点主题模型,在语义层面揭示评论主题,将高维评论文本映射到低维主题空,使其更好地可解释性,从多维度挖掘隐藏的有价值主题,结合领域知识对提取的主题词进行分类,绘制主题词聚类图。采用视觉相似度映射技术和加权模块化参数聚类算法共同呈现海外读者关注的主题聚类,结合知识网络节点的中心性呈现每个聚类中的关键主题词,可以突破主观分析和小样本数据的局限,从庞杂的评论信息中提取句子覆盖面更广、主题词汇多样性更丰富的隐性知识。第五,文本可视化分析,系统分析读者评论观点。整合观点摘要中的显性观点和主题模型中的隐性观点,根据语义上的等同、等级和相关关系,对主题词进行合并、上下位或相关关系的描述和表示;将主题词按照重要性排序;汇总读者对哪些译者、译本的哪些主题词进行对比;基于主题聚类视角对目前广为接受的中国文化典籍译本读者评价进行对比研究,挖掘典籍英译作品畅销的深层次原因;分析主题词和修饰语情感极性的分布情况,了解国外读者对特定译者或译本所持有的具体态度,为译者和出版社进一步了解读者需求提供科学可靠的依据。可进一步采用统计上浮原理以主题词云方式显示典籍英译评论中频繁使用的主题词,并将汇总后的主题词按照重要性排序。分析观点主题之间的语义关系,对网络评论中的显式对比关系进行语义描述,计算话题簇之间的相似度,基于深层次的语言分析对评估观点进行语义聚类,系统分析读者评论观点。第六,适应多语种、跨学科环境,迎接国际化挑战。互联网的国际化决定了在多语种、跨领域的背景下研究典籍英译评论尤为重要。句法分析、情感极性辨析等基本分析方法与语言环境问题领域高度相关。不同领域数据的情感特征并不完全相同。在一个领域的数据中训练的情绪预测模型通常不能直接用于其他领域。随着用户评论数量和各个领域的不断增加,在各个领域独立训练模型需要花费大量的时间和资源。跨领域情感分类通过相关源领域的知识改进目标领域,具体实现通过相近领域迁移学习或者领域适配模型,例如用图书评论领域已标注评论得到的情感分类器,迁移或者适配到数字视频光盘领域,节省该领域评论的标注时间和资源。评论情感在不同领域通常存在特征漂移问题,在书籍领域常用“可读性强”“有思想”等表达积极情感,用“平淡”“无情节”等表示消极情感;而在数字视频光盘领域,通常用“清晰度高”“光滑”等表示积极情感,用“模糊”“有划痕”等表示消极情感。由于领域之间的差异,在源领域中训练的情感分类模型,在直接应用于目标领域时往往表现不佳。采用基于深度学习的方法,可以为跨领域环境下的情感特征漂移问题提供解决方案,需要解决的难点是如何处理语义丰富的评论短文本。跨语言情感分析是利用源语言文本分析目标语言文本的情感倾向,可以通过基于资源迁移和联合学习的方法来实现。由于不同的语言语料库标注系统,资源转移方法难以实现,而基于联合学习的方法主要依赖于机器翻译,这极大地影响了翻译结果的质量。近年来,深度学习成为跨语言情感分析的热点,主要集中在粗粒度层面。跨语言细粒度情感分析需要进一步研究。原标题:《跨学科研究:典籍英译海外评论挖掘的有效路径》