采访关于「kode-AI Translation Cloud API」机器学习和评估的负责人! (第二部分)

从头开始创建特定于领域的神经机器翻译引擎

关于高电舍开发办公室“kode-AI Translation Cloud API”日英评价博客负责人的采访!

本文是上一篇文章的第二部分。

~点击这里查看博客的第一部分~

 

 

3. 评估结果 ~ 什么是 BLEU 值? ~

 

Satake:在对 10,000 条数据进行机器学习之前和之后,另外 1,000 条不是直接机器学习的数据提高了翻译准确性!
而判断这 1000 个英文译本质量与否的标准是,它们首先是手工翻译的!

柴田:是的,没错。 顺便说一句,佐竹先生,您知道上面提到的“BLEU 值”是什么吗?

佐竹:你是说用机制评估的值吗?

Shibata:用于评估的 1,000 个英文数据(不用于训练)与最初由人工翻译的 10,000 个数据有多接近?
“BLEU 值”是对相似性的机械评估。

这是由机器评估的分数,表示人工翻译的翻译与自动翻译结果之间的相似性的百分比。

佐竹:哇~我完美地学到了“BLEU value”!

柴田:训练前和学习后结果的机器评估(BLEU 值)结果如下。
[学习前] 27.80 ⇒[学习后] 54.49

Satake:通过训练 10,000 条数据,你可以看到用于评估的 1,000 条数据几乎翻了一番!

柴田:是的。 人工评估的结果如下。
[学习前的平均值] 54.0⇒[学习后的平均值] 71.4
(*评估标准:满分 6 分,满分 100 分,重点关注翻译内容是否能理解)

佐竹:大约提高了 30%! 可以看出,人们在评价学习时是有影响的。
可以说,让机器学习本身是有意义的! 在这次尝试中,您遇到了哪些困难?

 

4. 讨论

柴田:是的,我认为以均衡的方式选择要测试的数据很重要。
例如,在 10,000 个项目的数据中,有很多数据句型相同,但只有数据中的专有名词略有不同。
从中提取 1,000 条数据时,如果只收集内容相似的数据,则没有必要进行实验。
这就是为什么很难先将相似的日语句子归为一组并平衡地选择它们。

佐竹:还有用自己的眼睛做选择的过程,所以我觉得这需要很大的耐心和时间。
根据这些结果,您将来是否进行了任何改进?

柴田:BLEU 值是衡量结果翻译和参考翻译之间相似度的指标,它显着增加,所以我认为可以说学习的效果非常高。
在人工评估中,通常评估内容是可以理解的,除了专有名词的误译。
专有名词的误译可以通过使用 dictionary 功能覆盖它们来进一步改善。
事实上,当我后来在字典中注册它时,翻译的复制率尽可能接近 100%!

佐竹: 关键是要提前使用车站名称等专有名词的字典注册功能!

柴田:至于其他改进,我想在未来使用更多的数据进行实验。
事实上,这次的 10000 个案例的数量对于用于机器学习的数据量来说很小。
我认为,如果你尝试更多的数据,你可以期待更高的学习成果!

佐竹:从这项研究的结果来看,可以说学习的效果非常高,所以我很期待未来的尝试。
在什么情况下可以预期实际作?

柴田:我觉得它可以用作车站和火车的多语言广播文本,以及百货公司的室内广播。 如果你积累了双语数据,并且已经大致形成了一个不包括专有名词的部分的模式,你可以将其投入实际使用。 最重要的是,无需从头开始手动翻译,这有助于降低成本和时间。

佐竹:我们与柴田先生讨论了神经引擎的机器学习评估,预计未来会越来越多地提高翻译准确性! 柴田先生,非常感谢您今天抽出时间接受采访!

柴田:非常感谢。

佐竹:与开发办公室的访谈,下次会是什么样的开发者呢?
我迫不♪及待地想听到一些有趣的故事!