我们向开发人员询问了创建日韩词典时的机器加工

高电舍网站的所有访问者您好! 你好。 我是来自高传社的佐竹。

为了提升我们网站的内容,我们的开发办公室还开设了♪“高电社开发办公室博客”,向大家传达各种信息

不擅长科学且不熟悉技术的销售助理 Satake 采访了我们的开发人员,并在“高电社开发办公室博客”中以对话的形式发送给他们。 请继续阅读 (*^_^* )那么,事不宜迟,让我们开始谈正事吧!

说到高电社,我们正在开发与翻译和字符输入相关的各种服务,例如软件开发、手动翻译和口译、移动和互联网相关内容开发以及 ASP 服务。
事实上,除了上述服务外,我们每天都在充分利用各种技术进行各种开发!

在“开发办公室博客”的第一期纪念中,我们采访了开发课 4 的川上先生,了解日韩词典创建中的机械加工~!
川上先生,非常感谢您('・ω・ ́)!

通过自然语言处理构建词典是可能的!

佐竹:您正在开发一种用于创建日韩词典的机器流程,但内容到底是什么? 作为韩国爱好者,我觉得会非常刺激! 此致敬意!

川上: 谢谢。 首先,简单说明一下我这次负责的工作,我使用统计自然语言处理从大量的日韩双语句子中制作了一本日韩词典。 语料库有超过 1000 万个并行翻译,单词的翻译会自动从中提取。 在这项开发中,对日语和韩语的高准确性支持得到了认可。

佐竹: ... 对于这个基本问题,我感到抱歉,但首先,您能告诉我们什么是“自然语言处理”吗?

川上:自然语言处理是一种允许计算机处理人类日常使用的语言(= 自然语言)的技术,例如日语、英语、中文和韩语。 这种自然语言处理应用于 IME 的预测转换和汉字转换,这些 IME 安装在我们熟悉的 ChineseWriter11 等软件中。

佐竹: 原来如此! 这种自然语言处理用于熟悉的地方! 要从日语和韩语的双语句子中提取要翻译的单词,例如,
Sun “我喜欢动漫” Han “저는 애니메이션을 좋아합니다”
→ 如果你自动提取一个平行翻译的单词...“I ᅵ저 / はᅵ는 / animeᅵ애니메이션 / がᅵ을 / 好きᅵ좋 , 아 / ですᅵ합니다”?

川上: 是的。 如上所述,两种语言之间的高度对应意味着正确提取单个单词的日语和韩语的准确性很高。

佐竹:1000 万的并行翻译数量令人惊叹,能够通过自动提取来创建日韩词典似乎对组织数据非常有用。

川上:这有点跑题了,但日语和韩语的外来词读法是完全不同的。 以上为例,在英文的 “anime” 的情况下
它将是日本的“动漫”和韩国的“애니메이션 (enimation)”。

佐竹: 对! 特别惊讶的是,我在本地打不通,我惊讶地发现“麦当劳”和“汉堡王”! 在韩语中,它被称为“맥도날드 (mednardu)”和“버거킹 (bogokin)”,顺便说一句,汉堡包被称为“햄버거 (haembogo)”。

如果你尝试转录它,你可能感觉不到太大的不同,但是当它真正出现在对话中时,它真的完全没有意义(哭泣)! 有趣的是,即使是外来词也有如此不同的发音!

顺便说一句,我经常听到前面提到的“语料库”这个词,但它到底是什么呢?

什么是语料库? 我将解释我们经常听到的 “语料库” 一词。

Kawakami:语料库是一种语言资源,它收集了大量的书面和口语并创建了一个数据库。
在这种情况下,有两种语言,日语和韩语,因此这些语言称为双语语料库。 不同语言之间的句子语料库称为双语语料库。

Satake:双语语料库是用作自然语言处理(如机器翻译)中的训练数据的语料库。

川上:是的。 在这种情况下,我们专注于双语语料库中出现的单词和单词,并提取了日语和韩语的双语单词。
此外,这个双语语料库还被用于自然语言处理、语言教育和人工智能 (AI) 等各个领域,并且对它的需求逐年增加。 特别是对于神经翻译来说非常重要,神经翻译会自动从大型语料库中学习翻译过程,以及统计翻译!

佐竹:它真的被应用到了各种领域! 通过让学生学习双语语料库,可以构建一个系统并提高翻译的准确性。

川上: 是的。 顺便说一句,你知道“形态分析”这个词吗,这个词在自然语言处理的研究中很重要?

自然语言处理领域的主题“形态分析”是什么?

佐竹: 形态学分析... 这是你第一次听说这个词! 请解释一下!! ('・ω・ ́)

川上:“形态分析”是一种将句子分解为“有意义的最小单位(= 语素)”并为每个单位附加词性标签的技术。 通过将句子和短语分解成语素,它有助于分析语法和含义。
例如,在句子“I exercise in the park”中,“I(代词)/ is(副词)/ park(名词)/ de(小品词)/ motor(名词)/ shi(动词)/ masu(助动词)”
我将像这样划分句子。
例如,如果通往目的地的道路是一句话“去某个地方”,那么将道路划分为道路经过的每个地区并为每个地区分配一个地区名称(城镇名称)的过程就是形态学分析。
你不觉得你在某个地方学到了这种形态分析技术吗?

佐竹: 不知道在哪... 啊 明白了,跟我很久以前用日语学的词性分解是一样的!

川上:实际上,这种形态学分析被用于我们经常使用的各种工具中。
例如,如果你在互联网搜索引擎中搜索 “旅游景点 in Osaka”,它首先会被上述形态分析分成 “Osaka/no/tourist spots” 等词。 然后搜索单词。

佐竹: 我不知道我们平时使用的搜索引擎也用「形态分析」...... 这太神奇了。

川上: 是的。 这种形态学分析用于机器翻译和人工智能 (AI)。

佐竹:这种形态学分析在很多地方都有使用。 起初,我认为“形态分析”这个词本身会显得困难和复杂,但当我听到应用实例时,我开始感到一种熟悉感和熟悉感!

我们复制了韩语独有的书写信息!

佐竹:在这个语料库的形态分析中,你设计了什么吗?

Kawakami:在形态分析过程中,韩语被用来恢复独特的涂鸦信息。

佐竹:这里的“划分”是指通过在文本中添加适当的中断来使句子更易于阅读的正字法。
어제 친구와 밥을 먹었습니다. / 我昨天和朋友们共进晚餐。
↑ 像这样放置一个空格。

佐竹:这是你第一次用这样的机器处理来制作词典吗?

川上:其实,我过去曾致力于创建一本中日词典,而这项技术就是这个项目的基础。 例如,我还参与了以下工作。 有关更多信息,请在此处查看报告。
参考资料:关于平成 27 年词典创建调查项目
- 中文专利文献机器翻译词典的编写和机器翻译质量评估的研究

佐竹: 所以这次经历导致了这个发展! 对这两种语言的支持准确性也很高,因此对未来的进一步开发寄予厚望!

Kawakami:在创建我们的双语语料库时,我们的工作方式是将我们的两项优势有机地结合在一起:自然语言处理技术和人工翻译。

感觉如何?
这一次,我们采访了开发人员,了解通过对大量数据进行统计处理来构建词典的技术。

“自然语言处理”还是“语料库?“形态分析?”这是一次不懂技术术语的撞击式采访,但我对术语的解释和应用示例很感兴趣!

我能够再次了解到,这些不同的技术其实都集中在我日常生活中随便用到的服务中,同时,作为软件开发公司的员工,我反思了自己缺乏学习...... (・ω・' )

希望能通过这个开发博客继续了解♪开发信息,同时为大家提供开发信息

此次引入的双语语料库可用于应用程序、系统和研发等各种目的。
如果您对双语语料库或自然语言处理有任何疑问,请联系我们。

如果您对自然语言处理有任何疑问,请在此处联系我们>

请继续关注下一个“开发办公室博客”!
我们期待您的来信。