生成式编码器-解码器模型为开发领域通用对话系统提供了很大的前景。然而,它们主要应用于开放域对话。
我们研究了语音到语音翻译,其中一种语言没有定义良好的书面形式。我们使用英语-西班牙语和汉语-英语双文本语料库,以提供黄金标准的基于文本的翻译和实验结果,从语音中自动提取不同级别的符号表示。我们限制我们的实验,以便开发的方法可以扩展到低资源语言。我们推导出源文本的不同语音表示法,以模拟可从低资源语言语音数据中学习的转录类型。我们尝试用不同的方法将语音表征的元素聚类成类词单位。我们在生成的文本上训练MT模型,并报告不同表示和聚类方法的BLEU分数,以便比较它们的有效性。最后,我们讨论了我们的研究结果,并对未来的研究提出了建议。
本报告描述了一个对话框管理框架,该框架旨在方便地创建多域、 mixed-initiative对话系统。我们正式化了现有的最先进的计划基于拉文克劳对话 将管理框架[2]转化为半马尔可夫决策过程(SMDP),其根源在于层次强化学习(HRL)[10,5]社区。拟议的框架还包括 领域依赖的本体,让开发人员快速编码领域知识。因此,建议 模型允许快速扩展到新域,并从对话策略的可重用性中获益。
层次强化学习(HRL)利用时间抽象来解决大型马尔科夫决策过程(MDP)问题,并提供可转移的子任务策略。本文介绍了一种非策略HRL算法:层次q值迭代(HQI)。我们证明了它是有可能有效地学习递归最优策略的任何有效的层次分解的原始MDP,给定一个固定的数据集收集从一个平坦的随机行为策略。我们首先正式证明了该算法的收敛性。我们在Taxi域上的实验表明,HQI比平坦的q值迭代收敛更快,且易于状态抽象。此外,我们还证明了我们的算法能够从相同的固定数据集中学习不同层次结构的最优策略,从而能够在不重新收集数据的情况下进行模型比较。