logo logo

科普知识

Popular
当前位置: 首页 协会科普 正文

【机器翻译科普2】翻译行业遇上AI,能擦出怎样的火花?仅仅是机器翻译吗?

发布时间:12-29    浏览量:886  


      本文旨在明确并简述翻译行业在哪些方面可以从人工智能(特别是机器学习)中受益。由于AI并非完全可以预测,因此采用任何一种AI技术时,都可能会带来新的风险。所以,无论是全新引入AI,还是用AI取代传统的算法自动化,都可能会产生负面影响,当然也可能带来积极的突破。
      在语言方面,我们看到机器翻译在过去的不断演进,这是机器学习最有力的例子。我们已经知道它能带来什么,好处是什么,以及如何应对风险。我们对待机器学习的态度,决定了我们能从机器学习发挥多大的潜力。比如,我们可以基于获取的数据进行自动化决策,要么为工作人员提供参考选项,要么自动决策从而解决持续开发/持续翻译过程中的瓶颈。还可以进行预测,揭示潜在的风险(项目延期、客户不满等),并提出建议性的改正措施。
      由于机器学习技术可以应用于不同的领域,采取不同的学习方法(有监督或无监督学习、强化学习、迁移学习等),因此我们可以结合实际情况,寻影追踪,搭配最佳的使用场景和方法。
小试牛刀:借助机器学习来推荐供应商
      几年前,我们向项目经理开展了一项问卷调查,希望了解在哪些方面可以使用机器学习来简化和加快工作。结果显示,项目经理经常花费大量时间来为某个特定的工作寻找合适的供应商,这与他们的期望相去甚远。于是,我们下定决心,尝试将机器学习用于为某个项目选择最佳供应商。
      首先,我们想验证是否可以训练神经网络来做出与项目经理相同的选择。我们从数万个已经完成的任务中获取初始数据和分配的供应商,并使用它们来训练一个模型。虽然有多种复杂的神经网络架构可用,但我们选择了一个简单的回归分类模型,它的表现还算不错。经过验证,该模型在99%以上的情况下做出了正确的选择。然而,当试图在正式生产活动中使用这个模型时,我们发现它选中的供应商经常在事实上并不适合。这是因为:过去任务所分配的供应商,从今天的角度来看并不是最适合的供应商。这就是所谓的“Garbage in – Garbage out”准则,种瓜得瓜,种豆得豆。
重新评估项目经理的日常活动
      最近,我们进行了另一项问卷调查,借此了解项目经理们将时间主要花在了哪些活动上。与此同时,我们想看看机器学习还可以用在什么地方。这项调查显示,为特定项目寻找最佳供应商仍然是最为耗时的任务之一。当然,机器学习可用于哪些领域也变得明朗清晰。
      下表列出了我们认为可以改进的活动,以及如何将这类活动部分自动化或完全交给机器。
      下文中的“系统”是指项目管理系统或ERP系统。
供应商推荐2.0(重磅升级)‍
      如上所述,基于机器学习的供应商推荐在技术上是完全可行的,但是经常给出的结果是错误的(或者至少在某些PM看来是“错误”的)。为了解决这个问题,我们决定:
      先看看是谁在管理这个项目,也就是把推荐发给谁。这样就可以在个人/部门基础上定制机器学习的输出,从而持续重复使用由不同PM那里收集的数据,同时消除“错误的”推荐。)
      降低训练/验证数据集记录的权重,因为它们已经过时。因此,最近的数据优先于过去五年的数据,而五年以上的数据则根本不再考虑。
      这种改进后的架构的使用效果如何,暂时尚未公布。但是我们已经计划在下一个迭代中进行一些调整。与其根据模型定期重新训练过去五年来的数据集,不如改为对网络初始训练后的数据进行强化学习。
      除此之外,我们在将新项目与已完成项目进行比较时,对照诸如客户/用户、语言对、领域、SLA等因素并快速分析待翻译的文本特征(这就用到自然语言处理啦!),选出匹配的项目,直接复用项目资源。
机器学习还能做什么?
1. 更正系统中的数据
      在处理已完成项目所记录的数据时,我们发现了许多不一致的地方。通过分析,我们觉得只需稍作努力,就可以快速准确地识别出这些不正确的数据,而这些数据的存在也令项目经理们头疼不已。出现错误数据的原因可能是错误的用户操作、程序代码中的错误或只是一个小小的打字错误。不管错误是怎么造成的,至少我们能识别出来。机器学习,责无旁贷。
      具体而言,错误数据的检测可以在既定的数据处理任务中增加一项分析,也可以设成一项单独的数据分析任务。无论哪一种方法,都是要识别出不匹配公共模式(使用回归模型)的情况。对于那些看起来有错误的数据,自动更正的做法风险太大。因此,只要向负责的员工报告潜在错误就够了,该员工可以验证并修复它。 2. 项目设置和计划
      通常,在项目的开始阶段,例如报价或项目确认阶段,就需要确定一个可行的项目截止时间。为此,我们需要评估项目工作流中每个阶段的截止时间,计算关键路径并增加适当的缓冲时间以备周全。我们可以使用过去已完成任务的数据来训练神经网络,从而预估每项特定任务的截止时间。
      还有一种办法可以迅速初步估计截止时间:根据过去已完成项目的工作量、语言对、领域和其他特征,对神经网络进行培训。这样的网络给出的结果是近似估算,但是这样的算法实现起来要简单得多。 3. 监控截止时间
      要监控项目截止时间,我们可以使用与项目计划相同的方法。所不同的是,项目已经启动,工作正在如火如荼地进行,我们掌握了更多的相关数据。例如,我们知道哪些任务已完成,剩余任务具体分派给了哪些供应商。相应地,在这种情况下,我们只需要评估剩余任务所需正常时间,计算关键路径,将其添加到当前计划中以估算最可能的项目完成时间,并与商定的截止时间进行比较。如果预计完成时间早于商定的截止时间,正合我意 -- 完全有机会赶上截止时间。如果晚于预期,则通过将差值应用于适当的正态分布直方图,可以粗略估计仍能满足截止时间的概率(在本例中,一定低于100%)。 4. 手工编写供应商工作指南
      为供应商编写明确、一致和最新的工作指南,是项目管理日常工作的重要部分。但是这项工作往往实际上就是复制和粘贴客户的工作指南,既无聊又无益。理想情况下,要针对某个客户的项目工作流中所涉及的所有类型的供应商(如工程师、翻译、编辑、校对、DTP专员等)维护一整套最新的工作指南。但在很多时候,这可能有点多余或不切实际。
      这里,我们使用自然语言处理技术,例如信息抽取和命名实体识别。在从客户那里接收到的非结构化格式的项目描述文本上运行它们,可以将所有这些项目属性(如工作量、语言对、客户、项目名称、截止时间等)提取为单独的值。然后我们只需将它们填写到一个结构化的工作指南模板中,就可以得到供应商工作指南的初稿。如果您还没有在项目管理系统中创建相应的项目,那么正好可以根据提取的项目属性来创建项目。 5. 自建或购买
      随着技术的进步,世界变得越来越数字化,软件开发能力对语言服务提供商来说变得越来越重要。然而,像机器学习这样复杂、相对较新并快速发展的领域,仍然很难普遍采用。
      从实际出发,公司可以考虑要么使用Python/R构建自己的机器学习微服务,要么使用谷歌、亚马逊、微软等IT巨头或者Intento等集成商提供的服务。
      尽管机器学习所带来的效果可能令人惊喜,但它同时也伴随着风险。因此,可行之道是将机器学习解决方案作为日常工作环境中的得力助手,但同时要密切关注它们的结果,直到能够信任它们并已正确评估可能的风险。