科普知识

Popular

当前位置：首页协会科普正文

【机器翻译科普2】翻译行业遇上AI，能擦出怎样的火花？仅仅是机器翻译吗?

发布时间：12-29 浏览量：886

      本文旨在明确并简述翻译行业在哪些方面可以从人工智能（特别是机器学习）中受益。由于AI并非完全可以预测，因此采用任何一种AI技术时，都可能会带来新的风险。所以，无论是全新引入AI，还是用AI取代传统的算法自动化，都可能会产生负面影响，当然也可能带来积极的突破。
      在语言方面，我们看到机器翻译在过去的不断演进，这是机器学习最有力的例子。我们已经知道它能带来什么，好处是什么，以及如何应对风险。我们对待机器学习的态度，决定了我们能从机器学习发挥多大的潜力。比如，我们可以基于获取的数据进行自动化决策，要么为工作人员提供参考选项，要么自动决策从而解决持续开发/持续翻译过程中的瓶颈。还可以进行预测，揭示潜在的风险（项目延期、客户不满等），并提出建议性的改正措施。
      由于机器学习技术可以应用于不同的领域，采取不同的学习方法（有监督或无监督学习、强化学习、迁移学习等），因此我们可以结合实际情况，寻影追踪，搭配最佳的使用场景和方法。
小试牛刀：借助机器学习来推荐供应商
      几年前，我们向项目经理开展了一项问卷调查，希望了解在哪些方面可以使用机器学习来简化和加快工作。结果显示，项目经理经常花费大量时间来为某个特定的工作寻找合适的供应商，这与他们的期望相去甚远。于是，我们下定决心，尝试将机器学习用于为某个项目选择最佳供应商。
      首先，我们想验证是否可以训练神经网络来做出与项目经理相同的选择。我们从数万个已经完成的任务中获取初始数据和分配的供应商，并使用它们来训练一个模型。虽然有多种复杂的神经网络架构可用，但我们选择了一个简单的回归分类模型，它的表现还算不错。经过验证，该模型在99%以上的情况下做出了正确的选择。然而，当试图在正式生产活动中使用这个模型时，我们发现它选中的供应商经常在事实上并不适合。这是因为：过去任务所分配的供应商，从今天的角度来看并不是最适合的供应商。这就是所谓的“Garbage in – Garbage out”准则，种瓜得瓜，种豆得豆。
重新评估项目经理的日常活动
      最近，我们进行了另一项问卷调查，借此了解项目经理们将时间主要花在了哪些活动上。与此同时，我们想看看机器学习还可以用在什么地方。这项调查显示，为特定项目寻找最佳供应商仍然是最为耗时的任务之一。当然，机器学习可用于哪些领域也变得明朗清晰。
      下表列出了我们认为可以改进的活动，以及如何将这类活动部分自动化或完全交给机器。
      下文中的“系统”是指项目管理系统或ERP系统。
供应商推荐2.0（重磅升级）‍
      如上所述，基于机器学习的供应商推荐在技术上是完全可行的，但是经常给出的结果是错误的（或者至少在某些PM看来是“错误”的）。为了解决这个问题，我们决定：
      先看看是谁在管理这个项目，也就是把推荐发给谁。这样就可以在个人/部门基础上定制机器学习的输出，从而持续重复使用由不同PM那里收集的数据，同时消除“错误的”推荐。）
      降低训练/验证数据集记录的权重，因为它们已经过时。因此，最近的数据优先于过去五年的数据，而五年以上的数据则根本不再考虑。
      这种改进后的架构的使用效果如何，暂时尚未公布。但是我们已经计划在下一个迭代中进行一些调整。与其根据模型定期重新训练过去五年来的数据集，不如改为对网络初始训练后的数据进行强化学习。
      除此之外，我们在将新项目与已完成项目进行比较时，对照诸如客户/用户、语言对、领域、SLA等因素并快速分析待翻译的文本特征（这就用到自然语言处理啦！），选出匹配的项目，直接复用项目资源。
机器学习还能做什么？
1. 更正系统中的数据
      在处理已完成项目所记录的数据时，我们发现了许多不一致的地方。通过分析，我们觉得只需稍作努力，就可以快速准确地识别出这些不正确的数据，而这些数据的存在也令项目经理们头疼不已。出现错误数据的原因可能是错误的用户操作、程序代码中的错误或只是一个小小的打字错误。不管错误是怎么造成的，至少我们能识别出来。机器学习，责无旁贷。
      具体而言，错误数据的检测可以在既定的数据处理任务中增加一项分析，也可以设成一项单独的数据分析任务。无论哪一种方法，都是要识别出不匹配公共模式（使用回归模型）的情况。对于那些看起来有错误的数据，自动更正的做法风险太大。因此，只要向负责的员工报告潜在错误就够了，该员工可以验证并修复它。 2. 项目设置和计划
      通常，在项目的开始阶段，例如报价或项目确认阶段，就需要确定一个可行的项目截止时间。为此，我们需要评估项目工作流中每个阶段的截止时间，计算关键路径并增加适当的缓冲时间以备周全。我们可以使用过去已完成任务的数据来训练神经网络，从而预估每项特定任务的截止时间。
      还有一种办法可以迅速初步估计截止时间：根据过去已完成项目的工作量、语言对、领域和其他特征，对神经网络进行培训。这样的网络给出的结果是近似估算，但是这样的算法实现起来要简单得多。 3. 监控截止时间
      要监控项目截止时间，我们可以使用与项目计划相同的方法。所不同的是，项目已经启动，工作正在如火如荼地进行，我们掌握了更多的相关数据。例如，我们知道哪些任务已完成，剩余任务具体分派给了哪些供应商。相应地，在这种情况下，我们只需要评估剩余任务所需正常时间，计算关键路径，将其添加到当前计划中以估算最可能的项目完成时间，并与商定的截止时间进行比较。如果预计完成时间早于商定的截止时间，正合我意 -- 完全有机会赶上截止时间。如果晚于预期，则通过将差值应用于适当的正态分布直方图，可以粗略估计仍能满足截止时间的概率（在本例中，一定低于100%）。 4. 手工编写供应商工作指南
      为供应商编写明确、一致和最新的工作指南，是项目管理日常工作的重要部分。但是这项工作往往实际上就是复制和粘贴客户的工作指南，既无聊又无益。理想情况下，要针对某个客户的项目工作流中所涉及的所有类型的供应商（如工程师、翻译、编辑、校对、DTP专员等）维护一整套最新的工作指南。但在很多时候，这可能有点多余或不切实际。
      这里，我们使用自然语言处理技术，例如信息抽取和命名实体识别。在从客户那里接收到的非结构化格式的项目描述文本上运行它们，可以将所有这些项目属性（如工作量、语言对、客户、项目名称、截止时间等）提取为单独的值。然后我们只需将它们填写到一个结构化的工作指南模板中，就可以得到供应商工作指南的初稿。如果您还没有在项目管理系统中创建相应的项目，那么正好可以根据提取的项目属性来创建项目。 5. 自建或购买
      随着技术的进步，世界变得越来越数字化，软件开发能力对语言服务提供商来说变得越来越重要。然而，像机器学习这样复杂、相对较新并快速发展的领域，仍然很难普遍采用。
      从实际出发，公司可以考虑要么使用Python/R构建自己的机器学习微服务，要么使用谷歌、亚马逊、微软等IT巨头或者Intento等集成商提供的服务。
      尽管机器学习所带来的效果可能令人惊喜，但它同时也伴随着风险。因此，可行之道是将机器学习解决方案作为日常工作环境中的得力助手，但同时要密切关注它们的结果，直到能够信任它们并已正确评估可能的风险。