大規模言語モデルのポストエディット機能向上について

by TMJ JAPAN

2024年4月11日の研究報告において、メリーランド大学のキ・デヨン氏とマリーン・カルプア氏は、品質に関する外部からのフィードバックを用いて大規模言語モデル(LLM)の指導を行うことで、機械翻訳のポストエディット(MTPE)能力が向上することを示しました。

目次

研究報告の内容

これまでの研究では、機械翻訳の自動ポストエディット(PEMT)にLLMを応用する可能性が探求されていましたが、本研究はいくつかの点で異なるアプローチを採用しています。

具体的には、モデル内で自動生成されるフィードバックに頼るのではなく、外部のフィードバックを利用してLLMの翻訳品質を向上させました。また、LLM自身による翻訳のみならず、他のモデルからのポストエディット結果も利用できるようにしました。

使用したのは、GPT-3.5、GPT-4、PaLM-2などの大規模非公開モデルではなく、オープンソースのLLaMA-2です。

彼らは特に、7Bおよび13Bのモデルサイズで実験を行い、「中程度のサイズのLLMでもポストエディットが可能であり、これらは訓練や運用が低コストで済むため、実際のアプリケーションにおいても有効である」と述べています。

オープンモデルを使用することで、研究結果の再現性が高まり、他の研究者がこの研究を基にしてさらなる研究を進めやすくなります。

ポストエディットについてはこちら

翻訳者にとっての意義

この研究は、翻訳者になりたての方や翻訳者を目指している方々にとって、技術の進化を知る機会となり、新しい技術の学習という点で非常に有益です。

しかしながら、人間が行うポストエディットを機械が完璧に行えるようになったわけではないことは理解しておく必要があります。

この研究では、あくまでポストエディットを機械が行えるようにするための技術的進歩について説明をしています。このような、技術的な進歩などの情報をいち早く取り入れていくことは、翻訳者にとっても意義があることではないでしょうか。

さらに、この研究に関連するオープンソースモデルやツールの使い方を学び、自ら実践し技術を習得するなどの行動に移せるとより有意義なものになるでしょう。

今後の展望

キ・デヨン氏とマリーン・カルプア氏は、任意のMT入力を自動的に評価し、ポストエディットが必要かどうか、どのようにポストエディットすべきかを判断するワークフローを作成する方法、さらには使用すべき最適なフィードバック機構を決定する方法をさらに探求する計画です。

彼らはまた、「大規模で入手するのが高価な人間のアノテーションに依存することを最小限に抑える」方法をさらに探求したいと考えています。

TMJ JAPAN

東京都品川区にある翻訳会社です。日英翻訳を中心に、他言語に渡る翻訳・通訳サービスを提供する翻訳会社・通訳会社です。

https://tmjjapan.co.jp/