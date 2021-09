ソフトウェア開発プラットフォームのGitHubが2021年6月に発表した、関数名とコメントから関数のコードを丸ごと自動補完するAIプログラミング機能「GitHub Copilot」では1170個の単語が禁止されているという研究結果が発表されました。禁止単語の中にはリベラル・パレスチナ・社会主義者などの議論を招きかねない単語だけでなく、FPSゲームの古典的傑作である「Quake 3 Arena」の関数まで含まれています。



https://www.theregister.com/2021/09/02/github_copilot_banned_words and phrases_cracked

2021年6月、GitHubは人工知能研究組織のOpenAIと強力し、途中まで記入したソースコードの続きをAIで自動補完する機能「GitHub Copilot」を発表しました。GitHub Copilotがどのように動作するかについては、以下の記事で詳しく解説しています。

このGitHub Copilotについて、新たに「1170個の単語を禁止している」という研究結果が公開されました。この研究を行ったニューヨーク大学コンピュータサイエンス・エンジニアリング学科のBrendan Dolan-Gavitt助教授によると、GitHub Copilotは出力するテキストの「ハッシュ値」を照合することで誹謗中傷や差別的な表現が表示されることを防ぐ機能が内在されているとのこと。この機能について調査を進めていたDolan-Gavitt助教授は、Visible Studio Codeと接続して自動補完機能を提供するというGitHub Copilotの拡張機能に着目し、この拡張機能をJavaScriptで展開して禁止単語のハッシュ値1170個を取得しました。

Dolan-Gavitt助教授は、このハッシュ値1170個のうち1168個から、禁止されている英単語を特定することに成功しました。禁止されていたのは、パレスチナ、ガザ、共産主義者、ファシスト、社会主義者、ナチス、移民、人種、男性、女性、少年、少女、リベラル、BLM(ブラック・ライブズ・マターの略称)、ANTIFA、ヒトラー、エスニック、ゲイ、レズビアン、トランスジェンダーなどの単語や、これらの単語の複数形でした。

特定された単語1168個は以下で公開されていますが、検索回避のために全単語がシーザー暗号の一種であるROT13で暗号化されています。

moyix.web/~moyix/copilot_slurs_rot13.txt

https://moyix.internet/~moyix/copilot_slurs_rot13.txt

禁止されていた単語のほとんどは差別的表現や物議を醸す文脈で用いられるものでしたが、FPSゲームの古典的傑作の1つ「Quake 3 Arena」で高速逆平方根の計算に用いられるアルゴリズム「q rsqrt」という関数も含まれているとのこと。

実はGitHub Copilotはローンチ直後には「q rsqrt」の自動補完にも対応しており、「著作権的に問題がある」という批判が話題を集めていました。そのため、「q rsqrt」は批判以降に禁止単語入りしたものとみられており、Dolan-Gavitt助教授は「(著作権侵害という)根本的な問題から逃げている」とコメントしています。

