GitHub Copilot
GitHub Copilot(ギットハブ・コパイロット)は、GitHubが提供しているクラウド型人工知能ツールであり、OpenAIのGPTを使用し、プログラミングにまつわる各種作業を支援する。 2021年版の GitHub Copilot は、ソースコードの自動補完によって、Visual Studio Code、Visual Studio、Neovim、JetBrainsの各統合開発環境(IDE)でのプログラミングを支援する[1]。2021年6月29日にGitHubが発表し、有償サブスクリプションで提供されており、多数のプログラミング言語をサポートしている[2]。 沿革2021年6月29日、GitHubはVisual Studio Code開発環境でのGitHub Copilotのテクニカルプレビューを発表した[1][3]。2021年10月27日、JetBrainsのIntelliJ IDEAなどのプラグインとしてマーケットプレイスにリリースし[4]、GitHub Copilot Neovimプラグインをパブリックリポジトリとしてリリースした[5]。2022年3月29日、GitHubはMicrosoft Visual Studio 2022向けにCopilotが利用可能になったことを発表した[6]。2022年6月21日、GitHubはCopilotがテクニカルプレビューを終了し、有償サブスクリプション型サービスとして利用可能になったことを発表した[7]。 2023年3月22日、商品群を GitHub Copilot X として拡張することを発表した。GitHub Copilot chat, GitHub Copilot for docs, GitHub Copilot for pull requests, GitHub Copilot for CLI, GitHub Copilot Voice を追加する。[8] GitHub Copilot (2021年版)特徴自然言語で書かれたプログラミング問題が与えられると、OpenAI Codex(GPT-3)は解決するコードを生成することができる[9]。また、英語で記述した入力コードを受け取ったり、プログラミング言語間でコードを変換することもできる[9]。ウェブサイトによると、GitHub Copilotの機能には、コード上のコメントを実行可能なコードに変換したり、コードの塊、コードの繰り返し部分、それにメソッドや関数の全体を自動補完するなど、プログラマー向けの支援機能が備わっている[2][10]。GitHubによると、Copilotの自動補完機能はおよそ半分の確率で正解であると報告している。たとえば、Pythonの関数ヘッダーコードでは、最初の試行で43%、10回の試行では57%の確率で、残りの関数本体コードを正しく自動補完した[2]。 GitHubは、Copilotの機能によってプログラマーがドキュメントを読むのに費やす時間を短縮できると共に、不慣れなコーディングフレームワークや言語をうまく使えるようになると主張している[2]。 実装GitHub Copilotは、OpenAIが開発した人工知能モデルのOpenAI Codexを利用している[11]。OpenAI Codexは、Generative Pre-trained Transformer 3 (GPT-3) をプログラミング用に調整したもので、ディープラーニング(深層学習)を使用して人間のようなテキストを生成する言語モデルである[12]。OpenAI Codexモデルは、さらに12種類のプログラミング言語について、ギガバイト単位のソースコードを使用して訓練されている。CopilotのOpenAI Codexは、厳選された英語文書、GitHubの公開リポジトリ、その他の公開されているソースコードを使用して訓練されている[2]。これには、5,400万の公開GitHubリポジトリから取得した159ギガバイトのPythonコードをフィルター処理したデータセットが含まれている[13]。 OpenAIのGPTは、GitHubの親会社であるマイクロソフトに対して独占的に使用許諾されている[14]。2023年3月に、OpenAI Codexは非推奨(deprecated)となった[15]。 2022年発表2022年に、以下のプロトタイプなどが発表された。
GitHub Copilot X (2023年版)GitHub Copilot chat2023年発表の GitHub Copilot chat は2021年版の GitHub Copilot を引き継ぐ物で、GPT-4 の系列となった。現在開いているファイルおよび選択したテキストをコンテキストとして利用し、ChatGPT のようにチャット形式で対話できるようになった。これを利用して、コードの説明をさせたり、単体テストのコードを生成させたり出来るようになった。GitHub Copilot chat は GPT-4 の系統を使用しているが、応答は微妙に ChatGPT の GPT-4 とは異なり、異なるモデル(調整)が使われている。また、プログラミング以外の事を聞こうとすると回答を拒否する。 GitHub Copilot for docsGitHub Copilot for docs は API の利用方法をチャット形式で問い合わせるためのツール。情報源をライブラリの最新のバージョンの公式ドキュメントとすることで信頼性を上げている。また、自分がどの程度、そのAPIが詳しいか申告し、それに合わせて調整することが出来る。[19] GitHub Copilot for Pull Requestsプルリクエストに対しての説明の文章を GPT を用いて生成できる。単体テストの生成も提供予定。[20] GitHub Copilot for CLIターミナルでコマンドラインインタフェース(CLI)を使用する際に、GPT が支援する。[21] GitHub Copilot VoiceGitHub Copilot Voice では、音声入力にてコードを書いたり、統合開発環境を操作したり出来る。[22] GitHub Copilot code referencingGitHub の公開コードに類似したコードがないか見つけ出す。[23] 価格以下の3種類の料金体系となっている。[24]
反応2021年のGitHub Copilotのリリース以来、そのセキュリティや教育的影響についての懸念や、生成されるコードをめぐるライセンス論争が起こった[25][9][26]。 ライセンスに関する論争Copilotが出力するコードのほとんどは変形的利用に該当するが、GitHubは、ごく一部が文字どおりコピーされていることを認めており、出力されたコードはフェアユースに該当するほど十分な変形ではなく、原コード所有者の著作権を侵害する可能性があるという懸念が生じている[25]。GitHubは、『公開されているデータで機械学習モデルを訓練することは、機械学習コミュニティ全体ではフェアユースと見なされる』と主張しているが、Copilotは法的には未検証の状態に置かれている[25]。また、同社は2022年6月時点で、完全または部分的に変更されずに出力されるソースコードはわずかであると述べている。そのため、このソフトウェアの学習が進めば、この数値は低下すると予想される[27]。また、2022年6月に、Software Freedom Conservancyは、Copilotが学習データに使っているコードライセンスを無視していると非難し、同組織のプロジェクトでのGitHubの使用をすべて終了すると発表した[28][29]。2022年11月、Copilotの合法性に異議を唱える集団代表訴訟が起こされた[30][31]。 FSFのホワイトペーパー2021年7月28日、フリーソフトウェア財団(FSF)は、Copilotをめぐる哲学的、法的問題についてのホワイトペーパー(白書)の資金提供を呼びかけた[32]。FSFのライセンスおよびコンプライアンス・マネージャーであるDonald Robertsonは、『Copilotはより深く探究される必要のある多くの(中略)疑問を提起している』と述べている[32]。2022年2月24日、FSFは、このテーマに関する22の論文を受け取り、匿名の審査過程を経て、重要な5つの論文を選んだと発表した[33]。 プライバシーへの懸念このサービスはクラウドベースであり、GitHub Copilotサーバーと常に通信する必要があるため、ソフトウェアを作成するプロセスをオンラインにして第三者の手に渡し、すべてのキーストロークを監視できるようにするという根本的な変化を意味する[34][35][36]。 セキュリティへの懸念2022年のIEEE Symposium on Security and Privacyで発表された論文では、Copilotが生成したコードの安全性について、89種類の異なるシナリオと1,689個のプログラムにわたって、MITREによる上位25のコード共通脆弱性タイプ一覧(クロスサイト・スクリプティング、パス・トラバーサルなど)への評価がなされた[26]。これは、脆弱性の多様性(さまざまなコード脆弱性につながりうるシナリオへの対応力)、プロンプトの多様性(同じコード脆弱性でも微妙な変化を伴うことへの対応力)、およびドメインの多様性(Verilogでのレジスタ転送レベルのハードウェア仕様の生成能力)の軸に沿って行われた[26]。調査の結果、複数の言語におけるこれらの軸で、上位提案の39.33%、全体提案の40.73%がコードの脆弱性につながっていることが分かった。さらに、コードに対する小さな意味的でない変更(すなわちコメント)が、コードの安全性に影響を与える可能性があることも分かった[26]。 教育への懸念2022年2月に計算機協会(ACM)から発表された論文では、Github Copilotで使用されているCodexという技術が、初心者プログラマーの教育に与える影響について評価されている[9]。この研究では、オークランド大学のプログラミング入門クラスの評価設問を利用し、Codexの回答と学生の成績を比較している[9]。その結果、研究者らは、平均してCodexは多くの学生よりも良い成績であったが、解答に使用できる機能が制限されている設問(条件分岐、コレクション、ループなど)では、成績が低下することを見いだした。このような種類の設問では、『(Codexの)10個の解答のうち2個だけが正しかったが、両方とも(中略)制約に反していた。』とのことである[9]。この論文は、Codexは学習者にさまざまな解決策を提供するのに役立つ可能性があるものの、過信や盗用につながる可能性もあると結論付けている[9]。 脚注
参考項目
外部リンク |
Portal di Ensiklopedia Dunia