GitHub

GitHubでは、詐欺やマルウェア配布のリポジトリの人気を人為的に高め、より人気のあるリポジトリに見せかけ、疑うことを知らないユーザーにより多くアクセスさせるために使われる、真偽不明の「スター」が問題になっている。

スターはソーシャルメディアサイトの「いいね!」ボタンに似ており、GitHubユーザーがリポジトリをお気に入り登録できるようになっています。GitHubはこのスターをグローバル・ランキング・システムの一部として使い、ユーザーが好きそうな関連コンテンツを表示する。

“リポジトリやトピックにスターをつけると、GitHub上で似たようなプロジェクトを発見することができます。リポジトリやトピックにスターを付けると、GitHubはあなたの個人ダッシュボードに関連するコンテンツをおすすめすることがあります」とGitHubは説明しています。

Most starred repository with 408,000 stars
最もスターがついたリポジトリは40万8000スター。

この問題は、昨年夏にCheck Pointが「Stargazers Ghost Network」と名付けたマルウェア配信サービスを摘発したように、以前から文書で報告されている。

悪意のないプロジェクトもまた、偽のスターを利用して人気を高め、リーチを拡大し、正当なユーザーの注目、本物のスター、採用を集めている。

Socket、カーネギーメロン大学、ノースカロライナ州立大学の研究者が行った新しい研究では、GitHub上で偽物と疑われる450万個のスターを発見し、問題の規模をよりよく知ることができる。

A list of starring services for GitHub
GitHubのスターサービス一覧
出典:Arxiv.orgArxiv.org

偽のスターを探す

研究者たちは「StarScout」と呼ばれるツールを開発し、「GHArchive」の20TBのデータを解析して、真偽不明のスターを探し出した。

GHArchiveには、2019年7月から2024年10月までの60億件を超えるGitHubイベントのメタデータが含まれており、3億1,000万件のリポジトリに対する6,050万件のユーザーアクションと6億1,000万件のスターが含まれている。

StarScoutは、単一のリポジトリにスターを付けるなどGitHub上で最小限のアクティビティを示すユーザー、ボットや一時的なアカウントのアクティビティパターンを持つユーザー、短時間で同じリポジトリにスターを付けるなど協調して行動するアカウントグループを検出する。

彼らの手法は、ソーシャルネットワークにおける不正パターンを検出するために設計されたアルゴリズムであるCopyCatchに基づいている。

Overview of StarScout data processing
StarScoutデータ処理の概要
出典:Arxiv.orgArxiv.org

偽物と疑われる450万個の星

低アクティヴィティとロックステップ・シグネチャー・アルゴリズムを適用してデータを処理し、リポジトリ全体で疑わしいスターを特定した結果、研究チームは22,915のリポジトリにまたがる1,320,000のアカウントによって与えられた4,530,000の偽物の疑いのあるスターを発見した。

これらのスターの真の性質に対する信頼性を高めるため、研究者たちは、1ヶ月間にスターの活動が著しく異常なスパイクを起こし、スターの総数と比較して偽物の割合が10%を超えるリポジトリのみを考慮することで、潜在的な偽陽性をフィルタリングした。

この結果、278,000のアカウントから15,835のリポジトリに与えられた偽のスターは3,100,000に減少した。

Identification of fake patterns like clustering behavior
クラスタリング動作のような偽パターンの識別
出典:Arxiv.orgArxiv.org

このうち、2024年10月時点で、リポジトリの約91%、不正と疑われるアカウントの62%が削除されており、StarScoutツールの精度を裏付けている。

また、2024年に偽スターの活動が急増し、2024年7月に50以上のスターを持つリポジトリの約15.8%が、これらの悪質なキャンペーンに関与していることも示されている。

研究者らは、StarScoutが2024年7月に不正と特定したリポジトリとアカウントを報告し、GitHubはそれらをすべて削除した。しかし、2024年11月に発見された追加のクラスターについては、現在も評価・報告を行っている最中です。

Word clouds of fake starred repositories
偽のスター付きリポジトリのワードクラウド(削除されたものと現在のもの)
出典:Arxiv.org:Arxiv.org

偽のスターがGitHubとそのユーザーに与える影響は複数あるが、一般的には、この問題はプラットフォームとそこでホストされているさまざまなソフトウェア・プロジェクトに対する信頼を損なう。

ユーザーは、星の数だけでなく、リポジトリの活動や品質を評価し、ドキュメントを読み、コンテンツや貢献を調べ、可能であればコードをレビューすべきです。

GitHubのリポジトリは欺瞞に満ちており、このプラットフォームは国家的な作戦に悪用されたこともあります。

GitHubがどのように偽の星の問題と闘っているのか、GitHubに問い合わせましたが、まだ回答待ちです。