GitHubでは、詐欺やマルウェア配布のリポジトリの人気を人為的に高め、より人気のあるリポジトリに見せかけ、疑うことを知らないユーザーにより多くアクセスさせるために使われる、真偽不明の「スター」が問題になっている。
スターはソーシャルメディアサイトの「いいね!」ボタンに似ており、GitHubユーザーがリポジトリをお気に入り登録できるようになっています。GitHubはこのスターをグローバル・ランキング・システムの一部として使い、ユーザーが好きそうな関連コンテンツを表示する。
“リポジトリやトピックにスターをつけると、GitHub上で似たようなプロジェクトを発見することができます。リポジトリやトピックにスターを付けると、GitHubはあなたの個人ダッシュボードに関連するコンテンツをおすすめすることがあります」とGitHubは説明しています。
この問題は、昨年夏にCheck Pointが「Stargazers Ghost Network」と名付けたマルウェア配信サービスを摘発したように、以前から文書で報告されている。
悪意のないプロジェクトもまた、偽のスターを利用して人気を高め、リーチを拡大し、正当なユーザーの注目、本物のスター、採用を集めている。
Socket、カーネギーメロン大学、ノースカロライナ州立大学の研究者が行った新しい研究では、GitHub上で偽物と疑われる450万個のスターを発見し、問題の規模をよりよく知ることができる。
偽のスターを探す
研究者たちは「StarScout」と呼ばれるツールを開発し、「GHArchive」の20TBのデータを解析して、真偽不明のスターを探し出した。
GHArchiveには、2019年7月から2024年10月までの60億件を超えるGitHubイベントのメタデータが含まれており、3億1,000万件のリポジトリに対する6,050万件のユーザーアクションと6億1,000万件のスターが含まれている。
StarScoutは、単一のリポジトリにスターを付けるなどGitHub上で最小限のアクティビティを示すユーザー、ボットや一時的なアカウントのアクティビティパターンを持つユーザー、短時間で同じリポジトリにスターを付けるなど協調して行動するアカウントグループを検出する。
彼らの手法は、ソーシャルネットワークにおける不正パターンを検出するために設計されたアルゴリズムであるCopyCatchに基づいている。
偽物と疑われる450万個の星
低アクティヴィティとロックステップ・シグネチャー・アルゴリズムを適用してデータを処理し、リポジトリ全体で疑わしいスターを特定した結果、研究チームは22,915のリポジトリにまたがる1,320,000のアカウントによって与えられた4,530,000の偽物の疑いのあるスターを発見した。
これらのスターの真の性質に対する信頼性を高めるため、研究者たちは、1ヶ月間にスターの活動が著しく異常なスパイクを起こし、スターの総数と比較して偽物の割合が10%を超えるリポジトリのみを考慮することで、潜在的な偽陽性をフィルタリングした。
この結果、278,000のアカウントから15,835のリポジトリに与えられた偽のスターは3,100,000に減少した。
このうち、2024年10月時点で、リポジトリの約91%、不正と疑われるアカウントの62%が削除されており、StarScoutツールの精度を裏付けている。
また、2024年に偽スターの活動が急増し、2024年7月に50以上のスターを持つリポジトリの約15.8%が、これらの悪質なキャンペーンに関与していることも示されている。
研究者らは、StarScoutが2024年7月に不正と特定したリポジトリとアカウントを報告し、GitHubはそれらをすべて削除した。しかし、2024年11月に発見された追加のクラスターについては、現在も評価・報告を行っている最中です。
偽のスターがGitHubとそのユーザーに与える影響は複数あるが、一般的には、この問題はプラットフォームとそこでホストされているさまざまなソフトウェア・プロジェクトに対する信頼を損なう。
ユーザーは、星の数だけでなく、リポジトリの活動や品質を評価し、ドキュメントを読み、コンテンツや貢献を調べ、可能であればコードをレビューすべきです。
GitHubのリポジトリは欺瞞に満ちており、このプラットフォームは国家的な作戦に悪用されたこともあります。
GitHubがどのように偽の星の問題と闘っているのか、GitHubに問い合わせましたが、まだ回答待ちです。
Comments