EarSpy attack eavesdrops on Android phones via motion sensors

研究者チームは、さまざまな程度で発信者の性別と ID を認識し、プライベートな会話を識別することさえできる、Android デバイス向けの盗聴攻撃を開発しました。

EarSpy と名付けられたサイドチャネル攻撃は、モバイル デバイスのイヤー スピーカーからの残響によって引き起こされるモーション センサー データの読み取り値をキャプチャすることにより、盗聴の新しい可能性を探ることを目的としています。

EarSpy は、アメリカの 5 つの大学 (テキサス A&M 大学、ニュージャージー工科大学、テンプル大学、デイトン大学、ラトガース大学) の研究者による学術的な取り組みです。

この種の攻撃はスマートフォンのラウドスピーカーで調査されていますが、イヤースピーカーは弱すぎて盗聴のリスクを発生させて、このようなサイドチャネル攻撃を実用的なものに変えるには弱すぎると考えられていました。

ただし、最近のスマートフォンは、数年前のモデルに比べてより強力なステレオ スピーカーを使用しており、音質が大幅に向上し、振動が強くなっています。

同様に、最新のデバイスは、スピーカーからのごくわずかな共鳴も記録できる、より感度の高いモーション センサーとジャイロスコープを使用しています。

この進歩の証拠を以下に示します。2016 OnePlus 3T のイヤホンはスペクトログラムにほとんど登録されていませんが、2019 OnePlus 7T のステレオ イヤー スピーカーはかなり多くのデータを生成します。

左から右に、OnePlus 3T イヤースピーカー、OnePlus 7T イヤースピーカー、OnePlus 7T ラウドスピーカー
OnePlus 3T、OnePlus 7T、OnePlus 7T ラウドスピーカー用の左から右のイヤースピーカー
ソース: (arxiv.org)

実験と結果

研究者は、実験で OnePlus 7T と OnePlus 9 デバイスを使用し、2 つのデバイスのイヤー スピーカーからのみ再生されたさまざまな録音済みオーディオのセットを使用しました。

チームはまた、サードパーティ製アプリ ‘Physics Toolbox Sensor Suite’ を使用して、シミュレートされた通話中に加速度計データをキャプチャし、それを分析のために MATLAB に送り、オーディオ ストリームから特徴を抽出しました。

機械学習 (ML) アルゴリズムは、音声コンテンツ、発信者 ID、および性別を認識するために、すぐに利用できるデータセットを使用してトレーニングされました。

テスト データは、データセットとデバイスによって異なりますが、イヤー スピーカーを介した盗聴については、全体的に有望な結果が得られました。

OnePlus 7T での発信者の性別識別は 77.7% から 98.7% の範囲で、発信者 ID の分類は 63.0% から 91.2% の範囲で、音声認識は 51.8% から 56.4% の範囲でした。

OnePlus 7T でのテスト結果
OnePlus 7T でのテスト結果(arxiv.org)

「私たちは、最高の 56.42% の精度を示す従来の ML アルゴリズムを使用して、時間および周波数領域の特徴を評価します」と研究者は論文で説明しています。

「ここには 10 の異なるクラスがあるため、精度はランダムな推測よりも 5 倍高い精度を示します。これは、イヤー スピーカーによる振動が加速度計データにかなりの量の識別可能な影響を引き起こしたことを意味します」 – EarSpy テクニカル ペーパー

OnePlus 9 デバイスでは、性別識別は 88.7% で最高になり、話者の識別は平均 73.6% に低下しましたが、音声認識は 33.3% から 41.6% の範囲でした。

OnePlus 9 でのテスト結果
OnePlus 9 (arxiv.org)でのテスト結果

2020年に同様の攻撃を実験する中で研究者が開発したラウドスピーカーと「 Spearphone 」アプリを使用したところ、発信者の性別とIDの精度は99%に達し、音声認識は80%の精度に達しました。

制限と解決策

EarSpy 攻撃の有効性を低下させる要因の 1 つは、ユーザーがイヤー スピーカーに選択する音量です。音量を下げると、このサイドチャネル攻撃による盗聴を防ぐことができ、耳にとってより快適になります。

デバイスのハードウェア コンポーネントの配置とアセンブリの密閉度も、スピーカーの残響の拡散に影響を与えます。

最後に、環境から導入されたユーザーの動きや振動は、派生した音声データの精度を低下させます。

Android 13 では、200 Hz を超えるサンプリング データ レートの許可なくセンサー データを収集する際の制限が導入されました。これにより、デフォルトのサンプリング レート (400 Hz ~ 500 Hz) での音声認識が妨げられますが、攻撃が 200 Hz で実行された場合、精度は約 10% しか低下しません。

研究者は、電話メーカーは通話中の音圧が安定していることを確認し、モーションセンサーを内部発生の振動の影響を受けない、または少なくとも最小限の影響しか与えない位置に配置する必要があることを示唆しています.