Keyboard

英国の大学の研究チームは、マイクを使用して記録されたキーボードのキーストロークから 95% の精度でデータを盗むことができる深層学習モデルをトレーニングしました。

音声分類アルゴリズムのトレーニングに Zoom が使用された場合、予測精度は 93% に低下しましたが、これは依然として危険なほど高く、この媒体としては記録的です。

このような攻撃は、ユーザーのパスワード、ディスカッション、メッセージ、その他の機密情報が悪意のある第三者に漏洩する可能性があるため、ターゲットのデータ セキュリティに重大な影響を及ぼします。

さらに、特別な条件を必要とし、データ レートと距離の制限を受ける他のサイドチャネル攻撃とは対照的に、音響攻撃は、高品質のオーディオ キャプチャを実現できるマイク搭載デバイスが豊富にあるため、はるかに簡単になっています。

これに、機械学習の急速な進歩が加わり、音声ベースのサイドチャネル攻撃が実行可能になり、以前の予想よりもはるかに危険になりました。

キーストロークを聞く

攻撃の最初のステップは、ターゲットのキーボードのキーストロークを記録することです。そのデータは予測アルゴリズムのトレーニングに必要です。これは、近くのマイク、またはマイクにアクセスできるマルウェアに感染した可能性のあるターゲットの電話を介して実行される可能性があります。

あるいは、Zoom 通話を通じてキーストロークを記録することもできます。この場合、不正な会議参加者は、ターゲットによって入力されたメッセージとその録音との間の相関関係を作成します。

研究者らは、最新の MacBook Pro の 36 個のキーを 25 回ずつ押し、押すたびに発生する音を録音することでトレーニング データを収集しました。

キーストローク音声のサンプリング
キーストローク音声のサンプリング(arxiv.org)

次に、各キーの識別可能な違いを視覚化する波形とスペクトログラムを録音から作成し、特定のデータ処理ステップを実行してキーストロークの識別に使用できる信号を増強しました。

生成されたスペクトログラム
生成されたスペクトログラム(arxiv.org)

スペクトログラム画像は、画像分類器である「CoAtNet」のトレーニングに使用されましたが、そのプロセスでは、最高の予測精度の結果が得られるまで、エポック、学習率、およびデータ分割パラメータに関するいくつかの実験が必要でした。

CoAtNet のトレーニング用に選択されたパラメータ
CoAtNet のトレーニング用に選択されたパラメーター(arxiv.org)

研究者らは実験で、過去2年間すべてのAppleラップトップでキーボードが使用されてきた同じラップトップ、対象から17cm離れた場所に置かれたiPhone 13 mini、およびZoomを使用した。

テストのセットアップ
テストセットアップ(arxiv.org)

CoANet 分類器は、スマートフォンの録画では 95%、Zoom でキャプチャされた録画では 93% の精度を達成しました。 Skype では、精度は低くなりますが、それでも使用可能な 91.7% の精度が得られました。

電話で記録されたキーストロークの混同マトリックス
電話で記録されたキーストロークの混同マトリックス(arxiv.org)

考えられる緩和策

論文では、音響サイドチャネル攻撃を過度に心配しているユーザーに対して、入力スタイルを変更したり、ランダム化されたパスワードを使用したりしてみるとよいと提案しています。

その他の考えられる防御手段には、キーストローク音、ホワイト ノイズ、またはソフトウェア ベースのキーストローク オーディオ フィルターを再現するソフトウェアの使用が含まれます。

攻撃モデルは、非常に静かなキーボードに対しても非常に効果的であることが証明されているため、メカニカル キーボードに消音装置を追加したり、メンブレン ベースのキーボードに切り替えたりしても、効果が期待できないことを覚えておいてください。

最終的には、可能な場合には生体認証を採用し、パスワード マネージャーを利用して機密情報を手動で入力する必要性を回避することも、緩和要素として機能します。