今後、情報削除技術がさらに開発されれば、AI 企業はいつか、モデルの変換タスクを実行する能力を損なうことなく、著作権で保護されたコンテンツ、個人情報、または悪意のあるアーカイブ テキストをニューラル ネットワークから削除できるようになる可能性があります。しかし、ニューラル ネットワークはまだ完全に理解されていない分散方法で情報を保存するため、現時点では、研究者らの方法では「機密情報の完全な削除を保証できない」と研究者らは述べています。これらは、新しい AI 研究の方向性への初期段階です。
不気味な風景の中を旅する
グッドファイアの研究者がこれらのニューラル ネットワークにおいて記憶と推論をどのように区別しているかを理解するには、「損失ランドスケープ」と呼ばれる AI の概念について学ぶことが役立ちます。 「損失ランドスケープ」は、AI モデルの内部設定 (「重み」と呼ばれる) を調整したときに、AI モデルの予測がどの程度間違っているか、または正しいかを視覚化する方法です。
何百万ものダイヤルを備えた複雑な装置を調整していると想像してください。 「損失」は、マシンが犯すエラーの数を測定します。高損失はエラーが多いことを意味し、低損失はエラーが少ないことを意味します。 「ランドスケープ」は、接続設定の考えられる組み合わせごとにエラー率を決定できた場合に表示されるものです。
トレーニング中、AI モデルは基本的にこのシーンで動作します (緩やかな降下)、重みを調整して、エラーが最も少ない谷を見つけます。このプロセスでは、質問に対する回答など、AI モデルの出力が提供されます。
研究者らは、AI 言語の特定のモデルの損失状況の「曲率」を分析し、さまざまなニューラル ネットワークの重みの小さな変化に対するモデルのパフォーマンスの感度を測定しました。鋭い山と谷は高い曲率 (小さな変化が大きな効果をもたらす) を表し、平らな平野は低い曲率 (変化がほとんど影響しない) を表します。
と呼ばれるテクニックを使用して、 K-FAC (クロネッカーの近似曲率パラメータ) を解析すると、このシーンでは個々の保存されたファクトが鋭いスパイクを作成しますが、保存された各オブジェクトは異なる方向に上昇するため、平均すると平坦なプロファイルが作成されることがわかりました。一方、多くの異なる入力に依存する推論機能は、どの方向に近づいてもほぼ同じ形を保つ起伏のある丘のように、地形全体にわたって一貫した緩やかな曲線を維持します。