Recent arXiv on Computer Science: November 03, 2024

2024年11月3日 19:29

Exploring the Efficacy of Large Language Models (GPT-4) in Binary Reverse Engineering
1. 与えられた論文の目的:
この研究は、大規模言語モデル（LLM）、特にGPT-4を使用して、バイナリ逆コンパイルエンジニアリングの分野でのその性能を評価することを目的としています。LLMが人間が書いたコードや逆コンパイルされたコードをどの程度理解し、説明できるかを探求し、特にセキュリティ分析やマルウェア解析の複雑なタスクにおけるその能力を評価することを目指しています。
2. 使用されたデータや情報:
この研究では、異なるシナリオでバイナリコードの逆コンパイルを行い、その結果得られたコードをLLMに供給して性能を評価しています。具体的には、公開されているGitHubリポジトリから収集された15のマルウェアソースコードを使用し、さらにこれらのコードを安全なLinux環境でコンパイルし、RetDecを使用して逆コンパイルしました。また、元のコードと逆コンパイルされたコードを比較するために、BLEUスコアが使用されています。
3. 新規性や解決できた問題:
この研究の新規性は、特にGPT-4のような最新の大規模言語モデルを使用して、逆コンパイルされたコードの解析と理解を試みた点にあります。LLMが逆コンパイルされたコードをどの程度正確に解析できるかを評価し、その結果、LLMは高レベルの機能や主要な関数を認識する能力に優れているものの、変数の役割や実行フローの詳細など、より微妙な側面で苦戦していることが明らかになりました。
4. 未解決の問題:
この研究で明らかになった未解決の問題としては、LLMが特にセキュリティ関連の問題や、より複雑なコード構造の理解においてまだ改善の余地があることが挙げられます。また、逆エンジニアリングに特化したデータセットの開発や、LLMの訓練方法に関するさらなる研究が必要であるとされています。これらの課題に対処することで、LLMの逆エンジニアリングプロセスにおける有効性をさらに向上させることが期待されます。
url:
https://arxiv.org/abs/2406.06637
title:
Exploring the Efficacy of Large Language Models (GPT-4) in Binary Reverse Engineering
authors:
Saman Pordanesh, Benjamin Tan
date:
9 June, 2024;

On Architecture to Architecture Mapping for Concurrency
1. 与えられた論文は、何を目的としていますか？:
与えられた論文は、異なるアーキテクチャ間でプログラムをマッピングすることを目的としています。特に、x86とARMのアーキテクチャ間での並行性モデルに基づく正確かつ効率的なマッピングを開発することが目標です。これにより、バイナリ翻訳、デコンパイル、エミュレーション、仮想化、およびアプリケーションの移行などの技術において、プログラムの正確な実行が可能になります。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、x86とARM（バージョン7および8）のアーキテクチャの並行性モデルに基づき、それぞれの特性を理解し、マッピングとフェンス削除アルゴリズムの開発に使用しています。具体的には、直接マッピングとフェンス削除のためのアルゴリズムを開発し、ARMv8を中間モデルとして利用していますが、一般的なコンパイラ変換を妨げる可能性があるため、デコンパイラでの使用は推奨されていません。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、x86とARMのアーキテクチャ間での並行性プリミティブの正確なマッピングを初めて提供した点にあります。特に、ARMv8を中間モデルとして利用することで、x86とARMv7間のマッピングを効率的に行う方法を開発しました。これにより、多くのプログラムで、従来の方法に比べてフェンスの導入が大幅に減少しました。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
将来の課題としては、より多様なアーキテクチャ間でのマッピング技術の拡張が挙げられます。また、デコンパイラでの中間モデルの使用に関する制約を克服する新たなアプローチの開発も必要です。さらに、異なるアーキテクチャ間での並行性モデルの差異をさらに詳細に分析し、より広範なシナリオでの正確なマッピングを実現するための研究が求められます。
url:
https://arxiv.org/abs/2009.03846
title:
On Architecture to Architecture Mapping for Concurrency
authors:
Soham Chakraborty
date:
8 September, 2020;

Graph Neural Networks Enhanced Smart Contract Vulnerability Detection of Educational Blockchain
1. 与えられた論文の目的:
この研究の主な目的は、スマートコントラクトの脆弱性を検出するためのモデルを開発し、その効果を評価することです。特に、グラフニューラルネットワーク（GCN）を用いて、スマートコントラクトのバイトコードから生成される制御フローグラフ（CFG）を解析し、脆弱性の有無を予測することを目指しています。
2. 使用されたデータや情報:
この研究では、スマートコントラクトのバイトコードを解析し、それを基に制御フローグラフ（CFG）を生成しました。さらに、GCNモデルを訓練するために、バイトコードから抽出されたノード属性と隣接行列を使用しました。脆弱性のラベル付けも行われ、訓練セットとテストセットに分割して使用されています。
3. 新規性および解決された問題:
この研究の新規性は、スマートコントラクトの脆弱性検出にグラフニューラルネットワークを応用した点にあります。従来の脆弱性検出手法と比較して、GCNを使用することで、コードの構造的特徴をより良く捉え、脆弱性の予測精度を向上させることができました。また、モデルの層数を変更することで、モデルの性能がどのように変化するかを観察し、最適な層数を見つけ出す試みも行われました。
4. 未解決の問題:
今後の課題としては、ノードの意味的特徴をより詳細に把握し、モデルの予測精度をさらに向上させるための方法が挙げられます。具体的には、デコンパイルされたコードに自然言語処理を適用して、ノードの特徴をより豊かにすることや、制御フローグラフのエッジの分類をさらに細かく行うことが考えられます。また、セマンティックな情報を取り入れることで、モデルの理解度を高め、より正確な脆弱性検出が可能になると考えられます。
url:
https://arxiv.org/abs/2303.04477
title:
Graph Neural Networks Enhanced Smart Contract Vulnerability Detection of Educational Blockchain
authors:
Zhifeng Wang, Wanxuan Wu, Chunyan Zeng, Jialong Yao, Yang Yang, Hongmin Xu
date:
8 March, 2023;

J-Parallelio -- automatic parallelization framework for Java virtual machine code
1. 与えられた論文の目的:
この研究の主な目的は、Java仮想マシン（JVM）上での自動並列化アルゴリズムを用いて、様々なアルゴリズムの実行速度を向上させることです。具体的には、手動で書かれたコードと同等の効率で動作する自動生成された並列コードを作成することを目指しています。
2. 使用されたデータや情報:
実験には、Intel Core i9-9900Kプロセッサと16MBのRAMを搭載したコンピュータが使用されました。また、JavaのバージョンはJDK 12.0で行われ、各実験は5回繰り返され、平均値が計算されました。評価のためのベンチマークとして、行列乗算、ヒストグラム計算、NBody問題、高速フーリエ変換が用いられました。
3. 新規性や解決できた問題:
この研究の新規性は、純粋なJava仮想マシン上で動作し、マルチコアプロセッサ用の並列コードを生成できるシステムを開発した点にあります。これにより、システムはポータブルであり、少ない修正でJVMベースの異なる言語に対応可能です。また、自動生成された並列コードが手動で書かれたコードと同等の効率で動作することが多くの場合で示されました。
4. 未解決問題として残されていること:
将来的な作業としては、自動並列化のさらなる改善、ScalaやJRubyなどの他の言語でのJVM並列化モジュールのテスト、実行パラメータの予測や部分的な並列コード生成のための機械学習技術の改善が挙げられます。また、より複雑なテストベンチアルゴリズムの並列化のテストにも注力する予定です。
url:
https://arxiv.org/abs/2303.08746
title:
J-Parallelio -- automatic parallelization framework for Java virtual machine code
authors:
Krzysztof Stuglik, Piotr Listkiewicz, Mateusz Kulczyk, Marcin Pietron
date:
7 February, 2023;

Exploring the Limits of ChatGPT in Software Security Applications
1. 与えられた論文は、何を目的としていますか？:
この論文は、ChatGPTやGPT-4などの大規模言語モデル（LLM）を利用して、ソフトウェアセキュリティタスクにおける潜在的な応用と効果を評価することを目的としています。具体的には、脆弱性の検出、修正、デバッグ、パッチ適用、デブローティング、逆コンパイル、根本原因分析、シンボリック実行、ファジングなどのタスクにおけるChatGPTの有効性や限界を探ることが目的です。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
論文では、ChatGPTやGPT-4を含む言語モデルの能力を評価するために、ソースコード、脆弱性が含まれる可能性のあるPDFファイルなどの具体的な例を用いています。また、これらの言語モデルが生成するコードや文書の解析、改善、修正を行うためのデータとして、既存のバグやセキュリティ問題を含むケーススタディが使用されています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この論文の新規性は、大規模言語モデルをソフトウェアセキュリティの分野に応用することにあります。ChatGPTやGPT-4がソースコードの解析や生成、脆弱性の特定、修正提案などを行う能力を示し、これまでの手動や半自動の方法に比べて、より迅速かつ広範な解析が可能であることを示しました。これにより、ソフトウェア開発の効率化やセキュリティ向上が期待されます。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
未解決問題としては、大規模言語モデルのスケーラビリティや、大量のデータを扱う際のリソース消費の問題が挙げられます。また、実際のシステムレベルの情報やバイナリコードの解析能力に限界があるため、これらの課題を克服するための研究が必要です。さらに、生成されたコードのセキュリティ保証や、実際の開発環境での適用における有効性の検証も今後の課題です。
url:
https://arxiv.org/abs/2312.05275
title:
Exploring the Limits of ChatGPT in Software Security Applications
authors:
Fangzhou Wu, Qingzhao Zhang, Ati Priya Bajaj, Tiffany Bao, Ning Zhang, Ruoyu "Fish" Wang, Chaowei Xiao
date:
7 December, 2023;

Revisiting Deep Learning for Variable Type Recovery
1. 与えられた論文の目的:
この研究は、デコンパイラの出力から変数名や型を予測するための機械学習モデル、特にDIRTY（Decomp Iled variable ReTYper）モデルを開発し、評価することを目的としています。特に、オープンソースのGhidraデコンパイラを使用して得られたデータセットでDIRTYモデルを再トレーニングし、その性能を既存のHex-Raysデコンパイラでトレーニングされたモデルと比較することで、異なるデコンパイラの出力に対する一般化能力を評価しています。
2. 使用されたデータや情報:
この研究では、Ghidraデコンパイラを使用してデコンパイルされた関数から生成されたデータセットを使用しています。このデータセットは、アセンブリコード、変数名、変数のサイズ情報を含むタプルで構成されており、機械学習モデルのトレーニングに使用されました。また、比較のために、Hex-Raysデコンパイラを使用して得られた既存のデータセットも使用されています。
3. 新規性や解決できた問題:
この研究の新規性は、オープンソースのGhidraデコンパイラを用いたデータセットでDIRTYモデルを再トレーニングし、その結果を商用のHex-Raysデコンパイラでトレーニングされたモデルと比較することにあります。これにより、モデルが異なるデコンパイラの出力に対してどの程度一般化できるかを評価しました。結果として、GhidraでトレーニングされたモデルもHex-Raysでトレーニングされたモデルと同様に良好な性能を示しました。
4. 未解決問題:
今後の課題としては、さらに多様なデコンパイラや異なるプログラミング言語、さまざまなビルド環境で生成されたバイナリに対するモデルの適用性と精度の向上が挙げられます。また、モデルが未知のデータや新しいタイプのバイナリにどのように対応するかを評価するための研究も必要です。これには、より多様なデータセットの収集と評価、新たな特徴抽出技術の開発が求められます。
url:
https://arxiv.org/abs/2304.03854
title:
Revisiting Deep Learning for Variable Type Recovery
authors:
Kevin Cao, Kevin Leach
date:
7 April, 2023;

StackSight: Unveiling WebAssembly through Large Language Models and Neurosymbolic Chain-of-Thought Decompilation
1. 与えられた論文の目的:
この論文では、WebAssemblyをC++コードに変換するための研究が行われています。具体的には、WebAssemblyのテキストファイルを解析し、それをC++コードに翻訳するプロセスを紹介しています。この研究は、WebAssemblyコードの理解とC++への変換を自動化することにより、プログラムの逆コンパイルや移植を効率化することを目指しています。
2. 使用されたデータや情報:
この研究では、具体的なWebAssemblyのコード例が用いられています。これには、関数の型定義、パラメータ、戻り値の型、そして具体的な計算処理が含まれています。また、スタックの状態や条件分岐を理解し、データ型や変数の意味を予測するための注釈付きコードが利用されています。
3. 新規性と解決できた問題:
この研究の新規性は、WebAssemblyという比較的新しい技術を対象にしている点、そしてそれをC++に変換するための具体的な手法を提案している点にあります。特に、スタックの状態や変数の意味を解析し、それを基にC++コードを生成する手法は、自動化された逆コンパイルプロセスを可能にすることで、ソフトウェアの再利用や移植を容易にします。また、ユーザースタディを通じて、生成されたコードが元の機能を正確に反映しているかどうかの評価も行っています。
4. 未解決問題:
将来的には、より複雑なWebAssemblyコードや、異なるプログラミング言語への適用可能性を拡大することが挑戦となります。また、生成されたC++コードの最適化や、さらなる自動化を進めるための研究が求められます。具体的には、さまざまなプログラミングパターンやライブラリに対応するための手法の開発、また、コードのセマンティックな理解を深めるためのアルゴリズムの改善が必要です。
url:
https://arxiv.org/abs/2406.04568
title:
StackSight: Unveiling WebAssembly through Large Language Models and Neurosymbolic Chain-of-Thought Decompilation
authors:
Weike Fang, Zhejian Zhou, Junzhou He, Weihang Wang
date:
6 June, 2024;

Feature Engineering Using File Layout for Malware Detection
1. 目的:
この論文の主な目的は、バイナリ実行ファイルに対するマルウェア検出の精度とF1スコアを向上させる新しい特徴エンジニアリング技術を提案することです。特に、バイナリレベルでのアプローチにおける曖昧さの問題を解決するために、バイナリの内部レイアウトに関する最小限の知識を利用して、構造的エントロピーと組み合わせた情報を特徴として使用します。
2. 使用したデータや情報:
実験には、WindowsのSystem32フォルダから収集された正常なPEファイル（拡張子.exeおよび.dll）と、VirusShareから収集された悪意のあるPEファイルを使用しました。これらのデータセットをトレーニングセットとテストセットに70/30の比率で分割し、特徴エンジニアリング技術を適用しました。また、バイナリを特定のセクションに基づいて分割し、各チャンクのエントロピー値を計算し、それをワンホットベクターと組み合わせて使用しました。
3. 新規性および解決できた問題:
この研究の新規性は、バイナリのセクション情報を構造的エントロピーと組み合わせることにより、同じまたは類似のエントロピー値が異なる機能を持つことを示す場合の曖昧さを解消する特徴を導入した点にあります。このアプローチにより、CNNベースのマルウェア検出器の精度とF1スコアがそれぞれ3.3%と0.07ポイント向上しました。
4. 未解決問題:
今後の課題としては、「Undefined」セクションのさらなる分析が挙げられます。これは、さまざまなパッカー、暗号化ツール、プロテクターを使用してマルウェアを隠蔽する手法を検出するために重要です。このセクションの詳細な解析により、さらに高度なマルウェア検出手法の開発が期待されます。
url:
https://arxiv.org/abs/2304.02260
title:
Feature Engineering Using File Layout for Malware Detection
authors:
Jeongwoo Kim, Eun-Sun Cho, Joon-Young Paik
date:
5 April, 2023;

Register Aggregation for Hardware Decompilation
1. 目的:
この研究は、ハードウェア逆コンパイルにおけるレジスタ集約を行う技術を提示し、評価することを目的としています。具体的には、ネットリストからハードウェア記述言語（HDL）コードへの逆コンパイルを改善し、特にメモリ要素の回復に焦点を当てています。
2. 使用データ・情報:
この研究では、VerilogとPyRTLで設計された13のベンチマーク回路を使用しています。これらの回路は、算術演算、キャッシュ、レジスタバッファーなどの基本的な回路ブロックから成り、2つのCPU（RISC VプロセッサとOPDB pico）を含んでいます。各ベンチマークのソースコードでのレジスタとメモリブロックと、技術による出力予測を比較しています。
3. 新規性と解決した問題:
この技術は、ネットリスト内のフリップフロップを集約してレジスタやメモリブロックを形成し、それをHDLコードでインスタンス化する新しい方法を提案しています。特に、メモリブロックの回復に対応し、これまでの逆コンパイル技術では扱われてこなかったシーケンシャルロジックの特徴を扱うことができるようになりました。13の回路のうち10回路でソースコードのメモリ要素を完全に回復し、2048個のビットを単一のメモリブロックにコンパクトにまとめることに成功しています。
4. 未解決問題:
現在の技術では、PyRTLへの依存やメモリブロックのポートの仮定など、いくつかの限界があります。将来的には、より言語に依存しない技術の構築や、複数の読み書きポートを持つメモリブロックをサポートすることが挑戦として残されています。また、ハードウェア逆コンパイルを利用して既存のHDLコードから暗黙のメモリブロックを構築する可能性も探求されています。
url:
https://arxiv.org/abs/2409.03119
title:
Register Aggregation for Hardware Decompilation
authors:
Varun Rao, Zachary D. Sisco
date:
4 September, 2024;

Decompiling x86 Deep Neural Network Executables
1. 目的:
この論文は、x86オペコードを用いて表現学習を行う方法について説明しており、特に学習品質の向上を目的としています。具体的には、x86オペコードをアトミックOP（操作）に分割し、それを用いてニューラルネットワークモデルを訓練することで、アセンブリ関数からDNN（ディープニューラルネットワーク）オペレータを識別するモデルを構築することが目的です。
2. 使用データ・情報:
論文では、x86オペコードという低レベルなコードのシーケンスを用いています。これらのオペコードは、Byte Pair Encoding（BPE）を用いて最も頻繁なバイトペアを置換することで、アトミックOPに分割されます。さらに、これらのアトミックOPのシーケンスを入力としてニューラルネットワークモデルを訓練し、DNNオペレータの識別を試みるというデータを使用しています。
3. 新規性と問題解決:
この研究の新規性は、x86オペコードをアトミックOPに分割することで、異なる構文形式を持つが意味的には同じであるオペコード間の学習品質の問題を克服しようと試みている点にあります。従来のアプローチでは、構文の違いにより学習が困難であった問題を、アトミックOPを用いることで解決しています。
4. 未解決問題:
将来的には、さらに異なるアセンブリ言語や異なるアーキテクチャに対しても同様のアプローチを拡張して適用することが挑戦とされています。また、より複雑なDNNオペレータや、新たなオペコードのパターンに対応するためのモデルの改善も必要とされています。
url:
https://arxiv.org/abs/2210.01075
title:
Decompiling x86 Deep Neural Network Executables
authors:
Zhibo Liu, Yuanyuan Yuan, Shuai Wang, Xiaofei Xie, Lei Ma
date:
4 October, 2022;

Bayesian Program Learning by Decompiling Amortized Knowledge
1. 目的:
この論文では、プログラム合成の領域での専門知識を獲得するために、検索問題を軽減する知識を学習することを目的としています。具体的には、DREAM CODERを用いて、検索の幅と深さを減少させるために有用な情報をコンパイルし、プログラム解決策を構成するためのライブラリを構築することで、新たなタスクの解決と学習プロセスのブートストラップを実現しています。
2. 使用データ:
この研究では、ニューラル認識モデルを用いて、タスク間でプログラム解決策を生成するための知識をデコンパイルし、ライブラリに高レベルの関数を選択するための情報を利用しています。具体的なデータセットの詳細は論文からは明確ではありませんが、プログラム合成のための既存の解決策や、ニューラルネットワークによって生成された「ファンタジー」データが利用されていると考えられます。
3. 新規性と解決問題:
この研究の新規性は、認識モデルから学習した知識を直接利用して、何をチャンク（部分的に区切ること）すべきかを決定し、認識モデルがその後ガイドする検索空間を形成することにあります。これにより、検索の幅と深さを同時に減少させることができ、より効率的なブートストラッピング効果が得られることが示されています。また、未解決タスクに対して有用な機能をチャンクする能力により、新しいタスクの解決においても一般化能力が向上しています。
4. 未解決問題:
将来の課題としては、異なるドメイン間での難易度の違いを考慮した上で、より洗練されたニューラルモデルを開発することが挙げられます。さらに、ライブラリコンポーネントが変更された際に、以前のモデルから新しいモデルへと学習を引き継ぐ方法を探ることも重要です。これにより、学習の効率化や改善が期待されます。
url:
https://arxiv.org/abs/2306.07856
title:
Bayesian Program Learning by Decompiling Amortized Knowledge
authors:
Alessandro B. Palmarini, Christopher G. Lucas, N. Siddharth
date:
31 May, 2024;

There and Back Again: A Netlist's Tale with Much Egraphin'
1. 与えられた論文は、何を目的としていますか？:
この論文では、ハードウェア設計と最適化のための様々な技術や手法を用いて、具体的にはループ再ローリング、標準ライブラリコンポーネントの識別、テクノロジーマッピングのスケーリング、および回路のリタイミングを通じて、効率的な状態空間探索とILP抽出を目指すことを目的としています。これらの手法を用いることで、ハードウェア設計の自動化と最適化を進め、より効率的で高性能なハードウェアの実現を目指しています。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、ハードウェア設計のコンパイルされた成果物やネットリストなどのデータを用いています。また、等価性飽和（equality saturation）という技術を利用して、異なるデザインの意味的に等価なバージョンを探索し、最適な標準ライブラリコンポーネントを抽出するためのデータを利用しています。さらに、プログラム合成やILP（整数線形プログラミング）を用いたデータも参照しています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、等価性飽和を用いたハードウェア設計の最適化と自動化にあります。具体的には、標準ライブラリコンポーネントの効率的な識別、ループの再ローリング、テクノロジーマッピングのスケーリング、および回路のリタイミングという複数の領域にわたる問題を解決しています。これにより、ハードウェア設計のプロセスを自動化し、最適化することが可能になり、設計の効率と性能が向上します。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
将来的には、より大規模なハードウェアデザインに対するスケーラビリティの向上、さらに複雑なハードウェア構造での最適化、そしてプログラム合成技術の精度と効率の向上が求められます。また、新しいハードウェアプリミティブへの対応や、異なる種類のハードウェア設計課題に対する適用拡大も重要な未解決問題です。これらの問題に取り組むことで、ハードウェア設計の自動化と最適化の技術はさらに進化し、より広範な応用が可能になるでしょう。
url:
https://arxiv.org/abs/2404.00786
title:
There and Back Again: A Netlist's Tale with Much Egraphin'
authors:
Gus Henry Smith, Zachary D. Sisco, Thanawat Techaumnuaiwit, Jingtao Xia, Vishal Canumalla, Andrew Cheung, Zachary Tatlock, Chandrakana Nandi, Jonathan Balkind
date:
31 March, 2024;

CONSTRUCT: A Program Synthesis Approach for Reconstructing Control Algorithms from Embedded System Binaries in Cyber-Physical Systems
1. 与えられた論文の目的:
この研究は、産業用サイバー物理システム（CPS）に実装された制御アルゴリズムの数学的表現を自動的に合成する新しいアプローチを紹介しています。生成されたモデルは、専門家がシステムの期待される振る舞いとの適合を評価し、さまざまな法医学的用途に使用することができます。
2. 使用されたデータや情報:
このアプローチでは、コントローラのバイナリファイルを逆コンパイルして数学的表現のスケッチを作成し、その後、作成された表現の正しい意味論、すなわち制御法則を見つけるために進化ベースの検索を実行します。具体的なデータとしては、FMU（Functional Mock-up Unit）から取得したコントローラのバイナリとI/O変数に関するテキスト記述が用いられます。
3. 新規性や解決できた問題:
このアプローチの新規性は、バイナリから直接数学的表現を合成することで、専門家が手動で行う複雑で時間がかかる作業を自動化する点にあります。これにより、システムの挙動を容易に分析し、期待される挙動からの逸脱を識別し、損傷を引き起こす脅威を避けることができます。
4. 未解決問題:
将来の研究では、モデル合成をより効率的にするために、制約ベースのソルバー、例えばSMTソルバーの有用性を評価することに興味があります。これにより、さらに精度の高い数学的表現の生成が可能になる可能性があります。
url:
https://arxiv.org/abs/2308.00250
title:
CONSTRUCT: A Program Synthesis Approach for Reconstructing Control Algorithms from Embedded System Binaries in Cyber-Physical Systems
authors:
Ali Shokri, Alexandre Perez, Souma Chowdhury, Chen Zeng, Gerald Kaloor, Ion Matei, Peter-Patel Schneider, Akshith Gunasekaran, Shantanu Rane
date:
31 July, 2023;

Demystifying and Assessing Code Understandability in Java Decompilation
1. 与えられた論文の目的:
この研究の主な目的は、Javaのデコンパイラの理解可能性に関する問題を評価し、異なるメトリクスを使用してデコンパイルされたコードと元のソースコードの理解可能性の違いを調査することです。具体的には、Cognitive ComplexityとPerplexityという二つのメトリクスを用いて、デコンパイルされたコードの理解可能性を評価し、元のソースコードとの比較を行います。
2. 使用されたデータや情報:
この研究では、実際のJavaプロジェクトから抽出された2041のJavaファイルを使用しています。これらのファイルは、CFR、Fernflower、Jadxといった複数のJavaデコンパイラを使用してデコンパイルされ、その後、理解可能性の評価のためにアノテーションが施されました。デコンパイルされたファイルと元のファイルのCognitive Complexityスコアを計算し、理解可能性の違いを分析するために使用されました。
3. 新規性や解決できた問題:
この研究の新規性は、デコンパイルされたJavaコードの理解可能性を定量的に評価するために、Cognitive ComplexityとPerplexityという二つの異なるメトリクスを使用した点にあります。これにより、デコンパイラが生成するコードの構造的な整合性や理解可能性をより詳細に分析することが可能となりました。また、デコンパイルされたコードが元のコードよりも理解可能性が高い、または低いという具体的な事例を明らかにし、その原因を探求することができました。
4. 未解決問題:
将来的には、デコンパイラが生成するコードの理解可能性をさらに向上させるための具体的な改善策を開発することが求められます。また、異なるプログラミング言語や異なる種類のソフトウェアプロジェクトにおいて、デコンパイルされたコードの理解可能性を評価するための研究を拡張することも重要です。さらに、デコンパイラのアルゴリズムを改善することで、より効率的で正確なデコンパイルが可能になるような研究も必要です。
url:
https://arxiv.org/abs/2409.20343
title:
Demystifying and Assessing Code Understandability in Java Decompilation
authors:
Ruixin Qin, Yifan Xiong, Yifei Lu, Minxue Pan
date:
30 September, 2024;

Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement
1. 与えられた論文の目的:
与えられた論文、特にSelf-Constructed Context Decompilation (sc2dec) の目的は、逆コンパイルモデルの性能を向上させることです。この方法は、逆コンパイルされたコードを再コンパイルしてコンテキストを構築し、そのコンテキストを使用して初期のアセンブリコードを再度逆コンパイルすることにより、より精確なソースコードの生成を目指します。
2. 使用されたデータや情報:
この方法では、初期の逆コンパイル結果から生成されたC言語のコードとそれに対応するアセンブリコードを使用しています。これらのコードは、逆コンパイルプロセスを通じて再び使用され、より正確な逆コンパイルのためのコンテキストとして機能します。
3. 新規性や解決された問題:
sc2decメソッドの新規性は、逆コンパイルされたコードを利用して自己構築されたコンテキストを生成し、そのコンテキストを用いて再逆コンパイルを行う点にあります。これにより、単一の逆コンパイルプロセスよりも正確なソースコードの復元が可能になります。また、この方法は、逆コンパイルの精度を向上させることで、より信頼性の高いソフトウェア解析が可能になるという問題を解決しています。
4. 未解決の問題:
今後取り組むべき未解決の問題としては、さまざまなプログラミング言語や異なるアセンブリ言語に対応するための方法の適用性の拡大が挙げられます。また、より複雑なコード構造や最適化されたコードに対する逆コンパイルの精度をさらに向上させることも重要な課題です。
url:
https://arxiv.org/abs/2406.17233
title:
Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement
authors:
Yunlong Feng, Dechuan Teng, Yang Xu, Honglin Mu, Xiao Xu, Libo Qin, Qingfu Zhu, Wanxiang Che
date:
3 October, 2024;

Boosting Neural Networks to Decompile Optimized Binaries
1. 与えられた論文の目的:
この論文は、低レベルプログラム言語（LPL、例えばバイナリファイル）をその機能的に等価な高レベルプログラム言語（HPL、例えばC/C++）に変換するデコンパイルプロセスを改善することを目的としています。具体的には、コンパイラによって最適化されたバイナリを対象とする新しい学習ベースのアプローチ「NeurDP」を提案し、デコンパイルの精度を向上させることを目指しています。
2. 用いられたデータや情報:
NeurDPは、グラフニューラルネットワーク（GNN）モデルを使用してLPLを中間表現（IR）に変換し、ソースコードと最適化されたバイナリとのギャップを埋めます。さらに、関数をより小さなコード断片に分割する「最適化翻訳ユニット（OTU）」を設計し、翻訳パフォーマンスを向上させるためのデータセットを用いて評価が行われました。
3. 新規性や解決できた問題:
この研究の新規性は、コンパイラによって最適化されたバイナリを対象とした点にあります。従来の学習ベースのデコンパイラは、最適化されたバイナリをうまく扱うことができなかったため、実世界のバイナリに対する実用性が限られていました。NeurDPは、最適化されたバイナリに対して45.21%高い精度でデコンパイルを行うことができ、この問題を解決しました。
4. 未解決問題:
将来的には、さらに多様なタイプの最適化バイナリや、異なるコンパイラやアーキテクチャに対する適応性を高める必要があります。また、デコンパイルプロセスの自動化と精度向上をさらに進めるための研究が求められています。
url:
https://arxiv.org/abs/2301.00969
title:
Boosting Neural Networks to Decompile Optimized Binaries
authors:
Ying Cao, Ruigang Liang, Kai Chen, Peiwei Hu
date:
3 January, 2023;

Neural Decompiling of Tracr Transformers
1. 与えられた論文の目的:
この研究の主な目的は、トランスフォーマーベースのモデルの解釈可能性を向上させることです。具体的には、トランスフォーマーの重みと対応するRASPプログラムのペアからなる大規模なデータセットを生成し、このデータセットを基にモデルを構築・訓練して、コンパイルされたモデルからRASPコードを回復することを目指しています。
2. 使用されたデータや情報:
この研究では、トランスフォーマーの重みとそれに対応するRASPプログラムのペアからなる大規模なデータセットを使用しています。これにより、デコンパイラモデルがトランスフォーマーの重みからRASPコードを解釈・再構築する能力を訓練・評価することが可能になります。
3. 新規性や解決できた問題:
この研究の新規性は、トランスフォーマーモデルの重みを直接RASPプログラムにデコンパイルする方法を提案している点にあります。これにより、トランスフォーマーモデルの解釈可能性が向上し、モデルの動作理解やデバッグが容易になる可能性があります。実験評価では、テストオブジェクトの30%以上で正確な再現が達成され、70%以上のプログラムが基準となる真実のプログラムと機能的に等価であることが示されました。
4. 未解決の問題:
将来の研究課題としては、デコンパイラモデルの精度をさらに向上させること、特定の機能やバックドア、欺瞞的傾向などを検出する機能の追加、またトランスフォーマーのサブコンポーネントの分析などが挙げられます。これらの課題に取り組むことで、トランスフォーマーモデルの解釈可能性と信頼性をさらに高めることが期待されます。
url:
https://arxiv.org/abs/2410.00061
title:
Neural Decompiling of Tracr Transformers
authors:
Hannes Thurnherr, Kaspar Riesen
date:
29 September, 2024;

Is Function Similarity Over-Engineered? Building a Benchmark
1. 与えられた論文の目的:
この論文は、バイナリ関数の類似性検出（BFSD）問題に取り組んでいます。この問題は、リバースエンジニアリング、マルウェア分析、脆弱性検出など、多くのセキュリティアプリケーションに影響を与える困難な問題です。この論文では、実際のシナリオでのモデルのデプロイメントをよりよく反映する新しいベンチマークセット、REFuSe-BENCHを開発し、これを用いて既存のBFSDアプローチを超える結果を示すことを目的としています。
2. 使用されたデータや情報:
論文では、Assemblage, MOTIF, Common Libraries, Marcelli, BinaryCorpというさまざまなデータセットを使用しています。これらのデータセットは、一般的なバイナリ、マルウェア、Linuxや歴史的な比較のためのデータセットをカバーしています。また、論文では、これらのデータセットに対して複数のモデル（GNN, jTrans, BSim, Naïve Transformer, REFuSe）の性能を評価しています。
3. 新規性や解決できた問題:
この研究の新規性は、実際のシナリオにより近い条件下でBFSD問題に取り組むための新しいベンチマークセットREFuSe-BENCHを開発した点にあります。また、シンプルなCNNを用いたアプローチが、高価なドメイン特有の特徴抽出器を使用する現在の手法よりも優れた結果を示したことも大きな貢献です。さらに、ラベリングスキームの違いが結果に与える影響を明らかにし、関数の類似性を定義するための標準を提案することの重要性を強調しています。
4. 未解決問題:
論文によると、関数の類似性は二項ではなくスペクトルとして扱うべきであり、さまざまな要因が類似性の度合いに影響を与えるとしています。このため、MLのトレーニングと評価方法がこのニュアンスを完全に捉えることができていないと指摘しています。将来的には、より少ない労力でこれらの戦略を開発し、検証する方法を考案することが重要な開かれた問題です。また、ドメイン知識を効果的に活用する方法の開発も、長期的にはREFuSeを超える性能を発揮する可能性があるとして、今後の課題として挙げています。
url:
https://arxiv.org/abs/2410.22677
title:
Is Function Similarity Over-Engineered? Building a Benchmark
authors:
Rebecca Saul, Chang Liu, Noah Fleischmann, Richard Zak, Kristopher Micinski, Edward Raff, James Holt
date:
29 October, 2024;

Refining Decompiled C Code with Large Language Models
1. 与えられた論文は、何を目的としていますか？:
この論文では、デコンパイラの出力を修正し、標準的なC/C++コンパイラでコンパイル可能にすることを目的としています。具体的には、文法的なエラーや推論エラーを修正し、メモリエラーを検出して修正することにより、デコンパイルされたコードが正確に機能するようにすることが目標です。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、大規模言語モデル（LLM）、特にGPT-3.5を用いて、デコンパイラの出力の修正を行っています。また、IDA-ProというC/C++デコンパイラの出力を用い、これに対する静的および動的な修正プロセスを適用しています。さらに、コンパイラエラーメッセージや実行時のメモリエラーの情報も活用しています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、大規模言語モデルを用いてデコンパイラの出力を自動的に修正し、再コンパイル可能な形にする点にあります。これにより、手動での修正作業が必要なく、効率的かつ正確にデコンパイルされたコードを再利用できるようになります。また、メモリエラーを動的に検出し修正することで、実行時のエラーを減少させることができる点も重要な解決策です。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
将来的には、任意の機能エラーを検出し修正する技術の開発が必要です。現在のアプローチでは、主にメモリエラーに焦点を当てていますが、その他の種類の機能エラーも同様に重要です。また、異なるプログラミング言語に対するデコンパイラの出力を扱う汎用性の向上も課題として挙げられます。
url:
https://arxiv.org/abs/2310.06530
title:
Refining Decompiled C Code with Large Language Models
authors:
Wai Kin Wong, Huaijin Wang, Zongjie Li, Zhibo Liu, Shuai Wang, Qiyi Tang, Sen Nie, Shi Wu
date:
28 November, 2023;

Proving LTL Properties of Bitvector Programs and Decompiled Binaries (Extended)
1. 与えられた論文は、何を目的としていますか？:
与えられた論文は、バイナリリフティングと再コンパイルによって生成されたプログラムの検証を容易にするための技術的アプローチを提案することを目的としています。具体的には、コンテキストスイッチコードをシミュレートするコードから分離し、関数呼び出しでエミュレーション状態を渡すために追加される引数を簡素化し、ネストされた構造を持つエミュレーションを効率的に管理する方法を提案しています。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
論文では、リフティングされたバイナリコード、関数呼び出しの引数、エミュレーションの状態、およびプログラムの制御フローを解析するための技術的詳細が用いられています。また、検証プロセスの難しさを増す要因として、関数間のコンテキストスイッチやネストされたデータ構造の使用が挙げられています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、リフティングプロセスによって導入された複雑な引数やネストされた構造を簡素化し、検証プロセスを効率化する方法を提案している点にあります。具体的には、関数呼び出しの引数をグローバルデータ構造を指す単一のポインタに置き換えることや、エミュレーションの状態をより効率的に管理するための構造の平坦化が解決策として提案されています。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
未解決の問題として、提案された技術が実際の様々なバイナリフォーマットやプログラミング言語に対してどの程度適用可能かの検証が挙げられます。また、提案された方法が実際に検証プロセスをどの程度効率化できるか、さらなる実験や評価が必要です。さらに、エミュレーションの状態を管理するためのより高度なアルゴリズムの開発も求められるでしょう。
url:
https://arxiv.org/abs/2105.05159
title:
Proving LTL Properties of Bitvector Programs and Decompiled Binaries (Extended)
authors:
Yuandong Cyrus Liu, Chengbin Pang, Daniel Dietsch, Eric Koskinen, Ton-Chanh Le, Georgios Portokalidis, Jun Xu
date:
28 August, 2021;

Improving type information inferred by decompilers with supervised machine learning
1. 与えられた論文の目的:
与えられた論文の目的は、ストリップされたバイナリからデバッグ情報を予測することです。具体的には、バイナリ解析を通じて、プログラムの実行構造やデータの流れを理解し、元のソースコードに近い形での情報を再構築することを目指しています。
2. 使用されたデータや情報:
この研究では、機械学習モデルの訓練と評価のために、多数のバイナリファイルが使用されています。具体的には、異なるコンパイラや最適化オプションを用いて生成されたバイナリがデータセットとして用いられ、それらのバイナリから特徴を抽出し、モデルの学習に利用しています。
3. 新規性と解決された問題:
この研究の新規性は、ストリップされたバイナリからのデバッグ情報の予測にニューラルネットワークを用いる点にあります。従来の手法と比較して、より高い精度でデバッグ情報を復元できる可能性があります。解決された問題としては、バイナリの解析精度の向上と、解析プロセスの自動化が挙げられます。
4. 未解決問題:
未解決問題としては、異なるアーキテクチャや言語で書かれたバイナリに対する汎用性の向上、解析速度の向上、さらなる精度向上が必要です。また、実際のセキュリティ対策としての応用に向けた評価や、より複雑なバイナリ構造への対応も今後の課題となります。
url:
https://arxiv.org/abs/2101.08116
title:
Improving type information inferred by decompilers with supervised machine learning
authors:
Javier Escalada, Ted Scully, Francisco Ortin
date:
24 February, 2021;

Code Translation with Compiler Representations
1. 与えられた論文の目的:
与えられた論文は、異なるプログラミング言語間でのコード変換の効率と精度を向上させることを目的としています。具体的には、中間表現(IR)を使用して、ソースコードからIRへの変換、そしてIRから目的のプログラミング言語への逆変換を行うことで、言語間の翻訳の精度を高めることを目指しています。
2. 使用されたデータや情報:
この研究では、異なるプログラミング言語で書かれたソースコードとそれに対応する中間表現(IR)のデータセットを使用しています。具体的には、C++、Go、Java、Rustなどの言語で書かれたコードと、それらをIRに変換したデータを用いて、モデルの訓練と評価を行っています。
3. 新規性や解決できた問題:
この研究の新規性は、異なるプログラミング言語のIRを言語の「方言」と見なし、それぞれのIR方言から任意の言語への翻訳を可能にする点にあります。また、バックトランスレーションと監督翻訳の手法を組み合わせることで、言語間の翻訳精度を向上させることができました。これにより、異なる言語間でのコード変換の精度が向上し、より実用的なプログラミング言語の翻訳ツールの開発が進むことが期待されます。
4. 未解決の問題:
今後取り組むべき未解決問題としては、さらに多くのプログラミング言語に対応すること、翻訳の際の論文をより深く理解するためのモデルの改善、リアルタイムでの変換処理の高速化などが挙げられます。また、異なるプログラミングスタイルやライブラリに依存するコードに対する適応性を高めることも、今後の課題として重要です。
url:
https://arxiv.org/abs/2207.03578
title:
Code Translation with Compiler Representations
authors:
Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve
date:
24 April, 2023;

Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling
1. 与えられた論文の目的:
この研究の主な目的は、逆コンパイルされたバイナリコードから変数名を回復するための新しい手法を提案することです。具体的には、マスクされた言語モデリング、バイトペアエンコーディング、そしてトランスフォーマーやBERTなどのニューラルネットワークアーキテクチャを用いて、逆コンパイラの出力から意味的に有意義なコードを生成することを目指しています。
2. 用いられたデータや情報:
この研究では、DIREデータセットを使用しています。このデータセットは、3,195,962の逆コンパイルされたx86-64関数と、それらの対応する抽象構文木を含んでおり、逆コンパイルされた変数名とそれに対応する元のゴールドスタンダード名が注釈されています。データセットは、GithubからオープンソースのCコードをスクレイピングして作成されました。
3. 新規性や解決できた問題:
この研究の新規性は、制約付きマスク言語モデリング技術を用いてBERTモデルを微調整し、変数名のみを予測することにあります。これにより、従来の逆コンパイラが変数名を回復できなかった問題を解決しています。また、マスクトークンの数を予測する課題に対処するための後処理アルゴリズムも提案しています。
4. 未解決問題:
将来的には、より多様なバイナリコードや異なるプログラミング言語に対応するためのモデルの一般化を進める必要があります。また、モデルの予測精度をさらに向上させるための研究も必要です。さらに、実際の逆エンジニアリングの現場での使用に耐えうるロバスト性の向上も重要な課題です。
url:
https://arxiv.org/abs/2103.12801
title:
Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling
authors:
Pratyay Banerjee, Kuntal Kumar Pal, Fish Wang, Chitta Baral
date:
23 March, 2021;

Neural Machine Translation for Code Generation
1. 与えられた論文の目的:
与えられた論文は、プログラムコードの生成に関するニューラルマシン翻訳（NMT）の方法について議論し、様々な入力シナリオに基づいてコードを生成する方法をカタログ化し、それらの方法の限界と将来の研究方向性を探求することを目的としています。具体的には、自然言語の説明に基づくコード生成、低レベル表現（アセンブリやバイナリ）からのコード生成、ソースコードの部分表現からのコード補完や修復、異なるプログラミング言語間のコード翻訳などが含まれます。
2. 使用されたデータや情報:
この論文では、様々な入力表現、出力表現、モデルアーキテクチャ、最適化技術、データセット、評価方法に関する広範な文献調査が行われています。具体的なデータセット名や詳細な情報は文中で直接言及されていませんが、一般的には多岐にわたるプログラミング言語やアプリケーションドメインにわたる研究が引用されています。
3. 新規性や解決できた問題:
この論文の新規性は、ニューラルマシン翻訳技術を用いてプログラムコードの生成に応用する点にあります。特に、自然言語からのコード生成、アセンブリやバイナリからの逆コンパイル、ソースコードの部分的な入力からのコード補完や修復、異なるプログラミング言語間の翻訳といった多様なシナリオに対応しています。これにより、マルウェアの識別、プログラムの機能理解、プログラム比較など、セキュリティ研究者に役立つ可能性があります。
4. 未解決の問題:
将来の研究で取り組むべき未解決の問題としては、生成されたコードの品質の向上、より効果的なデータセットの開発、新しいモデルアーキテクチャの探求、異なるプログラミング言語やフレームワーク間での一般化能力の向上などが挙げられます。また、特定のアプリケーションドメイン内での重要な結果が他のドメインにどのように適用可能かの検討も重要です。
url:
https://arxiv.org/abs/2305.13504
title:
Neural Machine Translation for Code Generation
authors:
Dharma KC, Clayton T. Morrison
date:
22 May, 2023;

Semantics-Recovering Decompilation through Neural Machine Translation
1. 目的:
この論文は、低レベルのプログラム言語（例えば、バイナリコード）から高レベルのプログラム言語（例えば、C/C++）への変換を行うデコンパイル技術に関して、ニューラルネットワークを用いた新しいアプローチを提案しています。具体的には、低レベルのコードから高レベルのコードへの翻訳を効果的に行い、意味的情報（例えば、意味のある変数名）を復元し、読みやすく理解しやすい高レベルのプログラム言語を生成することを目的としています。
2. 使用したデータや情報:
この研究では、ニューラルマシン翻訳（NMT）モデルを用いて、低レベルのプログラム言語コード（アセンブリ言語など）と高レベルのプログラム言語コード（C/C++など）のペアを翻訳データとして使用しています。これにより、モデルが低レベルのコードから高レベルのコードへの変換ルールを学習するための基盤を提供しています。
3. 新規性と解決した問題:
この研究の新規性は、従来の手作業によるルールベースのデコンパイル技術とは異なり、ニューラルネットワークを活用して自動的に低レベルのコードから高レベルのコードへの変換を行う点にあります。また、ニューラルネットワークを用いることで、単に機能的に似た高レベルのPLを復元するだけでなく、意味的情報も回復することが可能になり、読みやすさと理解しやすさを大幅に向上させています。
4. 未解決問題:
論文では、コンパイラによって最適化されたコードの翻訳性能が低いという問題が挙げられています。また、高レベルのPLスケッチ翻訳と意味情報の回復を独立したモデルで行っているため、これら二つのコアエンジンの融合が今後の課題とされています。この点を改善することで、さらに翻訳の精度を高め、より実用的なデコンパイラを開発することが可能になるでしょう。
url:
https://arxiv.org/abs/2112.15491
title:
Semantics-Recovering Decompilation through Neural Machine Translation
authors:
Ruigang Liang, Ying Cao, Peiwei Hu, Jinwen He, Kai Chen
date:
22 December, 2021;

LLM4Decompile: Decompiling Binary Code with Large Language Models
1. 与えられた論文は、何を目的としていますか？:
与えられた論文の主な目的は、大規模な言語モデル（LLM）を使用してバイナリファイルの逆コンパイルの能力を向上させることです。具体的には、End2end-DecompileとRefined-Decompileという二つのアプローチを最適化し、LLM4Decompileシリーズを通じて、逆コンパイルの精度と効率を向上させることを目指しています。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、ソースコード（SRC）からアセンブリコード（ASM）への変換、そしてバイナリコードへの変換というコンパイルプロセスを経て、その後逆コンパイルプロセスを通じて再びソースコードへと変換する一連のプロセスを用いています。また、ExeBenchの実行可能なサンプルとテストセットを使用して、モデルの再実行可能性と編集類似性を評価しています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、LLMを用いて直接バイナリファイルを逆コンパイルするEnd2end-Decompileアプローチと、既存の逆コンパイルツールの結果を改善するRefined-Decompileアプローチを最適化することにあります。これにより、逆コンパイルの精度と効率が向上し、特に大規模なソースコードや高度に最適化されたコードの逆コンパイルが可能になりました。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
未解決の問題としては、より複雑で多様なバイナリファイルに対する逆コンパイルの精度をさらに向上させること、逆コンパイルプロセス中に失われがちなユーザ定義型やデータ構造を正確に復元する技術の開発、そして逆コンパイルされたコードの実行可能性を確保するためのより効果的な手法の開発が挙げられます。
url:
https://arxiv.org/abs/2403.05286
title:
LLM4Decompile: Decompiling Binary Code with Large Language Models
authors:
Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang
date:
21 October, 2024;

Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning
1. 与えられた論文は、何を目的としていますか？:
与えられた論文は、アセンブリコードの理解と表現を改善するための新しい手法やモデルを開発することを目的としています。特に、アセンブリコードの機能性と最適化の違いを区別し、その意味をより効果的にエンコードするための対照的学習技術を取り入れています。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、アセンブリコードのサンプルや、それに関連するソースコードのサンプルを用いています。また、機能性対照学習（Functionality Contrastive Learning）と最適化対照学習（Optimization Contrastive Learning）を行うための、異なる最適化レベルでコンパイルされたアセンブリコードのデータセットが使用されています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、アセンブリコードの機能性と最適化の違いを識別するために対照的学習を用いる点にあります。これにより、同じ機能を持つコードが異なる最適化レベルであっても、類似した方法でエンコードされるように学習することができます。これは、アセンブリコードの意味理解を深め、より正確なプログラム解析やバイナリ解析が可能になるという問題を解決しています。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
未解決の問題としては、さらに多様なアセンブリコードや、より複雑なコード構造に対応するためのモデルの拡張が挙げられます。また、実際のアプリケーションにおける効率性やスケーラビリティの向上、異なるプログラミング言語やアーキテクチャに対する適応性の向上も重要な課題です。さらに、モデルの解釈性や説明可能性を高める研究も求められています。
url:
https://arxiv.org/abs/2311.13721
title:
Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning
authors:
Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang, Petr Babkin
date:
21 October, 2024;

MAD: Move AI Decompiler to Improve Transparency and Auditability on Non-Open-Source Blockchain Smart Contract
1. 与えられた論文の目的:
この研究の目的は、非オープンソースのブロックチェーンスマートコントラクトの透明性と監査可能性を向上させるために、Move AI Decompiler（MAD）を開発し、評価することです。MADは、元のソースコードに非常に似たスマートコントラクトコードを生成し、読みやすく監査に適したものにすることを目指しています。
2. 使用されたデータや情報:
この研究では、Revela DecompilerとMove Disassemblerの出力を活用し、大規模言語モデル（LLM）にフィードするためのプロンプトエンジニアリング技術を用いています。また、NASA-TLXスコアを用いて、異なるコードバージョン（Revela、MAD、ソースコード）の認知的負荷を評価し、一方向分散分析（ANOVA）とTukeyのHSDポストホックテストを実施しています。
3. 新規性および解決された問題:
MADは、非オープンソースのスマートコントラクトのコードを人間が読みやすい形式で再コンパイル可能なコードに逆コンパイルする能力を持っています。これにより、開発者や監査者がコードをより容易に理解し、潜在的な脆弱性やバグを特定できるようになります。特に、MADはRevelaに比べて認知的負荷が低く、読みやすさと監査のしやすさが向上しています。
4. 未解決の問題:
未解決の問題として、MADを使用してもなお、ユーザーはスマートコントラクトコード内の脆弱性を効果的に特定するために追加の時間や支援が必要であることが挙げられます。また、MADの潜在的な誤用に関する懸念も残っており、これには技術的な解決策やガイドラインの開発が必要です。さらに、大規模言語モデルのトレーニングデータに関する制限や、コードの正確な逆コンパイルを保証するための改善が求められています。
url:
https://arxiv.org/abs/2410.15275
title:
MAD: Move AI Decompiler to Improve Transparency and Auditability on Non-Open-Source Blockchain Smart Contract
authors:
Eason Chen, Xinyi Tang, Zimo Xiao, Chuangji Li, Shizhuo Li, Wu Tingguan, Siyun Wang, Kostas Kryptos Chalkias
date:
20 October, 2024;

STRIDE: Simple Type Recognition In Decompiled Executables
1. 目的:
この論文では、逆コンパイルされた実行可能ファイルから変数の型や名前を推測するためのアプローチを提案しています。具体的には、N-gramを使用して変数の使用シグネチャをモデル化し、訓練データに基づいて変数の型や名前を推定するシステム「STRIDE」を開発しています。
2. 使用したデータや情報:
この研究では、逆コンパイルされたコードから生成されたトークン列を用いています。これには、変数が登場する前後のトークンのN-gramを考慮し、訓練データに存在する類似のN-gramと比較して変数の型や名前を推定します。また、DIRTとDIREというベンチマークデータセットを使用し、他の最先端モデルとの比較評価も行っています。
3. 新規性と解決した問題:
STRIDEは、人間の逆エンジニアが変数の型推論や名前変更問題に取り組む方法を模倣するシンプルな非ニューラルシステムです。このアプローチは、N-gramを使用して変数の使用コンテキストを捉え、訓練データに基づいて変数の型や名前を推測することで、高速かつ低コストでありながら最先端のトランスフォーマーモデルと同等またはそれ以上の性能を達成しています。これにより、大規模なニューラルモデルへの依存を減らすことができます。
4. 未解決の問題:
STRIDEは高い性能を示していますが、最適化レベルが高いコードではトークンの一貫性が低下するため、予測精度が低下する可能性があります。また、異なるデコンパイラやバイナリの最適化レベルによって結果が異なる可能性があるため、さらなる一般化とロバスト性の向上が今後の課題です。
url:
https://arxiv.org/abs/2407.02733
title:
STRIDE: Simple Type Recognition In Decompiled Executables
authors:
Harrison Green, Edward J. Schwartz, Claire Le Goues, Bogdan Vasilescu
date:
2 July, 2024;

Pop Quiz! Can a Large Language Model Help With Reverse Engineering?
1. 与えられた論文の目的:
この論文では、大規模言語モデル（LLM）を使用して、コードスニペットから情報を抽出し、リバースエンジニアリングの課題にどのように対処できるかを評価することを目的としています。特に、OpenAIのcode-davinci-001モデルを用いて、変数名や関数名をランダムな文字列に変更したり、gccとGhidraを使用してコンパイルおよび逆コンパイルを行うことで、リバースエンジニアリングが直面する課題を模倣しています。
2. 使用されたデータや情報:
この研究では、特定のコードスニペットと、それに関連する質問と回答のセットを使用しています。コードスニペットには、ファイルを削除するサーバーのコードや、クライアントからディレクトリを受け取ってファイルを削除する機能などが含まれています。また、コードの機能や変数に関する質問が用意され、LLMがそれにどのように答えるかを評価しています。
3. 新規性や解決できた問題:
この研究の新規性は、LLMがソースコードの概要を理解し、リバースエンジニアリングの支援が可能であるという仮説を検証することにあります。実際に、LLMは正確な回答を生成する能力を持っていることが示されましたが、一部の回答は高温度設定で意味不明なものもありました。これにより、LLMのパラメータ設定を調整する必要があることが示唆されています。
4. 未解決問題:
今後の課題として、コードのランダム化が進んだ場合にLLMがどの程度正確に機能するかをさらに評価する必要があります。また、実際のリバースエンジニアリングプロセスにおいて、LLMがどのように役立つかを具体的なケーススタディを通じて検証することも重要です。さらに、プロンプトエンジニアリングのベストプラクティスを開発し、LLMの応答を改善するための方法を探ることも求められています。
url:
https://arxiv.org/abs/2202.01142
title:
Pop Quiz! Can a Large Language Model Help With Reverse Engineering?
authors:
Hammond Pearce, Benjamin Tan, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Brendan Dolan-Gavitt
date:
2 February, 2022;

Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary
1. 与えられた論文の目的:
与えられた論文では、逆コンパイルされたコードから変数名を予測するAIアシスタントの評価が目的です。具体的には、予測された変数名がプログラムの論文や変数の意味にどれだけ適合しているかを評価することに焦点を当てています。
2. 使用されたデータや情報:
この研究では、逆コンパイルされたプログラムコードと、それに対応する正確な（グラウンドトゥルース）変数名が含まれています。また、AIアシスタントによって予測された変数名も使用されており、これらの名前の品質を評価するためにGPT4を用いた評価が行われています。
3. 新規性や解決された問題:
この研究の新規性は、逆コンパイルされたコードにおける変数名の予測という点にあります。従来の手法と比較して、論文を考慮した予測が可能なモデルを開発し、それを用いて変数名がプログラムの意味や論文にどれだけ適合しているかを評価する方法を提案しています。これにより、逆コンパイルコードの理解が向上し、より効果的なプログラム解析が可能になることが期待されます。
4. 未解決の問題:
今後の課題としては、さらに多様なプログラム言語や複雑なコード構造に対応できるモデルの開発が挙げられます。また、予測された変数名がプログラム全体の論文にどのように影響を与えるかを評価するためのより詳細なメトリクスの開発も必要です。さらに、モデルの一般化能力を向上させるための研究も重要です。
url:
https://arxiv.org/abs/2306.02546
title:
Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary
authors:
Xiangzhe Xu, Zhuo Zhang, Zian Su, Ziyang Huang, Shiwei Feng, Yapeng Ye, Nan Jiang, Danning Xie, Siyuan Cheng, Lin Tan, Xiangyu Zhang
date:
19 July, 2024;

STAN: Towards Describing Bytecodes of Smart Contract
1. 目的:
この研究は、開発者によって書かれたアノテーションとSTANによって生成された説明の読みやすさを評価し、比較することを目的としています。特に、開発者のアノテーションとSTANによる説明の読みやすさの違いを統計的に分析し、STANがより読みやすい説明を生成することを示しています。
2. 使用データ:
評価には合計340件の評価レスポンスが使用されました。これには、10種類のインターフェースに対する34件の完全なアンケートが含まれています。また、開発者によるアノテーションとSTANによる説明の読みやすさを比較するために、非パラメトリックテスト（Kolmogorov-Smirnov ZテストとMann-Whitney Uテスト）が使用されました。
3. 新規性と解決した問題:
この研究の新規性は、STANというツールを用いて自動生成された説明の読みやすさが、従来の開発者による手書きのアノテーションよりも優れていることを統計的に証明した点にあります。具体的には、STANによる説明は96.5%のレスポンスで「非常に読みやすい」と評価され、開発者のアノテーションは72.9%のレスポンスで「非常に読みにくい」と評価されました。これにより、STANが開発者のアノテーションよりも優れた読みやすさを提供することが示されました。
4. 未解決問題:
将来の研究では、より多くのデータセットを用いたSTANのパフォーマンスの向上、より高速な静的解析技術の採用、Ethereumの共通語縮約をStanfordパーサーのルールライブラリに追加することでSWUM分析を改善することが挙げられます。これにより、STANの機能性をさらに向上させることが期待されます。
url:
https://arxiv.org/abs/2007.09696
title:
STAN: Towards Describing Bytecodes of Smart Contract
authors:
Xiaoqi Li, Ting Chen, Xiapu Luo, Tao Zhang, Le Yu, Zhou Xu
date:
19 July, 2020;

The Incredible Shrinking Context... in a decompiler near you
1. 与えられた論文の目的:
与えられた論文は、スマートコントラクトのデコンパイル、特にEthereumバイトコードからの制御フローグラフの正確な計算に関する研究を目的としています。これにより、スマートコントラクトのセキュリティ解析や最適化が可能になり、より効率的かつ安全なブロックチェーン技術の実現を目指しています。
2. 使用されたデータや情報:
この研究では、Ethereumのバイトコード、静的解析技術、機械学習手法、そしてDatalogなどの論理プログラミング言語を用いた解析手法が使用されています。これらの技術を組み合わせることで、スマートコントラクトの動作をより深く理解し、その構造を詳細に把握することができます。
3. 新規性と解決された問題:
この研究の新規性は、スマートコントラクトのデコンパイルと解析において、従来の手法に比べて高い精度とスケーラビリティを実現することにあります。具体的には、シュリンキングコンテキスト感度という新しいアプローチを用いて、関数呼び出しや戻り値のマッチングを試み、これにより解析の精度を向上させています。また、大規模なリアルワールドプログラムに対しても効率良く適用可能な点が挙げられます。
4. 未解決問題:
将来的には、更に多くのスマートコントラクトプラットフォームや、異なるプログラミングパラダイムにおけるスマートコントラクトに対応する必要があります。また、デコンパイルプロセスの自動化と最適化を進めることで、より広範なスマートコントラクトのセキュリティ監査や最適化が可能になるため、これらの領域での研究開発が求められています。さらに、高度な攻撃手法に対する耐性を持つスマートコントラクトの設計と検証のための新しいツールやフレームワークの開発も重要な課題です。
url:
https://arxiv.org/abs/2409.11157
title:
The Incredible Shrinking Context... in a decompiler near you
authors:
Sifis Lagouvardos, Yannis Bollanos, Neville Grech, Yannis Smaragdakis
date:
17 September, 2024;

Beyond the C: Retargetable Decompilation using Neural Machine Translation
1. 与えられた論文の目的:
この論文では、デコンパイルプロセスを逆転させる問題、つまりデコンパイルの問題に取り組んでいます。デコンパイルは、コンピュータソフトウェアのリバースエンジニアリングにおいて重要なツールであり、マルウェア分析、セキュリティ監査、レガシーコードの再エンジニアリングなどのユースケースをサポートします。伝統的なデコンパイラは高い開発コストがかかるため、この研究では機械学習技術を活用してデコンパイルプロセスを自動化し、新しい言語への適応が容易なデコンパイラを構築することを目指しています。
2. 使用されたデータや情報:
この研究では、ソースコードとアセンブリコードのペアをトレーニングデータとして使用しています。具体的には、プログラムのソースコードをコードリポジトリから取得し、それをアセンブリにコンパイルし、そのアセンブリとソースコードの関数ペアを生成しています。このペアを用いてモデルをトレーニングし、デコンパイルプロセスを自動化することを試みています。
3. 新規性や解決できた問題:
この研究の新規性は、特定のプログラミング言語やCPUアーキテクチャに依存しない一般的でシンプルなアプローチを採用している点にあります。従来のデコンパイラは言語固有の知識が必要でしたが、この研究ではソースコードとアセンブリコードを単なるテキスト列として扱い、ドメイン知識を排除することで、任意の言語に対してリターゲッティング可能なデコンパイラを実現しました。
4. 未解決問題:
この研究では、デコンパイルの質をさらに向上させるための課題が残されています。特に、大規模なデータセットに対するモデルの性能向上や、異なるプログラミング言語間でのデコンパイルの質の差異を解消するための研究が必要です。また、実際のコードに対する実用的なデコンパイルの適用可能性を高めるための研究も引き続き求められています。
url:
https://arxiv.org/abs/2212.08950
title:
Beyond the C: Retargetable Decompilation using Neural Machine Translation
authors:
Iman Hosseini, Brendan Dolan-Gavitt
date:
17 December, 2022;

Learning to Find Usages of Library Functions in Optimized Binaries
1. 与えられた論文の目的:
この研究は、ソフトウェアエンジニアリングにおいて、コンパイラの最適化レベルが異なる場合におけるライブラリ関数の回復能力について評価し、改善する方法を探求することを目的としています。特に、高度な最適化が施されたコードからの関数回復の精度を改善するために、機械学習技術を利用することに焦点を当てています。
2. 使用されたデータや情報:
この研究では、複数の最適化レベルでコンパイルされたソースコードから生成されたバイナリファイルを用いています。具体的には、GhidraとHex-Raysというデコンパイラを使用して、これらのバイナリからの関数回復の試みが行われました。また、機械学習モデルの訓練には、Ghidraによって生成された擬似Cコードの大規模なデータセットが使用されています。
3. 新規性および解決された問題:
この研究の新規性は、特に高い最適化レベルでコンパイルされたコードに対しても、ライブラリ関数の回復精度を向上させることができる点にあります。従来のデコンパイラやヒューリスティック手法では難しいとされていた高度な最適化されたコードからの関数回復を、機械学習を用いて改善するアプローチを提案し、一定の成果を上げています。
4. 未解決の問題として残されていること:
最適化レベルが異なる環境下での一貫した高精度の関数回復を実現すること、特に最も高い最適化レベル（Ofレベル）での精度向上が挙げられます。また、異なるプロジェクト間での一般化能力の向上、すなわちモデルが特定のデータセットに過剰適合しないようにすることも今後の課題です。さらに、デコンパイルされたコードの自然なCコードへの変換精度を向上させることも重要な課題とされています。
url:
https://arxiv.org/abs/2103.05221
title:
Learning to Find Usages of Library Functions in Optimized Binaries
authors:
Toufique Ahmed, Premkumar Devanbu, Anand Ashok Sawant
date:
16 September, 2021;

A method for decompilation of AMD GCN kernels to OpenCL
1. 与えられた論文の目的:
この研究の目的は、AMD GPUのアセンブリコードをOpenCLプログラミング言語にデコンパイルするデコンパイラーを開発することです。OpenCLは、GPGPU（汎用計算用グラフィックプロセッシングユニット）デバイス向けのプログラミングに広く使用されています。
2. 使用されたデータや情報:
この研究では、.configセクションからの情報やアセンブリ命令を用いてデータ型を復元しました。また、AMD GCN ISAの一部の命令セットに対応するため、特定のアセンブリ命令を解析し、それに基づいてOpenCLコードに変換する方法を開発しました。
3. 新規性や解決された問題:
この研究の新規性は、AMD GPUのアセンブリコードをOpenCLにデコンパイルするための具体的な手法とツールを提供したことにあります。これにより、ソースコードが失われた場合でもプログラムの分析や修正が可能になるため、プログラムのメンテナンスや最適化が容易になります。
4. 未解決の問題:
このデコンパイラはまだAMD GCN ISAの全命令セットをサポートしていないため、未サポートの命令がある場合は、その部分がアセンブリコードとしてそのまま残されます。将来的には、さらに多くの命令セットに対応し、より広範なデコンパイルを可能にする必要があります。また、インラインアセンブリがAMDGPU-Proドライバーによってサポートされていないため、この問題の解決も必要です。
url:
https://arxiv.org/abs/2107.07809
title:
A method for decompilation of AMD GCN kernels to OpenCL
authors:
K. I. Mihajlenko, M. A. Lukin, A. S. Stankevich
date:
16 July, 2021;

Learning C to x86 Translation: An Experiment in Neural Compilation
1. 与えられた論文は、何を目的としていますか？:
与えられた論文の目的は、シーケンス・トゥ・シーケンスのディープラーニングモデルを利用して、エンドツーエンドでコンパイルが可能かどうかを検証することです。具体的には、様々なサイズのTransformerモデルを使用し、異なる訓練データ、語彙サイズ、エポック数でのトレーニングを行い、その結果を評価することで、モデルの有効性を確認することを目指しています。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、複数のTransformerモデルサイズを用いて、同じデータセットを使用してトレーニングを行っています。ただし、異なる語彙を使用するモデルでは異なるトークンナイザーを使用し、データの半分を使用するモデルもあります。また、Adamオプティマイザーを用いてすべてのモデルをトレーニングしています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、大規模なTransformerモデルを用いて、プログラムコードのコンパイルをエンドツーエンドで学習させる点にあります。特に、異なるモデルサイズや訓練条件下でのシステマティックな評価を行うことで、どのモデルが最も効果的であるかを明らかにしました。また、IOの正確性（観測等価性）を最も重要な指標として評価し、実用に耐えうるモデルの開発につながる知見を提供しました。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
未解決の問題としては、モデルがまだ実際の使用には適していないこと、出力空間を制御できないこと、小規模な関数のみを扱っており全体のプログラムを対象にしていないことが挙げられます。今後の研究では、より多くのデータ、計算リソース、モデルパラメータを用いたスケーリング、ドメイン知識を翻訳スキームに組み込む方法の検討、ラベルなしコードを活用するための教師なし技術の研究が必要です。
url:
https://arxiv.org/abs/2108.07639
title:
Learning C to x86 Translation: An Experiment in Neural Compilation
authors:
Jordi Armengol-Estapé, Michael F. P. O'Boyle
date:
16 December, 2022;

Symbolic Synthesis of Clifford Circuits and Beyond
1. 目的:
与えられた論文では、量子コンピューティングにおけるパス和表現を用いたユニタリ回路の合成に焦点を当てています。特に、量子回路の合成、ユニタリテスト、およびクリフォード回路を超えた表現について議論しています。
2. 使用したデータや情報:
この論文では、量子コンピューティングの理論、特にパス和表現、クリフォード+Tゲート、ユニタリ変換、および量子回路の合成に関連する数学的な方程式や命題が使用されています。また、量子回路の合成の効率化に関する以前の研究結果も参照されています。
3. 新規性と解決できた問題:
論文によれば、パス和表現を用いて量子回路を合成する方法についての新しい理論的アプローチが提示されています。具体的には、ユニタリ変換を表すパス和がユニタリであるかどうかを判定する「ユニタリテスト問題」を定義し、これを解決する方法が提案されています。これにより、より効率的に量子回路を設計し、合成することが可能になります。
4. 未解決問題:
将来の課題としては、パス和表現を用いた量子回路合成の効率化が挙げられます。特に、大規模な量子回路に対する合成アルゴリズムの開発や、ユニタリテストの効率的な解決策のさらなる探求が必要です。また、非クリフォードゲートを含む量子回路の合成における課題も残されています。
url:
https://arxiv.org/abs/2204.14205
title:
Symbolic Synthesis of Clifford Circuits and Beyond
authors:
Matthew Amy, Owen Bennett-Gibbs, Neil J. Ross
date:
15 November, 2023;

SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly
1. 目的:
この論文では、アセンブリ言語のコードをより高レベルで人間が読みやすいC言語のコードに自動変換するデコンパイル技術の進化に焦点を当てています。具体的には、SLaDeという新しい小型言語モデルデコンパイラーを使用して、実世界のコードに基づいたデコンパイルの精度と可読性を向上させることを目的としています。
2. 使用データ・情報:
研究では、AnghaBenchとExeBenchという2つのデータセットを使用しています。AnghaBenchは、公開リポジトリから収集された約400万のC関数と、それに対応する関数レベルのアセンブリを含むデータセットです。ExeBenchは、異なる最適化レベルでのGCCから得られたアセンブリ-Cペアを含むデータセットです。
3. 新規性と解決できた問題:
SLaDeは、型推論エンジンを組み込んだシーケンス・トゥ・シーケンスのトランスフォーマーモデルを使用し、既存のアナリティックや他のニューラルアプローチと比較して、より読みやすく正確なコードを生成できる点が新規性です。また、SLaDeは外部の型や変数を推論する能力を持ち、これによりデコンパイルの正確性が向上しています。さらに、SLaDeは異なるISAとコード最適化レベルにわたって移植可能であるため、少ないエンジニアリング労力で広範囲に適用可能です。
4. 未解決問題:
SLaDeは高い精度と可読性を実現していますが、完全ではありません。特定のケースでは、関数の引数の型を誤って推論することがあります。また、最適化されたコードのデコンパイルにおいては、コンパイラの最適化によるコードの難読化が性能を低下させる可能性が指摘されています。これらの問題に対処し、さらに精度を向上させるための研究が今後必要です。
url:
https://arxiv.org/abs/2305.12520
title:
SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly
authors:
Jordi Armengol-Estapé, Jackson Woodruff, Chris Cummins, Michael F. P. O'Boyle
date:
15 February, 2024;

depyf: Open the Opaque Box of PyTorch Compiler for Machine Learning Researchers
1. 与えられた論文の目的:
与えられた論文では、多言語モデルを用いた少数ショット学習に関する研究が行われています。これは、少数のデータ点から効率的に学習し、多言語のテキストデータに対して高いパフォーマンスを達成するための手法を開発することを目指しています。
2. 使用されたデータや情報:
この研究では、多言語のテキストデータセットが使用されています。具体的なデータセットの名前や詳細は論文からは明らかではありませんが、通常は多様な言語とドメインをカバーする広範なテキストデータが利用されることが一般的です。
3. 新規性や解決できた問題:
この研究の新規性は、多言語に対応した少数ショット学習モデルの開発にあります。これにより、限られたデータしか利用できない言語やドメインにおいても、効果的な自然言語処理が可能になるという問題を解決しています。従来の多言語モデルと比較して、少ないデータで効率的に学習できる点が特に重要です。
4. 未解決の問題:
未解決の問題としては、さらにデータ効率を向上させる方法、より多くの言語やドメインに対応できるモデルの開発、実世界のアプリケーションにおける実用性の向上などが挙げられます。また、少数ショット学習モデルの解釈性や透明性を高めるための研究も重要です。
url:
https://arxiv.org/abs/2403.13839
title:
depyf: Open the Opaque Box of PyTorch Compiler for Machine Learning Researchers
authors:
Kaichao You, Runsheng Bai, Meng Cao, Jianmin Wang, Ion Stoica, Mingsheng Long
date:
14 March, 2024;

JaxDecompiler: Redefining Gradient-Informed Software Design
1. 与えられた論文の目的:
与えられた論文は、Jaxprという強く型付けされた言語を用いて、Pythonコードにデコンパイルするプロセスを改善することを目的としています。特に、Jaxprコードの理解、変更、そして使用を容易にするためのツールであるJaxDecompilerの開発とその機能に焦点を当てています。
2. 使用されたデータや情報:
この論文では、Jaxpr言語を使用して記述された様々な関数や演算子がデータとして使用されています。また、これらの関数や演算子をPythonコードに変換するための具体的な例が示されています。さらに、Jaxpr言語の特性や制限、そしてPythonへのデコンパイル後のパフォーマンス比較も重要な情報として扱われています。
3. 新規性や解決できた問題:
この論文の新規性は、Jaxpr言語からPython言語へのデコンパイルプロセスを自動化し、さらには最適化することにあります。JaxDecompilerは、Jaxprコードの自動解析と変換を行い、ユーザーが直接コードを変更することなくPythonで同等の機能を実行できるようにします。また、デコンパイルされたコードのパフォーマンスを向上させることも目指しており、特定のJaxpr演算子がPythonでどのように実装されるかを示すことで、コードの最適化にも貢献しています。
4. 未解決問題:
将来的な課題としては、さらなる演算子や関数のサポートの拡充が挙げられます。Jaxpr言語には多数の演算子や関数が存在し、それらすべてをカバーするには時間と労力が必要です。また、デコンパイルされたコードの実行効率をさらに向上させるための研究も必要です。さらに、異なるデータ型や複雑なデータ構造に対応するための改良も続ける必要があります。
url:
https://arxiv.org/abs/2403.10571
title:
JaxDecompiler: Redefining Gradient-Informed Software Design
authors:
Pierrick Pochelu
date:
14 March, 2024;

dewolf: Improving Decompilation by leveraging User Surveys
1. 目的:
この論文の主な目的は、decompilerの出力の理解性を評価し、ユーザーの好みに関する洞察を得るための調査を実施することです。特に、decompiler 'dewolf'の出力の有効性を評価し、その結果を他の既存のdecompilerと比較することを目指しています。
2. 使用したデータや情報:
この調査では、複数のdecompiler（dewolf、Hex-Rays、Ghidra）からの出力を比較するために、異なるコードスニペットが使用されました。参加者はこれらの出力を評価し、さまざまな基準（制御フロー構造など）に基づいてランキングしました。また、Ackermann関数の理解に関する質問や、特定のマルウェア関数の理解を評価するための質問が含まれていました。
3. 新規性と解決した問題:
この研究の新規性は、decompiler 'dewolf'が他のdecompilerと比較してどの程度競争力があるかを評価することにあります。また、decompilerの出力に対するユーザーの好みや要求を理解することも目的としています。調査の結果、dewolfは他のdecompilerと比較しても遜色ない結果を出し、特定の再構成技術においては他のdecompilerよりも優れていることが示されました。
4. 未解決の問題:
今後の課題としては、decompilerが生成する出力の読みやすさと正確性のバランスを取ることが挙げられます。また、ユーザーがdecompilerの設定をより柔軟に調整できるようにすることも重要です。さらに、複雑な表現や条件、変数名の扱いに関する問題に対処するための新しいアプローチの開発が求められています。
url:
https://arxiv.org/abs/2205.06719
title:
dewolf: Improving Decompilation by leveraging User Surveys
authors:
Steffen Enders, Eva-Maria C. Behner, Niklas Bergmann, Mariia Rybalka, Elmar Padilla, Er Xue Hui, Henry Low, Nicholas Sim
date:
13 May, 2022;

Extending Source Code Pre-Trained Language Models to Summarise Decompiled Binaries
1. 与えられた論文の目的:
この研究の主な目的は、逆コンパイルされたバイナリコードに対するコード要約の応用を探求することであり、ソースコードで事前に訓練された言語モデルを利用しています。特に、逆コンパイルされた関数とその要約のペアを含む新しいデータセット「CAPYBARA」を作成し、このデータセットを用いて事前訓練された言語モデル「CodeT5」をファインチューニングすることにより、バイナリ解析の自動化の新たな可能性を開拓しようとしています。
2. 使用されたデータや情報:
この研究では、GitHubから収集されたC言語のプロジェクトを基にした「BinSwarm」という既存のデータセットを使用しています。このデータセットは、逆コンパイルされた関数とストリップされた逆コンパイル関数を含んでおり、それらをソースコードと対応させています。さらに、ソースコードのドキュメントから関数の説明を抽出し、それを要約としてデータセットに追加しています。これにより、逆コンパイルされた関数とその要約のペアを含む新しいデータセット「CAPYBARA」を構築しています。
3. 新規性や解決された問題:
この研究の新規性は、逆コンパイルされたバイナリとソースコード要約を組み合わせた新しいデータセット「CAPYBARA」の作成にあります。これにより、バイナリコードの自動要約という、これまであまり探求されていなかった分野に対して、言語モデルの適用可能性を拡大しています。また、逆コンパイルされたコードの特性やデータセットの特性に関する実証的な調査を行い、言語モデルがソースコードからバイナリへと効果的にファインチューニングできることを示しています。
4. 未解決の問題:
逆コンパイルされた関数の識別子が失われる問題や、コンパイラの最適化レベルが逆コンパイルプロセスに与える影響など、バイナリ解析の精度を向上させるための課題が残されています。また、異なるプログラミング言語やバイナリ形式に対するモデルの適用性を拡大すること、さらに大規模なデータセットの構築や、より高度な言語モデルの開発も今後の研究で取り組むべき課題として挙げられます。
url:
https://arxiv.org/abs/2301.01701
title:
Extending Source Code Pre-Trained Language Models to Summarise Decompiled Binaries
authors:
Ali Al-Kaswan, Toufique Ahmed, Maliheh Izadi, Anand Ashok Sawant, Premkumar Devanbu, Arie van Deursen
date:
13 January, 2023;

VulCatch: Enhancing Binary Vulnerability Detection through CodeT5 Decompilation and KAN Advanced Feature Extraction
1. 目的:
この研究の主な目的は、バイナリコードの中に存在する既知および未知の複数のタイプの脆弱性を、現行の方法よりも正確かつ効率的に検出するシステムを開発することです。
2. 使用したデータや情報:
この研究では、CodeT5モデルを使用してバイナリコードを擬似コードに逆コンパイルし、IDAおよびカスタム分析（CA）、Ghidra分析、制御パス分析（CP）を通じて構造分析を行いました。また、メタデータと組み合わせて分析データを強化し、AST（抽象構文木）とPDG（プログラム依存グラフ）を生成し、それを入力としてBiLSTM-Residual-Attentionニューラルネットワークに供給しました。
3. 新規性や解決できた問題:
この研究の新規性は、高度な逆コンパイル技術と深層学習を組み合わせることにより、バイナリ脆弱性の検出精度と効率を向上させた点にあります。特に、Kolmogorov-Arnold Networks（KAN）を用いた特徴変換能力の向上や、BiLSTM、注意機構、残差接続を用いたリアルタイム脆弱性検出システムの開発が挙げられます。これにより、未知の脆弱性の検出や偽陽性率の低減が可能となりました。
4. 未解決問題:
将来的には、コンパイラの違いや関数内の無関係なコードによる変動性や偽陽性の問題に対処するための研究が必要です。また、新たな脆弱性パターンを理解するためのアプローチの開発や、異なる最適化レベルやシナリオでのモデルの堅牢性と適応性をさらに向上させることも課題として残されています。
url:
https://arxiv.org/abs/2408.07181
title:
VulCatch: Enhancing Binary Vulnerability Detection through CodeT5 Decompilation and KAN Advanced Feature Extraction
authors:
Abdulrahman Hamman Adama Chukkol, Senlin Luo, Kashif Sharif, Yunusa Haruna, Muhammad Muhammad Abdullahi
date:
13 August, 2024;

Augmenting Decompiler Output with Learned Variable Names and Types
1. 与えられた論文は、何を目的としていますか？:
与えられた論文は、逆コンパイルされたコード内の変数の型と名前を予測するための新しい深層学習ベースの技術、DIRTY（DecompIled variable ReTYper）を提示することを目的としています。この技術は、逆コンパイルの後処理ステップとして機能し、逆コンパイルされた関数を入力として受け取り、すべての変数の可能性のある名前と型を出力します。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
DIRTYの開発には、GitHubから採掘されたオープンソースのCコードを用いています。さらに、DWARFデバッグ情報から変数名と型をインポートする逆コンパイラの能力を利用して、逆コンパイルされた関数とそれに対応する元の名前と型を含む並列コーパスを作成しました。この大規模な採掘努力の副産物として、オープンソースコーパス全体で遭遇した型のライブラリも自動的にコンパイルされました。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
DIRTYは、セマンティック（意味的）およびシンタクティック（構文的）型の両方を回復でき、パディングを扱い、手動で定義された小さな型セットに限定されないという点で新規性があります。DIRTYは、変数のデータレイアウトを利用して再型付けの精度を向上させることができ、変数の名前変更と再型付けタスクを同時に扱うマルチタスクアーキテクチャを採用しています。これにより、これらのタスクが相互に利益を得ることができます。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
DIRTYの現在のデコーダーは、訓練中に見た型のみを予測できるという制限があります。未知の型への一般化は今後の改善の重要な機会を提供します。また、他の逆コンパイラとの互換性の検証や、さらに多くのデバッグ情報や型情報を効果的に統合する方法の開発も必要です。
url:
https://arxiv.org/abs/2108.06363
title:
Augmenting Decompiler Output with Learned Variable Names and Types
authors:
Qibin Chen, Jeremy Lacomis, Edward J. Schwartz, Claire Le Goues, Graham Neubig, Bogdan Vasilescu
date:
13 August, 2021;

A Novel Approach to Malicious Code Detection Using CNN-BiLSTM and Feature Fusion
1. 与えられた論文の目的:
この論文は静的マルウェア検出のためのモデルを構築することを目的としています。特に、画像テクスチャ特徴とオペコード特徴を組み合わせた融合特徴を用いて、CNN-BiLSTMモデルをトレーニングし、マルウェアの検出精度を向上させることを目指しています。
2. 使用されたデータや情報:
この研究では、グレースケール画像から抽出されたグローバルテクスチャ特徴とローカルテクスチャ特徴、そしてN-gramおよびtf-idfアルゴリズムを用いて抽出されたオペコード特徴が使用されています。これらの特徴は融合され、CNN-BiLSTMモデルの入力として使用されました。
3. 新規性や解決できた問題:
この研究の新規性は、画像テクスチャ特徴とオペコード特徴を融合することにより、マルウェアの振る舞いを多次元的に捉え、検出精度を向上させる点にあります。従来の単一特徴に基づくモデルと比較して、融合特徴を用いたモデルは、マルウェアのより包括的な表現を可能にし、高い精度での検出が可能となりました。
4. 未解決問題:
今後の課題としては、さらなる特徴融合の最適化や、新しいマルウェアの変異に対する適応性の向上が挙げられます。また、リアルタイムでの検出速度の向上や、さまざまな種類のマルウェアに対する汎用性の確保も重要なポイントです。これらの問題に対処することで、より効果的で実用的なマルウェア検出システムの開発が期待されます。
url:
https://arxiv.org/abs/2410.09401
title:
A Novel Approach to Malicious Code Detection Using CNN-BiLSTM and Feature Fusion
authors:
Lixia Zhang, Tianxu Liu, Kaihui Shen, Cheng Chen
date:
12 October, 2024;

Automatically Mitigating Vulnerabilities in Binary Programs via Partially Recompilable Decompilation
1. 目的:
この論文では、ソースコードが利用できない場合にバイナリからの部分的なデコンパイルと修正を行う手法（PRD）を提案し、実装しています。具体的には、バイナリの脆弱性を修正し、再コンパイル可能なコードを生成することを目的としています。
2. 使用データ・情報:
論文では、DARPA CGCデータセットからのバイナリ（Square_Rabbit）を使用しています。このバイナリはカジノ風ゲームであり、整数オーバーフローの脆弱性があります。また、このバイナリに関する100個の機能テストと1個のクラッシュを引き起こすテストが用いられています。
3. 新規性および解決した問題:
新規性としては、ソースコードが不要で、バイナリのみから部分的なデコンパイルと修正を行うPRD手法を開発した点が挙げられます。これにより、ソースコードが利用できない古いソフトウェアやサポートが終了したソフトウェアの脆弱性も修正可能になります。解決した問題は、バイナリから部分的にデコンパイルして修正を施し、再コンパイル可能な状態を作り出すことで、脆弱性を有効に修正できるようにしたことです。
4. 未解決問題:
完全なデコンパイルと修正の自動化がまだ完全には達成されていません。また、異なるアーキテクチャやプラットフォームに対する対応、さらに複雑なバイナリに対する効果的なデコンパイル手法の開発が今後の課題として挙げられます。さらに、生成されたコードの最適化や実行効率の向上も重要な課題です。
url:
https://arxiv.org/abs/2202.12336
title:
Automatically Mitigating Vulnerabilities in Binary Programs via Partially Recompilable Decompilation
authors:
Pemma Reiter, Hui Jun Tay, Westley Weimer, Adam Doupé, Ruoyu Wang, Stephanie Forrest
date:
12 June, 2023;

WaDec: Decompiling WebAssembly Using Large Language Model
1. 与えられた論文は、何を目的としていますか？:
与えられた論文では、WebAssembly（Wasm）をC言語のコードスニペットに逆コンパイルするためのアプローチとして、大規模言語モデル（LLM）を用いた新しい手法「WaDec」を提案しています。この手法は、Wasmのデコンパイルの効果を向上させるために特別なファインチューニングプロセスを利用しています。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、C言語からWasmバイナリにコンパイルされた3,977個のCファイルを含む評価データセットを使用しました。また、デコンパイルプロセスの効果を評価するために、AST編集距離の類似性（AED-S）、サイクロマティック複雑性、コサイン類似性などの複数の評価指標を用いています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
この研究の新規性は、WasmのデコンパイルにLLMを活用する点にあります。従来の静的解析ツールでは対処が困難だった問題、例えばコードの可読性の低下やコードの膨張、コードスニペットの取り扱いに関する問題を解決しています。また、LLMを用いることで、コードの論文や構造をより正確に理解し、高品質なC言語コードへと逆コンパイルすることが可能になりました。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
将来的には、LLMが生成する出力の安定性や、大規模なWasmスニペットに対する対応力をさらに向上させる必要があります。また、デコンパイルされたコードの再コンパイルや実行可能性の評価といった、実用的な応用における詳細な検証が求められます。これらの課題に対処することで、Wasmのデコンパイル技術の実用性と信頼性をさらに高めることができるでしょう。
url:
https://arxiv.org/abs/2406.11346
title:
WaDec: Decompiling WebAssembly Using Large Language Model
authors:
Xinyu She, Yanjie Zhao, Haoyu Wang
date:
11 September, 2024;

Proof Repair across Type Equivalences
1. 与えられた論文の目的:
与えられた論文は、型同値を用いた証明修復に関する研究であり、特定のプログラムや証明から新しい型に対する証明や関数を自動的に生成し、修復することを目的としています。このプロセスを通じて、型の変更や拡張が行われた際に、既存の証明や関数を新しい型に適応させることができるようにすることを目指しています。
2. 与えられた論文で用いたデータや情報:
この研究では、Coqという証明支援システムを使用しており、型の同値性を表現するために依存型や多相型などが用いられています。また、具体的な例として、リストから長さをインデックスとするベクターへの変換、構造体からレコードへの変換などが挙げられています。これらの型変換をサポートするために、Pumpkin P iというツールが開発され、型の修正や証明の自動修復を行うための様々な機能が提供されています。
3. 与えられた論文の新規性や解決できた問題:
この研究の新規性は、型の同値性を利用して異なる型間での証明の再利用を可能にする点にあります。特に、Pumpkin P iは型の変更を自動的に検出し、適切な証明変換を提案することで、証明の修復プロセスを自動化します。これにより、プログラムの保守や拡張が行われた際に、手動での証明の修正が必要なくなり、開発の効率化が図れます。
4. 将来取り組むべき未解決問題:
論文からは、依然として解決すべき課題として、より複雑な型変更や新しいプログラミング言語機能への対応が挙げられています。また、自動生成された証明や関数が開発者の意図するものであるかの検証、さらには証明の品質を保証するための追加的な機能の開発も重要です。これらの課題に取り組むことで、ツールの汎用性や信頼性が向上し、より広範なプログラミング環境での利用が可能になると考えられます。
url:
https://arxiv.org/abs/2010.00774
title:
Proof Repair across Type Equivalences
authors:
Talia Ringer, RanDair Porter, Nathaniel Yazdani, John Leo, Dan Grossman
date:
11 May, 2021;

REMaQE: Reverse Engineering Math Equations from Executables
1. 与えられた論文は、何を目的としていますか？:
この論文では、バイナリ実行可能ファイルから数学的方程式を逆エンジニアリングすることを目的としています。特に、REMaQEという手法を使用して、プログラムを数学的方程式として意味的に等価な形で表現し、バイナリ解析のためのよりリッチなセマンティック情報を提供することが目的です。
2. 与えられた論文では、どのようなデータや情報を用いましたか？:
この研究では、バイナリ実行可能ファイル、特に組込みシステムや制御デバイスからの実行ファイルを用いています。また、シンボリック実行とアルゴリズム的簡約化技術を利用して、これらのバイナリから数学的表現を抽出し、簡略化しています。
3. 与えられた論文の新規性や、解決できた問題は何ですか？:
REMaQEは、従来の逆コンパイル技術とは異なり、実装の詳細を洗練し、破棄することで、人間が理解しやすい数学記号と操作を使用して方程式を生成します。これにより、プログラムの意味的な理解が向上し、特にオブスキュレーションや難読化されたコードの解析において、より高いレベルのセマンティック情報を提供することができます。また、シンボリック実行を用いたセマンティックマッチングにより、特定の制御アルゴリズムが実装されているかどうかを判定する新しいアプローチを提供しています。
4. 将来取り組むべき未解決問題として、何が残されていますか？:
REMaQEは多くの問題を解決していますが、パラメータがスタック、グローバルメモリ、またはポインタを通じてアクセスされる関数の解析がまだ完全ではありません。さらに、条件ロジックから生じる長く複雑なシンボリック表現の簡略化も課題として残っています。これらの問題に対処するために、より洗練されたシンボリック実行の技術や、条件表現の簡略化技術の改善が必要です。
url:
https://arxiv.org/abs/2305.06902
title:
REMaQE: Reverse Engineering Math Equations from Executables
authors:
Meet Udeshi, Prashanth Krishnamurthy, Hammond Pearce, Ramesh Karri, Farshad Khorrami
date:
11 April, 2024;

この記事が気に入ったらサポートをしてみませんか？